CÁMARAS INTELIGENTES PARA SISTEMAS DE SUPERVISIÓN
JOSSELINE A. VIELMA B.
E-Mail: javielma@hotmail.com
Universidad Central de Venezuela. División de Postgrado. Escuela de Eléctrica. Caracas, D.F./ Venezuela.
RESÚMEN
Hoy en día, el crecimiento acelerado de la población mundial y la demanda de cada vez mas y mejores productos de uso o consumo, así como el desarrollo de nuevas tecnologías y la necesidad de un mundo vigilado y seguro, conllevan al desarrollo de nuevas tecnologías que permitan la automatización y supervisión de tareas remotas, repetitivas y otras difíciles o imposibles de desarrollar por un humano (dada la limitación humana de ciertas capacidades como fuerza y visión). Las Cámaras de Video Inteligentes nacen como una solución a éstos y otros requerimientos, integrando técnicas de visión de computadoras a los sistemas de cámaras de video convencionales, en el cual la Inteligencia Artificial es el factor clave.
ABSTRACT
Currently, the increasing growth of world population and the demands of better products to use, the development of new technologies and the need to have a safer world to live in, have led the development of new technologies that allow automation and supervision of remote, repetitive, difficult or impossible tasks to be performed by a human begins (since human begins have certain limitations regarding sight and strength). Smart Video Cameras have been created as a solution to these and other requeriments, which integrate computer vision techniques to traditional video cameras, in which Artificial Intelligence is considered an outstanding issue.
INTRODUCCIÓN
Siguiendo el ritmo de avance de la tecnología de automatización actual, no sería nada extraño que en las empresas del futuro, la fuerza de trabajo humana pueda desaparecer. Entre las nuevas herramientas para la automatización se encuentran Las Cámaras Inteligentes utilizadas principalmente en los sistemas de supervisión aplicados a diferentes áreas como en las líneas de producción, seguridad y vigilancia, control y congestión de tráfico, congestión y supervisión de áreas subterráneas como en los metros y sitios distantes como resguardo a personas con problemas o ancianos, entre otros.
El presente artículo comienza con una introducción a la tecnología de estas cámaras y describe las bases teóricas para la construcción de las tecnologías dentro de la cámara. Se mencionan los últimos avances y las aplicaciones en las cuales tienen impacto. Basada en la aplicación de Cámaras de TV Inteligentes, se describen los algoritmos que permiten la funcionalidad de la aplicación. Por último, se hace mención a la AIA, para los interesados en conocer un poco más acerca de esta tecnología.
ESTRUCTURA.
Siguiendo el modelo de Cámara Inteligente desarrollado por la Universidad de Laval [1], una Cámara Inteligente está compuesta por tres módulos principales: la cabeza (o parte frontal), la tarjeta FPGA y el módulo de comunicación y post-procesamiento.
La cabeza (o parte frontal) de la cámara es el módulo encargado de convertir la imagen en información digital.
La tarjeta FPGA, incluye un chip de arquitectura re-programable de alta densidad, el cual puede ser configurado para realizar tareas visuales o compresión de imagen; incluye también bancos de memoria para la manipulación de la data local y el procesamiento paralelo. Esta tarjeta también posee dos puertos paralelos, uno para la cabeza (frond-end) de la cámara y otro para el módulo de post-procesamiento. Para esta tarjeta en específico, la arquitectura de la misma puede cambiar convenientemente, dependiendo de la aplicación, sólo con re-programar esta tarjeta a través del módulo de comunicación.
El módulo de comunicación y post-procesamiento es un PC basado en un procesador 486 DX4-100MHz, el cual es usado como interfaz entre la cámara y el enlace Ethernet para la comunicación de datos en la Red Local y operación y desarrollo de aplicaciones remotas. Adicionalmente, este módulo puede también ejecutar mucho más que un procesamiento de datos para entregar información de alto nivel a la aplicación y liberar al computador host del procesamiento de los algoritmos de visión.
Esta tarjeta es programada en C++ bajo QNX (sistema operativo en tiempo real) y permite la transferencia de la data proveniente del sensor a través de la Red Local; así mismo, permite la recepción de comandos proveniente de una interfaz remota usando el protocolo TCP/IP. Actualmente se está desarrollando una consola de control en Java para el acceso remoto a través de Internet.
Siguiendo este modelo de cámaras, se pueden comprender las arquitecturas de otros fabricantes, ya que la estructura es por lo general la misma, solo que diferentes fabricantes ofrecen productos con diferentes capacidades (de acuerdo a la aplicación), variando solo en cuanto a cantidad de memoria, tipo y tamaño de sensores, señal [2].

Fig. 1. Arquitectura de una Cámara Inteligente. Fuente: [1].
BASES TEÓRICAS.
Según A. Mazour [3], la escena de resolución efectiva del ojo humano es equivalente a una cámara con 108 pixels. Actualmente, los sistemas de visión de máquinas han sido muy exitosos en cuanto a precisión, velocidad y vigilancia. Sin embargo, en algunos sistemas de supervisión, la visión de la máquina no compite con la inspección humana, en especial casos que involucran distinciones muy sutiles de intensidad y morfología en una aglomeración y ambientes variables, como por ejemplo detección de huecos en frutas procesadas, envoltura de huevos, productos de pescados, entre otros. Tareas de supervisión como éstas, requieren de ojos humanos inteligentes (toma de decisiones), los cuales no pueden ser emulados con la tecnología actual.
Canpolar East [3], entre otros, han trabajado con clientes industriales por varios años, con la finalidad de automatizar algunas de las pero tediosas tareas de inspección de alimentos que requieren cierto grado de exactitud, en la cual la visión de las máquinas no han sido muy exitosas. De aquí que al estudiar el ojo humano como un sistema para el desarrollo de este tipo de actividades, han identificado los componentes de la visión que son críticos para estas tareas; los cuales son: la resolución espacial, la discriminación de la intensidad y la discriminación del color. Aclarando que estas funciones no realizan un procesamiento neurológico extensivo, sólo definen el desarrollo mínimo de la retina a ser emulado por un sistema de cámara.
RESOLUCIÓN ESPACIAL.
Se describe de tres maneras: separación mínima, modulación de la función de transferencia (MTF) y el test de forma y geometría.
En la separación mínima, el campo visual humano se puede representar gráficamente de la siguiente manera:

Fig. 2. Schematic of Human Visual Acuity. Fuente: [3]
Y matemáticamente así: b= 2*a*tan(a /2); b= 1/c; c= número de líneas por milímetros. Esto indica que la resolución espacial del ojo humano es recíproca en minutos al arco del ángulo embebido por el detalle visible más pequeño, el cual en condiciones normales puede variar, por ejemplo de 25 arc. Seg. A 30 arc. Seg. La mejor resolución humana puede tener una resolución de 14 líneas por mm, es decir 7 pares de líneas por mm (LPMM) a 500mm; el promedio humano es de 4 LPMM.
La modulación de la función de transferencia mide la respuesta de un sistema óptico a una línea sinusoidal periódica. La MTF del ojo es sensible a los niveles de iluminación y contraste. La distancia ergonómica para varias de las tareas de supervisión industrial se encuentra en el rango de 300 a 500mm. Para una supervisión típica de defecto de comida, la distancia de trabajo es alrededor de 500mm; en este rango el promedio del ojo humano es cerca de 4 LPMM.
De aquí que se concluye que la resolución visual de una máquina cerca de 5 LPMM debería proveer el equivalente humano para las tareas de supervisión típicas. En el caso de la inspección del fillet de pescado, para una imagen 200mm x 400mm, la cantidad de pixeles requeridos para la regeneración del fillet sería de 2564x518, esto es cincuenta veces la resolución de una cámara de video estándar de 512x512. En consecuencia, existen ciertas aplicaciones en las cuales la visión humana no es suficiente y es necesaria una alta resolución del segmento del ojo.
DISCRIMINACIÓN DE LA INTENSIDAD.
Se refiere a la iluminación del objeto. Matemáticamente se define así:
CL = [(B/B1) 1], donde B: luminosidad del objeto, B1: luminosidad de fondo y CL: en condiciones normales 0.002 ó 2%; combinado con sistemas de color y monocromático cerca de 109 sobre el rango de luminancia de 10-6 cd/m a 103 cd/m. Para una cámara de 8 bits de rango dinámico, el contraste de discriminación de dos elementos es 1 en 256 cuando ambos estan en saturación y al 50% de saturación la discriminación es de 1/128. El rango dinámico de un sistema de cámara es el mismo rango del ojo humano.
DISCRIMINACIÓN DEL COLOR.
Las cámaras de color proveen discriminación de salida RGB a 8 bits x color. El color efectivo de una cámara va a depender de las especificaciones de color del diseño del filtro/receptor. SEGURIDAD Y VIGILANCIA.
Son programadas para que reconozcan ciertos tipos de movimientos no comunes o peligrosos, los cuales alertan al personal de seguridad.
DETECCIÓN DE HUMO Y FUEGO [7].
Desarrollado por Cerberus, una división de Siemens que desarrolla tecnología. Está basado en detectores AlgoRex, los cuales combinan la data de los sensores ópticos y calor para procesarla usando redes neuronales de lógica difusa.
Según Siemens Corporate Research en Princenton-New Jersey y la Corporación en Munich [8], la última generación de cámaras usarán inteligencia propia para ver cualquier cosa desde los componentes de una línea de producción hasta densidades de pasajeros en las localidades subterráneas de un Metro, gracias a los algoritmos de procesamiento de imágenes desarrollados por Siemens Corporate Research.
DENSIDAD DE PASAJEROS EN EL METRO.
La cámara interpreta los movimientos de las personas para detectar posibles situaciones de peligro y densidad de personas.
SUPERVISIÓN DE COMPONENTES EN UNA LÍNEA DE PRODUCCIÓN.
Según Alok Gupta, P.h.D. [8], estas cámaras son necesarias en la supervisión de componentes cuya escala de miniaturización es suficientemente pequeña como para ser perceptible por el ojo humano. Estas cámaras sobre una línea de producción pueden chequear varias características simultáneamente con una precisión de localización cercana a 0.002 pixels, la cual es de 3 a 5 veces mas precisa que el mejor sistema de visión de máquinas del mercado.
Las Univesidad de York [9] , en su artículo "The Can- Scan", explica un mecanismo para la supervisión de paquetes sobre una línea de producción, en el cual el sistema utiliza la técnica de triangulación para determinar el alto, ancho y la composición en los productos en un paquete transparente. Proyecta una línea láser sobre el paquete en un ángulo oblicuo, la cámara observa esta línea sobre el producto y un desplazamiento lateral de esta línea indica variación en la altura. Al detectar un paquete perdido o alguno con un item perdido, envía una señal al mecanismo de rechazo. Este esquema es aplicado a latas de aerosol, latas de cerveza, productos de salud, botellas, barras de chocolate, en fin cualquier producto que pueda ser embalado en paquetes.
MONITOREO DE ESTRUCTURAS ESPACIALES [10].
Este sistema está basado en la inspección de la deflección óptica para monitorear a través del cambio de localización de un punto láser sobre un detector de visión de máquina.
DETECCIÓN Y MANIPULACIÓN DE LA ACCIÓN.
Existen diferentes tecnologías para la detección y manipulación de la acción humana. Pinhanez y Bobick [4], desarrollaron una representación para la estructura temporal inherente a acciones humanas y demostraron un método efectivo para ser usado en la representación y detección de acciones, con la cual entienden los problemas relacionados con el movimiento, las actividades y las acciones.
ÚLTIMOS AVANCES/ APLICACIONES.
Variadas son las aplicaiones en las cuales las Cámaras Inteligentes tienen su rol de aplicación. Estudios avanzados de la Siemens publicados en la revista Research and Innovations del presente año [6], muestran como Siemens Corporate Research en Princenton New Jersey, está desarrollando un software que les permitirá aprender de su entrada. Esto es, una vez que las características fundamentales de un objeto han sido identificadas e internalizadas por la cámara, éste estará disponible para identificar el objeto bajo condiciones de iluminación variable. Según este mismo artículo, la belleza de estas cámaras y su software es su adaptablidad casi ilimitada a cualquier aplicación. Actualmente la visión de la máquina puede integrar informaión de la imagen con datos de audio, temperatura, proximidad, presión y otros sensores, dando de esta manera más diversidad, análisis y procesamiento de objetos mas exactos en tiempo real. Las cámaras han sido construidas con poderosos computadores internos PC´s de escritorio a escala reducida, lo cual permite el control inteligente de aplicaciones industriales y el análisis de componentes mecánicos no visibles por el ojo humano. Algunas de las aplicaciones más resaltantes son las siguientes:
CONTROL DE TRÁFICO.
Las cámaras analizan información sobre velocidad de un vehículo, clasificación, congestión de tráfico y condiciones de la carretera.
MEDICIÓN DEL ESPESOR DE UNA CAPA DE HIELO.
Esta aplicación resalta la necesidad de una detección adecuada del hielo sobre un avión. La técnica de medición es llevada a cabo por un punto láser en la superficie de la capa de hielo; esta capa es calculada por una fórmula que involucra el tamaño de la imagen y el índice refractivo de la capa del material [11].
CÁMARAS DE T.V. AUTOMÁTICAS.
Esta aplicación involucra una Cámara de T.V. Robótica, la cual puede operar sin un camarógrafo [12], cambiando ella misma el zoom y la posición para la captura de las imágenes a través de requerimientos verbales de un director de T.V. Un demo de esta aplicación puede ser visto en la página Web http://vismod.www.media.mit.edu/vismod/demos/smartcam/smatcam.html
desarrollado por Pinhandez y Bobick, donde se visualiza un show de cocina.
THE KIDS ROOM.
Desarrollado por Pinhanez y Bobick [13], combina imágenes, iluminación, sonido y la tecnología de reconocimiento de la acción de la visión de máquina para transformar el cuarto de un niño en un mundo de juegos de fantasía.
Existen muchas otras aplicaciones donde estas cámaras tienen impacto, estas son solo algunas de las mas resaltantes desarrolladas actualmente.
ALGORITMOS DE RECONOCIMIENTO.
Como se dijo al principio, dadas las variadas aplicaciones en las cuales las Cámaras Inteligentes tienen impacto, cada cámara se adecua en cuanto a estructura para trabajar de acuerdo a la aplicación específica. De aquí que, para cada aplicación los algoritmos de reconocimiento de la acción varían de una a otra. Para ejemplificar el funcionamiento de los mismos, se ha tomado como ejemplo la aplicación de Cámaras de T.V. Automáticas desarrollada por Pinhanez, Claudio en su trabajo "Divide and Conquer: Using Aproximate World Models to Control View-Based Algorithms" [5], en el cual explica que la mayoría de los algoritmos de visión son basados en la disposición de los objetos en la imagen, para lo cual propone que un sistema de visión debe ser dividido en dos componentes: el primero contiene un Modelo Mundial Aproximado de la escena (descripción de los objetos y acciones en el mundo), el cual es actualizado por rutinas de visión sencillas y usando información contectual. El segundo emplea Algoritmos Basados en Visión para el desarrollo de tareas perceptuales cuya selección y control es determinada por la información proveniente de un Modelo Mundial Aproximado.
Según este mismo artículo, los modelos mundiales aproximados permiten predecir la disposición y el tamaño de varios elementos en una vista, lo cual es fundamental en los casos en los cuales se deben aplicar las rutinas basadas en visión, con la finalidad de usarlas solo en situaciones en las cuales las condiciones para ser aplicados, son válidas. De esta manera, encapsula las rutinas de visión en una Regla de Aplicabilidad, en la cual describe las pre-condiciones, condiciones y post-condiciones en términos de propiedades generales acerca del objeto mirado, otros objetos de la escena, el punto de visión de la cámara y el resultado de la rutina de visión. De esta manera, mientras el estado del mundo es descrito en el modelo aproximado, el trabajo del sistema de visión es identificar cual regla tiene las condiciones satisfechas para ser aplicada y luego utilizar la rutina de visión mas adecuada.
Ejemplo: para la rutina de visión "extract-moving-blob", es diseñada para detectar una región de movimiento en una secuencia de dos tramas consecutivas, la cual usa una diferenciación de trama simple. Se describen un conjunto de condiciones de aplicación posibles para esta rutina, según la siguiente regla de aplicabilidad:
"IF
TARGET is inside view AND
TARGET occupies a reasonable portion of the view AND
TARGET can move AND
TARGET is not occluded by other object AND
TARGET is not in front of another moving object whose region contains TARGET
THEN
Apply extract-moving-blob to a region around the bounding box of TARGET,
Producing RESULT
TEST IF
RESULT has similar area and proportion as TARGET AND RESULT center is close to TARGET center"
Para usar esta regla, el sistema de visión debe mantener un modelo aproximado de "TARGET", el cual es suficientemente rico para proveer la información aproximada requerida por la regla, como por ejemplo: estimaciones del centro del objeto observado, el área, el cuadro de frontera y la profundidad. Es importante resaltar que el sistema también debe poseer alguna información relacionada con los posibles distractores, como puede ser el movimiento de un objeto grande detrás del objeto mirado.
AUTOMATED IMAGING ASSOCIATION (AIA).
La Asociación de Imágenes Automatizadas, fue fundada en 1984 en América del Norte para servir a los usuarios y suplidores de sistemas de cámaras. Actualmente está desarrollando una Conferencia para el mundo de visión de máquinas, programada para los días 5 al 7 de Octubre en San José, CA. Esta información se encuentra en la página http://www.vetech.com/mv.html
CONCLUSIONES
De acuerdo a los artículos mencionados, podemos notar la tendencia de la Automatización Industrial hacia la incorporación de tecnologías que le ayuden a optimizar los sistemas de supervisión en las líneas de producción y el impacto de esta nueva tecnología en otras áreas como seguridad y vigilancia, control y congestión de tráfico, congestión y supervisión de áreas cerradas como los metros, supervisión de sitios distantes como resguardo a personas con problemas o ancianos, entre otros.
En el presente artículo se dio una introducción a la tecnología de estas cámaras y describieron las bases teóricas para la construcción de las tecnologías dentro de la misma. Se mencionaron los últimos avances y las aplicaciones en las cuales tienen impacto y se describieron los algoritmos que permiten la funcionalidad de las aplicaciones, tomando como modelo la Cámara de TV Inteligente. Se concluyó el artículo introduciendo al lector a la AIA, organización importante para los interesados en conocer un poco más acerca de esta tecnología.
REFERENCIAS
[1] UNIVERSITÉ LAVAL. Computer Vision and Systems Laboratory. Smart Camera Based on FPGA Technology. IRIS-PRECARN CONFERENCE 1998.
URL: http:// www.gel.ulaval.ca/~vision/vlsi/camera
[2] R. Winn Hardin. Samart Cameras Getting Smarter all the Time. OE Reports 177 September 1998.
URL: http://www.
[3] A. Mazour, S. King. Design and Development of Human Equivalent Inspection System. Canpolar East Inc.
[4] Pinhanez, Claudio y Bobick, Aaron. Human Action Detection Using PNF Propagation of Temporal Constraints. M.I.T. Media laboratory Perceptual Computing Section Technical Report No. 423. Abril 1997.
[5] Pinhanez, Claudio y Bobick, Aaron. Divide and Conquer: Using Aproximate Word Models to Control View-Based Algorithms. M.I.T. Media laboratory Perceptual Computing Section Technical Report No. 357. Octubre 1995.
[6] SIEMENS. Automation. The System Awakens. Research and Innovations Magazine. Issue 1/1999.
URL: http://www.siemens.de/FUI/en/zeitschrift/
Archiv/heft1_99/artikel1.htm
[7] SIEMENS. Automation Technologies. All Fired Up About Intelligent Detectors. Research and Innovations Magazine. Issue 1/1999.
URL: http://www.siemens.de/FUI/en/zeitschrift/
Archiv/heft1_99/artikel3.htm
[8] SIEMENS. Automation Technologies. The Camera that Grew a New Brain. Research and Innovations Magazine. Issue 1/1999.
URL: http://www.siemens.de/FUI/en/zeitschrift/
Archiv/heft1_99/artikel2.htm
[9] The University of York. York Electronic Center. The Can-Scan. One of the Series of End-of-Line Package Inspection Systems to Ensure High Cuality Production. Diciembre 1998.
[10] P. Hearn, I. Hermanto, E. Reimer, P. Lefeure, R. Gosine, S.K. Chang. Vision System for Monitoring Space Structures. Canpolar East Inc., C-CORE-Spar Aeroespace LTD., ATS.
URL: http://www.vetech.com/vsysMSS.html
[11] I. Hermanto & R.E. Gagnan. Machine Vision for Ice Layer Thickness Measurements. Canpolar East Inc. Institute for Machine Dynamics National Research Council of Canada.
URL: http://www.vetech.com/pe96wp7.htm
[12] Pinhanez, Claudio y Bobick, Aaron. SmartCams: Automatic TV Cameras. 1995-1996.
URL: http://vismod.www.media.mit.edu/vismod/demos/
Smartcam/smartcam.html
[13] Pinhanez, Claudio y Bobick, Aaron. The Kids Room.
URL: http://vismod.www.media.mit.edu/vismod/demos/kidsroom
/kidsromm.html
BIBLIOGRAFÍA.
Josseline A. Vielma B., es Ingeniero Electrónico en Computación. "Universidad Yacambú", 1997. Lara/ Venezuela. Administrador de Redes y programador de Centrales Telefónicas. Actualmente se desempeña como "Analista de Facturación" en la Compañía Anónima de Teléfonos de Venezuela (CANTV).