Você está na página 1de 6

11009

Monitorizacin del cuerpo humano en 3D mediante tecnologa Kinect


M. Martnez-Zarzuela, F.J. Daz-Pernas, A. Tejero de Pablos, F. Perozo-Rondn, M. Antn-Rodrguez and D. Gonzlez-Ortega

Resumen En visin artificial, las tcnicas de seguimiento de movimiento en 3D se encuentran en un momento lgido gracias a tecnologas emergentes que permiten la captura de imgenes con informacin de profundidad. Dentro de estas tecnologas de captura, por su fcil accesibilidad y bajo precio, y para ciertas aplicaciones, destaca la cmara Kinect. Aunque originalmente fue destinada exclusivamente al mundo de las video-consolas, en muy poco tiempo esta cmara se ha revelado como una muy buena solucin para resolver aplicaciones sobre PC que requieran de un seguimiento de los movimientos del usuario. Para las distintas operaciones involucradas en este proceso, diferentes libreras con utilidades estn siendo propuestas por una cada vez mayor comunidad de programadores. Este artculo ofrece una revisin sobre el mundo surgido en torno a Kinect y proporciona las pautas necesarias para desarrollar aplicaciones basadas en seguimiento de movimientos que pretendan utilizar esta tecnologa. Palabras clave Visin artificial, Monitorizacin movimientos, 3D, Kinect

I. INTRODUCCIN

n rea de extensa aplicacin en visin artificial es el de los sistemas para la monitorizacin de movimientos del cuerpo humano. Los sistemas ms fiables son aquellos que incorporan una serie de marcadores, que permiten asociar puntos concretos de la fisonoma localizados en la silueta del sujeto con puntos concretos de un modelo tridimensional de la figura humana animado en un ordenador. Este tipo de tecnologas estn muy extendidas para capturar los movimientos de los actores que participan en pelculas de animacin por ordenador. Un segundo tipo de sistemas, no tan desarrollados hoy por hoy, son aquellos que permiten capturar la informacin de movimiento de un sujeto con mtodos no intrusivos. Esto es, sin incorporar ningn tipo de marcador en el sujeto a fin de que la tarea de reconocimiento sea ms fcil. Los sistemas no intrusivos tienen una aplicacin ms inmediata en la vida cotidiana, all donde resulta poco prctico o directamente imposible, el uso de marcadores. Ejemplos de estos sistemas podemos encontrarlos, por ejemplo, en forma de

Artculo recibido el 15 de Febrero de 2011. Esta investigacin ha sido financiada parcialmente por el Ministerio de Ciencia e Innovacin con el proyecto TIN2010-20529. M. Martnez-Zarzuela pertenece al Departamento de Teora de la Seal y Comunicaciones e Ingeniera Telemtica de la Universidad de Valladolid; ETSI Telecomunicacin. Paseo de Beln, 15 47011 Valladolid, (e-mail: marmar@tel.uva.es).

interfaces hombre-mquina y en sistemas de videovigilancia y seguridad. La complejidad de un sistema de estas caractersticas, a nivel de procesamiento de imagen, depende en gran medida de la forma en que se capture la escena. Cuando se emplea una nica cmara 2D convencional, una importante carga del sistema de reconocimiento est encaminada a detectar a la persona y segmentarla respecto al fondo. Adems, estos sistemas son muy sensibles a oclusiones totales o parciales de las extremedidades entre s o con otras partes del cuerpo como el tronco o la cabeza. Una buena forma de aliviar la tarea de segmentacin es emplear un sistema de captura que proporcione informacin de profundidad [1]. A este respecto, pueden emplearse dos o ms cmaras para capturar la escena y, a continuacin, realizar una reconstruccin tridimensional de la misma. Algunas cmaras binoculares proporcionan dos imgenes capturadas desde puntos ligeramente desplazados en el eje horizontal, que pueden ser empleadas para reconstruir la informacin de profundidad de manera anloga a como lo realiza el sistema visual humano. Este es el caso de las cmaras STOC [2] y Bumblebee [3]. Otro tipo de dispositivos de captura 3D son aquellos que utilizan un haz de luz infraroja para iluminar la escena y despus miden el desfase de las ondas emitidas desde el emisor hasta el dispositivo receptor. Son las cmaras TOF (Time of Flight) [4]. La tecnologa TOF es bastante precisa, pero hasta hace poco ha sido una tecnologa muy cara y adems muy limitada en cuanto a resolucin, proporcionando imgenes de profundidad de en torno a 176x144 px. Como alternativa de bajo coste, apareci a finales de 2010 en el mercado la cmara Kinect, una cmara de bajo precio que tambin emplea luz infraroja para el anlisis de la escena, pero que proporciona adems una resolucin de 640x480 px a 30 fps, lo que la hace particularmente til en aplicaciones de monitorizacin de movimientos. La cmara Kinect, desarrollada por el fabricante PrimeSense para Microsoft, est orientada para su utilizacin nicamente con la consola XBOX 360. Sin embargo, al estar equipada con un conector USB, es posible conectarla a un PC. Aunque Microsoft no ha lanzado drivers oficiales para su uso en PC, en poco tiempo algunos desarrolladores han propuesto potentes libreras para acceder a la funcionalidad de Kinect. Estas libreras sern presumiblemente compatibles con nuevas cmaras de las

11009

Desarrollo

Drivers

Segmentacin y modelado del cuerpo Profundidad Esqueleto

Monitorizacin de Movimiento

Plataforma

CLNUI [9] OpenKinect [10] PrimeSense [11]

CL Eye Platform Driver

CL Eye Platform SDK libfreenect TBD NITE [13] NITE + FAAST [14]

Windows

Windows, Linux, OSX

/avin2

OpenNI [12]

OpenNI

Windows (Linux, OSX)

Tabla I. Lneas de desarrollo principales surgidas en torno a Kinect

mismas caractersticas que estn por llegar al mercado, como la cmara wavi-xtion presentada en el CES 2011, que llegar de la mano de PrimeSense y ASUS [5]. La informacin en torno a Kinect no es extensa y est dispersa en multitud de sitios de Internet. Puede parecer agotador determinar qu herramienta es la adecuada en cada situacin, teniendo en cuenta que muchas utilidades parten de distintos drivers pero persiguen el mismo objetivo. Para facilitar esta tarea al lector, en este artculo se ha determinado una relacin entre las operaciones requeridas por un sistema de monitorizacin de movimiento y en qu medida las libreras existentes cubren las necesidades segn la aplicacin a desarrollar. La Seccin II de este artculo incluye informacin sobre las principales herramientas de desarrollo para Kinect y se desglosa la utilidad de las mismas para las distintas etapas de una aplicacin para monitorizacin de movimientos. En la Seccin III se incluyen algunas aplicaciones interesantes que utilizan la base de Kinect y las herramientas detalladas en la seccin anterior, as como conclusiones extradas tras pruebas realizadas sobre el funcionamiento de Kinect en laboratorio. Finalmente, la seccin IV presenta un resumen de las conclusiones obtenidas y posibles lneas futuras a seguir empleando esta tecnologa. II. MONITORIZACIN DE MOVIMIENTO 3D MEDIANTE KINECT Para realizar el procesado de una escena en movimiento, es necesario tener en cuenta ciertas operaciones. Histricamente, el reconocimiento de movimiento se ha dividido en sub-tareas como el reconocimiento de gestos en interfaces [6, 7] o expresiones faciales [8]. Sin embargo, la monitorizacin del cuerpo completo requiere un enfoque unificado. En un sistema para la monitorizacin de movimientos, son necesarias las siguientes tareas: Adquisicin de datos de profundidad, segmentacin y modelado del cuerpo humano, monitorizacin del movimiento y segmentacin y reconocimiento de acciones. A continuacin se explicar cmo hacer uso de las herramientas disponibles para Kinect con este fin. A. Lneas de desarrollo en torno a Kinect Tras su aparicin en el mercado, al hardware Kinect se le ha asociado un gran potencial en los desarrollos con imgenes en

movimiento, por lo que una vez se produjo su hackeo, surgieron varias propuestas para trabajar con dicha tecnologa. Kinect dispone de una barra de sensores con dos cmaras de captura para imagen plana y de profundidad, de un micrfono direccional, de un acelermetro y de un motor que permite desplazar la barra de sensores hacia arriba y hacia abajo. No todos los drivers dan acceso a estas capacidades. Las libreras que se comentan en este artculo dan acceso a las informaciones de profundidad y de color. Actualmente, estas propuestas avanzan en paralelo, partiendo de su respectivo grupo de drivers. Para cada una de ellas, se encuentran en desarrollo herramientas que facilitan en gran medida el trabajo en distintas operaciones. La Tabla I, detalla las principales lneas de desarrollo en torno a Kinect hasta la fecha. Adicionalmente, la comunidad de desarrolladores est trabajando en su integracin con otras herramientas ya existentes. En este sentido cabe destacar la integracin de Kinect con MATLAB y LabView [10]. Asimismo, tambin son remarcables los resultados que pueden llegar a obtenerse mediante la combinacin con libreras de procesado de imagen. OpenCV est realizando la inclusin de funcionalidades de profundidad en su cdigo; en su estado inicial, OpenCV tiene su propia rama de desarrollo para utilizar funcionalidades con Kinect, aunque otro camino contempla el uso de un wrapper desarrollado por OpenKinect. No hay que olvidar que OpenCV presenta desarrollos previos para imagen estreo con cmaras binoculares, generacin de mapas de disparidad y profundidad. En este contexto, todo indica que la integracin entre OpenCV y Kinect se expandir a funciones de modelado 3D y reconocimiento. Otro software multiplataforma til para realizar aplicaciones basadas en profundidad es OpenFrameworks [15], que corre en Linux y OSX. OpenFrameworks est diseada para la codificacin creativa (creative coding) y el addon ofxKinect permite aadir informacin de profundidad a las aplicaciones de visin. B. Adquisicin de datos de profundidad En contraste con los antiguos mtodos de deteccin de objetos basados en diferencias de color y textura, la cmara transmite luz cuasi-infrarroja y mide constantemente el tiempo de vuelo tras su reflejo en los objetos, obteniendo as

11009 informacin sobre su distancia. Este sistema presenta robustez ante las variaciones de la luz ambiente. El sensor empleado para capturar el infrarrojo permite distinguir informacin de profundidad con un margen de 1 cm y su altura y anchura con un margen de 3 mm. El rango de funcionamiento recomendado en distancia se encuentra entre 1 y 3.5 m, por lo que es adecuada para monitorizacin aplicaciones de cuerpo entero. La tcnica empleada para calcular los parmetros intrnsecos de la cmara de color es la estndar, con un tablero de ajedrez. En el caso de la cmara de profundidad es necesario un patrn tridimensional. Los datos en crudo sobre profundidad se codifican sobre 12 bits, de forma que cada punto puede tomar un valor entero comprendido entre 0 y 4095, el cual es posible traducir a distancias con la frmula mostrada en la ecuacin (1), donde i es el valor proporcionado por la cmara y Z(i) es la distancia medida en metros.
i Z ( i ) = 0 .1236 tan + 1 .1863 2842 .5

3 OpenKinect sobre Linux.

Fig. 1. Librera libfreenect funcionando para captura de profundidad sobre Linux.

(1)

C. Segmentacin y Modelado del cuerpo humano El modelado tiene como objetivo obtener una representacin espacial que discrimine el movimiento de los datos visuales, mediante caractersticas de postura y accin. De esta forma puede realizarse una segmentacin de la figura humana respecto al fondo de la escena. Dependiendo del nivel de la informacin representada y la utilidad, el modelado puede realizarse con modelos 2D y 3D [16]. Los modelos 2D requieren de la deteccin de una regin de inters dentro de la imagen, donde realizar el procesamiento. Una aplicacin caracterstica es su uso en cmaras de vigilancia. La forma de trabajar con este tipo de modelos se basa principalmente en el etiquetado (labeling) y el uso de siluetas. El labeling consiste en encontrar unos puntos caractersticos en una regin de inters de la imagen para as poder unirlos construyendo un esqueleto en dos dimensiones [17]. En este tipo de aplicaciones, la principal dificultad es encontrar un modelo paramtrico para las distintas partes del cuerpo. Por su parte, el trabajo con siluetas ofrece robustez frente a los cambios de color, textura y contraste [18]. En contrapartida, dependen de un procesado anterior de segmentacin del fondo de la escena. Este tipo de aplicaciones se aprovecha en gran parte de las funcionalidades que ofrece Kinect. El mayor inconveniente que presenta el trabajo con imgenes en 2D es que el procesado es muy sensible a oclusiones. Sin embargo, mediante el uso de tecnologa como Kinect, se aporta una capa de informacin de profundidad a las imgenes, diferencindose los elementos segn su proximidad al objetivo [19]. Adicionalmente, la segmentacin es robusta a variaciones en iluminacin y gracias al infrarrojo es posible en escenarios sin ningn tipo de iluminacin. Todas las libreras analizadas de la Tabla I permiten obtener la informacin de profundidad necesaria para facilitar la segmentacin de siluetas. En la Figura 1 se muestra el funcionamiento con libfreenect empleando los drivers de

En los modelos 3D, para cada frame de vdeo se recupera la pose del sujeto en base a la disposicin de una serie de puntos caractersticos del cuerpo humano. Un sistema de estas caractersticas suele requerir de un tiempo de calibracin en el que el sujeto a monitorizar debe tener una postura inicial definida [20]. Una vez estimado el esqueleto del sujeto, en base a la captura y un modelo cinemtico (kinematic model) de las articulaciones (joints) [21], puede realizarse un posterior seguimiento del movimiento de las trayectorias de los puntos representativos. Este tipo de modelados son ms robustos a oclusiones parciales o totales del cuerpo humano. Las libreras de OpenNI permiten la obtencin de un esqueleto 3D anclado a las articulaciones del cuerpo en 24 puntos, de los cuales Kinect soporta 15 (situados en zonas como caderas, torso, cuello, cabeza, hombros, codo, manos, rodillas y pies). OpenNI es capaz de ofrecer informacin de las coordenadas y la orientacin de los puntos de articulacin en cada frame. Para emplear la librera sobre Kinect es necesario utilizar un driver no oficial, surgido a partir del publicado por PrimeSense, como se detalla en la Tabla I. El software de modelado de esqueleto no est exento de restricciones; para comenzar es necesario que OpenNI segmente el sujeto a analizar. A continuacin, es necesario mantener una posicin de calibrado mediante la cual se detectan los puntos anatmicos mencionados (Figura 2.a).

(a) Calibrado OpenNI

(b) Historial de movimiento

Fig. 2. Operaciones de modelado y seguimiento de trayectorias. (a) Posicin para calibrado y deteccin inicial en OpenNI (b) Ejemplo de Plantilla de Acciones: Historial de movimiento.

11009

4 cundo comienza y finaliza una accin. Como contrapunto NITE est atado a una licencia y, aunque actualmente sus funcionalidades son accesibles de forma gratuita, pueden dejar de serlo en un futuro. Tambin se ha dado la aparicin de herramientas que combinan el modelado de OpenNI con el reconocimiento de gestos de NITE para el seguimiento de movimientos; FAAST (Flexible Action and Articulated Skeleton Toolkit), desarrollado dentro de un proyecto de la University of Southern California, ofrece una interfaz para el desarrollo de aplicaciones que van desde el rango de la rehabilitacin hasta el control de juegos. III. PRUEBAS Y APLICACIONES A. Pruebas De cara a valorar la adecuacin de la tecnologa Kinect y de las herramientas disponibles para el desarrollo de aplicaciones con necesidades de monitorizacin de movimientos del cuerpo humano, se realizaron una serie de pruebas en laboratorio. Estas pruebas tienen carcter cualitativo y no cuantitativo y suponen una primera toma de contacto con Kinect y las libreras asociadas. Esta investigacin surge de la necesidad de desarrollar una compleja arquitectura para la monitorizacin precisa de movimientos del cuerpo humano, bajo un proyecto financiado por el Ministerio de Ciencia e Innovacin. La arquitectura desarrollada tendr aplicacin en el diagnstico y rehabilitacin de pacientes con discapacidad, por lo que los tests realizados hasta el momento se han realizado atendiendo a una aplicacin de estas caractersticas. --Deteccin del esqueleto: la deteccin del esqueleto es correcta, aunque puede demorarse en el tiempo an cuando la posicin de partida del sujeto sea la adecuada. En pacientes con algn tipo de discapacidad cognitiva esto puede suponer un problema. As mismo, la deteccin inicial funciona nicamente cuando el cuerpo entero es capturado. Las restricciones de postura pueden ser un problema para personas a las que le falte alguna extremidad o estn en una silla de ruedas. --Distancia de funcionamiento: si bien es cierto que existe una distancia ptima de funcionamiento en torno a dos metros, en ocasiones este rango es dinmico dependiendo del entorno. Cuando hay pocos objetos de por medio la distancia de funcionamiento aumenta. En el caso de que el sujeto se arrime en exceso a una pared el modelo puede llegar a perderse. --Oclusin de extremidades: el sistema de deteccin es bastante robusto a las oclusiones, ya sea por giros completos del cuerpo, o bien por interposicin de unas extremidades por delante de otras. As mismo, en caso de que el sujeto se salga parcialmente del campo de visin de la cmara, la deteccin sigue siendo suficientemente correcta y se recupera con facilidad cuando la totalidad del cuerpo est disponible. --Interaccin entre varios sujetos: una de las pruebas realizadas consisti en determinar el nmero de personas capaz de ser detectadas al mismo tiempo por las herramientas proporcionadas con libfreenect y FAAST. Hasta 5 esqueletos

Por parte de OpenKinect, se estn desarrollando libreras con funciones avanzadas, a las que han dado el nombre de TBD. Estas libreras permitirn as mismo la construccin de un esqueleto junto con las manos y su seguimiento, con operaciones de audio y profundidad, si bien a da de hoy los desarrollos estn en un nivel muy poco avanzado. D. Seguimiento de trayectorias Para representar la estructura de las acciones, tambin se puede analizar cmo vara la componente temporal de las observaciones. Actualmente, las principales tcnicas utilizadas son Gramticas de Acciones (Action Grammars) y Plantillas de Acciones (Action Templates). Las Gramticas de Acciones consisten en la representacin de secuencias de estados y sus transiciones agrupando caractersticas similares. A la hora de utilizarlas, se presenta un problema si hay diferentes partes del cuerpo movindose independientemente y en paralelo. Por otra parte, las Plantillas de Acciones se basan en el aprendizaje. A grandes rasgos, buscan analizar las variaciones temporales de los modelos del cuerpo humano comentados en el apartado anterior. Como ejemplos significativos pueden citarse el reconocimiento de movimiento a partir de siluetas apiladas dentro de una nica representacin volumtrica [22][23] o de un historial de movimiento [24] (Figura 2.b). Su principal inconveniente es que no pueden representar variaciones en tiempo, velocidad y estilo del movimiento. Aunque OpenNI y TBD no ofrecen un seguimiento directo de la trayectoria del esqueleto generado, la monitorizacin de las coordenadas ofrecidas permite analizar qu tipo de movimiento se est realizando en cada parte del esqueleto y en cada momento, pudiendo recoger en tiempo real el movimiento de una o varias personas. E. Segmentacin y reconocimiento de acciones Tradicionalmente, el reconocimiento de acciones ha sido dado por la generacin de patrones de caractersticas y su anlisis en una red neuronal [25]. Para ello, la mayora de las veces es necesario descomponer un vdeo completo en secuencias independientes que representen una accin individual. Recogiendo mediante monitorizacin en el tiempo las trayectorias en 3D de puntos anatmicos ligados a un modelo, puede determinarse tras un anlisis el tipo de movimiento realizado dentro de un intervalo de tiempo. Para el correcto funcionamiento de estas tcnicas, es necesario tener en cuenta el grado de libertad de cada articulacin, evitando as resultados de movimientos imposibles. Existen herramientas que proporcionan directamente reconocimiento de movimientos sencillos. NITE, incluida en la Tabla I, es una herramienta que ofrece funciones centradas en el seguimiento del flujo de movimiento de las manos, reconociendo acciones tales como pulsar, barridos, o el dibujo de formas (por ejemplo crculos). De esta forma, NITE solventa el problema de la segmentacin, ya que distingue

11009 modelados convivieron en la misma escena, detectados como usuarios independientes (Figura 3.a). Sin embargo, la robustez de la deteccin empieza a decaer rpidamente cuando se pretende monitorizar ms de dos sujetos. Si la distancia entre sujetos es escasa, el sistema confunde las siluetas y la deteccin del esqueleto no puede realizarse o se pierde (Figura 3.b).

5 movimientos de ratn o pulsaciones de teclado. Otro proyecto con la misma motivacin es KineMote que, mediante el uso de OpenNI y NITE, ofrece una interfaz para el control de aplicaciones y juegos mediante el movimiento. Tambin ha gozado de gran popularidad el uso de Kinect como interfaz para el control de robots antropomrficos. Existen aplicaciones de teleoperacin de robots mediante Kinect, con movimientos coordinados de articulaciones, en angulacin y orientacin. Esto fue posible gracias al mapeo entre las articulaciones de la persona y las del robot mediante OpenNI y el seguimiento de su trayectoria. Otra posible aplicacin de la cmara Kinect es su uso en una gran variedad de aplicaciones de realidad aumentada y uso de avatares sobre modelos humanos. Asimismo, ya existen trabajos, que permiten la integracin con aplicaciones de diseo 3D como Autodesk. En [26] se ha desarrollado un scanner 3D a partir de las herramientas OpenNI y NITE, con unos modelados que siguen el cuerpo con bastante precisin. Esta tecnologa tambin se ha utilizado en el campo de la rehabilitacin. Tanto la realidad aumentada como el seguimiento de movimientos ofrecen mltiples usos en pacientes que sufren de alguna discapacidad. Un ejemplo es el anteriormente mencionado FAAST. As mismo, se est estudiando la combinacin con hardware adicional que aporte informacin de movimiento, como puede ser el mando de la consola Wii y su giroscopio integrado. IV. CONCLUSIONES Y LNEAS FUTURAS Con la mejora y abaratamiento de las tecnologas de captura de informacin visual en profundidad, las aplicaciones con visin 3D y, en particular aquellas para monitorizacin de movimientos en entornos no controlados estn siendo rpidamente favorecidas. Para determinados interfaces, la cmara Kinect ofrece una relacin tecnologa-precio muy ventajosa. Esta cmara ofrece una solucin adecuada de monitorizacin basada en TOF a resoluciones de hasta 640x480 px a 30fps, y est disponible a una fraccin del precio de otras soluciones comerciales. Si bien el destino original de esta cmara no era el de conectarse a un PC, el trabajo de distintos desarrolladores ha permitido liberar drivers extraoficiales que dan acceso a las funciones de captura de profundidad y movimiento de la cmara. A partir de los mismos, han surgido varias lneas de trabajo en libreras que proporcionan una capa de funcionalidad aadida sobre los drivers. En este artculo, se ha hecho un repaso por las principales lneas de trabajo en libreras para visin artificial, y en particular hacia aquellas mediante las cuales puede abordarse la construccin de un sistema para la monitorizacin de movimientos en 3D. En el escaso tiempo de vida de Kinect, son varios los desarrollos que resuelven de forma acertada operaciones para la segmentacin rpida de la escena y ciertas aproximaciones a la reconstruccin de la misma en 3D. OpenNI se configura como la mejor librera hasta la fecha para la monitorizacin de movimientos con un modelo cinemtico del cuerpo humano. Se realizaron pruebas en laboratorio para

(a) Funcionamiento con cinco personas (b) Fallo ante un cruce de usuarios en la misma escena Fig. 3. Pruebas de funcionamiento realizadas en laboratorio. (a) Fallo tras cruzarse dos usuarios a menos de 30 cm. (b) Deteccin simultnea del esqueleto de cinco personas en la misma escena.

--Salida de escena: se ha probado qu ocurre si el modelo en su totalidad desaparece de la misma. Las herramientas basadas en OpenNI tienen cierta memoria, de forma que no es necesario un recalibrado con pose inicial siempre y cuando el sujeto desaparezca y aparezca por el mismo lado de la escena. --Variabilidad de formas humanas: el sistema reconoce bien distintas morfologas humanas. Cuando la morfologa de dos sujetos es lo suficientemente parecida es posible realizar el calibrado con un sujeto y monitorizar al otro. Esto permite utilizar el sistema con pacientes que no tengan todas las extremidades o estn en una silla de ruedas. Es posible que un tcnico realice el calibrado y salga de la escena para dar paso al paciente correspondiente. --Ropa: la deteccin del cuerpo humano es robusta a la morfologa, pero se observan restricciones claras a la hora de reconstruir el esqueleto cuando el sujeto viste con ropas amplias. El sistema ni siquiera llega a detectar al sujeto en caso se utilicen prendas que oculten la figura humana, como puedan ser una falda o un abrigo largos. B. Aplicaciones Desde la liberacin de los drivers y las libreras para trabajar con la cmara Kinect, la comunidad de desarrolladores e investigadores se ha volcado en ofrecer y construir aplicaciones basadas en la deteccin en profundidad y el movimiento. Dentro de estos, pueden destacarse algunas aplicaciones. Uno de los primeros usos que se dio a la tecnologa Kinect fue la creacin de aplicaciones para el control de interfaces grficas mediante gestos, vase la interaccin con ventanas y botones en un sistema operativo y/o un navegador. Dentro de esta rea, son populares las interfaces de control de juegos mediante movimiento y gestos. Como ejemplo pueden verse algunos desarrollos con FAAST, que realizan un mapeo entre la postura del cuerpo humano y

11009 medir de forma cualitativa la adecuacin de este hardware para el desarrollo de una arquitectura para monitorizacin de movimientos, incluyendo tests que atendan a la rapidez en la deteccin de figuras humanas, la distancia de funcionamiento, la tolerancia a las oclusiones y la interaccin entre varios sujetos, entre otros. Aunque el funcionamiento es correcto, puede ser necesario un trabajo adicional para determinar y afinar los rangos de movimiento de los distintos puntos de articulacin, a fin de evitar la deteccin de posturas del cuerpo imposibles. Como resultado de esta investigacin el grupo de trabajo ha concluido la conveniencia de adoptar esta tecnologa para la realizacin de una plataforma de monitorizacin de movimientos. Ya en una fase muy temprana de desarrollo los resultados estn siendo prometedores, gracias a la robustez de la deteccin. La buena acogida de Kinect por parte de los desarrolladores, que rpidamente se han puesto a trabajar en todo tipo de aplicaciones de bajo coste, hace preveer un buen futuro para este tipo de tecnologas. En breve, soluciones similares a Kinect, pero orientadas a la conexin con PCs, tales como la cmara wavi-xtion desarrollada por PrimeSense y ASUS, estarn disponibles. Debido al bajo coste de estas cmaras, es previsible su incorporacin a todo tipo de aplicaciones. A da de hoy, se empieza a detectar ya cierto inters en aplicaciones que, mediante la utilizacin de tres o ms cmaras, permiten realizar una monitorizacin de espacios abiertos, logrando una construccin 3D de escenarios sin zonas de sombra. AGRADECIMIENTOS Esta investigacin ha sido financiada parcialmente por Ministerio de Ciencia e Innovacin con el proyecto TIN201020529. REFERENCIAS
[1] C. Plagemann, V. Ganapathi, D. Koller, S. Thrun, Real-time Identification and Localization of Body Parts from Depth Images, in: International Conference on Robotics and Automation, 2010, pp. 31083113. S. Hrabar, P. Corke, M. Bosse, High dynamic range stereo vision for outdoor mobile robotics, Robotics and Automation (2009) 430-435. M. Elmezain, A. Al-Hamadi, B. Michaelis, Real-Time Capable System for Hand Gesture Recognition Using Hidden Markov Models in Stereo Color Image Sequences, Journal of WSCG, Vol.16, No. 1, ISSN: 12136972, pp. 65-72, February 4-7, 2008. Plzen, CZ. O. Gallo; R. Manduchi, A. Rafii, Robust curb and ramp detection for safe parking using the Canesta TOF camera, Computer Vision and Pattern Recognition Workshops (2008) 1 - 8. Asus Wavi Xtion, Solucin de tecnologa PrimeSense para ordenadores, http://www.wavixtion.es/, ltima visita 14 Febrero 2011. A. Erol, B. Bebis, M. Nicolescu, R. D. Boyle, X. Twombly, Visionbased hand pose estimation: a review, Computer Vision and Image Understanding 108 (1-2) (2007) 52-73. V. I. Pavlovic, R. Sharma, T. S. Huang, Visual interpretation of hand gestures for human-computer interaction: a review, Transactions on Pattern Analysis and Machine Intelligence 19 (7) (1997) 677-695. W. Zhao, R. Chellappa, P. J. Phillips, A. Rosenfeld, Face recognition: a literature survey, ACM Computing Surveys 35 (4) (2003) 399-458. CL NUI, Plataforma estable de Code Laboratories para los dispositivos de Audio, Cmara y Motor NUI, http://codelaboratories.com/nui, ltima visita 14 Febrero 2011.

6
[10] OpenKinect, Comunidad de gente interesada en hacer uso del harware de Kinect en PCs y otros dispositivos, http://openkinect.org/wiki/Main_Page, ltima visita 14 Febrero 2011. [11] PrimeSense, Tecnologas de visin artificial 3D, http://www.primesense.com/, ltima visita 14 Febrero 2011. [12] OpenNI, Plataforma para promover la interoperabilidad entre dispositivos, aplicaciones y middleware de Interaccin Natural (NI), www.openni.org, ltima visita 14 Febrero 2011. [13] NITE, Infraestructura algortmica para la identificacin de usuarios, deteccin de caractersticas y reconocimiento de gestos, http://www.primesense.com/?p=515, ltima visita 14 Febrero 2011. [14] FAAST, Middleware para facilitar la integracin del control mediante el cuerpo en juegos y aplicaciones de realidad virtual, http://projects.ict.usc.edu/mxr/faast/, ltima visita 14 Febrero 2011. [15] OpenFrameworks, Herramienta en C++ de cdigo abierto para la programacin creativa, http://www.openframeworks.cc/, ltima visita 14 Febrero 2011. [16] D. Weinland, R. Ronfard, E. Boyer, A survey of vision-based methods for action representation, segmentation and recognition, Computer Vision and Image Understanding 115 (2011) 224-241. [17] Daniel D. Morris, James M. Rehg, Singularity analysis for articulated object tracking, in: Proceedings of the Conference on Computer Vision and Pattern Recognition (CVPR 98), Santa Barbara, CA, June 1998, pp.289-297. [18] A. Agarwal, B. Triggs, Recovering 3D human pose from monocular images, IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI) 28 (1) (2006) 44-58. [19] Y. Zhu, B. Dariush, K. Fujimura, Kinematic self retargeting: A framework for human pose estimation. Computer Vision and Image Understanding 114 (2010) 1362-1375. [20] R. Poppe, Vision-based human motion analysis: An overview, Computer Vision and Image Understanding 108 (2007) 4-18. [21] T. B. Moeslund, A. Hilton, V. Krger, A survey of advances in visionbased human motion capture and analysis, Computer Vision and Image Understanding 104 (2) (2006) 90-126. [22] M. Blank, L. Gorelick, E. Shechtman, M. Irani, R. Basri, Actions as space-time shapes, in: International Conference on Computer Vision, 2005, pp. 1395-1402. [23] A. Yilmaz, M. Shah, Actions Sketch: a novel action representation, in: Conference on Computer Vision and Pattern Recognition, 2005, pp. I:984-989. [24] A. F. Bobick, J. W. Davis, The recognition of human movement using temporal templates, Transactions on Pattern Analysis and Machine Intelligence 23 (3) 2001 257-267. [25] Y. Guo, G. Xu, S. Tsuji, Understanding human motion patterns in: International Conference on Pattern Recognition, vol. 2, 1994, pp. 325329. [26] Captura de objetos 3D y modelado de esqueleto en Autodesk mediante Kinect, http://www.brekel.com/, ltima visita 14 Febrero 2011. [27] J. Deutscher, I. Reid, Articulated body motion capture by stochastic search, International Journal of Computer Vision 61 (2) (2005) 185-205.

[2] [3]

[4]

[5] [6]

[7]

[8] [9]

Você também pode gostar