5 Identificación de Geometría Facial A Través de Patrones Fuzzy Con Sensor RGBD

Identificación de Geometría Facial a través de Patrones
Fuzzy con Sensor RGBD

Víctor Fernández-Cervantes1, Arturo García1, Marco Antonio Ramos2, Andrés Méndez1 1 Instituto
Politécnico Nacional, CINVESTAV, Guadalajara,
Méjico
2 Universidad Autónoma del Estado de México, México
{vfernand, aggarcia, amendez}@gdl.cinvestav.mx, mramos@univ-tlse1.fr
1. Introducción
Abstracto. El reconocimiento facial humano
automático es una tarea importante y Las aplicaciones de la vida real como la
complicada; es necesario diseñar algoritmos autenticación, la robótica y la seguridad se
capaces de reconocer los patrones pueden beneficiar sustancialmente a través
constantes en la cara y utilizar los recursos de un sistema automático y robusto que
informáticos de manera eficiente. En este maneja la detección facial con una interfaz
artículo presentamos un algoritmo novedoso transparente [1, 2, 3, 4, 5]. El reconocimiento
para reconocer el rostro humano en tiempo facial y el seguimiento son dos de los
real; la entrada del sistema es la profundidad principales problemas que recientemente
y los datos de color del dispositivo Microsoft han recibido considerable atención [6, 7].
KinectTM. El algoritmo reconoce patrones / Los algoritmos de reconocimiento
formas en la topografía de la nube de automático de rostros suelen suponer que
puntos. La plantilla de la cara se basa en la las imágenes de la cara se alinean bien y
geometría facial; la teoría forense clasifica el
rostro humano con respecto a los patrones tener poses similares Estas limitaciones
constantes: puntos cefalométricos, líneas y difícilmente se encuentran en el mundo real
áreas de la cara. La topografía, la posición [8, 9]. Los investigadores de [8] intentaron
relativa y la simetría están directamente superar esta limitación. Un enfoque común
relacionadas con los puntos craneométricos. es discretizar las poses de la cara y aprender
La similitud entre un grupo de nubes de a detectar cada pose por separado [8]. Una
puntos y una descripción de patrones se serie de estudios se basan en modelos
mide mediante un algoritmo de teoría de estadísticos de la forma de la cara y los
patrones difusos. La identificación de rostros modelos de apariencia activa [9]. Otros
está compuesta por dos fases: la primera métodos basados en las características
fase calcula la hipótesis de patrón facial de faciales requieren que todas las
los puntos faciales, configura cada forma de características faciales sean completamente
punto, la ubicación relacionada en las áreas y visibles en cada postura o que seleccionen
las líneas de la cara. Luego, en la segunda los puntos manualmente y los hagan
fase, el algoritmo realiza una búsqueda en coincidir con el modelo genérico [9]. En
estas configuraciones de puntos frontales. general, estos métodos basados en imágenes
Palabras clave: Kinect, RGBD, lógica difusa, 2D son sensibles a los cambios de
detección de rostros, segmentación de iluminación, la falta de características y las
rostros. oclusiones parciales [10]. El trabajo
presentado en
[11] es un sistema basado en una red Para combinar correctamente una imagen
neuronal difusa que combina histogramas de RGB con los datos de profundidad, es
información de color y profundidad. Otro necesario alinear espacialmente la salida de
método [12] detecta el rostro humano la cámara RGB y la salida de la cámara de
usando una combinación de los localizadores profundidad. Además, los datos de
del centro del ojo de última generación y las profundidad en bruto son muy ruidosos y
ubicaciones de las esquinas. Este sistema muchos píxeles en la imagen pueden no
estima la mirada visual de un usuario en un tener profundidad debido a reflejos
ambiente controlado. múltiples, objetos transparentes o dispersión
Los principales problemas de este problema en ciertas superficies (como el tejido
son la detección de rostros y la clasificación humano y el cabello). Esos datos inexactos /
de género. Aquí, varios métodos se basan en faltantes de profundidad (agujeros) deben
la selección del espacio de color para recuperarse antes de ser utilizados.
detectar la región y la cara de la piel, y para Por lo tanto, muchos sistemas basados en
realizar una clasificación de género. La Kinect comienzan con un módulo de
relación entre la detección de rostros y la preprocesamiento que lleva a cabo la
clasificación de género se examina calibración de la cámara específica de la
experimentalmente en [13]. Mientras tanto, aplicación y / o el filtrado de datos de
[14] informa un análisis detallado de cómo profundidad. Sin embargo, más información
las diferentes normalizaciones pueden no es necesariamente mejor. Solo es útil si
afectar la precisión de la clasificación de esta información se puede manejar de forma
género. Los dos métodos diferentes de adecuada. Para superar el abrumador
alineamiento y clasificación de género volumen de información, necesitamos
estudiados en este trabajo son máquinas de nuevos algoritmos para procesarla, y los
vectores de soporte y clasificadores Real estándares de características geométricas
Adaboost de dos capas [15]. Los hallazgos deben adaptarse a las características de la
más interesantes, en el contexto del geometría de la cara, como los puntos
aprendizaje supervisado para cefalométricos para describir el rostro
reconocimiento facial [14], es que la humano [21].
máquina de vectores de soporte funciona Por lo tanto, como cada cara es única, hay
mejor que otros clasificadores y que la crestas y grietas, todas envueltas alrededor
resolución de una cara no afecta la tasa de de una calavera esférica que hace que la cara
clasificación [15]. Otros trabajos [16, 17, 18, sea un terreno irregular. Aún así, hay ciertos
19, 20] usan modelos de colores vectoriales puntos de referencia constantes en el rostro
para separar imágenes RGB con el fin de humano [21] que se pueden usar. Estos
realizar la detección del color de la piel. puntos nos permiten crear la geografía de la
Todos estos métodos han sido útiles y cara y, en última instancia, desarrollar
funcionan muy bien en entornos índices mediante los cuales se puedan
controlados. revelar relaciones sutiles. Los puntos
Sin embargo, desde que salieron dispositivos cefalométricos faciales corresponden a
como Kinect, tenemos mucha más puntos craneométricos esqueléticos
información que podemos usar, como datos subyacentes y cierto conocimiento de sus
de profundidad. Los datos obtenidos con correlaciones [21].
Kinect normalmente no pueden alimentarse
directamente en los algoritmos de visión por En nuestro trabajo, el algoritmo propuesto
computadora diseñados. La mayoría de los tiene dos fases diferentes. La primera fase es
algoritmos aprovechan la rica información la calibración: comenzamos desde el punto
(RGB y profundidad) unida a un punto. clave en la cabeza del esqueleto de Kinect
Microsoft. Por lo tanto, el algoritmo evita en la que se basa este artículo. La Sección 4
buscar en toda la imagen. Luego, dividimos la describe el modelo de nube de puntos
cara en dos partes (izquierda y derecha) y propuesto y la minimización de las reglas
creamos diferentes plantillas de hipótesis en difusas. En la Sección 5, presentamos la idea
función de dónde se encuentra la ubicación detrás de los puntos de contorno. En la
más probable de cada punto cefalométrico. Sección 6, mostramos los resultados del
Luego, la información de profundidad se usa modelo de punto de nube para detectar la
para comparar subconjuntos de puntos en geometría facial. Finalmente, en la Sección 7,
cada lado de la cara para una topografía de se presentan las conclusiones y se discuten
forma similar, hasta que se encuentre la posibles mejoras futuras.
mejor coincidencia para la descripción del 2 Kinect
punto cefalométrico o se alcance el límite de
tiempo para buscar este punto. 2.1 Hardware
Estos subconjuntos de puntos se traducen en
una estructura de nube de puntos. Esto da El dispositivo Kinect consiste en un patrón
paso al inicio de la segunda fase del proyector IR y una cámara IR, que se utilizan
algoritmo: la forma del punto se modela para triangular puntos en el espacio
utilizando la teoría del patrón difuso que euclidiano. Funcionan juntos como una
encuentra la similitud entre las descripciones cámara de profundidad y color (RGB).
de forma de los puntos cefalométricos y la 1 Cámara RGB ofrece tres componentes
deformación de la nube de puntos. básicos de color de video. La cámara
Esta representación está inspirada en la funciona a 30 Hz y puede ofrecer imágenes a
teoría del patrón de álgebra [22] y la 640 × 480 píxeles con 8 bits por canal. Kinect
descripción de las proporciones en la también tiene la opción de producir
topografía para representar la relación de imágenes de mayor resolución, corriendo a
cada punto con sus vecinos; también se 10 f / s con una resolución de 1280 × 1024
utilizan las funciones de membresía difusa píxeles.
basadas en reglas basadas en información de 2 El sensor de profundidad tridimensional
profundidad y color. Posteriormente, se usan consiste en un proyector láser IR y una
conexiones cuadradas concéntricas entre cámara IR. Juntos, el proyector y la cámara
puntos para localizar información facial. El crean un mapa de profundidad, que
problema de la oclusión utilizando proporciona la información de distancia
propiedades simétricas de la cara se relaja entre un objeto y la cámara. El sensor tiene
debido a la búsqueda de formas de puntos un límite de rango práctico de 0.8m - 3.5m
de clúster individuales similares que de distancia y produce video a una velocidad
coinciden con las características de la de cuadro de 30 cuadros / s con una
geometría de la cara [21]. Luego, usando la resolución de 640
configuración de la nube de puntos, × 480 píxeles. El campo de visión angular es
podemos describir los contornos para 57◦ horizontalmente y 43◦ verticalmente.
obtener áreas faciales. Esto permite el ajuste 3 La inclinación motorizada es un pivote para
en la estructura de la plantilla para tener una el ajuste del sensor. El sensor se puede
descripción de la forma de una cara en inclinar hasta 27 ° hacia arriba o hacia abajo.
particular. Por lo tanto, el Kinect se puede utilizar para
El presente documento tiene la siguiente reconocer el contenido de la imagen y la
estructura: en la Sección 2, revisamos las textura de los puntos 3D. Para las
ventajas del dispositivo Kinect para recopilar mediciones, Kinect ofrece tres salidas: IR,
información visual; en la Sección 3, RGB e imágenes de profundidad [23, 24, 25,
describimos la teoría de la geometría facial 26]. En realidad, el Kinect se ha convertido
en la forma más práctica de capturar (versión 2.0) es una herramienta
imágenes RGB con mapas de profundidad en multiplataforma y de código abierto. La Tabla
tiempo real [26]. Proporciona información de 1 ofrece una comparación entre estas dos
la forma de la cara para diferentes acciones herramientas en términos de sus
que tienen proyecciones 2D similares junto componentes algorítmicos. En general,
con una proyección de vista única en tres OpenKinect es una biblioteca gratuita de
planos cartesianos ortogonales [27, 28, 29, código abierto mantenida por una
30]. Sin embargo, la detección de la cara con comunidad abierta de personas de Kinect.
imágenes 2D / 3D es difícil debido al hecho En general, la mayoría de los componentes
de que la cara está sujeta a cambios de correspondientes proporcionados por estas
traducción, escala, orientación, oclusión dos bibliotecas tienen funcional similitudes.
parcial, rotación e iluminación [31]. También Sin embargo, hay diferencias entre ellos. El
altos niveles de ruido todavía están rastreador esquelético en OpenNi debe
presentes en la captura de datos [31]. Como mantener una posición de calibración
cada patrón local de puntos proyectados es predefinida por el usuario hasta que el
único, es factible la correspondencia entre rastreador identifique suficientes junturas. El
los patrones de puntos locales observados en tiempo de calibración varía mucho según las
una imagen con los patrones de puntos del condiciones del entorno y la potencia de
proyector calibrados. La profundidad de un procesamiento. Por el contrario, Microsoft
punto puede se deduce por la traducción SDK no necesita una inicialización de pose
relativa izquierda-derecha del patrón de específica. Sin embargo, es más propenso a
puntos. Esta traducción cambia según la falsos positivos que OpenNi, especialmente
distancia del objeto al plano de la cámara- cuando la pose inicial de un ser humano es
proyector. demasiado complicada. Además, la versión
más reciente de Microsoft SDK es capaz de
2.2 Software rastrear la parte superior del cuerpo de un
usuario (diez articulaciones) en caso de que
El software Kinect hace referencia a la la parte inferior del cuerpo no sea visible.
biblioteca de desarrollo Kinect, así como a Esto es particularmente útil cuando se
los algoritmos. Varias herramientas de analizan las posturas humanas en una
software están disponibles para desarrollar posición sentada. Además, OpenNi se centra
productos para diversas aplicaciones. Estas en la detección de mano y el seguimiento
herramientas proporcionan instalaciones esquelético manual, mientras que Microsoft
para sincronizar señales de imagen, capturar SDK realiza un simple reconocimiento de
movimiento 3D humano, reconocer voz gestos. Cabe destacar que la nueva versión
humana, entre otros. Los componentes de de OpenNi (2.0) permite a los usuarios
software del paquete de detección son instalar Microsoft Kinect SDK en la misma
OpenNi [32], Microsoft Kinect SDK [33] y máquina y ejecutar ambos paquetes con el
OpenKinect (LibFreeNect) [34]. Los marcos controlador Microsoft Kinect, lo que significa
OpenNi y NITE proporcionan identificación que OpenNi ahora es compatible con el
de usuario, segmentación de escenas y controlador Kinect. Al hacerlo, ya no es
seguimiento de esqueleto. Trabajando en necesario cambiar entre dos controladores,
conjunto con un middleware compatible incluso cuando los usuarios desean
llamado NITE, la versión beneficiarse de ambos paquetes.
2.0. Microsoft Kinect SDK es lanzado por La evaluación del rendimiento de Kinect,
Microsoft, y su versión actual es 1.7. desde la perspectiva del hardware o del
Microsoft SDK (versión 1.7) está disponible software, nos ayuda a comprender las
solo para Windows, mientras que OpenNi ventajas y limitaciones del sensor Kinect y,
por lo tanto, a diseñar mejor nuestro propio distancia entre la escena y el sensor
sistema para una aplicación determinada. En aumenta, desde unos pocos milímetros en
[35], los autores presentan una investigación un rango cercano a unos 4 cm en el rango
experimental de la medición de la máximo del sensor.
profundidad de Kinect en términos de El rendimiento del software Kinect es
resolución y precisión. Además, hacen una importante al aplicar Kinect al análisis de la
comparación cuantitativa de la capacidad de postura humana. En [38], la capacidad de
medición 3D para tres cámaras diferentes: la captura de movimiento 3D que ofrece el
cámara Kinect, una cámara estéreo y una Kinect se prueba para saber si el sensor
cámara TOF. Los resultados experimentales Kinect tiene una precisión comparable a la de
revelan que Kinect es superior en precisión a los sistemas existentes de adquisición de
la cámara TOF y está cerca de una cámara movimiento basados en marcadores. El
estéreo de resolución media. En [36], los resultado demuestra que Kinect es capaz de
investigadores comparan el sensor Kinect capturar coordenadas 3D relativas de
con otras dos cámaras TOF 3D. Los datos de marcadores con errores menores (<1 cm) en
la verdad sobre el terreno son producidos caso de que el sensor esté posicionado en un
por un sensor de rango láser con alta rango ideal (1m a 3m) y con un campo de
precisión, y la prueba se realiza en un visión efectivo.
ambiente interior no controlado. Los En [39], los autores examinan la precisión de
experimentos producen las siguientes la localización conjunta y la robustez de la
conclusiones: estimación de postura con respecto a
configuraciones más realistas. En su
1 El rendimiento del sensor Kinect es muy experimento, se llevan a cabo seis ejercicios,
similar al del láser para entornos de corto en los cuales el sujeto está sentado o
alcance (distancia <3,5 metros); colocado al lado de una silla. El ejercicio es
generalmente desafiante para el
2 Dos cámaras TOF tienen un rendimiento reconocimiento de la postura humana ya que
ligeramente peor en la prueba de corto la autooclusión aparece con frecuencia y el
alcance; y ángulo de visión de captura se cambia con el
3 Ningún sensor alcanza un rendimiento tiempo. La ubicación 3D adquirida de cada
comparable al del sensor láser en el rango de articulación se compara luego con los datos
distancia total. generados por un sistema de captura de
movimiento basado en marcadores, que se
Esto sugiere implícitamente que Kinect puede considerar como los datos de verdad
podría ser una mejor opción (sobre cámaras del terreno. De acuerdo con los resultados, el
TOF) si la aplicación solo necesita tratar con Kinect tiene un potencial significativo como
entornos de corto alcance, ya que las una alternativa de bajo costo para la captura
cámaras TOF suelen ser más caras que el de movimiento en tiempo real y las
sensor Kinect. aplicaciones de seguimiento del cuerpo. La
En lugar de comparar el Kinect con otras precisión de la estimación conjunta de Kinect
cámaras de profundidad disponibles, [37] es comparable a la captura de movimiento
proporciona una idea de la calidad basada en marcadores en una pose corporal
geométrica de los datos de profundidad de más controlada.
Kinect basándose en un análisis de la Sin embargo, en general, el error típico del
precisión y la resolución de la señal de seguimiento esquelético Kinect es de
profundidad. Los resultados experimentales aproximadamente 10 cm. Además, el
muestran que el error aleatorio de la algoritmo de Kinect actual falla
medición de profundidad aumenta cuando la frecuentemente debido a oclusiones, no
distinguiendo la profundidad (extremidades más controlada.
cercanas al cuerpo) o el desorden (otros Sin embargo, en general, el error típico del
objetos en la escena). seguimiento esquelético Kinect es de
aproximadamente 10 cm. Además, el
3 Geometría Facial algoritmo de Kinect actual falla
frecuentemente debido a oclusiones, no
El rostro humano es una maravilla de distinguiendo la profundidad (extremidades
contornos que muestran colinas y valles, cercanas al cuerpo) o el desorden (otros
laderas, crestas, crestas y grietas, todo objetos en la escena).
envuelto alrededor de un cráneo esférico. A
lo largo de este terreno irregular hay ciertos donde 𝐹𝐶𝑃 es el conjunto de los puntos
puntos de referencia constantes que se cefalométricos en la cara, cada punto
denotan por una serie de puntos cefalométrico tiene una descripción de la
cefalométricos definidos con precisión [21]. forma geométrica y su posición entre los
Estos puntos cefalométricos son bastante otros puntos cefalométricos.
importantes porque están directamente Esto significa que las áreas de la cara están
relacionados con los puntos craneométricos contorneadas, y un verdadero tratamiento
esqueléticos subyacentes. Aunque las caras matemático de esta superficie requeriría una
no son idénticas, tienen el mismo patrón en geometría sólida [21]. Los planos frontales
la distribución de los puntos cefalométricos en Eq. 2 se definen como vectores que
[21]. Estos puntos se muestran en la Tabla 2. dividen la cara usando un subconjunto de
Nos permiten mapear la geografía de la cara, puntos cefalométricos donde la n-tupla de
para zonificar sus áreas y, en última 𝐹𝐶𝑃 se define en Eq. 3. Entonces,
instancia, para desarrollar índices mediante 𝐹𝐿 = {⃗𝑀⃗⃗⃗⃗⃗⃗⃗⃗𝑆⃗⃗⃗⃗⃗⃗𝑃⃗ ⋃ ⃗𝑀⃗⃗⃗⃗⃗⃗⃗⃗𝐹⃗⃗⃗𝑃⃗ ⋃
los cuales se puedan revelar relaciones ⃗𝑇⃗⃗⃗⃗⃗⃗𝑁⃗⃗⃗⃗⃗⃗⃗⃗𝑃⃗..}. (2)
sutiles. Los puntos cefalométricos faciales Los cuatro planos faciales más útiles se
corresponden a los puntos craneométricos definen de la siguiente manera.
esqueléticos subyacentes, y el conocimiento El plano medio sagital (MSP) divide la cara en
de sus correlaciones forma la base científica los lados derecho e izquierdo bilateralmente
de la aproximación facial forense [21]. Los simétricos que conectan todos los puntos de
puntos proyectados sobre la plantilla del la línea media desde el vértice al ⃗
rostro humano se muestran en la Fig. 1. El 𝑀⃗⃗⃗⃗⃗⃗⃗⃗𝑆⃗⃗⃗⃗⃗⃗𝑃⃗ = [𝑣, 𝑠𝑔, 𝑔, 𝑛, 𝑛𝑎, 𝑝𝑟𝑛, 𝑠𝑛, 𝑠𝑙𝑠,
código, el nombre y el conjunto de miembros 𝑠𝑙𝑠, 𝑠𝑡𝑜, 𝑝𝑟𝑛, 𝑝𝑟𝑛, 𝑠𝑙𝑠, 𝑙𝑠, 𝑛𝑎, 𝑝𝑟𝑛, 𝑠𝑛, 𝑙𝑠,
se muestran en la Tabla 2. La definición de 𝑛𝑎, 𝑝𝑟𝑛,
los puntos cefalométricos viene dada por la 𝑙𝑚, 𝑝𝑜𝑔, 𝑔𝑛].
ecuación. 1: El plano medio-facial (MFP) divide
𝐹𝐶𝑃 = [𝑣, 𝑠𝑔, 𝑔, 𝑒𝑢, 𝑎𝑡, 𝑧𝑦, 𝑔𝑜, 𝑒𝑐, 𝑒𝑐, 𝑖𝑙, 𝑧𝑦, aproximadamente la cabeza en las mitades
𝑧𝑦, 𝑒𝑐, 𝑒𝑛, 𝑎𝑡, 𝑧𝑦, 𝑔𝑜, 𝑒𝑛, 𝑎𝑡, 𝑧𝑦, superior e inferior por una línea horizontal
tangente a los polos inferiores del iris:
𝑛, 𝑛𝑎, 𝑝𝑟𝑛, 𝑠𝑛, 𝑠𝑙𝑠, 𝑙𝑠, 𝑠𝑡𝑜, 𝑙𝑖, 𝑙𝑖, 𝑐ℎ, 𝑐ℎ, 𝑝𝑜𝑔, ⃗𝑀⃗⃗⃗⃗⃗⃗⃗⃗𝐹⃗⃗⃗𝑃⃗ = [𝑝𝑎, 𝑒𝑐, 𝑖𝑚, 𝑖𝑙, 𝑒𝑛].
𝑠𝑡𝑜, 𝑠𝑡𝑜, 𝑐ℎ, 𝑙𝑚, 𝑠𝑙𝑠, 𝑠𝑡𝑜, 𝑠𝑡𝑜, 𝑐ℎ, 𝑙𝑚, 𝑠𝑙𝑠, El plano nasal transversal (PNT) es un plano
𝑠𝑡𝑜 horizontal paralelo al MFP y que pasa a
𝑠𝑏𝑎, 𝑝𝑟𝑎, 𝑝𝑎, 𝑡𝑟], través de la subnasal:
⃗𝑇⃗⃗⃗⃗⃗⃗𝑁⃗⃗⃗⃗⃗⃗⃗⃗𝑃⃗ = [𝑠𝑏𝑎, 𝑎𝑙, 𝑠𝑛].
(1) El plano transglabellar (TGP) es un plano
horizontal que pasa a través de la glabela y
comparable a la captura de movimiento marca el lado superior del cuadrado facial: ⃗
basada en marcadores en una pose corporal 𝑇⃗⃗⃗⃗⃗⃗𝐺⃗⃗⃗⃗⃗⃗𝑃⃗ = [𝑧𝑦, 𝑛].
representación del modelo que permanezca
𝑀⃗⃗⃗⃗𝑆⃗⃗⃗𝑃, 𝑀⃗⃗⃗⃗𝐹𝑃, 𝑇⃗⃗⃗𝑁⃗⃗⃗⃗𝑃, 𝑇⃗⃗⃗𝐺⃗⃗⃗𝑃 𝑇⃗⃗⃗𝐺⃗⃗⃗𝑃 𝐹𝐶𝑃. (3) simétrica e invariante a la rotación. Para
Las ocho áreas de la cara están contorneadas esto, es posible utilizar una transformación
en Eq. 4, y un tratamiento matemático de su de la representación de cada punto en P en
superficie requeriría una geometría sólida. una representación del generador de la
Uno de los principales objetivos de la Teoría de Patrones
geometría facial, sin embargo, es revelar las [22] que conserva información de distancia
relaciones faciales a través del análisis facial [24]. El número de puntos necesarios para
gráfico, por lo que debemos contentarnos representar la información capturada de la
con aplicaciones euclidianas de la geometría RGB sensores y IR es n = 640 × 480 = 307200.
más simples [21]. Las ocho áreas de la cara [24] Sin embargo, sólo los subconjuntos de
como se ve en la vista frontal y la vista de 90 hipótesis de puntos cefalométricos en la
° de la cara giratoria están demarcadas en las topografía de la imagen de profundidad se
Figuras 1 y 2. Esta es una cuestión preliminar convierten a la nube de puntos estructura.
relacionada con la relación entre los ojos, la Por lo tanto, cada punto cefalométrico tiene
nariz, los labios y las orejas: tres segmentos concéntricos diferentes: el
1. área frontal, punto inicial, los puntos interiores y los
2. área nasal, puntos fronterizos. Finalmente, cada punto
3. Área labial, en la estructura de datos es invariante. Esto
4. Área mental, significa que cada punto de datos obtenido
5. área orbital, con Kinect y su representación de estructura
6. Zygomaxillary área, de datos son los mismos [22]. Con el fin de
7. Área Buccomandibular, agrupar todas estas representaciones de
8. Área Auricular. puntos juntos en una nube de puntos, cada
Luego, las áreas de la cara se definen como punto posee una serie de bonos J1, J2, ..., jb
un subconjunto de los puntos cefalométricos .. [22] donde 𝑏 = b (p) significa la unión-
y la forma geométrica dentro del área. Por lo conectividad de p. El número de enlaces
tanto, la cara se describe en Eq. 5. puede variar de un punto a otro y cada
𝐹𝐴 = [𝐹𝑟𝑜𝑛𝑡𝑎𝑙, 𝑁⃗⃗⃗⃗𝑎𝑠𝑎𝑙, 𝐿𝑎𝑏𝑖𝑎𝑙, 𝑀⃗⃗⃗⃗𝑒𝑛𝑡𝑎𝑙, enlace contiene un valor booleano; esto
𝑂𝑟𝑏𝑖𝑡𝑎𝑙, permite que un enlace se conecte con otros
𝑍𝑦𝑔𝑜𝑚𝑎𝑥𝑖𝑙𝑙𝑎𝑟𝑦, 𝐵𝑢𝑐𝑐𝑜𝑚𝑎𝑛𝑑𝑖𝑏𝑢𝑙𝑎𝑟, bonos. Estas conexiones se muestran en la
𝐴𝑢𝑟𝑖𝑐𝑢𝑙𝑎𝑟], Tabla 3 que describe una matriz de
conectividad β. Tenemos tres grupos
(4) diferentes para describir la imagen RGBD de
𝐹 ={𝐹𝐶𝑃⋃𝐹𝐿⋃𝐹𝐴}. (5) entrada: puntos de los bordes, puntos de las
esquinas y puntos interiores.
Modelo de nube de 4 puntos Una representación gráfica de los puntos se
El modelo de nube de puntos es una muestra en la Fig. 3. El uso de estos tipos de
estructura de datos que el sistema usa para árboles de puntos, es posible describir la
reconocer el rostro humano a partir de una información de imagen completa como una
imagen RGBD considerando cada punto en la estructura de punto de enturbiamiento
imagen de profundidad. 𝑃𝑑 = [𝑝1, 𝑝2, 𝑝3, 𝑝4, porque los puntos de esquina y puntos de
..., 𝑝𝑛] tiene coordenadas en el plano borde pueden girar 90 °, 180 °, 270 ° ,
cartesiano (x, y, z); 𝑥, 𝑦, 𝑧 ∈ which, que se mientras que los puntos interiores son
interpreta como una posición en el plano. invariantes bajo rotaciones. Además, el
Para asegurar que esto solo cambie la componente RGB de color asociado 𝑃𝑐 = [𝑝1,
representación de la información y no sus 𝑝2, 𝑝3, 𝑝4, ..., 𝑝𝑛] y el número de
valores [22], es necesario generar una identificación de la configuración σ son
invariables. El modelo de nube de puntos permitidas.
utiliza la información de profundidad de la
siguiente manera. El valor ∂ se define como μp∂: ∂ → [0,1], (7)
la diferencia de profundidad entre dos
puntos adyacentes unidos por un enlace, y se P∂ = [más bajo, muy bajo, bajo, normal, alto,
calcula mediante Eq. 6. Este término se muy alto, más alto], (8)
calcula para cada conexión de bonos. Esto 𝜇p(∂𝑖)
permite definir un umbral para caracterizar
la forma del punto dada la relación de la ∑
diferencia de profundidad entre los vecinos 𝑖 ∂𝑖
conectados en el número de identificación σ: Este sistema basado en reglas difusas está
∀𝛽𝑖: ∃ ∂i → ∂i𝜖𝛽𝑖 = 𝑧𝜖𝜌(𝑥,𝑦) − 𝑧𝜖𝜌(𝑥,𝑦)𝛽𝑛𝑥𝑛 compuesto por reglas if-then. Tal conjunto
Cada conector se clasifica por una función de reglas se usa para generar una
difusa para describir la forma topográfica del descripción topográfica de los puntos
punto en función de diferentes valores de conectados. La lógica difusa tipo I se usa
profundidad on en cada enlace. Estos valores porque es fácil describir el patrón en la cara
se describen mediante una función de en términos de puntos de topografía válidos
membresía difusa y su propio sistema de donde existen variaciones. Los valores de 𝜕
conjunto de reglas difusas. Como los puntos se usan para clasificar cada cambio de punto
byc de la Fig. 3 son las esquinas y el borde, según la descripción del punto cefalométrico;
respectivamente, es muy poco probable que sin embargo, la relación para etiquetar cada
se encuentre alguna parte de la cara en esos punto es constante, y la relación entre
puntos. Entonces, el sistema solo usa los distancias y etiquetas se muestra en la Tabla
puntos interiores. Las funciones de 3. La etiqueta de cada punto es el código
membresía se usan para definir la diferencia para representar la forma gráfica en la
de profundidad de la variable lingüística topografía de la imagen de profundidad para
entre dos puntos conectados, ver Fig. 4. El etiquetar cada enlace sobre la dependencia
mínimo∂miny el máximo ∂max se obtiene de la clasificación con el conjunto de reglas
como un número entero valores entre 0 y difusas. Como solo clasificamos los puntos
2047. El valor de la distancia interiores, todos los puntos (azul) están b (4)
∂i indica la diferencia de profundidad en la conectados; las líneas representan los
superficie entre dos puntos. A continuación, enlaces que conectan los cuatro vecinos que
los puntos cefalométricos identificables del se muestran en la figura 5, de la siguiente
rostro humano se describen mediante manera: verde es el punto adyacente en j1,
conjuntos difusos tipo-1. naranja es j2 amarillo j3 y rojo j4.
Estas configuraciones se muestran en la Fig. Usando la experimentación y los datos
5. Finalmente, el conjunto de reglas difusas disponibles, se diseñaron las siguientes
se usa para describir la configuración en la reglas difusas 𝑟
nube de puntos topográficos. La topografía
se representa con un conjunto difuso de
entrada correspondiente a la información de
diferencia de cambio de profundidad: más
bajo, muy bajo, bajo, normal, alto, muy alto y
más alto. Por lo tanto, el conjunto p∂ se
define en las ecuaciones 7 y 8 para describir
las diferencias difusas entre las distancias
puntuales. Eq. 9 define la función de
membresía difusa entre las distancias

5 Identificación de Geometría Facial A Través de Patrones Fuzzy Con Sensor RGBD

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

5 Identificación de Geometría Facial A Través de Patrones Fuzzy Con Sensor RGBD

Enviado por

Direitos autorais:

Formatos disponíveis

Identificación de Geometría Facial a través de Patrones

Fuzzy con Sensor RGBD

{vfernand, aggarcia, amendez}@gdl.cinvestav.mx, mramos@univ-tlse1.fr

Você também pode gostar