Você está na página 1de 53

Nuevos enfoques para el Anlisis de Expresiones Faciales Automtico (AEFA)

Ana Beln Moreno Daz GAVAB (Grupo de Algortmica para la Visin Artificial y la Biometra) ESCET Universidad Rey Juan Carlos I Seminario sobre Sistemas Inteligentes SSI06

ndice
Introduccin Nuevos enfoques Futuro

Introduccin
Anlisis de Expresiones Faciales Automtico (AEFA)
Objetivo: reconocer y analizar mediante ordenadores, movimientos faciales y cambios en los rasgos faciales, a partir de informacin visual.

Expresiones faciales
Cambios faciales respuesta a:
Estado emocional interno de la persona Estado fsico Intenciones Comunicacin social

Origen
[1872]: Origen de la investigacin sobre el comportamiento [1978]: Suwa et al. realizaron un SAEF basado en el seguimiento de 20 puntos en una secuencia de imgenes Posteriormente y en la actualidad: se han realizado numerosos 3 trabajos de investigacin.

Introduccin
Anlisis de Emociones
Se requiere un nivel ms elevado de conocimiento. Las expresiones faciales no slo pueden provenir de emociones, sino tambin pueden expresar:
Intencin Procesos cognitivos Esfuerzo fsico Pensamientos interpersonales e intrapersonales Conversaciones El contexto Gestos corporales Voz Peculiaridades individuales Factores culturales Configuracin facial Duracin
4

Su interpretacin debe estar asistida por

El AEFA slo estudia las acciones faciales, sin considerar estos factores.

Estructura bsica de los SAEF


El AEFA incluye:
Medir el movimiento facial Reconocer expresiones

Pasos:

Etapas de la creacin y uso de un SAEFA


Registro o entrenamiento (Off-line)
Digitalizacin Extraccin de rasgos Almacenamiento BD

Para cada expresin identificada

Identificacin de expresiones (On-line)


Digitalizacin Extraccin de rasgos Comparacin con las almacenadas expresin BD Ident.

Etapas de la creacin y uso de SAEFA


Off-line
Para cada expresin

On-line

Expresin a

reconocer

Adquisicin de la imagen Deteccin de la cara o caras Seguimiento Normalizacin y Extraccin de caractersticas faciales

Adquisicin de la imagen Deteccin de la cara o caras seguimiento Normalizacin y Extraccin de caractersticas faciales

Almacenamiento

Reconocimiento

BD

Id. expresin

Estructura bsica de los SAEF


Adquisicin de la cara Deteccin
Deteccin en cada frame Deteccin en el 1 frame (frontal y sin expresin) + traking para el resto

Estimacin de la pose Normalizacin del tamao y pose


Rotacin de la cabeza en el plano Escalado
8

Deteccin de la cara
Problema de investigacin en s mismo Mltiples aplicaciones:
Recuperacin de informacin, RFA, ambientes inteligentes, etc..

Su xito o fracaso es crucial para el AEFA. Consiste en:


Localizar cada cara en la imagen, reconociendo que se trata de una cara y no otro patrn.

Cronologa:
Hasta el 95: detectar la vista frontal de la cara con un fondo libre de objetos. Posteriormente: sobre fondos con otros objetos presentes ltimos aos: se ha abordado el problema de detectar varias caras en una misma imagen. Investigacin actual: segmentar mltiples caras ocluidas o rotadas en
imgenes de escenas complejas.

Dificultades:
Existencia de otros objetos Oclusiones parciales de la cara (barba, gafas)
9

Deteccin de la cara
Tcnicas Emparejamiento de grafos elsticos Redes neuronales Color de la piel Forma Movimiento PCA SVM Survey: [Yang 02] Trabajos representativos [Wiskott97] [Sung94][Rowley95][Rowley98][Delaki03] [Zhao03] [Samaria95] [Viola01] (Rasgos rectangulares) [Lee96] [Pentland94] (eigenspaces basados en vistas) [Schneiderman00] (mltiples vistas) [Osuna97][Lin04]

10

Estructura bsica de los SAEF

Extraccin y representacin de los cambios faciales causados por expresiones


Mtodos basados en rasgos geomtricos
Forma y localizacin de las componentes o puntos faciales (boca, ojos, cejas y nariz ) Representacin: se genera un vector de rasgos que representa la geometra de la cara

Mtodos basados en la apariencia


Filtrado de imgenes (Gabor wavelets) se aplican a toda la cara o a partes de ella. Vector de rasgos
11

Estructura bsica de los SAEF

Reconocimiento de expresiones faciales


Los cambios faciales pueden identificarse como unidades de accin facial o expresiones emocionales prototipo Clasificacin segn si se usa o no la informacin temporal
Mtodos basados en frames (frame-based) Mtodos basados en la secuencia (sequence-based)

12

Espacio del problema del AEFA


Dimensiones:
Nivel de descripcin Diferencias individuales entre sujetos Transiciones entre expresiones Intensidad de la expresin facial Expresiones deliberadas vs. Espontneas Orientacin de la cabeza Complejidad de la escena Adquisicin de la imagen y resolucin Fiabilidad de la verdad Bases de datos Relacin con otros comportamientos faciales o no faciales
13

La mayora del trabajo realizado est confinado en una regin de este espacio muy restringida

Espacio del problema del AEFA


Nivel de descripcin
La mayora de los sistemas de AEFA llevan a cabo reconocer un pequeo conjunto de expresiones emocionales prototpicas:

repugnancia miedo

alegra

sorpresa tristeza enfado

Origen: Darwing, [Ekman & Friesen78], [Izard83] quienes proponen que las expresiones de emociones especficas corresponden a expresiones faciales prototipo. En la vida diaria, estas expresiones prototipo son infrecuentes
14

Espacio del problema del AEFA


Nivel de descripcin
A menudo se suelen producir cambios sutiles en uno o unos pocos rasgos discretos:
Movimientos sutiles producidos Apretar labios Tristeza Dar la bienvenida Emociones o comunicacin paralingstica Enfado Desplazamiento hacia abajo de las comisuras de los labios Levantar las cejas

Su reconocimiento automtico requiere reconocer cambios de granularidad fina en las expresiones faciales.
15

Espacio del problema del AEFA


Nivel de descripcin Sistema de codificacin de acciones faciales (FACS)
Diseado para detectar sutiles cambios en rasgos faciales. Basado en observador humano Observando grabaciones del comportamiento facial a cmara lenta, observadores entrenados pudieron codificar manualmente las posibles action units. Pueden ocurrir de forma individual o en combinacin con otras. FACS: consiste en 44 unidades de accin (UA).
30: relacionadas anatmicamente con la contraccin de un conjunto especfico de msculos 14 restantes (acciones miscelnea): su base anatmica no est especificada Pueden codificarse como simtricas o asimtricas Para las que pueden variar en intensidad, se usa una escala ordinal de puntuacin entre 1 y 5 para medir el grado de contraccin 16 muscular.

Espacio del problema del AEFA


Nivel de descripcin

FACS:

14 UAs restantes (acciones miscelnea) 30 Unidades de accin (UA)


17

Espacio del problema del AEFA


Nivel de descripcin

Combinaciones de UAs del FACS

Ejemplos de Combinaciones de UA
Estas combinaciones pueden representar expresiones de emocin. EMFACS: las expresiones de emocin estn codificadas en otro sistema de acciones faciales emocionales (miedo, alegra sensacin positiva o negativa).
18

Espacio del problema del AEFA

Diferencias en la apariencia de los sujetos


Forma de la cara Textura Color Peinado Sexo Raza
Afecta a la extraccin de rasgos, seguimiento:
Ej: Ojos abiertos distintos en raza caucsica respecto de raza asitica.

Edad
Ej: Nios: textura lisa, rellenita, cejas poco pobladas Algoritmos entrenados para adultos, fallan con nios [Zlochower98].

Barba, gafas

19

Espacio del problema del AEFA


Diferencias en la expresividad de los sujetos
Plasticidad facial Morfologa Intensidad de la expresin Predisposicin a acciones faciales particulares Daos en los nervios faciales

Se usa el movimiento de los labios como modalidad biomtrica.


BioID: cara, voz y movimiento de labios

El desarrollo de algoritmos robustos a diferencias individuales:


Debe incluir un gran nmero de muestras de varias razas, edad, sexo, con gafas, etc
20

Espacio del problema del AEFA


Transiciones entre expresiones
En el AEFA se asume que:
Las expresiones son singulares Empiezan con un estado de expresin neutra

La realidad es ms compleja. Se producen:


Combinaciones de acciones Tienen dependencia serial Entre ellas puede no intervenir el estado neutro

Un sistema robusto requiere:


Separar en partes la serie de acciones Incluir en el entrenamiento combinaciones dinmicas de unidades de accin aditivas y no aditivas

21

Espacio del problema del AEFA


Transiciones entre expresiones
Ej.: Combinacin aditiva sonrisa + boca abierta
Combinaciones aditivas

+ +
Sonrisa

=
labios poco separados

= +
mandbula hacia abajo
Se deben detectar las 3 transiciones entre boca abierta reconociendo tambin AU 12 (que tambin puede cambiar en 22 intensidad)

Boca abierta

Espacio del problema del AEFA


Transiciones entre expresiones
Ej.: Combinacin no aditiva sonrisa-depresin de las comisuras (situacin embarazosa)

+
Sonrisa (Eleva comisuras y mejillas) Comisuras hacia abajo

La accin AU 12 se modifica por la AU 15

La modificacin depende del tiempo. Puede ocurrir:


simultneamente secuencialmente (ms comn).

Robustez: la BD debe incluir UAs


Individuales Combinaciones aditivas Combinaciones no aditivas

23

Espacio del problema del AEFA


Intensidad de las expresiones faciales
Codificacin manual FACS:
Una escala de 5 puntos codifica las variaciones en intensidad de las UAs. Algunas UAs codifican variaciones en intensidad desde dbilmente cados hasta ojos cerrados:

Reconocimiento automtico la intensidad dentro de los tipos de acciones faciales


[Essa & Pentland 97] intensidad de la sonrisa mediante flujo ptico. [Kimura & Yachida 97] y [Lien98] cuantifican variaciones en la intensidad en expresiones de emocin y en UAs.

Robustez:
El rango de variacin debe ser descrito adecuadamente. Los mtodos que trabajan con expresiones intensas no generalizan bien a expresiones de baja intensidad.
24

Espacio del problema del AEFA


Expresiones espontneas vs. Deliberadas
Las BDs se crean con series de expresiones deliberadas Difieren en apariencia y temporalidad
Se producen por distintos sistemas motores Las deliberadas son menos intensas y menos simtricas Ciertas expresiones espontneas no pueden realizarse por todas las personas voluntariamente. Hay expresiones que requieren entrenamiento para realizarlas voluntariamente, p.e.:
Signos de tristeza Comisuras hacia abajo

+
Subir y fruncir la parte interna de las cejas

25 Robustez ante estas diferencias: deben incluirse en la BD ambos tipos

Espacio del problema del AEFA


Orientacin de la cara
Pocos trabajos han tratado invarianza ante la pose
Se suelen considerar slo rotaciones en el plano, y pocos, leves rotaciones fuera del plano Para grandes rotaciones fuera del plano se pueden usar varias cmaras.

Se ha demostrado:
Sonrisa: generalmente se rota la cabeza hacia otra persona Sorpresa: los nios la realizan rotando la cabeza hacia atrs

Complejidad de la escena
Influye en la deteccin de la cara, tracking, y reconocimiento de expresiones La mayora de las BD contienen imgenes de una nica persona con fondos simples En ambientes naturales: mltiples personas interactan La presencia de UAs de varias personas: apenas se ha tratado

26

Espacio del problema del AEFA


Adquisicin de la imagen
Propiedades y nmero de cmaras de vdeo y digitalizadores Iluminacin:
sombras en los ojos, etc perjudican Mtodos que funcionan bien con luz artificial, fallan con luz ambiental

Poca luz y poca resolucin: aportan menor informacin sobre los rasgos faciales Para algoritmos basados en flujo ptico:
el desplazamiento de los pxeles entre frames adyacentes debe ser pequeo => n frames/segundo debe ser adecuado

27

Espacio del problema del AEFA


Resolucin de la imagen

A 48x64 las esquinas de los ojos y la boca son ms difciles de detectar A 24 x 32 las expresiones faciales no se reconocen Se debe establecer un lmite de resolucin en los sistemas
28

Espacio del problema del AEFA


Veracidad
Al entrenar un sistema el investigador asume que las expresiones de entrenamiento y de test estn bien etiquetadas Las expresiones deben estar codificadas manualmente y la fiabilidad verificada
Riguroso entrenamiento a los observadores Los codificadores de FACS deben pasar un test estandarizado que asegura codificacin uniforme entre distintos laboratorios Monitorizacin de varios observadores codificando las mismas expresiones.
Correccin mediante un intento de acercamiento entre opiniones Un coeficiente kappa indicar el nivel de acuerdo final

29

Espacio del problema del AEFA


Bases de datos La mayora de los trabajos:
han usado conjuntos de datos reducidos Slo se han considerado algunas expresiones faciales globales (ej. alegra o miedo) Pocos sujetos Edad, raza y condiciones de adquisicin homogneas

Es preciso evaluar estos sistemas mediante test comparativos en BDs amplias, que contemplen el mximo n de variaciones. Una BD:
Cohn Kanade AU-Coded Face Expression Image Database.
30

Espacio del problema del AEFA


Sistema de Anlisis de Expresiones Faciales ideal

31

Avances recientes en AEFA


Antecedentes
Suwa et al. [1978]: seguimiento de 20 puntos en secuencia de vdeo

Surveys
Samal & Iyengar [1992] Pantic [2000] Fasel [2003] [Li & Jain 2004]

32

Avances recientes en AEFA


Trabajos ms extensos y representativos
CMU S1 [Tian, Kanade, Cohn 00-01-02]
Carnegie Mellon University S1

CMU S2 [Cohn, Kanade, Xiao et al. 01-02]


Carnegie Mellon University S2

UCSD S1 [Ford 02]


Universidad de California, San Diego

UCSD S2 [Barlett et al. 01]


Universidad de California, San Diego

UIUC S1 [Cohen 03]


Universidad de Illinois, Urbana-Champaign

UIUC S2 [Wen, T. Huang 03]


Universidad de Illinois, Urbana-Champaign

33

Adquisicin
La mayora abordan vistas frontales o casi frontales Escasos han estudiado frontal y perfil
[Kleck et al. 1990]

64 sujetos, 48 decodificadores humanos Las expresiones negativas se valoraban con mayor intensidad en las vistas frontales que en las de perfil, las positivas al revs. Imgenes faciales duales frontal+perfil, mediante 2 cmaras en la cabeza del usuario

[Pantic 2000]

En ambientes reales se deberan reconocer en distintas vistas:


Deteccin de la cara Deteccin de la pose Correccin de la pose (warping a frontal)

AEFA
34

Deteccin de la cara
CMU S1 [Tian, Kanade, Cohn 00-01-02]
Carnegie Mellon University S1

(NN)

CMU S2 [Cohn, Kanade, Xiao et al. 01-02]


Carnegie Mellon University S2

(NN)

UCSD S1 [Ford 02]


Universidad de California, San Diego

UCSD S2 [Barlett et al. 01]


Universidad de California, San Diego

UIUC S1 [Cohen 03]


Universidad de Illinois, Urbana-Champaign

UIUC S2 [Wen, T. Huang 03]


Universidad de Illinois, Urbana-Champaign

35

Normalizacin

Traslacin Escala Rotacin en el plano


x y

Rotacin en el plano x-y


(La cara 3D es de http://www.facegen.com/)

36 Normalizacin (sist. BioID)


Computer, Feb. 2000

Estimacin de la pose
CMU S1 [Tian, Kanade, Cohn 00-01-02]
Carnegie Mellon University S1

CMU S2 [Cohn, Kanade, Xiao et al. 01-02]


Carnegie Mellon University S2

UCSD S1 [Ford 02]


Universidad de California, San Diego

UCSD S2 [Barlett et al. 01]


Universidad de California, San Diego

UIUC S1 [Cohen 03]


Universidad de Illinois, Urbana-Champaign

UIUC S2 [Wen, T. Huang 03]


Universidad de Illinois, Urbana-Champaign

37

Estimacin de la pose
Permite robustez a rotaciones fuera del plano
Mtodos basados en modelos 3D (CMU S2,UCSD S2,UIUC S1,UIUC S2)
Utilizan un modelo 3D
mallado de la superficie 3D de una cara genrica, y puntos de control.

Adaptan el modelo a puntos 2D en la imagen (seleccionados a mano en el primer frame p.e.). Modelo genrico adapatacin a imgenes 2D Modelo particular Deformaciones: modificaciones de los parmetros que lo caracterizan Seguimiento de los rasgos definidos en el modelo (template matching) El modelo rota, se escala y se ajusta de un frame a otro (mnimos cuadrados) Estima la geometra y la pose
http://www.ri.cmu.edu/projects/project_500.html

38

Estimacin de la pose

39

Estimacin de la pose
Mtodos basados en imgenes 2D
Un clasificador (p.e. NN) estima la pose:
frontal o casi frontal perfil otras

El AEFA se aplica slo a vistas frontales o casi frontales

40

Extraccin de rasgos faciales


Rasgos geomtricos Forma y localizaciones de las componentes de la cara (ojos, boca, nariz, cejas...) Un vector representa a la geometra de la cara

Rasgos de la apariencia Apariencia de la textura de la piel, cambios de la cara (arrugas, surcos, hoyos )
en toda la cara o en partes de la cara

Apariencia Hbridos: geomtricos + apariencia (mejores resultados)

41

Extraccin de rasgos geomtricos

Rasgos geomtricos locales

Abierto, cerrado

Existe, no existe

Abierto, cerrado, dbilmente cerrado

Extraccin de rasgos CMU mediante Modelo multiestado de rasgos

42

Extraccin de rasgos geomtricos


Tcnicas relevantes Procesamiento de imgenes Trabajos representativos Multirresolucin [Kelly70], Simetra [Reisfeld92], Morfologa matemtica [Perlibakas03], imagen de bordes [Moon00] Imagen de intensidad [Brunelli93][Heisele03] Plantilla sinttica de bordes Plantilla basada en histograma [Hallinan91]

Uso de plantillas fijas

Uso de plantillas deformables Modelo paramtrico 2D del rasgo [Yuille89] Basada en puntos de control de un modelo facial 2D [Xue03] Institut National des Tlcom.
ARTEMIS Project Unit

Empleo de transformadas

Gabor [Lade91][Manjunath92] TDC [Nefian99] (Coef TDC como rasgos)

Mtodos mixtos
Computer, Feb. 2000 M. Malciu, F. Prteux Institut National des Tlcommunications ARTEMIS P j U i

[Shih04] filtrado de Gabor para localizar ojos + procesamiento imgenes para localizar contorno cara, etc... 43

Extraccin de rasgos y representacin


Se detectan la cara y los rasgos en el frame inicial. Se detectan los cambios en los rasgos faciales a lo largo del seguimiento CMU S1:
15 parmetros para la parte superior de la cara y 9 para la inferior de la cara

44

Extraccin de rasgos y representacin


UIUC S1 Usa un mallado 3D para seguir los rasgos faciales geomtricos definidos en el modelo. El modelo se ajusta manualmente al primer frame

45

Extraccin de rasgos de la apariencia


Onditas de Gabor
de toda la cara de partes de la cara

Cambios en la apariencia:
conjunto de coeficientes multiescala y multiorientacin

Zhang
posiciones geomtricas de 34 puntos 612 coeficientes de onditas de Gabor (mejor resultado) reconoce 6 expresiones de emocin
alegra, miedo.

Localizaciones para calcular rasgos de 46 la apariencia

Extraccin de rasgos de la apariencia

47

Reconocimiento de expresiones faciales

Reconocer los rasgos extrados Clasificadores


NN SVM LDA K-vecinos ms cercanos HMM Bayes
48

Reconocimiento de expresiones faciales

Reconocimiento basado en frames


se usa slo el marco con o sin una imagen de referencia (de expresin neutra)

Reconocimiento basado en secuencias


usa la informacin temporal de la secuencia para reconocer las expresiones para uno o ms frames

49

Reconocimiento de expresiones faciales

50

Reconocimiento de expresiones faciales

51

Multimodalidad
Los sistemas biomtricos pueden fallar.
Un usuario puede carecer de una medida o tenerla deteriorada Medidas biomtricas de individuos distintos pueden ser similares (gemelos) Ruido Mtodo de procesamiento Variabilidad de las caractersticas biomtricas Variabilidad de la forma en que son presentadas al sensor, etc.

El uso de varias modalidades aumenta la precisin de los sistemas.


P. ej:
BioId: usa cara, voz y movimiento de labios en un mismo sistema.
52

Futuro
UAs y sus combinaciones en lugar de expresiones de emocin Inters en obtener robustez ante las posibles variaciones Comportamiento espontneo Bases de datos veraces Para muchos sistemas es suficiente clasificar emociones en: positivas, negativas o neutras Se debera publicar el nivel de acuerdo en el etiquetado de expresiones y los criterios de etiquetado y la resolucin temporal Intensidad y duracin de la expresin diferencian a las expresiones expontneas de las 53 deliberadas