Você está na página 1de 13

See

discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/265303510

Reconocimiento Facial por Retrato Hablado:


Revisin del Estado del Arte
Conference Paper October 2014
DOI: 10.13140/RG.2.1.3628.1449

READS

1,115

3 authors:
Rainer Larin-Fonseca

Lisbet Meneses

Centro de Aplicaciones de Tecnologias de Av

Centro de Aplicaciones de Tecnologias de Av

15 PUBLICATIONS 16 CITATIONS

3 PUBLICATIONS 0 CITATIONS

SEE PROFILE

SEE PROFILE

Heydi Mendez Vazquez


Centro de Aplicaciones de Tecnologias de Av
47 PUBLICATIONS 139 CITATIONS
SEE PROFILE

All in-text references underlined in blue are linked to publications on ResearchGate,


letting you access and read them immediately.

Available from: Rainer Larin-Fonseca


Retrieved on: 11 August 2016

Reconocimiento Facial por Retrato Hablado: Revisin del Estado del Arte
Rainer Larin-Fonseca, Lisbet Meneses-Alonso, Heydi Mndez-Vzquez
Biometrics Department, Advanced Technologies Application Center (CENATAV),
7ma A #21406 e/ 214 y 216, Rpto. Siboney, Playa. C.P. 12200. La Habana, Cuba.
(rlarin, lalonso, hmendez)@cenatav.co.cu
Resumen. En este trabajo se presenta un estado del arte en el rea del reconocimiento automtico de rostro a travs del retrato
hablado. Se enfatiza primeramente en las peculiaridades de la tcnica de la construccin del retrato hablado, sus objetivos y
caractersticas, as como sus orgenes. Posteriormente se realiza un anlisis crtico de los diferentes mtodos existentes en el mbito
del reconocimiento de rostro en la modalidad de retrato hablado, as como un estudio detallado de los principales sistemas
computarizados existentes para la creacin asistida de los mismos. Se detallan adems las caractersticas de las distintas bases de
datos que han sido creadas en los ltimos aos para el desarrollo de los mtodos que emergen en este novedoso campo de
investigacin.
Palabras Claves: Reconocimiento de rostro, Retrato hablado, Estado del arte.

Introduccin

El reconocimiento de personas a travs de su retrato hablado tiene un alto impacto en las aplicaciones relacionadas con
los temas de seguridad y la criminalstica como pueden ser: robo / hurto, secuestros, violaciones y de manera general
en todas aquellas donde el testigo tuvo contacto visual con el sujeto a buscar. Hoy en da esta tarea es llevada a cabo
principalmente de forma manual, donde la mayor responsabilidad de hacer dicho reconocimiento recae en una persona.
La automatizacin de esta tarea constituye un gran reto debido principalmente a las grandes diferencias entre la
geometra y la textura en las imgenes de rostro y los bosquejos realizados por los especialistas, lo que provoca que los
mtodos actuales del reconocimiento de rostro clsico (imagen vs. imagen) sean ineficientes (Xiao, Gao et al. 2011). A
estas dificultades se le puede agregar que muchas veces la persona quien proporciona la informacin (vctima, testigo,
etc.) puede encontrarse afectada por diversos factores, por lo que los datos aportados pueden ser imprecisos o errneos.
En la literatura existen pocos trabajos que abordan el tema del reconocimiento de rostros a travs de un bosquejo
realizado por la descripcin verbal de un individuo. Por lo que en este trabajo se realiza una revisin y anlisis detallado
de los principales mtodos existentes del estado del arte en esta temtica.
Este artculo contina con la seccin 2, en la que se abordan las peculiaridades de la construccin de retratos hablados.
En la seccin 3 se presentan los enfoques existentes. En la seccin 4 se presentan los principales mtodos pertenecientes
a estos enfoques. En la seccin 5 se abordan los sistemas automatizados ms populares para la creacin asistida de los
bocetos, seguido de la seccin 6 donde se muestran las principales bases de datos existentes en este campo. Finalmente
en la seccin 7 se presentan las conclusiones obtenidas del estudio realizado.

Tcnica de la construccin del retrato hablado: Objetivo y Caractersticas

El retrato hablado tiene como objetivo proporcionar una representacin grfica, vase Fig. 1, lo ms detallada y exacta
posible sobre determinado individuo, incluyendo aquellos atributos ms distintivos o discriminativos sobre la base de
una descripcin verbal proporcionada por el declarante (victima, testigo, etc.). Esta debe su nombre a Alphonse

Rainer Larin-Fonseca, Lisbet Meneses-Alonso, Heydi Mndez-Vzquez

Bertillon1 quien en 1985 cre e introdujo en Pars un sistema para la identificacin de personas a travs de sus rasgos
exteriores. Esta tcnica puede ser llevada a cabo mediante dibujos manuales realizados por un artista forense (vase
Fig. 1-A), o mediante sistemas automatizados / sistemas de fotomontaje (vase Fig. 1-B). Siendo estos ltimos los ms
utilizados ya que permiten generalizar el uso de esta tcnica aquellos especialistas con menos habilidades para el dibujo.
El resultado final del retrato hablado depende principalmente de los implicados en su confeccin, dgase el declarante
y el perito o especialista.

Fig. 1. Ejemplos de retratos hablados tomados de la base de datos: (A) CUHK Face Sketch FERET Database (CUFSF), (B)
PRIP forensic and composite sketch database (PRIPFACS).

Entre los factores a tener en cuenta por parte del declarante son (Jeanjacques 2012): stress emocional, capacidad
para recordar y habilidad de descripcin entre otros. Mientras que por parte del especialista tenemos factores como:
experiencia, habilidad para formular preguntas adecuadas y capacidad de comprensin entre otros.
Cabe destacar que el retrato hablado constituye solamente una aproximacin a la identidad de un sujeto y no una
prueba de ello. Esta sirve para realizar un reconocimiento facial de sujetos semejantes al buscado, que conduce a una
reduccin del crculo de candidatos o sospechosos.

Enfoques Existentes en el Reconocimiento de Rostros por Retrato Hablado

El reconocimiento de rostros es unas de las tcnicas ms utilizadas, sin embargo, sigue presentando grandes retos como
lo es en este caso, el reconocimiento por retrato hablado (RRH). La tcnica del retrato hablado ha sido ampliamente
usada para la identificacin de sospechosos de actividades criminales, con la esperanza de que sea reconocido por
alguna tercera persona. Sin embargo, esta forma de reconocimiento es extremadamente lenta y no siempre ofrece
resultados; por lo que se hace necesario que la comparacin del retrato hablado con las imgenes de las bases de datos
de fichas policiales sea realizada automticamente.
Los mtodos automticos existentes para el RRH pueden ser clasificados sobre la base de las siguientes variantes,
vase adems Fig. 2:
(i) Imagen de rostro vs. Boceto manual: Se basa en la comparacin entre una imagen de un individuo de inters y su
dibujo facial realizado a travs de una descripcin proporcionada. El dibujo facial o boceto puede ser realizado en
dos variantes:
(i-a) Boceto de Lneas Simples: el rostro es representado utilizando solamente lneas. En este caso, las imgenes
de la base de datos son transformadas a esta modalidad para el proceso de reconocimiento, vase Fig. 2 (i-a).

Alphonse Bertillon (1853-1915) antroplogo francs que cre un sistema de identificacin y clasificacin de criminales basado en mediciones
antropomtricas.

Reconocimiento Facial por Retrato Hablado: Revisin del Estado del Arte

(i-b) Bocetos Complejos: el rostro es representado no solo a travs de lneas sino tambin a travs de sombras
y contrastes para dar una mayor sensacin de realidad. En este caso, tanto las imgenes de la base de datos como
la del boceto pueden ser convertidas de unas a otras para el proceso de reconocimiento, vase Fig. 2 (i-b).
(ii) Imagen de rostro vs. Boceto por composicin de imgenes (BCI): Se basa en la comparacin entre una imagen
de un individuo de inters y una imagen de su rostro construida utilizando partes individuales de otras imgenes
faciales o generadas artificialmente, tomando en cuenta la descripcin proporcionada.
(iii) Pseudo imagen de reostro vs. Pseudo boceto manual: Se basa en convertir, por un lado, una imagen de rostro a
un pseudo boceto y por el otro lado, un boceto manual a una pseudo imagen de rostro y finalmente se realiza la
comparacin.

Fig. 2. Taxonoma sobre las diferentes modalidades de reconocimiento automtico de rostro sobre la base del retrato hablado.

En (Klare, Li et al. 2011; Zhang, Wang et al. 2011; Han, Klare et al. 2013) son analizados los mtodos de
reconocimiento basados en el enfoque (i) presentado anteriormente. Los autores concluyen que es sumamente difcil
recuperar correctamente en la base de datos la imagen correspondiente al boceto realizado y que esto se debe
principalmente a las siguientes razones:
Baja calidad de los bocetos realizados con diferencias notables en la geometra y textura del boceto con respecto a
la imagen.
Carencias de bases de datos adecuadas para este tipo de aplicaciones.
Baja efectividad de los mtodos existentes de reconocimiento de rostros por retrato hablado.
Los mtodos basados en el enfoque (ii) y (iii) han sido en los ltimos aos los de mayor aceptacin ya que permiten
reducir en alguna medida las diferencias existentes entre el boceto y la imagen del individuo, adems, los mtodos
clsicos de reconocimiento de rostro tienen mayores posibilidades de ofrecer mejores resultados (Turk and Pentland
1991; Bartlett, Movellan et al. 2002).

Principales mtodos de reconocimiento de rostros por retrato hablado

La construccin de bocetos (retratos hablados) es realizada a travs de tcnicas que abarcan desde el dibujo a mano
alzada hasta el uso de sistemas computarizados. Los bocetos resultantes tienen diferentes particularidades, por lo que

Rainer Larin-Fonseca, Lisbet Meneses-Alonso, Heydi Mndez-Vzquez

no puede hablarse hasta el momento de un mtodo que pueda utilizarse indistintamente en cada uno de estos. Dada
estas diferencias entre las diferentes modalidades existentes (vase Fig. 2 (i, ii, iii)), a continuacin se abordan mediante
anlisis y comparaciones los mtodos existentes en cada uno de estos enfoques.

4.1

Imagen de rostro vs. Boceto manual

Esta modalidad es una de las ms afectadas por las caractersticas del artista forense o especialista que realiza el retrato.
Este impregna en el boceto un estilo propio en la creacin de los patrones lineales y de sombras para reflejar los rasgos
distintivos del rostro del individuo buscado, adems existen diferencias notables de textura y forma en ellos. Por lo que
los bocetos no reflejan exactamente el aspecto real del rostro que representa, vase Fig. 3.

Fig. 3. Bocetos manuales realizados por artistas forenses. Imgenes tomadas de la base de datos IIIT-D Sketch Database (Bhatt,
Bharadwaj et al. 2011). (A) Imgenes digitales del rostro, (B) bocetos correspondientes a las imgenes.

En (Galoogahi and Sim 2012) se propone un nuevo descriptor (Local Random Binary Pattern (LRBP)) para la
comparacin entre imgenes de rostros y bocetos. Este descriptor parte de la idea de que, tanto el rosto en la imagen
como su correspondiente en el boceto poseen una geometra similar, incluso si en el boceto se han exagerado los rasgos.
Tomando en cuenta este hecho, las caractersticas geomtricas del rostro son capturadas y llevadas a un espacio aleatorio
codificadas por patrones binarios locales (Local Binary Patterns (LBP)). El LRBP es calculado entonces, concatenando
los histogramas de los LBPs locales con el objetivo de capturar las caractersticas locales y globales del rostro.
Los experimentos, efectuados en las bases de datos CUFSF (Zhang, Wang et al. 2011) y CUFS (Wang and Tang
2009), muestran que los resultados en comparacin con el LBP original (Ahonen, Hadid et al. 2006), LGBPHS (Zhang,
Shan et al. 2005) y el Sobel LBP (Zhao, Gao et al. 2008) son significativamente mejores. Estos resultados se presentan
en la Tabla 1- A.
Tabla 1. Tasas de reconocimiento de LRBP con: (A) Mtodos clsicos de reconocimiento de rostros. (B) Mtodos de
reconocimiento por retrato hablado.
(A)

(B)

Descriptores
Bases de Datos

LBP Original

LGBPHS

Sobel LBP

LRBP

MRF+RS-LDA

LFDA

CITP

LRBP

CUFS
CUFSF

39.10%
24.03%

57.26%
45.22%

76.73%
62.98%

99.51%
91.12%

96.30%
29.54%

99.47%
90.78%

99.87%
98.70%

99.51%
91.12%

A pesar de la gran mejora que arrojan estos resultados hay que tener en cuenta que la comparacin ha sido realizada
con mtodos construidos para el reconocimiento de rostros clsico (imagen vs. imagen). Lo que viene a demostrar que,
como se ha mencionado anteriormente, estos mtodos no ofrecen buenos resultados en el reconocimiento de rostros por
retrato hablado (imagen vs. boceto manual). Esto se debe principalmente por la prdida de la informacin de textura y
las diferencias geomtrico-espaciales existentes en los bocetos manuales (modality gap) (Galoogahi and Sim 2012).

Reconocimiento Facial por Retrato Hablado: Revisin del Estado del Arte

Una ms justa comparacin del LRBP con respecto a otros mtodos (MRF+RS-LDA (Wang and Tang 2009), LFDA
(Klare, Li et al. 2011), CITP (Zhang, Wang et al. 2011)) construidos para el reconocimiento por retrato hablado es
presentada en la Tabla 1-B. Los mejores resultados son en este caso alcanzados por el mtodo CITP. Este mtodo utiliza
una codificacin basada en un rbol de proyeccin de informacin terica para la comparacin de rostros representados
en diferentes modalidades (imagen vs. boceto). De esta manera se capturan las estructuras faciales locales
discriminantes tanto en la imagen como en el boceto con el objetivo de ser comparadas. Este cotejo es realizado a travs
de la maximizacin de la informacin mutua existente entre las imgenes de rostros y los bocetos en un espacio de
caractersticas cuantificadas. Como elemento a destacar en estos trabajos es que los mtodos fueron probados en bases
de datos controladas y donde los bocetos se hacen sobre la base de una imagen existente del individuo y no sobre una
descripcin verbal de un testigo o declarante.

4.2

Imagen de rostro vs. Boceto por composicin de imgenes (BCI)

Hoy en da la construccin de retratos hablados a travs del uso de sistemas automatizados ha aumentado
considerablemente. Esto se debe principalmente a que esta tarea puede ser generalizada a aquellas personas con ms
limitaciones en las habilidades de dibujo manual, por lo se requiere menos esfuerzo humano y se consume menos tiempo
en la confeccin del boceto. Adems, permite reducir la denominada brecha de modalidad (modality gap) existente
entre las imgenes y los bocetos manuales (vase Fig. 1-B). Sin embargo, segn estudios realizados en (Frowd, Carson
et al. 2005), muy pocas personas, solo el 2.8% de un grupo de 50, pudieron identificar correctamente BCIs de
personalidades famosas que se realizaron. No obstante esta modalidad es bastante aceptada por muchas instituciones
vinculadas con la seguridad y el orden interior.
En la literatura existen pocos trabajos enfocados en el reconocimiento de rostros utilizando esta modalidad. En (Han,
Klare et al. 2013) se propone una algoritmo en el que se extraen los puntos de referencias (facial landmarks) usando el
modelo activo de figura (active shape model) en un enfoque de representacin basada en componentes. Estos, son
descritos utilizando patrones binarios locales a diferentes escalas (MLBP) tanto para el BCI como para la imagen de
rostro. Finalmente, las comparaciones son realizadas a travs de una funcin de pesos para establecer la similitud entre
la imagen y el BCI. Este mtodo fue probado con 123 BCI en dos galeras de fichas policiales. Los resultados obtenidos
se muestran en la Tabla 2.
Tabla 2. Resultados obtenidos del mtodo propuesto en (Han, Klare et al. 2013).

Galeras
Galera 1
Galera 2

N Fichas Policiales
10.123
1.316

Rank-100
77.2%
89.4%

En este caso se debe destacar que el rendimiento en la comparacin fue mejorado a partir de un filtro de gnero
aplicado a las imgenes de las fichas policiales.
Los problemas en la comparacin de imgenes faciales con BCIs no estn limitados solo a las variaciones geomtricas
y de textura entre ellas sino tambin a las diferencias en cuanto a envejecimiento. Esto sucede en casos en los que se
buscan individuos perdidos o cuando el rostro de cierto individuo es reconstruido como un BCI despus de su muerte.
En este sentido en (Chugh, Bhatt et al. 2013) se propone un algoritmo para la comparacin de imgenes faciales y
BCIs con variaciones en el grado de envejecimiento. En este se codifica informacin discriminativa de la forma, la
orientacin y la textura de regiones locales del rostro a travs del uso de los momentos de la imagen (Ming-Kuei 1962)
e histogramas de gradientes orientados (histogram of oriented gradients (HOG)) (Dalal and Triggs 2005). La base de
datos utilizada consta de 59 individuos tomados de la base de datos FG-NET2, de los cuales se tienen imgenes de
2

FG-Net. Base de datos con informacin de envejecimiento. Disponible en: http://www.fgnet.rsunit.com/.

Rainer Larin-Fonseca, Lisbet Meneses-Alonso, Heydi Mndez-Vzquez

diferentes grupos de edades (joven (361 imgenes y 59 BCIs), adulto (59 imgenes y 59 BCIs) y viejo (198 imgenes y
59 BCIs)). Los BCI de los individuos fueron realizados utilizando el software FACES3 en el rango de edad adulto. Un
ejemplo de la base de datos utilizada se muestra en la Fig. 4.

Fig. 4. Ejemplo de la base de datos utilizada para el reconocimiento de rostro por retrato hablado en condiciones de envejecimiento.
(A) Boceto de composicin de imgenes, (B) Grupo Joven, (C) Grupo Adulto y (D) Grupo Viejo.

Este mtodo fue comparado con algoritmos del estado del arte para el reconocimiento por retrato hablado (commercialoff-the-shelf (COTS4) face recognition algorithm, EUCLBP+GA (Bhatt, Bharadwaj et al. 2010), Second Image Moment, HOG) y
los resultados se muestran en la Tabla 3:
Tabla 3. Rank-50 del porciento de identificacin de los algoritmos para la comparacin de BCI con imgenes faciales.

Algoritmos
COTS
EUCLBP+GA
Second Image Moment
HOG
Propuesto (Chugh, Bhatt et al. 2013)

Precisin en Rank-50 de los experimentos realizados (%)


Exp. 1
Exp. 2
Exp. 3
18.3
5.0
10.0
39.7
32.7
42.7
49.2
20.3
35.6
49.2
27.1
44.1
49.2
38.9
52.5

Como puede observarse en la tabla el mtodo propuesto en (Chugh, Bhatt et al. 2013) es ms robusto que los dems
algoritmos con los que fue comparado en cuanto a las variaciones provocadas por los efectos del envejecimiento.
Utilizando los momentos de la imagen y el HOG este algoritmo es capaz de asimilar la informacin de forma y
orientacin del rostro a partir tanto de los rasgos locales como de sus vecindades, eliminando as los efectos de escala
y caractersticas propias derivadas del proceso de envejecimiento.

4.3

Pseudo imagen de reostro vs. Pseudo boceto manual

La clave en los mtodos de reconocimiento de rostros por retrato hablado es minimizar la brecha de modalidad existente
entre la imagen facial y el boceto construido. Por tal razn se busca transformar tanto los bocetos como las imgenes
hacia la misma modalidad convirtiendo los bocetos en pseudo-imgenes y las imgenes en pseudo-bocetos para
entonces aplicar con mayor efectividad los enfoques clsicos de reconocimiento (Turk and Pentland 1991; Bartlett,
Movellan et al. 2002).
En este sentido, en (Xiao, Gao et al. 2009) se propone la construccin de imgenes faciales a partir de un boceto,
para de esta forma transformar el reconocimiento de tipo boceto-imagen a un reconocimiento de tipo pseudo-imagen
(bocetoimagen) - pseudo-boceto (imagen facialboceto) reduciendo as adems la brecha de modalidad. Dado que
existen muy pocos trabajos basados en el reconocimiento pseudo-imagen - pseudo-boceto y que, los mtodos existentes
requieren grandes conjuntos de entrenamiento, Xiao, Gao et al. hacen uso del Modelo Oculto de Markov Integrado
(Embedded Hidden Markov Model) para aprender la no linealidad existente entre los pares bocetos - imgenes. De
esta manera se crean pseudo-imgenes a travs del uso de parches tanto de los bocetos como de las imgenes con el uso
3
4

http://www.facesid.com/
Neurotechnology VeriLook SDK: Disponible en: http://www.neurotechnology.com/verilook.html.

Reconocimiento Facial por Retrato Hablado: Revisin del Estado del Arte

de una menor cantidad de muestras de entrenamiento, vase la Fig. 5. Los resultados obtenidos arrojan un 88.2 % en
la tasa promedio de reconocimiento y fueron realizados en una base de datos provista por el Laboratorio de Multimedia
de la Universidad de Hong Kong, China.

Fig. 5. Esquema de reconocimiento pseudo-imagen - pseudo-boceto parcialmente tomado de (Xiao, Gao et al. 2009)

Sistemas del estado del arte para la creacin asistida de retratos hablados.

Como se ha abordado anteriormente, existe una tendencia creciente al uso de sistemas automatizados para la creacin
asistida de bocetos. La principal ventaja es el ahorro de tiempo y esfuerzo en la construccin de estos, adems de ayudar
a reducir los tiempos en el ciclo de investigacin. Sin embargo estos sistemas todava no llegan a superar completamente
las habilidades de un especialista entrenado (Frowd, Carson et al. 2005).
Esto podra atribuirse a que estos sistemas utilizan componentes faciales predefinidos mientras que los especialistas
los construyen a partir de las descripciones de los declarantes, enfatizando en aquellos rasgos ms discriminativos que
caracterizan al individuo buscado. No obstante, las ventajas proporcionadas por estos sistemas facilitan su proliferacin,
por lo que a continuacin se presentan las compaas y sistemas con ms aceptacin en este creciente campo:

SketchCop FACETTE: Este es un sistema para la creacin asistida de bocetos de tipo manual complejo, vase
Fig. 2 (i-b). Es producido por la compaa SketchCop Solutions, encargada de proporcionar soluciones novedosas
para el trabajo de agencias de seguridad y fuerzas de la ley. Los requerimientos computacionales de SketchCop
FACETTE se muestran en la Tabla 4.
Tabla 4. Requerimientos computacionales del Sistema SketchCop FACETTE.

Requerimientos mnimos
Windows XP, Vista, Win. 7, Win. 8, Mac O/S.
1 GB RAM.
CPU 1 GHz.
Resolucin de 1024 x 768 pixeles.
1 GB espacio en disco duro.

Requerimientos recomendados
Windows XP, Vista, Win. 7, Win. 8, Mac O/S.
4 GB RAM.
CPU 2 GHz.
Resolucin 1280 x 1024 pixeles.
5 GB espacio en disco duro.

Este sistema adems cuenta con miles de componentes faciales, permite la mescla de bocetos creados con
anterioridad habilitando una construccin ms rpida, salva el historial de modificaciones de forma que se pueda
retroceder hacia pasos anteriores, contiene muchas de las herramientas existentes en softwares como el Adobe
Photoshop para la edicin de imgenes, as como tambin permite exportar los bocetos realizados a formatos
compatibles con el Adobe Photoshop o cualquiera de sus elementos. Los idiomas disponibles son el Ingls y el

Rainer Larin-Fonseca, Lisbet Meneses-Alonso, Heydi Mndez-Vzquez

Espaol. La compaa ofrece una versin de prueba completamente funcional hasta los 60 das para fuerzas de la
ley y el orden, fuerzas militares, gobiernos, agencias de seguridad, investigadores privados con licencia para ejercer
y a escuelas con programas de entrenamiento forense entre otros. Para la descarga de la versin de prueba es
necesario el envo de un pedido va email. Algunos bocetos creados con este sistema se muestran en la Fig. 6.

Fig. 6. Muestra de ejemplos de retratos hablados creados con el sistema SketchCop FACETTE.

Identi-Kit: Este es un sistema para la creacin asistida de bocetos de tipo manual complejo, vase tanto Fig. 7A como Fig. 2 (i-b) y es producido por la compaa Identi-Kit Solutions. Permite crear carteles personalizados de
Se busca, vase Fig. 7-B y enviarlos a travs de la web, correo electrnico o fax. Identi-Kit se encuentra
disponible en dos versiones, una en CD (Identi-kit CD v6.0) y otra para ser alojada en la web (Identi-Kit .NET).

Fig. 7. Muestra de ejemplos de retratos hablados creados con el sistema Identi-Kit. (A) Ejemplos de retratos hablados. (B)
Ejemplos de carteles de bsqueda de criminales.

Para obtener este sistema hay que enviar una peticin de intencin a travs del formulario que aparece en su pgina
web http://www.identikit.net/contact_us.php. Los requerimientos computacionales de este sistema se muestran en
la Tabla 5:
Tabla 5. Requerimientos computacionales del Sistema Identi-Kit.

Requerimientos mnimos

CPU x86 400 MHZ.


Windows 2000/XP/Vista.
RAM 256 MB.
Resolucin de 800x600 pixeles

IQ Biometrix FACES: Este es un sistema para la creacin asistida de bocetos de composicin de imgenes
(BCIs), vase Fig. 2 (ii) y es producido por la compaa IQ Biometrix. Fue desarrollado en su primera versin en
el ao 1998 y desde entonces es utilizado por varias fuerzas del orden en todo el mundo. FACES en su versin 4
incorpora ms de 4.400 componentes faciales, adems de cicatrices, lunares, piercing, tatuajes y marcas, vase Fig.
8-A. El sistema presenta una interfaz intuitiva y fcil de usar. Cuanta con la mayora de las herramientas para la
edicin de imgenes existentes en sistemas como Adobe Photoshop y permite agregar efectos de
envejecimiento en los bocetos, vase Fig. 8-B.
Con FACES es posible crear retratos muy realistas por lo que se hace necesario agregar una nota de que No es
una fotografa real para evitar confusiones. Como caracterstica a destacar es que presenta un formato propio que
minimiza considerablemente el tamao de almacenamiento de los archivos ( 1 Kb). Este formato es basado en un
cdigo alfanumrico biomtrico (biometric alphanumeric code (BAC)), el cual es ideal para su trasmisin por
conexiones lentas y garantiza que al importarse nuevamente en el sistema el boceto se reconstruya idnticamente.

Reconocimiento Facial por Retrato Hablado: Revisin del Estado del Arte

Fig. 8. Muestra de ejemplos de retratos hablados creados con el Sistema FACES. (A) Ejemplo de imgenes con diferentes
atuendos y marcas. (B) ejemplo de imgenes con diferentes grados de envejecimiento.

FACES se encuentra disponible en los idiomas de Espaol, Ingls y Francs, adems cuenta con una gua de
usuario bastante completa. El sistema puede ser descargado en su sitio web http://www.facesid.com/; en su versin
completa cuesta $599.00 y sus requerimientos computacionales se muestran en la Tabla 6.
Tabla 6. Requerimientos computacionales del Sistema FACES.

Requerimientos mnimos

CPU x86 400 MHZ.


Windows 2000/XP/Vista.
RAM 64 MB.
1.2 GB de espacio libre en disco duro.
Resolucin de 800x600 pixeles

El equipo de apoyo de FACES ofrece asistencia tcnica por 90 das a travs de un nmero telefnico habilitado
para ello. La descarga incluye una gua de usuario de 40 pginas y tambin un folleto de 160 pginas de imgenes
en miniatura de caras de su base de datos 4.0 para utilizar de apoyo en las entrevistas de testigos.

EFIT-V Facial Identification: Este es un sistema para la creacin asistida de bocetos de composicin de imgenes
(BCIs), vase Fig. 2 (ii) y es producido por la compaa VisionMetric Ltd - FACIAL COMPOSITE IMAGING. Los
sistemas existentes, de manera general, utilizan la metodologa basada en componentes priorizando la descripcin
y seleccin de sus rasgos para construir los bocetos. Sin embargo, el EFIT-V se basa en un enfoque holstico, donde
se le presenta al declarante inicialmente rostros pre-generados y este selecciona el ms parecido al individuo
buscado, vase Fig. 9-A. De esta manera el sistema va aprendiendo y refinando la apariencia facial que se busca.
Otro aspecto a destacar es que este sistema permite adicionar rasgos subjetivos como hostilidad, salud y peso entre
otros, as como su nivel de ajuste a travs de una interfaz sencilla e intuitiva. Contiene componentes faciales
peculiares como narices rotas, doble mentn o papada, etc. Un aspecto importante es que contiene 13 bases de
datos refinadas de componentes que cubren un amplio espectro demogrfico incluyendo europeos, asiticos, indios,
americanos, negros, etc., vase Fig. 9-B.

Fig. 9. Muestra de ejemplos de retratos hablados creados con el Sistema EFIT-V.

Contiene adems, una coleccin de 6000 accesorios cuidadosamente escogidos, los cuales incluyen ropa, barbas y
bigotes, sombreros, bufandas, joyas y logos. Para obtener EFIT-V Facial Identification es necesario realizar una

10

Rainer Larin-Fonseca, Lisbet Meneses-Alonso, Heydi Mndez-Vzquez

peticin a travs de su sitio web http://www.visionmetric.com/contact/. Los requerimientos computacionales se


muestran en la Tabla 7.
Tabla 7. Requerimientos computacionales del Sistema EFIT-V Facial Identification.

Requerimientos mnimos

Windows XP, Vista, Windows 7.


Framework .NET v3.5
256 Memoria RAM.
CPU 3800 MHz.
Resolucin de 1024 x 768 pixeles.
32 mb de tarjeta grfica.
15 GB espacio en disco duro.

Requerimientos recomendados

Windows XP, Vista, Windows 7.


Framework .NET v3.5
512 MB Memoria RAM
CPU 1.8 GHz
Resolucin 1280 x 1024 pixeles.
64 mb de tarjeta grfica.
20 GB espacio en disco duro.

Bases de datos existentes para el reconocimiento por retrato hablado

Al igual que en otros campos, para el desarrollo de los mtodos de reconocimiento de rostro por retrato hablado es
necesario el uso de bases de datos de prueba. A continuacin se presentan las ms utilizadas en este campo:

CUHK Face Sketch Database (CUFS): En (Wang and Tang 2009) se propone esta base de datos para estudios
experimentales de reconocimiento de rostros por retrato hablado. Consta de 188 rostros de estudiantes
pertenecientes a la universidad de Hong Kong, China (CUHK) (Fig. 10-A), 123 rostros de la base de datos AR
(Fig. 10-B) (Martinez and Benavente 1998) y 295 rostros de la base de datos XM2VTS (Fig. 10-C) (Messer, Matas
et
al. 1999).
La base
de
datos
puede
ser
descargada
de
su
sitio
web en
http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html.

Fig. 10. Ejemplo de imgenes faciales de la base de datos CUHK Face Sketch Database. (A) Rostros de estudiantes de la
Universidad China de Hong Kong (CUHK). (B) Rostros de la base de datos AR. (C) Rostros de la base de datos XM2VTS.

CUHK Face Sketch FERET Database (CUFSF): Esta base de datos (Wang and Tang 2009; Zhang, Wang et al.
2011) es creada tanto para la construccin de bocetos como para el reconocimiento. Incluye 1.194 rostros de la
base de datos FERET (Phillips, Moon et al. 2000) y para cada uno de estos hay un retrato hablado creado por un
especialista mientras observaba la imagen original, vase Fig. 11. La base de datos puede ser descargada de su sitio
web en http://mmlab.ie.cuhk.edu.hk/archive/cufsf/.

Fig. 11. Ejemplo de imgenes faciales de la base de datos CUHK Face Sketch FERET Database.

IIIT-D Sketch Database: Esta base de datos (Bhatt, Bharadwaj et al. 2011) ha sido creada solo para propsitos
educacionales y comprende tres tipos de bocetos:

Reconocimiento Facial por Retrato Hablado: Revisin del Estado del Arte

IIIT-D Viewed Sketch Database: Tiene bocetos dibujados por el artista en presencia de la imagen original (Fig. 12-A).
Incluye un total de 238 pares boceto-imagen, donde 67 de estos se tomaron de la base de datos FG-NET, 99 se tomaron de
la base de datos Labeled Faces in Wild (LFW)(Huang, Ramesh et al. 2007) y 72 de la base de datos IIIT-D student & staff.
IIIT-Delhi Semi-forensic Sketch Database: Comprende bocetos dibujados de memoria por el artista y con la ayuda de una
descripcion verbal (Fig. 12-B). Incluye 140 imgenes de la base de datos IIIT-Delhi Viewed Sketch database.

Fig. 12. Ejemplo de imgenes faciales de la base de datos IIIT-D Sketch Database.

Forensic Sketch Database: Comprende bocetos realizados por artistas a partir de la descripcin de declarantes. Incluye 92
pares de boceto-imagen tomados de Lois Gibson, 37 pares tomados de Karen Taylor y 61pares tomados de internet.

PRIP composite sketch database (PRIPCS): Esta base de datos (Han, Klare et al. 2013) comprende bocetos
creados por composicin de imgenes asistido por programas computarizados (FACES4.0 2014; Identi-Kit 2014).
Incluye 123 rostros de la base de datos AR (Fig. 13) (Martinez and Benavente 1998).

Fig. 13. Ejemplo de imgenes faciales de la base de datos PRIP composite sketch database.

Conclusiones

El reconocimiento de rostro por retrato hablado es un rea emergente en el que no pocos especialistas estn centrando
sus investigaciones. Esta surge de la necesidad creciente de automatizar tanto la construccin de los bocetos como la
rpida captura de los individuos buscados a travs de la comparacin de un boceto con las grandes bases de fichas
policiales. Una tendencia es hacia la construccin asistida de bocetos utilizando herramientas computacionales y se
debe principalmente al ahorro en tiempo y esfuerzo por parte de los especialistas, adems que permite su generalizacin
a aquellos con menos habilidades artsticas.
Las mayores investigaciones estn en el campo del reconocimiento a partir de bocetos manuales realizados por
especialistas. Sin embargo, otros han propuesto mtodos novedosos pera disminuir las diferencias existentes entre los
bocetos y las imgenes faciales. De esta manera se busca tambin minimizar la brecha de modalidad que tanto afecta a
los mtodos convencionales de reconocimiento de rostro.
A la par con las investigaciones en este campo han surgido nuevos tipos de bases de datos para ayudar a desarrollar
los mtodos de reconocimiento por retrato hablado. Muchas de ellas han sido construidas con la ayuda de especialistas
en la creacin de retratos hablados. Como desventaja a destacar podra decirse que la mayora de los bocetos han sido
creados sobre la base de la imagen original, no ocurriendo as en la vida real donde muchas veces el declarante es quien
proporciona la nica evidencia visual sobre el individuo buscado. Teniendo en cuenta adems que, el declarante pudo
haber estado en condiciones no ptimas o bajo los efectos de stress y su descripcin puede que no haya sido todo lo
buena que se quisiera. Por lo que en estas condiciones muchas veces el retrato hablado no queda exactamente igual a
una imagen del individuo como es el caso de muchas de estas bases de datos.

12

Rainer Larin-Fonseca, Lisbet Meneses-Alonso, Heydi Mndez-Vzquez

No obstante, las investigaciones en este campo continan y los resultados que se obtienen son promisorios. As
tambin se presentan los sistemas automatizados con disimiles de componentes tanto faciales como de atuendos y
marcas que ayudan a mejorar la construccin de los bocetos para su posterior comparacin, ya sea manual o
automticamente.

Referencias

Ahonen, T., A. Hadid, et al. (2006). "Face description with local binary patterns: Application to face recognition." IEEE TPAMI 28: pp. 20372041.
Bartlett, M., J. Movellan, et al. (2002). "Face recognition by independent component analysis." IEEE Trans. Neural Netw 13(6): 14501464.
Bartlett, M., J. Movellan, et al. (2002). "Face recognition by independent component analysis." IEEE Trans. Neural Networks 13(6): pp. 1450
1464.
Bhatt, H. S., S. Bharadwaj, et al. (2011). "Memetic Approach for Matching Sketches with Digital Face Images." IIITD-TR-2011-006.
Bhatt, H. S., S. Bharadwaj, et al. (2010). "On matching sketches with digital face images." Proceedings of International Conference on Biometrics:
Theory, Applications and Systems: pages 17.
Chugh, T., H. S. Bhatt, et al. (2013). "Matching age separated composite sketches and digital face images." Biometrics: Theory, Applications and
Systems (BTAS): pp. 1 - 6.
Dalal, N. and B. Triggs (2005). "Histograms of oriented gradients for human detection." IEEE Computer Society Conference on Computer Vision
and Pattern Recognition. 1: pp. 886 - 893.
FACES4.0. (2014). "IQ Biometrix." from http://www.iqbiometrix.com.
Frowd, C. D., D. Carson, et al. (2005). "A forensically valid comparison of facial composite systems." Psychology, Crime & Law 11: pp. 3352.
Galoogahi, H. K. and T. Sim (2012). "Face sketch recognition by Local Radon Binary Pattern: LRBP." ICIP: pp. 1837-1840.
Han, H., B. Klare, et al. (2013). "Matching composite sketches to face photos: a component based approach." IEEE Trans. Inf. Forensics Security
8(3): 191204.
Han, H., B. F. Klare, et al. (2013). "Matching composite sketches to face photos: a component based approach." IEEE Transactions on Information
Forensics and Security 8(1): pp. 191-204.
Huang, G. B., M. Ramesh, et al. (2007). "Labeled Faces in the Wild: A Database for Studying Face Recognition in Unconstrained Environments."
University of Massachusetts, Amherst, Technical Report 07-49.
Identi-Kit. (2014). "Identi-Kit Solutions." from http://www.identikit.net/.
Jeanjacques, J.-A. P. (2012). "La Teora del Retrato Hablado." 2014, from http://www.tecnicrim.co.cu/wpentrada.aspx?6,32,.
Klare, B. F., Z. Li, et al. (2011). "Matching forensic sketches to mug shot photos." IEEE Trans. PAMI 33(3): 639646.
Martinez, A. M. and R. Benavente (1998). "The AR Face Database." CVC Technical Report #24.
Messer, K., J. Matas, et al. (1999). "XM2VTSDB: the Extended of M2VTS Database." Proceedings of International Conference on Audio- and
Video-Based Person Authentication: pp. 72-77.
Ming-Kuei, H. (1962). "Visual pattern recognition by moment invariants." IRE Transactions on Information Theory: pp. 179 - 187.
Phillips, P. J., H. Moon, et al. (2000). "The FERET evaluation methodology for face recognition algorithms. ." IEEE Transactions on Pattern
Analysis and Machine Intelligence (PAMI). 22(10): pp. 1090-1104.
Turk, M. and A. Pentland (1991). "Face recognition using eigenfaces." Proc. IEEE Conf. on Computer Vision and Pattern Recognition: pp. 586
591.
Wang, X. and X. Tang (2009). "Face Photo-Sketch Synthesis and Recognition." Pattern Analysis and Machine Intelligence, IEEE Transactions
on 31(11): pp. 1955 - 1967.
Xiao, B., X. Gao, et al. (2009). "A newapproachforfacerecognitionbysketchesinphotos." Signal Processing Magazine, IEEE 89: pp. 15761588.
Xiao, B., X. Gao, et al. (2011). "Recognition of Sketches in Photos." Multimedia Analysis, Processing & Communications, Springer-Verlag Berlin
Heidelberg: pp. 239262.
Zhang, W., S. Shan, et al. (2005). "Local Gabor binary pattern histogram sequence (LGBPHS): a novel non-statistical model for face representation
and recognition." Computer Vision, 2005. ICCV 2005. Tenth IEEE International Conference 1: 786 - 791.
Zhang, W., X. Wang, et al. (2011). "Coupled information-theoretic encoding for face photo-sketch recognition." EEE Conf. on Computer Vision
and Pattern Recognition (CVPR).
Zhao, S., Y. Gao, et al. (2008). "Sobel-LBP." Image Processing, 2008. ICIP 2008. 15th IEEE International Conference: 2144 - 2147.

Você também pode gostar