Escolar Documentos
Profissional Documentos
Cultura Documentos
STSIVA 2008
Tomo II
Bucaramanga, 10, 11 y 12 de Septiembre
DIRECTIVOS Luis David Avendaño Valencia
Julio César García Álvarez
Fray Orlando Rueda Acevedo, O.P. Jesús Vega
Rector Julián Betancur
Fray Guillermo León Villa Hincapié O.P.
Vicerrector Académico
Decano División de Ingenierías PRODUCCIÓN CREATIVA
Fray Guillermo León Villa Hincapié O.P.
Decano División de Ingenierías y Arquitectura Departamento de Publicaciones
Fray José Rodrigo Arias Duque O.P. Directora Dpto. Publicaciones
Vicerrector Administrativo-Financiero C.P. Luz Marina Manrique Cáceres
Diseño y Diagramación
Pub. Luis Alberto Barbosa Jaime
COMITÉ ORGANIZADOR
Impresión
Luis Ómar Sarmiento Álvarez DISTRIGRAF Impresores
Presidente Comité Organizador
Jesús E. Laborde © Universidad Santo Tomás
Coordinador Comité Organizador
Dolly Smith Flórez Moreno ISSN 978-958-8477-00-8
Mónica Andrea Rico Martínez
Mayra Fernando Blanco Almeida
Ana Isabel Campos
Jenny Rocío Gómez
Jenniffer Dayanna Martínez
Adriana Quintana Ballén
María Lorenza Pinto Suárez
Jorge Alberto Martínez Campo
COMITÉ CIENTÍFICO:
Verificación de personal por el patrón de las venas del dorso de la mano 135
La División de Ingenierías de la Universidad Santo Tomás, Seccional Bucaramanga, tuvo el honor de ser
el ente organizador del XIII Simposio de Tratamiento de Señales, Imágenes y Visión Artificial STSIVA
2008, durante los días 10, 11 y 12 de septiembre de 2008 en la ciudad de Bucaramanga, cuyo objetivo era
el de promover el intercambio de experiencias académicas e investigativas en procesamiento de señales,
imágenes y visión artificial en un espacio que permita la revisión del estado del arte y la actualización de
métodos, técnicas y aplicaciones empleados en las diferentes áreas temáticas, tanto en el ámbito nacional
como en el internacional.
El Simposio de Tratamiento de Señales, Imágenes y Visión Artificial, cuya sede se rota anualmente por
las diferentes regiones del país, es un evento creado por la Sociedad Colombiana de Tratamiento de
Señales y cuenta recientemente con el apoyo del Capítulo Colombiano de Procesamiento de Señales del
IEEE. La realización de esta nueva versión contó adicionalmente con la cofinanciación de Colciencias y
con la coordinación de la Línea de Investigación en Procesamiento de Señales perteneciente a la Unidad
de Investigaciones de la Facultad de Ingeniería de Telecomunicaciones UNITEL, entre otras instancias
de la Universidad Santo Tomás de Bucaramanga.
STSIVA 2008 rompió récord respecto a las versiones anteriores en cuanto a asistencia, número de
trabajos inscritos y participación de ponentes internacionales, ya que contó con la inscripción de 365
participantes entre ponentes y asistentes, se recibieron 227 trabajos, de los cuales, después del proceso de
evaluación por pares, se seleccionaron los mejores 107 artículos incluidos en su totalidad en la presente
publicación, y se aceptaron en total seis artículos internacionales, dos de España, dos de Brasil, uno de
Alemania y otro de Bélgica.
Las presentes memorias contienen los artículos de las ponencias realizadas en STSIVA 2008. La
publicación se ha organizado en dos tomos, con 53 artículos el primero y 54 el segundo. El orden en el
que se presentan los artículos responde únicamente al número consecutivo que se asignó a cada trabajo
en el momento de la inscripción. Los trabajos se presentan sin hacer diferencia entre trabajos presentados
en ponencias orales y los presentados como póster ya que la modalidad de los trabajos es independiente
de la calidad de los mismos.
Los 107 artículos recibidos participaron en las siguientes temáticas: técnicas y aplicaciones del
procesamiento de señales, procesamiento de imágenes y señales multidimensionales, tratamiento de
señales de video, visión artificial, procesamiento de señales de origen biológico, aplicaciones desarrolladas
con DSPS Y PLDS (FPGA), educación en señales, imágenes y visión artificial, tratamiento de señales
de voz y audio y procesamiento de señales multimedia. Las temáticas con el mayor número de artículos
aceptados fueron en su orden: técnicas y aplicaciones del procesamiento de señales, procesamiento de
imágenes y señales multidimensionales, y visión artificial.
Paralelo al evento, se presentaron tres conferencias magistrales a cargo de expertos internacionales en
procesamiento de señal. Los conferencistas y los temas fueron: El Dr. José Millet Roig de la Universidad
Politécnica de Valencia participó con el tema “Aplicaciones del procesado digital de bioseñales a la
cardiología”, el Dr. Alberto González Salvador, también de la Universidad Politécnica de Valencia con
la conferencia “Algoritmos de detección por búsqueda en árbol (Sphere Decoders) para sistemas de
comunicaciones MIMO”, y la Dra. Amy Reibman, conferencista distinguida del IEEE con el tema “Image
and video quality assessment: The truth about PSNR”.
Como presiente del Comité Organizador de STSIVA 2008 y en representación de la Universidad Santo
Tomás Seccional Bucaramanga, con la satisfacción de haber cumplido a con los objetivos propuestos y
haber superado con creces las expectativas planteadas, con el agradecimiento a todas y todos quienes
participaron en la organización del evento y en constancia del alto nivel académico y científico, pongo
a su consideración esta edición impresa de las memorias del XIII Simposio de Tratamiento de Señales
Imágenes y Visión Artificial.
Cordialmente,
marcadores en el cuerpo humano que son segmentados para posible en que puede descomponerse, de tal manera que
luego construir modelos cinemáticos. En [6] se presentó una ρ ∈ Ω . Defínase la función de color mostrada en la Ecuación
metodología para análisis de la marcha humana usando un 1, como el mapeo a un espacio tridimensional de cada pixel de
sistema de marcadores. El reconocimiento de las piernas se la imagen. Este espacio será llamado espacio de color siendo
realizó en secuencias de imágenes en niveles de gris sus componentes los colores rojo (R), verde (G) y azul (B) y
empleando operadores morfológicos y luego se construyó un cada uno de éstos tendrá valores enteros entre 0 y 255, como
modelo tridimensional a partir de curvas supercuádricas se define en la Ecuación 2.
utilizando una regresión por el método de mínimos cuadrados.
La metodología requiere de una inicialización más adecuada y
un aumento en la tasa de tomas fotográficas para capturar los I : Ω → ] 3 (1)
movimientos rápidos de los pies. Finalmente, algunos
investigadores han propuesto adecuación de laboratorios
I ( ρ (Ω1 , Ω2 )) = [ I ρ1 , I ρ2 , I ρ3 ] 0 ≤ I ρ1 , I ρ 2 , I ρ3 ≤ 255
construyendo plataformas a partir de sensores para análisis de
la marcha humana. En [7] se propuso un sistema de sensores (2)
multipropósito y algoritmos de análisis de fase para predecir y
estimar comportamientos del ser humano en avance. Este Considérese el problema de la agrupación de píxeles y
sistema se compone de encoders, sensores FSR y tarjetas defínase λ como como la función de probabilidad de
FPGA para procesamiento de datos. En [8] se diseñó e pertenencia (FPP) del píxel a un conjunto Λ . Defínase ahora
implementó una plataforma robótica para aplicar velocidades el valor λ0 como el umbral que debe ser superado en la
o aceleraciones controladas como perturbaciones a la evaluación de la FPP para pertener al conjunto. La Ecuación 3
superficie del suelo. muestra esta formulación.
Paso 2: Segmentación de los marcadores empleando Paso 3: Ajustar con imágenes de entrenamiento el parámetro
funciones de base radial. de umbralización λ0 .
Paso 1: Identificar el color promedio en los componentes El paso más crítico es la identificación del punto 3. Como
RGB de los marcadores y calcular μ . se describe en el Algoritmo 3, la distancia más corta sin
importar la fase de la marcha entre los cuatro marcadores,
Paso2: Evaluar la intensidad en cada componente de color involucra dos puntos que tienen posibilidades de ser tanto el
RGB de cada pixel en la FPP utilizando la Ecuación (4). punto 3 (PP3) como el punto 4 (PP4). La identificación segura
12 XIII SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL. STSIVA 2008
del punto 2 (P2), permite trazar dos vectores desde éste hasta
los posibles puntos 3 y 4 respectivamente. Teniendo en cuenta
la operación básica de producto cruz entre vectores y en
especial la dirección del vector resultante, sólo existirá una
dirección de producto (esto es P2-PP3 a P2-PP4 o viceversa,
siendo P2-PP3 el vector que va desde el punto 2 hasta el
posible punto 3) que sugiera el vector rodilla-talón como
coherente, según el modelo del cuerpo humano. Para este
trabajo, cuando el paciente camina de izquierda a derecha en
la escena, el vector resultante del punto cruz debe tener una
dirección “saliendo del plano” donde se encuentran los
marcadores. El vector de arranque en el producto cruz, será el
vector rodilla-talón, y el putno final de este punto será
identificado como el punto 3 (P3).
AGRADECIMIENTOS
Este proyecto fué desarrollado al interior del grupo de
investigación de biomecánica y automatización de la
Universidad Autónoma de Manizales (Colombia), en el marco
del proyecto “Análisis de la Marcha Humana Empleando
Técnicas de Visión Artificial”.
REFERENCIAS
Figura 4a: Trazado automático de vectores.
[1] H. Lakany. “Extracting a diagnostic gait signature”. Pattern Recognition
41 (2008) pp. 1627 – 1637.
V. DISCUSION [10] Fabrício Martins Lopes, Luís Augusto Consularo. “A RBFN Perceptive
Model for Image Thresholding”. Proceedings of the XVIII Brazilian
Se desarrolló una metodología de segmentación automática Symposium on Computer Graphics and Image Processing (SIBGRAPI’05).
de marcadores en imágenes para análisis clínico de la marcha, IEEE 2005.
así como de identificación automática de los mismos para el
Identificación de formas, colores, tamaño y ubicación cartesiana
Identificación
de objetos de Formas,
mediante métodos de visiónColores,
artificial Tamaño
aplicado aly control
Ubicación de manipuladores
Cartesiana robóticosMediante
de Objetos
Métodos de Visión Artificial Aplicado al
Sergio Andrés Zabala, Gianni Yasser Rivera, Jhonny Marvin Maldonado y José Manuel Parra
(a) (b)
el entrenamiento de la red neuronal con los objetos utilizados robóticos. En general, se pueden destacar los siguientes
y registrados por la imagen. Fig. 9(b). elementos como conclusiones del presente trabajo:
VI. BIOGRAFÍAS
en Imágenes
Lorena Vargas Quintero, Leiner Barba Jiménez, Cesar Torres, Lorenzo Mattos
transiciones de nivel de gris, ver figura 1. Por tanto, un puntos, excepto en el comienzo y en el final de una transición
cambio de intensidad o borde, se manifiesta como un cambio de intensidad. Cuando ocurre un cambio de intensidad o borde
brusco en la primera derivada. en una imagen, se presenta un paso por cero, es decir, se
produce un cambio de signo en su valor en la segunda
derivada, tal como se observa en la figura 1.
Uno de los operadores de segunda derivada más usado es la
máscara Laplaciana, la cual es un filtro pasaalto que resalta los
cambios bruscos dentro de la imagen (figura 3).
Figura 1. Representación de la función del borde de una imagen Figura 3. Máscaras Laplacainas para la detección de bordes
Teniendo en cuenta este proceso, las técnicas de primera Matemáticamente este filtro es descrito como:
derivada utilizan el operador gradiente, el cual puede G( x, y) = 4I ( x, y) − I ( x − 1, y) − I ( x + 1, y) − I ( x, y − 1) − I ( x, y + 1) (5 ),
determinar la región de máximo crecimiento de una función:
∂I ( x, y ) ∂I ( x, y ) (1), donde I(x,y) es el píxel de la imagen de entrada.
∇f ( x, y ) =i + j
∂x ∂y Análogamente al proceso anterior se convoluciona cualquiera
donde I(x,y) representa el píxel de entrada, i y j son los de las máscaras de la figura anterior con la imagen de entrada,
vectores unitarios en la dirección x e y. y aplicando posteriormente el proceso de umbralización
Basado en el concepto de variación de intensidad de los descrito en la ecuación (3) se obtiene el píxel de borde final.
niveles de grises se introdujo un operador para la detección
digital de los bordes: las máscaras, las cuales representan III. ARQUITECTURA HARDWARE DEL ALGORITMO DE
aproximaciones de diferencia finita del gradiente ortogonal o DETECCIÓN DE PRIMERA DERIVADA
del gradiente direccional [13]. El algoritmo de detección usando la primera derivada es
Sobel y Prewit proponen dos tipos de máscaras 3x3 para desarrollado en varios bloques de procesamiento, como se
calcular el gradiente de la función imagen en una posición de muestra en la figura 4; aquí se utilizó una metodología de
píxel dada, a través de la convolución entre ellas y una diseño descendente (Top Down), en la cual todos los bloques
ventana de la imagen centrada en el píxel que se esta son implementados y analizados individualmente para luego
analizando: unirlos en un solo sistema.
imagen de entrada se realiza a través de las unidades de utilización de recursos del FPGA.
procesamiento de multiplicación “Multiplication Block” y de Tabla 1. Resumen de Utilización de recursos en el FPGA
suma “Sum Mask”. Cada bloque sumador procesa los datos Number of Slices: 174 out of 2352 7%
de una de las dos máscaras. Finalmente la umbralización y el Number of Slice Flip Flops: 100 out of 4704 2%
píxel de borde resultante se obtiene en el bloque “Mask Number of 4 input LUTs: 245 out of 4704 5%
Number of bonded IOBs: 30 out of 144 20%
Umbral”. La señal “sel_mask” indica el tipo de operador a
Number of TBUFs: 140 out of 2352 5%
utilizar: Sobel o Prewit.
Number of GCLKs: 1 out of 4 25%
Para la implementación hardware en FPGA fue adoptado el
Frecuencia de Trabajo 50 MHz
Lenguaje de Descripción de Hardware VHDL (VHSIC
Hardware Description Languaje). En la figura 5 se observa el
Adicionalmente se hizo un análisis de potencia con la
diagrama esquemático de algoritmo implementado utilizando
herramienta Xilinx XPower y se estima que la potencia
este estándar de diseño electrónico.
máxima consumida por el diseño es de 13 mW.
V. IMPLEMENTACIÓN FPGA
Figure 7. Diagrama esquemático de algoritmo de detección de segunda
El sistema ha sido mapeado en un dispositivo FPGA de derivada implementado en VHDL. La señal “sel_mask” determina la máscara
Xilinx de la familia Spartan II, de referencia XC2S200 a Laplaciana.
través de la tarjeta de desarrollo Digilab 2 distribuida por
Digilent. La arquitectura fue implementada usando el VI. RESULTADOS
software ISE de Xilinx, versión 9.1, la cual suministra varias Para evaluar el desempeño de los algoritmos
herramientas para síntesis del diseño, técnicas de implementados se desarrollo una interfaz gráfica en Matlab
configuración, análisis de desempeño, incluyendo recursos, 7.1, la cual permite cargar las imágenes digitales que se
velocidad y consumo de potencia. En la tabla uno se resume la quieren analizar, enviarlas serialmente al FPGA, recibir la
22 XIII SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL. STSIVA 2008
⎧1, si G( x, y) ≥ T
B( x, y) = ⎨ (8)
⎩0, si G( x, y) < T (a) (b)
Fig. 5. (a) Resultados del proceso. Se utilizó la familia wavelet
Daubechies de orden 2 (db2), (b) Microcalcificaciones detectadas
V. RESULTADOS
usando Coiflet 2 (coif2).
Para evaluar los resultados del sistema se usó la base de
datos MIAS (Mammographic Imge Analysis Society),
especialmente aquellas imágenes mamográficas que presentan
calcificaciones en su diagnóstico; en total son 30 imágenes
con calcificaciones. Asimismo, se emplearon diferentes
familias wavelet como db2, db4, sym3, coif2.
En la figura 3 se muestra la región ampliada donde se
encuentran las calcificaciones de la imagen a procesar. La
figura 4 muestra los resultados después de aplicar la máscara
unsharp y la modificación de histograma.
Fig. 6. Imagen mamográfica a ser analizada y región ampliada donde
está localizada la anormalidad.
26 XIII SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL. STSIVA 2008
Se evaluaron los resultados utilizando una imagen imágenes con calcificaciones de la base de dato MIAS se
mamográfica de características diferentes, tal como se observa emplearon para probar el sistema. El algoritmo desarrollado
en la figura 6, en la cual se seleccionó una sección de ella para para la detección de microcalcificaciones tiene una exactitud
ser analizada. promedio de 91% de verdaderos positivos
(microcalcificaciones detectadas), y un promedio de 10% de
falsos positivos (objetos detectados en la imagen que no son
microcalcificaciones). El mejor resultado obtenido fue con la
familia wavelet Daubechies de orden 4 (db4), con cuatro
niveles de descomposición. Este trabajo puede ser útil como
ayuda diagnóstica para los radiólogos en la interpretación de
imágenes mamográficas.
(a) (b)
Como trabajo futuro se planea la implementación de un
Fig. 7. (a) Resultado de aplicar la máscara; (b) Resultado de algoritmo de reconocimiento utilizando redes neuronales para
modificar el histograma. clasificar las microcalcificaciones detectadas de acuerdo a su
tamaño, forma o distribución.
La figura 7 muestra los resultados al aplicar la máscara y la
técnica de modificación de histograma. En la figura 8 se REFERENCIAS
aprecia el resultado después de aplicar la TDW, filtrar y [1] James Nguyen, David Fleiszer, “Interactive mammography analysis web
reconstruir la imagen utilizando la familia wavelet Daubechies tutorial”, McGill Medicine, Molson Medical Informatics, 2002 at:
de orden 4 (db4). http://sprojects.mmi.mcgill.ca/mammography/index.htm
[2] João Martins Pisco, Imagiologia Básica, LIDEL, 2003, pp. 65-70 (in
portuguese).
[3] J.-P. Antoine, P. Carette, R. Murenzi, and B. Piette, “Image analysis with
two-dimensional continuous wavelet transform,” Signal Process., vol.31,
pp. 241–272, 1993.
[4] T. C. Wang and N. B. Karayiannis, “Detection of microcalcifications in
digital mammograms using wavelets,” IEEE Trans. Med. Imag., vol. 17,
pp. 498–509, Aug. 1998.
[5] Qian W, Clarke LP, Kallergi M, Li H, Velthuizen R, Clark RA, et al.
“Tree-structured nonlinear filter and wavelet transform for
microcalcification segmentation in mammography”. SPIE Biomed Image
Process Biomed Visual 1993;12(4):634–642.
Fig. 8. Resultado de aplicar la TWD usando la familia db4 [6] R.N. Strickland and H.I. Hahn, "Wavelet transform for detecting
microcalcifications in mammograms" IEEE Trans. Med. Imaging, vol.15,
no.2, pp.218–229, 1996
Asimismo, se evalúan los resultados utilizando la familia [7] Laine Andrew, Fan Jian and Yang Wuhai, “Wavelets for Contrast
wavelet Symlets de orden 3 (sym3), tal como se observa en la Enhancement of Digital Mammography” IEEE Engineering in medicine
figura 9. and Biology, Volume 14, Issue 5, Sep/Oct 1995 pp.536 – 550.
[8] A. F. Laine, S. Schuler, J. Fan, and W. Huda, “Mammographic feature
enhancement by multiscale analysis,” IEEE Trans. Med. Imag., vol. 13,
pp. 725–740, Aug. 1994
[9] R. M. Nishikawa, Y. Jiang, M. L. Giger, K. Doi, C. J. Vyborny, and R. A.
Schmidt, “Computer-aided detection of clustered microcalcifications,” in
Proc. IEEE Int. Conf. Syst., Man, cybern., 1992, pp. 1375-1378.
[10] I. Daubechies, “Orthonormal bases of compactly supported wavelets,
”Commun. Pure and Appl. Math., vol. 41, pp. 909–996, 1988.
[11] S. G. Mallat, “A theory for multiresolution signal decomposition: The
wavelet representation,” IEEE Trans. Pattern Anal. Machine Intell., vol.
11, pp. 674–693, July 1989.
Fig.9. Resultado de aplicar la TWD usando la familia sym3 [12] ________, “Multifrequency channel decomposition of images and
wavelet models,” IEEE Trans. Acoust., Speech, Signal Processing, vol.
37, pp. 2091–2110, Dec. 1989.
En cada caso, se evaluó el número de microcalcificaciones [13]Andrea Polesel, Giovanni Ramponi, and V. John Mathews, “Image
y falsos positivos encontrados teniendo en cuenta la Enhancement via Adaptive Unsharp Masking”, IEEE Transactions on
información suministrada en [17], y se determinó que los Image Processing, Vol. 9, No. 3, MARCH 2000, pp. 505-510.
[14]L. Lehr and P. Capek, "Histogram equalization of CT image,",
mejores resultados fueron obtenidos con funciones wavelet:
Radiology, vol. 154, pp. 163-169, 1985.
db4 (Daubechies de orden 4), coif2 (Coiflet de orden 2) y [15]Amara Graps, “An introduction to wavelets”,
sym3 (Symlet de orden 3). Asimismo se pudo concluir que la IEEE Computational Science and Engineering,
wavelet madre db4 presentó un mayor número de Volume 2, Issue 2, Summer 1995 Page(s):50 – 61.
microcalcificaciones detectadas. [16] Pajares Gonzalo, de La Cruz Jose, Visión por computador – Imágenes
digitales y aplicaciones, Alfaomega, pages 47-56, 2004 (in spanish).
[17] Mammographic Imge Analysis society (MIAS), MiniMammography
VI. CONCLUSIONES Y TRABAJOS FUTUROS Database; available on-line at http://peipa.essex.ac.uk/ipa/pix/mias/mias-
database.tar.gz.
El sistema desarrollado puede detectar microcalcificaciones
en imágenes mamográficas a través de la transformada
wavelet y técnicas de mejoramiento de contraste. Todas las
Algoritmo de apoyo para el diagnóstico de tuberculosis pulmonar
Algoritmo de Apoyo
mediante para el Diagnóstico
el procesamiento digital de de Tuberculosis
imágenes
Pulmonar mediante el Procesamiento Digital de Imágenes
Rueda D. Laura, Narváez L. Remberth, Sotaquirá G. Miguel, miembro IEEE
Rueda D. Laura, Narváez L. Remberth, Sotaquirá G. Miguel, miembro IEEE
Resumen—Este artículo presenta el diseño e implementación de determinaron las dimensiones de la imagen (640 x 480), el
un algoritmo que sirve de herramienta para el diagnóstico de balance de blancos (Nuboso) y el zoom óptico.
tuberculosis pulmonar. Con las técnicas de computación
adecuadas es posible disminuir el tiempo de diagnóstico, siendo la B. Características de las imágenes
rapidez vital para el paciente. Haciendo uso de técnicas de La imagen está compuesta de manchas azules (en todas las
segmentación por umbralización es posible contar el número de
tonalidades), residuos (verdes, negras o marrones), bacilos y el
bacilos y/o agrupaciones en una muestra de esputo con tinción de
Ziehl-Neelsen. Una característica que se aprovecha en el conteo fondo. La coloración de las manchas azules y de los bacilos es
automático es el color de los bacilos, el cual es estudiado en el debida a la técnica de tinción utilizada. Existen manchas
procesamiento mediante la utilización de los espacios de color debido a residuos de alimentos, fibras y polen y/o rasguños en
YCbCr y Lab. Se presenta el proceso de selección de los espacios las láminas reutilizadas.
de color y la segmentación de los bacilos y sus agrupaciones. El rango en el que se puede variar la iluminación constituye
Todas las decisiones fueron tomadas de acuerdo con resultados un 40% del rango que ofrece el microscopio. Las pruebas
estadísticos. La herramienta diseñada tiene un desempeño en el realizadas se muestran en la Sección IV.
diagnóstico del 81.8% Las muestras utilizadas se obtuvieron de la Secretaría de
Palabras clave— Espacios de color, imágenes biomédicas,
Salud de Bogotá la cual recibe muestras preparadas de
tuberculosis pulmonar, esputo, segmentación, histograma, diferentes centros de salud por lo que el resultado no es
correlación. homogéneo. Por esto, lo que se observa en el microscopio y en
las imágenes que se procesan es una diversidad en tonos, de
rojo para los bacilos, y azul para el medio en que se
I. INTRODUCCIÓN encuentran, y en concentración de la muestra, mostrando unos
campos traslúcidos y unos opacos.
E l diagnóstico temprano de tuberculosis pulmonar es
crítico para la salud del paciente. Actualmente la
detección de bacilos se realiza analizando manualmente la
C. Procesamiento Digital
Para verificar el comportamiento de los espacios de color
muestra de esputo; sin embargo, no está exenta de errores por ante la tarea de identificación de bacilos, se probó el código de
subjetividades del observador, consume mucho tiempo, es segmentación, es decir, fue un proceso simultáneo. A
tediosa por la repetición del proceso y requiere de personal continuación se presentan los espacios de color con su
altamente especializado y experimentado. respectiva estrategia.
Por la experiencia de los microbiólogos y otros profesionales
afines, el diagnóstico tarda aproximadamente entre 40 minutos 1) Espacios de Color y Segmentación.
y 3 horas (dependiendo de la experiencia del profesional), [1]. Espacio RGB. La estrategia que se utiliza en este
Por otro lado, dado el número de casos presentados espacio es la observación de los valores que toman los píxeles
anualmente a nivel nacional (entre 7000 y 8000 siendo el 22% de cada matriz en las regiones de interés de las imágenes, éstas
de esos casos en promedio de la Costa [2]) la respuesta del son: los bacilos, las manchas azules y el fondo. Se tomaron los
diagnóstico de un paciente en particular puede durar hasta 24 valores de los píxeles mediante el comando imtool de la
horas hábiles. herramienta de Software Matlab.
En este proyecto se utilizan el procesamiento digital de No se encontraron agrupaciones de bacilos mayores a 300
imágenes para contar los bacilos y dictaminar el diagnóstico, píxeles pero sí un ruido de tipo “sal y pimienta”. Debido a
con el fin de agilizar éste. ciertos bacilos segmentados que eran débiles ante un filtro de
media, se eliminaron objetos cuya área fuera menor a 10
píxeles y así se veían menos afectados los bacilos.
II. METODOLOGÍA Espacio YCbCr. En el plano Cr del espacio YCbCr,
A. Toma de Imágenes los bacilos y otras partes de la imagen del mismo color toman
tonalidades claras y el resto de la información se oscurece; en
Para obtener un nivel de confiabilidad adecuado, es
los otros planos, los bacilos no se pueden diferenciar de las
necesario estandarizar los procesos relativos a la preparación
manchas y el fondo.
de la muestra y la toma de imágenes. La preparación de las
Experimentalmente se hallaron umbrales ideales para cada
muestras de esputo depende exclusivamente del laboratorio en
imagen. Éstos se encontraban en un punto poco característico
donde se realice, por lo que está fuera de los alcances de este
del histograma, no eran mínimos ni máximos locales o
proyecto.
globales. Los umbrales ideales se encontraban en la caída del
En el microscopio se determinaron el enfoque y la
histograma, después del máximo, siendo difíciles de
luminosidad; en la cámara, desde el computador, se
determinar.
información dentro de la imagen. De esta forma, se dieron por iluminación, pero es más fuerte ante los objetos no
niveles a la cantidad de bacilos, iluminación y la presencia de deseados; el Lab es robusto ante el ruido por iluminación y es
ruido en la imagen segmentada. De las imágenes segmentadas más débil que el YCbCr ante los objetos no deseados. Sin
se obtienen dos tipos de información: una correspondiente a embargo, los FN son menores en el espacio Lab un 0.71%,
bacilos y otra a la imagen segmentada en su totalidad. Esta pero debido a la mejora considerable en los FP por objetos,
diferencia se debe al ruido, por iluminación u objetos extraños, entonces la unión YCbCr/Lab es escogida para el programa
que es segmentado junto con los bacilos. Con el primer tipo de final. Cabe resaltar que aunque los falsos negativos mantengan
datos se determina la efectividad del algoritmo para reconocer un porcentaje bajo, es uno de los retos a tratar en trabajos
los bacilos presentes en la imagen; con el segundo tipo se posteriores.
define la robustez del algoritmo ante el ruido, ya que, entre
más similar sea este tipo de información a la de los bacilos, F. Resultados del diagnóstico
menos ruido tiene la imagen. Con el programa final, se procesaron las imágenes por
Para determinar la relación entre la información obtenida (de muestra para un diagnóstico. Se compararon los resultados con
bacilos y la total) y la imagen segmentada, se calculó el el diagnóstico emitido por el Programa de Enfermedades
coeficiente de correlación para comparar entre todos los Transmisibles de la Secretaría Distrital de Salud de Bogotá.
espacios. Se utilizaron 141 imágenes de diferentes muestras y Se utilizaron 11 muestras, cuatro son tipo 3, cuatro son tipo
características de iluminación y cantidad de bacilos. 2, dos son tipo 1 y una es tipo 0. Se obtuvo un 81.8% de
aciertos, que corresponden a nueve muestras y 18.2% de
E. Resultados y comparación desacierto, que corresponden a dos muestras. El algoritmo
En la Tabla II se resumen los resultados obtenidos en las arrojó un diagnóstico tipo 1 y 3, cuando en realidad eran tipo 0
pruebas para cada algoritmo. Por el coeficiente de correlación, y 2, respectivamente. Errores de este tipo eran predecibles a
se descarta el código en el espacio RGB. Debido a las partir del porcentaje de FP obtenido con las pruebas para la
características complementarias de los algoritmos del espacio escogencia del espacio.
Lab y YCbCr se optó por una unión de espacios. Un parámetro importante a considerar es el tiempo de
computación requerido para realizar un diagnóstico. Para el
TABLA II
COMPARACIÓN caso de muestras tipo 3, el algoritmo toma únicamente 20
Espacios Coef. De Correlación imágenes, por lo que le corresponde el menor tiempo de
RGB 0.3474 procesamiento, con 40 segundos aproximadamente. Para las
YCbCr 0.5346 muestras tipo 1 ó negativas, se procesan 100 imágenes en 200
Lab 0.9016
YCbCr/Lab 0.8398 segundos aproximadamente.
80
afectadas
60
40
20
0
FP por FP por obj. No FP mutuo FP total FN
iluminación desseados
Tipo de error
Con la derivada, se tiene el comportamiento creciente y principalmente en el diagnóstico que brinde el software y en
decreciente del histograma siendo esto de utilidad para la segundo lugar, en la cantidad promedio de bacilos detectados.
aplicación, ya que los umbrales ideales son puntos poco
característicos del histograma. De esta forma, si se definen
límites para la derivada, es decir, que ésta se mantenga mayor VI. CONCLUSIONES
o menor a determinado valor, r, se obtiene un umbral, T, el
cual es el punto de esa derivada. Entonces, se define el umbral El algoritmo de apoyo para el diagnóstico de tuberculosis
como el valor máximo de intensidad cuya derivada sea menor pulmonar desarrollado es una herramienta innovadora basada
a r. en el procesamiento digital de imágenes, para el cual es
necesario estandarizar las entradas. La variabilidad, una
T maxn / H n r característica indeseada en las imágenes, depende de dos
etapas, una de ellas externa al proyecto: la preparación de la
B. Independencia de la iluminación muestra con tinción de Ziehl Neelsen y la toma de imágenes.
La ventaja principal del método descrito es que permite En la primera, se deben tomar las medidas necesarias para que
determinar umbrales a cada imagen, según la derivada del se mantengan las mismas características en las imágenes. Por
histograma, por lo que es independiente de la iluminación otro lado, las imágenes se limitan a un balance de blancos,
hasta cierto punto. Las imágenes que se muestran en la Figura iluminación y zoom óptico determinado.
5 corresponden a un mismo campo variando la iluminación. Gracias al método de segmentación mediante la derivada del
histograma, fue posible independizar el procesamiento de las
imágenes de la iluminación, hasta cierto punto. Los resultados
muestran que la iluminación en el microscopio puede variar en
un amplio rango, siendo esto una característica destacable del
algoritmo.
a) b) c) De los espacios de color utilizados, el algoritmo de la unión
Fig. 5 Cambio de iluminación en un mismo campo YCbCr/Lab tiene los porcentajes de falsos positivos más bajos
y una alta correlación con respecto a la imagen original,
TABLA III razones por las cuales se eligió para el sistema final. Con éste,
UMBRALES CALCULADOS POR EL SOFTWARE
se obtuvo un porcentaje bueno de diagnósticos acertados,
Imagen a b c 81.8%, que abre la posibilidad de la aplicación en el campo
Umbral Lab 161 150 146 real.
Umbral YCbCr 165 159 155
Promedio bacilos 69.1 74.1 75.8
AGRADECIMIENTOS
Esta es una prueba preliminar que indica un grado de
Este proyecto fue posible gracias a la colaboración del
independencia de la iluminación pero se requieren pruebas
Laboratorio Departamental del Atlántico, del Programa de
adicionales para determinar la importancia de la diferencia del
Prevención de Enfermedades Transmisibles de la Secretaría de
promedio de bacilos segmentados. El cambio de iluminación
Salud de Bogotá y del Laboratorio de Biología y Genética de
hace que el histograma se traslade a la izquierda o a la derecha
la Universidad del Norte.
y asimismo cambia el umbral obtenido por la segmentación
mediante la derivada del histograma.
REFERENCIAS
[1] G. Reyes Carmona. Especialista en Microbiología; Especialista en
V. DISCUSIÓN Módulos, tipos y diseños de investigación 2002. Universidad del Norte.
Entrevista realizada 6 de febrero de 2007.
El algoritmo diseñado presenta tres características [2] Instituto Nacional de Salud (Colombia). Tablas de notificación anual
obligatoria. [Citado en 5 de febrero del 2007]. Disponible en Internet:
importantes frente a los trabajos afines desarrollados http://www.ins.gov.co/nivel3.php?seccion=26&sub=45
anteriormente: la primera de ellas es el tipo de tinción de las [3] L. Guzmán Acuña. Profesora catedrática del Departamento de
muestras de esputo (Ziehl Neelsen), los trabajos previos Matemáticas y Física de la Universidad del Norte. Entrevista realizada 17
procesan imágenes de muestras con tinción fluorescente, [4], de octubre de 2007.
[4] K. Veropoulos, G. Learmonth, C. Campbell, B. Knight, J. Simpson.
[5], [6], [7]; la segunda de ellas es la unión de dos modelos de Automatic identification of tubercle bacilli in sputum. A preliminary
color que aprovecha la robustez para reducir los objetos no investigation. Analytical and Quantitative Cytology and Histology, vol.
deseados y el ruido por la iluminación; y la última es la 21, no. 4, pp. 277-281, 1999.
solución que se encuentra para segmentar las imágenes e [5] M. Forero, G. Cristóbal, M. Desco. Automatic identification of
Mycobacterium tuberculosis by Gaussian mixture models. Journal of
independizarlas de la iluminación calculando el umbral a Microscopy, vol. 223. no. 2, pp. 120-132, 2006
partir de la derivada del histograma. Algunos de los trabajos [6] M. Forero, F. Šroubek, G. Cristóbal. Identification of tuberculosis
que se han realizado para detectar bacilos redes neuronales, bacteria based on shape and color. Real-Time Imaging, vol. 10, no. 4, pp.
lógica difusa o técnicas que están fuera de los alcances de este 251-262, 2004. Disponible en:
http://www.tsi.enst.fr/~bloch/P6/PRREC/forero.pdf
proyecto, pero pueden ser consideradas para mejorar el [7] M. Forero, G. Cristóbal, J. Álvarez-Borrego. Automatic identification
desempeño en cuanto a los falsos positivos y negativos. Una techniques of tuberculosis bacteria. SPIE Proceedings of the Applications
de las conclusiones comunes que se obtuvieron desarrollando of Digital Image Processing XXVI, vol. 5203, pp. 71-81, 2003. Disponible
el presente proyecto es que la solución debe estar enfocada en: < http://www.iv.optica.csic.es/papers/tuber03.pdf>
Caracterización del grado de madurez del limón Tahití
Caracterización del Grado De Madurez
Ing. Ángel Álvarez, PhD. Arturo Plata, Ing. Jorge Araoz, MsC. Hernando González.
Index Terms — CIELab polychromatic space, characterization Figura 1. Clasificación del grado de madurez en forma manual
of the degree of maturity of the Tahiti lemon.
Como una alternativa para la reducción de costos en la
I. INTRODUCTION clasificación del limón en Colombia, se desarrolló un sistema
de visión artificial, que reconoce el estado de madurez del
En una empresa donde se tienen grandes volúmenes de limón Tahití para su posible exportación.
producción, se hacen necesarios métodos más eficientes que
realicen las tareas de producción en serie, una de estas tareas II. SISTEMA DE ILUMINACIÓN
es el control de calidad sobre los productos terminados. Esta
tarea en especial, debe llevarse a cabo con gran eficiencia y El procedimiento realizado experimentalmente para lograr la
precisión para poder cumplir con los altos requerimientos que caracterización del grado de madurez del limón Tahití, inicia
exige el mercado actual, el cual esta regido por normas y con determinar el ambiente de iluminación adecuado para la
estándares nacionales e internacionales. toma de las muestras fotográficas del limón en diferentes
estados de maduración, para ello se implementaron sistemas
Teniendo en cuenta la gran riqueza agrícola de nuestro país, se con diferentes características hasta lograr la toma adecuada de
plantea la necesidad de desarrollar proyectos con tecnología las fotografías (Ver la Figura 2). Dichas fotografías son
propia, que permita la explotación más eficiente de los digitalizadas por una cámara, que realiza la captura con
recursos naturales, de una manera tal que se incremente la características particulares, especificas y son almacenadas en
producción, elevando los ingresos de los propios agricultores un formato que posibilitan su procesamiento en MATLAB,
y generando divisas, sin descuidar los campos y disminuyendo con el cual se desarrolla el algoritmo que permite la
las pérdidas por desperdicios. Además, como consecuencia de cuantificación de los datos relacionados con la cantidad de
la necesidad de ingresar en nuevos mercados, el productor color amarillo que pueden contener las imágenes digitalizadas.
agrícola se obliga a tecnificar sus procesos.
III.SISTEMA DE PREPROCESAMIENTO (G) del sistema RGB, las componentes (L), (a) y (b), del
sistema CIELab, y la componente (CB) del sistema YCBCR,
Para alcanzar la caracterización del grado de madurez del todas binarizadas con los valores mínimos en x , entre sus dos
limón Tahití a partir de imágenes procesadas, se extrae de la nodos, permiten aplicar un análisis posterior a la binarización
imagen la información referente a los colores verde y para conseguir la caracterización, puesto que con ellas se logra
amarillo, por medio de los cuales se logra establecer el grado separar el limón del fondo de la imagen.
de maduración del fruto. Para ello se determina el espacio
policromático que otorgue dicha información y permita el La imagen binarizada de la componente (G) del sistema RGB,
procesamiento de la imagen. Apoyados en el histograma se mostrada en la Figura 4, utilizando como umbral el valor de
puede determinar dicho espacio ya que éste nos entrega x en el punto mas bajo del histograma entre los dos nodos,
información sobre la cantidad y la tonalidad de los píxeles que permite distinguir el limón con respecto al fondo, con algunas
conforman cada componente de la imagen, en cada espacio de componentes de ruido.
color. A continuación se muestran gráficas realizadas en una
GUI (Graphic user interface “interfase de usuario gráfica”)
desarrollada en MATLAB, y que permiten observar los
histograma de la imagen de un limón Tahití en diferentes
espacios de color, con cada una de sus componentes.
IV.UMBRALIZACIÓN Y BINARIZACIÓN
su mayoría separada del fondo negro, y se pueden estimar los resto de la imagen. Ver la Figura 10. Como dicha extracción
bordes del limón. Ver la Figura 7. se logra con cierto contenido de ruido, se aplica a la imagen
un filtrado que lo elimine y entregue el limón totalmente
segmentado.
(a)
Figura 7. Umbralización del mínimo de (b)
(b)
(c)
Figura 8. Umbralización del mínimo de (CB) Figura 10. Umbral único de (b)
Para la binarización realizada en el análisis anterior, se utilizó Como umbral de segmentación para la binarización de la parte
la imagen del limón de la Figura 9(a). amarilla de la imagen, se determina el valor de x en el último
tono presente en la binarización del limón, cuyo grado de
Para determinar la componente del espacio de color en la que maduración es menor, es decir el limón mas verde, donde sus
se debe realizar la segmentación final, se utilizan las imágenes tonos de amarillo representan la parte verde del limón. En la
de dos limones más, uno en un estado más maduro (Figura Figura 11 se puede apreciar la parte amarilla de los limones en
9(c)) y otro en un estado intermedio de maduración (Figura cada estado de maduración al aplicar como umbral de
¡Error! No se encuentra el origen de la referencia.9(b)), binarización, el tono dado por el último valor de x ,171 del
(dicho estado de maduración, determinado por el experto en la limón más verde.
clasificación de los limones Tahití en forma manual), se
analiza el comportamiento de las tres imágenes en las
componentes ya mencionadas para determinar un umbral
único que posibilite aislarlos, sin importar en que estado de
maduración se encuentren; y para ello recurrimos nuevamente
al análisis gráfico basándonos en los histogramas de cada
limón en los tres estados de maduración.
(a)
(c)
Figura 11. Umbral para la binarización de la parte amarilla
V. FILTRADO
(b)
(a)
(b)
(c)
Figura 13. Caracterización del limón Tahití
VII. CONCLUSIONES
El valor del umbral para el proceso de binarización se [6] GONZALEZ, Rafael & WOODS, Richards. Tratamiento
determinó tomando como referencia los limones que presentan digital de imágenes. Madrid: Addison – Wesley / Díaz
un estado de maduración intermedio, es decir, tonalidades de Santos. 1996. 773 p.
entre 167 y 179, el umbral se fijo por encima de esta región
definiéndolo en 180. Los resultados obtenidos por este valor [7] ROLDÁN, Diego y SALAZAR, Marcela. La cadena de
se validaron con el experto resultando una discrepancia de cítricos en Colombia. Ministerio de agricultura y
12%. desarrollo rural. [En línea], mayo 2002 [cited junio de
2004]. Disponible en Internet.
La cuantificación objetiva de parámetros de color permitió URL:http://www.agrocadenas.gov.vo/citricos/citricos_de
optimizar el proceso de selección, que hasta el momento se scription.html
hace de forma subjetiva pudiendo generar errores de
clasificación. [8] SEGMENTACIÓN DE IMÁGENES DE COLOR.
VIII. RECOMENDACIONES Revista Mexicana de Física 50 (6) (2004) p. 579-587
Otra característica a tener en cuenta para la exportación de los [9] SEMINARIO DE IMAGEN Y SONIDO DIGITAL. El
limones Tahití a mercados extranjeros, es la identificación de sentido de la vista. Repuesta a la intensidad y color. [En
quemaduras en su corteza, la cual podría ser identificada línea] Google, 2004. Disponible en Internet: Disponible
trabajando en la componente rojo/verde del sistema CIELab. en Internet. URL:http://
www.pubfasta.edu.ar/SISD/vision/respuestacolor.htm
Para futuros trabajos sobre la calidad del limón Tahití, se debe
implementar algoritmos que identifiquen daños, quemaduras y [10] TECNOLOGÍA DEL COLOR .S.A. El sistema CIELab
malformaciones, confrontándolas con el proceso de de medición de un color. [En línea] Provincia de buenos
producción para poder establecer las posibles causas de éstas aires: Google, disponible en Internet. URL:
y retroalimentar así, el sistema de control de producción. http://www.coloryapariencia.com.ar/color.html
IX. BIBLIOGRAFÍA
Fig. 2. Resultado del registro de imágenes entre dos imágenes tomadas con
ángulos diferentes.
C. Visualización
Se escribió una aplicación usando una librerı́a de desarrollo
3D, en el cual se mapea la imagen final obtenida con el registro
de imágenes en una superficie cilı́ndrica ó esférica, de acuerdo
Fig. 6. Resultado del proceso de render independiente de las cámaras
con el procedimiento anterior. Una cámara de visualización es
necesarias para logar una imagen con navegación esférica. Las imágenes se creada en el centro del sistema de coordenadas, visualizando
encuentran organizadas de acuerdo con los valores de θ y ϕ de la tabla I. solo un fragmento de la superficie respectiva.
XIII SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL. STSIVA 2008 39
[1]
Mateus, S., [2]Giraldo, J., y [3]Branch, J.
[1] [2] [3]
Politécnico Colombiano Jaime Isaza Cadavid, Universidad Nacional de Colombia – Sede Medellín
[1] [2] [3]
spmateus@elpoli.edu.co, jegiraldo@elpoli.edu.co, jwbranch@unalmed.edu.co
∑
características topológicas, controlar su simplificación y
Δf = W ( f − f )
i ij j i
(1)
organizarlas en jerarquías de multiresolución.
j∈N i
de dicha función. Así, la selección de cada valor propio indica utilizada por su geometría suave; la segunda es el objeto
directamente la cantidad de puntos críticos que posee la “moai” el cual tiene topología arbitraria muy irregular.
función. Para valores de frecuencia altos, mayor número de En las Figuras 4a y 5a se pueden observar los puntos críticos
puntos críticos se obtendrán. Esto permite representar cada resultantes de diferentes configuraciones de armónicos para
objeto con un número variable de parches de superficie. El ambos objetos. En las Figuras 4b y 5b, la malla cuadrilateral
campo propio asigna valores de función para cada vértice de se ajustó adecuadamente a la geometría de los objetos,
la malla, lo que permite determinar si un vértice de la malla es independiente de su topología.
un punto crítico de la función de Morse. Adicionalmente, de
acuerdo a un conjunto de valores obtenidos como el
vecindario del primer anillo de cada vértice, es posible
clasificar los puntos críticos como máximos, mínimos o
puntos de silla. La identificación y clasificación de cada punto
crítico permite construir el complejo Morse-Smale.
Una vez obtenidos y clasificados los puntos críticos estos se
deben conectar para formar la base cuadrilateral de la malla.
La conexión de los puntos críticos se inicia seleccionando un
punto silla y construyendo dos líneas de ascenso inclinadas y
dos líneas de descenso declinadas. Las líneas inclinadas se
forman como un conjunto de vértices que terminan en un
punto crítico máximo. Inversamente, una línea de descenso se
forma por el camino de vértices que terminan en un punto
crítico mínimo. Sin embargo, existen casos en los que no es
posible determinar el conjunto de dos líneas ascendentes y dos
descendentes. Se debe tener en cuenta que dos caminos
pueden ser unidos sólo si ambos ascienden o ambos
descienden.
Después de calcular todos los caminos, se divide S en a.
regiones cuadrilaterales que forman las células del complejo
de Morse-Smale. Específicamente, se desarrolla cada
cuadrilátero de un triángulo incidente a un punto de silla sin
cruzar nunca un camino (ver Figura 3).
b.
Fig 3. Cuadriláteros formados por el Complejo de Morse-Smale. Fig. 4. Puntos críticos arrojados por la Teoría de Morse y Cuadrilaterización
obtenida mediante el Complejo de Morse-Smale para el Objeto Pera.
IV. CONCLUSIONES
En este trabajo, se ha explorado y desarrollado el Análisis
Espectral y la Teoría de Morse en mallas triangulares para
generar mallas cuadrilaterales. La teoría discreta de Morse
garantiza que sin importar la complejidad topológica de la
superficie que representa la malla triangular, se obtenga una
descripción cuadrilateral completa, es decir, que es posible
dividir completamente la superficie de los objetos mediante
cuadriláteros. La obtención de un número determinado de
puntos críticos, depende exclusivamente del armónico
seleccionado. Se usa la Teoría de Morse para analizar la
estructura de los campos propios laplacianos de la superficie y
así producir cuadriláteros que se generan directamente sobre
la forma intrínseca de la superficie. Además el uso del
Complejo de Morse-Smale es robusto topológicamente y
garantiza que la base compleja sea siempre cuadrilateral,
evitando así las ambigüedades entre cuadriláteros.
REFERENCIAS
[1] Boier-Martin, I., Rushmeier, H. y Jin, J. (2004). Parameterization of
triangle meshes over quadrilateral domains. In Proc. Eurographics
Symposium on Geometry Processing, 197–207.
[2] Bremer, P., Edelsbrunner, H., Hamann, B. y Pascucci, V. (2004). A
topological hierarchy for functions on triangulated surfaces. TVCG 10,
4, 385–396.
[3] Edelsbrunner, H., Harer, J. y Zomorodian, A. (2003). Hierarchical
a. Morse-Smale complexes for piecewise linear 2-manifolds. Discrete
Comput. Geom, 30, 87-107.
[4] Friedel, I., Schröder, P. y Khodakovsky, A. (2004). Variational normal
meshes. TOG 23, 4, 1061–1073. (Proc. SIGGRAPH).
[5] Koren, Y., Carmel, L. y Harel, D. (2002). ACE:A fast multiscale
eigenvectors computation for drawing huge graphs. In Proc. InfoVis ’02,
137–144.
b.
Fig. 5. Puntos críticos arrojados por la Teoría de Morse y Cuadrilaterización
obtenida mediante el Complejo MS para el Objeto Moai.
Reconstrucción y mejoramiento de imágenes
Javier Roncancio, Julian Quiroga, AlejandroForero
46 XIII SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL. STSIVA 2008
•
•
•
XIII SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL. STSIVA 2008 47
48 XIII SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL. STSIVA 2008
Propuesta de un sistema de verificación de hablantes basado en
Propuesta de un Sistema
máquinas de Verificación
de vectores de soporte de Hablantes
basado en Máquinas de Vectores de Soporte
David A. Jaramillo, Danny A. Múnera, Henry A. Arcila, Byron Buitrago, José Aedo
David A. Jaramillo, Danny A. Múnera, Henry A. Arcila, Byron Buitrago, Jose Aedo
Resumen - En este artículo se propone un sistema de hablantes. En la sección 5 se presentan los resultados
verificación de hablante dependiente del texto basado en obtenidos en la implementación. Finalmente en la sección
Máquinas de Vectores de Soporte (SVMs.) El sistema de 6 se presentan las conclusiones y los trabajos futuros.
verificación fue implementado completamente en MATLAB.
Tras la realización de diversas pruebas experimentales con el
II. MÁQUINAS DE VECTORES DE SOPORTE
uso de las SVMs se obtuvo como resultado un sistema óptimo
basado en un kernel polinómico, una caracterización de voz
MFCC y una filosofía multiclase uno contra uno, con un Half Las SVMs se basan en la idea de usar un hiperplano de
Total Error Rate de 8.67% y un False Acceptance Percent del separación lineal para crear un clasificador, cuya distancia
2%, ratificando el buen funcionamiento de las SVMs de separación entre clases sea máxima, dados los datos de
aplicadas al campo del reconocimiento. entrenamiento [7]:
Palabras claves – SVM, verificación de hablantes, LPC,
(x1 , y1 ), (x2 , y 2 ),..., (xl , yl ), x ∈ ℜ n , y ∈ {+ 1,−1}(1)
MFCC, MatLab. Si se asume que las clases son linealmente separables,
pueden ser clasificadas por medio de un hiperplano
(frontera de decisión) definido por:
I. INTRODUCCIÓN w⋅ x + b = 0 (2)
donde w y b son parámetros ajustables que se hallan a
L OS sistemas de reconocimiento de hablantes han
tomado en los últimos años un inusitado interés por los
continuos avances tecnológicos desarrollados tanto en
partir de la siguiente expresión [8]:
1
los sistemas multimedia como en la computación móvil. min wT ⋅ w (3)
Actualmente existen muchos métodos de aprendizaje de 2
máquina para abordar el desarrollo de un sistema sujeto a yi (w ⋅ xi + b ) ≥ 1, i = 1,..., l
automático de reconocimiento de voz, siendo las redes Resolver algorítmicamente el problema anterior toma un
neuronales artificiales las más conocidas [1], sin embargo, grado de complejidad muy alta, ya que este depende de la
publicaciones recientes muestran que metodologías dimensionalidad de los datos de entrada, por lo cual se
estadísticas tales como los Modelos de Mezclas Gausianas recurre a la representación Lagrangiana dual que se
y Modelos Ocultos de Markov ([2], [3], [4]), y resuelve por medio de la condiciones de Karush-Kuhn-
metodologías discriminativas como las Maquinas de Tucker [8].
Vectores de Soporte ([5], [6]) arrojan resultados Además, las SVMs ofrecen las representaciones con
satisfactorios en cuanto a su complejidad y a las tasas de Kernel, las cuales brindan una solución para proyectar los
error. datos a un espacio característico de una dimensionalidad
En particular, las máquinas de vectores de soporte más alta y así incrementar el poder de discriminación de
(SVMs) han tenido gran aceptación debido a que tienen la las máquinas lineales de aprendizaje. El uso de los
habilidad de discriminar datos con un tamaño de modelo clasificadores lineales en la representación dual hace
seleccionado automáticamente por medio de los vectores posible realizar este paso implícitamente. La ventaja de
de soporte y en un espacio característico altamente usar las máquinas en la representación dual deriva del
dimensional. La base teórica de las SVMs está hecho que en esta representación el número de parámetros
fundamentada en la teoría estadística del aprendizaje sintonizables no depende del número de atributos que están
convirtiéndose en una herramienta excepcional para la siendo usados. Reemplazar el producto interno con una
generalización en problemas complejos, lo cual las hace apropiada elección de la función kernel, sería una forma de
adecuadas para el uso en problemas de verificación de realizar un mapeo no lineal (ver ecuación 4) a un espacio
hablantes. característico de una dimensionalidad más alta sin
En este artículo se presenta la implementación de una incrementar el número de parámetros sintonizables [9].
técnica de reconocimiento de voz, específicamente un
sistema de verificación de hablantes utilizando Máquinas
φ : ℜd → H (4)
de Vectores de Soporte. La función a optimizar es
∑α iα j yi y j K (xi , x j ),
1
Ldual = ∑ α i −
Este articulo ha sido estructurado de la siguiente forma:
en las secciones 2 y 3 se realiza una descripción de las (5)
i 2 j
Maquinas de Vectores de Soporte y de características útiles
de la voz para la identificación del locutor. En la sección 4
se describe la estructura del sistema de verificación de
donde Ldual hace referencia al Lagrangiano en su forma voz es analizada por el sistema de verificación que toma la
decisión de aceptar o rechazar la solicitud de identificación
dual del problema de clasificación, α son los del usuario o posiblemente reportar una insuficiente
multiplicadores de Lagrange y K es la función kernel confianza en los datos o solicitar datos adicionales antes de
asociada [10]. tomar la decisión.
En las ecuaciones 6 y 7 se enuncian las funciones Previo a la verificación, el solicitante debe ser
kernel usadas para el sistema propuesto, asumiendo que matriculado en el sistema, bajo condiciones supervisadas.
X ⊂ ℜ N [11]. Durante su matrícula los modelos de voz son generados y
Función Polinomial no homogénea: almacenados para su uso futuro en el proceso de
K (xi , x j ) = ((xi ⋅ x j ) + c )
d verificación. Debe existir un compromiso entre la
(6) exactitud, la duración y el número de sesiones a matricular
donde, d ∈ N , c ≥ 0 . [17].
Función de Base radial Gaussiana: La propuesta presentada, para el sistema de verificación
2 en este trabajo utiliza esencialmente tres etapas: Etapa de
xi − x j
K (xi , x j ) = e
− adquisición de la base de datos de los usuarios del sistema,
2σ 2 (7) etapa de matrícula de usuarios y por último, etapa de
,
verificación del solicitante.
con σ >0. La primera etapa consiste en la adquisición de las
muestras de voz necesarias de cada uno de los usuarios que
La solución del problema de clasificación mediante las se desean matricular y, de aquellas personas que
SVMs se basa en el establecimiento de una frontera de aumentarán la base de datos como impostores para el
decisión entre clases que se forma a partir de elementos del entrenamiento y test del sistema de verificación
conjunto de entrenamiento llamados vectores de soporte, desarrollado. Las muestras son almacenadas de manera que
que son elegidos al maximizar el margen a través de un siempre se encuentren disponibles para la etapa posterior
problema de optimización cuadrática [12]. de entrenamiento y generación de los modelos.
NS
f ( x ) = ∑ α i yi K (si , x ) + b ,
En la etapa de matrícula de usuarios, se generan los
(8) modelos correspondientes a los usuarios que se desean
i =1
matricular en el sistema. El proceso es manejado por
donde N S es el número de vectores de soporte y b es la medio de la interfaz para la generación de modelos que
polarización [8]. controla todo lo pertinente a este proceso.
La discusión anterior sobre las SVMs asume que los Para la implementación de esta etapa se utilizan funciones
datos de entrenamiento se encuentran solo en dos clases del toolbox SVM para MATLAB®, desarrollado por el
(clasificación binaria, ver ecuación 1).Para extender la Image Speech and Intelligent Systems Research Group, de
clasificación por SVM al caso multiclase existen métodos la Universidad de Southampton [18].
entre los que se destacan: método uno contra todos y La interfaz de entrenamiento SVM permite la creación
método uno contra uno [13]. y grabación de diferentes modelos para el sistema de
verificación. Tiene la capacidad de variar múltiples
III. CARACTERIZACIÓN DE LA VOZ. parámetros para crear diferentes modelos que son
evaluados en la etapa de verificación. En este trabajo se
Cuando se caracteriza la voz, se busca la extracción de propone una metodología para la clasificación de personas
sus parámetros más representativos con el fin de obtener impostoras. La propuesta consiste en la utilización de una
una representación más compacta y menos redundante por clase adicional al sistema, en la cual se contenga
medio de vectores característicos. Con esto se logra una información de muestras de voz de varias personas que no
simplificación con relación al número de muestras a pertenecen a la base de usuarios, de modo que sus
analizar en las etapas posteriores de procesamiento de esta muestras de entrenamiento se encuentren dispersas y
señal. Entre los métodos más desarrollados para encierren el espacio de los usuarios matriculados limitando
caracterizar la voz se encuentran: Los coeficientes de el espacio de clasificación. El efecto práctico de esta clase
predicción lineal LPC [14] y los coeficientes cepstrales en es que cuando una persona impostora para el sistema haga
la frecuencia de Mel MFCC [15] [16]. una solicitud de entrada, sea clasificado con mayor
probabilidad en la clase adicional de impostores, en cuyo
IV. SISTEMA DE VERIFICACIÓN DE HABLANTES caso el sistema negará su petición.
Por último, la etapa de verificación de solicitantes es la
Un sistema para verificación del hablante se utiliza para encargada de realizar el proceso de comparación de
decidir si un locutor específico corresponde al locutor real patrones de voz entre la persona solicitante y los usuarios
previamente establecido. En un sistema de verificación una matriculados del sistema (ver figura 1).
persona hace una solicitud de identificación, la señal de
XIII SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL. STSIVA 2008 51
número de usuarios del sistema implica una disminución HTER=13.1. Aunque el HTER tuvo un aumento, el %FA
en el porcentaje de error. disminuyó notablemente, lo cual es aceptable para un
sistema de verificación.
Kernel RBF POLINÓMICO Como trabajo futuro se pretende extender la base de
Users %FR %FA HTER %FR %FA HTER datos de muestras de voz para verificar el efecto que puede
10 10.3 4.29 7.31 15.3 2 8.67 tener ello en la robustez y desempeño del sistema.
Igualmente se propone la implementación en hardware del
8 6.67 2.78 4.72 10 1.04 5.52
sistema de verificación siguiendo la metodología
6 2.22 7.58 4.9 3.89 4.04 3.96 algorítmica que se ha desarrollado.
4 2.5 6.43 4.46 2.5 5 3.75
Tabla 3. Comparación entre número de usuarios y kernels VII. REFERENCIAS
Otra prueba consistió en analizar la influencia de la [1] V. N. Vapnik. The Nature of statistical learning theory, Second
cantidad de datos de entrenamiento en el desempeño del edition, Springer-Verlag new York, Inc, 2000.
[2] Auckenthaler, R. Parris y E. S. Carey M. J. “Improving a GMM
sistema; para ello, se disminuyó el número de muestras speaker verification system by phonetic weighting. Acoustics, Speech,
tomando como base el sistema de mejores resultados a lo and Signal Processing, 1999,” ICASSP apos;99. Proceedings., 1999 IEEE
largo de las pruebas con kernel polinómico de orden 8, International Conference on Volume 1, Issue, pp 313 – 316, Marzo 15-19
1999.
parámetro de regularización C = 215 , filosofía multiclase [3] D. A. Reynolds. Model Compression For GMM Based Speaker
uno contra uno, 10 usuarios y caracterización MFCC. Recognition Systems, MIT Lincoln Laboratory, EUROSPEECH 2003 –
Según la tabla 4, con una disminución a la mitad de las GENEVA.
muestras de entrenamiento podríamos lograr resultados [4] T. Masukoy, T. Hitotsumatsuy, K. Tokudayy, and T. Kobayashiy. On
The Security Of Hmm-Based Speaker Verification Systems Against
aceptables para el sistema, inclusive un muy bajo %FA Imposture Using Synthetic Speech, Department of Computer Science,
(0.86%), siendo un ítem importante a considerar para las Nagoya Institute of Technology, 1998.
violaciones de un sistema de verificación. [5] W. M. Campbell, J. P. Campbell, D. A. Reynolds, D. A. Jones, and T.
R. Leek. High-Level Speaker Verification with Support Vector Machines,
MIT Lincoln Laboratory, ICASSP, 2004.
Número de muestras %FR %FA HTER [6] V. Wan y S. Renals .Svmsvm: Support Vector Machine Speaker
140 muestras 15.3 2 8.67 Verification Methodology, Department of Computer Science, University
70 muestras 25.3 0.86 13.1 of Sheffield, 2003.
35 muestras 49.7 2.86 26.3 [7] V. Kecman. Learning and soft computing: Support vector machines,
Tabla 4. Comparación de número de muestras de entrenamiento neural networks, and fuzzy logic models, The MIT Press, 2001.
[8] C. J. C. Burges. “A tutorial on support vector machines for pattern
recognition,” Data mining and knowledge discovery, vol 2, No 2, 1998.
VI. CONCLUSIONES Y TRABAJO FUTURO [9] N. Cristianini y J Shawe-Taylor. An introduction to support vector
machines and other kernel-based learning methods, Cambridge university
Las Máquinas de Vectores de Soporte demostraron ser press, 2000.
[10] V. Wan. Speaker Verification using Support Vector Machines,
una excelente herramienta para llevar a cabo la tarea de Dissertation submitted to the University of Sheffield for the degree of
reconocimiento de voz enfocada en un sistema de Doctor of Philosophy. Department of Computer Science. University of
verificación de hablantes. Sheffield. United Kingdom, 2003.
El método de caracterización MFCC es el que mejor [11] B. Scholkopf y A. J. Smola. Learning with Kernels: Support Vector
Machines, Regularization, Optimization, and Beyond, The MIT Press,
resultados obtuvo en el sistema de verificación; ya que, Cambridge, Massachusetts, London, England. 2002.
para un kernel RBF obtuvo una disminución del 47.45% y [12] W. Choi, D. Ahn, S. B. Pan, K. Chung, Y. Chung y S. Chung.
para un kernel polinómico del 48.52% con respecto a LPC “SVM-Based speaker verificaction system for match-on-card and its
en el HTER. hardware implementation”, ETRI Journal, Volume 28, Number 3, Junio
de 2006.
Basados en todos los resultados, el kernel RBF tiende a [13] C. Lin. A guide to support vector machines, National Taiwan
reducir el %FR mientras que el polinómico tiende a reducir University, Noviembre de 2004. http://www.csie.ntu.edu.tw/~cjlin.
el %FA. Luego, como queremos un sistema de verificación [14] J. Bernal, J. Bobadilla, P. Gómez. Reconocimiento de voz y fonética
seguro, la opción más tentativa es el kernel polinómico. acústica, Ed. AlfaOmega, 2000.
[15] N. Plannerer. An Introduction to Speech Recognition. Noviembre 28
Los resultados obtenidos en el modelo con valores de 2005.
óptimos arrojaron porcentajes de error de 8.67% en el [16] F. Bimbot, J. Bonastre, C. Fredouille, G. Gravier, I. Magrin-
HTER y del 2% en el %FA, éstos ratifican el buen Chagnolleu, S. Meignier, T. Merlin, J. Ortega-Garcia, D. Petrovska-
funcionamiento de las SVMs aplicadas al campo del Delacretaz, D. A.Reynols. A Tutorial on Text-Independent Speaker
Verification, Agosto 3, 2003.
reconocimiento. [17] J. Campbell. “Speaker Recognition: A tutorial,” Proceedings of the
Para sistemas con un menor número de usuarios, se IEEE, Vol 85, No.9, pp. 1437-1462, 1997.
obtienen resultados mejores; es así, como con una [18] S. Gunn. Support Vector Machines for Classification and
reducción de un 60% en el número de usuarios se obtuvo Regression, Technical Report. University Of Southampton, England. 10
May 1998.http://www.isis.ecs.soton.ac.uk/resources/svminfo/
una disminución del HTER en un 56.75% para un kernel [19] E. Villatoro, L. Villaseñor-Pineda y M. Montes-y-Gómez.
polinómico y 38.99% para un kernel RBF. Comparación de algoritmos de aprendizaje para identificación del
Para una reducción de un 50% en el número de usuario a través de la voz, Instituto Nacional de Astrofísica, Óptica y
muestras de entrenamiento se obtuvo un %FA=0.86% y un Electrónica, México, Agosto de 2006.
Aplicación de modelosde
Aplicación paramétricos a la caracterización
modelos paramétricos a la
de señales sísmicas
caracterización de señales sı́smicas
Hernán H. Agudelo, Student Member, IEEE, Julian David Echeverry,
Hernán H. Agudelo, Student Member, IEEE, Julian David Echeverry, Mauricio Alexánder Álvarez y Ricardo Henao
Mauricio Alexánder Álvarez y Ricardo Henao
Resumen—Se desarrolla en este trabajo una metodologı́a para se determina una función de transferencia, para modelar el
la extracción de caracterı́sticas sobre la representación conjunta sistema geofı́sico que genera las señales objeto de estudio.
en los dominios del tiempo y la frecuencia de señales sı́smicas, que La aplicación de estos modelos se realiza sobre segmentos
permite identificar entre los diferentes tipos de sismos de origen
volcánico, que actualmente son estudiados por la Red Sismológica de tiempo de las señales sı́smicas donde estas presentan un
Nacional de Colombia (RSNC). Se emplean modelos paramétricos comportamiento cuasi-estacionario. A partir de la respuesta en
autorregresivos (AR, ARMA) en la identificación de procesos frecuencia de la función de transferencia del modelo pueden
aleatorios. El estudio se realiza sobre tramas enventanadas de generarse superficies de ajuste y/o contornos energéticos que
la señal donde previamente se ha validado la hipótesis de permiten extraer caracterı́sticas discriminantes entre clases;
estacionariedad. Se aplican diferentes criterios en la selección
del orden del modelo paramétrico. La respuesta en frecuencia Estas superficies son en si una representación en tiempo y
del sistema identificado permite construir una representación en frecuencia de la señal.
en el dominio conjunto del tiempo y la frecuencia a fin de Los modelos paramétricos han sido utilizados previamente
caracterizar eventos a lo largo del tiempo propios de cada tipo para obtener caracterı́sticas de señales sı́smicas. En
de onda sı́smica. Se emplea un clasificador bayesiano en la tarea investigaciones realizadas anteriormente [5] se han obtenido
de reconocimiento. Se obtienen porcentajes de reconocimiento de
97.8 % entre dos clases de señales volcánicas. altos porcentajes de discriminación, mediante el empleo
de clasificadores robustos, sin tener en cuenta la no
Palabras Claves—Procesamiento de señales sı́smicas, modelado estacionariedad de la señal. En otros trabajos, han sido
paramétrico
utilizadas técnicas de representación como la transformada
wavelet y espectrogramas [2], coeficientes de predicción
I. I NTRODUCCI ÓN lineal LPC [6], y análisis del contenido espectral de las
señales calculado mediante la función de autocorrelación, y
L A superficie de la Tierra está en constante movimiento, el
cual puede aumentar debido a la actividad del hombre en
menor escala, o a mayor escala debido a procesos geofı́sicos
medidas estadı́sticas sobre las señales mismas [4].
Se desarrolla en este trabajo una metodologı́a para la
extracción de caracterı́sticas en señales sı́smicas que permite
propios de la dinámica interna del planeta; estos procesos se
identificar entre los diferentes tipos de sismos de origen
traducen en señales sı́smicas que se propagan a través de
volcánico.
la corteza terrestre [1]. Las señales sı́smicas son estudiadas
como procesos aleatorios no estacionarios [2], de origen
II. M ODELOS PARAM ÉTRICOS
tanto volcánico como tectónico; estas se originan a partir
del desplazamiento de las placas internas de la corteza Los modelos paramétricos son representaciones
terrestre, el flujo de magma a través de la estructura interna matemáticas de sistemas, generalmente no estacionarios,
de los volcanes o el desprendimiento de materiales tales que se obtienen de la medición de una variable explicativa del
como roca, hielo o lodo en las laderas de las montañas. sistema estudiado. Esta medición produce una observación
La actividad de recopilación y caracterización de eventos ŷi = Y (ui ), donde ui es la unidad de estudio. Esta
volcánicos y sı́smicos, contenidos en las señales adquiridas observación permite construir la expresión
por instrumentos de medida especiales conocidos como
sismógrafos, es fundamental para definir planes de prevención ŷi = f (xi ; θ) + ςi i = 1, 2, . . . , n, (1)
y cuidado en zonas de alto riesgo. Es de particular interés donde f (xi ; θ) es función dependiente de las condiciones xi , y
dentro de la sismologı́a y la vulcanologı́a poder definir está indexada en el espacio paramétrico Θ, donde θ, que es el
la naturaleza de las señales sı́smicas a fin de estudiar parámetro de interés, determina el miembro particular [7]. Se
los fenómenos fı́sicos asociados a la ocurrencia de las debe aclarar que ςi representa la parte aleatoria del sistema, y
mismas [3]. En la actualidad el proceso de caracterización se supone no observable con distribución probalı́stica, asumida
y etiquetado de los eventos sı́smicos observados en las generalmente gaussiana.
estaciones pertenecientes a la Red Sismológica Nacional de Los modelos paramétricos más utilizados son los de la
Colombia (RSNC), es realizada de forma manual por expertos familia ARMA; estos incluyen los puramente autorregresivos
adscritos a los observatorios que componen la Red. (AR) y los de media móvil (MA). Los modelos ARMA
La identificación automática de señales sı́smicas puede son usados para modelar estructuras dinámicas lineales,
hacerse mediante el estudio del comportamiento de las representar relaciones lineales entre variables y servir como
mismas en los dominios del tiempo y la frecuencia [2], medios para la predicción lineal. A continuación se hace una
[4]. La identificación de modelos matemáticos que estimen breve descripción de los modelos usados en este trabajo.
el comportamiento de la señal en el tiempo, permite
obtener una aproximación a esta representación en cuanto A. Autorregresivos AR
Los autores pertenecen al Grupo de Control e Instrumentación de la EL modelo AR o de solo polos, expresa la salida como
Universidad Tecnológica de Pereira. e-mail de contacto hh@utp.edu.co una combinación lineal de muestras anteriores de la salida
2
C. Autorregresivos de media móvil ARMA BIC(p) = N ln(σ̂ωp ) + pln(N ) (3)
Se conoce también con el nombre de modelo de polos y
ceros. El modelo ARMA se construye como una combinación Un método un poco más heurı́stico y computacionalmente
lineal de los modelos anteriores, donde la componente más costoso se basa en hallar el orden para el cual el error de
autorregresiva permite estimar los picos de densidad espectral estimación del modelo sea mı́nimo. En este se busca variar
de potencia, mientras la componente de media móvil permite el orden de los modelos paramétricos y estimar la señal,
estimar correctamente la información de los valles en el comparándola con la señal original punto a punto con el
espectro. Este modelo paramétrico es ampliamente utilizado en objetivo de minimizar el error cuadrático medio entre ambas.
la identificación de sistemas dada su flexibilidad, sin embargo
no aproxima de manera adecuada fenómenos no lineales
presentes en la mayorı́a de sistemas fı́sicos [10]. IV. G ENERACI ÓN DE SUPERFICIES DE AJUSTE
VII. R ESULTADOS
El porcentaje de clasificación obtenido con el modelo
Inicialmente se determinó el orden de los modelos AR y autorregresivo de media móvil es el más alto alcanzado sin
ARMA. Se utilizaron los criterios de Akaike (AIC), Bayes utilizar ningún método de reducción de dimensionalidad. En
(BIC) y el criterio de mı́nimo error de estimación. En el esta misma tabla se observa el resultado de clasificación,
modelo autorregresivo, se obtuvo un orden óptimo de 7 polos a partir de las caracterı́sticas del modelo AR, siendo este
a partir de los criterios de Bayes y de mı́nimo error de inferior comparado con el anterior en ambas clases. Esto
estimación. En el modelo ARMA se obtuvo un orden óptimo permite inferir que el modelo ARMA permite observar mejor
de 4 polos y 16 ceros mediante el criterio de mı́nimo error el comportamiento de las señales sı́smicas objeto de estudio
de estimación. Sin embargo, realizando diferentes pruebas de que el modelo AR.
reconocimiento para diferentes órdenes de los modelos, se Posterior a este proceso, se aplicaron dos técnicas de
obtuvo que el orden que mejor porcentaje de clasificación reducción de dimensionalidad al modelo AR, sin obtener
entrega es de 7 polos y 18 ceros para el modelo ARMA. mejoras en los resultados de clasificación. El análisis de
Posteriormente fueron generadas las superficies de ajuste componentes principales (PCA) arrojó un resultado de
a partir de la estimación paramétrica utilizando los modelos clasificación de 88.44 %. Con el análisis discriminante lineal
citados. Se emplearon ventanas partiendo de intervalos (LDA) se obtuvo 88.34 % de porcentaje de acierto en las
cuasi estacionarios para cada clase, previamente calculados pruebas de clasificación.
mediante el método Runtest [11]. Estos intervalos son de Estas pruebas se repitieron para las caracterı́sticas obtenidas
0.7962 segundos (equivalentes a 80 muestras) para la clase con el modelo ARMA. Se obtuvieron mejoras poco
LP y de 0.6957 segundos (equivalentes a 70 muestras para significativas en los resultados de clasificación. Para PCA y
la clase VT). Estas ventanas fueron traslapadas en 0.05 s LDA se mejoró el resultado a 97.88 %. La diferencia se dio
o 5 muestras. De las matrices de ajuste se calcularon las en el número de caracterı́sticas con las cuales se obtuvo dicho
caracterı́sticas antes descritas, un total de 55. Se procedió a resultado para cada técnica. Para LDA fueron 53 mientras que
realizar pruebas de clasificación empleando un clasificador de para PCA fueron 51 caracterı́sticas. Se observa entonces que
Bayes con validación leave one out. Los resultados de este PCA permite la mayor reducción de caracterı́sticas mejorando
56 XIII SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL. STSIVA 2008
IX. C ONCLUSIONES
El modelo paramétrico autorregresivo de media móvil
permite obtener una mejor identificación del sistema
geofı́sico que genera las señales sı́smicas que el modelo
autorregresivo. Esto se sustenta en los resultados de
clasificación obtenidos (tabla I) con ambos modelos,
esto a pesar de que, al comparar las graficas donde se
muestran las superficies de ajuste de cada modelo y clase
(figura 1), se podrı́a pensar que el modelo AR permite
extraer mayor cantidad de información del sistema.
La generación de superficies de ajuste permite estudiar
la dinámica de cambio de las señales no estacionarias
en los planos del tiempo y la frecuencia, permitiendo
extraer caracterı́sticas discriminatorias en este espacio de
representación.
Las caracterı́sticas extraı́das sobre las superficies
estimadas a partir del modelo autorregresivo de media
móvil permiten discriminar con tasas hasta del 97.8 %
entre las diferentes clases de sismos de origen volcánico.
AGRADECIMIENTOS
Los autores agradecen al Observatorio Sismológico y
Vulcanológico de Manizales - INGEOMINAS - por la base
de datos facilitada y la colaboración prestada a lo largo del
proyecto de investigación.
Este trabajo se desarrolló en el marco del proyecto
de investigación “CLASIFICACIÓN AUTOMATIZADA DE
EVENTOS SÍSMICOS”, financiado por la Universidad
Tecnológica de Pereira con código 9-07-04.
R EFERENCIAS
[1] B. L.Ñ. Kennett, The Seismic Wavefield. Cambridge University Press,
2001.
[2] K. B. Mohammed Benbrahim, Adil Daoudi and A. Ibenbrahim,
“Discrimination of seismic signals using artificial neural networks,”
Transactions On Engineering, Computing And Technology, vol. 4, 2005.
[3] J. M. Londoño, “Manual de sismologı́a y volcánica básica,” 2002,
observatorio Vulcanologico de Manizales.
[4] T. P. b. H. Langer, S. Falsaperla and G. Thompson, “Automatic
classification and a-posteriori analysis of seismic event identification
at soufrie‘re hills volcano, montserrat,” Journal of Volcanology and
Geothermal Research, vol. 153, 2006.
[5] R. P. D. Mauricio Orozco, Marcelo E. Garcı́a and C. G. Castellanos,
“Dissimilarity-based classification of seismic signals at nevado del ruiz
volcano,” Earth Sciences Research Journal, vol. 10, 2006.
Control de de
Control Mouse
mouseaatravés
travésdede señales
señales EOGEOG y
Algoritmos deBoosting
y algoritmos de Boosting
Diana Mahecha, Fernando Lozano, Elkin García,
Diana Mahecha, Fernando Lozano, Elkin García,
A CTUALMENTE, el uso creciente de los computadores ha entre la cornea y la base del ojo. De esta forma el ojo se compor-
llevado a crear alternativas de acceso a los mismos para ta como un dipolo que se mueve en un conductor de volumen
personas con diferentes grados de discapacidad motora. Existen no homogéneo (la cabeza). Con el uso de 5 electrodos puestos
distintos tipos de mouse alternativos al tradicional, cuyo desar- alrededor de los ojos (Figura 1) se pueden medir estos poten-
rollo consiste principalmente en 3 áreas: El reconocimiento de ciales y ser usados en la detección de la dirección de la mirada
imágenes de video, el uso de elementos físicos fáciles de mane- respecto a la cabeza. [7]
jar con partes del cuerpo diferentes a las manos y el análisis de Muchos estudios han intentado determinar la relación entre el
potenciales bioeléctricos [1] [2] [3] [4]. De acuerdo al grado de voltaje del EOG y el ángulo de mirada. Rafael Barea [6] realizó
discapacidad se debe escoger la opción que brinde más como- un amplio estudio acerca de este tema y se resaltan los sigu-
didad al usuario. ientes resultados:
En el análisis de potenciales bioeléctricos se usan diferentes - La señal EOG varía entre 50 y 3500 µV con un rango de
técnicas: electromiografía (EMG), electroencefalografía (EEG) frecuencias de DC-35Hz y tiene un comportamiento lineal
y electrooculografía (EOG). Este trabajo se enfoca en el análi- para ángulos entre ±30o .
sis EOG y el uso técnicas de clasificación del área de Machine - La señal EOG se ve perturbada por otros biopotenciales
Learning (Boosting Multivariable) para desarrollar un control (EEG, EMG)y las perturbaciones del sistema de adquisi-
de mouse por medio del análisis EOG. ción.
A continuación, en la sección II se explican los conceptos - El EEG y el EMG pueden producir errores de aproximada-
generales de la técnica de EOG y el aprendizaje supervisado mente un grado.
con boosting. En la sección III se desarrolla la implementación - La forma del EOG para movimientos sacádicos es similar
y diseño de la solución. En la sección IV se presentan los resul- en cualquier persona, por eso al usar una normalización de
tados y finalmente en la sección V las conclusiones. los datos se obtiene un modelo EOG universal.
- Los movimientos sacádicos pueden detectarse en función
II. P RELIMINARES de la derivada del EOG.
A. Electrooculografía
B. Aprendizaje supervisado y Boosting
El análisis electrooculográfico obtiene una apreciación direc-
ta de la movilidad ocular mediante la medición de voltajes difer- El aprendizaje supervisado está fundamentado en una progra-
enciales alrededor del ojo [5]. Hay 4 movimientos oculares en- mación por ejemplos, en donde el algoritmo conoce la respuesta
tre los cuáles están los sacádicos [6]. Estos son desplazamientos correcta a los patrones de entrada y encuentra una regla de clasi-
angulares muy rápidos y precisos que se producen al observar ficación (hipótesis) que asigna una etiqueta a cada elemento en
el espacio de entrada. El objetivo de la hipótesis no es respon-
D. Mahecha. Departamento de Ingeniería Eléctrica y Electrónica, Universi- der bien a los datos de entrenamiento, sino a nuevos datos, por
dad de los Andes, Bogotá, Colombia, email: d-mahech@uniandes.edu.co consiguiente, es necesario realizar validación cruzada. El des-
F. Lozano. Departamento de Ingeniería Eléctrica y Electrónica, Universidad empeño es evaluado por medio de los errores de entrenamiento
de los Andes, Bogotá, Colombia, email: flozano@uniandes.edu.co
E. García. Departamento de Ingeniería Eléctrica y Electrónica, Universidad y generalización. En el primero se evalúan los datos nuevos (que
de los Andes, Bogotá, Colombia, email: elkin-ga@uniandes.edu.co no han sido pasados por el algoritmo) y en el segundo los datos
Clases 1 2 3 4 5 Total
Ent. [ %] 98.56 99.15 98.92 98.74 99.77 96.55
Gen. [ %] 98.08 99.10 98.68 91.61 99.76 95.41
IV. R ESULTADOS
En la tabla I se muestran los resultados obtenidos al correr el
algoritmo 100 veces. Podemos ver que en general no hay ningu-
na clase que sea más difícil de aprender que la otra, ya que todas
llegan a errores bajos. La clase con más precisión en general-
ización es la 5, lo cual tiene sentido ya que sus valores están en
un rango diferente al del resto. Dado que 100 es un número ba-
jo de iteraciones, comparado al número de entrenamientos que
suelen hacerse en boosting (500-1000), podemos decir que los
resultados obtenidos son muy buenos. Esto evidencia la eficacia
del algoritmo débil que es potencializada por la aplicación del
boosting. Figura 4. Errores de entrenamiento y generalización (500 iteraciones).
En la Figura 4 se presentan los resultados para 500 itera-
ciones. Usando validación cruzada, podemos ver que el punto
mínimo de ambos errores se da en 271 iteraciones (4.2 % para acá; además del diseño de una interfaz con el usuario mas
generalización y 2.96 % para entrenamiento). A partir de este amigable. También es necesario realizar pruebas pruebas adi-
valor, aunque el error de entrenamiento sigue decreciendo, el de cionales de validación con un grupo considerable de personas,
generalización empieza aumentar, lo cual indica que las hipóte- preferiblemente con algún tipo de discapacidad. Desde el pun-
sis se sobre ajustan a los datos. De acuerdo a esto, se escoge to de vista del aprendizaje, se puede buscar implementar Ada-
como hipótesis combinada final la lograda en la iteración 271. Boost.MH u otro algoritmo multivariable, algunos aquí nom-
Aunque hay varias aplicaciones de este tipo y diferentes es- brados, con otras hipótesis débiles para así poder comparar su
tudios en torno al tema, muy pocos dan claridad acerca de los funcionamiento en la clasificación de señales EOG.
métodos de clasificación usados y más aún, de la efectividad
porcentual de los mismos en una base de datos considerable. R EFERENCIAS
Al comparar los resultados obtenidos, con la implementación [1] R. Barea y otros, Diseño de un ratón electrooculográfico para
el control de Interfaces Gráficos. España. [Online]. Avail-
de un mouse que usa señales EMG y redes neuronales [12] que able: http://www.depeca.uah.es/personal/barea/electrooculografia
reporta errores inferiores al 5 %, se observa que el sistema de /saaei00_raton.pdf/. Consultada en: 12/2007
clasificación implementado es altamente competitivo. [2] J. Gips y otros Eagle Eyes Project, Boston College. [Online]. Avail-
able: http://www.bc.edu/schools/csom/eagleeyes/contact.html. Consultada
en: 12/2007
V. C ONCLUSIONES [3] J. Gips, M. Betke, CameraMouse.org., Boston College. [Online]. Avail-
able: http://www.cameramouse.org/index.html. Consultada en: 12/2007
En este trabajo se desarrolló una forma alternativa de acceder [4] Technologies, Brain Actuated. Cyberlink - Brainfingers: Hands-free Com-
a diferentes tecnologías para usuarios discapacitados, buscando puter Access Solution, [Online]. Available: http://www.brainfingers.com/.
Consultada en: 12/2007
mejorar su habilidad para desenvolverse libremente en el mundo [5] F. Rodriguez, E. Arenas Oftalmología básica, vol. 2, 1999.
actual. [6] R. Barea, Interfaz Usuario-Maquina basado en electroocu-
En el desarrollo del sistema de control propuesto, se lografía. Aplicación a la movilidad, Tesis Doctoral, Univer-
sidad de Alcalá. Madrid, España., 2001. [Online]. Available:
analizaron características importantes de las señales EOG y los http://www.depeca.uah.es/personal/barea/tesis/tesis.htm. Consultada
requerimientos necesarios para desarrollar una adecuada instru- en: 12/2007.
[7] L. Geddes Principles of applied biomedical instrumentation., New York :
mentación para su digitalización. Además de esto, se realizó un John Wiley & Sons, 1975.
nuevo acercamiento al análisis EOG, partiendo de algoritmos [8] R. Schapire A Brieft Introduction to Boosting. , Proceeding of the Six-
de boosting multivariable para la clasificación de las señales. teenth International Join Conference on Artificial Intelligence, pp. 1401-
1406. 1999.
El preprocesamiento de los datos logró no solo identificar los [9] Y. Freund, R. Schapire, A decision-theoretic generalization of on-line
movimientos sacádicos sino también condensar su información learning and an application to boosting., Journal of Computer and Sys-
en muy pocos datos, de tal forma que se pudo asociar cada dato tem Sciences., vol. 55, pp. 119-139. 1997.
[10] Y. Freund, R. Schapire, Using Output codes to boost multiclass learning
a una clase sin perder mucha información en el proceso. problems., Machine Learning: Proceedings of the Fourteenth International
El algoritmo de Boosting Multivariable implementado per- Conference., pp. 313-312. 1997.
mitió encontrar una buena solución, que no se sobre ajusta a los [11] R. Schapire, Y. Singer Improved boosting algorithms using confidence-
rated predictions., Machine Learning. vol. 37, 297-336.1999.
datos y generaliza bien en los mismos. [12] Z. Huertas Sistema de control de mouse mediante señales electromiográ-
Quedan planteados para futuros trabajos, la implementación ficas faciales., Tesis de maestría. Universidad de los Andes, 2007.
Análisis de las deficiencias del uso de enveloping
en la señal digital de vibración
Gilberto C. Fontecha Dulcey, GiDeTechMa, Universidad Pontificia Bolivariana, Bucaramanga
()
( )
( )
( ) = ( ) +
( ) = ( ) + ( )
XIII SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL. STSIVA 2008 63
( )
64 XIII SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL. STSIVA 2008
Detección de rostros frontales y componentes
faciales
Detección desobre secuencias
rostros de imágenes
frontales y componentes
faciales sobre secuencias de imágenes
Marta Lucía Guevara1, Cristian Guarnizo2, Álvaro Ángel Orozco3
II. METODOLOGÍA
La detección del rostro y sus componentes faciales se lleva La imagen integral (ver Fig. 2), en la localización x, y,
a cabo en tres etapas, en la primera se realiza la búsqueda del contiene la suma de los píxeles de la parte superior izquierda,
rostro sobre toda la imagen usando el método propuesto por y se calcula como se muestra a continuación:
Viola & Jones [8], sobre la región detectada como rostro se II ( x, y ) = ∑ I m ( x ', y ') (1)
x '≤ x , y '≤ y
definen dos zonas de interés, la mitad superior, en la cual se
aplica el detector de ojos, y la mitad inferior donde se aplica el Donde II (x,y) es el valor de la imagen integral en la
detector de la boca (ver Fig. 1). localización (x,y) e I m es la imagen original.
Extracción de características
La extracción de características es realizada aplicando a la
Imagen de imagen filtros con bases Haar. Estos filtros pueden ser
entrada calculados eficientemente sobre la imagen integral, son
selectivos en el dominio espacial y de la frecuencia, y
permiten ser modificados en escala y orientación. En la Fig. 3,
Detección
se muestran algunos de los filtros [13].
del rostro
Detección de
los ojos
Detección de
la boca
Fig. 3. Filtros Haar rotados, trasladados y con cambios de escala.
Clasificación
Rostro y Para realizar la clasificación se usa boosting [14]. Este es
componentes
faciales un método de clasificación que combina varios clasificadores
detectadas
básicos para formar un único clasificador más complejo y
Fig. 1. Esquema del procedimiento de detección. preciso. En la Fig. 4, se muestra un esquema de un
clasificador en cascada.
III. DETECCIÓN
Ventana de
A. Detección del rostro Búsqueda
empleado por Viola & Jones [8], en su trabajo es conocido tiempo de procesamiento por imagen.
como AdaBoost (Adaptive Boosting).
B. Detección de componentes faciales
Detección de los ojos
Los ojos y la boca son marcas faciales importantes, ambos
usados para análisis, reconocimiento y procesos de
normalización, especialmente los ojos, debido a que su
distancia inter-ocular es relativamente constante [1], [15].
La tarea de detección se llevó a cabo siguiendo el método
expuesto en A, con la diferencia de que los objetos a ser
detectados en este caso son los ojos y la boca.
En esta etapa se parte del rostro detectado, dentro del cual
se definen dos zonas de interés (ver Fig. 5), una de ellas la
región de la mitad superior, en la cual se aplica el detector de Fig. 6. Imágenes de cuatro personas de la base de datos
ojos, y la otra la mitad inferior donde se aplica el detector de FEEDTUM manifestando diferentes emociones.
la boca.
Resultados
El porcentaje de detección y el tiempo de detección
promedio se cálculo como se indica a continuación:
NDC
% de Detección = (2)
NTI
componentes faciales. ∑ td
Tiempo de Detección = i =1
(3)
NIDC
IV. PRUEBAS Y RESULTADOS
Donde NDC es el número de detecciones correctas, NTI
Para realizar la detección del rostro y componentes faciales, número total de imágenes analizadas por secuencia, t d
y permitir en el futuro un análisis de estas regiones para el
tiempo de detección para cada imagen y NIDC es la cantidad
reconocimiento de emociones, se usó la base de datos de rostros o componentes detectadas correctamente.
FEEDTUM (Facial Expressions and Emotions from the
Technical University Munich), esta base de datos es TABLA I. RESULTADOS DE DETECCIÓN DEL ROSTRO
ampliamente usado en la actualidad para el desarrollo de Persona 1 Persona 2 Persona 3 Persona 4
métodos de análisis para el reconocimiento de expresiones No de
50 50 50 50
faciales [1], [15], [16]. Imágenes
No de
48 49 49 42
Detecciones
Base de datos FEEDTUM No de
2 1 1 8
Pertenece a la Universidad Técnica de Munich (Alemania) Fallos
y ha sido generada como parte del proyecto FG-NET (Face % de
96% 98% 98% 84%
Detección
and Gesture Recognition Research Network). Esta Tiempo de
conformada por secuencias de imágenes con rostro frontales Detección 93.89ms 86.77ms 113.9ms 91.29ms
de 18 personas, que muestran las 7 emociones básicas Promedio
(alegría, tristeza, sorpresa, miedo, disgusto, enojo y neutral), 6
TABLA II. RESULTADOS DE DETECCIÓN DE LOS OJOS
de ellas definidas por Eckman y Friesen. Cada imagen se
Persona 1 Persona 2 Persona 3 Persona 4
encuentra en formato JPEG a 8 bits con un tamaño de
No de
320x240 píxeles. 50 50 50 50
Imágenes
No de
46 46 47 42
Pruebas Detecciones
La prueba de detección se realizó sobre 200 imágenes, No de
6 4 3 8
Fallos
pertenecientes a 4 secuencias de 4 personas manifestando % de
diferentes emociones. Cada secuencia contiene alrededor de 92% 92% 94% 84%
Detección
100 imágenes, de las cuales se tomaron las primeras 50 (para Tiempo de
Detección 10.11ms 13.14ms 13.64ms 11.86ms
cada persona). A cada imagen se le aplicó el método de
Promedio
detección de rostros y componentes faciales y se midió el
68 XIII SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL. STSIVA 2008
AGRADECIMIENTOS
TABLA III. RESULTADOS DE DETECCIÓN DE LA BOCA
Persona 1 Persona 2 Persona 3 Persona 4
Este trabajo se desarrolla en el marco de los proyectos:
No de "Implementación Y Efectividad De Un Sistema Basado En
50 50 50 50
Imágenes Inteligencia Artificial Como Herramienta Para El Tratamiento
No de Psicológico De Personas Con Trastorno De Estrés
48 47 45 41
Detecciones
No de
Postraumático", financiado por Colciencias. Código
2 1 5 9 111037019600 y la Universidad Tecnológica de Pereira.
Fallos
% de
96% 94% 90% 82%
Código 511-3-243-08, y el proyecto "Detección De Objetos
Detección En Imágenes Digitales Utilizando Wavelets Y Boosting",
Tiempo de
Detección 32.07ms 28.10ms 31.63ms 25.19ms financiado por el Centro de Investigación y Extensión, de la
Promedio Universidad Tecnológica de Pereira. Código E6-07-4.
BIBLIOGRAFÍA
[1] RATLIFF, Matthew y PATTERSON, Eric. Emotion Recognition Using
Facial Expressions With Active Appearance Models. University of
North Carolina Wilmington, 2008.
[2] RAMÍREZ, Carlos Alejo y PÉREZ, Manuel David. Detección de caras y
a) análisis de expresiones faciales.
[3] LECUMBERRY, R., Federico. Cálculo de disparidad y segmentación de
objetos en secuencias de video. Tesis de maestría en ingeniería eléctrica.
Universidad de la república Montevideo, Uruguay. 3 de agosto de 2005.
[4] LI, Yadong, GOSHTASBY, Ardeshir y GARCÍA, Oscar. Detecting and
tracking human faces in videos. Wright State University, 2000.
b) [5] FERIS, Rogério, EMÍDIO DE CAMPOS, Teófilo y MARCONDES,
Fig. 7. Resultados para imágenes de diferentes secuencias. a) César. Detection and tracking of facial features in video sequences.
Secuencia de imágenes felicidad para la persona 3 y b) Lecture Notes in Artificial Intelligence, Vol. 1793, pp. 197-206, 2000.
[6] HABILI, Nariman. Automatic segmentation of the face and hands in
Secuencia de imágenes sorprendido para la persona 4.
sign language video sequences. Technical report, Adelaide University,
Australia, 2001.
En la Fig. 7, se pueden ver los resultados de las detecciones [7] ROWLEY, Henry, BALUJA, Shumeet, y KANADE, Takeo. Neural
para 4 imágenes de dos secuencias diferentes. En la segunda network-based face detection. IEEE, 1998.
[8] VIOLA, Paul y JONES, Michael. Robust Real-Time Face Detection.
imagen de la secuencia b), se puede observar una falsa International Journal of Computer Vision, Vol.57, No.2, pp 137-154,
detección (cuadro verde), este problema puede ser resuelto 2004.
teniendo en cuenta criterios de antropométricos, donde se [9] CASTRILLÓN, M., DÉNIZ, O., GUERRA, C y HERNÁNDEZ, M.
"ENCARA2: Real-time detection of multiple faces at different
considere la distancia relativa entre los ojos y la boca. resolutions in video streams". ELSEVIER, Journal Visual
Communication and Image Representation. Article in press (2007).
[10] BARTLETT, Marian Stewart et all. Real time face detection and facial
V. CONCLUSIONES Y RECOMENDACIONES expression recognition: development and applications to human
computer interaction. University of California, USA, 2004.
En este documento se muestran los resultados de la [11] SILAPACHOTE, P, KARUPPIAH, D y HANSON, A. Feature selecting
implementación de un método de detección de rostros y using adaboost for face expression recognition. University of
Massachusetts Amherst, USA.
componentes faciales, sobre secuencias de imágenes de la [12] BELAROUSSI, Rachid y MILGRAM, Maurice. Face detecting and skin
base de datos FEEDTUM, que alcanzó porcentajes de color based tracking: a comparative study. University Pierre an Maire
detección del 94% para rostros y del 90.5% para los ojos y la Curie. Paris, Francia, 2007.
[13] PAPAGEORGIOU,C., OREN,M y POGGIO,T. Ageneral frame-work
boca, que demuestran la efectividad de combinar técnicas de for object detection. Proceedings of International Conference on
boosting con filtros Haar. Computer Vision, enero de 1998, Bombay, India.
La reducción de los porcentajes de detección de los ojos y [14] SCHAPIRE, R y FREUND, Y. A decision theoretic generalization of
on-line learning and application to boosting. AT&T Bell Laboratories.
de la boca se puede atribuir a que estos no contienen tanta USA, 1995.
información morfológica como la que contiene el rostro. [15] SAATCI, Yunus y TOWN, Christopher. Cascaded Classification of
No se pudo realizar una comparación de los resultados Gender and Facial Expression using Active Appearance Models.
University of Cambridge Computer Laboratory, 2006.
obtenidos, ya que son pocos los estudios para la tarea de
[16] WALLHOFF, F.; SCHULLER, B.; HAWELLEK, M.y RIGOLL, G.
reconocimiento que realizan la detección rostro y Efficient Recognition of Authentic Dynamic Facial Expressions on the
componentes faciales, y muchos parten de que estas tareas ya Feedtum Database. En: IEEE International Conference on Multimedia
han sido realizadas, además, los que las consideran, las han and Expo, Pag 493-496, ISBN: 1-4244-0367-7, 2006.
realizado sobre otras bases de datos. Lo anterior demuestra la
importancia del desarrollo y mejora de técnicas de detección
de rostros, que permitan ser incorporadas a sistemas de
reconocimiento, para que estos puedan ser completamente
automáticos, y no se requiera de la intervención humana para
indicar las zonas a ser analizadas.
Arquitectura usando aritmética entera orientada a la extracción de
Arquitectura
los coefi Usandolineal
cientes de predicción Aritmética Entera
sobre PDSP y FPGA
Orientada a la Extracción de los Coeficientes de
López P. Alexander, Campos P. Natalia, Saavedra M. Ángela María,
Index Terms— LPC, Levinson-Durbin, PDSP, FPGA. II. CODIFICACIÓN LINEAL PREDICTIVA
A. La voz como un proceso AR
I. INTRODUCCIÓN Los coeficientes de predicción lineal parten del fundamento
de modelar la voz como la salida de un sistema lineal causal y
E l modelar la señal de voz como un proceso aleatorio
permite utilizar sobre ella algoritmos de predicción de
series de tiempo, estos algoritmos buscan reducir la cantidad
causalmente invertible excitado por un proceso de ruido
blanco como se puede observar en la figura 1.
de datos de representación brindando así la posibilidad de ser
utilizados en sistemas de codificación y reconocimiento de Generador
voz en un solo chip. Sin embargo, la naturaleza de estos de pulsos
algoritmos va más allá del operador multiplicación-
Filtro lineal
acumulación e involucra el cálculo de funciones y variante
trascendentales y operadores aritméticos complejos como la X con el
división y la raíz cuadrada. Tradicionalmente la tiempo
Generador
implementación de estas funciones y operadores se ha de ruido G
realizado usando aritmética en punto flotante la cual no blando
permite realizar implementaciones de alta velocidad sobre
PDSP y FPGA. Fig 1. Modelo de Producción de Voz.
Las señales aleatorias estacionarias pueden ser modeladas Este proceso corresponde a un proceso autoregresivo AR.
como si hubieran sido originadas por ruido blanco que paso a Éstos, forman una familia de procesos tales que una
observación en un instante de tiempo depende de las
observaciones anteriores.
Alexander López es docente investigador del grupo GDSPROC en el
programa ingeniería electrónica de la Universidad del Quindío.
La idea básica detrás del modelo es que una muestra en un
Natalia Campos es estudiante del programa del programa ingeniería tiempo n, S(n) puede ser aproximada como una combinación
electrónica de la Universidad del Quindío. lineal de p muestras de habla pasadas así:
Ángela María Saavedra estudiante del programa ingeniería electrónica de
la Universidad del Quindío. S ( n) ≅ a1S ( n − 1) + a2 S ( n − 2) + ... + a p S ( n − p ) (1)
Donde los coeficientes a1a2,…an son asumidos constantes
para la ventana de análisis, convirtiendo la ecuación (1) en una
/*Redon
ndeo sin sign
no*/
int64_t
t uiround(int
t64_t x){
El circuuito que calculla el bit de reddondeo w se muestra
m en la
int
t8_t w; figura 7.
7
w=((x
x&(1<<2))>>2)
)&((x&(1<<1))>>1)|((x&(1
<<1))
)>>1)&((x&(1<
<<0))>>0);
x=(x>>2)+w;
ret
turn(x);
}
/*Redon
ndeo con sign
no*/
int64_t
t iround(int6
64_t x){
Fig 7. Circuito que calcula ell bit de redondeo.
int32_t aux
x;
aux=abs(x);
;
Al sinteetizar sobre el FPGA
F se ocuppan 1954 elemeentos lógicos
aux=uiround
d(aux); (4%) y 64 multipliccadores embebbidos de 9 bits (22%). La
frecuenncia de reloj alcanzada es dee 60 MHz conn lo cual es
if(x<0) aux
x=-aux; posible realizar la codificación
c d hasta �60 � �0� /�� �
de
return aux;
;
}
�000�� � ���canaless de voz con calidad telefónnica. Nótese
que aunn se cuenta coon el 96 % dee los recursoss lógicos del
Fig. 5. Esquema de
d redondeo propueesto
FPGA y el 78% de loss bloques de multiplicación.
m
IV. IMP N SOBRE PDSP Y FPGA
PLEMENTACIÓN
A Implementaación sobre PD
A. DSP V CONCLUSIIONES
V.
Se loogró la impleementación efficiente del algoritmo
a de
Se realizó la im
mplementaciónn sobre el PDSPP TMS320C64416 Levinsoon-Durbin sobrre un PDSP usando aritmétiica entera en
de Texas Instrum ments del algo
oritmo de Levvinson-Durbin en el lenguuaje de programmación C; y enn hardware sobbre un FPGA
lennguaje C. La rutina
r tarda 18
8651 ciclos, daado que el PDDSP mediantte una descrripción estruccturada en VHDL. V Esto
opera a una frrecuencia de 1GHz es poosible realizar la constituuye una herraamienta imporrtante para el tratamiento
coddificación de hasta
h �� � �0� /��000
/ � ��6
6���� � 6 canaales digital de señales, especialmente
e para la consstrucción de
de voz con caliddad telefónica. Nótese
N que en este caso se haace sistemaas de codificacción de voz dee alta velocidaad usados en
usoo del 100 % dee los recursos de
d cómputo dell PDSP. plataforrmas hardware embebidas enn sistemas de coomunicación
y multimmedia.
B Implementaación sobre FP
B. PGA Se prropone un esquuema de redonndeo orientado a aritmética
en puntto fijo que redduce el efecto acumulativo
a de los errores
en algoritmos recursivvos que no esttán basados únnicamente en
Se realizó la impplementación sobre
s el FPGAA EP2S60F6722C3
operadoores multiplicación-acumulacción.
de Altera del algoritmo
a de Levinson-Durrbin usando una u
La im
mplementaciónn del algoritmo de Levinson-D Durbin sobre
desscripción en VHDLV estructturado [4]. Laa arquitectura es
parralela de tal foorma que tarda únicamente p ciclos de reloj en el FPGA A tiene un desempeño 156 veces mayor que q el de su
obttener los coefiicientes de preddicción lineal. Para efectuar las contraparte en PDSP P, a pesar de d que la freecuencia de
operaciones dee multiplicaciión se hizoo uso de los operacióón es 16 vecces menor. Esto E es debiddo a que la
muultiplicadores embebidos deel FPGA. Lass operaciones de arquitecctura paralela permite que en cada ciclo de reloj se
divvisión se realizzaron con el array propuestoo en [5] el cuall es obtengaa un coeficientee del modelo.
moostrado en la figura 6.
REFERENCIA
AS
[1] L. R Rabiner and B. H.H Juang "Fundam mentals of Speech Recognition",
R
Prenntice Hall, 1993.
[2] V. K.
K Ingle, S. M. Kogon and D. G. Manolakis
M "Statisticcal and
Adaaptive Signal Proceessing" Artech Hoouse, 2005.
[3] D. Patterson
P and J. Hennessy,
H “Compuuter Organization and a Design, the
Harrdware Software Innterface”, Morgan Kauffman Publishhers, 2003.
[4] U. Meyer-Baese,
M “Diggital Signal Processsing with Field Prrogrammable
Gatee Arrays”, Springeer, 2004.
[5] E Ordóñez, J. Velasco y M. Vera, “C
G. E. Comparación de Divisores
D
Paraalelos y Secuenciaales de 16-Bits usaando FPGAs”, Iberrchip
Worrkshop, 2003.
Abstract—There are different forms to design adaptive rotation it selves to the sense objects around”. Then the
fuzzy controllers applied to robotic systems, this work adaptive controller is therefore “intuitively” a controller that
changes the traditional methods like the common “Fuzzy can modify its movement behaviour according the
Model Reference Learning Controller” FMRLC, see[1] - environment (number of objects and their distance).
[2], which is supported in change of rule base to modify
the controller parameters. Here the purpose is to maintain FUZZYBOT is assembled by two ultrasonic sensors, these
constant the rule base and change fuzzy sets size to control are located on the frontal panel, it has two servo motors
a robot tricycle named FUZZYBOT, also presents figures reformed to do left and right completely rotations, this robot
with five fuzzy sets inputs and four fuzzy sets outputs, use a emission circuit and a reception circuit supported by a
universe to these sets are modify to produce others fuzzy micro controlled target and DSP evaluation target [3].
sets according to objects around the robot; on the other
hand, motors’ robot also change its rotation to avoid crash Devices able to run speedily programs have been
always controlled by fuzzy logic system. There are shown developed, these are “the Digital Signal Processors” DSPs, its
statistical probes in order to compare numerical examples main characteristics are: micro size and processing millions
of how the performance of the controller purposed on instructions per second. It has many resources, for example:
relate to others conventional controllers in real systems serials communications, parallel ports, PWM, timers.
using this robot. Associate DSPs with intelligence artificial algorithms has
many advantages; just as run freely these programs without
Terms—Adaptive fuzzy control, fuzzy sets, intelligent computers or stronger processors, and then, these systems
control. could be probed easily on robotics applications.
I. INTRODUCTION
II. ADAPTIVE FUZZY LOGIC SYSTEM
The robotics in this moment is an important area for
different fields of science; there are many applications using Known the characteristics of FUZZYBOT, the main
robots, especially at the factories, on electro medicine and objective of this work is to achieve a free movement robot on
home services. The programs on these classes of devices are a plain area with objects inside, motors’ robot have to control
also important too. Artificial intelligence allows to develop this device through DSP orders avoid crashes, for this goal,
efficiently algorithms for robotics, for example: fuzzy logic, we have to design a AFLS “Adaptive Fuzzy Logic System”
neuronal links and genetics algorithms. But currently many algorithm. This objective permits us to deduce that the objects
application uses on theirs controller’ programs fuzzy logic distance is the most important variable like the motors
algorithms; this theory has been proved over different movements, then on our AFLS, distance is the input variable
applications, especially when the control is no linear, see [1]- and motors’ movement is the output variable.
[2]. Fuzzy logic can be described as computing with words
rather than numbers, and fuzzy control can be described as
control with sentences. It is more natural to use sentences, or
rules, for instance operator controlled plants, with the control
strategy written in terms of if-then clauses. This work presents
a new fuzzy control strategy without human intervention, this
is an adaptive fuzzy control applied in a robotic system named
FUZZYBOT. Then, it has an adaptive behaviour, this
characteristic is supported over the changes of its algorithms,
it
means to modify the program according to changing some Fig. 1. fuzzy model reference learning controller
environments circumstances, for example: “adapted its motor
Classical fuzzy controller parameters are changed to [19] AYANNA, Howard, & HOMAY-OUN Seraji, & TUNSTE Edward l. A
Rule-Based Fuzzy Traversability Index for Mobile Robot Navigation,
achieve adaptive characteristics on the fuzzy system, this IEEE International Conference on Robotics and Automation, Seoul
design is based on Velásquez, F. Torre, C. Muñoz y C. Shene Korea, Mayo 2001. http://citeseer.ist.psu.edu/howard01rulebased.html.
work, they change output sets size to control a plant; [20] KONOLIGE, K. Myers. The Saphira architecture for autonomous
mobile robots, pp. 211-242, 1998.
successful results obtained on this control permit us
[21] TIMOTHY, J. Ross.Fuzzy Logic with engineering applications.
continuing working with this class of adaptive fuzzy control, [22] MPLAB USER’S GUIDE, Microchip Technology, 2005.
see [10], [11].
REFERENCES
[1] KOO, John Tak Kuen. Design of Stable Adaptive Fuzzy Control.
University of California at Berkeley, Vol. 1, pp. 1-130, 1997.
[2] PAN Lei & WOO Peng Yung. “PD Manipulador controller with
Adaptive Compensation”. Vol 1. pp. 1-43, 1996.
[3] Procesadores de señales digitales 53f8323 EVM Rev 3.0, 1/30/2004.
[4] SUGENO, M. “industrial applications of fuzzy control” El servier
Science. Vol 1, pp. 10-115, 199.
[5] TOMEI, P. “Adaptive PD Controller for Robot Manipulator”, IEEE.
[6] VELÁSQUEZ, F. Torres, C. Muñoz y C. Shene, “Control Difuso
Adaptivo y su Aplicación a una Planta Piloto de Secado por Lecho
Fluidizado”, Revista Facultad de Ingeniería de la Universidad de
Tarapaca, Información Tecnológica-Vol. 16 N°5-2005.
[7] SAFOTT,I Alan. The uses of fuzzy logic in autonomous robot
navigation., Soft Computing Vol1, pp. 180-197, 1997.
[8] WANG Li Xing. “Stable Adaptive Fuzzy Control of Non linear
Systems” IEEE Transations on fuzzy Sistems Vol. 1, No 2, pp. 146-155
mayo 1993.
[9] LEWIS, Jagan nathan & A. Yesildirek, “Neural Network Control of
Robot Manipulators and Non linear Systems”, Vol 1, pp. 56-74,
Philadelphia 1999.
[10] CALDERÓN, Dora María. Control difuso adaptable en un
servomecanismo no lineal, Vol 1, México, Noviembre de 2003.
[11] DUARTE, Oscar Germán, UNFUZZY. UNAL,1998.
[12] AYANNA, Howard, & TUNSTEL, Edward & DEAN, Edwards &
CARLSON, Alan, Enhancing Fuzzy Robot Navigation Systems, Canada,
Julio 2001.
[13] DRIANKOV, D. Hellen doorn & REINFRANK, M., “An Introduction
to Fuzzy Control ”New York 1996.
[14] JANG, S. Anfis. Adaptive Network based Fuzzy Inference Systems”,
IEEE Transactions on Systems and Cybernetics, Vol. 23, No.3, pp.665-
685,Mayo1993.
[15] KLIR, J. George & FOLGER Tina A. Fuzzy Sets Uncertainty and
Information, Vol 1, pp. 22-54 New York 1992.
[16] DRIANKOV, D. & HELLENDORN, H. Fuzzy Logic with Unless –
Rules. Report IDA-RKL-92TR50
[17] Transaction on Automatic Control, Vol 7, No. 4pp. 565-570, 1991.
[18] AYANNA Howard, HOMAYOUN Seraji A. Real-Time Autonomous
Rover Navigation System , In Proc. of the World Automation Congress,
2000. http://robotics.jpl.nasa.gov/people/tunstel/papers/ifsa_nafips01.pdf
.
Detección de de
Detección características geométricas
características sobre
geométricas imágenes
sobre 2D,
imágenes
empleando
2d, empleandotécnicas dede
técnicas momentos
momentosinvariantes
invariantes
1
Hugo de Jesús.
Hugo Mesa
de Jesús. Yepes,
Mesa JuanCarlos
Yepes, Juan Carlos Albornoz
Albornoz Barrios
Barrios y Jhon
y Jhon William
William Branch Branch
Bedoya1 Bedoya
Hugo de Jesús Mesa Yepes. Docente Tiempo Completo, Institución C. Cálculo de Momentos
Universitaria de Envigado IUE. M.Sc (c) en Ingeniería de Sistemas – Los momentos geométricos han sido ampliamente usados
Ingeniero Geólogo. Coordinador Grupo de investigación en Sistemas
Inteligentes – IUE (e-mail: hdjmesa@iue.edu.co).
en el análisis de formas, el reconocimiento de patrones y en el
análisis de texturas [5], [6], [7]. La teoría de los momentos
Juan Carlos Albornoz Barrios. Ingeniero de sistemas. Miembro del grupo de proporciona una interesante y útil alternativa para la
investigación en sistemas inteligentes de la Institución Universitaria de
representación de formas de objetos según Fu-K (1980) [8], a
Envigado. (e-mail: jcalbornoz@gmail.com).
la vez que permite realizar procesos de reconocimiento de
Jhon William Branch Bedoya. Docente Tiempo Completo, Universidad
Nacional de Colombia – Sede Medellín. Ingeniero de Minas y Metalurgia,
objetos[9], [10], [11].
M.Sc en Ingeniería de Sistemas. PhD. en Ingeniería (e-mail: Para una región en un plano, definida por el conjunto de
jwbranch@unalmed.edu.co). puntos tales que f(x, y)> 0, se define el momento de orden pq
mediante la ecuación (3) y en el caso de imágenes digitales,
por tratarse de objetos con valores discretos, el momento de centrales normalizados. En las ecuaciones, se ha simplificado
orden pq se obtiene mediante la ecuación (4).: la notación por razones de presentación, en estas los
= ∫∫ = (3) momentos centrales normalizados mncpq se representa como
Npq.
m pq = ∑ ∑x p
y q f ( x, y ) (4) I 1 = N 20 + N 02 (10)
x y
Para p, q= 0, 1, 2… I 2 = ( N 20 − N 02 ) 2 + 4( N 11 ) 2 (11)
f(x, y) es la matriz conformada por 0 y 1 de la imagen binaria.
I 3 = ( N 3, 0 − 3 N 1, 2 ) 2 + (3 N 2,1 − N 0,3 ) 2 (12)
1) Momentos simples:
Los momentos simples pueden ser calculados hasta I 4 = ( N 3, 0 + N 1, 2 ) 2 + ( N 2,1 + N 0,3 ) 2 (13)
cualquier orden aplicando (4) pero para el reconocimiento de
I 5 = ( N 30 − 3 N 12 )( N 30 + N 12 )[( N 30 + N 12 ) 2 − 3( N 21 + N 03 ) 2 ] (14)
[ ]
objetos, es suficiente con la determinación de los momentos
hasta el orden 3. Los momentos simples representan el área + (3 N 21 − N 03 )( N 21 + N 03 ) 3( N 30 + N 12 ) 2 − ( N 21 + N 03 ) 2
ocupada por el objeto en la imagen, por esta razón, pueden ser [
I 6 = ( N 20 − N 02 ) ( N 03 + N 12 ) 2 − ( N 21 + N 03 ) 2 ] (15)
usados para el reconocimiento de objetos, independientemente
+ 4 N 11 ( N 30 + N 12 )( N 21 + N 03 )
de que este se encuentre invertido o en posición normal.
[
I 7 = (3 N 21 − N 03 )( N 30 + N 12 )( N 30 + N 12 ) − 3( N 21 + N 03 )
2 2
] (16)
)[3(N )]
2) Momentos centrales:
+ (3N 12 − N 30 )( N 21 + N 03 + N 12 ) − ( N 21 + N 03
2 2
Se calculan mediante la aplicación de (5), (6) y (7), estos 30
reconociendo en forma correcta 140 de las 156 imágenes. Las tiempo requerido para los procesos de lectura de imágenes y
imágenes que presentaron inconsistencias se analizaron y se extracción de características.
encontró que el fallo se produce con imágenes de círculos y
rectángulos que son identificados como cuadrados, esta El uso de los momentos geométricos y las invariantes, son
situación se presenta en aquellos casos en que el tamaño de los una excelente alternativa para la implementación de sistemas
objetos se ha reducido en más de un 70% y se presentan de reconocimiento de objetos e incluso pueden ser usadas en
deformaciones en el contorno de la imagen. forma eficiente para otro tipo de tareas tales como la
segmentación e interpretación de imágenes, pero deben ser
TABLA I usadas con mucho cuidado, ya que los valores de las
EFECTIVIDAD DEL SISTEMA CON 156 IMÁGENES DE PRUEBAS. CONJUNTO DE
EVALUACIÓN 1
invariantes pueden presentar valores similares para objetos
diferentes.
Evaluación No. Imágenes %
Reconocida correctamente 140 90%
Reconocida en forma incorrecta 16 10% Los sistemas de reconocimiento de objetos basados en
invariantes, presentan una eficiencia alta, lo cual los hace una
alternativa viable para su implementación en diferentes
En el segundo conjunto de evaluación, en el cual se aplicaciones tales como el control de procesos industriales
conservaron las 156 imágenes del conjunto 1 y se agregaron
basados en imágenes, la identificación de características en
12 nuevas imágenes pertenecientes a tres nuevas clases, se
imágenes médicas, la compresión de imágenes, entre otras.
encontró un incremento en el porcentaje de imágenes
clasificadas erróneamente, pero esto coincidió con lo que se
esperaba como respuesta del sistema, ya que las tres nuevas REFERENCIAS
clases no fueron incluidas en el proceso de entrenamiento. [1] C. M. Bishop, Neural Networks For Pattern Recognition. Oxford, U.K.:
Para este caso se reportaron un total de 28 imágenes Clarendon, 1996.
reconocidas en forma incorrecta y 140 reconocidas en forma [2] Anil K. Jain , Robert P. W. Duin , Jianchang Mao, Statistical Pattern
correcta, lo cual implica una efectividad de un 83% del Recognition: A Review, IEEE Transactions on Pattern Analysis and
Machine Intelligence, v.22 n.1, p.4-37, January 2000
sistema. En la tabla II se muestran estos resultados. [3] Forrest, S., Javornik, B., Smith, R., and Perelson, A. (1993). Using
genetic algorithms to explore pattern recognition in the immune system.
TABLA II Evolutionary Computation, 1(3):191-211..
EFECTIVIDAD DEL SISTEMA CON 168 IMÁGENES DE PRUEBAS SIN [4] Toru Wakahara , Yoshimasa Kimura , Akira Tomono, Affine-Invariant
REENTRENAMIENTO. CONJUNTO DE EVALUACIÓN 2 Recognition of Gray-Scale Characters Using Global Affine
No. Transformation Correlation, IEEE Transactions on Pattern Analysis and
Evaluación % Machine Intelligence, v.23 n.4, p.384-395, April 2001.
Imágenes
[5] S. A. Dudani, K. J. Breeding and R. B. Mcghee, Aircraft identication by
Reconocida correctamente 140 83% moment invariants, IEEE Transactions on Computers, 28(1):39-46,
Reconocida en forma incorrecta 28 17% 1977.
[6] A. Sluzek, Using moment invariants to recognize and locate partially
occluded 2D objects, Pattern Recognition Letters, 7:253-257, 1988.
Tras el proceso de evaluación, se incluyeron las nuevas
[7] Z. Mingfa, S. Hasani, S. Bhattaria and H. Singh, Pattern recognition
clases al conjunto de entrenamiento, con este se reentrenó el with moment invariants on a machine vision system, Pattern
sistema de clasificación y se repitió el proceso de evaluación Recognition Letters, 9:175-180, 1989.
con las imágenes del conjunto de evaluación 2. [8] Fu, K., Picture analysis, en Chang S.K. and Fu K.S. eds. Pictorial
information systems, Springer Verlag, 104-127, 1980.
[9] González, J., Visión por computador, Paraninfo, 1999.
En la tabla III, se presentan los resultados de la evaluación [10] Pratt W., Digital Image Processing. Wiley-Interscience, 1991.
con el sistema entrenado para el reconocimiento de las nuevas [11] Trucco, E. and Verri, A. (1998), Introductory techniques for 3-D
computer vision, Prentice Hall, 1998.
clases. En este se encontró que el sistema presenta una [12] Pajares, G. and Cruz, J., Formas a partir de X, Revista Electrónica de
efectividad del 89%, reconociendo en forma correcta 140 de Visión por Computador, 2000.
las 168 imágenes del conjunto de evaluación. [13] Escalera, Arturo, Visión por Computador Fundamentos y Métodos,
Prentice Hall, Universidad Carlos III de Madrid, Pág. 251-263, 2001.
[14] Faugeras, O., and Luong, Q., The Geometry of Multiple Images, The
TABLA III MIT Press, Cambridge Massachusetts, London, England, 2001.
EFECTIVIDAD DEL SISTEMA CON 168 IMÁGENES DE PRUEBAS Y EL SISTEMA [15] Haralick, R., Shanmugam and Dinsteian, I., Textural features for image
REENTRENADO. CONJUNTO DE EVALUACIÓN 2 classification, IEEE Trans. on Systems, Man and Cybernetics, vol. 3,
No. 610-621, 1973.
Evaluación % [16] Haralick, R., and Shapiro, L., Computer and Robot Vision, Volume I
Imágenes
Reconocida correctamente 150 89% and II, Addison-Wesley Publishing Company, Inc. 1993.
Reconocida en forma incorrecta 18 11% [17] Haralick, R.M., Stemberg S.R., and Zhuang X. Image analysis using
mathematical morphology IEEE transactions on Pattern Analysis and
Machine intelligence, 9(4): 532-550, 1987.
IV. CONCLUSIONES
El desarrollo de un sistema de reconocimiento de objetos se
hace muy complejo debido a la necesidad de utilizar conjuntos
de datos muy grandes para los procesos de aprendizaje y al
Reconocimiento de expresiones faciales combinando
métodos Kernel e ICA
Reconocimiento de expresiones faciales
combinando métodos Kernel e ICA
Damián A. Álvarez, Juan G. Fetecua, Julián D. Echeverry, Álvaro A. Orozco
φ : �N → H
es natural para los seres humanos, dotar a una máquina de esta (1)
habilidad resulta bastante difícil [1]. Dos tipos de problemas x → φ ( x)
tienen que ser resueltos para llevar a cabo esta tarea:
extracción de características y clasificación de la expresión donde se define el Kernel como la función equivalente a:
facial. Este documento se enfoca en la representación de las
imágenes en dos espacios: análisis de componentes principales k (x, x' ) = φ (x), φ (x' ) (2)
(PCA) y KPCA (en donde se realiza un mapeo Kernel para
conseguir que los datos tengan estructura lineal), seguida de
una transformación ICA que busca la no correlación entre Considere que tiene x1 , x 2 ,… , x m ∈ X , la matriz de Gram ó
datos. matriz Kernel de m × m elementos se define por:
Este documento surge como resultado parcial del proyecto aprobado por
COLCIENCIAS en la convocatoria 370 del 2006 con código 111037019600.
J G ( W ) = ⎡⎣ E { E ( WT X)} − E {G (v)}⎤⎦
2
(9)
donde d ∈ ` , a, c ≥ 0 .
U = WX (7)
Maximizando (11) se obtiene cada uno de los vectores wi
Entre los primeros algoritmos para aproximar ICA se que conforma cada una de las filas de la matriz W , con la
encuentra el de Bell y Sejnowsli [10] conocido como cual se calcula la transformación ICA, dada por (7).
Infomax, ya que se basa en el principio de maximización de
información. Debido a que este algoritmo no fuerza Para maximizar la función objetivo se usa el algoritmo
estrictamente una no correlación completa de los datos, su iterativo fixed point, este tiene propiedades de convergencia
resultado puede no ser exactamente una transformación deseables y encuentra componentes independientes de
ortonormal de los datos blanqueados. Con el fin de cumplir la prácticamente cualquier distribución no Gaussiana [11].
restricción de ortogonalidad en forma exacta Hyvärinen, [11],
introdujo un algoritmo ICA usando un simple y eficiente Como se ha expuesto los algoritmos ICA parten de una
esquema de iteración denominado fixed point algorithm, regla de actualización de pesos, obtenida mediante
como su algoritmo presentó una convergencia más rápida se le maximización de una función objetivo, lo que no se ha dicho
denominó FastICA. En este estudio se utilizará el segundo es que estos incluyen un paso previo al aprendizaje conocido
algoritmo, ya que como se expone en [12] con FastICA es como sphering con el fin de reducir las estadísticas de primer
posible realizar una transformación ortonormal de los datos. y segundo orden de los datos. La media de las filas de X son
sustraídas y seguidamente X es pasado a través de una matriz
El algoritmo FastICA usa una nueva función objetivo para de blanqueamiento dada por:
estimar la transformación ICA, a diferencia de la
( )
1 − 1
Wz = 2 ( Cov ( X) )
−
donde G es una función no cuadrática que en la práctica es Dado un vector aleatorio x, el cual es posiblemente una
elegida de forma que sea rápida de calcular y que considere el
mezcla no lineal, se realiza el mapeo no lineal de este a un
XIII SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL. STSIVA 2008 83
M
�
y = M Λ −1V T K
∑ φ (x
j =1
j )=0 (14) x (22)
Abstract—En este artı́culo se presenta el desarrollo de una Teniendo en cuenta la gran cantidad de aplicaciones que
aplicación que permite hacer uso de la visión estereoscópica existen para el uso de la visión estereoscópica se planteó el
utilizando un casco de realidad virtual HMD (Head-Mounted desarrollo de una aplicación que aprovecha la gran capaci-
Display). La aplicación permite la visualización de objetos 3D
(Volúmenes básicos y modelos desarrollados con software espe- dad de inmersión que ofrece un casco de realidad virtual o
cializado) para diferentes aplicaciones como: medicina, robótica HMD (Head-Mounted Display). Para lograr esto se recurrió
(teleoperación), topografı́a (visualización de terrenos), arquitec- en primera instancia al lenguaje de programación Java, que
tura, mundos virtuales, educación entre otros. Esta aplicación aporta la ventaja de poder ser utilizado en cualquier sistema
fue desarrollada utilizando herramientas de programación y operativo y además facilita la programación orientada a obje-
graficación 3D como lo son Java y OpenGL. Adicionalmente
esta incluye rutinas para hacer uso de diferentes dispositivos tos. Adicionalmente se recurrió a la librerı́a de graficación
de entrada (Joystick y GamePad) permitiendo al usuario la 3D OpenGL, que permite desarrollar aplicaciones gráficas
interacción con los objetos visualizados. En la última versión, en diferentes sistemas operativos, a diferencia de DirectX
se implementó la proyección de la imagen en dos pantallas, para la cual fue diseñada para Windows[3]. R Otra ventaja de
visualizar los mismos objetos en un V-CAVE (Sistema de dos usar OpenGL es que permite la utilización del modo estéreo
pantallas que forman un ángulo de 90◦ entre sı́ con la intención
de aplicar un efecto de inmersión sobre el usuario). de la tarjeta de video necesario para la visualización en el
dispositivo HMD.
Palabras Claves—Librerias Graficas, Realidad Virtual, Com- Para favorecer la experiencia del usuario, se implementaron
putación Gráfica, Visión Estereoscópica
dos clases referentes a la graficación y la interacción del
usuario con los objetos. La primera de ellas, es un módulo
I. I NTRODUCCI ÓN que permite graficar objetos complejos desarrollados con un
software especializado en modelado y animación 3D, para
de azimut1 (A la derecha y la izquierda del punto donde procedió a dibujar el mismo objeto dos veces, una vez en el
está ubicado el objeto) y en términos de elevación (Arriba buffer trasero derecho y una vez en el buffer trasero izquierdo.
y abajo del mismo punto)[4]. La dirección visual binocular se Sin embargo, la clave de la estereovisión mediante OpenGL,
diferencia de la monocular en que esta última es la imagen que se encuentra en permitirle a la aplicación actualizar cada cierto
recibe cada ojo por separado. Algunos investigadores plantean tiempo el espacio de graficación y además alternar la imagen
que la dirección visual binocular está ubicada en la mitad de que envı́a hacia el dispositivo HMD, es decir, una vez envı́a
las dos imágenes monoculares, sin embargo, otros plantean la imagen hacia el ojo izquierdo y la siguiente vez que se
la posibilidad de que esta dirección está ubicada en cualquier actualice, envı́a la imagen hacia el ojo derecho.
punto entre las dos imágenes monoculares, no necesariamente Para modificar la profundidad con la que el objeto se ve en
en la mitad. el dispositivo HMD, se agregó un procedimiento que permite,
mediante eventos del mouse, modificar la distancia del objeto
con respecto al observador y ası́ mismo modificar el ángulo
B. Ángulos de convergencia y disparidades retinales
de convergencia.
El ángulo de convergencia de las dos imágenes monoculares
con respecto a un objeto ubicado en un punto, está dado por
III. A MBIENTES Y S ISTEMAS DE I NMERSI ÓN
la siguiente ecuación:
Un ambiente virtual de inmersión permite que un usuario
i tenga principalmente experiencias visuales, audibles y táctiles.
α = 2 · arctan ( )
2 · D1 Generalmente el factor visual es el más importante y para
donde, α es el ángulo de convergencia, D1 es la distancia esto se usa una pantalla, un dispositivo estereoscópico o
entre el observador y el objeto ubicado en el punto F1 , e i es cualquier otro sistema de visualización. Los dispositivos de
la distancia interocular [4](Figura 1). Si se ubica otro objeto visualización, los controles de la interfaz y el computador están
en un punto F2 más cercano al observador, se puede ver que configurados para sumergir al operador en un ambiente que
el ángulo de convergencia β que define con respecto a los dos contiene objetos tridimensionales con locaciones tridimension-
ojos es mayor, por lo tanto se puede decir que tanto α como β ales y orientaciones en un espacio tridimensional. Cada objeto
son inversamente proporcionales a la distancia entre el objeto virtual tiene una ubicación en el espacio que es independiente
y el observador. del puerto de vista del operador, y el operador puede interac-
tuar con estos objetos utilizando diferentes dispositivos para
manipularlos[5].
Un ambiente virtual se asemeja a un sistema de teleop-
eración, sin embargo la diferencia entre estos dos radica en la
parte no humana de su estructura. En un sistema teleoperado,
el usuario controla a un robot desde una estación remota [6] y
en un ambiente virtual, el usuario visualiza y manipula objetos
virtuales mediante un computador, lo cual puede funcionar
como entrenamiento para que posteriormente el usuario inter-
actue con un sistema teleoperado [5].
Al mismo tiempo con esta diferencia en la estructura,
también se da una diferencia en el propósito de estos dos
sistemas: para el sistema teleoperador, el propósito es sentir,
Fig. 1. Ángulo de convergencia de las dos imágenes monoculares manipular y transformar el estado del mundo real, mientras
que el propósito del ambiente virtual es sentir, manipular y
La disparidad retinal o binocular se produce a partir de la transformar el estado del usuario o modificar el estado de la
diferencia de los ángulos α y β, lo que le permite al cerebro información almacenada en el computador [5]. Un ejemplo
humano identificar la profundidad de cada objeto y concluir de este tipo es la simulación quirúrgica, la cual puede ser
cuál se encuentra más cercano que el otro. realizada utilizando modelos deformables mediante sistemas
inmersivos de visualización y dispositivos hápticos3 , como se
observa en [7].
C. Visión Estereoscópica en la aplicación
Para aplicar este efecto de profundidad sobre los objetos A. V-CAVE
graficados en la escena, se tuvo en cuenta que el espacio de
graficación de OpenGL cuenta con cuatro buffers2 diferentes Para incrementar las sensaciones de inmersión en el mundo
donde se pueden graficar estos objetos, dos buffers frontales real, se desarrollaron diferentes proyectos con este fin entre los
(Derecho e izquierdo) y dos buffers traseros (Derecho e cuales se pueden destacar ImmersaDesk, las paredes de visu-
izquierdo). A partir de esta caracterı́stica de la librerı́a, se alización y el CAVE (Cave Automatic Virtual Environment).
El CAVE, en términos generales, se compone de varias
1 Ánguloque forma la imagen monocular con el punto de fijación pantallas que se ubican de manera adyacente inscribiendo un
2 Espacioen la memoria del computador en donde se almacenan temporal-
mente los datos para la graficación 3 Dispositivos que permiten sensación del tacto
XIII SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL. STSIVA 2008 87
ángulo determinado entre ellas, dependiendo del número de B. Graficación de Modelos 3D (Figura 3)
pantallas, en donde se proyectan las imágenes que van a aplicar Carga los materiales y la geometrı́a de los objetos almace-
el efecto de inmersión sobre el usuario. nados en los archivos OBJ y MTL.
Por facilidades en cuanto a costo y disponibilidad, en este
• GIMMaterialLoader: Carga el material del objeto en
proyecto se utilizo un V-CAVE como ambiente de prueba. Este
la escena mostrada en la aplicación.
V-CAVE consiste en dos pantallas dispuestas de tal manera
que formen un ángulo de 90◦ entre las dos, en donde cada
• GIMModel: Carga todos los datos del modelo 3D
una de las pantallas tiene un proporción de 4/3 (Las imágenes
contenidos en el archivo OBJ.
proyectadas de la aplicación poseen la misma proporción). En
[8] se presenta el desarrollo de una aplicación de bajo costo
• GIMModelLoader: Pinta en la escena los datos
de un V-CAVE.
obtenidos con la clase GIMModel.
Fig. 2. Diagrama de clases para la graficación de volúmenes básicos D. Visión Estereoscópica (Figura 5)
Aplica el efecto de profundidad a los objetos visualizados.
88 XIII SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL. STSIVA 2008