Escolar Documentos
Profissional Documentos
Cultura Documentos
Revista Colombiana de
Tecnologías de Avanzada
Abstract: In this paper, we present the development of a system to recognize the static
signs of Colombian sign language alphabet (LSC), the system is using image processing
algorithms and artificial neural networks (ANN). To correctly operate the system not
requires gloves or visual markers. The results show that the system can recognize static
signs of Colombian signs language alphabet with a recognition rate of 92%.
Dadas las dificultades que presenta la población diseño del sistema conformado por las etapas de
con discapacidad auditiva, la comunidad científica captura, pre - procesamiento, extracción de
se ha interesado en el desarrollo de técnicas, características y reconocimiento de las señas
procedimientos y sistemas para el reconocimiento correspondientes. En la sección 4 se presentan los
de los gestos correspondientes a la lengua de señas. resultados experimentales obtenidos, y en la
Sin embargo, la eficiencia de estos se ve afectada sección 5 se concluye sobre el trabajo realizado y
debido a la complejidad tanto de la estructura de en la sección 6 se presentan los trabajos futuros.
dicho lenguaje como de la capacidad de
procesamiento requerido.
2. CARACTERISTICAS DEL LENGUAJE DE
Los trabajos publicados por la comunidad
SEÑAS
científica presentan diferentes técnicas para el
reconocimiento de la lengua de señas tales como La lengua de señas, o lengua de signos, es una
Redes neuronales artificiales (Admasu & Raimond, lengua natural de expresión y configuración gesto-
2010; Maraqa & Abu-Zaiter, 2008; Mekala, Gao, espacial y percepción visual, gracias a la cual las
Fan, & Davari, 2011); y modelos ocultos de personas sordas pueden establecer un canal de
Markov (HMM) (Aliaa A.A Youssif Amal Elsayed comunicación con su entorno social, ya sea
conformado por otros individuos sordos o por
Aboutabl, 2011; Assaleh, Shanableh, Fanaswala,
cualquier persona que conozca la lengua de signos
Bajaj, & Amin, 2008; Hernandez-Rebollar,
empleada. Mientras que con el lenguaje oral la
Kyriakopoulos, & Lindeman, 2004; Holden, Lee, comunicación se establece en un canal vocal-
& Owens, 2007; Jebali & Jemni, 2013; auditivo, el lenguaje de señas lo hace por un canal
Kawahigashi, Shirai, Miura, & Shimada, 2006; gesto-viso-espacial.
Starner, Weaver, & Pentland, 1998; Tanibata,
Shimada, & Shirai, 2002; Vogler & Metaxas, 2001; El conjunto de símbolos que conforman el lenguaje
Yun et al., n.d.; Zaki & Shaheen, 2011). En el incluye señas estáticas y señas con movimiento, así
trabajo presentado por (Munib, Habeeb, Takruri, & como señas para el abecedario. En este trabajo se
Al-malik, 2007) se muestra el desarrollo de un emplean las imágenes que representan las señas del
sistema de visión artificial para el reconocimiento abecedario, y específicamente aquellas que no
de los gestos estáticos de la Lengua de Señas tienen movimiento para su representación, como
Americana (ASL), basado en la transformada de la una primera etapa del proyecto. En total son 23
distancia para extracción de características, y redes imágenes (Maraqa & Abu-Zaiter, 2008).
neuronales artificiales para el reconocimiento. En
(Karami, Zanj, & Sarkaleh, 2011) se presenta el
desarrollo de un sistema de visión artificial para el 3. DISEÑO E IMPLEMENTACIÓN DEL
reconocimiento de los gestos estáticos de la Lengua SISTEMA
de Señas Polaca (PSL), basado en la transformada 3.1 Descripción general del sistema
wavelet y redes neuronales artificiales. En (Vargas,
Barba Jiménez, & Mattos, 2010; Vargas, Barba, El sistema está diseñado para reconocer y
visualizar en texto de forma automática 23 señas
Torres, & Mattos, 2011) se presenta un sistema de
estáticas del alfabeto de la lengua de señas
visión artificial para el reconocimiento de las señas
colombiana (LSC), mediante técnicas de
estáticas de la Lengua de Señas Colombiana procesamiento de imágenes y redes neuronales
(LSC), basado en redes neuronales artificiales para artificiales. Para interactuar con el sistema el
su implementación en hardware. En (Al-Jarrah & usuario no requiere de guantes ni de dispositivos
Halawani, 2001) se presenta un sistema de especializados, lo cual permite que el signante lo
reconocimiento de la lengua de señas árabe, utilice con naturalidad.
mediante el uso de un sistema neuro -difuso
adaptativo. El sistema está compuesto por cuatro fases:
Captura de la seña, pre - procesamiento, extracción
En este trabajo se presenta el desarrollo de un de características y reconocimiento, como se
sistema de reconocimiento del alfabeto de señas muestra en la Fig. 1. La captura de las imágenes se
estáticas de la LSC, basado en algoritmos de realiza mediante una cámara web, en un ambiente
procesamiento de imágenes y redes neuronales de fondo de color negro e iluminación uniforme. El
artificiales. El artículo está organizado de la pre - procesamiento se lleva a cabo en tres etapas:
siguiente forma: en la sección 2 se presenta el la primera consiste en aplicar la técnica de
2
Universidad de Pamplona
I. I. D. T. A.
ISSN: 1692-7257 - Volumen 2 – Número 28 - 2016
Revista Colombiana de
Tecnologías de Avanzada
segmentación por umbral basada en el histograma; Las imágenes son capturadas mediante una cámara
En la segunda se aplican las operaciones web, y redimensionadas a un tamaño de 800X480
morfológicas de apertura y cierre para eliminar el pixeles, estas imágenes son almacenadas utilizando
ruido que se encuentra presente; en la tercera etapa el formato de imágenes JPEG. Para el desarrollo de
se recorta la imagen para facilitar la obtención de este sistema se utilizaron 23 señas estáticas del
las características. La extracción de características Alfabeto de la Lengua de Señas Colombiana (LSC)
consiste en tomar medidas de la seña mediante el las cuales se muestran en la Fig. 2.
conteo de pixeles. Las características extraídas son:
el área de la imagen que ocupa la seña, el área del 3.3 Pre - procesamiento
fondo de la imagen, el perímetro de la seña, sesenta
Con el fin de separar la seña del fondo de la
medidas verticales, y sesenta medidas horizontales.
imagen, se utiliza la técnica de segmentación por
El reconocimiento es llevado a cabo mediante una
umbral basada en el histograma, la cual consiste en
red neuronal artificial perceptrón multicapa de 3
comparar cada uno de los pixeles de la imagen con
capas, la cual consta de 123 entradas, 60 neuronas
un valor seleccionado a partir de su histograma. En
en la capa oculta y 23 neuronas en la capa de
la Fig. 4 se observa la imagen segmentada con un
salida.
valor de umbral de 130 utilizando la componente
de color rojo.
Extracción de
Preprocesamiento Reconocimiento
características
Q R T U V
Fig. 4. Elemento estructurarte utilizado en las
operaciones de erosión y dilatación.
Fuente: Autor.
W X Y
Fig. 2. Alfabeto de señas estáticas del LSC.
Fuente: Autor.
3
Universidad de Pamplona
I. I. D. T. A.
ISSN: 1692-7257 - Volumen 2 – Número 28 - 2016
Revista Colombiana de
Tecnologías de Avanzada
( 60))
m
El proceso para extraer el vector de características Columnas[i ] = ∑ I ( j , i ⋅ Int n ∀ i = 1, 2,3...60 (2)
se desarrolla en varias etapas, la primera consiste j =1
en extraer dos vectores de 60 posiciones cada uno Después de extraer los vectores preliminares de
con medidas verticales y horizontales de la imagen; características se calcula el área que ocupa la mano
en la segunda se calculan las áreas de la mano y del dentro de la imagen. El cálculo de dicha área se
fondo de la imagen respectivamente; en la tercera realiza utilizando la ecuación (3), dicha ecuación
se obtiene el perímetro de la mano; y en la cuarta permite recorrer pixel a pixel la imagen haciendo
etapa se hace una relación entre los datos obtenidos un conteo de los pixeles que se encuentran en color
de manera que las características se mantengan sin blanco.
importar los cambios en el tamaño de la seña.
m n
I ( j, i)
Area _ Int = ∑∑ (3)
j =1 i =1 255
4
Universidad de Pamplona
I. I. D. T. A.
ISSN: 1692-7257 - Volumen 2 – Número 28 - 2016
Revista Colombiana de
Tecnologías de Avanzada
Area _ Int
Razon _ A = (10)
Area _ Ext
La última característica permite determinar cuánto
difiere la forma de un objeto con respecto a un
círculo, y es utilizado para identificar un objeto
desde diferentes distancias (Maestre, 2000). Dicha
característica se calcula mediante la razón entre el
cuadrado del perímetro del objeto (en nuestro caso
la mano) y su área como se muestra en la ecuación
Fig. 8. Distribución del área que ocupa tanto la (11).
mano cómo el fondo de la imagen analizada. Perímetro 2
Fuente: Autor. Circularidad = (11)
Area _ Int
El cálculo del perímetro de la mano se realiza en Una vez realizado el cálculo de las características
dos pasos, el primero consiste en erosionar la que describen las señas se hace una concatenación
imagen (ver ecuación (5) mediante el elemento de los datos obtenidos, teniendo como resultado un
estructurante de la Fig. 4, el segundo paso consiste vector de 123 posiciones. Dicho vector de
en hacer un conteo de la cantidad de pixeles características se emplea para llevar a cabo el
resultantes al restar la imagen erosionada de la reconocimiento de la seña. Además, representan la
imagen original como se muestra en la ecu. (6). cantidad de entradas que requiere la red neuronal
artificial para funcionar adecuadamente.
I d = I ! EE (5)
3.6 Reconocimiento
m n
I ( j, i) − I d ( j, i)
Perímetro = ∑∑ (6) La etapa de reconocimiento se desarrolló con base
j =1 i =1 255
en una red neuronal artificial perceptrón multicapa,
dicha red neuronal está conformada por 123
Una vez calculada la información anterior se hace entradas, 60 neuronas con función de activación
una relación entre cada uno de los datos, con el fin logsig en la capa oculta y 23 neuronas con función
de encontrar un patrón que describa de manera de activación logsig en la capa de salida, como se
genérica cada una de las señas del alfabeto del muestra en la Fig. 9. Tanto la arquitectura de la red
LSC. Dichas relaciones son calculadas de la neuronal como el algoritmo de entrenamiento
siguiente manera, primero se hallan los valores empleados en la etapa de reconocimiento de este
máximos de los vectores filas y columnas, y a trabajo, fueron seleccionados mediante
partir de estos se hace la relación mostrada en las experimentación haciendo pruebas con diferentes
ecuaciones (7) y (8). Estas dos relaciones permiten arquitecturas hasta encontrar la solución más
determinar la horizontalidad y verticalidad de la adecuada.
seña realizada.
Para crear el modelo neuronal en MATLAB se
Max(Columnas) utilizó la función newff, y se configuró de acuerdo
FactorFila[ j] = ∀ j = 1,2,3,...60 (7)
Filas[ j] con los requerimientos del sistema. Los parámetros
Max(Filas) principales que esta función requiere son: los datos
FactorColumna[i] = ∀ i = 1,2,3,...60 (8)
Columnas[i] de entrada, los datos objetivo, el tamaño de cada
Una característica que complementa a las dos una de las capas ocultas, el tipo de función de
anteriores es la relación que existe entre la cantidad activación y el algoritmo de entrenamiento. A
de pixeles verticales de la imagen con respecto a la continuación, se muestra el comando utilizado para
cantidad de pixeles horizontales, dicha relación se la creación de la arquitectura propuesta.
observa en la ecuación (9).
5
Universidad de Pamplona
I. I. D. T. A.
ISSN: 1692-7257 - Volumen 2 – Número 28 - 2016
Revista Colombiana de
Tecnologías de Avanzada
Esta función permite obtener los pesos sinápticos y En la Tabla 2 se muestra que la taza de
los valores de vías de cada una de las neuronas. reconocimiento total del sistema es de 92%, por lo
Para el entrenamiento de la red neuronal se cual se puede observar que el sistema realiza la
utilizaron 115 muestras. clasificación de forma eficiente.
6
Universidad de Pamplona
I. I. D. T. A.
ISSN: 1692-7257 - Volumen 2 – Número 28 - 2016
Revista Colombiana de
Tecnologías de Avanzada
7
Universidad de Pamplona
I. I. D. T. A.
ISSN: 1692-7257 - Volumen 2 – Número 28 - 2016
Revista Colombiana de
Tecnologías de Avanzada
Image Understanding, 81(3), 358–384. Zaki, M. M., & Shaheen, S. I. (2011). Sign
http://doi.org/10.1006/cviu.2000.0895 language recognition using a combination of
Yun, L. K., Swee, T. T., Anuar, R., Yahya, Z., new vision based features. Pattern Recognition
Yahya, A., & Kadir, M. R. A. (n.d.). Sign Letters, 32(4), 572–577.
Language Recognition System using SEMG http://doi.org/10.1016/j.patrec.2010.11.013
and Hidden Markov Model.
8
Universidad de Pamplona
I. I. D. T. A.