Você está na página 1de 2

1

RESUMEN
En este proyecto se implementan redes neuronales para
realizar reconocimiento visual de caracteres del alfabeto latino y
as permitir a un sistema transcribir informacin escrita a mano.
Principalmente se espera que el sistema reconozca cualquier tipo
de letra escrita a mano, lo cual se lograra mediante el
entrenamiento de la red neuronal. A partir de esto, se espera
desarrollar una aplicacin capaz de transcribir rpida y
eficientemente escritos a mano a archivos de texto.

Palabras Clave alfabeto, reconocimiento visual, red
neuronal, transcripcin escrita

I. INTRODUCCIN
l reconocimiento visual es uno de los aspectos ms
importantes que, ahora, nos brindan los sistemas de
informacin por medio de la inteligencia artificial. Es claro
que este desarrollo se ha dado como resultado de la bsqueda
del ser humano por tener una vida ms sencilla y eficiente, y
consecuentemente, ms productiva; de modo que las
actividades ms exhaustivas ahora pueden realizarse ms
rpida y eficientemente.

Un campo amplio de la inteligencia artificial son las redes
neuronales, las cuales se utilizan, en su mayor parte, como
identificadoras y clasificadoras. Las redes neuronales facilitan
estos procesos puesto que se pueden entrenar. Si se estn
clasificando imgenes, basta con entrenar la red neuronal
procesando imgenes de un tipo conocido de modo que
despus de varios entrenamientos, se estar en capacidad de
reconocer cualquier imagen de ese tipo.

Dado que en este proyecto se realizar reconocimiento de
caracteres escritos a mano o provenientes de una fotografa o
imagen, se puede utilizar un atributo particular que categoriza
cada smbolo como nico: los momentos invariantes de Hu.
Estos momentos son bsicamente una serie de nmeros que se
obtienen a partir de las intensidades promedio de los pixeles y
su ubicacin y orientacin relativa, de modo que se puede

Primer Autor: chusecher@unal.edu.co, estudiante de Ingeniera -
Ingeniera de Sistemas y Computacin, Universidad Nacional de Colombia.
Segundo Autor: jdtorregrosas@unal.edu.co, estudiante de Ingeniera
Ingeniera de Sistemas y Computacin, Universidad Nacional de Colombia.
identificar los patrones de cada smbolo y catalogarlos cmo
nicos [1]. Claro que, para que estos clculos sean posibles, es
necesario que se realice un procesamiento especial a la imagen
para obtener el contorno.

Una aplicacin que permita la transcripcin de manuscritos
y textos hechos a mano a un formato digital, aportara un gran
utensilio que facilitara la vida cotidiana de las personas y
optimizara la transcripcin de documentos.
II. PLANTEAMIENTO DEL PROBLEMA
En la actualidad, existen diversas aplicaciones capaces de
realizar el reconocimiento visual utilizando diferentes mtodos
y herramientas. Es claro que el problema radica en que se
necesita que un computador sea capaz de identificar smbolos
rpidamente partiendo de una imagen.

Las redes neuronales se pueden utilizar para reconocer
cualquier tipo de imagen, y clasificarlas de manera adecuada,
incluyendo, por ejemplo, rostros, hojas de rboles, caracteres o
todos al mismo tiempo. Incluso, redes neuronales lo
suficientemente complejas como la del proyecto Adam de
Microsoft [4], son capaces de reconocer distintas razas de
perros y gatos basndose nicamente en una imagen de ellos y
su autoaprendizaje.

En cuanto a la deteccin de rostros, existen diversas
aplicaciones de redes neuronales artificiales capaces de
identificar incluso el estado de nimo de una persona
basndose en sus expresiones faciales.

Muchas de las aplicaciones con redes neuronales son
capaces de aprender por s mismas a reconocer patrones
diferentes para los que fueron principalmente estructuradas,
slo basta con que sean lo suficientemente complejas. Un
ejemplo de esto es el proyecto de aprendizaje sin supervisin
de Google Research, que inicialmente se ide pensando en
rostros humanos, pero luego se vio que era capaz de identificar
rostros de gatos [5].
III. HIPTESIS
Las redes neuronales permiten el reconocimiento de
caracteres manuscritos y, consecuentemente, su transcripcin a
un formato digital.
Reconocimiento Visual de Caracteres a travs
de Redes Neuronales
Carlos Useche y Julin Torregrosa
E
2
IV. METODOLOGA
Se capturar la imagen, ya sea por medio de un scanner o
una cmara. Luego se procesar de modo que se tenga una
imagen binaria, es decir, una imagen cuyos pixeles solo
pueden ser blancos o negros (vea Fig 1.). A partir de esto, se
realizar el clculo de los momentos Hu, de modo que se
pueda obtener un patrn para cada carcter del alfabeto latino.
Con estos valores, se realizar el proceso por la red neuronal,
de modo que se pueda entrenar y, posteriormente, que sea
capaz de identificar adecuadamente cada carcter y asociarlo a
su valor digital para transcribir [3].

Se realizar un proceso de entrenamiento de la red neuronal
de modo que se pueda reconocer cualquier tipo de smbolo
partiendo de las imgenes estudiadas. Se sabe que un mayor
entrenamiento genera mejores resultados de reconocimiento.
Por esto, se realizar una serie de ejercicios sobre la red
neuronal en los que se introduce una imagen a la aplicacin y
se le informa qu smbolo corresponde al de la imagen. De
este modo, la red asociar cada patrn de momentos
invariantes con cada smbolo del alfabeto y podr
identificarlos con mayor facilidad cada vez que procese una
imagen diferente.

En cuanto a herramientas, se utilizarn bsicamente
algoritmos de Matlab para procesamiento de imgenes y la
implementacin de la red neuronal.
V. RESULTADOS ESPERADOS
Se espera que la aplicacin sea capaz de reconocer
cualquier manuscrito de cualquier persona, desde cualquiera
de las fuentes de entrada, y transcribir exitosamente el
contenido de cada imagen de entrada.


Fig. 1. Imagen binaria del contorno de una hoja. Se debe obtener un tipo de
imagen como este para realizar el clculo de los momentos invariantes [3].
VI. IMPACTO DEL PROYECTO
Esta implementacin impactara considerablemente en la
poblacin en general al simplificar el modo en cmo se
transcriben textos escritos de forma casi inmediata a un
formato digital.

En el mbito laboral, podra utilizarse cotidianamente para
la transcripcin de formatos de registro escritos por los
clientes o involucrados de la entidad en forma fsica.

Tambin se puede utilizar en departamentos de trnsito para
identificar placas de automviles infractores.

Se puede afirmar entonces que esta aplicacin puede
contribuir una parte a la bsqueda del ser humano por una vida
ms fcil, segura y eficiente.
REFERENCIAS
[1] G. J. Garca, J. Pomares, F. Torres, Control Visual Flexible
empleando Momentos Invariantes, [Online]. Disponible en:
http://rua.ua.es/dspace/bitstream/10045/2160/1/ja05Alicante.pdf
[2] M. Durn, Reconocimiento de Caracteres pticos OCR por medio
de Correlacin y Redes Neuronales 2009, [Online]. Disponible en:
http://repository.upb.edu.co:8080/jspui/bitstream/123456789/663/1/di
gital_18412.pdf.
[3] M. Durn, Reconocimiento de Imgenes utilizando Redes
Neuronales Artificiales 2012, [Online]. Disponible en:
http://eprints.ucm.es/23444/1/ProyectoFinMasterPedroPablo.pdf.
[4] Microsoft Research, On Welsh Corgis, Computer Vision, and the
Power of Deep Learning 2014, [Online]. Disponible en:
http://research.microsoft.com/en-us/news/features/dnnvision-
071414.aspx
[5] Quoc V. Le, MarcAurelio Ranzato, Rajat Monga, et al, Building
High-Level Features using Large Scale Unsupervised Learning
[Online]. Disponible en:
http://static.googleusercontent.com/media/research.google.com/es//arc
hive/unsupervised_icml2012.pdf