Paper Clasificación de Imágenes-Obregón

Clasificacion de dibujos a mano usando Redes
neuronales
1st Kenneth Obregon 2nd Pedro Romero
Maestria en Ciencia de los Datos Maestria en Ciencia de los Datos)
Universidad Ricardo Palma Universidad Ricardo Palma
Lima, Peru Lima, Peru
kenneth.obregon@urp.edu.pe pedro.romero@urp.edu.pe
Abstract—Las redes convolucionales muy profundas han sido de los objetos reconocidos. Adems, la aplicabilidad de los
centrales para los mayores avances en el rendimiento de re- mtodos de aprendizaje supervisados basados en caractersticas
conocimiento de imagen en aos recientes. Un ejemplo es la est restringida a tareas de reconocimiento simples con un
arquitectura de inicio que Se ha demostrado que logra muy buen
rendimiento en relativamente bajo costo computacional. Recien- nmero limitado de clases de objetos. por objetos ms complejos
temente, la introduccin de conexiones residuales en conjuncin con y para un gran nmero de clases de objetos, uno normalmente
una ms tradicional La arquitectura ha rendido el rendimiento ms tiene confiar en el enfoque basado en modelos y especificar
moderno. en el desafo ILSVRC 2015; Su desempeo fue similar a explcitamente los modelos de objetos a ser reconocido, lo
la ltima generacin de la red Inception-v3. Esto plantea la cuestin que a menudo es tedioso y lleva mucho tiempo. Para evitar
de si hay algn beneficio en la combinacin La arquitectura de
inicio con conexiones residuales. aqu Damos evidencia emprica el exceso de adaptacin por un lado y el enfoque basado en
clara de que el entrenamiento con residuos. Conexiones acelera modelos por el otro, En este documento realizamos el proceso
la formacin de redes de inicio. significativamente. Tambin hay de aprendizaje sin supervisin en el sentido de que la Al
alguna evidencia de inicio residual Redes que superan el inicio alumno no se le dice explcitamente cmo debera discriminar
similarmente caro Redes sin conexiones residuales por un margen los ejemplos positivos. de los negativos. En lugar de eso, se
delgado. Nosotros Tambin presentan varias nuevas arquitecturas
optimizadas tanto para Redes de inicio residual y no residual. recomienda reproducir un seleccionado
Estas variaciones mejorar el rendimiento de reconocimiento de
un solo cuadro en La tarea de clasificacin de ILSVRC 2012 II. T RABAJO R ELACIONADO
significativamente. Nosotros ms Demostrar cmo se estabiliza la La evidencia del proceso de percepcin humana muestra la
activacin adecuada. La formacin de redes de inicio residual muy importancia del mecanismo de atencin, que utiliza informacin
amplias. Con un conjunto de tres residuales y un Inception-v4,
nosotros logre 3.08 de error entre los 5 primeros en el conjunto superior. Para guiar el proceso de avance hacia abajo. Recien-
de prueba de ImageNet clasificacin (CLS) desafo. temente, Se han hecho esfuerzos tentativos hacia la aplicacin
Index Terms—test, test, test, test, test de la atencin. en la red neuronal profunda. Mquina de Boltz-
mann profundo (DBM) contiene atencin de arriba hacia abajo
I. I NTRODUCTION por su reconstruccin Proceso en la etapa de entrenamiento.
test Introduction En el aprendizaje supervisado aplicado Mecanismo de atencion Tambin se ha aplicado ampliamente
al reconocimiento de objetos, la bsqueda en el espacio de a las redes neuronales recurrentes. (RNN) y la memoria a
las hiptesis (aprendices) suelen guiarse por cierta medida de corto plazo (LSTM) para abordar Tareas de decisin secuencial.
la calidad de la discriminacin. de ejemplos de formacin de Informacin superior se rene secuencialmente y decide dnde
diferentes clases de objetos. Esto requiere definir, de alguna asistir para el prximos pasos de aprendizaje de la caracterstica.
manera arbitraria, la respuesta deseada del alumno para los Se propone aprendizaje residual para aprender residual de
objetos de clases particulares (por ejemplo, la definicin de mapeo de identidad. Esta tcnica aumenta enormemente la
combinaciones deseadas de excitaciones de la capa de salida Profundidad de la red neuronal de feedforward. Similar a
en caso de una red neuronal). Aunque demostrado ser eficaz nuestro trabajo, usan aprendizaje residual con mecanismo de
en varias aplicaciones, tales un enfoque tiene un riesgo rela- atencin beneficiarse del aprendizaje residual. Dos informacion
tivamente alto de sobrealimentacin, especialmente cuando el Las fuentes (contexto de consulta y consulta) se capturan
nmero de caractersticas de la imagen es grande. Por ejem- utilizando la atencin. Mecanismo para ayudarse mutuamente
plo, en nuestra experiencia pasada con Sntesis evolutiva de en su trabajo. Mientras en Nuestro trabajo, una nica fuente de
sistemas de reconocimiento de objetos [1, 2], muchos estudi- informacin (imagen) se divide en Dos diferentes y combinados
antes evolucionados tendan a utilizar caractersticas de imagen repetidamente. Y residual El aprendizaje se aplica para aliviar
irrelevantes, coincidentemente correlacionadas con el particin el problema planteado por repetidas Partiendo y combinando.
de ejemplos de entrenamiento en conceptos. Esto sucede En clasificacin de imgenes, mecanismo de atencin de arriba
porque los estudiantes son recompensados exclusivamente por hacia abajo. Se ha aplicado utilizando diferentes mtodos:
las decisiones que toman, y no por el ”entendimiento” real proceso secuencial, Propuesta de regin y puertas de control.
Proceso secuencial modela la clasificacin de imgenes como
secuencial decisin. As, la atencin se puede aplicar de manera
similar con lo anterior. Esta formulacin permite la optimizacin
de extremo a extremo. utilizando RNN y LSTM y puede
capturar diferentes tipos de atencin de una manera impulsada
por el objetivo.
La propuesta de la regin ha sido exitosa Adoptado en
la tarea de deteccin de imgenes. En la clasificacin de im-
genes, Se agrega una etapa de propuesta de regin adicional
antes de feedforward clasificacin. Las regiones propuestas
contienen top informacin y se utilizan para el aprendizaje
de caractersticas en el segundo escenario. A diferencia de la
deteccin de imgenes cuyas regiones propuestas depende de una
gran cantidad de supervisin, por ejemplo, el terreno Cajas de
delimitacin de la verdad o mscaras de segmentacin detalladas
[6], El aprendizaje no supervisado se utiliza generalmente para
generar regin Propuestas para la clasificacin de imgenes. Las
puertas de control se han utilizado ampliamente en LSTM.
En Clasificacin de imgenes con atencin, puertas de control
para Los rones se actualizan con informacin de primera y
tienen influencia. en el proceso de feedforward durante el
entrenamiento. Sin embargo, Un nuevo proceso, aprendizaje
por refuerzo u optimizacin. est involucrado durante el paso
de entrenamiento. Autopista La red extiende la puerta de
control para resolver la degradacin del gradiente Problema
para la red neuronal convolucional profunda. Sin embargo,
los avances recientes en la clasificacin de imgenes se cen-
tran. en la formacin de redes neuronales convolucionales de
avance utilizando Estructura muy profunda. El feedforward
red convolucional imita los caminos de abajo hacia arriba
de los humanos corteza. Se han propuesto varios enfoques
para Seguir mejorando la capacidad discriminativa de profunda
convolucional. red neuronal. VGG, Inicio y residual El apren-
dizaje se propone entrenar neuronales muy profundos. redes
Profundidad estocstica, Normalizacin por lotes y Dropout
explotan la regularizacin para la convergencia y evitando el
sobreajuste y la degradacin. humano. estimacin de la postura. Estas tareas motivan a
La atencin suave desarrollada en trabajos recientes puede los investigadores. para explorar la estructura con mapas de
ser Capacitado de extremo a extremo para red convolucional. caractersticas de grano fino. los Los marcos tienden a hacer
Nuestro Residual Atencin a la red incorpora la atencin suave una cascada de abajo hacia arriba y de arriba hacia abajo.
en desarrollo rpido de la estructura de la red feedforward estructura. La estructura de avance hacia abajo produce Mapas
en un innovador camino. Propuesta de mdulo de transfor- de caractersticas de baja resolucin con informacin semntica
mador espacial reciente logra resultados de vanguardia en fuerte. Despus de eso, una red de arriba a abajo produce carac-
el reconocimiento de nmeros de casa tarea. Un mdulo de tersticas densas. a inferencia en cada pxel. Se utiliza la conexin
red profunda que captura informacin superior Se utiliza para de salto entre los mapas de caractersticas inferior y superior
generar transformaciones afines. El afn La transformacin se y logrado Resultados de ltima generacin en segmentacin de
aplica a la imagen de entrada para ser atendida. regin y imgenes. El reciente red de reloj de arena apilada fusiona
luego alimentar a otro mdulo de red profunda. los Se puede informacin de mltiples escalas para predecir la pose humana,
entrenar todo el proceso de extremo a extremo utilizando mto- y los beneficios de la codificacin de la informacin global y
dos diferenciables. Capa de red que realiza la transformacin local.
espacial. La atencin a la escala utiliza la atencin suave como
una seleccin de escala. Mecanismo y obtiene resultados de III. C ONJUNTO DE DATOS
vanguardia en la segmentacin de imgenes. tarea. ImageNet es un conjunto de datos de ms de 15 millones de
El diseo de la estructura de atencin suave en nuestra imgenes de alta resolucin etiquetadas que pertenecen a aprox-
Atencin Residual. La red est inspirada en el reciente desarrollo imadamente 22,000 las categoras Las imgenes se recolectaron
de la localizacin. Tarea orientada, es decir, segmentacin y de la web y fueron etiquetadas por etiquetadores humanos
utilizando la herramienta de Amazon. Mecnica herramienta nuestros nuevos experimentos, para Inception-v4 decidimos
de multitud de fuentes turcas. A partir de 2010, como parte arrojar este equipaje innecesario y hacer elecciones uniformes
del objeto visual de Pascal. Challenge, una competencia anual para los bloques de inicio para cada tamao de cuadrcula. Plase
llamada el desafo de reconocimiento visual a gran escala se refiere a Figura 9 para la estructura a gran escala de la red
de ImageNet (ILSVRC) se ha celebrado. ILSVRC utiliza un Inception-v4 y las Figuras 3, 4, 5, 6, 7 y 8 para la estructura
subconjunto de ImageNet con aproximadamente 1000 imgenes detallada de sus componentes. Todas las circunvoluciones no
en cada uno de 1000 categoras. En total, hay aproximadamente marcadas. con V en las figuras tienen el mismo relleno, lo que
1.2 millones de imgenes de entrenamiento, 50,000 imgenes significa que su cuadrcula de salida coincide con el tamao de
de validacin y 150,000 imgenes de prueba. ILSVRC-2010 es su entrada. Convoluciones marcados con ”V” son vlidos y
la nica versin de ILSVRC para la cual estn disponibles las rellenados, lo que significa que el parche de entrada de cada
etiquetas del conjunto de prueba, as que esto es La versin en unidad est completamente contenida en la capa anterior y la el
la que realizamos la mayora de nuestros experimentos. Desde tamao de cuadrcula del mapa de activacin de salida se reduce
que tambin entramos en nuestro modelo en La competencia en consecuencia.
ILSVRC-2012, en la Seccin 6, informamos nuestros resultados
en esta versin del conjunto de datos como Bueno, para el cual B. Bloques de inicio residual
las etiquetas de conjunto de prueba no estn disponibles. En Para las versiones residuales de las redes Inception, use
ImageNet, es habitual informar dos tasas de error: top-1 y bloques de inicio ms baratos que el inicio original. A cada
top-5, donde la tasa de error de top 5 es la fraccin de imgenes bloque inicial le sigue la capa de expansin de filtro. (1
de prueba para la cual la etiqueta correcta No se encuentra convolucin sin activacin) que se usa para ampliar la dimen-
entre las cinco etiquetas consideradas ms probables por el sionalidad del banco de filtros adems para que coincida con la
modelo. ImageNet consiste en imgenes de resolucin variable, profundidad de la entrada. Esto es necesario para compensar
mientras que nuestro sistema requiere una dimensionalidad de la reduccin de dimensionalidad inducida por el Bloque de
entrada constante. Por lo tanto, muestreamos las imgenes a una inicio. Probamos varias versiones de la versin residual de
resolucin fija de 256 256. Dado un En una imagen rectangular, Inception. Slo dos de ellos se detallan aqu. El primero un
primero ajustamos el tamao de la imagen de modo que el Inception-ResNet-v1 aproximadamente el costo computacional
lado ms corto tuviera una longitud de 256, y luego recort de Inception-v3, mientras que Inception-ResNet-v2 coincide
el parche central de 256 256 de la imagen resultante. No con la Costo bruto de la recin introducida red Inception-
procesamos previamente las imgenes. de cualquier otra man- v4. Otra pequea diferencia tcnica entre nuestros residuos.
era, excepto para restar la actividad media sobre el conjunto Y variantes de inicio no residuales es que en el caso de
de entrenamiento de cada pxel. Asi que entrenamos nuestra Inception-ResNet, usamos la normalizacin por lotes solo en
red en los valores RGB sin procesar (centrados) de los pxeles. la parte superior de las capas tradicionales, pero no encima
de las sumas. Es razonable esperar que un uso completo de
IV. A RQUITECTURAS
la normalizacin por lotes debera ser ventajoso, pero queramos
A. Bloques Incepcin Pura que mantenga cada modelo de rplica entrenable en una sola
Nuestros modelos Inception ms antiguos solan ser entre- GPU. Result que la huella de memoria de las capas con gran
nados en una particin , donde cada rplica fue particionada activacin El tamao consuma una cantidad desproporcionada de
en Mltiples sub-redes para poder adaptarse a la totalidad del memoria GPU. Al omitir la normalizacin de lotes encima de
modelo en la memoria. Sin embargo, la arquitectura de inicio esas capas, pudimos aumentar el nmero total de los bloques
es muy optimizable, lo que significa que hay muchos posibles de inicio sustancialmente. Esperamos que con mejor Utilizacin
cambios en el nmero de filtros en las distintas capas que No de los recursos informticos, haciendo esta compensacin. ser
afectar la calidad de la red totalmente capacitada. En Para innecesario.
optimizar la velocidad de entrenamiento, solamos afinar el
tamaos de capa cuidadosamente para equilibrar el clculo entre V. R ESULTADOS E XPERIMENTALES
Las diversas subredes modelo. En contraste, con el Introduccin Primero observamos la evolucin del error de validacin top-
de TensorFlow nuestros modelos ms recientes pueden ser 1 y top-5. De las cuatro variantes durante el entrenamiento,
Entrenados sin particionar las rplicas. Esto est habilitado en despus del experimento que se llev a cabo, hemos encon-
parte de las recientes optimizaciones de memoria utilizadas trado que nuestra continua La evaluacin se realiz en un
por backpropagation, logrado cuidadosamente considerando subconjunto del conjunto de validacin. que omiti alrededor
qu tensores son necesarios para el clculo de gradientes y de 1700 entidades de la lista negra debido a la mala cajas
la estructuracin de las Tacin para reducir el nmero de tales delimitadoras. Result que la omisin debera slo se han realizado
tensores. Histricamente, nosotros Han sido relativamente con- para el punto de referencia CLSLOC, pero Produce nmeros
servadores sobre el cambio de la arquitectura opciones y un tanto incomparables (ms optimistas). en comparacin con
restringido nuestros experimentos para variar componentes otros informes, incluidos algunos informes anteriores por
aislados de la red, manteniendo el resto de la red estable nuestro equipo. La diferencia es de alrededor de 0.3error y
No simplificar las elecciones anteriores dio lugar a Redes alrededor de 0.15Las diferencias son consistentes, pensamos
que parecan ms complicadas de lo que necesitaban. ser. En la comparacin entre las curvas son justas. Por otro lado, hemos
Fig. 1. Evolucin de los errores de Inception-v3 Fig. 3. Evolucin de los errores de Inception-v4
Fig. 4. Errores top-1 del entrenamiento de la red Inception-v4

Fig. 2. Errores top-1 del entrenamiento de la red Inception-v3
Inception que utilizan conexiones residuales en lugar de la

vuelto a ejecutar nuestro multi-cultivo y conjunto resultados concatenacin del filtro.
en el conjunto completo de validacin que consiste en 50000
VI. C ONCLUSIONES
imagenes. Tambin se realiz el resultado final del conjunto.
en el conjunto de prueba y enviado al servidor de prueba Hemos presentado tres nuevas arquitecturas de red en de-
ILSVRC para validacin para verificar que nuestra afinacin no talle: Inception-ResNet-v1: una versin hbrida de Inception que
dio lugar a una excesivo Nos gustara hacer hincapi en que esta tiene un costo computacional similar a Inception-v3 desde
validacin final Se realiz solo una vez y hemos enviado nuestros Inception-ResNet-v2: una versin de inicio hbrida ms cos-
resultados solamente. dos veces en el ltimo ao: una vez para tosa con un rendimiento de reconocimiento significativamente
el documento Inicial de BN y ms tarde durante la competicin mejorado. Inception-v4: una variante pura de inicio sin resid-
CLSLOC ILSVR-2015, por lo que cree que los nmeros de ual conexiones con aproximadamente el mismo rendimiento de
conjunto de prueba constituyen una estimacin verdadera de reconocimiento como Inception-ResNet-v2. Estudiamos cmo
las capacidades de generalizacin de nuestro modelo. la introduccin de conexiones residuales. lleva a una velocidad
Finalmente, presentamos algunas comparaciones, entre de entrenamiento dramticamente mejorada para el inicio arqui-
varias Versiones de Inception y Inception-ResNet. Los mod- tectura. Tambin nuestros ltimos modelos (con y sin conexiones
elos Inception-v3 y Inception-v4 son una red de convolucin residuales) superan a todas nuestras redes anteriores, solo en
profunda virtud del aumento del tamao del modelo.
Red Top-1 Error Top-5 Error R EFERENCES
BN-Inception 25.2% 7.8%
[1] G. Eason, B. Noble, and I. N. Sneddon, “On certain integrals of
Inception-v3 21.2% 5.6% Lipschitz-Hankel type involving products of Bessel functions,” Phil.
Inception-ResNet-v1 21.3% 5.5% Trans. Roy. Soc. London, vol. A247, pp. 529–551, April 1955.
Inception-v4 20.0% 5.0% [2] J. Clerk Maxwell, A Treatise on Electricity and Magnetism, 3rd ed., vol.
2. Oxford: Clarendon, 1892, pp.68–73.
Inception-ResNet-v2 19.9% 4.9% [3] I. S. Jacobs and C. P. Bean, “Fine particles, thin films and exchange
anisotropy,” in Magnetism, vol. III, G. T. Rado and H. Suhl, Eds. New
con trabajos que no utilizan conexiones residuales mientras York: Academic, 1963, pp. 271–350.
que ResNet-v1 y Inception-ResNet-v2 son redes de estilo [4] K. Elissa, “Title of paper if known,” unpublished.
[5] R. Nicole, “Title of paper with only first word capitalized,” J. Name
Stand. Abbrev., in press.
[6] Y. Yorozu, M. Hirano, K. Oka, and Y. Tagawa, “Electron spectroscopy
studies on magneto-optical media and plastic substrate interface,” IEEE
Transl. J. Magn. Japan, vol. 2, pp. 740–741, August 1987 [Digests 9th
Annual Conf. Magnetics Japan, p. 301, 1982].
[7] M. Young, The Technical Writer’s Handbook. Mill Valley, CA: Univer-
sity Science, 1989.
[8] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S.
Corrado, A. Davis, J. Dean, M. Devin, S. Ghemawat, I. Goodfellow,
A. Harp, G. Irving, M. Isard, Y. Jia, R. Jozefowicz, L. Kaiser, M.
Kudlur, J. Levenberg, D. Mane, R. Monga, S. Moore, D. Murray,
C. Olah, M. Schuster, J. Shlens, B. Steiner, I. Sutskever, K. Talwar,
P. Tucker, V. Vanhoucke, V. Vasudevan, F. Viegas, O. Vinyals, P.
Warden, M.Wattenberg, M.Wicke, Y. Yu, and X. Zheng. Tensor- Flow:
Large-scale machine learning on heterogeneous systems, 2015. Software
available from tensorflow.org.
[9] J. Dean, G. Corrado, R. Monga, K. Chen, M. Devin, M. Mao, A.
Senior, P. Tucker, K. Yang, Q. V. Le, et al. Large scale distributed deep
networks. In Advances in Neural Information Processing Systems, pages
12231231, 2012.
[10] C. Dong, C. C. Loy, K. He, and X. Tang. Learning a deep convolutional
network for image super-resolution. In Computer VisionECCV 2014,
pages 184199. Springer, 2014.
[11] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hi-
erarchies for accurate object detection and semantic segmentation. In
Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), 2014.

Paper Clasificación de Imágenes-Obregón

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Paper Clasificación de Imágenes-Obregón

Enviado por

Direitos autorais:

Formatos disponíveis

Clasificacion de dibujos a mano usando Redes

Fig. 4. Errores top-1 del entrenamiento de la red Inception-v4

Inception que utilizan conexiones residuales en lugar de la

Você também pode gostar