Você está na página 1de 52

Instituto Tecnológico Superior de Teziutlán

INSTITUTO TECNOLÓGICO SUPERIOR DE

TEZIUTLÁN

TEMA:

“INTELIGENCIA ARTIFICIAL: REDES NEURONALES”

PRESENTA:

DANIEL GONZÁLEZ MORALES

MATERIA:

FUNDAMENTOS DE INVESTIGACIÓN

CARRERA:

ING. SISTEMAS

GRADO Y GRUPO:

2° “B”

AULA: 3

TEZIUTLÁN, PUE., 29 DE MAYO DE 2010


Daniel Gonzá lez Morales Pá gina 0
Instituto Tecnológico Superior de Teziutlán

ÍNDICE

1. Introducción……………………………………………………………….(2)
2. Planteamiento…………………………………………………………….(3)
3. Justificación……………………………………………………………….(3)
4. Objetivos…………………………………………………………………..(3)
5. Definición de I.A.…………………………………………………………(4)
6. El nacimiento de I.A……………………………………………………..(5)
7. El regreso de las redes neuronales …………………………………...(5)
8. I.A. se convierte en ciencia. …………………………………………….(6)
9. Memoria y aprendizaje…………………………………………………..(7)
9.1. Memoria y aprendizaje desde un punto de vista fisiológico……(9)
9.2. La memoria del hombre…………………………………………….(10)
9.3. La física estadística y el cerebro………………......................... (12)
10. Redes neuronales……………………………………………………. (13)
10.1. Definición de neurona…………………………. …..........(13)
10.2. Unidades en redes neuronales…………………………….(15)
10.3. Estructuras de las redes…………………………………….(17)
10.4. Redes neuronales de una sola capa………………….......(19)
10.5. Redes neuronales multicapa……………………………….(22)
10.6. Aprendizaje de la estructura de las redes neuronales.....(24)
11. Computadoras neuronales…………………………............................(25)
12. Aplicaciones de las redes neuronales………………………………....(29)
12.1. Bibliometría……………………………………………...........(29)
12.2. Análisis de datos………………………………………… (35)
12.3. Psicología………………………………………………….... (43)
12.4. Video juegos…………………………………………………..(45)
13. Conclusión……………………………………………………………......(50)
14. Bibliografía /referencias………………………………………………....(51)

Daniel Gonzá lez Morales Pá gina 1


Instituto Tecnológico Superior de Teziutlán

1. INTRODUCCIÓN

Desde la creación de las computadoras el hombre siempre ha querido


crear maquinas que imiten el comportamiento humano en toda su
totalidad. En este proyecto de investigación se abordara especialmente
los temas de la inteligencia artificial que son el aprendizaje y las redes
neuronales y sus aplicaciones.

En esta investigación fue exclusivamente documental, se buscaron


primordialmente fuentes fidedignas como son libros especializados con el
tema de dicha investigación, además se amplio la investigación con
complementos como son artículos y tesis para tener una forma de
compresión mas detallada sobre el tema.

El documento esta estructurado con 7 temas principales y con sus


correspondientes subtemas, los temas de más interés es el de la
aplicación de las redes neuronales y el de las computadoras neuronales;
por su contenido en forma de expresar los logros que ha tenido las redes
neuronales.

La razón por la que se escogieron los temas como inteligencia artificial y


memoria y aprendizaje es porque no se puede abordar el tema de redes
neuronales si no se conocen sus fundamentos y que rama de la ciencia
pertenecen.

Además contiene como todo proyecto de investigación su planteamiento,


objetivos, justificación, marco teórico, conclusión y bibliografía.

Con toda esta información recabada se espera que la investigación de


redes neuronales cumpla con los objetivos planteados y se espera que
sea primordialmente del agrado del lector.

Daniel Gonzá lez Morales Pá gina 2


Instituto Tecnológico Superior de Teziutlán

2. PLANTEAMIENTO

El problema consiste en que la mayoría de los profesionistas o


estudiantes que tienen que ver con el campo de la tecnología
computacional y la robótica no conocen que la inteligencia artificial es
un área con muchas posibilidades de desarrollo ya que la inteligencia
artificial es una ciencia emergente, donde podemos aportar varios
conocimientos para el desarrollo integral de dicha ciencia.

3. JUSTIFICACIÓN

El llevar a cabo esta investigación es porque la inteligencia artificial me


parece uno de los temas más atrayentes y más apasionantes
(especialmente las redes neuronales) dentro de la tecnología de la ciencia
computacional, en donde el autor de esta investigación quisiera
desempeñarse. En cuestión académica es importante conocer (sobretodo
para los estudiantes de semestres más bajos) que conocimientos
debemos tener para poder entender la inteligencia artificial.

4. OBJETIVOS

Los objetivos de esta investigación son:

1. Conocer los diferentes tipos de redes neuronales que existen.


2. Conocer las diferentes ramas en las que son aplicadas las redes
neuronales.
3. Entender como las redes neuronales son tomadas de la naturaleza
biológica.
4. Enfocar el proceso de aprendizaje a las redes neuronales.
5. Saber cuales son las áreas donde se aplican las redes neuronales.

Daniel Gonzá lez Morales Pá gina 3


Instituto Tecnológico Superior de Teziutlán

MARCO TEÓRICO

6. DEFINICIÓN DE INTELIGENCIA ARTIFICIAL.

La inteligencia artificial es una de las áreas donde un ingeniero en


sistemas computacionales puede desarrollarse ampliamente, pero esto
viene hacerse la pregunta; ¿Qué es la inteligencia artificial? La verdad
muchos especialistas no se ponen de acuerdo algunas de estas
definiciones son las siguientes:

1. “Es el arte de desarrollar maquinas con capacidad para realizar


funciones que cuando son realizadas por personas requieren de la
inteligencia”. (Kursweil, 1990)
2. “El nuevo y excitante esfuerzo de hacer que las computadoras
piensen… maquinas con mentes, en el más sentido amplio de la
palabra”. (Haugeland, 1985)
3. “Es el estudio de las facultades mentales mediante el uso de
modelos computacionales “. (Charniak y McDermott,1985)
4. “La inteligencia artificial… esta relacionada con conductas
inteligentes en artefactos”. (Nilsson,1998)
5. “la automatización de actividades que vinculamos con procesos de
pensamiento humano, actividades como la toma de decisiones,
resolución de problemas, aprendizaje…”(Bellman,1978)
6. “El estudio de cómo lograr que las computadoras realicen tareas
que, por el momento, los humanos hacen mejor”. (Rich y Knight,
1991)
7. “El estudio de los cálculos que hacen posible, percibir, razonar y
actuar “. (Winston ,1992)
8. “La inteligencia computacional es el estudio del diseño de agentes
inteligentes”.(Poole et al,1998)

La relación que podemos ver de estas definiciones es que se refieren a


procesos mentales, razonamiento y a la conducta.

Daniel Gonzá lez Morales Pá gina 4


Instituto Tecnológico Superior de Teziutlán

7. EL NACIMIENTO DE LA INTELIGENCIA ARTIFICIAL

Warren McCulloch y Walter Pitts (1943) son los autores reconocidos del
primer trabajo enfocado a la I.A. Estos personajes, partieron de tres
áreas: conocimientos sobre la fisiología básica y funcionamiento de las
neuronas en el cerebro, el análisis formal de la lógica proposicional de
Russell y Whitehead y la teoría de computación de Turing. Propusieron un
modelo constituido por neuronas artificiales, en el que cada una de ellas
se caracterizaba por estar activada o desactivada; la activación se daba
como la respuesta de estimulación producida por una cantidad suficiente
de neuronas vecinas.

Unos años después. Dos estudiantes graduados en el departamento de


Matemáticas de Princeton, Marvin Minsky y Dean Edmonds, construyeron
el primer computador a partir de una red neuronal en 1951. Lo llamaron
SNARC, utilizaba unas 300 válvulas de vacío y un mecanismo de piloto
automático obtenido de los desechos de un avión bombardero B-24.

Posteriormente apareció otro personaje John McCarthy, él convenció a


Minsky, Claude Shannon y Roschester para que le ayudaran aumentar el
interés de los investigadores americanos en la teoría de los autómatas,
las redes neuronales y el estudio de la inteligencia. Organizaron un taller
en el verano de 1956. Dicho taller no produjo un avance notable, pero
puso en contacto a las figuras importantes de este campo. Durante 20
años este campo estuvo dominado por dichos personajes. Quizá lo último
que surgió del taller fue el consenso en adoptar el nombre propuesto por
McCarthy para el nuevo campo: Inteligencia Artificial.

8. REGRESO DE LAS REDES NEURONALES

La informática había olvidado del todo las redes neuronales a finales de


los 70´s, pero el trabajo continúo en otras áreas del quehacer humano.

Daniel Gonzá lez Morales Pá gina 5


Instituto Tecnológico Superior de Teziutlán

Con el Físico John Hopfield (1982) usaron técnicas de la mecánica


estadística para analizar las propiedades de almacenamiento y
optimización de las redes, pero en vez de usar colecciones nodos usaron
colecciones de átomos. Psicólogos como David Rumelhart y Geoff Hinton
continuaron con el estudio de modelos de memoria basados en redes
neuronales, la contribución mas fuerte en la década de los 80, cuando 4
grupos reinventaron el algoritmo de aprendizaje de retroalimentación,
mencionado por Bryson y Ho (1969). Este algoritmo se aplico para
diversos problemas de aprendizaje en los campos de la Informática y la
Psicología.

9. LA INTELIGENCIA ARTIFICIAL SE CONVIERTE EN


CIENCIA

En los últimos años se ha producido una revolución tanto en el contenido


como en la metodología de trabajo en le campo de la inteligencias
artificial. Actualmente es más usual el desarrollo sobre teorías ya
existentes que proponer teorías totalmente novedosas, tomar como base
rigurosos teoremas o solidas evidencias experimentales más que
intuición, y demostrar la utilidad de las aplicaciones en el mundo real.

La IA se fundó en parte en le marco de la rebelión en contra de las


limitaciones de los campos existentes como la teoría de control o la
estadística, y ahora abarca estos campos. En términos metodológicos, se
puede decir, que la IA ya forma parte del ámbito de los métodos
científicos. Para que se acepten, las hipótesis se deben de someter a
rigurosos experimentos empíricos, y los resultados deben de analizarse
estadísticamente para identificar su relevancia (Cohen, 1995). El uso de
Internet y compartir repositorios de datos de prueba y código, han hecho
posible que ahora se puedan realizar experimentos.

La mayor parte del trabajo realizado con redes neuronales se realizó con
la idea de dejar a un lado lo que se podía hacer y de descubrir en que se

Daniel Gonzá lez Morales Pá gina 6


Instituto Tecnológico Superior de Teziutlán

diferenciaban las redes neuronales de otras técnicas “tradicionales”. La


utilización de metodologías mejoradas y marcos teóricos, ha autorizado
que este campo alcance un grado de conocimiento que ha permitido que
ahora las redes neuronales se puedan comparar con otras técnicas
similares de campos como la estadística, el reconocimiento de patrones y
el aprendizaje autómata.

10. MEMORIA Y APRENDIZAJE

A lo largo de la historia han sido propuestas muchas teorías que


intentan explicar los mecanismos de almacenamiento y remembranza.
Por ejemplo hace algunos años se propuso la teoría de que la información
se almacenaba codificada en una secuencia de molécula, de una manera
similar al modo en que la información genética se almacenaba en las
moléculas de ácido desoxirribonucleico (ADN). Para probar esta teoría se
usaron varios experimentos que consistían en entrenar animales de una
cierta manera y después moler sus cerebros para examinar si estas
enseñanzas habían producido cambios químicos en ellos. Otros
experimentos consistían en utilizar como alimentos los cerebros de
animales entrenados, para después tratar de encontrar habilidades
“estadísticamente significativas” en otros animales alimentados con éstos.
Pero la teoría tuvo que ser rechazada debido a que no se encontraban
evidencias que la apoyaran.

Las neuronas son células altamente especializadas y se distinguen de


otros tipos de células, entre otras cosas porque son capaces de generar
y transmitir señales eléctricas. Sin embargo, son regidas por las mismas
leyes de la naturaleza que las células de los otros tejidos. Las señales
que producen y transmiten las neuronas se pueden medir, registrar e
interpretar, de manera que resulta natural pensar que el funcionamiento
del cerebro puede estudiarse al igual que cualquier otra parte del cuerpo
humano. Pero entonces, ¿En qué momento es que la mente adquiere

Daniel Gonzá lez Morales Pá gina 7


Instituto Tecnológico Superior de Teziutlán

capacidades como las de la imaginación, la creatividad, el aprendizaje, la


memorización, etc., que parecen no estar localizadas en ninguna parte del
cerebro? A falta de una mejor respuesta e estas preguntas, en muchas
civilizaciones, y desde épocas muy antiguas, se ha recurrido a ideas
como la de la existencia del alma. En el diccionario encontramos las
siguientes definiciones:

Memoria. Potencia intelectual del alma por medio de la cual se retiene y


recuerda lo pasado.

Mente. Potencia intelectual del alma.

Sin embargo aunque atribuir estas funciones a un alma es una de las


repuestas mas fáciles, pero dicha respuesta no tiene una fundamentación
científica y por lo tanto, aceptarla o rechazarla viene a ser un acto de fe y
no resuelve el problema.

Ahora formulando las siguientes preguntas ¿Cómo es posible que un


grupo de células cuya función primordial puede resumirse en la
generación y transmisión de señales eléctricas, sea capaz de procesar y
almacenar información?, ¿De qué manera puede ser útil conocer en
detalle los procesos que se llevan a cabo en cada neurona para entender
el funcionamiento de la mente?, ¿Qué tan relevantes son los detalles
estructurales del cerebro con respecto a estas funciones? Por otro lado
¿Es posible reducir cualquier función mental a una colección de señales
eléctricas, reacciones químicas, etc.? De ser así ¿Es posible la
construcción de maquinas que lleven acabo eficazmente las mismas
funciones que nosotros?, y en caso de que la respuesta sea negativa, ¿se
deberá esto a limitaciones tecnológicas, o de carácter fundamental?

La separación entre la Física y la Neurobiología, contribuyo a que los


físicos creyesen construir una teoría del comportamiento del cerebro. Sin
embargo, esta creencia se ha ido modificando gradualmente, y en los
últimos 25 años los aspectos del aprendizaje y la memoria se han
empezado a estudiar desde un punto de vista de la física estadística. Por

Daniel Gonzá lez Morales Pá gina 8


Instituto Tecnológico Superior de Teziutlán

otro lado las matemáticas han tenido un desarrollo importante en años


recientes, en cuanto han empezado a lidiar con sistemas cuyas
características son no-linealidad, no-localidad y no- estacionalidad. Los
recursos obtenidos por estas nuevas teorías son prometedores, pues
aunque apenas representan un entendimiento cualitativo de algunos de
los procesos mas elementales que tienen lugar en el cerebro, este
enfoque ha dado a luz muchas cosas antes desconocidas por completo y
nos han mostrado una nueva dirección para continuar la búsqueda.

A. MEMORIA Y APRENDIZAJE DESDE EL PUNTO DE


VISTA FISIOLÓGICO

Si aceptamos el comportamiento colectivo de las células de nuestro


cerebro es el responsable de todas nuestras capacidades mentales, de
nuestras emociones, gustos intereses, habilidades, recuerdos, etc.,
entonces la siguiente pregunta seria, ¿Cuáles son los mecanismos
responsables de ellas?, y en particular, ¿Cuáles son los mecanismos
responsables de la memoria y del aprendizaje? Antes de responder esta
pregunta es mejor analizar cuales son los tipos fisiológicos que como
humanos contamos.

En la investigación del cerebro se han utilizado todos los recursos


posibles. Así, el estudio de organismos simples ha ayudado a
comprender, a nivel celular, la manera en que se lleva a cabo el
aprendizaje. Por otro lado, el estudio comparativo en animales de
diferentes especies han permitido observar que algunos procesos
neuronales tienen características comunes a todos estos sistemas. Por
ejemplo parece que las neuronas y sinapsis del hombre son muy
parecidas a las neuronas y sinapsis de organismos simples; esto nos dice
que no existen grandes diferencias en su estructura, su química y sus
funciones. Por otro lado, no es posible diferenciar entre distintos tipos de
neuronas de un mismo individuo, o aun entre neuronas pertenecientes a

Daniel Gonzá lez Morales Pá gina 9


Instituto Tecnológico Superior de Teziutlán

individuos de especies diferentes, viendo tan solo el registro de un


impulso nervioso de estas.

b. LA MEMORIA DEL HOMBRE

A partir de su nacimiento el hombre tiene que aprender una gran cantidad


de cosas, que van desde el control voluntario de cada una de las partes
de su cuerpo, hasta el desarrollo de su percepción, de la adquisición del
sentido común, de las cultura, de las reglas de carácter social, religioso.
Todos estos conocimientos fundamentales para su sobrevivencia. La
memoria, el aprendizaje y el olvido, son procesos acumulativos que
implican un cambio conductual, o en la forma de pensar, durante cierto
tiempo. Sabemos muy poco acerca de los mecanismos que intervienen en
el proceso de memorización a nivel global. Sin embargo, a este nivel
celular sabemos que la memoria esta relacionada con modificaciones
anatómicas y/o funcionales sinápticas.

La mayoría de los neurobiólogos opinan que todas las disposiciones


humanas para tener sentimientos, emociones, pensamientos, etc.
Residen en los patrones de interconexión de las neuronas. Por tanto otra
parte de ciertos neuro-moduladores controla y modifica la eficiencia de la
sinapsis. Ahora es importante establecer un puente entre los mecanismos
de almacenamiento de la información a nivel celular y a nivel global en el
cerebro, esto es, encontrar los mecanismos de almacenamiento a un nivel
de organización más alto.

Existen evidencias de que en el hombre las funciones complejas del


cerebro, como el razonamiento abstracto, tienen lugar en la corteza
cerebral. Antiguamente se pensaba que el aprendizaje tenía lugar en
regiones limitadas y especificas de la corteza. De esta manera se
suponía, por ejemplo que los lóbulos frontales tenían un papel
fundamental en la memorización necesaria para resolver problemas. Sin
embargo se han encontrado que animales, a los cuales se les han
removido quirúrgicamente la totalidad de la corteza cerebral, si bien

Daniel Gonzá lez Morales Pá gina 10


Instituto Tecnológico Superior de Teziutlán

pierden su capacidad para aprender tareas complejas, continúan


manifestando cierta capacidad para ser condicionados.

Se encontró que en los humanos todas las partes de la corteza cerebral


son igualmente importantes para el aprendizaje. Al analizar el
comportamiento de individuos con lesiones en esta región del cerebro, se
descubrió que mientras mayor cantidad de corteza dañada, mayor es la
incapacidad posterior del individuo para memorizar y realizar tareas
complejas. Esto independientemente de la localización de la parte
afectada.

Sabemos que el cerebro existe la substitución funcional de unas neuronas


por otras, a diferentes niveles. Continuamente el número de nuestras
neuronas decrece, pues la neuronas no tienen capacidad de
reproducción. Sin embargo, la falta de un número pequeño de neuronas
con respecto al número total, no produce cambios apreciables en el
desempeño de la memoria. A otro nivel, se ha observado que la remoción
quirúrgica de una parte de los lóbulos temporales, practicada para
controlar la epilepsia, puede producir problemas de memoria. cuando esta
remoción se practica únicamente en el lóbulo dominante, el paciente
puede tener problemas para aprender de nuevo el material verbal hasta
por tres años después de la cirugía. Esto es aunque hay perdida de
material almacenado, con el tiempo se logra la sustitución funcional de
una neuronas por otras y el material puede rea prendido. Por supuesto, el
grado de recuperación depende del tamaño del área afectada.

Los argumentos anteriores nos sugieren lo siguiente:

 El aprendizaje se lleva a cabo fundamentalmente en la corteza


cerebral

Daniel Gonzá lez Morales Pá gina 11


Instituto Tecnológico Superior de Teziutlán

 El aprendizaje no es una función exclusiva ni de la corteza, ni de


las regiones particulares de ésta

El cerebro esta formado por un número muy grande de neuronas. Se


considera que este tipo es el orden de 10E11 células, y que en promedio
cada una de ellas recibe o envía información de otras 10E4 células. De
esta manera que el número total de conexiones en el cerebro debe ser del
orden de 10E15. Se cree que dentro de esta maraña de conexiones, los
caminos principales de comunicación se encuentran predeterminados por
la herencia, de manera que las extensiones neuronales crecen durante la
gestación hasta aquellos lugares donde posteriormente serán requeridas
después del nacimiento, de manera que el tamaño y estructura de la red
cambia radicalmente continua, durante la vida de los individuos. Esta
programación, que se consigue después del nacimiento, esta relacionada
con el aprendizaje y una parte importante tienen relación con la memoria.
Básicamente tiene lugar a través de dos mecanismos:

1. La modificación de las estructuras interconexión


2. Cambio de la eficacia de la sinapsis.

C. LA FÍSICA ESTADÍSTICA Y EL CEREBRO

El cerebro humano es de una gran complejidad; se trata del sistema más


complejo que conocemos en la naturaleza. Sin embargo, si la física
estadística ha de ser exitosa en su tarea de describir algunos aspectos
colectivos de funcionamiento del cerebro, como el almacenamiento y
llamado de información, necesita proporcionar un modelo con las
características siguientes: debe describir el cerebro o alguna sub-parte de
éste de la manera más sencilla posible, y ha de ser capaz de captar los
ingredientes fundamentales responsables de llevar a cabo los procesos
que nos ocupan. Esto es, se necesita de un modelo simple que prediga, a

Daniel Gonzá lez Morales Pá gina 12


Instituto Tecnológico Superior de Teziutlán

partir de las características individuales relevantes de un arreglo de


neuronas y de sus interacciones, un comportamiento colectivo con ciertas
características.

Desde hace algunos años, ha habido intentos por hacer modelos físicos
muy simples para describir algunos aspectos del cerebro. Estos modelos
se basan en el hecho de que el cerebro tiene un gran número de
neuronas, del orden de 1010 a 1011,22 y en que no es relevante la
contribución individual especifica de cada una de ellas. Por lo anterior, es
razonable suponer que debe haber un mecanismo colectivo involucrado
en las funciones que señalamos anteriormente; de ser así, parece
adecuado hacer un tratamiento probabilístico de la actividad neuronal.

En esta medida podríamos introducir un modelo muy simple, tomando de


la física estadística, para describir el comportamiento colectivo de un
conjunto muy grande de neuronas interconectadas. Aunque este modelo
es completamente inadecuado para explicar y predecir el comportamiento
de las neuronas a otros niveles, se ha encontrado que capta algunas
características fundamentales que permiten ver estos sistemas como
almacenes de información.

Al modelo que hacemos mención se basa en una analogía matemática


que puede ser establecida entre algunas características de una red de
neuronas interconectadas, y un tipo de de materiales magnéticos
denominados vidrios de spin

11. REDES NEURONALES


A. DEFINICIÓN DE NEURONA

Hasta ahora se ha dado algunos temas preliminares, porque si no se


hubiesen agregado a esta investigación quizá el lector no pueda
comprender lo que es en si una red neuronal. También se ha dado

Daniel Gonzá lez Morales Pá gina 13


Instituto Tecnológico Superior de Teziutlán

definiciones de lo que es una neurona, pero una definición mas formal es


la siguiente:

Una neurona es una celda del cerebro cuya función principal es la


recogida, procesamiento y emisión de señales eléctricas. Se piensa que
la capacidad de procesamiento de información del cerebro proviene
principalmente de redes de este tipo de neuronas. Por esta razón algunos
de los primeros trabajos en IA pretendían crear redes neuronales
artificiales (también conocidas como conexionismo, procesamiento
distribuido paralelo y computación neuronal). Desde otra perspectiva,
la neurona se “dispara” cuando una combinación lineal de sus entradas
excede un determinado umbral (punto donde se nota el efecto). Desde
1943 se han desarrollado modelos más realistas y detallados, tanto para
neuronas como para sistemas más grandes del cerebro, llevándonos al
campo moderno de la neurociencia computacional. Por otro lado los
investigadores de IA y de estadística han tenido un mayor interés en las
propiedades más abstractas de las redes neuronales, tales como su
habilidad para el desarrollo computacional distribuida, para tolerar el ruido
de la entrada y el aprendizaje. Aunque ahora comprendemos que otras
clases de sistemas tienen estas propiedades, las redes neuronales
permanecen como una de las formas más populares y efectivas de
construir sistemas de aprendizaje.

α i=g´ (¿i )
α 0=1
W 0 , i=1
∫ g
∑¿i

αi

W j ,i
aj

Conexiones de Función de la Función de Salida Conexiones de


las entradas entrada activación salidas

Un modelo matemático sencillo para neurona


Daniel Gonzá lez Morales Pá gina 14
Instituto Tecnológico Superior de Teziutlán

B. UNIDADES EN REDES NEURONALES

Las redes neuronales están compuestas de nodos o unidades


conectadas a través de conexiones dirigidas. Una conexión de la unidad j
a la unidad i sirve para propagar la activación a j de j a i. además cada
conexión tiene un peso numérico W j ,i asociado, que determina la fuerza y
el signo de la conexión. Cada unidad i calcula una suma ponderada de
sus entradas:

n
¿i =∑ W j ,i a j
j=0

Luego aplica una función de activación g a esta suma para producir la


salida:

a i=g ( ¿i )=g ¿)

La función de activación g se diseña con dos objetivos. Primero,


queremos que la unidad este activa (cercana a+1) cuando se
proporcionen las entradas correctas, e inactiva (cercana a 0) cuando se
den las entradas erróneas. Segundo la activación tiene que ser no lineal,
en otro caso la red neuronal en su totalidad se colapsaría con una
sencilla función lineal. En la figura se muestran dos posibles funciones g:
la función umbral y la función sigmoide. La función sigmoide tiene una
gran ventaja de poderla diferenciar, es importante para el algoritmo de
aprendizaje de los pesos.

Daniel Gonzá lez Morales Pá gina 15


Instituto Tecnológico Superior de Teziutlán

Función de activación umbral

Podemos asemejar la operación de las unidades individuales a puertas


lógicas. Una de las motivaciones originales para el diseño de unidades
individuales fue su habilidad de presentar funciones booleanas básicas

ANDw 0=1.5,

w 1=1., w 2=1,

OR w 0=0.5 , w 1=1
w 2=1

NOT w 0=0.5 , w 1=1

Las unidades con una función de activación umbral pueden actuar como
puertas lógicas, con entradas y peso de sesgo apropiados.

Daniel Gonzá lez Morales Pá gina 16


Instituto Tecnológico Superior de Teziutlán

C. ESTRUCTURA DE LAS REDES

Hay dos categorías principales de estructuras de redes neuronales que


son a cíclicas o redes de alimentación hacia delante y cíclicas o redes
recurrentes.

Las redes con alimentación hacia delante representan una función de sus
entradas actuales; de este modo no tiene otro estado interno que no sea
de sus propios pesos. Por otro lado, las redes recurrentes dejan que sus
salidas alimentes sus propias entradas. Esto significa que los niveles de
activación de una red forman un sistema dinámico que debe de alcanzar
un estado estable, exhibir oscilaciones o incluso un comportamiento
caótico. Además, la respuesta de la red dada unas entradas depende de
su estado inicial, que dependerá de entradas previas. Por lo tanto las
redes recurrentes (a diferencia de las redes con alimentación hacia
delante) pueden tener memoria a corto plazo. Esto las hace mas
interesantes como modelos del cerebro, pero también mas difíciles de
entender.

Ahora bien, si la afirmación que dice que una red con alimentación hacia
delante representa una función de sus entradas. (Figura) consideremos
una red que tiene dos unidades de entrada, dos unidades ocultas y una
unidad de salida. Dado un vector de entrada x= ( x 1 , x 2), las activaciones
de las unidades de entrada se ponen a (a 1 , a2=x 1 , x 2 y la red calcula esto:

a 5=g ( W 3,5 a3 +W 4,5 a4 ) =g ¿))

Daniel Gonzá lez Morales Pá gina 17


Instituto Tecnológico Superior de Teziutlán

Red neuronal con dos entradas, una capa oculta de dos unidades y una sencilla

Lo que esta función nos quiere decir, es que expresa la salida de cada
unidad oculta como una función de sus entradas, hemos mostrado la
salida de la red como una suma, a 5, en función de sus entradas de la red.
Además, observamos que los pasos de la red actúan como parámetros
de la función; escribiendo W para los parámetro, la red. Esta es la manera
en que se produce el aprendizaje en las redes neuronales.

Una red neuronal se puede usar para clasificación o para regresión. Para
clasificaciones booleanas con entradas continuas, es tradicional tener una
única unidad de salida, con un valor por encima de 0.5 interpretando
como una clase y como un valor por debajo de 0.5 como otra. Para la
clasificación en k-clases, se pude dividir el rango de la unidad de salida en
k partes, pero es más común tener k unidades de salida separadas,
donde el valor de cada una representa la verosimilitud relativa de esta
clase dada una entrada actual.

Las redes neuronales con alimentación hacia delante normalmente se


organizan en capas de forma que cada unidad recibe entradas
únicamente de las unidades de la capa que la precede inmediatamente.

Daniel Gonzá lez Morales Pá gina 18


Instituto Tecnológico Superior de Teziutlán

D. REDES NEURONALES DE UNA SOLA CAPA CON


ALIMENTACIÓN HACIA DELANTE (PERCEPTRONES)

Una red con todas las entradas conectadas directamente a las salidas se
denominan red neuronal de una sola capa o red perceptrón. Ya que
cada unidad de salida es independiente de las otras (cada peso afecta
una sola de las salidas) para hacer una explicación más simple
hablaremos de perceptrones con una unidad de salida (figura).

Comencemos examinando el espacio de hipótesis que un perceptrón


puede representar. Con una función de activación de umbral, el
perceptrón puede representar una función booleana. Además de las
funciones booleanas elementales AND, OR y NOT, un perceptrón puede
representar algunas funciones booleanas un poco usuales de forma
compacta. Por ejemplo, la función mayoría, cuya salida es 1 sólo si más
de la mitad de sus n entradas están a 1, puede representarse con un
perceptrón con peso W j=1 y umbral W 0 =n/2. Para crear un árbol de
decisión necesitamos O(2n) nodos para representar esta función.

Desafortunadamente, si existen muchas funciones booleanas que el


perceptrón umbral no puede representar. Mirando la ecuación,
observamos que el perceptrón umbral devuelve 1 si y solo si la suma
ponderada de sus entradas (incluyendo los sesgos) es positiva:

∑ W j x j >0 o W ⋅ x >0
j=0

La ecuación W ⋅ x=0 define un hiperplano en el espacio de entrada, así


que el perceptrón umbral se denomina separador lineal. La figura
muestra un hiperplano para la representación mediante un perceptrón de
la funciones AND Y OR de dos entradas. Los puntos negros indican un
punto del espacio de entrada donde ele valor de la función es 1, y los
puntos blancos indican un punto donde el valor es 0. El perceptrón puede
representar estas funciones porque existe una recta que separa todos lo
puntos blancos de todos los puntos negros. A estas funciones se les

Daniel Gonzá lez Morales Pá gina 19


Instituto Tecnológico Superior de Teziutlán

denomina linealmente separables. La figura muestra un ejemplo de una


función que no es linealmente separable: la función XOR. Claramente, no
hay manera de que el perceptrón umbral aprenda esta función. En
general, los perceptrones umbral pueden representar solo funciones
linealmente separables. Estas constituyen sólo una pequeña fracción de
todas las funciones.

A pesar de su poder de expresividad limitada, los perceptrones umbral


tienen algunas ventajas. En particular, existe un algoritmo de aprendizaje
sencillo que ajusta un perceptrón umbral a cualquier conjunto de
entrenamiento que sea linealmente separable. En vez de presentar este
algoritmo, obtendremos un algoritmo muy relacionado para el aprendizaje
en perceptrones sigmoides.

La idea de algoritmos para aprendizaje de redes neuronales, es ajustar


los pesos de la red para minimizar alguna medida del error del que se
produce con el conjunto de entrenamiento. Así, el aprendizaje el
aprendizaje se formula como una búsqueda optimizada en el espacio de
pesos. La medida clásica del error es la suma de los errores cuadrados
que se usa en la regresión lineal. El error cuadrado para un único
ejemplo de entrenamiento con entrada x y valor verdadero de la salida y
es:

1 1
E= Er r 2 ≡ ¿
2 2

Donde h w ( x ) es la salida del perceptrón para el ejemplo e y es el valor real


de la salida.

El algoritmo completo se muestra en la figura… introduce en la red los


ejemplos de entrenamiento uno a uno, ajustando los pesos un poco
después de cada ejemplos para reducir el error. Cada ciclo con todos los
ejemplos se denomina época. Las épocas se repiten hasta que se
alcanza un criterio de parada. Otros métodos calculan el gradiente para el
conjunto total de entrenamiento añadiendo todas las contribuciones del

Daniel Gonzá lez Morales Pá gina 20


Instituto Tecnológico Superior de Teziutlán

gradiente en la ecuación (W j ← W j+ α × Err × g´ (¿)× x j ) antes de actualizar


los pesos. El método estocástico selecciona ejemplos aleatoriamente
del conjunto de entrenamiento en vez de hacer ciclos con ellos.

Hasta aquí se ha tratado a los perceptrones como funciones


determinísticas con salidas erróneas posibles. También es fácil interpretar
la salida de un perceptrón sigmoide como una probabilidad;
específicamente la probabilidad de que la salida verdadera de una dadas
las entradas. Con esta interpretación, se puede usar la sigmoide como
una representación canoníca para distribuciones condicionadas en redes
bayesianas

función APREDIZAJE-PERCEPTRON (ejemplos de red) devuelve perceptrón como hipótesis

entrada: ejemplos, un cojunto de ejemplos, cada uno con entrada x= x 1 , … , x n y salida y red,
un perceptrón con pesos W j , j=0… n, y función de activación g

repetir

para cada e en ejemplos hacer

in← ¿

Err← y [ e ] −g ( ¿ )

W j ← W j+ α × Err × g´ (¿)× x j [e ]

hasta que se satisfaga algún criterio de parada

devolver HIPOTESIS-RED- NEURONAS(RED)

El algoritmo de aprendizaje del descenso del gradiente para perceptrones, asumiendo una función de
activación g

E. REDES NEURONALES MULTICAPA CON


ALIMENTACIÓN HACIA DELANTE

Daniel Gonzá lez Morales Pá gina 21


Instituto Tecnológico Superior de Teziutlán

Ahora consideramos redes con unidades oculta. El caso mas común


supone una única capa oculta, como la figura. La ventaja de añadir capas
ocultas es que se amplia el espacio de hipótesis que puede representar la
re. Piense en cada unidad oculta como un perceptrón que representa una
función umbral suave en el espacio de entradas, como la figura.
Entonces, podemos pensar en una unidad de salida como una
combinación lineal con umbral suave de varias de estas funciones. Por
ejemplo, añadiendo dos funciones de umbral suave que se oponen y
pasando el umbral al resultado, podemos obtener una función “cresta”
(figura).

Combinando dos de estas crestas, haciendo un ángulo recto entre ellas


(es decir, combinando la salida de cuatro unidades ocultas), obtenemos
un “montículo” (figura).

Si queremos mas unidades ocultas, podemos producir mas montículos de


diferentes tamaños en mas lugares. De hecho con una única capa oculta
suficientemente grande, es posible representar cualquier función continua
de las entradas con una precisión arbitraria; con dos capas, incluso se
pueden representar funciones discontinuas. Desafortunadamente, para
una estructura de res determinada, es difícil caracterizar exactamente qué
funciones pueden ser representadas y cuales no.

Supongamos que queremos construir una red con una capa oculta de 10
entradas, la figura muestra la red.

Los algoritmos de aprendizaje para redes multicapa son similares al


algoritmo de aprendizaje de perceptrón. Una pequeña diferencia es que
podemos tener varias salidas, así que tenemos un vector de salida y. la
mayor diferencia es que , mientras que el error y-h w en la capa de salida
es claro, el error en las capas ocultas no se conoce, porque los datos de
entrenamiento no dicen cual es el valor que han tomando los nodos
ocultos. Resulta que podemos propagar hacia atrás el error desde la
capa de salida a las capas ocultas. El proceso de propagación hacia atrás

Daniel Gonzá lez Morales Pá gina 22


Instituto Tecnológico Superior de Teziutlán

proviene directamente a partir del gradiente del error total. El algoritmo es


el siguiente:

función APRENDIZAJE-PROP-ATRÁS(ejemplos, red)devuelve una red neuronal

entrada: ejemplos, un conjunto de ejemplos, cada uno con vector de entrada x y un vector de
salida y red, una red multicapa con L capas, pesos W j ,i función de activación g

repetir

para cada e en ejemplos hacer

para cada nodo j en la capa de entrada hacer a j ⟵ x j [e ]

para l=2 a M hacer

¿i ⟵ ∑ j W j ,i a j

ai ⟵ g ( ¿i )

para cada nodo i en la capa de salida hacer

△ i ⟵ g´ ( ¿i ) ⋉( y i [e ]−a i)

Para l=M −1a 1 hacer

Para cada nodo j en la capa l hacer

△ i ⟵ g´ ( ¿ j ) ∑i W j , i △ i

Para cada nodo i en la capa l +1 hacer

W j ,i ⟵W j ,i + α ⋉ α j ⋉ △ i

Hasta que se satisfaga algún criterio de parada

Devolver HIPOTESIS-RED-NEURONA(red)
El algoritmo de propagación hacia atrás para aprendizaje de redes multicapa

Daniel Gonzá lez Morales Pá gina 23


Instituto Tecnológico Superior de Teziutlán

F. APRENDIZAJE DE LAS ESTRUCTURA DE LAS


REDES NEURONALES

Necesitamos comprender como encontrar la mejor estructura de la red. Si


elegimos una red que es demasiado grande, será capaz de memorizar
todos los ejemplos formando una gran tabla de búsqueda, pero no
generalizará necesariamente bien para entradas que no se han visto
anteriormente. En otras palabras, como todos lo modelos estocásticos, las
redes neuronales son sujeto de sobre-ajuste cuando hay demasiados
parámetros en el modelo.

Si nos centramos en redes totalmente conectadas, las únicas elecciones


por las que nos podemos preocupar son el número de capas ocultas y su
tamaño. El enfoque mas usual es intentar varias y quedarnos con la
mejor. Se necesitan las técnicas de validación cruzada si queremos
evitar el peeking del mejor conjunto. Es decir elegimos la arquitectura de
la red que proporciona la mayor precisión de predicción en los conjuntos
de validación.

Si queremos considerar redes que no están conectadas en su totalidad,


necesitamos encontrar algún método de búsqueda efectivo a través de
gran espacio de topologías de posibles conexiones. El algoritmo de daño
cerebral óptimo (optimal brain damage) comienza con una red
totalmente conectada y va eliminando conexiones. Después de que la red
esta entrenada por primera vez, un enfoque teórico de información
identifica una selección optima de las conexiones que pueden ser
eliminadas. La red vuelve a entrenarse, y si su rendimiento no se ve en
descenso se repite el proceso. Además de la eliminación de conexiones,
también es posible eliminar unidades que no contribuyen mucho al
resultado.

Se han propuesto varios algoritmos para conseguir una red más grande,
aumentando una red más pequeña. Uno de estos algoritmos es el
algoritmo de Tiling, se parece al aprendizaje de listas de decisión. La idea

Daniel Gonzá lez Morales Pá gina 24


Instituto Tecnológico Superior de Teziutlán

es comenzar con una única unidad que se comporta de la mejor manera


posible para devolver la salida correcta par tantos ejemplos de
entrenamiento como sea posible. Se añaden más unidades para corregir
los ejemplos en los que la primera unidad falló. El algoritmo añade sólo
las unidades necesarias para cubrir todos los ejemplos.

12. COMPUTADORAS NEURONALES

La tecnología ha permitido “simular” redes neuronales mediante


programas que operan en computadoras convencionales. Esto es, se
hace se hace un programa en el que se definen los elementos base de
tipo neurona, y se supone una regla de aprendizaje; esta regla da un
valor para las interacciones entre las neuronas, como una función de los
datos administrados a la maquina. La rapidez de operación y la capacidad
obtenidas mediante el uso de estos programas son mucho menores que
las que se lograrían mediante el uso de una computadora neuronal (red
neuronal implementada en circuitos). Sin embargo aunque estos
programas son lentos, dan resultados mas satisfactorios que logrados con
algoritmos complicados. Por otro lado, constituyen una operación
económica con respecto a las computadoras con arquitectura neuronal,
ya que no es necesario comprar una computadora de uso especifico.

Un ejemplo concreto de la eficiencia de las redes neuronales nos lo dan


los programas cuyo propósito es la conversión de texto escrito a ingles
hablado (con ayuda de un sintetizador de voz). En este sentido el idioma
ingles presenta un gran reto, ya que aunque cuentan con muchas reglas
fonéticas, estas reglas tienen un gran número de excepciones y casos
particulares. Por otro lado, lo ideal seria que la computadora “lea de
corrido”, lo cual hace que se requiera gran rapidez del procesamiento de
la información. A l o largo de varios años, fue desarrollado un paquete de
software (para la computadora tradicional) llamado DECtalk. Este sistema,
aunque de mucha complejidad, fue capaz de llevar a cabo esta tarea de

Daniel Gonzá lez Morales Pá gina 25


Instituto Tecnológico Superior de Teziutlán

manera satisfactoria, esto es, con pequeños y ocasionalmente errores de


pronunciación. Recientemente, se creo un nuevo sistema llamado
NETtalk, con el mismo objetivo. En este caso, a sus creadores les tomo
menos de tres mese desarrollar, a partir de cero, un sistema que
efectuara la misma tarea con una eficiencia similar. Resulta curioso,
aunque predecible, que durante la etapa de entrenamiento del sistema
este cometía el mismo tipo de errores que los niños pequeños.

Con respecto a la arquitecturas neuronales, ya han sido patentadas


varios modelos de éstas. En estas computadoras, cada neurona artificial
constituye un elemento procesador que funciona independientemente y
simultáneamente a los demás. Las diferencias principales entre las
computadoras tradicionales y las computadoras neuronales son las
siguientes:

Computadoras tradicionales Computadoras neuronales


Útiles para instrucciones precisas Útiles para resolver problemas en
los que no es posible dar una
receta precisa.
Excelentes para efectuar cálculos No muy confiables para efectuar
matemáticos cálculos matemáticos
Se “alimentan” con programas; que Se “alimentan” con datos; no se
requieren el uso de algoritmos requiere el uso de algoritmos
No aprenden; su desempeño es Aprenden mediante la inspección
siempre el mismo de datos; su desempeño mejora
con la cantidad de información
recibida
No toleran errores Toleran errores
No se equivocan (si acaso el que Pueden equivocarse
se equivoca es el programador)
No usan los datos guardados en su Usan activamente, toda la
memoria al menos que estos sean información guardad en la memoria
explícitamente llamados por el
programa
Su funcionamiento depende del Su funcionamiento no se ve
buen funcionamiento de todos sus alterado por la falla de un pequeño

Daniel Gonzá lez Morales Pá gina 26


Instituto Tecnológico Superior de Teziutlán

componentes. numero de sus componentes.

¿Que nos deparara el futuro? Los países capitalistas han llevado a cabo
bajo las presiones de intereses políticos y económicos, principalmente.
Dentro de este contexto, la creación de maquinas “pensantes” es de
primordial importancia, debido a su potencialidad de comercialización y a
su uso con objetivos militares. Podríamos decir que su rango de
aplicaciones seria prácticamente ilimitado.

Lo anterior ha sido advertido por los gobiernos poderosos, quienes


apoyan de manera substancial proyectos institucionales y regionales cuyo
propósito es la planeación de la investigación en este campo. Como
muestra de lo anterior tenemos que Alemania tiene un presupuesto
gubernamental de 100 millones de dólares destinados exclusivamente en
el desarrollo de esta área; Japón tiene un programa llamado fronteras
humanas, y la comunidad económica Europea ha creado un programa
llamado BRAIN (investigación básica en inteligencia adaptiva y
neurocomputación). Por otro lado, a finales de de 1988 la oficina de
tecnología táctica del gobierno de Estados Unidos de América recomendó
una inversión federal de casi 400 millones de dólares para investigación y
desarrollo de redes neuronales. De igual manera, en estos países se han
venido formando asociaciones científicas de investigadores activos y
estudiantes interesados en estos proyectos. Estas asociaciones agrupan
personas con diversas formaciones profesionales, que incluyen
psicólogos, neurobiólogos, matemáticos, computólogos, físicos e
ingenieros.

También la iniciativa privada ha dedicado fuertes sumas de dinero para el


desarrollo de sus proyectos de redes neuronales. Se calcula que para
finales de 1988 había ya más de 200 compañías privadas en los Estados
Unidos dedicas a la fabricación de redes neuronales; por otro lado,
cualquier revista de computación contiene una larga lista de artículos
relacionados con esta nueva tecnología que evoluciona día con día. Los

Daniel Gonzá lez Morales Pá gina 27


Instituto Tecnológico Superior de Teziutlán

cambios pequeños de las maquinas se dan mediante un proceso similar


al de la “selección natural”. Un fabricante introduce variaciones a su
producto que lo hacen más útil o, al menos, mas atractivo para el
consumidor. Como el resultado, el producto gana mercado a los
productos elaborados por sus competidores. Estos últimos para subsistir y
recuperar mercados, deben de renovar su producto introduciendo
características análogas y superiores a la de los productos de los
fabricantes.

Bajo toda esta presión, las redes neuronales tendrán un gran impulso en
los años que se avecinan, y que esto repercutirá, aun más, en todos los
aspectos de nuestra vida. Estas computadoras no sustituirán a las
computadoras convencionales, sino que las complementarán. De manera
que podremos contar con computadoras hibridas, que utilicen uno u otro
tipo de computación, dependiendo del problema, o de la parte del
problema a resolver. Pero ¿Qué tan lejos nos encontramos de construir
maquinas tan poderosas como el cerebro humano?

El cerebro humano tiene un numero de conexiones de orden de 1015, y


transmite 1016 impulsos eléctricos por segundo; por otro lado el cerebro de
una mosca trabaja enviando 109 señales por segundo. En comparación a
la neurocomputadora TRW Mark V tiene 107 interconexiones y envía 1.6 *
107 señales por segundo; y los programas de redes neuronales escritos
para computadoras personales funcionan típicamente con 30 000
interconexiones que envían 25 000 señales por segundo. Como podemos
ver a partir de estas cifras, existe un abismo entre el cerebro humano y
las neurocomputadoras.

13. APLICACIONES DE LAS REDES


NEURONALES

Daniel Gonzá lez Morales Pá gina 28


Instituto Tecnológico Superior de Teziutlán

a. BIBLIOMETRÍA

La Bibliometría es una disciplina que estudia los aspectos cuantitativos de


la información registrada, para ello se han creado una serie de modelos
estadísticos que aportan datos numéricos sobre el comportamiento de la
actividad científica. También se han adaptado modelos de otras
disciplinas para facilitar los análisis y representar los resultados
desarrollados a partir de la Bibliometría. Los mapas auto-organizados
(SOM) o modelo de Kohonen (basado en las RNA) es una de estas
herramientas.

En los estudios métricos la aplicación de las redes neuronales, y


específicamente los SOM, están asociados en lo fundamental con la
clasificación de información, o sea, la formación de cluster y su
representación en mapas bidimensionales de conceptos y más
específicamente con el descubrimiento de información (data mining). Este
último vinculado con la recuperación de la información con "ruido" e
incompleta o con el tratamiento de información que incluye diferentes
tipos de datos (números, texto, registros estructurados, etc.). Los SOM
facilitan que el conocimiento tácito se haga explícito, a partir de la
extracción no-trivial (a partir de los datos) de conocimientos implícitos
potencialmente útiles desconocidos previamente. Se podrán encontrar
patrones o estructuras en el conocimiento tácito. Las investigaciones
bibliométricas, a través de la utilización de las redes neuronales,
incursionan en:

• La selección de variables,

• Clasificación de información o formación de cluster,

• Regresión,

• Relaciones entre variables,

• Cambios y desviaciones,

Daniel Gonzá lez Morales Pá gina 29


Instituto Tecnológico Superior de Teziutlán

• Representación de las variables.

Lo anterior se puede ejemplificar a partir de algunas aplicaciones


prácticas relacionadas con la evaluación de páginas web [8] y trabajos
relacionados con la clasificación de revistas en un determinado campo
temático.

Se conocen, además, investigaciones relacionadas con la minería de


textos (text mining) sobre todo aplicado a la asociación de palabras o co
-word.

En todos estos ejemplos se utiliza como variante de las RNA el modelo de


los mapas auto-organizativos (self-organizing map, SOM). En un análisis,
realizado por los autores sobre el tema, se examinaron cerca de 56
documentos sobre redes neuronales aplicadas al análisis de información,
con ello se constato que la mayoría utilizaban el modelo SOM como
herramienta de estudio. (2, 7, 8,12,16).

Un ejemplo de SOM podría ser.el estudio de una temática determinada,


para este caso en un mapa cada documento (artículo de revista, podría
ser una patente, una tesis, etc.) va a ocupar un lugar en el espacio, en
función de su contenido temático. Cada área del mapa va a reflejar un
contenido específico y los tópicos van variando levemente a lo largo del
mismo.

Las diferentes tonalidades indican la densidad de documentos, cuanto


más oscura más documentos se encuentran.

Este uso frecuente de los SOM quizás se deba a lo amigable de la


interfaz de los mapas para los usuarios finales y a la diversidad de sus
utilidades prácticas, estas representaciones son válidas para poder
identificar, además de los desarrollos temáticos antes mencionados,
relaciones entres áreas temáticas y publicaciones, alianzas estratégicas y
características de la cooperación. Permite, también, visualizar los avances

Daniel Gonzá lez Morales Pá gina 30


Instituto Tecnológico Superior de Teziutlán

tecnológicos que tienen lugar en un período, conocer la evolución de una


tecnología a través del tiempo e identificar campos emergentes.

En el acápite anterior se mencionó al Viscovery SOMine como un


software que ha automatizado el modelo SOM. Este sistema es utilizado
por un equipo de trabajo del Instituto Finlay para elaborar mapas
científico-tecnológicos. La lógica de funcionamiento del Viscovery SOMine
como se muestra en la siguiente figura:

El punto de partida, para el uso de esta herramienta, es la entrada de un


conjunto de datos numéricos (datos multivariables, variables, “nodos” ).
Estos datos necesitan ser procesados con el objetivo de “organizarlos” en
forma de matrices. Los datos son convertidos hasta obtener una
información visual en forma de mapa, para ello se aplica un número de
técnicas de evaluación como coeficientes de correlación entre variables o
factores discriminantes [4, 13, 14]. Los mapas serán amigables a la vista
del usuario final, en ellos se identificarán dependencias entre parámetros,
cluster y gráficos que facilitarán predicciones o el proceso de monitoreo.

Daniel Gonzá lez Morales Pá gina 31


Instituto Tecnológico Superior de Teziutlán

Se estima que a pesar de las limitaciones técnicas, las redes neuronales


aplicadas a la Bibliometría constituyen un campo de investigación muy
prometedor. Un ejemplo es presentado a continuación.

La disciplina multidisciplinar de las redes neuronales es aplicada en esta


sección, donde se asume a la producción de los documentos de patentes
como indicador de la capacidad de desarrollo industrial. El objetivo es
identificar posibles competidores, alianzas estratégicas, dependencia
tecnológica, etc. Se escogió para el primer ejemplo la representación de
la situación tecnológica de la Neisseria meningitidis.

Las diferentes instituciones en la primera hoja de sus patentes hacen


referencias a otras patentes, a partir de estos datos se puede inferir el
impacto que produce una tecnología o institución en otra. Con el objetivo
de determinar la dependencia tecnológica entre instituciones, se realizó
un análisis de citas, estas formaron los cluster que aparecen en la figura

Daniel Gonzá lez Morales Pá gina 32


Instituto Tecnológico Superior de Teziutlán

El mapa tecnológico presentado en la figura anterior representa a tres


cluster: cluster 1 formado solamente por la Merck & Co., un cluster 2
formado únicamente por el National Res. Council of Canada y el cluster 3
que incluye al resto de las instituciones. Este último grupo está formado
por una gran cantidad de instituciones que tienen igual estrategia de
citación, sobre todo las representadas con colores más claros y sin límites
de separación. Se presupone que estas firmas se basan para su
desarrollo en su propia base tecnológica, pues citan poco a otras
instituciones. El cluster 2 evidencia un alto nivel de autocitación, cuando
esto sucede, algunos investigadores en el tema señalan que
probablemente esta institución tenga un nicho de protección cerrada
sobre un espacio tecnológico. Puede estar ocurriendo que exista una
patente importante, la cual se ha rodeado de invenciones mejoradas. El
cluster formado por la Merck & Co. indica un mayor nivel de citación, esto
presupone una estrategia balanceada: absorbe tecnología externa y
produce tecnología propia. La cercanía de los cluster también es una
evidencia sobre las instituciones que tienen estrategias parecidas a la de
otras. La Rockefeller University hace frontera con el cluster que incluye a
North American Vaccine, y el National Res. Council de Canada; estas
instituciones forman un colegio tecnológico invisible que basa sus
desarrollos en la misma innovación tecnológica.

Otra aplicación se presenta en un campo diferente del conocimiento: la


agricultura. En este ejemplo no solo se tomó como elemento de entrada la
producción documental de determinados países, también se consideraron
otros tipos de variables como "gastos en I+D" en cada uno de los países
analizados, "personal dedicado a actividades de I+D", etc.

Daniel Gonzá lez Morales Pá gina 33


Instituto Tecnológico Superior de Teziutlán

En la figura se presenta un mapa auto-organizado sobre la actividad en


ciencia agrícola en América Latina y el Caribe (se seleccionaron algunos
países según los datos disponibles).

Con ello se pretende lograr una representación de la región, teniendo en


cuenta los indicadores de insumo y de resultados más significativos. En la
figura aparecen, en dos dimensiones, 22 países. La semejanza de los
países, considerando de forma simultánea los 20 indicadores, se expresa
mediante la cercanía de estos en el mapa. Los 22 países se agrupan
(autorganizan) en 3 clusters o grupos: El cluster C1, que aparece en la
esquina inferior izquierda, es seguido por una banda de 4 países
correspondientes al cluster C2 (Cuba, Colombia, Chile y Venezuela) y otro
cluster (C3) con el resto de los países.

En el ámbito regional e internacional hay un grupo de países formado por


Brasil, México y Argentina que tiene una investigación en la temática con
mayor solidez y con parecidos niveles de desarrollo. Esto coincide con los
países que presentan mayor nivel regional en el desarrollo agrícola.

Daniel Gonzá lez Morales Pá gina 34


Instituto Tecnológico Superior de Teziutlán

B. ANÁLISIS DE DATOS

Dado nuestro interés por la aplicación de las RNA en el análisis de datos,


de los 549 registros cuya área temática es la comparación entre RNA y
otro tipo de modelos (estadísticos, sistemas expertos, etc.), nos
centramos en el análisis de los 380 estudios que comparan de forma
específica modelos estadísticos y RNA. Siguiendo la sugerencia de Flexer
(1995), dividimos este conjunto de trabajos en dos grandes grupos: los
que se dedican a hacer comparaciones teóricas (con 32 trabajos) y los
que se centran en comparaciones empíricas (con 348 trabajos).

En el primer período de la reemergencia del conexionismo que hemos


situado en la segunda mitad de los 80, la idea que se trataba de
transmitir consistía en que los modelos neuronales habían surgido como
una forma totalmente novedosa de solucionar problemas de clasificación
y predicción, sobrepasando siempre en eficacia a las técnicas tachadas
de convencionales, como las estadísticas. A lo largo de la década de los
90, una vez reconocido el campo de las RNA ante la comunidad científica,
surgieron una serie de trabajos teóricos cuya comparación entre RNA y
estadística pone de manifiesto la similitud y, en muchos casos, la
identidad entre ambas perspectivas.

Uno de los aspectos que han fomentado la idea errónea acerca de las
diferencias entre RNA y estadística versa sobre la terminología utilizada
en la literatura de ambos campos. Recordemos que el campo de las RNA
surge como una rama de la IA con una fuerte inspiración neurobiológica y
su desarrollo ha sido debido a la contribución de investigadores
procedentes de una gran variedad de disciplinas. A continuación, se

Daniel Gonzá lez Morales Pá gina 35


Instituto Tecnológico Superior de Teziutlán

presenta la tabla 3 en la que se pone de manifiesto que las RNA y la


estadística utilizan términos diferentes para nombrar el mismo objeto
(Sarle, 1994; Vicino, 1998).

De forma análoga, se puede establecer una similitud entre modelos


estadísticos y modelos de redes neuronales (ver tabla 4) (Sarle, 1994).

Daniel Gonzá lez Morales Pá gina 36


Instituto Tecnológico Superior de Teziutlán

Así, se pone de manifiesto que la mayoría de redes neuronales aplicadas


al análisis de datos son similares y, en algunos casos, equivalentes a
modelos estadísticos bien conocidos. Vamos a describir las relaciones
que se han establecido a nivel teórico entre ambas perspectivas.

Según Sarle (2002), un Perceptrón simple puede ser considerado como


un Modelo Lineal Generalizado (MLG) (McCullagh y Nelder, 1989), debido
a la equivalencia entre el concepto de función de enlace en un MLG y la
función de activación de la neurona de salida en un Perceptrón:

Y ≅ f (X , W )

Donde el valor de la variable de respuesta Y (o variable de salida) se


obtiene aplicando una función de enlace (o función de activación) sobre
una combinación lineal de coeficientes W (o pesos) y variables
explicativas X (o variables de entrada).

La función de enlace en un MLG no suele estar acotada y, en la mayoría


de casos, es necesario que sea monótona como las funciones identidad,
recíproca y exponencial. Por su parte, la función de activación en un
Perceptrón puede estar acotada, como la función sigmoidal logística, o
puede no estarlo, como la función identidad; sin embargo, en general
todas ellas son monótonas.

El concepto de discrepancia en un MLG y el concepto de función de error


en un Perceptrón también son equivalentes (Biganzoli, Boracchi, Mariani y
Marubini, 1998). En el caso del Perceptrón la función que en general se
intenta minimizar es la suma del error cuadrático:

Daniel Gonzá lez Morales Pá gina 37


Instituto Tecnológico Superior de Teziutlán

Donde P hace referencia al número de patrones, M hace referencia al


número de neuronas de salida, es la salida deseada para la neurona de
salida k para el patrón p e es la salida obtenida por la red para la
neurona de salida k para el patrón p. pk d pk y

Una diferencia importante entre ambos modelos radica en el método de


estimación de los coeficientes utilizado para minimizar la función de error.
Mientras el Perceptrón normalmente estima los parámetros del modelo
mediante el criterio de mínimos cuadrados, es decir, intentando minimizar
la función E (White, 1989; Cheng y Titterington, 1994; Ripley, 1994), el
MLG ajusta el modelo mediante el método de máxima verosimilitud para
una variedad de distribuciones de la clase exponencial (Sarle, 1994). Sin
embargo, Bishop (1995), entre otros, ha apuntado que el criterio de
mínimos cuadrados asumiendo un error con distribución normal obtiene
estimaciones máximo-verosímiles, tal como ocurre en el modelo lineal
general. De forma similar, se puede aplicar el método de máxima
verosimilitud a un Perceptrón en tareas de clasificación binaria asumiendo
un error con distribución de Bernoulli (Hinton, 1989; Spackman, 1992; Van
Ooyen y Nienhuis, 1992; Ohno-Machado, 1997; Biganzoli, Boracchi,
Mariani y Marubini, 1998). En este caso, la función de error que se intenta
minimizar se denomina cross entropy (Bishop, 1995) que viene dada por:

Utilizando esta función de error conseguimos que las salidas puedan ser
interpretadas como probabilidades a posteriori (Bishop, 1994). Sin
embargo, en general la obtención de los parámetros de una red se realiza

Daniel Gonzá lez Morales Pá gina 38


Instituto Tecnológico Superior de Teziutlán

mediante un criterio de optimización sin tener en cuenta el tipo de


distribución de los errores, a diferencia de los MLG (Cheng y Titterington,
1994).

Otra importante diferencia entre RNA y modelos estadísticos consiste en


que los parámetros obtenidos por la red neuronal no son susceptibles de
una interpretación práctica. No podemos saber inmediatamente cómo los
pesos de la red o los valores de activación de las neuronas están
relacionados con el conjunto de datos manejados. Así, a diferencia de los
modelos estadísticos clásicos, no parece tan evidente conocer en una red
el efecto que tiene cada variable explicativa sobre la/s variable/s de
respuesta. Por tanto, es importante tener en cuenta que las similitudes
que se puedan establecer entre RNA y modelos estadísticos siempre
harán referencia al aspecto predictivo pero no al aspecto explicativo.
Como veremos más adelante, la problemática acerca del análisis del
efecto de las variables de entrada en una red neuronal constituye una
línea de investigación de interés para nuestro equipo.

Estableciendo analogías entre RNA y modelos concretos pertenecientes a


MLG, un Perceptrón simple con función de activación lineal en la neurona
de salida y utilizando la suma del error cuadrático equivale a un modelo
de regresión lineal (Liestol, Andersen y Andersen, 1994; Michie,
Spiegelhalter y Taylor, 1994; Sarle, 1994; Kemp, McAulay y Palcic, 1997)
(ver figura 5).

Daniel Gonzá lez Morales Pá gina 39


Instituto Tecnológico Superior de Teziutlán

Una red MLP compuesta por tres capas cuya capa oculta de neuronas
utiliza una función de activación no lineal –en general, la función
logística--, puede ser vista como una generalización no lineal de los MLG
(Biganzoli, Boracchi, Mariani y Marubini, 1998).

La principal virtud de una red MLP que permite explicar su amplio uso en
el campo del análisis de datos es que se trata de un aproximador
universal de funciones. La base matemática de esta afirmación se debe a
Kolmogorov (1957), quien constató que una función continua de
diferentes variables puede ser representada por la concatenación de
varias funciones continuas de una misma variable. Esto significa que un
Perceptrón conteniendo al menos una capa oculta con suficientes
unidades no lineales, tiene la capacidad de aprender virtualmente
cualquier tipo de relación siempre que pueda ser aproximada en términos
de una función continua (Cybenko, 1989; Funahashi, 1989; Hornik,
Stinchcombe y White, 1989). También se ha demostrado que utilizando
más de una capa oculta, la red puede aproximar relaciones que impliquen
funciones discontinuas (Rzempoluck, 1998). Si no se utilizan funciones de
activación no lineales en la/s capa/s oculta/s, la red queda limitada a
actuar como discriminador/aproximador lineal.

Daniel Gonzá lez Morales Pá gina 40


Instituto Tecnológico Superior de Teziutlán

Otra propiedad importante de las redes MLP es que son capaces de


manejar tareaelevada dimensionalidad mediante la utilización de
arquitecturas relativamsencillas. Esta propiedad está relacionada con el
hecho de que no es necesario introducir explícitamente en el modelo las
interacciones entre las variables explicativas, ya que sus posibles
interacciones son aprendidas por la red neuronal de forma automática en
elproceso de entrenamiento.

Por último, hemos comentado que las RNA estiman los pesos en base a
algún criterio de optimización sin tener en cuenta supuestos como el tipo
de distribución o la dependencia funcional entre las variables. Por este
motivo, las RNA han sido consideradas por muchos autores como
modelos no paramétricos (Smith, 1993). Sin embargo, autores de
reconocido prestigio como Bishop (1995) sostienen que las RNA y los
modelos estadísticos asumen exactamente los mismos supuestos en
cuanto al tipo de distribución; lo que sucede es que los estadísticos
estudian las consecuencias del incumplimiento de tales supuestos,
mientras que los investigadores de RNA simplemente las ignoran. En este
sentido, hemos visto el paralelismo que se establece entre los criterios de
minimización utilizados por las RNA y el método de máxima-verosimilitud,
bajo el cumplimiento de ciertos supuestos. Otros autores como Masters
(1993) son más flexibles y sostienen que supuestos como normalidad,
homogeneidad de variancias y aditividad en las variables de entrada son
características recomendables para una red neuronal aunque no son
estrictamente necesarias como sucede en los modelos estadísticos.

Este conjunto de propiedades convierten las redes MLP en herramientas


de propósito general, flexibles y no lineales. Dependiendo del tipo de
función de activación utilizado en la capa de salida, el MLP se puede
orientar a la predicción o a la clasificación. Así, en caso de utilizar la

Daniel Gonzá lez Morales Pá gina 41


Instituto Tecnológico Superior de Teziutlán

función identidad en la capa de salida, estaríamos ante un modelo de


regresión no lineal (Cheng y Titterington, 1994; Ripley, 1994; Flexer,
1995) (ver figura 8).

La representación matemática de este tipo de arquitectura viene dada por:

donde fM y fL son las funciones de activación de las M neuronas de


salida y las L neuronas ocultas, respectivamente; θj es el umbral de la
neurona oculta j, wij es el peso entre la neurona de entrada i y la neurona
oculta j, y vjk es el peso entre la neurona oculta j y la neurona de salida k.

Una red MLP con funciones de activación logísticas en las salidas puede
ser utilizada como una Función Discriminante no lineal (Biganzoli,
Boracchi, Mariani y Marubini, 1998) (ver figura 9).

Como se puede observar en la figura, cada neurona oculta corresponde a


un límite no lineal entre la clase 0 y la clase 1. Así, la utilización de un

Daniel Gonzá lez Morales Pá gina 42


Instituto Tecnológico Superior de Teziutlán

número considerable de neuronas ocultas permite obtener regiones de


decisión arbitrariamente complejas.

C. PSICOLOGÍA

La aplicación de las RNA en el campo de la Psicología puede


considerarse como incipiente en comparación a otros campos de
aplicación. En este sentido, realizamos examen mediante un análisis de
contenido sobre el papel que desempeñan las RNA las diferentes áreas
de nuestra disciplina. Para ello, nos centramos en el estudio de 132
registros que tratan sobre la aplicación de RNA en este ámbito.

Así, observamos que en el área de Evaluación, Personalidad y


Tratamiento los autores se interesan principalmente por el diagnóstico de
trastornos mentales (Zou et al., 1996). Un ejemplo ilustrativo lo ofrece el
trabajo de Pitarque, Ruíz, Fuentes, Martínez y García-Merita (1997),
quienes han desarrollado una RNA del tipo MLP con el objeto de clasificar
un grupo de sujetos en una de cuatro categorías diagnósticas (depresivo,
esquizofrénico, neurótico o mentalmente sano) a partir de las respuestas
dadas a un cuestionario elaborado por los autores en base a criterios
diagnósticos. El modelo resultante fue capaz de clasificar correctamente
el 91.7 % del conjunto de test. Por su parte, el equipo de Buscema (1995)
ha desarrollado, de forma pionera, un conjunto de RNA dirigidas a la
predicción del consumo de drogas, obteniendo resultados muy
satisfactorios. Como veremos más adelante, nuestro equipo ha
continuado esta línea de investigación aplicando redes MLP al consumo
de éxtasis en la población de jóvenes europeos.

En el área de Metodología los temas prioritarios versan sobre la


aplicación de RNA al reconocimiento de patrones (clasificación y
predicción) y su comparación con modelos estadísticos clásicos mediante

Daniel Gonzá lez Morales Pá gina 43


Instituto Tecnológico Superior de Teziutlán

simulación. El equipo de Pitarque (Pitarque, Roy y Ruíz, 1998) ha


realizado una comparación entre redes MLP y modelos estadísticos
(regresión múltiple, análisis discriminante y regresión logística) en tareas
de predicción y clasificación (binaria o no binaria), manipulando los
patrones de correlación existentes entre los predictores (o variables de
entrada) por un lado, y entre predictores y el criterio (variable de salida)
por otro. Los resultados mostraron que en tareas de predicción, las RNA y
los modelos de regresión múltiple tienden a rendir por igual. Por el
contrario, en tareas de clasificación, en todo tipo de condiciones las RNA
rinden mejor que los modelos estadísticos de análisis discriminante y
regresión logística. Recientemente, Navarro y Losilla (2000) han realizado
una comparación entre RNA del tipo MLP y RBF (Radial Basis Function o
Funciones de Base Radial) (Broomhead y Lowe, 1988) y métodos de
imputación clásicos aplicados a la predicción de datos faltantes. Para ello,
se generó un conjunto de matrices en las que se manipuló la naturaleza
(discreta, ordinal o cuantitativa) y el grado de correlación de las variables,
y el porcentaje de valores faltantes. Los resultados ponen de manifiesto
que en la mayoría de situaciones las RNA son la técnica de elección para
realizar la imputación de datos faltantes.

Por su parte, el área de Procesos Psicológicos Básicos está centrada en


el modelado de procesos psicológicos y psicofísicos. Por ejemplo,
MacWhinney (1998) se ha centrado en el desarrollo de modelos de
adquisición del lenguaje mediante redes neuronales.

Los temas más recurrentes en el área de Psicología Evolutiva tratan


sobre la predicción del rendimiento académico (Hardgrave, Wilson y
Walstrom, 1994) y la aplicación de modelos conexionistas en educación.
En este sentido, Reason (1998) ha hecho uso de modelos PDP para crear

Daniel Gonzá lez Morales Pá gina 44


Instituto Tecnológico Superior de Teziutlán

programas de enseñanza de la lectura y para entender mejor por qué se


producen dificultades de lectura en niños.

En el área de Psicología Social se trata generalmente de predecir y


modelar diferentes conductas sociales como, por ejemplo, el conocido
dilema del prisionero (Macy, 1996).

Por último, los autores del área de Psicofisiología se centran en el


modelado de procesos psicofisiológicos (Olson y Grossberg, 1998) y en la
clasificación de patrones EEG (Grözinger, Kögel y Röschke, 1998). Uno
de los autores más prolíficos en esta última línea de investigación es
Klöppel (1994).

D. LOS VIDEOS JUEGOS

En esta sección es tomada de un artículo del Departamento de Ciencia de


la Computación e Inteligencia Artificial de la universidad de Universidad
de Alicante. Traducida por el autor de esta investigación.

Driving-Bots with a Neuroevolved Brain:

Screaming Racers

la industria de los video juegos de hoy están fuerte como los ingresos de
la industria fílmica. Lo juegos de computadora son distribuidos a través
de todo el mundo y son vendidos a millones de personas. De varios tipos
diferentes de juegos, el mas popular es el “car racing”. Los
desarrolladores de este tipo de juego son cada vez más provistos de
sistemas de inteligencia artificial, así que sus controladores virtuales
pueden exhibir los comportamientos humanos. En este articulo les
mostramos como estos controladores virtuales pueden ser usados con

Daniel Gonzá lez Morales Pá gina 45


Instituto Tecnológico Superior de Teziutlán

Neuroevolución así obtenemos varios y distintos “driving-bots” con un alto


nivel de ejecución.

En estos días nuestra percepción de cómo las juegos de computadora


influencian en nuestras vidas que las han cambiando completamente. En
el presente los video juegos son capaces de traer a la vida mundos
virtuales con complejas reglas sociales, donde cientos de jugadores de
cada rincón del planeta y bots que conocen juntos cada dia.

Con este escenario muchos juegos genres han sido desarrollados desde
la llegada de los primeros video juegos. Uno de los tipos mas populares
es el “Racing Genre” que ha crecido notoriamente en años recientes. En
este tipo de juego el jugador usualmente adopta la posición del conductor
y es responsable de conducir tan rápido como el quiera en la carretera.

Cuando leemos acerca de las técnicas para crear “driving-bots”,


encontramos muchas soluciones para el problema, pero todos ellos tratan
de resolverlo de la forma correcta. Es usual tener un “race track” dividido
en varios sectores y estructurado en la memoria como una doble conexión
de la lista de estos sectores.

Así, que la forma mas fácil de tener un auto controlado por IA, que este
conduzca a través de la carretera, este define las líneas del inicio a las del
fin de cada sector para guiar el carro. Haciendo esto podemos marcar el
camino optimo para cada carretera y la I A simplemente seguirá la líneas.
Podemos incluso agregar información extra para cada sector tal cual es el
tipo de terreno.

Pero procediendo de esta manera nos introduciremos a obtener un rígido,


no realista driving-bot. Por lo tanto un segundo tipo de aproximación seria
usado la línea optima simplemente como una ayuda, no seria seguida
exactamente. En vez de hacer esto, podríamos tener ciertas reglas
diseñadas para intentar seguir la línea con algún tipo de error agregado a
ellos.

Daniel Gonzá lez Morales Pá gina 46


Instituto Tecnológico Superior de Teziutlán

Como nuestro objetivo básico es crear bots genéricos con capacidades de


manejo, esto significa que necesitaran ser capaces de entender el medio
que los rodea y hacer decisiones inteligentes basadas en el
entendimiento. Además, nuestra aproximación debe de evitar trampas, en
orden para que los bots emparejen resultados desde el juego, dejándolos
ser usados en otros juegos o/y aplicaciones.

Por lo tanto proveeremos cada de nuestro artificial “driving-bots” con unos


sensores para simular las sensaciones de un conductor humano,
entonces los datos son cargados hacia estos sensores que serán
procesados como una entrada por una red neuronal artificial; cuyo
objetivo es tomar decisiones (a que hora tiene que frenar o conducir). Así
que tendremos una población de redes neuronales cada correspondiente
cerebro de “driving-bot”. En esta plataforma será capaz de desarrollar la
población entera de cerebros, así creando progresivamente mejores
cerebros adaptados. Este proceso es conocido como Neuroevolución.

Los métodos de Neuroevolución se enfocan en su trabajo en envolver las


redes neuronales a través de los algoritmos genéticos. Estos son
realizados por un código estructural de información. y/o pesos dentro de
un genoma y entonces envuelven las poblaciones de genomas usando el
algoritmo genético. Haciendo esto obtenemos nuevas redes neuronales
en horas extras, para cual se espera encontrar estas características de
dispositivos que los harían exitosos para nuestros propósitos. En el orden
directo esto el proceso evolutivo los hará de forma correcta. Es usual
adoptar un refuerzo abordado el aprendizaje.

Los problemas reales aquí son dobles; primeramente, como diseñar un


buen sistema de castigo o recompensa que fortalecen y toman ventaja de
reforzamiento de aprendizaje y, segundo como codificar genomas en una
forma compatible para nuestro algoritmo genético.

Nos concentraremos inicialmente en mas problemas difíciles que codificar


el genoma.

Daniel Gonzá lez Morales Pá gina 47


Instituto Tecnológico Superior de Teziutlán

La Neuroevolución busca tener un desarrollo de varias y diferentes


aproximaciones en su intento de obtener mas formas favorables de
codificación y envolvimiento de genomas para las redes neuronales. Los
resultados de su trabajo nos posibilitan a codificar una red neuronal en
diferentes maneras, tal como una secuencia de bit-Strings, como una
matriz binaria, o como un generador de gramática, por ejemplo.

Pero todas estas representaciones tienen una mayor desventaja que no


pueden ser superado. Este problema ocurre cuando las diferentes
representaciones del genoma una red neuronal que exhibe el mismo
comportamiento, en este caso un convencional operador encriptado
tendrá una pobre característica de progenie. Este problema es conocido
como el problema de competencia convencional (CCP).

Diferentes intentos estaban haciendo para resolver el CCP, pero no


suministraba resultados suficientemente aceptables hasta la advenida de
la Neuroevolución de topologías aumentadas (NEAT), cual estaba el
primer algoritmo que usando una base de datos de innovación global al
camino de toda la población de genes, así evitando la confusión que dio
al crecer el CCP.

Daniel Gonzá lez Morales Pá gina 48


Instituto Tecnológico Superior de Teziutlán

Un ejemplo de NEAT sobre cruzado

Daniel Gonzá lez Morales Pá gina 49


Instituto Tecnológico Superior de Teziutlán

CONCLUSIÓN
A las conclusiones que se llegaron fueron las siguientes:

1. La inteligencia artificial es una de las ciencias más excitantes, pero


también una de las más difíciles por querer reproducir el
comportamiento humano.
2. La inteligencia artificial es una ciencia que apenas esta “en
pañales” ya que no ha habido grandes avances significativos, la
mayor parte de su conocimiento es teórico.
3. Por su parte, en las redes neuronales intentan poder reproducir las
funciones cerebrales del ser humano a un nivel tal que no se
puedan distinguir cual es el humano o cual es la maquina.
4. Es necesario tener conocimientos de estadística, matemáticas,
física y algo de biología para poder entender y crear una red
neuronal.
5. El campo de las redes neuronales es una buena opción para poder
trabajar ya que es uno de los campos emergentes de esta ciencia.
6. Las diferentes aplicaciones que tienen las redes neuronales son
una idea de que tal grande y poderosa es esta sub-rama de la
inteligencia artificial, porque hasta se aplica en la psicología
7. En el futuro las redes neuronales tendrán un espacio importante en
todas las áreas del quehacer humano.

Daniel Gonzá lez Morales Pá gina 50


Instituto Tecnológico Superior de Teziutlán

BIBLIOGRAFÍA / REFERENCIAS

Castrillón Laura Viana, Memoria Natural y Artificial, Fondo de Cultura


económica, cuarta edición, México DF 2002, p 103,130

D.W. Tank, J.J. Hopfield, Collective Computation in Neuronlike circuits,


Scientific American, Washington DC 1987, p 104.

Gallego Francisco, Llorens Faraón, Pujol Mar, Rizo Ramón, Articulo,


Driving-Bots with a Neuroevolved Brain Screaming Racers,
Departamento de Ciencia de la Computación e Inteligencia
Artificial,Universidad de Alicante, Alicante 2005.

Montaño Moreno Juan Jose, Tesis doctoral, Redes Neuronales


Artificiales aplicadas al Análisis de Datos, Universitat de les illes
Ballears, Facultad de Psicologia, Palma de Mayorca 2002, p 17-40.

Russell S., Norvig p.. Inteligencia Artificial, Un Enfoque Moderno,


Pearson Education segunda edición, Madrid, 2004, p 1-31,
838-851.

Sotolongo, G.*; Guzmán, Maria Victoria, Articulo, Aplicaciones de las


redes neuronales. El caso de la Bibliometría, Centro de
Investigación-Producción de Vacunas y Sueros. Ave. La Habana,
Cuba 2001

Daniel Gonzá lez Morales Pá gina 51

Você também pode gostar