Instituto Tecnológico Superior de Teziutlán: Tema: "Inteligencia Artificial: Redes Neuronales"

Instituto Tecnológico Superior de Teziutlán
INSTITUTO TECNOLÓGICO SUPERIOR DE
TEZIUTLÁN
TEMA:
“INTELIGENCIA ARTIFICIAL: REDES NEURONALES”
PRESENTA:
DANIEL GONZÁLEZ MORALES
MATERIA:
FUNDAMENTOS DE INVESTIGACIÓN
CARRERA:
ING. SISTEMAS
GRADO Y GRUPO:
2° “B”
AULA: 3
TEZIUTLÁN, PUE., 29 DE MAYO DE 2010

Daniel Gonzá lez Morales Pá gina 0
ÍNDICE
1. Introducción……………………………………………………………….(2)
2. Planteamiento…………………………………………………………….(3)
3. Justificación……………………………………………………………….(3)
4. Objetivos…………………………………………………………………..(3)
5. Definición de I.A.…………………………………………………………(4)
6. El nacimiento de I.A……………………………………………………..(5)
7. El regreso de las redes neuronales …………………………………...(5)
8. I.A. se convierte en ciencia. …………………………………………….(6)
9. Memoria y aprendizaje…………………………………………………..(7)
9.1. Memoria y aprendizaje desde un punto de vista fisiológico……(9)
9.2. La memoria del hombre…………………………………………….(10)
9.3. La física estadística y el cerebro………………......................... (12)
10. Redes neuronales……………………………………………………. (13)
10.1. Definición de neurona…………………………. …..........(13)
10.2. Unidades en redes neuronales…………………………….(15)
10.3. Estructuras de las redes…………………………………….(17)
10.4. Redes neuronales de una sola capa………………….......(19)
10.5. Redes neuronales multicapa……………………………….(22)
10.6. Aprendizaje de la estructura de las redes neuronales.....(24)
11. Computadoras neuronales…………………………............................(25)
12. Aplicaciones de las redes neuronales………………………………....(29)
12.1. Bibliometría……………………………………………...........(29)
12.2. Análisis de datos………………………………………… (35)
12.3. Psicología………………………………………………….... (43)
12.4. Video juegos…………………………………………………..(45)
13. Conclusión……………………………………………………………......(50)
14. Bibliografía /referencias………………………………………………....(51)

1. INTRODUCCIÓN
Desde la creación de las computadoras el hombre siempre ha querido

crear maquinas que imiten el comportamiento humano en toda su
totalidad. En este proyecto de investigación se abordara especialmente
los temas de la inteligencia artificial que son el aprendizaje y las redes
neuronales y sus aplicaciones.
En esta investigación fue exclusivamente documental, se buscaron

primordialmente fuentes fidedignas como son libros especializados con el
tema de dicha investigación, además se amplio la investigación con
complementos como son artículos y tesis para tener una forma de
compresión mas detallada sobre el tema.
El documento esta estructurado con 7 temas principales y con sus

correspondientes subtemas, los temas de más interés es el de la
aplicación de las redes neuronales y el de las computadoras neuronales;
por su contenido en forma de expresar los logros que ha tenido las redes
neuronales.
La razón por la que se escogieron los temas como inteligencia artificial y

memoria y aprendizaje es porque no se puede abordar el tema de redes
neuronales si no se conocen sus fundamentos y que rama de la ciencia
pertenecen.
Además contiene como todo proyecto de investigación su planteamiento,

objetivos, justificación, marco teórico, conclusión y bibliografía.
Con toda esta información recabada se espera que la investigación de

redes neuronales cumpla con los objetivos planteados y se espera que
sea primordialmente del agrado del lector.

2. PLANTEAMIENTO
El problema consiste en que la mayoría de los profesionistas o

estudiantes que tienen que ver con el campo de la tecnología
computacional y la robótica no conocen que la inteligencia artificial es
un área con muchas posibilidades de desarrollo ya que la inteligencia
artificial es una ciencia emergente, donde podemos aportar varios
conocimientos para el desarrollo integral de dicha ciencia.
3. JUSTIFICACIÓN
El llevar a cabo esta investigación es porque la inteligencia artificial me

parece uno de los temas más atrayentes y más apasionantes
(especialmente las redes neuronales) dentro de la tecnología de la ciencia
computacional, en donde el autor de esta investigación quisiera
desempeñarse. En cuestión académica es importante conocer (sobretodo
para los estudiantes de semestres más bajos) que conocimientos
debemos tener para poder entender la inteligencia artificial.
4. OBJETIVOS
Los objetivos de esta investigación son:
1. Conocer los diferentes tipos de redes neuronales que existen.

2. Conocer las diferentes ramas en las que son aplicadas las redes
neuronales.
3. Entender como las redes neuronales son tomadas de la naturaleza
biológica.
4. Enfocar el proceso de aprendizaje a las redes neuronales.
5. Saber cuales son las áreas donde se aplican las redes neuronales.

MARCO TEÓRICO
6. DEFINICIÓN DE INTELIGENCIA ARTIFICIAL.
La inteligencia artificial es una de las áreas donde un ingeniero en

sistemas computacionales puede desarrollarse ampliamente, pero esto
viene hacerse la pregunta; ¿Qué es la inteligencia artificial? La verdad
muchos especialistas no se ponen de acuerdo algunas de estas
definiciones son las siguientes:
1. “Es el arte de desarrollar maquinas con capacidad para realizar

funciones que cuando son realizadas por personas requieren de la
inteligencia”. (Kursweil, 1990)
2. “El nuevo y excitante esfuerzo de hacer que las computadoras
piensen… maquinas con mentes, en el más sentido amplio de la
palabra”. (Haugeland, 1985)
3. “Es el estudio de las facultades mentales mediante el uso de
modelos computacionales “. (Charniak y McDermott,1985)
4. “La inteligencia artificial… esta relacionada con conductas
inteligentes en artefactos”. (Nilsson,1998)
5. “la automatización de actividades que vinculamos con procesos de
pensamiento humano, actividades como la toma de decisiones,
resolución de problemas, aprendizaje…”(Bellman,1978)
6. “El estudio de cómo lograr que las computadoras realicen tareas
que, por el momento, los humanos hacen mejor”. (Rich y Knight,
1991)
7. “El estudio de los cálculos que hacen posible, percibir, razonar y
actuar “. (Winston ,1992)
8. “La inteligencia computacional es el estudio del diseño de agentes
inteligentes”.(Poole et al,1998)
La relación que podemos ver de estas definiciones es que se refieren a

procesos mentales, razonamiento y a la conducta.

7. EL NACIMIENTO DE LA INTELIGENCIA ARTIFICIAL
Warren McCulloch y Walter Pitts (1943) son los autores reconocidos del
primer trabajo enfocado a la I.A. Estos personajes, partieron de tres
áreas: conocimientos sobre la fisiología básica y funcionamiento de las
neuronas en el cerebro, el análisis formal de la lógica proposicional de
Russell y Whitehead y la teoría de computación de Turing. Propusieron un
modelo constituido por neuronas artificiales, en el que cada una de ellas
se caracterizaba por estar activada o desactivada; la activación se daba
como la respuesta de estimulación producida por una cantidad suficiente
de neuronas vecinas.
Unos años después. Dos estudiantes graduados en el departamento de

Matemáticas de Princeton, Marvin Minsky y Dean Edmonds, construyeron
el primer computador a partir de una red neuronal en 1951. Lo llamaron
SNARC, utilizaba unas 300 válvulas de vacío y un mecanismo de piloto
automático obtenido de los desechos de un avión bombardero B-24.
Posteriormente apareció otro personaje John McCarthy, él convenció a

Minsky, Claude Shannon y Roschester para que le ayudaran aumentar el
interés de los investigadores americanos en la teoría de los autómatas,
las redes neuronales y el estudio de la inteligencia. Organizaron un taller
en el verano de 1956. Dicho taller no produjo un avance notable, pero
puso en contacto a las figuras importantes de este campo. Durante 20
años este campo estuvo dominado por dichos personajes. Quizá lo último
que surgió del taller fue el consenso en adoptar el nombre propuesto por
McCarthy para el nuevo campo: Inteligencia Artificial.
8. REGRESO DE LAS REDES NEURONALES
La informática había olvidado del todo las redes neuronales a finales de

los 70´s, pero el trabajo continúo en otras áreas del quehacer humano.

Con el Físico John Hopfield (1982) usaron técnicas de la mecánica

estadística para analizar las propiedades de almacenamiento y
optimización de las redes, pero en vez de usar colecciones nodos usaron
colecciones de átomos. Psicólogos como David Rumelhart y Geoff Hinton
continuaron con el estudio de modelos de memoria basados en redes
neuronales, la contribución mas fuerte en la década de los 80, cuando 4
grupos reinventaron el algoritmo de aprendizaje de retroalimentación,
mencionado por Bryson y Ho (1969). Este algoritmo se aplico para
diversos problemas de aprendizaje en los campos de la Informática y la
Psicología.
9. LA INTELIGENCIA ARTIFICIAL SE CONVIERTE EN

CIENCIA
En los últimos años se ha producido una revolución tanto en el contenido

como en la metodología de trabajo en le campo de la inteligencias
artificial. Actualmente es más usual el desarrollo sobre teorías ya
existentes que proponer teorías totalmente novedosas, tomar como base
rigurosos teoremas o solidas evidencias experimentales más que
intuición, y demostrar la utilidad de las aplicaciones en el mundo real.
La IA se fundó en parte en le marco de la rebelión en contra de las

limitaciones de los campos existentes como la teoría de control o la
estadística, y ahora abarca estos campos. En términos metodológicos, se
puede decir, que la IA ya forma parte del ámbito de los métodos
científicos. Para que se acepten, las hipótesis se deben de someter a
rigurosos experimentos empíricos, y los resultados deben de analizarse
estadísticamente para identificar su relevancia (Cohen, 1995). El uso de
Internet y compartir repositorios de datos de prueba y código, han hecho
posible que ahora se puedan realizar experimentos.
La mayor parte del trabajo realizado con redes neuronales se realizó con
la idea de dejar a un lado lo que se podía hacer y de descubrir en que se

diferenciaban las redes neuronales de otras técnicas “tradicionales”. La

utilización de metodologías mejoradas y marcos teóricos, ha autorizado
que este campo alcance un grado de conocimiento que ha permitido que
ahora las redes neuronales se puedan comparar con otras técnicas
similares de campos como la estadística, el reconocimiento de patrones y
el aprendizaje autómata.
10. MEMORIA Y APRENDIZAJE
A lo largo de la historia han sido propuestas muchas teorías que

intentan explicar los mecanismos de almacenamiento y remembranza.
Por ejemplo hace algunos años se propuso la teoría de que la información
se almacenaba codificada en una secuencia de molécula, de una manera
similar al modo en que la información genética se almacenaba en las
moléculas de ácido desoxirribonucleico (ADN). Para probar esta teoría se
usaron varios experimentos que consistían en entrenar animales de una
cierta manera y después moler sus cerebros para examinar si estas
enseñanzas habían producido cambios químicos en ellos. Otros
experimentos consistían en utilizar como alimentos los cerebros de
animales entrenados, para después tratar de encontrar habilidades
“estadísticamente significativas” en otros animales alimentados con éstos.
Pero la teoría tuvo que ser rechazada debido a que no se encontraban
evidencias que la apoyaran.
Las neuronas son células altamente especializadas y se distinguen de

otros tipos de células, entre otras cosas porque son capaces de generar
y transmitir señales eléctricas. Sin embargo, son regidas por las mismas
leyes de la naturaleza que las células de los otros tejidos. Las señales
que producen y transmiten las neuronas se pueden medir, registrar e
interpretar, de manera que resulta natural pensar que el funcionamiento
del cerebro puede estudiarse al igual que cualquier otra parte del cuerpo
humano. Pero entonces, ¿En qué momento es que la mente adquiere

capacidades como las de la imaginación, la creatividad, el aprendizaje, la

memorización, etc., que parecen no estar localizadas en ninguna parte del
cerebro? A falta de una mejor respuesta e estas preguntas, en muchas
civilizaciones, y desde épocas muy antiguas, se ha recurrido a ideas
como la de la existencia del alma. En el diccionario encontramos las
siguientes definiciones:
Memoria. Potencia intelectual del alma por medio de la cual se retiene y

recuerda lo pasado.
Mente. Potencia intelectual del alma.
Sin embargo aunque atribuir estas funciones a un alma es una de las

repuestas mas fáciles, pero dicha respuesta no tiene una fundamentación
científica y por lo tanto, aceptarla o rechazarla viene a ser un acto de fe y
no resuelve el problema.
Ahora formulando las siguientes preguntas ¿Cómo es posible que un

grupo de células cuya función primordial puede resumirse en la
generación y transmisión de señales eléctricas, sea capaz de procesar y
almacenar información?, ¿De qué manera puede ser útil conocer en
detalle los procesos que se llevan a cabo en cada neurona para entender
el funcionamiento de la mente?, ¿Qué tan relevantes son los detalles
estructurales del cerebro con respecto a estas funciones? Por otro lado
¿Es posible reducir cualquier función mental a una colección de señales
eléctricas, reacciones químicas, etc.? De ser así ¿Es posible la
construcción de maquinas que lleven acabo eficazmente las mismas
funciones que nosotros?, y en caso de que la respuesta sea negativa, ¿se
deberá esto a limitaciones tecnológicas, o de carácter fundamental?
La separación entre la Física y la Neurobiología, contribuyo a que los

físicos creyesen construir una teoría del comportamiento del cerebro. Sin
embargo, esta creencia se ha ido modificando gradualmente, y en los
últimos 25 años los aspectos del aprendizaje y la memoria se han
empezado a estudiar desde un punto de vista de la física estadística. Por

otro lado las matemáticas han tenido un desarrollo importante en años

recientes, en cuanto han empezado a lidiar con sistemas cuyas
características son no-linealidad, no-localidad y no- estacionalidad. Los
recursos obtenidos por estas nuevas teorías son prometedores, pues
aunque apenas representan un entendimiento cualitativo de algunos de
los procesos mas elementales que tienen lugar en el cerebro, este
enfoque ha dado a luz muchas cosas antes desconocidas por completo y
nos han mostrado una nueva dirección para continuar la búsqueda.
A. MEMORIA Y APRENDIZAJE DESDE EL PUNTO DE

VISTA FISIOLÓGICO
Si aceptamos el comportamiento colectivo de las células de nuestro

cerebro es el responsable de todas nuestras capacidades mentales, de
nuestras emociones, gustos intereses, habilidades, recuerdos, etc.,
entonces la siguiente pregunta seria, ¿Cuáles son los mecanismos
responsables de ellas?, y en particular, ¿Cuáles son los mecanismos
responsables de la memoria y del aprendizaje? Antes de responder esta
pregunta es mejor analizar cuales son los tipos fisiológicos que como
humanos contamos.
En la investigación del cerebro se han utilizado todos los recursos

posibles. Así, el estudio de organismos simples ha ayudado a
comprender, a nivel celular, la manera en que se lleva a cabo el
aprendizaje. Por otro lado, el estudio comparativo en animales de
diferentes especies han permitido observar que algunos procesos
neuronales tienen características comunes a todos estos sistemas. Por
ejemplo parece que las neuronas y sinapsis del hombre son muy
parecidas a las neuronas y sinapsis de organismos simples; esto nos dice
que no existen grandes diferencias en su estructura, su química y sus
funciones. Por otro lado, no es posible diferenciar entre distintos tipos de
neuronas de un mismo individuo, o aun entre neuronas pertenecientes a

individuos de especies diferentes, viendo tan solo el registro de un

impulso nervioso de estas.
b. LA MEMORIA DEL HOMBRE
A partir de su nacimiento el hombre tiene que aprender una gran cantidad

de cosas, que van desde el control voluntario de cada una de las partes
de su cuerpo, hasta el desarrollo de su percepción, de la adquisición del
sentido común, de las cultura, de las reglas de carácter social, religioso.
Todos estos conocimientos fundamentales para su sobrevivencia. La
memoria, el aprendizaje y el olvido, son procesos acumulativos que
implican un cambio conductual, o en la forma de pensar, durante cierto
tiempo. Sabemos muy poco acerca de los mecanismos que intervienen en
el proceso de memorización a nivel global. Sin embargo, a este nivel
celular sabemos que la memoria esta relacionada con modificaciones
anatómicas y/o funcionales sinápticas.
La mayoría de los neurobiólogos opinan que todas las disposiciones

humanas para tener sentimientos, emociones, pensamientos, etc.
Residen en los patrones de interconexión de las neuronas. Por tanto otra
parte de ciertos neuro-moduladores controla y modifica la eficiencia de la
sinapsis. Ahora es importante establecer un puente entre los mecanismos
de almacenamiento de la información a nivel celular y a nivel global en el
cerebro, esto es, encontrar los mecanismos de almacenamiento a un nivel
de organización más alto.
Existen evidencias de que en el hombre las funciones complejas del

cerebro, como el razonamiento abstracto, tienen lugar en la corteza
cerebral. Antiguamente se pensaba que el aprendizaje tenía lugar en
regiones limitadas y especificas de la corteza. De esta manera se
suponía, por ejemplo que los lóbulos frontales tenían un papel
fundamental en la memorización necesaria para resolver problemas. Sin
embargo se han encontrado que animales, a los cuales se les han
removido quirúrgicamente la totalidad de la corteza cerebral, si bien

pierden su capacidad para aprender tareas complejas, continúan

manifestando cierta capacidad para ser condicionados.
Se encontró que en los humanos todas las partes de la corteza cerebral

son igualmente importantes para el aprendizaje. Al analizar el
comportamiento de individuos con lesiones en esta región del cerebro, se
descubrió que mientras mayor cantidad de corteza dañada, mayor es la
incapacidad posterior del individuo para memorizar y realizar tareas
complejas. Esto independientemente de la localización de la parte
afectada.
Sabemos que el cerebro existe la substitución funcional de unas neuronas

por otras, a diferentes niveles. Continuamente el número de nuestras
neuronas decrece, pues la neuronas no tienen capacidad de
reproducción. Sin embargo, la falta de un número pequeño de neuronas
con respecto al número total, no produce cambios apreciables en el
desempeño de la memoria. A otro nivel, se ha observado que la remoción
quirúrgica de una parte de los lóbulos temporales, practicada para
controlar la epilepsia, puede producir problemas de memoria. cuando esta
remoción se practica únicamente en el lóbulo dominante, el paciente
puede tener problemas para aprender de nuevo el material verbal hasta
por tres años después de la cirugía. Esto es aunque hay perdida de
material almacenado, con el tiempo se logra la sustitución funcional de
una neuronas por otras y el material puede rea prendido. Por supuesto, el
grado de recuperación depende del tamaño del área afectada.
Los argumentos anteriores nos sugieren lo siguiente:
 El aprendizaje se lleva a cabo fundamentalmente en la corteza

cerebral

 El aprendizaje no es una función exclusiva ni de la corteza, ni de

las regiones particulares de ésta
El cerebro esta formado por un número muy grande de neuronas. Se

considera que este tipo es el orden de 10E11 células, y que en promedio
cada una de ellas recibe o envía información de otras 10E4 células. De
esta manera que el número total de conexiones en el cerebro debe ser del
orden de 10E15. Se cree que dentro de esta maraña de conexiones, los
caminos principales de comunicación se encuentran predeterminados por
la herencia, de manera que las extensiones neuronales crecen durante la
gestación hasta aquellos lugares donde posteriormente serán requeridas
después del nacimiento, de manera que el tamaño y estructura de la red
cambia radicalmente continua, durante la vida de los individuos. Esta
programación, que se consigue después del nacimiento, esta relacionada
con el aprendizaje y una parte importante tienen relación con la memoria.
Básicamente tiene lugar a través de dos mecanismos:
1. La modificación de las estructuras interconexión

2. Cambio de la eficacia de la sinapsis.
C. LA FÍSICA ESTADÍSTICA Y EL CEREBRO
El cerebro humano es de una gran complejidad; se trata del sistema más

complejo que conocemos en la naturaleza. Sin embargo, si la física
estadística ha de ser exitosa en su tarea de describir algunos aspectos
colectivos de funcionamiento del cerebro, como el almacenamiento y
llamado de información, necesita proporcionar un modelo con las
características siguientes: debe describir el cerebro o alguna sub-parte de
éste de la manera más sencilla posible, y ha de ser capaz de captar los
ingredientes fundamentales responsables de llevar a cabo los procesos
que nos ocupan. Esto es, se necesita de un modelo simple que prediga, a

partir de las características individuales relevantes de un arreglo de

neuronas y de sus interacciones, un comportamiento colectivo con ciertas
características.
Desde hace algunos años, ha habido intentos por hacer modelos físicos
muy simples para describir algunos aspectos del cerebro. Estos modelos
se basan en el hecho de que el cerebro tiene un gran número de
neuronas, del orden de 1010 a 1011,22 y en que no es relevante la
contribución individual especifica de cada una de ellas. Por lo anterior, es
razonable suponer que debe haber un mecanismo colectivo involucrado
en las funciones que señalamos anteriormente; de ser así, parece
adecuado hacer un tratamiento probabilístico de la actividad neuronal.
En esta medida podríamos introducir un modelo muy simple, tomando de

la física estadística, para describir el comportamiento colectivo de un
conjunto muy grande de neuronas interconectadas. Aunque este modelo
es completamente inadecuado para explicar y predecir el comportamiento
de las neuronas a otros niveles, se ha encontrado que capta algunas
características fundamentales que permiten ver estos sistemas como
almacenes de información.
Al modelo que hacemos mención se basa en una analogía matemática

que puede ser establecida entre algunas características de una red de
neuronas interconectadas, y un tipo de de materiales magnéticos
denominados vidrios de spin
11. REDES NEURONALES

A. DEFINICIÓN DE NEURONA
Hasta ahora se ha dado algunos temas preliminares, porque si no se

hubiesen agregado a esta investigación quizá el lector no pueda
comprender lo que es en si una red neuronal. También se ha dado

definiciones de lo que es una neurona, pero una definición mas formal es

la siguiente:
Una neurona es una celda del cerebro cuya función principal es la

recogida, procesamiento y emisión de señales eléctricas. Se piensa que
la capacidad de procesamiento de información del cerebro proviene
principalmente de redes de este tipo de neuronas. Por esta razón algunos
de los primeros trabajos en IA pretendían crear redes neuronales
artificiales (también conocidas como conexionismo, procesamiento
distribuido paralelo y computación neuronal). Desde otra perspectiva,
la neurona se “dispara” cuando una combinación lineal de sus entradas
excede un determinado umbral (punto donde se nota el efecto). Desde
1943 se han desarrollado modelos más realistas y detallados, tanto para
neuronas como para sistemas más grandes del cerebro, llevándonos al
campo moderno de la neurociencia computacional. Por otro lado los
investigadores de IA y de estadística han tenido un mayor interés en las
propiedades más abstractas de las redes neuronales, tales como su
habilidad para el desarrollo computacional distribuida, para tolerar el ruido
de la entrada y el aprendizaje. Aunque ahora comprendemos que otras
clases de sistemas tienen estas propiedades, las redes neuronales
permanecen como una de las formas más populares y efectivas de
construir sistemas de aprendizaje.
α i=g´ (¿i )
α 0=1
W 0 , i=1
∫ g
∑¿i
αi
W j ,i
aj
Conexiones de Función de la Función de Salida Conexiones de

las entradas entrada activación salidas
Un modelo matemático sencillo para neurona

B. UNIDADES EN REDES NEURONALES
Las redes neuronales están compuestas de nodos o unidades

conectadas a través de conexiones dirigidas. Una conexión de la unidad j
a la unidad i sirve para propagar la activación a j de j a i. además cada
conexión tiene un peso numérico W j ,i asociado, que determina la fuerza y
el signo de la conexión. Cada unidad i calcula una suma ponderada de
sus entradas:
n
¿i =∑ W j ,i a j
j=0
Luego aplica una función de activación g a esta suma para producir la

salida:
a i=g ( ¿i )=g ¿)
La función de activación g se diseña con dos objetivos. Primero,

queremos que la unidad este activa (cercana a+1) cuando se
proporcionen las entradas correctas, e inactiva (cercana a 0) cuando se
den las entradas erróneas. Segundo la activación tiene que ser no lineal,
en otro caso la red neuronal en su totalidad se colapsaría con una
sencilla función lineal. En la figura se muestran dos posibles funciones g:
la función umbral y la función sigmoide. La función sigmoide tiene una
gran ventaja de poderla diferenciar, es importante para el algoritmo de
aprendizaje de los pesos.

Función de activación umbral
Podemos asemejar la operación de las unidades individuales a puertas

lógicas. Una de las motivaciones originales para el diseño de unidades
individuales fue su habilidad de presentar funciones booleanas básicas
ANDw 0=1.5,
w 1=1., w 2=1,
OR w 0=0.5 , w 1=1
w 2=1
NOT w 0=0.5 , w 1=1
Las unidades con una función de activación umbral pueden actuar como
puertas lógicas, con entradas y peso de sesgo apropiados.

C. ESTRUCTURA DE LAS REDES
Hay dos categorías principales de estructuras de redes neuronales que

son a cíclicas o redes de alimentación hacia delante y cíclicas o redes
recurrentes.
Las redes con alimentación hacia delante representan una función de sus
entradas actuales; de este modo no tiene otro estado interno que no sea
de sus propios pesos. Por otro lado, las redes recurrentes dejan que sus
salidas alimentes sus propias entradas. Esto significa que los niveles de
activación de una red forman un sistema dinámico que debe de alcanzar
un estado estable, exhibir oscilaciones o incluso un comportamiento
caótico. Además, la respuesta de la red dada unas entradas depende de
su estado inicial, que dependerá de entradas previas. Por lo tanto las
redes recurrentes (a diferencia de las redes con alimentación hacia
delante) pueden tener memoria a corto plazo. Esto las hace mas
interesantes como modelos del cerebro, pero también mas difíciles de
entender.
Ahora bien, si la afirmación que dice que una red con alimentación hacia
delante representa una función de sus entradas. (Figura) consideremos
una red que tiene dos unidades de entrada, dos unidades ocultas y una
unidad de salida. Dado un vector de entrada x= ( x 1 , x 2), las activaciones
de las unidades de entrada se ponen a (a 1 , a2=x 1 , x 2 y la red calcula esto:
a 5=g ( W 3,5 a3 +W 4,5 a4 ) =g ¿))

Red neuronal con dos entradas, una capa oculta de dos unidades y una sencilla
Lo que esta función nos quiere decir, es que expresa la salida de cada
unidad oculta como una función de sus entradas, hemos mostrado la
salida de la red como una suma, a 5, en función de sus entradas de la red.
Además, observamos que los pasos de la red actúan como parámetros
de la función; escribiendo W para los parámetro, la red. Esta es la manera
en que se produce el aprendizaje en las redes neuronales.
Una red neuronal se puede usar para clasificación o para regresión. Para
clasificaciones booleanas con entradas continuas, es tradicional tener una
única unidad de salida, con un valor por encima de 0.5 interpretando
como una clase y como un valor por debajo de 0.5 como otra. Para la
clasificación en k-clases, se pude dividir el rango de la unidad de salida en
k partes, pero es más común tener k unidades de salida separadas,
donde el valor de cada una representa la verosimilitud relativa de esta
clase dada una entrada actual.
Las redes neuronales con alimentación hacia delante normalmente se

organizan en capas de forma que cada unidad recibe entradas
únicamente de las unidades de la capa que la precede inmediatamente.

D. REDES NEURONALES DE UNA SOLA CAPA CON

ALIMENTACIÓN HACIA DELANTE (PERCEPTRONES)
Una red con todas las entradas conectadas directamente a las salidas se
denominan red neuronal de una sola capa o red perceptrón. Ya que
cada unidad de salida es independiente de las otras (cada peso afecta
una sola de las salidas) para hacer una explicación más simple
hablaremos de perceptrones con una unidad de salida (figura).
Comencemos examinando el espacio de hipótesis que un perceptrón

puede representar. Con una función de activación de umbral, el
perceptrón puede representar una función booleana. Además de las
funciones booleanas elementales AND, OR y NOT, un perceptrón puede
representar algunas funciones booleanas un poco usuales de forma
compacta. Por ejemplo, la función mayoría, cuya salida es 1 sólo si más
de la mitad de sus n entradas están a 1, puede representarse con un
perceptrón con peso W j=1 y umbral W 0 =n/2. Para crear un árbol de
decisión necesitamos O(2n) nodos para representar esta función.
Desafortunadamente, si existen muchas funciones booleanas que el

perceptrón umbral no puede representar. Mirando la ecuación,
observamos que el perceptrón umbral devuelve 1 si y solo si la suma
ponderada de sus entradas (incluyendo los sesgos) es positiva:
∑ W j x j >0 o W ⋅ x >0
j=0
La ecuación W ⋅ x=0 define un hiperplano en el espacio de entrada, así

que el perceptrón umbral se denomina separador lineal. La figura
muestra un hiperplano para la representación mediante un perceptrón de
la funciones AND Y OR de dos entradas. Los puntos negros indican un
punto del espacio de entrada donde ele valor de la función es 1, y los
puntos blancos indican un punto donde el valor es 0. El perceptrón puede
representar estas funciones porque existe una recta que separa todos lo
puntos blancos de todos los puntos negros. A estas funciones se les

denomina linealmente separables. La figura muestra un ejemplo de una

función que no es linealmente separable: la función XOR. Claramente, no
hay manera de que el perceptrón umbral aprenda esta función. En
general, los perceptrones umbral pueden representar solo funciones
linealmente separables. Estas constituyen sólo una pequeña fracción de
todas las funciones.
A pesar de su poder de expresividad limitada, los perceptrones umbral

tienen algunas ventajas. En particular, existe un algoritmo de aprendizaje
sencillo que ajusta un perceptrón umbral a cualquier conjunto de
entrenamiento que sea linealmente separable. En vez de presentar este
algoritmo, obtendremos un algoritmo muy relacionado para el aprendizaje
en perceptrones sigmoides.
La idea de algoritmos para aprendizaje de redes neuronales, es ajustar

los pesos de la red para minimizar alguna medida del error del que se
produce con el conjunto de entrenamiento. Así, el aprendizaje el
aprendizaje se formula como una búsqueda optimizada en el espacio de
pesos. La medida clásica del error es la suma de los errores cuadrados
que se usa en la regresión lineal. El error cuadrado para un único
ejemplo de entrenamiento con entrada x y valor verdadero de la salida y
es:
1 1
E= Er r 2 ≡ ¿
2 2
Donde h w ( x ) es la salida del perceptrón para el ejemplo e y es el valor real

de la salida.
El algoritmo completo se muestra en la figura… introduce en la red los

ejemplos de entrenamiento uno a uno, ajustando los pesos un poco
después de cada ejemplos para reducir el error. Cada ciclo con todos los
ejemplos se denomina época. Las épocas se repiten hasta que se
alcanza un criterio de parada. Otros métodos calculan el gradiente para el
conjunto total de entrenamiento añadiendo todas las contribuciones del

gradiente en la ecuación (W j ← W j+ α × Err × g´ (¿)× x j ) antes de actualizar

los pesos. El método estocástico selecciona ejemplos aleatoriamente
del conjunto de entrenamiento en vez de hacer ciclos con ellos.
Hasta aquí se ha tratado a los perceptrones como funciones

determinísticas con salidas erróneas posibles. También es fácil interpretar
la salida de un perceptrón sigmoide como una probabilidad;
específicamente la probabilidad de que la salida verdadera de una dadas
las entradas. Con esta interpretación, se puede usar la sigmoide como
una representación canoníca para distribuciones condicionadas en redes
bayesianas
función APREDIZAJE-PERCEPTRON (ejemplos de red) devuelve perceptrón como hipótesis
entrada: ejemplos, un cojunto de ejemplos, cada uno con entrada x= x 1 , … , x n y salida y red,
un perceptrón con pesos W j , j=0… n, y función de activación g
repetir
para cada e en ejemplos hacer
in← ¿
Err← y [ e ] −g ( ¿ )
W j ← W j+ α × Err × g´ (¿)× x j [e ]
hasta que se satisfaga algún criterio de parada
devolver HIPOTESIS-RED- NEURONAS(RED)
El algoritmo de aprendizaje del descenso del gradiente para perceptrones, asumiendo una función de
activación g
E. REDES NEURONALES MULTICAPA CON

ALIMENTACIÓN HACIA DELANTE

Ahora consideramos redes con unidades oculta. El caso mas común

supone una única capa oculta, como la figura. La ventaja de añadir capas
ocultas es que se amplia el espacio de hipótesis que puede representar la
re. Piense en cada unidad oculta como un perceptrón que representa una
función umbral suave en el espacio de entradas, como la figura.
Entonces, podemos pensar en una unidad de salida como una
combinación lineal con umbral suave de varias de estas funciones. Por
ejemplo, añadiendo dos funciones de umbral suave que se oponen y
pasando el umbral al resultado, podemos obtener una función “cresta”
(figura).
Combinando dos de estas crestas, haciendo un ángulo recto entre ellas

(es decir, combinando la salida de cuatro unidades ocultas), obtenemos
un “montículo” (figura).
Si queremos mas unidades ocultas, podemos producir mas montículos de

diferentes tamaños en mas lugares. De hecho con una única capa oculta
suficientemente grande, es posible representar cualquier función continua
de las entradas con una precisión arbitraria; con dos capas, incluso se
pueden representar funciones discontinuas. Desafortunadamente, para
una estructura de res determinada, es difícil caracterizar exactamente qué
funciones pueden ser representadas y cuales no.
Supongamos que queremos construir una red con una capa oculta de 10
entradas, la figura muestra la red.
Los algoritmos de aprendizaje para redes multicapa son similares al

algoritmo de aprendizaje de perceptrón. Una pequeña diferencia es que
podemos tener varias salidas, así que tenemos un vector de salida y. la
mayor diferencia es que , mientras que el error y-h w en la capa de salida
es claro, el error en las capas ocultas no se conoce, porque los datos de
entrenamiento no dicen cual es el valor que han tomando los nodos
ocultos. Resulta que podemos propagar hacia atrás el error desde la
capa de salida a las capas ocultas. El proceso de propagación hacia atrás

proviene directamente a partir del gradiente del error total. El algoritmo es

el siguiente:
función APRENDIZAJE-PROP-ATRÁS(ejemplos, red)devuelve una red neuronal
entrada: ejemplos, un conjunto de ejemplos, cada uno con vector de entrada x y un vector de
salida y red, una red multicapa con L capas, pesos W j ,i función de activación g
repetir
para cada e en ejemplos hacer
para cada nodo j en la capa de entrada hacer a j ⟵ x j [e ]
para l=2 a M hacer
¿i ⟵ ∑ j W j ,i a j
ai ⟵ g ( ¿i )
para cada nodo i en la capa de salida hacer
△ i ⟵ g´ ( ¿i ) ⋉( y i [e ]−a i)
Para l=M −1a 1 hacer
Para cada nodo j en la capa l hacer
△ i ⟵ g´ ( ¿ j ) ∑i W j , i △ i
Para cada nodo i en la capa l +1 hacer
W j ,i ⟵W j ,i + α ⋉ α j ⋉ △ i
Hasta que se satisfaga algún criterio de parada
Devolver HIPOTESIS-RED-NEURONA(red)
El algoritmo de propagación hacia atrás para aprendizaje de redes multicapa

F. APRENDIZAJE DE LAS ESTRUCTURA DE LAS

REDES NEURONALES
Necesitamos comprender como encontrar la mejor estructura de la red. Si

elegimos una red que es demasiado grande, será capaz de memorizar
todos los ejemplos formando una gran tabla de búsqueda, pero no
generalizará necesariamente bien para entradas que no se han visto
anteriormente. En otras palabras, como todos lo modelos estocásticos, las
redes neuronales son sujeto de sobre-ajuste cuando hay demasiados
parámetros en el modelo.
Si nos centramos en redes totalmente conectadas, las únicas elecciones

por las que nos podemos preocupar son el número de capas ocultas y su
tamaño. El enfoque mas usual es intentar varias y quedarnos con la
mejor. Se necesitan las técnicas de validación cruzada si queremos
evitar el peeking del mejor conjunto. Es decir elegimos la arquitectura de
la red que proporciona la mayor precisión de predicción en los conjuntos
de validación.
Si queremos considerar redes que no están conectadas en su totalidad,

necesitamos encontrar algún método de búsqueda efectivo a través de
gran espacio de topologías de posibles conexiones. El algoritmo de daño
cerebral óptimo (optimal brain damage) comienza con una red
totalmente conectada y va eliminando conexiones. Después de que la red
esta entrenada por primera vez, un enfoque teórico de información
identifica una selección optima de las conexiones que pueden ser
eliminadas. La red vuelve a entrenarse, y si su rendimiento no se ve en
descenso se repite el proceso. Además de la eliminación de conexiones,
también es posible eliminar unidades que no contribuyen mucho al
resultado.
Se han propuesto varios algoritmos para conseguir una red más grande,
aumentando una red más pequeña. Uno de estos algoritmos es el
algoritmo de Tiling, se parece al aprendizaje de listas de decisión. La idea

es comenzar con una única unidad que se comporta de la mejor manera

posible para devolver la salida correcta par tantos ejemplos de
entrenamiento como sea posible. Se añaden más unidades para corregir
los ejemplos en los que la primera unidad falló. El algoritmo añade sólo
las unidades necesarias para cubrir todos los ejemplos.
12. COMPUTADORAS NEURONALES
La tecnología ha permitido “simular” redes neuronales mediante

programas que operan en computadoras convencionales. Esto es, se
hace se hace un programa en el que se definen los elementos base de
tipo neurona, y se supone una regla de aprendizaje; esta regla da un
valor para las interacciones entre las neuronas, como una función de los
datos administrados a la maquina. La rapidez de operación y la capacidad
obtenidas mediante el uso de estos programas son mucho menores que
las que se lograrían mediante el uso de una computadora neuronal (red
neuronal implementada en circuitos). Sin embargo aunque estos
programas son lentos, dan resultados mas satisfactorios que logrados con
algoritmos complicados. Por otro lado, constituyen una operación
económica con respecto a las computadoras con arquitectura neuronal,
ya que no es necesario comprar una computadora de uso especifico.
Un ejemplo concreto de la eficiencia de las redes neuronales nos lo dan

los programas cuyo propósito es la conversión de texto escrito a ingles
hablado (con ayuda de un sintetizador de voz). En este sentido el idioma
ingles presenta un gran reto, ya que aunque cuentan con muchas reglas
fonéticas, estas reglas tienen un gran número de excepciones y casos
particulares. Por otro lado, lo ideal seria que la computadora “lea de
corrido”, lo cual hace que se requiera gran rapidez del procesamiento de
la información. A l o largo de varios años, fue desarrollado un paquete de
software (para la computadora tradicional) llamado DECtalk. Este sistema,
aunque de mucha complejidad, fue capaz de llevar a cabo esta tarea de

manera satisfactoria, esto es, con pequeños y ocasionalmente errores de

pronunciación. Recientemente, se creo un nuevo sistema llamado
NETtalk, con el mismo objetivo. En este caso, a sus creadores les tomo
menos de tres mese desarrollar, a partir de cero, un sistema que
efectuara la misma tarea con una eficiencia similar. Resulta curioso,
aunque predecible, que durante la etapa de entrenamiento del sistema
este cometía el mismo tipo de errores que los niños pequeños.
Con respecto a la arquitecturas neuronales, ya han sido patentadas

varios modelos de éstas. En estas computadoras, cada neurona artificial
constituye un elemento procesador que funciona independientemente y
simultáneamente a los demás. Las diferencias principales entre las
computadoras tradicionales y las computadoras neuronales son las
siguientes:
Computadoras tradicionales Computadoras neuronales

Útiles para instrucciones precisas Útiles para resolver problemas en
los que no es posible dar una
receta precisa.
Excelentes para efectuar cálculos No muy confiables para efectuar
matemáticos cálculos matemáticos
Se “alimentan” con programas; que Se “alimentan” con datos; no se
requieren el uso de algoritmos requiere el uso de algoritmos
No aprenden; su desempeño es Aprenden mediante la inspección
siempre el mismo de datos; su desempeño mejora
con la cantidad de información
recibida
No toleran errores Toleran errores
No se equivocan (si acaso el que Pueden equivocarse
se equivoca es el programador)
No usan los datos guardados en su Usan activamente, toda la
memoria al menos que estos sean información guardad en la memoria
explícitamente llamados por el
programa
Su funcionamiento depende del Su funcionamiento no se ve
buen funcionamiento de todos sus alterado por la falla de un pequeño

componentes. numero de sus componentes.
¿Que nos deparara el futuro? Los países capitalistas han llevado a cabo
bajo las presiones de intereses políticos y económicos, principalmente.
Dentro de este contexto, la creación de maquinas “pensantes” es de
primordial importancia, debido a su potencialidad de comercialización y a
su uso con objetivos militares. Podríamos decir que su rango de
aplicaciones seria prácticamente ilimitado.
Lo anterior ha sido advertido por los gobiernos poderosos, quienes

apoyan de manera substancial proyectos institucionales y regionales cuyo
propósito es la planeación de la investigación en este campo. Como
muestra de lo anterior tenemos que Alemania tiene un presupuesto
gubernamental de 100 millones de dólares destinados exclusivamente en
el desarrollo de esta área; Japón tiene un programa llamado fronteras
humanas, y la comunidad económica Europea ha creado un programa
llamado BRAIN (investigación básica en inteligencia adaptiva y
neurocomputación). Por otro lado, a finales de de 1988 la oficina de
tecnología táctica del gobierno de Estados Unidos de América recomendó
una inversión federal de casi 400 millones de dólares para investigación y
desarrollo de redes neuronales. De igual manera, en estos países se han
venido formando asociaciones científicas de investigadores activos y
estudiantes interesados en estos proyectos. Estas asociaciones agrupan
personas con diversas formaciones profesionales, que incluyen
psicólogos, neurobiólogos, matemáticos, computólogos, físicos e
ingenieros.
También la iniciativa privada ha dedicado fuertes sumas de dinero para el

desarrollo de sus proyectos de redes neuronales. Se calcula que para
finales de 1988 había ya más de 200 compañías privadas en los Estados
Unidos dedicas a la fabricación de redes neuronales; por otro lado,
cualquier revista de computación contiene una larga lista de artículos
relacionados con esta nueva tecnología que evoluciona día con día. Los

cambios pequeños de las maquinas se dan mediante un proceso similar

al de la “selección natural”. Un fabricante introduce variaciones a su
producto que lo hacen más útil o, al menos, mas atractivo para el
consumidor. Como el resultado, el producto gana mercado a los
productos elaborados por sus competidores. Estos últimos para subsistir y
recuperar mercados, deben de renovar su producto introduciendo
características análogas y superiores a la de los productos de los
fabricantes.
Bajo toda esta presión, las redes neuronales tendrán un gran impulso en
los años que se avecinan, y que esto repercutirá, aun más, en todos los
aspectos de nuestra vida. Estas computadoras no sustituirán a las
computadoras convencionales, sino que las complementarán. De manera
que podremos contar con computadoras hibridas, que utilicen uno u otro
tipo de computación, dependiendo del problema, o de la parte del
problema a resolver. Pero ¿Qué tan lejos nos encontramos de construir
maquinas tan poderosas como el cerebro humano?
El cerebro humano tiene un numero de conexiones de orden de 1015, y

transmite 1016 impulsos eléctricos por segundo; por otro lado el cerebro de
una mosca trabaja enviando 109 señales por segundo. En comparación a
la neurocomputadora TRW Mark V tiene 107 interconexiones y envía 1.6 *
107 señales por segundo; y los programas de redes neuronales escritos
para computadoras personales funcionan típicamente con 30 000
interconexiones que envían 25 000 señales por segundo. Como podemos
ver a partir de estas cifras, existe un abismo entre el cerebro humano y
las neurocomputadoras.
13. APLICACIONES DE LAS REDES

NEURONALES

a. BIBLIOMETRÍA
La Bibliometría es una disciplina que estudia los aspectos cuantitativos de

la información registrada, para ello se han creado una serie de modelos
estadísticos que aportan datos numéricos sobre el comportamiento de la
actividad científica. También se han adaptado modelos de otras
disciplinas para facilitar los análisis y representar los resultados
desarrollados a partir de la Bibliometría. Los mapas auto-organizados
(SOM) o modelo de Kohonen (basado en las RNA) es una de estas
herramientas.
En los estudios métricos la aplicación de las redes neuronales, y

específicamente los SOM, están asociados en lo fundamental con la
clasificación de información, o sea, la formación de cluster y su
representación en mapas bidimensionales de conceptos y más
específicamente con el descubrimiento de información (data mining). Este
último vinculado con la recuperación de la información con "ruido" e
incompleta o con el tratamiento de información que incluye diferentes
tipos de datos (números, texto, registros estructurados, etc.). Los SOM
facilitan que el conocimiento tácito se haga explícito, a partir de la
extracción no-trivial (a partir de los datos) de conocimientos implícitos
potencialmente útiles desconocidos previamente. Se podrán encontrar
patrones o estructuras en el conocimiento tácito. Las investigaciones
bibliométricas, a través de la utilización de las redes neuronales,
incursionan en:
• La selección de variables,
• Clasificación de información o formación de cluster,
• Regresión,
• Relaciones entre variables,
• Cambios y desviaciones,

• Representación de las variables.
Lo anterior se puede ejemplificar a partir de algunas aplicaciones

prácticas relacionadas con la evaluación de páginas web [8] y trabajos
relacionados con la clasificación de revistas en un determinado campo
temático.
Se conocen, además, investigaciones relacionadas con la minería de

textos (text mining) sobre todo aplicado a la asociación de palabras o co
-word.
En todos estos ejemplos se utiliza como variante de las RNA el modelo de

los mapas auto-organizativos (self-organizing map, SOM). En un análisis,
realizado por los autores sobre el tema, se examinaron cerca de 56
documentos sobre redes neuronales aplicadas al análisis de información,
con ello se constato que la mayoría utilizaban el modelo SOM como
herramienta de estudio. (2, 7, 8,12,16).
Un ejemplo de SOM podría ser.el estudio de una temática determinada,

para este caso en un mapa cada documento (artículo de revista, podría
ser una patente, una tesis, etc.) va a ocupar un lugar en el espacio, en
función de su contenido temático. Cada área del mapa va a reflejar un
contenido específico y los tópicos van variando levemente a lo largo del
mismo.
Las diferentes tonalidades indican la densidad de documentos, cuanto

más oscura más documentos se encuentran.
Este uso frecuente de los SOM quizás se deba a lo amigable de la

interfaz de los mapas para los usuarios finales y a la diversidad de sus
utilidades prácticas, estas representaciones son válidas para poder
identificar, además de los desarrollos temáticos antes mencionados,
relaciones entres áreas temáticas y publicaciones, alianzas estratégicas y
características de la cooperación. Permite, también, visualizar los avances

tecnológicos que tienen lugar en un período, conocer la evolución de una

tecnología a través del tiempo e identificar campos emergentes.
En el acápite anterior se mencionó al Viscovery SOMine como un

software que ha automatizado el modelo SOM. Este sistema es utilizado
por un equipo de trabajo del Instituto Finlay para elaborar mapas
científico-tecnológicos. La lógica de funcionamiento del Viscovery SOMine
como se muestra en la siguiente figura:
El punto de partida, para el uso de esta herramienta, es la entrada de un

conjunto de datos numéricos (datos multivariables, variables, “nodos” ).
Estos datos necesitan ser procesados con el objetivo de “organizarlos” en
forma de matrices. Los datos son convertidos hasta obtener una
información visual en forma de mapa, para ello se aplica un número de
técnicas de evaluación como coeficientes de correlación entre variables o
factores discriminantes [4, 13, 14]. Los mapas serán amigables a la vista
del usuario final, en ellos se identificarán dependencias entre parámetros,
cluster y gráficos que facilitarán predicciones o el proceso de monitoreo.

Se estima que a pesar de las limitaciones técnicas, las redes neuronales

aplicadas a la Bibliometría constituyen un campo de investigación muy
prometedor. Un ejemplo es presentado a continuación.
La disciplina multidisciplinar de las redes neuronales es aplicada en esta

sección, donde se asume a la producción de los documentos de patentes
como indicador de la capacidad de desarrollo industrial. El objetivo es
identificar posibles competidores, alianzas estratégicas, dependencia
tecnológica, etc. Se escogió para el primer ejemplo la representación de
la situación tecnológica de la Neisseria meningitidis.
Las diferentes instituciones en la primera hoja de sus patentes hacen

referencias a otras patentes, a partir de estos datos se puede inferir el
impacto que produce una tecnología o institución en otra. Con el objetivo
de determinar la dependencia tecnológica entre instituciones, se realizó
un análisis de citas, estas formaron los cluster que aparecen en la figura

El mapa tecnológico presentado en la figura anterior representa a tres

cluster: cluster 1 formado solamente por la Merck & Co., un cluster 2
formado únicamente por el National Res. Council of Canada y el cluster 3
que incluye al resto de las instituciones. Este último grupo está formado
por una gran cantidad de instituciones que tienen igual estrategia de
citación, sobre todo las representadas con colores más claros y sin límites
de separación. Se presupone que estas firmas se basan para su
desarrollo en su propia base tecnológica, pues citan poco a otras
instituciones. El cluster 2 evidencia un alto nivel de autocitación, cuando
esto sucede, algunos investigadores en el tema señalan que
probablemente esta institución tenga un nicho de protección cerrada
sobre un espacio tecnológico. Puede estar ocurriendo que exista una
patente importante, la cual se ha rodeado de invenciones mejoradas. El
cluster formado por la Merck & Co. indica un mayor nivel de citación, esto
presupone una estrategia balanceada: absorbe tecnología externa y
produce tecnología propia. La cercanía de los cluster también es una
evidencia sobre las instituciones que tienen estrategias parecidas a la de
otras. La Rockefeller University hace frontera con el cluster que incluye a
North American Vaccine, y el National Res. Council de Canada; estas
instituciones forman un colegio tecnológico invisible que basa sus
desarrollos en la misma innovación tecnológica.
Otra aplicación se presenta en un campo diferente del conocimiento: la

agricultura. En este ejemplo no solo se tomó como elemento de entrada la
producción documental de determinados países, también se consideraron
otros tipos de variables como "gastos en I+D" en cada uno de los países
analizados, "personal dedicado a actividades de I+D", etc.

En la figura se presenta un mapa auto-organizado sobre la actividad en

ciencia agrícola en América Latina y el Caribe (se seleccionaron algunos
países según los datos disponibles).
Con ello se pretende lograr una representación de la región, teniendo en

cuenta los indicadores de insumo y de resultados más significativos. En la
figura aparecen, en dos dimensiones, 22 países. La semejanza de los
países, considerando de forma simultánea los 20 indicadores, se expresa
mediante la cercanía de estos en el mapa. Los 22 países se agrupan
(autorganizan) en 3 clusters o grupos: El cluster C1, que aparece en la
esquina inferior izquierda, es seguido por una banda de 4 países
correspondientes al cluster C2 (Cuba, Colombia, Chile y Venezuela) y otro
cluster (C3) con el resto de los países.
En el ámbito regional e internacional hay un grupo de países formado por

Brasil, México y Argentina que tiene una investigación en la temática con
mayor solidez y con parecidos niveles de desarrollo. Esto coincide con los
países que presentan mayor nivel regional en el desarrollo agrícola.

B. ANÁLISIS DE DATOS
Dado nuestro interés por la aplicación de las RNA en el análisis de datos,

de los 549 registros cuya área temática es la comparación entre RNA y
otro tipo de modelos (estadísticos, sistemas expertos, etc.), nos
centramos en el análisis de los 380 estudios que comparan de forma
específica modelos estadísticos y RNA. Siguiendo la sugerencia de Flexer
(1995), dividimos este conjunto de trabajos en dos grandes grupos: los
que se dedican a hacer comparaciones teóricas (con 32 trabajos) y los
que se centran en comparaciones empíricas (con 348 trabajos).
En el primer período de la reemergencia del conexionismo que hemos

situado en la segunda mitad de los 80, la idea que se trataba de
transmitir consistía en que los modelos neuronales habían surgido como
una forma totalmente novedosa de solucionar problemas de clasificación
y predicción, sobrepasando siempre en eficacia a las técnicas tachadas
de convencionales, como las estadísticas. A lo largo de la década de los
90, una vez reconocido el campo de las RNA ante la comunidad científica,
surgieron una serie de trabajos teóricos cuya comparación entre RNA y
estadística pone de manifiesto la similitud y, en muchos casos, la
identidad entre ambas perspectivas.
Uno de los aspectos que han fomentado la idea errónea acerca de las
diferencias entre RNA y estadística versa sobre la terminología utilizada
en la literatura de ambos campos. Recordemos que el campo de las RNA
surge como una rama de la IA con una fuerte inspiración neurobiológica y
su desarrollo ha sido debido a la contribución de investigadores
procedentes de una gran variedad de disciplinas. A continuación, se

presenta la tabla 3 en la que se pone de manifiesto que las RNA y la

estadística utilizan términos diferentes para nombrar el mismo objeto
(Sarle, 1994; Vicino, 1998).
De forma análoga, se puede establecer una similitud entre modelos

estadísticos y modelos de redes neuronales (ver tabla 4) (Sarle, 1994).

Así, se pone de manifiesto que la mayoría de redes neuronales aplicadas

al análisis de datos son similares y, en algunos casos, equivalentes a
modelos estadísticos bien conocidos. Vamos a describir las relaciones
que se han establecido a nivel teórico entre ambas perspectivas.
Según Sarle (2002), un Perceptrón simple puede ser considerado como

un Modelo Lineal Generalizado (MLG) (McCullagh y Nelder, 1989), debido
a la equivalencia entre el concepto de función de enlace en un MLG y la
función de activación de la neurona de salida en un Perceptrón:
Y ≅ f (X , W )
Donde el valor de la variable de respuesta Y (o variable de salida) se

obtiene aplicando una función de enlace (o función de activación) sobre
una combinación lineal de coeficientes W (o pesos) y variables
explicativas X (o variables de entrada).
La función de enlace en un MLG no suele estar acotada y, en la mayoría

de casos, es necesario que sea monótona como las funciones identidad,
recíproca y exponencial. Por su parte, la función de activación en un
Perceptrón puede estar acotada, como la función sigmoidal logística, o
puede no estarlo, como la función identidad; sin embargo, en general
todas ellas son monótonas.
El concepto de discrepancia en un MLG y el concepto de función de error

en un Perceptrón también son equivalentes (Biganzoli, Boracchi, Mariani y
Marubini, 1998). En el caso del Perceptrón la función que en general se
intenta minimizar es la suma del error cuadrático:

Donde P hace referencia al número de patrones, M hace referencia al

número de neuronas de salida, es la salida deseada para la neurona de
salida k para el patrón p e es la salida obtenida por la red para la
neurona de salida k para el patrón p. pk d pk y
Una diferencia importante entre ambos modelos radica en el método de

estimación de los coeficientes utilizado para minimizar la función de error.
Mientras el Perceptrón normalmente estima los parámetros del modelo
mediante el criterio de mínimos cuadrados, es decir, intentando minimizar
la función E (White, 1989; Cheng y Titterington, 1994; Ripley, 1994), el
MLG ajusta el modelo mediante el método de máxima verosimilitud para
una variedad de distribuciones de la clase exponencial (Sarle, 1994). Sin
embargo, Bishop (1995), entre otros, ha apuntado que el criterio de
mínimos cuadrados asumiendo un error con distribución normal obtiene
estimaciones máximo-verosímiles, tal como ocurre en el modelo lineal
general. De forma similar, se puede aplicar el método de máxima
verosimilitud a un Perceptrón en tareas de clasificación binaria asumiendo
un error con distribución de Bernoulli (Hinton, 1989; Spackman, 1992; Van
Ooyen y Nienhuis, 1992; Ohno-Machado, 1997; Biganzoli, Boracchi,
Mariani y Marubini, 1998). En este caso, la función de error que se intenta
minimizar se denomina cross entropy (Bishop, 1995) que viene dada por:
Utilizando esta función de error conseguimos que las salidas puedan ser
interpretadas como probabilidades a posteriori (Bishop, 1994). Sin
embargo, en general la obtención de los parámetros de una red se realiza

mediante un criterio de optimización sin tener en cuenta el tipo de

distribución de los errores, a diferencia de los MLG (Cheng y Titterington,
1994).
Otra importante diferencia entre RNA y modelos estadísticos consiste en

que los parámetros obtenidos por la red neuronal no son susceptibles de
una interpretación práctica. No podemos saber inmediatamente cómo los
pesos de la red o los valores de activación de las neuronas están
relacionados con el conjunto de datos manejados. Así, a diferencia de los
modelos estadísticos clásicos, no parece tan evidente conocer en una red
el efecto que tiene cada variable explicativa sobre la/s variable/s de
respuesta. Por tanto, es importante tener en cuenta que las similitudes
que se puedan establecer entre RNA y modelos estadísticos siempre
harán referencia al aspecto predictivo pero no al aspecto explicativo.
Como veremos más adelante, la problemática acerca del análisis del
efecto de las variables de entrada en una red neuronal constituye una
línea de investigación de interés para nuestro equipo.
Estableciendo analogías entre RNA y modelos concretos pertenecientes a

MLG, un Perceptrón simple con función de activación lineal en la neurona
de salida y utilizando la suma del error cuadrático equivale a un modelo
de regresión lineal (Liestol, Andersen y Andersen, 1994; Michie,
Spiegelhalter y Taylor, 1994; Sarle, 1994; Kemp, McAulay y Palcic, 1997)
(ver figura 5).

Una red MLP compuesta por tres capas cuya capa oculta de neuronas
utiliza una función de activación no lineal –en general, la función
logística--, puede ser vista como una generalización no lineal de los MLG
(Biganzoli, Boracchi, Mariani y Marubini, 1998).
La principal virtud de una red MLP que permite explicar su amplio uso en
el campo del análisis de datos es que se trata de un aproximador
universal de funciones. La base matemática de esta afirmación se debe a
Kolmogorov (1957), quien constató que una función continua de
diferentes variables puede ser representada por la concatenación de
varias funciones continuas de una misma variable. Esto significa que un
Perceptrón conteniendo al menos una capa oculta con suficientes
unidades no lineales, tiene la capacidad de aprender virtualmente
cualquier tipo de relación siempre que pueda ser aproximada en términos
de una función continua (Cybenko, 1989; Funahashi, 1989; Hornik,
Stinchcombe y White, 1989). También se ha demostrado que utilizando
más de una capa oculta, la red puede aproximar relaciones que impliquen
funciones discontinuas (Rzempoluck, 1998). Si no se utilizan funciones de
activación no lineales en la/s capa/s oculta/s, la red queda limitada a
actuar como discriminador/aproximador lineal.

Otra propiedad importante de las redes MLP es que son capaces de

manejar tareaelevada dimensionalidad mediante la utilización de
arquitecturas relativamsencillas. Esta propiedad está relacionada con el
hecho de que no es necesario introducir explícitamente en el modelo las
interacciones entre las variables explicativas, ya que sus posibles
interacciones son aprendidas por la red neuronal de forma automática en
elproceso de entrenamiento.
Por último, hemos comentado que las RNA estiman los pesos en base a
algún criterio de optimización sin tener en cuenta supuestos como el tipo
de distribución o la dependencia funcional entre las variables. Por este
motivo, las RNA han sido consideradas por muchos autores como
modelos no paramétricos (Smith, 1993). Sin embargo, autores de
reconocido prestigio como Bishop (1995) sostienen que las RNA y los
modelos estadísticos asumen exactamente los mismos supuestos en
cuanto al tipo de distribución; lo que sucede es que los estadísticos
estudian las consecuencias del incumplimiento de tales supuestos,
mientras que los investigadores de RNA simplemente las ignoran. En este
sentido, hemos visto el paralelismo que se establece entre los criterios de
minimización utilizados por las RNA y el método de máxima-verosimilitud,
bajo el cumplimiento de ciertos supuestos. Otros autores como Masters
(1993) son más flexibles y sostienen que supuestos como normalidad,
homogeneidad de variancias y aditividad en las variables de entrada son
características recomendables para una red neuronal aunque no son
estrictamente necesarias como sucede en los modelos estadísticos.
Este conjunto de propiedades convierten las redes MLP en herramientas

de propósito general, flexibles y no lineales. Dependiendo del tipo de
función de activación utilizado en la capa de salida, el MLP se puede
orientar a la predicción o a la clasificación. Así, en caso de utilizar la

función identidad en la capa de salida, estaríamos ante un modelo de

regresión no lineal (Cheng y Titterington, 1994; Ripley, 1994; Flexer,
1995) (ver figura 8).
La representación matemática de este tipo de arquitectura viene dada por:
donde fM y fL son las funciones de activación de las M neuronas de

salida y las L neuronas ocultas, respectivamente; θj es el umbral de la
neurona oculta j, wij es el peso entre la neurona de entrada i y la neurona
oculta j, y vjk es el peso entre la neurona oculta j y la neurona de salida k.
Una red MLP con funciones de activación logísticas en las salidas puede
ser utilizada como una Función Discriminante no lineal (Biganzoli,
Boracchi, Mariani y Marubini, 1998) (ver figura 9).
Como se puede observar en la figura, cada neurona oculta corresponde a

un límite no lineal entre la clase 0 y la clase 1. Así, la utilización de un

número considerable de neuronas ocultas permite obtener regiones de

decisión arbitrariamente complejas.
C. PSICOLOGÍA
La aplicación de las RNA en el campo de la Psicología puede

considerarse como incipiente en comparación a otros campos de
aplicación. En este sentido, realizamos examen mediante un análisis de
contenido sobre el papel que desempeñan las RNA las diferentes áreas
de nuestra disciplina. Para ello, nos centramos en el estudio de 132
registros que tratan sobre la aplicación de RNA en este ámbito.
Así, observamos que en el área de Evaluación, Personalidad y

Tratamiento los autores se interesan principalmente por el diagnóstico de
trastornos mentales (Zou et al., 1996). Un ejemplo ilustrativo lo ofrece el
trabajo de Pitarque, Ruíz, Fuentes, Martínez y García-Merita (1997),
quienes han desarrollado una RNA del tipo MLP con el objeto de clasificar
un grupo de sujetos en una de cuatro categorías diagnósticas (depresivo,
esquizofrénico, neurótico o mentalmente sano) a partir de las respuestas
dadas a un cuestionario elaborado por los autores en base a criterios
diagnósticos. El modelo resultante fue capaz de clasificar correctamente
el 91.7 % del conjunto de test. Por su parte, el equipo de Buscema (1995)
ha desarrollado, de forma pionera, un conjunto de RNA dirigidas a la
predicción del consumo de drogas, obteniendo resultados muy
satisfactorios. Como veremos más adelante, nuestro equipo ha
continuado esta línea de investigación aplicando redes MLP al consumo
de éxtasis en la población de jóvenes europeos.
En el área de Metodología los temas prioritarios versan sobre la

aplicación de RNA al reconocimiento de patrones (clasificación y
predicción) y su comparación con modelos estadísticos clásicos mediante

simulación. El equipo de Pitarque (Pitarque, Roy y Ruíz, 1998) ha

realizado una comparación entre redes MLP y modelos estadísticos
(regresión múltiple, análisis discriminante y regresión logística) en tareas
de predicción y clasificación (binaria o no binaria), manipulando los
patrones de correlación existentes entre los predictores (o variables de
entrada) por un lado, y entre predictores y el criterio (variable de salida)
por otro. Los resultados mostraron que en tareas de predicción, las RNA y
los modelos de regresión múltiple tienden a rendir por igual. Por el
contrario, en tareas de clasificación, en todo tipo de condiciones las RNA
rinden mejor que los modelos estadísticos de análisis discriminante y
regresión logística. Recientemente, Navarro y Losilla (2000) han realizado
una comparación entre RNA del tipo MLP y RBF (Radial Basis Function o
Funciones de Base Radial) (Broomhead y Lowe, 1988) y métodos de
imputación clásicos aplicados a la predicción de datos faltantes. Para ello,
se generó un conjunto de matrices en las que se manipuló la naturaleza
(discreta, ordinal o cuantitativa) y el grado de correlación de las variables,
y el porcentaje de valores faltantes. Los resultados ponen de manifiesto
que en la mayoría de situaciones las RNA son la técnica de elección para
realizar la imputación de datos faltantes.
Por su parte, el área de Procesos Psicológicos Básicos está centrada en

el modelado de procesos psicológicos y psicofísicos. Por ejemplo,
MacWhinney (1998) se ha centrado en el desarrollo de modelos de
adquisición del lenguaje mediante redes neuronales.
Los temas más recurrentes en el área de Psicología Evolutiva tratan

sobre la predicción del rendimiento académico (Hardgrave, Wilson y
Walstrom, 1994) y la aplicación de modelos conexionistas en educación.
En este sentido, Reason (1998) ha hecho uso de modelos PDP para crear

programas de enseñanza de la lectura y para entender mejor por qué se

producen dificultades de lectura en niños.
En el área de Psicología Social se trata generalmente de predecir y

modelar diferentes conductas sociales como, por ejemplo, el conocido
dilema del prisionero (Macy, 1996).
Por último, los autores del área de Psicofisiología se centran en el

modelado de procesos psicofisiológicos (Olson y Grossberg, 1998) y en la
clasificación de patrones EEG (Grözinger, Kögel y Röschke, 1998). Uno
de los autores más prolíficos en esta última línea de investigación es
Klöppel (1994).
D. LOS VIDEOS JUEGOS
En esta sección es tomada de un artículo del Departamento de Ciencia de

la Computación e Inteligencia Artificial de la universidad de Universidad
de Alicante. Traducida por el autor de esta investigación.
Driving-Bots with a Neuroevolved Brain:
Screaming Racers
la industria de los video juegos de hoy están fuerte como los ingresos de
la industria fílmica. Lo juegos de computadora son distribuidos a través
de todo el mundo y son vendidos a millones de personas. De varios tipos
diferentes de juegos, el mas popular es el “car racing”. Los
desarrolladores de este tipo de juego son cada vez más provistos de
sistemas de inteligencia artificial, así que sus controladores virtuales
pueden exhibir los comportamientos humanos. En este articulo les
mostramos como estos controladores virtuales pueden ser usados con

Neuroevolución así obtenemos varios y distintos “driving-bots” con un alto

nivel de ejecución.
En estos días nuestra percepción de cómo las juegos de computadora

influencian en nuestras vidas que las han cambiando completamente. En
el presente los video juegos son capaces de traer a la vida mundos
virtuales con complejas reglas sociales, donde cientos de jugadores de
cada rincón del planeta y bots que conocen juntos cada dia.
Con este escenario muchos juegos genres han sido desarrollados desde
la llegada de los primeros video juegos. Uno de los tipos mas populares
es el “Racing Genre” que ha crecido notoriamente en años recientes. En
este tipo de juego el jugador usualmente adopta la posición del conductor
y es responsable de conducir tan rápido como el quiera en la carretera.
Cuando leemos acerca de las técnicas para crear “driving-bots”,

encontramos muchas soluciones para el problema, pero todos ellos tratan
de resolverlo de la forma correcta. Es usual tener un “race track” dividido
en varios sectores y estructurado en la memoria como una doble conexión
de la lista de estos sectores.
Así, que la forma mas fácil de tener un auto controlado por IA, que este
conduzca a través de la carretera, este define las líneas del inicio a las del
fin de cada sector para guiar el carro. Haciendo esto podemos marcar el
camino optimo para cada carretera y la I A simplemente seguirá la líneas.
Podemos incluso agregar información extra para cada sector tal cual es el
tipo de terreno.
Pero procediendo de esta manera nos introduciremos a obtener un rígido,

no realista driving-bot. Por lo tanto un segundo tipo de aproximación seria
usado la línea optima simplemente como una ayuda, no seria seguida
exactamente. En vez de hacer esto, podríamos tener ciertas reglas
diseñadas para intentar seguir la línea con algún tipo de error agregado a
ellos.

Como nuestro objetivo básico es crear bots genéricos con capacidades de

manejo, esto significa que necesitaran ser capaces de entender el medio
que los rodea y hacer decisiones inteligentes basadas en el
entendimiento. Además, nuestra aproximación debe de evitar trampas, en
orden para que los bots emparejen resultados desde el juego, dejándolos
ser usados en otros juegos o/y aplicaciones.
Por lo tanto proveeremos cada de nuestro artificial “driving-bots” con unos

sensores para simular las sensaciones de un conductor humano,
entonces los datos son cargados hacia estos sensores que serán
procesados como una entrada por una red neuronal artificial; cuyo
objetivo es tomar decisiones (a que hora tiene que frenar o conducir). Así
que tendremos una población de redes neuronales cada correspondiente
cerebro de “driving-bot”. En esta plataforma será capaz de desarrollar la
población entera de cerebros, así creando progresivamente mejores
cerebros adaptados. Este proceso es conocido como Neuroevolución.
Los métodos de Neuroevolución se enfocan en su trabajo en envolver las

redes neuronales a través de los algoritmos genéticos. Estos son
realizados por un código estructural de información. y/o pesos dentro de
un genoma y entonces envuelven las poblaciones de genomas usando el
algoritmo genético. Haciendo esto obtenemos nuevas redes neuronales
en horas extras, para cual se espera encontrar estas características de
dispositivos que los harían exitosos para nuestros propósitos. En el orden
directo esto el proceso evolutivo los hará de forma correcta. Es usual
adoptar un refuerzo abordado el aprendizaje.
Los problemas reales aquí son dobles; primeramente, como diseñar un

buen sistema de castigo o recompensa que fortalecen y toman ventaja de
reforzamiento de aprendizaje y, segundo como codificar genomas en una
forma compatible para nuestro algoritmo genético.
Nos concentraremos inicialmente en mas problemas difíciles que codificar

el genoma.

La Neuroevolución busca tener un desarrollo de varias y diferentes

aproximaciones en su intento de obtener mas formas favorables de
codificación y envolvimiento de genomas para las redes neuronales. Los
resultados de su trabajo nos posibilitan a codificar una red neuronal en
diferentes maneras, tal como una secuencia de bit-Strings, como una
matriz binaria, o como un generador de gramática, por ejemplo.
Pero todas estas representaciones tienen una mayor desventaja que no

pueden ser superado. Este problema ocurre cuando las diferentes
representaciones del genoma una red neuronal que exhibe el mismo
comportamiento, en este caso un convencional operador encriptado
tendrá una pobre característica de progenie. Este problema es conocido
como el problema de competencia convencional (CCP).
Diferentes intentos estaban haciendo para resolver el CCP, pero no

suministraba resultados suficientemente aceptables hasta la advenida de
la Neuroevolución de topologías aumentadas (NEAT), cual estaba el
primer algoritmo que usando una base de datos de innovación global al
camino de toda la población de genes, así evitando la confusión que dio
al crecer el CCP.

Un ejemplo de NEAT sobre cruzado

CONCLUSIÓN
A las conclusiones que se llegaron fueron las siguientes:
1. La inteligencia artificial es una de las ciencias más excitantes, pero

también una de las más difíciles por querer reproducir el
comportamiento humano.
2. La inteligencia artificial es una ciencia que apenas esta “en
pañales” ya que no ha habido grandes avances significativos, la
mayor parte de su conocimiento es teórico.
3. Por su parte, en las redes neuronales intentan poder reproducir las
funciones cerebrales del ser humano a un nivel tal que no se
puedan distinguir cual es el humano o cual es la maquina.
4. Es necesario tener conocimientos de estadística, matemáticas,
física y algo de biología para poder entender y crear una red
neuronal.
5. El campo de las redes neuronales es una buena opción para poder
trabajar ya que es uno de los campos emergentes de esta ciencia.
6. Las diferentes aplicaciones que tienen las redes neuronales son
una idea de que tal grande y poderosa es esta sub-rama de la
inteligencia artificial, porque hasta se aplica en la psicología
7. En el futuro las redes neuronales tendrán un espacio importante en
todas las áreas del quehacer humano.

BIBLIOGRAFÍA / REFERENCIAS
Castrillón Laura Viana, Memoria Natural y Artificial, Fondo de Cultura

económica, cuarta edición, México DF 2002, p 103,130
D.W. Tank, J.J. Hopfield, Collective Computation in Neuronlike circuits,

Scientific American, Washington DC 1987, p 104.
Gallego Francisco, Llorens Faraón, Pujol Mar, Rizo Ramón, Articulo,

Driving-Bots with a Neuroevolved Brain Screaming Racers,
Departamento de Ciencia de la Computación e Inteligencia
Artificial,Universidad de Alicante, Alicante 2005.
Montaño Moreno Juan Jose, Tesis doctoral, Redes Neuronales

Artificiales aplicadas al Análisis de Datos, Universitat de les illes
Ballears, Facultad de Psicologia, Palma de Mayorca 2002, p 17-40.
Russell S., Norvig p.. Inteligencia Artificial, Un Enfoque Moderno,

Pearson Education segunda edición, Madrid, 2004, p 1-31,
838-851.
Sotolongo, G.*; Guzmán, Maria Victoria, Articulo, Aplicaciones de las

redes neuronales. El caso de la Bibliometría, Centro de
Investigación-Producción de Vacunas y Sueros. Ave. La Habana,
Cuba 2001

Instituto Tecnológico Superior de Teziutlán: Tema: "Inteligencia Artificial: Redes Neuronales"

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Instituto Tecnológico Superior de Teziutlán: Tema: "Inteligencia Artificial: Redes Neuronales"

Enviado por

Direitos autorais:

Formatos disponíveis

Instituto Tecnológico Superior de Teziutlán

INSTITUTO TECNOLÓGICO SUPERIOR DE

“INTELIGENCIA ARTIFICIAL: REDES NEURONALES”

DANIEL GONZÁLEZ MORALES

TEZIUTLÁN, PUE., 29 DE MAYO DE 2010

Daniel Gonzá lez Morales Pá gina 1

Desde la creación de las computadoras el hombre siempre ha querido

En esta investigación fue exclusivamente documental, se buscaron

El documento esta estructurado con 7 temas principales y con sus

La razón por la que se escogieron los temas como inteligencia artificial y

Además contiene como todo proyecto de investigación su planteamiento,

Con toda esta información recabada se espera que la investigación de

Daniel Gonzá lez Morales Pá gina 2

El problema consiste en que la mayoría de los profesionistas o

El llevar a cabo esta investigación es porque la inteligencia artificial me

Los objetivos de esta investigación son:

1. Conocer los diferentes tipos de redes neuronales que existen.

Daniel Gonzá lez Morales Pá gina 3

6. DEFINICIÓN DE INTELIGENCIA ARTIFICIAL.

La inteligencia artificial es una de las áreas donde un ingeniero en

1. “Es el arte de desarrollar maquinas con capacidad para realizar

La relación que podemos ver de estas definiciones es que se refieren a

Daniel Gonzá lez Morales Pá gina 4

7. EL NACIMIENTO DE LA INTELIGENCIA ARTIFICIAL

Unos años después. Dos estudiantes graduados en el departamento de

Posteriormente apareció otro personaje John McCarthy, él convenció a

8. REGRESO DE LAS REDES NEURONALES

La informática había olvidado del todo las redes neuronales a finales de

Daniel Gonzá lez Morales Pá gina 5

Con el Físico John Hopfield (1982) usaron técnicas de la mecánica

9. LA INTELIGENCIA ARTIFICIAL SE CONVIERTE EN

En los últimos años se ha producido una revolución tanto en el contenido

La IA se fundó en parte en le marco de la rebelión en contra de las

Daniel Gonzá lez Morales Pá gina 6

diferenciaban las redes neuronales de otras técnicas “tradicionales”. La

10. MEMORIA Y APRENDIZAJE

A lo largo de la historia han sido propuestas muchas teorías que

Las neuronas son células altamente especializadas y se distinguen de

Daniel Gonzá lez Morales Pá gina 7

capacidades como las de la imaginación, la creatividad, el aprendizaje, la

Memoria. Potencia intelectual del alma por medio de la cual se retiene y

Mente. Potencia intelectual del alma.

Sin embargo aunque atribuir estas funciones a un alma es una de las

Ahora formulando las siguientes preguntas ¿Cómo es posible que un

La separación entre la Física y la Neurobiología, contribuyo a que los

Daniel Gonzá lez Morales Pá gina 8

otro lado las matemáticas han tenido un desarrollo importante en años

A. MEMORIA Y APRENDIZAJE DESDE EL PUNTO DE

Si aceptamos el comportamiento colectivo de las células de nuestro

En la investigación del cerebro se han utilizado todos los recursos

Daniel Gonzá lez Morales Pá gina 9

individuos de especies diferentes, viendo tan solo el registro de un

b. LA MEMORIA DEL HOMBRE

A partir de su nacimiento el hombre tiene que aprender una gran cantidad

La mayoría de los neurobiólogos opinan que todas las disposiciones

Existen evidencias de que en el hombre las funciones complejas del

Daniel Gonzá lez Morales Pá gina 10

pierden su capacidad para aprender tareas complejas, continúan

Se encontró que en los humanos todas las partes de la corteza cerebral

Sabemos que el cerebro existe la substitución funcional de unas neuronas

Los argumentos anteriores nos sugieren lo siguiente:

 El aprendizaje se lleva a cabo fundamentalmente en la corteza

Daniel Gonzá lez Morales Pá gina 11