D - Haydu, Nicholas Bender PDF

NCHOLAS BENDER HAYDU
UMA ABORDAGEM BASEADA EM SELEO PELAS CONSEQNCIAS

PARA APRENDIZAGEM DE REDES NEURAIS MULTI-CAMADAS
VOLTADAS CONCEPO DE SISTEMAS
AUTNOMOS INTELIGENTES
Dissertao apresentada como requisito parcial

obteno do grau de Mestre em Informtica pelo
Curso de Ps-Graduao em Informtica, do Setor
de Cincias Exatas da Universidade Federal do
Paran, em convnio com o Departamento de
Informtica da Universidade Estadual de Maring.
Orientador: Prof. Dr. Maurcio F. Figueiredo
CURITIBA
2003
Ministrio da Educao
Universidade Federal do Paran
UFPR Mestrado em Informtica
PARECER
Ns, abaixo assinados, membros da Banca Examinadora da

defesa de Dissertao de Mestrado em Informtica, da aluno Nicholas Bender Haydu,
avaliamos o trabalho intitulado, "L/ma Abordagem Baseada em Seleo pelas
Conseqncias para Aprendizagem de Redes Neurais Multi-Camadas Voltadas
Concepo de Sistemas Autnomos Inteligentes ", cuja defesa foi realizada no dia 15
de agosto de 2003, s dez e trinta horas, no Auditrio da Informtica da Universidade
Federal do Paran. Aps a avaliao, decidimos pela aprovao do candidato.
(Convnio nmero 279-00/UFPR de Ps-Graduao entre a UFPR e a UEM - rf. UEM
nmero 1331/2000-UEM).
Curitiba, 15 de agosto de 2003.
Prof. Dr. Maurcio Fernandes Figueiredo

DIN/UEM (Orientador)
Prof. Dr. Fernando Jos Von Zuben

FEED/UNICAMP - Membro Externo
Prof. Dra ad Ramirez Pozo

DINF/UFPR
Ao esprito cientfico e ao desejo
homem por saber mais.
IV
AGRADECIMENTOS
Ao meu orientador, Prof. Dr. Maurcio Fernandes Figueiredo, por ter

me guiado ao longo de mais essa etapa com dedicao, conhecimento e,
principalmente, imaginao.
minha famlia pelo apoio, incentivo e conversas inteligentes. Em

especial para o meu pai, com sua imaginao frtil, e para minha me, pela ajuda
terica, dicas e conselhos extremamente teis.
Aos professores do programa de Ps-Graduao, em especial ao

Prof. Dr. Lus Augusto Consularo, pela ajuda e tambm pela versatilidade em
conversar sobre diversos assuntos interessantes.
Aos meus amigos e colegas pela amizade, companheirismo e

distrao nos momentos de lazer.
Ao resto do mundo por no interferir de forma decisiva.

V
LISTA DE FIGURAS
Figura 1 - Esquema de neurnios e suas ligaes 13

Figura 2 - Esquema da sinapse 14
Figura 3 - Modelo bsico de neurnio artificial 14
Figura 4 - Funo sigmide 15
Figura 5 - Arquitetura de rede neural de urna nica carnada 16
Figura 6 - Arquitetura de rede neural de quatro camadas 17
Figura 7 - Arquitetura de rede neural recorrente 17
Figura 8 - Estruturas neurais de seleo pelas conseqncias 34
Figura 9 - Exemplo de condicionamento operante na rede de seleo pelas
conseqncias 36
Figura 10 - Contingncia respondente e operante 37
Figura 11 - Arquitetura de rede neural para quatro camadas 40
Figura 12 - Conexes sinpticas tpicas e respectivas distribuies 41
Figura 13 - Representao da rede 50
Figura 14 - Propagao da atividade neural por conexes excitatrias inter-camadas
(com cone de alcance mnimo) 53
(sem cone de alcance mnimo) 53
Figura 16 - Atividade neural com conexes laterais inibitrias 54
Figura 17 - Atividade neural com conexes laterais inibitrias e excitao
predominante 55
Figura 18 - Atividade inicial ainda sem grupos neurais definidos 57
Figura 19 - Atividade intermediria com surgimento dos grupos neurais 57
Figura 20 - Atividade final com grupos neurais formados 58
Figura 21 - Atividade neural do estmulo CS anterior ao treinamento respondente. 61
Figura 22 - Atividade neural do estmulo US anterior ao treinamento respondente. 61
Figura 23 - Resposta do estmulo CS aps treinamento respondente 61
Figura 24 - Atividade neural anterior extino do comportamento respondente. .. 63
Figura 25 - Atividade neural aps extino do comportamento respondente 63
Figura 26 - Atividade neural anterior ao treinamento operante 64
Figura 27 - Atividade neural aps treinamento operante 64
Figura 28 - Atividade neural aps treinamento operante para um estmulo no
reforado 65
Figura 29 - Atividade neural anterior ao treinamento operante (exemplo 2) 66
Figura 30 - Atividade neural aps treinamento operante (exemplo 2) 66
Figura 31 - Atividade neural anterior extino do comportamento operante 67
Figura 32 - Atividade neural aps extino do comportamento operante 67
Figura 33 - Atividade neural anterior ao treinamento operante (exemplo de
generalizao) 68
Figura 34 - Atividade neural aps treinamento operante com estmulo original 68
Figura 35 - Atividade neural aps treinamento operante com degradao do
estmulo (exemplo 1 ) 68
estmulo (exemplo 2) 69
estmulo (exemplo 3) 69
Figura 38 - Atividade neural anterior ao treinamento de controle da intensidade da
resposta (estmulo 1 ) 70
vii
Figura 39 - Atividade neural anterior ao treinamento de controle da intensidade da

resposta (estmulo 2) 70
Figura 40 - Atividade neural aps treinamento de controle da intensidade da
resposta (estmulo 1 ) 71
Figura 41 - Atividade neural aps treinamento de controle da intensidade da
resposta (estmulo 2) 71
Figura 42 - Atividade neural anterior ao treinamento de controle de mltiplas
respostas (estmulo 1 - resposta 1 ) 72
Figura 43 - Atividade neural anterior ao treinamento de controle de mltiplas
respostas (estmulo 2 - resposta 2) 72
Figura 44 - Atividade neural aps treinamento de controle de mltiplas respostas
(estmulo 1 - resposta 1 ) 73
Figura 45 - Atividade neural aps treinamento de controle de mltiplas respostas
(estmulo 2 - resposta 2) 73
Figura 46 - Atividade neural anterior ao treinamento de fuso sensorial (estmulo
discriminativo composto) 75
Figura 47 - Atividade neural anterior ao treinamento de fuso sensorial (componente
1) 75
Figura 48 - Atividade neural anterior ao treinamento de fuso sensorial (componente
2) 75
Figura 49 - Atividade neural aps treinamento de fuso sensorial (componente 1). 76
Figura 50 - Atividade neural aps treinamento de fuso sensorial (componente 2). 76
Figura 51 - Atividade neural aps treinamento de fuso sensorial (ocorrncia
conjunta dos estmulo 1 e 2) 76
Figura 52 - Atividade neural anterior ao treinamento operante em rede com camadas
20x20 78
Figura 53 - Atividade neural aps treinamento operante em rede com camadas
20x20 78
Figura 54 - Grfico de evoluo de um treinamento operante tpico 79
Figura 56 - Tela do simulador para ajuste de parmetros da rede neural 92
Figura 57 - Tela do simulador para configurar o ambiente de treinamento 93
vii
SUMRIO
1 INTRODUO 1
1.1 Motivao 1
1.2 Objetivos e Contribuies 7
1.3 Organizao do Trabalho 9
2 FUNDAMENTAO TERICA 10
2.1 Redes Neurais Artificiais 10

2.1.1 Modelo Bsico Biolgico 12
2.1.2 Fundamentos 14
2.1.3 Modelos Clssicos de Redes Neurais Artificiais 18
2.2 Aprendizagem e Comportamento Inteligente 23

2.2.1 Reflexos e Reflexos Condicionados 23
2.2.2 Comportamento Operante 25
2.3 Reviso Bibliogrfica 29

2.3.1 Autonomia 29
2.3.2 Aprendizagem por Reforo e Inteligncia Artificial 30
2.3.3 Aprendizagem por Reforo e Redes Neurais Artificiais 31
3 MODELO DE REDE NEURAL ARTIFICIAL 39
3.1 Arquitetura 39
3.2 Raciocnio 42
3.3 Aprendizagem 45
4 RESULTADOS 47
4.1 Experimentos Bsicos 51

4.1.1 Atividade Neural sem Conexes Laterais 52
vin
4.1.2 Atividade Neural com Conexes Laterais 54

4.1.3 Formao Dinmica de Grupos Neurais 56
4.1.4 Consideraes Sobre a Evoluo da Atividade Neural 58
4.2 Experimentos de Aprendizagem 59

4.2.1 Experimento 1 - Convergncia da Aprendizagem em Treinamento
Respondente 60
4.2.2 Experimento 2 - Extino de Comportamento Respondente 62
4.2.3 Experimento 3 - Convergncia da Aprendizagem em Treinamento Operante 63
4.2.4 Experimento 4 - Extino de Comportamento Operante 66
4.2.5 Experimento 5 - Capacidade de Generalizao 67
4.2.6 Experimento 6 - Controle de Intensidade da Resposta 69
4.2.7 Experimento 7 - Controle de Mltiplas Respostas 71
4.2.8 Experimento 8 - Fuso de Sensores 73
4.2.9 Experimento 9 -Treinamento Operante em uma Rede com Camadas de
Dimenso 20x20 77
4.2.10 Experimento 10 - Anlise da Aprendizagem Operante 78
5 CONCLUSES 80
REFERNCIAS BIBLIOGRFICAS 86
ANEXO 89
Anexo I - Ferramenta de Simulao 90

IX
HAYDU, Nicholas Bender. Uma Abordagem Baseada em Seleo pelas

Conseqncias para Aprendizagem de Redes Neurais Multi-Camadas Voltadas
Concepo de Sistemas Autnomos Inteligentes. 2003. Dissertao (Mestrado
em Informtica) - Universidade Federal do Paran, Curitiba.
RESUMO
Um modelo de rede neural artificial proposto. A rede neural possui mltiplas

camadas. Cada camada da rede neural formada por uma grade quadrangular de
neurnios (em um espao toroidal). As conexes sinpticas de cada neurnio
abrangem trs tipos: excitatrias inter-camadas, laterais inibitrias intra-camada e
laterais excitatrias intra-camada. A disposio espacial das conexes do tipo
Gaussiana e especfica para cada tipo de sinapse. Cada neurnio estabelece um
nmero restrito de conexes. O modelo de arquitetura contribui para eliminar
restries apresentadas por arquiteturas em que entradas e conexes so
distribudas a todos os neurnios de cada camada. O modelo do neurnio apresenta
dinmica interna, proporcionando uma memria da atividade recente e assumindo
papel importante na aprendizagem. A aprendizagem baseada na seleo pelas
conseqncias, conforme princpios de aprendizagem por reforo. Em particular, a
de aprendizagem por reforo utilizada do tipo clssico. Os experimentos definidos
para investigao e confirmao das capacidades da rede neural consideram um
ambiente simulado, condizente com o modelo de Seleo pelas Conseqncias. Os
resultados obtidos em simulaes mostram que o modelo capaz de reproduzir
diversos fenmenos comportamentais, que so: aquisio de comportamento
respondente, extino de comportamento respondente, aquisio de comportamento
operante, extino de comportamento operante, capacidade de generalizao de
estmulos, habilidade no controle da intensidade das respostas, capacidade de
controle de mltiplas respostas e fuso de sensores. Experimentos tambm ilustram
o importante papel das conexes laterais inibitrias e das conexes laterais
excitatrias na modelagem da formao de grupos neurais em nvel operante.
Entende-se que a capacidade de aprendizagem alcanada pela rede neural
proposta torna-a vivel para a concepo de sistemas autnomos inteligentes com
potencialidades superiores queles divulgados na literatura especializada.
X
HAYDU, Nicholas Bender. A Selection by Consequences Approach for Learning

in Multi-Layer Neural Networks Directed to the Conception of Intelligent
Autonomous Systems. 2003. Dissertao (Mestrado em Informtica) -
Universidade Federal do Paran, Curitiba.
ABSTRACT
A model of an artificial neural network is proposed. The neural network has multiple
layers. Each network layer is formed by a quadrangular grid of neurons (on a toroidal
space). The synaptic connections that every neuron has are defined between tree
types: inter-layer excitatory, lateral intra-layer inhibitory and lateral intra-layer
excitatory. The spatial disposition of connections is of a Gaussian type and specific
for each type of synapse. Each neuron has a limited number of connections. The
model contributes to eliminate restrictions presented by other architectures in witch
connections are distributed to all of the neurons of each layer. The neuron model
presents an internal dynamic, working as a memory of its recent activity and having
important role in the learning process. The learning procedure is based on the
selection by consequences according to reinforcement learning principles.
Particularly the reinforcement learning approach used is of the classical type. The
experiments defined for the investigation and confirmation of the capacities of the
neural network consider a simulated environment that works according to the
Selection by Consequences model. The simulation results show that the model is
capable of reproducing several behavioral phenomena that are: acquisition of
respondent behavior, extinction of respondent behavior, acquisition of operant
behavior, extinction of operant behavior, stimulus generalization capacity, ability to
control the response intensity, capacity to control multiple responses and sensor
fusion. Besides that, the experiments also illustrate the important role of the lateral
inhibitory and lateral excitatory connections for a correct shaping of operant level
responses and neural groups. It is understood that the learning capacities that the
proposed neural network exhibits make it viable for the conception of intelligent
autonomous systems with potentialities superior to those already presented in the
specialized literature.
1 INTRODUO
1.1 Motivao
Autonomia
Os progressos no campo da Inteligncia Artificial vm demarcando

grandes ciclos, caso o ponto de vista adotado leve em conta as metas, expectativas
e resultados alcanados.
Entende-se que um primeiro ciclo estaria associado aos esforos de
pesquisa motivados pela possibilidade de reproduzir capacidades inteligentes
humanas sofisticadas em mquinas computacionais. Aps se constatar as imensas
disparidades presentes entre as potencialidades das mquinas desenvolvidas e das
anunciadas a partir das expectativas iniciais, este ciclo se extingue. Os resultados da
pesquisa neste ciclo podem no ter sido satisfatrios, entretanto serviram para gerar
uma noo mais realista das dificuldades gigantes que seriam enfrentadas para
reproduzir um sistema artificial inteligente imaginado.
As frustraes segundo a perspectiva mais ficcionista no impediu
que os progressos e resultados alcanados merecessem o reconhecimento por todo
o esforo despendido. As potencialidades dos sistemas inteligentes propostos
poderiam no satisfazer as metas iniciais, mas se tinham tornado suficientes para
produzirem resultados relevantes em aplicaes prticas. Esta nova leitura para o
papel dos resultados alcanados pela pesquisa em Inteligncia Artificial
caracterizaria um segundo ciclo. A pesquisa no campo da Inteligncia Artificial se
consolidou e foi reconhecida como extremamente relevante para o progresso
tecnolgico, invadindo reas que antes se mostravam avessas, e.g., controle
automtico. Neste ciclo os sistemas inteligentes passam a assumir uma importncia
crescente junto ao segmento tecnolgico. O segundo ciclo desencadeou avanos
tericos notveis e talvez seja aceitvel admitir que, enquanto o primeiro ciclo esteve
motivado por expectativas calcadas na fico, o segundo foi fortemente guiado pelas
demandas presentes no segmento tecnolgico.
possvel que a pesquisa no campo da Inteligncia Artificial esteja
iniciando um terceiro ciclo. As demandas tecnolgicas continuam exercendo
2
presses constantes no que diz respeito s demandas cada vez mais sofisticadas e
exigentes em desempenho. Entretanto tambm se nota uma forte preocupao dos
pesquisadores em tornar os sistemas inteligentes artificiais mais semelhantes aos
sistemas biolgicos sofisticadamente inteligentes. Observa-se que, em vista das
potencialidades demonstradas pelos sistemas biolgicos e artificiais, as
semelhanas que podem ser admitidas so pouco significativas. Desta forma,
argumenta-se que a insatisfao presente seja motivo suficiente para incrementar
pesquisas e reduzir as diferenas entre estes dois sistemas.
Assim, atualmente, de um lado observa-se a consolidao e origem
de teorias ousadas, tais como: sistemas imunolgicos artificiais (de Castro e Timmis,
2002), sistemas de inteligncia coletiva (Bonabeau, Dorigo e Theraulaz, 1999),
sistemas classificadores (Lanzi, 2000), e da evoluo de teorias mais tradicionais
relacionadas s redes neurais, sistemas nebulosos, computao evolutiva,
aprendizagem artificial (Vapnik, 1999)(Sutton e Barto, 1998), sistemas simblicos
inteligentes bem representados pelos agentes inteligentes (Russel e Norvig, 1995).
De outro lado ressurgem as reflexes em termos das limitaes dos
atuais sistemas inteligentes. As crticas podem ser resumidas no problema do "a
priori", abordado por vrios autores (Brooks, 1990)(Brooks, 1991)(Figueiredo, 1999)
eem especial porVerschure (Verschure, 1993)(Verschure, 1996).
O problema do "a priori" diz respeito ao fato de um sistema simblico
requerer uma representao do mundo em termos de smbolos discretos para
operar, que s pode ser fornecida pelos projetistas do sistema. Mesmo que o
sistema possua a capacidade de aprender por meio da incorporao de novos
smbolos e regras sua base de conhecimentos, necessrio um conjunto bsico
inicial que permita a operao do sistema. Esse conjunto inicial definido, portanto,
"a priori" e requer dos projetistas a definio da essncia do sistema. A partir deste
problema principal Vershure reuniu quatro outros tambm de grande importncia,
que sero vistos resumidamente a seguir:
1. Problema da Falta de Fundamento Simblico (Symbol

Grounding Problem): est relacionado questo do valor verdade
de uma proposio ser derivado de outras proposies, criando
uma teia de relaes que, no entanto, no possuem base com
relao ao mundo real supostamente descrito pelo sistema;
J
2. Problema do Enquadramento (Frame Problem): aborda a

questo do tempo necessrio para a atualizao do modelo lgico
que cresceria exponencialmente e logo tornaria impossvel a
atuao do sistema, ficando este confinado a rotinas de
atualizao;
3. Problemas da Viso de Referncia (Frame-of-reference
Problem): trata do fator subjetivo quando da escolha de um
modelo lgico para a representao de um domnio. Cada pessoa
pode escolher um modelo lgico e uma forma diferente de
relacionar os smbolos do sistema lgico com o problema que se
deseja abordar. No entanto, nada garante que essa escolha seja
a melhor;
4. Problema da Contextualizao (Situatedness Problem):
sistemas inteligentes deveriam ser contextualizados, isto ,
deveriam levar em considerao apenas fatores de importncia
imediata, caso contrrio sofreriam do problema do
enquadramento. Entretanto os sistemas existentes abordam o
conhecimento de uma maneira global e que ainda dependente de
interpretao humana.
Uma interpretao simplificada (no entanto poderosa) do problema

do "a priori" bem como dos problemas subseqentes pode ser feita da seguinte
forma: um sistema simblico capaz de exibir inteligncia necessita que em sua base
existam smbolos representando verdades absolutas e atmicas sobre a inteligncia,
a partir dos quais pudessem ser deduzidas todas as implicaes necessrias para
um sistema inteligente. Como muito bem abordado por Penrose (1997), tais
verdades absolutas provavelmente escondem-se em locais como o mundo
subatmico entre outros. Assim sendo, extra-las seria como extrair os tomos de
conhecimentos necessrios para deduzir todo o universo.
Tendo em vista as dificuldades existentes no contexto apresentado
possvel justificar a crescente ateno voltada para o conceito de autonomia no
contexto de sistemas artificiais inteligentes.
Autonomia e inteligncia tm sido considerados conceitos
fortemente relacionados (Steels, 1995). Prope-se que a autonomia seja uma
4
capacidade que se manifeste segundo uma escala contnua, proporcionando, ento,

uma medida para o grau de inteligncia de um sistema artificial (Figueiredo, 1999).
Alm disso, sistemas artificiais, nos quais a ausncia de autonomia tenha sido
constatada, tornam-se passveis de crticas severas no que tange a sua natureza
inteligente (Vershure, 1996).
Por sua vez, a autonomia vinculada capacidade de
aprendizagem, particularmente quando a aquisio de conhecimento ocorre a partir
da interao com o ambiente (Steels, 1995) (Figueiredo, 1997) (Figueiredo, 1999)
(Russell&Norvig, 1995). Um sistema autnomo capaz de aprender atravs da
interao com o ambiente, recebendo estmulos e gerando comportamentos
(respostas) que alteram este ambiente, aprimorando suas capacidades e adaptando-
se s caractersticas do mesmo. Tanto a aprendizagem quanto os comportamentos
e ou respostas geradas podem ser independentes de auxlios externos.
Assim, dentre as diversas possibilidades de aplicao de sistemas
inteligentes, a presena de autonomia torna-se particularmente interessante
naquelas em que o sistema atua em ambientes desconhecidos, e.g., navegao
autnoma de robs. Tais reas de aplicao tm sido intensamente investigadas,
no s devido ao claro interesse tecnolgico, mas tambm por proporcionar um
ambiente profcuo para a pesquisa dos sistemas autnomos inteligentes.
Redes Neurais
entre os sistemas biolgicos que exclusivamente se encontram os

mais representativos sistemas autnomos inteligentes. Reconhece-se que o poder
de autonomia de tais sistemas advm preponderantemente de seus sistemas
nervosos. Por esta razo, alguns pesquisadores defendem que a melhor estratgia
para a concepo de tais sistemas inteligentes concentrar esforos na modelagem
dos sistemas biolgicos (Edelman, 1987).
Coerentemente com esta argumentao, as redes neurais artificiais
so adotadas neste trabalho, dentre as diversas tcnicas presentes na rea de
Inteligncia Artificial, visto que so inspiradas em seus pares biolgicos.
Particularmente, o presente trabalho adota o princpio da mxima plausibilidade
biolgica para as propostas apresentadas, ou seja, as trajetrias definidas durante o
5
desenvolvimento do trabalho esto associadas s escolhas que favorecessem o

modelo de RNA que melhor espelhasse o modelo biolgico.
As redes neurais artificiais (RNAs) geram de forma qualitativa muitas
das caractersticas de seus pares biolgicos, alm da capacidade de aprendizagem,
essencial para a autonomia: tolerncia a falhas, generalizao, memria acessada
por contedo e robustez ao rudo.
Embora os modelos de redes neurais existentes tm demonstrado
tais caractersticas em variadas reas de aplicao, muitas deficincias gerais
podem ser apontadas, dentre elas: limitaes de capacidade da memria associativa
e recuperao de seu contedo, restries quanto convergncia em aprendizagem
supervisionada, limitaes quanto aprendizagem em ambientes desconhecidos.
Esta ltima deficincia est intimamente relacionada ao foco de estudo do presente
trabalho, pois reduzindo-a possvel alcanar potencialidades satisfatrias para a
concepo de sistemas autnomos.
Aprendizagem
Sendo a aprendizagem algo fundamental para se alcanar a

autonomia, desejvel que o modelo possua uma estratgia para realizar tal tarefa,
que seja coerente com as idias propostas.
Nesse contexto utiliza-se o modelo da Seleo pelas Conseqncias
(Skinner, 1981) como base para um princpio de aprendizagem. A aprendizagem
segundo essa viso ocorre a partir de variaes no repertrio de comportamentos
dos organismos, as quais por sua vez so selecionados pelo ambiente com base
nas conseqncias que produzem. No caso de produzir conseqncias favorveis
ao organismo, o comportamento selecionado e passa a fazer parte de seu
repertrio. Caso produza conseqncias desfavorveis a tendncia que o
comportamento seja extinguido, deixando de existir. A variabilidade de
comportamentos e a forma especfica como estes so selecionados ocorre segundo
trs estratgias bsicas, produzindo trs tipos de comportamentos: comportamento
reflexo, comportamento respondente e comportamento operante.
A primeira estratgia aborda os comportamentos do tipo reflexo que
so filogeneticamente selecionados, ou seja, segundo sua capacidade ou no de
permitir ao organismo transmitir seus genes com sucesso. razovel assumir que a
6
variabilidade para este tipo de comportamento introduzida por fatores genticos

como mutaes e cruzamentos.
O segundo tipo de comportamento conhecido pelo termo
respondente e trata de associar estmulos quaisquer (S), presentes no ambiente, aos
comportamentos do tipo reflexo. Para tanto, o processo de seleo depende da
existncia de uma correlao temporal entre estmulos S com os estmulos
responsveis por eliciar o comportamento reflexo. A seleo mediada por um
estmulo reforador que normalmente o prprio eliciador (estmulo que inicia) do
reflexo. Note que comportamentos do tipo reflexo so selecionados segundo a
histria de vida do organismo e no mais ao longo de inmeras geraes.
O ltimo tipo de aprendizagem diz respeito ao assim denominado
comportamento operante. Comportamentos operantes so selecionados segundo a
conseqncia que suas respostas produzem no ambiente e no apenas de acordo
com uma correlao temporal, como o caso dos respondentes. No entanto, assim
como o comportamento respondente, o comportamento operante tambm
selecionado atravs da apresentao, por parte do ambiente, de um estmulo
reforador. Assim a conseqncia que a emisso da resposta produz no ambiente
a apresentao do estmulo reforador. O efeito do reforador neste caso
selecionar as respostas emitidas pelo organismo em situaes adequadas,
tornando-as mais provveis no futuro. Tambm no caso de comportamentos
operante o repertrio desenvolvido ao longo da histria de vida do organismo.
Devido ao fato da aprendizagem ser mediada por um estmulo
reforador, este princpio de aprendizagem denominado de aprendizagem por
reforo. Existem, no entanto, diversas teorias consideradas como modelos de
aprendizagem por reforo. Para este trabalho, a no ser quando indicado o
contrrio, a interpretao deve ser de acordo com o modelo de Seleo pelas
Conseqncias.
Diferentemente de outras estratgias, a estratgia de aprendizagem
por reforo oferece mecanismos para a adaptao do sistema autnomo enquanto
este interage com um ambiente desconhecido. Por esta razo torna-se muito til
para o treinamento de tais sistemas, em especial para aplicaes associadas a
controle autnomo. Assim, em todos os instantes em que o sistema se depara com
eventos discrepantes (situaes desconhecidas, situaes de sucesso ou falha); o
sistema recebe um sinal de avaliao (reforo) associado ao seu desempenho, sinal
7
esse no qual baseado o processo de aprendizagem (Donahoe & Palmer, 1994)

(Skinner, 1981).
1.2 Objetivos e Contribuies
Um sistema artificial capaz de operar de forma satisfatria em

ambientes do cotidiano requer caractersticas comportamentais complexas que
seriam comumente denominadas de inteligentes. As capacidades de tal sistema
devem ser as mais diversas possveis, por exemplo, a habilidade de navegar de
forma autnoma por um ambiente em constante modificao, o uso de ferramentas
em situaes especficas, a coordenao e cooperao com outros sistemas
artificiais e tambm com seres humanos. Com o objetivo de dotar sistemas artificiais
com tais capacidades, so investigados os processos fundamentais que
proporcionam o surgimento de tais comportamentos em sistemas biolgicos, para
ento buscar reproduzi-los em um sistema artificial.
O objetivo geral desenvolver um sistema artificial inteligente capaz
de adquirir conhecimento sobre o ambiente no qual este se encontra e utilizar tal
conhecimento para agir no ambiente de forma autnoma, ou seja, um sistema
autnomo inteligente. Entretanto tal meta deve ser alcanada seguindo-se alguns
requisitos especficos, discutidos ao longo do texto (Captulo 2), que so:
Utilizar um sistema baseado em um modelo de redes neurais;

A arquitetura neural deve buscar reproduzir tanto estruturalmente
quanto funcionalmente sistemas biolgicos nervosos;
A aprendizagem do sistema deve seguir um modelo compatvel
com o modelo de Seleo pelas Conseqncias (Skinner, 1981);
O sistema artificial deve ser capaz de reproduzir fenmenos
comportamentais de que trata a teoria da Seleo pelas
Conseqncias (Skinner, 1981).
O emprego de tais requisitos, como fica claro ao longo do trabalho,

no se deve pelo fato de que se deseja provar a relevncia ou no de cada um deles
para o problema sugerido, mas sim por se acreditar que fornecem propostas
concretas e importantes para a soluo do mesmo.
8
Em termos prticos o trabalho prope um modelo neural cuja

arquitetura, operao e aprendizagem funcionam segundo os requisitos
apresentados. A fundamentao do trabalho feita com trabalhos especficos de
cada rea, bem como propostas que integram as mesmas, destaca-se neste ponto o
trabalho de Donahoe, Burgos e Palmer (1993).
A principal contribuio do trabalho ser mostrar que uma estratgia
de aprendizagem por reforo pode ser empregada com sucesso no treinamento de
redes multicamadas de diferentes dimenses. O modelo de aprendizagem por sua
vez, atuando juntamente com a operao da rede capaz de reproduzir,
sintticamente, fenmenos comportamentais observados em seres biolgicos e que
so normalmente tidos como indicadores de autonomia e inteligncia. De forma
secundria, mas no menos importante, o modelo apresenta princpios para a
formao dinmica de grupos neurais e a estabilizao da atividade neural a partir
de um estado inicial variante.
Especificamente, os resultados mostram que o modelo capaz de
reproduzir diversos fenmenos comportamentais particularmente interessantes para
um sistema autnomo inteligente. So eles:
Aquisio de comportamento respondente;

Extino de comportamento respondente;
Aquisio de comportamento operante;
Extino de comportamento operante;
Capacidade de generalizao de estmulos;
Habilidade de controle de intensidade da resposta emitida;
Capacidade de controle de mltiplas respostas;
Fuso de sensores.
Alm dos fenmenos de aprendizagem, o modelo tambm apresenta

resultados decorrentes da arquitetura neural empregada. Particularmente mostra-se
a importncia das conexes inibitrias para uma correta modelagem do
comportamento de nvel operante (Seo 2.2). Alm disso, em conjunto com as
conexes laterais excitatrias, as conexes inibitrias so responsveis pela
9
formao dos grupos neurais. Os grupos neurais por sua vez formam a base para a
anlise da operao da rede.
Do ponto de vista das redes neurais artificiais o modelo contribui
apresentando uma soluo para o problema de atribuio de crdito que utiliza
aprendizagem por reforo.
1.3 Organizao do Trabalho
O Capitulo 2 trata de revisar os temas, conceitos e fundamentos que

nos quais o trabalho baseado. Primeiramente tratando de redes neurais artificiais
(Seo 2.1), apresentando um breve histrico, discutindo os principais conceitos e
modelos. Logo aps discute-se o modelo de aprendizagem de seleo pelas
conseqncias (Seo 2.2), como visto pela psicologia. Em seguida a Seo 2.3 traz
uma reviso de conceitos como autonomia (Seo 2.3.1), aprendizagem por reforo
segundo a viso atual e mais difundida da IA (Seo 2.3.2), aprendizagem por
reforo e redes neurais (Seo 2.3.3) onde se busca um modelo que integre redes
neurais e o modelo de Seleo pelas Conseqncias.
No Captulo 3 descreve-se o modelo de rede neural proposto neste
trabalho, apresentando sua arquitetura (Seo 3.1), os mecanismos de raciocnio
(Seo 3.2) e o algoritmo de aprendizagem (Seo 3.3).
O Captulo 4 apresenta os resultados obtidos em simulao do
modelo proposto. Os resultados apresentados so de dois tipos: operacional (Seo
4.1 ) e de aprendizagem (Seo 4.2).
Ao final do trabalho so apresentadas as concluses, seguida pelas
referncias e pelos anexos.
2 FUNDAMENTAO TERICA
Devido s questes envolvidas, trabalhos com sistemas autnomos

possuem a caracterstica de serem multidisciplinares. Isso torna ainda mais
importante uma reviso dos assuntos abordados.
Esta seo apresenta de forma resumida as principais teorias e
conceitos necessrios para um bom entendimento da proposta deste trabalho, entre
elas, Redes Neurais Artificiais (Seo 2.1) e teoria da Seleo por Conseqncias
(Seo 2.2). A Seo 2.3 aborda vrios fundamentos e traz uma reviso bibliogrfica
de diversos trabalhos que investigam temas similares ao deste trabalho, fornecendo
uma perspectiva atual da pesquisa na rea.
2.1 Redes Neurais Artificiais
As redes neurais tm sido destaque em diversas pesquisas de

sistemas autnomos. Autores como Brooks (1991), Verschure (1996) e Verschure
(1993) destacam sua contribuio para o chamado problema do "a priori". Tal
questo, como destacado na introduo deste trabalho, aborda o fato de que
extremamente difcil definir a priori regras gerais capazes de descrever problemas
como, por exemplo, o de navegao autnoma, nos quais o rob precisa deslocar-
se de forma autnoma pelo ambiente, basicamente desviando de obstculos e
buscando alvos, alm de outros objetivos mais complexos. Problemas como este
requerem que o sistema adquira o conhecimento para a soluo do problema
diretamente atravs da interao com o ambiente, fazendo uso, portanto, de
aprendizagem. justamente na capacidade de aprendizagem que reside o poder
das redes neurais.
Alm da capacidade intrnseca de aprendizagem as redes neurais
possuem outras caractersticas interessantes para a concepo de sistemas
autnomos, entre as quais destacam-se:
No-linearidade: o modelo dos neurnios pode ser linear ou no-

linear. Ser no-linear concede ao neurnio, e conseqentemente
rede, a capacidade de processamento no-linear. Esta
11
capacidade desejada sempre que o sistema deve adotar

determinadas estratgias de interao com o ambiente de acordo
com as variaes dos estmulos (a estratgia para um estmulo
mais intenso diferente da estratgia para um menos intenso);
Processamento paralelo: a atividade simultnea dos diversos
elementos de uma rede neural faz com que essa seja capaz de
processar grande quantidade de informao de forma veloz, algo
indispensvel para sistemas que devem operar em tempo real;
Memria acessada por contedo: a forma particular com que
uma rede neural armazena informao, e o prprio mecanismo de
operao fazem com que esta seja um sistema de memria
acessada por contedo. Assim a rede neural capaz de
recuperar um padro previamente armazenado, mediante a
apresentao de parte desse padro;
Tolerncia a falhas: por se tratar de um sistema maciamente

paralelizado, cada elemento da rede responsvel apenas por
uma pequena parte da computao realizada. Assim, a remoo
ou falha de elementos isolados impacta de forma suave no
desempenho da rede;
Generalizao: vrios modelos de redes neurais tm por objetivo
extrair caractersticas dos estmulos aos quais so apresentados.
Devido ao seu modo de operao, mesmo quando um estmulo
desconhecido for apresentado, a rede neural classifica segundo
sua similaridade aos estmulos com os quais possui experincia.
Essa uma qualidade importante do comportamento dos seres
vivos e reconhecidamente interpretada indispensvel em sistemas
inteligentes;
Robustez a rudos: uma rede neural possui grande robustez a
rudos contaminando os estmulos de interesse, conseguindo
operar normalmente com desempenho satisfatrio. Essa
caracterstica muito til, pois na prtica, sensores
inevitavelmente esto associados a rudo.
12
Este captulo discorre de maneira breve a respeito dos principais

tpicos relacionados s redes neurais, visando oferecer uma viso da rea e alguns
fundamentos que facilitem a compreenso dos captulos seguintes. Textos mais
aprofundados no tema podem ser encontrados em obras de referncia como Haykin
(2001) e Rssel e Norvig (1995).
2.1.1 Modelo Bsico Biolgico
Uma rede neural constituda por neurnios (Figura 1), as unidades

bsicas de computao, que interconectados formam a rede propriamente dita. Os
neurnios operam recebendo os estmulos em suas sinapses (Figura 2), agregando
tais estmulos no soma e quando o valor resultante da agregao ultrapassa um
certo valor limiar, o neurnio emite (dispara) uma seqncia de pulsos eltricos,
gerados no cone do axnio. O sinal eltrico emitido flui pelo axnio at atingir sua
extremidade onde, atravs de trocas qumicas nas sinapses, transmitido aos
prximos neurnios. Este esquema relativamente simples repetido desde a
entrada da rede at sua sada, tal qual acontece em algumas redes biolgicas, por
exemplo, em redes cujas entradas correspondem aos campos sensorials (olhos,
ouvidos, etc.) e aos rgos motores (braos e msculos em geral) e/ou demais
rgos.
13
As sinapses (Figura 2) consistem de uma regio de intercmbio de

informao, mais precisamente, so os locais onde os neurnios recebem e emitem
neurotransmissores (substncias qumicas utilizadas para transmitir a informao)
convertendo, portanto, um sinal eltrico (disparo do neurnio) em qumico
(neurotransmissores) e vice-versa. Atravs de processos complexos as sinapses
podem alterar sua eficincia, tornado-se mais ou menos eficazes na propagao do
estmulo. Dessa forma, cada sinapse pode alterar a intensidade do estmulo que
recebe e passa para frente, intensificando-o ou suprimindo-o, sendo, portanto, a
unidade bsica de memria, onde a informao pode ser armazenada e manipulada.
Esta caracterstica das sinapses tida como a principal responsvel pela
capacidade de aprendizagem das redes neurais.
Uma rede neural pode ser descrita como possuindo uma arquitetura,
um mecanismo de processamento e sistema de aprendizado. A arquitetura de uma
rede neural descreve como esto conectados os neurnios. A forma pela qual o
sinal de entrada evolui ( processado) para um sinal de sada ser tratada como o
raciocnio2. J o processo responsvel por modificar as sinapses responsvel pela
aprendizagem. Operando de forma integrada e nas mais diversas configuraes
possveis, estes elementos so capazes de processar e produzir resultados
1
Adaptado de: http://research.haifa.ac.il/~imjaffe/mind/lecnotes/week7.html. junho 2003
2
A termo "raciocnio" segundo essa interpretao refere-se aos processos internos de uma rede
neural, desencadeados por um estmulo, que evoluem at produzir uma resposta. De forma
simplificado o processamento da informao.
14
absolutamente no triviais. Os melhores exemplos so os prprios organismos

biolgicos.
*"m .4 -Neurotransmissores
t
;
f
Neuroreceptores
Figura 2 - Esquema da sinapse.1
2.1.2 Fundamentos
Modelos Clssicos
O primeiro passo para o desenvolvimento da teoria de redes neurais

artificiais surgiu em 1943 com o trabalho de McCulloch e Pitts que propuseram uma
descrio matemtica para um neurnio (Haykin, 2001). A Figura 3 apresenta um
modelo atual de um neurnio artificial simples que embora mais recente retm as
linhas gerais originais.
1
Adaptado de: http://research.haifa.ac.il/~imiaffe/mind/lecnotes/week7.html. junho 2003.
15
N
F x w
y = (J] i ~wo) o)
7=1
Neste modelo os sinais de entrada x; i = 1, ..., N; ao chegarem ao

neurnio so ponderados pelos pesos sinpticos w; i = 1, ..., N; x, we9 (conjunto
dos nmeros reais). Estes so, ento, enviados ao soma atravs dos dendritos onde
so adicionados. Em seguida uma transformao no linear F(.) (funo de ativao
do neurnio) age sobre o sinal resultante da agregao gerando o sinal de sada y
conforme a Equao 1. A funo F(.) por sua vez tipicamente qualquer funo do
tipo sigmide, por exemplo (Figura 4):
F(x)
1
F(x) =
1 + ex p ( - / ? x )
Figura 4 - Funo sigmide.
Outro importante avano para as RNAs foi a descrio feita por

Hebb em 1949 de um mecanismo fisiolgico de modificao sinptica. Sua regra de
aprendizagem prev que a eficincia de uma sinapse deva ser aumentada quando
h atividade em ambos os neurnios que a formam (neurnio pr e o ps-sinptico)
e que tal atividade tenha se propagado atravs dessa sinapse (Haykin, 2001). Em
sua forma mais simples, tal regra pode ser expressa matematicamente segundo a
Equao 2.
A wfl{T) = i1ai(T)ai{T) (2)

onde: Aw;, ( r ) o ajuste da sinapse no tempo T; q a taxa de aprendizagem; a{T)
a atividade (sinal de sada) no neurnio pr-sinaptico j no tempo Te a^T) a
atividade do neurnio ps-sinptico / na iterao T.

16
Arquiteturas Bsicas
A arquitetura de uma rede neural consiste de um conjunto de

neurnios e suas conexes. H vrias combinaes possveis para estes elementos
o que por sua vez d origem a vrias topologas possveis. Entretanto, trs
configuraes so bsicas. A primeira delas a rede alimentada adiante de uma
nica camada (Figura 5).
Figura 5 - Arquitetura de rede neural de uma nica camada.
A segunda arquitetura, uma das mais difundidas, a multicamadas,

nas quais os neurnios so conectados por conjuntos de neurnios (camada). Neste
tipo de topologia, as camadas podem ser numeradas naturalmente desde a entrada
da rede (x) at sua sada (y), de tal forma que as conexes ocorrem somente entre
camadas sucessivas. A Figura 6 ilustra um exemplo de uma rede neural com este
tipo arquitetura, de fato, uma arquitetura de 4 camadas: Ci, C2, C3 e C4.
17
Figura 6 - Arquitetura de rede neural de quatro camadas.
Outro esquema de arquitetura bem conhecido o recorrente. So

consideradas recorrentes as redes que possuam conexes provenientes de um
neurnio que possam, direta (conexo vermelha) ou indiretamente (conexo azul),
influenciar a entrada do mesmo (Figura 7).
Figura 7 - Arquitetura de rede neural recorrente.
Em contraste com as redes de arquitetura em camadas, a sada da

rede recorrente evolui ao longo do tempo indefinidamente (a menos que a rede
esteja em um estado estvel) mesmo com ausncia de estmulos.
Estratgias de Aprendizagem
Para a concepo de redes neurais existem trs principais

estratgias de aprendizagem, a saber: no-supervisionada, supervisionada e por
18
reforo. Cada uma destas estratgias est associada a classes especficas de

sinais, por meio das quais a aprendizagem se processa: (a) apenas entradas, (b)
pares entrada-sada; e (c) entradas e sinais de avaliao (emitidos pelo ambiente),
respectivamente.
A estratgia de aprendizagem no-supervisionada diz respeito
somente a entradas, ou seja, o sistema aprendiz se auto-organiza de acordo com as
caractersticas das entradas. Desde que aplicaes de controle so associadas com
um mapeamento entrada-sada, a estratgia de aprendizagem no-supervisionada
no adequada, a menos que juntamente com esta seja considerada outra
estratgia.
A aprendizagem supervisionada depende do conhecimento do
problema, pois necessrio um conjunto de pares de entrada-sada, representantes
da soluo desejada para o problema, para que a aprendizagem se processe. Esta
estratgia pode ser adequada para diversas aplicaes, mas no associadas a
controle autnomo. Dificuldades surgem se o ambiente altera suas caractersticas,
tornando invlidos os pares de entrada-sada usados durante o perodo de
aprendizagem.
Na estratgia por reforo, entra em jogo um outro sinal (sinal de
reforo) apresentado pelo ambiente. O ambiente apresenta o sinal somente aps a
rede ter apresentado sua sada. Este sinal corresponde a uma avaliao da rede,
feita pelo ambiente, com respeito resposta apresentada e utilizado no processo
de aprendizagem da rede. Na verdade o que ocorre que as respostas (aes)
executadas pela rede modificam o ambiente, uma vez modificado o ambiente pode
conter estmulos reforadores, que se tornam disponveis para os elementos
sensoriais da rede. No existe, portanto, nenhum mdulo de avaliao ou qualquer
outro dispositivo similar que funciona como um avaliador. Vale lembrar que a
aprendizagem por reforo est diretamente ligada teoria de Seleo por
Conseqncias (Donahoe e Palmer, 1994), tema da Seo 2.2.
2.1.3 Modelos Clssicos de Redes Neurais Artificiais
Uma introduo sobre redes neurais no estaria completa sem

alguns exemplos de modelos de redes que aplicam os conceitos de arquitetura,
19
raciocnio e aprendizagem apresentados anteriormente. De fato, devido sua ampla

divulgao, tais exemplos so muitas vezes tidos como sinnimos dos prprios
conceitos que aplicam.
Perceptron de Mltiplas Camadas
Exemplo tpico de uma rede de vrias camadas, o perceptron de

mltiplas camadas (MLP, multilayer perceptron) tornou-se famoso principalmente
devido ao algoritmo de aprendizagem por correo de erro utilizado em seu
treinamento. Atravs de um processo conhecido por retropropagao de erro, o MLP
tornou-se um dos primeiros modelos de RNA a possuir um mtodo eficiente de
treinamento para redes de mltiplas camadas. O algoritmo de retropropagao
tornou-se famoso pela publicao de Rumelhart e McClelland (1985), Parallel
Distributed Processing. O algoritmo tambm foi responsvel por reacender o nimo
na pesquisa de RNA ao demonstrar que as redes de mltiplas camadas no eram
to limitadas como haviam sugerido Minsky e Papert (1969).
Utilizando uma estratgia supervisionada, o algoritmo de
retropropagao consiste basicamente de dois passos:
1. Passo para frente: um padro de entrada aplicado camada

sensorial da rede e a atividade da mesma se desenvolve
(propaga) a partir destes, produzindo ao final um vetor de
respostas na camada de sada;
2. Passo para trs: a sada computada pela rede comparada com
a sada desejada (estratgia supervisionada) e um sinal de erro
produzido de acordo com a diferena entre os dois. O sinal de
erro ento utilizado para ajustar os pesos sinpticos da rede em
um processo de retropropagao (do final para o comeo da rede)
de forma a minimizar o erro, aproximando a sada computada da
sada desejada. O processo de retropropagao envolve o clculo
da parcela de contribuio de cada neurnio para gerar a sada
da rede, tornando possvel o ajuste (atravs de derivadas
parciais) de cada sinapse segundo sua contribuio especfica.
20
O perceptron de mltiplas camadas utilizado em conjunto com o

algoritmo de retropropagao comumente empregado, entre outras, em tarefas de
classificao de padres e aproximao de funes. No entanto o fato de utilizar
uma aprendizagem supervisionada consiste em um grave ponto negativo para sua
aplicao em sistemas autnomos, tendo em vista que seu treinamento seria
impossvel pelo fato do ambiente de operao no ser totalmente conhecido.
Embora os algoritmos de correo de erro (incluindo o de
retropropagao) aparentemente tenham sido originados de trabalhos matemticos,
sem qualquer inspirao biolgica, existe forte evidncia de que pelo menos uma
rea do crebro opere de forma semelhante. O cerebelo est envolvido no controle
de preciso de movimentos e responsvel, entre outros, por produzir movimentos
suaves e bem coordenados. Evidncias neurobiologies (Rolls e Treves, 1998)
(Rolls, 1999) demonstram que o cerebelo recebe realimentao neural dos sistemas
motores que controla e que utiliza esse sinal (na prtica um sinal de erro) para
corrigir eventuais imprecises.
Mapa de Kohonen
Quando se fala de sistemas auto-organizveis (aprendizagem no-

supervisionada) a referncia principal o modelo de Kohonen (Kohonen, 1982).
Dentre suas aplicaes, talvez aquela de maior destaque seja sua utilizao como
ferramenta para modelagem e compreenso de mapas corticais no crebro. Estes
resultados remetem aos objetivos iniciais que levaram ao desenvolvimento de toda a
teoria de redes neurais e justificam grande parte do entusiasmo em relao ao
modelo.
Tipicamente o Mapa de Kohonen consiste de uma grade uni ou
bidimensional de elementos computacionais (neurnios) cujos pesos sinpticos
esto, inicialmente, distribudos de forma aleatria sobre o espao de entrada.
Durante a fase de treinamento, so selecionadas ao acaso elementos do espao de
entrada e estes so ento apresentados rede. A partir de ento, para cada
apresentao ocorrem trs processos distintos:
1. Competio: os neurnios da grade competem entre si pelo

direito de responder ao sinal de entrada apresentado, atravs do
21
clculo de uma funo discriminante. 0 neurnio cujo vetor de

pesos for mais similar (ex: menor distncia Euclidiana) ao vetor de
entrada o vencedor. Este processo conhecido como o
"vencedor-leva-tudo" ou winner-take-all;
2. Cooperao: o neurnio vencedor estabelece uma vizinhana
topolgica dentro da qual os neurnios possuem o direito de
ajustar suas sinapses;
3. Adaptao Sinptica: os neurnios localizados dentro da
vizinhana estabelecida no passo 2 tm suas sinapses ajustadas
de modo a melhorar o valor de sua funo discriminante. Na
prtica, isso resulta em aproximar o vetor de pesos do vetor de
entrada. Tal ajuste ponderado segundo a proximidade do
neurnio em questo com o neurnio vencedor. Estes ajustes
melhoram a eficcia da resposta dos neurnios ao estmulo.
Ao longo de vrias iteraes este processo ir "posicionar" os pesos

sinpticos sobre o espao de entradas, de forma que os respectivos neurnios
correspondem a um domnio ou sub conjunto de caracterstica particular do espao
de entrada (Kohonen, 1992). Operando dessa forma, o Mapa de Kohonen realiza
uma reduo de dimensionalidade no espao de entrada, extraindo suas
caractersticas principais e assemelhando-se tanto em forma como em funo aos
primeiros estgios da maquinaria cerebral, responsvel pelo processamento
sensorial.
Embora o Mapa de Kohonen ilumine o caminho para a construo
de mquinas semelhantes ao crebro e conseqentemente ao desenvolvimento de
sistemas autnomos, ele consiste de apenas uma parte do sistema necessrio. A
reduo de dimensionalidade e extrao de caractersticas proporcionada pelo
modelo serve para tomar o problema da percepo algo tratvel. No entanto, ainda
faz-se necessrio um mecanismo que associe as caractersticas identificadas com
aes a serem tomadas.
22
Rede de Hopfield
A rede de Hopfield um sistema dinmico, ou seja, possui uma

representao na forma de um sistema de equaes diferenciais; sendo, portanto
um sistema em que entradas provocam a evoluo de estados internos e suas
sadas ao longo do tempo. Algumas caractersticas deste sistema atraem a ateno
dos pesquisadores, inclusive fazendo com que contribussem fortemente com a
revitalizao das redes neurais artificiais (Haykin, 2001) (Hopfield, 1982):
1. O sistema estvel no sentido de Liapunov (Haykin, 2001);

2. O sistema exibe plausibilidade biolgica, ou seja, o sistema de
equaes pode ser deduzido de modelos (simplificados) de
neurnios e de redes neurais biolgicas;
3. Existem procedimentos simples para configurao dos
parmetros do sistema, visando definir as caractersticas do seu
espao de fases. Estes procedimentos podem ser interpretados
como o processo de aprendizagem.
A rede neural de Hopfield exibe interessantes resultados em duas

aplicaes principais: na modelagem de uma memria associativa e na soluo de
problemas de otimizao. Os instigantes resultados alcanados nestas aplicaes
podem ser compreendidos a partir de suas caractersticas.
Considere a aplicao de modelagem de uma memria associativa.
O espao de fase do sistema representado pela rede de Hopfield apresenta diversas
bacias de atrao. Supondo que cada padro a ser registrado pela memria seja um
ponto crtico estvel no espao de fase, ento este seria alcanado sempre que o
estado inicial estivesse na bacia associada ao padro memorizado. Os
procedimentos de configurao de parmetros possuem o objetivo de fazer com que
os padres memorizados sejam exatamente os pontos crticos estveis do sistema.
A estabilidade da rede de Hopfield garantida por uma funo de
Liapunov associada. Problemas de otimizao so solucionados pela rede caso sua
funo de Liapunov possa descrever a funo a ser otimizada. Neste caso, iguala-se
a funo a ser otimizada funo de Liapunov associada rede. A manipulao
dessa igualdade resulta em um conjunto de pesos sinpticos para a rede neural. A
23
evoluo da rede neural, configurada com tais pesos, leva o sistema a estabilizar-se
em estados correspondentes soluo do problema de otimizao.
2.2 Aprendizagem e Comportamento Inteligente
Conforme visto, a aprendizagem de essencial importncia para a

autonomia. , portanto, desejvel que o modelo de aprendizagem empregado utilize
uma estratgia que seja coerente com as idias propostas.
De acordo com o modelo de Seleo pelas Conseqncias (Skinner,
1981) a aprendizagem ocorre a partir de variaes no repertrio de comportamentos
dos organismos. Os comportamentos produzidos por tais variaes desencadeiam
modificaes no ambiente, que atuam de forma a selecionar os mesmos. No caso de
produzir conseqncias favorveis ao organismo, o comportamento retido e passa
a fazer parte do repertrio de ao. Caso produza conseqncias desfavorveis, a
tendncia que o comportamento seja extinguido.
Visando reunir conceitos fundamentais relacionados ao modelo de
Seleo pela Conseqncias, o presente captulo dedica-se ao estudo de alguns de
seus aspectos segundo a viso da Anlise do Comportamento, rea de pesquisa da
psicologia. Segundo o ponto de vista dessa rea, aprendizagem e comportamento
so totalmente dependentes um do outro (Millenson, 1967) e, portanto, toma-se
possvel investigar a aprendizagem estudando-se o comportamento.
2.2.1 Reflexos e Reflexos Condicionados
O tipo de comportamento mais simples exibido por um ser vivo o

reflexo. Este tipo de comportamento definido filogeneticamente, ou seja, j nasce
com o organismo e resultado de uma histria de seleo pelo ambiente ao longo
de vrias geraes (seleo natural). Um reflexo uma contingncia simples,
envolvendo um estmulo especfico e uma resposta especfica. Diz-se que a
presena do estmulo elicia a resposta, ou seja, desencadeia um processo cuja
conseqncia a emisso da resposta. Exemplos desse tipo de comportamento
so: o reflexo patelar, o reflexo pupilar e o reflexo salivar.
24
Embora de extrema importncia para os seres vivos em seus

primeiros momentos de existncia, os reflexos so insuficientes para formar um
repertrio comportamental adequado para toda a sua vida. Eles so frutos de uma
histria de seleo gentica ao longo da evoluo e, por este motivo, limitam-se a
comportamentos essenciais relacionados manuteno da espcie e sobrevivncia
dos indivduos.
Para a formao de um repertrio comportamental adequado
diversidade ambiental, os seres vivos exibem outros mecanismos de aprendizagem
capazes de gerar comportamentos adicionais (alm do comportamento reflexo), ou
seja, capazes de construir um repertrio mais amplo e que permita ao ser vivo uma
melhor adaptao ao meio. Um destes mecanismos chamado condicionamento
respondente (ou Pavloviano, em homenagem ao pesquisador, Ivan Pavlov, que
primeiro descreveu cientificamente tal fenmeno (Millenson, 1967)).
Condicionamento neste contexto, e ao longo do restante do texto, se refere ao
mecanismo responsvel por formar o comportamento. A principal caracterstica
destes mecanismos a capacidade de estabelecer gradualmente associaes entre
estmulos e respostas, sendo um deles parte componente de um comportamento
reflexo. Tais associaes ocorrem quando existe uma correlao temporal adequada
entre a ocorrncia dos estmulos. Aps vrias ocorrncias de um estmulo neutro
(que inicialmente no est associado a nenhuma resposta) seguido do estmulo que
dispara o reflexo, o estmulo neutro torna-se capaz de produzir o comportamento
reflexo (passando a ser chamado de estmulo condicionado). Desta forma, a
resposta reflexa original, filogeneticamente especificada, passa a estar condicionada
a um novo estmulo, sendo esta nova relao estmulo-resposta conhecida como
reflexo condicionado (Millenson, 1967).
Um exemplo tpico de um condicionamento respondente a
associao que se estabelece, por exemplo, entre a viso de um alimento e o reflexo
salivar. O reflexo salivar filogeneticamente relacionado mucosa bucal, quando do
contato desta com o alimento. No entanto, comum a ocorrncia deste reflexo
mediante a simples viso do alimento, algo que conseqncia de um
comportamento respondente que se estabelece.
De forma semelhante aos reflexos, o condicionamento respondente
conseqncia de uma seleo. A diferena que neste caso a seleo realizada
ao longo da vida do organismo e se desenvolve atravs de ocorrncias repetidas e
25
correlacionadas (emparelhamento) de um estmulo neutro (que vir a se tornar o

estmulo condicionado) e o estmulo eliciador (responsvel pela ocorrncia do
comportamento reflexo incondicional).
O condicionamento respondente responsvel por fornecer aos
organismos uma forma de adaptar seu repertrio comportamental frente a um
ambiente dinmico, visivelmente dotando-os de capacidades autnomas. No
entanto, um comportamento respondente ainda est limitado s mesmas respostas
reflexas com as quais o indivduo nasceu e, conseqentemente, no produz novos
comportamentos complexos.
2.2.2 Comportamento Operante
Uma forma de aprendizagem adicional e relevante para a adaptao

dos organismos ao ambiente o chamado condicionamento operante. No caso de
comportamentos do tipo reflexo e reflexo condicionado, estmulos do ambiente
elidam respostas do organismo (respostas reflexas e respondentes,
respectivamente) sendo que as conseqncias dessas respostas no ambiente no
influem nas prprias respostas ou comportamentos correspondentes. J o
condicionamento operante se desenvolve por meio do efeito da ao do organismo
sobre o ambiente. Quando as conseqncias de um comportamento so favorveis
ao desempenho, torna-se maior a probabilidade de que este comportamento ocorra
novamente no futuro. O comportamento operante formado pela seleo das aes
do organismo para interagir com o ambiente. Essa seleo feita atravs da
apresentao de um reforador gerado pelo ambiente. Assim, sempre que o
organismo emitir a resposta desejada, o reforador associado apresentado. Esta
relao causai tende a selecionar a resposta em questo. Este processo
denominado de fortalecimento operante (Skinner, 1981) (Millenson, 1976) e
caracteriza-se pelo fato do comportamento especifico desejado ser gradualmente
selecionado, pela apresentao de um estmulo reforador, em meio a todo o
repertrio de respostas que o organismo apresenta.
Um exemplo de fortalecimento operante ocorre quando um animal

de estimao, ao realizar um truque especfico, recebe de seu dono uma
recompensa. Isso faz com que o animal tenda a repetir o truque no futuro.
26
Um aspecto que faz parte importante do mecanismo de

condicionamento operante reside na capacidade de gerar uma gama extremamente
grande de aes possveis. Segundo essa teoria, os sistemas biolgicos apresentam
um nvel operante caracterizado por um conjunto indiferenciado de respostas
aleatrias emitidas pelo organismo, sem qualquer expectativa sobre suas
conseqncias associadas (Millenson, 1967).
Exemplos de respostas em nvel operante so: o conjunto de
fonemas que recm nascidos so capazes de balbuciar; e os movimentos
indiferenciados de braos e pernas. a partir destas respostas simples, inicialmente
aleatrias, que comportamentos complexos so selecionados.
O condicionamento operante no s possibilita o aumento na
freqncia da resposta, mas tambm a sua reduo. Quando um comportamento
produz no ambiente conseqncias aversivas, a probabilidade de que ele ocorra
novamente reduzida (Skinner, 1981).
Assim, quando o mesmo animal de estimao entrar em casa e
mastigar algum objeto de seu dono, este comportamento provavelmente produzir
uma reao do dono desagradvel. Dessa maneira, a probabilidade de ocorrncia
do comportamento indesejado reduzida, sendo esse procedimento denominado de
punio. importante ressaltar que o termo reforo usado de forma abrangente
para designar tanto o processo de fortalecimento quanto o de reduo. Existe, no
entanto, uma terminologia mais especfica para identificar diferentes formas
(procedimentos) de fortalecer e enfraquecer comportamentos. Assim, tem-se o
reforo positivo e negativo e a punio positiva e negativa. A descrio destas
classes de procedimentos esta fora do escopo deste texto e pode ser encontrada em
Baum (1999).
Uma outra forma de reduzir a probabilidade de ocorrncia de
respostas operantes a extino. A extino ocorre quando um comportamento
anteriormente reforado passa a no produzir mais a conseqncia reforadora
(Skinner, 1981), (Millenson, 1967). Voltando ao exemplo do animal de estimao,
considere que este tenha aprendido a executar um truque sempre quando do retorno
de seu dono, sempre recebendo uma recompensa como reforo. No entanto,
considere que as recompensas passam a serem negadas. No existindo
recompensas, gradualmente o truque deixa de ser reproduzido.
27
Embora didaticamente estudados em separado, os comportamentos

reflexo, respondente e operante no esto sujeitos a esse tipo de separao. Assim
sendo, estes comportamentos ocorrem paralelamente e seus mecanismos so
interdependentes. Suponha, por exemplo, o comportamento de pressionar uma
alavanca, reforado com comida. Embora esse comportamento seja um operante,
inevitavelmente algum estmulo (e.g. o som da alavanca) torna-se presente no
momento que a cobaia obtiver o alimento, o que fornece as condies necessrias
para o condicionamento do tipo respondente.
Os processos de condicionamento respondente e operante atuam
em conjunto e em vrios nveis, produzindo comportamentos complexos. Assim, os
movimentos indiferenciados so gradualmente modificados pelas conseqncias,
passando a se caracterizar como aes coordenadas que permitem apanhar
objetos, caminhar etc. As vocalizaes so diferenciadas de tal forma que balbucios
acabam se tornando palavras e finalmente em um complexo repertrio verbal. As
palavras e aes em geral no ocorrem, no entanto, de forma aleatria. Elas tendem
a ter uma relao precisa com eventos antecedentes. Estes eventos so chamados
de estmulos discriminativos (SD). Estmulos deste tipo permitem ao ser vivo
distinguir a situao na qual a resposta adequada (R), produz o estmulo reforador
(S+).
Um esquema geral de como funciona o paradigma operante o
seguinte:
SD
Inicialmente os estmulos que tm funo de reforo ou de punio

so reduzidos em nmero e so conhecidos como reforadores primrios. Sabor
doce, calor (conforto trmico), dor, sabor amargo so exemplos de reforadores
primrios, isto , tm esta propriedade filogeneticamente determinada. Outros
eventos do ambiente podem adquirir as caractersticas de um reforador, ou seja, a
capacidade de fortalecer o comportamento por meio do emparelhamento com
reforadores primrios. Um estmulo deste tipo chamado de reforador adquirido
ou reforador condicional. exatamente neste ponto que os condicionamentos
respondente e operante esto relacionados, j que o condicionamento respondente
28
faz justamente com que se estabeleam relaes entre estmulos inicialmente

neutros e estmulos reforadores primrios. Talvez o melhor exemplo deste tipo de
estmulo seja o dinheiro que altamente reforador para muitos indivduos de
diversas sociedades, mas insignificante para outros, demonstrando que sua
capacidade reforadora adquirida e que isso depende da histria de vida de cada
indivduo.
Reforadores adquiridos esto envolvidos em um fenmeno
conhecido como encadeamento de resposta, em que as conseqncias de um
determinado comportamento exibido pelo organismo, so estmulos que indicam a
ocasio para um outro comportamento. Voltando ao exemplo anterior, trabalha-se
para se obter dinheiro apenas para que ento seja possvel, entre outras coisas,
comprar alimento. Dessa forma, estabelece-se uma cadeia de estmulos e respostas
que no caso do exemplo fornecido : trabalho=>dinheiro=>compras=>alimento.
Atuando desse modo, o fenmeno de encadeamento capaz de formar cadeias
comportamentais extremamente complexas e conseqentemente tem grande
participao na construo de repertrios comportamentais complexos.
Uma conseqncia importante do condicionamento operante o fato
deste aumentar a estereotipia da resposta, ou seja, o padro de respostas que
compe o comportamento tende a se tornar bem especfico e peculiar. Considere
que inicialmente o organismo emite um conjunto variado de respostas, ou seja,
esteja em nvel operante. medida que esta ou aquela resposta em particular for
reforada, a probabilidade de sua ocorrncia aumenta enquanto a probabilidade das
demais respostas, comparativamente, diminui. Alm disso, a resposta em questo
passa a ocorrer de uma maneira particularmente especfica. Por exemplo, considere
uma cobaia que aprende a pressionar uma alavanca para obter alimento.
Inicialmente ela pressiona a alavanca ao acaso e de diversas formas diferentes, isto
, com variaes na topografia da resposta. medida que o procedimento de
reforo realizado a cobaia passa a pressionar a alavanca com uma freqncia
cada vez maior e restringindo a topografia da mesma (passando a executar a ao
de forma bem especfica, por exemplo, apenas com a pata esquerda).
29
2.3 Reviso Bibliogrfica
2.3.1 Autonomia
Brevemente introduzido no primeiro captulo, o conceito de

autonomia fundamental para este trabalho e define a essncia do que se entende
por um sistema artificial inteligente. Entretanto a interpretao adotada de tal
conceito no consenso entre pesquisadores de Inteligncia Artificial, inclusive
existindo controvrsias sobre seu entendimento, motivo pelo qual tal tema
aprofundado nesta seo.
Um dicionrio, (Fernandes et al., 1991 ), traz o termo autnomo como
sendo algo regido por leis prprias, um sistema independente. No caso especfico de
robs autnomos, esse termo possui um significado preciso, como foi destacado por
Russell e Norvig (1995) e Figueiredo (1999). Segundo os autores, um rob
autnomo quando possui a capacidade de alterar seu comportamento, baseando-se
em suas prprias experincias e com o objetivo de aprimorar seu desempenho. Esta
definio perfeitamente aplicvel a sistemas autnomos em geral; e semelhante
abordagem de autores como Dorigo (1996), Krose (1995), bem como Steels
(1995).
Autonomia, assim definida, introduz diversos pontos importantes a
serem analisados. Uma das primeiras implicaes que para "alterar seu
comportamento, baseando-se em suas prprias experincias" necessrio que o
sistema possua capacidade de aprendizagem, ou seja, que ele seja capaz de alterar
seu comportamento (autogoverno) de forma a maximizar seu desempenho.
De outra forma, tambm comum na literatura a utilizao do termo
autnomo para referir-se a robs que simplesmente no precisam de auxlio externo,
sem que eles possuam necessariamente capacidades de aprendizagem. Robs que
no dependem de auxlio externo podem prescindir da capacidade de aprendizagem
em casos nos quais o ambiente e demais fatores permitam. Entretanto, neste caso,
suas aes seriam repetitivas e/ou totalmente programadas. Segundo o ponto de
vista adotado, tais robs so denominados de automticos (Steels, 1995).
30
2.3.2 Aprendizagem por Reforo e Inteligncia Artificial
As teorias sobre aprendizagem descritas so de grande interesse

para pesquisadores de Inteligncia Artificial, particularmente aquela sobre
comportamento operante. Com o objetivo de fornecer um panorama geral da
pesquisa de aprendizagem por reforo apresenta-se a seguir uma sntese da
questo, bem como de duas tcnicas bastante conhecidas da rea: Temporal
Differences e Q-Learning. Uma abordagem bem mais aprofundada pode ser
encontrada no trabalho de Sutton e Barto (Sutton e Barto, 1988).
De forma geral, o modelo formal visto na IA sobre a aprendizagem
por reforo consiste de:
1. Um nmero discreto de estados ambientais;

2. Um nmero discreto de aes possveis;
3. Um conjunto de sinais de reforo (e.g. {0,1});
4. Uma poltica de aes.
Assim, o objetivo do sistema encontrar uma poltica de aes que

mapeie as entradas do sistema (estados ambientais) para as sadas (aes
possveis) de modo a maximizar os sinais de reforo obtidos.
O problema da aprendizagem tambm pode ser visto como um
problema de previso. Deste ponto de vista, o sistema artificial inteligente toma uma
determinada ao com base em uma previso das conseqncias (reforo) dessa
ao. Para escolher a melhor ao necessrio algum tipo de avaliao das
possibilidades. Uma das tcnicas utilizada para realizar tal avaliao chamada
Temporal Differences (TD) (Sutton e Barto, 1988). Enquanto a maioria dos mtodos
avalia o desempenho do sistema com base na diferena do resultado previsto e
daquele realmente obtido, o mtodo TD atribui crdito s possibilidades a partir de
uma seqncia de previses sucessivas no tempo. A ttulo de ilustrao, tome-se o
exemplo extrado de (Sutton e Barto, 1988). Imagine uma previso do tempo feita
durante toda a semana sobre a possibilidade de chover no sbado. Enquanto a
maioria das tcnicas compara a previso feita em cada dia da semana com o
resultado observado no sbado, usando um valor obtido dessa comparao para
realizar a aprendizagem do sistema; o mtodo TD utiliza uma comparao
31
incremental em que a previso de cada dia influi na do dia seguinte. Assim, uma
previso de, por exemplo, 75% de probabilidade de chuva na tera, influi na
probabilidade de que chova na quarta.
A tcnica de TD fundamentalmente visa avaliar os custos de uma
determinada poltica de aes (Ribeiro, 2002). No entanto, ela no aborda a questo
da aprendizagem dessas polticas. Uma tcnica que aborda tal aprendizagem,
inclusive bastante utilizada no desenvolvimento de robs autnomos, a chamada
Q-learning. Basicamente a aprendizagem consiste de um mtodo iterativo que se
baseia em avaliar a ao (Q) segundo seu valor (Q(x,a)) e que definido como o
desconto obtido no custo ao adotar-se a ao "a", quando no estado "x", seguindo
uma poltica ideal de ao (Ribeiro, 2002).
Obviamente, esses assuntos so extensos e abord-los mais a
fundo foge ao escopo deste trabalho. O objetivo aqui somente oferecer uma breve
sntese sobre a viso da IA sobre comportamento operante e, com isso, denunciar
as relaes entre as teorias da Anlise do Comportamento e a da Inteligncia
Artificial.
2.3.3 Aprendizagem por Reforo e Redes Neurais Artificiais
Em se tratando de aprendizagem por reforo aplicada a redes

neurais, existem basicamente dois tipos de abordagens possveis (Haykin, 2001):
1. Clssica: a aprendizagem acontece atravs de sinais de

recompensas e punies, ou seja, segundo a teoria da Seleo
por Conseqncias;
2. Moderna: trata de uma tcnica matemtica que visa prever e
avaliar as possveis aes para ento escolher qual delas a
melhor a ser tomada, enfatizando, portanto, o planejamento.
A Seo anterior (2.3.2) fornece um panorama geral da teoria e dos

trabalhos que utilizam tcnicas que se enquadram em uma abordagem moderna. Tal
reviso interessante para construir um embasamento terico que favorece a
discusso e possibilita a comparao de resultados. No entanto, o presente trabalho
32
segue uma linha diferente e suas propostas enquadram-se em um panorama

clssico.
Embora a teoria moderna, assim como a teoria clssica, tenha se
originado de estudos em psicologia, em certa altura sua formulao desviou-se,
deixando de lado sua inspirao, evoluindo em direo a solucionar problemas
especficos da IA. Por outro lado, pesquisas experimentais no contexto da
aprendizagem clssica demonstram que a aprendizagem por reforo ocorre em
organismos para os quais no existe evidncia alguma sugerindo o planejamento
das aes futuras (Brooks, 1990) (Brooks, 1991). Dessa forma impossibilita-se
explicar os comportamentos complexos exibidos por tais organismos com base na
teoria moderna. Pesquisas como essas levam a crer que a teoria original possui
potencial para produzir resultados concretos. Alm disso, sua utilizao favorece
todo o processo de aprendizagem medida em que torna mais intuitivo o processo
de interao do sistema com o ambiente.
Apresenta-se a seguir um modelo de rede neural que utiliza uma
abordagem clssica para sua aprendizagem por reforo, servindo de base para o
desenvolvimento das propostas do Captulo 3.
Fundamentos Neurobiolgicos
O modelo proposto neste trabalho baseia-se em conceitos

caractersticos derivados da neurobiologia. Devido natureza pouco comum desse
tema, pelo menos no mbito da Inteligncia Artificial, primeiramente estes conceitos
sero introduzidos para na seqncia ser apresentado o modelo.
Sabe-se que o crebro dos animais, incluindo o humano, possui
regies nas quais a atividade eltrica desencadeada quando estmulos especficos
so apresentados. Sabe-se tambm que tais estmulos so reforadores primrios e
que o circuito neural envolvido capaz de operar logo aps o nascimento sendo,
portanto, filogeneticamente determinado. Uma dessas regies, como destacam
autores como Donahoe e Rolls, a Ventral Tegmental Area (rea Ventral
Tegumentar ou VTA) (Figura 8) (Donahoe, Burgos e Palmer, 1993) (Rolls, 1999).
A partir da VTA, projetam-se, de forma distribuda, vrias
ramificaes em direo ao cortex motor e lbulos frontais, que so do tipo
dopaminrgico, isto , provocam a liberao de dopamina quando estimuladas. A
33
dopamina um neuromodulador capaz de fortalecer as sinapses entre neurnios pr

e ps-sinpticos, imediatamente aps a ativao da sinapse em questo. Estmulos
reforadores primrios possuem capacidade filogeneticamente pr-determinada de
iniciar atividade na VTA, assim a VTA capaz de mediar relaes entre aes
geradas no crtex motor.
Alm dos caminhos neurais filogeneticamente definidos, capazes de
iniciar atividade na regio VTA a partir de reforadores primrios, alguns dos
neurnios do crtex frontal associativo tambm so capazes de estimular a VTA pois
possuem axnios que se projetam, atravs do "mediai forebrain bundle" (MFB)
(Figura 8), at a prpria VTA. Tal estrutura possibilita o desenvolvimento de
reforadores adquiridos, tendo em vista que estmulos discriminativos, cuja
informao viaja at os lbulos frontais atravs dos cortices sensorials, podem
adquirir, por meio de realimentao pelo MFB, a capacidade de estimular o sistema
de fortalecimento dopaminrgico. Concluindo, a Figura 8 ilustra, portanto, um
mecanismo neural capaz de ajustar conexes sinpticas com base em reforadores
primrios, cujos estmulos viajam por caminhos neurais filogeneticamente
selecionados, e reforadores adquiridos, cujos estmulos viajam atravs da regio
conhecida como MFB.
34
Figura 8 - Estruturas neurais de seleo pelas conseqncias1.
interessante notar que grande parte da teoria da Seleo pelas

Conseqncias, desenvolvida a partir de observaes comportamentais feitas em
animais, possui uma correspondncia com estudos da neurobiologia. Tudo indica
que tais correspondncias tendem a aumentar conforme novas descobertas forem
sendo feitas em cada rea.
Modelo de Redes Neurais Artificiais
O modelo proposto por Donahoe, Burgos & Palmer (1993) busca

espelhar os mecanismos neurais que acabam de ser apresentados (no tpico
anterior), utilizando-se tcnicas de RNAs. O objetivo reproduzir fenmenos
comportamentais de que trata a teoria de Seleo por Conseqncias, fornecendo
ao mesmo tempo um modelo neural e uma explicao biolgica correspondente.
Neste modelo, a questo da aprendizagem tratada sob o ponto de
vista do princpio unificado do reforo, ou seja, considerando que os
condicionamentos respondente e operante so tratados em conjunto sob as mesmas
1
Adaptado de: Donahoe e Palmer (1994).
35
regras. Entretanto, as conseqncias de ambos os tipos de aprendizagem

permanecem distintas. Tal como enfatizado anteriormente, essa diviso entre
condicionamento respondente e operante mais uma questo didtica do que
prtica e a abordagem do modelo ajuda a consolidar tal proposta.
Uma simulao do sistema ilustrada na Figura 9. O exemplo
refere-se ao mecanismo de aprendizagem baseado no condicionamento operante,
tendo em vista que a apresentao do estmulo US (unconditioned stimulus ou
reforador primrio) dependente da emisso da resposta R. Considere que o
ambiente no tenha provocado qualquer reforo sobre o indivduo. Desta forma, as
respostas emitidas pelo mesmo ocorrem de forma equiprovvel, em conseqncia
do estado de nvel operante em que se encontra. Considere que a resposta R tenha
sido emitida a partir do estmulo S1. A resposta R altera o ambiente que, por sua
vez, gera um estmulo US. O estmulo US dispara a resposta UR (unconditioned
response ou resposta reflexa). A resposta UR por sua vez est ligada ao sistema
difusor de dopamina e, portanto, provoca um reforo de todas as conexes
sinpticas recentemente utilizadas. Assim, ao longo de vrias apresentaes de S1,
emisses de R e apresentaes de US, as conexes favorveis emisso de R e
UR, a partir do estmulo S1, so gradualmente estabelecidas. Quando as ligaes
estiverem fortemente estabelecidas, o estmulo S1 passa, seguramente, a evocar a
resposta R e tambm a resposta UR, passando a ser um estmulo discriminativo.
A resposta UR em particular, quando emitida a partir da estimulao
de S1 e no do estmulo US chamada de CR (conditioned response ou resposta
condicionada) e conseqncia do condicionamento respondente. Lembre-se de
que este condicionamento capaz de estabelecer relaes entre diversos estmulos
e respostas reflexas. Alm disso, a sada CR tambm representa um reforador
adquirido, pois torna possvel a ativao do mecanismo neural de reforo, por meio
de um estmulo qualquer que no o US.
36
Embora a Figura 9 ilustre o mecanismo de aprendizagem associado

ao condicionamento operante, o modelo tambm ilustra o mecanismo de
aprendizagem associado ao condicionamento respondente (fortalecimento das
ligaes com UR/CR). De fato, ambos ocorrem juntos. A Figura 10 mostra que a
1
Fonte: Donahoe e Palmer (1994).
37
diferena entre os dois tipos de condicionamento reside apenas na dependncia da

ocorrncia do estmulo US (linha tracejada). O desenvolvimento da rede
(fortalecimento das conexes) acontece de forma similar em ambos os casos.
Diferenas ocorrem apenas no caso de um condicionamento puramente
respondente, pois nenhuma conexo com a sada R estabelecida, uma vez que
sua importncia para a ocorrncia do estmulo US nula, ao passo que um
condicionamento operante sempre envolve um condicionamento respondente
associado.
Figura 10 - Contingncia respondente e operante1.
Note-se que a liberao de dopamina depende de um reforo do

ambiente em relao resposta emitida pelo organismo, sendo que tal reforo no
imediato. Assim, utiliza-se um trao de atividade que decai com o tempo e que
permite ao sistema registrar quais sinapses foram utilizadas na emisso do
comportamento e que, conseqentemente, devem ser fortalecidas quando o reforo
for aplicado, podendo ser modelado por meio de uma memria.
Os resultados apresentados por Donahoe, Burgos e Palmer (1993)
em simulaes foram bastante promissores ao reproduzirem diversos princpios
comportamentais, entre eles:
1. Aquisio de comportamento respondente;
1
Fonte: Donahoe e Palmer (1994).
38
2. Extino de comportamento respondente;

3. Aquisio de comportamento operante;
4. Extino de comportamento operante;
5. Reaquisio de comportamento operante;
Embora apresentem resultados interessantes, as simulaes

utilizaram estmulos e respostas bem simples, sendo que apenas um ou dois
neurnios ativos eram utilizados como estmulo e apenas um neurnio de sada era
considerado como resposta. As prprias dimenses da rede tambm so bem
reduzidas, pouco diferente, em nmero de neurnios, daquelas exibidas nas Figura
9 e Figura 10. Alm disso, apesar de descrever em teoria o funcionamento de
unidades inibitrias, nas simulaes tais unidades no foram empregadas, o que
obviamente deixa muitas questes em aberto com relao sua importncia e
possveis contribuies.
Assim embora demonstre o funcionamento de princpios
interessantes, a capacidade reduzida do modelo em termos do nmero de
contingncias que pode armazenar, bem como possveis contribuies de fatores
como inibio lateral, representam fatores limitantes para a implementao de
sistemas autnomos mais complexos. Para o desenvolvimento de tais sistemas, os
princpios que o modelo introduz devem primeiramente ser verificados em uma
arquitetura mais complexa e com maior capacidade de armazenamento.
3 MODELO DE REDE NEURAL ARTIFICIAL
Neste captulo, apresenta-se a rede neural cujo modelo a proposta

principal desse trabalho. O modelo baseado no j discutido trabalho de Donahoe,
Burgos e Palmer (1993) e Donahoe e Palmer (1994) cuja teoria foi apresentada no
Captulo 2 (Seo 2.2.3). O captulo divide-se em trs partes, apresentando
arquitetura, raciocnio e aprendizagem.
3.1 Arquitetura
A rede neural consiste de M camadas. Existe uma camada sensorial

ou camada de entrada (a camada inferior). Os neurnios sensores desta camada
podem pertencer a diferentes classes, definidas segundo a natureza do estmulo que
detectam. H uma camada de sada que define alteraes no estado do ambiente.
As demais camadas so internas. As camadas consistem de neurnios dispostos em
uma estrutura retangular NxN (Figura 11). Existe ainda uma estrutura adjunta,
formada por um conjunto de neurnios sensores denominados US. Os neurnios US
so conectados diretamente a neurnios da camada de sada, denominados
respondentes (na Figura 11 os neurnios US so representados por um nico
elemento). Os neurnios respondentes so aqueles que codificam a resposta
reflexa. Tal resposta, segundo a teoria do condicionamento, quando emitida devido
ao estmulo US definida como UR (unconditioned response). Caso ela seja emitida
devido s ligaes sinpticas que se formaram desde a camada de entrada at os
neurnios respondentes, passando pelo interior da rede, ento chamada de CR
(conditioned response).
40
Camada de Sada
Camadas Internas
Camada Sensorial
Campo de Recepo Sinptico A

Neurnios Respondentes ^
Sinapses Fixas .4-
Figura 11 - Arquitetura de rede neural para quatro camadas.
Cada neurnio estabelece conexes sinpticas segundo trs classes

distintas, a saber: excitatrias inter-camadas, inibitrias e excitatrias intra-camadas.
Conforme as denominaes j deixam claro, as classes definem sinapses de
caractersticas especficas. Para um dado neurnio (no pertencente a camada de
entrada) as sinapses excitatrias inter-camadas ocorrem com neurnios pr-
sinpticos da camada anterior, situados em uma vizinhana cujo centro corresponde
ao neurnio de posio relativa idntica ao neurnio ps-sinptico. Assim, as
conexes excitatrias inter-camadas, a partir de neurnios pr-sinpticos para um
nico neurnio ps-sinptico, definem uma figura espacial em forma de cone, tal
como ilustra a Figura 11. A distribuio espacial de neurnios pr-sinpticos que
estabelecem tais conexes segue uma distribuio de probabilidades Gaussiana
(Figura 12). Por meio das sinapses excitatrias inter-camadas, os sinais fluem de
camada em camada. As sinapses inibitrias esto presentes em conexes
estabelecidas entre neurnios da mesma camada de forma que a distncia ao
neurnio ps-sinptico maior que uma distncia mnima (vizinhana distante). Sua
funo primordial regular a atividade dos neurnios, impedindo que ocorra uma
exploso de atividade na rede, tendo tambm papel crucial na formao de grupos
neurais. As sinapses excitatrias intra-camadas existem em conexes entre
neurnios da mesma camada de forma que a distncia ao neurnio ps-sinptico
menor que uma distncia mxima (vizinhana prxima). Tais sinapses, em conjunto
com as sinapses inibitrias, tm como funo estabilizar a atividade da rede. Assim
41
como as sinapses excitatrias nter-camadas, as conexes excitatrias intra-

camadas so escolhidas aleatoriamente segundo uma distribuio Gaussiana na
regio de vizinhana. A distribuio das conexes inibitrias se d segundo urna
diferena de distribuies Gaussianas (Figura 12). Uma restrio impede que os
neurnios possuam conexes com eles mesmos (auto-sinapse), alm de conexes
repetidas (duas ou mais) com outro neurnio qualquer. De uma forma geral, a
organizao das conexes sinpticas favorece a formao de grupos neurais
(Edelman, 1987).
Posio do Neurnio Conexes Iiubiiiias

(coordenadas na camada 1) (coordenadas na camada 1 )
Conexes Cooperativas
(coordenadas na camada 1)
Figura 12 - Conexes sinpticas tpicas e respectivas distribuies.
Na Figura 12, a rea vermelha indica a posio do neurnio dentro

da camada (camada-1\linha-6\coluna-5, neste caso). Os pontos pretos indicam as
coordenadas dos neurnios em cada camada com os quais o "neurnio vermelho"
faz conexes, ou seja, so os neurnios pr-sinpticos. As conexes excitatrias
42
inter-camada (quantidade = 10) so feitas com neurnios da camada imediatamente

anterior (camada 0). As demais conexes, inibitrias (quantidade = 30) e excitatrias
intra-camada (quantidade = 4), so estabelecidas com neurnios da mesma camada
(camada 1 ). Note a inexistncia de sinapses repetidas bem como de auto-sinapses.
Outra caracterstica da arquitetura (no ilustrada na Figura 11), a
configurao toroidal das camadas, visa minimizar problemas de borda. Dessa
forma, para efeitos de estabelecer conexes, os neurnios extrema direita de cada
camada so vizinhos daquelas extrema esquerda da mesma camada, assim como
os da parte superior o so para os da parte inferior (e vice-versa).
3.2 Raciocnio
Os neurnios possuem natureza dependente da camada a que

pertencem. Para a camada de entrada, a atividade do neurnio sensor j, ay ( r ) , na
iterao 7, definida por aj(T) = ej(T\ em que e y ( r ) o componente j do estmulo
e(T).
Observe que o estmulo e(T) consiste de NxN componentes,

existindo uma correspondncia biunvoca com os neurnios da camada sensorial. O
ndice que especifica o neurnio nico, apesar da estrutura da camada ser
retangular. No entanto, a notao favorece a simplicidade e no deve prejudicar o
entendimento do texto.
Para os sensores presentes na estrutura adjunta, a atividade do
neurnio sensor j, a^T), na iterao T, definida por ( r ) = US (r), em que
USJ(T) o componente j do estmulo US(T). Cada componente US^T)
corresponde a um sinal de avaliao (reforo) distinto, emitido pelo ambiente.
Para as camadas internas, seguindo a proposta de Donahoe, Burgos

e Palmer (1993), a atividade do neurnio/, a , ( r ) , dada por:
43
(7^)) + r 7 - (7' - /)) - (/ - (r)))] - (7^))
se (inbjr) <exCj{T)) e >y('f));
j(Th {ajW-Kj.aft-fy-^nbfti (1)
se inbj(T) <exCj(T) < dj(T) ;
O, se inbj(T) > exCj(T);
com,
m b ^ ^ a l i T y f i l e
i
exCj (:T) = X AR ( 7 > , ( r ) + a f ( T V , (T) ;

i i
em que: a (T) a atividade do neurnio pr-sinptico /' que estabelece conexo
inibitria com o neurnio ps-sinptico j\ afE(T) {af4(T)), de forma anloga, a
atividade do neurnio pr-sinptico / que estabelece conexo excitatria inter-
camada (intra-camada) com o neurnio ps-sinptico _/'; w (r) o peso sinptico
correspondente conexo entre os neurnios pr-sinptico / e o ps-sinptico j\ 6j
(0.0, 0.5) um limiar de ativao sorteado para cada neurnio j a cada iterao T\
Kj a taxa de decaimento de atividade do neurnio j (trao de atividade); r ; (0,1)
uma constante; e S(.) a funo sigmide como a da Figura 4 (parmetros na

Tabela 3).
Para a camada de sada, a atividade do neurnio _/', que seja

respondente, dada por:
AFI), se USJ (T) = 0;

a (T) = (2)
US j (T), se USJ{T)^0.
44
em que: /5 .(r) o componente j do estmulo US(T). Caso o neurnio no seja
respondente, sua atividade a y(T ) segue a mesma definio apresentada para os
neurnios de camadas internas (Equao 1).
Um detalhe importante da Equao 1 diz respeito ao termo 0 y . Seu
objetivo simular uma certa imprevisibilidade ou varincia no nvel de sensibilidade

do neurnio. Em um neurnio natural, essa sensibilidade representa, entre outros, o
tempo necessrio para a membrana plasmtica se estabilizar aps um disparo.
Assim, a cada disparo, o neurnio est em um estado um pouco diferente e um
mesmo estmulo pode provocar respostas ligeiramente distintas de uma iterao
para outra, dependendo do valor do limiar Q naquela iterao. Matematicamente, o
limiar 0y. uma varivel aleatria com distribuio Gaussiana (mdia = 0.2, varincia
= 0.2) assumindo valores no intervalo [0.0 , 0.5]. O objetivo principal desse esquema
produzir variabilidade de comportamentos, criando na rede um padro de disparos
variante que busca refletir o que seria um comportamento de nvel operante. Tal
comportamento vital para o funcionamento da rede. De fato, possvel estabelecer
um paralelo deste com problemas de busca que so parte do desafio na operao
dos sistemas inteligentes (Haykin, 2001).
O processo de atualizao das atividades dos neurnios segue uma
seqncia distinta. O valor de atividade 0(7") de cada neurnio da rede neural
definido de acordo com o procedimento de atualizao da atividade, descrito em
seguida na forma de uma seqncia de passos:
1. A camada sensorial, inclusive considerando a estrutura adjunta,

ativada de acordo com os estmulos apresentados e(T) e US(T)\
2. Caso o componente USJ (T) seja diferente de zero, o neurnio
sensor j da estrutura adjunta e os neurnios respondentes a ele

conectados so ativados, com o mesmo nvel de intensidade do
componente USj-(T)\
3. Escolhe-se um neurnio qualquer das camadas internas ou de

sada (que ainda no tenha sido escolhido e no seja
respondente) e determina-se sua atividade;
45
4. Repete-se o passo 3 at que todos os neurnios tenham sido

atualizados.
Observe que o procedimento de atualizao da atividade

proporciona ao modelo da rede neural uma dinmica paralela. Alm disso, ele busca
evitar qualquer favorecimento a um neurnio ou grupo de neurnios, algo que
poderia ocorrer caso tal grupo fosse sempre o primeiro a ser atualizado e,
conseqentemente, fosse o primeiro a estabelecer seu campo de influncia atravs
das conexes inibitrias e excitatrias intra-camada.
3.3 Aprendizagem
O mecanismo de aprendizagem consiste de uma regra de Hebb

adaptada. Assim sendo, as sinapses que sofrem modificao so apenas aquelas
em que ambos os neurnios (pr e ps-sinptico) esto ativos. Alm disso, a
equao (3) ainda incorpora o reforo (US) j que se trata de um modelo de
aprendizagem por reforo (Donahoe, Burgos e Palmer, 1993).
a ^ d ^ p ^ r i T ) sed{T)>0
AWT) = (3)
- wAT - ]a{T)aT) sed(T)<0
em que: a a taxa de aquisio; a taxa de extino;
dir) uma funo do estmulo US (ao longo do trabalho d(T) = US(T) a menos que
especificado o contrrio, diferentemente da proposto inicial de Donahoe, Burgos e
Palmer (1993) onde d(T) obtido segundo uma outra funo distinta);
n
ry{T)~ W(T) o termo de competio entre as sinapses;
i
/ ^ V?)* T - l) ,
pi{T) = e o termo de contribuio de cada sinapse (sinapses que
contribuem mais para a atividade recebem mais peso) onde N=excj(T) ou
N=mbj (T) conforme o tipo da sinapse.

46
Dessa forma, caso o reforo seja maior que zero, a sinapse

fortalecida (processo de aquisio de comportamentos) e caso o reforo seja menor
ou igual a zero a sinapse enfraquecida (processo de extino de
comportamentos). Note que a Equao (3) vlida para ambos os tipos de sinapse
(excitatria e inibitria).
O mtodo de atualizao dos pesos sinpticos semelhante em
abordagem e objetivo quele utilizado para a atualizao da atividade e segue os
seguintes passos:
Para todo instante T:
1. sorteado um neurnio equiprovavelmente e sem reposio;

2. Sorteia-se equiprovavelmente uma sinapse (sem reposio);
3. Atualiza-se o peso sinptico correspondente, aplicando a
Equao (3) e utilizando as entradas no instante 7";
4. Repete-se o passo 2 e 3 para todas as sinapses;
5. Repetem-se os passos 1, 2, 3 e 4 para todos os neurnios.
4 RESULTADOS
Este captulo apresenta os resultados obtidos com o modelo

proposto no Captulo 3 em diversos experimentos de simulao. Os experimentos
visam demonstrar as caractersticas de funcionamento bem como as capacidades de
aprendizagem do modelo. Diversos experimentos tm fundamento na teoria da
seleo pelas conseqncias e objetivam avaliar o modelo segundo os fenmenos
comportamentais que a teoria descreve.
Para efeitos da interpretao dos resultados de experimentos
apresentados na forma de figuras faz-se necessria uma observao. A atividade da
rede um fator dinmico dependente de diversas regras e extremamente variante
no tempo, no apenas quando essa se encontra em nvel operante (exibindo
respostas aleatrias), mas tambm depois de realizada a aprendizagem (onde
normalmente a atividade estabiliza-se ao redor de um certo padro, mas continua
variante). Devido a essa natureza, cada figura representa uma amostra do padro de
atividade dos neurnios em cada camada em um determinado instante T e no um
comportamento fixo.
Os resultados apresentados so divididos em duas partes, na Seo
4.1 os exemplos visam mostrar os mecanismos e princpios de funcionamento da
rede, fornecendo um melhor entendimento de como determinadas caractersticas e
parmetros influenciam seu funcionamento. A Seo 4.2 traz experimentos cujo
objetivo demonstrar as capacidades de aprendizagem da rede bem como a gama
de comportamentos que ela capaz de adquirir.
Parmetros das Simulaes
Ao longo de todos os experimentos realizados nas prximas sees,

procurou-se manter o mesmo conjunto de parmetros para o modelo. A no ser
quando especificado diferentemente, tal conjunto segue a descrio fornecida nas
Tabelas 1, 2 e 3. Obteve-se os parmetros apresentados atravs de observaes
preliminares de funcionamento do modelo. Muitos dos parmetros visam fornecer
condies mnimas para o funcionamento de caractersticas esperadas do modelo.
48
Por exemplo, a dimenso das camadas e a distribuio sinptica visam fornecer

condies para o surgimento de grupos neurais.
Tabela 1 - Propriedades da Rede

Nmero de camadas 4
Nmero de neurnios por camada 100 (grade de 10x10)
Tabela 2 - Propriedades das Conexes Sinpticas

Excitatrias Inibitrias Exc. Intra-Camada
N de sinapses por
10 30 4
neuronio
Raio de distribuio1 [0.0 , 2.5] [1.5,3.0] [0.0, 1.5]
2
Valor inicial [0.0095 , 0.0105] [0.095 , 0.105] [0.095 , 0.105]
Faz-se aqui necessria uma observao com relao as conexes

do tipo inibitrias e excitatrias intra-camadas, a respeito do ajuste sinptico das
mesmas. Por motivos discutidos nas concluses, o ajuste desses tipos de sinapses
desativado durante as simulaes apresentadas neste captulo, ou seja, estas
sinapses no aprendem. No entanto, sua funo permanece e sua importncia
tambm, sendo que apenas sua influncia deve ser considerada como constante.
Tabela 3 - Parmetros das Equaes
Parmetros de Atividade Neural Parmetros de Aprendizagem

ei = [o.o, 0.5] a = 0.5
Kj = 0.8 = 0.1
T, = 0 . 1 d{T) = US{T)
Inclinao da Sigmide = 0.1
Limiar da Sigmide = 0.3
1
Medido em posies na grade a partir do neurnio (Ex: raio de intervalo [1.5 , 3.0] significa que a
sinapse pode ser sorteada e efetuada com qualquer neurnio que esteja no mnimo a 1.5 posies de
distncia na grade e no mximo a 3.0). O sorteio feito segundo uma distribuio Gaussiana com
mdia = 0.0 e varincia = valor mdio do intervalo definido para o tipo da sinapse.
2
Varivel aleatria com distribuio uniforme no intervalo especificado.
49
Avaliando Respostas Desejadas
0 procedimento bsico de operao da rede neural envolve a

apresentao de um estmulo, a computao por parte da rede de uma resposta e,
caso a resposta seja desejada, o retorno apresentado pelo ambiente na forma de um
reforador.
A resposta desejada definida antes do incio da simulao e
envolve a especificao, para cada estmulo definido para o ambiente, de quais
neurnios da camada de sada so considerados resposta (neurnios resposta) bem
como a faixa de atividade considerada vlida. Alm disso, definida a porcentagem
de participao necessria para que a resposta seja considerada vlida e tambm o
valor do US associado resposta.
A avaliao feita segundo o grau de participao dos neurnios
resposta na atividade geral da camada de sada. Para tanto, aps cada iterao do
procedimento de atualizao da atividade (ver Seo 3.2), feito um somatrio da
atividade de todos os neurnios da camada de sada, bem como um somatrio
apenas daqueles neurnios especificados como resposta vlida e que apresentaram
atividade dentro da faixa definida. A relao entre esses dois somatrios, isto , a
porcentagem de participao dos neurnios resposta na atividade geral da ltima
camada comparada com o valor definido para a resposta. Valores maiores ou
iguais so considerados respostas vlidas (e so seguidos pela apresentao do US
associado). Do contrrio, a resposta considerada invlida.
Interpretando as Ilustraes
Nos experimentos que se seguem, so utilizadas figuras para ilustrar

as observaes realizadas e estas seguem algumas definies. As figuras
representam tanto a arquitetura como a atividade neural e de acordo com o padro
so
dos experimentos, ilustram quatro (4) camadas, cada camada consistindo de uma
grade retangular de 1Ox10 (dez por dez) neurnios (Figura 13).
1 - Atividade - 0.0
2 - Atividade )0.0 , O.OS[
3 - Atividade (0.05 , LO(
4 - IruIiI:ador de Neurnios
Resposta
Figura 13 - Representao da rede.
A camada de entrada referida como "Camada O", a "Camada 1" e

"Camada 2- so intermedirias e a ltima camada ou camada de sada a Camada
3". Cada neurnio representado pcr um quadrado de borda clara. A atividade do
neurnio indicada pela cor de preenchimento do quadrado. Preto para atividade
nula (igual a zero), marrom para indicar uma atividade muito reduzida (entre zero e
0.05) e uma escala de cor azulada para atividades acima de 0.05 at 1.0. Neste
ltimo caso, quanto maior a atividade mais intensa a cor. Nos experimentos em que
existe treinamento efetivo da rede, existe ainda um crculo vermelho na ltima
camada que destaca os neurnios resposta .
Definindo o Treinamento
A aprendizagem em muitas redes neurais acontece em perodos

bem definidos denominados treinamento. O mecanismo de aprendizagem por
51
reforo segundo uma perspectiva clssica (fundamentada na Anlise do

Comportamento) permanece indefinidamente habilitado (no existindo distino
entre uma fase de aprendizagem e operao), portanto no podendo ser adotado o
conceito de treinamento com o mesmo significado.
Nos experimentos deste captulo, a interpretao do conceito de
treinamento deve, portanto, ser feita segundo o seguinte significado:
1. O incio do treinamento considerado a partir do momento em

que a rede inserida no ambiente;
2. Considera-se que o treinamento chegou ao fim quando, a partir
do estmulo CR (contingncia respondente) ou S (contingncia
operante), a atividade neural convergir de forma a representar a
resposta desejada (adquirindo comportamentos) ou atingir o
estado de nvel operante (extinguindo comportamentos).
Um estado estvel que represente uma convergncia da atividade

identificado quando no se observa alteraes significativas no padro de atividades
dos neurnios.
4.1 Experimentos Bsicos
Os diversos elementos componentes do modelo proposto, entre eles

o padro de conexes sinpticas caracterstico, interagem de forma particularmente
interessante e pouco comum durante o funcionamento da rede neural. As
conseqncias de tais interaes so processos indispensveis para uma correta
modelagem das caractersticas comportamentais, as quais deseja-se que o modelo
seja capaz de reproduzir.
Uma anlise independente de tais processos emergentes feita na
seqncia. O foco do estudo no o treinamento, capacidade de aprendizagem ou
o comportamento que a rede capaz de desenvolver. O objetivo somente
demonstrar caractersticas de funcionamento do modelo proposto. A partir de tais
exemplos fica claro o papel que cada tipo de sinapse, juntamente com suas
configuraes especficas, desempenha dentro da rede.
52
4.1.1 Atividade Neural sem Conexes Laterais
0 fato de possurem alcance limitado bem como serem limitadas em

nmero faz com que as sinapses excitatrias inter-camadas tornem a propagao da
atividade neural bem caracterstica.
A partir de um estmulo em uma determinada regio da camada de
entrada da rede (Camada 0 da Figura 14), a atividade neural propaga-se de camada
em camada atravs das conexes excitatrias inter-camadas para um nmero
limitado de neurnios das camadas posteriores (Camada 1, Camada 2, etc.). A
distncia que a atividade neural percorre dentro da rede, isto , a difuso que ela
sofre ao longo das camadas (por exemplo, comparando-se a Camada 0 com a
Camada 1) no mximo o alcance permitido pelas conexes sinpticas
(aproximadamente ilustrado pelo crculo tracejado na Camada 1) (um parmetro
especificado quando da inicializao da rede).
Para que um estmulo consiga, eventualmente, produzir atividade
em qualquer neurnio da camada de sada, necessrio que o alcance mnimo das
conexes, acumulado ao longo das camadas, seja grande o suficiente para englobar
toda a extenso da ltima camada (Figura 14). Para este experimento so utilizadas
apenas conexes excitatrias inter-camadas, os demais tipos de conexes no so
empregados. A atividade neural no converge, pois no se trata de um experimento
de aprendizagem, conseqentemente a atividade neural oscilante.
S3
ComodoO Comodo ,

(com cone de alcance minimo).
Caso o alcance mnimo das conexes no seja respeitado no

possvel garantir que exista, com certeza , um caminho neural capaz de estabelecer
uma ligao entre qualquer estimulo e qualquer resposta possivel (Figura 15). Note,
na Figura 15, que os neurnios na periferia da Camada 3, so incapazes de serem
estimulos pelo estmulo apresentado na Camada O.

(sem cone de alcance mnimo)
54
4.1.2 Atividade Neural com Conex es Laterais
Na Seo 4.1.1, fica claro como a atividade neural propaga-se pelas

vrias camadas da rede . No entanto, o resultado final pouco til tendo em vista
que a resposta produzida abrange toda a extenso da camada de saida. No existe
diferenciao ntida entre possveis respostas, apenas uma exploso de atividade.
Para obter padres distintos de atividade que possam ser
considerados respostas especficas, vlidas ou no, necessrio, de alguma forma ,
limitar a atividade da rede. justamente esse o papel das conexes laterais
inibitrias.
o exemplo da Figura 16 trata exatamente da mesma rede
apresentada no exemplo da seo 4.1.1 apenas com as conexes inibitrias
habilitadas e operando. Neste experimento, no foram utilizadas as conexes
excitatrias intra-camada. Nota-se uma reduo drstica na atividade geral da rede
bem como uma maior especificidade, com melhor definio de padres locais. Os
padres 1 e 2 da Figura 16 ilustram duas respostas emitidas em instantes de tempo
arbitrrios. Tais respostas no representam um estado estvel tendo em vista que
no realizada a aprendizagem, ou seja, a rede no converge.
Padro 1 Padro 2
Camada o Camada 1
Figura 16 - Atividade neural com conexes laterais inibitrias.

55
A forma como as conexes inibitrias contribuem para a operao

da rede no to simples como pode parecer em principio. Uma das contribuies
do uso de conexes inibitrias um aumento no contraste da atividade neural.
Observe que no experimento anterior (Figura 14) as atividades dos neurnios
assumiam valores numa ampla faixa , enquanto neste experimento (Figura 16)
poucos neurnios atingem o limiar necessrio para exibir atividade. Outro fator de
grande importncia devido s conexes inibitrias o comportamento aleatrio das
respostas especificas (nivel operante). Com tais conexes existe um certo equilibrio
entre excitao e inibio ao longo de toda a rede e assim surgem padres
especficos de disparo errticos.
Considere o exemplo ilustrado na Figura 17 em que os pesos
sinpticos so configurados para [0.295, 0.305) (maiores que nos demais
experimentos). Definindo maiores valores para os pesos a excitao torna-se
predominante sobre a inibio. Observe que a excitao mais intensa, causa
desequilbrio entre excitao e inibio, a atividade assume valores altos e a
resposta deixa de ser especifica. Respostas no especificas deixam de ser
interessantes, pois impossibilitam a definio de padres de resposta especificas
desejados.
C....daO C....da1
Figura 17 - Atividade neural com conexes laterais inibitrias e excitao

predominante.
56
interessante notar que, sob a influncia do algoritmo de

aprendizagem, uma rede com tal atividade rapidamente evoluiria para o equilbrio
excitao/inibio. Conseqentemente a rede retomaria ao estado de nvel operante
(Figura 16). Isso acontece uma vez que pequena a probabilidade de que respostas
pouco especficas, como as ilustradas na Figura 17, sejam de fato respostas
desejadas, implicando na ausncia do sinal de reforo. Conseqentemente, ocorre o
enfraquecimento das conexes inter-camadas, o que tende a equilibrar o nvel de
excitao com o de inibo e produzir o comportamento de nvel operante. No
entanto, isso pode no ocorrer, bastando para isso que a atividade ilustrada na
Figura 17 seja considerada uma resposta vlida de algum tipo.
Os experimentos representados nas Figura 14, Figura 16 e Figura
17 oferecem indcios de que as sinapses inibitrias possuem um papel essencial
para que a rede estabelea um estado de nvel operante em que respostas
desejadas so geradas.
4.1.3 Formao Dinmica de Grupos Neurais
A distribuio espacial das conexes sinpticas favorece a

existncia de grupos neurais, isto , de grupos localizados de neurnios que
respondem a um mesmo estmulo ou conjunto de estmulos. No entanto, apenas a
distribuio das sinapses no suficiente para definir grupos dessa natureza. Para
tanto considere a discusso em seguida.
Um grupo neural formado por neurnios centrais, localizados em
seu centro, e por neurnios perifricos, posicionados nos limites espaciais do grupo.
Neurnios centrais possuem um maior nmero de sinapses que participam
ativamente da operao do grupo, uma vez que ao seu redor existem mais
neurnios que tambm participam do grupo, ao passo que neurnios perifricos
possuem algumas sinapses no utilizadas, estabelecidas com neurnios prximos a
ele e que, no entanto, no participam do grupo. As conexes sinpticas por si s
permitem que cada neurnio seja o centro de seu grupo (Figura 12).
A formao dos grupos neurais uma caracterstica emergente,
dependente no apenas da distribuio, mas tambm de adaptao sinptica. Ao
longo do processo de aprendizagem, os neurnios que inicialmente disparam com
57
maior intensidade tendem a se tornar neurnios centrais , promovendo a definio

dos grupos. A configurao evolui gradualmente a medida que a atividade nas
camadas vai se estabelecendo (Figura 18 e Figura 19) e os grupos se definindo em
conseqncia do treinamento (Figura 20).
O tamanho dos grupos depende da distribuio espacial das
sinapses. Um padro de conexo com poucas sinapses excitatrias intra-camadas e
com estas estabelecidas com neurnios prximos produz grupos pequenos. As
conexes inibitrias intra-camadas tambm participam na definio do tamanho do
grupos. Um raio de alcance pequeno para as conexes inibitrias pode significar que
neurnios que possivelmente estabeleceriam um grupo, por estarem prximos,
podem na verdade estar inibindo uns aos outros, conseqentemente diminuindo o
nmero de neurnios que efetivamente cooperam entre si. O alcance das conexes
inibitrias tambm define quantos grupos sero permitidos em cada camada. Um
alcance moderado permite que dois ou mais grupos isolados su~am (Camada 2 da
Figura 20).
ComodaO Comoda , ComodaO Comoda ,
Figura 18 - Atividade inicial ainda Figura 19 - Atividade intermediria

sem grupos neurais definidos. com surgimento dos grupos neurais.
S8
Figura 20 - Atividade final com grupos neurais formados .
Note uma diferena clara entre uma atividade com predominncia

geral das conexes excitatrias inter-camadas, no caso da Figura 17, e um
fortalecimento especifico das mesmas atravs de treinamento (Figura 18, Figura 19
e Figura 20). Fica claro, portanto, que durante o treinamento as conexes sinpticas
so fortalecidas segundo um esquema particular, evoluindo uma rede com padres
distintos daqueles que so obtidos simplesmente aumentando-se os pesos
sinpticos.
Outra conseqncia do fato dos grupos neurais desenvolverem-se
de forma dinmica que, aps o treinamento, o grupo que define a resposta no
necessariamente abrange todos os neurnios definidos como parte da mesma
(indicados nas figuras pelo circulo vermelho). Como o grupo dinmico ele pode
incorporar mais ou menos neurnios do que os especificados.
4.1.4 Consideraes Sobre a Evoluo da Atividade Neural
A rede inicia sua operao exibindo padres de disparos

equiprovveis, pois inicialmente seu comportamento deve simular o nvel operante.
medida em que a rede recebe sinais de reforo como retomo a respostas
desejadas, emitidas na presena de estimulas especificos (discriminativos), suas
59
conexes sinpticas so fortalecidas gradualmente e, como conseqncia, o padro

de disparos aleatrios vai se tornando restrito.
Este panorama torna-se ainda mais interessante devido restrio
de alcance das sinapses, a inibio lateral e ao padro especfico de progresso da
atividade produzida por tais fatores. Propagando-se a partir da camada de entrada, a
atividade neural pode percorrer no mximo a distncia que o raio das conexes
permite. Deste modo, a distncia total que a atividade desencadeada por um
estmulo pode atravessar dentro da rede, desde a camada de entrada at a camada
de sada, no mximo a soma do raio das conexes sinpticas em cada camada,
levando-se em conta que pequenas variaes so permitidas dado o fator aleatrio
ao se estabelecerem as conexes.
Durante a aprendizagem, as sinapses so mais intensamente
reforadas nas camadas inferiores da rede (pois esto mais prximas aos estmulos
que possuem nvel de atividade expressivo e tambm por possurem atividade mais
freqente). Quando a atividade toma-se estvel na primeira camada, na forma de
grupos neurais, automaticamente ela passa a definir uma regio mais restrita (que
menor que o cone total de propagao possvel da atividade) da rede a partir da qual
a atividade poder propagar-se, uma vez que o cone de disperso da atividade
(criado pelo padro de conexes) possui agora uma camada a menos para se
expandir. Conseqentemente, o espao de busca torna-se mais limitado, pois a
cada camada ele limita-se a um nmero de neurnios menor que o total de
neurnios possveis. Tal fato pode ser comparado ao fenmeno da especificao da
resposta, visto na Seo 2.2.2.
4.2 Experimentos de Aprendizagem
Nesta seo o objetivo dos experimentos realizados passa ser a

demonstrao das capacidades de aprendizagem do modelo. Os dois tipos de
aprendizagem envolvem contingncias do tipo respondente e operante, com
destaque para este ltimo. Lembrando que os princpios mostrados na Seo 4.1
permanecem presentes e atuando.
Apesar de ter sido ressaltado durante a discusso da teoria que
durante um treinamento operante inevitavelmente tambm ocorre condicionamento
60
do tipo respondente, nos experimentos apresentados a seguir preferiu-se separar os

dois em benefcio da compreenso. Isso, no entanto, no invalida o que foi discutido
at o momento. A separao dos dois tipos de aprendizagem foi realizada
simplesmente no especificando neurnios respondentes durante os treinamentos
de contingncias operantes, impossibilitando assim a associao do tipo clssica
entre o estmulo US e tais neurnios.
4.2.1 Experimento 1 - Convergncia da Aprendizagem em Treinamento

Respondente
O primeiro experimento visa demonstrar as capacidades da rede

neural em associar um estmulo qualquer (estmulo condicionado - CS) a um
estmulo incondicionado US (reforador). Considera-se que existe uma correlao
temporal do primeiro com o segundo. Aps o treinamento, o estmulo condicionado,
que inicialmente no produz qualquer resposta particularmente interessante, passa a
eliciar a mesma resposta ou uma resposta muito prxima quela produzida
inicialmente apenas pelo estmulo reforador.
Para este experimento so definidos o estmulo incondicionado US
(Camada 0 da Figura 21), os neurnios respondentes (crculo vermelho na Camada
3 da Figura 21), a intensidade do US (igual a 1.0 ou intensidade total) e a correlao
temporal entre US e CS (o US apresentado 3 iteraes aps o CS).
61
Figura 21 - Atividade neural do Figura 22 - Atividade neural do

estmulo CS anterior ao treinamento estimulo US anterior ao treinamento
respondente. respondente.
Figura 23 - Resposta do estmulo CS aps treinamento respondente.
Inicialmente, como era de se esperar, o estmulo CS no produz

uma resposta especfica na rede (Figura 21). O estimulo US, como tambm de se
esperar, capaz de produzir atividade nos neurnios respondentes mesmo antes do
treinamento (Figura 22). Note que a presena do estmulo US afeta apenas os
neurnios respondentes (ver Seo 3.1).
62
Aps o treinamento, o estmulo CS adquire a capacidade de produzir

na rede uma resposta semelhante quela produzida pelo estmulo US (resposta
condicionada), mesmo, agora, sem a presena deste ltimo (Figura 23). Portanto, o
treinamento respondente foi bem sucedido.
Na Figura 23, alm de atividade neural na regio esperada (regio
dos neurnios respondentes), a rede tambm exibe atividade em outros neurnios.
Isso se deve a vrios fatores, entre eles o padro de conexes sinpticas. O
interessante que a prpria teoria do condicionamento respondente, assim como
visto, prev como conseqncia do mesmo o aumento na freqncia de qualquer
comportamento que esteja ocorrendo nas proximidades temporais da ocorrncia do
estmulo US. Sendo assim, a existncia de atividade neural fora da regio definida
como resposta indica a existncia de uma correlao entre os neurnios,
provavelmente devido a um padro de conexes caracterstico, o que
perfeitamente condizendo com a teoria.
4.2.2 Experimento 2 - Extino de Comportamento Respondente
Para um sistema artificial ser capaz de comportar-se de forma

autnoma ele precisa ser capaz de se adaptar a um ambiente mutvel. Caso uma
contingncia ambiental mude de caracterstica e deixe de estar associada a um
estmulo reforador, conseqentemente o sistema artificial deve deixar de emitir a
resposta que aprendeu a associar at ento. Adaptar-se nesse sentido no limita-se
a adquirir comportamentos, mas tambm a desfazer-se de comportamentos.
Para exemplificar esse processo, utiliza-se como ponto de partida o
Experimento 1, onde foi estabelecida uma contingncia clssica entre um CS e um
US (Figura 23 e Figura 24 que ilustram o mesmo caso). A partir dessa configurao,
uma vez removido o estmulo US (eliminando a relao US - CS), a rede neural
cessa de emitir a resposta condicionada presena do CS (Figura 25), extinguindo a
resposta anteriormente adquirida.
63
Camada 1 Camada 1
Figura 24 - Atividade neural anterior Figura 25 - Atividade neural aps

extino do comportamento extino do comportamento
respondente. respondente.
4.2.3 Experimento 3 - Convergnc ia da Aprendizagem em Treinament o

Opera nte
De acordo com os conceitos deste trabalho, um dos maiores

desafios para um sistema autnomo consiste em investigar o ambiente, explorando-
o, e aprender a partir dessa explorao quais as contingncias presentes no
ambiente. Ou seja, o sistema deve aprender quais respostas so reforadas pelo
ambiente e tambm deve aprender a emitir tais respostas nas situaes em que elas
so esperadas.
O objetivo desse experimento demonstrar a capacidade do modelo
proposto em aprender uma contingncia operante simples. A simulao envolve a
presena de um estimulo (estimulo discriminativo), uma resposta desejada e um
estimulo reforador (US), sendo apresentado apenas quando, na presena do
estmulo discriminativo, a rede emite a resposta desejada.
Inicialmente, a resposta da rede para o estmulo discriminativo
compreende o padro de disparos de nvel operante (Figura 26). Durante o
treinamento a rede recebeu o sinal de reforo (US) sempre quando exibia a resposta
correta (crculo vermelho). Desta forma, a atividade neural evoluiu para a
configurao exibida pela Figura 27, adquirindo a capacidade de responder
64
corretamente (apresentando a resposta desejada) sempre que o estimulo

discriminativo apresentado.

ao treinamento aperante. treinamento aperante.
interessante notar que, para um outro estmulo qualquer diferente

do estimulo discriminativo (estimulo que no possui uma relao operante
associada) a atividade da rede permanece em nvel aperante. Para ilustrar essa
caracteristica , durante o condicionamento exibido nas Figura 26 e Figura 27, um
estmulo no discriminativo apresentado em altemncia com o estmulo
discriminativo. Aps o treinamento , o estmulo no discriminativo no produz uma
resposta especifica, permanecendo a rede em nivel operante (Figura 28). Isto ocorre
pelo fato de no existir uma resposta desejada associada ao mesmo, ou seja, o
ambiente no possui uma contingncia relacionada a este estmulo em particular (tal
estimulo no est associado a um estimulo reforador US).
65
Figura 28 - Atividade neural aps treinamento operante para um estmulo no

reforado.
A Figura 29 e a Figura 30 apresentam uma configurao alternativa

para este experimento. No entanto, visam demonstrar o mesmo princpio. Neste
caso , a resposta desejada definida em neurnios que esto localizados em uma
posio relativa diferente daquela assumida pelos neurnios que so estimulados.
Dessa forma, a atividade neural dentro da rede obrigada a propagar-se em um
padro diagonal, considerando-se as vrias camadas. O objetivo aqui mostrar que
o treinamento capaz de estabelecer conexes e de fato consolidar um padro de
disparos entre qualquer regio da primeira e ltima camadas.
66

ao treinamento operante (exemplo 2). treinamento operante (exemplo 2).
Essa caracterstica interessante no apenas do ponto de vista

comportamental , mas tambm do ponto de vista arquitetural. Pensando em termos
de arquitetura, existe um favorecimento por parte das conexes sinpticas iniciais
(devido ao padro Gaussiano de distribuio) de que a atividade neural propague-se
ascendentemente em linha reta , camada aps camada. No entanto, o mecanismo de
aprendizagem e a prpria forma de operar da rede so capazes de superar essa
tendncia inicial , fortalecendo as conexes de forma adequada.
4.2.4 Experimento 4 - Extino de Comportamento Operante.
Assim como importante esquecer contingncias dssicas no

mais existentes (Experimento 2), tambm fundamental para um sistema autnomo
extinguir contingncias aperantes previamente estabelecidas que no so mais
vlidas.
Utilizando como ponto de partida o segundo treinamento realizado
no experimento anterior (Figura 31 ), feita uma pequena modificao na definio
do ambiente, removendo-se a apresentao do US quando a resposta desejada
emitida na presena do estmulo discriminativo. Aps algumas poucas iteraes, ao
longo das quais as conexes sinpticas so gradualmente enfraquecidas devido
ausncia do reforo, a resposta da rede diminui e retoma ao padro de nvel
67
operante (Figura 32). Dessa forma a contingncia previamente estabelecida

eliminada.
ComodoO Comodo 1

extino do comportamento operante. extino do comportamento operante.
4.2.5 Experimento 5 - Capacidade de Generalizao
Uma das contribuies do modelo proposto para o desenvolvimento

de sistemas autnomos inteligentes, que herdada do modelo de redes neurais, a
capacidade de generalizao. Atravs desta capacidade, uma rede neural pode
emitir uma resposta particular para um estmulo, mesmo que no tenha feito parte do
processo de aprendizagem, categorizando-o segundo sua semelhana com um
estimulo que de fato tenha participado do treinamento.
Este experimento demonstra um treinamento operante simples. A Figura 33

apresenta a resposta inicial, apresentada pela rede antes do treinamento. Aps o
treinamento, o estimulo discriminativo (Camada O da Figura 34) adquire controle
sobre a resposta desejada (Camada 3 da Figura 34). At esse ponto o experimento
no diferente dos apresentados anteriormente. A
Figura 35, a Figura 36 e a Figura 37 ilustram a resposta da rede para estimulos
semelhantes ao estmulo de treinamento que, no entanto, no fizeram parte do
mesmo. Note que a resposta da rede permanece praticamente inalterada para o
estimulo que diferente apenas na atividade de um neurnio (
Figura 35). medida que o estimulo apresentado torna-se cada vez
mais discrepante em relao ao estimulo de treinamento (Figura 36 e Figura 37), a
68
atividade torna-se menos similar. No entanto, mesmo para um estmulo

consi deravelmente degradado (Figura 37), a resposta da rede ainda assemelha-se
bastante resposta original obtida com o treinamento.
c........ o Camada 1
Figura 33 - Atividade neural anterior ao treinamento operante (exemplo de

generalizao).
Figura 34 - Atividade neural aps Figura 35 - Atividade neural aps

treinamento operante com estmulo treinamento operante com
original. degradao do estmulo (exemplo 1).
69

treinamento aperante com treinamento aperante com
degradao do estimulo (exemplo 2). degradao do estimulo (exemplo 3).
Sem dvida, a capacidade de generalizao fundamental para o

desenvolvimento de sistemas autnomos inteligentes e o fato do modelo proposto
incorporar tal qualidade acrescenta valor ao mesmo, principalmenle diante das
expectativas de sua utilizao.
4.2.6 Experimento 6 - Controle de Intensidade da Resposta
Certas situaes exigem que um sistema autnomo seja capaz,

alm de emitir uma resposta correta em uma determinada situao, emitir essa
mesma resposta com uma certa intensidade particular para a circunstncia atual.
Considere um exemplo em que um rob autnomo cujo repertrio comporta mental
inciui o conlrole de sua velocidade de deslocamento. Em certas situaes ele pode
desenvolver velocidade mxima, por exemplo, quando se desloca em linha reta ,
acelerando at o limite de sua capacidade. Em outras ocasies pode ser necessria
uma velocidade diferente, por exemplo, em uma curva onde, a fim de evitar
derrapagens, a velocidade desenvolvida deva ser menor.
O experimento a seguir foi montado tendo-se em mente situaes
como a descrita acima e visa avaliar a capacidade do modelo em associar uma
mesma resposta a dois estmulos diferentes, sendo que, a resposta envolve os
70
mesmos neurnios, porm, disparando com intensidades diferentes para os

diferentes estimulas. Para tanto o estimulo numero 1 (Camada O da Figura 38) foi
associado resposta em questo (Camada 3 da Figura 38) sem nenhuma restrio ,
assim como o treinamento aperante do Experimento 3. O estmulo nmero 2
(Camada O da Figura 39) por sua vez est associado mesma resposta. No entanto,
neste caso, o estimulo reforador s apresentado caso a atividade nos neurnios
resposta no ultrapassem a marca de 0.5.
Figura 38 - Atividade neural anterior Figura 39 - Atividade neural anterior

ao treinamento de controle da ao treinamento de controle da
intensidade da resposta (estimulo 1). intensidade da resposta (estimulo 2).
71
Comodo o Comodo ,

treinamento de controle da treinamento de controle da
intensidade da resposta (estimulo 1). intensidade da resposta (estimulo 2).
Como conseqncia do treinamento a resposta neural que o

estimulo nmero 1 produz bem mais intensa (Figura 40) que a provocada pelo
estimulo nmero 2 (Figura 41 ) (cerca de 50%), levando-se em conta a atividade do
grupo que define a resposta para cada um dos estimulas. Na prtica, o que ocorre
para o segundo estimulo que a atividade, ao longo do treinamento, gradualmente
eleva-se. medida que a atividade neural passa do limite de 0.5 ela comea a sofrer
extino, pois no recebe USo Com a extino, a atividade volta a cair abaixo do
limite de 0.5, o que propicia um novo fortalecimento e nova elevao do nvel de
atividade. Esse ciclo repete-se pelo tempo que durar a simulao.
Treinada dessa maneira, a rede neural pode aprender a distinguir
situaes para as quais a resposta desejada deve ser emitida com intensidade
particular.
4.2.7 Experimento 7 - Controle de Mltiplas Respostas
Na maioria dos casos, situaes distintas requerem do sistema

autnomo inteligente a emisso de comportamentos distintos. Portanto, o modelo
deve permitir a associao de estmulos a respostas distintas, sem que haja
interferncia de uma relao na outra.
72
o treinamento, para este experimento, consistiu da apresentao

aleatria de dois estmulos distintos, sendo que cada um deles est associado a
uma resposta diferente. O sinal de reforo apresentado sempre que a resposta
correta para o estimulo corrente for apresentada. Assim , quanto estimulada pelo
estimulo 1 (Camada O da Figura 42), a rede recebe o reforo apenas se emitir a
resposta 1 (Camada 3 da Figura 42). Da mesma forma, quanto o estimulo corrente
o estimulo 2 (Camada O da Figura 43), o reforo se torna disponivel apenas
mediante emisso da resposta 2 (Camada 3 da Figura 43).

ao treinamento de controle de ao treinamento de controle de
mltiplas respostas (estimulo 1 - mltiplas respostas (estimulo 2-
resposta 1). resposta 2).
Aps o treinamento (Figura 44 e Figura 45) a rede capaz de emitir

as respostas corretas, para ambos os estimulos, sem que haja interferncia (por
exemplo, sem que o estimulo 1 produza a resposta 2).
73

treinamento de controle de mltiplas treinamento de controle de mltiplas
respostas (estmulo 1 - resposta 1). respostas (estmulo 2 - resposta 2).
Este experimento aborda uma questo interessante quanto

capacidade de memria do modelo. Entretanto, o objetivo aqui no analisar
quantitativamente a capaci dade da rede neural em armazenar diversas relaes
distintas, o objetivo somente demonstrar que o modelo possui essa funcionalidade.
Em investigaes futuras sera analisada a capacidade de memria do modelo.
4.2.8 Experimento 8 - Fuso de Sensores
Um sistema autnomo inteligente deve aprender a emitir

comportamentos relevantes (respostas) em situaes relevantes (estmulos
discriminativos). Para tanto, deve ser capaz de identificar tais situaes,
discriminando-as das demais. Essa capacidade no trivial, como pode parecer em
principio. Estmulos discriminativos podem apresentar-se de forma bastante
complexa, envolvendo a combinao de diferentes estmulos em sua configurao.
Um sistema autnomo inteligente deve ser capaz de distinguir um estmulo
discriminativo complexo de situaes envolvendo apenas alguns de seus
componentes.
Em seres biolgicos, situaes complexas normalmente envolvem a
associao de estmulos provenientes de diferentes campos sensoriais. Assim, um
74
organismo biolgico deve ser capaz de distinguir uma situao reforada,

envolvendo, por exemplo, um estmulo visual e um auditivo, das situaes em que
estes estmulos aparecem isoladamente. Por normalmente envolver diferentes tipos
de informao sensorial, esse problema usualmente conhecido por fuso de
sensores.
O experimento apresentado tem por objetivo avaliar as capacidades
da rede neural proposta em associar estmulos complexos a uma resposta desejada,
sem que, no entanto, tal associao tambm ocorra com cada parte independente
do estmulo. Embora no seja feita qualquer especificao quanto natureza dos
estmulos ou sua origem, se estes so ou no provenientes de campos sensorials
diferentes, esse fator no limita os resultados obtidos uma vez que a definio do
modelo e de sua camada sensorial no especifica qualquer parmetro quanto
natureza da informao que recebe e processa. Assim sendo a informao sensorial
que estimula a camada de entrada pode ser de qualquer tipo, inclusive proveniente
de campos sensoriais diferentes.
O estmulo discriminativo a ser associado (Camada 0 da Figura 46)
resposta desejada (Camada 3 da Figura 46) envolve dois grupos bem distintos de
neurnios estimulados. O treinamento consiste em apresentar o estmulo
discriminativo para a rede e, sempre que a resposta emitida for a desejada,
apresentar o reforo. No entanto, juntamente com o estmulo discriminativo, so
apresentados seus componentes individuais (Camada 0 da Figura 47 e Camada 0
da Figura 48), de forma que o padro de estimulao apresentado rede a cada
iterao sorteado dentre estes trs possveis casos (estmulo discriminativo,
componente 1 e componente 2). Os estmulos componentes 1 e 2, no entanto, no
so estmulos discriminativos e no possuem um reforador associado ou resposta
desejada.
75
ComodoO Comodo 1
Figura 46 - Atividade neural anterior ao treinamento de fuso sensorial (estimulo

discriminativo composto).

ao treinamento de fuso sensorial ao treinamento de fuso sensorial
(componente 1). (componente 2).
Aps o treinamento, o estmulo discriminativo adquiriu a capacidade

de produzir a resposta desejada (Figura 51), sem que seus componentes individuais
tambm fossem associados (Figura 49 e Figura 50). Portanto, a rede capaz de
operar em uma situao envolvendo um problema de fuso sensorial.
76

treinamento de fuso sensorial treinamento de fuso sensorial
(componente 1). (componente 2).
c........ O c........ 1
Figura 51 - Atividade neural aps treinamento de fuso sensorial (ocorrncia

conjunta dos estimulo 1 e 2).
A importncia dos estmulos componentes participarem do

treinamento fundamental. O fato de serem apresentados, sem que jamais sejam
seguidos pela apresentao de um reforador, faz com que o algoritmo de
aprendizagem trabalhe em modo de extino para os mesmos. Dessa forma, as
sinapses utilizadas durante a apresentao individual dos estmulos componentes
so enfraquecidas, restando apenas as sinapses utilizadas quando os dois
77
componentes aparecem juntos, ou seja, quando o estmulo o discriminativo.

Gradualmente esse processo tente a selecionar apenas os caminhos neurais ativos
quando o estmulo discriminativo est presente, e no aqueles ativados pelos seus
componentes.
4.2.9 Experimento 9 -Treinamento Operante em uma Rede com Camadas

de Dimenso 20x20.
Nos experimentos apresentados at o momento, procurou-se manter

a mesma arquitetura. No entanto, como foi destacado durante a apresentao do
modelo, os parmetros que definem a rede neural so suficientemente flexveis e
permitem diversas configuraes possveis. O atual experimento ilustra essa
caracterstica. Trata-se de um treinamento operante simples, como o do
Experimento 3, apenas as dimenses das camadas foram alteradas, passando de
uma grade de 10x10 neurnios para uma de 20x20 neurnios (Figura 52 e Figura
53). Todos os demais parmetros permanecem iguais aos dos experimentos
anteriores.
Para facilitar a visualizao, no ilustrada a separao em grade
dos neurnios, uma vez que a observao das dimenses reduzidas dos neurnios
seria prejudicada pela mesma.
78

ao treinamento aperante em rede com treinamento aperante em rede com
camadas 20x20. camadas 20x20.
Especificou-se com neurnios resposta um conjunto de 16 neurnios

no centro do circulo vermelho (Camada 3 da Figura 52 e Figura 53). O treinamento
ocorre normalmente, produzindo ao final um grupo neural localizado na regio da
resposta desejada. Entretanto, nola-se ao redor do grupo que define a resposta a
formao de alguns grupos neurais extras. Isso se deve ao fato de que, apesar das
dimenses das camadas terem sido ampliadas, o mesmo no aconteceu para o
nmero de sinapses e principalmente para o raio de distribuio das mesmas.
Conseqentemente, o tamanho dos grupos neurais e a regio de influncia de cada
um no foi expandida na mesma proporo das camadas. Permitiu-se dessa
maneira a formao de um maior nmero de grupos neurais, uma vez que o grupo
principal no possui influncia sobre toda a rede. Tambm devido ao padro de
conexes o fato do grupo que define a resposta no ter se expandido para
compreender todos 0$ 16 neurnios resposta .
4.2.10 Experimento 10 - Anlise da Aprendizagem Operante.
A fim de proporcionar uma anlise mais formal da aprendizagem, a

Figura 54 apresenta um grfico da evoluo de um treinamento aperante tpico
(evolvendo um estmulo e uma resposta apenas).
79
o grfico representa a atividade conjunta dos quatro neurnios

resposta especificados. Assim, por exemplo, uma atividade de 100% indica que
todos os quatro neurnios esto disparando e com intensidade mxima.
Existem trs regies distintas destacadas no grfico. A primeira
anterior ao incio da aprendizagem e visa mostrar o comportamento tpico da rede
em nvel operante (regio esquerda do grfico). A segunda regio (parte central do
grfico - Perodo de Aquisio) comea no marco zero e descreve o perodo onde o
estmulo reforador apresentado em conseqncia da emisso da resposta
correta. Nesta fase, nota-se um rpido aumento na atividade dos neurnios resposta
(em torno das primeiras 14 iteraes), o que mostra que a resposta correta est
sendo associada ao estmulo correspondente. Tambm interessante notar que a
atividade sempre demonstra algum nvel de variao. Prximo da iterao n 64 as
variaes produziram uma melhora na resposta (provavelmente ativando um dos
neurnios resposta que ainda no estava respondendo). Tal alterao, que significa
uma melhora, foi rapidamente assimilada pela rede. A ultima regio (parte direita do
grfico - Perodo de Extino) mostra o comportamento da rede aps a remoo do
o estmulo reforador (US). Assim, uma vez que a recompensa pela emisso da
resposta correta deixa de ser apresentada (iterao n 174), a rede tende a extinguir
a associao previamente estabelecida, retornando a um padro de atividade
semelhante ao de nvel operante, o que ocorreu por volta da iterao n 214.
P erlod o de Aq utsio
Figura 54 - Grfico de evoluo de um treinamento operante tpico.

5 CONCLUSES
Sistemas autnomos inteligentes consistem em um avano

tecnolgico que promete revolucionar a sociedade. Seu desenvolvimento ,
no entanto, uma tarefa extremamente complexa. De fato, ainda impossvel
criar sistemas artificiais capazes de operar de forma satisfatria em
ambientes do cotidiano. Acredita-se que dotar um sistema artificial com
caractersticas autnomas seja um passo chave no processo de
aperfeioamento dos sistemas atuais.
Ser autnomo no sentido de auto-suficiente e capaz de
operar em ambientes diversificados requer do sistema constante
aprimoramento e atualizao. Torna-se, portanto, indispensvel a presena
de mecanismos de aprendizagem que possibilitem ao sistema adquirir
conhecimento de forma a aprimorar seu desempenho. A capacidade de
aprendizagem tida assim como fator decisivo para que um sistema seja
verdadeiramente autnomo.
Considera-se que os nicos sistemas plenamente autnomos
so os biolgicos. Assim sendo, consistem em uma fonte segura de
informao e inspirao. Reproduzir as caractersticas de tais sistemas em
modelos artificiais anlogos uma linha de pesquisa interessante e
promissora. Define-se assim o fator plausibilidade biolgica, que motiva
grande parte das idias do trabalho.
Este trabalho prope um modelo de redes neurais de
mltiplas camadas cujas caractersticas so inspiradas em modelos
biolgicos. A escolha de um modelo de mltiplas camadas deve-se
principalmente a trs fatores:
1. Para que uma rede de mltiplas camadas tradicional, como

um perceptron, possua a caracterstica de aproximador
universal de funes, necessria a presena da camada
intermediria;
2. Certos problemas, como o de fuso sensorial, parecem
requerer a presena de mltiplas camadas;
81
3. O fator da plausibilidade biolgica conduz a uma configurao de

mltiplas camadas, uma vez que sistemas orgnicos assim o so.
Alm desses fatores, observou-se durante os experimentos que uma

configurao em mltiplas camadas permite que a rede evolua gradualmente para
uma resposta especfica.
Ainda com relao arquitetura, o modelo emprega um modelo de
conexes sinpticas que favorece a formao de grupos neurais (Edelman, 1987).
Para tanto, so utilizados trs tipos de conexes sinpticas: excitatrias inter-
camadas, laterais inibitrias intra-camada e laterais excitatria intra-camada.
Utiliza-se como modelo de aprendizagem uma abordagem da teoria
da Seleo pelas Conseqncias, sendo, portanto, um modelo de aprendizagem por
reforo. A utilizao de um modelo de aprendizagem por reforo importante uma
vez que permite ao sistema adquirir comportamentos atravs da interao com o
ambiente, sem a necessidade de uma superviso. Alm disso, o fato particular do
modelo de aprendizagem ser baseado na teoria da Seleo pelas Conseqncias
promove caractersticas interessantes e motivadoras, entre elas:
1. O modelo perfeitamente condizente com o fator da

plausibilidade biolgica;
2. O princpio de aprendizagem por reforo;
3. Torna-se possvel avaliar as capacidades de aprendizagem do
modelo segundo os fenmenos comportamentais descritos na
teoria da Seleo pelas Conseqncias;
4. A interao com o ambiente de um sistema com tais
caractersticas acontece de forma natural, visto que a teoria
descreve e incorpora fatores do ambiente cotidiano. Por exemplo,
considere o exemplo de um estmulo reforado. Este algo
concreto existente no ambiente, no sendo necessria a criao
de mecanismos adicionais que promovam sua integrao com o
sistema artificial. Basta existir um sensor adequado que capture o
estmulo.
82
Para o uso conjunto das teorias de Redes Neurais Artificiais e da

Seleo pelas Conseqncias, necessrio integrar as duas de alguma forma. Para
tanto, se recorre neurobiologia, em especial ao trabalho de Donahoe, Burgos e
Palmer (1993) e Donahoe e Palmer (1994).
Resultados e Contribuies
Os resultados obtidos em simulao demonstram os mecanismos de

funcionamento da rede, incluindo a forma de propagao da atividade neural ao
longo das camadas, a importncia das conexes laterais inibitrias e a formao
dinmica de grupos neurais.
Fica claro que a existncia de conexes laterais inibitrias
fundamental para a correta modelagem de respostas em nvel operante. Estas por
sua vez formam a base do princpio de aprendizagem empregado.
Alm de modelarem as respostas em nvel operante, as conexes
laterais inibitrias, juntamente com as conexes excitatrias intra-camadas, so
responsveis pela formao dinmica de grupos neurais que ocorre durante a
aprendizagem. So os grupos neurais (Edelman, 1987) que codificam as respostas
emitidas pela rede, sendo que seu modo de funcionamento, por assim dizer, dita as
regras de operao da rede.
Os resultados obtidos tambm incluem experimentos de
aprendizagem, onde foi possvel reproduzir diversos fenmenos comportamentais de
que trata o modelo de Seleo pelas Conseqncias. Tais experimentos incluem a
aquisio de comportamento respondente, extino de comportamento respondente,
aquisio de comportamento operante, extino de comportamento operante,
capacidade de generalizao da rede, habilidade de controle de intensidade da
resposta, capacidade de controle de mltiplas respostas e capacidade de fuso
sensorial. Por fim foi apresentada uma anlise grfica da evoluo de um
treinamento operante tpico.
Os experimentos de aquisio e extino de comportamentos
respondentes e operantes mostram as capacidades de convergncia do modelo,
reproduzindo tais fenmenos comportamentais.
O experimento de generalizao demonstra que o modelo exibe de
forma satisfatria a capacidade das redes neurais de generalizar estmulos,
83
classificando estmulos desconhecidos segundo sua similaridade com estmulos

conhecidos.
No experimento de controle de intensidade de resposta, a rede
demonstra a capacidade de controlar o nvel de intensidade de emisso da resposta.
Como destacado, tal habilidade pode ser interessante para aplicaes como o
controle de velocidade em robs.
A fim de demonstrar que a rede capaz de associar estmulos
distintos a respostas tambm distintas, realizou-se um experimento de controle de
mltiplas respostas, onde o objetivo o treinamento simultneo de duas relaes
distintas (estmulo 1 - resposta 1 e estmulo 2 - resposta 2). Assim como esperado,
a rede foi capaz de aprender as devidas relaes sem que uma associao
interferisse na outra.
Um outro fenmeno interessante reproduzido em experimento a
fuso sensorial. Segundo a perspectiva desse problema, a rede capaz de associar
diferentes estmulos e capaz de distinguir situaes nas quais os estmulos
aparecem individualmente das situaes em que eles aparecem em conjunto,
emitindo a resposta adequada para cada situao.
As contribuies do trabalho no so limitadas aos fenmenos
reproduzidos em experimentos.
Existem poucos modelos de redes multi-camadas com
aprendizagem por reforo que se prestam a problemas de controle. Menos ainda
quando a aprendizagem por reforo do tipo clssico.
O modelo apresenta uma soluo para o problema da atribuio de
crdito utilizando aprendizagem por reforo. Esse problema trata a dificuldade que
existe, em uma rede de mltiplas camadas, em atribuir responsabilidade a neurnios
de camadas intermedirias. Pode-se argumentar que a atribuio de crdito consiste
no problema fundamental que uma rede de mltiplas camadas deve solucionar,
sendo imprescindvel para a validade do modelo. Uma soluo que utiliza
aprendizagem por reforo ainda mais interessante em vista de ser pouco comum.
84
Trabalhos Futuros
A natureza multidisciplinar do trabalho abre um leque bastante

amplo de possibilidades de trabalhos futuros. Praticamente todos os aspectos do
trabalho podem ser aprimorados.
Alm de alguns aprimoramentos menores, o prximo passo lgico
implementar os mecanismos que possibilitam o desenvolvimento de reforadores
adquiridos, com implicaes cruciais para as capacidades comportamentais do
sistema. Tais mecanismos j foram descritos por Donahoe e Palmer (1994), no
entanto, no foram implementados de forma satisfatria.
Um ponto importante solucionar uma dificuldade quanto
aprendizagem das conexes laterais, tanto inibitrias quanto excitatrias. Durante os
experimentos realizados no foi permitido a estes tipos de conexes alterarem o
valor do peso sinptico associado. Decidiu-se assim, pois problemas de
aprendizagem que impedem a correta atualizao desses tipos de sinapses estavam
atrasando o projeto demasiadamente.
Uma importante contribuio futura possvel atravs de um
desenvolvimento formal de teorias que descrevam o processo de convergncia da
rede.
Uma anlise interessante pode ser feita quanto capacidade de
memria do modelo. Respondendo perguntas tais como: quantas relaes distintas
estmulo-resposta rede capaz de aprender ao mesmo tempo?
Outra etapa prevista o desenvolvimento de uma simulao de
robs e ambientes, utilizando o modelo proposto como controlador do rob. Espera-
se que em uma simulao desse tipo o modelo seja capaz de solucionar questes
como navegao autnoma, comportamento coletivo e at mesmo o uso de
ferramentas. O projeto do simulador est bastante avanado, sendo que um
prottipo chegou a ser implementado.
Com relao modelagem neural, existem vrios pontos para o
trabalho evoluir. Por exemplo, o modelo dos neurnios utilizado simplificado, assim
como visto na maioria de trabalho com redes neurais artificiais. possvel, no
entanto, realizar uma simulao muito mais precisa utilizando-se um modelo que
represente, por exemplo, canais independentes de ons, fluxo de molculas, etc.
Este tipo de modelo mais utilizado por neurocientistas para estudos na rea.
85
Nessa mesma linha, existem trabalhos que modelam redes auto-organizadas com
comportamento oscilatorio, algo que provavelmente possui implicaes para uma
representao de comportamentos de nvel operante.
REFERNCIAS BIBLIOGRFICAS
Brooks, R., A., Elephants Don't Play Chess, Robotics and Autonomous
Systems, vol. 6, pp. 3-15, 1990.
Baum, M. W., Compreender o Behaviorismo: Cincia, Comportamento e

Cultura, Editora Artes Mdicas Sul, Porto Alegre, 1999.
Brooks, R., A., Intelligence Without Reason, Proceedings of International

Joint Conference on Artificial Intelligence, pp. 569-595, Sydney, Australia,
agosto, 1991
de Castro, L. e Timmis, J.; Artificial Immune Systems: A New

Computational Intelligence Approach, Springer Verlag, 2002.
Donahoe, J., W., Burgos J. E., Palmer D. C., A Selectionist Approach to

Reinforcement, Journal of the Experimental Analysis of Behavior, n 60, pp.
17-40, 1993.
Donahoe, J., W. e Palmer, D., C., Learning and Complex Behavior, Allyn
and Bacon, U.S.A, 1994.
Dorigo, M., Introduction to the Special Issue on Learning Autonomous

Robots, IEE Transactions on Systems, Man and Cybernetics-PartB:
Cybernetics, vol. 26, n 3, 1996.
Edelman, G., Neural Darwinism: The Theory of Neuronal Group

Selection, Basic Books, EUA, 1987.
Bonabeau, E., Dorigo, M., e Theraulaz, G., From Natural to Artificial Swarm
Intelligence, Oxford University Press, 1999.
Fernandes, F., Luft, C.P., Guimares, F.M., Dicionrio Brasileiro Globo, 18.
87
ed., So Paulo, Globo, 1991.
Figueiredo, M., F., Redes Neurais Nebulosas Aplicadas em Problemas de

Modelagem e Controle Autnomo, dissertao de doutorado, Faculdade de
Engenharia Eltrica e de Computao, Universidade Estadual de Campinas,
Campinas, 1997.
Figueiredo, M., F., Navegao Autnoma de Robs, Livro da VII ERI

(Escola de Informtica da SBC - Regional Sul), pp.74-106, maio, 1999.
Haykin, S., Redes Neurais - Princpios e Prtica, Bookman, Porto Alegre,

2001.
Hopfield, J.J., Neural Networks and Physical Systems with Emergent

Collective Computational Abilities, Proceedings of the National Academy of
Sciences, USA, vol.79, pp. 2554-2558, 1982.
Kohonen, T., Self-Organized Formation of Topologically Correct Feature

Maps, Biological Cybernetics, vol.43, pp.59-69, 1982.
Krose, B., J., A., Learning From Delayed Rewards, Robotics and
Autonomous Systems, nQ 15, pp. 233-235, 1995.
Lanzi, P., L., Learning Classifier Systems From Foundations to

Applications, Springer-Verlag, 2000.
Millenson, J., R., Princpios da Anlise do Comportamento, Coordenada,

Brasil, 1967.
Minsky, M L., S.A. Papert, Perceptrons, Cambridge, MA: MIT Press, 1969.
Penrose, R., A Nova Mente do Rei, Editora Campus, Rio de Janeiro, 1997.
Ribeiro, C., Reinforcement Learning Agents, Artificial Intelligence Review,

88
5
n 17, pp. 223-250, 2002.
Rolls, E. T. e Treves A., Neural Networks and Brain Function, Oxford

University Press, Oxford, Inglaterra, 1998.
Rolls, E., T., The Brain and Emotion, Oxford University Press", Oxford,
Inglaterra, 1999.
Rumelhart, D.E., and J.L. McClelland, Parallel Distributed Processing, MIT

Press, 1986.
Russell, S., J. e Norvig, P., Artificial Intelligence - A modem Approach,

Prentice Hall, 1995.
Skinner, B. F., Cincia e Comportamento Humano, 5.ed., Editora Martins

Fontes, So Paulo, 1981.
Steels, L., When Are Robots Intelligent Autonomous Agents?, Journal of

Robotics and Autonomous Systems, nQ 15, pp. 3-9, 1995.
Sutton, R. e Barto, G., Reinforcement Learning: an Introduction, MIT

Press, 1998.
Vapnik, V., The Nature of Statistical Learning Theory, Springer, New York,
1999.
Verschure, P.,F.,M.,J., Formal Minds and Biological Brains, IEEE Expert,

pp. 66-75, outubro, 1993.
Verschure, P.,F.,M.,J., Minds, brains, and robots: Explorations in

distributed adaptive control, Proceedings of the Second Brazilian-
International Conference on Cognitive Science, Universidade Estadual do
Norte Fluminense, Campos, Brazil, 1996.
ANEXO
90
Anexo I- Ferramenta de Simulao
A fim de testar as capacidades do modelo foi desenvolvido um

simulador para a rede neural sendo que a linguagem de programao utilizada
C++.
O simulador consiste basicamente de trs (3) telas. A tela principal
(Figura 55) agrupa os principais controles necessrios durante a simulao
(localizados na parte central da tela). Entre eles os que permitem habilitar e
desabilitar a aprendizagem, o uso de estmulos definidos na configurao do
ambiente ou estmulos especificados pelo usurio (que os especifica clicando na
figura da Camada 0 o que permite "ligar" e "desligar1' neurnios especficos), definir
quais neurnios da ultima camada sero respondentes, habilitar o uso independente
dos trs tipos de conexes sinpticas existentes, iniciar e parar a simulao,
execut-la passo a passo e por fim reconectar a rede (sorteando novamente as
conexes).
Alm dos controles da simulao a tela principal tambm fornece
uma interface de visualizao da atividade nas vrias camadas da rede (lado direito
da tela), do padro de sinapses de cada neurnios (cuja visualizao feita
clicando-se em um neurnio qualquer da rede) inclusive permitindo visualizar o peso
de cada sinapse (posio inferior esquerda da tela), e tambm um histrico da
atividade recente de alguns neurnios especficos (entre eles o US) bem como de
sinais que influenciam a rede, entre eles o sinal de reforo d(T) = US (posio
esquerda superior da tela).

Em outra tela (Figura 56) possvel editar os principais parmetros
da rede neural para cada camada da mesma, entre eles: o nmero de conexes
sinpticas de cada tipo, seu raio de conexes, os parmetros das equaes de
aprendizagem e raciocnio e etc. Entretanto existem alguns dos parmetros descritos
no modelo que no podem ser definidos em tempo de execuo, entre eles, o
intervalo inicial para os valores dos pesos sinpticos.
'"
e.~ Rede_~ _.
Opc1le,- - - - - - - ---,
HI~ ~
r Utilizai E.UJnUto. A.bientais
rv AbiIit. Aptendiz~
VT" JlJ r Selva- DebI..g emArq.,ivo

-Abitar Conex&I:
INICIAR
USo P EldalriM
r.; IrOi:6rias PasSO.!!lPano
(t) hip: ItJw " rjji~ Aeconect..
Selar t~ do NeuOOio::
~(t)...ta: II,.. J
I,,,....,,, O!J
Infonnaes Neuitis- - - - - -
ConeIl&!S ExtalriM ConeIlOeS Inbtri"s C~S COopel'lIIivas

.,
~ do v1cl' siMPtico
~~ Ati ..... Neural: 0,04592OB1
Figura 55 - Tela principal do simulador.

92
[_ Parmetros da Rede ? -IDIx

Camada 1 Camada 2 Camada 3 Camada 4 Camada 5 OK
Taxa de Decaimento: 10,80000 0,80000 0,80000 0,80000 0.80000

Cancela
Limiai Sigmide: 0,30000 0,30000 0,30000 0,30000
Inclinao Sigmide: 0,10000 0,10000 0,10000 0,10000 0,10000
Taxa Aquisio E.: 0,5 0,5 0,5 0,5 0,5
Taxa Extino E.: 0.10000 0,10000 0,10000 0,10000 0,10000
Taxa Aquisio I.: 0,5 0,5 0,5 0,5 0,5
Taxa Extino I.: 0,10000 0,10000 0,10000 0,10000 0,10000
Raio Conexo Sinptica E.: 2,5 2,5 2,5 2,5 2,5
Raio Conexo Sinptica I.: 4 4 4 4
Raio Conexo Sinptica C.: 1.5 |1,5 1,5 1.5 1,5
Numero Sinapses E.: 10 10 10 10 10
Numero Sinapses 1.: 30 30 30 30 30
Numero Sinapses C.: 5 5 |5 |5 |5
Figura 56 - Tela do simulador para ajuste de parmetros da rede neural.
A terceira tela do simulador utilizada para definir as configuraes

do ambiente. A principal funo realizada aqui especificar o conjunto de estmulos
que sero apresentados para a rede durante o treinamento bem como o conjunto de
respostas desejadas que o ambiente deve monitorar. Alm disso, pode-se
especificar os estmulos reforadores associados a cada estmulo ou respostas, o
tempo de durao de cada estmulo, quanto tempo de atraso deve-se esperar para
apresentar o US aps a rede ter emitido uma resposta desejada e qual a intensidade
da estimulao de cada neurnio.
iConfiguraes do Ambiente-
Ambiente:
Numero de Estmulos: [3
Atxir Salvar
Numero de Respostas: [
Tamanho das Trials: JlO
Estmulos-
Exibindo: Navegai Estmulo: 0
<* jstrmjtoi Indice: f " 8
r Respostas ,
- + 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 o
0 0 0 0 0 0
0 0 0 0 0
Atociar Resposta 1 1 o o o 1 1
Resposta Associada:jo 0 1 1 o o o 1 1
Propriedades do Estmulo:
0 0 0 0 0 o 0 0 0
Tempo de Durao: |0
0 0 0 0 o o o o o
Associai IIS
0 0 0 0 0 0 0 0 0
Valor US:
0 0 0 0 0 0 0 0 0
Durao US:
Incio US: [~
Figura 57 - Tela do simulador para configurar o ambiente de treinamento.

D - Haydu, Nicholas Bender PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

D - Haydu, Nicholas Bender PDF

Enviado por

Direitos autorais:

Formatos disponíveis

NCHOLAS BENDER HAYDU

UMA ABORDAGEM BASEADA EM SELEO PELAS CONSEQNCIAS

Dissertao apresentada como requisito parcial

Orientador: Prof. Dr. Maurcio F. Figueiredo

UFPR Mestrado em Informtica

Ns, abaixo assinados, membros da Banca Examinadora da

Curitiba, 15 de agosto de 2003.

Prof. Dr. Maurcio Fernandes Figueiredo

Prof. Dr. Fernando Jos Von Zuben

Prof. Dra ad Ramirez Pozo

Ao meu orientador, Prof. Dr. Maurcio Fernandes Figueiredo, por ter

minha famlia pelo apoio, incentivo e conversas inteligentes. Em

Aos professores do programa de Ps-Graduao, em especial ao

Aos meus amigos e colegas pela amizade, companheirismo e

Ao resto do mundo por no interferir de forma decisiva.

Figura 1 - Esquema de neurnios e suas ligaes 13

Figura 39 - Atividade neural anterior ao treinamento de controle da intensidade da

1.2 Objetivos e Contribuies 7

1.3 Organizao do Trabalho 9

2.1 Redes Neurais Artificiais 10

2.2 Aprendizagem e Comportamento Inteligente 23

2.3 Reviso Bibliogrfica 29

3 MODELO DE REDE NEURAL ARTIFICIAL 39

4.1 Experimentos Bsicos 51

4.1.2 Atividade Neural com Conexes Laterais 54

4.2 Experimentos de Aprendizagem 59

Anexo I - Ferramenta de Simulao 90

HAYDU, Nicholas Bender. Uma Abordagem Baseada em Seleo pelas

Um modelo de rede neural artificial proposto. A rede neural possui mltiplas

HAYDU, Nicholas Bender. A Selection by Consequences Approach for Learning

Os progressos no campo da Inteligncia Artificial vm demarcando

1. Problema da Falta de Fundamento Simblico (Symbol

2. Problema do Enquadramento (Frame Problem): aborda a

Uma interpretao simplificada (no entanto poderosa) do problema

capacidade que se manifeste segundo uma escala contnua, proporcionando, ento,

entre os sistemas biolgicos que exclusivamente se encontram os

desenvolvimento do trabalho esto associadas s escolhas que favorecessem o

Sendo a aprendizagem algo fundamental para se alcanar a

variabilidade para este tipo de comportamento introduzida por fatores genticos

esse no qual baseado o processo de aprendizagem (Donahoe & Palmer, 1994)

1.2 Objetivos e Contribuies

Um sistema artificial capaz de operar de forma satisfatria em

Utilizar um sistema baseado em um modelo de redes neurais;

O emprego de tais requisitos, como fica claro ao longo do trabalho,

Em termos prticos o trabalho prope um modelo neural cuja

Aquisio de comportamento respondente;

Alm dos fenmenos de aprendizagem, o modelo tambm apresenta

1.3 Organizao do Trabalho

O Capitulo 2 trata de revisar os temas, conceitos e fundamentos que

Devido s questes envolvidas, trabalhos com sistemas autnomos

2.1 Redes Neurais Artificiais

As redes neurais tm sido destaque em diversas pesquisas de

No-linearidade: o modelo dos neurnios pode ser linear ou no-

capacidade desejada sempre que o sistema deve adotar

Tolerncia a falhas: por se tratar de um sistema maciamente

Este captulo discorre de maneira breve a respeito dos principais

2.1.1 Modelo Bsico Biolgico

Uma rede neural constituda por neurnios (Figura 1), as unidades

As sinapses (Figura 2) consistem de uma regio de intercmbio de

absolutamente no triviais. Os melhores exemplos so os prprios organismos

Figura 2 - Esquema da sinapse.1

O primeiro passo para o desenvolvimento da teoria de redes neurais

Neste modelo os sinais de entrada x; i = 1, ..., N; ao chegarem ao