Você está na página 1de 103

NCHOLAS BENDER HAYDU

UMA ABORDAGEM BASEADA EM SELEO PELAS CONSEQNCIAS


PARA APRENDIZAGEM DE REDES NEURAIS MULTI-CAMADAS
VOLTADAS CONCEPO DE SISTEMAS
AUTNOMOS INTELIGENTES

Dissertao apresentada como requisito parcial


obteno do grau de Mestre em Informtica pelo
Curso de Ps-Graduao em Informtica, do Setor
de Cincias Exatas da Universidade Federal do
Paran, em convnio com o Departamento de
Informtica da Universidade Estadual de Maring.
Orientador: Prof. Dr. Maurcio F. Figueiredo

CURITIBA

2003

UFPR

Ministrio da Educao
Universidade Federal do Paran
Mestrado em Informtica

PARECER

Ns, abaixo assinados, membros da Banca Examinadora da


defesa de Dissertao de Mestrado em Informtica, da aluno Nicholas Bender Haydu,
avaliamos o trabalho intitulado, "L/ma Abordagem Baseada em Seleo pelas
Conseqncias para Aprendizagem de Redes Neurais Multi-Camadas Voltadas
Concepo de Sistemas Autnomos Inteligentes ", cuja defesa foi realizada no dia 15
de agosto de 2003, s dez e trinta horas, no Auditrio da Informtica da Universidade
Federal do Paran. Aps a avaliao, decidimos pela aprovao do candidato.
(Convnio nmero 279-00/UFPR de Ps-Graduao entre a UFPR e a UEM - rf. UEM
nmero 1331/2000-UEM).

Curitiba, 15 de agosto de 2003.

Prof. Dr. Maurcio Fernandes Figueiredo


DIN/UEM (Orientador)

Prof. Dr. Fernando Jos Von Zuben


FEED/UNICAMP - Membro Externo

Prof. Dra

ad Ramirez Pozo
DINF/UFPR

Ao esprito cientfico e ao desejo


homem por saber mais.

IV

AGRADECIMENTOS
Ao meu orientador, Prof. Dr. Maurcio Fernandes Figueiredo, por ter
me guiado ao longo de mais essa etapa com dedicao, conhecimento e,
principalmente, imaginao.

minha famlia pelo apoio, incentivo e conversas inteligentes. Em


especial para o meu pai, com sua imaginao frtil, e para minha me, pela ajuda
terica, dicas e conselhos extremamente teis.

Aos professores do programa de Ps-Graduao, em especial ao


Prof. Dr. Lus Augusto Consularo, pela ajuda e tambm pela versatilidade em
conversar sobre diversos assuntos interessantes.

Aos meus amigos e colegas pela amizade, companheirismo e


distrao nos momentos de lazer.

Ao resto do mundo por no interferir de forma decisiva.

LISTA DE FIGURAS
Figura 1 - Esquema de neurnios e suas ligaes
13
Figura 2 - Esquema da sinapse
14
Figura 3 - Modelo bsico de neurnio artificial
14
Figura 4 - Funo sigmide
15
Figura 5 - Arquitetura de rede neural de urna nica carnada
16
Figura 6 - Arquitetura de rede neural de quatro camadas
17
Figura 7 - Arquitetura de rede neural recorrente
17
Figura 8 - Estruturas neurais de seleo pelas conseqncias
34
Figura 9 - Exemplo de condicionamento operante na rede de seleo pelas
conseqncias
36
Figura 10 - Contingncia respondente e operante
37
Figura 11 - Arquitetura de rede neural para quatro camadas
40
Figura 12 - Conexes sinpticas tpicas e respectivas distribuies
41
Figura 13 - Representao da rede
50
Figura 14 - Propagao da atividade neural por conexes excitatrias inter-camadas
(com cone de alcance mnimo)
53
Figura 15 - Propagao da atividade neural por conexes excitatrias inter-camadas
(sem cone de alcance mnimo)
53
Figura 16 - Atividade neural com conexes laterais inibitrias
54
Figura 17 - Atividade neural com conexes laterais inibitrias e excitao
predominante
55
Figura 18 - Atividade inicial ainda sem grupos neurais definidos
57
Figura 19 - Atividade intermediria com surgimento dos grupos neurais
57
Figura 20 - Atividade final com grupos neurais formados
58
Figura 21 - Atividade neural do estmulo CS anterior ao treinamento respondente. 61
Figura 22 - Atividade neural do estmulo US anterior ao treinamento respondente. 61
Figura 23 - Resposta do estmulo CS aps treinamento respondente
61
Figura 24 - Atividade neural anterior extino do comportamento respondente. .. 63
Figura 25 - Atividade neural aps extino do comportamento respondente
63
Figura 26 - Atividade neural anterior ao treinamento operante
64
Figura 27 - Atividade neural aps treinamento operante
64
Figura 28 - Atividade neural aps treinamento operante para um estmulo no
reforado
65
Figura 29 - Atividade neural anterior ao treinamento operante (exemplo 2)
66
Figura 30 - Atividade neural aps treinamento operante (exemplo 2)
66
Figura 31 - Atividade neural anterior extino do comportamento operante
67
Figura 32 - Atividade neural aps extino do comportamento operante
67
Figura 33 - Atividade neural anterior ao treinamento operante (exemplo de
generalizao)
68
Figura 34 - Atividade neural aps treinamento operante com estmulo original
68
Figura 35 - Atividade neural aps treinamento operante com degradao do
estmulo (exemplo 1 )
68
Figura 36 - Atividade neural aps treinamento operante com degradao do
estmulo (exemplo 2)
69
Figura 37 - Atividade neural aps treinamento operante com degradao do
estmulo (exemplo 3)
69
Figura 38 - Atividade neural anterior ao treinamento de controle da intensidade da
resposta (estmulo 1 )
70

vii

Figura 39 - Atividade neural anterior ao treinamento de controle da intensidade da


resposta (estmulo 2)
70
Figura 40 - Atividade neural aps treinamento de controle da intensidade da
resposta (estmulo 1 )
71
Figura 41 - Atividade neural aps treinamento de controle da intensidade da
resposta (estmulo 2)
71
Figura 42 - Atividade neural anterior ao treinamento de controle de mltiplas
respostas (estmulo 1 - resposta 1 )
72
Figura 43 - Atividade neural anterior ao treinamento de controle de mltiplas
respostas (estmulo 2 - resposta 2)
72
Figura 44 - Atividade neural aps treinamento de controle de mltiplas respostas
(estmulo 1 - resposta 1 )
73
Figura 45 - Atividade neural aps treinamento de controle de mltiplas respostas
(estmulo 2 - resposta 2)
73
Figura 46 - Atividade neural anterior ao treinamento de fuso sensorial (estmulo
discriminativo composto)
75
Figura 47 - Atividade neural anterior ao treinamento de fuso sensorial (componente
1)
75
Figura 48 - Atividade neural anterior ao treinamento de fuso sensorial (componente
2)
75
Figura 49 - Atividade neural aps treinamento de fuso sensorial (componente 1). 76
Figura 50 - Atividade neural aps treinamento de fuso sensorial (componente 2). 76
Figura 51 - Atividade neural aps treinamento de fuso sensorial (ocorrncia
conjunta dos estmulo 1 e 2)
76
Figura 52 - Atividade neural anterior ao treinamento operante em rede com camadas
20x20
78
Figura 53 - Atividade neural aps treinamento operante em rede com camadas
20x20
78
Figura 54 - Grfico de evoluo de um treinamento operante tpico
79
Figura 56 - Tela do simulador para ajuste de parmetros da rede neural
92
Figura 57 - Tela do simulador para configurar o ambiente de treinamento
93

vii

SUMRIO

1 INTRODUO

1.1 Motivao

1.2 Objetivos e Contribuies

1.3 Organizao do Trabalho

2 FUNDAMENTAO TERICA

10

2.1 Redes Neurais Artificiais

10

2.1.1 Modelo Bsico Biolgico

12

2.1.2 Fundamentos

14

2.1.3 Modelos Clssicos de Redes Neurais Artificiais

18

2.2 Aprendizagem e Comportamento Inteligente

23

2.2.1 Reflexos e Reflexos Condicionados

23

2.2.2 Comportamento Operante

25

2.3 Reviso Bibliogrfica

29

2.3.1 Autonomia

29

2.3.2 Aprendizagem por Reforo e Inteligncia Artificial

30

2.3.3 Aprendizagem por Reforo e Redes Neurais Artificiais

31

3 MODELO DE REDE NEURAL ARTIFICIAL

39

3.1 Arquitetura

39

3.2 Raciocnio

42

3.3 Aprendizagem

45

4 RESULTADOS

47

4.1 Experimentos Bsicos

51

4.1.1 Atividade Neural sem Conexes Laterais

52

vin

4.1.2 Atividade Neural com Conexes Laterais

54

4.1.3 Formao Dinmica de Grupos Neurais

56

4.1.4 Consideraes Sobre a Evoluo da Atividade Neural

58

4.2 Experimentos de Aprendizagem

59

4.2.1 Experimento 1 - Convergncia da Aprendizagem em Treinamento


Respondente

60

4.2.2 Experimento 2 - Extino de Comportamento Respondente

62

4.2.3 Experimento 3 - Convergncia da Aprendizagem em Treinamento Operante 63


4.2.4 Experimento 4 - Extino de Comportamento Operante

66

4.2.5 Experimento 5 - Capacidade de Generalizao

67

4.2.6 Experimento 6 - Controle de Intensidade da Resposta

69

4.2.7 Experimento 7 - Controle de Mltiplas Respostas

71

4.2.8 Experimento 8 - Fuso de Sensores

73

4.2.9 Experimento 9 -Treinamento Operante em uma Rede com Camadas de


Dimenso 20x20

77

4.2.10 Experimento 10 - Anlise da Aprendizagem Operante

78

5 CONCLUSES

80

REFERNCIAS BIBLIOGRFICAS

86

ANEXO

89

Anexo I - Ferramenta de Simulao

90

IX

HAYDU, Nicholas Bender. Uma Abordagem Baseada em Seleo pelas


Conseqncias para Aprendizagem de Redes Neurais Multi-Camadas Voltadas
Concepo de Sistemas Autnomos Inteligentes. 2003. Dissertao (Mestrado
em Informtica) - Universidade Federal do Paran, Curitiba.

RESUMO
Um modelo de rede neural artificial proposto. A rede neural possui mltiplas
camadas. Cada camada da rede neural formada por uma grade quadrangular de
neurnios (em um espao toroidal). As conexes sinpticas de cada neurnio
abrangem trs tipos: excitatrias inter-camadas, laterais inibitrias intra-camada e
laterais excitatrias intra-camada. A disposio espacial das conexes do tipo
Gaussiana e especfica para cada tipo de sinapse. Cada neurnio estabelece um
nmero restrito de conexes. O modelo de arquitetura contribui para eliminar
restries apresentadas por arquiteturas em que entradas e conexes so
distribudas a todos os neurnios de cada camada. O modelo do neurnio apresenta
dinmica interna, proporcionando uma memria da atividade recente e assumindo
papel importante na aprendizagem. A aprendizagem baseada na seleo pelas
conseqncias, conforme princpios de aprendizagem por reforo. Em particular, a
de aprendizagem por reforo utilizada do tipo clssico. Os experimentos definidos
para investigao e confirmao das capacidades da rede neural consideram um
ambiente simulado, condizente com o modelo de Seleo pelas Conseqncias. Os
resultados obtidos em simulaes mostram que o modelo capaz de reproduzir
diversos fenmenos comportamentais, que so: aquisio de comportamento
respondente, extino de comportamento respondente, aquisio de comportamento
operante, extino de comportamento operante, capacidade de generalizao de
estmulos, habilidade no controle da intensidade das respostas, capacidade de
controle de mltiplas respostas e fuso de sensores. Experimentos tambm ilustram
o importante papel das conexes laterais inibitrias e das conexes laterais
excitatrias na modelagem da formao de grupos neurais em nvel operante.
Entende-se que a capacidade de aprendizagem alcanada pela rede neural
proposta torna-a vivel para a concepo de sistemas autnomos inteligentes com
potencialidades superiores queles divulgados na literatura especializada.

HAYDU, Nicholas Bender. A Selection by Consequences Approach for Learning


in Multi-Layer Neural Networks Directed to the Conception of Intelligent
Autonomous Systems. 2003. Dissertao (Mestrado em Informtica) Universidade Federal do Paran, Curitiba.

ABSTRACT
A model of an artificial neural network is proposed. The neural network has multiple
layers. Each network layer is formed by a quadrangular grid of neurons (on a toroidal
space). The synaptic connections that every neuron has are defined between tree
types: inter-layer excitatory, lateral intra-layer inhibitory and lateral intra-layer
excitatory. The spatial disposition of connections is of a Gaussian type and specific
for each type of synapse. Each neuron has a limited number of connections. The
model contributes to eliminate restrictions presented by other architectures in witch
connections are distributed to all of the neurons of each layer. The neuron model
presents an internal dynamic, working as a memory of its recent activity and having
important role in the learning process. The learning procedure is based on the
selection by consequences according to reinforcement learning principles.
Particularly the reinforcement learning approach used is of the classical type. The
experiments defined for the investigation and confirmation of the capacities of the
neural network consider a simulated environment that works according to the
Selection by Consequences model. The simulation results show that the model is
capable of reproducing several behavioral phenomena that are: acquisition of
respondent behavior, extinction of respondent behavior, acquisition of operant
behavior, extinction of operant behavior, stimulus generalization capacity, ability to
control the response intensity, capacity to control multiple responses and sensor
fusion. Besides that, the experiments also illustrate the important role of the lateral
inhibitory and lateral excitatory connections for a correct shaping of operant level
responses and neural groups. It is understood that the learning capacities that the
proposed neural network exhibits make it viable for the conception of intelligent
autonomous systems with potentialities superior to those already presented in the
specialized literature.

1 INTRODUO
1.1 Motivao
Autonomia

Os progressos no campo da Inteligncia Artificial vm demarcando


grandes ciclos, caso o ponto de vista adotado leve em conta as metas, expectativas
e resultados alcanados.
Entende-se que um primeiro ciclo estaria associado aos esforos de
pesquisa motivados pela possibilidade de reproduzir capacidades inteligentes
humanas sofisticadas em mquinas computacionais. Aps se constatar as imensas
disparidades presentes entre as potencialidades das mquinas desenvolvidas e das
anunciadas a partir das expectativas iniciais, este ciclo se extingue. Os resultados da
pesquisa neste ciclo podem no ter sido satisfatrios, entretanto serviram para gerar
uma noo mais realista das dificuldades gigantes que seriam enfrentadas para
reproduzir um sistema artificial inteligente imaginado.
As frustraes segundo a perspectiva mais ficcionista no impediu
que os progressos e resultados alcanados merecessem o reconhecimento por todo
o esforo despendido. As potencialidades dos sistemas inteligentes propostos
poderiam no satisfazer as metas iniciais, mas se tinham tornado suficientes para
produzirem resultados relevantes em aplicaes prticas. Esta nova leitura para o
papel

dos

resultados

alcanados

pela

pesquisa

em

Inteligncia

Artificial

caracterizaria um segundo ciclo. A pesquisa no campo da Inteligncia Artificial se


consolidou e foi reconhecida como extremamente relevante para o progresso
tecnolgico, invadindo reas que antes se mostravam avessas, e.g., controle
automtico. Neste ciclo os sistemas inteligentes passam a assumir uma importncia
crescente junto ao segmento tecnolgico. O segundo ciclo desencadeou avanos
tericos notveis e talvez seja aceitvel admitir que, enquanto o primeiro ciclo esteve
motivado por expectativas calcadas na fico, o segundo foi fortemente guiado pelas
demandas presentes no segmento tecnolgico.
possvel que a pesquisa no campo da Inteligncia Artificial esteja
iniciando um terceiro ciclo. As demandas tecnolgicas continuam exercendo

presses constantes no que diz respeito s demandas cada vez mais sofisticadas e
exigentes em desempenho. Entretanto tambm se nota uma forte preocupao dos
pesquisadores em tornar os sistemas inteligentes artificiais mais semelhantes aos
sistemas biolgicos sofisticadamente inteligentes. Observa-se que, em vista das
potencialidades

demonstradas

pelos

sistemas

biolgicos

artificiais,

as

semelhanas que podem ser admitidas so pouco significativas. Desta forma,


argumenta-se que a insatisfao presente seja motivo suficiente para incrementar
pesquisas e reduzir as diferenas entre estes dois sistemas.
Assim, atualmente, de um lado observa-se a consolidao e origem
de teorias ousadas, tais como: sistemas imunolgicos artificiais (de Castro e Timmis,
2002), sistemas de inteligncia coletiva (Bonabeau, Dorigo e Theraulaz, 1999),
sistemas classificadores (Lanzi, 2000), e da evoluo de teorias mais tradicionais
relacionadas

redes

neurais,

sistemas

nebulosos,

computao

evolutiva,

aprendizagem artificial (Vapnik, 1999)(Sutton e Barto, 1998), sistemas simblicos


inteligentes bem representados pelos agentes inteligentes (Russel e Norvig, 1995).
De outro lado ressurgem as reflexes em termos das limitaes dos
atuais sistemas inteligentes. As crticas podem ser resumidas no problema do "a
priori", abordado por vrios autores (Brooks, 1990)(Brooks, 1991)(Figueiredo, 1999)
eem especial porVerschure (Verschure, 1993)(Verschure, 1996).
O problema do "a priori" diz respeito ao fato de um sistema simblico
requerer uma representao do mundo em termos de smbolos discretos para
operar, que s pode ser fornecida pelos projetistas do sistema. Mesmo que o
sistema possua a capacidade de aprender por meio da incorporao de novos
smbolos e regras sua base de conhecimentos, necessrio um conjunto bsico
inicial que permita a operao do sistema. Esse conjunto inicial definido, portanto,
"a priori" e requer dos projetistas a definio da essncia do sistema. A partir deste
problema principal Vershure reuniu quatro outros tambm de grande importncia,
que sero vistos resumidamente a seguir:
1. Problema

da

Falta

de

Fundamento

Simblico

(Symbol

Grounding Problem): est relacionado questo do valor verdade


de uma proposio ser derivado de outras proposies, criando
uma teia de relaes que, no entanto, no possuem base com
relao ao mundo real supostamente descrito pelo sistema;

2. Problema do Enquadramento (Frame Problem): aborda a


questo do tempo necessrio para a atualizao do modelo lgico
que cresceria exponencialmente e logo tornaria impossvel a
atuao do sistema, ficando este confinado a rotinas de
atualizao;
3. Problemas

da

Viso

de

Referncia

(Frame-of-reference

Problem): trata do fator subjetivo quando da escolha de um


modelo lgico para a representao de um domnio. Cada pessoa
pode escolher um modelo lgico e uma forma diferente de
relacionar os smbolos do sistema lgico com o problema que se
deseja abordar. No entanto, nada garante que essa escolha seja
a melhor;
4. Problema

da

Contextualizao

(Situatedness

Problem):

sistemas inteligentes deveriam ser contextualizados, isto ,


deveriam levar em considerao apenas fatores de importncia
imediata,

caso

contrrio

sofreriam

do

problema

do

enquadramento. Entretanto os sistemas existentes abordam o


conhecimento de uma maneira global e que ainda dependente de
interpretao humana.

Uma interpretao simplificada (no entanto poderosa) do problema


do "a priori" bem como dos problemas subseqentes pode ser feita da seguinte
forma: um sistema simblico capaz de exibir inteligncia necessita que em sua base
existam smbolos representando verdades absolutas e atmicas sobre a inteligncia,
a partir dos quais pudessem ser deduzidas todas as implicaes necessrias para
um sistema inteligente. Como muito bem abordado por Penrose (1997), tais
verdades absolutas provavelmente escondem-se em locais como o mundo
subatmico entre outros. Assim sendo, extra-las seria como extrair os tomos de
conhecimentos necessrios para deduzir todo o universo.
Tendo em vista as dificuldades existentes no contexto apresentado
possvel justificar a crescente ateno voltada para o conceito de autonomia no
contexto de sistemas artificiais inteligentes.
Autonomia

inteligncia

tm

sido

considerados

conceitos

fortemente relacionados (Steels, 1995). Prope-se que a autonomia seja uma

capacidade que se manifeste segundo uma escala contnua, proporcionando, ento,


uma medida para o grau de inteligncia de um sistema artificial (Figueiredo, 1999).
Alm disso, sistemas artificiais, nos quais a ausncia de autonomia tenha sido
constatada, tornam-se passveis de crticas severas no que tange a sua natureza
inteligente (Vershure, 1996).
Por

sua

vez,

autonomia

vinculada

capacidade

de

aprendizagem, particularmente quando a aquisio de conhecimento ocorre a partir


da interao com o ambiente (Steels, 1995) (Figueiredo, 1997) (Figueiredo, 1999)
(Russell&Norvig, 1995). Um sistema autnomo capaz de aprender atravs da
interao com o ambiente, recebendo estmulos e gerando comportamentos
(respostas) que alteram este ambiente, aprimorando suas capacidades e adaptandose s caractersticas do mesmo. Tanto a aprendizagem quanto os comportamentos
e ou respostas geradas podem ser independentes de auxlios externos.
Assim, dentre as diversas possibilidades de aplicao de sistemas
inteligentes, a presena de autonomia torna-se particularmente

interessante

naquelas em que o sistema atua em ambientes desconhecidos, e.g., navegao


autnoma de robs. Tais reas de aplicao tm sido intensamente investigadas,
no s devido ao claro interesse tecnolgico, mas tambm por proporcionar um
ambiente profcuo para a pesquisa dos sistemas autnomos inteligentes.

Redes Neurais

entre os sistemas biolgicos que exclusivamente se encontram os


mais representativos sistemas autnomos inteligentes. Reconhece-se que o poder
de autonomia de tais sistemas advm preponderantemente de seus sistemas
nervosos. Por esta razo, alguns pesquisadores defendem que a melhor estratgia
para a concepo de tais sistemas inteligentes concentrar esforos na modelagem
dos sistemas biolgicos (Edelman, 1987).
Coerentemente com esta argumentao, as redes neurais artificiais
so adotadas neste trabalho, dentre as diversas tcnicas presentes na rea de
Inteligncia Artificial,

visto

que

so

inspiradas

em seus pares

biolgicos.

Particularmente, o presente trabalho adota o princpio da mxima plausibilidade


biolgica para as propostas apresentadas, ou seja, as trajetrias definidas durante o

desenvolvimento do trabalho esto associadas s escolhas que favorecessem o


modelo de RNA que melhor espelhasse o modelo biolgico.
As redes neurais artificiais (RNAs) geram de forma qualitativa muitas
das caractersticas de seus pares biolgicos, alm da capacidade de aprendizagem,
essencial para a autonomia: tolerncia a falhas, generalizao, memria acessada
por contedo e robustez ao rudo.
Embora os modelos de redes neurais existentes tm demonstrado
tais caractersticas em variadas reas de aplicao, muitas deficincias gerais
podem ser apontadas, dentre elas: limitaes de capacidade da memria associativa
e recuperao de seu contedo, restries quanto convergncia em aprendizagem
supervisionada, limitaes quanto aprendizagem em ambientes desconhecidos.
Esta ltima deficincia est intimamente relacionada ao foco de estudo do presente
trabalho, pois reduzindo-a possvel alcanar potencialidades satisfatrias para a
concepo de sistemas autnomos.

Aprendizagem

Sendo a aprendizagem algo fundamental para se alcanar a


autonomia, desejvel que o modelo possua uma estratgia para realizar tal tarefa,
que seja coerente com as idias propostas.
Nesse contexto utiliza-se o modelo da Seleo pelas Conseqncias
(Skinner, 1981) como base para um princpio de aprendizagem. A aprendizagem
segundo essa viso ocorre a partir de variaes no repertrio de comportamentos
dos organismos, as quais por sua vez so selecionados pelo ambiente com base
nas conseqncias que produzem. No caso de produzir conseqncias favorveis
ao organismo, o comportamento selecionado e passa a fazer parte de seu
repertrio. Caso produza conseqncias desfavorveis a tendncia que o
comportamento

seja

extinguido,

deixando

de

existir.

variabilidade

de

comportamentos e a forma especfica como estes so selecionados ocorre segundo


trs estratgias bsicas, produzindo trs tipos de comportamentos: comportamento
reflexo, comportamento respondente e comportamento operante.
A primeira estratgia aborda os comportamentos do tipo reflexo que
so filogeneticamente selecionados, ou seja, segundo sua capacidade ou no de
permitir ao organismo transmitir seus genes com sucesso. razovel assumir que a

variabilidade para este tipo de comportamento introduzida por fatores genticos


como mutaes e cruzamentos.
O segundo tipo de comportamento

conhecido pelo termo

respondente e trata de associar estmulos quaisquer (S), presentes no ambiente, aos


comportamentos do tipo reflexo. Para tanto, o processo de seleo depende da
existncia de uma correlao temporal entre estmulos S com os estmulos
responsveis por eliciar o comportamento reflexo. A seleo mediada por um
estmulo reforador que normalmente o prprio eliciador (estmulo que inicia) do
reflexo. Note que comportamentos do tipo reflexo so selecionados segundo a
histria de vida do organismo e no mais ao longo de inmeras geraes.
O ltimo tipo de aprendizagem diz respeito ao assim denominado
comportamento operante. Comportamentos operantes so selecionados segundo a
conseqncia que suas respostas produzem no ambiente e no apenas de acordo
com uma correlao temporal, como o caso dos respondentes. No entanto, assim
como o comportamento respondente, o comportamento operante tambm
selecionado atravs da apresentao, por parte do ambiente, de um estmulo
reforador. Assim a conseqncia que a emisso da resposta produz no ambiente
a apresentao do estmulo reforador. O efeito do reforador neste caso
selecionar as respostas emitidas pelo organismo em situaes adequadas,
tornando-as mais provveis no futuro. Tambm no caso de comportamentos
operante o repertrio desenvolvido ao longo da histria de vida do organismo.
Devido ao fato da aprendizagem ser mediada por um estmulo
reforador, este princpio de aprendizagem denominado de aprendizagem por
reforo. Existem, no entanto, diversas teorias consideradas como modelos de
aprendizagem por reforo. Para este trabalho, a no ser quando indicado o
contrrio, a interpretao deve ser de acordo com o modelo de Seleo pelas
Conseqncias.
Diferentemente de outras estratgias, a estratgia de aprendizagem
por reforo oferece mecanismos para a adaptao do sistema autnomo enquanto
este interage com um ambiente desconhecido. Por esta razo torna-se muito til
para o treinamento de tais sistemas, em especial para aplicaes associadas a
controle autnomo. Assim, em todos os instantes em que o sistema se depara com
eventos discrepantes (situaes desconhecidas, situaes de sucesso ou falha); o
sistema recebe um sinal de avaliao (reforo) associado ao seu desempenho, sinal

esse no qual baseado o processo de aprendizagem (Donahoe & Palmer, 1994)


(Skinner, 1981).

1.2 Objetivos e Contribuies


Um sistema artificial capaz de operar de forma satisfatria em
ambientes do cotidiano requer caractersticas comportamentais complexas que
seriam comumente denominadas de inteligentes. As capacidades de tal sistema
devem ser as mais diversas possveis, por exemplo, a habilidade de navegar de
forma autnoma por um ambiente em constante modificao, o uso de ferramentas
em situaes especficas, a coordenao e cooperao com outros sistemas
artificiais e tambm com seres humanos. Com o objetivo de dotar sistemas artificiais
com tais

capacidades,

so

investigados

os

processos

fundamentais

que

proporcionam o surgimento de tais comportamentos em sistemas biolgicos, para


ento buscar reproduzi-los em um sistema artificial.
O objetivo geral desenvolver um sistema artificial inteligente capaz
de adquirir conhecimento sobre o ambiente no qual este se encontra e utilizar tal
conhecimento para agir no ambiente de forma autnoma, ou seja, um sistema
autnomo inteligente. Entretanto tal meta deve ser alcanada seguindo-se alguns
requisitos especficos, discutidos ao longo do texto (Captulo 2), que so:

Utilizar um sistema baseado em um modelo de redes neurais;


A arquitetura neural deve buscar reproduzir tanto estruturalmente
quanto funcionalmente sistemas biolgicos nervosos;
A aprendizagem do sistema deve seguir um modelo compatvel
com o modelo de Seleo pelas Conseqncias (Skinner, 1981);
O sistema artificial deve ser capaz de reproduzir fenmenos
comportamentais de que trata a teoria da Seleo pelas
Conseqncias (Skinner, 1981).

O emprego de tais requisitos, como fica claro ao longo do trabalho,


no se deve pelo fato de que se deseja provar a relevncia ou no de cada um deles
para o problema sugerido, mas sim por se acreditar que fornecem propostas
concretas e importantes para a soluo do mesmo.

Em termos prticos o trabalho prope um modelo neural cuja


arquitetura,

operao

aprendizagem

funcionam

segundo

os

requisitos

apresentados. A fundamentao do trabalho feita com trabalhos especficos de


cada rea, bem como propostas que integram as mesmas, destaca-se neste ponto o
trabalho de Donahoe, Burgos e Palmer (1993).
A principal contribuio do trabalho ser mostrar que uma estratgia
de aprendizagem por reforo pode ser empregada com sucesso no treinamento de
redes multicamadas de diferentes dimenses. O modelo de aprendizagem por sua
vez, atuando juntamente com a operao da rede capaz de reproduzir,
sintticamente, fenmenos comportamentais observados em seres biolgicos e que
so normalmente tidos como indicadores de autonomia e inteligncia. De forma
secundria, mas no menos importante, o modelo apresenta princpios para a
formao dinmica de grupos neurais e a estabilizao da atividade neural a partir
de um estado inicial variante.
Especificamente, os resultados mostram que o modelo capaz de
reproduzir diversos fenmenos comportamentais particularmente interessantes para
um sistema autnomo inteligente. So eles:

Aquisio de comportamento respondente;


Extino de comportamento respondente;
Aquisio de comportamento operante;
Extino de comportamento operante;
Capacidade de generalizao de estmulos;
Habilidade de controle de intensidade da resposta emitida;
Capacidade de controle de mltiplas respostas;
Fuso de sensores.

Alm dos fenmenos de aprendizagem, o modelo tambm apresenta


resultados decorrentes da arquitetura neural empregada. Particularmente mostra-se
a importncia

das conexes

inibitrias

para

uma

correta

modelagem

do

comportamento de nvel operante (Seo 2.2). Alm disso, em conjunto com as


conexes laterais excitatrias, as conexes inibitrias so responsveis pela

formao dos grupos neurais. Os grupos neurais por sua vez formam a base para a
anlise da operao da rede.
Do ponto de vista das redes neurais artificiais o modelo contribui
apresentando uma soluo para o problema de atribuio de crdito que utiliza
aprendizagem por reforo.

1.3 Organizao do Trabalho


O Capitulo 2 trata de revisar os temas, conceitos e fundamentos que
nos quais o trabalho baseado. Primeiramente tratando de redes neurais artificiais
(Seo 2.1), apresentando um breve histrico, discutindo os principais conceitos e
modelos. Logo aps discute-se o modelo de aprendizagem de seleo pelas
conseqncias (Seo 2.2), como visto pela psicologia. Em seguida a Seo 2.3 traz
uma reviso de conceitos como autonomia (Seo 2.3.1), aprendizagem por reforo
segundo a viso atual e mais difundida da IA (Seo 2.3.2), aprendizagem por
reforo e redes neurais (Seo 2.3.3) onde se busca um modelo que integre redes
neurais e o modelo de Seleo pelas Conseqncias.
No Captulo 3 descreve-se o modelo de rede neural proposto neste
trabalho, apresentando sua arquitetura (Seo 3.1), os mecanismos de raciocnio
(Seo 3.2) e o algoritmo de aprendizagem (Seo 3.3).
O Captulo 4 apresenta os resultados obtidos em simulao do
modelo proposto. Os resultados apresentados so de dois tipos: operacional (Seo
4.1 ) e de aprendizagem (Seo 4.2).
Ao final do trabalho so apresentadas as concluses, seguida pelas
referncias e pelos anexos.

2 FUNDAMENTAO TERICA
Devido s questes envolvidas, trabalhos com sistemas autnomos
possuem a caracterstica de serem multidisciplinares. Isso torna ainda mais
importante uma reviso dos assuntos abordados.
Esta seo apresenta de forma resumida as principais teorias e
conceitos necessrios para um bom entendimento da proposta deste trabalho, entre
elas, Redes Neurais Artificiais (Seo 2.1) e teoria da Seleo por Conseqncias
(Seo 2.2). A Seo 2.3 aborda vrios fundamentos e traz uma reviso bibliogrfica
de diversos trabalhos que investigam temas similares ao deste trabalho, fornecendo
uma perspectiva atual da pesquisa na rea.

2.1 Redes Neurais Artificiais


As redes neurais tm sido destaque em diversas pesquisas de
sistemas autnomos. Autores como Brooks (1991), Verschure (1996) e Verschure
(1993) destacam sua contribuio para o chamado problema do "a priori". Tal
questo, como destacado na introduo deste trabalho, aborda o fato de que
extremamente difcil definir a priori regras gerais capazes de descrever problemas
como, por exemplo, o de navegao autnoma, nos quais o rob precisa deslocarse de forma autnoma pelo ambiente, basicamente desviando de obstculos e
buscando alvos, alm de outros objetivos mais complexos. Problemas como este
requerem que o sistema adquira o conhecimento para a soluo do problema
diretamente atravs da interao com o ambiente, fazendo uso, portanto, de
aprendizagem. justamente na capacidade de aprendizagem que reside o poder
das redes neurais.
Alm da capacidade intrnseca de aprendizagem as redes neurais
possuem outras caractersticas interessantes para a concepo de sistemas
autnomos, entre as quais destacam-se:

No-linearidade: o modelo dos neurnios pode ser linear ou nolinear. Ser no-linear concede ao neurnio, e conseqentemente
rede,

a capacidade de processamento

no-linear.

Esta

11

capacidade desejada sempre que o sistema deve adotar


determinadas estratgias de interao com o ambiente de acordo
com as variaes dos estmulos (a estratgia para um estmulo
mais intenso diferente da estratgia para um menos intenso);
Processamento paralelo: a atividade simultnea dos diversos
elementos de uma rede neural faz com que essa seja capaz de
processar grande quantidade de informao de forma veloz, algo
indispensvel para sistemas que devem operar em tempo real;
Memria acessada por contedo: a forma particular com que
uma rede neural armazena informao, e o prprio mecanismo de
operao fazem com que esta seja um sistema de memria
acessada por contedo. Assim a rede neural capaz de
recuperar um padro previamente armazenado, mediante a
apresentao de parte desse padro;
Tolerncia a falhas: por se tratar de um sistema maciamente
paralelizado, cada elemento da rede responsvel apenas por
uma pequena parte da computao realizada. Assim, a remoo
ou falha de elementos isolados impacta de forma suave no
desempenho da rede;
Generalizao: vrios modelos de redes neurais tm por objetivo
extrair caractersticas dos estmulos aos quais so apresentados.
Devido ao seu modo de operao, mesmo quando um estmulo
desconhecido for apresentado, a rede neural classifica segundo
sua similaridade aos estmulos com os quais possui experincia.
Essa uma qualidade importante do comportamento dos seres
vivos e reconhecidamente interpretada indispensvel em sistemas
inteligentes;
Robustez a rudos: uma rede neural possui grande robustez a
rudos contaminando os estmulos de interesse, conseguindo
operar

normalmente

caracterstica

com

muito

desempenho

til,

pois

inevitavelmente esto associados a rudo.

na

satisfatrio.
prtica,

Essa

sensores

12

Este captulo discorre de maneira breve a respeito dos principais


tpicos relacionados s redes neurais, visando oferecer uma viso da rea e alguns
fundamentos que facilitem a compreenso dos captulos seguintes. Textos mais
aprofundados no tema podem ser encontrados em obras de referncia como Haykin
(2001) e Rssel e Norvig (1995).

2.1.1 Modelo Bsico Biolgico


Uma rede neural constituda por neurnios (Figura 1), as unidades
bsicas de computao, que interconectados formam a rede propriamente dita. Os
neurnios operam recebendo os estmulos em suas sinapses (Figura 2), agregando
tais estmulos no soma e quando o valor resultante da agregao ultrapassa um
certo valor limiar, o neurnio emite (dispara) uma seqncia de pulsos eltricos,
gerados no cone do axnio. O sinal eltrico emitido flui pelo axnio at atingir sua
extremidade onde, atravs de trocas qumicas nas sinapses, transmitido aos
prximos neurnios. Este esquema relativamente simples repetido desde a
entrada da rede at sua sada, tal qual acontece em algumas redes biolgicas, por
exemplo, em redes cujas entradas correspondem aos campos sensorials (olhos,
ouvidos, etc.) e aos rgos motores (braos e msculos em geral) e/ou demais
rgos.

13

As sinapses (Figura 2) consistem de uma regio de intercmbio de


informao, mais precisamente, so os locais onde os neurnios recebem e emitem
neurotransmissores (substncias qumicas utilizadas para transmitir a informao)
convertendo, portanto, um sinal eltrico (disparo do neurnio) em qumico
(neurotransmissores) e vice-versa. Atravs de processos complexos as sinapses
podem alterar sua eficincia, tornado-se mais ou menos eficazes na propagao do
estmulo. Dessa forma, cada sinapse pode alterar a intensidade do estmulo que
recebe e passa para frente, intensificando-o ou suprimindo-o, sendo, portanto, a
unidade bsica de memria, onde a informao pode ser armazenada e manipulada.
Esta caracterstica das sinapses tida como a principal responsvel pela
capacidade de aprendizagem das redes neurais.
Uma rede neural pode ser descrita como possuindo uma arquitetura,
um mecanismo de processamento e sistema de aprendizado. A arquitetura de uma
rede neural descreve como esto conectados os neurnios. A forma pela qual o
sinal de entrada evolui ( processado) para um sinal de sada ser tratada como o
raciocnio2. J o processo responsvel por modificar as sinapses responsvel pela
aprendizagem. Operando de forma integrada e nas mais diversas configuraes
possveis, estes elementos so capazes de processar e produzir resultados
1

Adaptado de: http://research.haifa.ac.il/~imjaffe/mind/lecnotes/week7.html. junho 2003

A termo "raciocnio" segundo essa interpretao refere-se aos processos internos de uma rede
neural, desencadeados por um estmulo, que evoluem at produzir uma resposta. De forma
simplificado o processamento da informao.

14

absolutamente no triviais. Os melhores exemplos so os prprios organismos


biolgicos.

*"m .4 -Neurotransmissores
t

Neuroreceptores

Figura 2 - Esquema da sinapse.1

2.1.2 Fundamentos
Modelos Clssicos

O primeiro passo para o desenvolvimento da teoria de redes neurais


artificiais surgiu em 1943 com o trabalho de McCulloch e Pitts que propuseram uma
descrio matemtica para um neurnio (Haykin, 2001). A Figura 3 apresenta um
modelo atual de um neurnio artificial simples que embora mais recente retm as
linhas gerais originais.

Adaptado de: http://research.haifa.ac.il/~imiaffe/mind/lecnotes/week7.html. junho 2003.

15

y =

(J]

i ~wo)

o)

7=1

Neste modelo os sinais de entrada x; i = 1, ..., N; ao chegarem ao


neurnio so ponderados pelos pesos sinpticos w; i = 1, ..., N; x, we9 (conjunto
dos nmeros reais). Estes so, ento, enviados ao soma atravs dos dendritos onde
so adicionados. Em seguida uma transformao no linear F(.) (funo de ativao
do neurnio) age sobre o sinal resultante da agregao gerando o sinal de sada y
conforme a Equao 1. A funo F(.) por sua vez tipicamente qualquer funo do
tipo sigmide, por exemplo (Figura 4):

F(x)

F(x)

1
1 + ex p ( - / ? x )

Figura 4 - Funo sigmide.


Outro importante avano para as RNAs foi a descrio feita por
Hebb em 1949 de um mecanismo fisiolgico de modificao sinptica. Sua regra de
aprendizagem prev que a eficincia de uma sinapse deva ser aumentada quando
h atividade em ambos os neurnios que a formam (neurnio pr e o ps-sinptico)
e que tal atividade tenha se propagado atravs dessa sinapse (Haykin, 2001). Em
sua forma mais simples, tal regra pode ser expressa matematicamente segundo a
Equao 2.

A wfl{T) =

i1ai(T)ai{T)

(2)

onde: Aw;, ( r ) o ajuste da sinapse no tempo T; q a taxa de aprendizagem; a{T)


a atividade (sinal de sada) no neurnio pr-sinaptico j no tempo Te a^T) a
atividade do neurnio ps-sinptico / na iterao T.

16

Arquiteturas Bsicas

A arquitetura de uma rede neural consiste de um conjunto de


neurnios e suas conexes. H vrias combinaes possveis para estes elementos
o que por sua vez d origem a vrias topologas possveis. Entretanto, trs
configuraes so bsicas. A primeira delas a rede alimentada adiante de uma
nica camada (Figura 5).

Figura 5 - Arquitetura de rede neural de uma nica camada.


A segunda arquitetura, uma das mais difundidas, a multicamadas,
nas quais os neurnios so conectados por conjuntos de neurnios (camada). Neste
tipo de topologia, as camadas podem ser numeradas naturalmente desde a entrada
da rede (x) at sua sada (y), de tal forma que as conexes ocorrem somente entre
camadas sucessivas. A Figura 6 ilustra um exemplo de uma rede neural com este
tipo arquitetura, de fato, uma arquitetura de 4 camadas: Ci, C2, C3 e C4.

17

Figura 6 - Arquitetura de rede neural de quatro camadas.


Outro esquema de arquitetura bem conhecido o recorrente. So
consideradas recorrentes as redes que possuam conexes provenientes de um
neurnio que possam, direta (conexo vermelha) ou indiretamente (conexo azul),
influenciar a entrada do mesmo (Figura 7).

Figura 7 - Arquitetura de rede neural recorrente.


Em contraste com as redes de arquitetura em camadas, a sada da
rede recorrente evolui ao longo do tempo indefinidamente (a menos que a rede
esteja em um estado estvel) mesmo com ausncia de estmulos.

Estratgias de Aprendizagem

Para a concepo

de redes neurais existem trs principais

estratgias de aprendizagem, a saber: no-supervisionada, supervisionada e por

18

reforo. Cada uma destas estratgias est associada a classes especficas de


sinais, por meio das quais a aprendizagem se processa: (a) apenas entradas, (b)
pares entrada-sada; e (c) entradas e sinais de avaliao (emitidos pelo ambiente),
respectivamente.
A estratgia de aprendizagem no-supervisionada diz respeito
somente a entradas, ou seja, o sistema aprendiz se auto-organiza de acordo com as
caractersticas das entradas. Desde que aplicaes de controle so associadas com
um mapeamento entrada-sada, a estratgia de aprendizagem no-supervisionada
no adequada, a menos que juntamente com esta seja considerada outra
estratgia.
A aprendizagem supervisionada depende do conhecimento do
problema, pois necessrio um conjunto de pares de entrada-sada, representantes
da soluo desejada para o problema, para que a aprendizagem se processe. Esta
estratgia pode ser adequada para diversas aplicaes, mas no associadas a
controle autnomo. Dificuldades surgem se o ambiente altera suas caractersticas,
tornando invlidos os pares de entrada-sada usados durante o perodo de
aprendizagem.
Na estratgia por reforo, entra em jogo um outro sinal (sinal de
reforo) apresentado pelo ambiente. O ambiente apresenta o sinal somente aps a
rede ter apresentado sua sada. Este sinal corresponde a uma avaliao da rede,
feita pelo ambiente, com respeito resposta apresentada e utilizado no processo
de aprendizagem da rede. Na verdade o que ocorre que as respostas (aes)
executadas pela rede modificam o ambiente, uma vez modificado o ambiente pode
conter estmulos reforadores, que se tornam disponveis para os elementos
sensoriais da rede. No existe, portanto, nenhum mdulo de avaliao ou qualquer
outro dispositivo similar que funciona como um avaliador. Vale lembrar que a
aprendizagem por reforo est diretamente ligada teoria de Seleo por
Conseqncias (Donahoe e Palmer, 1994), tema da Seo 2.2.

2.1.3 Modelos Clssicos de Redes Neurais Artificiais


Uma introduo sobre redes neurais no estaria completa sem
alguns exemplos de modelos de redes que aplicam os conceitos de arquitetura,

19

raciocnio e aprendizagem apresentados anteriormente. De fato, devido sua ampla


divulgao, tais exemplos so muitas vezes tidos como sinnimos dos prprios
conceitos que aplicam.

Perceptron de Mltiplas Camadas

Exemplo tpico de uma rede de vrias camadas, o perceptron de


mltiplas camadas (MLP, multilayer perceptron) tornou-se famoso principalmente
devido ao algoritmo de aprendizagem por correo de erro utilizado em seu
treinamento. Atravs de um processo conhecido por retropropagao de erro, o MLP
tornou-se um dos primeiros modelos de RNA a possuir um mtodo eficiente de
treinamento para redes de mltiplas camadas. O algoritmo de retropropagao
tornou-se famoso pela publicao de Rumelhart e McClelland (1985), Parallel
Distributed Processing. O algoritmo tambm foi responsvel por reacender o nimo
na pesquisa de RNA ao demonstrar que as redes de mltiplas camadas no eram
to limitadas como haviam sugerido Minsky e Papert (1969).
Utilizando

uma

estratgia

supervisionada,

algoritmo

de

retropropagao consiste basicamente de dois passos:

1. Passo para frente: um padro de entrada aplicado camada


sensorial da rede e a atividade da mesma se desenvolve
(propaga) a partir destes, produzindo ao final um vetor de
respostas na camada de sada;
2. Passo para trs: a sada computada pela rede comparada com
a sada desejada (estratgia supervisionada) e um sinal de erro
produzido de acordo com a diferena entre os dois. O sinal de
erro ento utilizado para ajustar os pesos sinpticos da rede em
um processo de retropropagao (do final para o comeo da rede)
de forma a minimizar o erro, aproximando a sada computada da
sada desejada. O processo de retropropagao envolve o clculo
da parcela de contribuio de cada neurnio para gerar a sada
da rede, tornando possvel o ajuste (atravs de derivadas
parciais) de cada sinapse segundo sua contribuio especfica.

20

O perceptron de mltiplas camadas utilizado em conjunto com o


algoritmo de retropropagao comumente empregado, entre outras, em tarefas de
classificao de padres e aproximao de funes. No entanto o fato de utilizar
uma aprendizagem supervisionada consiste em um grave ponto negativo para sua
aplicao em sistemas autnomos, tendo em vista que seu treinamento seria
impossvel pelo fato do ambiente de operao no ser totalmente conhecido.
Embora os algoritmos de correo de erro (incluindo o de
retropropagao) aparentemente tenham sido originados de trabalhos matemticos,
sem qualquer inspirao biolgica, existe forte evidncia de que pelo menos uma
rea do crebro opere de forma semelhante. O cerebelo est envolvido no controle
de preciso de movimentos e responsvel, entre outros, por produzir movimentos
suaves e bem coordenados. Evidncias neurobiologies (Rolls e Treves, 1998)
(Rolls, 1999) demonstram que o cerebelo recebe realimentao neural dos sistemas
motores que controla e que utiliza esse sinal (na prtica um sinal de erro) para
corrigir eventuais imprecises.

Mapa de Kohonen

Quando se fala de sistemas auto-organizveis (aprendizagem nosupervisionada) a referncia principal o modelo de Kohonen (Kohonen, 1982).
Dentre suas aplicaes, talvez aquela de maior destaque seja sua utilizao como
ferramenta para modelagem e compreenso de mapas corticais no crebro. Estes
resultados remetem aos objetivos iniciais que levaram ao desenvolvimento de toda a
teoria de redes neurais e justificam grande parte do entusiasmo em relao ao
modelo.
Tipicamente o Mapa de Kohonen consiste de uma grade uni ou
bidimensional de elementos computacionais (neurnios) cujos pesos sinpticos
esto, inicialmente, distribudos de forma aleatria sobre o espao de entrada.
Durante a fase de treinamento, so selecionadas ao acaso elementos do espao de
entrada e estes so ento apresentados rede. A partir de ento, para cada
apresentao ocorrem trs processos distintos:

1. Competio: os neurnios da grade competem entre si pelo


direito de responder ao sinal de entrada apresentado, atravs do

21

clculo de uma funo discriminante. 0 neurnio cujo vetor de


pesos for mais similar (ex: menor distncia Euclidiana) ao vetor de
entrada o vencedor. Este processo conhecido como o
"vencedor-leva-tudo" ou winner-take-all;
2. Cooperao: o neurnio vencedor estabelece uma vizinhana
topolgica dentro da qual os neurnios possuem o direito de
ajustar suas sinapses;
3. Adaptao

Sinptica: os neurnios

localizados dentro da

vizinhana estabelecida no passo 2 tm suas sinapses ajustadas


de modo a melhorar o valor de sua funo discriminante. Na
prtica, isso resulta em aproximar o vetor de pesos do vetor de
entrada. Tal ajuste ponderado segundo a proximidade do
neurnio em questo com o neurnio vencedor. Estes ajustes
melhoram a eficcia da resposta dos neurnios ao estmulo.

Ao longo de vrias iteraes este processo ir "posicionar" os pesos


sinpticos sobre o espao de entradas, de forma que os respectivos neurnios
correspondem a um domnio ou sub conjunto de caracterstica particular do espao
de entrada (Kohonen, 1992). Operando dessa forma, o Mapa de Kohonen realiza
uma reduo de dimensionalidade

no espao de entrada, extraindo suas

caractersticas principais e assemelhando-se tanto em forma como em funo aos


primeiros estgios da maquinaria cerebral, responsvel pelo processamento
sensorial.
Embora o Mapa de Kohonen ilumine o caminho para a construo
de mquinas semelhantes ao crebro e conseqentemente ao desenvolvimento de
sistemas autnomos, ele consiste de apenas uma parte do sistema necessrio. A
reduo de dimensionalidade e extrao de caractersticas proporcionada pelo
modelo serve para tomar o problema da percepo algo tratvel. No entanto, ainda
faz-se necessrio um mecanismo que associe as caractersticas identificadas com
aes a serem tomadas.

22

Rede de Hopfield

A rede de Hopfield um sistema dinmico, ou seja, possui uma


representao na forma de um sistema de equaes diferenciais; sendo, portanto
um sistema em que entradas provocam a evoluo de estados internos e suas
sadas ao longo do tempo. Algumas caractersticas deste sistema atraem a ateno
dos pesquisadores, inclusive fazendo com que contribussem fortemente com a
revitalizao das redes neurais artificiais (Haykin, 2001) (Hopfield, 1982):

1. O sistema estvel no sentido de Liapunov (Haykin, 2001);


2. O sistema exibe plausibilidade biolgica, ou seja, o sistema de
equaes pode ser deduzido de modelos (simplificados) de
neurnios e de redes neurais biolgicas;
3. Existem

procedimentos

simples

para

configurao

dos

parmetros do sistema, visando definir as caractersticas do seu


espao de fases. Estes procedimentos podem ser interpretados
como o processo de aprendizagem.

A rede neural de Hopfield exibe interessantes resultados em duas


aplicaes principais: na modelagem de uma memria associativa e na soluo de
problemas de otimizao. Os instigantes resultados alcanados nestas aplicaes
podem ser compreendidos a partir de suas caractersticas.
Considere a aplicao de modelagem de uma memria associativa.
O espao de fase do sistema representado pela rede de Hopfield apresenta diversas
bacias de atrao. Supondo que cada padro a ser registrado pela memria seja um
ponto crtico estvel no espao de fase, ento este seria alcanado sempre que o
estado

inicial

estivesse

na

bacia

associada

ao

padro

memorizado.

Os

procedimentos de configurao de parmetros possuem o objetivo de fazer com que


os padres memorizados sejam exatamente os pontos crticos estveis do sistema.
A estabilidade da rede de Hopfield garantida por uma funo de
Liapunov associada. Problemas de otimizao so solucionados pela rede caso sua
funo de Liapunov possa descrever a funo a ser otimizada. Neste caso, iguala-se
a funo a ser otimizada funo de Liapunov associada rede. A manipulao
dessa igualdade resulta em um conjunto de pesos sinpticos para a rede neural. A

23

evoluo da rede neural, configurada com tais pesos, leva o sistema a estabilizar-se
em estados correspondentes soluo do problema de otimizao.

2.2 Aprendizagem e Comportamento

Inteligente

Conforme visto, a aprendizagem de essencial importncia para a


autonomia. , portanto, desejvel que o modelo de aprendizagem empregado utilize
uma estratgia que seja coerente com as idias propostas.
De acordo com o modelo de Seleo pelas Conseqncias (Skinner,
1981) a aprendizagem ocorre a partir de variaes no repertrio de comportamentos
dos organismos. Os comportamentos produzidos por tais variaes desencadeiam
modificaes no ambiente, que atuam de forma a selecionar os mesmos. No caso de
produzir conseqncias favorveis ao organismo, o comportamento retido e passa
a fazer parte do repertrio de ao. Caso produza conseqncias desfavorveis, a
tendncia que o comportamento seja extinguido.
Visando reunir conceitos fundamentais relacionados ao modelo de
Seleo pela Conseqncias, o presente captulo dedica-se ao estudo de alguns de
seus aspectos segundo a viso da Anlise do Comportamento, rea de pesquisa da
psicologia. Segundo o ponto de vista dessa rea, aprendizagem e comportamento
so totalmente dependentes um do outro (Millenson, 1967) e, portanto, toma-se
possvel investigar a aprendizagem estudando-se o comportamento.

2.2.1 Reflexos e Reflexos Condicionados


O tipo de comportamento mais simples exibido por um ser vivo o
reflexo. Este tipo de comportamento definido filogeneticamente, ou seja, j nasce
com o organismo e resultado de uma histria de seleo pelo ambiente ao longo
de vrias geraes (seleo natural). Um reflexo uma contingncia simples,
envolvendo um estmulo especfico e uma resposta especfica. Diz-se que a
presena do estmulo elicia a resposta, ou seja, desencadeia um processo cuja
conseqncia a emisso da resposta. Exemplos desse tipo de comportamento
so: o reflexo patelar, o reflexo pupilar e o reflexo salivar.

24

Embora de extrema importncia para os seres vivos em seus


primeiros momentos de existncia, os reflexos so insuficientes para formar um
repertrio comportamental adequado para toda a sua vida. Eles so frutos de uma
histria de seleo gentica ao longo da evoluo e, por este motivo, limitam-se a
comportamentos essenciais relacionados manuteno da espcie e sobrevivncia
dos indivduos.
Para a formao de um repertrio comportamental adequado
diversidade ambiental, os seres vivos exibem outros mecanismos de aprendizagem
capazes de gerar comportamentos adicionais (alm do comportamento reflexo), ou
seja, capazes de construir um repertrio mais amplo e que permita ao ser vivo uma
melhor adaptao ao meio. Um destes mecanismos chamado condicionamento
respondente (ou Pavloviano, em homenagem ao pesquisador, Ivan Pavlov, que
primeiro

descreveu

cientificamente

tal

fenmeno

(Millenson,

1967)).

Condicionamento neste contexto, e ao longo do restante do texto, se refere ao


mecanismo responsvel por formar o comportamento. A principal caracterstica
destes mecanismos a capacidade de estabelecer gradualmente associaes entre
estmulos e respostas, sendo um deles parte componente de um comportamento
reflexo. Tais associaes ocorrem quando existe uma correlao temporal adequada
entre a ocorrncia dos estmulos. Aps vrias ocorrncias de um estmulo neutro
(que inicialmente no est associado a nenhuma resposta) seguido do estmulo que
dispara o reflexo, o estmulo neutro torna-se capaz de produzir o comportamento
reflexo (passando a ser chamado de estmulo condicionado). Desta forma, a
resposta reflexa original, filogeneticamente especificada, passa a estar condicionada
a um novo estmulo, sendo esta nova relao estmulo-resposta conhecida como
reflexo condicionado (Millenson, 1967).
Um exemplo tpico de um condicionamento respondente a
associao que se estabelece, por exemplo, entre a viso de um alimento e o reflexo
salivar. O reflexo salivar filogeneticamente relacionado mucosa bucal, quando do
contato desta com o alimento. No entanto, comum a ocorrncia deste reflexo
mediante a simples viso do alimento, algo que conseqncia de um
comportamento respondente que se estabelece.
De forma semelhante aos reflexos, o condicionamento respondente
conseqncia de uma seleo. A diferena que neste caso a seleo realizada
ao longo da vida do organismo e se desenvolve atravs de ocorrncias repetidas e

25

correlacionadas (emparelhamento) de um estmulo neutro (que vir a se tornar o


estmulo condicionado) e o estmulo eliciador (responsvel pela ocorrncia do
comportamento reflexo incondicional).
O condicionamento respondente responsvel por fornecer aos
organismos uma forma de adaptar seu repertrio comportamental frente a um
ambiente dinmico, visivelmente dotando-os de capacidades autnomas. No
entanto, um comportamento respondente ainda est limitado s mesmas respostas
reflexas com as quais o indivduo nasceu e, conseqentemente, no produz novos
comportamentos complexos.

2.2.2 Comportamento Operante


Uma forma de aprendizagem adicional e relevante para a adaptao
dos organismos ao ambiente o chamado condicionamento operante. No caso de
comportamentos do tipo reflexo e reflexo condicionado, estmulos do ambiente
elidam

respostas

do

organismo

(respostas

reflexas

respondentes,

respectivamente) sendo que as conseqncias dessas respostas no ambiente no


influem nas prprias respostas ou comportamentos

correspondentes.

J o

condicionamento operante se desenvolve por meio do efeito da ao do organismo


sobre o ambiente. Quando as conseqncias de um comportamento so favorveis
ao desempenho, torna-se maior a probabilidade de que este comportamento ocorra
novamente no futuro. O comportamento operante formado pela seleo das aes
do organismo para interagir com o ambiente. Essa seleo feita atravs da
apresentao de um reforador gerado pelo ambiente. Assim, sempre que o
organismo emitir a resposta desejada, o reforador associado apresentado. Esta
relao causai tende a selecionar a resposta em questo. Este processo
denominado de fortalecimento operante (Skinner, 1981) (Millenson, 1976) e
caracteriza-se pelo fato do comportamento especifico desejado ser gradualmente
selecionado, pela apresentao de um estmulo reforador, em meio a todo o
repertrio de respostas que o organismo apresenta.
Um exemplo de fortalecimento operante ocorre quando um animal
de estimao, ao realizar um truque especfico, recebe de seu dono uma
recompensa. Isso faz com que o animal tenda a repetir o truque no futuro.

26

Um

aspecto

que

faz

parte

importante

do

mecanismo

de

condicionamento operante reside na capacidade de gerar uma gama extremamente


grande de aes possveis. Segundo essa teoria, os sistemas biolgicos apresentam
um nvel operante caracterizado por um conjunto indiferenciado de respostas
aleatrias emitidas

pelo organismo,

sem

qualquer

expectativa

sobre

suas

conseqncias associadas (Millenson, 1967).


Exemplos de respostas em nvel operante so: o conjunto de
fonemas que recm nascidos so capazes de balbuciar; e os movimentos
indiferenciados de braos e pernas. a partir destas respostas simples, inicialmente
aleatrias, que comportamentos complexos so selecionados.
O condicionamento operante no s possibilita o aumento na
freqncia da resposta, mas tambm a sua reduo. Quando um comportamento
produz no ambiente conseqncias aversivas, a probabilidade de que ele ocorra
novamente reduzida (Skinner, 1981).
Assim, quando o mesmo animal de estimao entrar em casa e
mastigar algum objeto de seu dono, este comportamento provavelmente produzir
uma reao do dono desagradvel. Dessa maneira, a probabilidade de ocorrncia
do comportamento indesejado reduzida, sendo esse procedimento denominado de
punio. importante ressaltar que o termo reforo usado de forma abrangente
para designar tanto o processo de fortalecimento quanto o de reduo. Existe, no
entanto, uma terminologia mais especfica para identificar diferentes formas
(procedimentos) de fortalecer e enfraquecer comportamentos. Assim, tem-se o
reforo positivo e negativo e a punio positiva e negativa. A descrio destas
classes de procedimentos esta fora do escopo deste texto e pode ser encontrada em
Baum (1999).
Uma outra forma de reduzir a probabilidade de ocorrncia de
respostas operantes a extino. A extino ocorre quando um comportamento
anteriormente reforado passa a no produzir mais a conseqncia reforadora
(Skinner, 1981), (Millenson, 1967). Voltando ao exemplo do animal de estimao,
considere que este tenha aprendido a executar um truque sempre quando do retorno
de seu dono, sempre recebendo uma recompensa como reforo. No entanto,
considere que as recompensas passam a serem negadas.
recompensas, gradualmente o truque deixa de ser reproduzido.

No existindo

27

Embora didaticamente estudados em separado, os comportamentos


reflexo, respondente e operante no esto sujeitos a esse tipo de separao. Assim
sendo, estes comportamentos ocorrem paralelamente e seus mecanismos so
interdependentes. Suponha, por exemplo, o comportamento de pressionar uma
alavanca, reforado com comida. Embora esse comportamento seja um operante,
inevitavelmente algum estmulo (e.g. o som da alavanca) torna-se presente no
momento que a cobaia obtiver o alimento, o que fornece as condies necessrias
para o condicionamento do tipo respondente.
Os processos de condicionamento respondente e operante atuam
em conjunto e em vrios nveis, produzindo comportamentos complexos. Assim, os
movimentos indiferenciados so gradualmente modificados pelas conseqncias,
passando a se caracterizar como aes coordenadas que permitem apanhar
objetos, caminhar etc. As vocalizaes so diferenciadas de tal forma que balbucios
acabam se tornando palavras e finalmente em um complexo repertrio verbal. As
palavras e aes em geral no ocorrem, no entanto, de forma aleatria. Elas tendem
a ter uma relao precisa com eventos antecedentes. Estes eventos so chamados
de estmulos discriminativos (SD). Estmulos deste tipo permitem ao ser vivo
distinguir a situao na qual a resposta adequada (R), produz o estmulo reforador
(S+).
Um esquema geral de como funciona o paradigma operante o
seguinte:

SD
Inicialmente os estmulos que tm funo de reforo ou de punio
so reduzidos em nmero e so conhecidos como reforadores primrios. Sabor
doce, calor (conforto trmico), dor, sabor amargo so exemplos de reforadores
primrios, isto , tm esta propriedade filogeneticamente determinada. Outros
eventos do ambiente podem adquirir as caractersticas de um reforador, ou seja, a
capacidade de fortalecer o comportamento por meio do emparelhamento com
reforadores primrios. Um estmulo deste tipo chamado de reforador adquirido
ou reforador condicional. exatamente neste ponto que os condicionamentos
respondente e operante esto relacionados, j que o condicionamento respondente

28

faz justamente com que se estabeleam relaes entre estmulos inicialmente


neutros e estmulos reforadores primrios. Talvez o melhor exemplo deste tipo de
estmulo seja o dinheiro que altamente reforador para muitos indivduos de
diversas sociedades, mas insignificante para outros, demonstrando que sua
capacidade reforadora adquirida e que isso depende da histria de vida de cada
indivduo.
Reforadores

adquiridos

esto

envolvidos

em um fenmeno

conhecido como encadeamento de resposta, em que as conseqncias de um


determinado comportamento exibido pelo organismo, so estmulos que indicam a
ocasio para um outro comportamento. Voltando ao exemplo anterior, trabalha-se
para se obter dinheiro apenas para que ento seja possvel, entre outras coisas,
comprar alimento. Dessa forma, estabelece-se uma cadeia de estmulos e respostas
que no caso do exemplo fornecido : trabalho=>dinheiro=>compras=>alimento.
Atuando desse modo, o fenmeno de encadeamento capaz de formar cadeias
comportamentais extremamente complexas e conseqentemente tem grande
participao na construo de repertrios comportamentais complexos.
Uma conseqncia importante do condicionamento operante o fato
deste aumentar a estereotipia da resposta, ou seja, o padro de respostas que
compe o comportamento tende a se tornar bem especfico e peculiar. Considere
que inicialmente o organismo emite um conjunto variado de respostas, ou seja,
esteja em nvel operante. medida que esta ou aquela resposta em particular for
reforada, a probabilidade de sua ocorrncia aumenta enquanto a probabilidade das
demais respostas, comparativamente, diminui. Alm disso, a resposta em questo
passa a ocorrer de uma maneira particularmente especfica. Por exemplo, considere
uma cobaia que aprende a pressionar uma alavanca para obter alimento.
Inicialmente ela pressiona a alavanca ao acaso e de diversas formas diferentes, isto
, com variaes na topografia da resposta. medida que o procedimento de
reforo realizado a cobaia passa a pressionar a alavanca com uma freqncia
cada vez maior e restringindo a topografia da mesma (passando a executar a ao
de forma bem especfica, por exemplo, apenas com a pata esquerda).

29

2.3 Reviso Bibliogrfica

2.3.1 Autonomia
Brevemente

introduzido

no primeiro

captulo,

o conceito de

autonomia fundamental para este trabalho e define a essncia do que se entende


por um sistema artificial inteligente. Entretanto a interpretao adotada de tal
conceito no consenso entre pesquisadores de Inteligncia Artificial, inclusive
existindo controvrsias sobre seu entendimento, motivo pelo qual tal tema
aprofundado nesta seo.
Um dicionrio, (Fernandes et al., 1991 ), traz o termo autnomo como
sendo algo regido por leis prprias, um sistema independente. No caso especfico de
robs autnomos, esse termo possui um significado preciso, como foi destacado por
Russell e Norvig (1995) e Figueiredo (1999). Segundo os autores, um rob
autnomo quando possui a capacidade de alterar seu comportamento, baseando-se
em suas prprias experincias e com o objetivo de aprimorar seu desempenho. Esta
definio perfeitamente aplicvel a sistemas autnomos em geral; e semelhante
abordagem de autores como Dorigo (1996), Krose (1995), bem como Steels
(1995).
Autonomia, assim definida, introduz diversos pontos importantes a
serem analisados. Uma das primeiras implicaes que para "alterar seu
comportamento, baseando-se em suas prprias experincias" necessrio que o
sistema possua capacidade de aprendizagem, ou seja, que ele seja capaz de alterar
seu comportamento (autogoverno) de forma a maximizar seu desempenho.
De outra forma, tambm comum na literatura a utilizao do termo
autnomo para referir-se a robs que simplesmente no precisam de auxlio externo,
sem que eles possuam necessariamente capacidades de aprendizagem. Robs que
no dependem de auxlio externo podem prescindir da capacidade de aprendizagem
em casos nos quais o ambiente e demais fatores permitam. Entretanto, neste caso,
suas aes seriam repetitivas e/ou totalmente programadas. Segundo o ponto de
vista adotado, tais robs so denominados de automticos (Steels, 1995).

30

2.3.2 Aprendizagem por Reforo e Inteligncia Artificial


As teorias sobre aprendizagem descritas so de grande interesse
para

pesquisadores

de

Inteligncia

Artificial,

particularmente

aquela

sobre

comportamento operante. Com o objetivo de fornecer um panorama geral da


pesquisa de aprendizagem por reforo apresenta-se a seguir uma sntese da
questo, bem como de duas tcnicas bastante conhecidas da rea: Temporal
Differences e Q-Learning. Uma abordagem bem mais aprofundada pode ser
encontrada no trabalho de Sutton e Barto (Sutton e Barto, 1988).
De forma geral, o modelo formal visto na IA sobre a aprendizagem
por reforo consiste de:

1. Um nmero discreto de estados ambientais;


2. Um nmero discreto de aes possveis;
3. Um conjunto de sinais de reforo (e.g. {0,1});
4. Uma poltica de aes.

Assim, o objetivo do sistema encontrar uma poltica de aes que


mapeie as entradas do sistema (estados ambientais) para as sadas (aes
possveis) de modo a maximizar os sinais de reforo obtidos.
O problema da aprendizagem tambm pode ser visto como um
problema de previso. Deste ponto de vista, o sistema artificial inteligente toma uma
determinada ao com base em uma previso das conseqncias (reforo) dessa
ao. Para escolher a melhor ao necessrio algum tipo de avaliao das
possibilidades. Uma das tcnicas utilizada para realizar tal avaliao chamada
Temporal Differences (TD) (Sutton e Barto, 1988). Enquanto a maioria dos mtodos
avalia o desempenho do sistema com base na diferena do resultado previsto e
daquele realmente obtido, o mtodo TD atribui crdito s possibilidades a partir de
uma seqncia de previses sucessivas no tempo. A ttulo de ilustrao, tome-se o
exemplo extrado de (Sutton e Barto, 1988). Imagine uma previso do tempo feita
durante toda a semana sobre a possibilidade de chover no sbado. Enquanto a
maioria das tcnicas compara a previso feita em cada dia da semana com o
resultado observado no sbado, usando um valor obtido dessa comparao para
realizar a aprendizagem do sistema; o mtodo TD utiliza uma comparao

31

incremental em que a previso de cada dia influi na do dia seguinte. Assim, uma
previso de, por exemplo, 75% de probabilidade de chuva na tera, influi na
probabilidade de que chova na quarta.
A tcnica de TD fundamentalmente visa avaliar os custos de uma
determinada poltica de aes (Ribeiro, 2002). No entanto, ela no aborda a questo
da aprendizagem dessas polticas. Uma tcnica que aborda tal aprendizagem,
inclusive bastante utilizada no desenvolvimento de robs autnomos, a chamada
Q-learning. Basicamente a aprendizagem consiste de um mtodo iterativo que se
baseia em avaliar a ao (Q) segundo seu valor (Q(x,a)) e que definido como o
desconto obtido no custo ao adotar-se a ao "a", quando no estado "x", seguindo
uma poltica ideal de ao (Ribeiro, 2002).
Obviamente, esses assuntos so extensos e abord-los mais a
fundo foge ao escopo deste trabalho. O objetivo aqui somente oferecer uma breve
sntese sobre a viso da IA sobre comportamento operante e, com isso, denunciar
as relaes entre as teorias da Anlise do Comportamento e a da Inteligncia
Artificial.

2.3.3 Aprendizagem por Reforo e Redes Neurais Artificiais


Em se tratando de aprendizagem por reforo aplicada a redes
neurais, existem basicamente dois tipos de abordagens possveis (Haykin, 2001):
1. Clssica: a aprendizagem acontece atravs de sinais de
recompensas e punies, ou seja, segundo a teoria da Seleo
por Conseqncias;
2. Moderna: trata de uma tcnica matemtica que visa prever e
avaliar as possveis aes para ento escolher qual delas a
melhor a ser tomada, enfatizando, portanto, o planejamento.

A Seo anterior (2.3.2) fornece um panorama geral da teoria e dos


trabalhos que utilizam tcnicas que se enquadram em uma abordagem moderna. Tal
reviso interessante para construir um embasamento terico que favorece a
discusso e possibilita a comparao de resultados. No entanto, o presente trabalho

32

segue uma linha diferente e suas propostas enquadram-se em um panorama


clssico.
Embora a teoria moderna, assim como a teoria clssica, tenha se
originado de estudos em psicologia, em certa altura sua formulao desviou-se,
deixando de lado sua inspirao, evoluindo em direo a solucionar problemas
especficos da IA. Por outro lado, pesquisas experimentais no contexto da
aprendizagem clssica demonstram que a aprendizagem por reforo ocorre em
organismos para os quais no existe evidncia alguma sugerindo o planejamento
das aes futuras (Brooks, 1990) (Brooks, 1991). Dessa forma impossibilita-se
explicar os comportamentos complexos exibidos por tais organismos com base na
teoria moderna. Pesquisas como essas levam a crer que a teoria original possui
potencial para produzir resultados concretos. Alm disso, sua utilizao favorece
todo o processo de aprendizagem medida em que torna mais intuitivo o processo
de interao do sistema com o ambiente.
Apresenta-se a seguir um modelo de rede neural que utiliza uma
abordagem clssica para sua aprendizagem por reforo, servindo de base para o
desenvolvimento das propostas do Captulo 3.

Fundamentos Neurobiolgicos

modelo

proposto

neste

trabalho

baseia-se

em

conceitos

caractersticos derivados da neurobiologia. Devido natureza pouco comum desse


tema, pelo menos no mbito da Inteligncia Artificial, primeiramente estes conceitos
sero introduzidos para na seqncia ser apresentado o modelo.
Sabe-se que o crebro dos animais, incluindo o humano, possui
regies nas quais a atividade eltrica desencadeada quando estmulos especficos
so apresentados. Sabe-se tambm que tais estmulos so reforadores primrios e
que o circuito neural envolvido capaz de operar logo aps o nascimento sendo,
portanto, filogeneticamente determinado. Uma dessas regies, como destacam
autores como Donahoe e Rolls, a Ventral Tegmental Area (rea Ventral
Tegumentar ou VTA) (Figura 8) (Donahoe, Burgos e Palmer, 1993) (Rolls, 1999).
A

partir

da

VTA, projetam-se,

de forma

distribuda,

vrias

ramificaes em direo ao cortex motor e lbulos frontais, que so do tipo


dopaminrgico, isto , provocam a liberao de dopamina quando estimuladas. A

33

dopamina um neuromodulador capaz de fortalecer as sinapses entre neurnios pr


e ps-sinpticos, imediatamente aps a ativao da sinapse em questo. Estmulos
reforadores primrios possuem capacidade filogeneticamente pr-determinada de
iniciar atividade na VTA, assim a VTA capaz de mediar relaes entre aes
geradas no crtex motor.
Alm dos caminhos neurais filogeneticamente definidos, capazes de
iniciar atividade na regio VTA a partir de reforadores primrios, alguns dos
neurnios do crtex frontal associativo tambm so capazes de estimular a VTA pois
possuem axnios que se projetam, atravs do "mediai forebrain bundle" (MFB)
(Figura 8), at a prpria VTA. Tal estrutura possibilita o desenvolvimento de
reforadores adquiridos, tendo em vista que estmulos discriminativos, cuja
informao viaja at os lbulos frontais atravs dos cortices sensorials, podem
adquirir, por meio de realimentao pelo MFB, a capacidade de estimular o sistema
de fortalecimento dopaminrgico. Concluindo, a Figura 8 ilustra, portanto, um
mecanismo neural capaz de ajustar conexes sinpticas com base em reforadores
primrios,

cujos

estmulos

viajam

por

caminhos

neurais

filogeneticamente

selecionados, e reforadores adquiridos, cujos estmulos viajam atravs da regio


conhecida como MFB.

34

Figura 8 - Estruturas neurais de seleo pelas conseqncias1.


interessante notar que grande parte da teoria da Seleo pelas
Conseqncias, desenvolvida a partir de observaes comportamentais feitas em
animais, possui uma correspondncia com estudos da neurobiologia. Tudo indica
que tais correspondncias tendem a aumentar conforme novas descobertas forem
sendo feitas em cada rea.

Modelo de Redes Neurais Artificiais

O modelo proposto por Donahoe, Burgos & Palmer (1993) busca


espelhar os mecanismos neurais que acabam de ser apresentados (no tpico
anterior), utilizando-se tcnicas de RNAs. O objetivo reproduzir fenmenos
comportamentais de que trata a teoria de Seleo por Conseqncias, fornecendo
ao mesmo tempo um modelo neural e uma explicao biolgica correspondente.
Neste modelo, a questo da aprendizagem tratada sob o ponto de
vista

do

princpio

unificado

do

reforo,

ou

seja,

considerando

que

os

condicionamentos respondente e operante so tratados em conjunto sob as mesmas

Adaptado de: Donahoe e Palmer (1994).

35

regras. Entretanto, as conseqncias de ambos os tipos de aprendizagem


permanecem distintas. Tal como enfatizado anteriormente, essa diviso entre
condicionamento respondente e operante mais uma questo didtica do que
prtica e a abordagem do modelo ajuda a consolidar tal proposta.
Uma simulao do sistema ilustrada na Figura 9. O exemplo
refere-se ao mecanismo de aprendizagem baseado no condicionamento operante,
tendo em vista que a apresentao do estmulo US (unconditioned stimulus ou
reforador primrio) dependente da emisso da resposta R. Considere que o
ambiente no tenha provocado qualquer reforo sobre o indivduo. Desta forma, as
respostas emitidas pelo mesmo ocorrem de forma equiprovvel, em conseqncia
do estado de nvel operante em que se encontra. Considere que a resposta R tenha
sido emitida a partir do estmulo S1. A resposta R altera o ambiente que, por sua
vez, gera um estmulo US. O estmulo US dispara a resposta UR (unconditioned
response ou resposta reflexa). A resposta UR por sua vez est ligada ao sistema
difusor de dopamina e, portanto, provoca um reforo de todas as conexes
sinpticas recentemente utilizadas. Assim, ao longo de vrias apresentaes de S1,
emisses de R e apresentaes de US, as conexes favorveis emisso de R e
UR, a partir do estmulo S1, so gradualmente estabelecidas. Quando as ligaes
estiverem fortemente estabelecidas, o estmulo S1 passa, seguramente, a evocar a
resposta R e tambm a resposta UR, passando a ser um estmulo discriminativo.
A resposta UR em particular, quando emitida a partir da estimulao
de S1 e no do estmulo US chamada de CR (conditioned response ou resposta
condicionada) e conseqncia do condicionamento respondente. Lembre-se de
que este condicionamento capaz de estabelecer relaes entre diversos estmulos
e respostas reflexas. Alm disso, a sada CR tambm representa um reforador
adquirido, pois torna possvel a ativao do mecanismo neural de reforo, por meio
de um estmulo qualquer que no o US.

36

Embora a Figura 9 ilustre o mecanismo de aprendizagem associado


ao condicionamento operante,

o modelo tambm ilustra o mecanismo de

aprendizagem associado ao condicionamento respondente (fortalecimento das


ligaes com UR/CR). De fato, ambos ocorrem juntos. A Figura 10 mostra que a
1

Fonte: Donahoe e Palmer (1994).

37

diferena entre os dois tipos de condicionamento reside apenas na dependncia da


ocorrncia

do estmulo

US (linha tracejada).

O desenvolvimento

da rede

(fortalecimento das conexes) acontece de forma similar em ambos os casos.


Diferenas

ocorrem

apenas

no

caso

de

um condicionamento

puramente

respondente, pois nenhuma conexo com a sada R estabelecida, uma vez que
sua importncia para a ocorrncia do estmulo US nula, ao passo que um
condicionamento operante sempre envolve um condicionamento

respondente

associado.

Figura 10 - Contingncia respondente e operante1.


Note-se que a liberao de dopamina depende de um reforo do
ambiente em relao resposta emitida pelo organismo, sendo que tal reforo no
imediato. Assim, utiliza-se um trao de atividade que decai com o tempo e que
permite ao sistema registrar quais sinapses foram utilizadas na emisso do
comportamento e que, conseqentemente, devem ser fortalecidas quando o reforo
for aplicado, podendo ser modelado por meio de uma memria.
Os resultados apresentados por Donahoe, Burgos e Palmer (1993)
em simulaes foram bastante promissores ao reproduzirem diversos princpios
comportamentais, entre eles:

1. Aquisio de comportamento respondente;


1

Fonte: Donahoe e Palmer (1994).

38

2. Extino de comportamento respondente;


3. Aquisio de comportamento operante;
4. Extino de comportamento operante;
5. Reaquisio de comportamento operante;

Embora

apresentem

resultados

interessantes,

as

simulaes

utilizaram estmulos e respostas bem simples, sendo que apenas um ou dois


neurnios ativos eram utilizados como estmulo e apenas um neurnio de sada era
considerado como resposta. As prprias dimenses da rede tambm so bem
reduzidas, pouco diferente, em nmero de neurnios, daquelas exibidas nas Figura
9 e Figura 10. Alm disso, apesar de descrever em teoria o funcionamento de
unidades inibitrias, nas simulaes tais unidades no foram empregadas, o que
obviamente deixa muitas questes em aberto com relao sua importncia e
possveis contribuies.
Assim

embora

demonstre

funcionamento

de

princpios

interessantes, a capacidade reduzida do modelo em termos do nmero de


contingncias que pode armazenar, bem como possveis contribuies de fatores
como inibio lateral, representam fatores limitantes para a implementao de
sistemas autnomos mais complexos. Para o desenvolvimento de tais sistemas, os
princpios que o modelo introduz devem primeiramente ser verificados em uma
arquitetura mais complexa e com maior capacidade de armazenamento.

3 MODELO DE REDE NEURAL ARTIFICIAL


Neste captulo, apresenta-se a rede neural cujo modelo a proposta
principal desse trabalho. O modelo baseado no j discutido trabalho de Donahoe,
Burgos e Palmer (1993) e Donahoe e Palmer (1994) cuja teoria foi apresentada no
Captulo 2 (Seo 2.2.3). O captulo divide-se em trs partes, apresentando
arquitetura, raciocnio e aprendizagem.

3.1 Arquitetura
A rede neural consiste de M camadas. Existe uma camada sensorial
ou camada de entrada (a camada inferior). Os neurnios sensores desta camada
podem pertencer a diferentes classes, definidas segundo a natureza do estmulo que
detectam. H uma camada de sada que define alteraes no estado do ambiente.
As demais camadas so internas. As camadas consistem de neurnios dispostos em
uma estrutura retangular NxN (Figura 11). Existe ainda uma estrutura adjunta,
formada por um conjunto de neurnios sensores denominados US. Os neurnios US
so conectados diretamente a neurnios da camada de sada, denominados
respondentes (na Figura 11 os neurnios US so representados por um nico
elemento). Os neurnios respondentes so aqueles que codificam a resposta
reflexa. Tal resposta, segundo a teoria do condicionamento, quando emitida devido
ao estmulo US definida como UR (unconditioned response). Caso ela seja emitida
devido s ligaes sinpticas que se formaram desde a camada de entrada at os
neurnios respondentes, passando pelo interior da rede, ento chamada de CR
(conditioned response).

40

Camada de Sada

Camadas Internas

Camada Sensorial

Campo de Recepo Sinptico


Neurnios Respondentes
Sinapses Fixas

A
^
.4-

Figura 11 - Arquitetura de rede neural para quatro camadas.


Cada neurnio estabelece conexes sinpticas segundo trs classes
distintas, a saber: excitatrias inter-camadas, inibitrias e excitatrias intra-camadas.
Conforme as denominaes j deixam claro, as classes definem sinapses de
caractersticas especficas. Para um dado neurnio (no pertencente a camada de
entrada) as sinapses excitatrias inter-camadas ocorrem com neurnios prsinpticos da camada anterior, situados em uma vizinhana cujo centro corresponde
ao neurnio de posio relativa idntica ao neurnio ps-sinptico. Assim, as
conexes excitatrias inter-camadas, a partir de neurnios pr-sinpticos para um
nico neurnio ps-sinptico, definem uma figura espacial em forma de cone, tal
como ilustra a Figura 11. A distribuio espacial de neurnios pr-sinpticos que
estabelecem tais conexes segue uma distribuio de probabilidades Gaussiana
(Figura 12). Por meio das sinapses excitatrias inter-camadas, os sinais fluem de
camada em camada. As sinapses inibitrias esto presentes em conexes
estabelecidas entre neurnios da mesma camada de forma que a distncia ao
neurnio ps-sinptico maior que uma distncia mnima (vizinhana distante). Sua
funo primordial regular a atividade dos neurnios, impedindo que ocorra uma
exploso de atividade na rede, tendo tambm papel crucial na formao de grupos
neurais. As sinapses excitatrias intra-camadas existem em conexes entre
neurnios da mesma camada de forma que a distncia ao neurnio ps-sinptico
menor que uma distncia mxima (vizinhana prxima). Tais sinapses, em conjunto
com as sinapses inibitrias, tm como funo estabilizar a atividade da rede. Assim

41

como as sinapses excitatrias nter-camadas, as conexes excitatrias intracamadas so escolhidas aleatoriamente segundo uma distribuio Gaussiana na
regio de vizinhana. A distribuio das conexes inibitrias se d segundo urna
diferena de distribuies Gaussianas (Figura 12). Uma restrio impede que os
neurnios possuam conexes com eles mesmos (auto-sinapse), alm de conexes
repetidas (duas ou mais) com outro neurnio qualquer. De uma forma geral, a
organizao das conexes sinpticas favorece a formao de grupos neurais
(Edelman, 1987).

Posio do Neurnio
(coordenadas na camada 1)

Conexes Iiubiiiias
(coordenadas na camada 1 )

Conexes Cooperativas
(coordenadas na camada 1)

Figura 12 - Conexes sinpticas tpicas e respectivas distribuies.


Na Figura 12, a rea vermelha indica a posio do neurnio dentro
da camada (camada-1\linha-6\coluna-5, neste caso). Os pontos pretos indicam as
coordenadas dos neurnios em cada camada com os quais o "neurnio vermelho"
faz conexes, ou seja, so os neurnios pr-sinpticos. As conexes excitatrias

42

inter-camada (quantidade = 10) so feitas com neurnios da camada imediatamente


anterior (camada 0). As demais conexes, inibitrias (quantidade = 30) e excitatrias
intra-camada (quantidade = 4), so estabelecidas com neurnios da mesma camada
(camada 1 ). Note a inexistncia de sinapses repetidas bem como de auto-sinapses.
Outra caracterstica da arquitetura (no ilustrada na Figura 11), a
configurao toroidal das camadas, visa minimizar problemas de borda. Dessa
forma, para efeitos de estabelecer conexes, os neurnios extrema direita de cada
camada so vizinhos daquelas extrema esquerda da mesma camada, assim como
os da parte superior o so para os da parte inferior (e vice-versa).

3.2 Raciocnio
Os neurnios possuem natureza dependente da camada a que
pertencem. Para a camada de entrada, a atividade do neurnio sensor j, ay ( r ) , na
iterao 7, definida por aj(T) = ej(T\

em que e y ( r ) o componente j do estmulo

e(T).

Observe que o estmulo e(T)

consiste de NxN componentes,

existindo uma correspondncia biunvoca com os neurnios da camada sensorial. O


ndice que especifica o neurnio nico, apesar da estrutura da camada ser
retangular. No entanto, a notao favorece a simplicidade e no deve prejudicar o
entendimento do texto.
Para os sensores presentes na estrutura adjunta, a atividade do
neurnio sensor j, a^T),
USJ(T)

na iterao T, definida por

o componente j

do estmulo

US(T).

( r ) = US (r),

em que

Cada componente

US^T)

corresponde a um sinal de avaliao (reforo) distinto, emitido pelo ambiente.

Para as camadas internas, seguindo a proposta de Donahoe, Burgos


e Palmer (1993), a atividade do neurnio/, a , ( r ) , dada por:

43

(7^)) + r 7 -

(7' - /)) - (/ -

(r)))] -

se (inbjr) <exCj{T))

>y('f));

{ajW-Kj.aft-fy-^nbfti

j(Th

se inbj(T)

O, se inbj(T)

>

<exCj(T)

(7^))

(1)
< dj(T)

exCj(T);

com,
m b ^ ^ a l i T y f i l e
i

exCj (:T) = X AR ( 7 > , ( r ) + a f ( T V , (T) ;


i

em que: a (T) a atividade do neurnio pr-sinptico /' que estabelece conexo


inibitria com o neurnio ps-sinptico j\ afE(T)

{af4(T)),

de forma anloga, a

atividade do neurnio pr-sinptico / que estabelece conexo excitatria intercamada (intra-camada) com o neurnio ps-sinptico _/'; w (r) o peso sinptico
correspondente conexo entre os neurnios pr-sinptico / e o ps-sinptico j\ 6j
(0.0, 0.5) um limiar de ativao sorteado para cada neurnio j a cada iterao T\
Kj a taxa de decaimento de atividade do neurnio j (trao de atividade); r ; (0,1)
uma constante; e S(.) a funo sigmide como a da Figura 4 (parmetros na
Tabela 3).

Para a camada de sada, a atividade do neurnio _/', que seja


respondente, dada por:

(T) =

AFI),

se

USJ (T) = 0;

US j (T),

se

USJ{T)^0.

(2)

44

em que: /5 .(r) o componente j do estmulo US(T). Caso o neurnio no seja


respondente, sua atividade a y(T ) segue a mesma definio apresentada para os
neurnios de camadas internas (Equao 1).

Um detalhe importante da Equao 1 diz respeito ao termo 0 y . Seu


objetivo simular uma certa imprevisibilidade ou varincia no nvel de sensibilidade
do neurnio. Em um neurnio natural, essa sensibilidade representa, entre outros, o
tempo necessrio para a membrana plasmtica se estabilizar aps um disparo.
Assim, a cada disparo, o neurnio est em um estado um pouco diferente e um
mesmo estmulo pode provocar respostas ligeiramente distintas de uma iterao
para outra, dependendo do valor do limiar Q naquela iterao. Matematicamente, o
limiar 0y. uma varivel aleatria com distribuio Gaussiana (mdia = 0.2, varincia
= 0.2) assumindo valores no intervalo [0.0 , 0.5]. O objetivo principal desse esquema
produzir variabilidade de comportamentos, criando na rede um padro de disparos
variante que busca refletir o que seria um comportamento de nvel operante. Tal
comportamento vital para o funcionamento da rede. De fato, possvel estabelecer
um paralelo deste com problemas de busca que so parte do desafio na operao
dos sistemas inteligentes (Haykin, 2001).
O processo de atualizao das atividades dos neurnios segue uma
seqncia distinta. O valor de atividade 0(7") de cada neurnio da rede neural
definido de acordo com o procedimento de atualizao da atividade, descrito em
seguida na forma de uma seqncia de passos:

1. A camada sensorial, inclusive considerando a estrutura adjunta,


ativada de acordo com os estmulos apresentados e(T) e US(T)\
2. Caso o componente USJ (T) seja diferente de zero, o neurnio
sensor j da estrutura adjunta e os neurnios respondentes a ele
conectados so ativados, com o mesmo nvel de intensidade do
componente USj-(T)\
3. Escolhe-se um neurnio qualquer das camadas internas ou de
sada (que ainda no tenha sido escolhido e no seja
respondente) e determina-se sua atividade;

45

4. Repete-se o passo 3 at que todos os neurnios tenham sido


atualizados.

Observe

que

procedimento

de

atualizao

da

atividade

proporciona ao modelo da rede neural uma dinmica paralela. Alm disso, ele busca
evitar qualquer favorecimento a um neurnio ou grupo de neurnios, algo que
poderia ocorrer caso tal grupo fosse sempre o primeiro a ser atualizado e,
conseqentemente, fosse o primeiro a estabelecer seu campo de influncia atravs
das conexes inibitrias e excitatrias intra-camada.

3.3 Aprendizagem
O mecanismo de aprendizagem consiste de uma regra de Hebb
adaptada. Assim sendo, as sinapses que sofrem modificao so apenas aquelas
em que ambos os neurnios (pr e ps-sinptico) esto ativos. Alm disso, a
equao (3) ainda incorpora o reforo (US) j que se trata de um modelo de
aprendizagem por reforo (Donahoe, Burgos e Palmer, 1993).

AWT)

a ^ d ^ p ^ r i T )

sed{T)>0

- wAT

sed(T)<0

- ]a{T)aT)

(3)

em que: a a taxa de aquisio; a taxa de extino;


dir) uma funo do estmulo US (ao longo do trabalho d(T) = US(T) a menos que
especificado o contrrio, diferentemente da proposto inicial de Donahoe, Burgos e
Palmer (1993) onde d(T) obtido segundo uma outra funo distinta);
n
ry{T)~

W(T) o termo de competio entre as sinapses;

/ ^ V?)* T - l) ,
pi{T) =
e o termo de contribuio de cada sinapse (sinapses que
contribuem mais para a atividade recebem mais peso) onde N=excj(T) ou
N=mbj (T) conforme o tipo da sinapse.

46

Dessa forma, caso o reforo seja maior que zero, a sinapse


fortalecida (processo de aquisio de comportamentos) e caso o reforo seja menor
ou

igual

zero

sinapse

enfraquecida

(processo

de

extino

de

comportamentos). Note que a Equao (3) vlida para ambos os tipos de sinapse
(excitatria e inibitria).
O mtodo de atualizao dos pesos sinpticos semelhante em
abordagem e objetivo quele utilizado para a atualizao da atividade e segue os
seguintes passos:

Para todo instante T:

1. sorteado um neurnio equiprovavelmente e sem reposio;


2. Sorteia-se equiprovavelmente uma sinapse (sem reposio);
3. Atualiza-se o peso sinptico correspondente, aplicando a
Equao (3) e utilizando as entradas no instante 7";
4. Repete-se o passo 2 e 3 para todas as sinapses;
5. Repetem-se os passos 1, 2, 3 e 4 para todos os neurnios.

4 RESULTADOS
Este captulo apresenta os resultados obtidos com o modelo
proposto no Captulo 3 em diversos experimentos de simulao. Os experimentos
visam demonstrar as caractersticas de funcionamento bem como as capacidades de
aprendizagem do modelo. Diversos experimentos tm fundamento na teoria da
seleo pelas conseqncias e objetivam avaliar o modelo segundo os fenmenos
comportamentais que a teoria descreve.
Para efeitos da interpretao dos resultados de experimentos
apresentados na forma de figuras faz-se necessria uma observao. A atividade da
rede um fator dinmico dependente de diversas regras e extremamente variante
no tempo, no apenas quando essa se encontra em nvel operante (exibindo
respostas aleatrias), mas tambm depois de realizada a aprendizagem (onde
normalmente a atividade estabiliza-se ao redor de um certo padro, mas continua
variante). Devido a essa natureza, cada figura representa uma amostra do padro de
atividade dos neurnios em cada camada em um determinado instante T e no um
comportamento fixo.
Os resultados apresentados so divididos em duas partes, na Seo
4.1 os exemplos visam mostrar os mecanismos e princpios de funcionamento da
rede, fornecendo um melhor entendimento de como determinadas caractersticas e
parmetros influenciam seu funcionamento. A Seo 4.2 traz experimentos cujo
objetivo demonstrar as capacidades de aprendizagem da rede bem como a gama
de comportamentos que ela capaz de adquirir.

Parmetros das Simulaes

Ao longo de todos os experimentos realizados nas prximas sees,


procurou-se manter o mesmo conjunto de parmetros para o modelo. A no ser
quando especificado diferentemente, tal conjunto segue a descrio fornecida nas
Tabelas 1, 2 e 3. Obteve-se os parmetros apresentados atravs de observaes
preliminares de funcionamento do modelo. Muitos dos parmetros visam fornecer
condies mnimas para o funcionamento de caractersticas esperadas do modelo.

48

Por exemplo, a dimenso das camadas e a distribuio sinptica visam fornecer


condies para o surgimento de grupos neurais.

Tabela 1 - Propriedades da Rede


Nmero de camadas

Nmero de neurnios por camada

100 (grade de 10x10)

Tabela 2 - Propriedades das Conexes Sinpticas


Excitatrias

Inibitrias

Exc. Intra-Camada

10

30

[0.0 , 2.5]

[1.5,3.0]

[0.0, 1.5]

[0.0095 , 0.0105]

[0.095 , 0.105]

[0.095 , 0.105]

N de sinapses por
neuronio
Raio de distribuio1
2

Valor inicial

Faz-se aqui necessria uma observao com relao as conexes


do tipo inibitrias e excitatrias intra-camadas, a respeito do ajuste sinptico das
mesmas. Por motivos discutidos nas concluses, o ajuste desses tipos de sinapses
desativado durante as simulaes apresentadas neste captulo, ou seja, estas
sinapses no aprendem. No entanto, sua funo permanece e sua importncia
tambm, sendo que apenas sua influncia deve ser considerada como constante.

Tabela 3 - Parmetros das Equaes


Parmetros de Atividade Neural

Parmetros de Aprendizagem

ei = [o.o, 0.5]

a = 0.5

Kj = 0.8

= 0.1

T, = 0 . 1

d{T) = US{T)

Inclinao da Sigmide = 0.1


Limiar da Sigmide = 0.3

Medido em posies na grade a partir do neurnio (Ex: raio de intervalo [1.5 , 3.0] significa que a
sinapse pode ser sorteada e efetuada com qualquer neurnio que esteja no mnimo a 1.5 posies de
distncia na grade e no mximo a 3.0). O sorteio feito segundo uma distribuio Gaussiana com
mdia = 0.0 e varincia = valor mdio do intervalo definido para o tipo da sinapse.
2

Varivel aleatria com distribuio uniforme no intervalo especificado.

49

Avaliando Respostas Desejadas

0 procedimento bsico de operao da rede neural envolve a


apresentao de um estmulo, a computao por parte da rede de uma resposta e,
caso a resposta seja desejada, o retorno apresentado pelo ambiente na forma de um
reforador.
A resposta desejada definida antes do incio da simulao e
envolve a especificao, para cada estmulo definido para o ambiente, de quais
neurnios da camada de sada so considerados resposta (neurnios resposta) bem
como a faixa de atividade considerada vlida. Alm disso, definida a porcentagem
de participao necessria para que a resposta seja considerada vlida e tambm o
valor do US associado resposta.
A avaliao feita segundo o grau de participao dos neurnios
resposta na atividade geral da camada de sada. Para tanto, aps cada iterao do
procedimento de atualizao da atividade (ver Seo 3.2), feito um somatrio da
atividade de todos os neurnios da camada de sada, bem como um somatrio
apenas daqueles neurnios especificados como resposta vlida e que apresentaram
atividade dentro da faixa definida. A relao entre esses dois somatrios, isto , a
porcentagem de participao dos neurnios resposta na atividade geral da ltima
camada comparada com o valor definido para a resposta. Valores maiores ou
iguais so considerados respostas vlidas (e so seguidos pela apresentao do US
associado). Do contrrio, a resposta considerada invlida.

Interpretando as Ilustraes

Nos experimentos que se seguem, so utilizadas figuras para ilustrar


as observaes realizadas e estas seguem algumas definies. As figuras
representam tanto a arquitetura como a atividade neural e de acordo com o padro

so
dos experimentos, ilustram quatro (4) camadas, cada camada consistindo de uma
grade retangular de 1Ox10 (dez por dez) neurnios (Figura 13).

1 - Atividade - 0.0
2 - Atividade )0.0 , O.OS[
3 - Atividade (0.05 , LO(
4 - IruIiI:ador de Neurnios

Resposta

Figura 13 - Representao da rede.


A camada de entrada referida como "Camada O", a "Camada 1" e
"Camada 2- so intermedirias e a ltima camada ou camada de sada a Camada
3". Cada neurnio representado pcr um quadrado de borda clara. A atividade do
neurnio indicada pela cor de preenchimento do quadrado. Preto para atividade
nula (igual a zero), marrom para indicar uma atividade muito reduzida (entre zero e
0.05) e uma escala de cor azulada para atividades acima de 0.05 at 1.0. Neste
ltimo caso, quanto maior a atividade mais intensa a cor. Nos experimentos em que
existe treinamento efetivo da rede, existe ainda um crculo vermelho na ltima

camada que destaca os neurnios resposta .

Definindo o Treinamento

A aprendizagem em muitas redes neurais acontece em perodos


bem definidos denominados treinamento. O mecanismo de aprendizagem por

51

reforo

segundo

uma

perspectiva

clssica

(fundamentada

na

Anlise

do

Comportamento) permanece indefinidamente habilitado (no existindo distino


entre uma fase de aprendizagem e operao), portanto no podendo ser adotado o
conceito de treinamento com o mesmo significado.
Nos experimentos deste captulo, a interpretao do conceito de
treinamento deve, portanto, ser feita segundo o seguinte significado:

1. O incio do treinamento considerado a partir do momento em


que a rede inserida no ambiente;
2. Considera-se que o treinamento chegou ao fim quando, a partir
do estmulo CR (contingncia respondente) ou S (contingncia
operante), a atividade neural convergir de forma a representar a
resposta desejada (adquirindo comportamentos) ou atingir o
estado de nvel operante (extinguindo comportamentos).

Um estado estvel que represente uma convergncia da atividade


identificado quando no se observa alteraes significativas no padro de atividades
dos neurnios.

4.1 Experimentos Bsicos


Os diversos elementos componentes do modelo proposto, entre eles
o padro de conexes sinpticas caracterstico, interagem de forma particularmente
interessante e pouco comum durante o funcionamento da rede neural. As
conseqncias de tais interaes so processos indispensveis para uma correta
modelagem das caractersticas comportamentais, as quais deseja-se que o modelo
seja capaz de reproduzir.
Uma anlise independente de tais processos emergentes feita na
seqncia. O foco do estudo no o treinamento, capacidade de aprendizagem ou
o comportamento que a rede capaz de desenvolver. O objetivo somente
demonstrar caractersticas de funcionamento do modelo proposto. A partir de tais
exemplos fica claro o papel que cada tipo de sinapse, juntamente com suas
configuraes especficas, desempenha dentro da rede.

52

4.1.1 Atividade Neural sem Conexes Laterais


0 fato de possurem alcance limitado bem como serem limitadas em
nmero faz com que as sinapses excitatrias inter-camadas tornem a propagao da
atividade neural bem caracterstica.
A partir de um estmulo em uma determinada regio da camada de
entrada da rede (Camada 0 da Figura 14), a atividade neural propaga-se de camada
em camada atravs das conexes excitatrias inter-camadas para um nmero
limitado de neurnios das camadas posteriores (Camada 1, Camada 2, etc.). A
distncia que a atividade neural percorre dentro da rede, isto , a difuso que ela
sofre ao longo das camadas (por exemplo, comparando-se a Camada 0 com a
Camada 1) no mximo o alcance permitido pelas conexes sinpticas
(aproximadamente ilustrado pelo crculo tracejado na Camada 1) (um parmetro
especificado quando da inicializao da rede).
Para que um estmulo consiga, eventualmente, produzir atividade
em qualquer neurnio da camada de sada, necessrio que o alcance mnimo das
conexes, acumulado ao longo das camadas, seja grande o suficiente para englobar
toda a extenso da ltima camada (Figura 14). Para este experimento so utilizadas
apenas conexes excitatrias inter-camadas, os demais tipos de conexes no so
empregados. A atividade neural no converge, pois no se trata de um experimento
de aprendizagem, conseqentemente a atividade neural oscilante.

S3
ComodoO

Comodo ,

Figura 14 - Propagao da atividade neural por conexes excitatrias inter-camadas


(com cone de alcance minimo).

Caso o alcance mnimo das conexes no seja respeitado no


possvel garantir que exista, com certeza , um caminho neural capaz de estabelecer

uma ligao entre qualquer estimulo e qualquer resposta possivel (Figura 15). Note,
na Figura 15, que os neurnios na periferia da Camada 3, so incapazes de serem
estimulos pelo estmulo apresentado na Camada O.

Figura 15 - Propagao da atividade neural por conexes excitatrias inter-camadas


(sem cone de alcance mnimo)

54
4.1.2 Atividade Neural com Conex es Laterais
Na Seo 4.1.1, fica claro como a atividade neural propaga-se pelas
vrias camadas da rede . No entanto, o resultado final pouco til tendo em vista

que a resposta produzida abrange toda a extenso da camada de saida. No existe


diferenciao ntida entre possveis respostas, apenas uma exploso de atividade.
Para obter padres distintos de atividade que possam

ser

considerados respostas especficas, vlidas ou no, necessrio, de alguma forma ,


limitar a atividade da rede. justamente esse o papel das conexes laterais
inibitrias.

exemplo da Figura 16 trata exatamente da mesma rede

apresentada no exemplo da seo 4.1.1 apenas com as conexes inibitrias


habilitadas e operando. Neste experimento, no foram utilizadas as conexes

excitatrias intra-camada. Nota-se uma reduo drstica na atividade geral da rede


bem como uma maior especificidade, com melhor definio de padres locais. Os

padres 1 e 2 da Figura 16 ilustram duas respostas emitidas em instantes de tempo


arbitrrios. Tais respostas no representam um estado estvel tendo em vista que

no realizada a aprendizagem, ou seja, a rede no converge.


Padro 1
Camada o

Padro 2
Camada 1

Figura 16 - Atividade neural com conexes laterais inibitrias.

55

A forma como as conexes inibitrias contribuem para a operao


da rede no to simples como pode parecer em principio. Uma das contribuies
do uso de conexes inibitrias um aumento no contraste da atividade neural.

Observe que no experimento anterior (Figura 14) as atividades dos neurnios


assumiam valores numa ampla faixa , enquanto neste experimento (Figura 16)
poucos neurnios atingem o limiar necessrio para exibir atividade. Outro fator de
grande importncia devido s conexes inibitrias o comportamento aleatrio das
respostas especificas (nivel operante). Com tais conexes existe um certo equilibrio
entre excitao e inibio ao longo de toda a rede e assim surgem padres
especficos de disparo errticos.
Considere o exemplo ilustrado na Figura 17 em que os pesos
sinpticos so configurados para [0.295, 0.305) (maiores que nos demais
experimentos). Definindo maiores valores para os pesos a excitao torna-se
predominante sobre a inibio. Observe que a excitao mais intensa, causa
desequilbrio entre excitao e inibio, a atividade assume valores altos e a

resposta deixa de ser especifica. Respostas no especificas deixam de ser


interessantes, pois impossibilitam a definio de padres de resposta especificas
desejados.
C....daO

C....da1

Figura 17 - Atividade neural com conexes laterais inibitrias e excitao


predominante.

56

interessante

notar que,

sob a influncia

do algoritmo de

aprendizagem, uma rede com tal atividade rapidamente evoluiria para o equilbrio
excitao/inibio. Conseqentemente a rede retomaria ao estado de nvel operante
(Figura 16). Isso acontece uma vez que pequena a probabilidade de que respostas
pouco especficas, como as ilustradas na Figura 17, sejam de fato respostas
desejadas, implicando na ausncia do sinal de reforo. Conseqentemente, ocorre o
enfraquecimento das conexes inter-camadas, o que tende a equilibrar o nvel de
excitao com o de inibo e produzir o comportamento de nvel operante. No
entanto, isso pode no ocorrer, bastando para isso que a atividade ilustrada na
Figura 17 seja considerada uma resposta vlida de algum tipo.
Os experimentos representados nas Figura 14, Figura 16 e Figura
17 oferecem indcios de que as sinapses inibitrias possuem um papel essencial
para que a rede estabelea um estado de nvel operante em que respostas
desejadas so geradas.

4.1.3 Formao Dinmica de Grupos Neurais


A

distribuio

espacial

das

conexes

sinpticas

favorece

existncia de grupos neurais, isto , de grupos localizados de neurnios que


respondem a um mesmo estmulo ou conjunto de estmulos. No entanto, apenas a
distribuio das sinapses no suficiente para definir grupos dessa natureza. Para
tanto considere a discusso em seguida.
Um grupo neural formado por neurnios centrais, localizados em
seu centro, e por neurnios perifricos, posicionados nos limites espaciais do grupo.
Neurnios centrais possuem um maior nmero de sinapses que participam
ativamente da operao do grupo, uma vez que ao seu redor existem mais
neurnios que tambm participam do grupo, ao passo que neurnios perifricos
possuem algumas sinapses no utilizadas, estabelecidas com neurnios prximos a
ele e que, no entanto, no participam do grupo. As conexes sinpticas por si s
permitem que cada neurnio seja o centro de seu grupo (Figura 12).
A formao dos grupos neurais uma caracterstica emergente,
dependente no apenas da distribuio, mas tambm de adaptao sinptica. Ao
longo do processo de aprendizagem, os neurnios que inicialmente disparam com

57
maior intensidade tendem a se tornar neurnios centrais , promovendo a definio

dos grupos. A configurao evolui gradualmente

a medida

que a atividade nas

camadas vai se estabelecendo (Figura 18 e Figura 19) e os grupos se definindo em


conseqncia do treinamento (Figura 20).
O tamanho dos grupos depende da distribuio espacial das
sinapses. Um padro de conexo com poucas sinapses excitatrias intra-camadas e
com estas estabelecidas com neurnios prximos produz grupos pequenos. As
conexes inibitrias intra-camadas tambm participam na definio do tamanho do

grupos. Um raio de alcance pequeno para as conexes inibitrias pode significar que
neurnios que possivelmente estabeleceriam um grupo, por estarem prximos,
podem na verdade estar inibindo uns aos outros, conseqentemente diminuindo o
nmero de neurnios que efetivamente cooperam entre si. O alcance das conexes
inibitrias tambm define quantos grupos sero permitidos em cada camada. Um

alcance moderado permite que dois ou mais grupos isolados

su~am

(Camada 2 da

Figura 20).
ComodaO

Comoda ,

Figura 18 - Atividade inicial ainda


sem grupos neurais definidos.

ComodaO

Comoda ,

Figura 19 - Atividade intermediria


com surgimento dos grupos neurais.

S8

Figura 20 - Atividade final com grupos neurais formados .

Note uma diferena clara entre uma atividade com predominncia


geral das conexes excitatrias inter-camadas, no caso da Figura 17, e um

fortalecimento especifico das mesmas atravs de treinamento (Figura 18, Figura 19


e Figura 20). Fica claro, portanto, que durante o treinamento as conexes sinpticas
so fortalecidas segundo um esquema particular, evoluindo uma rede com padres
distintos daqueles que so obtidos simplesmente aumentando-se os pesos

sinpticos.
Outra conseqncia do fato dos grupos neurais desenvolverem-se

de forma dinmica que, aps o treinamento, o grupo que define a resposta no


necessariamente abrange todos os neurnios definidos como parte da mesma

(indicados nas figuras pelo circulo vermelho). Como o grupo dinmico ele pode
incorporar mais ou menos neurnios do que os especificados.

4.1.4 Consideraes Sobre a Evoluo da Atividade Neural


A rede

inicia

sua

operao

exibindo

padres

de

disparos

equiprovveis, pois inicialmente seu comportamento deve simular o nvel operante.


medida em que a rede recebe sinais de reforo como retomo a respostas
desejadas, emitidas na presena de estimulas especificos (discriminativos), suas

59

conexes sinpticas so fortalecidas gradualmente e, como conseqncia, o padro


de disparos aleatrios vai se tornando restrito.
Este panorama torna-se ainda mais interessante devido restrio
de alcance das sinapses, a inibio lateral e ao padro especfico de progresso da
atividade produzida por tais fatores. Propagando-se a partir da camada de entrada, a
atividade neural pode percorrer no mximo a distncia que o raio das conexes
permite. Deste modo, a distncia total que a atividade desencadeada por um
estmulo pode atravessar dentro da rede, desde a camada de entrada at a camada
de sada, no mximo a soma do raio das conexes sinpticas em cada camada,
levando-se em conta que pequenas variaes so permitidas dado o fator aleatrio
ao se estabelecerem as conexes.
Durante a aprendizagem, as sinapses so mais intensamente
reforadas nas camadas inferiores da rede (pois esto mais prximas aos estmulos
que possuem nvel de atividade expressivo e tambm por possurem atividade mais
freqente). Quando a atividade toma-se estvel na primeira camada, na forma de
grupos neurais, automaticamente ela passa a definir uma regio mais restrita (que
menor que o cone total de propagao possvel da atividade) da rede a partir da qual
a atividade poder propagar-se, uma vez que o cone de disperso da atividade
(criado pelo padro de conexes) possui agora uma camada a menos para se
expandir. Conseqentemente, o espao de busca torna-se mais limitado, pois a
cada camada ele limita-se a um nmero de neurnios menor que o total de
neurnios possveis. Tal fato pode ser comparado ao fenmeno da especificao da
resposta, visto na Seo 2.2.2.

4.2 Experimentos de Aprendizagem


Nesta seo o objetivo dos experimentos realizados passa ser a
demonstrao das capacidades de aprendizagem do modelo. Os dois tipos de
aprendizagem envolvem contingncias do tipo respondente e operante, com
destaque para este ltimo. Lembrando que os princpios mostrados na Seo 4.1
permanecem presentes e atuando.
Apesar de ter sido ressaltado durante a discusso da teoria que
durante um treinamento operante inevitavelmente tambm ocorre condicionamento

60

do tipo respondente, nos experimentos apresentados a seguir preferiu-se separar os


dois em benefcio da compreenso. Isso, no entanto, no invalida o que foi discutido
at o momento. A separao dos dois tipos de aprendizagem foi realizada
simplesmente no especificando neurnios respondentes durante os treinamentos
de contingncias operantes, impossibilitando assim a associao do tipo clssica
entre o estmulo US e tais neurnios.

4.2.1 Experimento 1 - Convergncia da Aprendizagem em Treinamento


Respondente
O primeiro experimento visa demonstrar as capacidades da rede
neural em associar um estmulo qualquer (estmulo condicionado - CS) a um
estmulo incondicionado US (reforador). Considera-se que existe uma correlao
temporal do primeiro com o segundo. Aps o treinamento, o estmulo condicionado,
que inicialmente no produz qualquer resposta particularmente interessante, passa a
eliciar a mesma resposta ou uma resposta muito prxima quela produzida
inicialmente apenas pelo estmulo reforador.
Para este experimento so definidos o estmulo incondicionado US
(Camada 0 da Figura 21), os neurnios respondentes (crculo vermelho na Camada
3 da Figura 21), a intensidade do US (igual a 1.0 ou intensidade total) e a correlao
temporal entre US e CS (o US apresentado 3 iteraes aps o CS).

61

Figura 21 - Atividade neural do


estmulo CS anterior ao treinamento
respondente.

Figura 22 - Atividade neural do


estimulo US anterior ao treinamento
respondente.

Figura 23 - Resposta do estmulo CS aps treinamento respondente.


Inicialmente, como era de se esperar, o estmulo CS no produz

uma resposta especfica na rede (Figura 21). O estimulo US, como tambm de se
esperar, capaz de produzir atividade nos neurnios respondentes mesmo antes do
treinamento (Figura 22). Note que a presena do estmulo US afeta apenas os
neurnios respondentes (ver Seo 3.1).

62

Aps o treinamento, o estmulo CS adquire a capacidade de produzir


na rede uma resposta semelhante quela produzida pelo estmulo US (resposta
condicionada), mesmo, agora, sem a presena deste ltimo (Figura 23). Portanto, o
treinamento respondente foi bem sucedido.
Na Figura 23, alm de atividade neural na regio esperada (regio
dos neurnios respondentes), a rede tambm exibe atividade em outros neurnios.
Isso se deve a vrios fatores, entre eles o padro de conexes sinpticas. O
interessante que a prpria teoria do condicionamento respondente, assim como
visto, prev como conseqncia do mesmo o aumento na freqncia de qualquer
comportamento que esteja ocorrendo nas proximidades temporais da ocorrncia do
estmulo US. Sendo assim, a existncia de atividade neural fora da regio definida
como resposta indica a existncia de uma correlao entre os neurnios,
provavelmente devido a um padro de conexes caracterstico,

o que

perfeitamente condizendo com a teoria.

4.2.2 Experimento 2 - Extino de Comportamento Respondente


Para um sistema artificial ser capaz de comportar-se de forma
autnoma ele precisa ser capaz de se adaptar a um ambiente mutvel. Caso uma
contingncia ambiental mude de caracterstica e deixe de estar associada a um
estmulo reforador, conseqentemente o sistema artificial deve deixar de emitir a
resposta que aprendeu a associar at ento. Adaptar-se nesse sentido no limita-se
a adquirir comportamentos, mas tambm a desfazer-se de comportamentos.
Para exemplificar esse processo, utiliza-se como ponto de partida o
Experimento 1, onde foi estabelecida uma contingncia clssica entre um CS e um
US (Figura 23 e Figura 24 que ilustram o mesmo caso). A partir dessa configurao,
uma vez removido o estmulo US (eliminando a relao US - CS), a rede neural
cessa de emitir a resposta condicionada presena do CS (Figura 25), extinguindo a
resposta anteriormente adquirida.

63
Camada 1

Figura 24 - Atividade neural anterior


extino do comportamento
respondente.

Camada 1

Figura 25 - Atividade neural aps


extino do comportamento
respondente.

4.2.3 Experimento 3 - Convergnc ia da Aprendizagem em Treinament o


Opera nte
De acordo com os conceitos deste trabalho, um dos maiores
desafios para um sistema autnomo consiste em investigar o ambiente, explorandoo, e aprender a partir dessa explorao quais as contingncias presentes no
ambiente. Ou seja, o sistema deve aprender quais respostas so reforadas pelo

ambiente e tambm deve aprender a emitir tais respostas nas situaes em que elas
so esperadas.
O objetivo desse experimento demonstrar a capacidade do modelo
proposto em aprender uma contingncia operante simples. A simulao envolve a
presena de um estimulo (estimulo discriminativo), uma resposta desejada e um
estimulo reforador (US), sendo apresentado apenas quando, na presena do
estmulo discriminativo, a rede emite a resposta desejada.
Inicialmente, a resposta da rede para o estmulo discriminativo
compreende o padro de disparos de nvel operante (Figura 26). Durante o
treinamento a rede recebeu o sinal de reforo (US) sempre quando exibia a resposta
correta (crculo vermelho). Desta forma, a atividade neural evoluiu para a
configurao exibida pela Figura 27, adquirindo a capacidade de responder

64
corretamente (apresentando a resposta desejada) sempre que o estimulo
discriminativo apresentado.

Figura 26 - Atividade neural anterior


ao treinamento aperante.

Figura 27 - Atividade neural aps


treinamento aperante.

interessante notar que, para um outro estmulo qualquer diferente

do estimulo discriminativo (estimulo que no possui uma relao operante


associada) a atividade da rede permanece em nvel aperante. Para ilustrar essa
caracteristica , durante o condicionamento exibido nas Figura 26 e Figura 27, um

estmulo no discriminativo

apresentado em altemncia com o estmulo

discriminativo. Aps o treinamento , o estmulo no discriminativo no produz uma

resposta especifica, permanecendo a rede em nivel operante (Figura 28). Isto ocorre
pelo fato de no existir uma resposta desejada associada ao mesmo, ou seja, o
ambiente no possui uma contingncia relacionada a este estmulo em particular (tal
estimulo no est associado a um estimulo reforador US).

65

Figura 28 - Atividade neural aps treinamento operante para um estmulo no


reforado.
A Figura 29 e a Figura 30 apresentam uma configurao alternativa
para este experimento. No entanto, visam demonstrar o mesmo princpio. Neste
caso , a resposta desejada definida em neurnios que esto localizados em uma

posio relativa diferente daquela assumida pelos neurnios que so estimulados.


Dessa forma, a atividade neural dentro da rede obrigada a propagar-se em um
padro diagonal, considerando-se as vrias camadas. O objetivo aqui mostrar que
o treinamento capaz de estabelecer conexes e de fato consolidar um padro de

disparos entre qualquer regio da primeira e ltima camadas.

66

Figura 29 - Atividade neural anterior


ao treinamento operante (exemplo 2).

Figura 30 - Atividade neural aps


treinamento operante (exemplo 2).

Essa caracterstica interessante no apenas do ponto de vista

comportamental , mas tambm do ponto de vista arquitetural. Pensando em termos

de arquitetura, existe um favorecimento por parte das conexes sinpticas iniciais


(devido ao padro Gaussiano de distribuio) de que a atividade neural propague-se

ascendentemente em linha reta , camada aps camada. No entanto, o mecanismo de


aprendizagem e a prpria forma de operar da rede so capazes de superar essa

tendncia inicial , fortalecendo as conexes de forma adequada.

4.2.4 Experimento 4 - Extino de Comportamento Operante.


Assim como importante esquecer contingncias dssicas no

mais existentes (Experimento 2), tambm fundamental para um sistema autnomo


extinguir contingncias aperantes previamente estabelecidas que no so mais

vlidas.

Utilizando como ponto de partida o segundo treinamento realizado


no experimento anterior (Figura 31 ), feita uma pequena modificao na definio
do ambiente, removendo-se a apresentao do US quando a resposta desejada

emitida na presena do estmulo discriminativo. Aps algumas poucas iteraes, ao


longo das quais as conexes sinpticas so gradualmente enfraquecidas devido
ausncia do reforo, a resposta da rede diminui e retoma ao padro de nvel

67

operante (Figura 32). Dessa forma a contingncia previamente estabelecida


eliminada.

ComodoO

Figura 31 - Atividade neural anterior


extino do comportamento operante.

Comodo 1

Figura 32 - Atividade neural aps


extino do comportamento operante.

4.2.5 Experimento 5 - Capacidade de Generalizao


Uma das contribuies do modelo proposto para o desenvolvimento
de sistemas autnomos inteligentes, que herdada do modelo de redes neurais, a

capacidade de generalizao. Atravs desta capacidade, uma rede neural pode


emitir uma resposta particular para um estmulo, mesmo que no tenha feito parte do
processo de aprendizagem, categorizando-o segundo sua semelhana com um

estimulo que de fato tenha participado do treinamento.


Este experimento demonstra um treinamento operante simples. A Figura 33
apresenta a resposta inicial, apresentada pela rede antes do treinamento. Aps o
treinamento, o estimulo discriminativo (Camada O da Figura 34) adquire controle
sobre a resposta desejada (Camada 3 da Figura 34). At esse ponto o experimento
no diferente dos apresentados anteriormente. A
Figura 35, a Figura 36 e a Figura 37 ilustram a resposta da rede para estimulos
semelhantes ao estmulo de treinamento que, no entanto, no fizeram parte do
mesmo. Note que a resposta da rede permanece praticamente inalterada para o
estimulo que diferente apenas na atividade de um neurnio (
Figura 35). medida que o estimulo apresentado torna-se cada vez
mais discrepante em relao ao estimulo de treinamento (Figura 36 e Figura 37), a

68
atividade

torna-se

menos

similar.

No

entanto, mesmo

para

um

estmulo

consi deravelmente degradado (Figura 37), a resposta da rede ainda assemelha-se


bastante resposta original obtida com o treinamento.

c........ o

Camada 1

Figura 33 - Atividade neural anterior ao treinamento operante (exemplo de


generalizao).

Figura 34 - Atividade neural aps


treinamento operante com estmulo
original.

Figura 35 - Atividade neural aps


treinamento operante com
degradao do estmulo (exemplo 1).

69

Figura 36 - Atividade neural aps


treinamento aperante com
degradao do estimulo (exemplo 2).

Figura 37 - Atividade neural aps


treinamento aperante com
degradao do estimulo (exemplo 3).

Sem dvida, a capacidade de generalizao fundamental para o


desenvolvimento de sistemas autnomos inteligentes e o fato do modelo proposto
incorporar tal qualidade acrescenta valor ao mesmo, principalmenle diante das
expectativas de sua utilizao.

4.2.6 Experimento 6 - Controle de Intensidade da Resposta


Certas situaes exigem que um sistema autnomo seja capaz,
alm de emitir uma resposta correta em uma determinada situao, emitir essa
mesma resposta com uma certa intensidade particular para a circunstncia atual.
Considere um exemplo em que um rob autnomo cujo repertrio comporta mental

inciui o conlrole de sua velocidade de deslocamento. Em certas situaes ele pode


desenvolver velocidade mxima, por exemplo, quando se desloca em linha reta ,

acelerando at o limite de sua capacidade. Em outras ocasies pode ser necessria


uma velocidade diferente, por exemplo, em uma curva onde, a fim de evitar
derrapagens, a velocidade desenvolvida deva ser menor.
O experimento a seguir foi montado tendo-se em mente situaes
como a descrita acima e visa avaliar a capacidade do modelo em associar uma
mesma resposta a dois estmulos diferentes, sendo que, a resposta envolve os

70
mesmos neurnios, porm, disparando com intensidades diferentes para os
diferentes estimulas. Para tanto o estimulo numero 1 (Camada O da Figura 38) foi
associado resposta em questo (Camada 3 da Figura 38) sem nenhuma restrio ,

assim como o treinamento aperante do Experimento 3. O estmulo nmero 2


(Camada O da Figura 39) por sua vez est associado mesma resposta. No entanto,

neste caso, o estimulo reforador s apresentado caso a atividade nos neurnios


resposta no ultrapassem a marca de 0.5.

Figura 38 - Atividade neural anterior


ao treinamento de controle da
intensidade da resposta (estimulo 1).

Figura 39 - Atividade neural anterior


ao treinamento de controle da
intensidade da resposta (estimulo 2).

71
Comodo o

Comodo ,

Figura 40 - Atividade neural aps


treinamento de controle da
intensidade da resposta (estimulo 1).

Figura 41 - Atividade neural aps


treinamento de controle da
intensidade da resposta (estimulo 2).

Como conseqncia do treinamento a resposta neural que o

estimulo nmero 1 produz bem mais intensa (Figura 40) que a provocada pelo
estimulo nmero 2 (Figura 41 ) (cerca de 50%), levando-se em conta a atividade do
grupo que define a resposta para cada um dos estimulas. Na prtica, o que ocorre
para o segundo estimulo que a atividade, ao longo do treinamento, gradualmente
eleva-se. medida que a atividade neural passa do limite de 0.5 ela comea a sofrer
extino, pois no recebe USo Com a extino, a atividade volta a cair abaixo do
limite de 0.5, o que propicia um novo fortalecimento e nova elevao do nvel de
atividade. Esse ciclo repete-se pelo tempo que durar a simulao.
Treinada dessa maneira, a rede neural pode aprender a distinguir

situaes para as quais a resposta desejada deve ser emitida com intensidade

particular.

4.2.7 Experimento 7 - Controle de Mltiplas Respostas


Na maioria dos casos, situaes distintas requerem do sistema
autnomo inteligente a emisso de comportamentos distintos. Portanto, o modelo

deve permitir a associao de estmulos a respostas distintas, sem que haja

interferncia de uma relao na outra.

72

treinamento, para este experimento, consistiu da apresentao

aleatria de dois estmulos distintos, sendo que cada um deles est associado a

uma resposta diferente. O sinal de reforo apresentado sempre que a resposta


correta para o estimulo corrente for apresentada. Assim , quanto estimulada pelo

estimulo 1 (Camada O da Figura 42), a rede recebe o reforo apenas se emitir a


resposta 1 (Camada 3 da Figura 42). Da mesma forma, quanto o estimulo corrente
o estimulo 2 (Camada O da Figura 43), o reforo se torna disponivel apenas
mediante emisso da resposta 2 (Camada 3 da Figura 43).

Figura 42 - Atividade neural anterior


ao treinamento de controle de
mltiplas respostas (estimulo 1 resposta 1).

Figura 43 - Atividade neural anterior


ao treinamento de controle de
mltiplas respostas (estimulo 2resposta 2).

Aps o treinamento (Figura 44 e Figura 45) a rede capaz de emitir


as respostas corretas, para ambos os estimulos, sem que haja interferncia (por
exemplo, sem que o estimulo 1 produza a resposta 2).

73

Figura 44 - Atividade neural aps


treinamento de controle de mltiplas
respostas (estmulo 1 - resposta 1).

Figura 45 - Atividade neural aps


treinamento de controle de mltiplas
respostas (estmulo 2 - resposta 2).

Este experimento aborda uma questo interessante quanto

capacidade de memria do modelo. Entretanto, o objetivo aqui no analisar


quantitativamente a capaci dade da rede neural em armazenar diversas relaes

distintas, o objetivo somente demonstrar que o modelo possui essa funcionalidade.


Em investigaes futuras sera analisada a capacidade de memria do modelo.

4.2.8 Experimento 8 - Fuso de Sensores


Um

comportamentos

sistema

relevantes

discriminativos). Para

autnomo

inteligente

(respostas)

em

deve

situaes

tanto, deve ser capaz

aprender

relevantes

emitir

(estmulos

de identificar tais situaes,

discriminando-as das demais. Essa capacidade no trivial, como pode parecer em


principio. Estmulos discriminativos podem

apresentar-se de forma bastante

complexa, envolvendo a combinao de diferentes estmulos em sua configurao.


Um sistema autnomo inteligente deve ser capaz de distinguir um estmulo
discriminativo complexo de

situaes

envolvendo

apenas

alguns de

seus

componentes.
Em seres biolgicos, situaes complexas normalmente envolvem a
associao de estmulos provenientes de diferentes campos sensoriais. Assim, um

74

organismo biolgico deve ser capaz de distinguir uma situao reforada,


envolvendo, por exemplo, um estmulo visual e um auditivo, das situaes em que
estes estmulos aparecem isoladamente. Por normalmente envolver diferentes tipos
de informao sensorial, esse problema usualmente conhecido por fuso de
sensores.
O experimento apresentado tem por objetivo avaliar as capacidades
da rede neural proposta em associar estmulos complexos a uma resposta desejada,
sem que, no entanto, tal associao tambm ocorra com cada parte independente
do estmulo. Embora no seja feita qualquer especificao quanto natureza dos
estmulos ou sua origem, se estes so ou no provenientes de campos sensorials
diferentes, esse fator no limita os resultados obtidos uma vez que a definio do
modelo e de sua camada sensorial no especifica qualquer parmetro quanto
natureza da informao que recebe e processa. Assim sendo a informao sensorial
que estimula a camada de entrada pode ser de qualquer tipo, inclusive proveniente
de campos sensoriais diferentes.
O estmulo discriminativo a ser associado (Camada 0 da Figura 46)
resposta desejada (Camada 3 da Figura 46) envolve dois grupos bem distintos de
neurnios

estimulados.

O treinamento

consiste

em apresentar

o estmulo

discriminativo para a rede e, sempre que a resposta emitida for a desejada,


apresentar o reforo. No entanto, juntamente com o estmulo discriminativo, so
apresentados seus componentes individuais (Camada 0 da Figura 47 e Camada 0
da Figura 48), de forma que o padro de estimulao apresentado rede a cada
iterao sorteado dentre estes trs possveis casos (estmulo discriminativo,
componente 1 e componente 2). Os estmulos componentes 1 e 2, no entanto, no
so estmulos discriminativos e no possuem um reforador associado ou resposta
desejada.

75
ComodoO

Comodo 1

Figura 46 - Atividade neural anterior ao treinamento de fuso sensorial (estimulo


discriminativo composto).

Figura 47 - Atividade neural anterior


ao treinamento de fuso sensorial
(componente 1).

Figura 48 - Atividade neural anterior


ao treinamento de fuso sensorial
(componente 2).

Aps o treinamento, o estmulo discriminativo adquiriu a capacidade


de produzir a resposta desejada (Figura 51), sem que seus componentes individuais
tambm fossem associados (Figura 49 e Figura 50). Portanto, a rede capaz de

operar em uma situao envolvendo um problema de fuso sensorial.

76

Figura 49 - Atividade neural aps


treinamento de fuso sensorial
(componente 1).

c........ O

Figura 50 - Atividade neural aps


treinamento de fuso sensorial
(componente 2).

c........ 1

Figura 51 - Atividade neural aps treinamento de fuso sensorial (ocorrncia


conjunta dos estimulo 1 e 2).
A

importncia

dos

estmulos

componentes

participarem

do

treinamento fundamental. O fato de serem apresentados, sem que jamais sejam

seguidos pela apresentao de um reforador, faz com que o algoritmo de


aprendizagem trabalhe em modo de extino para os mesmos. Dessa forma, as
sinapses utilizadas durante a apresentao individual dos estmulos componentes

so enfraquecidas, restando apenas as sinapses utilizadas quando os dois

77

componentes aparecem juntos, ou seja, quando o estmulo o discriminativo.


Gradualmente esse processo tente a selecionar apenas os caminhos neurais ativos
quando o estmulo discriminativo est presente, e no aqueles ativados pelos seus
componentes.

4.2.9 Experimento 9 -Treinamento Operante em uma Rede com Camadas


de Dimenso 20x20.
Nos experimentos apresentados at o momento, procurou-se manter
a mesma arquitetura. No entanto, como foi destacado durante a apresentao do
modelo, os parmetros que definem a rede neural so suficientemente flexveis e
permitem diversas configuraes possveis. O atual experimento ilustra essa
caracterstica.

Trata-se

de

um treinamento

operante

simples,

como o do

Experimento 3, apenas as dimenses das camadas foram alteradas, passando de


uma grade de 10x10 neurnios para uma de 20x20 neurnios (Figura 52 e Figura
53). Todos os demais parmetros permanecem iguais aos dos experimentos
anteriores.
Para facilitar a visualizao, no ilustrada a separao em grade
dos neurnios, uma vez que a observao das dimenses reduzidas dos neurnios
seria prejudicada pela mesma.

78

Figura 52 - Atividade neural anterior


ao treinamento aperante em rede com
camadas 20x20.

Figura 53 - Atividade neural aps


treinamento aperante em rede com
camadas 20x20.

Especificou-se com neurnios resposta um conjunto de 16 neurnios


no centro do circulo vermelho (Camada 3 da Figura 52 e Figura 53). O treinamento
ocorre normalmente, produzindo ao final um grupo neural localizado na regio da
resposta desejada. Entretanto, nola-se ao redor do grupo que define a resposta a
formao de alguns grupos neurais extras. Isso se deve ao fato de que, apesar das
dimenses das camadas terem sido ampliadas, o mesmo no aconteceu para o
nmero de sinapses e principalmente para o raio de distribuio das mesmas.

Conseqentemente, o tamanho dos grupos neurais e a regio de influncia de cada


um no foi expandida na mesma proporo das camadas. Permitiu-se dessa

maneira a formao de um maior nmero de grupos neurais, uma vez que o grupo
principal no possui influncia sobre toda a rede. Tambm devido ao padro de
conexes o fato do grupo que define a resposta no ter se expandido para
compreender todos

0$

16 neurnios resposta .

4.2.10 Experimento 10 - Anlise da Aprendizagem Operante.


A fim de proporcionar uma anlise mais formal da aprendizagem, a

Figura 54 apresenta um grfico da evoluo de um treinamento aperante tpico

(evolvendo um estmulo e uma resposta apenas).

79

grfico representa a atividade conjunta dos quatro neurnios

resposta especificados. Assim, por exemplo, uma atividade de 100% indica que
todos os quatro neurnios esto disparando e com intensidade mxima.
Existem trs regies distintas destacadas no grfico. A primeira
anterior ao incio da aprendizagem e visa mostrar o comportamento tpico da rede
em nvel operante (regio esquerda do grfico). A segunda regio (parte central do
grfico - Perodo de Aquisio) comea no marco zero e descreve o perodo onde o
estmulo reforador apresentado em conseqncia da emisso da resposta
correta. Nesta fase, nota-se um rpido aumento na atividade dos neurnios resposta
(em torno das primeiras 14 iteraes), o que mostra que a resposta correta est
sendo associada ao estmulo correspondente. Tambm interessante notar que a
atividade sempre demonstra algum nvel de variao. Prximo da iterao n 64 as
variaes produziram uma melhora na resposta (provavelmente ativando um dos
neurnios resposta que ainda no estava respondendo). Tal alterao, que significa
uma melhora, foi rapidamente assimilada pela rede. A ultima regio (parte direita do
grfico - Perodo de Extino) mostra o comportamento da rede aps a remoo do
o estmulo reforador (US). Assim, uma vez que a recompensa pela emisso da
resposta correta deixa de ser apresentada (iterao n 174), a rede tende a extinguir
a associao previamente estabelecida, retornando a um padro de atividade
semelhante ao de nvel operante, o que ocorreu por volta da iterao n 214.

P erlod o de Aq utsio

Figura 54 - Grfico de evoluo de um treinamento operante tpico.

5 CONCLUSES
Sistemas autnomos inteligentes consistem em um avano
tecnolgico que promete revolucionar a sociedade. Seu desenvolvimento ,
no entanto, uma tarefa extremamente complexa. De fato, ainda impossvel
criar sistemas artificiais capazes de operar de forma satisfatria em
ambientes do cotidiano. Acredita-se que dotar um sistema artificial com
caractersticas

autnomas

seja

um

passo

chave

no

processo

de

aperfeioamento dos sistemas atuais.


Ser autnomo no sentido de auto-suficiente e capaz de
operar

em

ambientes

diversificados

requer

do

sistema

constante

aprimoramento e atualizao. Torna-se, portanto, indispensvel a presena


de mecanismos de aprendizagem que possibilitem ao sistema adquirir
conhecimento de forma a aprimorar seu desempenho. A capacidade de
aprendizagem tida assim como fator decisivo para que um sistema seja
verdadeiramente autnomo.
Considera-se que os nicos sistemas plenamente autnomos
so os biolgicos. Assim sendo, consistem em uma fonte segura de
informao e inspirao. Reproduzir as caractersticas de tais sistemas em
modelos artificiais anlogos uma linha de pesquisa interessante e
promissora. Define-se assim o fator plausibilidade biolgica, que motiva
grande parte das idias do trabalho.
Este trabalho prope um modelo de redes neurais de
mltiplas camadas

cujas caractersticas

so

inspiradas

em

modelos

biolgicos. A escolha de um modelo de mltiplas camadas deve-se


principalmente a trs fatores:
1. Para que uma rede de mltiplas camadas tradicional, como
um perceptron, possua a caracterstica de aproximador
universal de funes, necessria a presena da camada
intermediria;
2. Certos problemas, como o de fuso sensorial, parecem
requerer a presena de mltiplas camadas;

81

3. O fator da plausibilidade biolgica conduz a uma configurao de


mltiplas camadas, uma vez que sistemas orgnicos assim o so.

Alm desses fatores, observou-se durante os experimentos que uma


configurao em mltiplas camadas permite que a rede evolua gradualmente para
uma resposta especfica.
Ainda com relao arquitetura, o modelo emprega um modelo de
conexes sinpticas que favorece a formao de grupos neurais (Edelman, 1987).
Para tanto, so utilizados trs tipos de conexes sinpticas: excitatrias intercamadas, laterais inibitrias intra-camada e laterais excitatria intra-camada.
Utiliza-se como modelo de aprendizagem uma abordagem da teoria
da Seleo pelas Conseqncias, sendo, portanto, um modelo de aprendizagem por
reforo. A utilizao de um modelo de aprendizagem por reforo importante uma
vez que permite ao sistema adquirir comportamentos atravs da interao com o
ambiente, sem a necessidade de uma superviso. Alm disso, o fato particular do
modelo de aprendizagem ser baseado na teoria da Seleo pelas Conseqncias
promove caractersticas interessantes e motivadoras, entre elas:

1. O

modelo

perfeitamente

condizente

com

fator

da

plausibilidade biolgica;
2. O princpio de aprendizagem por reforo;
3. Torna-se possvel avaliar as capacidades de aprendizagem do
modelo segundo os fenmenos comportamentais descritos na
teoria da Seleo pelas Conseqncias;
4. A

interao

com

ambiente

de

um

sistema

com

tais

caractersticas acontece de forma natural, visto que a teoria


descreve e incorpora fatores do ambiente cotidiano. Por exemplo,
considere o exemplo de um estmulo reforado. Este algo
concreto existente no ambiente, no sendo necessria a criao
de mecanismos adicionais que promovam sua integrao com o
sistema artificial. Basta existir um sensor adequado que capture o
estmulo.

82

Para o uso conjunto das teorias de Redes Neurais Artificiais e da


Seleo pelas Conseqncias, necessrio integrar as duas de alguma forma. Para
tanto, se recorre neurobiologia, em especial ao trabalho de Donahoe, Burgos e
Palmer (1993) e Donahoe e Palmer (1994).

Resultados e Contribuies

Os resultados obtidos em simulao demonstram os mecanismos de


funcionamento da rede, incluindo a forma de propagao da atividade neural ao
longo das camadas, a importncia das conexes laterais inibitrias e a formao
dinmica de grupos neurais.
Fica claro que a existncia de conexes laterais inibitrias
fundamental para a correta modelagem de respostas em nvel operante. Estas por
sua vez formam a base do princpio de aprendizagem empregado.
Alm de modelarem as respostas em nvel operante, as conexes
laterais inibitrias, juntamente com as conexes excitatrias intra-camadas, so
responsveis pela formao dinmica de grupos neurais que ocorre durante a
aprendizagem. So os grupos neurais (Edelman, 1987) que codificam as respostas
emitidas pela rede, sendo que seu modo de funcionamento, por assim dizer, dita as
regras de operao da rede.
Os

resultados

obtidos

tambm

incluem

experimentos

de

aprendizagem, onde foi possvel reproduzir diversos fenmenos comportamentais de


que trata o modelo de Seleo pelas Conseqncias. Tais experimentos incluem a
aquisio de comportamento respondente, extino de comportamento respondente,
aquisio de comportamento operante, extino de comportamento operante,
capacidade de generalizao da rede, habilidade de controle de intensidade da
resposta, capacidade de controle de mltiplas respostas e capacidade de fuso
sensorial. Por fim foi apresentada uma anlise grfica da evoluo de um
treinamento operante tpico.
Os experimentos de aquisio e extino de comportamentos
respondentes e operantes mostram as capacidades de convergncia do modelo,
reproduzindo tais fenmenos comportamentais.
O experimento de generalizao demonstra que o modelo exibe de
forma satisfatria a capacidade das redes neurais de generalizar estmulos,

83

classificando estmulos desconhecidos segundo sua similaridade com estmulos


conhecidos.
No experimento de controle de intensidade de resposta, a rede
demonstra a capacidade de controlar o nvel de intensidade de emisso da resposta.
Como destacado, tal habilidade pode ser interessante para aplicaes como o
controle de velocidade em robs.
A fim de demonstrar que a rede capaz de associar estmulos
distintos a respostas tambm distintas, realizou-se um experimento de controle de
mltiplas respostas, onde o objetivo o treinamento simultneo de duas relaes
distintas (estmulo 1 - resposta 1 e estmulo 2 - resposta 2). Assim como esperado,
a rede foi capaz de aprender as devidas relaes sem que uma associao
interferisse na outra.
Um outro fenmeno interessante reproduzido em experimento a
fuso sensorial. Segundo a perspectiva desse problema, a rede capaz de associar
diferentes estmulos e capaz de distinguir situaes nas quais os estmulos
aparecem individualmente das situaes em que eles aparecem em conjunto,
emitindo a resposta adequada para cada situao.
As contribuies do trabalho no so limitadas aos fenmenos
reproduzidos em experimentos.
Existem

poucos

modelos

de

redes

multi-camadas

com

aprendizagem por reforo que se prestam a problemas de controle. Menos ainda


quando a aprendizagem por reforo do tipo clssico.
O modelo apresenta uma soluo para o problema da atribuio de
crdito utilizando aprendizagem por reforo. Esse problema trata a dificuldade que
existe, em uma rede de mltiplas camadas, em atribuir responsabilidade a neurnios
de camadas intermedirias. Pode-se argumentar que a atribuio de crdito consiste
no problema fundamental que uma rede de mltiplas camadas deve solucionar,
sendo imprescindvel para a validade do modelo. Uma soluo que utiliza
aprendizagem por reforo ainda mais interessante em vista de ser pouco comum.

84

Trabalhos Futuros

A natureza multidisciplinar do trabalho abre um leque bastante


amplo de possibilidades de trabalhos futuros. Praticamente todos os aspectos do
trabalho podem ser aprimorados.
Alm de alguns aprimoramentos menores, o prximo passo lgico
implementar os mecanismos que possibilitam o desenvolvimento de reforadores
adquiridos, com implicaes cruciais para as capacidades comportamentais do
sistema. Tais mecanismos j foram descritos por Donahoe e Palmer (1994), no
entanto, no foram implementados de forma satisfatria.
Um ponto importante solucionar uma dificuldade quanto
aprendizagem das conexes laterais, tanto inibitrias quanto excitatrias. Durante os
experimentos realizados no foi permitido a estes tipos de conexes alterarem o
valor do peso

sinptico

associado.

Decidiu-se

assim,

pois

problemas

de

aprendizagem que impedem a correta atualizao desses tipos de sinapses estavam


atrasando o projeto demasiadamente.
Uma importante contribuio futura possvel atravs de um
desenvolvimento formal de teorias que descrevam o processo de convergncia da
rede.
Uma anlise interessante pode ser feita quanto capacidade de
memria do modelo. Respondendo perguntas tais como: quantas relaes distintas
estmulo-resposta rede capaz de aprender ao mesmo tempo?
Outra etapa prevista o desenvolvimento de uma simulao de
robs e ambientes, utilizando o modelo proposto como controlador do rob. Esperase que em uma simulao desse tipo o modelo seja capaz de solucionar questes
como navegao autnoma, comportamento coletivo e at mesmo o uso de
ferramentas. O projeto do simulador est bastante avanado, sendo que um
prottipo chegou a ser implementado.
Com relao modelagem neural, existem vrios pontos para o
trabalho evoluir. Por exemplo, o modelo dos neurnios utilizado simplificado, assim
como visto na maioria de trabalho com redes neurais artificiais. possvel, no
entanto, realizar uma simulao muito mais precisa utilizando-se um modelo que
represente, por exemplo, canais independentes de ons, fluxo de molculas, etc.
Este tipo de modelo mais utilizado por neurocientistas para estudos na rea.

85

Nessa mesma linha, existem trabalhos que modelam redes auto-organizadas com
comportamento oscilatorio, algo que provavelmente possui implicaes para uma
representao de comportamentos de nvel operante.

REFERNCIAS BIBLIOGRFICAS
Brooks, R., A., Elephants Don't Play Chess, Robotics and Autonomous
Systems, vol. 6, pp. 3-15, 1990.

Baum, M. W., Compreender o Behaviorismo: Cincia, Comportamento e


Cultura, Editora Artes Mdicas Sul, Porto Alegre, 1999.

Brooks, R., A., Intelligence Without Reason, Proceedings of International


Joint Conference on Artificial Intelligence, pp. 569-595, Sydney, Australia,
agosto, 1991

de Castro,

L. e Timmis,

J.; Artificial

Immune

Systems: A New

Computational Intelligence Approach, Springer Verlag, 2002.

Donahoe, J., W., Burgos J. E., Palmer D. C., A Selectionist Approach to


Reinforcement, Journal of the Experimental Analysis of Behavior, n 60, pp.
17-40, 1993.

Donahoe, J., W. e Palmer, D., C., Learning and Complex Behavior, Allyn
and Bacon, U.S.A, 1994.

Dorigo, M., Introduction to the Special Issue on Learning Autonomous


Robots,

IEE Transactions

on Systems,

Man and

Cybernetics-PartB:

Cybernetics, vol. 26, n 3, 1996.

Edelman,

G., Neural Darwinism: The Theory of Neuronal Group

Selection, Basic Books, EUA, 1987.

Bonabeau, E., Dorigo, M., e Theraulaz, G., From Natural to Artificial Swarm
Intelligence, Oxford University Press, 1999.

Fernandes, F., Luft, C.P., Guimares, F.M., Dicionrio Brasileiro Globo, 18.

87

ed., So Paulo, Globo, 1991.

Figueiredo, M., F., Redes Neurais Nebulosas Aplicadas em Problemas de


Modelagem e Controle Autnomo, dissertao de doutorado, Faculdade de
Engenharia Eltrica e de Computao, Universidade Estadual de Campinas,
Campinas, 1997.

Figueiredo, M., F., Navegao Autnoma de Robs, Livro da VII ERI


(Escola de Informtica da SBC - Regional Sul), pp.74-106, maio, 1999.

Haykin, S., Redes Neurais - Princpios e Prtica, Bookman, Porto Alegre,


2001.

Hopfield, J.J., Neural Networks and Physical Systems with Emergent


Collective Computational Abilities, Proceedings of the National Academy of
Sciences, USA, vol.79, pp. 2554-2558, 1982.

Kohonen, T., Self-Organized Formation of Topologically Correct Feature


Maps, Biological Cybernetics, vol.43, pp.59-69, 1982.

Krose, B., J., A., Learning From Delayed Rewards,

Robotics and

Autonomous Systems, nQ 15, pp. 233-235, 1995.

Lanzi,

P.,

L., Learning Classifier

Systems

From Foundations

to

Applications, Springer-Verlag, 2000.

Millenson, J., R., Princpios da Anlise do Comportamento, Coordenada,


Brasil, 1967.

Minsky, M L., S.A. Papert, Perceptrons, Cambridge, MA: MIT Press, 1969.

Penrose, R., A Nova Mente do Rei, Editora Campus, Rio de Janeiro, 1997.

Ribeiro, C., Reinforcement Learning Agents, Artificial Intelligence Review,

88
5

n 17, pp. 223-250, 2002.

Rolls, E. T. e Treves A., Neural Networks and Brain Function, Oxford


University Press, Oxford, Inglaterra, 1998.

Rolls, E., T., The Brain and Emotion, Oxford University Press", Oxford,
Inglaterra, 1999.

Rumelhart, D.E., and J.L. McClelland, Parallel Distributed Processing, MIT


Press, 1986.

Russell, S., J. e Norvig, P., Artificial Intelligence - A modem Approach,


Prentice Hall, 1995.

Skinner, B. F., Cincia e Comportamento Humano, 5.ed., Editora Martins


Fontes, So Paulo, 1981.

Steels, L., When Are Robots Intelligent Autonomous Agents?, Journal of


Robotics and Autonomous Systems, nQ 15, pp. 3-9, 1995.

Sutton, R. e Barto, G., Reinforcement Learning: an Introduction, MIT


Press, 1998.

Vapnik, V., The Nature of Statistical Learning Theory, Springer, New York,
1999.

Verschure, P.,F.,M.,J., Formal Minds and Biological Brains, IEEE Expert,


pp. 66-75, outubro, 1993.
Verschure,

P.,F.,M.,J.,

Minds, brains, and robots:

Explorations in

distributed adaptive control, Proceedings of the Second

Brazilian-

International Conference on Cognitive Science, Universidade Estadual do


Norte Fluminense, Campos, Brazil, 1996.

ANEXO

90

Anexo I- Ferramenta de Simulao


A fim de testar as capacidades do modelo foi desenvolvido um
simulador para a rede neural sendo que a linguagem de programao utilizada
C++.
O simulador consiste basicamente de trs (3) telas. A tela principal
(Figura 55) agrupa os principais controles necessrios durante a simulao
(localizados na parte central da tela). Entre eles os que permitem habilitar e
desabilitar a aprendizagem, o uso de estmulos definidos na configurao do
ambiente ou estmulos especificados pelo usurio (que os especifica clicando na
figura da Camada 0 o que permite "ligar" e "desligar1' neurnios especficos), definir
quais neurnios da ultima camada sero respondentes, habilitar o uso independente
dos trs tipos de conexes sinpticas existentes, iniciar e parar a simulao,
execut-la passo a passo e por fim reconectar a rede (sorteando novamente as
conexes).
Alm dos controles da simulao a tela principal tambm fornece
uma interface de visualizao da atividade nas vrias camadas da rede (lado direito
da tela), do padro de sinapses de cada neurnios (cuja visualizao feita
clicando-se em um neurnio qualquer da rede) inclusive permitindo visualizar o peso
de cada sinapse (posio inferior esquerda da tela), e tambm um histrico da
atividade recente de alguns neurnios especficos (entre eles o US) bem como de
sinais que influenciam a rede, entre eles o sinal de reforo d(T) = US (posio
esquerda superior da tela).
Em outra tela (Figura 56) possvel editar os principais parmetros
da rede neural para cada camada da mesma, entre eles: o nmero de conexes
sinpticas de cada tipo, seu raio de conexes, os parmetros das equaes de
aprendizagem e raciocnio e etc. Entretanto existem alguns dos parmetros descritos
no modelo que no podem ser definidos em tempo de execuo, entre eles, o
intervalo inicial para os valores dos pesos sinpticos.

'"
e.~

Rede_~

_.

Opc1le,- - - - - - - ---,
HI~ ~

VT"

JlJ

r
rv

Utilizai E.UJnUto. A.bientais


AbiIit. Aptendiz~

Selva- DebI..g emArq.,ivo

-Abitar Conex&I:
USo

(t) hip:

P EldalriM
r.; IrOi:6rias

PasSO.!!lPano

" rjji~

ItJw

INICIAR

Aeconect..

Selar t~ do NeuOOio::
~(t)...ta:

I,,,....,,, O!J

II,.. J

Infonnaes Neuitis- - - - - ConeIl&!S ExtalriM

ConeIlOeS Inbtri"s

COopel'lIIivas

.,

~~

C~S

~ do v1cl'

siMPtico

Ati ..... Neural: 0,04592OB1

Figura 55 - Tela principal do simulador.

92

-IDIx

[_ Parmetros da Rede ?
Camada 1 Camada 2 Camada 3 Camada 4 Camada 5
Taxa de Decaimento: 10,80000

0,80000

0,80000

0,80000

OK

0.80000
Cancela

0,30000

0,30000

0,30000

0,30000

0,10000

0,10000

0,10000

0,10000

Limiai Sigmide:
Inclinao Sigmide: 0,10000
Taxa Aquisio E.: 0,5
Taxa Extino E.: 0.10000

0,5
0,10000

Taxa Aquisio I.: 0,5


Taxa Extino I.: 0,10000

0,5
0,10000

0,5
0,10000
0,5
0,10000

0,5
0,10000
0,5
0,10000

0,5
0,10000
0,5
0,10000

Raio Conexo Sinptica E.: 2,5

2,5

2,5

2,5

2,5

Raio Conexo Sinptica I.:

|1,5

1,5

1.5

1,5

Numero Sinapses E.: 10

10

10

10

10

Numero Sinapses 1.: 30

30

30

30

30

Raio Conexo Sinptica C.: 1.5

Numero Sinapses C.: 5

|5

|5

|5

Figura 56 - Tela do simulador para ajuste de parmetros da rede neural.


A terceira tela do simulador utilizada para definir as configuraes
do ambiente. A principal funo realizada aqui especificar o conjunto de estmulos
que sero apresentados para a rede durante o treinamento bem como o conjunto de
respostas desejadas que o ambiente deve monitorar. Alm disso, pode-se
especificar os estmulos reforadores associados a cada estmulo ou respostas, o
tempo de durao de cada estmulo, quanto tempo de atraso deve-se esperar para
apresentar o US aps a rede ter emitido uma resposta desejada e qual a intensidade
da estimulao de cada neurnio.

iConfiguraes do AmbienteAmbiente:
Atxir

Numero de Estmulos: [3

Salvar

Numero de Respostas: [
Tamanho das Trials: JlO
EstmulosExibindo:
<* jstrmjtoi
r Respostas

Estmulo: 0

Navegai
Indice: f "
,
-

0 0 0 0 0 0 0 0

Atociar Resposta

0 o

0 0

0 0

o o

o o

Resposta Associada:jo

Propriedades do Estmulo:

0 0

o o

o o

Tempo de Durao: |0

Associai IIS
Valor US:

0 0

Durao US:
Incio US: [~

Figura 57 - Tela do simulador para configurar o ambiente de treinamento.