TESE Hansenclever de França Bassani - Sobrextensao

Modelos Neurais Modulares para Aquisio de
Linguagem Natural
Por
Hansenclever de Frana Bassani

Tese de Doutorado
Universidade Federal de Pernambuco

posgraduacao@cin.ufpe.br
www.cin.ufpe.br/~posgraduacao
Recife, 2014
Universidade Federal de Pernambuco

Centro de Informtica
Ps-graduao em Cincia da Computao
Hansenclever de Frana Bassani
Modelos Neurais Modulares para Aquisio de Linguagem

Natural
Trabalho apresentado ao Programa de Ps-graduao em

Cincia da Computao do Centro de Informtica da Universidade Federal de Pernambuco como requisito parcial para
obteno do grau de Doutor em Cincia da Computao.
Orientador: Aluizio Fausto Ribeiro Arajo
Recife, 2014
Catalogao na fonte
Bibliotecrio Joana DArc L. Salvador, CRB 4-572
Bassani, Hansenclever de Frana.

Modelos neurais modulares para aquisio de
linguagem natural / Hansenclever de Frana Bassani.
Recife: O Autor, 2014.
236 p.: fig., tab.
Orientador: Aluizio Fausto Ribeiro Arajo.
Tese (Doutorado) - Universidade Federal de
Pernambuco. CIN. Cincia da Computao, 2014.
Inclui referncias.
1. Inteligncia artificial. 2. Redes neurais
(computao). 3. Processamento de linguagem natural
(computao). I. Arajo, Aluizio Fausto Ribeiro
(orientador). II. Ttulo.
006.3
(22. ed.)
MEI 2014-65
Tese de Doutorado apresentada por Hansenclever de Frana Bassani Ps

Graduao em Cincia da Computao do Centro de Informtica da Universidade
Federal de Pernambuco, sob o ttulo Modelos Neurais Modulares para Aquisio
de Linguagem Natural orientada pelo Prof. Aluizio Fausto Ribeiro Araujo e
aprovada pela Banca Examinadora formada pelos professores:
__________________________________________
Prof. George Darmiton da Cunha Cavalcanti
Centro de Informtica / UFPE
___________________________________________
Prof. Germano Crispim Vasconcelos
Centro de Informtica / UFPE
___________________________________________
Prof. Jos Fernando Fontanari
Departamento de Fsica e Informtica / USP
___________________________________________
Prof. Antnio de Pdua Braga
Departamento de Engenharia Eletrnica / UFMG
____________________________________________
Prof. Fernando Buarque de Lima Neto
Escola Politcnica de Pernambuco / UPE
Visto e permitida a impresso.

Recife, 10 de maro de 2014.
___________________________________________________
Profa. Edna Natividade da Silva Barros
Coordenadora da Ps-Graduao em Cincia da Computao do
Centro de Informtica da Universidade Federal de Pernambuco.
Dedico esta Tese minha av, Maria Diva de Frana

Bassani, que com amor e carinho desmedidos sempre
acreditou em mim, e financiou grande parte da minha
formao, mas, infelizmente, no testemunhar a
concretizao do sonho de me tornar Doutor em Cincia da
Computao.
Agradecimentos
Agradeo a minha me, Regina, minha irm, Ursula e meus tios e primos pelo amor e carinho a
mim dedicados, por compreenderem a necessidade da minha ausncia durante os longos anos
de ps-graduao e por sempre me apoiarem e incentivarem a alcanar este objetivo.
A minha amada companheira, Flvia, pela incrvel dedicao, apoio e incentivo a mim
investidos, especialmente nas incontveis horas por ela despendidas em discusses, contribuies
e revises, sem as quais este documento no teria o mesmo nvel de qualidade.
Ao meu orientador, Aluzio Arajo, pelo entusiasmo e dedicao com que me orientou
durante tantos anos.
Aos amigos Andr, Ccero, Daniel, Diego, Julio, Orivaldo, Renata e demais colegas do
Centro de Informtica (CIn), pela amizade, pelas sugestes e contribuies e pelas discusses
inspiradoras levadas nos intervalos do expediente.
Agradeo tambm aos professores e demais funcionrios do CIn, pela ateno e gentileza
com que constroem, enriquecem e mantm o nosso prezado ambiente de trabalho.
Ao Conselho Nacional de Desenvolvimento Cientfico e Tecnolgico (CNPq), pelo auxlio
financeiro, fundamental para o desenvolvimento desta Tese.
Dedico a estes e demais, que por ventura no tenham sido mencionados, os mais sinceros
agradecimentos.
...Pensamento computao, procuro demonstrar, mas isso no significa

que o computador uma boa metfora para a mente. A mente um conjunto
de mdulos, mas estes no so cubculos encapsulados ou fatias
circunscritas da superfcie do crebro. A organizao de nossos mdulos
mentais provm de nosso programa gentico, mas isso no quer dizer que
existe um gene para cada caracterstica ou que o aprendizado menos
importante do que julgvamos. A mente uma adaptao desenvolvida pela
seleo natural, mas isso no significa que tudo o que pensamos, sentimos e
fazemos biologicamente adaptativo. Evolumos de grandes primatas, mas
isso no quer dizer que nossa mente igual deles. E o objetivo supremo
da seleo natural propagar genes, mas isso no quer dizer que o supremo
objetivo das pessoas propagar genes.
STEVEN PINKER (Como a Mente Funciona)
Resumo
A produo e utilizao de linguagem natural uma das mais marcantes habilidades humanas.
Ela permite trocar ideias, conhecimento e emoes de maneira eficaz. Desvendar os mecanismos
que tornam seres humanos capazes de lidar com linguagem, pode trazer avanos em inmeras
reas do conhecimento, possibilitando ainda aplicaes prticas que melhorem a interao
humano-computador. Porm, apesar dos esforos da comunidade cientfica, a maneira como os
seres humanos processam linguagem ainda pouco compreendida.
A abordagem proposta pela robtica desenvolvimentista sugere que a linguagem natural
pode ser aprendida por agentes incorporados atravs de suas interaes com o ambiente e com
seus instrutores. Estas interaes poderiam proporcionar ao agente a possibilidade de aprender
continuamente sobre a linguagem, associando estmulos do ambiente com palavras.
Esta Tese apresenta uma arquitetura modular de aquisio de linguagem natural por agentes
incorporados. No centro desta arquitetura encontra-se um conjunto de mdulos neurais com
aprendizagem no-supervisionada, que realiza funes essenciais para a aquisio de linguagem
natural, tais como a aprendizagem de conceitos, contextos, palavras e das associaes entre
esses elementos. Estes mdulos foram propostos consolidando evidncias de trs reas do
conhecimento e validados atravs da reproduo de padres de aprendizagem reportados em trs
importantes estudos realizados com pessoas. O modelo proposto pode ser aplicado na proposio
e teste de novas hipteses e paradigmas experimentais, contribuindo para compreenso dos
mecanismos envolvidos na aprendizagem, e pode servir como base para o desenvolvimento de
agentes incorporados que aprendem linguagem natural.
Palavras chave: agentes incorporados; aquisio de linguagem natural; modelos neurais modulares; mapas auto-organizveis;
Abstract
The production and use of natural language is one of the most remarkable human skills. It
allows us to exchange effectively ideas, knowledge and emotions. Unravel the mechanisms
that make humans able to handle language, may bring advances in several areas of knowledge,
but also allowing practical applications that improve human-computer interaction. However,
despite the efforts of the scientific community, the way humans process language is still poorly
understood.
The approach proposed by developmental robotics, suggests that natural language can be
learned by embodied agents through their interactions with the environment and their instructors.
These interactions could provide the agent the ability to continually learn about language by
associating environmental stimuli with words.
This thesis presents a modular architecture for the acquisition of natural language by
embodied agents. At the center of this architecture is a set of neural modules with unsupervised
learning, which performs essential functions for the acquisition of natural language, such
learning concepts, contexts, words and associations between these elements. These modules
were proposed by consolidating evidence from three areas of knowledge and validated by
reproducing learning patterns reported in three important studies with humans. The proposed
model can be applied in the proposition and test of new hypotheses and experimental paradigms,
contributing to the understanding of the mechanisms involved in learning, and can serve as a
basis for the development of embodied agents that learn natural language.
Keywords: embodied agents; natural language acquisition; modular neural models, selforganizing maps;
Lista de Figuras
Figura 2.1 Vista superior das vias visuais humanas . . . . . . . . . . . . . . . . . . 47

Figura 2.2 Preferncias por caractersticas no crtex visual do macaco . . . . . . . . 49
Figura 2.3 Anatomia do ouvido humano . . . . . . . . . . . . . . . . . . . . . . . . 51
Figura 2.4 Regies do crebro relacionadas com a linguagem . . . . . . . . . . . . 54
Figura 2.5 Duas representaes estruturais para a frase Eu vi o incndio do prdio
62
Figura 2.6 Fluxo de informaes no processamento de linguagem natural . . . . . . 63

Figura 3.1 Arquitetura de um sistema de execuo de comandos em linguagem natural 76
Figura 3.2 Arquitetura do modelo proposto . . . . . . . . . . . . . . . . . . . . . . 77
Figura 4.1 Ambiente simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Figura 4.2 Propriedades das vogais de acordo com a AIF . . . . . . . . . . . . . . . 93
Figura 4.3 Propriedades das consoantes de acordo com a AIF . . . . . . . . . . . . 94
Figura 4.4 Exemplo de trs nveis em um espao de escalas Gaussiano. . . . . . . . 98
Figura 4.5 Exemplo de aplicao do detector Hessiano afim . . . . . . . . . . . . . 99
Figura 4.6 Ilustrao de como o descritor SIFT calculado . . . . . . . . . . . . . . 100
Figura 5.1 Categorizao no-supervisionada de objetos atravs da abordagem BoF 107
Figura 5.2 Estrutura bsica de um SOM . . . . . . . . . . . . . . . . . . . . . . . . 108
Figura 5.3 Ilustrao das etapas do reconhecimento de objetos . . . . . . . . . . . . 111
Figura 5.4 Ilustrao das etapas do reconhecimento de palavras . . . . . . . . . . . 113
Figura 5.5 Ilustrao da representao composta . . . . . . . . . . . . . . . . . . . 121
Figura 6.1 Arquitetura do modelo neural modular proposto por Arajo et al. (2010). 127
Figura 6.2 Estrutura bsica do ART2. . . . . . . . . . . . . . . . . . . . . . . . . . 130
Figura 6.3 Estrutura do ART2 com Contexto . . . . . . . . . . . . . . . . . . . . . 134
Figura 6.4 Ilustrao das etapas de processamento executadas nos experimentos de
contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
Figura 6.5 ndice do nodo vencedor na camada F2 para cada estmulo apresentado . 139
Figura 6.6 Similaridade entre o contexto recuperado aps a apresentao de cada
estmulo e o contexto mdio dos estmulos de uma mesma lista. . . . . . 141
Figura 7.1 Conjunto de dados simulado com trs dimenses parcialmente relevantes 146
Figura 7.2 CE em funo do percentual de rudo nos conjuntos de dados. . . . . . . 168
Figura 7.3 CE em funo do nmero de dimenses no conjunto de dados. . . . . . . 169
Figura 7.4 CE em funo do nmero de amostras no conjunto de dados. . . . . . . . 169
Figura 7.5 CE em funo do percentual de rudo no conjunto de dados. . . . . . . . 170
Figura 7.6 CE em funo do nmero de dimenses contendo apenas rudo branco. . 170
Figura 7.7 Comparao entre os agrupamentos formados com o SOM e DSSOM . . 171
Figura 7.8 Comparativo entre as vizinhanas encontradas pelo DSSOM e LARFDSSOM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Figura 7.9 Projeo em duas dimenses de um conjunto de dados simulado com 20
dimenses, 70% de rudo e 10 grupos . . . . . . . . . . . . . . . . . . .
Figura 7.10 Mapa perceptivo formado pelo agente aps a explorao do ambiente . .
Figura 7.11 Padres de ativao formados pelo mapa, ao fornecer como entrada as
percepes dos objetos indicados abaixo de cada figura. . . . . . . . . .
Figura 7.12 Padres de ativao formados pelo mapa ao fornecer como entrada as
percepes de clulas vazias indicadas abaixo de cada figura. . . . . . . .
Figura 7.13 Regies de reconhecimento de forma, cor e localizao. . . . . . . . . .
Figura 8.1 Ilustrao de um ensaio na condio 4 x 4 . . . . . . . . . . . . . . . . .
Figura 8.2 Ilustrao das etapas de processamento executadas nos experimentos de
associao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Figura 8.3 Resultados de Yu e Smith (2007) em comparao com os resultados das
simulaes com o modelo . . . . . . . . . . . . . . . . . . . . . . . . .
Figura 8.4 Estrutura do Experimento 2 . . . . . . . . . . . . . . . . . . . . . . . .
Figura 8.5 Resultados de Yurovsky et al. (2013) em comparao com os resultados
das simulaes com o modelo no Experimento 2 . . . . . . . . . . . . .
das simulaes com o modelo no Experimento 3 . . . . . . . . . . . . .
das simulaes com o modelo no Experimento 4a . . . . . . . . . . . . .
das simulaes com o modelo no Experimento 4b . . . . . . . . . . . . .
Figura 8.11 Resultados de Trueswell et al. (2013) em comparao com os resultados
das simulaes com o modelo no Experimento 5a . . . . . . . . . . . . .
Figura 8.12 Resultados de Trueswell et al. (2013) em comparao com os resultados
das simulaes com o modelo no Experimento 5b . . . . . . . . . . . . .
Figura 8.13 Nmero mdio de nodos criados no Mdulo de Associao ao longo dos
ensaios de cada ciclo do Experimento 5 . . . . . . . . . . . . . . . . . .
Figura 8.14 Taxas de acerto do referente relativo ao contexto correto para cada uma
das condies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
172
173
176
177
178
178
185
187
189
191
193
194
196
197
197
199
202
203
203
207
Lista de Tabelas
Tabela 3.1 Relacionamento entre as premissas e suposies utilizadas para a proposio de cada mdulo, com as funes desempenhadas e as regies do
crebro envolvidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tabela 4.1 Correspondncia entre os smbolos AFI, smbolos do Arpabet e a respectiva representao numrica proposta. . . . . . . . . . . . . . . . . . . .
Tabela 4.2 Exemplos de entradas no dicionrio de pronncia da Universidade Carnegie Mellon. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tabela 4.3 Propriedades dos fonemas e representao numrica proposta para as
vogais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tabela 4.4 Propriedades dos fonemas e representao numrica proposta para as
consoantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tabela 4.5 Mapeamento das cores em percepes. . . . . . . . . . . . . . . . . . .
Tabela 4.6 Mapeamento das formas em percepes. . . . . . . . . . . . . . . . . .
Tabela 5.1 Exemplo de dicionrio contendo todas as palavras das frases A e B. . . .
Tabela 5.2 Nome das 20 categorias selecionadas por Tuytelaars et al. (2010) . . . .
Tabela 5.3 Parmetros utilizados em ambos os SOMs nas simulaes da representao e reconhecimento de objetos. . . . . . . . . . . . . . . . . . . . . .
Tabela 5.4 Comparativo da entropia condicional obtida com os resultados apresentados por Tuytelaars et al. (2010) e Kinnunen et al. (2012). . . . . . . . . .
Tabela 5.5 Listas de palavras com morfemas semelhantes utilizadas para avaliar a
representao de palavras proposta . . . . . . . . . . . . . . . . . . . . .
Tabela 5.6 Parmetros utilizados em ambos os SOMs nas simulaes da representao de palavras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tabela 5.7 Resultado do agrupamento de palavras com o SOM. . . . . . . . . . . .
Tabela 5.8 Parmetros utilizados em cada SOM nas simulaes da representao de
palavras e objetos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tabela 6.1 Parmetros das redes utilizados nos experimentos de contexto. . . . . . .
Tabela 7.1 Intervalo paramtrico para o SOM. . . . . . . . . . . . . . . . . . . . .
Tabela 7.2 Intervalo paramtrico para o SOM-KANGAS. . . . . . . . . . . . . . .
Tabela 7.3 Intervalo paramtrico para o LARFSOM. . . . . . . . . . . . . . . . . .
Tabela 7.4 Intervalo paramtrico para o DSSOM. . . . . . . . . . . . . . . . . . . .
Tabela 7.5 Intervalo paramtrico para o LARFDSSOM. . . . . . . . . . . . . . . .
Tabela 7.6 Valores de CE para bases de dados reais . . . . . . . . . . . . . . . . . .
Tabela 8.1 Parmetros dos modelos obtidos aps o ajuste. . . . . . . . . . . . . . .
79
92
93
94
95
96
96
104
115
116
116
118
119
120
122
140
166
166
167
167
167
174
183
Lista de Acrnimos
AFI
Alfabeto Fontico Internacional
AIF
Associao Internacional de Fontica
ALN
Aquisio de Linguagem Natural
ART
Adaptive Ressonant Theory
BMU
Best Matching Unity
BoF
Bag-of-Features
BoW
Bag-of-Words
CE
Clustering Error
CLN
Compreenso de Linguagem Natural
CVO
Categorizao Visual de Objetos
DMA
Desvio Mdio Absoluto
DSSOM Dimension Selective Self-Organizing Map

GCS
Growing Cell Structures
GNG
Growing Neural Gas
GPCA Generalized Principal Components Analysis

GWR Growing When Required
LARFDSSOM Local Adaptive Receptive Field Dimension Selective Self-Organizing Map
LARFSOM Local Adaptive Receptive Field Self-Organizing Map
LGN
Ncleo Genicular Lateral
LHS
Lantin Hypercube Sampling
MT
Mdia Temporal
NMF
Neural Modeling Fields
PART Projective Adaptive Ressonant Theory
PARTCAT Projective Adaptive Ressonant Theory Categorical

PLN
Processamento de Linguagem Natural
pSTG Giro Posterior Superior Temporal

SIFT
Scale-Invariant Feature Transform
SOM
Self-Organizing Map
SSC
Sparse Subspace Clustering
Sumrio
1 Introduo
27
2 Fundamentao Terica
35
2.1
2.2
Contribuies da Psicolingustica . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1.1
Termos e Definies . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1.2
Caractersticas da Aprendizagem de Palavras em Crianas . . . . . . . 38
2.1.3
Aprendizagem Associativa, por Reforo e as Dificuldades na Modelagem da Aprendizagem de Palavras . . . . . . . . . . . . . . . . . . . . 40
2.1.4
Habilidades Necessrias para Aprender Palavras . . . . . . . . . . . . . 42
2.1.5
Conceitos e Categorizaes . . . . . . . . . . . . . . . . . . . . . . . . 42
2.1.6
Papel dos Rtulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.1.7
Aprendizagem Cross-Situacional . . . . . . . . . . . . . . . . . . . . . 44
2.1.8
Mapeamento Rpido . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.1.9
Teoria da Mente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Contribuies da Neurolingustica . . . . . . . . . . . . . . . . . . . . . . . . 46
2.2.1
Organizao do Sistema Visual . . . . . . . . . . . . . . . . . . . . . . 46

Crtex Visual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Memria Visual e Espacial . . . . . . . . . . . . . . . . . . . . . . . . 50
2.2.2
Organizao do Sistema Auditivo . . . . . . . . . . . . . . . . . . . . 51

Crtex Auditivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.2.3
Estruturas Cerebrais de Processamento da Linguagem . . . . . . . . . . 53

Reconhecimento e Produo de Linguagem . . . . . . . . . . . . . . . 53
Compreenso da Sintaxe . . . . . . . . . . . . . . . . . . . . . . . . . 56
Prosdia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Sistema Espelho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.3
Contribuies da Lingustica Computacional . . . . . . . . . . . . . . . . . . . 58

2.3.1
Avaliao de Sistemas de Compreenso de Linguagem Natural . . . . . 58
2.3.2
Diferentes Nveis de Anlise da Linguagem . . . . . . . . . . . . . . . 59
2.3.3
Representao e Compreenso . . . . . . . . . . . . . . . . . . . . . . 61
Forma Lgica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Representao do Significado Final . . . . . . . . . . . . . . . . . . . 62
2.3.4
2.4
Organizao dos Sistemas de Processamento de Linguagem Natural . . 62
Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3 Mdulos Neurais para Aprendizagem de Linguagem Natural

3.1
67
Formalizao do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.1.1
Agente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Entradas e Sadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Percepes do Agente . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.1.2
Ambiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Instrutor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.1.3
Subproblemas de Aprendizagem para o Agente . . . . . . . . . . . . . 69

A1 - Aprendizagem do Ambiente . . . . . . . . . . . . . . . . . . . . . 70
A2 - Aprendizagem da Linguagem Natural . . . . . . . . . . . . . . . 71
A3 - Aprendizagem do Controle dos Atuadores . . . . . . . . . . . . . 72
A4 - Aprendizagem do Contexto . . . . . . . . . . . . . . . . . . . . . 72
A5 - Aprendizagem das Associaes . . . . . . . . . . . . . . . . . . . 73
A6 - Interpretao das Intenes do Instrutor . . . . . . . . . . . . . . 73
3.2
3.3
Modelo Proposto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.2.1
Paradigma de Modelagem Adotado . . . . . . . . . . . . . . . . . . . 74
3.2.2
Premissas e Suposies . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.2.3
Viso Geral do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.2.4
Fluxo de Informaes no Modelo Proposto . . . . . . . . . . . . . . . 79
3.2.5
Exemplo Hipottico do Funcionamento do Modelo Proposto . . . . . . 81
Escopo do Trabalho e Validao do Modelo . . . . . . . . . . . . . . . . . . . 83
4 Mdulo I - Mapeamento Sensrio-Perceptivo
85
4.1
Modelos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.2
Ambiente Simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.3
Representao das Percepes Auditivas . . . . . . . . . . . . . . . . . . . . . 90
4.4
4.5
4.3.1
Representao Fontica . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.3.2
Representao Numrica . . . . . . . . . . . . . . . . . . . . . . . . . 93
Representao das Propriocepes e Percepes do Ambiente Simulado . . . . 95

4.4.1
Posio do Tabuleiro Observada pelo Agente (pPl e pPc ) . . . . . . . . 95
4.4.2
Cor do Objeto no Local Observado (pAc ) . . . . . . . . . . . . . . . . 95
4.4.3
Forma do Objeto no Local Observado (pA f ) . . . . . . . . . . . . . . . 96
4.4.4
Tamanho do Objeto (pAt ) . . . . . . . . . . . . . . . . . . . . . . . . . 96
Representao das Percepes Visuais a Partir de Imagens . . . . . . . . . . . 97

4.5.1
Deteco de Ponto de Interesse . . . . . . . . . . . . . . . . . . . . . . 97
4.5.2
Descrio de Caractersticas Locais . . . . . . . . . . . . . . . . . . . 98
4.6
Validao dos Mapeamentos Propostos . . . . . . . . . . . . . . . . . . . . . . 100
4.7
Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5 Mdulo II - Representao
5.1
103
Descoberta e Categorizao No-Supervisionada de Objetos em Imagens . . . . 105

5.1.1
Mapas Auto-Organizveis . . . . . . . . . . . . . . . . . . . . . . . . 107

Estrutura Bsica do SOM . . . . . . . . . . . . . . . . . . . . . . . . . 108
Auto-Organizao no SOM . . . . . . . . . . . . . . . . . . . . . . . . 109
5.2
Composio da Representao de Objetos . . . . . . . . . . . . . . . . . . . . 111
5.3
Composio da Representao de Palavras . . . . . . . . . . . . . . . . . . . . 113
5.4
Validao das Representaes Propostas . . . . . . . . . . . . . . . . . . . . . 114
5.5
5.4.1
Avaliao da Qualidade dos Agrupamentos . . . . . . . . . . . . . . . 114
5.4.2
Validao da Representao de Objetos . . . . . . . . . . . . . . . . . 115
5.4.3
Validao da Representao de Palavras . . . . . . . . . . . . . . . . . 117
5.4.4
Integrao de Percepes . . . . . . . . . . . . . . . . . . . . . . . . . 118
Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
6 Mdulo III - Contexto
125
6.1
Papel do Contexto na Modelagem de Falsas Memrias . . . . . . . . . . . . . 126
6.2
Adaptive Resonance Theory - ART . . . . . . . . . . . . . . . . . . . . . . . . 128

6.2.1
Modelos ART1 e ART2 . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.2.2
ART2 com Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.3
Aplicao do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
6.4
Validao do Mdulo de Contexto . . . . . . . . . . . . . . . . . . . . . . . . 138
6.5
Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
7 Mdulo VI - Associao
143
7.1
Agrupamento em Subespaos . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
7.2
Variantes de Interesse dos Mapas Auto-Organizveis . . . . . . . . . . . . . . 149

7.2.1
Ponderao Adaptativa da Funo de Distncia . . . . . . . . . . . . . 149
7.2.2
Local Adaptive Receptive Field Self-Organizing Map - LARFSOM . . . 151

Algoritmo do LARFSOM . . . . . . . . . . . . . . . . . . . . . . . . . 153
7.3
Soluo Proposta para o Mdulo de Associao . . . . . . . . . . . . . . . . . 154

7.3.1
Dimension Selective Self-Organizing Map - DSSOM . . . . . . . . . . 154

Escolha do Nodo Vencedor no DSSOM . . . . . . . . . . . . . . . . . 155
Atualizao do Vetor de Pesos no DSSOM . . . . . . . . . . . . . . . . 155
Auto-Organizao do DSSOM . . . . . . . . . . . . . . . . . . . . . . 156
Agrupamento em Subespaos com o DSSOM . . . . . . . . . . . . . . 157

7.3.2
Local Adaptive Receptive Field Dimension Selective Self-Organizing

Map - LARFDSSOM . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
Insero de Nodos e Competio . . . . . . . . . . . . . . . . . . . . . 159
Atualizao do Nodo Vencedor de seus Vizinhos . . . . . . . . . . . . 161
Remoo de Nodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
Atualizao da Vizinhana . . . . . . . . . . . . . . . . . . . . . . . . 162
Fase de Convergncia . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
Agrupamento Projetivo e em Subespaos com o LARFDSSOM . . . . 164
7.4
7.5
Validao dos Modelos de Agrupamento em Subespaos . . . . . . . . . . . . 164

7.4.1
Mtricas de Desempenho . . . . . . . . . . . . . . . . . . . . . . . . . 165
7.4.2
Ajustes Paramtricos . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
7.4.3
Experimentos com Dados Simulados . . . . . . . . . . . . . . . . . . . 167
7.4.4
Anlise dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 171
7.4.5
Experimentos com Dados Reais . . . . . . . . . . . . . . . . . . . . . 173
7.4.6
Experimentos com Percepes do Ambiente Simulado . . . . . . . . . 175
Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
8 Validao do Modelo
181
8.1
Aprendizagem Cross-Situacional de Palavras . . . . . . . . . . . . . . . . . . 184
8.2
Aprendizagem de Palavras sob Situao de Incerteza - Experimento 1 . . . . . 184
8.3
8.4
8.2.1
Simulaes do Experimento 1 . . . . . . . . . . . . . . . . . . . . . . 186
8.2.2
Resultados do Experimento 1 . . . . . . . . . . . . . . . . . . . . . . . 188
Processos Competitivos na Aprendizagem Cross-Situacional de Palavras . . . . 190

8.3.1
Aprendizagem de Palavras com mais de um Referente - Experimento 2 190
8.3.2
Simulao do Experimento 2 . . . . . . . . . . . . . . . . . . . . . . . 192
8.3.3
8.3.4
Competio Local vs Competio Global - Experimento 3 . . . . . . . 194
8.3.5
8.3.6
8.3.7
Competio Global - Experimento 4 . . . . . . . . . . . . . . . . . . . 195
8.3.8
8.3.9
Aprendizagem Estatstica vs Hiptese e Teste . . . . . . . . . . . . . . . . . . 199

8.4.1
Memria de Mltiplos Referentes - Experimento 5 . . . . . . . . . . . 200
8.4.2
8.5
8.6
8.4.3 Resultados do Experimento 5 . . . . . . . .

Desambiguao de Palavras Atravs do Contexto .
8.5.1 Contribuio do Contexto - Experimento 6 .
8.5.2 Simulao do Experimento 6 . . . . . . . .
8.5.3 Resultados do Experimento 6 . . . . . . . .
Concluso . . . . . . . . . . . . . . . . . . . . . .
9 Consideraes Finais
9.1 Anlise da Modelagem Proposta
9.2 Contribuies para a Cincia . .
9.2.1 Trabalhos Publicados . .
9.3 Limitaes do Modelo . . . . .
9.4 Trabalhos Futuros e Aplicaes .
Referncias
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
201
204
205
206
206
207
.
.
.
.
.
211
212
213
215
215
216
218
1
Introduo
A produo e utilizao de linguagem complexa uma das mais incrveis e distintas habilidades humanas. Outras espcies se comunicam atravs de mecanismos simples, porm
os seres humanos elevaram sua capacidade de comunicao a um patamar diferenciado. A
linguagem nos permite transmitir de maneira eficaz ideias, sensaes e emoes. Ela torna
possvel a cooperao entre pessoas e a execuo de aes coordenadas, alm de promover
um desenvolvimento acelerado da sociedade atravs do compartilhamento de conhecimento.
atravs da linguagem que deixamos registradas as descobertas e concluses mais importantes
para as geraes seguintes.
Linguagem natural qualquer linguagem que surge de uma forma no premeditada como
resultado das capacidades inatas para linguagem do intelecto humano (Rahayu, 2012). Ou
seja, o termo utilizado para estabelecer uma oposio em relao s linguagens construdas
artificialmente, como linguagens de programao de computador. A linguagem natural uma
janela aberta para o crebro, a mente e a natureza humana (Pinker, 2008), e por esse motivo ela
tem sido objeto de estudo de diversas reas do conhecimento.
A Lingustica e a Filosofia da linguagem so reas do conhecimento que tratam, por
exemplo, da natureza do significado lingustico, do aprendizado da linguagem, da criatividade,
da compreenso da linguagem, da interpretao, e de aspectos lingusticos do pensamento e da
experincia (Allen, 1994). Algumas das questes investigadas por estas disciplinas so: Como
as frases compem um todo significativo? Qual o significado das partes (palavras) das
frases? Qual a natureza do significado? Como a linguagem se relaciona com o mundo? Para
alcanar estes objetivos a Filosofia da linguagem se vale de teorias e reflexes, enquanto que a
Lingustica utiliza do mtodo cientfico.
A Psicolingustica o estudo das conexes entre a linguagem e a mente e qualquer processo
que diz respeito comunicao humana, mediante o uso da linguagem, seja ela de forma
oral, escrita, gestual, entre outras (Aitchison, 2008). Essa cincia tambm estuda os fatores
27
CAPTULO 1. INTRODUO
que afetam a decodificao, ou seja, as estruturas psicolgicas que nos capacitam a entender
expresses, palavras, oraes, e textos.
A Neurolingustica a cincia que estuda a elaborao cerebral da linguagem. Ocupa-se
com o estudo dos mecanismos do crebro humano que suportam a compreenso, produo e
conhecimento abstrato da lngua em suas mais variadas formas (Ahlsen, 2006). Trata tanto da
elaborao da linguagem normal, como dos distrbios clnicos que geram suas alteraes.
A Lingustica Computacional ou Processamento de Linguagem Natural (PLN) envolve a
Inteligncia Artificial, a Inteligncia Computacional, a Cincia da Computao e a Lingustica,
e utiliza-se de processos computacionais para manipulao da linguagem humana. Os linguistas computacionais almejam desenvolver sistemas com capacidade de reconhecer e produzir
linguagem natural, atravs de uma modelagem lgico-formal (Allen, 1994).
Apesar dos enormes esforos realizados pelos estudiosos dessas reas, a maneira como os
seres humanos processam linguagem ainda no completamente compreendida pela cincia,
talvez porque isto requeira um nvel de compreenso do funcionamento do crebro e da mente
humana ainda no atingido. Desvendar estes mecanismos pode trazer avanos em inmeras
reas do conhecimento, possibilitando ainda diversas aplicaes prticas, tais como, busca
de documentos, traduo e resumo automtico de textos, sistemas de perguntas e respostas,
sistemas tutores, sistemas de auto-atendimento, entre outros (Allen, 1994).
Dentro da robtica, o PLN tambm encontra diversas aplicaes, tais como, o controle de
robs por meio de linguagem natural e a coordenao de aes envolvendo a cooperao entre
pessoas e mquinas. Este tipo de aplicao amplia seu escopo a medida que as mquinas vo
se tornando mais presentes no cotidiano das pessoas. Tais mquinas podem ajudar pessoas
a realizar os mais variados tipos de tarefas com nveis crescentes de complexidade, alm de
auxiliar pessoas com dificuldades motoras, melhorando a sua qualidade de vida, tornando-as
mais independentes (Mazo et al., 1995). A utilizao de linguagem natural a chave para tornar
possveis estas aplicaes, uma vez que esta a forma de comunicao com a qual as pessoas
esto mais habituadas, de forma que mesmo sem conhecimentos de linguagens de programao
elas seriam capazes de explorar melhor o potencial de suas mquinas.
Porm, os desafios para se construir mquinas capazes de compreender e produzir linguagem
natural so enormes. Para compreender uma frase em linguagem natural necessrio analisar
as estruturas lingusticas e seus relacionamentos subjacentes, as regras gramaticais, os conceitos
explcitos, significados implcitos, a lgica e o contexto do discurso, dentre outros (Allen, 1994).
Palavras individuais e frases muitas vezes tm vrios significados, e um dos maiores desafios
na compreenso da linguagem natural advm desta ambiguidade na interpretao, a qual para
ser desfeita, muitas vezes requer profundo conhecimento do contexto no qual o discurso foi
proferido, alm de conhecimento sobre o mundo e sobre os costumes sociais e culturais das
28
pessoas envolvidas. Por exemplo, a frase Voc tem horas? a rigor deveria ser interpretada de
outra forma, mas pessoas de maneira geral entendem esta frase como Que horas so agora?.
J na frase Vamos conversar sobre o teste com o novo funcionrio., o teste pode estar sendo
realizado para avaliar o novo funcionrio ou para avaliar outra coisa no mencionada na
frase, e no h como determinar o significado pretendido pelo interlocutor sem uma informao
contextualizadora.
Pessoas que leem estas frases podem inferir os significados pretendidos a partir do contexto
imediato ou do seu conhecimento pessoal e entendimento do mundo. Mas computadores no
se beneficiam das sutilezas da experincia humana. Por este motivo uma tarefa to rdua
criar sistemas capazes de estabelecer um dilogo em linguagem natural, conforme proposto no
famoso teste de Turing (1950).
H trabalhos sobre dilogo com robs desde a dcada de 1960, como o clssico SHAKEY
Robot de Nilsson (1969) e o influente SHRDLU System de Winograd (1971). Este ltimo, por
exemplo, se baseava em anlise sinttica e em alguns casos era capaz de lidar com o problema
da ambiguidade e compreender a referncia a pronomes. Seu sucesso se deveu principalmente
a seu mundo de blocos ser um ambiente bastante restrito. Shirai et al. (1985) desenvolveram
um rob humanoide com capacidades de dilogo e Torrance (1994) investigou a comunicao
natural com um rob mvel. Shibata et al. (1997) resolvem problemas de ambiguidades em
descrio de rotas em linguagem natural utilizando as relaes espaciais entre os diversos pontos
da rota. Lemon et al. (2001) desenvolveram um sistema de dilogo multimodal Humano-Rob
para servir como interface de controle para um pequeno helicptero autnomo com capacidade
de viso, planejamento e deliberaes (WITAS UAV). O sistema prov uma interface para
dilogos abrangendo comandos, perguntas, revises e relatrios ocorrendo em um ambiente
dinmico. As entradas fornecidas ao sistema no so apenas comandos de voz, mas tambm
indicaes em um mapa. Por sua vez o sistema pode fornecer sadas de voz e tambm apontar
posies no mapa.
Diversos trabalhos nesta linha empregam as tcnicas de PLN descritas em Allen (1994),
como expresses regulares, sistemas de representao de estrutura gramatical, mecanismos de
Parsing e gerenciadores de dilogo (Fry et al., 1998). Na maioria das vezes, o conhecimento
sobre a linguagem e sobre o ambiente inserido previamente no sistema por seus programadores
e poucos ajustes so permitidos para adaptar o sistema s caractersticas da situao na qual ele
ser utilizado. Muitos modelos seguindo esta abordagem falham ao serem aplicados em situaes
prticas devido falta de escalabilidade para situaes no previstas, ou mais complexas do
que o esperado e devido ausncia de informao sobre o contexto no qual as sentenas so
proferidas (Blitzer et al., 2007).
Por outro lado, h uma linha de pesquisadores que acreditam que a linguagem natural deva ser
29
CAPTULO 1. INTRODUO
aprendida atravs de interaes do rob com o ambiente e com instrutores, proporcionando a ele
a possibilidade contnua de associar os estados do ambiente com frases proferidas em linguagem
natural (Lopes e Teixeira, 2000; Lauria et al., 2001; Steels e Belpaeme, 2005; Lauria, 2007).
Ou seja, estes autores esto interessados em criar sistemas de Aquisio de Linguagem Natural
(ALN) e no apenas sistemas de Compreenso de Linguagem Natural (CLN). Com a ALN seria
possvel adequar o aprendizado do rob para cada tarefa, proporcionando o aprimoramento
constante de suas capacidades de compreenso da linguagem atravs do aprendizado de novos
comandos e da evoluo do seu conhecimento sobre o ambiente.
No entanto, a ALN apresenta questes importantes em aberto em sua base terica. H muito
debate sobre quais habilidades lingusticas so aprendidas por cada indivduo (empiricismo) e
quais so inatas ou adquiridas atravs da evoluo da espcie (nativismo). No argumento da
pobreza de estmulos, Chomsky (1969) aponta que as categorias abstratas de uma gramtica
de linguagem natural no podem ser aprendidas a partir dos dados lingusticos disponveis
para as crianas. Como tal, o argumento se coloca em favor do nativismo e contrrio a viso
empiricista da aquisio de linguagem. As principais premissas do argumento so: (a) existem
padres em todas as linguagens naturais que no podem ser aprendidos por crianas usando
apenas evidncia positiva. Evidncias positivas so as frases gramaticais que o aprendiz tem
acesso, observando o discurso de outras pessoas. Evidncias negativas, por outro lado, seriam
evidencias indicando o que no gramatical; (b) so apresentadas s crianas em quantidade
suficiente apenas evidncias positivas e; (c) mesmo assim, as crianas aprendem gramtica
corretamente. Portanto a concluso lgica seria de que os seres humanos devem ter algum tipo
de habilidade lingustica inata, que fornea o conhecimento adicional necessrio para aprender
a lngua.
Crticos do nativismo observam que h mecanismos capazes de aprender sem a necessidade
de evidncias negativas (Clark, 2001; Harnad, 2005). De fato, os mecanismos de aprendizagem
no-supervisionada podem atuar fazendo este papel e tm sido aplicados aos mais variados tipos
de problemas de categorizao. Como exemplo, podemos citar os Mapas Auto-Organizveis
(Kohonen, 1985), Modelos de Mistura, Maximizao da Expectativa e Modelos Hierrquicos
(Ghahramani, 2004).
Harnad (2005) aponta ainda que embora haja evidncias para o argumento da pobreza de
estmulos com relao aquisio das categorias de gramticas, no h evidncias contrrias
aquisio das demais categorizaes aprendidas pelos seres humanos. Por exemplo, diversas
outras categorias perceptivas so aprendidas, como cores, sons e formas.
evidente que h uma conexo entre as categorias lingusticas e perceptivas, uma vez que
muitas das categorias lingusticas se referem a categorias perceptivas. Por exemplo, a palavra
azul se refere categoria perceptiva que representa a cor azul. Porm, no se sabe ao certo como
30
o aprendizado das categorias lingusticas afeta ou afetado pelo aprendizado das categorias
perceptivas. Afinal, como chama ateno Harnad (2005), Cognio Categorizao.
Aprofundando um pouco mais nesta questo, encontra-se um dos problemas centrais da
compreenso da linguagem natural, o chamado Symbol Grounding Problem (Harnad, 1990),
ou em uma traduo livre, Problema do Mapeamento de Smbolos, o qual trata de como as
palavras (smbolos) obtm seus significados. Ou colocando de outra forma, como as palavras
se conectam ou podem ser mapeadas para as coisas as quais elas se referem. Para tratar este
problema, diversos autores sugerem que as categorias cognitivas devem ser mapeadas em ltima
instncia para categorias perceptivas (Regier, 1992; Steels e Belpaeme, 2005; Cangelosi et al.,
2006; Mooney, 2006; Taddeo e Floridi, 2007; Cangelosi, 2010; Stramandinoli et al., 2012).
Concordando com esta viso, Perlovsky (2006) coloca que a mente envolve uma hierarquia de
vrias camadas de conceitos-modelo, a partir de simples elementos perceptivos (como bordas
ou pontos em movimento), para conceitos-modelo de objetos, de relaes entre os objetos, de
cenas complexas e acima, ao longo de uma hierarquia para os conceitos-modelo do significado
de vida e do propsito de nossa existncia. Para Perlovsky (2006) conceitos-modelo so
como categorias aprendidas formando modelos internos que representam objetos e situaes do
mundo.
Considerando o que foi exposto, o autor desta Tese investiga a hiptese de que o conhecimento no lingustico adquirido, ao explorar o mundo e interagir com outros indivduos, auxilia
no processo de aquisio do conhecimento lingustico e vice-versa, tornando possvel contornar
o problema da pobreza de estmulos apontado por Chomsky (1969). A segunda hiptese adotada
a de que este conhecimento seria composto inicialmente de categorias motor-perceptivas e
em seguida de categorias mais abstratas, como as sugeridas por Perlovsky (2006), permitindo
a formao de conceitos de alto nvel. Os mecanismos de aquisio dessas categorias seriam
inatos, baseados em modelos de aprendizagem no-supervisionada, e serviriam no apenas
para aquisio mas tambm para o reconhecimento de categorias ou conceitos, permitindo que
fossem extradas informaes do ambiente a respeito do contexto no qual um dilogo ocorre, o
que poderia auxiliar no s na aquisio mas tambm na compreenso da linguagem natural.
Porm, conforme aponta Rasanen et al. (2012), no h um modelo unificado para ALN,
combinando aprendizagem perceptual e motora que utilize o paradigma de aprendizagem nosupervisionada, e os estudos nessa rea ainda so preliminares. Assim, o objetivo geral desta
Tese a proposio e validao de um modelo neural modular para aquisio de categorias
motoras e perceptivas que sirvam de suporte para a ALN.
Como coloca Barrett e Kurzban (2006), a modularidade uma propriedade fundamental
dos seres vivos em todos os nveis da organizao e poder revelar-se indispensvel para a
compreenso da estrutura da mente tambm. Embora haja um amplo debate entre estudiosos
31
CAPTULO 1. INTRODUO
das cincias cognitivas sobre o grau de modularidade da mente (Fodor, 1983; Pinker, 1997;
Fodor, 2000), h um consenso sobre a existncia de certo nvel de modularidade. Por exemplo,
os sistemas de processamento de informao subjacentes da percepo so diferentes em
aspectos importantes daqueles do raciocnio ou do controle motor (Barrett e Kurzban, 2006).
Estas divises so consideradas na proposio do modelo neural modular, proporcionando um
arcabouo til para organizar a investigao das caractersticas a serem modeladas.
A metodologia utilizada para construo do modelo inicia-se com o levantamento de evidncias acerca da aprendizagem e processamento da linguagem, seguido da proposio do modelo
computacional conciliando o maior nmero possvel de evidncias, e finda com a validao
de cada um dos mdulos e do modelo completo. Esta validao ser realizada atravs da
comparao do resultado de simulaes com dados experimentais e tambm pela avaliao das
capacidades e limitaes apresentadas pelo modelo.
Cangelosi et al. (2010) apontam que a robtica desenvolvimentista, atravs do estudo dos
agentes incorporados1 , pode servir como uma ferramenta para validar as hipteses tericas.
Agentes incorporados (robticos ou simulados) so capazes de adquirir habilidades complexas
comportamentais, cognitivas e lingusticas ou comunicativas atravs da aprendizagem individual
e social. Esta abordagem foi escolhida para fins de validao do modelo. Assim, ser considerado o problema de um agente, dotado de sensores e atuadores, inserido em um ambiente
simulado, o qual interage com seu instrutor atravs de linguagem natural.
O modelo proposto visa tornar este agente capaz de: (1) categorizar e reconhecer aes e
percepes do ambiente (categorias motor-perceptivas); (2) categorizar e reconhecer elementos
da linguagem utilizada pelo instrutor (categorias lingusticas ou rtulos), restringindo-se apenas
a substantivos concretos; e (3) associar os rtulos com as categorias aprendidas. A partir deste
ponto ser investigada uma maneira de integrar o aprendizado lingustico, motor e perceptivo
de forma que um influencie positivamente no aprendizado do outro. Sendo estes os objetivos
especficos desta Tese. Por outro lado, vale apontar que os assuntos a seguir, apesar de estarem
correlacionados com o problema tratado, no so objetos centrais dos estudos realizados:
reconhecimento de fala, produo de linguagem natural, aprendizagem gramatical, planejamento
e controle da execuo de comandos.
Os demais captulos desta Tese esto organizados da seguinte maneira: O Captulo 2
apresenta conceitos importantes das reas da cincia que mais contriburam para a construo
do conhecimento atual sobre a linguagem natural, fornecendo as premissas que foram utilizadas
na proposio do modelo. Em seguida, o Captulo 3 fornece uma descrio geral do modelo
proposto, conectando as premissas levantadas com os mdulos computacionais identificados.
Nos Captulos de 4 a 7 sero descritos e validados os quatro mdulos implementados. Ento, no
1 incorporado
32
no sentido de assumir forma de corpo.
Captulo 8 o modelo completo ser validado atravs da reproduo de padres de aprendizagem

reportados em trs importantes estudos realizados com seres humanos. Por fim, o Captulo 9
apresenta as consideraes finais desta Tese, avaliando o modelo construdo, analisando os
resultados obtidos e sugerindo trabalhos futuros e possveis aplicaes prticas do modelo
proposto.
33
2
Fundamentao Terica
Trs reas da cincia colaboram fornecendo evidncias e propondo modelos para lidar com a
complexa caracterstica que a aptido humana para linguagem natural: a psicolingustica, a
neurolingustica e a lingustica computacional. Cada uma dessas reas traz um olhar diferenciado
para o problema, com caractersticas importantes que dificilmente seriam levantadas atravs das
abordagens utilizadas em outras reas.
A psicolingustica fornece uma viso top-down do problema observando o comportamento
exibido pelos indivduos e procurando identificar as funes mentais que os levam a ter tal
comportamento. Ela pode ser vista ainda como uma anlise de caixa preta, que procura
compreender o sistema observando principalmente suas entradas e sadas.
Por outro lado, a neurolingustica fornece uma viso bottom-up do problema. Esta seria
uma anlise de caixa branca, na qual so identificadas, nomeadas e analisadas as estruturas
bsicas de funcionamento do crebro, descrevendo suas propriedades e procurando entender
como funes mais complexas podem emergir a partir dos mecanismos mais simples que at
ento j foram compreendidos.
Paralelamente a estas duas reas, a lingustica computacional cria modelos e executa simulaes buscando validar hipteses, gerar novas conjecturas, alm de produzir aplicaes prticas
se valendo das informaes obtidas (Allen, 1994). A lingustica computacional pode atuar em
vrios nveis de abstrao de acordo com os objetivos que se quer atingir.
Este captulo destaca as principais contribuies destas trs reas do conhecimento para
a compreenso da linguagem natural que podero ajudar nesta Tese. As contribuies da
psicolingustica sero fornecidas na Seo 2.1, as contribuies da neurolingustica sero
tratadas na Seo 2.2 e por fim, na Seo 2.3 ser apresentada a abordagem clssica para
construo de sistemas de PLN.
35
CAPTULO 2. FUNDAMENTAO TERICA
2.1
Contribuies da Psicolingustica
Se imaginarmos pessoas como sistemas computacionais capazes de aprender linguagem, a

psicolingustica pode ser vista como uma anlise de caixa preta deste sistema. Ela observa as
entradas que so fornecidas para ele (estmulos sensoriais e lingusticos oriundos do ambiente
e das outras pessoas) e as sadas produzidas (comportamentos e linguagem utilizada), para, a
partir disto, identificar um conjunto de habilidades exibidas por este sistema computacional,
tentando compreender como estas habilidades so desenvolvidas e o que pode afetar positiva e
negativamente este processo.
2.1.1
Termos e Definies
Diversos termos utilizados no estudo da lingustica e psicolingustica no so de amplo conhecimento. Assim, para facilitar o entendimento deste captulo so fornecidas a seguir algumas
definies de termos importantes. Certos termos sero discutidos com mais detalhes posteriormente, ainda assim, esto includos na listagem abaixo para facilitar referncias posteriores.
Definies
Representao simblica: O uso de ideias, imagens, e outros smbolos para identificar
objetos ou eventos.
Linguagem: Em resumo, sistema governado por regras de smbolos arbitrrios que
podem ser combinados de diversas formas para comunicar informaes.
Fonologia: O sistema de sons usado na linguagem, as regras para combinar estes sons e
formar palavras, e o uso de estresse e entonao em frases faladas.
Fonemas: Sons da fala que se contrastam em um determinado idioma, podendo mudar o
significado das palavras.
Semntica: O significado das palavras e sentenas.
Morfemas: A menor unidade significativa na linguagem.
Morfologia: O sistema de regras combinando morfemas para formar palavras ou modificar o significado das palavras.
Sintaxe: As regras para organizar palavras em frases e sentenas.
Pragmtica: As regras que regem a conversao e o efetivo uso social da linguagem.
Dixis (ou palavras deticas): So palavras ou expresses que requerem informao
sobre o contexto para serem compreendidas. A palavra dixis remete noo de
exposio, indicao ou demonstrao.
36
2.1. CONTRIBUIES DA PSICOLINGUSTICA
Habilidades produtivas: Habilidades de linguagem que permitem colocar as ideias em

palavras.
Habilidades receptivas: Habilidades de linguagem que permitem entender o que outras
pessoas dizem.
Vocalizao prelingustica: Sons produzidos por crianas durante o primeiro ano de
vida, antes de comear a falar.
Jogo vocal: Vocalizaes pr-lingusticas que variam muito em altura e intensidade,
incluindo ocasionais slabas simples.
Balbucio cannico: Vocalizaes pr-lingusticas que consistem de sequncias de slabas que soam cada vez mais como discurso
Balbucio de conversao ou jargo: Vocalizaes pr-lingusticas em que as crianas
usam estresse e entonao como adultos.
Protopalavras: Vocalizaes que parecem ter significados consistentes para uma criana
e so usadas em tentativas de se comunicar, mas no se assemelham de maneira
prxima a palavras de adultos em som ou significado.
Surto de vocabulrio: Aumento sbito na aquisio palavra em torno dos 18 meses de
idade.
Erros de segmentao: Erros na deteco de limites entre as palavras em uma frase.
Mapeamento rpido: Processo em que uma criana usa pistas de contexto para fazer
uma estimativa razoavelmente precisa e rpida sobre o significado de uma palavra
desconhecida.
Ateno conjunta: Tendncia das crianas aprendendo linguagem e de seus parceiros
de conversa a compartilhar um foco de ateno.
Tendncia de objeto completo: Tendncia das crianas em assumir que palavras desconhecidas so nomes de objetos, em vez de suas partes, atributos ou aes com ele
relacionadas.
Contraste lxico: Tendncia das crianas em assumir que no h duas palavras com o
mesmo significado.
Subextenses: Erros de linguagem em que o significado que uma criana atribui a uma
palavra muito restrito.
Sobrextenses: Erros de linguagem em que o significado que uma criana atribui a uma
palavra muito amplo.
Morfema gramatical: Uma unidade de linguagem que carrega pouco significado por si
s, mas que altera o significado de palavras ou frases de forma sistemtica.
37
Subregularizaes: Erros de linguagem em que uma criana aplica uma regra morfolgica a palavra que uma exceo regra.
Classe formulrio: Uma categoria de palavras em uma linguagem que podem preencher
papis sintticos semelhantes em frases formadores e sentenas.
Holofrase: Uma palavra nica que representa o significado de uma frase ou sentena.
Discurso telegrfico: Um estilo de discurso de crianas em que as palavras que no so
essenciais para o significado de uma frase so omitidas.
Competncia comunicativa: A habilidade de usar a linguagem de uma forma socialmente adequada em uma determinada cultura.
Teorias ambientalistas (ou empiricistas): Teorias que enfatizam os fatores ambientais
na aquisio da linguagem.
Teorias nativistas: Teorias que enfatizam, fatores biologicamente inatos na aquisio
da linguagem.
2.1.2
Caractersticas da Aprendizagem de Palavras em Crianas
A aprendizagem de palavras uma parte importante da aquisio de linguagem natural. Ela

pode ser estudada, at certo ponto, de maneira independente da aquisio de outros elementos
da linguagem, como por exemplo, das estruturas gramaticais.
Mas antes de tratar da aprendizagem do significado das palavras preciso entender o que
est sendo de fato aprendido. Na viso tradicional, que surge com Aristteles, o significado de
uma palavra o que determina sua referncia. Uma palavra como co, tem uma extenso (as
entidades as quais a palavra se refere - ces) e uma inteno (o que as entidades compartilham
- o que todos os ces tm em comum). O significado se identifica com a inteno. Uma
viso amplamente aceita (Bloom, 2002) define significado como uma representao mental
das caractersticas que permite julgar quais objetos do mundo so, por exemplo, ces. Outras
vises incluem a ideia de que significados so modelos mentais (prottipos) ou conjuntos de
exemplares. Estas vises compartilham da ideia de que saber o significado de X, envolve
diferenciar as coisas que so X das coisas que no so X. No necessrio que todas as pessoas
compartilhem completamente das mesmas definies, mas deve haver coincidncias suficientes
entre seus modelos mentais para que ambos sejam capazes de compartilhar significados por
intermdio de palavras.
No entanto, muitas palavras no encaixam to bem nesta definio. No se pode dizer que
uma criana saber o significado da palavra ouro apenas quando ela souber diferenciar ouro
de outros metais. Outro problema de relacionar a aprendizagem de palavras com referncia e
38
categorizao que isso funciona bem para substantivos como co e nomes prprios como
Moiss, podendo se estender para alguns verbos e advrbios. Mas no funciona bem para
palavras como determinantes, preposies e verbos auxiliares. Estas palavras tem seu significado
determinado pelo papel que desempenham ao modular o significado de outras e, portanto, o seu
aprendizado pode ser tratado de maneira distinta.
A aprendizagem de palavras ocorre durante toda a vida, mas diversos eventos relevantes
ocorrem em crianas com idades entre um e seis anos. Crianas comeam a produzir palavras
por volta dos 12 meses e em torno dos quatro anos j dominam praticamente tudo que viro
a saber sobre fonologia, sintaxe e morfologia da sua lngua materna. Crianas de seis anos j
conhecem aproximadamente 10.000 palavras (Bloom, 2002, p.13). E diplomados do ensino
mdio americano sabem o significado de aproximadamente 45.000 palavras de dicionrio. Ao
incluir nomes prprios e expresses idiomticas este nmero sobe para algo entre 60.000 e
80.000 palavras (Bloom, 2002, p.6).
Cada uma dessas faixas etrias exibe traos diferentes da aprendizagem, e por isso so
o foco de estudos distintos. Crianas pr-lingusticas so alvo de estudos porque ainda no
possuem as capacidades necessrias para falar, crianas de um ano so interessantes porque so
novatas no aprendizado das palavras, crianas mais velhas e adultos so interessantes porque
j so especialistas, e crianas na pr-escola esto em um meio termo entre essas duas ltimas
categorias (Bloom, 2002, p.35).
Tomando como base um aprendizado de 60.000 palavras at os 17 anos, h uma impressionante taxa de aprendizagem mdia de 10 palavras aprendidas por dia, o que equivale ao
aprendizado de uma palavra a cada 96 minutos, descontando 8 horas de sono. Sabe-se, no
entanto, que essa taxa no constante, no incio do aprendizado poucas palavras so aprendidas
por semana, porm a taxa aumenta gradualmente atingindo seu pico em algum momento aps
os 10 anos de idade, e desacelera antes dos 17 anos (Bloom, 2002, p.45).
Alm disso, alguns tipos de palavras so aprendidos com mais facilidade do que outras.
Por exemplo, dentre cores, formas e texturas, as palavras relativas a formas so as mais fceis
de aprender, palavras relativas a texturas so as mais difceis e relativas a cores apresentam
um nvel de dificuldade intermedirio (Heibeck e Markman, 1987). Verbos, tais como (tais
como, andar) so mais difceis de aprender do que substantivos (tais como, co) (Tomasello e
Kruger, 1992). Substantivos abstratos (e.g., pensamento) so mais difceis de aprender do que
substantivos concretos (e.g, bola) (Bloom, 2002, p.90). Instncias individuais (e.g., Garfield) ou
mais especficas (e.g., gato) so mais fceis de aprender do que categorias ou tipos (e.g., animal)
(Xu e Carey, 1996). Pronomes so as primeiras palavras deticas que as crianas aprendem.
Pronomes como este ou aquele frequentemente so encontrados dentre as primeiras palavras
aprendidas (Nelson, 1973).
39
Experimentos sugerem ainda que crianas tendem a associar palavras desconhecidas com
objetos para os quais elas no sabem o nome (Kagan, 1981), fenmeno este chamado de
Contraste lxico. Alm disso, quando uma nova palavra utilizada para referenciar um objeto
com nome j conhecido, as crianas tendem a associar essa palavra a partes do objeto (Markman
e Wachtel, 1988) ou a suas propriedades. Isto descrito pelos autores como, excluso mtua, ou
uma tendncia a preferir um mapeamento um para um. Bloom (2002) exemplifica, considerando
o experimento de Markman e Wachtel (1988). So entregues para crianas uma banana (objeto
com nome conhecido) e um batedor de ovos (objeto com nome desconhecido). Ento se pede:
Mostre-me o Fendle (uma palavra inexistente). Nesta situao as crianas tendem a mostra o
batedor. Elas podem estar raciocinando, implicitamente, da seguinte forma:
Exemplo
1. Eu sei que uma banana chamada de banana.
2. Se ele quisesse se referir a banana, ela teria me pedido para apontar a banana.
3. Mas ele no o fez, ele usou uma palavra estranha, Fendle.
4. Ento, ele tem a inteno de se referir a algo que no seja a banana.
5. Um candidato plausvel o batedor.
6. Fendle deve se referir ao batedor.
Este comportamento no se aplica apenas a associao de palavras, mas para o aprendizado

de sistemas de comunicao em geral. Porm, no se aplica a qualquer tipo de tarefa associativa,
pois embora as crianas evitem associar mais de uma palavra a um objeto, elas associam
facilmente diversas propriedades a objetos (e.g., bananas so amarelas, doces, arredondadas,
curvadas) (Bloom, 2002, p.68).
Em fim, a aprendizagem de palavras est condicionada aos seguintes fatores: (1) acesso s
palavras - crianas aprendem apenas palavras as quais so expostas; (2) acesso aos conceitos
- crianas precisam ter capturado o conceito antes de fazer a associao e (3) acesso ao mapeamento - palavras e conceitos devem ser apresentados em uma situao que torne possvel
identificar o mapeamento.
2.1.3
Aprendizagem Associativa, por Reforo e as Dificuldades na Modelagem da Aprendizagem de Palavras
O associativismo a viso de que o mecanismo para a aprendizagem de palavras baseado em

uma sensibilidade covariao, fundamentado em princpios gerais de aprendizagem, como
40
a aprendizagem Hebbiana (Hebb, 1949), que diz que se dois neurnios disparam ao mesmo
tempo, suas conexes so fortalecidas, e com isso, a ativao de um leva a ativao de outro. A
partir disto, em uma extrapolao um tanto exagerada, o associativismo considera que, se dois
conceitos ocorrem ao mesmo tempo, tornam-se associados, e um leva ao outro (Bloom, 2002).
Richards e Goldfarb (1986), por exemplo, propem que as crianas aprendem o significado
das palavras por repetidas associaes. medida que as propriedades perceptivas ocorrem em
conjunto com o rtulo, as associaes se fortalecem. Por outro lado, as associaes que no
ocorrem em conjunto se enfraquecem.
Diversos modelos computacionais de aprendizagem de palavras funcionam de maneira
associativa (Richards e Goldfarb, 1986; Plunkett et al., 1992; Plunkett, 1997). O modelo
de Plunkett (1997) pode ser descrito como uma arquitetura conexionista que sensvel a
regularidades estatsticas no ambiente.
A hiptese associativa encontra evidncias em situaes que facilitam a aprendizagem de
palavras. Por exemplo, apontar para um objeto e dizer o nome dele para uma criana realmente
facilita sua aprendizagem. Mas, apesar dos mritos desta proposta, ela possui limitaes
importantes. A primeira delas diz respeito s entradas que as crianas recebem. Qualquer
procedimento associacionista requer que as correlaes corretas estejam presentes no meio
ambiente. No caso da aprendizagem de palavras, isso implica que as palavras sejam apresentadas
ao mesmo tempo em que as crianas esto observando o que as palavras se referem (Bloom,
2002, p.7).
Porm, as palavras no so normalmente usadas ao mesmo tempo em que as suas referncias
so apercebidas. Mesmo no aprendizado do nome de objetos, e mesmo nos restringindo apenas
a interaes entre pais e filhos dentro de um ambiente familiar de apoio, de 30 a 50 por cento
das vezes em que uma palavra usada, as crianas no esto observando o objeto sobre o qual o
adulto est falando (Collins, 1977; Harris et al., 1983). Mesmo assim, crianas so capazes de
aprender o significado de nomes de objetos e aes que no so observveis no momento em
que as respectivas palavras so pronunciadas. Na maioria das vezes que adultos utilizam verbos,
as aes s quais os verbos se referem no esto ocorrendo (Gleitman, 1990; Tomasello, 1992).
A palavra abrir, por exemplo, frequentemente utilizada sem que nada esteja sendo aberto.
Alm disso, a hiptese associativa prev que, antes das crianas terem dados suficientes para
convergirem para a hiptese correta, elas deveriam cometer frequentes erros de mapeamento.
Porm, estes erros so raros.
Aprendizagem por reforo poderia ser pensada com uma alternativa, porm esta hiptese
tambm encontra problemas. Crianas no necessitam de correo para aprender o significado
das palavras (Lieven, 1994). Crianas mudas aprendem o significado das palavras to bem
quanto crianas sem esta limitao (Stromswold, 1994). Assim, o fato de que a aquisio do
41
nome de objetos normalmente rpida e sem erros sugere que ela no seja uma forma puramente
estatstica de aprendizagem.
Outra dificuldade foi exemplificada por Quine (1960): um coelho branco passa correndo e
um nativo diz Gavagai. Algum que no saiba o significado de gavagai poderia imaginar que
significa coelho, porm neste contexto existem infinitos significados logicamente possveis para
gavagai. A palavra tambm poderia se referir quele coelho em especfico, ou aos mamferos,
ou aos animais, ou a alguma parte do coelho, ou a branco, ou a felpudo, ou apenas aos coelhos
que correm, ou at mesmo ao ato de correr. Outros problemas ainda podem ser considerados,
por exemplo: como saber se gavagai o nome de alguma coisa ou apenas um rudo feito pelo
nativo. Ele poderia ainda estar apenas falando consigo mesmo, ou dizendo Veja! ou Estou
entediado. Como saber que h apenas uma palavra e no duas, gava e gai?
Estas dificuldades deixam claro que a identificao de outros tipos de habilidades necessria
para uma modelagem adequada da aprendizagem de palavras.
2.1.4
Habilidades Necessrias para Aprender Palavras
Bloom (2002) sugere que o aprendizado de palavras requer diferentes capacidades cognitivas,
que em geral servem para outros propsitos, mas que ao trabalhar juntas tornam possvel a
aprendizagem de palavras. O estudo da aprendizagem de palavras pode dar dicas sobre quais so
estas capacidades e como elas interagem durante o desenvolvimento. Bloom (2002) identifica
como requisitos necessrios a habilidade de inferir as intenes de outros, a habilidade de
adquirir conceitos, a apreciao de estruturas sintticas, e habilidades memorizao como o
mapeamento rpido.
2.1.5
Conceitos e Categorizaes
Palavras no so necessariamente pensamentos. Pensamento rico e abstrato possvel sem palavras, e muito do que acontece na aprendizagem de palavras estabelecer uma correspondncia
entre smbolos de uma linguagem natural e conceitos que existiam antes, e independentemente
da aquisio daquela linguagem (Bloom, 2002, p.259). Como Fodor (1975) coloca, todo
aprendizado de idioma na verdade o aprendizado de um segundo idioma. O primeiro idioma
seria o aprendizado da linguagem do ambiente. Ao menos em algumas ocasies, quando
as crianas aprendem uma nova palavra, fica claro que elas j tinham aprendido o conceito
associado anteriormente (Bloom, 2002, p.241).
Propriedades diferentes so relevantes para uma classificao adaptativa de diferentes
entidades. Para objetos rgidos, por exemplo, a forma altamente relevante, que como ns
normalmente distinguimos mesas e cadeiras. Mas para as substncias, cor e textura so o
42
que importa: um crculo de pasta branca provvel que tenha as mesmas propriedades no
observveis (tais como gosto) de um quadrado de massa branca, mas no as de um crculo
de espuma vermelha. Alguns animais sofrem transformaes radicais de forma, como cobras,
outros no, como a estrela do mar. E uma mesma entidade pode ser categorizada de diferentes
maneiras, dependendo do tipo de induo que preciso fazer. Por exemplo, propriedades
diferentes so relevantes para determinar se algo venenoso ou se flutua (Bloom, 2002, p.149).
Ao considerar objetos como pontos em um espao multidimensional, e similaridades e
categorias como grupos de objetos, o encolhimento ou alongamento das diferentes dimenses,
pode tornar objetos mais semelhantes ou mais distintos (Nosofsky, 1988), modificando os
agrupamentos.
No entanto, dificuldades so encontradas ao tentar definir categorias mais abstratas baseandose em propriedades de seus objetos e no h uma teoria capaz de explicar precisamente como
categorias mais abstratas podem ser construdas a partir de categorias perceptivas.
2.1.6
Papel dos Rtulos
Como Markman e Hutchinson (1984) colocam, o papel das palavras (ou rtulos) dizer para a
criana que a categoria, e no alguma relao espacial ou temtica relevante naquele contexto.
Isso chama a ateno para uma categoria pr-existente na mente da criana, mas no faz com
que uma nova categoria passe a existir.
Por outro lado, evidncias sugerem que a exposio a rtulos de categorias em aprendizagem
artificial pode aumentar a sensibilidade a certas propriedades perceptivas (Goldstone, 1994) e
que a mera presena de rtulos faz com que as pessoas exagerem diferenas entre grupos (Tajfel
e Wilkes, 1963). Muitos psiclogos do desenvolvimento prope que a exposio a palavras
pode servir para estabelecer as delimitaes de novos conceitos (Bloom, 2002, p.250).
Plunkett et al. (2008) apresentam uma srie de experimentos que demonstram que os rtulos
podem desempenhar um papel causal na formao de categorias durante a infncia. Quando
objetos foram apresentados para crianas sem o uso de rtulos elas aprenderam duas categorias.
Quando foram apresentados rtulos correlacionados com as informaes das categorias visuais,
as crianas tambm aprenderam duas categorias, como se os rtulos no influenciassem. No
entanto, quando foram apresentados rtulos no correlacionados com as informaes visuais, i.e.,
escolhidos aleatoriamente, a formao de categorias foi totalmente interrompida. Finalmente,
o uso de um rtulo nico para todos os objetos levou crianas a aprender apenas uma ampla
categoria que inclua todos os objetos. Estes resultados demonstram que, mesmo antes das
crianas comearem a produzir suas primeiras palavras, os rtulos que ouvem podem sobrepor
a maneira como elas categorizam objetos.
43
Palavras podem servir como uma dica de que objetos diferentes pertencem mesma categoria
(ex.: h diferentes tipos de dinossauros), mas no podem ser utilizadas de uma forma definitiva,
uma vez que uma mesma palavra pode ser utilizada para representar conceitos distintos (ex.;
manga da camisa ou a fruta) (Bloom, 2002, p.253).
2.1.7
Aprendizagem Cross-Situacional
A aprendizagem cross-situacional um mecanismo em que o significado das palavras aprendido ao longo de vrias exposies, mesmo havendo incerteza sobre o significado correto em
cada exposio. Em experimentos cross-situacionais, vrias palavras so pronunciadas (rtulos)
enquanto os indivduos observam vrias imagens de objetos (referentes). H uma correspondncia entre rtulos e referentes que se espera que os indivduos sejam capazes de aprender aps
um certo nmero de apresentaes.
H uma ampla gama de evidncias experimentais (Yu e Smith, 2007; Yurovsky et al., 2013;
Trueswell et al., 2013) mostrando que os seres humanos so efetivamente capazes de aprender
palavras usando aprendizagem cross-situacional, mesmo em situaes onde h altos nveis de
incerteza sobre o referencial correto (Smith et al., 2011). Ou seja, exposies com mais de trs
rtulos e referentes sendo apresentados ao mesmo tempo.
Duas hipteses tm sido consideradas para explicar este tipo de aprendizagem (Yu e Smith,
2012). Na hiptese da Aprendizagem Estatstica, os indivduos levam em considerao
mltiplas conjecturas sobre as possveis associaes rtulo-referente, simultaneamente. Ento,
medida que se seguem as exposies, ocorrer presumidamente um aumento na associao
entre um rtulo e seu referente mais frequente e uma reduo na associao entre este rtulo
e os demais referentes, de forma que as associaes corretas iro sobressair-se em relao as
associaes erradas.
Por outro lado, na Hiptese e Teste o participante levanta uma nica conjectura de
mapeamento ao ouvir cada rtulo e mantm essa conjectura para ser reavaliada em ensaios
subsequentes. Se a conjectura for verificada novamente, o indivduo solidifica esta associao
rtulo-referente. Se, em contrapartida, o palpite for inconsistente com alguma observao
posterior, o participante abandona essa interpretao e postula uma nova, que por sua vez, ser
confirmada ou rejeitada subsequentemente.
Yu e Smith (2012) criaram modelos computacionais para cada uma destas hipteses e ambos
os modelos foram capazes de reproduzir resultados experimentais. Alm disso, Fontanari
et al. (2009) mostraram que tambm possvel modelar este tipo de aprendizagem atravs
de Neural Modeling Fields (NMF) (Perlovsky, 2001). NMF , essencialmente, um algoritmo
determinstico, auto-consistente e iterativo, projetado para maximizar a similaridade entre
44
os sinais de entrada e os modelos construdos pelo algoritmo para representar estes sinais.
Os resultados das simulaes mostraram que NMF pode encontrar uma soluo tima para
representar as associaes. A soluo tima no sentido de que o algoritmo cria categorias
distintas para todas as associaes rtulo-referente corretas e atribui todas as associaes erradas
para uma nica categoria.
Maiores detalhes sobre os experimentos cross-situacionais sero fornecidos nos experimentos apresentados no Captulo 8.
2.1.8
Mapeamento Rpido
O mapeamento rpido a habilidade que as pessoas possuem de fazer associaes rapidamente,

por exemplo, com apenas uma apresentao, e que podem se manter por longo prazo. Este
tipo de associao exibido na aprendizagem de palavras e na memorizao de fatos relatados, transmitidos socialmente (Bloom, 2002, p.26). Porm, foi observado que em tarefas de
memorizao da localizao ou das propriedades de objetos do ambiente, o mapeamento rpido
no ocorre ou no perdura, talvez porque no seja necessrio armazenar informao que possa
ser facilmente recuperada do ambiente, diferentemente da informao transmitida socialmente
(Bloom, 2002, p.35). Experimentos mostram que adultos no percebem mudanas no ambiente,
ocorridas durante um momento de distrao, mesmo quando as mudanas so relacionadas a
objetos que so o foco da ateno (Simons e Levin, 1998).
Outra caracterstica interessante da associao criada entre palavras e significados a
velocidade com a qual essa associao pode ser recuperada. Enquanto recuperar determinados
fatos arbitrrios na mente pode ser considerado um processo lento e custoso, o acesso ao
significado das palavras em geral rpido e sem esforo. Ao falar normalmente, pessoas
produzem algo em torno de trs palavras por segundo.
2.1.9
Teoria da Mente
Bloom (2002) aponta que quando as crianas aprendem que coelhos comem cenouras, elas
esto aprendendo algo sobre o mundo externo, mas quando descobrem que coelho se refere a
coelhos, elas esto aprendendo uma conveno arbitrria compartilhada por uma comunidade
de pessoas, uma maneira implcita e acordada de se comunicar. Portanto, quando as crianas
aprendem o significado de uma palavra, saibam elas ou no, esto aprendendo algo sobre os
pensamentos de outras pessoas.
De fato, evidncias mostram que a aprendizagem de palavras requer alguma compreenso
dos pensamentos dos outros, o que chamado de teoria da mente, leitura da mente,
cognio social, ou compreenso pragmtica (Miller, 2006). Esta habilidade estaria por trs
45
de como as crianas aprendem as quais entidades as palavras se referem, como as palavras se

relacionam entre si, e como as palavras podem servir como sinais de comunicao. A capacidade
de ler as intenes referenciais de outra pessoa ao proferir uma palavra utilizada para contornar
problemas de identificao da referncia, como os apontadas por Quine (1960).
Finalmente, as teorias associativas, em geral so modeladas utilizando-se modelos conexionistas, porm, vale ressaltar que a rejeio das teorias associativas de aprendizagem de palavras
no implica na rejeio do emprego de mecanismos conexionistas para tal fim. H uma diferena
entre a alegao de que a aprendizagem de palavras no feita atravs de uma sensibilidade
covariao estatstica e a afirmao mais forte de que os mecanismos que fundamentam a aprendizagem de palavras, quaisquer que sejam, no surgem a partir de algoritmos de aprendizagem
conexionistas. Bloom (2002) sugere que as crianas aprendem o significado das palavras atravs
da teoria da mente. Se ele estiver certo, ento uma implementao conexionista puramente
associativa do aprendizado de palavras, invivel. Mas deixa em aberto a possibilidade de que
os mecanismos subjacentes aprendizagem de palavras, enquanto que em si no puramente
associativos, so de alguma forma o produto de mecanismos de aprendizagem associativa. Em
particular, se uma teoria conexionista pode explicar a origem e a natureza das capacidades
relevantes da teoria da mente, ento o conexionismo consistente com os fatos da aprendizagem
de palavras.
2.2
Contribuies da Neurolingustica
Nesta seo sero revisadas as principais estruturas cerebrais relacionadas com a linguagem,
desde os sistemas sensoriais mais importantes para o desenvolvimento da linguagem, i.e.,
viso e audio, at as estruturas cerebrais capazes de reconhecer palavras e sentenas, de
identificar o significado associado, e de produzir uma resposta verbal adequada. A maneira
como a informao sensorial adquirida, organizada e distribuda para os vrios centros
de processamento do crebro, fornece conhecimentos importantes sobre a forma como o
processamento da linguagem realizado. Este assunto ser tratado na Seo 2.2.1 e Seo 2.2.2.
O processamento propriamente dito das informaes lingusticas ser tratado na Seo 2.2.3.
2.2.1
Organizao do Sistema Visual
A luz que adentra aos olhos refratada medida que passa atravs da crnea, em seguida, passa
atravs da pupila e refratada novamente pelo cristalino. A crnea e o cristalino atuam em
conjunto como uma lente composta para projetar uma imagem invertida sobre a retina. Em cada
retina h cerca de 120 milhes de foto-receptores (cones e bastonetes) (Gazzaniga e Heatherton,
46
2.2. CONTRIBUIES DA NEUROLINGUSTICA
Figura 2.1 Vista superior das vias visuais humanas (Miikkulainen et al., 2005).
2005). Quando a luz atinge estes foto-receptores, se inicia uma cascata de eventos qumicos e
eltricos que em ltima anlise provocam impulsos nervosos. Estes so enviados para vrios
centros visuais do crebro atravs das fibras do nervo ptico.
As clulas da retina realizam um tipo de processamento simples, uma espcie de deteco
de borda na entrada, respondendo mais fortemente as fronteiras entre s reas claras e escuras.
Clulas do tipo centro-ON reagem mais fortemente a uma mancha clara de luz rodeada por
uma regio escura (campo receptivo). Clulas do tipo centro-OFF, reagem mais fortemente a
uma rea escura cercada de luz. O tamanho do campo receptivo determina a preferncia de
frequncia espacial dos neurnios (Miikkulainen et al., 2005).
Conforme ilustrado na Figura 2.1, a informao de cada metade do campo visual viaja em
vias separadas. Por exemplo, a luz que entra no olho a partir do campo visual direito atinge a
metade esquerda da retina na superfcie posterior de cada olho. As entradas do campo direito de
cada olho se juntam no local denominado quiasma ptico, e viajam para o Ncleo Genicular
Lateral (LGN) do tlamo esquerdo, em seguida, para o crtex visual primrio, ou rea V1, do
hemisfrio esquerdo. Os sinais de cada olho so mantidos separados em diferentes camadas
neuronais do LGN, e so combinados em V1. Existem tambm vias mais diretas para outras
estruturas subcorticais a partir do quiasma e LGN, tais como o colculo superior e pulvinar (no
mostrados na figura).
Neurnios na LGN tm propriedades semelhantes s clulas do gnglio retinal, e tambm
so dispostos retinotopicamente, de modo que clulas LGN prximas respondem a pores
prximas da retina. As clulas ON da retina se conectam com clulas ON no LGN e as clulas
OFF na retina se conectam com clulas OFF no LGN. Devido a esta independncia, as clulas
47
ON e OFF so frequentemente descritas como canais de processamento distintos: o canal ON e

o canal OFF (Miikkulainen et al., 2005).
V1 a primeira rea cortical de processamento visual, as reas anteriores so denominadas
subcorticais. A sada de V1 segue para diferentes reas corticais superiores, incluindo as reas
subjacentes de reconhecimento de objetos de rostos (Miikkulainen et al., 2005).
Crtex Visual
O termo crtex visual refere-se ao crtex visual primrio (tambm conhecido como crtex
estriado ou V1) e reas corticais extra-estriais como V2, V3, V4, e V5. O crtex visual do
crebro a parte do crtex cerebral responsvel pelo processamento de informao visual. Ele
est localizado no lobo occipital, na parte de trs do crebro.
Esta uma das regies mais estudadas do crebro e muitos aspectos do seu desenvolvimento
foram mostrados ser dependentes da atividade neural e da experincia visual. Entender esses
processos deve ajudar na descoberta de teorias gerais de aprendizagem, memria e representao
do conhecimento, aplicveis para todo crtex (Swindale, 1996). O acesso ao crtex visual
obtido atravs de inmeras tcnicas de registro e de imagiologia e permite mapear comportamentos de alto nvel quase que diretamente para mecanismos neurais (Miikkulainen et al.,
2005).
V1, tal como outras partes do crtex, composta de uma placa de neurnios e outras
clulas com duas dimenses, ligeiramente dobrada. Assim como os neurnios no LGN, em
V1 neurnios prximos tambm respondem a pores vizinhas da retina e so seletivos com
relao a frequncia espacial. Mas ao contrrio dos neurnios LGN, os neurnios em V1 so
binoculares, respondendo a estmulos de ambos os olhos, embora geralmente preferindo um
olho em relao ao outro. Alm disso, algumas clulas em V1 preferem combinaes de cores
especficas, como as fronteiras vermelho/verde ou azul/amarelo.
Os neurnios do crtex visual so organizados em seis camadas com diferentes caractersticas
anatmicas. Conexes do tlamo chegam em V1, normalmente terminando na camada 4.
Neurnios em outras camadas formam ligaes locais dentro de V1 ou se conectam com reas
superiores de processamento visual. Por exemplo, muitos neurnios nas camadas 2 e 3 tm
conexes laterais de longo alcance com neurnios vizinhos em V1. H ainda conexes de
realimentao extensas vindas de reas mais elevadas (Van Essen et al., 1992).
Colunas de neurnios ao longo das camadas em geral tm preferncias semelhantes. Estas se
repetem lateralmente em intervalos regulares (aproximadamente 1-2 mm) em todas as direes,
de modo que cada tipo de preferncia seja representada ao longo do tecido (Figura 2.2).
Este arranjo de preferncias forma um mapa que varia suavemente para cada dimenso.
Por exemplo, a preferncia por orientao representada atravs do crtex em um mapa de
48
Figura 2.2 Preferncias por caractersticas no crtex visual do macaco. As clulas so coloridas de
acordo com a sua preferncia de orientao. Neurnios prximos no mapa, em geral, preferem orientaes
semelhantes, formando grupos de mesma cor (Miikkulainen et al., 2005).
orientao da entrada da retina. Nesse mapa, cada localizao na retina mapeada para uma
regio distinta, com cada orientao possvel no local da retina representada por clulas seletivas
a orientaes diferentes, mas prximas.
Talvez a funo mais importante do crtex visual seja o agrupamento e a segregao
perceptual, ou o processo de identificao dos constituintes de uma cena visual que juntos
formam objetos individuais. No nvel dos mapas de orientao, agrupamento perceptual se
manifesta na integrao de contorno.
Neurnios em reas superiores tendem a ter maiores campos receptivos, respondendo a
estmulos de uma maior gama de localizaes da retina, e com isso processam caractersticas visuais mais complexas. Em particular, regies corticais extra-estriadas, que respondem
preferencialmente a faces foram encontradas em macacos e em seres humanos adultos.
Estas reas seletivas a faces recebem informao visual de V1. Elas so fracamente segregadas em regies que processam faces de maneiras diferentes. Por exemplo, algumas reas
realizam a deteco de face, ou seja, respondem a diversos estmulos inespecficos que lembram
faces (de Gelder e Rouw, 2000, 2001). Outras respondem seletivamente a expresso facial,
direes do olhar, ou exibem preferncia por rostos especficos.
A rea visual V5, tambm conhecida como rea visual MT (mdia temporal), uma regio
do crtex visual que se conjectura ter um papel importante na percepo do movimento, como
por exemplo a integrao dos sinais locais de movimento em percepes globais, alm da
49
coordenao de alguns movimentos dos olhos (Born e Bradley, 2005).

Simultanagnosia a incapacidade de perceber eventos simultneos ou objetos em um campo
visual. Estudos com pacientes da sndrome de Balint, associada com leses bilaterais do crtex
parietal posterior, percebem o mundo de forma irregular, como uma srie de objetos individuais
ou partes de objetos ao invs de perceber a totalidade de uma cena (Udesen e Madsen, 1992).
As conexes laterais parecem desempenhar um papel importante no funcionamento dos
tecidos corticais (Miikkulainen et al., 2005), por exemplo, (1) as conexes laterais conectam
reas com propriedades semelhantes, contendo neurnios com o mesmo tipo de preferncia de
orientao; (2) as conexes laterais so inicialmente uniformes, mas tornam-se irregulares logo
no incio do seu desenvolvimento como resultado da atividade neural; (3) conexes laterais se
desenvolvem aproximadamente o mesmo tempo em que as colunas de orientao e dominncia
ocular se formam; (4) ao integrar a informao de grandes pores do crtex, essas conexes
parecem auxiliar no agrupamento de caractersticas simples em mais complexas, tais como
bordas em objetos perceptuais e (5) o crtex visual no se torna esttico aps a maturao, mas
pode adaptar-se rapidamente (em minutos) aps leses na retina e alteraes semelhantes na
entrada visual. Vrios investigadores tm hipotetizado que as conexes laterais desempenham
um papel importante nesta adaptabilidade.
Memria Visual e Espacial
Estudos neuropsicolgicos indicaram a necessidade de distinguir entre a memria visual e espacial (Baddeley, 2003). Smith et al. (1995) sugerem uma distino entre vias de processamento
visual para a codificao de informaes de o que (objeto, via occipital-temporal-frontal) e
onde (localizao, via parietal-frontal-occipital) (Mishkin et al., 1983). Esta ideia apoiada
por estudos de neuroimagem, que amplamente se encaixam no padro previsto, embora outras
interpretaes sejam possveis (Della Sala e Logie, 2002). Outra caracterizao em termos de
uma distino dinmica (espacial) e esttica (padro) (Pickering, 2001). Alm disso, foi tambm
proposta uma dimenso cinestsica ou motora de codificao (Smyth e Pendleton, 1990).
Com relao memria de trabalho visual, sabe-se que ela limitada em capacidade,
tipicamente para cerca de trs ou quatro itens. Isso resulta no fenmeno da cegueira de mudana,
em que objetos em cenas podem mudar de cor, de posio ou desaparecer sem que as pessoas
percebam (ORegan et al., 1999; Simons e Levin, 1997). O mundo visual tipicamente persiste
ao longo do tempo, oferecendo um registro de memria permanente e fazendo com que a
reteno visual detalhada seja em grande parte desnecessria (ORegan, 1992). Objetos so
representados por atributos como localizao, cor e forma e estes atributos competem dentro de
uma determinada dimenso por capacidade de armazenamento, enquanto que as caractersticas
de dimenses distintas no competem (Luck e Vogel, 1997; Vogel et al., 2001). Wheeler
50
e Treisman (2002) propem um modelo em que os valores de recursos so armazenados

em registros de dimenses paralelas especficos ou caches, com intraconcorrncia, mas no
interconcorrncia de registros. A reteno de objetos dependente da ligao em conjunto de
caractersticas constituintes, um processo que exige ateno.
2.2.2
Organizao do Sistema Auditivo
Embora no faa parte do sistema nervoso, o sistema auditivo o alimenta diretamente, realizando
uma transformao de tempo e frequncia das ondas sonoras em potenciais de ao neuronais.
Ele pode ser dividido em duas partes (Figura 2.3): sistema auditivo perifrico e sistema auditivo
central. O sistema auditivo perifrico composto pelo ouvido externo, ouvido mdio, ouvido
interno. O sistema auditivo central composto pelo ncleo coclear, o corpo de trapzio,
complexo olivar superior, lemnisco lateral, colculo inferior, ncleo geniculado medial (Kandel
et al., 2000).
Figura 2.3 Anatomia do ouvido humano. Na representao o canal auditivo est exagerado. Traduzido
da Wikipedia.org sob licena creative commons.
As dobras da cartilagem ao redor do canal do ouvido so chamadas de pavilho auricular. As

ondas sonoras so refletidas e atenuadas quando atingem o pavilho auricular, e essas mudanas
fornecem informaes adicionais que iro ajudar o crebro a determinar a direo de onde vm
os sons. O canal auditivo amplifica sons entre 3 e 12 kHz. E em sua extremidade interna se
encontra o tmpano (ou membrana timpnica), demarcando o fim do ouvido externo e o incio
do ouvido mdio.
As ondas sonoras que viajam atravs do canal auditivo atingem o tmpano fazendo-o vibrar.
Esta onda de informao viaja atravs da cavidade do ouvido mdio atravs de uma srie de
51
ossos delicados. Esses ossculos funcionam como uma alavanca, convertendo vibraes de
baixa presso em vibraes de alta presso que atingem uma membrana menor chamada janela
oval (ou elptica). Essa elevao de presso necessria porque aps a janela oval se encontra
lquido em vez de ar. O ouvido mdio conduz a informao de som em forma de onda at a
cclea, onde ser convertida em impulsos nervosos.
A cclea tem trs sees cheias de lquido, e conduz ondas de fluido impulsionado pela
presso atravs da membrana basilar separando duas das sees. O rgo de Corti est localizado
neste duto da membrana basilar. Ele forma uma fita de epitlio sensorial que segue longitudinalmente para baixo por toda a escala mdia da cclea. Suas clulas ciliadas transformam as ondas
de fluido em sinais nervosos que so enviados para o crtex auditivo.
Crtex Auditivo
O crtex auditivo primrio (A1) a primeira regio cortical das vias auditivas. Ele se localiza
no lobo temporal na posio correspondente as reas de Brodmann 41 e 42 do crtex cerebral.
Neurnios em A1 so organizados de acordo com a frequncia do som a que eles respondem
melhor, formando um mapa topogrfico da cclea, assim como o crtex visual primrio (V1) e
o crtex sensorial somtico primrio (S1) tem mapas topogrficos de seus respectivos epitlios
sensoriais. Ao contrrio dos sistemas visuais e sensoriais somticos, a cclea j decompe o
estmulo acstico de modo que ele est disposto tonotopicamente ao longo do comprimento da
membrana basilar. Assim como em A1, a maior parte das estruturas auditivas ascendentes entre
a cclea e o crtex, formam mapas tonotpicos.
Ortogonalmente ao eixo de frequncia do mapa tonotpico se forma um arranjo de neurnios
dispostos em faixas. Os neurnios em uma faixa so excitados por ambos os ouvidos (binaurais),
enquanto que os neurnios ao lado das faixas so excitados por um ouvido e inibidos por outro.
O crtex auditivo primrio decompe a fala e outros sons complexos em representaes
elementares de tempo e frequncia antes de realizar processamento fontico e lxico de mais
alto nvel (Pasley et al., 2012). Esta anlise produz uma representao fiel das propriedades
espectro-temporais das formas de onda do som, incluindo as caractersticas acsticas relevantes
para a percepo da fala, como formantes, transies formantes, e taxa de slabas. No entanto,
relativamente pouco se sabe com relao a quais caractersticas especficas da linguagem natural so representadas no crtex auditivo intermedirio e de mais alta ordem. Em particular,
considera-se que o giro posterior superior temporal (pSTG), parte da rea de Wernicke, desempenha um papel crtico na transformao da informao acstica em representaes fonticas e
pr-lxicas. Acredita-se que o pSTG participa em uma etapa intermediria de processamento que
extrai caractersticas espectro-temporais essenciais para o reconhecimento de objetos sonoros e
descarta informaes no essenciais.
52
Estudos sugerem que as vias auditivas corticais de processamento so organizadas em duas

partes (o que e onde), semelhantemente ao crtex visual: uma via principal que se projeta
de cada uma das reas primrias sensoriais para o crtex parietal posterior, e uma outra via
no crtex temporal anterior (Rauschecker, 1998; Rauschecker e Tian, 2000). Supe-se que a
primeira via realiza o processamento espacial da audio enquanto que a segunda auxilia na
identificao de padres complexos ou objetos sonoros.
Estudos de imagem sobre o processamento da fala (Wessinger et al., 2001) relatam um
gradiente ntero-lateral ao longo do qual h um aumento na complexidade dos estmulos
preferenciais, de tons e rajadas de rudo para palavras e frases. Este tipo de organizao
hierrquica da via auditiva ntero-ventral dos seres humanos importante no reconhecimento de
padres auditivos e identificao de objetos. Com relao a percepo de fala, existe evidncias
de que os sons da fala so decodificados hierarquicamente, de forma que o crtex temporal
anterior responde em funo da inteligibilidade e no apenas da complexidade dos estmulos
(Scott et al., 2000; Narain et al., 2003; Scott et al., 2006).
2.2.3
Estruturas Cerebrais de Processamento da Linguagem
Originalmente, o processamento da linguagem no crebro foi concebido em termos associacionistas de centros e vias. Nesta viso, as informaes lingusticas visuais e auditivas so
processadas em regies corticais localizadas, com a passagem sequencial de informaes entre
regies atravs de tratos da massa branca. Embora este modelo esteja mais avanado do que a
teoria clssica, estritamente modular, ele continua a ser restritivo. Duffau (2008) aponta que
atualmente, uma viso hodolgica (em rede), vem ganhando fora, e considera que a linguagem
concebida como resultante do processamento distribudo e paralelo, realizado por grupos de
neurnios conectados, em vez dos centros individuais (McClelland e Rumelhart, 1985; McClelland e Rogers, 2003; Seidenberg e Mcclelland, 1989). Ao contrrio do modelo sequencial, no
qual um processo deve ser concludo antes que a informao atinja outro nvel de processamento
(Levelt, 1999). Esses novos modelos de redes independentes assumem que processamentos
diferentes podem ser realizados simultaneamente com realimentaes interativas (Caramazza,
1999; Dell et al., 1999).
Reconhecimento e Produo de Linguagem
Duas reas no interior da superfcie neocortical do hemisfrio esquerdo so amplamente relacionadas com a linguagem (Figura 2.4). Uma a rea de Wernicke, localizada no lobo temporal
superior e coextensiva com o lbulo parietal inferior, a qual responsvel pela capacidade de
compreender a fala. A outra a rea de Broca, que controla grande parte da capacidade de falar
53
Figura 2.4 Regies do crebro relacionadas com a linguagem. Modificada de The Brain from Top to
Bottom (thebrain.mcgill.ca) sobre licena copyleft.
e est localizada ao longo da convexidade frontal esquerda (Joseph, 1990).

Leses na rea de Wernicke provocam grande dificuldade em compreender linguagem falada
ou escrita (Hecaen e Albert, 1978), o que conhecido como afasia1 receptiva. Este transtorno
presumidamente devido em parte a uma reduo na capacidade de discernir as unidades
individuais da fala e sua ordem temporal. Nos indivduos com este tipo de leso, a compreenso
melhor quando as palavras faladas so separadas por intervalos de tempo. J a capacidade de
fala destes pacientes parcialmente preservada, mas, uma vez que a rea de Wernicke tambm
atua na codificao de estmulos lingusticos de expresso, a linguagem expressiva torna-se
severamente anormal e caracteriza-se por non-sequiturs (erros onde as concluses no se seguem
das premissas), neologismos, erros parafsicos, substituies de som e na ordem das palavras,
alm da omisso de pausas e de finais de frase (Hecaen e Albert, 1978).
Indivduos com leses na rea de Broca, mesmo aqueles com danos parciais, apresentam
capacidade de falar drasticamente reduzida. Estes indivduos apresentam distrbios que en1 Condio
mdica na qual uma pessoa no capaz de falar, escrever ou entender a fala ou a escrita por causa
de danos no crebro.
54
volvem gramtica, sintaxe e redues no vocabulrio e na sua fluncia, tanto na linguagem

falada quanto na escrita (Goodglass e Berko, 1960; Milner, 1964). No entanto, a capacidade
de compreender a linguagem muitas vezes mantida, mesmo que parcialmente (Joseph, 1990).
Este distrbio conhecido como afasia de Broca, afasia expressiva ou afasia motora (Levine e
Sweet, 1982). Por outro lado, apesar das dificuldades em falar, indivduos com afasia expressiva
so capazes de fazer declaraes emocionais, podendo at mesmo ser capazes de cantar palavras
que no podem falar em discurso normal (Gardner, 1975; Goldstein, 1943; Smith, 1966; Smith
e Burklund, 1966). Alm disso, uma vez que indivduos com afasia expressiva so capazes de
compreender, eles so cientes do seu dficit e tornam-se deprimidos. Na verdade, indivduos
com as menores leses tornam-se mais deprimidos (Robinson e Benson, 1981).
Diversos conjuntos de fibras neurais (fascculos) interconectam regies sensoriais, regies de
processamento bsico, e de processamento de alto nvel da linguagem e desempenham um papel
fundamental em tarefas complexas como associao e reconhecimento. O fascculo longitudinal
inferior carrega a informao visual de reas occipitais para o lobo temporal (Catani et al., 2003)
e provvel que desempenhe um papel importante no reconhecimento de objetos visuais e
na associao de representaes de objetos com seus respectivos rtulos lxicos (Mummery
et al., 1999). O fascculo uncinado interliga o lobo temporal anterior com a rea rbito-frontal,
incluindo o giro frontal inferior (Catani et al., 2002), e pode desempenhar um papel importante
na recuperao lxica, associaes semnticas, e aspectos de nomenclatura que requerem
conexes de componentes temporais frontais da rede de linguagem (por exemplo, a nomeao
de aes) (Grossman et al., 2004; Lu et al., 2002). O fascculo fronto-occipital inferior a nica
ligao direta entre o crtex occipital e frontal no crebro humano (Catani, 2007). Considerase como parte do sistema de neurnios espelho (Seo 2.2.3) e h evidncias preliminares
sugerindo que este trato no est presente em macacos. A relevncia deste fascculo para lngua
no totalmente compreendida, mas pode envolver a leitura e escrita (Catania e Mesulamb,
2008). Curiosamente, em nvel de sentena, este fluxo ventral foi tambm considerado ligao
entre a fonologia e compreenso da sentena e, assim, podendo desempenhar um papel na
aquisio da linguagem (Sakai, 2005).
O fascculo arqueado foi originalmente considerado como conectando as regies de Broca e
de Wernicke. Danos a essa via podem causar uma forma de afasia conhecida como afasia de
conduo, onde a compreenso auditiva e articulao da fala so preservadas, mas as pessoas
encontram dificuldades em repetir um discurso ouvido. No entanto, estudos de tratografia
mostram que a anatomia do fascculo arqueado mais complexa do que se pensava originalmente
(Catani e ffytche, 2005). Alm do segmento longo e direto que liga rea de Wernicke com a
rea de Broca, existe uma via indireta que consiste em dois segmentos, um segmento anterior
que liga a rea de Broca com o lbulo parietal inferior e um segmento posterior que une o
55
lobo parietal inferior com territrio Wernicke. Este arranjo no s apoia a arquitetura mais
flexvel do processamento paralelo (Mesulam, 1990), como tambm est de acordo com alguns
dos modelos clssicos neurolgicos de afasia (Compston, 2006), modelos contemporneos
de memria de trabalho verbal (Baddeley, 2003) e as descobertas de neuroimagem funcional
(Jung-Beeman, 2005; Sakai, 2005; Stephan et al., 2003).
Compreenso da Sintaxe
Desde que trabalhos na dcada de 1960 (Goodglass e Berko, 1960; Milner, 1964) mostraram
que pacientes com afasia de Broca tm dificuldade em compreender frases sintaticamente
complexas, o processamento sinttico foi correlacionado com a rea de Broca. No entanto, vem
se acumulado evidncias que indicam que o lobo temporal anterior pode abrigar uma rede que
se comporta como um sistema de computao sinttica na medida em que parece ser altamente
correlacionada com a presena ou a ausncia de informao sinttica numa frase (Vandenberghe
et al., 2002; Dronkers et al., 2004; Rogalsky e Hickok, 2009). Alm disso, estudos recentes
(Brennan et al., 2012) examinando a base neural do processamento sinttico e lxico natural,
correlacionando a evoluo temporal de atividade cerebral com mudanas nas propriedades
lingusticas de um estmulo de fala natural (narrao de histrias), mostram que medidas de
complexidade das estruturas sintticas esto correlacionadas com a atividade no lobo temporal
anterior esquerdo, indicando que esta regio contribui para o processamento da composio
sinttica.
Prosdia
Embora a linguagem seja muitas vezes discutida em termos verbais, h outro aspecto importante
da expresso e compreenso lingustica, pelo qual um orador pode transmitir e um ouvinte
discernir inteno, atitude, sentimento, humor, contexto e significado: a prosdia. Alm de
gramaticalmente descritiva a linguagem tambm emocional. Um ouvinte compreende no
apenas o contedo e gramtica do que dito, mas tambm a emoo e melodia do interlocutor.
Atualmente est bem estabelecido que regies do hemisfrio direito, como o giro temporal
medial (Glasser e Rilling, 2008), atuam na distino, interpretao e processamento das nuances
vocais e flexionais, incluindo intensidade, tenso, timbre, cadncia, tom emocional, frequncia,
amplitude, melodia, durao e entonao (Joseph, 2012). O hemisfrio direito ento capaz
de determinar e deduzir no s o que uma pessoa sente sobre o que ela est dizendo, mas o
motivo e o contexto em que ele est sendo dito, mesmo na ausncia de vocabulrio especfico
contendo esta informao ou outros denotativos caractersticos da lngua (Blumstein e Cooper,
1974; Dwyer e Rinn, 1981).
56
Sistema Espelho
Os neurnios-espelho so uma classe especial de neurnios viso-motores, originalmente descobertos na rea F5 do crtex pr-motor do macaco, que disparam, tanto quando o macaco faz
uma ao em particular, como tambm quando ele observa outro indivduo (macaco ou humano)
fazendo uma ao semelhante (Rizzolatti e Craighero, 2004). Por exemplo, o padro de ativao
produzido nesta regio ao observar um humano agarrando um objeto muito semelhante ao
padro de ativao produzido quando o macaco desempenha esta funo. Estudos com palavras
e frases semanticamente relacionadas a aes envolvendo a face, brao ou perna mostram ativao somatotpica do crtex sensrio-motor. A ativao rpida e em grande parte independente
da ateno. Alm disso, a estimulao do sistema motor tambm produz efeitos diferenciais
sobre o reconhecimento de palavras de ao de tipo semntico diferente.
Keysers et al. (2003) descrevem uma populao de neurnios no crtex pr-motor ventral
do macaco que se ativam tanto quando o animal executa uma ao especfica quanto ouve ou
v a mesma ao realizada por um outro indivduo. Esses neurnios espelho audiovisuais,
portanto, representam aes independentemente de onde elas so provenientes. A magnitude
das respostas auditivas e visuais no diferiu significativamente em metade dos neurnios.
No crebro, atividade cerebral consistente com a de neurnios espelho foi encontrada no
crtex pr-motor, na rea motora complementar, no crtex somatossensorial primrio e no crtex
parietal inferior. No entanto, normalmente no possvel estudar neurnios individuais no
crebro humano, por isso a maioria das evidncias de neurnios espelho em humanos indireta.
Experimentos com imagens do crebro usando ressonncia magntica funcional mostraram que
o crtex frontal inferior e lobo parietal superior se ativam tanto quando uma pessoa executa
uma ao quanto quando a pessoa v outro indivduo executar uma ao. Tem sido sugerido
que estas regies do crebro contm neurnios espelho, e que definam o sistema de espelhos
neurnio humano.
A hiptese do sistema espelho sugere que a evoluo expandiu um sistema de espelho bsico
para aprender a agarrar, em conjunto com outras regies do crebro, primeiro para permitir a
simples imitao (compartilhado entre o ancestral comum de humanos e os grandes smios) e
da para imitaes mais complexas (exclusivas na linha dos homindeos), o que inclui a super
imitao (imitar at mesmo quando a ao parece ilgica), uma aparente desvantagem que de
fato essencial para a transmisso de habilidades humanas (Lyons et al., 2007). Esses avanos
na prxis apoiaram a emergncia da pantomima (uso de gestos) e da proto-sinalizaes e a
proto-linguagem. Esta capacidade, argumenta Arbib (2011), foi adequada para a evoluo
cultural, e o desenvolvimento da empatia, em seguida, para produzir linguagem.
57
2.3
Contribuies da Lingustica Computacional
Os mtodos atuais de processamento de linguagem natural esto em um meio termo entre

objetivos cientficos e tecnolgicos. Por um lado, isto reflete a crena de que a linguagem natural
to complexa que uma abordagem ad hoc sem a uma teoria de base bem especificada no
teria sucesso. Ento os objetivos tecnolgicos no podem ser alcanados sem a utilizao das
sofisticadas teorias desenvolvidas por linguistas, psicolinguistas e filsofos. Por outro lado, o
estado atual de conhecimento sobre o processamento de linguagem natural to preliminar
que no possvel construir um modelo cognitivo completamente correto. Ao invs disso, os
linguistas computacionais tentam construir sistemas que paream funcionar adequadamente
(Allen, 1994). possvel com isso construir modelos computacionais de compreenso e
produo de linguagem que atuam bem em domnios especficos.
2.3.1
Avaliao de Sistemas de Compreenso de Linguagem Natural
O que conta como compreenso pode variar significativamente de aplicao para aplicao.
Uma maneira bvia de avaliar um sistema deste executar seu programa e verificar o quo
bem ele desempenha a tarefa para qual foi desenvolvido. Se o programa se prope a responder
questes sobre uma base de fatos, ento devemos fazer perguntas para verificar o quo boas so
as respostas que ele produz. Se o sistema desenvolvido para participar de conversas simples
sobre um certo tpico, ento devemos tentar conversar com ele. Esta abordagem chamada de
avaliao de caixa preta, por que ela avalia o sistema sem olhar dentro dele para ver como ele
funciona. Enquanto que este mtodo de avaliao pode ser o melhor teste das capacidades do
sistema, ele problemtico em estgios iniciais de pesquisa, pois os resultados da avaliao
podem ser enganosos. Algumas vezes, tcnicas que produzem bons resultados no curto prazo
no produzem bons resultados em longo prazo (Allen, 1994).
Um mtodo alternativo identificar os vrios subcomponentes do sistema e ento avaliar
cada componente com testes apropriados. Isto chamado avaliao de caixa branca, porque
vemos dentro da estrutura do sistema. O problema com esta abordagem que ela requer um
tipo de consenso sobre quais deveriam ser os componentes de um sistema de linguagem natural.
Apesar das dificuldades, avaliaes so cruciais para a rea, uma vez que muito pouco pode
ser concludo ao examinar alguns exemplos que um sistema em particular consegue tratar.
muito difcil para as pessoas no atribuir muito mais inteligncia a um sistema do que de fato ele
possui. Veja o exemplo do famoso ELIZA de Weizenbaum (1966), um programa bem simples,
possuindo apenas 204 linhas de cdigo fonte, que basicamente, simulava um dilogo entre
paciente e psiclogo utilizando as frases do paciente para formular novas perguntas. ELIZA
58
2.3. CONTRIBUIES DA LINGUSTICA COMPUTACIONAL
parece ser inteligente porque as pessoas utilizam sua prpria inteligncia para dar sentido ao
que o programa diz. No entanto, ELIZA no tem conhecimento sobre a estrutura da linguagem
e no retm informaes sobre o contedo da conversao.
Se considerarmos apenas a performance de curto prazo como critrio de avaliao, a
tendncia que sero criados apenas sistemas no estilo do ELIZA, e o campo no ir superar
as limitaes das abordagens simples. Para evitar este problema, necessrio aceitar certas
suposies tericas sobre a arquitetura de sistemas de linguagem natural e desenvolver medidas
de desempenho especficas para seus diferentes componentes, ou ento preciso descontar a
superestimao dos resultados, at que alguma medida de avaliao razoavelmente de alto nvel
seja obtida. S ento ser possvel que as comparaes entre sistemas comecem a refletir seu
potencial para longo prazo.
2.3.2
Diferentes Nveis de Anlise da Linguagem
No se pode explicar o comportamento lingustico sem tambm levar em considerao o

conhecimento geral sobre o mundo que as pessoas tm e suas capacidades de raciocnio. Porm,
um sistema de linguagem natural deve utilizar um considervel conhecimento sobre a estrutura
da linguagem, incluindo o que so palavras, como elas se combinam para formar sentenas, o
que as palavras significam, como seu significado contribui para o significado da frase, e assim
por diante.
A seguir so listadas as diferentes formas de conhecimento relevante para a compreenso de
linguagem natural (Allen, 1994):
Tipos de Conhecimento
Conhecimento fontico e fonolgico: Descreve como palavras esto relacionadas com
sons e as compe. Tal conhecimento crucial para sistemas baseados em fala.
Conhecimento morfolgico: Descreve como palavras so construdas a partir de unidades de significado mais bsicos chamados de morfemas. Um morfema a unidade
primitiva de significado em uma palavra. Por exemplo, a palavra amigvel
derivvel do significado do substantivo amigo e do sulfixo vel, que o transforma
em um adjetivo.
Conhecimento sinttico: Descreve como palavras devem ser combinadas para formar
sentenas corretas e determina qual o papel que cada palavra desempenha na
estrutura da sentena e que frases so subpartes de outras frases.
Conhecimento semntico: Informa o significado das palavras e como estes significados
se combinam em sentenas para formar o significado da sentena. Este o estudo
59
do significado independente de contexto, ou seja, o significado de uma sentena

independentemente do contexto no qual ela utilizada.
Conhecimento pragmtico: Descreve como sentenas so utilizadas nas diferentes
situaes e como seu uso afeta a interpretao da sentena.
Conhecimento de discurso: Descreve como as sentenas imediatamente antecedentes
afetam na interpretao do significado da sentena seguinte. Esta informao
especialmente importante na interpretao de pronomes e dos aspectos temporais
da informao transmitida.
Conhecimento do mundo: Inclui o conhecimento geral sobre a estrutura do mundo que
os usurios da linguagem devem ter para, por exemplo, manter uma conversa. Inclui
o que cada usurio da linguagem deve saber sobre os conhecimentos e objetivos
dos outros usurios.
Estas definies so mais caractersticas imprecisas do conhecimento do que classes distintas
de conhecimento. Um fato particular pode incluir aspectos de diferentes classes de conhecimento
e um algoritmo pode precisar extrair informao de vrios nveis simultaneamente.
Considere as sentenas do exemplo a seguir, modificado de Allen (1994), como frases
candidatas para um livro sobre poltica:
Exemplo
1. Dependendo do sistema de governo, o presidente da repblica pode ou no
acumular o poder executivo.
2. Sapos verdes tem narizes grandes.
3. Ideias verdes tem narizes grandes.
4. Grandes tem verdes ideias narizes.
A sentena 1 parece razovel de se encontrar em um livro sobre poltica. As demais sentenas

violam algumas das regras dos nveis anteriormente descritos. A sentena 2 est bem formada
sintaticamente mas no pragmaticamente, uma vez que no parece razovel ela pertencer a um
livro sobre poltica. A sentena 3, a pesar de estar correta sintaticamente, ela viola no apenas
a pragmtica mas tambm a semntica, uma vez que ideias no possuem cores nem narizes.
A sentena 4, apesar de conter as mesmas palavras da sentena 3, ainda pior, pois se torna
ininteligvel ao violar a sintaxe. Mas sentenas podem ser, por exemplo, pragmaticamente bem
formadas, mesmo sendo sintaticamente mal formadas. Algo que ocorre com crianas em fase
de desenvolvimento ao cometer erros de subregularizaes, como por exemplo, ao dizer Eu j
60
fazi a tarefa, uma expresso perfeitamente compreensvel, apesar de mal formada.
2.3.3
Representao e Compreenso
A representao do significado de sentenas e textos um componente crucial para a compreenso da linguagem. Uma vez que uma palavra pode ter mltiplos sentidos, e essa ambiguidade
no permite que utilizemos sentenas em linguagem natural para representar significados em um
sistema sem as inferncias apropriadas para modelar a compreenso. O problema da ambiguidade parece a princpio muito mais simples do que ele realmente , porque as pessoas em geral
no percebem muitas das ambiguidades. Programas de processamento de linguagem natural, no
entanto precisam identificar e considerar todos os significados possveis de uma palavra.
Sendo assim, uma linguagem mais precisa necessria. Linguagens formais so especificadas atravs de blocos de construo muito simples. O fundamental a noo de smbolo
atmico, o qual distinguvel de qualquer outro smbolo atmico simplesmente pela forma como
escrito. As propriedades a seguir so teis em uma representao formal: (1) a representao
deve ser precisa e livre de ambiguidades; (2) a representao deve capturar a estrutura intuitiva
das sentenas na linguagem que ela representa.
A estrutura sinttica de uma sentena indica a maneira como as palavras na sentena
se relacionam, informando quais palavras modificam outras palavras, e quais palavras tem
importncia central. Essa estrutura pode ainda identificar os tipos de relacionamento que existem
entre frases e podem armazenar sobre as sentenas particulares que devem ser processadas para
processamento posterior.
A maioria das representaes sintticas de linguagem so baseadas na noo de gramticas
livres de contexto, as quais representam a estrutura da sentena em termos de que frases so
subpartes de outras frases. Esta informao frequentemente apresentada em forma de rvore.
A frase Eu vi o incndio do prdio. pode ter duas estruturas sintticas associadas, conforme
mostrado na Figura 2.5. Na primeira, o incndio ocorreu no prdio e na segunda, o observador
do incndio se encontrava no prdio.
Forma Lgica
importante observar que a estrutura sinttica de uma sentena no reflete diretamente seu
significado. Por exemplo, a frase a manga no est boa pode ter diferentes significados
dependendo sobre o que o interlocutor est falando, camisa ou fruta. Ambas as interpretaes
tem a mesma estrutura sinttica e os significados diferentes surgem do sentido ambguo da
palavra manga. Surge ento uma separao entre significado dependente de contexto e
significado independente de contexto. A representao do significado independente de contexto
61
Figura 2.5 Duas representaes estruturais para a frase Eu vi o incndio do prdio. Legenda: S sentena, N - substantivo, V - Verbo, FN - frase nominal, FV - frase verbal, FA - frase adverbial.
de uma sentena chamada de forma lgica.

A forma lgica codifica os possveis sentidos de uma palavra e identifica as relaes
semnticas entre palavras e frases. Muitas destas relaes so frequentemente capturadas
utilizando um conjunto abstrato de relaes semnticas entre o verbo e sua frase nominal.
Uma das tarefas chave na interpretao semntica considerar quais combinaes dos sentidos
individuais das palavras podem criar uma sentena com significado coerente.
Representao do Significado Final
A representao final necessria uma representao geral de conhecimento que o sistema
utiliza para representar e raciocinar sobre o domnio de sua aplicao. Esta a linguagem na
qual toda a base de conhecimento da aplicao representada. O objetivo da interpretao
contextual mapear a estrutura de uma sentena e sua forma lgica em uma expresso na forma
de representao do conhecimento.
2.3.4
Organizao dos Sistemas de Processamento de Linguagem

Natural
Allen (1994) divide o problema de compreenso de linguagem natural nos trs nveis de
representao anteriormente discutidos: estrutura sinttica, forma lgica e a representao do
significado final (Figura 2.6). Nesta abordagem existem processos de interpretao que mapeiam
uma representao em outra. Por exemplo, o processo que mapeia a sentena para sua estrutura
sinttica e forma lgica chamada de parsing. Ele utiliza conhecimento sobre palavras e seus
significados (o lxico) e um conjunto de regras definindo as estruturas permitidas (a gramtica)
para associar a estrutura sinttica e a forma lgica a uma sentena de entrada.
62
Palavras (Entrada)
Parsing
Palavras (Resposta)
Lxico e
Gramatical
Estrutura Sinttica e
Forma Lgica
Realizao
Estrutura Sinttica e Forma
Lgica da Resposta
Interpretao
Contextual
Contexto do
Discurso
Planejamento de
Expresso
Sentido Final
Contexto da
Aplicao
Sentido da Resposta
Raciocnio da
Aplicao
Figura 2.6 Fluxo de informaes no processamento de linguagem natural. A coluna central indica o
conhecimento necessrio para cada etapa de processamento. Traduzido de Allen (1994).
O processo que transforma a estrutura sinttica e a forma lgica em uma representao

do significado final chamado de processamento contextual. Este processo inclui problemas
tais como identificar os objetos referidos por frases nominais, tais como descries definidas
(por exemplo o homem) e pronomes, a anlise dos aspectos temporais da nova informao
transmitida pela sentena, a identificao da inteno do interlocutor, assim como o processamento inferencial requerido para interpretar a sentena apropriadamente dentro da aplicao do
domnio. Esta etapa utiliza conhecimento do contexto do discurso (determinado pelas sentenas
precedentes) e o conhecimento da aplicao para produzir a representao final.
O sistema poderia ento fazer o raciocnio apropriado para aplicao. E quando isto requer
uma resposta para o usurio, o significado que deve ser expresso passado ao componente de
gerao do sistema. Ele utiliza conhecimento sobre o contexto do discurso e informaes sobre
a gramtica e o lxico para formar uma expresso que ento mapeada em palavras por um
processo de realizao. Embora o foco aqui seja na compreenso da linguagem, note que os
mesmos nveis do conhecimento so utilizados na tarefa de gerao.
Este esquema representa a forma clssica de processamento de linguagem natural e no contempla mecanismos para realizar aquisio de linguagem natural. No entanto, ele apresenta uma
viso pragmtica de uma sequncia de etapas de processamento que permite o reconhecimento
de linguagem natural.
63
2.4
Concluso
Neste captulo foram apresentadas informaes, teorias e algumas evidncias sobre como
ocorrem a aprendizagem e o processamento da linguagem natural em seres humanos. Alm
disso, foi apresentada tambm uma forma tradicional de processamento de linguagem natural
em sistemas computacionais.
Primeiramente, foi observado um consenso na literatura psicolingustica de que os significados devem ser adquiridos antes de serem associados a rtulos. Dentre as definies de
significado apresentadas na Seo 2.1.2, esta Tese ir adotar a viso de que significados so
modelos mentais (conceitos) que podem ser representados atravs de prottipos, e permitem
categorizar as entidades do mundo atravs de relaes de semelhana. Alm disso, conforme
apontado na Seo 2.1.5, propriedades diferentes so relevantes para categorizar entidades
diferentes. Tambm deve ser levado em considerao que a exposio a rtulos pode influenciar
na aprendizagem de conceitos, conforme descrito na Seo 2.1.6.
A neurolingustica fornece a noo de compartimentalizao, ou seja, a execuo de algumas
funes ocorre predominantemente em determinadas regies. O que sugere que uma organizao
modular pode ser uma boa deciso de projeto para sistemas artificiais de processamento de
linguagem natural.
Por exemplo, conforme relatado nas Seo 2.2.1 e na Seo 2.2.2, processamentos especficos extraem informao relevante a partir dos sinais originados nos rgos sensoriais visuais e
auditivos. Estruturas como a retina e o tmpano, por exemplo, deixam claro que determinadas
etapas de processamento so inatas, por outro lado, etapas de processamentos mais sofisticadas
acontecem no crtex visual e auditivo, valendo-se de organizaes topolgicas para reconhecer
desde cores, formas, tons e fonemas, at objetos mais complexos e especficos como faces, o
que indica que alguma parte deste processamento deve se desenvolver em funo dos estmulos
recebidos aps o nascimento. Estas etapas de processamento podem ser vistas como mecanismos
de extrao de caractersticas, produzindo como sada percepes que so importantes para os
indivduos desempenharem suas atividades.
Alm disso, foi mostrado tambm que h regies onde predomina o processamento da
linguagem, como as reas de Wernicke e Broca (Seo 2.2.3), alm de regies que integram
informaes multissensoriais, como o sistema espelho, respondendo a estmulos lingusticos,
perceptivos e motores (Seo 2.2.3).
Por fim, a lingustica computacional, trouxe uma viso pragmtica do PLN, indicando as
etapas que devem ser realizadas para compreender e produzir sentenas em linguagem natural e
mostrando as dificuldades em se validar sistemas de PLN.
As evidncias e contribuies das reas estudadas iro embasar a proposio do modelo
64
2.4. CONCLUSO
de ALN que ser apresentado no Captulo 3. Os problemas de aprendizagem tratados sero

definidos baseando-se principalmente nas evidncias psicolingusticas. J a arquitetura modular
ser proposta levando-se em considerao tanto as evidncias fornecidas pela neurolingustica
quanto as etapas de processamento tradicionalmente utilizadas na lingustica computacional.
65
3
Mdulos Neurais para Aprendizagem de
Linguagem Natural
Neste captulo, sero propostos mdulos computacionais para tornar um agente capaz de
aprender a compreender e interagir com seu instrutor1 , em ambiente inicialmente desconhecido.
Devido ao elevado nvel de dificuldade, este problema, ser dividido em seis subproblemas de
aprendizagem, discutidos na Seo 3.1, e cada um deles ser tratado separadamente. Em seguida,
na Seo 3.2, estes subproblemas de aprendizagem sero organizados em mdulos neurais que
iro compor o modelo proposto. A concluso do captulo apresentada na Seo 3.3.
3.1
Formalizao do Problema
A seguir sero definidos o agente considerado, suas entradas e sadas e suas percepes (Seo 3.1.1), bem como o tipo de ambiente no qual ele atua (Seo 3.1.2) e o papel de seu instrutor
(Seo 3.1.2). Ento, na Seo 3.1.3 sero formalizados os subproblemas de aprendizagem que
foram propostos para o agente.
3.1.1
Agente
O agente considerado nesta Tese pode ser dotado de um conjunto de sensores, tais como sensores
de imagem, de udio, de distncia e de posio, que so utilizados para mapear e compreender
o ambiente no qual ele est inserido. Alm disso, o agente possui atuadores que o permitem
interagir fisicamente com objetos deste ambiente e direcionar seus sensores para um determinado
1O
termo instrutor, nesta Tese, ser utilizado no sentido de cuidador (do ingls caregiver) e no no sentido da
aprendizagem supervisionada, j que o mesmo apenas interage com o agente sem fornecer informao explcita de
erro ou correo.
67
CAPTULO 3. MDULOS NEURAIS PARA APRENDIZAGEM DE LINGUAGEM NATURAL
local. Os atuadores do agente devem ser acompanhados de sensores que permitam identificar
seu prprio estado, como sensores de presso, de fora e de posio ou movimentao.
Entradas e Sadas
O conjunto de entradas do agente consiste no fluxo de informaes obtidos dos sensores e as
sadas produzidas so sequncias de aes. De maneira formal, a cada instante t, o agente
recebe informaes dos seus diversos sensores, por exemplo, visual vt = [v1 v2 v3 ...]| , auditivo
at = [a1 a2 a3 ...]| , de posio lt = [l1 l2 l3 ...]| , os quais, ao serem compostos, formam elementos
de um fluxo sensorial st = [s1 s2 s3 ...]| , onde st n . O agente ento escolhe como resposta
uma sequncia de aes a serem executadas act = {ac1 , ac2 , ac3 , ...}, onde aci AC, e AC o
conjunto de aes possveis de serem executadas pelos atuadores do agente.
Percepes do Agente
Conforme define Dalle-Mole (2010), percepes so interpretaes sobre os dados provenientes
de um sistema sensor, produzidas por computaes especficas. O resultado dessas computaes
so fluxos perceptivos, cada qual capturando determinados conjuntos de caractersticas que
representam o modo como o agente representa o conhecimento do meio ao seu redor. Por
exemplo, certo processo pode ser especializado na extrao e codificao de contornos de
imagens, outro pode ter como objetivo a representao de cores, e assim por diante.
Sendo assim, um vetor de percepes no instante t, pt = [p1 p2 p3 ...]| , computado a partir
de uma sequncia de amostras do fluxo sensorial, por mapeamentos sensrio-perceptivos do
tipo Mi ({st , st1 , st2 , ...}) 7 pi . Alguns destes mapeamentos podem ser estabelecidos de
maneira inata, como por exemplo, a deteco de contorno que ocorre na retina, outros podem ser
aprendidos atravs das experincias do agente, como o reconhecimento de um objeto especfico.
3.1.2
Ambiente
Um agente inserido em um ambiente complexo pode criar uma representao interna (modelo) do
ambiente para compreend-lo. Considerando um conjunto de percepes com certas limitaes
de preciso e completude, esta representao ser apenas uma aproximao do ambiente real. No
entanto, espera-se que haja correspondncia entre os elementos da representao com elementos
do ambiente, permitindo que o agente seja capaz de capturar aquilo que essencial para sua
atuao. Nesta Tese, considera-se que o agente representa o ambiente atravs de estados. Um
estado um vetor de variveis discretas e = [e1 e2 e3 ...]| , onde ei Di representa alguma
informao relevante do ambiente, e Di o conjunto finito de valores discretos que a varivel ei
pode assumir. Estas variveis definem como est o ambiente em um determinado momento, o
68
3.1. FORMALIZAO DO PROBLEMA
que inclui informaes sobre o agente como a posio de seus atuadores (estado do agente),
eA = [eA1 eA2 eA3 ...]| , e as caractersticas observveis do instrutor (estado do instrutor), eI = [eI1 eI2
eI3 ...]| , como por exemplo, para onde ele est olhando ou apontando. O estado do ambiente
modificado por uma ao do agente ou do instrutor.
O tipo de ambiente que pode ser representado adequadamente dessa maneira pode parecer
simples, porm, ele contempla os problemas de interesse, permitindo tambm abstrair problemas
que no so o foco desta Tese. Desconsiderando-se a atuao do instrutor, o tipo de ambiente
representado acima seria considerado completamente observvel, se os sensores do agente
permitissem acessar o estado completo do ambiente a qualquer momento; determinstico,
se o prximo estado do ambiente fosse completamente determinado pelo estado atual e as
aes executadas pelo agente; sequencial, j que as escolhas do agente dependem do histrico;
esttico, j que o ambiente no mudaria enquanto o agente escolhe que ao tomar; contnuo,
j que h um nmero ilimitado de percepes; e por fim, ele seria um ambiente de agente nico
(Russell e Norvig, 2009).
No entanto, ao se introduzir o instrutor, a complexidade do ambiente aumenta significativamente. Ele deixa de ser completamente observvel, pois o agente no sabe o que se passa
na mente do instrutor; deixa de ser determinstico e passa a ser estratgico, pois o instrutor
pode modificar o estado do ambiente de maneira imprevisvel; deixa de ser esttico, pois o
instrutor pode modificar o ambiente enquanto o agente est deliberando; e o ambiente passa a
ser multiagente, pois o instrutor pode ser considerado como outro agente no ambiente. Sendo
assim, o ambiente no qual o agente est inserido ser considerado parcialmente observvel,
estratgico, dinmico, sequencial, contnuo e multiagente.
Instrutor
O instrutor atua fornecendo entradas visuais e auditivas para o agente ao emitir sentenas, ou
efetuar gestos e aes com os objetos do ambiente. Uma sentena uma sequncia de estmulos
auditivos, S = {a1 , a2 , a3 , ...}. Alm das sentenas, o instrutor tambm pode utilizar gestos
como olhar, e apontar para interagir com o agente e manipular objetos do ambiente. Isto resulta
em modificaes do estado do ambiente que se traduzem em estmulos visuais para o agente.
3.1.3
Subproblemas de Aprendizagem para o Agente
As definies do agente, do ambiente e do instrutor, apresentadas acima, facilitam a compreenso

do problema que deve ser tratados pelo agente para alcanar seu objetivo, auxiliando em sua
decomposio em subproblemas mais simples. Alm disso, a adoo do paradigma da robtica
desenvolvimentista implica que o agente deve aprender com suas interaes com o ambiente e
69
com o instrutor. Ento, os problemas tratados pelo agente devem ser vistos como problemas
de aprendizagem. Assim sendo, o problema de compreenso e execuo de comandos em
linguagem natural foi subdividido nos seis subproblemas de aprendizagem descritos abaixo:
Subproblemas de Aprendizagem
A1: Aprender sobre o ambiente que o cerca, identificando objetos, suas propriedades e
suas posies, alm da maneira como este ambiente evoluiu e qual o impacto de
suas aes e das aes do instrutor sobre o ambiente;
A2: Aprender sobre a linguagem utilizada pelo instrutor, identificando seu conjunto
lxico, sua sintaxe e sua semntica.
A3: Aprender sobre si mesmo, relacionando representaes internas com o movimento
resultante de seus atuadores e a respectiva interao dos atuadores com os objetos
do ambiente;
A4: Aprender a reconhecer diferentes situaes (contextos) e identificar o contexto
atual;
A5: Aprender a associar elementos da linguagem com aes, situaes e elementos do
ambiente;
A6: Aprender a interpretar as intenes do instrutor em funo dos estmulos visuais e
auditivos por ele fornecidos, e do contexto atual.
Os subproblemas de aprendizagem listados acima sero descritos de maneira formal a seguir.

O foco desta Tese est nos subproblemas A1, A2, A4 e A5, os quais sero tratados nos captulos
posteriores. Estes subproblemas constituem um subconjunto passvel de ser validado atravs de
experimentos cross-situacionais, como ser apresentado no Captulo 8. Os demais subproblemas
sero definidos abaixo e includos na modelagem apresentada em seguida, para proporcionar
uma viso mais completa do problema e identificar outras etapas necessrias na implementao
agentes controlados por linguagem natural.
A1 - Aprendizagem do Ambiente
Para aprender sobre o ambiente, o agente deve primeiramente identificar seus componentes. Isto
parcialmente realizado pelo mapeamento sensrio-perceptivo, discutido anteriormente. Neste
caso, mecanismos de segmentao e extrao de caractersticas dos sinais produzem como sada
um conjunto de percepes (Dalle-Mole, 2010). Por exemplo, identificando formas, cores e
localizaes.
Aprender a estrutura do ambiente a partir de uma sequncia de percepes do agente,
70
3.1. FORMALIZAO DO PROBLEMA
P = {p1 , p2 , p3 , ...}, implica em: (1) representar os estados possveis sensoriados do ambiente,
D = {D1 , D2 , D3 , ...} e (2) identificar o estado atual, ea . A primeira parte pode ser definida
como uma funo que atualiza o conjunto dos estados conhecidos pelo agente, R(DA , P) 7 DN ,
adicionando novos estados ao conjunto ou atualizando a representao de algum dos estados
previamente conhecidos. A segunda etapa pode ser descrita como uma funo que identifica o
estado atual do ambiente a partir de uma sequncia de percepes: U(P) 7 ea .
A2 - Aprendizagem da Linguagem Natural
A aprendizagem da linguagem natural se d nos nveis lxico, sinttico, semntico e pragmtico.
A aprendizagem no nvel lxico inclui o reconhecimento da forma das unidades de linguagem,
como radicais, prefixos e sufixos (morfemas), bem como os significados associados (Allen,
1994).
O aprendizado da forma das unidades de linguagem pode ser realizado atravs de uma
segmentao das percepes auditivas em suas respectivas partes. Ou seja, uma sentena pode
ser definida como uma sequncia de percepes auditivas, S = {pa1 , pa2 , pa3 , ...} a partir
da qual deve-se relacionar com uma sequncia de morfemas, ou proto-morfemas, j que o
significado ainda no conhecido M = {m1 , m2 , m3 , ...}, para que possam ser posteriormente
associadas a seus respectivos significados (Allen, 1994). Tem-se ento o mapeamento de
sentenas udio-perceptivas em sentenas morfolgicas: L(S) 7 M.
No nvel sinttico, o aprendizado consiste em identificar categorias gramaticais nas quais
os morfemas podem ser agrupados. Alm de identificar maneiras vlidas de se combinar os
morfemas em estruturas sintticas. Este aprendizado busca tornar possvel reconhecer a maneira
como as palavras em uma frase se relacionam umas com as outras e como a posio relativa das
palavras modifica o significado final do todo. Cada linguagem contm um conjunto de possveis
estruturas sintticas formando uma gramtica G = {G1 , G2 , G3 , ...}, e sua aprendizagem pode
ser definida como uma funo que atualiza a gramtica conhecida em funo das percepes:
RG(GA , P) 7 GN . Assim, uma vez aprendida a gramtica, o reconhecimento de estruturas
sintticas em que uma sentena pode ser definida como o mapeamento de uma sentena
morfolgica em um subconjunto de estruturas sintticas possveis, Gs , ou seja: G(M) 7 Gs .
A informao do contexto necessria para inferir qual a estrutura sinttica correta, dentre as
estruturas possveis.
No nvel semntico, o aprendizado consiste em identificar as associaes entre morfemas
ou sentenas morfolgicas e os estados e transies de estados identificados no ambiente. Isto
inclui o reconhecimento do contexto atual e das intenes do instrutor (descrito a seguir).
No nvel pragmtico o significado final pode ser alterado em relao ao significado literal
contido na sentena, dependendo do contexto, que ser tratado no subproblema A4, e da
71
interpretao da inteno do instrutor, que ser tratado no subproblema A6.
A3 - Aprendizagem do Controle dos Atuadores

Inicialmente, o agente no sabe qual o resultado dos comandos enviados para os atuadores.
O mecanismo de aprendizagem do controle dos atuadores deve aprender este mapeamento.
O controle dos atuadores do agente pode ser descrito como um mapeamento que recebe um
comando, c, e o estado atual dos atuadores do agente, eAa , produzindo um novo estado para os
atuadores, eAn : C(c, eAa ) 7 eAn . E a aprendizagem dos controles definida como a memorizao
da sequncia de comandos que leva os atuadores do agente do estado atual para um novo estado:
AC(eAa , eAn ) 7 {c1 , c2 , c3 , ...}.
O estado do ambiente modificado por uma ao do agente ou do instrutor. Ou seja, uma
ao pode ser definida como uma funo que recebe como entrada o estado atual e produz um
novo estado: A(ea ) 7 en .
Um mapeamento de segundo nvel tambm pode ser definido relacionando o estado atual do
ambiente, ea , e uma ao desejada, acd , como sendo a sequncia de estados dos atuadores que
realizar a ao desejada: D(ea , acd ) 7 {eA1 , eA2 , eA3 , ...}.
A4 - Aprendizagem do Contexto
Contexto pode ser definido como o conjunto de circunstncias que acompanham um acontecimento. possvel diferenciar dois tipos de contexto: o espacial e o temporal (Pacheco, 2004). O
contexto espacial um conjunto de informaes sobre a posio espacial de um ou mais padres
com relao a outros padres. J o contexto temporal pode ser definido como um conjunto
de informaes a respeito das entradas, sadas e/ou estados passados de um sistema. Sendo
assim, o contexto pode ser representado a partir de uma sequncia de estados recentes at o
estado atual, Ca = {ea , e(a1) , e(a2) , ...}. Ento, aprender a reconhecer contextos, implica em:
(1) aprender um conjunto de contextos conhecidos, X = {C1 , C2 , C3 , ...} e (2) identificar o
contexto conhecido mais semelhante ao atual, Cs .
A primeira tarefa pode ser definida como uma funo que atualiza o conjunto dos contextos
conhecidos pelo agente, X(XA , Ca ) 7 XN , adicionando novos contextos ao conjunto ou atualizando a representao de algum dos contextos previamente conhecidos. A segunda tarefa
pode ser descrita como uma funo que identifica dentre os contextos conhecidos, qual o mais
semelhante ao contexto atual: R(Ca , X) 7 Cs .
72
3.2. MODELO PROPOSTO
A5 - Aprendizagem das Associaes

Associaes permitem que os elementos da linguagem faam referncia a outros elementos do
sistema. As associaes podem ser consideradas mapeamentos dos elementos da linguagem em
estados, aes, contextos ou em outros elementos da linguagem. Por questes de simplificao,
considere uma tupla composta por estes elementos, t = {e, ac, C, m}, na qual ao menos
um dos elementos precisa estar definido. Uma associao definida como um mapeamento
bidirecional de um elemento morfolgico em uma ou mais tuplas: AT(m) {t1 , t2 , t3 , ...}.
A aprendizagem das associaes equivale ento formao do conjunto dos mapeamentos
conhecidos A = {AT 1 , AT 2 , AT 3 , ...}.
A6 - Interpretao das Intenes do Instrutor
Considerando a descrio de estados do ambiente definida anteriormente. As intenes do
instrutor podem ser representadas atravs de estados desejados do ambiente ed . Sendo assim,
reconhecer uma inteno do instrutor significa reconhecer qual o estado desejado por ele. Com
isso, uma tarefa de aprendizagem pode ser definida levando-se em considerao o conjunto de
estruturas sintticas Gs , nas quais os morfemas proferidos pelo instrutor podem estar organizados, o contexto reconhecido, Cs , e as associaes conhecidas, A. Ou seja, um mapeamento do
tipo: I(Gs , Cs , A) 7 ed que deve ser aprendido pelo agente.
Com isso, os diversos subproblemas de aprendizagem com os quais o agente se depara em
sua tarefa de aprender com o ambiente e com o instrutor foram definidos acima. A seguir, estes
subproblemas de aprendizagem sero organizadas em mdulos, compondo um sistema de ALN.
3.2
Modelo Proposto
O modelo proposto nesta Tese segue a viso da robtica desenvolvimentista, tambm conhecida como robtica epigentica, ou metodologia de desenvolvimento autnomo mental. Esta
uma abordagem para o estudo de robs cognitivos que leva inspirao direta de mecanismos
de desenvolvimento e fenmenos estudados em crianas (Weng et al., 2001; Lungarella et al.,
2003; Cangelosi e Riga, 2006). Nesta viso, os agentes so conhecidos como agentes incorporados, e adquirem habilidades complexas atravs da aquisio de conceitos incorporados.
Conceitos incorporados so estados internos obtidos a partir de experincias sensrio-motoras
que identificam elementos cruciais do ambiente ou da interao agente-ambiente. Tais conceitos
mediam as reaes motoras dos agentes e so utilizados na comunicao com outros agentes,
podendo ser organizados em representaes hierrquicas. Pode-se hipotetizar que conceitos
incorporados podem ser influenciados tambm pela interao social e lingustica e so utilizados
73
para planejar a interao com o meio ambiente (Cangelosi, 2010).
3.2.1
Paradigma de Modelagem Adotado
Nas neurocincias comportamentais, um dos desafios na criao de modelos que representam

comportamentos observados, advm da dificuldade de encontrar um mapeamento entre funes
e as estruturas neurais responsveis por elas. A teoria de esquemas (Arbib et al., 1997) descreve
uma organizao na qual no h necessariamente um mapeamento nico entre uma funo
e as estruturas responsveis pelo seu processamento. Um mdulo funcional (esquema) pode
ser compreendido como um programa mental que pode ser composto com outros para realizar
tarefas. Cada esquema capaz de se adaptar a medida que utilizado. Estruturas e funes se
encontram no nvel das redes neurais, onde a concorrncia e a cooperao entre esquemas pode
ser implementada atravs de circuitos neurais. Um esquema pode ser associado a suas estruturas
neurais subjacentes para validar hipteses sobre o local de processamento de determinadas
funes, sempre que este for apropriado (Arbib, 2008). O conceito de esquemas empregado
nesta Tese para definir os mdulos neurais de aprendizagem que tratam dos subproblemas
de aprendizagem definidos na Seo 3.1. A adaptao dos esquemas ocorre devido a sua
aprendizagem, em funo dos sinais recebidos como entrada.
3.2.2
Premissas e Suposies
Os mdulos descritos a seguir foram propostos relacionando os comportamentos descritos

na Seo 2.1 do Captulo 2 com as funes identificadas nas estruturas neurais revisadas na
Seo 2.2.
As premissas a seguir foram consideradas para formar requisitos que devem ser atendidos
pelo modelo proposto:
Premissas
P1: As informaes sensoriais so pr-processadas para extrair informaes relevantes
para o desempenho do agente (percepes), atravs de processos inatos ou autoadaptativos, por exemplo, em regies como o crtex visual (Miikkulainen et al.,
2005) e crtex auditivo (Pasley et al., 2012). E reas corticais superiores, tais como
V5 e o crtex parietal posterior, integram informaes para formar percepes
completas ou globais (Udesen e Madsen, 1992; Born e Bradley, 2005);
P2: Palavras ou rtulos so aprendidos a partir das percepes auditivas, provavelmente
em regies como a rea de Wernicke (Hecaen e Albert, 1978);
74
P3: Conceitos incorporados so formados a partir de experincias sensoriais e motoras

(von Hofsten, 2004; Cangelosi, 2010);
P4: Neurnios-espelho respondem a informaes, perceptivas, lingusticas e motoras
relacionadas entre si. Como ocorre no sistema espelho do crtex sensrio-motor
(Rizzolatti e Craighero, 2004; Pulvermuller, 2005);
P5: Palavras ou rtulos podem influenciar na formao de categorias perceptivas (Plunkett et al., 2008);
P6: Estruturas cerebrais mantm um registro histrico dos estmulos recebidos formando uma espcie de contexto. Como no Hipocampo e na Amgdala (Fletcher
et al., 1997; Aggleton e Brown, 1999);
P7: Algumas estruturas cerebrais independentes realizam o controle dos atuadores,
como o crtex motor (Morasso e Sanguineti, 1997);
P8: Estruturas cerebrais controlam as aes que so executadas, ao enviar sinais de
ativao ou supresso para as estruturas que realizam o controle dos atuadores.
Como no crtex pr-frontal e no crtex cingulado anterior (Krams et al., 1998);
P9: Determinadas regies, como o hipocampo e o parahipocampo (Epstein e Kanwisher,
1998; Just et al., 2010; OReilly et al., 2013) so responsveis por construir representaes internas que refletem os estados do mundo externo, e permitem ao
indivduo prever estados futuros do ambiente;
P10: Estruturas especficas so capazes de identificar as possveis estruturas sintticas
da linguagem. Como na rea de Broca ou no lobo temporal anterior esquerdo
(Brennan et al., 2012).
As suposies listadas abaixo foram assumidas como verdadeiras na definio do modelo

que ser apresentado na Seo 3.2.3.
Suposies
S1: Contextos so criados a partir do monitoramento dos conceitos incorporados ativados;
S2: A associao entre rtulos e conceitos deve levar em conta o contexto;
S3: Estruturas de mais alto nvel cognitivo se valem das informaes de associao e
dos conceitos incorporados para compreender o significado das sentenas, planejar
e controlar a execuo de aes.
75
3.2.3
Viso Geral do Modelo
Para tratar os problemas definidos na Seo 3.1 foi tomada como base a organizao clssica
dos sistemas de processamento de linguagem natural adotada por Allen (1994), mostrada na
Figura 2.6. Esta estrutura foi considerada, por apresentar um ponto de vista funcional dos
estgios de processamento necessrios. Como a produo de linguagem natural no foco desta
Tese, em lugar disso, considera-se a execuo de comandos em geral. Assim, a partir desta
organizao, as etapas de produo de uma resposta em linguagem natural foram substitudas
por etapas que permitam a execuo dos comandos (Figura 3.1). ento mantida a etapa de
parsing, recebendo as palavras em linguagem natural e construindo estruturas e formas lgicas,
e a etapa de interpretao do contexto, selecionando estruturas sintticas adequadas e compondo
o significado final da sentena. A partir disto, as etapas seguintes so substitudas por uma
etapa de identificao de objetivos, que recebe o significado final e identifica o objetivo que
deve ser alcanado; e por fim, a etapa de planejamento e execuo que identifica e executa uma
sequncia de aes viveis para atingir o objetivo selecionado.
Interpretao do
Contexto
Significado Final
Estrutura Sinttica e
Forma Lgica
Identificao de
Objetivos
Objetivo
Parsing
Conhecimento sobre
o Ambiente
Sentenas
Reconhecimento
Planejamento e
Execuo
Sinais dos sensores
Sinais para
os atuadores
Fluxo sensorial
Aes
Figura 3.1 Arquitetura de um sistema de execuo de comandos em linguagem natural. Na figura, os

blocos pontilhados indicam formas de representao da informao e os blocos contnuos representam
mecanismos de processamento da informao. Em vermelho est a informao lingustica, em azul a
informao do ambiente e em verde est o resultado do raciocnio e os comandos do agente. Arquitetura
baseada em Allen (1994).
76
O mecanismo de reconhecimento (Figura 3.1), trata os subproblemas de aprendizagem

definidos na Seo 3.1, adquirindo o conhecimento necessrio ao funcionamento das demais
etapas de processamento. Ele recebe como entrada os fluxos de informao provenientes
dos sensores do agente e constri representaes internas do conhecimento sobre o ambiente,
incluindo o conhecimento sobre a linguagem (lxico e gramatical) e o conhecimento sobre o
ambiente e os possveis contextos. Este conhecimento utilizado nas etapas de processamento
da linguagem natural (parsing e interpretao do contexto) alm das etapas de identificao dos
objetivos e de planejamento e execuo das aes.
VI Reconhecimento
Sinttico
IV Associao
Associaes
Contexto
V Representao
do Ambiente
II Representao
Representao
lxica
Representao
perceptiva
VII Compreenso,
Planejamento,
e Execuo
Comandos
III Reconhecimento
do Contexto
Estruturas
sintticas
Representao
proprioceptiva
VIII Controle Motor

Percepes
do ambiente
Controle
Percepes
lingusticas
Propriocepo
I Mapeamento Sensrio-Perceptivo
Sensores
Fluxo sensorial
Propriocepo
Atuadores
Aes
Figura 3.2 Arquitetura do modelo proposto. As caixas com linhas pontilhadas representam mdulos
que no sero implementados nesta Tese. Cdigo de cores: vermelho: linguagem; azul: percepes do
ambiente; verde: propriocepo; amarelo: contexto; cinza: informaes associadas; marrom: informaes
sobre o ambiente.
O modelo proposto (Figura 3.2), visa implementar o mecanismo de reconhecimento representado na Figura 3.1. Ele formado por um conjunto de mdulos neurais que se adaptam
em funo das entradas fornecidas para realizar funes da aquisio de linguagem natural,
do reconhecimento do ambiente, e do planejamento de aes. As entradas do modelo so
compostas pelos estmulos do ambiente e a realimentao dos atuadores; e suas sadas so as
palavras reconhecidas, o contexto identificado, e as associaes entre as palavras e conceitos
aprendidos. Abaixo fornecido um resumo das atividades desempenhadas por cada mdulo.
77
Descrio dos Mdulos

Mdulo I: Mapeamento Sensrio-Perceptivo: Converte o fluxo sensorial em percepes relevantes para o funcionamento do agente, por exemplo, mapeando
sons em sequncias de fonemas e imagens em formas e cores, tendo participao no tratamento dos subproblemas de aprendizagem A1 e A2;
Mdulo II: Representao: Consolida percepes que esto distribudas no espao
e/ou no tempo criando uma representao composta que possui mais informao que a contida em cada percepo, quando considerada isoladamente.
Este acmulo ao longo do tempo, permite que estmulos que no sejam
perfeitamente simultneos, possam ser percebidos como tal. Por exemplo:
agrupar fonemas para representar morfemas ou palavras. Contribui na
resoluo dos subproblemas A1 e A2;
Mdulo III: Reconhecimento do Contexto: Agrupa e reconhece sequncias de percepes que se repetem com determinada frequncia, formando os contextos
espao-temporais perceptivos e lingusticos conhecidos pelo agente. Com
isso, este mdulo atua na tarefa de aprendizagem A4;
Mdulo IV: Associao: Agrupa, associa e reconhece as percepes do ambiente e dos
atuadores do agente, realizando a integrao de palavras, percepes, aes
e contextos, participando na resoluo dos problemas A1, A2 e A5;
Mdulo V: Representao do Ambiente: Aprende quais so os estados possveis do
ambiente e como eles evoluem em funo das percepes e aes. Serve
como um repositrio de conhecimento do tipo senso comum, que pode
ser utilizado pelo Mdulo VI em suas deliberaes, como por exemplo a
memria espacial e outros tipos de memria de longo prazo. Com isso, este
mdulo lida com o subproblema de aprendizagem A1;
Mdulo VI: Reconhecimento Sinttico: Realiza o parsing das sequncias de palavras
identificando estruturas sintticas possveis, tendo participao em A2;
Mdulo VII: Compreenso, Planejamento e Execuo: Compreende o significado
final das sentenas considerando as associaes conhecidas, a estrutura
sinttica, o contexto atual e a informao conhecida sobre o ambiente;
identifica e executa uma sequncia de comandos que leva ao objetivo
estabelecido, realizando a tarefa de aprendizagem A6;
Mdulo VIII: Controle Motor: Traduz comandos de alto nvel para sinais de controle
dos atuadores, realizando a tarefa de aprendizagem A3.
78
A Tabela 3.1 apresenta as premissas e suposies utilizadas na proposio de cada mdulo,

indicando tambm as estruturas cerebrais relacionadas com as atividades desempenhadas pelos
mdulos, dentre os subproblemas de aprendizagem identificados e descritos na Seo 3.1.3.
Tabela 3.1 Relacionamento entre as premissas e suposies utilizadas para a proposio de cada mdulo,
com as funes desempenhadas e as regies do crebro envolvidas. As siglas das regies so, A Amgdala, AA - reas de Associao, AB - rea de Broca, AW - rea de Wernicke, CA - Crtex
Auditivo, CM - Crtex Motor, CPF - Crtex Pr-Frontal, CPM - Crtex Pr-Motor, CPP - Crtex Parietal
Posterior, CSM - Crtex Sensrio-Motor, CV - Crtex Visual, GB - Gnglios Basais, H - Hipocampo,
PH - Parahipocampo, SL - Sistema Lmbico, LTAE - Lobo Temporal Anterior Esquerdo.
Mdulo
Premissas
Sup.
Funo
Regies
Mapeamento Sensrio-Perceptivo (I)

Representao (II)
Reconhecimento do Contexto (III)
Associao (IV)
Representao do Ambiente (V)
Reconhecimento Sinttico (VI)
Compreenso, Planejamento e Execuo (VII)
Controle Motor (VIII)
P1
P1, P2, P5
P6
P3, P4, P5
P9
P10
P8
P7
S1
S2
S3
-
A1,A2
A1, A2
A4
A1, A2, A5
A1
A2
A6
A3
CV, CA
AW, V5, CPP
SL (H, A)
AA, CSM, CPM, CPP
H, PH
AB, LTAE
CPF, GB
CM
A seguir, ser fornecida uma descrio geral de como a informao flui atravs dos mdulos
que compem o modelo, desde a recepo de estmulos at a produo de uma ao em resposta.
3.2.4
Fluxo de Informaes no Modelo Proposto
Ao receber um estmulo do ambiente (ver Figura 3.2) os sensores do agente enviam informao
para o Mdulo de Mapeamento Sensrio-perceptivo (I). Este mdulo extrai dos sinais, informaes que so relevantes tanto para o reconhecimento de palavras, percepes auditivas (ex.:
fonemas) quanto para o reconhecimento do ambiente, percepes (ex.: cores, formas, posies)
e da propriocepo2 (ex.: movimentao, posio, fora dos atuadores). Ou seja, este mdulo
realiza computaes especficas para cada tipo de informao sensorial e envia as percepes
para o mdulo de representao. Maiores detalhes so fornecidos no Captulo 4.
O Mdulo de Representao (II) agrupa sequncias de percepes para compor representaes mais completas. Assim como o Mdulo I, este mdulo tambm faz processamentos
especficos para cada tipo de estmulo recebido. Por exemplo, ele pode agrupar sequncias de
fonemas para representar morfemas ou palavras (reconhecimento lxico); e ao mesmo tempo
pode compor percepes visuais para representar objetos (reconhecimento de objetos) ou ainda
pode compor sequncias de posies dos atuadores para representar aes (reconhecimento
2 Propriocepo:
tambm denominada como cinestesia, o termo utilizado para nomear a capacidade em

reconhecer a localizao espacial do corpo, sua posio e orientao, a fora exercida pelos msculos e a posio
de cada parte do corpo em relao s demais, sem utilizar a viso.
79
proprioceptivo). O Captulo 5 apresenta exemplos de como estas representaes podem ser

computadas a partir de dados reais. As representaes criadas por este mdulo so ento
enviadas para o Mdulo de Reconhecimento do Contexto (III).
O Mdulo de Reconhecimento de Contexto (III) realiza uma espcie de acumulao histrica
de suas entradas. Este acumulador se modifica lentamente a medida que novas entradas so
apresentadas, de forma a compor uma mdia ponderada que privilegia as entradas mais recentes
em detrimento das entradas mais antigas, o que chamado de contexto atual. Alm disso, ele
associa cada entrada com o contexto no qual ela foi apresentada. Quando este mdulo recebe
uma entrada suficientemente semelhante a uma entrada vista anteriormente, o contexto associado
quela entrada atualizado. Isto faz com que o contexto associado a entradas semelhantes
represente uma mdia das situaes nas quais aquelas entradas foram vistas. Maiores detalhes
sobre este processo so fornecidos no Captulo 6. As sadas do mdulo III so sua entrada
inalterada e o contexto associado com esta entrada.
O Mdulo de Associao (IV) integra e organiza as representaes de palavras, percepes,
aes e contextos, criando os conceitos incorporados. Isto feito criando-se agrupamentos que
sejam capazes de considerar partes que estejam auto-correlacionadas das informaes de entrada.
Ou seja, cada agrupamento, decide quais partes da informao de entrada sero utilizadas e
quais sero desconsideradas. Com isso, tais agrupamentos podem representar informao
puramente lxica, puramente perceptiva ou puramente motora. Mas tambm podem representar
combinaes destas informaes, como por exemplo, motora e perceptiva, perceptiva e lxica,
lxica e motora, ou at mesmo uma integrao das trs, quando tal correlao for observada nas
entradas com frequncia. As sadas do Mdulo de Associao so as informaes armazenadas
nos agrupamentos mais semelhantes s entradas apresentadas, ou seja, os conceitos incorporados
ativados.
O Mdulo de Reconhecimento Sinttico (V) recebe os conceitos incorporados e foca na parte
lxica para organizar estas informaes em estruturas sintticas, ou seja, realizar o Parsing das
sentenas. Uma sequncia de elementos lxicos pode ser organizada em mais de uma estrutura
sinttica. Este mdulo identifica as sequncias vlidas a cada nova entrada e as envia para o
Mdulo VII, o qual leva em considerao o contexto e as associaes para decidir qual estrutura
provavelmente a correta. Nesta Tese, no ser considerada a aprendizagem da gramtica, e por
isso, a funo deste mdulo no ser implementada.
O Mdulo de Reconhecimento do Ambiente (VI) recebe as informaes processadas pelo
Mdulo de Associao e cria modelos do ambiente. Estes modelos tem por objetivo subsidiar
as decises do Mdulo VII, servindo de memria de longo prazo, armazenando, por exemplo,
informao espacial, informaes de senso comum e pragmtico, ou criando modelos que
permitem fazer previses probabilsticas ou dinmicas. As funes deste mdulo no sero alvo
80
de estudo nesta Tese.

O Mdulo de Compreenso, Planejamento e Execuo (VII) encapsula a funo dos blocos
de Interpretao do Contexto, Identificao de Objetivos e Planejamento e Execuo,
exibidos na Figura 3.1. Este mdulo se utiliza das associaes encontradas pelo do Mdulo
IV, das informaes armazenadas no Mdulo VI, e das estruturas sintticas produzidas pelo
Mdulo V, para identificar os objetivos expressos pelos comandos em linguagem natural, e
a partir disto, produzir uma sequncia de comandos que permitiro ao agente alcanar estes
objetivos. Os comandos produzidos por este mdulo so enviados ao Mdulo de Controle
(VIII) e podem informar conceitos motores para os atuadores, e tambm parmetros indicando a
maneira como estes movimentos devem ser executados. Alm disso, este mdulo deve monitorar
a execuo dos comandos fazendo ajustes quando necessrio. Nesta Tese, no ser considerada
a aprendizagem das funes deste mdulo.
O Mdulo de Controle (VIII) aprende a traduzir os conceitos motores enviados pelo Mdulo
(VII) em sinais de controle para os atuadores. Por fim, os movimentos produzidos nos atuadores
so realimentados como entradas proprioceptivas para o Mdulo I.
3.2.5
Exemplo Hipottico do Funcionamento do Modelo Proposto
A seguir ser apresentado um exemplo hipottico de um ciclo de funcionamento do modelo

proposto, desde as entradas at a compreenso e execuo de um comando proferido em
linguagem natural. O exemplo considera que os mdulos j estejam devidamente treinados e
dispe das informaes necessrias para executar adequadamente suas atividades.
Suponha um agente que emprega o modelo proposto. Este agente est em um ambiente que
contm uma garrafa com tampa. Em um dado instante so apresentados os seguintes estmulos
nas entradas do Mdulo I: a imagem da garrafa com sua tampa; e em paralelo o som da seguinte
frase: abra esta garrafa. Os sensores proprioceptivos coletam informaes motoras sobre o
estado dos atuadores, inclusive dos que posicionam o sensor visual. Considere ainda o instante
em que o mdulo recebe como entrada a ltima parte desta frase: esta garrafa.
O Mdulo I receber os estmulos das imagens e ir identificar regies de interesse que
podem ser utilizadas para representar partes distintivas destes objetos, em seguida, ir criar uma
representao simplificada contendo cada uma destas regies identificadas. Alm disso, ele
receber os estmulos sonoros referentes s palavras esta e garrafa e ir os decompor em
fonemas. Os estmulos proprioceptivos sero traduzidos em percepes que informam o local
para o qual o agente est olhando e a posio dos atuadores.
O Mdulo II receber a representao simplificada das regies de interesse da imagem e
ir criar uma representao indicando que na imagem h outros objetos: garrafa e tampa. Ele
81
tambm ir criar uma representao das palavras: esta e garrafa. Alm disso, ser composta
uma representao do estado dos atuadores e do local de origem das percepes visuais e
auditivas. Estas representaes so mais adequadas ao reconhecimento e a comparao com
informaes anteriores e sero enviadas para o Mdulo III.
O Mdulo III receber a representao das palavras, dos objetos e das localizaes e ento
atualizar o contexto atual e identificar dentre as entradas armazenadas anteriormente, qual
a mais semelhante a entrada e ao contexto atual. Suponha que a informao mais semelhante
encontrada no seja suficientemente semelhante entrada atual. Isso far com que esta entrada
seja considerada uma novidade e ento ela ser armazenada associada com o contexto atual. Em
seguida, o Mdulo de Contexto propagar suas entradas adiante, para o Mdulo IV, juntamente
com o contexto associado.
O Mdulo VI receber as informaes do Mdulo IV e identificar um agrupamento
pr-existente que representa o conceito incorporado sobre o objeto garrafa. Este conceito
incorporado inclui a representao do aspecto visual da garrafa, a representao lxica deste
objeto e os contextos e localizaes nos quais este tipo de objeto foi visto com mais frequncia.
Supondo que as informaes sejam suficientemente semelhantes, ento um agrupamento
considerado vencedor, fazendo com que a associao entre a representao deste conceito
incorporado seja aprimorada.
Em seguida, a informao contida no agrupamento vencedor do Mdulo IV, ou seja, o
conceito incorporado ser enviado para o Mdulo V, o qual utilizar esta informao para
atualizar o seu modelo de mundo. Em paralelo, este conceito incorporado tambm ser enviado
para o Mdulo VI, o qual ir completar a estrutura sinttica que vinha sendo formada, at ento
apenas com a palavra abra. A estrutura identificada indica que a palavra abra um verbo
e que a palavra garrafa o objeto deste verbo. Ento, uma representao desta estrutura
incluindo os conceitos incorporados envolvidos, ento enviada para o Mdulo VII.
O Mdulo VII utilizar a estrutura sinttica e os conceitos incorporados e o contexto para
ento compreender o comando proferido, e estabelecer seu objetivo atual como sendo o de
abrir a garrafa. Nesta etapa, o Mdulo V ser consultado para relacionar as representaes dos
conceitos incorporados mencionados na frase com os objetos presentes no ambiente e identificar
suas respectivas posies, funes, restries implcitas e conceitos motores relacionados. Tais
informaes sero utilizadas para computar uma sequncia de aes que levar ao objetivo
estabelecido.
Uma vez identificada tal sequncia de aes, cada ao ser convertida em uma sequncia de
comandos, ou conceitos motores, que sero enviados para o Mdulo VIII. Este mdulo, por sua
vez, ir traduzir estes comandos em sinais de controle para os atuadores do agente, fazendo-o,
enfim, alcanar o objetivo estabelecido. Este processo de execuo ocorrer com a superviso e
82
3.3. ESCOPO DO TRABALHO E VALIDAO DO MODELO
ajustes do Mdulo VII.
3.3
Escopo do Trabalho e Validao do Modelo
De forma alguma se espera que o modelo proposto neste captulo seja um sistema completo de
aprendizagem e execuo de comandos em linguagem natural. A ideia que ele sirva como
base para identificar capacidades essenciais que ainda no tenham sido modeladas. Esta viso
vir ao se identificar tarefas que o modelo no capaz de realizar, ou que realiza de forma
insatisfatria. A partir de ento, pode-se modificar o modelo adicionando outros mdulos,
ampliando as caractersticas dos mdulos atuais ou at mesmo modificando a arquitetura de
interconexes entre os mdulos.
A arquitetura proposta contempla diversos subproblemas de aprendizagem relacionados com
a aquisio de linguagem natural. Apesar disto, bem provvel que nem todos os subproblemas
que de fato precisam ser tratados tenham sido enumerados, ou que o nvel de detalhes alcanado
no seja suficiente para uma implementao real. No entanto, necessrio estabelecer um limite
para amplitude e o escopo das investigaes abordadas nesta Tese.
A aprendizagem de conceitos incorporados, que no modelo proposto se consolida no Mdulo
IV, pode servir de base, no apenas para a compreenso de linguagem natural, mas tambm
para diversas outras aplicaes da robtica desenvolvimentista, tais como a aprendizagem sobre
o ambiente, sobre pragmtica e sobre controle autnomo. Por este motivo, este foi escolhido
como sendo o principal ponto em que esta Tese dar contribuies.
Dentro do modelo proposto, os mdulos de I ao IV so fundamentais para a emergncia dos
conceitos incorporados. Assim sendo, a partir do prximo captulo, cada um destes mdulos
sero descritos e validados. Em cada captulo, inicialmente sero identificados na literatura os
modelos neurais mais promissores para executar as atividades de aprendizagem do mdulo em
questo, e os modelos computacionais sero ento aprimorados, quando for necessrio, para
que possam ser aplicados e validados na a execuo das tarefas de aprendizagem de cada um
dos mdulos (Captulo 4 ao Captulo 6).
A validao do sistema de aquisio de conceitos incorporados se dar em duas etapas:
primeiro ser demonstrado como os conceitos incorporados podem ser adquiridos por um agente
em um ambiente simulado (Captulo 7). Esta etapa tem o objetivo de ilustrar as principais caractersticas do modelo. Em seguida, no Captulo 8, as capacidades do modelo de aprendizagem de
associaes entre palavras (rtulos) e objetos do ambiente (referentes), sero comparadas com
as de seres humanos, em experimentos que utilizam dados reais. Isto ser feito considerando
resultados reportados em trs importantes trabalhos sobre aprendizagem cross-situacional de
palavras por seres humanos: Yu e Smith (2007); Yurovsky et al. (2013) e Trueswell et al. (2013).
83
4
Mdulo I - Mapeamento Sensrio-Perceptivo
Agentes incorporados so dotados de sensores que captam informaes do ambiente e produzem

fluxos de dados sensoriais que podem ser utilizados pelo agente para compreender o mundo ao
seu redor. No entanto, por vezes, h uma distncia considervel entre as informaes produzidas
pelos sensores e as informaes que de fato podem ser utilizadas para guiar as aes do agente,
ou seja, percepes (Dalle-Mole, 2010). O mapeamento sensrio-perceptivo responsvel
por fazer as transformaes necessrias no fluxo sensorial, de forma a convert-lo em uma
representao perceptiva. Observa-se que um fluxo sensorial pode produzir diversos fluxos
perceptivos, por exemplo, uma imagem fornece diversas percepes a respeito do ambiente.
Adicionalmente, mais de um fluxo sensorial pode ser necessrio para gerar um determinado
fluxo perceptivo, por exemplo, imagens de dois pontos de vista so necessrias para proporcionar
a percepo de distncia.
No crebro humano processos semelhantes aos descritos acima so realizados por diversas
estruturas, dependendo da origem sensorial. No fluxo visual, por exemplo, conforme descrito
na Seo 2.2.1, o mapeamento sensrio-perceptivo se inicia na prpria retina, e continua sendo
realizado no LGN e no crtex visual. J no fluxo auditivo, conforme discutido na Seo 2.2.2,
este trabalho se inicia na cclea, sendo complementado pelo crtex auditivo. Pode-se incluir
nesta discusso o sistema somatossensorial (ou sensorial somtico) que permite ao ser vivo
experimentar sensaes sobre o prprio corpo, ou propriocepes, incluindo sensaes de tato,
temperatura, da posio das partes do corpo ou de dor. Os receptores do sistema somatossensorial
se encontram distribudos por todo o corpo e servem para detectar os estmulos mecnicos,
qumicos e fsicos. A principal rea somatossensorial no crtex humano (tambm chamada de
crtex somtico sensorial primrio ou S1) est localizada no giro ps-central do lobo parietal
(Purves et al., 2011).
Uma parte do mapeamento sensrio-perceptivo aprendida, ou desenvolvida a partir dos
prprios estmulos. Porm, outra parte do mapeamento inata, resultado de processos evolutivos.
85
CAPTULO 4. MDULO I - MAPEAMENTO SENSRIO-PERCEPTIVO
Esta a parte que ser considerada nesta Tese e, portanto, os mapeamentos realizados sero
fixos e no auto-adaptativos. No caso da implementao de um agente incorporado, cmeras,
microfones e sensores de movimento podem ser considerados como fonte de sinais de vdeo, de
som e de posio, formando seu fluxo sensorial. A partir deste fluxo sensorial sero formadas as
percepes do agente, as quais sero representadas atravs de cdigos binrios ou bipolares,
quando for representada a presena ou ausncia de alguma caracterstica ou valores reais entre 0
e 1 ou entre -1 e 1 quando uma gradao for representada.
As percepes consideradas nesta Tese podem ser divididas em trs tipos: percepes
auditivas, percepes visuais e propriocepes. As percepes auditivas permitem aos seres
vivos identificar os mais variados tipos de sons. No entanto, nesta tese, as percepes auditivas
consideradas so apenas aquelas que permitem ao agente reconhecer a linguagem e, portanto,
sero enviadas para processamento lxico no Mdulo II. As percepes visuais sero enviadas
para processamento visual no Mdulo II. As propriocepes permitem ao agente perceber a si
mesmo e tambm ao ambiente. No entanto, nesta Tese, o tipo de propriocepo de interesse o
que permite ao agente identificar a posio dos sensores visuais, fazendo com ele seja capaz de
identificar a posio espacial de origem dos estmulos.
Os mapeamentos utilizados para produzir as percepes dependem do tipo de sensor utilizado. Nesta Tese, sero considerados dois tipos de agentes. O primeiro, ir atuar em um
ambiente simulado (Seo 4.2), que servir para ilustrar de maneira mais ampla o funcionamento do modelo em um agente incorporado virtual que recebe estmulos visuais, lingusticos
de localizao. O segundo ir atuar no mundo real, recebendo estmulos visuais, a partir de
imagens, e lingusticos, a partir de entradas de texto ou fala.
Os mapeamentos que extraem percepes auditivas, sero tratados na Seo 4.3, estes
mapeamentos produzem percepes lingusticas que sero adequadas tanto para o ambiente
simulado quanto para o ambiente real. J os mapeamentos que extraem as percepes visuais
no ambiente simulado, so descritos na Seo 4.4, e a Seo 4.5 apresenta mecanismos que
extraem percepes visuais a partir de imagens de cmeras, sendo portanto adequados para
agentes que atuam no mundo real.
Para que seja possvel comparar e agrupar percepes de forma coerente, trs propriedades
so desejveis: (1) percepes distintas devem ter representaes distintas; (2) percepes
semelhantes devem ter representaes semelhantes, com relao mtrica para compar-las;
e (3) as faixas de variao de todos os atributos da representao devem estar dentro de um
mesmo intervalo de valores.
A propriedade (1) permite ao agente diferenciar percepes, a propriedade (2) permite
ao agente agrupar percepes, e a propriedade (3) evita que determinados atributos afetem o
resultado das comparaes entre percepes de uma maneira desproporcional em relao a
86
4.1. MODELOS RELACIONADOS
outros. Na Seo 4.6 ser avaliado se a representao proposta possui estas propriedades. Por
fim, a Seo 4.7 apresenta as concluses deste captulo.
A seguir sero descritos os principais trabalhos que forneceram a base para a proposio do
mdulo de mapeamento sensrio-perceptivo.
4.1
Modelos Relacionados
Dois trabalhos apresentam mdulos com funes semelhantes ao mdulo tratado neste captulo.
Pacheco (2004) props um modelo neural modular para simular fenmenos de memria que
pessoas apresentam ao memorizar listas de palavras faladas. No sistema proposto por Pacheco,
h representaes distintas para a parte literal das palavras ouvidas (representao fontica),
e para o significado das palavras (representao da essncia). Neste trabalho definido um
mdulo de Associao Sensorial que tem por funo a formao de uma representao neural
reunindo os vrios estmulos recebidos pelo sistema.
Na representao fontica descrita em Pacheco (2004) e Arajo et al. (2010) as entradas
fornecidas em udio so decompostas em fonemas e cada fonema representado como um
conjunto de suas subcaractersticas. Os elementos fonticos mnimos capazes de distinguir duas
palavras em um dado idioma so chamados de traos distintivos. Como exemplo, as palavras
bolo e tolo opem-se pela diferena mnima no fonema inicial, entre o trao grave e frouxo
de /b/ e o trao agudo e tenso de /t/. Pacheco (2004) e Arajo et al. (2010) utilizaram um
conjunto com 9 traos distintivos, que podem ser considerados como formando um conjunto
de eixos ortogonais de um espao de traos fonticos. Esta representao foi pensada para
representar apenas palavras atravs de uma representao de tamanho fixo. Uma representao
semelhante esta ser utilizada nesta Tese para representar as percepes auditivas (Seo 4.3),
no entanto, como nesta Tese o intuito representar frases completas com tamanhos variveis,
no havendo restries no tamanho da representao de cada palavra.
Dalle-Mole (2010) descreve um agente incorporado autnomo, equipado com um sistema
motor e dispositivos sensores de varredura a laser, capaz de explorar um ambiente composto de
salas, corredores e passagens entre salas. Na modelagem cognitiva apresentada por Dalle-Mole
(2010), foi definida uma camada sensrio-perceptiva que o ponto de entrada dos sistemas
sensoriais e forma o substrato perceptivo bsico que compreende os processos de extrao e
codificao de informaes. As leituras dos sistemas sensores so processadas sobre diferentes
perspectivas, produzindo sinais que so entradas adequadas aos mdulos neurais das camadas
superiores. Deste modo, um nico fluxo sensorial pode originar vrios fluxos perceptivos. Um
exemplo de processo desta camada a extrao de informaes sobre a localizao de obstculos
a partir das informaes contidas nas leituras do sistema de sensores de varredura.
87
As ideias descritas no trabalho de Dalle-Mole (2010) serviram de inspirao, tanto para a

definio dos mapeamentos utilizados para definir as percepes visuais que sero apresentadas
na Seo 4.4, quanto para a proposio do mdulo de mapeamento sensrio-perceptivo em
si, ao qual foi agregada a representao fontica proposta por Pacheco (2004) para definir as
percepes auditivas.
4.2
Ambiente Simulado
O ambiente descrito a seguir foi modelado tendo como objetivo a representao de um ambiente
cooperativo, no qual instrutor e agente interagem para realizar tarefas que so especificadas
pelo instrutor atravs de linguagem natural, abstraindo a maioria das dificuldades existentes no
mundo real que no contribuem diretamente para o problema da aprendizagem da linguagem,
tais como processamento de imagens, navegao e posicionamento de atuadores. Este ambiente
pode ser utilizado para verificar se o agente capaz de aprender conceitos, tais como os conceitos
de vermelho, hexgono, posio X, e se o agente capaz de relacionar palavras com os conceitos
corretos.
O ambiente mostrado na Figura 4.1, consiste em um tabuleiro com m n clulas nas
quais podem ser posicionados objetos (1 em cada clula). Os objetos possuem as seguintes
propriedades: forma geomtrica (quadrado, tringulo, crculo e hexgono), tamanho (variando
entre um mnimo e um mximo) e cor (branco, preto, vermelho, verde, azul e amarelo) os
objetos podem ser posicionados nas mos do agente ou do instrutor, e nas clulas do tabuleiro. O
agente pode direcionar seus sensores para uma das clulas do tabuleiro, para suas mos, para as
mos do instrutor, ou para um local indeterminado, recebendo ento as percepes do ambiente
(pA), as propriocepes (pP) e as percepes da linguagem natural (pL) listadas abaixo:
Percepes e Propriocepes do Agente
pPl : Linha do tabuleiro observada pelo agente;
pPc : Coluna do tabuleiro observada pelo agente;
pAc : Cor do objeto observado: {branco, preto, vermelho, verde, azul e amarelo} ou
cinza, caso no haja nenhum objeto no local;
pA f : Forma do objeto observado: {crculo, tringulo, quadrado e hexgono}
pAt : Tamanho do objeto observado: valor real entre [smin , smax ];
pL: ltima sentena escrita pelo instrutor em linguagem natural.
No ambiente modelado, o instrutor pode proferir comandos em linguagem natural. Alm

88
4.2. AMBIENTE SIMULADO
Figura 4.1 Ambiente simulado: agente observa a clula E2 do tabuleiro enquanto o instrutor manipula o
objeto da clula B1.
disso, tanto o agente quanto o instrutor podem mover objetos para outras clulas do tabuleiro
que estejam vazias. Para isso, ambos contam com as seguintes aes possveis:
Aes do Agente e do Instrutor

a1 : Direcionar seus sensores para uma clula do tabuleiro, para os atuadores do agente,
para as mos do instrutor ou para um local indefinido;
a2 : Pegar o objeto que est no local para o qual seus sensores esto voltados. Caso no
haja um objeto neste local, os autadores do agente permanecem vazios. Caso j
haja um objeto nos atuadores do agente, este ser posicionado em uma clula vazia
do tabuleiro escolhida aleatoriamente;
a3 : Colocar o objeto no local para o qual seus sensores esto voltados. Caso j haja
um objeto neste local, o objeto nos atuadores do agente ser posicionado em uma
clula vazia do tabuleiro escolhida aleatoriamente.
89
Apesar de ser simples, o ambiente descrito fornece inmeros desafios para a aprendizagem
da linguagem natural, uma vez que os objetivos do agente so especificados em linguagem
natural, e o mesmo a princpio no possui conhecimento nenhum a respeito do ambiente, do
resultado de suas aes ou do significado das palavras e frases proferidas, sendo necessrio
inferir todas estas informaes a partir da explorao do ambiente e da interao com o instrutor.
4.3
Representao das Percepes Auditivas
A representao da percepo das frases em linguagem natural (pL) foi inspirada nos trabalhos
de Pacheco (2004) e Arajo et al. (2010). Nestes trabalhos o objetivo era representar palavras
pequenas (2-6 fonemas) por meio de uma representao de tamanho fixo. O mapeamento
realizado em duas etapas: a primeira consiste em mapear cada palavra contida na frase para
uma representao fontica, na qual as palavras so representadas por sequncias de fonemas.
A segunda etapa consiste em mapear os fonemas em um respectivo conjunto de atributos
representando seus traos distintivos, que podem ser codificados atravs de uma representao
de tamanho fixo. O objetivo da primeira etapa aproximar a representao da maneira como
as palavras so pronunciadas por humanos, tornando a representao flexvel o suficiente para
aceitar como entrada linguagem escrita (texto) ou falada (sons), pois ambas as formas podem ser
convertidas para uma representao fontica. E o da segunda o de conseguir uma representao
binria de tamanho fixo, que permita a comparao adequada entre duas palavras quaisquer.
Para isso, Pacheco (2004) utiliza uma estrutura na qual consoantes consecutivas ou vogais
consecutivas so aglutinadas para se conseguir uma representao do tipo consoante-vogalconsoante. Palavras que no se iniciavam com consoante, tinham inserido um fonema de
preenchimento no comeo #, permitindo que palavras como long e along ou void e avoid
sejam comparadas de maneira adequada.
Ento, os fonemas aglutinados so traduzidos em um cdigo de nove bits, representando
cada um dos nove traos distintivos pertencentes a ao menos um dos fonemas. Os nove traos
distintivos utilizados por Pacheco (2004) so: Voclico (1) / No voclico (0), Consonantal
(1) / No consonantal (0), Compacto (1) / Difuso (0), Grave (1) / Agudo (0), Rebaixado (1) /
Sustentado (0), Nasal (1) / Oral (0), Tenso (1) / Frouxo (0), Contnuo (1) / Interrompido(0),
Estridente (1) / Doce (0). Assim, a representao 011000100, indica que o fonema /k/ no
voclico, consonantal, compacto, agudo, sustentado, oral, tenso, interrompido e doce.
Por exemplo, a palavra walk traduzida para a representao fontica /uok/, a qual no se
inicia com consoante. Ento inserido um fonema de preenchimento no incio #. Em seguida a
vogal /o/ aglutinada com a vogal /u/, formando: /# ou k/. Esta representao ento convertida
para a forma binria: 000000000 101110000 011000100, onde 000000000, representa o
90
4.3. REPRESENTAO DAS PERCEPES AUDITIVAS
fonema de preenchimento /#/, 101110000 representa os fonemas voclicos aglutinados /ou/, e

101110000 representa o fonema consonantal /k/.
Este mapeamento ainda possui alguns problemas. Por exemplo, fonemas /#/ precisam
ser adicionados s palavras, quando forem comparadas com uma palavra maior, o que gera
imprecises. Alm disso, a semelhana entre fonemas no capturada com muitos detalhes,
devido representao binria. Por exemplo, fonemas dentais so mais semelhantes aos fonemas
labiodentais do que aos fonemas glotais. Mas esta representao no captura estes detalhes.
O mapeamento descrito na seo seguinte visa representar apenas fonemas e no palavras.
Esta representao foi aprimorada nesta Tese para proporcionar comparaes mais precisas
entre fonemas, sem a necessidade da aglutinao. A representao de palavras e frases, tratando
dos problemas de comparaes descritos acima ser obtida aps a composio realizada pelo
Mdulo de Representao, o qual ser apresentado no Captulo 5.
4.3.1
Representao Fontica
O mapeamento das palavras para uma representao fontica pode ser realizado atravs de
dicionrios de pronncia do idioma de origem do texto. Nesta Tese, foi utilizado o dicionrio
de pronncia para ingls norte americano, de domnio pblico, produzido pela Universidade
Carnegie Mellon (CMU, 2011). Este dicionrio contm mais de 100 mil palavras e as suas
transcries para uma forma de representao fontica apropriada para processamento por
computadores. Para isso, so utilizados caracteres da tabela ASCII para representar os fonemas
do idioma ingls, o Arpabet, em vez dos caracteres especficos para representao de fonemas
do Alfabeto Fontico Internacional (AFI). O dicionrio da Carnegie Mellon considera ainda
possveis variaes de pronncia de uma mesma palavra e de acentuao em fonemas. No
entanto, estas variaes no so consideradas nesta Tese para manter simples a representao
final.
Os 39 fonemas utilizados no mapeamento fontico das palavras so exibidos na Tabela 4.1.
Como exemplo, a frase This is a red square seria mapeada para DH IH S IH Z AH R EH D
S K W EH R. Note que, nesta representao, nenhum smbolo de separao entre palavras
utilizado, pois esta informao em geral no est disponvel de forma evidente em linguagem
falada. Adicionalmente, para representar as pausas existentes no discursos pode ser utilizado o
smbolo #. Exemplos de entradas deste dicionrio que foram utilizadas para o mapeamento
em fonemas so exibidos na Tabela 4.2
91
Tabela 4.1 Correspondncia entre os smbolos AFI, smbolos do Arpabet e a respectiva representao
numrica proposta.
Fonema
AFI
Arpabet
Representao numrica
father
A
at
but, sofa
2, @
O
off
how
aU
my
aI
E
red
her, coward ,
big
I
bee
i
boy
OI
oU
show
say
eI
U
should
you
u
AA
AE
AH
AO
AW
AY
EH
ER
IH
IY
OY
OW
EY
UH
UW
1
1
0,67
0,33
0
0
0,33
0,33
-0,67
-1
0
-0,33
-0,33
-0,67
-1
buy
chair
day
that
for
go
house
just
key
late
man
knee
sing
pay
run
say
show
take
thanks
very
way
yes
zoo
measure
B
CH
D
DH
F
G
HH
JH
K
L
M
N
NG
P
R
S
SH
T
TH
V
W
Y
Z
ZH
#
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
92
b
tS
d
f
g
h
dZ
k
l
m
n
p
r,
s
S
t
T
v
w
j
z
Z
silncio
0,5 1
-0,5 -1
0
-1
1
1
0,5 0
0 -0,5
-0,5 -1
0
1
-0,5 -1
-1
1
0
0
1
1
-1
1
0,5 -1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
-1
-1
-1
1
0
0
-1
0
-1
-1
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0,27
0,45
0,64
0,82
-0,27
-1
0,45
-0,27
0,45
1
0,45
-0,27
1
0,27
0,45
0,27
0,45
0,64
0,82
1
-0,09
0,45
0,27
0
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
1
1
1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
0
1
-1
1
-1
-1
1
-1
-1
1
-1
-1
-1
-1
1
-1
-1
-1
1
-1
-1
-1
-1
-1
-1
0
-1
0
-1
1
1
-1
1
0
-1
-1
-1
-1
-1
-1
-1
1
1
-1
1
1
-1
-1
1
1
0
1
-1
1
1
-1
1
0
1
-1
1
1
1
1
-1
1
-1
-1
-1
-1
1
1
1
1
1
0
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
1
1
-1
-1
0
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
1
-1
-1
-1
-1
-1
-1
-1
-1
-1
0
-1
-1
-1
-1
-1
-1
-1
-1
-1
1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
0
4.3. REPRESENTAO DAS PERCEPES AUDITIVAS
Tabela 4.2 Exemplos de entradas no dicionrio de pronncia da Universidade Carnegie Mellon.
Palavra
Sequncia de fonemas
This
DH IH S
Blue
B L UW
Red
R EH D
Triangle T R AY AE NG
Square
S K W EH R
Three
TH R IY
Take
T EY K
4.3.2
AH
Representao Numrica
Para criar uma representao numrica para os fonemas listados na Tabela 4.1 foram levadas
em considerao as propriedades distintivas dos fonemas de acordo com a forma com que so
articulados quando pronunciados. A Associao Internacional de Fontica (AIF) define diversas
propriedades para fonemas de vogais Figura 4.2 e de consoantes Figura 4.3. As propriedades
fonticas principais foram utilizadas para compor uma representao numrica com valores
variando entre (-1 e +1) para cada uma das propriedades, de acordo com a Tabela 4.3 e Tabela 4.4.
As propriedades, Altura e Posteridade das vogais e Ponto de articulao das consoantes
so ordenadas e, portanto, foram representadas numericamente de forma progressiva com
valores variando gradativamente entre -1 e +1. As demais propriedades foram codificadas com
valores -1 para ausncia da propriedade, +1 para presena da propriedade, e zero foi utilizado
quando a propriedade no se aplica ao fonema codificado.
Figura 4.2 Propriedades das vogais de acordo com a AIF. Fonemas direita dos pontos so arredondados.
Nas colunas consta a posteridade dos fonemas dos mais anteriores para os mais posteriores e nas linhas
consta a altura dos fonemas do mais aberto (alto) para o mais fechado (baixo). Traduzido do diagrama da
AFI distribudo pela Wikipedia.org sob licena creative commons.
93
A representao de um fonema composta ento por um vetor de tamanho 12 (4 propriedades

de vogais e 8 de consoantes), no qual os fonema de vogais recebem valor intermedirio (zero) nos
campos de propriedades de consoantes e os fonemas de consoantes recebem valor intermedirio
para as propriedades referentes s vogais. Como exemplo, o fonema de vogal AE ()
representado pelo vetor [1 -0,5 -1 -1 0 0 0 0 0 0 0 0] e o da consoante ZH (Z) representado
pelo vetor [0 0 0 0 0,27 -1 -1 1 1 -1 -1 -1].
Figura 4.3 Propriedades das consoantes de acordo com a AIF. Onde os smbolos esto em pares, as
consoantes so sonoras. Nas colunas so indicados os pontos de articulao, ordenados dos lbios at
a garganta. Nas linhas constam as demais propriedades. Diagrama traduzido da AFI distribudo pela
Wikipedia.org sob licena creative commons.
Tabela 4.3 Propriedades dos fonemas e representao numrica proposta para as vogais.
Vogais
Variaes
Respectivos valores numricos
Altura
fechada (vogal alta), quase fechada, semifechada, mdia, semiaberta, quase

aberta e aberta (vogal baixa)
anterior, quase anterior, central, quase
posterior e posterior
arredondada ou no
longa ou curta
-1 -0,67 -0,33 0 0,33 0,67 1
Posteridade
Arredondamento
Tenso
1
-1 -0,75 -0,5 -0,25 0 0,25 0,5 0,75

11
-1 02 1
-1 0 1
Mais gradaes so utilizadas na representao numrica da posteridade, pois alguns fonemas so posicionados
entre as categorias listadas. Ex.: o fonema representado como (-0,25) situa-se entre quase anterior (-0,50) e
central (0,00) (veja Figura 4.2).
2 Zero em campos bipolares utilizado como valor intermedirio para indicar que a propriedade no se aplica ao
tipo de fonema. Ex: consoantes no possuem propriedade arredondamento ento zero utilizado em sua
representao.
94
4.4. REPRESENTAO DAS PROPRIOCEPES E PERCEPES DO AMBIENTE

SIMULADO
Tabela 4.4 Propriedades dos fonemas e representao numrica proposta para as consoantes.
Consoantes
Variaes
Respectivos valores numricos
Ponto de articulao
bilabial, labiodental, dental, alveolar,

palato-aveolar, retroflex, palatal, velar,
uvular, faringeal, epiglotal e glotal
nasal ou no
oclusiva ou no
fricativa o no
sonante o no
deslisante
retroflexa
lateral
-1 -0,82 -0,64 -0,45 -0,27 -0,09 0

0,09 0,27 0,45 0,64 0,82 1
Maneira de articulao
4.4
-1 0 1
-1 0 1
-1 0 1
-1 0 1
-1 0 1
-1 0 1
-1 0 1
Representao das Propriocepes e Percepes do

Ambiente Simulado
As percepes e propriocepes do agente sero representadas atravs de um vetor com 10

Q
B
C
T
H
componentes: p = [pPl , pPc , pARc , pAG
c , pAc , pA f , pA f , pA f , pA f , pAt ], componentes
definidos na Seo 4.2. Os ndices superiores R, G, B, C, T , Q e H denotam respectivamente, as
cores: vermelho, verde e azul, e as formas: crculo, tringulo, quadrado e hexgono. A seguir
sero descritas as funes que extraem cada uma das percepes a partir do ambiente.
4.4.1
Posio do Tabuleiro Observada pelo Agente (pPl e pPc )
Para estabelecer estes mapeamentos definido o nmero total de linhas (lmax ) e colunas (cmax )
do tabuleiro e o ndice da linha (l) e da coluna (c) da clula observada (iniciando em zero).
Assim, as percepes da linha (pPl ) e da coluna (pPc ) so obtidas atravs de pPl = l/lmax e
pPc = c/cmax .
4.4.2
Cor do Objeto no Local Observado (pAc )
B
As cores dos objetos so mapeadas para seus respectivos valores RGB (pARc , pAG
c , pAc ) entre 0
e 1. Caso no haja objeto presente no local, um mapeamento referente cor do fundo (cinza)
realizado. A Tabela 4.5 indica o mapeamento de cores em percepes.
95
Tabela 4.5 Mapeamento das cores em percepes.
Cor
Branca
Preta
Vermelha
Verde
Azul
Amarela
Cinza
4.4.3
Percepes
pARc = 1.0,
pARc = 0.0,
pARc = 1.0,
pARc = 0.0,
pARc = 0.0,
pARc = 1.0,
pARc = 0.5,
pAG
c = 1.0,
G
pAc = 0.0,
pAG
c = 0.0,
G
pAc = 1.0,
pAG
c = 0.0,
pAG
c = 1.0,
G
pAc = 0.5,
pABc = 1.0
pABc = 0.0
pABc = 0.0
pABc = 0.0
pABc = 1.0
pABc = 0.0
pABc = 0.5
Forma do Objeto no Local Observado (pA f )
A percepo de forma dos objetos codificada atravs de 4 atributos (pACf , pATf , pAQf , pAHf )
cada um representando uma das 4 possveis formas de objetos consideradas nessa Tese (crculo,
tringulo, quadrado e hexgono). Com isso a representao obtida atribuindo-se o valor 1
a percepo correspondente e 0 as demais percepes. A Tabela 4.6 indica os mapeamentos
possveis.
Tabela 4.6 Mapeamento das formas em percepes.
Cor
Crculo
Tringulo
Quadrado
Hexgono
4.4.4
Percepes
pACf = 1,
pACf = 0,
pACf = 0,
pACf = 0,
pATf
pATf
pATf
pATf
= 0,
= 1,
= 0,
= 0,
pAQf = 0,
pAQf = 0,
pAQf = 1,
pAQf = 0,
pAHf
pAHf
pAHf
pAHf
=0
=0
=0
=1
Tamanho do Objeto (pAt )
A percepo do tamanho dos objetos (pAt ) ajustada entre 0 e 1, levando-se em considerao o

menor (smin ) e maior (smax ) tamanho possvel de objeto e o tamanho do objeto em questo (s),
de acordo com: pAt = (s smin )/(smax smin ). Caso no haja objeto no local observado ou o
agente esteja olhando para um local indefinido ento pAt = 0.
Com isso, esto definidas todas as 10 componentes do vetor perceptivo que ser enviado para
os mdulos seguintes. Estas percepes foram definidas de forma propositadamente simplificada
para permitir uma anlise mais detalhada dos resultados obtidos aps o processamento que ser
realizado pelos mdulos posteriores. Percepes mais prximas das de um agente real, podem
ser obtidas a partir de imagens, conforme ser descrito na seo seguinte.
96
4.5. REPRESENTAO DAS PERCEPES VISUAIS A PARTIR DE IMAGENS
4.5
Representao das Percepes Visuais a Partir de

Imagens
Nesta Tese, a extrao das percepes visuais consiste em identificar e representar elementos
da imagem que sejam teis na descrio dos objetos ou elementos contidos na imagem. Na
literatura de Viso Computacional este processo conhecido como extrao de caractersticas.
A literatura sobre descoberta no-supervisionada de objetos em imagens (Weber et al., 2000;
Tuytelaars et al., 2010; Kinnunen et al., 2012) divide a extrao de caractersticas em duas
etapas: a primeira consiste na identificao de pontos ou regies de interesse. Esta etapa ser
tratada na Seo 4.5.1. A segunda consiste em construir uma representao da informao
contida nestas regies. A descrio de caractersticas ser tratada na Seo 4.5.2.
Nesta Tese, as percepes visuais do agente sero obtidas aps a execuo destas duas etapas
de processamento, e iro representar partes dos objetos contidos na imagem. A representao
dos objetos completos responsabilidade do Mdulo II, e sero discutidas no Captulo 5.
4.5.1
Deteco de Ponto de Interesse
Pontos de interesse so locais da imagem que contm informao til para a descrio do
seu contedo, tais como partes de objetos, bordas e quinas. Uma propriedade desejvel nos
mecanismos de deteco de caractersticas a repetibilidade, ou seja, o mtodo deve ser capaz
de detectar os mesmos pontos, ou pontos prximos, em imagens diferentes de uma mesma cena
ou objeto.
Kinnunen et al. (2012) comparou vrios mtodos de deteco de caractersticas e o detector
Hessiano afim (Mikolajczyk e Schmid, 2002) apresentou os melhores resultados quando em
conjunto com redes neurais. O detector Hessiano afim pertence subclasse de detectores de
caractersticas chamados de detectores invariantes afins (Mikolajczyk et al., 2005).
Estes mtodos detectam pontos da imagem que se alteram covariantemente com transformaes de um ponto de vista para outro. Assim, os descritores de caractersticas obtidos nas
regies em torno destes pontos so tipicamente invariantes a transformaes afins de ponto de
vista, sendo, portanto, de extrema utilidade para o reconhecimento de objetos.
O detector Hessiano afim utiliza um algoritmo iterativo para localizar pontos afins invariantes
em diferentes imagens do espao de escalas Gaussiano (Figura 4.4). A representao de uma
imagem no espao de escala Gaussiano o conjunto de imagens que resultam de convolues
dessa imagem, I(x), com kernels Gaussianos de diferentes tamanhos, G(I , s). Em cada escala,
so escolhidos pontos de interesse com base na matriz Hessiana calculada em cada ponto da
imagem:
97
(a) G(I , s) I(x) com s = 0
(b) G(I , s) I(x) com s = 4
(c) G(I , s) I(x) com s = 64
Figura 4.4 Exemplo de trs nveis em um espao de escalas Gaussiano.
"
#
Lxx (x) Lxy (x)
H(x) =
Lxy (x) Lyy (x)

4.1
onde, Lxx (x), a segunda derivada parcial na direo x e Lxy (x), a segunda derivada parcial
mista nas direes x e y. Estas derivadas so computadas na escala da iterao atual, ou seja,
uma imagem suavizada por um kernel Gaussiano para a escala s: L(x) = G(I , s) I(x).
Em cada escala, os pontos de interesse so os extremos locais tanto do determinante quanto
do trao da matriz Hessiana, que ultrapassam um limiar previamente definido: lhess . Como
discutido em Mikolajczyk et al. (2005), ao escolher pontos que maximizam o determinante
da matriz Hessiana, esta medida penaliza estruturas pequenas que tm segundas derivadas
(mudanas de sinal) em uma nica direo. Um exemplo da aplicao deste detector de pontos
de interesse mostrado na Figura 4.5. Note que a maioria dos pontos identificados na primeira
imagem (a) tambm foi identificado na imagem rotacionada (b). As sadas dessa etapa so os
pontos identificados associados a sua escala de deteco.
4.5.2
Descrio de Caractersticas Locais
Uma vez detectados os pontos de interesse, o prximo passo a extrao de caractersticas de

cada um desses pontos. Para que seja possvel reconhecer objetos contidos nas imagens de
maneira confivel, importante que as caractersticas extradas da imagem sejam reconhecveis
mesmo em situaes de mudanas de escala e orientao, e mudanas de iluminao.
O descritor SIFT, do ingls Scale-invariant Feature Transform (Lowe, 1999), possui cada
uma destas propriedades em alguma extenso, e tem sido amplamente utilizado para descoberta
no-supervisionada de objetos (Weber et al., 2000; Tuytelaars et al., 2010; Kinnunen et al.,
2012).
O descritor SIFT pode ser visto como um histograma da direo e magnitude dos gradientes
locais em torno do ponto de interesse. O tamanho dessa rea em torno do ponto de interesse
98
4.5. REPRESENTAO DAS PERCEPES VISUAIS A PARTIR DE IMAGENS
(a) Imagem original
(b) Imagem rotacionada
Figura 4.5 Exemplo de aplicao do detector Hessiano afim. Os pontos identificados pelo mtodo em
cada imagem esto indicados em amarelo.
determinado como uma constante vezes a escala de deteco s do ponto de interesse. A

invarincia a escala obtida normalizando-se o tamanho dessa vizinhana em funo da
escala de deteco. Para obter invarincia de rotao, a orientao dominante na vizinhana
determinada e utilizada como referncia para definir a orientao da grade sobre a qual o
histograma de posio calculado. Para obter invarincia a mudanas de iluminao o vetor de
caractersticas normalizado para a unidade.
Uma vez determinada a escala e a orientao da grade, para cada ponto da grade computado
um histograma das direes dos gradientes locais na escala do ponto de interesse, quantizado
em 8 direes distintas.
Para dar pesos para orientaes mais prximas do ponto de interesse, as entradas no histograma tambm so ponderadas por uma janela Gaussiana centrada no ponto de interesse e com
o seu tamanho proporcional escala de deteco do ponto de interesse. Tomados em conjunto,
os histogramas locais computados para todos os pontos de grade, em geral 4x4, e quantizados
em 8 direes. Isto produz um descritor com 4 x 4 x 8 = 128 dimenses para cada ponto de
interesse, que neste trabalho considerado como sendo um elemento perceptivo extrado da
imagem, o qual ser enviado para o Mdulo II, que por sua vez, compe diversos elementos
perceptivos deste tipo para criar uma representao mais completa dos elementos contidos na
imagem.
Existem analogias importantes entre a representao espao-escala utilizada pelos mecanis-
99
Figura 4.6 Ilustrao de como o descritor SIFT calculado a partir de amostras da orientao e da
magnitude do gradiente sobre uma grade 2x2 adaptada localmente em torno de cada ponto de interesse.
O fator de escala determinado a partir da escala de deteco do ponto de interesse e a orientao
determinada a partir do pico dominante no histograma de orientao do gradiente em torno do ponto de
interesse. Distribudo pela Scholarpedia sob a licena Creative Commons.
mos definidos acima e a maneira como funciona a viso em mamferos. Estudos neurofisiolgicos recentes (Lindeberg, 2011, 2013) apontam que existem perfis de campos receptivos na retina,
no LGN e no crtex visual de mamferos, que podem ser modelados adequadamente pelos
operadores derivativos Gaussianos, em alguns casos, tambm complementados por modelos
espao-escala afim no isotrpicos ou por modelos de escala espao-temporais, ou combinaes
no lineares de ambos. Isso aponta que o tipo de mapeamento escolhido para representar as
percepes de imagens conta com certa plausibilidade biolgica, estando, portanto, em linha
com os objetivos gerais desta Tese.
4.6
Validao dos Mapeamentos Propostos
Para validar os mapeamentos propostos, necessrio verificar se a representao produzida por

eles possui as propriedades definidas no incio deste captulo. Ou seja, se verdade que (1)
percepes distintas possuem representaes distintas; (2) percepes semelhantes possuem
representaes semelhantes; e (3) se todos os atributos variam dentro de um mesmo intervalo de
valores.
As percepes auditivas e as percepes do ambiente simulado possuem essas propriedades
devido ao seu desenho. Considerando que cada um dos componentes dos vetores perceptivos
possui o mesmo peso na comparao entre duas percepes e so definidos de forma que
possuam: (a) valores distintos para propriedades distintas; (b) valores prximos para representar
propriedades semelhantes e (c), todas as propriedades variam de forma proporcional e dentro
de uma mesma escala ([0,1] no caso das percepes do ambiente simulado e [-1,1] para as
percepes auditivas). Assim, decorre de (a) que a representao proposta possui a propriedade
100
4.7. CONCLUSO
(1). E decorre de (b) e (c) que a representao possui as propriedades (2) e (3).
No caso das percepes extradas a partir das imagens, no possvel garantir a propriedade
(1), pois, devido compresso de informao realizada pela extrao de caractersticas adotada,
apesar de improvvel, possvel que objetos distintos, porm parecidos, acabem sendo representados por um mesmo vetor de caractersticas. Neste caso, o agente no seria capaz de distinguir
estes objetos, assim como pode ocorrer com seres humanos. Porm, improvvel que objetos
muito diferentes possuam a mesma representao, pois os pontos de interesse identificados em
objetos diferente sero distintos, e os respectivos histogramas dos gradientes de regies distintas
regies tambm sero provavelmente distintos.
Por outro lado, a propriedade (2) faz parte da motivao dos mtodos utilizados para
representar imagens. Ou seja, a reprodutibilidade, alvo principal da deteco de pontos de
interesse, faz com que pontos semelhantes sejam identificados em imagens semelhantes. E as
propriedades de invarincia do descritor SIFT garantem que pontos de interesse semelhantes
iro produzir representaes semelhantes.
Por fim, se cada pixel das imagens de entrada for representado na escala de 0 a 255, ento
cada componente dos histogramas computados tambm iro variar nesta faixa, o que garante a
propriedade (3).
4.7
Concluso
Neste captulo, foi apresentado o mdulo de mapeamento sensrio-perceptivo. Os dois tipos

de mapeamentos apresentados aqui cumprem papeis distintos na validao do modelo. O
mapeamento dos estmulos do ambiente simulado ir permitir avaliar o comportamento dos
mdulos na formao dos conceitos incorporados ao integrar tipos diferentes de estmulos. O
ambiente definido ser utilizado posteriormente para validar os demais mdulos propostos. Neste
ambiente simulado, as operaes necessrias para produzir o vetor de percepes so simples.
No entanto, para um agente incorporado atuando em um ambiente real, as percepes devem
ser extradas por rotinas de processamento mais complexas, ou at mesmo auto-adaptativas.
J o mapeamento das percepes a partir das imagens ir permitir avaliar o modelo com entradas mais prximas das disponveis no mundo real. importante ressaltar que a representao
escolhida das percepes no captura todos os elementos perceptivos contidos em imagens reais.
Elementos tais como cor e profundidade no so capturados por esta representao. Porm, se
espera que este mapeamento extraia informaes suficientes para reconhecer uma ampla gama
de objetos, teis para diversas aplicaes e atendendo aos objetivos de avaliao do modelo.
Foi tambm proposta uma representao das percepes para linguagem natural, a qual
pode ser obtida a partir de entrada sonora ou textual, o que traz facilidades prticas para os
101
experimentos que sero apresentados em seguida. A representao das percepes lingusticas

proposta captura com mais detalhes as informaes contidas nos fonemas do que as previamente
disponveis na literatura. Foi mostrado tambm que as representaes propostas possuem as
propriedades necessrias para que sejam criados agrupamentos coerentes.
No entanto, vale lembra que nem todos os elementos comunicativos expressos pela linguagem oral so capturados por esta representao, que desconsidera a entonao e a emoo
contidas no discurso. Alm disso, no caso das percepes auditivas, a anlise realizada vlida
para comparao entre fonemas, mas no entre palavras, j que palavras podem ter representaes de tamanhos distintos e suas partes semelhantes podem estar deslocadas, como no caso
da ocorrncia de prefixos e sufixos (ex.: carregar e descarregar). A representao de palavras
ser alcanada com o Mdulo de Representao (II). Ainda assim, as propriedades avaliadas
acima sero necessrias para que a comparao entre palavras apresente resultados coerentes.
O mesmo vale para as percepes extradas a partir das imagens. O Mdulo II, descrito no
Captulo seguinte, far a composio destas percepes para permitir o reconhecimento de
objetos completos a partir do reconhecimento de suas partes.
102
5
Mdulo II - Representao
Em muitas situaes as percepes produzidas pelo Mdulo de Mapeamento Sensrio-Perceptivo

(I) no so suficientes para identificar os elementos do ambiente de uma maneira completa. Por
exemplo, fonemas, quando observados isoladamente, no apresentam informao suficiente para
a compreenso do que foi dito. Da mesma forma, partes de bordas, quinas e pequenos elementos
de textura, quando observados isoladamente, no apresentam informao suficiente para o
reconhecimento de objetos. Portanto, necessrio que estas informaes sejam compostas de
alguma maneira, possibilitando a emergncia de um significado que possa ser correlacionado
com os elementos de interesse do ambiente.
Dependendo do tipo de informao que se quer representar, a composio das percepes que
o Mdulo II realiza pode ser espacial, temporal ou espao-temporal. Por exemplo, composio
espacial ocorre no caso da composio de partes de imagens para representar objetos, j que as
percepes so obtidas no mesmo instante de tempo, porm de localizaes distintas da imagem.
No caso da composio de fonemas para representar palavras, tem-se uma composio temporal,
pois as percepes fonticas adquiridas em instantes de tempo consecutivos precisam ser
compostas. J no caso da representao de movimento a partir das percepes de sequncias de
imagens no tempo, como por exemplo, para representar aes, necessrio compor percepes
de posies e instantes de tempo distintos, sendo, portanto, uma composio espao-temporal.
A criao dessa representao mais informativa atravs da composio espacial e temporal
responsabilidade do Mdulo II.
No crtex cerebral, algumas regies apresentam funes similares as do Mdulo de representao. Por exemplo, sabe-se que leses no crtex parietal posterior so correlacionadas
com a sndrome de Balint, na qual indivduos percebem o mundo de forma irregular, como
uma srie de objetos individuais ou partes de objetos ao invs de perceber a totalidade de
uma cena (Udesen e Madsen, 1992). Outro exemplo a rea visual V5, a qual se conjectura
ter um papel importante na percepo do movimento, realizando a composio dos sinais de
103
CAPTULO 5. MDULO II - REPRESENTAO
movimento locais em percepes de movimento globais (Born e Bradley, 2005). Ou ainda

a rea de Wernickie, que supostamente desempenha um papel crtico na transformao das
informaes fonticas em pr-lxicas (Pasley et al., 2012).
A abordagem conhecida como matriz de palavras ou Bag-of-Words (BoW), utilizada
originalmente na anlise de documentos de texto (Salton e McGill, 1986), fornece uma maneira
de representar e comparar elementos que podem diferir significativamente em sua representao
original, a tal que inviabiliza a comparaes diretas entre dois elementos. Por exemplo, considere
as frases abaixo:
Frases de Exemplo
A: Jos gosta de mas e Maria gosta de laranjas e uvas;
B: Jos tambm gosta de peras e frutas cristalizadas.
Dizer o quo similares estas frases so em termos lxicos bastante complicado. No entanto,
pode ser construdo um dicionrio indexando-se cada uma das 12 palavras distintas, conforme
exemplificado na Tabela 5.1.
Tabela 5.1 Exemplo de dicionrio contendo todas as palavras das frases A e B.
ndice
Palavra
ndice
Palavra
0
1
2
3
4
5
Jos
gosta
de
mas
e
Maria
6
7
8
9
10
11
laranjas
uvas
tambm
peras
frutas
cristalizadas
Ento, utilizando-se os ndices de cada palavra neste dicionrio, possvel representar cada
frase por um vetor de 12 posies, indicando a quantidade de ocorrncias de cada palavra na
frase representada:
Representao de Cada Frase
A: [1, 2, 2, 1, 2, 1, 1, 1, 0, 0, 0, 0];
B: [1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1].
Com isso, possvel estabelecer o nvel de similaridade do contedo lxico destas frases,
utilizando-se mtricas simples de comparao de vetores. Este tipo de abordagem tem sido
104
5.1. DESCOBERTA E CATEGORIZAO NO-SUPERVISIONADA DE OBJETOS EM

IMAGENS
utilizado na literatura para representar e comparar documentos de texto. Porm, para que a
representao seja mais efetiva, interessante agrupar termos semelhantes em uma mesma
entrada do dicionrio. Por exemplo, desejvel que palavras com um mesmo significado como
carro e automvel ou com significados prximos como ma e mas, pertenam a
uma mesma entrada no dicionrio, de forma a tornar a representao mais compacta e fazendo
com que a representao obtida seja capaz de expressar tambm, em algum grau, o contedo
semntico.
Atualmente esta abordagem tem sido tambm aplicada em viso computacional para categorizao e reconhecimento de objetos em imagens (Tuytelaars et al., 2010; Kinnunen et al., 2012).
Porm, como nesse caso no se tratam de palavras, mas sim de caractersticas extradas das
imagens de maneira semelhante ao que foi apresentado no Captulo 4, a abordagem conhecida
como Bag-of-Features (BoF).
Nesta Tese, esta abordagem ser utilizada no Mdulo II para realizar a composio espacial
e temporal das percepes, criando uma representao completa. A abordagem genrica o
bastante para representar as percepes visuais, auditivas e tambm, em trabalhos futuros, as
propriocepes. Na Seo 5.1, sero apresentados trabalhos relacionados que aplicam esta
abordagem para o reconhecimento no-supervisionado de objetos em imagens. Em seguida,
sero apresentados os modelos propostos para compor representaes visuais (Seo 5.2) e
auditivas (Seo 5.3). Na Seo 5.4 ser apresentada a validao das representaes propostas e
na Seo 5.5 sero apresentadas as concluses do Captulo.
5.1
Descoberta e Categorizao No-Supervisionada de

Objetos em Imagens
Descoberta de objetos ou Categorizao Visual de Objetos (CVO) consiste no problema de

atribuir automaticamente o rtulos de categorias de objetos que aparecem em determinadas
imagens. As imagens presentes nos conjuntos de dados utilizados para avaliar mtodos CVO,
em geral contm apenas um objeto por imagem o restante da imagem considerado fundo.
O objetivo da CVO classificar corretamente cada imagem de acordo com o objeto nela
presente. Para alcanar resultados estado-da-arte nesta tarefa, um grande conjunto de imagens
de treinamento positivas e negativas tm sido utilizados para treinar mtodos de classificao
discriminativos, tais como Caltech-101 (Fei-Fei et al., 2007), Caltech-256 (Griffin et al., 2007) e
LabelMe (Russell et al., 2008). A desvantagem imediata desta abordagem a exigncia de uma
vasta quantidade de dados rotulados. Isto motivou a realizao de esforos para desenvolver
mtodos de descoberta e categorizao no-supervisionados de objetos em imagens, tambm
105
chamada de CVO no-supervisionada. Neste caso, a seleo do nmero de categorias e as

atribuies de determinadas imagens para essas classes so executadas automaticamente.
Tuytelaars et al. (2010) avaliaram mtodos de referncia para categorizao no-supervisionada
de objetos baseados na abordagem BoF. Nestes mtodos, um codebook1 gerado a partir de
regies em torno dos pontos de interesse extrados das imagens, atravs do agrupamento das
caractersticas locais extradas das imagens. Em seguida, e cada imagem representada como
um histograma normalizado das caractersticas presentes neste codebook. Imagens com histogramas de caractersticas semelhantes so ento agrupados para formar uma categoria de
objetos semelhantes. Ou seja, so duas etapas de agrupamento: a primeira agrupa caractersticas
semelhantes para formar o codebook e a segunda agrupa os histogramas semelhantes para formar
categorias de objetos (Figura 5.1).
Sendo assim, fica evidente que o mtodo de agrupamento utilizado em cada uma destas
etapas de extrema importncia para que estes mtodos apresentem bom desempenho. Os
mtodos avaliados por Tuytelaars et al. (2010) empregam tcnicas de agrupamento clssicas,
tais como a atribuio aleatria, k-mdias e anlise de componentes principais, e mtodos
mais avanados, como modelos de variveis latentes e esquemas de agrupamento espectral.
Todos estes tm a mesma representao da imagem subjacente: um modelo BoF simples que
descreve a imagem em termos de um conjunto de descritores locais de caractersticas quantizados
organizados em forma de histograma. Tuytelaars et al. (2010) tambm avaliaram diferentes
tipos de representao dos histogramas e observaram que alguns so mais apropriados. Em seus
testes, a normalizao L2 apresentou melhores resultados em comparao com a normalizao
L1, a binarizao e a tfidf (term frequencyinverse document frequency).
Posteriormente, Kinnunen et al. (2012) viram nos os mapas auto-organizveis de Kohonen
(1982), ou SOM do ingls Self-Organizing Map, uma alternativa vivel para realizar as etapas
de agrupamento. Os autores apontam que esta estratgia produz resultados comparveis com o
estado da arte e, alm disso, apresenta outras vantagens, como uma menor sensibilidade ao tipo
de normalizao aplicado aos histogramas. Estas vantagens advogam em favor da utilizao de
SOM para a descoberta no-supervisionada de objetos.
O SOM um candidato natural para a implementao dos agrupamentos nesta Tese, j que
so modelos neurais capazes de agrupar dados de forma no-supervisionada e tem sido empregado com sucesso em uma ampla gama de problemas. Eles so particularmente interessantes no
contexto desta Tese, por serem modelos neurais biologicamente inspirados, com aprendizagem
no-supervisionada e incremental, que produzem como resultado prottipos que resumem os
agrupamentos identificados.
1A
palavra codebook refere-se originalmente a um livro que contm uma lista de palavras com seus respectivos
cdigos.
106

IMAGENS
Agrupamento de
Objetos
Agrupamento de
caractersticas
Extrao de
caractersticas
Figura 5.1 Ilustrao da categorizao no-supervisionada de objetos atravs da abordagem BoF. Na

ilustrao, as caractersticas extradas de imagens so agrupadas em quatro grupos. Portanto, cada objeto
ser representado por um histograma com quatro componentes. Os histogramas sero ento agrupados
para formar as categorias de objetos.
A representao por meio de histogramas de caractersticas foi a forma escolhida para

criar a representao composta das percepes do ambiente nesta Tese. Ela adequada para
implementar as funes do Mdulo II, pois permite compor e comparar conjuntos de percepes
que distribudos no espao e no tempo. Portanto, pode ser utilizada para representar no
apenas as percepes visuais, mas tambm as auditivas e as proprioceptivas. O agrupamento
das percepes ser realizado por meio um SOM. A seo seguinte apresenta detalhes do
funcionamento e da arquitetura bsica de um SOM.
5.1.1
Mapas Auto-Organizveis
O SOM foi criado originalmente como uma ferramenta matemtica para visualizao de dados
de alta-dimensionalidade. Ele mapeia uma distribuio de alta dimenso em uma grade regular
107
de menor dimenso, sendo capaz de compactar informaes preservando os relacionamentos

topolgicos e as mtricas mais importantes dos dados originais. Com base nestes pontos, duas
caractersticas so evidenciadas: a capacidade de criar abstrao e a exibio simplificada das
informaes. Estes dois pontos podem ser utilizados de diversas maneiras em uma variedade
de aplicaes, tais como em reconhecimento de voz, anlise de imagem, processos industriais
de controle, organizao automtica de documentos numa biblioteca, visualizao de registros financeiros. Estas caractersticas fizeram com que os mapas auto-organizveis fossem
frequentemente utilizados para estabelecer agrupamentos de forma no-supervisionada (Haykin,
1998).
Outra caracterstica interessante do modelo a sua inspirao neurofisiolgica, que vem
das observaes de que, (i) em tecidos neurais, um neurnio ativado, ao disparar um pulso
causa a excitao de outros neurnios que distam dele entre 50 e 100 m, e (ii) a propagao
da excitao para reas no relacionadas com o processo excitatrio impedida por inibio
da regio em torno da excitada. Assim, o crebro se organiza de forma que entradas sensoriais
diferentes so representadas por mapas computacionais ordenados topologicamente (Haykin,
1998; Miikkulainen et al., 2005). Em particular, entradas sensoriais como a ttil (Kaas et al.,
1983), a visual (Hubel e Wiesel, 1962, 1977) e a acstica (Suga, 1985) so mapeadas para reas
diferentes do crtex cerebral de uma maneira topologicamente ordenada.
Estrutura Bsica do SOM
Figura 5.2 Estrutura bsica de um SOM. As unidades xi so as unidades de entrada. Cada peso, wi j ,
representa uma conexo entre o i-simo nodo da camada de entrada e o j-simo nodo da camada de sada.
Cada nodo na camada de sada est conectado com quatro vizinhos (grade retangular).
A estrutura bsica de um SOM (Figura 5.2) consiste em uma camada de entrada e uma
camada de sada. A camada de entrada recebe os estmulos do ambiente e os propaga para todos
108

IMAGENS
os nodos da camada de sada. O nmero de nodos da camada de entrada igual ao nmero de

atributos presentes no vetor de entrada x = [x1 x2 x3 ... xm ]| . A camada de sada codifica o mapa
resultante da aprendizagem e sua topologia geralmente uma grade bidimensional de nodos, na
qual cada nodo de sada conectado com seus vizinhos imediatos.
As conexes entre o i-simo nodo da camada de entrada com o j-simo nodo da grade
formam um vetor pesos sinpticos, w j = [w ji=1 w j2 w j3 ... w jm ]| , com j = 1, 2, ..., l, onde m a
quantidade de nodos da camada de entrada e l quantidade de nodos no gradil.
Auto-Organizao no SOM
A aprendizagem ou auto-organizao em um SOM composta por trs etapas: competio,
adaptao e cooperao. Quando um estmulo x apresentado para os nodos da camada de
entrada do SOM, ele propagado para todos os nodos da grade. A partir de ento se inicia a
etapa de competio entre os nodos da grade, para escolher aquele que reconhecer o estmulo.
No mapa auto-organizvel de Kohonen (1982), o nodo vencedor, i(x), aquele cujo vetor de
pesos sinpticos w j apresenta a menor distncia Euclidiana para o estmulo, x (Eq. 5.1).
i(x) = arg min[D(x, w j )2 ]
j

5.1
onde D(x, w j ) a distncia Euclidiana entre x e w j , explicitada na Eq. 5.2.

m
[D(x, w j )]2 = (xi w ji )2

i=1

5.2
onde m definido como o nmero de dimenses.

A etapa de adaptao da rede ocorre atravs da alterao dos pesos sinpticos das unidades
de processamento w j da grade. A modificao destes pesos ocorre em reflexo aos estmulos
recebidos do espao externo (Kohonen, 1982, 1985).
Um requisito para a auto-organizao que os pesos sinpticos de um nodo sejam modificados apenas na vizinhana local do nodo vencedor e todos os pesos modificados assemelhem-se
ao estmulo atual com mais preciso do que no passado. Diferentes sinais de entrada em diferentes tempos afetam regies diferentes na grade de nodos. Deste modo, depois de muitos passos
de aprendizagem, os pesos sinpticos comeam a adquirir valores que se relacionam suavemente
dentro desta grade de maneira equivalente aos estmulos do espao de entrada (Kohonen, 1982,
1985). A Eq. 5.3 descreve como realizada a adaptao dos pesos.
w j (n + 1) = w j (n) + (n)h ji(x) (n)(x w j (n))

5.3
onde (n), a funo de decaimento da taxa de aprendizagem e h ji(x) a funo de decaimento
109
da vizinhana, ambas decaem a medida que se passam as iteraes de treinamento.

A funo da taxa de aprendizagem dada pela Eq. 5.4 que faz com que a taxa se inicie com
o valor definido em 0 e decaia monotonicamente com o progresso das iteraes.

n
, n = 0, 1, 2, ...,
(n) = 0 exp
2

5.4
onde 2 uma constante de tempo que ajusta a velocidade do decaimento.

A etapa de cooperao entre os nodos ocorre atravs do ajuste que feito tambm aos nodos
vizinhos ao vencedor em direo do estmulo de entrada. O nvel de adaptao aplicado a cada
nodo da vizinhana do vencedor pode ser descrito pala funo h ji(x) (n) exibida na Eq. 5.5. Esta
funo atinge seu mximo para o vencedor, isto j = i e decai atravs de uma gaussiana com a
distncia lateral entre os nodos vizinhos distribudos sobre a grade.

||r j ri ||2
, n = 0, 1, 2, ...,
h ji(x) (n) = exp
2 2 (n)

5.5
onde, ri R2 e rs R2 (no caso de uma grade bidimensional) so as posies vetoriais do

vencedor i e de seu vizinho j na grade, e (n) corresponde a largura ou raio da funo de
vizinhana. O valor de (n) se inicia em 0 e decresce monotonicamente com o decorrer das
iteraes, conforme a Eq. 5.6 (Haykin, 1998; Kohonen, 1982, 1985).

n
(n) = 0 exp
, n = 0, 1, 2, ...,
1

5.6
onde 1 uma constante de tempo que ajusta a velocidade do decaimento.

Com isso, est definida a estrutura bsica de um SOM. Conforme mencionado na seo anterior, o SOM e suas derivaes sero utilizados para as etapas de agrupamento da representao
das percepes. Ou seja, os padres de entrada que tiverem um mesmo nodo como vencedor
estaro em um mesmo grupo e sero representados pelo conjunto de pesos armazenados neste
nodo vencedor. Este conjunto de pesos ento considerado como o prottipo deste grupo, uma
vez que sumariza as caractersticas das percepes por ele agrupadas.
As sees seguintes apresentam uma viso completa dos procedimentos para gerar as
representaes as percepes visuais, Seo 5.2, e as percepes auditivas, Seo 5.3, que
compe as sadas do Mdulo II. A representao das propriocepes poderia ser feita de forma
similar, porm ser coberta em trabalhos futuros.
110
5.2. COMPOSIO DA REPRESENTAO DE OBJETOS
5.2
Composio da Representao de Objetos
O Mdulo II recebe como entrada as percepes visuais produzidas pelo Mdulo I, isto , as
caractersticas extradas dos pontos de interesse das imagens e representadas pelo descritor
SIFT. As sadas do Mdulo II so os histogramas representando a composio das percepes
de entrada. A Figura 5.3 ilustra esse processo, incluindo as operaes realizadas no Mdulo I
(etapa A) e o reconhecimento dos objetos que ocorre pode ocorrer a partir das sadas do Mdulo
II. A operao realizada pelo Mdulo II est indicada na etapa B e consiste na produo dos
histogramas atravs do agrupamento das caractersticas.
C - Reconhecimento
Agrupamento de
objetos
Histograma de ocorrncias
B - Representao
Agrupamento de
Retalhos de imagens
Formao do Codebook
descritor de 128 caractersticas (SIFT)
A - Percepo
...
Detector de pontos de interesse Hessian Afim
Figura 5.3 Ilustrao das etapas do reconhecimento de objetos. A - ilustra o mapeamento sensrioperceptivo; B - ilustra a representao dos objetos; e C - ilustra a etapa de reconhecimento dos objetos.
Quando uma imagem apresentada nas entradas do Mdulo I os pontos de interesse so

identificados atravs do detector Hessiano afim. Em seguida as regies em tornos do ponto
de cada ponto de interesse so representadas pelo descritor SIFT e enviadas para o Mdulo II.
Duas operaes so definidas para o Mdulo II: A primeira operao consiste no treinamento
do SOM para criar os agrupamentos de caractersticas semelhantes nos nodos da camada de
sada do SOM. A segunda operao consiste na criao do histograma de sada a partir de uma
sequncia de caractersticas extradas de uma imagem. O treinamento do SOM ocorre conforme
definido na Seo 5.1.1.
111
O nmero de nodos na camada de entrada do SOM dado pelo nmero de componentes no

descritor de imagens utilizado, e a quantidade de nodos na camada de sada define o tamanho do
dicionrio de caractersticas, frequentemente referido na literatura como o tamanho do codebook.
Ou seja, ele define o tamanho da representao de sada do Mdulo II. Um maior nmero de
nodos na camada de sada far com que as caractersticas sejam distribudas em mais grupos,
aumentando o nvel de detalhes da representao. Por outro lado, nodos demais na camada de
sada faz com que pequenas diferenas entre objetos semelhantes resultem em representaes
muito distinta para estes objetos, prejudicando as comparaes.
O histograma de sada do Mdulo II computado fazendo uma composio de uma sequncia
de entradas. Dada uma sequncia de caractersticas extradas de uma imagem, {x1 , x2 , x3 , ...,
xn }, o histograma formado apresentando-se cada caracterstica nas entradas do SOM e

computando-se o nvel de atividade de cada nodo conforme a
5.7
.
ack j (xk , w j ) =
1
D (xk , w j ) + 1

5.7
onde xk representa a k-sima caracterstica de entrada, w j o peso da unidade j da camada de

sada e D (x, w j ) a distncia Euclidiana entre a entrada e o valor armazenado na unidade j.
O nvel de atividade varia entre zero e um, tendendo a zero quando a distncia entre o padro
de entrada e o valor armazenado no nodo for grande, e tendendo a um quando a distncia se
aproxima de zero.
O histograma de atividade produzido por um padro de entrada, h(xk ) = [ack1 ack2 ack3 ...
ackm ]| um vetor contendo o nvel de atividade que a caracterstica de entrada xk induziu em
cada nodo do mapa. A quantidade de nodos na camada de sada do mapa define o tamanho
do dicionrio. A partir disto, o histograma de sada, Hn1 , computado como sendo a soma dos
histogramas de atividade induzidos pelas ultimas n caractersticas de entrada, dividida por sua
norma:
Hn1 =
nk=1 h(xk )
k nk=1 h(xk )k

5.8
A representao proposta diferente da utilizada por Kinnunen et al. (2012), uma vez que
estes utilizam um histograma de ocorrncias em lugar do histograma de ativao aqui proposto.
No histograma de ocorrncias apenas o nodo vencedor para cada padro considerado, contado
como valor 1 em sua respectiva posio do histograma e zero atribudo para os demais nodos.
112
5.3. COMPOSIO DA REPRESENTAO DE PALAVRAS
5.3
Composio da Representao de Palavras
A estratgia utilizada para realizar a composio das percepes auditivas anloga utilizada
com as percepes visuais. Neste caso as entradas do mdulo consistem nas representaes
numricas dos fonemas conforme definido no Captulo 4, em sua sequncia original (Figura 5.4).
Reconhecimento de
palavras
C - Reconhecimento
Histograma de ocorrncias
Agrupamento de
morfemas
B - Representao
Formao do Codebook
4 fonemas
...
...
...
...
A - Percepo
12 caractersticas
por fonema
Representao
fontica
chair fork
/k /or /f /ar
/e
/ch
Figura 5.4 Ilustrao das etapas do reconhecimento de palavras. A - ilustra o mapeamento sensrioperceptivo; B - ilustra a representao dos objetos; e C - ilustra a etapa de reconhecimento das palavras.
Para evitar que palavras distintas que possuam o mesmo conjunto de fonemas apresentem
representaes semelhantes, os fonemas so alinhados em sua sequncia original e deslocados
um a um pelas entradas do SOM. Cada deslocamento consiste em uma entrada fornecida para o
mapa. Este procedimento continua at que o ltimo fonema seja apresentado para o ltimo nodo.
No comeo e no trmino do deslocamento alguns nodos de entrada no recebem nenhum fonema,
e suas entradas so atribudas com o vetor nulo. A ideia que os nodos do SOM representem
morfemas ou partes de morfemas, e no fonemas isolados. A quantidade de nodos na camada de
entrada indica a quantidade de fonemas que sero considerados simultaneamente para computar
as ativaes e formar os histogramas. Quatro fonemas simultneos j so suficientes para criar
uma representao adequada.
Uma vantagem deste mtodo que ele pode ser utilizado para representar e comparar
palavras de tamanho arbitrrio, incluindo palavras compostas ou expresses compostas por
113
poucas palavras que aparecem frequentemente juntas, e acabam atuando como se fossem apenas
uma palavra com um significado, como guarda-chuvas, bom dia ou tudo bem.
Apesar desta diferena, as operaes de treinamento e criao de histogramas para representar as percepes auditivas ocorrem exatamente conforme definido para as percepes visuais.
Ou seja, as sadas so os histogramas, Hn1 , computados como sendo a soma dos histogramas de
atividade induzidos pelas ultimas n caractersticas de entrada, dividida por sua norma. Ou seja,

conforme definido na
5.7
e na
5.8
.
5.4
Validao das Representaes Propostas
A validao das representaes produzidas pelos mtodos propostos ser realizada em trs
etapas. Na Seo 5.4.1 ser apresentada a metodologia utilizada para avaliar a qualidade das
representaes propostas, a qual consiste de uma mtrica de avaliao da qualidade de agrupamentos chamada de entropia condicional. A partir disso, na Seo 5.4.2 ser avaliada a qualidade
da representao dos objetos e na Seo 5.4.3 ser avaliada a qualidade da representao de
palavras. Por fim, na Seo 5.4.4 ser avaliada a fuso das representaes visuais e auditivas. O
objetivo final destes experimentos verificar se a representao fundida facilita a aprendizagem
das categorias de objetos.
Os experimentos sero realizados tendo em vista o modelo exibido nas Figuras 5.3 e 5.4.
As representaes produzidas sero agrupadas por um SOM e a coerncia dos agrupamentos
atravs da mtrica definida na Seo 5.4.1. A pressuposio a de que uma boa representao
resultar em agrupamentos coerentes.
5.4.1
Avaliao da Qualidade dos Agrupamentos
Na literatura de reconhecimento no-supervisionado de objetos em imagens, a qualidade dos

agrupamentos formados tem sido avaliada atravs da pureza, da informao mtua e da entropia
condicional. A mais utilizada a entropia condicional (Tuytelaars et al., 2010; Kinnunen et al.,
2012), e por isto, esta foi a mtrica adotada para avaliar os resultados obtidos.
Dado o conjunto dos os rtulos dos agrupamentos conhecidos (X) e dos obtidos por um
mtodo de agrupamento (Y ), e sejam as variveis (x, y), amostradas do espao conjunto discreto
e finito, X Y . A entropia condicional dada por:
H(X|Y ) =
p(y) p(x|y) log p(x|y)
yY
xX

5.9
onde p(y) a probabilidade de ocorrer o rtulo y e p(x|y) a probabilidade condicional de se

114
5.4. VALIDAO DAS REPRESENTAES PROPOSTAS
observar x, dado que y foi observado.

Na prtica a distribuio p(x, y) no conhecida, portanto, ela estimada a partir das
frequncias observadas em um processo de testes, resultando em uma estimativa emprica. Esta
medida tem uma interpretao intuitiva, uma vez que fornece a quantidade mdia de incerteza
que permanece sobre X uma vez que o valor de Y conhecido. Quanto menor for o valor da
entropia condicional, melhor ser a qualidade do agrupamento. No caso, ela ser utilizada
para medir o quanto de incerteza permanece no agrupamento conhecido, dadas as instncias
estimadas. A entropia condicional possui as seguintes propriedades:
a) H(X|Y ) 0, com a igualdade ocorrendo se e somente se Y determina X.
b) H(X|Y ) H(X), com a igualdade ocorrendo se e somente se Y independente de X.
A entropia condicional se caracteriza por decrescer com o aumento do nmero de agrupamentos produzidos. Sendo assim, ela deve ser utilizada para comparar resultados com um
mesmo nmero de agrupamentos.
5.4.2
Validao da Representao de Objetos
O conjunto de dados utilizado para avaliar a representao das percepes visuais um subconjunto da base conhecida como Caltech256 (Griffin et al., 2007). A base completa contm
256 categorias de objetos com mais de 80 imagens em cada categoria, alm de uma categoria
genrica com objetos variados. Tuytelaars et al. (2010) realizaram experimentos em um subconjunto contendo 20 categorias selecionadas manualmente. O nome dessas categorias est
indicado na Tabela 5.2. Kinnunen et al. (2012) tambm apresentaram testes subconjunto de
categorias. Sendo assim, o mtodo implementado tambm ser avaliado neste conjunto de dados
e comparado com os melhores resultados apresentados naqueles trabalhos.
Tabela 5.2 Nome das 20 categorias selecionadas por Tuytelaars et al. (2010) dentre as 256 disponveis
na base Caltech256 de Griffin et al. (2007).
American flag
fire extinguisher
killer whale
pci card
Pisa tower
diamond ring dice

fern
fireworks
French horn
ketch 101
leopards 101 mandolin
motorbikes 101
rotary phone roulette wheel tombstone
zebra
airplanes 101 faces easy 101
O esquema mostrado na Figura 5.3 foi implementado com um SOM para formar o codebook
(Representao) e outro SOM para realizar o agrupamento dos histogramas produzidos pelo
primeiro SOM (Reconhecimento). Os parmetros dos mapas foram ajustados por tentativa
115
e erro e esto exibidos na Tabela 5.3. Primeiramente o mapa de representao foi treinado
com as caractersticas extradas da imagem em ordem aleatria. Em seguida as caractersticas
de cada imagem foram apresentadas nas entradas do mapa de representao e os histogramas
gerados foram utilizados para treinar o mapa de reconhecimento. Aps o treinamento do
mapa de reconhecimento as imagens foram agrupadas em seus respectivos nodos vencedores e
foi calculada a entropia condicional deste agrupamento em comparao com o agrupamento
original. Este procedimento foi repetido 30 vezes.
Tabela 5.3 Parmetros utilizados em ambos os SOMs nas simulaes da representao e reconhecimento
de objetos. S o nmero de amostras no conjunto de dados.
Valor
1 42
0,10
1,60
0,40
1,60
10 S
Representao
Parmetro
Tamanho da grade
Taxa de aprendizagem ()
Decaimento da taxa de aprendizagem (2
Vizinhana ( )
Decaimento da vizinhana (1 )
N de iteraes
Reconhecimento
Mapa
Tamanho da grade
45
0,10
Decaimento da taxa de aprendizagem (2 )
1,10
Vizinhana ( )
1,50
1,20
N de iteraes
100 S
Para avaliar a qualidade do agrupamento produzido pelo SOM foi calculada a entropia
condicional. Os resultados obtidos so exibidos na Tabela 5.4 em comparao com os resultados
apresentados por Tuytelaars et al. (2010) e Kinnunen et al. (2012). A tabela exibe o tamanho do
codebook utilizado alm da entropia condicional mdia e o desvio padro.
Tabela 5.4 Comparativo da entropia condicional obtida com os resultados apresentados por Tuytelaars
et al. (2010) e Kinnunen et al. (2012).
Mtodo
Tuytelaars et al. (2010)
Kinnunen et al. (2012)
Resultado obtido
Tamanho do codebook
Entropia condicional
Desvio padro
1000
100
500
2000
10000
42
2,22
2,34
2,10
1,93
1,77
1,91
0,04
0,05
0,04
0,04
0,02
0,03
Kinnunen et al. (2012) conseguiram obter valores mais baixos para a entropia condicional do
116
que os que foram obtidos com a representao proposta, porm, com um codebook de tamanho
bastante elevado (10000). importante salientar que os testes foram realizados utilizando
apenas o detector Hessiano afim. Porm, possvel obter resultados ainda melhores combinando
detectores (Tuytelaars et al., 2010; Kinnunen et al., 2012).
Os experimentos mostram que a representao proposta apresenta resultados similares aos
do estado da arte, porm, com um tamanho de codeboook consideravelmente menor, sendo,
portanto, uma representao mais compacta. Com isso, foi possvel atingir uma entropia de 1,91
com uma representao 98% menor (42 contra 2000) que a utilizada por Kinnunen et al. (2012)
para atingir este mesmo patamar. Isto pode ser atribudo a utilizao do histograma de ativao
em lugar do histograma de ocorrncias.
Portanto, a representao das percepes visuais proposta pode ser considerada adequada
para os objetivos desta Tese.
5.4.3
Validao da Representao de Palavras
Para avaliar a representao das palavras foi criado um conjunto de 28 listas de palavras. Cada
lista de composta por que contm um morfema em comum. Por exemplo, as palavras da lista
(conform, cuneiform, deform, form, formal) possuem em comum o radical form. O conjunto
completo de listas de palavras exibido na Tabela 5.5.
O esquema mostrado na Figura 5.4 foi implementado, de forma anloga ao que foi feito
anteriormente, com um SOM para formar a representao e outro SOM para realizar o agrupamento dos histogramas produzidos pelo primeiro SOM, sendo estes, respectivamente, os mapas
de representao e reconhecimento. Os parmetros dos mapas foram ajustados por tentativa e
erro e esto exibidos na Tabela 5.6. Novamente, o mapa de representao foi treinado primeiro,
com as caractersticas extradas das palavras em ordem aleatria. Em seguida as caractersticas
de cada palavra foram apresentadas nas entradas do mapa de representao e os histogramas
gerados foram utilizados para treinar o mapa de reconhecimento. Aps o treinamento do mapa
de reconhecimento as palavras foram agrupadas em seus respectivos nodos vencedores e foi calculada a entropia condicional deste agrupamento em comparao com o agrupamento original.
Este procedimento foi repetido 30 vezes.
Aps 30 execues, a entropia condicional mdia obtida foi de 1,148 ( 0,023). Um
resultado tpico exibido na tabela Tabela 5.7 para ilustrar os agrupamentos produzidos pelo
mapa de reconhecimento. Cada clula da tabela representa um nodo do mapa e contm todas as
palavras que nele foram agrupadas. O cdigo de cores foi utilizado para facilitar a localizao
de palavras de uma mesma lista. Clulas contendo vrias palavras de uma mesma cor indicam
bons agrupamentos.
117
Tabela 5.5 Listas de palavras com morfemas semelhantes utilizadas para avaliar a representao de
palavras proposta. Cada lista representada por uma cor distinta.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
atom,atomic,atonal,atone,atonement
ball,ballad,ballade,ballerina,ballet
cafeteria,caffeine,coffee,caffeinated,cafetizer
data,date,mandate,backdate,database,dateline,dating
debenture,debit,debt,debtor,indebted
ecology,economics,economy,ecosystem,ecumenical
ethical,ethics,ethology,ethos,unethical
fabric,fabricate,fabrication,prefabricated
conform,cuneiform,deform,form,formal
general,generic,genocide,gentile,gentleman,genus,heterogeneous,homogeneous
ahead,behead,forehead,head,headache,header,headhunter,headlight,headline,headphone,headset
iterative,reiterate,alliteration,alliterative,illiterate
adjourn,journal,journalism,journey,journeyman
know,acknowledge,knowledge,knowledgeable,known
lateral,bilateral,collateral,lateral,trilateral,unilateral
machination,machine,machinery,machinist,mechanic,mechanical,mechanism,mechanize
magnanimous,magnate,magnificent,magnify,magnitude,magnum
neural,neurology,neurotic,aneurism,neurasthenia,neurons,neurosurgery
orthodontist,periodontal,orthodontia,orthodontist,dental,dentist,dents
psyche,psychedelic,psychiatry,psychoanalysis,psychology,psychosis,psychosomatic,psychotherapy
headquarters,quart,quarter,quarterback,quarterdeck,quartermaster,quarters,quartet,quartile
irradiate,radial,radiant,radiate,radiator,radio,radiology,radium,radius
salutary,salutatorian,salute
tablature,table,tableau,tablespoon,tablet,tabloid,tabulate
vegetable,vegetal,vegetarian,vegetate,vegetation
bewilder,wild,wildcat,wilderness,wildfire,wildflower,wildlife
xenon,xenophobia,xenophobic,xenos
cenozoic,mesozoic,paleozoic,protozoan,zodiac,zoo,zoology
Os agrupamentos exibidos na Tabela 5.7 so bastante coerentes. Dez dos 36 agrupamentos

(1x1, 1x2, 1x5, 1x6, 2x1, 2x4, 2x5, 3x6, 4x3 e 5x4) contm palavras de uma s lista. Em
diversos outros casos os agrupamentos apesar de conter palavras de listas distintas contm
palavras semelhantes, tais como, general e journal, echology e ethology, illiterate
e irradiate. Alm disso, em diversos casos, palavras de uma mesma lista ficaram separadas,
porm em clulas vizinhas tais como, aneurism, neural e neurotic.
Sendo assim, a representao proposta para as palavras pode ser considerada adequada para
os objetivos desta Tese, tomando como base os baixos valores obtidos na entropia condicional e
a coerncia observadas na anlise subjetiva dos resultados da Tabela 5.7.
5.4.4
Integrao de Percepes
Uma vez validadas as representaes das percepes visuais e auditivas de forma independente,
necessrio avaliar tambm se a integrao destas duas representaes em uma representao
118
Tabela 5.6 Parmetros utilizados em ambos os SOMs nas simulaes da representao de palavras.
Valor
Representao
Parmetro
Tamanho da grade
1 70
0,593
1,100
Vizinhana ( )
0,310
0,741
N de iteraes
100 S
Reconhecimento
Mapa
Tamanho da grade
65
0,190
0,90
Vizinhana ( )
0,62
1,50
N de iteraes
600 S
composta pode ser realizada sem prejuzo.

A inspirao para esta simulao vem de experimentos com crianas nos quais foi demonstrado que a presena de rtulos dando nome a objetos podem alterar a maneira como
estes objetos so categorizados quando esto sendo aprendidos (Plunkett et al., 2008). Seus
experimentos indicam que quando as crianas estudam objetos de formas variadas sem que
seja informado para elas os nomes destes objetos, elas tendem a formar categorias distintas
das que seriam formadas se os nomes dos objetos fossem informados. A diferena observada
consiste no fato de que objetos que poderiam ser agrupados em categorias distintas quando no
h presena do rtulo, acabam sendo agrupados em uma mesma categoria quando um mesmo
rtulo fornecido para ambos os objetos, pois isso, de alguma forma os torna mais semelhantes.
O contrrio tambm pode ocorrer, ou seja, objetos que seriam suficientemente parecidos para
serem agrupados em uma mesma categoria, acabam sendo agrupados em categorias distintas
quando so fornecidos rtulos distintos para cada um dos objetos.
Poderia se hipotetizar que este tipo de caracterstica auxiliaria na criao de uma forma
comum de enxergar o mundo, a princpio entre pais e filhos e, por sua vez, aps algumas
geraes, entre os demais indivduos da sociedade, o que facilitaria o desenvolvimento da
linguagem. Imagine, por exemplo, a categoria veculo a qual pertencem tanto motos quanto
helicpteros, apesar de possurem aparncias totalmente distintas. Sem dvida, saber que ambos
so utilizados para se deslocar de um local para outro (conhecimento pragmtico) auxilia na
criao desta categoria cognitiva. No entanto, o compartilhamento de um mesmo rtulo (veculo)
poderia auxiliar na categorizao, chamando ateno para as caractersticas em comum entre
estes objetos.
119
Tabela 5.7 Resultado do agrupamento de palavras com o SOM.
1
machination
mechanic
mechanical
mechanism
mechanize
magnanimous
magnate
magnificent
magnify
magnitude
magnum
know known
general generic
genocide gentile
journal journey
ecology ethical
ethics ethology
unethical
alliteration
atom atone
ahead adjourn
ethos genus
atonal
atonement
economics
economy
ecumenical
acknowledge
atomic indebted
iterative
alliterative
illiterate
irradiate
fabric fabricate
fabrication
head headache
header
headlight
headset
psychedelic
vegetate
psychosis
psychosomatic
psychotherapy
cenozoic
psyche
psychiatry
psychology
gentleman
journalism
journeyman
aneurism
heterogeneous
headhunter
headline
headphone
psychoanalysis
vegetable
vegetal
vegetarian
vegetation
xenophobia
xenophobic
forehead
orthodontist
orthodontia
orthodontist
headquarters
mandate
machine
machinery
machinist
neurotic
neurasthenia
neurons
neurosurgery
mesozoic
knowledge
knowledgeable
neural
neurology
homogeneous
xenon xenos
wild wildcat
wilderness
wildfire
wildflower
wildlife
conform
cuneiform
deform form
formal
lateral bilateral
collateral lateral
trilateral
unilateral
prefabricated
periodontal
tablespoon
paleozoic
protozoan
cafeteria
caffeine coffee
caffeinated
cafetizer
ecosystem
dentist
data date debit

debt debtor
reiterate
quart quarter
quarterback
quarterdeck
quartermaster
quarters quartet
quartile
backdate
database
tablature table
tableau tablet
tabloid tabulate
ball ballad
ballade
ballerina ballet
dateline dating
debenture
behead dental
dents bewilder
radial radiant
radiate radiator
radio radiology
radium radius
Para avaliar se a representao proposta capaz de exibir este tipo de fenmeno, no

experimento desta seo, tanto percepes visuais quanto auditivas sero fornecidas como
estmulo, sendo processadas em paralelo nas etapas de percepo e representao. Nestas etapas,
o processamento ser realizado exatamente conforme nos experimentos anteriores, porm, os
vetores contendo as representaes produzidas para cada tipo de estmulo sero concatenados
para formar as entradas do mapa de reconhecimento. A Figura 5.5 ilustra este processo.
120
SOM Objetos
C - Reconhecimento
B - Representao
SOM Palavras
SOM Imagens
4 fonemas
descritor de 128 caractersticas (sift)
A - Percepo
12 caractersticas
por fonema
Detector de pontos de interesse Hessian Afim
Representao
fontica
chair
/ar
/e
/ch
Figura 5.5 Ilustrao da representao composta. Neste caso, ambas as percepes visuais e auditivas sero processadas paralelamente. A - ilustra o mapeamento sensrio-perceptivo; B - ilustra a representao
dos objetos; e C - ilustra a etapa de reconhecimento dos objetos.
A representao ser validada verificando se a presena de rtulos facilita na formao

das categorias desejadas, ou seja, aquelas que so induzidas pelos rtulos. Espera-se que
com isso entropia condicional obtida seja menor do que a que foi obtida apresentando apenas
imagens. As entrada visuais sero as mesmas utilizadas no experimento da Seo 5.4.2, ou
seja, as imagens das 20 categorias da base Caltech256. As entradas auditivas sero os nomes
das 20 categorias, conforme mostrado na Tabela 5.2 removendo-se os numerais e convertendo
palavras no plural para palavras no singular, a saber: American flag, diamond ring, dice, fern,
fire extinguisher, fireworks, French horn, ketch, killer whale, leopard, mandolin, motorbike,
PCI card, rotary phone, roulette wheel, tombstone, Pisa tower, zebra, airplane e face. Para
cada imagem fornecida como entrada ser apresentada em paralelo a palavra correspondente a
categoria a qual a imagem pertence.
Os valores dos parmetros de cada um dos mapas foram ajustados por tentativa e erro, e
esto exibidos na Tabela 5.8. O experimento foi repetido 30 vezes e os valores da entropia
condicional foram registrados. Vale salientar que na representao composta, apenas 30% dos
atributos (60) eram provenientes dos estmulos auditivos enquanto que os demais 70% (140)
eram provenientes dos estmulos visuais. Estas propores indicam os pesos que cada tipo de
informao tem na distncia Euclidiana utilizada para escolher os nodos vencedores no mapa de
reconhecimento, e com isso, definir os agrupamentos formados. Portanto, estes valores indicam
121
o quanto cada tipo de informao capaz de influenciar no resultado final.

Tabela 5.8 Parmetros utilizados em cada SOM nas simulaes da representao de palavras e objetos.
Tamanho da grade
1 140
0,054
0,53
Vizinhana ( )
0,25
0,98
N de iteraes
S
Tamanho da grade
Vizinhana ( )
N de iteraes
1 60
0,050
1,25
1,55
0,55
S
Reconhecimento
Valor
Representao
de imagens
Parmetro
Representao
de palavras
Mapa
Tamanho da grade
Vizinhana ( )
N de iteraes
45
0,08
1,88
0,80
1,04
400 S
Os resultados obtidos apresentam uma entropia condicional mdia de 1,40 ( 0,10), o que
corresponde a uma reduo de 26% em relao a entropia condicional obtida no experimento
utilizando apenas as imagens (1,91 0,03). Um teste t, com 99% de confiana, assegura
que este resultado estatisticamente diferente do anterior, o que confirma que a fuso das
representaes construtiva. Sendo assim, a representao de estmulos visuais e auditivos pode
ser considerada como validada.
5.5
Concluso
Neste Captulo, foi apresentado o Mdulo de Representao (II). O objetivo desse mdulo o
de criar uma representao que possa ser mais facilmente correlacionada com os objetos do ambiente, fazendo composio espacial e temporal das informaes. A representao foi validada
atravs do agrupamento das representaes produzidas. Uma vez que estes agrupamentos se
mostram coerentes, o que fundamental para se agrupar elementos do ambiente, a representao
produzida foi considerada vlida.
122
5.5. CONCLUSO
A representao baseada na abordagem BoF se mostrou eficaz e genrica, sendo capaz de

representar adequadamente tanto as percepes visuais quanto as auditivas e at mesmo a fuso
de ambas. A utilizao dos histogramas de ativao em lugar dos histogramas de frequncia,
capaz de capturar mais informaes contidas no mapa do que os histogramas de ocorrncia
utilizados por Kinnunen et al. (2012). Com isso foi possvel produzir uma representao de
imagens to informativa quanto a produzida com os histogramas de ocorrncia, porm mais
compacta.
O agrupamento das informaes, tanto para compor a representao quanto para avaliar
as representaes, foi implementado utilizando-se a verso original do mapa de Kohonen
(1982). Porm, outras variaes do SOM tambm podem ser utilizadas, trazendo caractersticas
interessantes como a aprendizagem do nmero de agrupamentos corretos e topologias variantes
no tempo, fazendo com que as vizinhanas possam se adequar melhor aos dados de entrada.
No Captulo 8 sero apresentados experimentos com variaes aperfeioadas dos mapas autoorganizveis implementando as funes do Mdulo II.
Dentro do modelo proposto, as sadas do Mdulo de Reconhecimento sero enviadas para o
Mdulo de Contexto (III), onde as sequncias de informaes que se repetem com frequncia
sero reconhecidas, em seguida a informao ser enviada para o Mdulo de Associao (IV),
onde ocorrer um agrupamento semelhante ao que foi realizado neste Captulo para validar as
representaes. No Captulo seguinte ser apresentado o Mdulo de Contexto.
123
6
Mdulo III - Contexto
Compreender o contexto no qual uma palavra est inserida pode ser fundamental para compreender o seu significado. A identificao do contexto permite que estmulos semelhantes, possam
ser diferenciados quando vistos em contextos distintos. Por exemplo, uma mesma palavra
pode possuir significados distintos em contextos diferentes. Por outro lado, a identificao do
contexto tambm permite que estmulos diferentes sejam aproximados, por terem sido vistos em
contextos semelhantes. Ou seja, palavras distintas podem apresentar significados semelhantes
quando reconhecidas em contextos parecidos.
Em Pacheco (2004), contexto definido como o conjunto de circunstncias que acompanham
um acontecimento. Dois tipos de contexto podem ser diferenciados: o espacial e o temporal.
O contexto espacial um conjunto de informaes sobre a posio espacial de um ou mais
padres com relao a outros. Em outras palavras, o contexto espacial contm informaes que
identificam ou localizam um ou mais padres em seu espao de origem. O contexto temporal
um conjunto de informaes a respeito das entradas, sadas e/ou estados passados de um
sistema. Ou seja, um conjunto de informaes a respeito do histrico desse sistema em um
dado momento.
O Mdulo de Contexto deve atuar na aprendizagem e no reconhecimento dos possveis contextos. As suas entradas so as sadas do Mdulo de Reconhecimento, ou seja, a representao
lxica, perceptiva e proprioceptiva. E suas sadas so constitudas de suas prprias entradas,
inalteradas, alm do contexto reconhecido e associado a cada estmulo. Estas sadas so ento
encaminhadas para o Mdulo de Associao.
No crebro, supe-se que o hipocampo, uma regio especializada localizada no sistema
lmbico, associa uma informao recebida com um contexto espacial e temporal (Schacter,
1996; Fletcher et al., 1997; Aggleton e Brown, 1999). Estudos mais recentes apontam que os
neurnios do hipocampo apresentam padres de disparo nicos, que poderiam servir como
uma representao neural do contexto (Butterly et al., 2011). Tambm foi observado por Aires
125
CAPTULO 6. MDULO III - CONTEXTO
(1991), que ratos com leses no hipocampo, possuem dificuldades na memria contextual e
geralmente repetem suas decises ao caminhar por um labirinto, visitando repetidamente as
mesmas posies.
A organizao das regies corticais de memria, especialmente no sistema lmbico, contemplam inmeras conexes recorrentes, tornando a abordagem de conexes recorrentes biologicamente mais plausvel que outras abordagens como a de janelas temporais deslizantes para
formao de contexto (Pacheco, 2004).
Pacheco (2004) e Arajo et al. (2010) apresentaram um modelo para o fenmeno de falsas
memrias. Nestes trabalhos, os autores propuseram um mdulo de contexto baseado na Teoria
da Ressonncia Adaptativa, ou ART, do ingls Adaptive Resonance Theory (Grossberg, 1976),
que capaz de executar as funes de aprendizagem e reconhecimento de contexto. O modelo,
chamado de ART2 com Contexto, foi proposto para a identificao do contexto semntico
contido em listas de palavras semanticamente relacionadas. O modelo foi construdo levando
em considerao certo nvel de plausibilidade biolgica. Nesta Tese, este modelo foi utilizado
para a implementao do Mdulo de Contexto.
Sendo assim, o modelo proposto por Arajo et al. (2010) ser apresentado na Seo 6.1. Na
Seo 6.2 sero apresentados o ART1, o ART2 e o ART2 com Contexto. Na Seo 6.3 ser
discutido como o ART2 com Contexto foi aplicado no problema desta Tese. A validao do
modelo ser apresentada na Seo 6.4 e por fim, as concluses do Captulo sero discutidas na
Seo 6.5.
6.1
Papel do Contexto na Modelagem de Falsas Memrias
Falsas memrias so um tipo de falha de memria, em que o indivduo pode (a) reconhecer
como tendo visto antes um objeto ou evento que no tenha ocorrido ou (b) no reconhecer algo
previamente presenciado. Estes so respectivamente, o falso reconhecimento e a rejeio errada.
Em experimentos desenhados para estudar falsas memrias (Roediger e McDermott, 1995;
Brainerd e Reyna, 1998), listas com aproximadamente 15 palavras so utilizadas. Cada lista de
palavras est associada a um distraidor crtico predefinido, que d nome a lista, e todas as
palavras da lista esto semanticamente relacionadas com o seu respectivo distraidor crtico, o
qual no est presente na lista. Como exemplo, a lista associada ao distraidor crtico montanha,
poderia conter as palavras vale, cume, pico, alto e cordilheira, mas no a prpria palavra
montanha. Estas listas, quando memorizadas por indivduos, os fazem criar algum tipo de
contexto associado com o distraidor crtico, e nesta situao eles so induzidos a reconhecer as
palavras relacionadas com este contexto, mesmo que no faam parte da lista.
Por exemplo, nos experimentos de Brainerd e Reyna (1998), de um conjunto contendo 24
126
6.1. PAPEL DO CONTEXTO NA MODELAGEM DE FALSAS MEMRIAS
listas preparadas nos moldes acima exemplificados, cada uma contendo aproximadamente 15
palavras, 12 listas foram apresentadas a um grupo de indivduos. Em seguida os participantes
tiveram suas memrias testadas. As listas de teste incluram: (a) 36 palavras extradas das 12
listas apresentadas (3 palavras escolhidas aleatoriamente de cada lista), (b) os 12 distraidores
crticos das listas apresentadas, (c) 12 distraidores crticos das 12 listas no apresentadas, (d) 12
palavras extradas das 12 listas no apresentadas (um palavra escolhida aleatoriamente de cada
lista).
Nos resultados, em mdia 63% dos distraidores crticos das listas apresentadas foram
reportados como estando presentes nas listas, quando na verdade, estas palavras no estavam
presentes nas listas (falso reconhecimento), enquanto que apenas 61% das palavras que de fato
estavam presentes na lista foram reportadas como tal (reconhecimento correto). Alm disso,
apenas 39% das palavras presentes nas listas no foram reconhecidas (rejeio errada).
Estes experimentos sugerem que o contexto semntico formado durante as apresentaes
dos padres desempenha um papel importante para a memorizao e levado em conta durante
o reconhecimento (Matzen e Benjamin, 2009). Segundo as teorias mais aceitas atualmente
(Brainerd et al., 2008), dois processos distintos agem em paralelo durante a memorizao e
reconhecimento, um sobre as informaes fonticas ou literais e o outro sobre a essncia do
significado da palavra.
Figura 6.1 Arquitetura do modelo neural modular proposto por Arajo et al. (2010).
Em Arajo et al. (2010), um modelo de rede neural baseado em Pacheco (2004) foi construdo para simular a ocorrncia de falsas memrias utilizando conceitos da teoria do rastro
difuso, sendo esta baseada na metfora de intuio, segundo a qual, as pessoas pensam, raciocinam e se lembram de forma inexata, utilizando resumos e no cpias completas e detalhadas
das informaes, pois estas so mais fceis de serem esquecidas (Brainerd e Reyna, 1990).
Arajo et al. (2010) propuseram um modelo neural modular que considera a fontica e o
127
significado das palavras. O sistema neural proposto composto por trs mdulos: de associao
sensorial, de contexto e de deciso (Figura 6.1). O fluxo de informaes por cada um dos
mdulos ocorre da seguinte forma:
Associao Sensorial: uma vez que um estmulo recebido, ou seja, uma palavra ouvida
para memorizao ou reconhecimento, o Mdulo de Associao Sensorial prepara uma representao fontica e uma representao do significado do estmulo, que so enviadas ao mdulo
de contexto. A representao fontica utilizada aquela descrita na Seo 4.3. A representao
semntica adotada era construda a partir de uma matriz de propriedades, na qual cada linha
estava associada a uma palavra e cada coluna listava todas as propriedades consideradas pelos
autores (129, no total). Na linha de uma determinada palavra, cada coluna recebia um valor
entre zero e um, indicando o grau de pertinncia daquela propriedade para aquela palavra, onde
zero indica pertinncia mnima e um indica pertinncia mxima. Com isso, a representao
semntica de uma palavra era composta por um vetor de 129 atributos reais, entre zero e um, ou
seja, as informaes contidas em sua respectiva linha nessa matriz.
Contexto: O Mdulo de Contexto mantm um registro histrico dos ltimos estmulos
recebidos e associa cada estmulo com seu histrico atual. As sadas so constitudas pelo
contexto atual e suas prprias entradas.
Deciso: O Mdulo de Deciso recebe as sadas do Mdulo de Contexto e decide se o
padro apresentado reconhecido ou no, comparando o significado e a informao fontica
com o contexto recuperado.
Com esta arquitetura foi possvel modelar de forma satisfatria as taxas de reconhecimento
correto e falso reconhecimento observados nos experimentos com seres humanos. Alm disso,
nos testes realizados por Pacheco (2004), o Mdulo de Contexto mostrou-se capaz de formar
um contexto atual, ou seja, uma representao que se aproxime do conjunto de dados de entrada
que j foram apresentadas ao sistema, privilegiando os dados mais recentes, em detrimento dos
mais antigos e, alm disto, associando um contexto a cada novo dado de entrada recebido. Este
mdulo ser utilizado com um propsito similar nesta Tese. A rede neural utilizada em sua
implementao foi baseada em ART, a qual ser apresentada a seguir.
6.2
Adaptive Resonance Theory - ART
A Teoria da Ressonncia Adaptativa (ART) uma teoria desenvolvida por Grossberg (1976),
que considera aspectos de como o crebro processa a informao. Os autores propuseram uma
srie de modelos de redes neurais que utilizam mtodos de aprendizagem supervisionadas e
no-supervisionadas, e tratam problemas como o reconhecimento e a previso de padres.
O modelo neural no-supervisionado ART2, introduzido por Carpenter e Grossberg (1987a),
128
6.2. ADAPTIVE RESONANCE THEORY - ART
foi escolhido para implementar as funes do Mdulo de Contexto principalmente devido a

sua utilizao para fins semelhantes em trabalhos anteriores (Pacheco, 2004). Alm disso, de
maneira semelhante ao SOM, o ART2 utiliza aprendizagem no-supervisionada e incremental,
realiza agrupamento, associa estmulos de diferentes naturezas, possui capacidade de ajuste
no grau de semelhana dos padres agrupados, lida com plasticidade e estabilidade, e possui
alguma plausibilidade biolgica. Mas diferentemente do SOM, ele utiliza circuitos de conexes
recorrentes que se assemelham melhor com a maneira como se organizam as regies cerebrais
que desempenham as funes modeladas neste Captulo.
O primeiro modelo apresentado por Carpenter e Grossberg (1987b), o ART1, foi projetado
para agrupamento de vetores binrios enquanto que o segundo modelo, ART2 (Carpenter e
Grossberg, 1987a), foi projetado para agrupamento de vetores contendo valores reais. O terceiro
modelo, chamado de ART3 (Carpenter e Grossberg, 1990), introduz um processo de busca de
arquiteturas ART para lidar de forma robusta com sequncias de padres de entrada analgicas
em tempo real. Os autores ainda propuseram outras variaes para trabalhar com lgica difusa
(fuzzy) (Carpenter et al., 1991) e de forma supervisionada (Goodman et al., 1992). No entanto,
as verses propostas pelos autores aps o ART2 so para problemas mais especficos, que fogem
do escopo deste trabalho. J o modelo ART2 simples e suficientemente completo para modelar
o Mdulo de Contexto. Portanto, na seo seguinte sero apresentados os modelos ART1 e
ART2, dando um maior enfoque no segundo.
6.2.1
Modelos ART1 e ART2
Nos modelos ART1 e ART2, os padres de entrada podem ser apresentados em qualquer ordem
e, cada vez que um padro apresentado, um nodo escolhido para agrup-lo e os pesos
associados ao nodo so ajustados para permitir a aprendizagem do padro. Os pesos associados
a um nodo podem ser considerados como um prottipo ou exemplo tpico (exemplar) para os
padres armazenados naquele agrupamento.
Nas redes ART, o parmetro de vigilncia, , permite controlar o grau de similaridade entre
os padres associados a um mesmo grupo. Durante o treinamento, um mesmo padro pode ser
apresentado diversas vezes, podendo ser colocado em grupos diferentes. Isto ocorre quando,
entre uma apresentao e outra do mesmo padro, os pesos dos nodos foram modificados devido
apresentao de outros padres.
A rede considerada estvel quando cada padro sempre agrupado em um mesmo nodo.
Uma rede plstica quando capaz de aprender com igual intensidade um novo padro apresentado em qualquer fase do treinamento, seja no incio ou aps diversas pocas de treinamento.
Alm de lidar com o problema de tornar a rede plstica, sem perder a estabilidade, e estvel
129
sem perder a plasticidade, as redes ART tm a caracterstica de que o controle sobre os processos
da rede realizado por nodos especializados, que decidem quando um padro de entrada deve
ser agrupado no nodo vencedor ou em uma nova unidade.
Camada F2
Y1
Ym
Yj
Camada F1
Controle do
Reset
cpi
normalizao
Pi
Ri
Qi
bf(qi)
normalizao
Ui
aui
Vi
f(xi)
Reset
Intra F1
normalizao
Wi
Xi
si
Figura 6.2 Estrutura bsica do ART2.
Os modelos ART1 e ART2 so compostos por trs grupos de nodos: a camada F1, ou
camada de entrada, a camada F2 ou camada de agrupamento e os nodos de controle (Figura 6.2).
Um conjunto de nodos na camada F1 responsvel por receber e processar os dados de entrada,
si , reduzindo a quantidade de rudo. Outro conjunto de nodos na camada F1 responsvel por
fazer a interface com a camada F2.
Para controlar as semelhanas entre os padres agrupados em um mesmo nodo h duas
matrizes de pesos entre as camadas F1 e F2: B e T . A matriz B, ou matriz bottom-up, armazena
os pesos das conexes que partem de cada unidade i, em F1, para a cada unidade j, em F2,
(elementos bi j ). A matriz T ou matriz top-down armazena os pesos das conexes que partem de
130
cada unidade j em F2 para cada unidade i em F1 (elementos ti j ).

A camada F2 uma camada competitiva, ou seja, o nodo que obtiver o maior valor de sada
se torna candidato a aprender o padro de entrada apresentado e as demais unidades tm sua
sada inibida para zero. Caso o grau de similaridade entre o padro de entrada e vetor de pesos
de T conectado unidade vencedora seja suficientemente alto, ento a unidade vencedora ser
treinada com o padro de entrada, e vetor de pesos de T , conectado unidade vencedora, ser
atualizado.
Esta deciso tomada pela unidade de reset, a qual implementa um mecanismo de controle
que recebe e compara os sinais de entrada e de sada na camada F1, estabelecendo o grau de
similaridade entre ambos e comparando-o com o valor do parmetro de vigilncia, . Se o grau
de similaridade estiver abaixo de , ento esta unidade no poder aprender e sua sada inibida
para as demais tentativas, o que fora a procura de um novo candidato.
Entre as aes tomadas, quando todas as unidades candidatas forem recusadas e inibidas
esto: (a) adicionar mais unidades de agrupamento em F2 para agrupar o novo padro, (b)
reduzir o valor do parmetro de vigilncia e (c) classificar o padro em uma classe especial que
contm todos os padres no corretamente classificados (ou padres rejeitados).
A principal diferena entre as redes ART1 e ART2 que enquanto a primeira foi feita para
trabalhar com entradas binrias, a segunda foi pensada para trabalhar com valores reais. Neste
caso, necessrio tomar medidas para reduzir rudo. Isto realizado em ART2 introduzindo-se
passos de normalizao dos dados de entrada e de supresso de rudo.
Na rede ART2, para lidar com valores contnuos, a matriz T armazena valores reais e a
camada F1 contm seis tipos de unidades: W , X, U, V , P e Q (Figura 6.2). Cada uma destas
unidades composta por um vetor de n dimenses, onde n a dimenso do vetor de entrada.
As unidades W recebem os vetores de entrada e as unidades X armazenam uma verso
normalizada dos vetores de entrada. As unidades U armazenam um prottipo do padro de
entrada a ser comparado com os prottipos, entretanto necessrio um pr-processamento
para fazer distino entre rudos e vetores em que todos os valores de entrada so baixos. As
unidades P fazem o papel de interface entre as camadas F1 e F2, ou seja, armazenam o valor
procurado em F2 e o candidato mais semelhante tendo as unidades Q que armazena uma verso
normalizada de P. As unidades V armazenam uma composio ponderada entre as verses
normalizadas e com supresso de rudos do ltimo padro de entrada e do ltimo candidato
encontrado. A funo de ativao f (x), aplicada sobre X e Q responsvel por suprimir os
rudos, ou seja, torna a sada nula em toda unidade cuja ativao seja menor que um limiar
previamente definido por :
131
Algoritmo 6.1: Treinamento da rede ART2.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
Inicialize: a, b, c, d, e, , , , nbrE pochs, nbrIterations, q e n;

para nbrE pochs faa
para cada padro de entrada s faa
Inicialize as ativaes na camada F1:
ui = 0; wi = si ; pi = 0; qi = 0; xi = si /(e + ||s||); vi = f (xi );
Atualize as ativaes nas unidades F1 novamente:
ui = vi /(e + ||v||); wi = si + aui ; pi = ui,
xi = wi /(e + ||w||); qi = pi /(e + ||p||); vi = f (xi ) + b f (qi );
Propague os sinais para as unidades em F2:
y j = i (bi, j pi );
reset = true;
enquanto no houver reset faa
Encontre a unidade yJ em F2 com a maior ativao:
yJ = max[y j ]; 1 j q;
se yJ = 1 ento
J = uma unidade ainda no utilizada;
reset = f alse;
fim
Verificar se houve reset:
se reset ento
ui = vi/(e + ||v||); pi = ui + dtJ,i ; pci+n = tJ,i+n ;
ri = (ui + cpi )/(e + ||u|| + c||p||);
se ||r|| < ( e) ento
reset = true; yJ = 1;
seno
reset = f alse; wi = si + au; xi = wi /(e + ||w||);
qi = pi /(e + ||p||); vi = f (xi ) + b f (qi );
fim
seno
para nbrIterations faa
Atualize a unidade vencedora, J:
tJ i = dui + [1 + d(d 1)]tJ,i ;
bi J = dui + [1 + d(d 1)]bi,J ;
Normalize os vetores atualizados:
tJ,i = tJ,i /||tJ ||;
bi,J = bi,J /||bJ ||;
Atualize a ativao das unidades em F1:
ui = vi /(e + ||v||); wi = si + aui ; pi = ui + dtJi ;
fim
fim
fim
fim
fim
132
x
f (x) =
0
if x
if x <
As unidades de reset, Ri so responsveis por verificar se o agrupamento encontrado em F2

suficientemente semelhante ao padro apresentado, s. O Alg. 6.1 apresenta o procedimento
completo de treinamento do ART2. Neste algoritmo, as variveis pi , qi , ri , si , ui , vi , wi , xi , yi so
os i-simos elementos dos vetores P, Q, R, S, U, W, X, Y. J o nodo na camada F2 com ativao
mais alta, reset, indica se o nodo vencedor da camada F2 pode aprender o padro apresentado. T
e B so respectivamente as matrizes de pesos top-down e bottom-up. Os parmetros do modelo
esto descritos abaixo:
Parmetros do ART2
n: nmero de nodos na camada F1, sendo equivalente ao tamanho da entrada.
a e b: pesos fixos na camada F1.
c: pesos fixos usados para a condio de reset, no intervalo [0,1].
d: unidade de ativao do vencedor na camada F2 dentro do intervalo [0,1].
e: parmetro para evitar a diviso por zero quando a norma do vetor for zero.
: parmetro de supresso do rudo, tipicamente 1/ n. A entrada do vetor de

componentes com valores menores que sero setados como zero.
: taxa de aprendizagem.
: parmetro de vigilncia. Determina o nmero de grupos formados, valores dentro
do intervalo [0,7 ,1] produzem controle efetivo sobre o nmero de grupos formados.
nbrE pochs: nmero mximo de pocas.
nbrIterations: nmero mximo de iteraes.
Uma vez treinada, a rede pode ser utilizada em modo teste, caso em que os padres de
entrada sero apenas agrupados sem que haja aprendizagem. Para isso, os passos de atualizao
dos pesos da rede (linhas 30-38, no Alg. 6.1) e de recrutamento de novas unidades (linha 15)
no so executados. Alm disso, o parmetro de vigilncia ajustado para 1 no momento em
que um novo padro apresentado. Caso nenhum nodo seja considerado suficientemente similar
para agrupar este padro, ento o parmetro de vigilncia levemente reduzido, por exemplo,
atravs da equao: = 0, 999 . Este processo repetido at que o padro de entrada seja
agrupado em alguma unidade.
Em Pacheco (2004), o modelo ART2 foi utilizado como base para a implementao do
mdulo de contexto. No entanto, foi necessrio modificar a rede para incluir caractersticas
133
temporais, para permitir que a rede aprenda tambm o contexto em que os estmulos so
apresentados, assim como o contexto atual. As adaptaes realizadas sero apresentadas na
seo seguinte.
6.2.2
ART2 com Contexto
No geral, a arquitetura do ART2 com Contexto bem similar do ART2 (Figura 6.3), a principal
diferena a insero das unidades de contexto com conexes recorrentes. O objetivo das
unidades de contexto armazenar o histrico dos ltimos padres de entrada recebidos pela rede
e permitir que este contexto influencie tanto na fase de busca quanto na fase de reconhecimento
de padres, no algoritmo do ART2.
Camada F2
Y1
PCi
...
Controle
do reset
...
Yj
cpi
Pi
Ym
normalizao
Ri
Qi
bf(q)i
UCi
Ui
normalizao
aui
realimentao
Unidades de
Contexto
Wi
Vi
f(x)i
normalizao
Xi
Camada F1
Si
B
reset
Intra F1
contexto
Figura 6.3 Estrutura do ART2 com Contexto. Observe que, alm da informao das unidades Pi , as
matrizes T e B tambm armazenam a informao contextual vinda das unidades de contexto PCi .
O modelo tem a camada F2 idntica a camada F2 do ART2. Porm, as unidades de contexto,

UC e PC, foram acrescidas ao modelo. Cada unidade UCi contm uma espcie de mdia dos
ltimos valores das unidades Ui . Cada unidade Ui armazena a intensidade da ocorrncia de
134
uma caracterstica do padro de entrada, na representao interna da rede ART2, devidamente

normalizada e com supresso de rudos.
Cada unidade UCi recebe duas conexes: a alimentao com o novo padro de entrada,
vindo de Ui e uma realimentao, com seu prprio valor armazenado no passo anterior. Esta
realimentao ponderada por um parmetro, retro, que indica o peso do valor anterior de cada
unidade UCi em relao ao novo padro em Ui , no clculo do novo valor de UCi . Ao final da
apresentao dos estmulos, o contexto formado e armazenado nas unidades UC se aproxima de
um valor mdio, o qual servir para representar o contexto atual.
As unidades PC so utilizadas para fazer interface das unidades de contexto com a camada
F2. Elas tm papel equivalente ao desempenhado pelas unidades P na rede ART2 original,
no caso, informar o valor armazenado nas unidades UC camada F2 e manter este valor
temporariamente armazenado para ser utilizado pelo mecanismo de reset. Porm, enquanto que
as unidades P armazenam apenas a entrada mais recente, as unidades PC armazenam informao
contextual. A adio das conexes entre Y e PC implicou na adio de linhas matriz B e
colunas matriz T , para armazenar os pesos destas conexes.
Alm dos parmetros do ART2, o ART2 com Contexto possui tambm os parmetros
listados abaixo, que permitem ajustar o comportamento do contexto:
Parmetros adicionais do ART2 com Contexto
back: peso do contexto no intervalo de [0,1]
contextWeight: razo de influncia da informao do contexto sobre o mecanismo de
reset, dentro do intervalo [0,1]
dcontext : efeito equivalente ao d usado na unidade de contexto.
context : razo de aprendizagem do contexto.
O algoritmo de treinamento (Alg. 6.2) consiste nos seguintes passos: Aps a inicializao
das variveis (linha 1) um lao executado para cada poca de treinamento.
Para cada padro de entrada, as ativaes das unidades nas camadas U, W, P, Q, X e V so
inicializadas (linha 5) e atualizadas para refletir os efeitos dos padres de entrada (linhas 7 e 8).
Ento, os valores computados so propagados para as unidades de contexto UC (linha 10) e
os novos valores so reescalados (linha 12) e copiados para a unidade PC (linha 14).
Em seguida, os valores armazenados nas unidades P e PC so propagados para a camada
F2, onde ocorre uma competio entre os grupos, com cada grupo produzindo uma ativao y j
(linha 16). Ento, o lao iniciado na linha 18 se repete at que o grupo vencedor seja definido
e atualizado, ou seja, at que a condio de reset, inicializada como verdadeira na linha 17,
135
Algoritmo 6.2: Treinamento do ART2 com Contexto.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
Inicialize: a, b, c, d, e, , , , nbrE pochs, nbrIterations, n, back, contextWeight, dcontext , context ;

para nbrE pochs faa
para cada vetor de entrada si faa
Inicialize a ativao das unidades em F1:
ui = 0; wi = si ; pi = 0; qi = 0; xi = si /(e + ||s||); vi = f (xi );
ui = vi /(e + ||v||); wi = si + aui ; pi = ui;
Propague os valores para as unidades UC:
uci = (back)(uci ) + (1 back) f (ui );
Normalize as unidades de contexto:
uci = uci /(e + ||uc||);
Propague o contexto para as unidades PC:
pci = uci ;
Calcule a ativao das unidades em F2:
y j = (1 contextWeight) i bi, j pi + contextWeight i (bi+n, j pi );
reset = true;
enquanto reset faa
Encontre a unidade em F2 com a maior ativao yJ :
yJ = max[y j ], 1 j q;
se yJ = 1 ento
J = uma unidade ainda no utilizada;
reset = f alse;
fim
se reset ento
ui = vi/(e + ||v||); pi = ui + dtJ,i ; pci+n = tJ,i+n ;
ri = (ui + cpi + contextWeight)/(e + ||u|| + c||p|| + contextWeight||pc||);
se ||r|| < ( e) ento
reset = true, yJ = 1;
seno
reset = f alse, wi = si + au, xi = wi /(e + ||w||);
qi = pi /(e + ||p||), vi = f (xi ) + b f (qi );
fim
seno
para nbrIterations faa
Atualize os pesos associados a unidade vencedora J:
tJ i = dui + [1 + d(d 1)]tJ,i ;
bi J = dui + [1 + d(d 1)]bi,J ;
tJ,i+n = context dcontext uci + [1 + context dcontext (dcontext 1)]tJ,i+n ;
bi+n,J = context dcontext uci + [1 + context dcontext (dcontext 1)]bi+n,J ;
Normalize os vetores atualizados:
tJ,i = tJ,i /||tJ ||;
bi,J = bi,J /||bJ ||;
tJ,i+n = tJ,i+n /||tJ ||;
bi+n,J = bi+n,J /||bJ ||;
ui = vi /(e + ||v||); wi = si + aui ; pi = ui + dtJi ;
fim
fim
fim
fim
fim
136
6.3. APLICAO DO MODELO
torne-se e permanea falsa.

Inicialmente, o grupo J com maior ativao encontrado (linha 20). Se este grupo estiver
desativado (ativao = -1), todos os grupos so desativados por causa do sinal de reset, e um
novo grupo criado (linhas 21 a 24).
Entretanto, verificado se o grupo vencedor suficientemente similar ao padro apresentado
(usando o parmetro ), se no for, o grupo desativado e ocorre o reset, ento outro grupo
pode ser encontrado (linhas 25 a 33).
Se o grupo vencedor for considerado suficientemente similar ao padro de entrada, ele
aproximado do padro de entrada (linhas 36 a 40), os vetores atualizados so normalizados
(linhas 42 a 45) e as ativaes na camada F1 so atualizadas (linhas 47 e 48).
6.3
Aplicao do Modelo
O ART2 com Contexto descrito acima, apresenta todas as caractersticas necessrias para
implementar o Mdulo de Contexto desta Tese. No entanto, o modelo ser utilizado com
estmulos que possuem caractersticas significativamente distintas dos estmulos considerados
por Pacheco (2004), de forma que as suposies bsicas no so as mesmas dos trabalhos
anteriores.
Em Arajo et al. (2010), os estmulos eram palavras codificadas em uma representao
fontica e semntica. No entanto, apenas a parte semntica era utilizada na formao do contexto,
pois, naquele caso, apenas o contexto semntico foi investigado pelos autores. Nesta Tese,
por outro lado, no h representao semntica propriamente dita, e a informao perceptiva
composta pelo Mdulo de Representao que ser utilizada na construo do contexto.
As representaes semnticas das palavras de uma mesma lista compartilham propriedades,
possuindo uma forte relao de similaridade, j que esto semanticamente correlacionadas
com um mesmo distraidor crtico. No entanto, isto no necessariamente verdade para as
representaes das percepes de um mesmo contexto. Por exemplo, as percepes produzidas
por vrios elementos contidos em um mesmo ambiente, pressupostamente associadas a um
mesmo contexto, podem ser significativamente distintas, visto que alguns dos objetos deste
ambiente podem ter variadas formas e cores. Portanto, construir uma representao contextual
deste ambiente a partir das percepes uma tarefa mais complexa do que reconstruir o contexto
de listas de palavras semanticamente correlacionadas.
esperado que o contexto formado a partir de uma sequncia de estmulos convirja para
uma mdia, que represente melhor os estmulos mais recentes do que os antigos. E por mais
que estes estmulos sejam distintos, espera-se que haja uma quantidade de caractersticas em
comum que seja suficiente para que em conjunto estas caractersticas se sobressaiam, e formem
137
um contexto distinto.
Assim sendo, a suposio bsica adotada nesta Tese a de que o contexto formado com
as percepes de uma dada situao ser suficientemente distinto do contexto formado com
percepes de outras situaes. Esta suposio vlida assumindo-se que as caractersticas
compartilhadas sero provavelmente distintas em contextos distintos.
Na seo seguinte, ser avaliado se o ART2 com Contexto capaz de operar conforme
descrito acima, e portanto, se servir para implementar as funes atribudas ao Mdulo de
Contexto considerado nesta Tese.
6.4
Validao do Mdulo de Contexto
Diversas propriedades do ART2 com Contexto foram avaliadas em Pacheco (2004), tais como
tolerncia a rudo, capacidade de agrupar estmulos semelhantes, sua escalabilidade e plasticidade. Portanto, no cabe aqui reproduzir estas anlises. Sendo assim, a validao consiste em
verificar se o ART2 com Contexto funciona de forma satisfatria com os estmulos utilizados
nesta Tese. Ou seja, ser avaliado se ele capaz de associar contextos semelhantes para estmulos apresentados em instantes prximos e contextos distintos para estmulos apresentados em
instantes distantes.
Para verificar isto, a arquitetura exibida na Figura 6.4 foi implementada. Ela semelhante
quela utilizada no Captulo 5 para avaliar a representao produzida, com a diferena que as
representaes produzidas pelo Mdulo II, desta vez so enviadas para o Mdulo de Contexto.
Os parmetros de cada rede foram ajustados por tentativa e erro e esto exibidos na Tabela 6.1.
Os estmulos fornecidos nas entradas do Mdulo I so formados a partir de duas listas
de palavras. As palavras escolhidas foram bat, armoire, snake, dog, cat, cheese, trap para
a primeira lista (A) e speaker, printer, computer, notebook, monitor, keyboard, mouse para a
segunda lista (B). Imagens referentes a cada uma das palavras foram obtidas atravs do Google
Images . Com isso foi possvel criar os estmulos auditivos e visuais para cada palavra, os quais
foram apresentados para o Mdulo I, da seguinte maneira: 21 palavras da lista A, em ordem
aleatria, seguidas de 21 palavras da lista B, em ordem aleatria. Cada estmulo auditivo foi
apresentado duas vezes: uma simultaneamente com seu respectivo estmulo visual e outra com
um outro estmulo visual, escolhido aleatoriamente da mesma lista. Este processo foi repetido
trs vezes intercalando-se as listas.
O parmetro de vigilncia do ART2 com Contexto foi ajustado para um valor alto1 ( =
1 Este
parmetro muito sensvel, sendo um valor como 0.99 considerado alto, e 0.95 considerado moderado
uma vez que krk varia muito sutilmente. Quando diminui, permite que estmulos com maiores diferenas entre
si compartilhem um mesmo agrupamento.
138
6.4. VALIDAO DO MDULO DE CONTEXTO
ART2 com Contexto
C - Contexto
B - Representao
SOM - Palavras
SOM - Imagens
4 fonemas
...
12 caractersticas
por fonema
...
...
...
...
A - Percepo
Detector de pontos de interesse Hessian Affine
Representao
fontica
chair fork
/k /or /f /ar
/e
/ch
Figura 6.4 Ilustrao das etapas de processamento executadas nos experimentos de contexto. A aquisio das percepes; B - composio da representao; C - criao e reconhecimento do contexto.
0, 999), fazendo com que seja criado aproximadamente um nodo na camada F2 para cada
estmulo distinto. O que de fato ocorreu, conforme pode ser verificado atravs do grfico exibido
na Figura 6.5.
Figura 6.5 ndice do nodo vencedor na camada F2 para cada estmulo apresentado. Palavras da lista A
esto em vermelho e palavras da B esto em azul. Por falta de espao, nem todas as palavras apresentadas
para o modelo esto visveis no eixo horizontal.
No eixo horizontal deste grfico, so exibidos alguns dos estmulos apresentados para
o modelo e no eixo vertical est indicado o respectivo ndice do nodo vencedor na camada
F2. Ao final da primeira apresentao das palavras da lista A (em vermelho), foram criados
aproximadamente 20 nodos e ao final da primeira apresentao da lista B (em azul), foram
criados aproximadamente 38 nodos. Uma vez que os estmulos se repetem, deste ponto em
diante, poucos nodos so criados. possvel observar ainda que as palavras da lista A, na
139
Tabela 6.1 Parmetros das redes utilizados nos experimentos de contexto.

Parmetro
valor
Mdulo de Representao (percepes visuais) - SOM

Vizinhana ( )
N de iteraes
0,10
1,60
0,40
1,60
10 S
Mdulo de Representao (percepes auditivas) - SOM

Vizinhana ( )
N de iteraes
0,10
1,60
0,40
1,60
10 S
Mdulo de Contexto - ART2 com Contexto

Peso fixo em F1 (a)
Peso fixo em F1 (b)
Peso da condio de reset (c)
Atividade da unidade vencedora em F2 (d)
Parmetro para evitar diviso por zero (e)
Parmetro de supresso de rudo ( )
Parmetro de vigilncia ()
Nmero de pocas (nbrE pochs)
Nmero de iteraes (nbrIterations)
Taxa de retropropagao do contexto (back)
Influncia do contexto sobre o mecanismo de reset (contextWeight)
Atividade da unidade vencedora em F2 para o contexto (dcontext )
Taxa de aprendizagem contexto (context )
10
10
0,1
0,9
0,0001
0,0739221
0,8
0,999
1
1
0,9
0,0002
0,9
0,8
maioria das vezes so agrupadas em nodos com ndices de 1 a 20, enquanto as palavras da lista
B, em nodos com ndices de 21 a 41.
No entanto, preciso verificar como se comportam os contextos associados a cada um
dos nodos em F2. Espera-se que os contextos recuperados para palavras da lista A sejam
semelhantes entre si e distintos dos contextos recuperados para palavras da lista B e vice-versa.
Para avaliar isto, foi computada a mdia dos contextos associados a estmulos da lista A
(MCA ) e a mdia dos contextos associados a estmulos da lista B (MCB ). Estes valores foram
comparados com os contextos recuperados para cada estmulo apresentado para o modelo. O
nvel de similaridade foi calculado atravs do cosseno do ngulo entre os vetores. Ou seja,
valores prximos de 1 significam alta similaridade.
140
6.5. CONCLUSO
Figura 6.6 Similaridade entre o contexto recuperado aps a apresentao de cada estmulo e o contexto
mdio dos estmulos de uma mesma lista.
A Figura 6.6 apresenta a evoluo do nvel de similaridade entre os contextos recuperados

para cada estmulo e os contextos mdios MCA (linha vermelha) e MCB (linha azul). Conforme
esperado, observa-se que palavras da lista A foram associadas a contextos mais distantes
daqueles que foram associados s palavras da lista B, e vice-versa. Por outro lado, palavras
de uma mesma lista foram associadas a contextos relativamente semelhantes. Com isso, foi
possvel demonstrar que o ART2 com Contexto apresenta as propriedades necessrias para
implementar a funo do Mdulo de Contexto.
6.5
Concluso
Neste captulo, foi apresentada a implementao do Mdulo de Contexto, incluindo sua base
metodolgica, seus algoritmos e sua validao com respeito ao tipo de estmulo considerado
nesta Tese.
O mdulo se mostrou capaz de formar um contexto, ou seja, uma representao que se
aproxime do conjunto de dados de entrada que j foram apresentadas ao sistema, privilegiando
os dados mais recentes, em detrimento dos mais antigos e de associar este contexto a cada novo
dado de entrada recebido.
Uma vez que o ART2 possui as caractersticas de escalabilidade e plasticidade, plausvel
assumir que o ART2 com Contexto tambm possua estas caractersticas. No entanto, esta
uma questo importante, que ser deixada para trabalhos futuros. Nesta Tese ser considerado
apenas casos em que existem poucos contextos a serem aprendidos e diferenciados.
Mais experimentos incluindo o Mdulo de Contexto sero apresentados no Captulo 8.
Nestes experimentos, espera-se que os contextos recuperados possam ser utilizados na desambiguao de palavras homgrafas, ou seja, aquelas que apresentam grafia e pronncia idnticas,
mas com significados distintos em contextos distintos, tais como: bat, que pode significar
141
morcego ou taco, ou rock que pode significar pedra ou estilo musical.

Por fim, conforme descrito no Captulo 3, o contexto associado a cada estmulo de entrada,
juntamente com as entradas recebidas, inalteradas, sero enviadas para o Mdulo de Associao,
o qual ser apresentado no Captulo seguinte.
142
7
Mdulo VI - Associao
Para que um agente possa atuar de forma adequada na maioria dos ambientes, ele deve ser
capaz de reconhecer o que foi visto anteriormente. As informaes capturadas pelo agente,
so o produto do mapeamento sensrio-perceptivo discutido no Captulo 4, da representao
composta, discutida no Captulo 5 e do reconhecimento do contexto apresentado no Captulo 6.
Estas informaes so fornecidas como entrada para o mdulo de associao, que deve ser capaz
identificar e reconhecer as correlaes entre informaes provenientes de origens diversas.
A mera memorizao de tudo que percebido, na forma de uma gravao, no seria adequada para agentes biolgicos, dadas as restries de espao e energia do crebro, nem to
pouco para agentes incorporados, haja visto os requisitos de armazenamento e de processamento
para recuperar informao. Alm disso, esta estratgia resultaria em baixa capacidade de generalizao, j que situaes muito semelhantes, poderiam ser reconhecidas como distintas, mesmo
que as pequenas diferenas existentes fossem irrelevantes. O que reduziria consideravelmente o
valor prtico do reconhecimento.
Uma maneira mais adequada e plausvel de tornar o agente capaz de reconhecer o que foi
visto anteriormente pode ser obtida dotando-o da capacidade de agrupar percepes semelhantes.
Uma forma de fazer isso representando estes grupos por meio de prottipos que guardam
caractersticas gerais, compartilhadas por um conjunto de percepes correlacionadas. Assim,
o reconhecimento se d ao identificar o grupo no qual (ou os grupos nos quais) uma nova
percepo se encaixa, levando em considerao suas semelhanas e desconsiderando algumas
de suas diferenas. Os prottipos formados por este processamento, bem como as medidas
de diferena entre as percepes e os prottipos, iro compor as sadas deste mdulo e sero
utilizadas posteriormente como entradas para os mdulos de reconhecimento do ambiente e de
reconhecimento sinttico.
As vrias percepes capturadas por um agente (ex.: som, cor, forma, tamanho, localizao,
etc) precisam ser correlacionadas de alguma forma. As correlaes entre informaes de
143
CAPTULO 7. MDULO VI - ASSOCIAO
origens distintas podem se combinar de inmeras maneiras e revelam propriedades do ambiente.

Identificar estas correlaes e reconhece-las o principal objetivo do Mdulo de Associao.
No crebro humano, supe-se que haja um sistema de neurnios espelho (Seo 2.2.3)
com caractersticas semelhantes as designadas ao Mdulo de Associao. Os neurnios desse
sistema respondem a informaes visuais, auditivas e motoras que estejam de alguma foram
correlacionadas (Rizzolatti e Craighero, 2004). Por exemplo, pequenas populaes de neurnios
identificadas por Keysers et al. (2003), no crtex pr-motor ventral do macaco, se ativam
quando o animal executa uma ao especfica ou quando ele ouve ou v a mesma ao sendo
realizada por outro indivduo. Portanto, estes neurnios espelho audiovisuais, de alguma forma
representam informaes auto-correlacionadas, mesmo que sejam provenientes de origens
sensoriais (ou proprioceptivas) distintas.
Alm dessas regies, algumas vias do crebro humano tambm desempenham funes
relacionadas com as tarefas desempenhadas pelo Mdulo de Associao. O fascculo longitudinal inferior carrega a informao visual de reas occipitais para o lobo temporal (Catani
et al., 2003) e provavelmente tambm desempenha um papel importante na conexo entre
representaes de objetos com seus respectivos rtulos lxicos (Mummery et al., 1999). O
fascculo fronto-occipital inferior conecta o crtex occipital com o frontal no crebro humano
(Catani, 2007) e considerado como parte do sistema de neurnios espelho. H evidncias
sugerindo que este trato no est presente em macacos, o que talvez explique as limitaes
lingusticas da espcie.
Seguindo a linha dos conceitos incorporados (Cangelosi, 2010), a hiptese explorada neste
Captulo a de que as percepes, aps agrupadas, possam representar conceitos a respeito do
ambiente. Estes conceitos podem representar por exemplo: formas, cores, posies, objetos
completos, aes, etc (Riga et al., 2004), e podem ser associados com palavras que sero os
respectivos rtulos destas entidades reconhecidas. Por exemplo, ao analisar as percepes de
diferentes tipos de hexgonos, como por exemplo, hexgono pequeno vermelho, hexgono
grande verde e hexgono amarelo mdio, e observar as propriedades em comum (atributos
relativos forma) e desconsiderar as caractersticas que variam (cor, localizao, etc), o Mdulo
de Associao deve ser capaz de criar um grupo representando o conceito de Hexgono.
Alm disso, outro subconjunto destas percepes pode ser utilizado para formar outro
conceito, como o de Vermelho ao analisar as percepes que representem Hexgono pequeno
vermelho, Quadrado grande vermelho e Crculo pequeno vermelho considerando agora
outro subconjunto de atributos (relativos cor) e desconsiderando os demais (relativos forma,
localizao, etc). Por outro lado, para formar conceitos mais especficos, como o de bolas de
basquete, que de uma forma simplificada so objetos vermelhos e esfricos de determinado
tamanho, necessrio que mais percepes sejam levadas em considerao simultaneamente,
144
no caso, cor, forma e tamanho.

Note que, para cada agrupamento, alguns componentes do vetor de entrada devem ser levados
em considerao e outros no, de forma que um mesmo evento perceptivo (ex.: hexgono
pequeno vermelho) pode pertencer a mais de um grupo (ex.: grupo dos hexgonos e grupo
dos objetos vermelhos). Por outro lado o reconhecimento de um objeto especfico, como por
exemplo, aquele que seja hexagonal e vermelho, requer que sejam levados em considerao os
componentes de cor e forma, e desconsiderados os demais componentes como os de localizao
e tamanho. Observa-se ento, que o conjunto de atributos importantes varia de agrupamento
para agrupamento, sendo necessrio, alm do mecanismo de agrupamento, um mecanismo de
seleo de atributos relevantes.
Pesquisas sobre este tipo particular de agrupamento trouxeram tona mtodos originrios
da minerao de dados, revelando que este problema pode ser considerado um tipo de agrupamento chamado de agrupamento em subespaos (subspace clustering) (Parsons et al., 2004;
Kriegel et al., 2005; Vidal, 2011). Os principais mtodos de agrupamento em subespaos sero
revisados na Seo 7.1. Porm, estes modelos no possuem diversas caractersticas necessrias
para o Mdulo de Associao, tais como aprendizagem incremental, formao de prottipos e
plausibilidade biolgica. Portanto, na Seo 7.2 sero descritos os modelos de aprendizagem
neuro-computacionais identificados na literatura mais adequados para a implementao do mdulo considerado neste Captulo. Estes modelos so variantes dos Mapas Auto-Organizveis. No
entanto, eles no realizam a seleo de atributos necessria para o agrupamento em subespaos,
conforme descrito acima.
Por esse motivo, na Seo 7.3 sero propostos dois novos modelos que atendem aos requisitos
identificados. O primeiro, chamado de Dimension Selective Self-Organizing Map, ou DSSOM,
(Bassani e Arajo, 2012) um mapa de topologia fixa capaz de criar agrupamentos levando em
considerao subconjuntos das dimenses de entrada. Por ser de topologia fixa, quando este
mapa utilizado em sua verso bidimensional favorece uma visualizao das caractersticas
e da distribuio dos agrupamentos formados. Ou seja, ele adequado para visualizao de
dados. Por outro lado, definir o nmero de nodos e a topologia mais adequada para o mapa
requer conhecimento a priori a respeito do conjunto de dados e mesmo assim em muitos casos o
mapa produzido no ir se adequar bem aos dados, prejudicando a qualidade dos agrupamentos
formados.
Para tratar deste ponto, o segundo modelo proposto, chamado de Local Adaptive Receptive
Field Dimension Selective Self-Organizing Map (LARFDSSOM), uma verso de topologia
variante no tempo (Arajo e Rego, 2013), permitindo que a estrutura topolgica formada e o
nmero de agrupamentos se ajuste melhor aos dados de entrada. Na Seo 7.4 ambos modelos
propostos so validados atravs de experimentos com dados simulados, com dados reais, e
145
tambm com as percepes do ambiente simulado descrito no Captulo 4. Por fim, as concluses
do captulo so apresentadas na Seo 7.5.
7.1
Agrupamento em Subespaos
Mtodos de seleo de atributos tm sido aplicados em problemas com alta dimensionalidade.

Eles so utilizados antes de executar o algoritmo de agrupamento, para melhorar a qualidade
dos resultados obtidos atravs da remoo de dimenses irrelevantes do conjunto de dados. No
entanto, esta soluo no adequada para conjuntos de dados em que certas dimenses so
ao mesmo tempo relevantes para certos grupos e irrelevantes para outros, como no caso do
agrupamento de percepes. Ou seja, so dimenses parcialmente relevantes.
(a) Vista tridimensional
(b) Projeo em duas dimenses
Figura 7.1 Conjunto de dados simulado com trs dimenses parcialmente relevantes. Esquerda: conjunto
de dados tridimensional com 12 grupos de subespaos, no qual, para cada grupo, duas das trs dimenses
so relevantes e uma irrelevante para aquele grupo. Direita: projeo dos dados em duas dimenses.
Embora a ocorrncia de dimenses parcialmente relevantes seja mais provvel em conjuntos

de dados de alta dimensionalidade, elas tambm podem ocorrer em conjuntos com poucas
dimenses. A Figura 7.1 ilustra um conjunto de dados simulado com trs dimenses, no
qual h 12 grupos. Note que para cada um dos grupos mostrados, uma das trs dimenses
tem os pontos de dados espalhados ao longo de seu domnio inteiro, assim, tal dimenso no
contm informao que contribua para a identificao dos respectivos grupos nos quais ela se
apresenta amplamente distribuda, portanto, do ponto de vista destes grupos esta dimenso
irrelevante. Neste exemplo, nas outras duas dimenses, os pontos de dados apresentam uma
146
7.1. AGRUPAMENTO EM SUBESPAOS
pequena variao em torno de um ponto central, e esta caracterstica que permite identificar e
separar os grupos. Neste conjunto de dados nenhuma das trs dimenses pode ser removida
sem a perda de informaes relevantes para 8 dos 12 grupos.
No agrupamento exemplificado na Figura 7.1, no h intersees entre os grupos no espao tridimensional. Isso configura um agrupamento projetivo, que um caso particular do
agrupamento em subespaos, no qual cada amostra deve ser associada a apenas um grupo ou
considerada como rudo (Mller et al., 2009; Kriegel et al., 2009). O foco de interesse desta
Tese est no agrupamento em subespaos, uma vez que, uma percepo pode estar associada a
mais de um conceito incorporado.
O agrupamento em subespaos tem aplicaes em diversas reas. Em viso computacional,
ele tem sido aplicado para a segmentao de movimento, agrupamento de faces (Vidal, 2011)
e recuperao de informao em bases de dados de cenas urbanas (Coelho et al., 2011). Em
minerao de dados, so teis para identificar potenciais clientes (Chou et al., 2000). E em
bioinformtica, so utilizados para o agrupamento e visualizao de dados de expresso gnica
(Jiang et al., 2004), identificaes de interaes protena-protena (Sim, 2012) ou entre genes
(Arajo et al., 2013).
Vrios algoritmos foram propostos para lidar com este problema. Dentre eles se destacam
PROCLUS (Aggarwal et al., 1999), DOC (Procopiuc, 2002), MINECLUS (Yiu e Mamoulis,
2004) e STATPC (Moise e Sander, 2008), que apresentaram bons resultados em anlises
anteriores (Mller et al., 2009; Moise et al., 2009), alm de Generalized Principal Components
Analysis (GPCA) (Vidal et al., 2005) e Sparse Subspace Clustering (SSC) (Elhamifar e Vidal,
2009), que so mtodos advindos da comunidade de viso computacional. No entanto, conforme
apontado por Vidal (2011), o desenvolvimento de mtodos teoricamente slidos para encontrar
o nmero de subespaos e as dimenses relevantes para cada grupo, na presena de rudo e
outliers, ainda um importante desafio em aberto.
DOC e MINECLUS so mtodos baseados em clulas que realizam buscas por conjuntos de
clulas em um gradil fixo ou varivel, contendo mais do que certo nmero de objetos, onde os
subespaos so definidos como restries de uma clula em um subconjunto das dimenses dos
dados de entrada, enquanto nas outras dimenses a clula abrange o domnio de atributos inteiro.
Estes mtodos so fceis de serem parametrizados, pois precisam apenas que seja fornecido
um limite para o nmero mnimo de objetos em um grupo, que de certa forma, intuitivo.
No entanto, esta uma propriedade de um nico grupo, e no fornece muito controle sobre
resultados do agrupamento completo. Alm disso, estes mtodos nem sempre encontram a
quantidade correta de grupos existentes nos conjuntos de dados (Mller et al., 2009).
PROCLUS e STATPC so mtodos orientados ao agrupamento final, que otimizam funes
objetivo de todo o conjunto de grupos, como o nmero de grupos, dimensionalidade mdia,
147
ou outras propriedades estatsticas. Este tipo de abordagem d controle direto sobre os grupos
resultantes. No entanto, ajustar estes parmetros adequadamente requer alto conhecimento
sobre o conjunto de dados, e a qualidade do agrupamento significativamente afetada por rudo
(Mller et al., 2009).
GPCA um mtodo geomtrico algbrico para agrupar dados em subespaos no necessariamente linearmente independentes. O GPCA pode ajustar uma unio de n subespaos por um
conjunto de polinmios de grau n, cujas derivadas em um ponto produzem um vetor normal
ao subespao que contm esse ponto (Vidal, 2011). Depois de encontrar os n polinmios e
computar seus vetores normais, a separao dos dados obtida agrupando os vetores normais
atravs de tcnicas de agrupamento tradicionais, como o agrupamento espectral.
SSC se baseia na ideia de escrever um ponto (x j ) como uma combinao linear ou afim
dos pontos de dados vizinhos. Ele utiliza o princpio da disperso para escolher qualquer
um dos demais pontos de dados como um possvel vizinho. A combinao linear esparsa ou
afim x j = i6= j [c jk xk ] encontrada, minimizando-se o nmero de coeficientes diferentes de
zero c jk sujeitos a c jk = 1, no caso de subespaos afins. A segmentao dos dados ento
encontrada aplicando um agrupamento espectral sobre um grafo de similaridades construdo
com os coeficientes esparsos. importante ressaltar que tanto GPCA quanto SSC associam
cada padro a no mximo um grupo. Portanto, pelas definies apresentadas na Seo 7.1, eles
so adequados para agrupamento projetivo e no para agrupamento em subespaos.
Apesar dos mtodos baseados em redes neurais com aprendizagem no-supervisionada,
como ART (Teoria da Ressonncia Adaptativa) (Carpenter e Grossberg, 1990; Goodman et al.,
1992) e SOM terem sido empregados com sucesso em problemas de agrupamento tradicionais
(Jain et al., 1999; Xu e Wunsch, 2005), nenhum trabalho baseado em SOM havia sido proposto
para agrupamento projetivo ou em subespaos, e apenas dois trabalhos baseados em ART so
encontrados na literatura. O ART projetivo (PART) (Cao e Wu, 2002) um modelo de rede
neural baseado no ART que concentra cada agrupamento nas dimenses onde as informaes
podem ser encontradas, atravs da implementao de um mecanismo de sinalizao de sada
seletivo e o PARTCAT (Gan et al., 2006) que uma verso do PART especfica para dados
categricos. Estes mtodos, no entanto, ainda no foram avaliados em conjuntos de dados
complexos, nem to pouco foram comparados com os demais mtodos da literatura.
Os mapas auto-organizveis derivados do mapa proposto por Kohonen (1982) so candidatos
para modelar o Mdulo de Associao, pois so modelos neurais biologicamente inspirados,
com aprendizagem no-supervisionada e incremental, e produzem como resultado prottipos
que resumem bem os grupos identificados. Suas variantes tm sido utilizadas por diversos
autores para aplicaes relacionadas com as tarefas descritas no incio deste Captulo. Por
exemplo, SOMs tm sido usados para mesclar os dados sensoriais de diferentes tipos de sensores
148
7.2. VARIANTES DE INTERESSE DOS MAPAS AUTO-ORGANIZVEIS
(Gielen et al., 1989); para modelar a aquisio de palavras (Li et al., 2007); e para modelar a
associao entre rtulos e percepes visuais (Mayor e Plunkett, 2008; Gliozzi et al., 2009). A
seguir sero descritos os modelos que serviram de base para o desenvolvimento de um mapa
auto-organizvel capaz de realizar agrupamento em subespaos.
7.2
Variantes de Interesse dos Mapas Auto-Organizveis
No Captulo 5 foi descrito um SOM padro, conforme proposto por Kohonen (1982), que pode
ser utilizado para criar agrupamentos de forma no-supervisionada. No entanto, este mapa no
adequado para o agrupamento das percepes, pois a mtrica que originalmente utilizada
no SOM para identificar qual o nodo vencedor de uma competio que considera igualmente
todas as dimenses. O mapa de topologia fixa proposto por Kangas et al. (1990) (Seo 7.2.1),
apresenta uma mtrica de distncia ponderada que serviu de inspirao para a soluo adotada
mais a frente.
Porm, para uma aprendizagem incremental e robusta o nmero de nodos e as conexes
entre eles no devem ser fixos, mas devem evoluir em funo dos dados de entrada. O modelo
proposto por Arajo e Costa (2009) (Seo 7.2.2), permite a autoadaptao do campo receptivo
de cada nodo, ou seja a regio do espao de entrada para a qual cada nodo responde aprendida
em funo dos dados, o que auxilia na determinao do nmero de agrupamentos. Alm disso,
as conexes entre os nodos tambm so estabelecidas em funo dos dados, permitindo o ajuste
da topologia. Ambos os mapas sero apresentados a seguir.
7.2.1
Ponderao Adaptativa da Funo de Distncia
Kangas et al. (1990) tinham como motivao fazer com que os mapas se adaptassem melhor a
grandes variaes de alguns componentes do vetor de entrada em relao a outros. Os autores
argumentam que diferenas significativas nas faixas de variao dos componentes do vetor de
entrada podem impedir o mapa de atingir uma ordenao adequada. Para permitir este ajuste, os
autores fizeram modificaes na maneira como a distncia entre os vetores seria computada,
utilizando uma mtrica de distncia ponderada (Eq. 7.1) em lugar da distncia Euclidiana
tradicional:
m
[D (x, w j )]2 = 2ji (xi w ji )2

i=1

7.1
onde 2ji o fator de ponderao da i-sima dimenso de entrada para a j-sima unidade.
Os fatores de ponderao so estimados adaptativamente ao longo do processo de aprendiza-
149
gem, considerando a varincia dos estmulos recebidos por cada nodo da grade. Para isso, cada
nodo armazena uma mdia mvel das diferenas kx w j k formada de acordo com a Eq. 7.2.
ji (n + 1) = ji (n) + 1 [ ji (n)kx w j k ji (n)]

7.2
onde 1 um pequeno coeficiente de correo (e.g. 1 = 0, 0001).

Os valores de ji (n + 1) so ento calculados atravs da Eq. 7.3.
(n) if (n)kx w k > (n)

ji
j
ji
2 ji
ji (n + 1) =
(n) if (n)kx w k < (n)
ji
j
ji
3 ji

7.3
onde 2 = 0, 99 e 3 = 1.02.
O objetivo destas equaes manter ji kx w j k = ji . Para fazer com que os valores de ji
progridam para solues admissveis necessrio restringi-los para que obedeam restrio
apresentada na Eq. 7.4.
m
1
ji = constante, i
j=1

7.4
Em uma interpretao geomtrica do sistema de pesos, pode-se dizer que ele transforma a
superfcie hiper-esfrica equidistante que se formava ao redor de cada unidade quando utilizada
a distncia Euclidiana, em um hiper-elipsoide quando utilizada a distncia ponderada. Esta
hiper-elipse se alonga nas dimenses que mais variam, e se estreita nas dimenses que variam
menos.
Para o agrupamento em subespaos, aquelas caractersticas que mais variam, em geral, so
menos importantes para estabelecer os agrupamentos. As modificaes propostas por Kangas
et al. (1990) fazem com que os atributos com grande variao influenciem menos no clculo
da distncia, atravs da reduo de seus pesos ji , portanto reduzindo a importncia destes
atributos na seleo do vencedor e na formao dos agrupamentos.
Uma outra alternativa consiste na utilizao da distncia de Mahalanobis em lugar da
distncia ponderada, conforme descrito por Fessant et al. (2001). A distncia de Mahalanobis
se baseia nas correlaes entre variveis do conjunto de dados e no depende da escala das
medies. No entanto, esta opo computacionalmente mais custosa, pois necessrio
computar matrizes de varincia-covarincia e h dvidas se os ganhos em preciso obtidos
seriam significativos, por isso, esta opo no ser explorada nesta Tese.
150
7.2.2
Local Adaptive Receptive Field Self-Organizing Map - LARFSOM
Mapas de topologia fixa, como os descritos nas sees anteriores so boas ferramentas para
visualizao de dados. No entanto, em determinados problemas h a necessidade de se adicionar
nodos ao mapa conforme mais dados se tornam disponveis, melhorando a aprendizagem
incremental. Alm disso, modificar as relaes de vizinhanas durante o treinamento permite
que o mapa se ajuste melhor topologia apresentada nos dados. Diversos modelos de estrutura
variante no tempo foram propostos na literatura (Arajo e Rego, 2013), como o Growing Cell
Structures (GCS) (Fritzke, 1994), o Growing Neural Gas (GNG) (Kunze e Steffens, 1995) e o
Growing When Required (GWR) (Marsland et al., 2002).
O modelo proposto por Arajo e Costa (2009) chamado de Local Adaptive Receptive Field
Self-Organizing Map (LARFSOM) aproveita caractersticas desejveis do SOM e do GWR.
Do SOM, as capacidades de aprendizagem competitiva e agrupamento so preservadas. Por
outro lado, assim como o GWR, o LARFSOM s cresce quando novos nodos so necessrios.
A insero de nodos acontece com base em um limiar de ativao mnimo (at ), abaixo do qual,
novos nodos so criados para representar com perfeio novos padres de entrada sem causar
interferncia com a informao que foi aprendida previamente em outros nodos.
O treinamento do LARFSOM realizado em 8 passos: (1) inicializao de parmetros e
variveis, (2) seleo do padro de entrada, (3) pesquisa da unidade mais semelhante (Best
Matching Unity - BMU), (4) insero da conexo entre as duas unidades mais semelhantes; (5)
ajuste do campo receptivo local da BMU; (6) clculo da ativao da BMU em funo do campo
receptivo; (7) eventual insero de um novo nodo; ou, atualizao dos pesos da BMU; e (8)
verificao do critrio de parada. A seguir cada um destes passos ser descritos.
Passo 1 - Inicializao de Parmetros e Variveis:
Abaixo esto listados os parmetros do LARFSOM, estes parmetros devem ser inicializados
de acordo com os dados de entrada e o tipo de auto-organizao que se deseja:
Parmetros
f : Taxa de aprendizagem final;
: Modulador da taxa de aprendizagem;
at : Limiar de ativao;
emin : Erro mnimo;
dm : Mximo de vitrias de cada nodo.
Alm destes parmetros as seguintes variveis devem ser inicializadas, conforme os valores
151
indicados:
Variveis
N = 2: Nmero de nodos no mapa;
di = 0: Nmero de vitrias do nodo i;
t = 0: Nmero da iterao.
Passo 2 - Seleo do Padro de Entrada:

Apresentao para o mapa de um padro de entrada x escolhido aleatoriamente.
Passo 3 - Pesquisa pela BMU:
wi ) atravs
Calcula-se a distncia Euclidiana entre x e os vetores de pesos dos nodos (w
da distncia Euclidiana, exatamente como no SOM (Eq. 5.2), e comparam-se as distncias
encontradas entre a amostra e cada vetor de pesos para encontrar as duas unidades vencedoras
s1 e s2 :
d(x, w s1 ) d(x, w s2 ) d(x, w si ), i N, i 6= s1 , s2

7.5
Ento, o contador de vitrias do primeiro vencedor, s1 , atualizado: ds1 = ds1 + 1

Passo 4 - Ativao do Vencedor:
Calcula-se a ativao de s1 :
as1 =
exp( k x w s1 k)
rs1

7.6
Passo 5 - Insero de Novo Nodo ou Ajuste do Vencedor:

Caso a ativao do BMU esteja abaixo do limiar (at ), um novo nodo inserido no mapa,
com wn = x, o nmero de nodos n atualizado N = N + 1, a conexo entre s1 e s2 removida,
wn , w s1 ), D(w
wn , w s2 ) e D(w
ws1 , w s2 ), e os
calcula-se as distncias entre os nodos n, s1 e s2 : D(w
dois nodos mais prximos so conectados. Caso contrrio o vetor de pesos do vencedor
atualizado:
ws1 = (x w s1 )
w
152

7.7
onde
di /dm , d d
i
m
f
=
,
di > dm
f
Passo 6 - Insero de Nova Conexo:

Uma nova conexo entre s1 e s2 inserida, caso ela no exista.
Passo 7 - Ajuste do Campo Receptivo do Vencedor:
Calcula-se o campo receptivo do nodo vencedor, rs1 :
rs1 =k w s1 w s2 k

7.8
Passo 8 - Verificao do Critrio de Parada e Repetio:

Atualiza-se o nmero de iteraes t = t + 1 e retorna ao passo 2, a menos que o critrio de
parada tenha sido atingido:
e=
1 N1
k w i atual w i antigo k2 emin
N i=0

7.9
Algoritmo do LARFSOM
O algoritmo a seguir descreve de maneira procedimental os passos executados no treinamento
do LARFSOM.
Isto conclui a reviso dos modelos que serviram de inspirao para a construo dos
mtodos que sero propostos. Na seo seguinte sero apresentados os mapas propostos para o
agrupamento em subespaos.
153
Algoritmo 7.1: Auto-Organizao do LARFSOM.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
Inicialize os parmetros f , , at , emin , e dm ;

Inicialize o mapa com dois nodos conectados;
Inicialize os nodos i com di = 0 e com pesos iguais ao de duas amostras escolhidas aleatoriamente;

enquanto O critrio de parada no for atingido (Eq. 7.9
) faa
Apresente um padro x escolhido aleatoriamente nas entradas da rede;

);
Calcule a distncia Euclidiana entre a entrada x e os nodos da rede (Eq. 5.2

Encontre s1 , o nodo mais prximo de x e s1 , o segundo mais prximo (Eq. 7.5
);
Atualize o contador de vitrias do nodo s1 : ds1 = ds1 + 1;
Insira uma conexo entre s1 e s2 se ela no existir;

);
Calcule o campo receptivo de s1 (Eq. 7.8

Calcule a ativao de s1 (Eq. 7.6
);
se as1 < at ento
Adicione um novo nodo n com peso w n = x;
Atualize o nmero de nodos N = N + 1;
Remova a conexo entre s1 e s2 ;
wn , w s1 ), d(w
wn , w s2 ), d(w
ws1 , w s2 );
Calcule as distncias d(w
Insira conexes entre os dois pares de nodos com as menores distncias;
seno

ws1 (Eq. 7.7
Calcule w
);
ws1 ;
Atualize w s1 : w s1 = w s1 + w
fim
Atualize o nmero da iterao: t = t + 1;
fim
7.3
Soluo Proposta para o Mdulo de Associao
Os modelos de aprendizagem no-supervisionados descritos acima apresentam conceitos valiosos para a construo do modelo utilizado no Mdulo de Associao. No entanto, nenhum deles
possui todas as propriedades necessrias. Sendo assim, dois novos modelos sero propostos,
um de topologia fixa, o DSSOM (Seo 7.3.1) e outro de topologia varivel, o LARFDSSOM
(Seo 7.3.2).
7.3.1
Dimension Selective Self-Organizing Map - DSSOM
O DSSOM (Bassani e Arajo, 2012) um mapa auto-organizvel seletivo a dimenses, isto ,

ele capaz de ajustar a relevncia de cada uma das dimenses no clculo da unidade vencedora
para cada nodo do gradil. Com isso, o modelo permite que o peso de algumas dimenses
seja praticamente nulo, fazendo com que estas dimenses no interfiram no agrupamento
estabelecido por um dado nodo. O ajuste destes pesos feito de maneira adaptativa durante o
154
7.3. SOLUO PROPOSTA PARA O MDULO DE ASSOCIAO
treinamento. Diferentemente do modelo proposto por Kangas et al. (1990), o DSSOM permite
que mais de um nodo vena para um dado estmulo de entrada, fazendo com que nodos que
reconhecem caractersticas distintas das consideradas pelo primeiro vencedor tambm possam a
agrupar aquele estmulo.
O DSSOM tambm utiliza uma medida de distncia ponderada como em Kangas et al.
(1990) (Eq. 7.1). No entanto, no DSSOM, o vetor de ponderao j = [( j1) ( j2) ... ( jm) ]T
indica a relevncia de cada atributo para cada nodo, e no um ajuste de escala. E portanto, j
chamando de vetor de relevncias associado ao nodo j. Cada elemento desse vetor converge para
um valor entre 0 e 1, que inversamente proporcional a variabilidade observada no respectivo
componente dos padres de entrada agrupados por tal nodo.
Escolha do Nodo Vencedor no DSSOM
No DSSOM, o primeiro vencedor de uma competio, s1 (x), o nodo que apresenta a maior
ativao para o padro de entrada (Eq. 7.10).
j ))]
s1 (x) = arg max[ac(D (x, w j ), Sum(
j

7.10
A ativao de um nodo uma funo da distncia ponderada para o padro de entrada,

D (x, w j ), conforme em Kangas et al. (1990) (Eq. 7.17), e da soma dos componentes do seu
j ) (Eq. 7.12).
vetor de relevncias, Sum(
j )) =
ac(D (x, w j ), Sum(
j)
Sum(
j) +
D (x, w j ) + Sum(

7.11
j ) dado por:
onde um valor pequeno para evitar diviso por zero. E Sum(
N
j ) = ( ji)
Sum(
i=0

7.12
Esta funo de ativao produz valores mais elevados para nodos que levam em conta mais
dimenses (Eq. 7.11). Ou seja, se dois vetores de pesos associados a dois nodos possuem a
mesma distncia ponderada para um dado estmulo de entrada, ter maior ativao aquele que
levar em considerao mais fortemente o maior nmero de atributos.
Atualizao do Vetor de Pesos no DSSOM
Quando um nodo o vencedor, a atualizao dos seus pesos e dos pesos de seus vizinhos ocorre
como no mapa de Kohonen (Eq. 5.3), porm, neste passo o vetor de ponderao j tambm
atualizado. Para isto, cada nodo conta com um vetor adicional, j , que estima a variao mdia
entre os estmulos para os quais este nodo foi o vencedor. Esta variao mdia estimada
155
atravs de uma mdia mvel semelhante proposta por Kangas et al. (1990), porm com apenas
um parmetro, , o qual indica a velocidade com a qual essa mdia mvel se modifica. Este
vetor inicializado com zeros e atualizado atravs da Eq. 7.13.
j (n + 1) = (1 )h ji(x) j (n) + h ji(x) )|x w j |

7.13
onde ]0, 1[. Note que a funo de vizinhana h ji(x) utilizada para que a atualizao
das distncias dos vizinhos da unidade vencedora ocorra tambm de forma proporcional
distncia para o vencedor. Observe ainda que o operador | | denota o valor absoluto aplicado
aos componentes do vetor, no norma.
Aps a atualizao do vetor de distncias, cada componente i do vetor de ponderao
atualizada, atribuindo-se um valor entre 0 e 1, inversamente proporcional a respectiva distncia
mdia computada (Eq. 7.14).
1 ( /
ji
jimax ) if jimax > 0
ji =
1
if jimax = 0

7.14
onde jimax a componente de maior valor do vetor j . Se necessrio, pode-se em seguida

impor um limite inferior para o valor de cada componente ji para limitar a relevncia
mnima para cada componente: ji = max( , ji ).
O esquema de ajuste dos pesos proposto possui a vantagem de requerer ajustes apenas do
parmetro em vez dos parmetros 1 , 2 e 3 necessrios no modelo de Kangas et al. (1990).
Auto-Organizao do DSSOM
No tipo de agrupamento criado para representar conceitos, um mesmo estmulo perceptivo (ex.:
hexgono pequeno vermelho) pode pertencer a mais de um grupo (ex.: grupo dos hexgonos e
dos objetos vermelhos). No entanto, no esquema de treinamento do SOM tradicional, apenas
um nodo se tornar o vencedor para cada estmulo. Uma forma mais adequada de treinar o mapa
para aprendizagem de conceitos, consiste em permitir que nodos que reconhecem caractersticas
complementares quelas reconhecidas pelo primeiro vencedor, tenham tambm a chance de
vencer para aquele estmulo. Ou seja, deve haver a possibilidade de mais de um nodo vencer
para cada estmulo, desde que levem em considerao subespaos suficientemente distintos.
Para permitir isso, foi introduzido o vetor de relevncia global, = [1 2 ... m ]T . Este
vetor penaliza as dimenses j consideradas por vencedores anteriores. Todos os componentes
deste vetor so inicializados com valor 1 antes da apresentao de um novo padro de entrada.
Quando um vencedor encontrado, o vetor de relevncia global atualizado atravs da Eq. 7.15
em funo do vetor de relevncia do vencedor anterior.
156
i = i (1 k,i ) para i = 0, 1, 2, ..., m

7.15
onde, k o ndice do nodo vencedor e k,i o i-simo componente de seu vetor de relevncias.
Esta atualizao faz com que as dimenses consideradas por ele sejam menos relevantes
nas prximas competies. Em seguida, enquanto o maior componente do vetor de relevncia
global, max , for maior do que o limiar , ou o nmero mximo de vencedores (kmax ) no for
atingido, outro vencedor (sk ) determinado de acordo com a Eq. 7.16, a qual utiliza o vetor de
relevncias global atual, em vez do vetor de relevncias de cada nodo. O Alg. 7.2 detalha este
processo.
)]
sk (x) = arg max[ac(D (x, w j ), Sum(
j

7.16
onde D (x, w j ), obtido pela Eq. 7.17.

m
[D (x, w j )]2 = i2 (xi w ji )2

i=1

7.17
onde i o i-simo componente do vetor de relevncias global, , inicializado com 1,0 e

atualizado de acordo com a Eq. 7.15, aps a determinao de cada novo vencedor.
Agrupamento em Subespaos com o DSSOM
Aps a auto-organizao do DSSOM, os pesos e os vetores de relevncia armazenados em cada
nodo do mapa podem ser utilizados para agrupar os padres de entrada. O Alg. 7.3 apresenta o
procedimento de agrupamento. Cada nodo do mapa est associado a um ndice que representa
um grupo, e os padres de entrada so ento associados a um ou mais ndices de agrupamento.
Note que, neste processo, o parmetro kmax limita a um valor mximo a quantidade de grupos
aos quais um padro de entrada pode pertencer.
O DSSOM conta ainda com um mecanismo de tratamento de rudo no procedimento de
agrupamento. Se a ativao produzida pelo padro de entrada para o primeiro vencedor for
menor do que o limiar, th, ento, o padro de entrada atribudo a um conjunto de rudo.
7.3.2
Local Adaptive Receptive Field Dimension Selective Self-Organizing

Map - LARFDSSOM
O LARFDSSOM um mapa auto-organizvel com estrutura variante no tempo, baseado no

DSSOM e no LARFSOM. Assim como no DSSOM, os nodos podem aplicar relevncias
distintas para as dimenses de entrada e assim como no LARFSOM o campo receptivo dos
157
Algoritmo 7.2: Auto-Organizao no DSSOM.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
Inicialize os parmetros 0 , 2 , 0 , 1 , , , tmax , nmax e kmax ;

Inicialize os vetores de pesos (w j ) aleatoriamente;
Inicialize os vetores de distncia ( j ) com zeros;
para t 0 at tmax faa
para n 0 at nmax faa
Inicialize o vetor global de relevncias, com 1.0;
Apresente um padro escolhido aleatoriamente x;
k = 1;
enquanto (max > e k kmax ) faa
se k = 1 ento
Encontre o primeiro vencedor (s1 ) (Eq. 7.10);
seno
Encontre outro vencedor (sk ) (Eq. 7.16);
fim
Atualize o vetor de distncias j do vencedor e de seus vizinhos (Eq. 7.13);
Atualize o vetor de relevncias j do vencedor e de seus vizinhos (Eq. 7.14);
Atualize o vetor de pesos w j do vencedor e de seus vizinhos (Eq. 5.3);
Atualize o vetor global de relevncias (Eq. 7.15);
k = k + 1;
fim
fim
Aplique os decaimentos da taxa de aprendizagem e vizinhana (Eq. 5.4, Eq. 5.6);
fim
nodos adaptado durante o processo de auto-organizao. A operao do mapa ocorre em

trs fases: a fase de organizao (Alg. 7.4), a fase de convergncia (Alg. 7.5) e a fase de
agrupamento (Alg. 7.6).
Na fase de organizao, os nodos competem para agrupar os padres de entrada. O vencedor
de uma competio o mais ativo de acordo com uma funo de base radial, com o campo
receptivo ajustado em funo da varincia local dos padres de entrada. No LARFDSSOM, a
vizinhana formada por nodos que levam em considerao um subconjunto de atributos similar
nos vetores de entrada. Os passos de competio e a cooperao so repetidos por um nmero
limitado de pocas, e durante este processo os nodos que no vencerem para uma proporo
mnima de padres so periodicamente removidos do mapa.
Aps a fase de organizao, inicia-se a fase de convergncia. Nesta fase, os nodos so
atualizados e removidos quando requerido, assim como na fase de organizao. No entanto, no
h insero de novos nodos. Esta fase, termina quando o nmero de nodos do mapa para de
decrescer.
Quando a fase de convergncia concluda, o mapa pode ser utilizado para agrupar padres.
Assim, todos os nodos que apresentam ativao igual ou superior ao limiar at so considerados
158
Algoritmo 7.3: Agrupamento em Subespaos com o DSSOM.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
para cada padro de entrada (x) faa

Inicialize o vetor global de relevncias com 1,0;
Apresente x para o DSSOM;
k = 1;
enquanto (max > e k kmax ) faa
se k = 1 ento
Encontre o primeiro vencedor (s1 ) (Eq. 7.10);
se (ac(s1 ) < th) ento
Associe x ao conjunto de rudo;
pare;
fim
seno
Encontre outro vencedor (sk ) (Eq. 7.16);
fim
Associe x ao grupo com ndice do nodo vencedor;
Atualize o vetor global de relevncias (Eq. 7.15);
k = k + 1;
fim
fim
como agrupando este padro. Portanto, um padro de entrada pode pertencer a vrios grupos,
atendendo ao requisito do agrupamento em subespaos. No entanto, o mapa pode ser utilizado
tambm para agrupamento projetivo associando-se cada padro de entrada apenas ao grupo do
nodo de maior ativao. Em ambos os casos, se todos os nodos apresentarem ativao abaixo
do limiar at , o padro de entrada considerado um outlier, e ento atribudo ao conjunto de
rudo.
As equaes e algoritmos dos processos descritos acima sero apresentados a seguir, e
posteriormente sero fornecidos detalhes sobre o ajuste de parmetros do modelo.
Insero de Nodos e Competio

Assim como no DSSOM, no LARFDSSOM cada nodo j no mapa est associado a trs vetores:
c j = {c ji , i = 1...m} representa a posio (centro) do prottipo do grupo j no espao de entrada;
j = { ji , i = 1...m} o vetor de relevncias no qual cada componente representa a relevncia
estimada, ou seja, o peso entre [0,1] que o nodo j aplica para a i-sima dimenso de entrada; e
j = { ji , i = 1...m} o vetor de distncia que armazena uma mdia mvel da distncia
observada entre o padro
Quando um nodo criado, seu centro, c j , inicializado na posio do ltimo estmulo. Todas
as componentes do vetor de relevncias, j , so inicializadas com valor um, e as componentes
159
Algoritmo 7.4: Fase de Auto-Organizao.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Inicializa os parmetros at , eb , en , , s, Nmax , maxcomp, l p, tmax ;

Inicializa o mapa com um nodo com c j igual ao primeiro padro de entrada, j 0 , s 1 e
wins j 0;
Inicializada as variveis nwins 1;
Apresenta randomicamente os padres de entrada x para o mapa;
Computa a ativao de todos os nodos (Eq. 7.19);
Encontra o nodo vencedor s com o maior valor de ativao (as ) (Eq. 7.10);
se as < at e N < Nmax ento
Cria um novo nodo j e atribui: w j x, j 0 e wins j l p nwins;
Conecta j os outros nodos atravs da Eq. 7.23
seno
Atualiza o vetor de distncias s do nodo vencedor e seus vizinhos (Eq. 7.21);
Atualiza o vetor de relevncias s do nodo vencedor e seus vizinhos (Eq. 7.22);
Atualiza o vetor de pesos cs do nodo vencedor e seus vizinhos (Eq. 7.20);
Atribui winss winss + 1;
fim
se nwins = maxcomp ento
Remove os nodos com wins j < l p maxcomp;
Atualiza as conexes restantes atravs da Eq. 7.23;
Reseta o nmero de vencedores dos nodos restantes: wins j 0;
nwins 0;
fim
nwins nwins + 1;
fim
executa a fase de convergncia (Alg. 7.5);
do vetor de distncias, j , so inicializadas com valor zero. Estes vetores so atualizados aps
o passo de competio.
Assim como no DSSOM, o vencedor de uma competio, s(x), o nodo que apresenta a
maior ativao, ac(D (x, c j ), j ), em resposta ao padro de entrada:
s(x) = arg max[ac(D (x, c j ), j )]
j

7.18
A ativao de um nodo calculada como uma funo de base radial da distncia ponderada,
D (x, c j ), com o campo receptivo sendo ajustado em funo da norma do vetor de relevncias,
j k. Com isso, a ativao cresce com a norma do vetor de relevncias, e para uma mesma
k
distncia, quanto maior for a relevncia, maior ser a ativao:
ac(D (x, c j ), j ) =
160
1
j k2 + )
1 + D (x, c j )/(k

7.19
j k a norma do vetor de relevncias

onde um pequeno valor para evitar diviso por zero, k
e D (x, c j ) a distncia ponderada (Eq. 7.1).
Similarmente ao LARFSOM, no LARFDSSOM tambm utilizado um limiar de ativao,
at , para disparar a insero dos novos nodos. Caso a ativao do vencedor seja abaixo de at ,
ento um novo nodo ser inserido na posio do padro de entrada e nem o vencedor nem seus
os vizinhos sero modificados. Caso contrrio, o vencedor e seus vizinhos sero atualizados
conforme descrito na prxima seo e nas linhas 5-16 do Alg. 7.4.
Em alguns casos til impor um limite mximo Nmax para o nmero de nodos no mapa, para
limitar o custo computacional, principalmente em dados ruidosos. Se este limite for alcanado
no sero criados novos nodos, mas os nodos existentes continuaram sendo atualizados.
Atualizao do Nodo Vencedor de seus Vizinhos
No LARFSOM, para atualizar os vetores associados com o vencedor e seus vizinhos, so
consideradas duas taxas de aprendizagem constantes: eb ]0, 1[ utilizada para atualizar o
vencedor, e en ]0, eb [ utilizada para atualizar seus vizinhos. Abaixo so apresentadas as
equaes de atualizao, as quais so as equaes do DSSOM com a funo de vizinhana
substituda pela respectiva taxa de aprendizagem constante.
c j (n + 1) = c j (n) + e(x c j (n))

7.20
onde, e, a taxa de aprendizagem dada por: e = eb se j o nodo vencedor, ou e = en se j um

vizinho do nodo vencedor.
Para computar o vetor de relevncias, primeiro estimada a distncia mdia do nodo para
os padres de entrada por ele agrupados. Assim como no DSSOM, o vetor de distncias
atualizado atravs de uma mdia mvel das distncias observadas, no entanto com uma funo
de vizinhana constante:
j (n + 1) = (1 e ) j (n) + e (|x c j (n)|)

7.21
onde, e, a taxa de aprendizagem dada por: e = eb se j o nodo vencedor, ou e = en se j um

vizinho do nodo vencedor, ]0, 1[ controla a velocidade de mudana da mdia mvel e o
operador | | denota o valor absoluto aplicado as componentes do vetor.
Para valores pequenos de e e nmeros grandes de amostras, j fornece uma boa estimativa
do Desvio Mdio Absoluto (DMA) das amostras agrupadas no nodo j. A DMA uma medida
robusta de variabilidade, sendo mais resistente a outliers do que o desvio padro (Ruppert,
2010).
Aps atualizar o vetor de distncias, cada componente, ji , do vetor de relevncias
161
calculada por uma funo logstica inversa das distncias ji (Eq. 7.22):
se jimin 6= jimax

jimean ji
1
+
exp
ji =
s( jimax jimin )
1
caso contrrio

7.22
onde jimax , jimin e jimean so respectivamente, o mximo, o mnimo e a mdia dos componentes do vetor de distncias j . As relevncias computadas tendem a zero para dimenses com
variabilidade prximas de jimax , e as relevncias das demais dimenses so escaladas dentro
do intervalo [0,1]. O parmetro s > 0 controla a suavidade da funo logstica.
Uma vez que os componentes de j representam uma estimativa do inverso da DMA, ento
j k, fornece uma estimativa adequada do campo receptivo dos nodos, o que justifica
a norma k
sua presena na Eq. 7.19. Como resultado, quanto maior for a variao observada nos padres
de entrada para os quais um nodo vence, maior ser o seu campo receptivo.
Remoo de Nodos
No LARFDSSOM cada nodo j no mapa armazena uma varivel, wins j , que conta o nmero de
vitrias deste nodo desde o ltimo reset. Um reset ocorre aps maxcomp competies (linhas
17-23 no Alg. 7.4). Quando ocorre um reset, so removidos do mapa os nodos que apresentam
um nmero de vitrias abaixo do limiar l p maxcomp, onde l p um parmetro que representa
a percentagem mnima de vitrias necessria para um nodo permanecer no mapa. Por exemplo,
se l p for ajustado para 0,01, ento um nodo precisa ganhar ao menos 1% das competies, caso
contrrio ele ser removido do mapa no prximo reset.
Aps a remoo de nodos o nmero de vitrias dos nodos restantes reiniciada para zero.
Adicionalmente, para evitar a remoo prematura de novos nodos, quando um nodo criado
seu nmero de vitrias ajustado para l p nwins, onde nwins o nmero de competies que
ocorreram desde o ltimo reset.
Atualizao da Vizinhana
A cada reset a conexo entre os nodos atualizada. No LARFDSSOM, a existncia de uma
conexo entre dois nodos significa que eles agrupam padres em subespaos semelhantes. A Eq.
7.23, considera a similaridade entre os vetores de relevncia entre cada par de nodos no mapa
para modelar este comportamento:
conectados,
i jk < c m
se k
nodos i e j so
desconectados, caso contrrio
162

7.23
Algoritmo 7.5: Fase de Convergncia.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
enquanto Verdadeiro faa

Nmax N;
Remove os nodos com wins j < l p maxcomp;
se (N = Nmax ou N = 1) ento retorna Atualiza as conexes de todos os nodos atravs da Eq.
7.23;
Reseta os nmero de vencedores de todos os nodos: wins j 0;
Apresenta um padro randomicamente escolhido x para o mapa;
Encontra o vencedor s com o maior valor de ativao (Eq. 7.18);
Atualiza o vetor de distncias s do nodo vencedor e seus vizinhos (Eq. 7.21);
Atualiza o vetor de relevncias s do nodo vencedor e seus vizinhos (Eq. 7.22);
Atualiza o vetor de pesos cs do nodo vencedor e seus vizinhos (Eq. 7.20);
Set winss winss + 1;
fim
fim
onde m o nmero de dimenses de entrada, e c em geral ajustado para 1/2. Como a relevncia
varia entre zero e um, m o valormximo para a norma das distncias entre dois vetores de
relevncia. Com c = 1/2, tem-se 2m como um limiar para conexo entre dois nodos, o qual
significa que apenas pares de nodos com diferenas que estejam acima a metade do mximo
possvel sero conectados.
Fase de Convergncia
Aps a remoo de nodos do mapa, pode ser necessrio reposicionar os nodos restantes para
representar adequadamente os padres de entrada, que previamente estavam sendo agrupados
em nodos que foram removidos. Na fase de convergncia o processo de auto-organizao
continua mas sem a criao de novos nodos. No entanto, aps esta reorganizao, alguns nodos
podem no atingir a percentagem mnima de padres para permanecerem no mapa, e acabam
sendo removidos. Portanto, este processo itera at que o nmero de nodos no mapa pare de
decair. A cada remoo de nodos, os padres sero redistribudos em menos nodos, o que
garante o trmino deste processo. O Alg. 7.5 detalha este processo.
Neste algoritmo, Nmax ajustado para o nmero atual de nodos no mapa (linha 2). Ento, os
nodos com wins j < l p maxcomp so removidos (linha 3). O critrio de parada verificado
aps a remoo de nodos, quando estabelecido se o mapa parou de decrescer ou atingiu o
valor mnimo (linha 4). Se ao menos um nodo tiver sido removido, ento necessrio atualizar
as conexes (linha 5) e continuar para o passo de reorganizao (linhas 6-15).
163
Agrupamento Projetivo e em Subespaos com o LARFDSSOM

Aps a auto-organizao do mapa, os pesos e os vetores de relevncias armazenados em cada
nodo do mapa podem ser utilizados para agrupar padres de entrada. O Alg. 7.6 apresenta o
procedimento de agrupamento. Cada nodo no mapa rotulado com um ndice representando
um grupo e cada padro de entrada pode ser associado a um ou mais ndices desses grupos. Se
o problema de agrupamento que estiver sendo tratado for de agrupamento em subespaos ento
todos os nodos com ativao acima do limiar de ativao, at , so considerados como agrupando
este padro de entrada (linhas 2-10). Caso contrrio, se for um problema de agrupamento
projetivo, ento apenas o primeiro vencedor considerado, e o teste da linha 8 encerra o lao. Se
nenhum dos nodos produzir ativao igual ou superior ao limiar para um padro em particular,
ento este padro considerado um outlier.
Algoritmo 7.6: Agrupamento com LARFDSSOM.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
para cada padro de entrada (x) no conjunto de dados faa

Apresenta x para o mapa;
Encontra o vencedor s com o maior valor de ativao (as ) (Eq. 7.18);
se as at ento
repita
Atribui x para o grupo com indice do nodo vencedor s;
se agrupamento projetivo ento pare;
Encontra o prximo nodo no mapa com o maior valor de ativao as desconsiderando
os vencedores anteriores;
at as < at ;
seno
Atribui x para o conjunto de outliers;
fim
fim
7.4
Validao dos Modelos de Agrupamento em Subespaos
Nesta seo, sero descritos os experimentos que foram realizados para verificar as capacidades
de agrupamento do DSSOM e do LARFDSSOM, bem como, para compar-los com os demais
mtodos da literatura. Experimentos considerando o sistema completo sero apresentados no
Captulo 8.
Inicialmente ser descrita a mtrica de desempenho utilizada para comparar os mtodos
(Seo 7.4.1), e em seguida ser indicado como foi realizado o ajuste de parmetros dos
mtodos estudados (Seo 7.4.2). Ento sero apresentados os experimentos realizados. Na
164
7.4. VALIDAO DOS MODELOS DE AGRUPAMENTO EM SUBESPAOS
Seo 7.4.3 sero utilizados conjuntos de dados simulados, propostos por Mller et al. (2009)
para avaliar algoritmos de agrupamentos em subespaos. Estes conjuntos de dados evidenciam
as caractersticas desejveis dos mtodos, como escalabilidade e tolerncia a rudos. Em
seguida, sero executados experimentos com dados reais de problemas relacionados com o
agrupamento em subespaos (Seo 7.4.5). O objetivo destes experimentos mostrar que os
modelos propostos so gerais. Na Seo 7.4.6 sero descritos experimentos realizados com
as percepes do ambiente descrito no Captulo 4. Nestes experimentos o objetivo avaliar
qualitativamente os agrupamentos formados, e verificar a viabilidade de relacion-los com
conceitos que representam caractersticas do ambiente e de seus objetos.
7.4.1
Mtricas de Desempenho
Existem diversas mtricas para avaliao de agrupamentos em subespaos. Dentre as mtricas

descritas e analisadas em Patrikainen e Meila (2006) e em Mller et al. (2009), foram escolhidos
para avaliar os mtodos o CE (do ingls Clustering Error). CE uma mtrica que leva em conta
no apenas os agrupamentos produzidos, mas tambm as dimenses relevantes encontrados
para cada grupo e penaliza resultados com agrupamentos demais. CE calculada como
uma percentagem de pontos que esto agrupados de maneira diferente, considerando uma
coincidncia tima entre os agrupamentos desejados e os obtidos. CE varia entre zero e um, e
valores mais altos indicam melhores agrupamentos. CE pode ser visto como uma generalizao
do erro de classificao, o qual frequentemente utilizado para avaliar mtodos de agrupamento
clssico. De fato, conforme a porcentagem de dimenses relevantes aumenta, CE converge para
o complemento do erro de classificao (1 - erro de classificao).
Para computar CE, os mtodos precisam produzir no apenas as associaes de padres para
grupos, mas tambm precisam indicar as dimenses relevantes para cada grupo. No entanto,
os mtodos baseados em SOM produzem valores reais como sada, ji , variando no intervalo
[0,1], para representar a relevncia da dimenso i para o agrupamento j. Portanto, a relevncia
mdia por nodo foi utilizada como um limar para estabelecer se uma dimenso relevante. ou
seja, a dimenso i relevante para o grupo j se e somente se ji mdia{ ji , i = 1...m}.
7.4.2
Ajustes Paramtricos
Os mtodos de agrupamento em subespaos em geral tm vrios parmetros e ajust-los no

uma tarefa fcil. Portanto, almejando uma comparao mais justa, a metodologia adotada
para avaliar os mtodos baseada em tcnicas de anlise de sensibilidade (Saltelli et al.,
2009). Assim, cada mtodo foi executado 500 vezes com diferentes parmetros amostrados
dentro de um intervalo previamente estabelecido, de acordo com a Amostragem de Hipercubo
165
Latina (LHS, do ingls Latin Hypercube Sampling) (Helton et al., 2005) e foram registrados os
melhores resultados alcanados por cada mtodo em cada conjunto de dados. A LHS garante
uma cobertura completa do espao de parmetros evitando que fiquem regies grandes sem
amostras. Mais especificamente, o intervalo de cada parmetro dividido em 500 intervalos de
igual probabilidade e um nico valor amostrado aleatoriamente dentro de cada intervalo.
importante notar que PROCLUS e os mtodos baseados em SOM so estocsticos ou
dependem de sua inicializao, assim eles podem no atingir seu melhor resultado em uma
nica execuo. Mesmo assim, todos os mtodos foram executados apenas uma vez para cada
conjunto paramtrico de forma a manter igual o nmero de execues de cada mtodo.
Os intervalos de parmetros dos mtodos baseados em SOM so mostrados da Tabela 7.1
at a Tabela 7.5. Estes intervalos so adequados para conjuntos de dados com valores variando
entre [0,1]. Os intervalos de parmetros para os demais mtodos foram os mesmos utilizados
em estudos anteriores (Mller et al., 2009; Vidal, 2011). Foi utilizada uma estrutura unidimensional para SOM, SOM-KANGAS e DSSOM pois foi nesta configurao que estes mtodos
apresentaram os melhores resultados em uma anlise preliminar.
Tabela 7.1 Intervalo paramtrico para o SOM.
Parmetros
Nmero de nodos (N)
Taxa de Aprendizagem ()
Decamento da Aprendizagem (2 )
Vizinhana ( )
Decamento da Vizinhana (1 )
min
max
2
0.001
0.01
0.001
0.01
18
0.1
2
0.99
2
Tabela 7.2 Intervalo paramtrico para o SOM-KANGAS.

Parmetros
Nmero de nodos (N)
Vizinhana ( )
Taxa de Relevncia 1 (1 )
166
min
max
2
0.001
0.01
0.001
0.01
0.001
0.8
1.01
18
0.1
2
0.99
2
0.1
0.99
1.2
Tabela 7.3 Intervalo paramtrico para o LARFSOM.

Parmetros
Taxa de Aprendizagem ( f )
Limiar de Ativao (at )
Decamento da Aprendizagem ()
Nmero Mximo de Vitrias (dm )
min
max
0.001
0.001
0.001
50
0.5
0.2
0.99
500
Tabela 7.4 Intervalo paramtrico para o DSSOM.

Parmetros
Nmero de nodos (N)
Vizinhana ( )
Taxa de Relevncia ( )
Relevncia Mnima (e )
Limiar do Novo Vencedor (e )
Mximo de Vencedores (Kmax )
Limiar de Outliers (th)
min
max
2
0.001
0.01
0.001
0.01
0.001
0
0
1
0
18
0.1
2
0.99
2
0.1
1
1
3
0.999
Tabela 7.5 Intervalo paramtrico para o LARFDSSOM.

Parmetros
Limiar de Ativao (at )
Menor porcentagem do grupo (l p)
Taxa de Relevncia ( )
Mximo de Competies (maxcomp)
Taxa de Aprendizagem do Vencedor (eb )
Taxa de Aprendizagem da Vizinhana (en )
Smoothness Relevncia (s)
Limiar da Conexo (c)
*
7.4.3
min
max
0.7
0.1%
0.001
1S*
0.001
0.0001eb
0.01
0
0.999
10%
0.1
100S*
0.1
0.5eb
0.1
0.5
S o nmero de padres no conjunto de dados.
Experimentos com Dados Simulados
Nos experimentos seguintes, compara-se o desempenho do SOM, do mapa proposto por Kangas
et al. (1990) que introduz a distncia ponderada (SOM-KANGAS), do DSSOM e do LARFDSSOM com os mtodos de minerao de dados revisados na Seo 7.1 (MINECLUS, PROCLUS,
DOC e STATPC). Esta comparao foi feita utilizando-se os conjuntos de dados do framework
chamado OpenSubspace (Mller et al., 2009). Este framework fornece conjuntos de dados do
mundo real adaptados a partir do Repositrio de Aprendizagem de Mquina da UCI (Bache
167
e Lichman, 2013), alm de conjuntos de dados simulados, preparados especificamente para

avaliar o desempenho de mtodos de agrupamento em subespaos. Os conjuntos de dados
simulados contemplam diferentes condies de rudo, de nmero de dimenses e do tamanho de
conjunto de dados. O framework tambm fornece a implementao dos mtodos de agrupamento
considerados, bem como a da mtrica CE. A fim de aplicar os mtodos baseados em SOM, os
atributos dos conjuntos de dados devem estar no mesmo intervalo de variao, por isso, foram
re-escalados para o intervalo [0, 1]. Os mtodos de viso computacional (GPCA e SSC) so
adequados para agrupamento projetivo e no para agrupamento em subespaos e por isso no
entram nesta anlise. Suas avaliaes esto descritas na Seo 7.4.5.
Nos experimentos a seguir foram comparados apenas os mtodos baseados em SOM de
topologia fixa (DSSOM, SOM-KANGAS e SOM). A Figura 7.2 mostra os resultados obtidos
com estes mtodos em conjuntos de dados com diferentes nveis de rudo. O grfico mostra como
o SOM-KANGAS melhora em relao ao SOM, devido introduo da distncia ponderada. O
desempenho do SOM-KANGAS e do DSSOM so semelhantes em conjuntos de dados com
baixa quantidade de rudo. No entanto, o mecanismo de tratamento de rudo introduzido no
DSSOM faz com que o mtodo apresente um desempenho melhor com o aumento dos nveis
de rudo nos dados. Por esse motivo, nos experimentos seguintes os resultados com o SOM e
o SOM-KANGAS, no mais sero apresentados, e a comparao se dar com os mtodos de
minerao de dados.
Figura 7.2 CE em funo do percentual de rudo nos conjuntos de dados.
Em seguida, o DSSOM e o LARFDSSOM foram comparados com os mtodos de minerao

de dados em um conjunto mais amplo de experimentos. As Figuras 7.3, 7.4 e 7.5 mostram os
resultados obtidos com os vrios mtodos em dados simulados, aps a busca de parmetro de
acordo com as Tabelas 7.4 e 7.5, enquanto os demais parmetros foram fixados nos valores
padro (Bassani e Arajo, 2012). Os grficos mostram que o LARFDSSOM significativamente
168
melhor que os mtodos anteriores, obtendo resultados quase perfeitos em praticamente todos os
conjuntos de dados simulados. Seu desempenho se reduz ligeiramente em conjuntos de dados
com um pequeno nmero de dimenses relevantes (Figura 7.3) e com altos nveis de rudo
(Figura 7.5). J o DSSOM apresenta resultados ligeiramente inferiores ao MINECLUS e ao
DOC, que apresentaram os melhores resultados dentre os mtodos de minerao de dados.
Figura 7.3 CE em funo do nmero de dimenses no conjunto de dados.
Figura 7.4 CE em funo do nmero de amostras no conjunto de dados.
Nos conjuntos de dados ruidosos fornecidos no framework OpenSubspace, embora o rudo

tenha sido adicionado s amostras, todas as dimenses ainda mantm alguma informao sobre
os grupos. No entanto, em problemas reais, algumas das dimenses podem ser completamente
descorrelacionadas com os agrupamentos a serem identificados. E em conjuntos de dados com
dimenses parcialmente relevantes e irrelevantes no fcil identificar e remover as dimenses
irrelevantes sem perder informaes importantes. Assim, foi produzido um conjunto de dados
169
Figura 7.5 CE em funo do percentual de rudo no conjunto de dados.
Figura 7.6 CE em funo do nmero de dimenses contendo apenas rudo branco.
extra para avaliar o desempenho dos mtodos ao adicionar dimenses contendo apenas rudo
branco a um conjunto de dados inicialmente com cinco dimenses (o primeiro conjunto de
dados avaliado na Figura 7.3).
A Figura 7.6 mostra que o desempenho da maioria dos mtodos significativamente afetado
pelo aumento do nmero de dimenses ruidosas: 1, 2, 3, 4 e 5, o que representa 16,6%,
28,6%, 37,5%, 44,5% e 50% de dimenses irrelevantes respectivamente. Surpreendentemente,
DSSOM apresentou um decaimento aproximadamente linear e baixo, superando todos os outros
mtodos em conjuntos de dados com 3, 4 e 5 dimenses irrelevantes. J o LARFDSSOM,
apesar de tambm apresentar decaimento exponencial a partir de 2 dimenses irrelevantes, ainda
apresentou um desempenho superior ao dos mtodos de minerao de dados.
170
7.4.4
Anlise dos Resultados
Os resultados apresentados na seo anterior sugerem quantitativamente as capacidades dos

modelos propostos. Nos experimentos a seguir ser apresentada uma avaliao qualitativa com
o objetivo de proporcionar uma melhor compreenso das caractersticas dos modelos propostos.
Para ilustrar a funo do sistema de relevncias introduzido no DSSOM para problemas de
agrupamento em subespaos, a Figura 7.7 mostra como os agrupamentos formados pelo DSSOM
se diferenciam dos agrupamentos formados pelo SOM. O comprimento das barras verticais e
horizontais plotadas em cada nodo em azul, proporcional as relevncias encontradas pelo nodo
nas respectivas dimenses. Note que o SOM leva em considerao todas as dimenses de forma
igual, fazendo com que os agrupamentos formados misturem padres de diferentes subespaos.
J o DSSOM capaz de identificar as dimenses relevantes de cada agrupamento, e portanto, os
subespaos nos quais os padres residem, produzindo agrupamentos mais adequados.
Figura 7.7 Comparao entre os agrupamentos formados com o (a) SOM e com o (b) DSSOM para
um conjunto de dados com 12 grupos. A cada um dos nodos foi atribuda uma cor e a mesma cor foi
atribuda aos padres agrupados por ele. O comprimento das barras verticais e horizontais (em azul)
representa a relevncia atribuda pelo nodo respectiva dimenso.
Para ilustrar as diferenas entre o DSSOM e o LARFDSSOM as Figuras 7.8a e 7.8b exibem
as amostras de dados e os nodos dos mapas em suas configuraes finais. Os resultados
so relativos a um conjunto de dados com trs dimenses e nove grupos, com caractersticas
similares ao conjunto de dados exibido previamente na Figura 7.1. As dimenses irrelevantes
em cada grupo so aquelas em que os dados se espalham por todo o domnio.
171
(a) DSSOM
(b) LARFDSSOM
Figura 7.8 Comparativo entre as vizinhanas encontradas pelo DSSOM e LARFDSSOM.
Na Figura 7.8a, so apresentados os resultados obtidos com o DSSOM. Inspecionando

as barras de relevncia observa-se que o DSSOM foi capaz de identificar corretamente as
dimenses relevantes (barras mais compridas) e as irrelevantes (as barras so to pequenas que
no so visveis). Neste experimento, em vez de uma estrutura unidimensional, foi utilizada
uma grade 3x2 e as linhas pontilhadas plotadas indicam as conexes entre os nodos. O DSSOM
procura colocar nodos vizinhos em grupos prximos no espao de entrada. No entanto, esta no
uma soluo adequada para este conjunto de dados, pois, na verdade os grupos se encontram
em subespaos distintos. Esta a razo pela qual foi escolhida a estrutura unidimensional nos
experimentos quantitativos.
Na Figura 7.8b so apresentados os resultados obtidos com o LARFDSSOM. Os agrupamentos formados, as relevncias encontradas e a posio dos nodos foram praticamente as
mesmas encontradas pelo DSSOM. No entanto, a vizinhana encontrada pelo LARFDSSOM
conecta nodos com relevncias semelhantes. Assim, foram formadas trs vizinhanas separadas,
representadas pelas linhas pontilhadas, tracejadas e solidas. Cada vizinhana formada por
nodos que agrupam dados no mesmo subespao.
No experimento seguinte ilustrada a efetividade do sistema de filtragem de rudo do
LARFDSSOM. Na Figura 7.9a so exibidas todas as amostras de um conjunto de dados
simulado com 20 dimenses, 70% de rudo e 10 grupos. A configurao espacial final dos nodos
do LARFDSSOM tambm exibida, e as cores das amostras indicam seus grupos. Sem o cdigo
de cores seria bastante difcil identificar os agrupamentos em um conjunto de dados de alta
172
dimensionalidade e com tamanha quantidade de rudo. No entanto, quando apenas as amostras

que produzem ativao acima do limiar, at so exibidas (Figura 7.9b), isto , removendo-se os
outliers identificados pelo LARFDSSOM, os agrupamentos se tornam muito mais evidentes.
Neste experimento, nenhuma amostra vlida foi considerada outlier e apenas 0.6% dos outliers
no foram filtrados pelo modelo. Este um resultado tpico obtido com o LARFDSSOM nestes
dados simulados.
(a) Sem filtragem de rudo
(b) Com filtragem de rudo
Figura 7.9 Projeo em duas dimenses de um conjunto de dados simulado com 20 dimenses, 70%
de rudo e 10 grupos. As cores representam os grupos identificados pelo LARFDSSOM. Em (a) so
plotadas todas as amostras do conjunto de dados. Em (b) so plotadas apenas as amostras dentro do
campo receptivo dos nodos do LARFDSSOM.
7.4.5
Experimentos com Dados Reais
A performance dos mtodos propostos foi avaliada nos sete conjuntos de dados reais fornecidos
na base de framework OpenSubspace. Estas bases de dados no incluem informao a respeito
das dimenses relevantes. Portanto, todas as dimenses foram consideradas relevantes nos
agrupamentos alvo utilizados para avaliar os mtodos. Alm disso, embora seja provvel que
haja rudo nos dados eles no esto rotulados como tal. Adicionalmente, cada amostra deve
ser associada a apenas um grupo, configurando um problema de agrupamento projetivo. Dessa
maneira, tanto o DSSOM quanto o LARFDSSOM foram configurados para operar neste modo.
Cabe observar ainda, que apesar destas bases terem sido utilizadas na literatura para avaliar
algoritmos de agrupamento em subespaos e agrupamento projetivo (Mller et al., 2009), no
173
Tabela 7.6 Valores de CE para bases de dados reais. Melhores resultados de cada categoria mostrados
em negrito. O nmero de grupos esperado e encontrado mostrado entre parnteses. O melhor mtodo
para cada conjunto de dados est marcado com *.
CE
Breast (2)
Diabetes (2)
Glass (6)
Liver (2)
Pendigits (10)
Shape (9)
Vowel (11)
Mdia
Desvio
MINECLUS
DOC
PROCLUS
STATPC
*0,763 (1)
*0,763 (1)
0,702 (2)
0,185 (3)
0,651 (1)
0,654 (2)
0,647 (2)
0,084 (20)
0,393 (4)
0,439 (2)
0,528 (5)
0,234 (19)
0,583 (2)
0,580 (1)
0,565 (2)
0,050 (38)
0,294 (4)
0,566 (15)
0,615 (11)
0,129 (39)
0,285 (5)
0,419 (5)
0,706 (11)
0,451 (9)
0,091 (1)
0,142 (3)
0,253 (10)
0,060 (39)
0,437
0,509
0,574
0,171
0,237
0,200
0,156
0,141
SOM
SOM-KANGAS
DSSOM
LARFDSSOM
0,717 (2)
0,687 (2)
0,600 (2)
*0,763 (1)
0,693 (2)
*0,732 (2)
0,684 (2)
0,727 (2)
0,551 (9)
0,547 (3)
0,540 (6)
*0,575 (5)
0,559 (2)
0,551 (2)
0,557 (3)
0,580 (1)
*0,776 (11)
0,665 (9)
0,773 (11)
0,737 (10)
0,719 (11)
*0,756 (9)
0,744 (10)
0,719 (8)
0,309 (11)
0,310 (9)
0,308 (12)
*0,317 (9)
0,618
0,607
0,601
*0,631
0,160
0,154
0,157
0,158
GPCA
SSC
0,601 (2)
0,606 (2)
0,503 (2)
0,667 (2)
0,379 (6)
0,486 (2)
0,533 (2)
*0,591 (2)
0,688 (9)
0,244 (11)
0,504
0,547
0,093
0,164
se pode dizer que eles possuem as caractersticas anteriormente descritas para estes tipos de
agrupamentos. Portanto, espera-se que as diferenas entre mtodos de agrupamento clssico e
de agrupamento projetivo ou em subespaos sejam sutis.
A Tabela 7.6 mostra que nenhum dos mtodos comparados, pode ser considerado o melhor
em todos os conjuntos de dados. Na categoria dos mtodos de minerao de dados, PROCLUS
apresentou os melhores resultados em mdia; na categoria de viso computacional, SSC apresentou os melhores resultados em mdia, com valores similares ao do PROCLUS e foi o melhor
mtodo para o conjunto de dados Liver. No entanto, os altos requisitos de memria do GPCA
e do SSC impediram estes mtodos de produzir resultados com os recursos computacionais
disponveis (16GB de RAM), nos conjuntos de dados com maiores quantidades de amostras e
grupos (Pendigits para o SSC; e Pendigits, Shape e Vowel para GPCA).
Considerando todos os mtodos, o LARFDSSOM apresentou os melhores resultados em
mdia, e um teste t com nvel de significncia de 5% mostra que o LARFDSSOM estatisticamente melhor em mdia que PROCLUS e SSC. De fato, todos os mtodos baseados em SOM
apresentaram em mdia bons resultados para as bases de dados avaliadas, em comparao com
os mtodos das outras categorias. A semelhana entre os resultados dos mtodos baseados em
SOM era esperada, uma vez que, nem as dimenses relevantes nem os outliers so conhecidos
para estas bases. Note que na Seo 7.4.3, a Figura 7.2 mostrou que em bases de dados com baixos nveis de rudo estes mtodos apresentam resultados semelhantes. Ou seja, nestas condies
os mtodos propostos se comportam de forma semelhante ao SOM.
Na seo seguinte o DSSOM ser avaliado qualitativamente quanto a sua capacidade em
agrupar percepes do ambiente. Apesar dos resultados obtidos anteriormente favorecerem
o LARFDSSOM em relao ao DSSOM, nesta anlise qualitativa o LARFDSSOM foi posto
de lado e o DSSOM foi preferido por sua capacidade de projetar os agrupamentos em duas
dimenses, facilitando assim a visualizao dos agrupamentos realizados.
174
7.4.6
Experimentos com Percepes do Ambiente Simulado
Para avaliar qualitativamente o emprego dos mtodos propostos no Mdulo de Associao,

foi preparado um caso de estudo, no qual foi simulada uma sesso onde o agente descrito no
Captulo 4 observa e interage com os objetos do ambiente simulado detalhado na Seo 4.2. Para
estes testes foi considerado o tabuleiro exibido na Figura 4.1, incluindo os objetos mostrados. O
agente repete a seguinte sequncia de aes predeterminadas para faz-lo explorar os objetos
presentes no tabuleiro: (1) pega um objeto do tabuleiro, escolhido aleatoriamente; (2) observa
sua prpria mo e cada clula do tabuleiro (incluindo as vazias), processando as percepes
recebidas; (3) solta o objeto em uma posio vazia do tabuleiro escolhida aleatoriamente; e (4)
repete o passo (2) agora sem nenhum o objeto em sua mo, e retorna ao passo (1).
Ao repetir esta sequncia de aes, o agente receber do ambiente um fluxo de percepes,
construdas conforme exposto no Captulo 4. As percepes do ambiente simulado, foram
definidas de forma que sua representao possa ser diretamente correlacionada com os objetos e
propriedades do ambiente, por esse motivo, no h a necessidade da etapa de processamento
realizada pelo Mdulo de Representao. Alm disso, o contexto no ser levado em considerao nesta anlise. Portanto, as percepes do ambiente sero enviadas diretamente para um
mapa DSSOM, composto de uma grade de 13x13 nodos, o qual estar realizando o papel do
Mdulo de Associao.
Ao final de 100 iteraes de explorao do ambiente acompanhado do processamento das
percepes pelo DSSOM, os agrupamentos formados nos nodos da grade foram analisados. O
foco da anlise se concentrou nos agrupamentos das percepes de cor, forma e localizao,
procurando identificar nodos que respondam por conceitos como vermelho, quadrado
e clula A1 e por nodos que respondam por objetos especficos como quadrado azul e
tringulo amarelo.
O mapa perceptivo mostrado na Figura 7.10 ilustra um caso tpico dos agrupamentos
formados pelo DSSOM. O padro de ativao mostrado em nveis de cinza, no fundo da parte
externa de cada retngulo. Este padro foi produzido aps a apresentar nas entradas do mapa
das percepes de um tringulo azul situado na clula E1. Note que a regio em torno do nodo
(1,5) foi a mais ativada, sendo este o nodo vencedor para o padro.
Observando os padres de ativao apresentado pelos nodos do mapa (Figura 7.11 e Figura 7.12) para diferentes percepes, constatam-se regies que reconhecem determinados
conceitos:
175
Figura 7.10 Mapa perceptivo formado pelo agente aps a explorao do ambiente. Cada retngulo
representa um nodo da grade. Os retngulos so desenhados com a informao de cor armazenada nos
nodos. As letras C, F e L representam, respectivamente, as percepes de cor, forma e localizao e o
nvel de branco de cada letra diretamente proporcional relevncia mdia dos atributos relacionados
com a respectiva percepo, e o nvel de cinza do fundo da parte externa de cada retngulo representa o
nvel de ativao do nodo. O ponto branco, nodo (1,5), destaca o vencedor da ltima competio.
Regies Identificadas
(i) Alguns nodos se ativam fortemente para objetos especficos, reconhecendo
simultaneamente forma, cor e tamanho, sendo que para todos os objetos treinados o nodo vencedor codificava a mesma cor, forma e tamanho do objeto
apresentado;
(ii) Alguns nodos se ativam sempre que algumas caractersticas perceptivas so fornecidas, por exemplo, sempre que um objeto de determinada cor apresentado.
Estes nodos em geral apresentam nveis de ativao em mdia mais baixo que
os anteriores;
(iii) Um conjunto de nodos na parte central do mapa criou um padro com ativao
sutil, mapeando as regies do tabuleiro, como centro, parte inferior esquerda,
inferior direita, superior esquerda e superior direita. Esse padro de ativao
permite localizar a percepo apresentada em alguma regio do tabuleiro.
176
(a) Crculo Amarelo em A2
(b) Crculo Verde em A5
(c) Quadrado Amarelo em B4
(d) Quadrado Azul em C5
(e) Tringulo Vermelho em D1
(f) Tringulo Azul em E4
(g) Hexgono Vermelho em C3
(h) Hexgono Verde em B5
Figura 7.11 Padres de ativao formados pelo mapa, ao fornecer como entrada as percepes dos
objetos indicados abaixo de cada figura.
177
(a) Clula vazia em A1
(b) Clula vazia em A5
Figura 7.12 Padres de ativao formados pelo mapa ao fornecer como entrada as percepes de clulas
vazias indicadas abaixo de cada figura.
Ento, uma anlise cuidadosa dos padres de ativao produzidos pelo mapa foi realizada
com diferentes tipos de estmulos. Exemplos destes padres de ativao so exibidos na
Figura 7.11 e na Figura 7.12. Esta anlise permitiu identificar diversas regies nas quais ocorre
o reconhecimento de conceitos (Figura 7.13).
Figura 7.13 Regies de reconhecimento de forma, cor e localizao.
A localizao das clulas do tabuleiro parece ser a caracterstica mais difcil de aprender, pois
as variaes da ativao entre os nodos so sutis. Em geral, o primeiro vencedor da competio
para a percepo de um objeto representa simultaneamente a forma e cor do objeto, segundo e
178
7.5. CONCLUSO
terceiro vencedores representam apenas a forma ou apenas a cor, s a partir de ento os nodos
que representam a localizao do objeto aparecem na lista de vencedores. Isso provavelmente
ocorre devido a pequena quantidade de atributos (2) que so utilizados para representar a posio
das clulas do tabuleiro em relao s demais caractersticas analisadas (3 atributos para cor e 5
atributos para forma). Observa-se ainda uma grande quantidade de nodos representando clulas
vazias do tabuleiro (cor cinza, e forma indefinida).
Uma outra dificuldade do mapa parece ser a juno de regies com reconhecimento semelhante. Por exemplo, diversas regies do tabuleiro reconhecem objetos vermelhos de tipos
diferentes (canto superior direito e na regio central do mapa). Isto provavelmente ocorre devido
a topologia fixa do mapa.
Com isso, pode-se concluir que o DSSOM capaz de encontrar as correlaes entre
percepes de origens distintas para formar conceitos relacionados com propriedades e objetos
do ambiente simulado.
7.5
Concluso
Neste captulo foi apresentado o Mdulo de Associao. O problema de reconhecimento de

conceitos foi definido em termos de agrupamentos em subespaos, e ento, os mtodos de
melhor desempenho na literatura de minerao de dados foram estudados. No entanto, foi
visto que estes mtodos no oferecem diversas caractersticas necessrias para a implementao
do Mdulo de Associao, como a aprendizagem incremental, a produo de prottipos e a
gerao de nveis de ativao. Estas caractersticas esto presentes em alguns dos mapas autoorganizveis apresentados na literatura. Mas, apesar de alguns mapas baseados em SOM terem
sido aplicados com sucesso em problemas de agrupamento, ainda no haviam sido aplicados
para o problema de agrupamento em subespaos, e os testes realizados neste captulo com
os mtodos tradicionais, de fato mostraram que da maneira como foram propostos, no eram
adequados para esta finalidade.
Sendo assim, dois novos mapas foram propostos, o DSSOM e o LARFDSSOM. Ambos
foram capazes de competir e at mesmo superar os mtodos atuais da minerao de dados
e de viso computacional, tanto em conjuntos de dados reais quanto em conjuntos de dados
simulados, apresentando bons resultados mesmo em situaes de alta dimensionalidade ou com
nveis elevados de rudo.
Os resultados obtidos com dados reais sugerem que os mtodos propostos so de aplicao
bastante abrangente, uma caracterstica desejvel para o problema de agrupamento de percepes.
Com relao aos dados simulados, o LARFDSSOM foi capaz de produzir resultados quase
perfeitos para a maioria dos conjuntos de dados. Isto significa, que para estes conjuntos
179
ele identificou corretamente o nmero de grupos e suas respectivas dimenses relevantes. Em

oposio, o DSSOM se mostrou mais robusto presena de dimenses irrelevantes nos conjuntos
de dados.
A dinmica introduzida no LARFDSSOM para encontrar grupos realizada atravs da
insero de nodos quando necessrio, ajustando as suas posies ou removendo os nodos que
no foram capazes de formar um grupo. Esse mecanismo oferece uma forma de aprendizagem
construtiva dos padres do espao de entrada e oferece uma boa relao entre explorao e
explotao do espao de busca. Alm disso, no LARFDSSOM, uma conexo entre dois nodos
significa que eles agrupam padres que residem em subespaos semelhantes das dimenses de
entrada. Porm, esta conexo no leva em conta a distncia entre os nodos no espao de entrada.
Melhorar este aspecto em futuras verses pode levar a uma representao da topologia de dados
ainda mais adequada.
Para efeitos de visualizao de dados, o DSSOM se mostra bastante til, devido possibilidade da utilizao de uma topologia bidimensional fixa. Este caracterstica auxiliou na anlise
do reconhecimento de percepes, permitindo estudar os agrupamentos formados e identificar
como as percepes de origens distintas puderam ser combinadas de diferentes maneiras para
representar conceitos correlacionados com elementos do ambiente.
Ou seja, o DSSOM foi capaz de identificar as propriedades mais relevantes de cada percepo
e agrup-las de maneira adequada. Adicionalmente, o modelo permite que mais de um nodo seja
treinado com um determinado estmulo. Isto cria a possibilidade de mais de um nodo responder
e agrupar uma dada percepo, caso reconheam caractersticas distintas.
Assim sendo, os conceitos aprendidos pelo DSSOM podem permitir que um agente seja
capaz de reconhecer diversos elementos do ambiente tais como posies e objetos, com caractersticas gerais ou especficas.
Apesar de o LARFDSSOM no ter sido avaliado sobre o ponto de vista do agrupamento de
percepes, espera-se que ele apresente resultados ainda melhores quando aplicado para este
fim, uma vez que ele se mostrou superior em praticamente todos os experimentos em que os
dois mtodos propostos foram comparados.
Os padres de ativao e os prottipos armazenados nos nodos vencedores para os estmulos de entrada podem ser ento utilizados como sada do Mdulo de Associao e contm
informao til, a qual pode ser utilizada pelo Mdulo V para representar o ambiente sensoreado.
Porm, os mtodos propostos ainda no foram avaliados considerando-se a informao
lxica e contextual, que so fundamentais para o reconhecimento de linguagem natural. O
Captulo seguinte inteiramente dedicado a esta tarefa. Nele, os Mdulos de I a IV funcionam
de forma integrada com o objetivo de modelar padres de aprendizagem de palavras e associao
com objetos apresentados por humanos.
180
8
Validao do Modelo
Este Captulo descreve experimentos que tem por objetivo validar o modelo proposto como
um todo, avaliando sua capacidade de reproduzir, em alguma extenso, padres de aprendizagem
de palavras observados em experimentos de aprendizagem de palavras com pessoas. Porm, no
estgio atual das pesquisas no esperada uma reproduo exata das taxas de aprendizagem,
pois, ainda existe uma distncia significativa entre o modelo proposto e o alvo de sua modelagem. Apesar disso, espera-se que o modelo apresente padres de aprendizagem similares aos
apresentados por pessoas, de forma que ele possa ser til para levantar e avaliar hipteses sobre
como essa aprendizagem ocorre.
Trs trabalhos da rea de psicolingustica foram utilizados como referncia na avaliao
do modelo. Yu e Smith (2007) foram pioneiros na proposio de experimentos para avaliar
a capacidade de pessoas a aprenderem o significado de palavras em situaes com diferentes
nveis de incerteza nas associaes possveis. Em seus experimentos, vrias palavras so
pronunciadas (rtulos) enquanto os indivduos observam vrias imagens de objetos (referentes).
H uma correspondncia entre rtulos e referentes que se espera que os indivduos sejam
capazes de aprender aps certo nmero de repeties. Este tipo de aprendizagem chamada de
aprendizagem cross-situacional, por confrontar informaes obtidas em diferentes situaes.
Yurovsky et al. (2013) tomaram como base este tipo de experimento estudando situaes
onde alguns rtulos podem estar associados a mais de um referente. Os padres de aprendizagem
dos indivduos, refletidos nas taxas mdias de acerto obtidas por eles neste tipo de experimento
so utilizados para formular hipteses sobre o funcionamento dos mecanismos de aprendizagem
de palavras que esto por trs das habilidades lingusticas das pessoas. Por exemplo, Trueswell
et al. (2013) comparam dois tipos de hipteses para aprendizagem de palavras, uma em que
mltiplos significados podem ser armazenados para cada palavra, e outro em que apenas um
significado possvel armazenado.
Nestes trs trabalhos, diversos padres de aprendizagem so levantados, fornecendo evidn-
181
CAPTULO 8. VALIDAO DO MODELO
cias slidas sobre o funcionamento dos mecanismos de aprendizagem de palavras. Qualquer

modelo que procure representar o funcionamento destes mecanismos de aprendizagem precisa
ser capaz de reproduzir em alguma extenso os resultados dos experimentos anteriormente
descritos.
As simulaes apresentadas da Seo 8.1 at a Seo 8.4 explicam os experimentos mais
importantes de cada um destes trs artigos, e apresentam simulaes com o modelo proposto
dos experimentos mais importantes destes trabalhos. Os resultados obtidos so utilizados para
avaliar o quo bem o modelo proposto representa as capacidades de aprendizagem de palavras
dos indivduos estudados.
Para estas simulaes, os parmetros de cada mdulo foram ajustados de forma a obter
resultados semelhantes, em todos os experimentos simultaneamente, ou seja, este conjunto de
parmetros reduz o erro obtido entre os resultados simulados e os resultados reais. O ajuste
destes parmetros foi feito por Amostragem em Hipercubo Latino (Saltelli et al., 2009) e o
melhor conjunto obtido apresentado na Tabela 8.1.
Em seguida, na Seo 8.5, o modelo com o conjunto de parmetros ajustado utilizado para
uma ltima simulao, que tem por objetivo cobrir uma parte do modelo que no foi avaliada nos
experimentos anteriores: o Mdulo de Contexto e seu papel de permitir a recuperao correta do
significado de uma palavra em cada contexto, quando houver mais de um significado possvel.
Para isso, primeiramente proposto um design experimental para avaliar esta capacidade em
indivduos, uma vez que no foi encontrado na literatura nenhum trabalho com este objetivo.
Em seguida, so apresentados os resultados obtidos nas simulaes deste experimento com o
modelo proposto.
Por fim, a Seo 8.6 apresenta as concluses deste captulo, consolidando as informaes
das sees anteriores em uma avaliao final do modelo.
182
Tabela 8.1 Parmetros dos modelos obtidos aps o ajuste.

Parmetro
valor
Mdulo de Representao (percepes visuais) - LARFDSSOM

Limiar de atividade (at )
Tamanho mnimo de um grupo (l p)
Taxa da relevncia ( )
Mximo de competies (maxcomp)
Taxa de aprendizagem do vencedor (eb )
Taxa de aprendizagem dos vizinhos (en )
Suavidade da relevncia (s)
Limiar de conexo (c)
0,985
0,15%
0,10
0,021S
5 104
12 106 eb
0,007581760
0,5
Mdulo de Representao (percepes auditivas) - LARFDSSOM

Tamanho mnimo de um grupo (l p)
0,935
0,001%
0,1
2S
0,1
14 106 eb
0,00394
0,5
Mdulo de Contexto - ART2 com Contexto

Peso fixo em F1 (a)
Peso fixo em F1 (b)
Peso da condio de reset (c)
Atividade da unidade vencedora em F2 (d)
Parmetro para evitar diviso por zero (e)
Parmetro de supresso de rudo ( )
Parmetro de vigilncia ()
Nmero de pocas (nbrE pochs)
Nmero de iteraes (nbrIterations)
Taxa de retro propagao do contexto (back)
Influncia do contexto sobre o mecanismo de reset (contextWeight)
Atividade da unidade vencedora em F2 para o contexto (dcontext )
Taxa de aprendizagem contexto (context )
10
10
0,1
0,9
0,0001
0,0739221
0,8
0,999
1
1
0,9
0,0002
0,9
0,8
Mdulo de Associao - LARFDSSOM

Porcentagem do menor cluster (l p)
0,999
17,5211%
0,870879
10000
0,465091
0,0134102eb
1,31357
0,986745
183
8.1
Aprendizagem Cross-Situacional de Palavras
Uma das possveis solues para tratar o problema descrito por Quine (1960), ou seja, identificar corretamente e aprender os referentes pretendidos por um interlocutor, consistem na
aprendizagem cross-situacional de palavras. Neste tipo de aprendizagem, as palavras no seriam
aprendidas em uma nica exposio, mas utilizando informao de mltiplas situaes onde
ocorrem ensaios de aprendizagem. Sendo assim, um aprendiz que seja incapaz de decidir
sem ambiguidade o referente de uma rtulo em apenas um ensaio, pode armazenar possveis
mapeamentos que sero futuramente reforados ou enfraquecidos por novas evidncias.
Yu e Smith (2007) apresentaram um design experimental para avaliar de forma sistemtica a
capacidade de pessoas de aprender palavras apenas com informao cross-situacional. Neste
tipo de experimento, adultos so expostos a uma sequncia de eventos de aprendizagem onde
so apresentadas simultaneamente mltiplas palavras faladas e mltiplas figuras de objetos
individuais, mas no fornecida nenhuma informao sobre os mapeamentos corretos entre palavras e figuras. O desempenho notvel1 dos indivduos nas diversas condies de aprendizagem
testadas sugere que eles calculam estatsticas cross-teste com preciso suficiente para aprender
rapidamente pares rtulo-referente, mesmo em contextos de aprendizagem ambguos. Nas
sesses seguintes sero apresentados os experimentos realizados com pessoas, e os resultados
destes experimentos sero comparados com os obtidos com o modelo proposto.
8.2
Aprendizagem de Palavras sob Situao de Incerteza Experimento 1
Em Yu e Smith (2007) a capacidade de aprendizagem cross-situacional de trinta e oito graduandos foi avaliada. Os estmulos fornecidos foram slides contendo figuras de objetos incomuns
pareados com pseudopalavras apresentadas de forma auditiva. Estas palavras artificiais foram
geradas por um programa de computador utilizando fonemas comuns no idioma ingls, lngua
nativa dos participantes. No caso, haviam 54 pares rtulo-referente formados por pseudopalavras
nicas e objetos nicos, escolhidos aleatoriamente e separados em trs grupos de 18 pares,
utilizados em trs condies de treinamento distintas.
As trs condies de treinamento diferenciam-se no nmero de rtulos e referentes apresentados aos indivduos em cada ensaio. Na condio 2 x 2, em cada ensaio foram apresentadas
1 Smith
et al. (2009) apontam que os resultados de Yu e Smith (2007) superestimam as capacidades de acerto
dos indivduos devido a aprendizagem cross-situacional e prope um paradigma experimental mais preciso. Porm,
este novo paradigma no tem sido considerado amplamente na literatura, sendo o paradigma de Yu e Smith (2007)
mais frequentemente utilizado.
184
8.2. APRENDIZAGEM DE PALAVRAS SOB SITUAO DE INCERTEZA - EXPERIMENTO 1
dois rtulos e duas figuras. Na condio 3 x 3, em cada ensaio foram apresentadas trs rtulos e
trs figuras e, finalmente, na condio 4 x 4, foram apresentadas quatro rtulos e quatro figuras
em cada ensaio. Durante os ensaios no havia qualquer indicao de qual palavra representava
cada figura. Cada ensaio se iniciou com a apresentao simultnea de referentes dispostos na
tela de um monitor de computador, e ento as palavras que nomeavam os referentes exibidos
eram apresentadas atravs dos alto-falantes do computador. importante ressaltar que a ordem
temporal das palavras pronunciadas no estava relacionada com a posio espacial dos referentes.
A Figura 8.1 ilustra um ensaio na condio 4 x 4.
Figura 8.1 Ilustrao de um ensaio na condio 4 x 4. No exemplo so exibidos quatro objetos

(referentes) no monitor e simultaneamente so pronunciadas quatro pseudopalavras (rtulos).
Para formar cada ensaio, os 2, 3 ou 4 pares, de acordo com o tipo de condio, foram
selecionados aleatoriamente, sem repetio, e ao longo dos ensaios cada par foi apresentado
exatamente seis vezes. No entanto, devido multiplicidade de referentes e palavras apresentadas
(ambiguidade), em cada ensaio havia incerteza sobre os mapeamentos corretos, tornando a
aprendizagem mais difcil. Mais especificamente, em mdia cada palavra ocorreu simultaneamente com 5,09 referentes incorretos na condio 2 x 2, 8,76 na condio 3 x 3 e 12,22 na
185
condio 4 x 4. O nmero total de ensaios variou entre as condies para manter constante o
nmero de repeties de cada palavra nica, bem como o tempo total do experimento, sendo
portanto, 54, 36 e 27 ensaios para as condies, 2 x 2, 3 x 3 e 4 x 4 respectivamente.
Antes de iniciar o experimento, cada participante foi informado que sua tarefa era aprender
palavras e referentes, mas no foram ditos que havia apenas um referente por palavra. Ao
final de todos os ensaios de aprendizagem, os participantes foram testados apresentando uma
palavra e quatro figuras, sendo uma figura a correta e outras trs sendo distraidores escolhidas
aleatoriamente. Cada indivduo foi ento solicitado a informar qual era a figura nomeada pela
palavra apresentada. Este teste foi repetido para cada uma das 18 palavras treinadas.
8.2.1
Simulaes do Experimento 1
Para simular os estmulos fornecidos para os participantes dos experimentos de Yu e Smith

(2007), foram utilizadas 18 palavras de objetos encontrados em casa (bed, chair, bowl, fork,
door, canister, clock, computer, desk, refrigerator, sofa, cooker, spoon, telephone, knife, armoire,
cup e dresser). Alm disso, 18 imagens de objetos referentes a cada uma das palavras foram
obtidas a partir do Google Imagens .
A Figura 8.2 ilustra os mtodos utilizados em cada mdulo, bem como a sequencia de passos
de processamento do modelo completo. A representao percepes das palavras e das imagens
foi construda pelo Mdulo de Mapeamento Sensrio-Perceptivo, de acordo com o esquema
descrito no Captulo 4.
No Mdulo de Representao foi utilizado o LARFDSSOM em lugar do SOM para gerar os
codebooks, pois, conforme visto no Captulo 7, este se sai melhor no agrupamento dos dados
de alta dimensionalidade, onde provvel que haja dimenses irrelevantes. Os mapas foram
inicializados com apenas um nodo de sada posicionado de maneira aleatria.
Os mapas do Mdulo de Representao foram treinados previamente, formando 28 agrupamentos no codebook da representao auditiva, e 37 agrupamentos no codebook da representao
visual. O treinamento prvio destes mapas simula o conhecimento prvio que os indivduos
testados possuem da estrutura fontica de seu idioma nativo e dos elementos perceptivos bsicos
para o reconhecimento de imagens de objetos.
O Mdulo de Contexto foi implementado com o ART2 com Contexto, conforme descrito no
Captulo 6. E o Mdulo de Associao foi implementado utilizando o LARFDSSOM, tambm
inicializado com apenas um nodo de sada posicionado de maneira aleatria. Os parmetros dos
modelos so os mesmos exibidos na Tabela 8.1.
Cada novo estmulo decomposto em suas percepes pelo Mdulo de Mapeamento
Sensrio-Perceptivo, e estas percepes so enviadas para o Mdulo de Representao, que por
186
Nveis de atividade
LARFDSSOM - Associao
D - Associao
ART2 com Contexto
C - Contexto
B - Representao
LARFDSSOM - Palavras
LARFDSSOM - Imagens
4 fonemas
...
12 caractersticas
por fonema
...
...
...
...
A - Percepo
Detector de pontos de interesse Hessian Affine
Representao
fontica
chair fork
/k /or /f /ar
/e
/ch
Figura 8.2 Ilustrao das etapas de processamento executadas nos experimentos de associao. A aquisio das percepes; B - composio da representao; C - criao e reconhecimento do contexto; e
D - associao e reconhecimento dependente do contexto.
sua vez computa os histogramas das informaes auditivas e visuais.

Os histogramas normalizados so ento enviados para o Mdulo de Contexto que, por sua
vez, constri o contexto atual e o associa com cada entrada nova, ou atualiza o contexto associado
com entradas vistas anteriormente. Em seguida, as sadas do Mdulo de Contexto, incluindo
suas entradas, inalteradas, e o contexto associado ao prottipo vencedor, so fornecidas para o
Mdulo de Associao.
O Mdulo de Associao, ir ento criar nodos representando os novos estmulos recebidos
ou atualizar os nodos previamente criados quando a informao armazenada no nodo vencedor
for considerada suficientemente semelhante informao de entrada. Cada nodo representa
ento um par de associao rtulo-referente alm da informao do contexto no qual essa
associao foi observada. A sada do Mdulo de Associao o nvel de ativao do nodo
vencedor.
Buscando fazer uma representao o mais fidedigna possvel da maneira como os indivduos
recebem os estmulos, foi desenvolvido um procedimento para construir as entradas para o
modelo. Uma vez que, nos experimentos cross-situacionais, os estmulos auditivos, ou seja,
187
as palavras, foram fornecidas em sequncia, apenas uma vez em cada ensaio, foi criada uma
representao auditiva nica para cada ensaio, encadeando-se a representao da sequncia de
fonemas das palavras apresentadas.
Por exemplo, supondo que as quatro palavras do ensaio sejam bed, chair, bowl e fork, ento
formada uma representao nica da sequncia de fonemas da frase bed chair bowl fork,
ou seja, /b e d t S e @ b @ U f O k/. Por outro lado, os indivduos podiam olhar para cada
uma das imagens, observando-as individualmente. Alm disso, j que no h correlao entre
as imagens, elas fazem mais sentido quando observadas individualmente. Sendo assim, cada
imagem foi representada de maneira individual. E ento o estmulo de entrada completo (visual
e auditivo) foi construdo combinando o estmulo auditivo com cada um dos estmulos visuais.
Dessa forma, em cada ensaio da condio 2 x 2 foram fornecidas duas entradas para o modelo
uma combinando o estmulo auditivo composto com a primeira imagem e outra combinando-o
com a segunda imagem. De maneira anloga, em cada ensaio da condio 3 x 3 foram fornecidas
trs entradas para o modelo, e em cada ensaio da condio 4 x 4 foram fornecidos 4 entradas
para o modelo, sempre combinado o estmulo auditivo com cada uma das imagens a serem
apresentadas.
Aps realizados todos os ensaios, o modelo foi testado de forma anloga ao que foi feito
no experimento de Yu e Smith (2007), ou seja, foi apresentada uma palavra e quatro figuras,
sendo uma figura a correta e outras trs sendo distraidores escolhidas aleatoriamente. Os
estmulos para os testes foram construdos da mesma maneira que durante o treinamento, a
nica diferena que aqui h apenas uma palavra, a qual foi combinada com cada uma das
imagens dos objetos para formar as entradas de teste para o modelo. Para identificar qual dos
quatro pares rtulo-referente o modelo considerou como sendo o correto, cada um deles foi
apresentado como entrada para o modelo em sequncia aleatria, e o nvel de atividade do nodo
vencedor no Mdulo de Associao foi registrado. Ento, o par que produziu o maior nvel de
atividade dentre os quatro, o par considerado correto pelo modelo, pois o que representa a
associao mais forte, e portanto, um acerto registrado para o modelo caso o par que produziu
a maior ativao seja o que contm o objeto correto.
O modelo foi treinado e testado 38 vezes com inicializaes aleatrias, representando os
38 indivduos. Os resultados obtidos nas simulaes so apresentados a seguir em comparao
com os resultados apresentados por Yu e Smith (2007).
8.2.2
Resultados do Experimento 1
A Figura 8.3 mostra que em todas as condies, os indivduos acertaram significativamente mais
pares (0, 889 0, 07, na condio 2 x 2, 0, 778 0, 10, na condio 3 x 3 e 0, 556 0, 00) do
188
que acertariam se respondessem ao acaso (1/4 = 0,25, pela probabilidade a priori). Mesmo na
condio mais difcil (4 x 4), com 16 possveis associaes por ensaio, os indivduos acertaram
em mdia 10 dos 18 pares rtulo-referente (0,55). Alm disso, os resultados mostram claramente
que o aumento do nvel de incerteza dentro dos ensaios certamente afeta negativamente na
aprendizagem. Isto pode ser confirmado comparando a mdia das condies 2 x 2 com a da
condio 4 x 4 por meio de um teste t de Student com nvel de significncia de 1%.
Figura 8.3 Resultados do experimento de Yu e Smith (2007) em comparao com os resultados das
simulaes com o modelo. As barras de erro mostram o desvio padro amostral. A linha tracejada
horizontal indica a probabilidade de acerto ao acaso.
Apesar de haver diferenas visveis, concluses anlogas podem ser obtidas com relao aos
resultados das simulaes (0, 778 0, 044, na condio 2 x 2, 0, 700 0, 061, na condio 3 x 3
e 0, 567 0, 084, na condio 4 x 4). A diferena mais importante observada na condio 2 x
2, na qual o modelo aprende cerca de 78% dos pares enquanto que os indivduos foram capazes
de aprender cerca de 89% dos pares. Alm disso, o aumento dos nveis de incerteza nos ensaios
parece afetar menos o modelo do que os indivduos. Ainda assim, aplicando o mesmo teste
estatstico para compara a condio 2 x 2 com a condio 4 x 4 a hiptese de que as mdias
sejam iguais rejeitada com nvel de significncia de 1%. Portanto, pode-se dizer que o padro
exibido pelo modelo se mostra compatvel em termos gerais com o que foi observado com os
indivduos.
189
8.3
Processos Competitivos na Aprendizagem

Cross-Situacional de Palavras
Na aprendizagem de palavras, conjectura-se que ocorre competio entre as possveis associaes para determinar qual ser aprendida. Mecanismos competitivos poderiam tornar mais
evidente a separao sinal de rudo nas entradas, o que ajudaria a explicar a alta velocidade com
que os indivduos aprendem as associaes.
No mbito dos experimentos de aprendizagem cross-situacional, essa competio pode
ocorrer entre os referentes de um mesmo ensaio (local) ou entre referentes de ensaios distintos
(global). Se for verdade que essa competio ocorre, ento aprender associaes de palavras
com mais de um referente deve ser mais difcil do que aprender a associao de uma palavra
com apenas um referente, ou seja, se a competio local, os mapeamentos rtulo-referente
competem dentro de um nico ensaio (ou em um intervalo de tempo restrito), e cada referente
de uma palavra com significado duplo deve inibir diretamente o aprendizado de outro referente
dentro do mesmo ensaio. Se a competio global, ento o acmulo de informaes sobre
um dos referentes de uma palavra em um ensaio deve inibir o acmulo informaes sobre essa
mesma palavra e seu outro referente em ensaios posteriores.
Os experimentos propostos por Yurovsky et al. (2013), descritos a seguir, buscam avaliar
se ocorre competio, e se a mesma local ou global, testando a capacidade de indivduos em
aprender mapeamentos com mais de um referente. Para isso, os autores utilizam de experimentos
cross-situacionais que seguem o paradigma experimental proposto por Yu e Smith (2007).
8.3.1
Aprendizagem de Palavras com mais de um Referente Experimento 2
No primeiro experimento realizado por Yurovsky et al. (2013), 48 graduandos tiveram suas
capacidades de aprendizagem de pares rtulo-referente avaliadas. Neste experimento, tambm
foram utilizados 18 pares, porm eles foram divididos em seis palavras com apenas um referente
(associao nica), seis palavras com dois referentes (associao dupla) e mais seis palavras
sem nenhum referente (rudo).
As palavras de associao nica cumprem o mesmo papel daquelas do experimento anterior,
sempre co-ocorrendo com o seu referente em cada ensaio. J as palavras de associao dupla,
co-ocorrem com ambos seus referentes em cada ensaio. Uma vez que, tanto as palavras nicas
quanto as duplas co-ocorrem seis vezes com seus referentes, o total de co-ocorrncias o
mesmo para ambos os tipos de palavras. Por fim, as palavras rudo co-ocorrem com frequncia
aproximadamente igual para todos os referentes, e portanto, no so mapeadas de maneira
190
8.3. PROCESSOS COMPETITIVOS NA APRENDIZAGEM CROSS-SITUACIONAL DE

PALAVRAS
consistente para nenhum referente. Seu papel aqui o de produzir um nmero igual de palavras
e referentes em cada ensaio, evitando que os participantes percebam de imediato que havia
mapeamentos que no so de um para um.
Cada ensaio consiste na apresentao de quatro palavras e quatro referentes (condio 4
x 4), sendo que a palavra que era o rtulo correto de cada um dos referentes sempre estava
presente. Dois dos ensaios foram montados com quatro palavras nicas; 14 dos ensaios foram
compostos por duas palavras nicas, uma palavra dupla e uma palavra rudo; e 11 dos ensaios
foram compostos por duas palavras duplas e duas palavras rudo, totalizando ento 27 ensaios
(Figura 8.4). Assim, embora em todos os ensaios sempre houvesse quatro palavras e quatro
referentes, a estrutura interna de mapeamento variou consideravelmente entre os ensaios, e
raramente consistiu de mapeamentos um para um (em apenas 2 dos 27 ensaios).
Figura 8.4 Estrutura do Experimento 2. Em cada ensaio, os participantes encontraram quatro palavras e
quatro referentes, mas o nmero de mapeamentos corretos para cada palavra varia dependendo do tipo
de palavra. As letras minsculas indicam palavras e as letras maisculas indicam referentes. Palavras
nicas possuem um mapeamento correto por ensaio (ex.: b-B e c-C), palavras duplas possuem dois
mapeamentos corretos por ensaio (ex.: a-A1 e a-A2, f-F1 e f-F2) e palavras rudo no so mapeadas para
nenhum referente (ex.: d e g). Palavras nicas e seus referentes esto em preto, palavras duplas e seus
referentes em branco, e as palavras rudo em cinza.
Aps a apresentao dos ensaios, a aprendizagem de cada participante foi avaliada de

maneira anloga aos testes do experimento de Yu e Smith (2007), ou seja, a palavra testada
era apresentada juntamente com o seu referente, no caso de palavras nicas, ou com ambos os
seus referentes no caso de palavras duplas, e os demais referentes foram escolhidos de forma
aleatria em quantidade suficiente para totalizar quatro referentes em cada teste.
Durante os testes os indivduos foram solicitados a ranquear os quatro objetos, do mais
provvel de ser o significado da palavra ouvida para o menos provvel. Para computar os
acertos, no caso de ensaios de teste de palavras nicas, um acerto nico computado quando o
indivduo ranqueia o referente correto em primeiro lugar. No caso de palavras duplas, dois tipos
de acertos so considerados: acertos duplos ocorrem quando ambos os referentes corretos so
classificados nas duas primeiras posies do ranque, e acertos um ou outro ocorrem quando
191
um dos referentes corretos classificado na primeira posio do ranque e o outro referente no

colocado na segunda posio do ranque.
8.3.2
Simulao do Experimento 2
Para simular os estmulos fornecidos para os participantes do segundo experimento, foram

utilizadas 18 palavras de objetos encontrados em casa. As seis palavras nicas utilizadas foram:
bed, chair, bowl, fork, door e canister e seis imagens de objetos, referentes destas palavras,
foram obtidas a partir do Google Imagens . As seis palavras duplas foram: clock, computer,
desk, refrigerator, sofa e cooker, e 12 imagens foram obtidas tambm no Google Imagens ,
seis imagens de objetos referindo-se as palavras da lista e mais seis imagens de outros objetos:
goblet, mat, mixer, crib, blender e shaker. Estas imagens foram utilizadas como sendo o segundo
sentido associado s palavras duplas. Por fim, as seis palavras rudo utilizadas foram: spoon,
telephone, knife, armoire, cup e dresser, as quais no esto associadas a nenhuma imagem.
A metodologia utilizada para gerar os estmulos de entrada para o modelo, tanto no treinamento quanto nos testes, foi rigorosamente a mesma do Experimento 1 na condio 4 x 4, ou
seja, as quatro palavras foram compostas em um estmulo auditivo e o qual foi combinado com
cada uma das quatro imagens, formando quatro estmulos por ensaio. No entanto, as quantidades
de palavras nicas, duplas e rudo utilizadas nos ensaios foram as mesmas do experimento de
Yurovsky et al. (2013).
Em cada ensaio de teste, cada um dos quatro estmulos foi apresentado como entrada
para o modelo em sequncia aleatria, e o nvel de atividade do nodo vencedor no Mdulo
de Associao foi registrado. Ento, os pares foram ranqueados de acordo com o nvel de
atividade por eles produzido. No caso do teste de palavras nicas, assim como no experimento
original, um acerto nico computado, caso o par que provocou o maior nvel de atividade seja
o que contm o referente correto. No caso de palavras duplas, os dois tipos de acertos foram
computados da seguinte maneira: acertos duplos ocorrem quando ambos os pares contendo
os referentes corretos produziram os dois maiores nveis de ativao, e acertos um ou outro
ocorrem quando um dos pares com referentes corretos produziu o maior nvel de atividade e o
outro par com referente correto no produziu o segundo maior nvel de atividade.
O modelo foi treinado e testado 48 vezes com inicializaes aleatrias, representando os
48 indivduos presentes no experimento original. Os resultados obtidos nas simulaes so
mostrados a seguir em comparao com os resultados apresentados pelos autores.
192

PALAVRAS
8.3.3
Nos resultados apresentados por Yurovsky et al. (2013), reproduzidos no comparativo da

Figura 8.5, os participantes mostraram taxas de acerto dos referentes de palavras nicas significativamente maiores do que ao acaso (0, 454 0, 264 > 0, 25). No caso de palavras duplas, os
participantes acertaram mais do que fariam ao acaso tanto um (0, 698 0, 210 > 0, 5) quanto
os dois referentes (0, 301 0, 146 > 0, 17). Estas diferenas foram confirmadas com testes t
com nvel de significncia de 1%, o que demonstra que os indivduos possuam conhecimento
significativo tanto dos mapeamentos um para um, quanto dos mapeamentos um para dois.
Figura 8.5 Resultados do primeiro experimento de Yurovsky et al. (2013) em comparao com os
resultados das simulaes com o modelo no Experimento 2. As linhas tracejadas indicam a probabilidade
de acerto ao acaso. Para manter o padro do trabalho original, neste experimento,
as barras de erro
mostram o erro padro (SE), e no o desvio padro (SD), onde: SE = SD/ nmero de amostras.
No entanto, os participantes apresentaram maior dificuldade em aprender os dois referentes

das palavras duplas do que o referente das palavras nicas, o que foi confirmado em um teste
t de Student com nvel de significncia de 1%, ou seja, no experimento, dois mapeamentos
compostos de uma nica palavra e dois referenciais diferentes no agem como dois mapeamentos
independentes (duas palavras e dois referentes diferentes). Isto significa que h competio de
algum tipo.
Novamente, apesar das diferenas visuais, as mesmas concluses podem ser obtidas
considerando os resultados das simulaes, ou seja, o modelo tambm apresenta taxas de
acerto do tipo nica (0, 372 0, 126 > 0, 25), um ou outro (0, 622 0, 169 > 0, 5) e dupla
(0, 278 0, 135 > 0, 17) significativamente maiores do que ao acaso. Alm disso, o modelo
tambm apresentou maior dificuldade em aprender os dois referentes das palavras duplas do
que o referente das palavras nicas. Todas estas diferenas tambm foram confirmadas com
testes t com nvel de significncia de 1%.
193
Este experimento, portanto, fornece evidncias de que ocorre competio na aprendizagem

cross-situacional de palavras. Mas no possvel determinar o tipo de competio, local ou
global. Ambos os referentes corretos de cada palavra dupla foram apresentados em cada ensaio,
e, assim, eles poderiam ter inibido diretamente uns aos outros atravs da competio local.
Por outro lado, as informaes de co-ocorrncia armazenadas em ensaios anteriores podem ter
inibido a aprendizagem dos novos referentes de palavras duplas em ensaios posteriores, atravs
da competio global.
8.3.4
Competio Local vs Competio Global - Experimento 3
Para tratar da diferenciao dentre os dois tipos de competio, neste experimento de Yurovsky
et al. (2013) os participantes foram expostos a apenas um dos referentes corretos de cada palavra
dupla em cada ensaio, apesar de, ao final de todos os ensaios terem sido expostos a ambos
os referentes mesma quantidade de vezes. Se a competio opera apenas no nvel local, os
participantes deste experimento devem ser capazes de aprender ambos os referentes de cada
palavra dupla to bem quanto o referente de cada palavra nica. Por outro lado, se houver
competio em nvel global, a aprendizagem de palavras duplas deve ser prejudicada novamente,
assim como no Experimento 2.
Para este experimento foram escolhidos 48 graduandos que no haviam participado de outros
experimentos cross-situacionais. Os estmulos fornecidos foram similares aos do Experimento
2, no caso, 12 palavras e 18 objetos do experimento anterior foram utilizados, dentre as quais,
seis palavras nicas e seis palavras duplas (Figura 8.6).
Figura 8.6 Estrutura do Experimento 3. Em contraste com o Experimento 2, os dois referentes de cada
palavra dupla no aparecem simultaneamente, mas esto distribudos em diferentes ensaios durante todo
o treinamento. A frequncia de exposio de cada de referente correto a mesma. Palavras nicas e seus
referentes esto em preto; palavras duplas e seus referentes esto em branco. No houve palavras rudo
no Experimento 3. As letras minsculas indicam palavras e letras maisculas indicam referentes.
Os ensaios foram construdos tambm na condio 4 x 4, com cada palavra nica aparecendo
seis vezes e cada palavra dupla aparecendo 12 vezes, seis com cada um de seis referentes corretos,
194

PALAVRAS
e totalizando novamente 27 ensaios. Neste experimento no foi necessrio utilizar palavras

rudo, pois cada ensaio foi composto de duas palavras nicas e duas palavras duplas, com seus
respectivos referentes sempre presentes. Os ensaios de teste foram construdos de maneira
anloga aos do Experimento 3, ou seja, ranqueamento dos quatro referentes.
8.3.5
Para simular os estmulos fornecidos para os participantes do terceiro experimento, foram

utilizadas as mesmas 18 palavras nicas e duplas do Experimento 2, lembrando que as palavras
rudo no foram utilizadas. A metodologia utilizada para gerar e apresentar os estmulos de
entrada para o modelo tambm foi mantida.
Novamente, o modelo foi treinado e testado 48 vezes com inicializaes aleatrias, representando os 48 indivduos presentes no experimento original. Os resultados obtidos nas
simulaes so apresentados a seguir em comparao com os resultados obtidos pelos autores
do experimento.
8.3.6
Os resultados de Yurovsky et al. (2013) para o Experimento 3, reproduzidos no comparativo da

Figura 8.7, mostram novamente que os participantes foram capazes de acertar palavras nicas
mais do que fariam ao acaso (0, 400 0, 247 > 0, 25), e novamente aprenderam no apenas um
(0, 580 0, 277 > 0, 5) mas ambos os referentes das palavras duplas (0, 240 0, 203 > 0, 17).
Assim como no Experimento 2, os participantes apresentaram maior dificuldade em aprender
ambos os referentes das palavras duplas do que de aprender o referente das palavras nicas (teste
t de Student com nvel de significncia de 1%). Este resultado sugere que ocorre competio
entre ensaios, ou seja, sugere competio global.
Tambm aqui, as simulaes com o modelo apresentam resultados anlogos, ou seja o
modelo apresentou novamente maior dificuldade em aprender ambos os referentes das palavras
duplas do que de aprender o referente das palavras nicas, alm de taxas de acerto do tipo nica
(0, 478 0, 115 > 0, 25), um ou outro (0, 594 0, 142 > 0, 5) e dupla (0, 367 0, 101 > 0, 17)
significativamente maiores do que ao acaso, confirmados com teste t de Student com nvel de
significncia de 1%.
8.3.7
Competio Global - Experimento 4
Se a competio global ocorre de forma on-line, em cada tentativa de cada ensaio, ento, a
ordem em que os participantes so expostos aos dois referentes para cada palavra dupla deve
195
Figura 8.7 Resultados do segundo experimento de Yurovsky et al. (2013) em comparao com os
resultados das simulaes com o modelo no Experimento 3. As linhas tracejadas indicam a probabilidade
de acerto ao acaso. As barras de erro mostram o erro padro.
importar, criando diferenas na aprendizagem dos referentes que foram vistos primeiro em
comparao com os referentes que foram vistos depois. Por outro lado, se a competio global
opera atravs de uma espcie de processamento em lote, ao final da aprendizagem ou durante os
testes, ento a ordem de aprendizagem no devem ser relevante.
Assim, ambas as hipteses sobre a competio global preveem que palavras duplas sofrero
um decrscimo em relao a palavras nicas, conforme observado nos Experimentos 2 e 3. A
questo-chave se esse decrscimo maior para o segundo referente aprendido (um resultado
que implica julgamento competio global) ou mais ou menos equivalente (um resultado que
implica em competio lote).
Para avaliar estas hipteses, Yurovsky et al. (2013) organizaram este experimento da mesma
forma que o Experimento 3, com a exceo de que desta vez, um dos referentes ir co-ocorrer
com sua palavra dupla nas primeiras seis apresentaes, s ento o outro referente ir co-ocorrer
com a palavra dupla nas seis apresentaes posteriores. Note que a quantidade de apresentaes
de cada referente com cada palavra dupla a mesma que no experimento anterior, apenas a
ordem de apresentao foi modificada (Figura 8.8).
Aqui outra vez, 48 graduandos que nunca haviam participado de experimentos crosssituacionais foram selecionados para estes experimentos.
8.3.8
Nas simulaes do Experimento 4 foram utilizadas as mesmas palavras e referentes do Experimento 3, e a metodologia utilizada para gerar os estmulos de entrada para o modelo no
treinamento e nos testes, bem como a maneira como os resultados foram computados foi a
mesma do Experimento 3. A nica modificao foi na ordem de apresentao dos ensaios. Esta
196

PALAVRAS
Figura 8.8 Estrutura do Experimento 4. Em contraste com o Experimento 3, os dois referentes de cada
palavra dupla (chamados de anterior e posterior) foram separados ao longo do treinamento. As seis
primeiras ocorrncias de uma palavra dupla foram com seu referente anterior, e as prximas seis com seu
referente posterior. Palavras nicas e seus referentes esto em preto; palavras duplas e seus referentes
esto em branco. As letras minsculas indicam palavras e letras maisculas indicam referentes.
modificao foi feita escolhendo-se aleatoriamente um dos referentes de cada palavra dupla
para ser apresentado por ltimo. Ento, todos os ensaios contendo este referente foram movidos
para o final da lista de ensaios.
8.3.9
Assim como nos experimentos anteriores, a aprendizagem dos mapeamentos rtulo-referente

foi avaliada atravs do ranqueamento dos quatro alternativas. O conjunto de quatro referentes
alternativos para cada palavra foi construdo de forma idntica ao Experimento 3. Figura 8.9
mostra os resultados obtidos.
Figura 8.9 Resultados da primeira etapa do terceiro experimento de Yurovsky et al. (2013) em comparao com os resultados das simulaes com o modelo no Experimento 4a. As linhas tracejadas indicam a
probabilidade de acerto ao acaso. As barras de erro mostram o erro padro.
No geral, as taxas de aprendizagem de palavras nicas (0, 450 0, 300 > 0, 25) e duplas
197
(0, 730 0, 240 > 0, 5) foram semelhantes s obtidas nos experimentos anteriores. No entanto,
os participantes no apresentaram dificuldade significativamente maior em aprender ambos
referentes de palavras duplas (0, 400 0, 300 > 0, 17) do que eles tiveram para aprender o
referente das palavras nicas, uma vez que a hiptese de igualdade de mdias entre estes
dois tipos de acerto no pode ser rejeitada no teste t de Student. Assim, em contraste com
experimentos anteriores, os resultados no mostram evidncia direta de competio.
Nas simulaes, as taxas de aprendizagem de palavras nicas (0, 500 0, 146 > 0, 25) e
duplas (0, 6500, 139 > 0, 5) tambm foram semelhantes s obtidas nos experimentos anteriores.
Alm disso, diferentemente do que foi observado com os indivduos, o modelo continuou
mostrando maior dificuldade em aprender ambos referentes de palavras duplas (0, 2830, 129 >
0, 17) do que em aprender o referente das palavras nicas, ou seja, se verifica ocorrncia de
competio nos resultados das simulaes (resultados confirmados com teste t de Student com
nvel de significncia de 1%).
Segundo Yurovsky et al. (2013), uma explicao provvel para estes resultados que
a competio local contraps os efeitos da competio global dos referentes previamente
aprendidos. Por causa da falta de ambiguidade nesta associao dupla, a competio local pode
ter permitido que os participantes a adquirissem muito mais informaes sobre os mapeamentos
corretos, fazendo com que as palavras duplas se comportassem como palavras nicas na
primeira metade do treinamento. Ento, se por um lado isto pode ter inibido a aprendizagem
dos segundos referentes das palavras duplas, por outro lado a informao j adquirida auxiliou
na aprendizagem de outros referentes por competio local. Por outro lado, o modelo parece
no ter se beneficiado significativamente da competio local, de forma que a ocorrncia da
competio global permaneceu evidente nos resultados das simulaes.
Porm, o fator ordem ainda precisa ser analisado, tanto para os indivduos, quanto para o
modelo. Se a competio global ocorre de forma on-line na medida em que a informao
acumulada, ento, o referente apresentado primeiro (anterior) deve ser mais bem aprendido do
que o apresentado depois (posterior), ou seja, a ordem importa?
Os resultados da Figura 8.10 mostram que quando os participantes escolheram corretamente
ambos os referenciais das palavras duplas nas primeiras posies do ranqueamento, eles eram
ligeiramente mais propensos a ranquear o referente anterior em primeiro lugar (anterior primeiro)
do que o referente posterior (anterior depois). O modelo apresentou o mesmo padro de
comportamento, na verdade, de forma at mais evidente. Isto aponta para a mesma concluso,
tanto para os indivduos quanto para o modelo: a competio global do tipo on-line.
198
8.4. APRENDIZAGEM ESTATSTICA VS HIPTESE E TESTE
Figura 8.10 Resultados da segunda etapa do terceiro experimento de Yurovsky et al. (2013) em comparao com os resultados das simulaes com o modelo no Experimento 4b. As barras de erro mostram o
erro padro.
8.4
Aprendizagem Estatstica vs Hiptese e Teste
Os experimentos descritos acima parecem indicar que os indivduos levam em considerao

simultaneamente mltiplas conjecturas sobre os possveis referentes associados a cada palavra.
E que este um requisito para a aprendizagem cross-situacional, ou seja, mltiplos referentes
alternativos para cada palavra em cada ensaio seriam gerados, os quais seriam armazenados de
alguma forma e ento comparados com outros referentes candidatos observados posteriormente.
medida que se seguem as exposies, ocorrero presumidamente um aumento na associao
entre uma palavra e seu referente mais frequente e uma reduo na associao entre esta palavra
e os demais referentes. Esta hiptese pode ser chamada de Aprendizagem Estatstica (Yu e
Smith, 2012).
No entanto, Trueswell et al. (2013) apontam que existe ao menos uma forma alternativa
com a qual os participantes poderiam utilizar as repetidas co-ocorrncias de uma palavra e
seu referente para aprender, sem que seja necessrio manter um controle sobre as frequncias
de co-ocorrncia dos mltiplos referentes potenciais gerados em cada um dos ensaios. O
participante poderia levantar uma nica conjectura de mapeamento ao ouvir cada palavra usada
no ensaio e manter essa conjectura para ser avaliada posteriormente em ensaios subsequentes.
Se o palpite for confirmado por coerncia com a observao seguinte, o indivduo ir solidificar
ainda mais o significado da palavra na memria. Se por outro lado, o palpite for inconsistente
com alguma observao posterior, o participante abandonar essa interpretao e postular uma
nova que pode ser levada adiante, por sua vez, para a confirmao ou rejeio subsequente.
Quanto mais consistentes forem as estatsticas de co-ocorrncia na entrada, o mais provvel
199
que o indivduo seja capaz de fazer uma conjectura correta em algum momento, e confirm-la
em seguida. Esta alternativa tem sido chamada na literatura de Hiptese e Teste (Yu e Smith,
2012) ou Propor-mas-Verificar (Trueswell et al., 2013) e os experimentos a seguir procuram
avaliar se ela mais plausvel do que a Aprendizagem Estatstica.
8.4.1
Memria de Mltiplos Referentes - Experimento 5
Para avaliar qual dos tipos de aprendizagem o mais plausvel, Trueswell et al. (2013) propuseram experimentos para verificar explicitamente se os participantes mantm um conjunto de
referentes em potencial para cada palavra de um ensaio, ou se eles fazem uma nica conjectura
de associao.
Em cada um dos ensaios de aprendizagem preparados por Trueswell et al. (2013), referentes
utilizados foram cinco imagens de objetos dispostos simetricamente em um monitor de computador, o que configura uma condio 1 x 5, ou seja, h um alto grau de incerteza sobre o referente
correto em cada ensaio. O estmulo auditivo consistiu de uma frase pr-gravada contendo
apenas um rtulo de um dos objetos exibidos. Por exemplo: Oh! veja um .... No total, 12
palavras artificiais foram utilizadas como rtulos e 12 imagens de objetos foram utilizadas como
referentes.
Apresentao dos ensaios foi dividida em cinco ciclos de aprendizagem. Em cada ciclo,
cada palavra foi apresentada apenas uma vez, em uma ordem pseudo-aleatria. Os demais
quatro ciclos so repeties do primeiro ciclo mantendo a mesma ordem de apresentao
pseudo-aleatria.
Cinquenta graduandos participaram dos testes. Eles foram informados que, ao terminar de
ouvir cada frase, deveriam clicar no objeto ao qual a frase poderia estar se referindo, ou seja,
os participantes eram testados a cada ensaio. Isto permitiu registrar a evoluo das taxas de
aprendizagem dos indivduos a cada ciclo de aprendizagem.
A ideia por trs do experimento a de que, se o participante armazena apenas um referente
dentre as alternativas de um ensaio e este referente no o alvo correto, ento, ao encontrar o
prximo ensaio contendo esta mesma palavra, o participante dever selecionar aleatoriamente
entre os referentes disponveis, e no deve haver nenhum vis para o referente correto, uma vez
que, apesar deste referente ter sido visto anteriormente juntamente com a palavra que esta sendo
reavaliada, no dever haver nenhum trao de memria da associao correta. Se, por outro
lado, referentes alternativos esto sendo mantidos em memria, o participante deve apresentar
certo vis em selecionar o referente correto na instncia de aprendizagem seguinte, j que deve
haver algum trao de memria das alternativas vistas anteriores, mesmo que no tenham sido
escolhidas.
200
8.4.2
Para simular os estmulos fornecidos para os participantes do Experimento 5, foram utilizadas

12 palavras, escolhidas aleatoriamente dentre as 18 palavras utilizadas no Experimento 3. So
elas: bed, chair, bowl, fork, door, canister, clock, computer, desk, refrigerator, sofa e cooker.
Alm disso, as 12 imagens de objetos referentes a estas palavras foram as mesmas utilizadas no
Experimento 3.
Em cada ensaio, o modelo foi treinado de forma semelhante ao que foi feito nos experimentos
anteriores. No entanto, desta vez tem-se uma palavra e cinco referentes (condio 1 x 5).
De forma anloga aos experimentos anteriores as entradas para o modelo so fornecidas
combinando-se o estmulo auditivo com os estmulos visuais. Assim sendo, em cada ensaio so
fornecidas cinco entradas para o modelo, cada uma delas combinando o estmulo auditivo com
um dos cinco estmulos visuais.
Alm disso, diferentemente dos experimentos anteriores, no Experimento 5 os participantes
so orientados a escolher um dos referentes em cada ensaio, ou seja, treinamento e teste ocorrem
de forma simultnea. Para simular este comportamento, o nvel de atividade do nodo vencedor
foi registrado aps o treinamento de cada entrada. E ento, o referente contido no par rtuloreferente fornecido como entrada que produziu o maior nvel de atividade considerado como
sendo a escolha do modelo naquele ensaio.
Em cada ensaio foi registrado um acerto, caso o referente escolhido coincida com o alvo,
e alm disso, a partir do segundo ciclo de aprendizagem, foi registrado tambm se o modelo
havia acertado ou errado este referente no ciclo anterior. Isto possibilitou fazer uma comparao
direta entre os resultados obtidos com o modelo e os resultados exibidos por Trueswell et al.
(2013), comparao esta que apresentada a seguir.
8.4.3
A Figura 8.11 exibe a porcentagem mdia de respostas corretas ao longo dos cinco ciclos de
aprendizagem. Os resultados mdios sugerem que o aprendizado foi difcil, mas no impossvel.
Com uma anlise da curva de crescimento utilizando um modelo logstico multi-nvel da
preciso dos dados, os autores mostraram que de fato houve um aumento significativo da taxa de
acerto ao longo dos ciclos de aprendizagem. Por sua vez, as simulaes apresentaram resultados
anlogos, mostrando que a estratgia de treinamento definida para as simulaes se apresenta
condizente. Testes t de Student com nvel de significncia de 1% confirmam que tanto os
indivduos quanto o modelo apresentam taxas de acerto acima do acaso a partir no ltimo ciclo
de aprendizagem.
Uma vez tendo sido confirmado a ocorrncia de aprendizagem, o prximo passo foi avaliar
201
Figura 8.11 Resultados da primeira parte do experimento de Trueswell et al. (2013) em comparao
com os resultados das simulaes com o modelo no Experimento 5a. As linhas tracejadas indicam a
probabilidade de acerto ao acaso. As barras de erro mostram intervalo de confiana de 95%.
que tipo de mecanismo estaria por trs desta aprendizagem. Segundo a hiptese levantada
anteriormente, uma forma de avaliar isto, seria verificando se os participantes exibem alguma
memria do referente correto mesmo quando esse referente no foi selecionado no ciclo
anterior. Como pode ser visto na Figura 8.12, os participantes acertaram acima do acaso
(0, 47 0, 14) apenas aps terem acertado o referente correto no ciclo anterior. Quando haviam
errado anteriormente, os participantes parecem escolher um referente de maneira aleatria
(0, 208 0, 038 ' 0,20), resultando em um desempenho de aproximadamente 1 dentre 5. Assim,
mesmo que o referente alvo tenha estado presente anteriormente, quando os participantes
ouviram a palavra em questo, e estando novamente presente na instncia atual, eles no
mostram nenhum sinal de se lembrar deste fato se tiverem errado anteriormente.
Com isso, a partir deste experimento e de outros de mesma natureza, Trueswell et al. (2013)
concluem que os participantes no retm mltiplas hipteses de significado em instncias
de aprendizagem. E tomam isso como uma evidncia contrria a hiptese de Aprendizagem
Estatstica na aprendizagem de palavras. Porm, o modelo tambm apresentou este tipo de comportamento, com desempenho acima do acaso (0, 407 0, 134) para os referentes identificados
corretamente no ciclo anterior e apresentando desempenho semelhante ao acaso (0, 232 0, 069)
para referentes que o modelo havia errado no ciclo anterior.
sabido que o modelo proposto capaz de gerar mltiplas hipteses de referentes em cada
ensaio. Sendo assim, h duas possibilidades: ou (a) o modelo no gerou mltiplas associaes
em cada ensaio, ou (b) o modelo gerou mltiplas associaes, porm isto no foi suficiente
para afetar a escolha do referente ao final de cada ensaio. Como a quantidade das associaes
geradas pelo modelo equivalente ao nmero de nodos criados no Mdulo de Associao, a
202
Figura 8.12 Resultados da segunda parte do experimento de Trueswell et al. (2013) em comparao
com os resultados das simulaes com o modelo no Experimento 5b. As linhas tracejadas indicam a
probabilidade de acerto ao acaso. As barras de erro mostram intervalo de confiana de 95%.
observao da evoluo deste valor ao longo dos ciclos de aprendizagem elucida o que de fato
ocorreu.
Figura 8.13 Nmero mdio de nodos criados no Mdulo de Associao ao longo dos ensaios de cada
ciclo do Experimento 5. As barras de erro mostram o desvio padro.
A Figura 8.13 mostra a evoluo do nmero mdio de nodos criados no Mdulo de Associao a cada ensaio, lembrando que so apresentados ao modelo cinco estmulos por ensaio.
Observa-se que durante o primeiro ciclo so criados entre 2,5 e 3,5 nodos por ensaio, e este nmero cai nos ciclos seguintes at menos de um nodo por ensaio no quinto ciclo. Isto esperado,
pois, a maioria dos estmulos apresentados no primeiro ciclo so considerados novidade, j que o
modelo no tem informao pr-existente, e portanto, o modelo considera que h a necessidade
de criar novos nodos para representar estes novos estmulos. Porm, depois do primeiro ciclo,
203
grande parte dos estmulos no considerada novidade, e acaba sendo agrupada em nodos j
existentes. Isto aponta para a hiptese (b), ou seja, o modelo gera mltiplas associaes por
ensaio, porm isto no foi suficiente para afetar a escolha do referente ao final de cada ensaio.
Dois fatores podem estar contribuindo para os resultados observados por Trueswell et al.
(2013). Um fator que a competio global insere rudo na informao armazenada nos
nodos, fazendo com que, em grande parte dos casos, as associaes representadas possam estar
demasiadamente comprometidas para criar tendncias para o referente correto. O outro fator
que no design experimental de Trueswell et al. (2013), o total de acertos de referentes incorretos
no ciclo anterior computado do segundo ao quinto ciclo, quando a quantidade de hipteses
alternativas geradas (nodos) cai significativamente, o que contribui para a diluio da informao
contida nesta medida. Finalmente, o fato do modelo escolher ao acaso um dos referentes quando
a associao com o referente correto ainda fraca no implica que haja apenas uma hiptese em
memria.
8.5
Desambiguao de Palavras Atravs do Contexto
Os experimentos anteriores no deixam clara a contribuio do Mdulo de Contexto para o

modelo como um todo. De fato, possvel obter resultados semelhantes aos dos experimentos
anteriores, desativando-se o Mdulo de Contexto e utilizando um conjunto de parmetros
diferente. Isto ocorre devido s caractersticas daqueles experimentos. Porm, a introduo
do Mdulo de Contexto no produziu nenhum efeito indesejado, uma vez que nenhuma das
caractersticas necessrias para modelar o comportamento dos indivduos naqueles experimentos
foi perdida. Isto, em si, pode ser considerado um resultado importante.
No entanto, neste momento necessrio evidenciar a contribuio do Mdulo de Contexto
para o modelo como um todo. O papel deste mdulo permitir que o significado recuperado para
certas palavras seja influenciado pelo contexto no qual a palavra foi pronunciada, permitindo que
o referente correto seja recuperado em situaes de ambiguidade. Isto um requisito essencial
para a compreenso de discursos.
Infelizmente, at o presente momento, no foram encontrados na literatura experimentos
avaliando em que situaes os indivduos recuperam significados distintos para uma mesma
palavra. Sendo assim, nesta Tese foi proposto um design experimental para avaliar o modelo
neste sentido. Este design experimental foi concebido tomando como base os experimentos
de aprendizagem cross-situacional, e tendo em vista tambm propor experimentos que possam
ser aplicados futuramente em pessoas para verificar o quo bem o modelo proposto reproduz o
comportamento dos indivduos. A sesso seguinte apresenta este design experimental.
204
8.5. DESAMBIGUAO DE PALAVRAS ATRAVS DO CONTEXTO
8.5.1
Contribuio do Contexto - Experimento 6
O experimento para avaliar a influncia do contexto na recuperao de referentes ambguos

foi baseado no experimento de Trueswell et al. (2013), ou seja, o modelo foi treinado na
condio 1 x 5, isto , um rtulo auditivo e cinco referentes visuais, um dos quais o referente
correto do rtulo treinado e os outros quatro so distraidores. A principal diferena, que
neste experimento so utilizadas duas listas de palavras. Uma das palavras, RA, representa
um rtulo ambguo, deve ser comum entre ambas as listas, porm, associada com referentes
distintos em cada uma das listas, representando dois possveis sentidos. Cada um destes sentidos
est implicitamente correlacionado com o significado de outras palavras em sua respectiva
lista. Esta correlao se torna explicita apenas quando palavras de uma mesma lista so sempre
apresentadas em momentos prximos, ou consecutivamente.
O treinamento deve ser realizado em seis ciclos de 14 ensaios cada, trs ciclos contendo
apenas palavras da primeira lista (A) e trs ciclos contendo apenas palavras da segunda lista
(B). Os ciclos de cada lista so apresentados de forma intercalada (A, B, A, B, A, B). Este tipo
de treinamento busca induzir a criao de contextos distintos associados a palavras de cada
lista. Uma vez que o contexto muda lentamente, as palavras de uma mesma lista tero contextos
semelhantes entre si, pois so apresentadas consecutivamente, enquanto que contextos de
palavras de listas distintas tendem a ser diferentes, pois a distncia maior entre as apresentaes
permitir que ocorram mudanas maiores no contexto.
Ao final do treinamento, so realizados testes para verificar qual dos dois significados ser
recuperado para a palavra RA, em diferentes condies de contextos induzidos. No teste desta
palavra sero apresentados quatro referentes em ordem aleatria: o referente correto da lista A,
o referente correto da lista B, e mais dois distraidores, um de cada lista.
No entanto, antes de testar a palavra RA, seis ensaios de teste 1 x 4 so realizados utilizando
outras palavras das listas, apenas com o objetivo de induzir um contexto. As condies testadas
so: 3a+3b, 3b+3a, 4a+2b, 4b+2a, 5a+1b e 5b+1a, onde, a condio 3a+3b, por exemplo,
significa que, antes de testar a palavra RA, ocorrerem trs ensaios de teste utilizando apenas
palavras da lista A seguidos por mais trs ensaios utilizando apenas palavras da lista B. Nesta
condio, as trs palavras da lista B so apresentadas imediatamente antes do teste da palavra
RA, ento, espera-se que o referente recuperado tambm seja o desta lista. Quando isto ocorre
computado um acerto. O nvel de dificuldade deste teste progride nas condies 4+2 e 5+1,
pois, o contexto no momento do teste dever estar cada vez mais ambguo a medida que menos
palavras da lista do referente desejado sejam apresentadas.
Em cada ensaio de teste da palavra RA, trs so os resultados possveis: (a) o referente
da lista induzida por ltimo recuperado, o que esperado; (b) um dos dois distraidores
205
recuperado como sendo a associao mais forte (c) o referente da lista induzida primeiro
recuperado. A probabilidade a priori da situao desejada, (a), de 25%, um dentre quatro
referentes.
importante acrescentar que em estudos com pessoas, devem ser utilizadas palavras artificiais, e figuras de objetos pouco conhecidos, de preferncia escolhidos aleatoriamente. No
necessrio que haja de fato correlao entre a aparncia dos referentes, ou do som dos rtulos
de uma mesma lista, pois essa correlao ser induzida pela proximidade temporal em suas
apresentaes. A correlao com significado nas simulaes a seguir apenas para facilitar
a compreenso do experimento, porm esta correlao no capturada pela representao
utilizada (fontica e visual).
8.5.2
As palavras escolhidas para simular o experimento foram armoire, snake, dog, cat, cheese, trap
e mouse para a primeira lista e speaker, printer, computer, notebook, monitor, keyboard e mouse
para a segunda lista. Note que a palavra mouse, alvo da anlise deste experimento, aparece
em ambas as listas de palavras, porm, com significados distintos. Na primeira lista, mouse
refere-se ao animal, e na segunda ao dispositivo de entrada utilizado em computadores. Os
referentes das palavras foram imagens obtidas atravs do Google Images , porm, para palavra
mouse foram obtidas duas imagens, uma para cada significado.
O treinamento foi realizado, conforme planejado, em seis ciclos de 14 ensaios cada, trs
ciclos contendo apenas palavras da lista animal e trs ciclos contendo apenas palavras da
lista dispositivo. Os ciclos de cada lista foram apresentados de forma intercalada (animal,
dispositivo, animal, dispositivo, animal, dispositivo).
No total foram trs treinamentos, e ao final de cada treinamento duas condies de teste
foram avaliadas consecutivamente. Aps a apresentao dos ensaios de testes que induzem o
contexto de cada condio, a palavra mouse foi testada para verificar qual dos dois significados
foi recuperado. Ao final do primeiro treinamento foi induzida a condio 3a+3b, seguido do
primeiro teste da palavra mouse, seguido da induo da condio 3b+3a, e do segundo teste
da palavra mouse. O mesmo foi feito ao final dos outros dois treinamentos, porm com as
condies 4a+1b e 4b+1a no segundo treinamento, e 5a+1b e 5b+1a no terceiro treinamento. Os
resultados obtidos so apresentados a seguir.
8.5.3
A Figura 8.14 mostra que nas condies 3+3 o contexto efetivo para induzir a recuperao
do referente correto, ou seja, trs ensaios de teste contendo palavras de uma das listas foram
206
8.6. CONCLUSO
suficientes para induzir a recuperao do referente desta lista em 93,75% das simulaes (desvio
de 0,17). Nas condies 4+2 este valor cai para 73.9% (desvio de 0,25), e nas condies 5+1 cai
para aproximadamente 50% (desvio 0,15), o que significa que nesta condio, a informao
contextual j no suficiente para induzir a recuperao do referente desejado. Neste caso,
o modelo recupera com maior frequncia o referente que foi mais bem aprendido durante o
treinamento, e com isso acerta em aproximadamente metade das vezes. Testes t de Student
confirmam que estes resultados esto acima do acaso e so diferentes entre si, com nvel de
significncia de 1%.
Figura 8.14 Taxas de acerto do referente relativo ao contexto correto para cada uma das condies.
O resultado da condio 3+3 representa a taxa mdia de acerto do referente recuperado nas condies
3a+3b e 3b+3a, a condio 4+2 representa o resultado mdio das condies 4a+2b e 4b+2a, e a condio
5+1 representa o resultado mdio das condies 5a+1b e 5b+1a. As barras de erro indicam o erro padro
observado em cada condio. A linha horizontal indica a probabilidade de acerto ao acaso.
Os resultados evidenciam o papel do Mdulo de Contexto, deixando claro tambm que

ele cumpre a funo para a qual foi proposto, ou seja, permite que palavras ambguas sejam
entendidas da maneira adequada, de acordo com o contexto no qual esto inseridas.
8.6
Concluso
O paradigma experimental da aprendizagem cross-situacional se mostrou uma ferramenta

extremamente til para o levantamento e avaliao de hipteses sobre os mecanismos que
permitem as pessoas a aprenderem palavras. O modelo proposto, nada mais do que um conjunto
de hipteses sobre o funcionamento destes mecanismos, organizadas em uma arquitetura
modular, de forma que, ao ser implementado, possibilita comparaes com dados reais para
verificar a validade destas hipteses. Quando o funcionamento do modelo capaz de replicar os
dados reais com certa preciso, a confiana que se tem na validade deste modelo reforada.
207
Por outro lado, quando o modelo falha ao replicar alguma caracterstica dos dados reais, novas
informaes so trazidas a tona, permitindo que o modelo seja aperfeioado em seguida.
Em praticamente todos os experimentos realizados o modelo apresentou comportamentos
anlogos aos apresentados por indivduos quando submetidos a experimentos de aprendizagem
cross-situacional de palavras. A principal exceo, deu-se no Experimento 4, onde a exposio
sequencial de um dos referentes de palavras ambguas antes da apresentao do segundo
referente, facilitou a aprendizagem das palavras duplas para os indivduos, mas no para o
modelo. Neste caso, provvel que os efeitos da competio global (que tendem a dificultar
a aprendizagem) tenham sido reduzidos e os da competio local (que tendem a facilitar a
aprendizagem) tenham sido ampliados. Porm, no modelo atual pouca nfase foi dada para
os mecanismos que proporcionam competio local, e portanto, este um ponto a ser melhor
investigado futuramente na busca por uma representao mais precisa deste comportamento.
Ainda assim, tanto no Experimento 4, quanto nos demais experimentos, as principais
concluses obtidas a partir dos resultados com os indivduos tambm podem ser obtidas a partir
dos resultados das simulaes com o modelo. So elas:
Concluses
Experimento 1: O modelo e os indivduos exibem uma capacidade surpreendente
de aprendizagem da associao de rtulos e referentes em experimentos crosssituacionais, mesmo em condies de alta ambiguidade. Porm, seu desempenho se reduz com o aumento do nvel de ambiguidade nos experimentos;
Experimento 2: O modelo e os indivduos apresentaram maior dificuldade em aprender dois referentes para um mesmo rtulo do que apenas um referente;
Experimento 3: A competio global parece ser um dos fatores de interferncia
mais relevantes tanto para o modelo quanto para os indivduos;
Experimento 4: Tanto para o modelo quanto para os indivduos os resultados apontam para competio do tipo on-line em detrimento de competio em lote.
As similaridades entre o comportamento do modelo e dos indivduos fortalece a confiana no

poder de representao do modelo, permitindo consider-lo validado para estes experimentos.
Alm da validao dos experimentos, esse Captulo apresentou duas outras contribuies.
A primeira diz respeito ao comparativo entre a conjectura da Aprendizagem Estatstica e a
conjectura de Hiptese e Teste. Os resultados com o modelo permitiram mostrar que possvel
para modelos do tipo Aprendizagem Estatstica reproduzirem os resultados dos experimentos de
208
8.6. CONCLUSO
Trueswell et al. (2013), e portanto, mantendo a hiptese da Aprendizagem Estatstica vivel.

Isto mostra como o modelo pode contribuir na avaliao de novas hipteses.
A segunda contribuio diz respeito ao Mdulo de Contexto. Foi possvel mostrar que o
Mdulo de Contexto proposto, no influenciou negativamente no resultado dos experimentos
anteriores e ainda permite modelar uma caracterstica essencial para a compreenso de discursos,
que a capacidade de recuperar referentes distintos para um mesmo rtulo dependendo do
contexto no qual ele foi pronunciado, permitindo que o referente correto seja recuperado em
situaes de ambiguidade.
No prximo Captulo sero apresentadas as consideraes finais desta Tese, onde sero
enumeradas as capacidades e limitaes do modelo proposto, alm de sugestes de possveis
trabalhos futuros e aplicaes prticas.
209
9
Consideraes Finais
Esta Tese apresentou uma arquitetura neural modular para Aquisio de Linguagem Natural
por agentes incorporados. A proposio desta arquitetura tomou como base as evidncias
apresentadas pela psicolingustica, neurolingustica e lingustica computacional. Estas evidncias foram revisadas no Captulo 2. A anlise e composio destas evidncias resultaram no
modelo que foi apresentado no Captulo 3, composto por oito mdulos, quatro dos quais foram
implementados e validados nos Captulos de 4 a 7. A parte central do modelo, composta pelos
mdulos implementados, foi ento validada no Captulo 8.
A lingustica computacional forneceu uma viso sistemtica do problema, mais orientada
para aplicaes prticas. O modelo de processamento de linguagem natural apresentado por
Allen (1994) foi fundamental como ponto de partida para a construo da arquitetura proposta. A
adoo deste tipo de abordagem, complementada pela teoria de esquemas de Arbib et al. (1997),
permitiu estabelecer uma estrutura modular na qual no h necessariamente um mapeamento
nico entre uma funo e as estruturas responsveis pelo seu processamento, o que facilitou na
identificao da sequncia de passos que precisavam ser executados para modelar cada uma das
funes desejadas.
A viso bottom-up da neurolingustica forneceu a noo de compartimentalizao das funes a serem modeladas, embasando as delimitaes entre os mdulos e suas interconexes.
Alm disso, a partir das evidncias trazidas pela neurolingustica, foi possvel levantar um
conjunto de modelos computacionais candidatos para implementar cada um dos mdulos, observando os tipos de aprendizagem e os tipos de redes neurais mais adequados para implementar
cada funo, desde os mecanismos mais elementares de extrao de caractersticas implementados no Mdulo de Mapeamento Sensrio-Perceptivo (Captulo 4), at a integrao multimodal
das informaes realizada pelo Mdulo de Associao (Captulo 7).
Os mapas auto-organizveis foram utilizados na modelagem do Mdulo de Representao
apresentado no Captulo 5, pois se assemelham com os tipos de redes de neurnios encontrados
211
CAPTULO 9. CONSIDERAES FINAIS
no incio do processamento sensorial, como na retina e nas reas V1 e A1 do crtex visual

e auditivo, as quais se organizam de maneira topologicamente ordenada. Na modelagem
do Mdulo de Contexto (Captulo 6) foram utilizadas redes com conexes recorrentes, com
inspirao nos tipos de conexo encontrados no sistema lmbico. E no Mdulo de Associao
(Captulo 7), foram utilizadas redes contendo neurnios com campo receptivo auto-ajustvel,
pois esta abordagem parece ser mais adequada para implementar as funes dos neurnios
espelho. Entretanto, vale lembrar, que os modelos de redes neurais, em geral, so abstraes
cruas das estruturas e funes do crebro, que possuem maior foco na modelagem das funes
do que das estruturas em si.
A viso top-down apresentada pela psicolingustica tambm foi essencial para a construo
e validao do modelo. Ela permitiu compreender melhor quais as funes que precisavam
ser modeladas e quais caractersticas so fundamentais para a ALN. Os estudos de Chomsky
(1969) sugeriram que os indivduos so capazes de aprender apenas com evidncias positivas,
o que refora a opo por mecanismos de aprendizagem no-supervisionada. Alm disso, os
experimentos de Plunkett et al. (2008) mostraram que a aprendizagem de rtulos pode influenciar
na formao das categorias perceptivas, sugerindo que talvez os rtulos sejam parte integrante
das categorias formadas, e portanto, seriam entradas para modelos de aprendizagem nosupervisionada em vez de sinais de superviso para modelos de aprendizagem supervisionada.
Alm disso, os experimentos com seres humanos, tipicamente realizados na psicolingustica,
fornecem um valioso material para validar os modelos propostos. Tanto os experimentos de
Plunkett et al. (2008), quanto os experimentos cross-situacionais apresentados por Yu e Smith
(2007), Yurovsky et al. (2013) e Trueswell et al. (2013) permitiram verificar que o modelo
proposto era capaz de apresentar padres de aprendizagem semelhantes aos apresentados por
pessoas, dando maior credibilidade ao trabalho realizado.
Em retribuio, os modelos propostos considerando as evidncias destas reas, uma vez
implementados e validados, encontram aplicaes na proposio e na verificao de hipteses
sobre a ALN. Por exemplo, na Seo 8.4 foi possvel mostrar, que mesmo utilizando uma
abordagem que mais se assemelha com a Aprendizagem Estatstica do que com a abordagem de
Hiptese e Teste, o modelo proposto conseguiu simular comportamentos que eram considerados
evidncias contrrias ao primeiro tipo de abordagem, sugerindo, portanto, uma reavaliao desta
afirmao.
9.1
Anlise da Modelagem Proposta
No incio do Captulo 3, diversos subproblemas de aprendizagem relacionados com a ALN

foram enumerados e definidos matematicamente: a aprendizagem do ambiente, aprendizagem
212
9.2. CONTRIBUIES PARA A CINCIA
da linguagem natural, aprendizagem do contexto, aprendizagem das associaes dos rtulos

com elementos do ambiente, aprendizagem do controle dos atuadores e a interpretao das
intenes do instrutor. Cada um destes problemas precisa ser tratado a fim de construir um
agente realmente capaz de realizar ALN. No entanto, estes problemas so significativamente
complexos, e no possvel dizer que o modelo proposto uma soluo completa para nenhum
deles.
No entanto, nesta Tese foi dado um passo em busca da soluo de alguns destes problemas.
Os Mdulos de Mapeamento Sensrio-Perceptivo e de Representao endeream o subproblema
de aprendizagem do ambiente e de aprendizagem da linguagem, atravs da extrao de caractersticas dos fluxos sensoriais e da criao de uma representao. Estes passos contribuem tanto
para o reconhecimento de palavras quanto para o reconhecimento dos elementos do ambiente.
O Mdulo de Contexto atua principalmente no subproblema de aprendizagem do contexto,
mas no s nisso, pois a aprendizagem do contexto importante tambm para a interpretao
das intenes do instrutor, e permite que o agente atue no ambiente de forma adequada em
funo do contexto reconhecido.
O Mdulo de Associao atua principalmente na aprendizagem das associaes entre rtulos
e elementos do ambiente. No entanto, o mdulo tambm atua no subproblema de aprendizagem
do ambiente, pois os conceitos incorporados que nele emergem podem ser utilizados para
reconhecer os elementos do ambiente de maneira mais precisa, servindo inclusive para outras
aplicaes da robtica desenvolvimentista.
Por fim, quatro mdulos previstos no modelo completo no foram implementados nesta Tese,
devido delimitao do escopo escolhida. So eles: o Mdulo de Representao do Ambiente
(V), o Mdulo de Reconhecimento Sinttico (VI), o Mdulo de Compreenso Planejamento e
Execuo (VII) e o Mdulo de Controle Motor (VIII). Estes mdulos trabalham com os conceitos
incorporados aprendidos pelo Mdulo de Associao e so essenciais para a construo de
agentes com capacidades de ALN.
9.2
Contribuies para a Cincia
As pesquisas realizadas no desenvolvimento desta Tese resultaram em um conjunto de contribuies para as reas correlacionadas:
O problema de ALN por um agente inteligente foi formalizado matematicamente, considerando os cinco subproblemas identificados. A descrio formal produzida subsidia a
compreenso do problema e a proposio de implementaes computacionais.
A integrao das evidncias sobre ALN de trs reas do conhecimento, que resultou no
213
modelo computacional proposto, permitir a sua utilizao como ferramenta para estudar
como humanos aprendem linguagem natural.
Durante a fase de reviso bibliogrfica desta Tese foi implementada uma verso mais
compacta e com menor nmero de parmetros do modelo proposto por Pacheco (2004)
para o fenmeno de falsas memrias, porm com capacidades similares de modelagem do
fenmeno.
Nesta Tese, a formao de conceitos incorporados foi formulada como um problema de
agrupamentos em subespaos das percepes. Os modelos propostos para implementar o
Mdulo de Associao foram capazes de aprender os conceitos incorporados a partir de
fluxos perceptivos, permitindo aplicaes em diversas reas da robtica desenvolvimentista, como na criao de agentes capazes de desenvolver e utilizar habilidades sociais,
comportamentais e comunicativas (Cangelosi et al., 2010).
Os modelos, DSSOM e LARFDSSOM, se mostraram promissores para o agrupamento
projetivo e em subespaos. Os resultados obtidos com dados simulados apresentaram
considervel tolerncia a rudo, e os resultados com dados reais mostraram que estes
modelos so de aplicao bastante geral. Alm disso, uma verso supervisionada do
DSSOM, o Dimension Selective Learning Vector Quantization (DSELVQ) tambm foi
proposta em Arajo et al. (2013) e apresentou bons resultados ao ranquear atributos de
dados genticos.
A modelagem dos experimentos cross-situacionais mostrou que o modelo capaz de
reproduzir com certa preciso, os padres de aprendizagem de palavras apresentados por
seres humanos. Alm disso, todos os experimentos foram reproduzidos utilizando-se um
mesmo conjunto de valores para os parmetros do modelo.
As percepes utilizadas pelo modelo podem ser facilmente obtidas a partir de dados reais,
tornando o modelo prontamente aplicvel. A representao auditiva pode ser construda
diretamente a partir de informao textual ou sonora. A representao visual foi construda
a partir de imagens reais, e pode ser facilmente adaptada para extrair informaes a partir
de vdeos.
Os experimentos com o Mdulo de Contexto mostraram que o mesmo capaz de criar
contextos a partir de percepes apresentadas em instantes prximos, mesmo quando
estas percepes possuem representaes com baixa similaridade.
214
9.3. LIMITAES DO MODELO
9.2.1
Trabalhos Publicados
Os artigos relacionados abaixo, relativos ao modelo compacto para simular o fenmeno de falsas
memrias (Captulo 6), e dos modelos DSSOM e DSELVQ (Captulo 7), foram publicados em
conferncias durante o desenvolvimento desta Tese:
Arajo, A. F. R., Bassani, H. F., Pacheco, R. F., 2010. Occurrence of false memories: A neural module considering context for memorization of words lists. Em: IEEE
International Joint Conference on Neural Networks - IJCNN, pp. 18;
Bassani, H. F., Arajo, A. F. R., 2012. Dimension selective self-organizing maps for
clustering high dimensional data. Em: International Joint Conference on Neural Networks
- IJCNN, pp. 18;
Arajo, F. R. B., Bassani, H. F., Araujo, A. F. R., Agosto 2013. Learning vector quantization with local adaptive weighting for relevance determination in genome-wide association
studies. Em: IEEE International Joint Conference on Neural Networks - IJCNN, pp. 18.
O artigo a seguir, relativo ao modelo LARFDSSOM (Captulo 7), foi aceito para publicao
no: peridico IEEE Transactions on Neural Networks and Learning Systems:
Bassani, H. F.; Araujo, A. F. R., 2014, Dimension Selective Self-organizing Maps with
Time-varying Structure for Subspace and Projected Clustering, IEEE Transactions on
Neural Networks and Learning Systems, aceito para publicao.
9.3
Limitaes do Modelo
Na proposio do modelo, diversos pontos ainda no foram tratados adequadamente, e precisam

ser abordados futuramente para que seja possvel criar agentes com ALN plena.
A primeira limitao para aplicaes do modelo proposto consiste na ausncia da implementao dos quatro ltimos mdulos previstos (de V a VIII), os quais no foram tratados nesta
Tese.
A abordagem Bag of Features utilizada pelo Mdulo de Representao para criar as representaes visuais, precisa ser mais bem avaliada com relao a sua escalabilidade em funo do
aumento da quantidade de categorias. Experimentos disponveis na literatura mostram que apesar desta abordagem ser considerada a melhor disponvel atualmente, ela ainda limitada com
relao quantidade de objetos que podem ser reconhecidos, exibindo decaimento significativo
das taxas de reconhecimento com algumas dezenas de objetos (Kinnunen et al., 2012).
215
A escalabilidade do Mdulo de Contexto tambm precisa ser avaliada. Nesta Tese, o

ART2 com Contexto se mostrou capaz de aprender e diferenciar bem dois contextos. No
entanto, experimentos com maior nmero e variao de estmulos e contextos ainda precisam
ser realizados.
As associaes entre rtulos e referentes que so aprendidas pelo modelo proposto precisam ser apresentadas em instantes de tempo prximos, remetendo ao associativismo (vide
Seo 2.1.3). O Mdulo de Representao capaz de integrar percepes apresentadas com
certa defasagem temporal, reduzindo a necessidade de simultaneidade. Porm, as evidncias
da psicolingustica mostram que humanos so capazes de aprender associaes entre rtulos e
referentes mesmo quando estes so apresentados com grandes defasagens temporais, de horas
ou dias. provvel que o tratamento deste problema precise incluir mdulos de mais alto nvel,
como o Mdulo de Compreenso, Planejamento e Execuo.
Alm disso, foram utilizados apenas rtulos de substantivos concretos nos estudos realizados
com a associao entre palavras e referentes. Sendo assim, o modelo proposto ainda precisa ser
avaliado com diversas outras categorias de palavras. Uma categoria de extrema importncia para
aplicaes prticas so os verbos, os quais poderiam ser associados com conceitos perceptivos e
proprioceptivos.
O presente trabalho no considerou a formao de conceitos incorporados com nveis mais
elevados de abstrao, indo alm da composio bsica de percepes. Citando novamente a
viso de Perlovsky (2006), a mente envolve uma hierarquia de vrias camadas de conceitosmodelo, a partir de simples elementos perceptivos (como bordas ou pontos em movimento),
para conceitos-modelo de objetos, de relaes entre os objetos, de cenas complexas e acima,
ao longo de uma hierarquia para os conceitos-modelo do significado de vida e do propsito
de nossa existncia. Portanto, a formao de conceitos incorporados de forma hierrquica
precisa ser desenvolvida para permitir a construo de agentes capazes de ampliar seus nveis
de abstrao de forma autnoma.
9.4
Trabalhos Futuros e Aplicaes
Devido esta Tese ter abordado o problema da ALN em amplitude, uma grande quantidade de
desdobramentos surge a partir dela. De forma mais imediata, cada um dos pontos a seguir
podem ser explorados em pesquisas e aplicaes subsequentes:
A implementao dos demais mdulos previstos (de V a VIII) precisa ser realizada. Isto
ir permitir a implementao com agentes que executem comandos em linguagem natural,
inicialmente em ambientes simulados, como o ilustrado na Seo 4.2, e posteriormente
em ambientes reais;
216
9.4. TRABALHOS FUTUROS E APLICAES
Mecanismos auto-adaptativos para extrao de caractersticas podem ser avaliados para a

implementao do Mdulo I, permitindo que informaes relevantes sejam identificadas
de forma independente da natureza dos dados;
A utilizao dos mapas auto-organizveis na abordagem Bag of Features ainda pode
avanar significativamente, os modelos DSSOM e LARFDSSOM no foram avaliados
quantitativamente para esta funo, porm, espera-se que estes modelos apresentem bons
resultados com este tipo de dados, uma vez que so dados de dimensionalidade elevada e
provavelmente algumas dimenses sero irrelevantes para determinados grupos;
A utilizao da abordagem Bag of Features para a representao de frases completas tambm pode ser explorada futuramente para melhorar o reconhecimento de fala, utilizando-se
outros tipos de mapas auto-organizveis como o DSSOM e o LARFDSSOM, podendo
apresentar bons resultados em situaes de rudo;
O ART2 com Contexto precisa ter sua escalabilidade melhor avaliada com relao
quantidade de contextos distintos que podem ser aprendidos.
A aprendizagem de associaes entre aes e rtulos representando verbos fundamental
para a criao de aplicaes prticas e deve ser implementada visando construo de
agentes que executem comandos em linguagem natural;
A aprendizagem de conceitos incorporados de forma hierrquica pode ser implementada
em trabalhos futuros. Redes recorrentes ou com mapas hierrquicos parecem ser os
caminhos mais adequados para isto;
Considerando que as entradas recebidas pelo modelo so dados reais, ou seja, imagens
e texto. Podem ser criadas aplicaes que aprendam conceitos incorporados a partir de
vdeos. Em um primeiro momento, legendas podem ser utilizadas como entrada de texto,
e posteriormente pode ser utilizado um sistema de reconhecimento de fonemas a partir do
udio ou de converso de udio em texto;
A aprendizagem de conceitos incorporados pode permitir a construo de agentes que
aprendam, no s a respeito da linguagem, mas tambm do ambiente em que operam, o
que os tornar mais robustos, efetivos e aplicveis em um maior nmero de situaes;
Experimentos cross-situacionais considerando o contexto, nos moldes do que foi apresentado na Seo 8.5, poderiam contribuir com informaes importantes a respeito da
aprendizagem de contextos por seres humanos. Com isso, seria possvel avaliar melhor o
papel e a qualidade da modelagem do Mdulo de Contexto.
217
Referncias Bibliogrficas
Aggarwal, C., Wolf, J., Yu, P., Procopiuc, C., Park., J., 1999. Fast algorithms for projected
clustering. Em: ACM SIGMOD International Conference on Management of Data. pp. 6172.
Aggleton, J. P., Brown, M. W., 1999. Episodic memory, amnesia, and the hippocampal-anterior
thalamic axis. Behavioral and Brain Sciences 22 (3), 42544.
Ahlsen, E., 2006. Introduction to Neurolinguistics. John Benjamins Pub Co.
Aires, M. M., 1991. Fisiologia. Guanabara Koogan.
Aitchison, J., 2008. The Articulate Mammal: An Introduction to Psycholinguistics. Routledge.
Allen, J., 1994. Natural Language Understanding (2nd Edition). Addison-Wesley.
Arajo, A. F. R., Bassani, H. F., Pacheco, R. F., 2010. Occurrence of false memories: A neural
module considering context for memorization of words lists. Em: IEEE International Joint
Conference on Neural Networks - IJCNN. pp. 18.
Arajo, A. F. R., Rego, R. L. M. E., Julho 2013. Self-organizing maps with a time varying
structure. ACM Computing Surveys 46 (1), 7:17:38.
Arajo, A. R., Costa, D. C., 2009. Local adaptive receptive field self-organizing map for image
color segmentation. Image and Vision Computing 27 (9), 1229 1239.
Arajo, F. R. B., Bassani, H. F., Araujo, A. F. R., Agosto 2013. Learning vector quantization
with local adaptive weighting for relevance determination in genome-wide association studies.
Em: IEEE International Joint Conference on Neural Networks - IJCNN. Dallas, pp. 18.
Arbib, M. A., 2008. From grasp to language: Embodied concepts and the challenge of
abstraction. Journal of Physiology-Paris 102 (1-3), 4 20, Links and Interactions Between
Language and Motor Systems in the Brain.
Arbib, M. A., 2011. From mirror neurons to complex imitation in the evolution of language
and tool use. Annual Review of Anthropology 40 (1), 257273.
Arbib, M. A., rdi, P., Szentgothai, J., 1997. Neural Organization: Structure, Function, and
Dynamics. No. 407. MIT Press.
Bache, K., Lichman, M., 2013. UCI machine learning repository.
URL http://archive.ics.uci.edu/ml
219
REFERNCIAS BIBLIOGRFICAS
Baddeley, A., October 2003. Working memory: looking back and looking forward. Nature
Reviews. Neuroscience 4:10 (10), 829839.
Barrett, H. C., Kurzban, R., Julho 2006. Modularity in cognition: framing the debate. Psychological Review 113 (3), 628647.
Bassani, H. F., Arajo, A. F. R., 2012. Dimension selective self-organizing maps for clustering
high dimensional data. Em: International Joint Conference on Neural Networks - IJCNN. pp.
18.
Blitzer, J., Pereira, F., Alur, R., 2007. Domain adaptation of natural language processing
systems. Tech. rep., University of Pennsylvania.
Bloom, P., 2002. How Children Learn the Meanings of Words. The MIT Press.
Blumstein, S., Cooper, W. E., 1974. Hemispheric processing of intonational contours. Cortex
10, 146158.
Born, R. T., Bradley, D. C., 2005. Structure and function of visual area MT. Annu. Rev.
Neurosci. 28, 157189.
Brainerd, C. J., Reyna, V. F., 1990. Gist is the grist: Fuzzy-trace theory and the new intuitionism.
Developmental Review 10 (1), 3 47.
Brainerd, C. J., Reyna, V. F., 1998. When things that were never experienced are easier to
remember than things that were. Psychological Science 9 (6), 484489.
Brainerd, C. J., Reyna, V. F., Ceci, S. J., Maio 2008. Developmental reversals in false memory:
A review of data and theory. Psychological Bulletin 134 (3), 343382.
Brennan, J., Nir, Y., Hasson, U., Malach, R., Heeger, D. J., Pylkkanen, L., Fevereiro 2012.
Syntactic structure building in the anterior temporal lobe during natural story listening. Brain
Lang 120 (2), 163173.
Butterly, D. A., Petroccione, M. A., Smith, D. M., Abril 2011. Hippocampal context processing
is critical for interference free recall of odor memories in rats. Hippocampus 22 (4), 906913.
Cangelosi, A., Junho 2010. Grounding language in action and perception: from cognitive
agents to humanoid robots. Physics of life reviews 7 (2), 13951.
Cangelosi, a., Hourdakis, E., Tikhanoff, V., 2006. Language acquisition and symbol grounding
transfer with neural networks and cognitive robots. IEEE International Joint Conference on
Neural Network - IJCNN, 15761582.
220
Cangelosi, A., Metta, G., Sagerer, G., Nolfi, S., Nehaniv, C. L., Fischer, K., Tani, J., Belpaeme,
T., Sandini, G., Nori, F., Fadiga, L., Wrede, B., Rohlfing, K. J., Tuci, E., Dautenhahn, K.,
Saunders, J., Zeschel, A., 2010. Integration of action and language knowledge: A roadmap for
developmental robotics. IEEE T. Autonomous Mental Development, 167195.
Cangelosi, A., Riga, T., Jul 2006. An embodied model for sensorimotor grounding and
grounding transfer: experiments with epigenetic robots. Cogn Sci 30 (4), 673689.
Cao, Y., Wu, J., 2002. Projective art for clustering data sets in high dimensional spaces. Neural
Networks 15, 105120.
Caramazza, A., 1999. How many levels of processing are there in lexical access? Cognitive
Neuropsychology 14, 177208.
Carpenter, G. A., Grossberg, S., 1987a. ART2: Self-organization of stable category recognition
codes for analog input patterns. Applied Optics 26, 4919 4930,.
Carpenter, G. A., Grossberg, S., Janeiro 1987b. A massively parallel architecture for a selforganizing neural pattern recognition machine. Comput. Vision Graph. Image Process. 37 (1),
54115.
Carpenter, G. A., Grossberg, S., 1990. ART3 - hierarchical search using chemical transmitters
in self-organizing pattern-recognition architectures. Neural Networks 3 (2), 129152.
Carpenter, G. A., Grossberg, S., Rosen, D. B., Novembro 1991. Fuzzy art: Fast stable learning
and categorization of analog patterns by an adaptive resonance system. Neural Networks 4 (6),
759771.
Catani, M., 2007. From hodology to function. Brain 130, 602605.
Catani, M., ffytche, D. H., 2005. The rises and falls of disconnection syndromes. Brain 128,
22242239.
Catani, M., Howard, R. J., Pajevic, S., Jones, D. K., 2002. Virtual in vivo interactive dissection
of white matter fasciculi in the human brain. Neuroimage 17, 7794.
Catani, M., Jones, D. K., Donato, R., ffytche, D. H., 2003. Occipito-temporal connections in
the human brain. Brain 126, 20932107.
Catania, M., Mesulamb, M., 2008. The arcuate fasciculus and the disconnection theme in
language and aphasia: History and current state. Cortex 44(8), 953961.
221
Chomsky, N., 1969. Aspects of the Theory of Syntax. The MIT Press.
Chou, P. B., Grossman, E., Gunopulos, D., Kamesam, P., 2000. Identifying prospective
customers. Em: ACM SIGKDD - International Conference on Knowledge Discovery and Data
Mining. ACM, New York, USA, pp. 447456.
Clark, A. S., 2001. Unsupervised language acquisition: Theory and practice. Tese de Doutorado,
University of Sussex.
CMU, 2011. The Carnegie Mellon University pronouncing dictionary - A machine-readable
pronunciation dictionary for north american english. On-line.
URL http://www.speech.cs.cmu.edu/cgi-bin/cmudict
Coelho, M., Valle, E., Junior, C. S., Arajo, A., 2011. Subspace clustering for information
retrieval in urban scene databases. SIBGRAPI Conference on Graphics, Patterns and Images,
173180.
Collins, G., 1977. Visual co-orientation and maternal speech. Studies in mother-infant interaction. London: Academic Press.
Compston, A., 2006. From the archives. Brain 129 (6), 13471350.
Dalle-Mole, V. L., 2010. Mapas auto-organizveis para agentes robticos autnomos. Tese de
Doutorado, Universidade Federal de Pernambuco.
de Gelder, B., Rouw, R., 2000. Configural face processes in acquired and developmental
prosopagnosia: Evidence for two separate face systems. Neuroreport 11, 31453150.
de Gelder, B., Rouw, R., 2001. Beyond localisation: A dynamical dual route account of face
recognition. Acta Psychologica 107, 183207.
Dell, G. S., Chang, F., Griffin, Z. M., 1999. Connectionist model of language production:
Lexical access and grammatical encoding. Cognitive Science 23, 517542.
Della Sala, S., Logie, R. H., 2002. Handbook of Memory Disorders. Wiley, Chichester.
Dronkers, N. F., Wilkins, D. P., Van Valin, R. D., Redfern, B. B., Jaeger, J. J., 2004. Lesion
analysis of the brain areas involved in language comprehension. Cognition 92 (1-2), 145177.
Duffau, H., Maro 2008. The anatomo-functional connectivity of language revisited. New
insights provided by electrostimulation and tractography. Neuropsychologia 46 (4), 92734.
222
Dwyer, J., Rinn, W., 1981. The role of the right hemisphere in contextual inference. Neuropsychologia 19(3), 47982.
Elhamifar, E., Vidal, R., 2009. Sparse subspace clustering. Em: IEEE Conference on Computer
Vision and Pattern Recognition.
Epstein, R., Kanwisher, N., Abril 1998. A cortical representation of the local visual environment. Nature 392 (6676), 598601.
Fei-Fei, L., Fergus, R., Perona, P., Abril 2007. Learning generative visual models from few
training examples: An incremental bayesian approach tested on 101 object categories. Comput.
Vis. Image Underst. 106 (1), 5970.
Fessant, F., Aknin, P., Oukhellou, L., Midenet, S., Junho 2001. Comparison of supervised
self-organizing maps using Euclidian or Mahalanobis distance in classification context. Em:
International Work Conference on Artificial and Natural Neural Networks - IWANN. Granada,
Spain.
Fletcher, P. C., Frith, C. D., Rugg, M. D., 1997. The functional neuroanatomy of episodic
memory. Trends in Neurosciences 20 (5), 213218.
Fodor, J., 1975. The language of thought. New York: Crowell.
Fodor, J. A., 1983. The Modularity of Mind: An Essay on Faculty Psychology. MIT Press.
Fodor, J. A., 2000. The Mind Doesnt Work That Way: The Scope and Limits of Computational
Psychology. Cambridge, MA: MIT Press.
Fontanari, J. F., Tikhanoff, V., Cangelosi, A., Ilin, R., Perlovsky, L. I., 2009. Cross-situational
learning of objectword mapping using neural modeling fields. Neural Networks 22 (56), 579
585.
Fritzke, B., 1994. Growing cell structures - A self-organizing network for unsupervised and
supervised learning. Neural Networks 7 (9), 14411460.
Fry, J., Asoh, H., Matsui, T., Outubro 1998. Natural dialogue with the Jijo-2 office robot. Em:
IEEE International Conference on Intelligent Robots and Systems. pp. 12781283.
Gan, G., Wu, J., Yang, Z., 2006. PARTCAT: A subspace clustering algorithm for high dimensional categorical data. Em: IEEE International Joint Conference on Neural Networks - IJCNN.
pp. 44064412.
223
Gardner, H., 1975. The shattered mind: the person after brain damage. Vintage books. Vintage
Books.
Gazzaniga, M. S., Heatherton, T. F., 2005. Cincia psicolgica: mente, crebro e comportamento. Artmed.
Ghahramani, Z., 2004. Advanced Lectures on Machine Learning: Lecture Notes in Artificial
Intelligence. Springer, Ch. Unsupervised Learning, pp. 72112.
Gielen, C., Krommenhoek, K., van Gisbergen, J., 1989. A procedure for self-organized sensorfusion in topologically ordered maps. Em: Intelligent Autonomous Systems 2, An International
Conference. IOS Press, Amsterdam, Netherlands, pp. 417423.
Glasser, M. F., Rilling, J. K., Novembro 2008. DTI tractography of the human brains language
pathways. Cerebral cortex (New York, N.Y. : 1991) 18 (11), 247182.
Gleitman, L., 1990. The structural sources of verb meanings. Language Acquisition 1, 355.
Gliozzi, V., Mayor, J., Hu, J.-F., Plunkett, K., Junho 2009. Labels as features (not names) for
infant categorization: a neurocomputational approach. Cognitive science 33 (4), 70938.
Goldstein, K., 1943. Aftereffects of brain injuries in war: Their evaluation and treatment. the
application of psychologic methods in the clinic. Journal of the American Medical Association
121 (2), 159.
Goldstone, R., 1994. Influences of categorization on perceptual discrimination. Journal of
Experimental Psychology: General 123, 178200.
Goodglass, H., Berko, J., 1960. Agrammatism and english inflectional morphology. Journal of
Speech and Hearing Research 3, 257267.
Goodman, P. H., Kaburlasos, V. G., Egbert, D. D., Carpenter, G. A., Grossberg, S., Reynolds,
J. H., Rosen, D. B., Hartz, A. J., Outubro 1992. Fuzzy ARTMAP neural-network compared to
linear discriminant-analysis prediction of the length of hospital stay in patients with pneumonia.
IEEE International Conference On Systems, Man, and Cybernetics 1, 748 753.
Griffin, G., Holub, A., Perona, P., 2007. Caltech-256 Object Category Dataset. Tech. Rep.
CNS-TR-2007-001, California Institute of Technology.
Grossberg, S., 1976. Adaptive pattern classification and universal recording: II. Feedback,
expectation, olfaction, illusions. Biological Cybernetics 23, 187202.
224
Grossman, M., McMillan, C., Moore, P., Ding, L., Glosser, G., Work, M., Gee, J., 2004. Whats
in a name: voxel-based morphometric analyses of MRI and naming difficulty in Alzheimers
disease, frontotemporal dementia and corticobasal degeneration. Brain 127, 628649.
Harnad, S., 1990. The symbol grounding problem. Physica D 42, 335346.
Harnad, S., 2005. Handbook of Categorization in Cognitive Science. Elsevier Science, Ch. To
Cognize is to Categorize: Cognition is Categorization, pp. 2046.
Harris, M., D., J., Grant, J., 1983. The nonverbal content of mothers speech to infants. First
Language 4, 2131.
Haykin, S., 1998. Neural Networks: A Comprehensive Foundation. Prentice Hall.
Hebb, D., 1949. The organization of behavior: a neuropsychological theory. A Wiley book in
clinical psychology. Wiley.
Hecaen, H., Albert, M. L., 1978. Human Neuropsychology. New York: John Wiley & Sons.
Heibeck, T., Markman, E., 1987. Word learning in children: An examination of fast mapping.
Child Development 58, 10211034.
Helton, J., Davis, F., Johnson, J., 2005. A comparison of uncertainty and sensitivity analysis
results obtained with random and latin hypercube sampling. Reliability Engineering & System
Safety 89 (3), 305330.
Hubel, D., Wiesel, T. N., 1962. Receptive fields, binocular interaction and functional architecture in the cats visual cortex. Journal of Physiology 160, 106154.
Hubel, D., Wiesel, T. N., 1977. Functional architecture of macaque visual cortex. Proceedings
of the Royal Society B 198, 159.
Jain, A. K., Murty, M. N., Flynn, P. J., 1999. Data clustering: A review. Computing 31 (3).
Jiang, D., Tang, C., Zhang, A., 2004. Cluster analysis for gene expression data: a survey. IEEE
Transactions on Knowledge and Data Engineering 16 (11), 13701386.
Joseph, R., 1990. Neuropsychology, Neuropsychiatry, and Behavioral Neurology. Critical
Issues in Neuropsychology. Springer.
Joseph, R., 2012. Right Hemisphere, Left Hemisphere, Consciousness, the Unconscious, Brain
and Mind. University Press Science.
225
Jung-Beeman, M., 2005. Bilateral brain processes for comprehending natural language. Trends
in Cognitive Sciences 9, 512518.
Just, M. A., Cherkassky, V. L., Aryal, S., Mitchell, T. M., Janeiro 2010. A neurosemantic
theory of concrete noun representation based on the underlying brain codes. PLoS ONE 5 (1).
Kaas, J. H., Merzenich, M., Killackey, H. P., 1983. The reorganization of somatosensory cortex
following periphereal nerve damage in adult and developing mammals. Annual Review of
Neurosciences 6, 325356.
Kagan, J., 1981. The second year. Cambridge, MA: Harvard University Press.
Kandel, E. R., Schwartz, J. H., Jessell, T. M., 2000. Principles of Neural Science, 4 Edio.
New York: McGraw-Hill.
Kangas, J. a., Kohonen, T. K., Laaksonen, J. T., Janeiro 1990. Variants of self-organizing maps.
IEEE Transactions on Neural Networks 1 (1), 939.
Keysers, C., Kohler, E., Umilta, M. A., Nanetti, L., Fogassi, L., Gallese, V., Dezembro 2003.
Audiovisual mirror neurons and action recognition. Experimental brain research. Experimentelle Hirnforschung. Experimentation cerebrale 153 (4), 628636.
Kinnunen, T., Kamarainen, J.-K., Lensu, L., KLviInen, H., Dezembro 2012. Unsupervised
object discovery via self-organisation. Pattern Recogn. Lett. 33 (16), 21022112.
Kohonen, T., 1982. Self-organized formation of topologically correct feature maps. Biological
Cybernetics 43, 5969.
Kohonen, T., 1985. Self-organized feature maps. Journal of The Optical Society of America A
Optics Image Science and Vision 2 (13), P16.
Krams, M., Rushworth, M. F., Deiber, M. P., Frackowiak, R. S., Passingham, R. E., Junho
1998. The preparation, execution and suppression of copied movements in the human brain.
Exp Brain Res 120 (3), 386398.
Kriegel, H. P., Kroger, P., Renz, M., Wurst, S., 2005. A generic framework for efficient
subspace clustering of high-dimensional data. Em: IEEE International Conference on Data
Mining - ICDM. pp. 250257.
Kriegel, H.-P., Krger, P., Zimek, A., Maro 2009. Clustering high-dimensional data: A survey
on subspace clustering, pattern-based clustering, and correlation clustering. ACM Transactions
on Knowledge Discovery from Data 3 (1), 1:11:58.
226
Kunze, M., Steffens, J., 1995. Growing cell structure and neural gas - incremental neural
networks. Em: Proceedings of the Fourth AIHEP Workshop.
Lauria, S., Julho 2007. Talking to machines: Introducing robot perception to resolve speech
recognition uncertainties. Circuits Systems And Signal Processing 26 (4), 513526.
Lauria, S., Bugmann, G., Kyriacou, T., Bos, J., Klein, E., Setembro 2001. Training personal
robots using natural language instruction. IEEE Intelligent Systems 16 (5), 3845.
Lemon, O., Bracy, A., Gruenstein, E., Peters, S., 2001. A multi-modal dialogue system
for human-robot conversation. Em: The North American Chapter of the Association for
Computational Linguistics.
Levelt, W. J. M., 1999. Models of word production. Trends in Cognitive Science 3, 223232.
Levine, D. N., Sweet, E., 1982. The neuropathologic basis of Brocas aphasia and its implications for the cerebral control of speech. Neural models of language processes New York :
Academic Press.
Li, P., Zhao, X., Macwhinney, B., 2007. Dynamic Self-Organization and Early Lexical Development in Children 31, 581612.
Lieven, E., 1994. Crosslinguistic and crosscultural aspects of language addressed to children.
Input and interaction in language acquisition. Cambridge: Cambridge University Press.
Lindeberg, T., Maio 2011. Generalized gaussian scale-space axiomatics comprising linear
scale-space, affine scale-space and spatio-temporal scale-space. J. Math. Imaging Vis. 40 (1),
3681.
Lindeberg, T., Dezembro 2013. A computational theory of visual receptive fields. Biol Cybern
107 (6), 589635.
Lopes, L. S., Teixeira, A., 2000. Human-robot interaction through spoken language dialogue.
Em: International Conference on Intelligent Robots and Systems. IEEE/RSJ.
Lowe, D., 1999. Object recognition from local scale-invariant features. Em: IEEE International
Conference on Computer Vision - ICCV. Vol. 2. pp. 11501157 vol.2.
Lu, L. H., Crosson, B., Nadeau, S. E., Heilman, K. M., Gonzalez-Rothi, L. J., Raymer, A.,
Gilmore, R. L., Bauer, R. M., Roper, S. N., 2002. Category-specific naming deficits for
objects and actions: semantic attribute and grammatical role hypotheses. Neuropsychologia
40, 16081621.
227
Luck, S. J., Vogel, E. K., 1997. The capacity of visual working memory for features and
conjunctions. Nature 390, 279281.
Lungarella, M., Metta, G., Pfeifer, R., Sandini, G., 2003. Developmental robotics: a survey.
Connection Science 15, 151190.
Lyons, D. E., Young, A. G., Keil, F. C., Dezembro 2007. The hidden structure of overimitation.
Proceedings of the National Academy of Sciences 104 (50), 1975119756.
Markman, E., Hutchinson, J., 1984. Childrens sensitivity to constraints on word meaning:
Taxonomic versus thematic relations. Cognitive Psychology 16, 127.
Markman, E. M., Wachtel, G. F., 1988. Childrens use of mutual exclusivity to constrain the
meaning of words. Cognitive Psychology 20, 121157.
Marsland, S., Shapiro, J., Nehmzow, U., Outubro 2002. A self-organising network that grows
when required. Neural Netw. 15 (8-9), 10411058.
Matzen, L. E., Benjamin, A. S., 2009. Remembering words not presented in sentences: How
study context changes patterns of false memories. Memory & Cognition 37 (1), 5264.
Mayor, J., Plunkett, K., Julho 2008. Learning to Associate Object Categories and Label
Categories: A Self-Organising Model. Annual Conference of the Cognitive Science Society,
697702.
Mazo, M., Rodriguez, F., Lazaro, J., Urena, J., Garcia, J., Santiso, E., Revenga, P., Maio 1995.
Electronic control of a wheelchair guided by voice commands. Control Engineering Practice
3 (5), 665674.
McClelland, J. L., Rogers, T. T., Abril 2003. The parallel distributed processing approach to
semantic cognition. Nature Reviews Neuroscience 4 (4), 310322.
McClelland, J. L., Rumelhart, D. E., Jun 1985. Distributed memory and the representation
of general and specific information. Journal of Experimental Psychology: General 114 (2),
159197.
Mesulam, M. M., 1990. Large-scale neurocognitive networks and distributed processing for
attention, language, and memory. Annals of Neurology 28, 597613.
Miikkulainen, R., Bednar, J. A., Choe, Y., Sirosh, J., Janeiro 2005. Computational Maps in the
Visual Cortex. Vol. 1. Springer.
228
Mikolajczyk, K., Schmid, C., 2002. An affine invariant interest point detector. Em: European
Conference on Computer Vision - ECCV, Part I. Springer-Verlag, London, UK, pp. 128142.
Mikolajczyk, K., Tuytelaars, T., Schmid, C., Zisserman, A., Matas, J., Schaffalitzky, F., Kadir,
T., Gool, L. V., Novembro 2005. A comparison of affine region detectors. Int. J. Comput.
Vision 65 (1-2), 4372.
Miller, C. A., 2006. Developmental relationships between language and theory of mind. Am J
Speech Lang Pathol 15 (2), 142154.
Milner, B., 1964. Some effects of frontal lobectomy in man. New York: McGraw-Hill.
Mishkin, M., Ungerleider, L. G., Macko, K. A., 1983. Object vision and spatial vision: two
cortical pathways. Trends in Neurosciences 6, 414417.
Moise, G., Sander, J., 2008. Finding non-redundant, statistically significant regions in high
dimensional data: a novel approach to projected and subspace clustering. Em: ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining. pp. 533541.
Moise, G., Zimek, A., Krger, P., Kriegel, H.-P., Sander, J., 2009. Subspace and projected
clustering: experimental evaluation and analysis. Knowledge and Information Systems 21,
299326.
Mooney, R. J., Julho 2006. Learning language from perceptual context: A challenge problem for AI. Em: Association for the advancement of artificial intelligence (AAAI) Fellows
Symposium.
Morasso, P., Sanguineti, V., 1997. Self-Organization, Computational Maps, and Motor Control.
Vol. 119 de Advances in Psychology. North Holland.
Mummery, C. J., Patterson, K., Wise, R. J., Vandenberghe, R., Price, C. J., Hodges, J. R., 1999.
Disrupted temporal lobe connections in semantic dementia. Brain 122, 6173.
Mller, E., Gnnemann, S., Assent, I., Seidl, T., 2009. Evaluating clustering in subspace
projections of high dimensional data. Em: 35th International Conference on Very Large Data
Bases, Lyon, France.
Narain, C., Scott, S. K., Wise, R. J., Rosen, S., Leff, A., Iversen, S. D., Matthews, P. M.,
Dezembro 2003. Defining a left-lateralized response specific to intelligible speech using fMRI.
Cereb. Cortex 13 (12), 13621368.
229
Nelson, K., 1973. Structure and strategy in learning to talk. monographs of the society for
research. Child Development 38, 1137.
Nilsson, N., 1969. A mobile automaton: an application of artificial intelligence techniques.
Em: International Joint Conference on Artificial Intelligence - IJCAI. pp. 509520.
Nosofsky, R., 1988. Exemplar-based accounts of relations between classification, recognition,
and typicality. Journal of Experimental Psychology: Learning, Memory, and Cognition 14,
700708.
ORegan, J. K., Setembro 1992. Solving the real mysteries of visual perception: The world
as an outside memory. Canadian Journal of Psychology 46 (3), 461488.
ORegan, J. K., Rensink, R. A., Clark, J. J., Maro 1999. Change-blindness as a result of
mudsplashes. Nature 398 (6722).
OReilly, J. X., Jbabdi, S., Rushworth, M. F., Behrens, T. E., Setembro 2013. Brain systems for
probabilistic and dynamic prediction: computational specificity and integration. PLoS Biology
11 (9).
Pacheco, R. F., 2004. Mdulos neurais para modelagem de falsas memrias. Tese de Doutorado,
Universidade Federal de So Carlos - USP.
Parsons, L., Haque, E., Liu, H., 2004. Subspace clustering for high dimensional data: a review.
ACM SIGKDD Explorations Newsletter 6 (1), 90105.
Pasley, B. N., David, S. V., Mesgarani, N., Flinker, A., Shamma, S. A., Crone, N. E., Knight,
R. T., Chang, E. F., Janeiro 2012. Reconstructing speech from human auditory cortex. PLoS
Biology 10 (1).
Patrikainen, A., Meila, M., Julho 2006. Comparing subspace clusterings. IEEE Transactions
on Knowledge and Data Engineering 18 (7), 902916.
Perlovsky, L. I., 2001. Neural Networks and Intellect: Using Model-Based Concepts. Oxford
University Press, USA.
Perlovsky, L. I., 2006. Artificial Cognition Systems. IGI Global, Ch. Modeling Field Theory
of Higher Cognitive Functions, pp. 65106.
Pickering, S. J., 2001. Cognitive approaches to the fractionation of visuo-spatial working
memory. Cortex 37, 470473.
230
Pinker, S., 1997. How the Mind Works. W. W. Norton & Company, New York.
Pinker, S., 2008. The Stuff of Thought: Language as a Window into Human Nature. Penguin
Books.
Plunkett, K., 1997. Theories of early language acquisition. Trends in Cognitive Sciences 1,
146153.
Plunkett, K., Hu, J., Cohen, L. B., 2008. Labels can override perceptual categories in early
infancy. Cognition 106 (2), 665 681.
Plunkett, K., Sinha, C., Moller, M., Strandsby, O., 1992. Symbol grounding or the emergence
of symbols? Vocabulary growth in children and a connectionist net. Connection Science 4,
293312.
Procopiuc, C. E. A., 2002. A monte carlo algorithm for fast projective clustering. Em: ACM
SIGMOD International Conference on Management of Data. pp. 418427.
Pulvermuller, F., Julho 2005. Brain mechanisms linking language and action. Nature Reviews
Neuroscience 6 (7), 576582.
Purves, D., Augustine, G. J., Fitzpatrick, D., Hall, W. C., LaMantia, A.-S., White, L. E., 2011.
Neuroscience Fifth Edition. Sinauer Associates, Inc.
Quine, W., 1960. Word and object. Cambridge, MA: MIT Press.
Rahayu, E. Y., Janeiro 2012. Is language natural? Dynamics of Language and Culture 7 (1),
7179.
Rasanen, O., Rasilo, H., Laine, U., 2012. Modeling spoken language acquisition with a generic
cognitive architecture for associative learning. Em: The Interspeech Conference. Portland,
Oregon.
Rauschecker, J., Tian, B., 2000. Mechanisms and streams for processing of what and where
in auditory cortex. Proc Natl Acad Sci U S A 97 (22), 118006.
Rauschecker, J. P., Agosto 1998. Cortical processing of complex sounds. Current Opinion in
Neurobiology 8 (4), 516521.
Regier, T. P., 1992. The acquisition of lexical semantics for spatial terms: A connectionist
model of perceptual categorization. Tese de Doutorado, Berkeley, CA, USA.
231
Richards, D. D., Goldfarb, J., 1986. The episodic memory model of conceptual development:
An integrative viewpoint. Cognitive Development 1, 183219.
Riga, T., Cangelosi, A., Greco, A., 2004. Symbol grounding transfer with hybrid selforganizing/supervised neural networks. IEEE International Joint Conference on Neural
Networks - IJCNN, 28652869.
Rizzolatti, G., Craighero, L., 2004. The mirror-neuron system. Annual Review of Neuroscience
27 (1), 169192.
Robinson, R. G., Benson, D. F., Novembro 1981. Depression in aphasic patients: frequency,
severity, and clinical-pathological correlations. Brain Lang. 14(2), 28291.
Roediger, H., McDermott, K., 1995. Creating false memories: Remembering words not
presented in lists. Journal of Experimental Psychology: Learning, Memory & Cognition 21,
803814.
Rogalsky, C., Hickok, G., Abril 2009. Selective attention to semantic and syntactic features
modulates sentence processing networks in anterior temporal cortex. Cereb. Cortex 19 (4),
786796.
Ruppert, D., 2010. Statistics and Data Analysis for Financial Engineering. Springer Texts in
Statistics. Springer.
Russell, B. C., Torralba, A., Murphy, K. P., Freeman, W. T., Maio 2008. Labelme: A database
and web-based tool for image annotation. Int. J. Comput. Vision 77 (1-3), 157173.
Russell, S., Norvig, P., 2009. Artificial Intelligence: A Modern Approach (3rd Edition).
Prentice Hall.
Sakai, K. L., 2005. Language acquisition and brain development. Science 310, 815819.
Saltelli, A., Chan, K., Scott, E. M., 2009. Sensitivity Analysis. Wiley.
Salton, G., McGill, M. J., 1986. Introduction to Modern Information Retrieval. McGraw-Hill,
Inc., New York, NY, USA.
Schacter, D. L., Novembro 1996. Illusory memories: a cognitive neuroscience analysis. Proceedings of The National Academy of Sciences of USA 93 (24), 1352713533.
Scott, S. K., Blank, C. C., Rosen, S., Wise, R. J., Dezembro 2000. Identification of a pathway
for intelligible speech in the left temporal lobe. Brain: A journal of neurology 123 Pt 12,
24002406.
232
Scott, S. K., Rosen, S., Lang, H., Wise, R. J. S., Agosto 2006. Neural correlates of intelligibility
in speech investigated with noise vocoded speechA positron emission tomography study.
Journal of the Acoustical Society of America 120 (2), 10751083.
Seidenberg, M. S., Mcclelland, J. L., 1989. A distributed, developmental model of word
recognition and naming. Psychological Review 96, 523568.
Shibata, F., Ashida, M., Kakusho, K., Kitahashi, T., 1997. Communication of a symbolic route
description based on landmarks between a human and a robot. Em: Proceedings of the 11th
Annual Conference of JSAI. pp. 429432.
Shirai, K., Kobayashi, Iwata, Fukazawa, 1985. A speech system for flexible conversation with
robots. Journal of Robotics Society of Japan 13(4), 104113.
Sim, K. S. H., 2012. Enhanced subspace clustering. Tese de Doutorado, Nanyang Technological
University - Centre for Advanced Information Systems.
Simons, D., Levin, D., 1998. Failure to detect changes to people during a real-world interaction.
Psychonomic Bulletin and Review 5, 644649.
Simons, D. J., Levin, D. T., 1997. Change blindness. Trends Cogn.Sci. 1, 261267.
Smith, A., Outubro 1966. Speech and other functions after left (dominant) hemispherectomy. J
Neurol Neurosurg Psychiatry 29(5), 467471.
Smith, A., Burklund, C. W., 1966. Dominant hemispherectomy: preliminary report on neuropsychological sequelae. Science 153(3741), 12802.
Smith, E. E., Jonides, J., Koeppe, R. A., Awh, E., Schumacher, E. H., Minoshima, S., Julho
1995. Spatial versus object working memory: Pet investigations. J. Cognitive Neuroscience
7 (3), 337356.
Smith, K., Smith, A. D. M., Blythe, R. A., 2009. Reconsidering human cross-situational learning capacities: A revision to yu & smiths (2007) experimental paradigm. in. Em: Proceedings
of the 31st Annual Conference of the Cognitive Science Society. pp. 27112716.
Smith, K., Smith, A. D. M., Blythe, R. A., 2011. Cross-situational learning: An experimental
study of word-learning mechanisms. Cognitive Science 35 (3), 480498.
Smyth, M., Pendleton, L., 1990. Space and movement in working memory. Quarterly Journal
of Experimental Psychology A 42 (2), 291304.
233
Steels, L., Belpaeme, T., Agosto 2005. Coordinating perceptually grounded categories through
language: a case study for colour. Behavor Brain Science 28 (4), 469489.
Stephan, K. E., Marshall, J. C., Friston, K. J., Rowe, J. B., Ritzl, A., Fink, K. Z. G., 2003.
Lateralized cognitive processes and lateralized task control in the human brain. Science 301,
384386.
Stramandinoli, F., Marocco, D., Cangelosi, A., Agosto 2012. The grounding of higher order
concepts in action and language: Acognitive robotics model. Neural networks: the official
Journal of the International Neural Network Society 32 (2008), 16573.
Stromswold, K., Janeiro 1994. Language comprehension without language production: Implications for theories of language acquisition. Em: Annual Boston University Conference on
Language Development.
Suga, N., 1985. The extent to which bisonar information is represented in the bat auditory
cortex. Willey (Interscience), pp. 653695.
Swindale, N. V., 1996. The development of topography in the visual cortex: A review of
models. Network: Computation in Neural Systems 7, 161247.
Taddeo, M., Floridi, L., Outubro 2007. A praxical solution of the symbol grounding problem.
Minds and Machines 17 (4), 369389.
Tajfel, H., Wilkes, A., 1963. Classification and quantitative judgement. British Journal of
Psychology 54, 101114.
Tomasello, M., 1992. First verbs: A case study of early grammatical development. Cambridge:
Cambridge University Press.
Tomasello, M., Kruger, A., 1992. Joint attention on actions: Acquiring verbs in ostensive and
non-ostensive contexts. Journal of Child Language 19, 311333.
Torrance, M., 1994. Natural communication with robots. Dissertao de Mestrado, Massachusetts Institute of Technology.
Trueswell, J. C., Medina, T. N., Hafri, A., Gleitman, L. R., Fevereiro 2013. Propose but verify:
fast mapping meets cross-situational word learning. Cognitive Psychology 66 (1), 126156.
Turing, A. M., 1950. Computing Machinery and Intelligence. Mind LIX, 433460.
Tuytelaars, T., Lampert, C. H., Blaschko, M. B., Buntine, W., Junho 2010. Unsupervised object
discovery: A comparison. Int. J. Comput. Vision 88 (2), 284302.
234
Udesen, H., Madsen, A. L., Maio 1992. Balints syndromevisual disorientation. Ugeskr. Laeg.
154 (21), 14921494.
Van Essen, D. C., Anderson, C. H., , Felleman, D. J., 1992. Information processing in the
primate visual system: An integrated systems perspective. Science 255, 419423.
Vandenberghe, R., Nobre, A. C., Price, C. J., Maio 2002. The response of left temporal cortex
to sentences. J Cogn Neurosci 14 (4), 550560.
Vidal, R., Maro 2011. Subspace clustering. Signal Processing Magazine, IEEE 28 (2), 52 68.
Vidal, R., Ma, Y., Sastry, S., 2005. Generalized principal component analysis (GPCA). IEEE
Transactions on Pattern Analysis and Machine Intelligence 27 (12), 115.
Vogel, E. K., Woodman, G. F., Luck, S. J., 2001. Storage of features, conjunctions and objects
in visual working memory. J. Exp. Psychol. Hum. Percept. Perf 27, 92114.
von Hofsten, C., Junho 2004. An action perspective on motor development. Trends in Cognitive
Science 8 (6), 266272.
Weber, M., Welling, M., Perona, P., 2000. Unsupervised learning of models for recognition.
Em: European Conference on Computer Vision - ECCV, Part I. Springer-Verlag, London, UK,
pp. 1832.
Weizenbaum, J., 1966. ELIZA - A computer program for the study of natural language
communication between man and machine. Communications of The Association for Computing
Machinery (ACM) 9(1), 3645.
Weng, J., McClelland, J., Pentland, A., Sporns, O., Stockman, I., Sur, M., Thelen, E., 2001.
Artificial intelligence: Autonomous mental development by robotsand animals. Science 291,
599600.
Wessinger, C. M., Vanmeter, J., Tian, B., Van Lare, J., Pekar, J., Rauschecker, J. P., Janeiro
2001. Hierarchical organization of the human auditory cortex revealed by functional magnetic
resonance imaging. J. Cognitive Neuroscience 13 (1), 17.
Wheeler, M. E., Treisman, A. M., 2002. Binding in short-term visual memory. J. Exp. Psychol.
Gen. 131, 4864.
Winograd, T., 1971. Procedures as a representation for data in a computer program for
understanding natural language. Tech. rep., Massachusetts Institute of Technology.
235
Xu, F., Carey, S., 1996. Infants metaphysics: The case of numerical identity. Cognitive
Psychology 30, 111153.
Xu, R., Wunsch, D., Maio 2005. Survey of clustering algorithms. IEEE transactions on neural
networks 16 (3), 64578.
Yiu, M. L., Mamoulis, N., 2004. Frequent-pattern based iterative projected clustering. Em:
IEEE International Conference on Data Mining - ICDM. pp. 689692.
Yu, C., Smith, L. B., Maio 2007. Rapid word learning under uncertainty via cross-situational
statistics. Psychol Sci 18 (5), 414420.
Yu, C., Smith, L. B., Janeiro 2012. Modeling cross-situational word-referent learning: prior
questions. Psychol Rev 119 (1), 2139.
Yurovsky, D., Yu, C., Smith, L. B., 2013. Competitive processes in cross-situational word
learning. Cognitive Science 37 (5), 891921.
236

TESE Hansenclever de França Bassani - Sobrextensao

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

TESE Hansenclever de França Bassani - Sobrextensao

Enviado por

Direitos autorais:

Formatos disponíveis

Modelos Neurais Modulares para Aquisio de

Hansenclever de Frana Bassani

Universidade Federal de Pernambuco

Universidade Federal de Pernambuco

Hansenclever de Frana Bassani

Modelos Neurais Modulares para Aquisio de Linguagem

Trabalho apresentado ao Programa de Ps-graduao em

Orientador: Aluizio Fausto Ribeiro Arajo

Bassani, Hansenclever de Frana.

Tese de Doutorado apresentada por Hansenclever de Frana Bassani Ps

Visto e permitida a impresso.

Dedico esta Tese minha av, Maria Diva de Frana

...Pensamento computao, procuro demonstrar, mas isso no significa

Figura 2.1 Vista superior das vias visuais humanas . . . . . . . . . . . . . . . . . . 47

Figura 2.6 Fluxo de informaes no processamento de linguagem natural . . . . . . 63

Figura 7.8 Comparativo entre as vizinhanas encontradas pelo DSSOM e LARFDSSOM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Alfabeto Fontico Internacional

Associao Internacional de Fontica

Aquisio de Linguagem Natural

Adaptive Ressonant Theory

Best Matching Unity

Compreenso de Linguagem Natural

Categorizao Visual de Objetos

Desvio Mdio Absoluto

DSSOM Dimension Selective Self-Organizing Map

Growing Cell Structures

Growing Neural Gas

GPCA Generalized Principal Components Analysis

Ncleo Genicular Lateral

Lantin Hypercube Sampling

Neural Modeling Fields

PART Projective Adaptive Ressonant Theory

PARTCAT Projective Adaptive Ressonant Theory Categorical

Processamento de Linguagem Natural

pSTG Giro Posterior Superior Temporal

Scale-Invariant Feature Transform

Sparse Subspace Clustering

Caractersticas da Aprendizagem de Palavras em Crianas . . . . . . . 38

Aprendizagem Associativa, por Reforo e as Dificuldades na Modelagem da Aprendizagem de Palavras . . . . . . . . . . . . . . . . . . . . 40

Habilidades Necessrias para Aprender Palavras . . . . . . . . . . . . . 42

Papel dos Rtulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

Organizao do Sistema Visual . . . . . . . . . . . . . . . . . . . . . . 46

Organizao do Sistema Auditivo . . . . . . . . . . . . . . . . . . . . 51

Estruturas Cerebrais de Processamento da Linguagem . . . . . . . . . . 53

Contribuies da Lingustica Computacional . . . . . . . . . . . . . . . . . . . 58

Avaliao de Sistemas de Compreenso de Linguagem Natural . . . . . 58

Diferentes Nveis de Anlise da Linguagem . . . . . . . . . . . . . . . 59

Organizao dos Sistemas de Processamento de Linguagem Natural . . 62

3 Mdulos Neurais para Aprendizagem de Linguagem Natural

Subproblemas de Aprendizagem para o Agente . . . . . . . . . . . . . 69

Paradigma de Modelagem Adotado . . . . . . . . . . . . . . . . . . . 74

Viso Geral do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . 76

Fluxo de Informaes no Modelo Proposto . . . . . . . . . . . . . . . 79

Exemplo Hipottico do Funcionamento do Modelo Proposto . . . . . . 81

Escopo do Trabalho e Validao do Modelo . . . . . . . . . . . . . . . . . . . 83

4 Mdulo I - Mapeamento Sensrio-Perceptivo

Representao das Percepes Auditivas . . . . . . . . . . . . . . . . . . . . . 90

Representao das Propriocepes e Percepes do Ambiente Simulado . . . . 95

Posio do Tabuleiro Observada pelo Agente (pPl e pPc ) . . . . . . . . 95

Cor do Objeto no Local Observado (pAc ) . . . . . . . . . . . . . . . . 95

Forma do Objeto no Local Observado (pA f ) . . . . . . . . . . . . . . . 96

Tamanho do Objeto (pAt ) . . . . . . . . . . . . . . . . . . . . . . . . . 96

Representao das Percepes Visuais a Partir de Imagens . . . . . . . . . . . 97