Você está na página 1de 32

Universidade Federal do Rio Grande do Sul

Instituto de Informtica
Curso de Ps-Graduao em Cincia da Computao

Introduo s Redes Neurais Articiais

Andr Cardon
Daniel Nehme Mller

Philippe Navaux
Orientador

Porto Alegre, novembro de 1994

Sumrio
1 Introduo
1.1
1.2

1.3

Histrico . . . . . . . . . . . . . . . . . .
Caractersticas Bsicas de Redes Neurais
1.2.1 Padres . . . . . . . . . . . . . .
1.2.2 Funes . . . . . . . . . . . . . .
1.2.3 Conexes . . . . . . . . . . . . .
1.2.4 Elementos de Processamento . .
Aplicaes . . . . . . . . . . . . . . . . .
1.3.1 Reconhecimento de Fala . . . . .
1.3.2 Identicao de Sinais de Radar
1.3.3 Mercado Financeiro . . . . . . .
1.3.4 Composio Musical . . . . . . .

2 Modelos
2.1
2.2

2.3

2.4

2.5

Classicao . . . . . .
Perceptron / Adaline .
2.2.1 Caractersticas
2.2.2 Topologia . . .
2.2.3 Algoritmo . . .
2.2.4 Uso . . . . . .
Backpropagation . . .
2.3.1 Caractersticas
2.3.2 Topologia . . .
2.3.3 Algoritmo . . .
2.3.4 Uso . . . . . .
Hopeld . . . . . . . .
2.4.1 Caractersticas
2.4.2 Topologia . . .
2.4.3 Algoritmo . . .
2.4.4 Uso . . . . . .
Kohonen . . . . . . . .
2.5.1 Caractersticas
2.5.2 Topologia . . .
2.5.3 Algoritmo . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

. . . . . .
Articiais
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

3
6
6
7
9
10
11
11
11
12
12

13

13
15
15
15
16
17
19
19
20
20
21
22
22
22
23
23
24
24
25
25

2.6

2.5.4 Uso . . . . . . . .
ART . . . . . . . . . . . .
2.6.1 Caractersticas . .
2.6.2 Topologia . . . . .
2.6.3 Algoritmo . . . . .
2.6.4 Uso . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

26
27
27
28
28
29

Captulo 1

Introduo
1.1 Histrico
O primeiro trabalho sobre Redes Neurais foi realizado no ano de 1943, por McCullock e Pitts [EBE 90]. Neste, eles desenvolveram um estudo sobre o comportamento do neurnio biolgico, com o objetivo de criar um modelo matemtico
para este. As concluses desta pesquisa foram de extrema importncia para a
futura implementao computacional do neurnio formal:

a atividade do neurnio tudo ou nada;


a atividade de qualquer sinapse inibitria previne a excitao do neurnio
naquele instante.
A primeira armao signica que o neurnio estar no estado ativado se
a sua sada ultrapassar um valor limite, caso contrrio, car no estado de
repouso (este princpio originou a funo limiar). Entende-se por estado ativado
transmitir a sada (transmisso) a outros neurnios da rede.
J a segunda armao teve importncia na construo do neurnio formal
a partir do conceito de pesos, ou seja, cada entrada do neurnio ter um valor
associado; caso este seja positivo, tender a excitar a clula; e caso ele seja
negativo, tender a inibir.
Em 1949, Donald O. Hebb no livro The Organization of Behavior deniu o
conceito de atualizao de pesos sinpticos. Hebb deixou com seu estudo quatro
pontos importantes [EBE 90]:
1. numa rede neural a informao armazenada nos pesos;
2. o coeciente de aprendizagem proporcional ao produto dos valores de
ativao do neurnio;
3. os pesos so simtricos (o peso da conexo de A para B igual ao da de
B para A);
3

Figura 1.1: Funo XOR: uma representao grca.


4. quando ocorre o aprendizado os pesos so alterados.
Porm, apesar de todos os estudos feitos at ento, o primeiro modelo de
rede neural implementado foi o perceptron, por Frank Rosenblatt em 1958.
O perceptron uma rede neural simples: constitui-se de uma camada de
entrada e uma camada de sada. A cada entrada existe um peso relacionado,
sendo que o valor de sada ser a soma dos produtos de cada entrada pelo
seu respectivo peso. Como denido por McCullock e Pitts, o neurnio possui
um comportamento tudo ou nada, logo, ser necessrio estabelecer uma funo
limiar que dena quando o neurnio estar ativo ou em repouso.
O trabalho de Rosenblatt tambm estabeleceu a base para os algoritmos
de treinamento de modelos no su pervisionados como o de Kohonen e para
modelos supervisionados como o backpropagation [EBE 90]. Um modelo dito
supervisionado quando treina-se um modelo para uma sada pr-determinada,
que dene um dado padro de entrada.
Apesar do impacto que teve o perceptron na comundade de Inteligncia
Articial, este modelo foi fortemente criticado no livro de Minsky e Papert,
Perceptrons . No livro os autores citam o exemplo de que o Percetron com
uma simples camada no poderia simular o comportamento de uma simples
funo XOR (ou-exclusivo) [WAS 89]. Aps a publicao desta obra, iniciou
o perodo conhecido como anos negros das redes neurais, pelo fato desta ter
desencorajado novas pesquisas e desestimulado o estudo mais profundo deste
campo. A seguir segue uma breve explicao do problema do XOR.
O perceptron capaz de aprender tudo aquilo que ele consegue representar
[WAS 89]; a partir disso surge a questo: o que ele consegue representar? O
perceptron com somente duas camadas consegue representar toda funo linearmente separvel.
Suponhamos um plano xoy onde x e y so as entradas da rede e o ponto
cartesiano (x,y) o valor da respectiva sada, como mostra a gura 1.1.
4

Como possvel perceber na gura 1.1, no podemos traar uma nica reta
(funo linear) tal que divida o plano de maneira que as sadas com valor 0
cam situadas de um lado da reta e as com valor 1 do outro. Entretanto, este
problema pode ser solucionado com a criao de uma camada intermediria na
rede e gracamente com uma estrutura em trs (ou mais) dimenses.
Em 1972, Teuvo Kohonen da Universidade de Helsinky deniu um novo
modelo de rede neural, conhecido como mapa auto-organizvel de caractersticas . Ao contrrio do perceptron, ele no era limitado a valores binrios,
mas os valores das entradas, dos pesos e das sadas poderiam ser contnuos.
Alm disso, ao invs da sada da rede ser representada pela atuao de um
simples neurnio vencedor (ativado), Kohonen estabeleceu um grande nmero
de neurnios para representar o padro de entrada, sendo que este nmero
alcanado pela inuncia do neurnio vencedor aos seus vizinhos. Em outras
palavras, no h apenas um neurnio responsvel pela representao do padro
de entrada, mas sim um conjunto de neurnios que interagem entre si.
Todavia, a grande importncia do trabalho de Kohonen foi ter introduzido um novo paradigma no estudo das Redes Neurais: o aprendizado nosupervisionado, segundo o qual a rede no precisa car sendo comparada constantemente a um valor de sada durante a fase de aprendizado. At o incio da
dcada de 80, os modelos de redes neurais implementados poderiam ser classicados em dois tipos: feedback, onde a rede, partindo de um estado inicial ,
chega ao estado nal de aprendizado atravs de iteraes, na qual as sadas so
canalizadas para as entradas e feedforward, a qual transforma um conjunto de
sinais de entrada em sinais de sada. O modelo de Kohonen veio a ser um novo
paradigma, alternativo, para as redes neurais.
Em 1982 houve uma nova evoluo nos trabalhos das redes neurais iniciado
pela criao do modelo de Hopled, desenvolvido pelo fsico John Hopeld.
Este modelo se caracteriza por ser do tipo feedback, isto , h uma conexo
das entradas com as sadas. Por este motivo, estas redes dicilmente chegam a
um estado instvel, ou seja, chegar um momento em que a sada, aps oscilar
entre alguns valores binrios, ser sempre a mesma para um mesmo padro de
entrada. Hopeld, para demonstrar este fato, utilizou o exemplo de uma funo
matemtica que decresce a cada vez que a rede troca de estado, conseqentemente, chegar um momento em que esta funo alcanar um valor mnimo e
no ser mais alterada. Este o momento em que a rede alcanou a estabilidade.
A rede de Hopeld pode ser comparada a um modelo fsico, onde a cada troca
de estado da rede a energia da mesma diminui, portanto, a fase de aprendizado
chegar ao m no momento em que a rede tiver a sua energia minimizada.
O perceptron teve sua validade provada no modelo backpropagation, que
possibilitou a implementao da terceira camada necessria para o aprendizado
do XOR. Utilizando uma rede de neurnios como os utilizados no perceptron, o
backpropagation realiza uma retro-propagao do erro da sada para as camadas
anteriores. O erro o resultado da comparao entre a sada desejada (prdenida) e a sada real da rede. Com esta retro-propagao, juntamente com
uma funo limiar de valores fracionrios (fugindo ao tudo ou nada), possibilitase a representao de funes no-lineares, permitindo o treinamento da funo
5

XOR. Por este fato, o backpropagation tornou-se uma das redes mais utilizadas,
dado seu amplo espectro de representaes possveis.
Vrios outros modelos foram criados desde ento, embora estes citados anteriormente foram os mais destacados por terem sido os precursores e por terem
denidos os paradigmas de modelos de redes neurais existentes hoje.

1.2 Caractersticas Bsicas de Redes Neurais Articiais


Quando falamos em Redes Neurais Articiais (RNA's), podemos distinguir pelo
menos dois componentes fsicos: conexes e elementos de processamento.
A combinao desses dois elementos cria uma RNA. Podemos fazer uma analogia
com um grafo, onde os nodos so os elementos de processamento e as arestas
so as conexes.
H ainda outros componentes (no-fsicos) das redes neurais: padres e
funes [SIM 90]. Padres so dados de entrada da rede. Eles so uma codicao que corresponde a certa modelagem da realidade de uma aplicao
denida para a RNA. Funes so modelos matemticos utilizados no treinamento e reconhecimento de padres.
Conexes, elementos de processamento, padres e funes so os componentes bsicos de qualquer RNA, mas infelizmente esta terminologia no uma
regra, uma vez que no h uma norma que dena as denominaes e utilizao
de cada um deles. Mas, para que o leitor tenha uma viso de como funcionam
estes componentes, cada um deles denido a seguir.

1.2.1 Padres
As RNA's no podem operar sem dados. Esses dados so os padres apresentados a uma RNA. Podem ser valores numricos ou mesmo caracteres que sero
posteriormente transformados em nmeros. A um determinado padro de entrada corresponde um sinal de sada, sendo que a dimenso (tipo) do padro de
entrada pode ser diferente do padro de sada.
Uma das principais aplicaes de RNA's o reconhecimento (classicao)
de padres. Por exemplo, em reconhecimento da fala existem tipos diferentes
de caractersticas envolvidas. Nesta aplicao, o padro de entrada pode ser
uma matriz que contm o caracter, e a sada apenas um nmero que indica
se o caracter foi reconhecido ou no. Assim, temos um padro de entrada
com dimenso diferente do padro de sada. Alm disso, neste caso torna-se
essencial um pr-processamento de informaes. Isso signica que a seleo e
representao correta das caractersticas do padro a ser aplicado pode afetar a
performance da rede. Criar o melhor conjunto possvel de caractersticas como
padro o primeiro passo para o sucesso de qualquer aplicao em RNA's.

1.2.2 Funes
Das funes utilizadas em RNA's, podemos distinguir basicamente em dois tipos: funes para transferncia de sinais entre neurnios; e funes para aprendizado de padres. As funes de transferncia, tambm chamadas funes
de limiar, so aquelas responsveis por determinar a forma e a intesidade de
alterao dos valores transmitidos de um neurnio a outro.
As funes de limiar so basicamente quatro: a linear, a hard-limiter ou
step, a em rampa, a sigmoid, e a gaussiana.
A funo linear uma equao linear da forma:

f (x) = x
sendo que x um nmero real e um escalar positivo (inclinao da reta). Veja
gura 1.2.

Figura 1.2: Linear: reta resultante da funo linear de transferncia.


A hard-limiter uma equao que pode receber dois valores, uma vez que
utilizada para valores binrios. Tem a forma:

se x
f (x) =
se x <
onde e so os valores que valero para f(x) caso x ultrapasse ou no o limiar
. Veja gura 1.3.
A funo de limiar em rampa tem este nome por ser uma hard-limiter modicada: ela possui no uma transio direta entre dois valores, mas sim uma
fase de transferncia:

se x

x
se |x| <
f (x) =

se x
onde o valor de saturao da funo, ou seja, durante a transio o valor de
f(x) ir variar dentro do intervalo (, ). Veja a gura 1.4.
7

Figura 1.3: Hard Limiter: o coeciente de limiar determina onde ser o limite
de transferncia.

Figura 1.4: Em rampa: esta funo permite a delimitao de uma rea de


transio durante a variao da transferncia.
A funo sigmoid a verso contnua da em rampa. Ela permite uma transio gradual e no linear entre dois estados:

f (x) =

1
1 + ex

onde um real positivo. Quanto maior o valor de , mais detalhada ser a


transio de um estado a outro. Este tipo de funo utilizada tambm em
outras reas como sociologia e qumica. Veja gura 1.5.
A funo de transferncia gaussiana conhecida pelo seu uso em estatstica.
Aqui ela usada quando h a denio de um ponto mdio em x e uma varincia
a este ponto:
2
f (x) = e(x /v)
onde v uma varincia pr-denida. Veja gura 1.6.
8

Figura 1.5: Sigmoid: uma transio mais detalhada.

Figura 1.6: Gaussiana: distribuio uniforme baseada na varincia.


Vamos passar a analisar agora outro tipo de funo: a de aprendizado. As
funes de aprendizado em geral dependem do modelo de RNA que escolhido.
Estas funes servem para realizar a alterao dos valores dos pesos da rede,
possibilitando assim o aprendizado de um determinado padro.
As diversas funes de aprendizado esto descritas nos respectivos modelos,
que sero analisados posteriormente.

1.2.3 Conexes
Uma RNA equivalente a um grafo orientado (dgrafo). Um dgrafo tem arestas
(conexes) entre nodos (elementos de processamento) com um s sentido. Isso
faz com que a informao ua numa direo denida (denotada por uma exa
no desenho do dgrafo). Esta informao ui atravs das arestas e coletada
pelos nodos. RNA's estendem a representao de dgrafo por incluir um peso
em cada aresta (conexo) que modula o sinal de sada que passado para o
nodo adjacente (ver gura 1.7).
Os pesos so os responsveis pela memorizao do padro, pois so ajus9

Figura 1.7: Diagrama: dgrafo de uma RNA.


tados durante o processo de aprendizado que captura as informaes. Desta
forma, uma conexo dene tanto um uxo de informao quanto a modulao
da informao que passada.
Desta forma, pesos e conexes positivos (possuem um valor numrico positivo) so excitatrios e aqueles que so negativos so inibitrios. Caso tenhamos
um peso igual a zero, como se a conexo no existisse.

1.2.4 Elementos de Processamento


O elemento de processamento (tambm chamado de neurnio ou neuronodo) a
parte da RNA onde realizada todo o processamento. Um elemento de processamento (que um nodo no dgrafo) de uma camada de entrada recebe apenas
um valor do padro de entrada correspondente, mas possui diversas conexes
com os neurnios das camadas seguintes (que podem ter vrias entradas).
Cada elemento de processamento coleta a informao que foi mandada para
ele e produz um nico valor de sada. Existem duas importantes qualidades que
um elemento de processamento deve ter:
1. Elementos de processamento necessitam apenas de informaes locais. A
sada do elemento de processamento uma funo dos pesos e das entradas;
2. elementos de processamento produzem apenas um valor de sada. Este
valor nico propagado atravs das conexes do elemento emissor para
o receptor, ou para fora da rede, quando for um elemento da camada de
sada.
Estas duas qualidades permitem que RNA's operem em paralelo.
Existem vrios mecanismos para se obter a sada de um elemento de processamento. Geralmente temos uma funo das sadas da camada anterior e os
pesos das conexes entre a camada anterior e a atual. Matematicamente, temos
que a sada de um elemento de processamento uma funo das entradas e dos

10

pesos:

Entradai = F (P adr
ao, P esoj )

O modo mais comum de funo de um elemento de processamento a combinao linear. Desta forma temos:
X
Entradai = f ( (padr
aoij pesoij )) = f (P adr
aoP esoj )
com i variando de 1 a n (nmero de conexes).

1.3 Aplicaes
So inmeras as aplicaes possveis para as redes neurais, mas elas vieram de
encontros s necessidades de modelagem de aplicaes que no representveis
atravs da programao convencional, como, por exemplo, o reconhecimento de
imagens. Neste sentido, atualmente encontramos outros modelos matemticos
como a lgica fuzzy e os algoritmos genticos, que tambm contribuem para
aplicaes que exigem uma certa margem de erro para serem executadas. Neste
sentido, a seguir so apresentados alguns exemplos de aplicaes tpicas das
redes neurais, que dicilmente seriam viveis na programao convencional.

1.3.1 Reconhecimento de Fala


Mquina de Escrever Fontica
Utiliza o modelo SOM (Self-Organizing Map, de Kohonen) para aprender fonemas, que posteriormente sero transformados em palavras, atravs de regras
gramaticais aprendidas automaticamente [KOH 90]. O aprendizado feito com
amostras do espectro de curta durao (da gravao), que so apresentados
rede na ordem natural da fala, o que contribui para a auto-organizao na rede
SOM.
Para a adaptao desta rede a um novo locutor, basta o ditado de 200 a
300 palavras para que seja reorganizado o aprendizado. Nesta fase, para uma
melhor delidade do aprendizado, podem ser usados modelos supervisionados
como LVQ1, LVQ2 e LVQ3.
A transformao dos fonemas em palavras d-se atravs de uma gramtica
denominada Contexto Dinamicamente Expansvel, onde podem ser usadas regras
ou produes para a correo de erros de transformao.

1.3.2 Identicao de Sinais de Radar


Utilizando os modelos perceptron e backpropagation, Sigillito & Hutton realizaram a classicao de sinais de radar [SIG 90]. O radar transmite mltiplos
padres de sinais para a ionosfera e aguarda o retorno. A funo da rede neural
aqui classicar os sinais de retorno em bons ou maus. Os testes apontaram o
reconhecimento dos sinais de retorno ao nvel de um especialista humano.

11

1.3.3 Mercado Financeiro


A partir do modelo backpropagation, Zaremba construiu uma rede para anlise
do mercado nanceiro [ZAR 90]. Com base em valores mensais de ativos, so
denidos padres construdos a partir de janelas para cada 4 meses, com cinco
valores por ms. Para cada ativo, h um aprendizado e, portanto, um mapeamento de pesos especco. A funo da rede neural nesta aplicao aprender
as utuaes do mercado em sua histria para posterior reconhecimento de
tendncias do mercado futuro. O xito deste tipo de aplica o depende enormemente dos dados ensinados, ou, em outras palavras, do modelo adotado para
o pr-processamento destes dados.

1.3.4 Composio Musical


Eberhart & Dobbins utilizaram uma variante do modelo backpropagation para
realizar o reconhecimento de notas musicais, permitindo a composio automtica [EBEa 90]. As notas so diferenciadas por sua freqncia e durao,
permitindo sua codicao e treinamento da rede neural com estes padres. A
representao das notas pode-se dar por valorao direta, onde cada nota possui
um valor, ou por transio, onde se ensina para a rede uma transio de notas,
exigindo assim um conjunto harmonioso de entrada para um reconhecimento
preciso. Para esta ltima forma, cada uma das sadas da rede um conjunto de
notas que faro a composio nal.

12

Captulo 2

Modelos
2.1 Classicao
Apesar de no haver uma norma taxonmica para os modelos de redes neurais,
h diferenas claras entre eles [LIP 87] [KOH 90]. Assim, podemos realizar uma
distino entre os modelos atravs de suas caractersticas bsicas, como o tipo
de entradas, a forma de conexo e o tipo de aprendizado.
Por tipos de entrada entendemos a entrada ser binria ou intervalar:

Chamamos de binrios aqueles modelos que aceitam entradas discretas,


ou seja, somente na forma de 0 e 1. Neste caso, encontram-se modelos
como o de Hopield e ART;
os intervalares so os que aceitam qualquer valor numrico como entrada
(forma contnua). Estes so modelos como o Backpropagation e Kohonen.
Por forma de conexo denimos a maneira como os elementos da rede esto
conectados e, por conseguinte, como o modelo matemtico representa a transmisso dos sinais na rede. H trs formas de conexo:
1. alimentao frente, onde os sinais de entrada so simplesmente transformados em sinais de sada;
2. retro-alimentao, no qual os sinais cam sendo alterados em diversas
transies de estado, sendo a sada tambm alimentadora da entrada;
3. competitiva, que realiza a interao lateral dos sinais recebidos na entrada entre os elementos dentro de uma zona de vizinhana.
O tipo de aprendizado (treinamento) refere-se existncia ou no de um sinal
de sada pr-denido para a rede.
No aprendizado supervisionado, h uma denio sobre qual a sada que se
deseja para a rede, o que leva a forar o ajuste dos pesos de modo a representar
o sinal desejado.
13

Por outro lado, h o auto-aprendizado (no-supervisionado), que limita-se a


fazer uma representao da distribuio de probabilidade dos padres de entrada
na rede. Este tipo de treinamento est intimamente ligado com a conexo
competitiva.
Tendo uma viso taxonmica dos modelos, melhor nos situaremos nos modelos que veremos a seguir. As classicaes que foram citadas anteriormente
so complementares, como mostra a gura 2.1.

Figura 2.1: Relaes: classicaes para modelos de redes neurais.


Como podemos perceber, modelos com entrada binria muitas vezes podem
ser compostos ainda com caractersticas como o aprendizado supervisionado e a
conexo alimentada frente. A entrada intervalar pode ser composta tambm
com o aprendizado supervisionado ou ainda com o auto-aprendizado.
Modelos com um aprendizado supervisionado, por sua vez, podem compor
com entrada binria ou intervalar, e conexes alimentadas frente ou retroalimentadas. Com auto-aprendizado tem-se apenas entradas intervalares e conexes competitivas.
No caso de ser utilizada a conexo alimentada frente, possvel tambm
o uso de apenas entradas binrias e de aprendizado supervisionado. Conexes
retro-alimentadas so comumente combinadas com entradas binrias e aprendizado supervisionado. E conexes competitivas so encontradas junto a entradas
intervalares e auto-aprendizado.
Essas combinaes de classicaes no so denies estticas, elas so
apenas um elemento de auxlio na compreenso das caractersticas dos modelos
mais comumente usados na atualidade. E so estes modelos que veremos a
seguir.

14

2.2 Perceptron / Adaline


2.2.1 Caractersticas
Possui entrada intervalar, aprendizado supervisionado e alimentao
frente.
Utiliza o Combinador Adaptativo Linear, onde a sada de um elemento
processador (ep) a combinao linear das entradas [WID 90]. Estas so
um vetor que multiplicado por pesos pr-existentes no ep, assumindo a
forma:
n1
X
S(t) =
pi (t)ei (t)
i=0

onde P[n] o vetor de pesos, E[n] o vetor de entradas, S a sada do ep e t


o nmero da amostra (de entrada).

Possui como regra de adaptao dos pesos, o algoritmo perceptron ou LMS (tambm conhecido como adaline). A diferena entre ambos est
na forma do clculo. O perceptron tem a seguinte formulao:
P (t + 1) = P (t) + ((t)/2)E(t)
onde o coeciente de aprendizado e o erro da sada quantizada do
ep. A sada quantizada atravs da funo de limiar aplicada sada. O
erro tem a forma:
(t) = d(t) flim (S(t))
ou seja, o erro fruto da aplicao da funo de limiar sobre a diferena
entre a sada desejada d e a resultante S. A sada desejada o valor -1 ou
1 que se espera como resultado do treinamento.

O -LMS possui como diferencial a frmula de ajuste de pesos e do erro.


A atualizao de pesos da forma:
P (t + 1) = P (t) + ((t)E(t)/|E(t)|2 )
e o erro passa a ter uma forma sem quantizao:

(t) = d(t) S(t)


Ambas as regras necessitam a sada quantizada Sq.

2.2.2 Topologia
A gura 2.2 apresenta um simples ep segundo as frmulas do perceptron e LMS discutidas anteriormente. O ep recebe o padro representado no vetor E,
que multiplicado pelo vetor de pesos proveniente da Regra de Adaptao. O
clculo resultante somado, perfazendo assim a soma ponderada, que a sada
15

Figura 2.2: Topologia: combinador adaptativo linear.


no-quantizada S, utilizada na regra -LMS. A sada quantizada representada
pelo Sq, utilizada na regra perceptron. Ambas as regras calculam os erros a
partir da resposta desejada d.
Cada um desses elementos pode ser combinado com outros formando uma
rede de duas camadas, ampliando a capacidade de armazenamento de padres,
como mostra a gura 2.3.

Figura 2.3: Rede: diversos elementos processadores conectados.


Reunindo diversos nodos numa rede, possvel a caracterizao de padres
com mais valores ou em maior quantidade. A sada de um ep conectada com
a entrada de outro, distribuindo o poder de processamento e armazenamento
dos padres.

2.2.3 Algoritmo
1. Inicialize os pesos e o coeciente de limiar com valores randmicos e
dentro do intervalo (0;1]. O coeciente de limiar aqui utilizado para
16

ajuste interno da funo de limiar denida. Como funo limiar, neste


caso, utilizada a hard-limiter.
2. Apresente o padro de entrada, na forma do vetor E, e a sada desejada
d para o padro.
3. Calcule a sada:

S(t) =

n1
X

Pi (t)Ei (t)

i=0

4. Se for a regra perceptron, aplica-se a funo limiar:

Sq(t) = flim (S(t))


5. A atualizao de pesos segue as regras que j foram apresentadas:

para o perceptron:
P (t + 1) = P (t) + ((t)/2)E(t)
(t) = d(t) Sq(t)
para o -LMS:
P (t + 1) = P (t) + ((t)E(t)/|E(t)|2 )
(t) = d(t) S(t)
6. Voltar ao passo 2 at que a sada quantizada Sq esteja respondendo corretamente com a sada desejada d.

2.2.4 Uso
Aprendizado
Para realizar o treinamento (aprendizado) de um padro, necessrio primeiramente pass-lo para a forma de 1 e -1. comum encontrarmos arquivos de
padres em binrios, resultantes, por exemplo, de processamento de sinais digitais. Cada 0 do padro binrio deve ser colocado na forma de -1 para que
no hajam erros na execuo das equaes do algoritmo. Caso o padro seja
contnuo, este processamento torna-se desnecessrio.
A forma em que so apresentados os padres tambm de grande importncia. Se h mais de um, devem ser apresentados aleatoriamente, ou de forma
alternada. Nunca se deve treinar um padro para somente depois treinar outro,
isso deixaria os pesos da rede sempre tendendo a apenas um dos padres.
Um outro passo o ajuste dos parmetros do algoritmo, que so o coeciente de aprendizado e o coeciente de limiar . O coeciente determina
o intervalo de ajuste dos pesos, quanto maior seu valor, maior ser a diferena
dos valores de uma iterao a outra. Quanto maior o valor, maior o intervalo
17

de ajuste, e portanto maior ser a rapidez de convergncia. Por outro lado, se


o valor de for sempre alto, poder ocorrer o caso do sistema nunca chegar
numa convergncia, entrando em lao innito. Isto porque os valores nunca
sero pequenos o suciente para garantir uma sada convel, bem prxima a 0
ou a 1, dependendo da sada desejada. O valor de pode ser arbitrado (e, de
certa forma, ter que ser inicialmente arbitrado) pelo projetista da aplicao,
devendo car dentro do intervalo [0.01;1.0]. O coeciente poder ser varivel,
seguindo uma funo decrescente, partindo de um valor maior para um menor
quando prximo da convergncia.
J o coeciente de limiar pode seguir um ajuste conjuntamente com os
pesos ou ser denido pelo projetista. Ele responsvel pelo deslocamento,
na funo limiar, do ponto central de deciso da quantizao da sada. Em
outras palavras, um coeciente valendo 0 signica que no h deslocamento
em relao ao ponto onde a funo limiar cruza o eixo das abscissas (veja gura
1.3).
Enquanto o eixo das abscissas indica a sada linear S resultante da soma
ponderada, o eixo das ordenadas corresponde sada quantizada Sq, e o coeciente de limiar determina qual valor ser o limite para a transferncia de
-1 para 1, ou vice-versa. Se for denido como sendo 0,5, os valores de sada
abaixo (ou igual) a este coeciente passaro a valer -1, caso contrrio 1.
Uma vez realizado o ajuste dos parmetros, obtm-se, aps um determinado
nmero de iteraes, uma sada como a desejada.

Reconhecimento
Para efetuar o reconhecimento de um padro, ou seja, saber se ele pertence ou
no ao conjunto de padres treinados, basta que o algoritmo seja executado uma
vez, sem o ajuste de pesos. Isso basta para que obtamos uma sada quantizada
que indique a que padro treinado pertence o padro atual.

Vantagens e Desvantagens
A grande vantagem da implementao do algoritmo perceptron/adaline a simplicidade. So poucos parmetros a ajustar e o padro de entrada no necessita
de um pr-processamento muito elaborado, dependendo da aplicao.
Por outro lado, ele tem sua aplicao restrita a padres no muito complexos,
que sejam linearmente separveis (veja captulo introdutrio).

Aplicaes
A utilizao do perceptron/adaline est restrita quantidade de padres envolvidos e sua complexidade. Ele pode ser usado em reconhecimento de sinais
digitais ou, quando utilizado em grandes redes, pode ser aplicado caracteriza
o de apenas um padro por neurnio.

18

2.3 Backpropagation
2.3.1 Caractersticas
um modelo com entrada intervalar, aprendizado supervisionado e com
alimentao frente.
O backpropagation deriva-se do modelo perceptron/adaline [RUM 86]
[WID 90]. Seus neurnios so compostos por trs ou mais camadas de
adalines interconectados. Estes adalines tm uma diferena fundamental:
eles utilizam uma funo do tipo sigmoid como funo de limiar.
A funo de limiar do tipo sigmoid uma vez que necessria uma funo
no-linear para ampliar o potencial de classicao de um modelo. Essa
variao foi o que possibilitou a este e outros modelos realizarem representaes complexas, como o aprendizado da funo lgica XOR (ver seo
1.1). A funo sigmoid tem a forma:
sgm(Si ) = 1/(1 + e(Si ) )
onde S a sada linear resultante da soma ponderada do nodo i e o
coeciente de limiar.

Neste modelo, o erro obtido na sada transferido para as camadas intermedirias. Da o nome retropropagao (backpropagation). Isso se d
pela necessidade de ajuste dos neurnios que no tm contato com a sada,
necessitando, assim, de algum parmetro para atualizao dos pesos.
O clculo do erro comea na ltima camada, ele tem a forma:
si (t) = S(t)(1 S(t))(di (t) S(t))
onde S a sada linear, d a sada desejada, e i o nodo atual. A partir deste
erro so ajustados os pesos da ltima camada:

Pi (t + 1) = Pi (t) + si (t)En(t)
onde P o vetor de pesos, o coeciente de aprendizado e En o vetor
resultante da sada da camada anterior.

O erro da(s) camada(s) intermediria(s) feito a partir do erro da camada


de sada:
X
i (t) = En(t)(1 En(t))
k pik (t)
k

onde En o vetor resultante da sada da camada anterior at esta camada


intermediria; k o nmero de nodos conectados a seguir do atual; o
erro do nodo k; p o peso correspondente conexo do nodo atual com o
nodo k. A partir deste erro, so calculados os pesos:

Pi (t + 1) = P i(t) + i (t)En(t) + (Pi (t) Pi (t 1))


onde um coeciente de acelerao de convergncia denominado momentum.
19

2.3.2 Topologia

Figura 2.4: Multicamada: a topologia backpropagation uma ampliao do


modelo perceptron/adaline.
Como no modelo perceptron/adaline, ocorre uma camada de entrada para
recepo dos valores. A novidade a possibilidade de uma ou mais camadas
intemedirias (gura 2.4).

2.3.3 Algoritmo
1. Inicializar os pesos e coecientes de limiar com valores pequenos e randmicos.
2. Apresentar o vetor de entrada (padro) e a sada desejada.
3. Calcule a sada:

S(t) =

n1
X

Pi (t)Ei (t)

i=0

4. Aplique a funo sigmoid vista anteriormente:

Sq(t) = sgm(S(t))
5. Atualize os pesos da ltima camada:

Pi (t + 1) = Pi (t) + i (t)En(t)
e o clculo do erro:

si (t) = S(t)(1 S(t))(di (t) S(t))

20

6. Atualize os pesos da(s) camada(s) intermediria(s):

Pi (t + 1) = Pi (t) + i (t)En(t) + (Pi (t) Pi (t 1))


e o erro:

i (t) = En(t)(1 En(t))

k pik (t)

7. Voltar ao passo 2 at que atinja um valor prximo ao da sada desejada.

2.3.4 Uso
Aprendizado
A preparao do padro de entrada segue os mesmos princpios do perceptron/adaline: no h muito pr-processamento, dependendo da aplicao desejada. A aplicao tambm dene o nmero de neurnios na camada intermediria. Normalmente utiliza-se um neurnio para cada classe de padro. Por
exemplo, caso queira-se treinar o alfabeto, basta um neurnio por letra, mesmo
que haja um nmero expressivo de padres distintos (amostras) por letra. Tambm comum a utilizao de apenas uma camada intermediria para a grande
maioria das aplicaes. A seqncia de apresentao dos padres continua a
mesma do perceptron/adaline: aleatria ou alternada.
Aps denidos os padres e a topologia, so necessrias algumas iteraes
de treinamento para que se possa denir os parmetros. Como no perceptron/adaline, e podem ser denidos pelo projetista, assim como serem
funes variveis. O incremento deste modelo est no momentum . Este
coeciente permite a acelerao do processo de convergncia. Seu valor ca no
intervalo [0;1].
O treinamento se concretizar quando as sadas desejadas estiverem numa
margem segura de proximidade sada da funo sigmoid. Esta aproximao
existe devido diculdade de se chegar ao valor exato da sada deseja e, ento,
estima-se uma margem de erro para que se alcance a convergncia.
Para a maioria das aplicaes so necessrias muitas iteraes at a convergncia. Isso tambm dependente de um bom ajuste dos coecientes envolvidos.

Reconhecimento
Como no perceptron/adaline, o reconhecimento apenas uma iterao do algoritmo para vericao da sada. Dado o padro que se quer reconhecer, realiza-se
uma iterao do algoritmo, excetuando-se obviamente o ajuste de pesos, e comparando a sada do sigmoid com as sadas desejadas aprendidas. Do resultado
desta comparao sabe-se se a qual classe o padro pertence.

Vantagens e Desvantagens
A grande vantagem deste modelo sua capacidade de abranger as mais variadas
classicaes de padres, podendo ser utilizado numa enorme gama de aplicaes
(veja seo seguinte).
21

Por outro lado, as disvantagens tambm so muitas. Em geral, o tempo de


treinamento extremamente longo para a maioria das aplicaes de uso prtico,
como o reconhecimento de caracteres. H tambm certos tipos de padres, como
os envolvidos em sries temporais, que demandam uma grande necessidade de
pr-processamento, dada a complexidade da anlise e classicao dos padres
em questo.

Aplicaes
O backpropagation utilizado para reconhecimento de caracteres, composio
musical, sries temporais, reconhecimento de sinais em geral, treinamento de
robs, etc. Alguns destes exemplos esto citados no captulo introdutrio.

2.4 Hopeld
2.4.1 Caractersticas
caracterizada por ser do tipo binria, supervisionada e com retro-alimentao.
baseada no conceito de energia da rede, onde esta proporcional troca
de estados da rede. Isto , quanto maior for a oscilao entre um estado e
outro na sada, maior ser a energia. Portanto, a fase de reconhecimento
tem por objetivo minimizar a quantidade de energia de maneira que a rede
convirja para um nico estado na sada [WAS 89].

2.4.2 Topologia

Figura 2.5: Retro-alimentao: topologia de Hopeld, com trs nodos.

22

Como podemos ver pela gura 2.5, h uma retro-alimentao que vai da sada
de cada neurnio para a entrada de todos os demais, exceto a sua prpria
entrada.

2.4.3 Algoritmo
1. Inicializar os pesos das conexes:
PM 1 s s
s=0 xi xj
wij =
0

se i 6= j
se i = j

onde wij o peso da conexo entre o nodo i e o nodo j, e xsi o elemento


de entrada i do padro s. Existem M padres, de 0 a M-1. Os limiares
das unidades zero.
2. Inicializar a rede com um padro desconhecido:

i (0) = xi ,

0 <= i <= N 1

onde i (t) a sada do nodo i no tempo t.


3. Iteragir at convergir:

i (t + 1) = fh [

N
1
X

wij j (t)]

i=0

A funo fh a funo de limiar hard-limiter.


4. Volte ao passo 2 e repita a iterao at que as sadas dos nodos permanea
inalteradas.

2.4.4 Uso
Aprendizado
Pelo fato da rede de Hopeld ser do tipo binria, a primeira atitude a ser
tomada antes do aprendizado e tambm da fase de reconhecimento da rede,
converter os valores binrios (0,1) em bipolares (-1,1), para que o valor 0 no
cause problemas quanto o clculo das sadas.
Aps, os padres exemplares, isto , aqueles com que a rede ser treinada e
para os quais a rede dever convergir, so inseridos na entrada aleatoriamente.
A fase de treinamento ir se encerrar a partir do instante que, no importando
o padro exemplar posto na entrada, a rede devolver o mesmo padro na sada
ao longo de sucessivas iteraes. Portanto, ao contrrio de outras redes como
Backpropagation e Kohonen, onde pode-se determinar uma condio de parada
na fase de aprendizado, no modelo de Hopeld isto no acontece, pois neste o
treinamento s encerrado aps a rede convergir para um nico estado na sada.

23

Reconhecimento
Na etapa de reconhecimento, padres diversos sero inseridos na rede e para
cada um deles a rede tentar convergir para o padro exemplar que melhor
se aproxima deste. O reconhecimento poder no convergir em virtude das
limitaes do modelo explicadas na seo seguinte.

Vantagens e Desvantagens
A rede de Hopeld tm como vantagem o fato de ser adequada quando se deseja
utilizar uma memria associativa, isto , uma memria que armazena diversos
padres ao mesmo tempo e que cada um deles pode ser referenciado dependendo
com qual deles melhor se assemelha o padro de entrada .
Este modelo tem duas desvantagens, ou em outras palavras, duas restries a
m de que possibilite uma boa capacidade de reconhecimento sem redundncias.
Uma delas que o nmero de padres a ser ensinado, ou nmero de padres
exemplares, dever ser no mximo 15% do total de nodos da rede. E um outro
ponto com o qual deve-se ter cuidado no permitir que um padro exemplar
compartilhe muitos bits com um outro padro, pois isto pode confundir a rede.

Aplicaes
Uma das muitas aplicaes do modelo de Hopeld que pode ser citado um
conversor Analgico-Digital. Neste, os amplicadores funcionam como se fossem
os neurnios da rede e os resistores como os pesos. Todas as sadas da rede so
trocadas no incio de intervalos discretos chamados de poca. No incio de cada
poca, a soma das entradas de cada neurnio somado, e se ultrapassar o
limiar previamente denido, a sada ser 1, caso contrrio, ser 0. O objetivo
selecionar os resistores a m de que um aumento contnuo de uma tenso X
aplicada a uma entrada, produza um conjunto de quatro sadas, cujo valor em
binrio corresponderia ao nvel da tenso de entrada.

2.5 Kohonen
2.5.1 Caractersticas
Possui auto-aprendizado, entrada intervalar e conexo competitiva.
No h propriamente um reconhecimento de padro como em outros modelos, mas h a classicao de um padro junto com outros que tm
caractersticas semelhantes, formando classes. Estas classes so organizadas num mapa, onde pode-se observar a distribuio dos padres. Desta
maneira, no instante em que um padro inserido na rede, esta o coloca na
classe onde melhor o padro se adequa, em funo das suas caractersticas.
Um outro aspecto importante que o modelo de Kohonen chamado de
biologicamente plausvel. No crtex auditivo, por exemplo, existem con24

juntos de clulas que s reagem a determinados impulsos ou freqncias,


enquanto a outros no [EBE 90]. No modelo ocorre o mesmo, onde um
padro ao ser reconhecido faz com que um ou somente alguns neurnios de
sada sejam ativados (aqueles que mais se assemelham ao padro inserido)
enquanto outros no.

Este tipo de rede usado quando se deseja, por exemplo, reconhecer diversos padres que possuam alguma relao entre si, como reconhecimento
de voz, que ser explicado posteriormente na seo de aplicaes.

2.5.2 Topologia

Figura 2.6: Topologia: rede Kohonen de duas entradas e quatro sadas.


A rede Kohonen (veja gura 2.6) composta por um nmero de entradas
correspondente ao tamanho dos padres e um conjunto de neurnios de sada,
sendo que cada padro a ser reconhecido dever ter, no mnimo, um neurnio
de sada correspondente. Isto , se for necessrio a distino entre 10 padres,
a quantidade mnima na camada de sada so 10 neurnios.

2.5.3 Algoritmo
1. Inicializao dos pesos da rede com valores baixos (0.01 a 0.1) escolhidos
aleatoriamente. Ajuste inicial do raio de vizinhana, que poder comear
com a metade do dimetro da rede e ir diminuindo linearmente.
2. Insero do padro de entrada.
3. Clculo das distncias de cada sada:
q
1
2
dj = N
i=0 (xi (t) wij (t))
25

onde:

dj - distncia entre a sada do nodo j com a entrada


N - nmero de entradas
xi (t) - entrada xi no tempo t
wij (t) - peso da conexo do neurnio de entrada i para o neurnio j
no tempo t

4. Seleo da menor distncia


5. Atualizao dos pesos do neurnio com a menor distncia (neurnio vencedor) e seus vizinhos, denidos pelo raio de vizinhana. Isto feito segundo
a frmula:
wij (t + 1) = wij (t) + (t)(xi (t) wij (t))

wij (t + 1) - peso da conexo do neurnio de entrada i para o neurnio


j no tempo t+1
(t) - coeciente de aprendizado no tempo t
O coeciente (t) poder variar desta maneira:

(t) = 0.9(1 t/1000)


Os neurnios que no pertencem vizinhana do vencedor no devem ter
seus pesos atualizados.
6. Repetir a partir do passo 2.

2.5.4 Uso
Aprendizado
Este modelo extremamente dependente da forma com a qual os padres de
entrada esto denidos. Isso porque o modelo apenas far uma distribuio
dos padres na rede. Se estes padres no possuem uma codicao numrica
uniformemente distribuda, eles podero entrar em conito, no representando o
que se deseja. Para tanto, so necessrios muitos ajustes iniciais at encontrar-se
um pr- processamento adequado aplicao pretendida.
Aps um padro ser inserido na rede, calculada a distncia euclidiana,
respectiva a cada neurnio de sada, e, aps, verica-se aquele que alcanou
o maior valor. Este neurnio levar o nome de neurnio vencedor, e ter o
peso da sua conexo alterada. Alm deste neurnio, outros neurnios de sada
podero tambm ter seus pesos alterados. Isto porque antes de ser realizado
o treinamento, ajusta-se uma varivel chamada de raio de vizinhana (que
poder ser alterado durante o treinamento). O raio indica a qual distncia
mnima do neurnio vencedor um determinado neurnio dever estar para ter
seu peso alterado. Este clculo feito atravs da comparao da diferena entre
a distncia do neurnio vencedor e cada um dos demais, podendo esta distncia
ser vista como um mapa, como uma separao fsica entre os neurnios.
26

Reconhecimento
Depois de um determinado nmero de iteraes, os pesos da rede estaro ajustados de maneira a poder classicar adequadamente os padres a serem reconhecidos. Assim, ao ser inserido um padro, um determinado neurnio de sada se
ativar, indicando aquele que tiver a menor distncia em relao a sua entrada.
Desta forma, a rede no ir exibir um resultado exato de reconhecimento, mas
sim ir classicar o padro conforme as suas caractersticas.

Vantagens e Desvantagens
O modelo de Kohonen pode ser usado nas diversas aplicaes onde comumente
se utilizam outros modelos de redes neurais, como reconhecimento de padres,
robtica, processamento de sinais. Porm, ele se torna eciente [KOH 90] naquelas aplicaes em que os padres possuam alguma relao entre si, podendo
desta forma, serem classicados. Um exemplo que pode ser citado o de reconhecimento da fala, citado no item referente a aplicaes.
A rede possui como desvantagens o fato de ser um pouco complexa em relao
aos outros modelos, pois as variveis como raio de vizinhana e coeciente de
aprendizado devem ser ajustados adequadamente para que o aprendizado seja
realizado com sucesso. Alm disso, o nmero mdio de iteraes necessrios
para o treinamento de 500 vezes o nmero de nodos de sada [KOH 90].

Aplicaes
Como exemplo de aplicao pode ser citado a mquina de escrever fontica,
ou Phonetic Typewriter . O objetivo desta rede , ao ser pronunciada uma
palavra, no caso no idioma nlands, a rede ir informar os provveis fonemas
constituintes daquela palavra. Para tanto, a rede treinada com os fonemas
do idioma, onde estes, dependendo de suas caractersticas, so agrupados com
outros que possuem caractersticas similares. Assim, a cada fonema pronunciado
ser ativado um determinado neurnio de sada correspondente.

2.6 ART
2.6.1 Caractersticas
A Teoria da Ressonncia Adaptativa (Adaptive Resonance Theory) resultou num classicador projetado por Carpenter e Grossberg que possui entrada binria, conexo retro-alimentada e aprendizado no-supervisionado
[LIP 87].
A idia de armazenamento dos padres tem semelhanas com o modelo
de Kohonen, uma vez que h a distino de zonas, a comparao entre
as distncias vetoriais das somas ponderadas, e a escolha de um neurnio
vencedor.

27

Como ele retro-alimentado, o algoritmo tem variantes dos demais apresentados, possuindo um neurnio vencedor varivel, dependente do padro
de entrada.

2.6.2 Topologia

Figura 2.7: ART: uma topologia com conexes retro-alimentadas.


Na gura 2.7, v-se que h a retro-propagao dos sinais, o que permite ao
ART a seleo dos neurnios que melhor representariam um dado padro de
entrada. A interconexo entre os dois nodos de sada permite a inibio lateral
entre eles para a denio do valor mximo de sada.

2.6.3 Algoritmo
1. Inicializar contadores:

pesos de conexes da entrada para a sada so inicializadas na forma:


fij (0) = 1
pesos de conexes da sada para a entrada recebem:
rij (0) = 1/(1 + N )
onde i o nodo de entrada e 0 i N 1, j o nodo de sada e
0 j M 1, N o nmero de nodos de entrada e M o nmero de
nodos de sada. Ainda deve-se dar um valor ao coeciente de limiar ,
que serve para vericar se a soma ponderada da entrada est prxima
aos pesos estabelecidos at o momento. Este coeciente tem um valor
no intervalo [0;1].
2. Apresentar padro de entrada.

28

3. Calcular somas ponderadas dos nodos de entrada:

j =

N
1
X

rij (t)ei

i=0

onde t o lao da iterao do algoritmo e e o componente do vetor de


entrada.
4. Selecionar o neurnio vencedor atravs da comparao das somas ponderadas, ou seja, o que tem maior valor ser o vencedor.
5. Realizar o teste de limiar:
se a diviso entre a distncia euclidiana entre os pesos F da entrada para
a sada do neurnio vencedor e a entrada E e o mdulo vetorial da entrada
for maior que o limiar:
kF Ek/kEk >
ento continue, caso contrrio, volte ao passo 3.
A distncia entre F e E calculada na forma:

kF Ek =

N
1
X

fiv (t)ei

i=0

onde v o neurnio vencedor, e o mdulo de E:

kEk =

N
1
X

ei

i=0

6. Ajustar os pesos do neurnio vencedor v:


primeiro os pesos da entrada para a sada:

fiv (t + 1) = fiv (t)ei


e depois da sada para a entrada:

riv (t + 1) = fiv (t + 1)/(0.5 + kF Ek)


7. Volte ao passo 2.

2.6.4 Uso
Aprendizado
O aprendizado do modelo ART bem distinto dos modelos vistos anteriormente, apenas com algumas semelhanas com o de Hopeld e o de Kohonen.
Assemelha-se ao de Kohonen em sua forma de distribuio dos pesos na rede
atravs da seleo de um neurnio vencedor, com a diferena de que no ART
29

apenas o vencedor atualizado, no havendo a atualizao da vizinhana, que


caracteriza o aprendizado competitivo. Quanto semelhana ao Hopeld, notase que o padro a aprender confunde-se com aquele a reconhecer, uma vez que
h iteraes para ambos. Apesar disso, h uma grande diferena entre ambos:
Hopeld possui um aprendizado supervisionado, ou seja, os padres devem ser
apresentados anteriormente, e ART tem um aprendizado no-supervisionado,
podendo assim ter um reconhecimento intercalado com o aprendizado, havendo
a combinao de padres novos com j aprendidos.
O aprendizado ART no necessita a tranformao da entrada binria (0 e
1) em bivalente (-1 e 1), como em outros modelos. H somente um parmetro
a denir, o coeciente de limiar , tambm chamado de limiar de vigilncia.
Como nos outros modelos, este coeciente determina se um padro est ou no
treinado ou, neste caso, adaptado aos padres atuais.

Reconhecimento
O reconhecimento confunde-se com o aprendizado, uma vez que este um modelo no-supervisionado que incorpora padres desconhecidos e adapta padres
semelhantes.

Vantagens e Desvantagens
O modelo ART possui a facilidade de no ter necessidade de um aprendizado
prvio, podendo adaptar-se de acordo com a necessidade. Por outro lado, este
modelo muito sensvel a padres distorcidos, no podendo fazer uma boa
diferenciao entre padres semelhantes, limitando, assim, em muito suas aplicaes.

Aplicaes
Utiliza-se o ART para reconhecimento de imagens, mais comumente para reconhecimento de caracteres.

30

Referncias Bibliogrcas
[BEA 90]

BEALE, R. & JACKSON, T. Neural Computing: An Introduction. Adam Hilger, Bristol, 1990.

[EBE 90]

EBERHART, R. & DOBBINS, R. Neural Networks PC Tools - A


Practical Guide. Academic Press, San Diego, 1990.

[EBEa 90]

EBERHART, R. & DOBBINS, R. Case Study V: Making Music.


In: Neural Networks PC Tools - A Practical Guide. Eberhart, R.
& Dobbins, R. Academic Press, San Diego, 1990.

[KOH 90]

KOHONEN, T. The Self-Organizing Map. Proceedings of the


IEEE, V.78, n. 9, Sep. 1990.

[LIP 87]

LIPPMAN, R. P. An Introduction to Computing With Neural


Nets. IEEE ASSP Magazine, v. 3, n. 4, apr. 1987.

[RUM 86]

RUMELHART, D. E. & MCCLELLAND, J. L. Learning Internal


Representations By Error Propagation. In: Parallel Distributed
Processing. Rumelhart, D. E. and McClelland, J. L. MIT Press,
Cambridge, 1986.

[SIG 90]

SIGILLITO, V. & HUTTON, L. Case Study II: Radar Signal


Processing. In: Neural Networks PC Tools - A Practical Guide.
Eberhart, R. & Dobbins, R. Academic Press, San Diego, 1990.

[SIM 90]

SIMPSON, P. K. Articial Neural Systems: Foundations, Paradigms, applications, and implementations.Pergamon Press, 1990.

[WAS 89]

WASSERMAN, P. Neural Computing Theory and Practice. Van


Nostrand Rheinhold, New York, 1989.

[WID 90]

WIDROW, B. & LEHR, M. A. 30 Years of Adaptive Neural


Networks: Perceptron, Madaline and Backpropagation. Proceedings of the IEEE, v. 78, n. 9, sep. 1990.

[ZAR 90]

ZAREMBA, T. Case Study III: Technology in Search of a Buck.


In: Neural Networks PC Tools - A Practical Guide. Eberhart, R.
& Dobbins, R. Academic Press, San Diego, 1990.

31

Você também pode gostar