Escolar Documentos
Profissional Documentos
Cultura Documentos
Rna C3 PDF
Rna C3 PDF
Captulo 3
O Perceptron
No captulo anterior estudamos algoritmos de aprendizagem supervisionados, nos
quais o aprendizado acontece atravs de um tutor. Em 1958 Rosenblatt props o Perceptron
como o primeiro modelo para aprendizagem de RNAs por meio de um tutor.
O Perceptron a forma mais simples de uma RNA usada para classificao de
padres linearmente separveis; ou seja, padres que esto em lados opostos de um
hiperplano. Consiste basicamente de um nico neurnio com pesos sinpticos ajustveis e
uma polarizao (bias).
O algoritmo usado para ajustar os parmetros livres desta RNA foi apresentado pela
primeira vez no procedimento de aprendizagem desenvolvido por Rosenblatt, que provou
que:
Se os padres (vetores) usados para treinar o Perceptron so
retirados de duas classes linearmente separveis, ento o algoritmo
Perceptron converge e posiciona a superfcie de deciso na forma de um
hiperplano entre as duas classes.
A prova de convergncia do algoritmo conhecida como Teorema de Convergncia
do Perceptron.
O Perceptron de um nico neurnio limitado a desempenhar classificao de
padres com apenas duas classes (duas hipteses). Atravs da expanso da camada
computacional de sada do Perceptron para incluir mais do que um neurnio, possvel
classificar mais do que duas classes. Entretanto, as classes tm que ser linearmente
separveis para que o Perceptron tenha um desempenho adequado. Um ponto importante
que a extenso da teoria bsica do Perceptron a partir do caso de um neurnio para o caso
de mais de um neurnio trivial.
O neurnio nico tambm forma a base de um filtro adaptativo, um bloco funcional
que bsico nas aplicaes concernentes a processamento de sinais. O desenvolvimento da
filtragem adaptativa devido grandemente ao clssico trabalho de Widrow e Hoff (1960)
por apresentarem pela primeira vez o algoritmo Least-Mean-Square (LMS), tambm
conhecido como a Regra Delta.
O algoritmo LMS e o Perceptron so relacionados e sero estudados ao longo deste
captulo. Primeiramente iremos abordar o problema da filtragem adaptativa e o algoritmo
LMS para, aps, tratarmos do Perceptron de Rosenblatt.
Figura 3.1: (a) Sistema dinmico desconhecido . (b) Grafo de fluxo de sinal para o modelo
adaptativo do sistema.
Portanto, o comportamento externo do sistema descrito pelo mapeamento
: x(i ) M d (i ) , i = 0,1, ! , N 1
(3.1)
(3.2)
Note que, na grande maioria dos casos, tambm no se conhece com preciso a
distribuio de probabilidade dos elementos do conjunto , de modo que a tentativa de
resolver um problema de filtragem atravs de uma abordagem estatstica (atravs da matriz
de correlao, por exemplo) no raro conduz a resultados no satisfatrios.
Um estmulo x(i ) aplicado a um sistema pode originar-se de dois cenrios
fundamentais, um espacial e outro temporal:
Para cada valor de i, o algoritmo A deve ser rpido o suficiente para ajustar todas as M
transmitncias sinpticas do neurnio dentro do intervalo de tempo que transcorre entre
a ocorrncia das entradas x(i ) e x(i + 1) .
y(i ) = v(i ) = wk (i )x k (i )
(3.3)
k =0
y (i ) = x (i )w(i )
(3.4)
onde
w(i ) = [w0 (i ) w1 (i ) ! wM 1 (i )]
(3.5)
(3.6)
Observe de (3.4) e (3.6) que o sinal de erro e(i ) depende do vetor w(i ) . Note
tambm que w(i ) o parmetro livre do neurnio que ser sucessivamente ajustado pelo
algoritmo A, objetivando minimizar e(i ) . Portanto, para que se possa medir a ineficincia
do processo de ajuste de w , e, em funo disto adotar as correes necessrias, til
definir uma funo J (e ) (ou J (w) , j que e depende de w ) que defina da maneira o mais
inequvoca possvel o grau de incompetncia do neurnio em aproximar sua sada y (i)
de d (i ) .
A funo J (w) , cujo valor resultante uma grandeza escalar real, denominada de
funo de custo. A definio de J (w) deve ser tal que mea o quanto o processo de ajuste
est sendo incapaz de reduzir o erro e(i ) entre d (i ) e y (i) . Por exemplo, uma popular
definio de J J = J(e ) = 12 e 2 . Em especial, o algoritmo A e a funo de custo J
idealmente devem ser tais que J (w(n + 1)) < J (w(n )) , onde n um instante qualquer do
processo de ajuste.
Existem, no entanto, outros algoritmos, como o Mtodo de Newton e o Mtodo de GaussNewton, que so descritos em [4].
No algoritmo SD os sucessivos ajustes aplicados w esto na direo da descida
mais ngreme da superfcie S = H(w0 , w1 ," , wM 1 ) formada pelos valores escalares H do
conjunto
w = [w0
imagem
de
J (w)
em
funo
do
domnio
M-dimensional
aplicados w esto na direo oposta do vetor gradiente J (w) da superfcie formada por
J (w) .
Uma interpretao intuitiva do mtodo SD imaginarmos um observador mope que
enxergue apenas a distncia de um passo ao seu redor, caminhando sobre a superfcie J (w) ,
e cujo objetivo chegar ao ponto de cota mnima de J (w) o mais rapidamente possvel. No
instante n o observador, localizado na coordenada w(n ) , olha ao redor e localiza a direo
J (w(n )) de subida mais ngreme em J (w) . A seguir o observador d um passo na direo
contrria J (w(n )) de tamanho proporcional declividade J (w(n )) encontrada na
coordenada w(n ) e desloca-se para a nova coordenada w(n + 1). Supondo que no existam
mnimos locais (buracos e/ou depresses) na superfcie J (w) de dimetro algo maior que o
( ) na coordenada w
aps repetir
(3.7)
J = J(e(n )) = 12 e 2 (n )
(3.8)
J (w(n ))
w(n )
(3.9)
12 e 2 (n )
e(n )
J(w(n )) =
= e(n )
w(n )
w(n )
(3.10)
(3.11)
Vimos que
T
10
(3.12)
(3.13)
(3.14)
11
. Como no existem
( ) na coordenada w
cota mnima J w
ele ficar eternamente pulando sobre e ao redor dela a menos que, por um raro golpe de
*
Inicializao do vetor w :
w = w(0) = 0
Procedimento Computacional:
12
(3.15)
(3.16)
onde Z{}
o operador Transformada Z e z 1 o operador atraso unitrio (unit delay). A
partir das equaes (3.15) e (3.16) podemos representar o algoritmo LMS atravs do grafo
de fluxo de sinal mostrado na Figura 3.3.
A Figura 3.3 revela que o algoritmo LMS pode ser considerado como um sistema
realimentado, j que existem dois loops de feedback, um superior e outro inferior. A
presena de realimentao exerce um profundo impacto no comportamento do algoritmo
LMS, visto que os parmetros dos loops definem a estabilidade da trajetria dos estados de
qualquer sistema realimentado.
13
x(n )x T (n ) , a qual depende do vetor de entrada x(n ), com parmetro de controle dado
pela razo de aprendizado . Infere-se, portanto, que a estabilidade da trajetria de w(n )
influenciada pelas caractersticas estatsticas do conjunto de vetores de entrada x e pelo
valor da razo de aprendizado .
Expressando este fato de outro modo, para um dado conjunto de vetores de entrada
x deve-se escolher tal que a trajetria de w(n ) seja estvel o suficiente para permitir a
convergncia para as vizinhanas de w* . A convergncia da trajetria de w(n ) para as
vizinhanas de w caracterizada por uma constncia no valor mdio de e 2 (n ).
*
14
0 < <
2
1
N
N 1
x (i )x(i )
T
(3.17)
i =0
3.3 O Perceptron
Enquanto que o algoritmo LMS, descrito na Seo 3.2, construdo em torno de
um neurnio linear, o Perceptron construdo ao redor de um neurnio no-linear, que o
neurnio descrito pelo modelo de McCulloch-Pitts.
Conforme vimos no Captulo 1, este modelo de neurnio consiste de um
combinador linear seguido de um limitador, desempenhando a funo signum, conforme
mostrado na Figura 3.4.
15
signum. Desta forma, o neurnio produz uma sada igual a (+1) se a entrada do limitador
positiva, e (-1) se negativa.
No grafo de fluxo de sinal mostrado na Figura 3.4, os pesos sinpticos do
Perceptron so denotados por w1 , w2 , ! , wm . De forma correspondente, as entradas
aplicadas ao Perceptron so denotadas por
v = wi x i = b
(3.18)
i =1
wi x i + b = 0
(3.19)
i =1
conforme ilustrado na Figura 3.5 para o caso de duas variveis de entrada x1 e x 2 , para as
quais o limite de deciso assume a forma de uma linha reta. Um ponto (x1 , x 2 ) que esteja
acima da linha limtrofe atribudo classe C1 e um ponto (x1 , x 2 ) que esteja abaixo da
linha limtrofe atribudo classe C 2 . O efeito da polarizao (ou bias) simplesmente
deslocar o limite de deciso para longe da origem.
16
Figura 3.5: Ilustrao do hiperplano (neste caso, uma linha reta) como limite de deciso
para um problema de classificao de padres de duas classes (bi-dimensional).
17
Figura 3.6: Grafo de fluxo de sinal equivalente do Perceptron (a dependncia do tempo foi
omitida por questes de clareza).
Pode-se, ento, definir o vetor de entrada [(m + 1) 1] -dimensional como
x(n ) = [+ 1 x1 (n ) x 2 (n ) ! x m (n )]T
(3.20)
(3.21)
da mesma forma, a sada do combinador linear pode ser escrita na forma compacta,
m
v(n ) = wi (n ) x i (n ) = w T (n ) x(n )
(3.22)
i =0
18
Figura 3.7: (a) Um par de padres linearmente separveis. (b) Um par de padres nolinearmente separveis.
Este requerimento ilustrado na Figura 3.7 para o caso de um Perceptron bidimensional. Na Figura 3.7(a), as duas classes C1 e C 2 so suficientemente separveis uma
da outra, de tal forma que possvel desenhar um hiperplano (neste caso uma linha reta)
como limite de deciso. Se, entretanto, as duas classes C1 e C 2 tivessem se aproximado
tanto uma da outra (como mostrado na Figura 3.7(b)) teriam se tornado no-linearmente
separveis, uma situao que est alm da capacidade computacional do Perceptron.
Suponhamos ento que as variveis de entrada do Perceptron tenham se originado
de duas classes linearmente separveis. Seja 1 o sub-conjunto de vetores de treino
x 1 (1), x 1 (2), " que pertenam classe C1 , e seja 2 o sub-conjunto de vetores de treino
x 2 (1), x 2 (2), " que pertenam classe C 2 . A unio de 1 e 2 o conjunto de treino
completo .
19
20
(3.24)
(3.25)
21
(3.26)
(3.27)
(3.28)
x (n )1
(3.29)
(3.30)
w(n + 1) w T0 w(n + 1)
2
(3.31)
[w
T
0
22
[w
w0
T
0
2
w(n + 1)
w(n + 1)
w(n + 1) n 2 2
w0
(3.32)
ou equivalentemente,
(3.33)
n 2 2
w(n + 1)
2
w0
(3.34)
(3.35)
(3.36)
(3.37)
w(n + 1) x(k ) n
2
(3.38)
k =1
onde
= max x(k )
x (k )1
23
(3.39)
w0
= n max
(3.40)
nmax =
w0
(3.41)
Temos, assim, provado que para (n ) = 1 para todo n, w(0) = 0 e dado que existe
um vetor soluo w 0 , a regra para adaptao dos pesos sinpticos do Perceptron deve
terminar aps, no mximo, n max iteraes. Note tambm a partir das Equaes (3.28),
(3.39) e (3.41) que no h uma nica soluo para w 0 ou n max .
Podemos, agora, afirmar que o teorema da convergncia da regra de adaptao de
incremento fixo para o Perceptron como segue:
Sejam os sub-conjuntos de vetores de treino 1 e 2 linearmente separveis;
Sejam as entradas apresentadas ao Perceptron originadas destes dois sub-conjuntos;
converge
aps algumas iteraes n0 , no sentido de que
O Perceptron
w(n 0 ) = w(n 0 + 1) = w(n 0 + 2 ) = ! um vetor soluo para n 0 n max .
24
(3.42)
y (n ) = sgn w T (n )x(n )
25
(3.43)
Variveis e Parmetros:
Vetor de entrada x(n ) de dimenso [(m + 1) 1] ; x(n ) = [+ 1 x1 (n ) x 2 (n ) ! x m (n )]T
Vetor de pesos w(n ) de dimenso [(m + 1) 1] ; w(n ) = [b(n ) w1 (n ) w2 (n ) ! wm (n )]T
Bias = b(n )
Resposta atual (quantizada) = y (n )
Resposta desejada = d (n )
Parmetro razo de aprendizado (constante positiva <1) =
1. Inicializao: Faa w(0) = 0 . Ento execute as etapas seguintes do algoritmo para os
instantes de tempo n = 1,2, "
2. Ativao: No instante de tempo n ative o Perceptron aplicando o vetor de entrada x(n )
e a resposta desejada d (n ).
3. Cmputo da Resposta Atual: Compute a resposta atual do Perceptron atravs de
26
Note que o vetor de entrada x(n ) um vetor [(m + 1) 1] , cujo primeiro elemento
fixo em (+1) ao longo de todo o processo computacional. De forma correspondente, o vetor
de pesos w(n ) um vetor [(m + 1) 1] , cujo primeiro elemento igual ao bias b(n ) . Outro
ponto a salientar na Tabela 3.2 a introduo de uma resposta desejada quantizada d (n ),
definida por
+ 1 se x(n ) pertence classe C1
d (n ) =
1 se x(n ) pertence classe C 2
(3.44)
Ento, a adaptao do vetor de pesos w(n ) pode ser sumarizada na forma da regra
de aprendizado por correo de erro:
w(n + 1) = w(n ) + [d (n ) y (n )]x(n )
(3.45)
27
28