Você está na página 1de 57

Aluizio Fausto Ribeiro Arajo

Universidade Federal de Pernambuco


Centro de Informtica
Perceptron Multi-camadas
Treinada por Retropropagao
2
Contedo
Histrico
Introduo
Perceptron de Camadas Mltiplas
Algoritmo de Retropropagao: Descrio, Funes, Capacidades
e Exemplos
Aproximao de Funes
Arquivo de Treinamento para Generalizao.
Seleo de Modelo
Protocolo de Treinamento
Pontos Positivos e Negativos do MLP-BP
Heursticas para Melhoria de Desempenho do MLP-BP
Tcnicas para Melhoria do MLP-BP
3
Histrico
O perceptron de Rosenblatt: Neurnio com pesos e bias ajust veis.
Teorema da convergncia do perceptrom: Se padres empregados
para treinar o perceptron so extrados de duas classes linearmente
separveis, ento o algoritmo converge e posiciona uma superfcie de
deciso na forma de hiperplano para separar duas classes.
Limitaes do perceptron:
Resolve apenas casos linearmente separveis.
A no-linearidade na ativao do perceptron (funo limiar) no
diferencivel, logo no pode ser aplicada a camadas mltiplas.
Um simples neurnio gera uma classe de solues que no so gerais
para resolver problemas mais complexos, justificando o aparecimento
do Perceptron de Camada Mltipla (MLP).
4
Histrico
Surgimento do MLP treinado por retropropagao (MLP-BP):
Widrow & Hoff (1960) introduzem o algoritmo mnimo quadrado mdio
(LMS), considerando uma rede de 3 camadas com pesos fixos da entrada
para a camada escondida e pesos ajustveis (regra delta) da camada
escondida para a de sada.
Desenvolvimento do MLP-RP:
Filtro de Kalman (Kalman 1960, Bryson,Denham,Dreyfus 1963,1969).
Werbos: Tese de doutorado (Havard University, 1974): Beyond Regression:
New Tools for Prediction and Analysis in the Behavioral Science.
Parker 1982,1985: "Learning logic: Casting the cortex of the human brain in
silicon," TR-47, M.I.T. Center for Computational Research in Economics
and Management Science, Cambridge, MA, Feb. 1985.
Rumelhart, Hinton, Williams: Learning internal representations by
backpropagating errors, Nature 323(99),pp533-536, 1986.
5
Introduo
A rede neural supervisonada chamada Perceptron
multicamadas (multilayer percetron) utiliza mtodos derivados
do gradiente no ajustes de seus pesos por retropropagao.
Esta rede consiste de uma camada de entrada, uma ou mais
camadas escondidas e uma camada de sada. Um sinal de entrada
propagado, de camada em camada, da entrada para a sada.
MLP treinada com um algoritmo de retropropagao do erro.
Estgios da aprendizagem por retropropagao do erro:
Passo para frente: Estmulo aplicado entrada propagado para
frente at produzir resposta da rede.
Passo para trs: O sinal de erro da sada propagado da sada
para a entrada para ajuste dos pesos sinpticos.
6
Introduo
A MLP apresenta trs caractersticas importantes:
Cada unidade de processamento tem funo de ativao logstica
(forma sigmoidal) que no-linear, suave e diferencivel.
Existncia de ao menos uma camada escondida que possibilita
aprendizagem de tarefas complexas por extrao progressiva de
caractersticas relevantes dos padres de entrada.
O grau de conectividade alto.
As limitaes de um Percepton simples devem desaparecer quando
se utiliza camadas intermedirias, ou escondidas, entre as camadas
de entrada e de sada.
O emprego de Redes MLP aumentou com a introduo do mtodo
retropropagao para aprendizagem.
7
Introduo
Sumrio da MLP-RP
Camada de entrada
Camada escondida
Camada de sada
Unidade de bias
net
j
= w
t
j
x
y
j
= f(net
j
)
f(net
k
) = Sigm(net
k
)
z
k
= f(net
k
)
8
Perceptron de Camadas Mltiplas
O modelo arranjado em 3 camadas
1
Camada de
entrada
x
i
x
1
x
2
x
n
1
2
i
n
1
2
k
l
y
Sinais de entrada
Sinais de erro
w
kj
w
ji
1
2
j
m
Camada
escondida
Camada de
sada
2
y
k
y
l
y
z
j
9
Algoritmo MLP-BP
Sinal de erro para a unidade k na iterao n:
Erro total:
C o conjunto de nodos de sada.
Erro quadrado mdio:
Mdia sobre todo conjunto de treinamento.
Npad o nmero de padres.
Processo de aprendizagem: Ajusta parmetros
(pesos sinpticos) para minimizar Eav.
Pesos so atualizados padro a padro at
completar uma poca (apresentao completa
do conjunto de treinamento).
) ( ) ( ) ( n y n t n e
k k k

) (
2
1
) (
2
n e n E
C k
k

Npad
n
av
n E
N
E
1
) (
1
10
Algoritmo MLP-BP
2
)) ( ) ( (
2
1
) ( n y n t n E
k
C k
k

) ( ) ( ) (
0
n z n w n net
i
m
i
ki k

z
1
z
2
z
m
.
.
.
net
k
y
k
z
0
= +1
(.)
W
k0
= b
k
w
k1
w
k2
w
km
)) ( ( ) ( n net n y
k k k

Notao:
11
Algoritmo MLP-BP
Atualizao dos pesos
Gradiente Descendente
Por simplicidade de notao, o
ndice n ser retirado.
) (
) (
) (
n w
n E
n w
pq
pq


) ( ) ( ) 1 ( n n n W W W + +
pq
pq
w
E
w


12
MLP-BP: Ajuste de pesos j->k (nodo h-o)
Gradiente determina a direo de busca no espao de pesos.
1 , 0 pois ,
1 1



kj
kj
kj
kq
j
kj
k
m
q
q
kj
kq
m
q
q kq
kj kj
k
kj
k
k
kj
k
k kj
w
w
w
w
z
w
net
z
w
w
z w
w w
net
w
net
w
net
net
E
w
E

) ( ) (
k k k k
k
k
k k
k
net y t
net
y
y
E
net
E



j k k k j k kj
z net y t z w ) ( ) (


Sensibilidade descreve como o erro total se modifica com a atividade net de
cada unidade.
Ajuste para nodo h-o:
13
MLP-BP: Ajuste de pesos i->j (nodo i-h)
( )( ) ( )( )
i j j
l
k
kj k i j j kj
l
k
k k k k
ji
i
ji
j
j j
j
j
kj
l
k
k k k k
j
k
l
k
k
k
k k
l
k
j
k
k k
j
l
k
k k
j j ji
j
j
j
j ji
x net w x net w net y t
w
E
x
w
net
net
net
z
w net y t
z
net
net
y
y t
z
y
y t
z
E
y t
z z
E
w
net
net
z
z
E
w
E
) ( ) ( ) ( ) (
; ); (
) ( ) ( ) ( ) (
) (
2
1
onde ,
1 1
1 1 1
1
2

,
_

,
_

1
]
1

i j j
l
k
k kj i j ji
x net w x w ) (
1


1
]
1

14
MLP-BP: Resumo da Aprendizagem
Passagem entrada-sada
Passagem sada-entrada
Compute recursivamente gradiente local
Da camada de sada para a de entrada
Modifique os pesos pela regra delta

,
_

,
_

,
_

,
_

) (
nodo para
entrada de sinal
) ( d
ade sensibilid
em aprendizag
de taxa
) (
peso no
correo
j
n y
j
n
n w
i ji

) ( ) ( ) (
0
n x n w n net
i
m
i
ji j

)) ( ( ) ( n net n y
j j j

15
MLP-BP: Funes de Ativao
Funo Sigmoide
[ ]
] 1 [
) exp( 1
1 ) exp( 1
) exp( 1
1
) (
- and 0
) exp( 1
1
) (
j j
j
j
j
j
j
j
j j
y y a
net a
net a a
net a
net
net a
net a
net y

+
+
+

< < >


+

16
MLP-BP: Funes de Ativao
Funo Tangente hiperblica
] ][ [ )) ( tanh 1 ( ) ( sech ) (
0 ) tanh( ) (
2 2
j j j j i
j i
y a y a
a
b
net b b a net b b a net
(a,b) net b a net
+

>

17
Poder Expressivo da MLP-PB
Qualquer transformao
pode ser implementada por
3 camadas?
Sim, qualquer funo
contnua da entrada para a
sada pode ser
implementada com nmero
suficiente de nodos
escondidos.
Prova-se pelo teorema de
Kolmogorov.
18
Poder Expressivo da MLP-PB
Porta XOR: Operao da rede Diviso de classes
19
Poder Expressivo da MLP-PB
Exemplo de operao
20
MLP-BP: Exemplo
Detector de Caractersticas:
Unidades escondidas atuam
como detectores de
caractersticas.
O progresso da aprendizagem
leva as unidades escondidas a
descobrirem gradualmente
caracterstica salientes dos
dados de treinamento.
Transformao no-linear do
espao de entrada para o de
caractersticas.
Semelhana com o
discriminante linear de Fisher.
21
MLP-BP: Exemplo
h=3
Porta XOR:
(x
1
OR x
2
) AND NOT
(x
1
AND x
2
)
y
1
: x
1
+ x
2
+0.5 = 0
> 0 -> y
1
= 1, de outro
modo 1
y
2
: x
1
+ x
2
-1.5 = 0
> 0 -> y
2
= 1, de outro
modo 1
22
Aproximao de Funes
Uma MLP-BP pode ser vista como um mecanismo para
construir um mapeamento entrada-sada no-linear.
Questo fundamental: O nmero de camadas escondidas na MLP
para se construir um mapeamento contnuo.
Teorema da Aproximao Universal:
Definido como um teorema de existncia no sentido que ele prov
a justificativa matemtica para aproximao de uma funo
arbitraria e contnua em contraposio a uma representao exata.
A equao (F(.)) que fundamenta o teorema generaliza
aproximaes atravs de uma srie de Fourier.
23
Aproximao de Funes
( )
( ) ( )
entrada. de espao no contido , , ,
, , , , , , isto , ) ( funo da mada
- aproxi realizao uma como , , ,
: definir se - pode que tal , , 1 ; , , 1
onde , e , reais constantes de conjuntos e inteiro um existe
, 0 e ) ( com , funo uma dada Ento, ). ( por notado
- de sobre contnuas funes de espao O . ] 1 , 0 [ l dimensiona - trio
- uni hipercubo o Seja contnua. e crescente mente monotonica limitada,
constante, no funo uma ) ( Seja : universal o aproxima da Teorema
0
0 0
1 0
0
0 0
0
0
0
2 1
2 1 2 1
1 1
2 1
0 1
0
m
m m
m
i
m
j
i j ij i m
ij i i
m m
m
m
m
x x x
x x x f x x x F f
b x w x x x F
m j m i
w M
f I C f I C
I m
I
K
K K
K
K K

<

,
_

+

>



24
Aproximao de Funes
O teorema diretamente aplicvel a uma Perceptron MLP pois
A funo logstica no-constante, limitada, monotonicamente
crescente e contnua.
A equao (F(.)) representa a sada da rede se for suposto que:
sada. de camada da sinpticos pesos os definindo , , , com didas
- escon unidades das sadas das linear combinao a rede da sada A -
. bias e , , , sinpticos pesos tem neurnio Cada -
. , , , por denotada entrada sua e escondida camada nica
na escondidas unidades entrada, de unidades tem neural rede A -
1
0 2 1
0
2 1
2 1
1 0
m
i m i i
m
b w w w
x x x
m m
K
K
K
25
Aproximao de Funes
Teorema da Aproximao Universal
Existncia de aproximao de funo contnua arbitrria.
Um camada escondida simples suficiente para a MLP-BP
computar uma aproximao uniforme para um conjunto de
treinamento.
Uma camada escondida nica a melhor opo pois tem baixo
tempo de treinamento, fcil de implementar e generalizar.
Fronteira de Erros de Aproximao de Nodo Escondido:
Quanto maior for o nmero de nodos escondidos, mais acurada
a aproximao.
Quanto menor for o nmero de nodos escondidos, mais acurada
o ajuste (interpolao) emprico.
26
Arquivo de Treinamento para
Generalizao
Uma rede neural generaliza se seu mapeamento entrada-sada for
completo ou aproximadamente correto para os dados de teste.
O processo de treinamento pode ser visto como a soluo de um
problema de ajuste de curva para interpolao no-linear dos
dados de entrada.
Uma RN deixa de generalizar quando est sobretreinada, isto ,
quando aprende muitos pares entrada-sada e passa a considerar
caractersticas no gerais para o conjunto de padres. Assim,
ocorre memorizao analogamente a uma tabela look-up.
importante buscar mapeamentos no-lineares suaves (smooth)
para demandar menos esforo computacional.
27
Arquivo de Treinamento para
Generalizao
Occams Razer
Encontra a funo mais simples entre vrias que satisfazem
condies desejadas.
Fatores que influenciam generalizao :
Conjunto de treinamento: Tamanho e sua representatividade do
ambiente por este conjunto deve ser compatvel com a arquitetura
fixa da rede neural.
Arquitetura da rede neural: Ela deve ser boa o suficiente para
generalizar, pressupondo um conjunto de treinamento fixo.
Complexidade fsica do problema tratado. Este fator independe do
usurio ou pesquisador.
28
Seleo de Modelo
Seleo de MLP-BP com o melhor nmero de pesos dados N
amostras de treinamento. Deve-se encontrar r: para minimizar erro de
classificao do modelo treinado pelo conjunto de estimao e testado
pelo conjunto de validao.
Sugesto: r = 0.2
Kearns(1996) levantou as propriedades qualitativas de r timo:
Anlise com Dimenso VC.
Em problemas de baixa complexidade (# de respostas desejadas comparado ao
nmero de amostras), desempenho da validao cruzada insensvel a r.
Um nico r pode ser adequado para um conjunto grande de funes.
validao de conjunto do tamanho estimao de conjunto do tamanho
validao de conjunto do tamanho
+
r
29
Protocolo de Treinamento
Treinamento estocstico:
Seleo aleatria de amostras.
Treinamento Batch
poca (Epoch): Apresentao simples de todos padres de
treinamento.
Pesos so atualizados apenas uma vez por poca:
(n) w
(n) e
(n) e
N (n) w
(n) E
n w
ji
j
Npad
n
j
ji
av
ji



1
) (

30
Protocolo de Treinamento
Modo Seqencial:
Atualiza-se pesos para cada amostra de treinamento.
Menos armazenamento, maior velocidade de convergncia.
Risco: Ordem seqencial pode levar a convergncias para timos
locais.
Treinamento on-line:
Dados de treinamento abundantes.
Alto custo para armazenamento.
31
Protocolo de Treinamento
Maximizao do contedo de informao: Todo exemplo
propiciar mais pesquisa no espao de pesos:
Uso de um exemplo que resulta no maior erro (exemplo difcil)
com respeito s iteraes prvias.
Uso de um exemplo radicalmente deferente do demais.
Emprego de ordem aleatria para apresentao de exemplos para
assegurar propriedade de pertinncia a uma dada classe.
nfase em tratar mais amostras difceis que fceis, tendo cuidado
com a distoro da distribuio dos exemplos e com presena de
outliers.
Valores alvos devem ser tratveis pela funo de ativao, isto
, o valor do padro desejado deve ser atingido pela funo.
Quando isto no acontece, os pesos podem tender a infinito.
32
Algoritmo MLP-BP
Inicialize aleatoriamente pesos e bias;
Enquanto E
av
for insatisfatrio e houver disponibilidade
computacional:
Para cada padro de entrada:
Compute a soma ponderada dos nodos escondidos;
Compute a resposta dos nodos escondidos;
Compute a soma ponderada dos nodos escondidos;
Compute a resposta dos nodos escondidos;
Modifique os pesos que chegam camada de sada;
Modifique os pesos que chegam a cada uma das camadas escondidas;
Fim-do-Para
Fim-do-Enquanto
33
Pontos Positivos de MLP-BP
Alto Poder de Representao
Qualquer funo L2 (funo que sobre um intervalo finito possua
nmero finito de descontinuidades) pode ser representada por
MLP-BP.
Muitas destas funes podem ser aproximadas por uma MLP-BP.
Larga Aplicabilidade
Requer conjunto de treinamento representativo;
No requer significativos conhecimento a priori ou do domnio
(problema mal estruturado).
Tolera dados ruidosos ou faltosos entre as amostras de
treinamento.
34
Pontos Positivos de MLP-BP
Facilidade de implementar a aprendizagem:
O algoritmo de simples implementao;
Funes empregadas e suas derivadas existem.
Capacidade de Generalizao:
Produz bons resultados para padres no treinados.
35
Pontos Negativos de MLP-BP
Aprendizagem de transformaes complexas pode demorar
para convergir.
Visualizao da MLP-BP como uma caixa preta:
Constri mapeamento mas no justifica as associaes.
No explica resultados intuitivamente pois a aprendizagem na
camada escondida no tem significado claro no espao do
problema.
Ausncia de maneira teoricamente fundamentada (como em
mtodos estatsticos) para avaliar a aprendizagem:
Nvel de confiana que algum pode ter depois de treinar uma
MLP-BP e atingir um determinado erro?
Nvel de confiana da reposta para uma entrada particular
empregando a rede treinada.
36
Pontos Negativos de MLP-BP
Limitaes decorrentes do gradiente descendente:
Garante a reduo do erro para mnimo local.
Pode cair em mnimos locais, dependendo da superfcie de erro:
Superfcies com vales e poos podem levar a timos locais.
Nem toda funo que representvel pode ser aprendida, isto , os
erros podem no convergir para o desejado.
Possveis correes:
Redes com diferentes nmero de unidades escondidas que podem
levar a superfcies menos inadequadas.
Pesos iniciais diferentes para iniciar a otimizao a partir de pontos
iniciais distintos na superfcie.
Mecanismo de perturbao aleatria, e.g., cozimento simulado, para
escapar de mnimos locais.
37
Pontos Negativos de MLP-BP
A generalizao no
garantida:
Problema de sobre-
treinamento: A rede
treinada atende com
perfeio os padres
treinados no garante
respostas acuradas para
entradas no-treinadas.
Erro
Erro dos dados de teste
Erro dos dados de treinamento
Tempo Ponto onde o erro de
teste passa a piorar
38
Pontos Negativos de MLP-BP
A generalizao no garantida:
Possveis solues:
Mais e melhores amostras;
Emprego de rede menor;
Uso de fronteira de erro para forar trmino mais rpido;
Adio de rudo nas amostras;
Mudar de (x
1
,, x
n
) para (x
1
a
1
,, x
n
a
n
) onde a
n
so pequenos
deslocamentos aleatrios.
Validao cruzada:
Separe amostras (cerca de 10%) para dado de teste;
Verifique o erro nos dados de teste periodicamente;
Interrompa a aprendizagem quando erro passar a crescer.
39
Pontos Negativos de MLP-BP
Paralisao da rede com funo de ativao tipo sigmoide
Entrada para um n pode cair dentro de uma regio de saturao quando
alguns pesos se tornam muito grandes durante a aprendizagem. A
implicao disto que os pesos param de crescer pois a derivada da
funo de ativao tende a zero.
Possveis solues:
Uso de funes que no saturem;
Normalizao peridica dos pesos.
. of magnitude da o cresciment do temente independen ivo significat
modo de seu valor altera no ) ( saturao, de regio na cair Se
. 0 ) ( ' ento assim
0 )) ( 1 )( ( ) ( ' logo , ) 1 /( 1 ) (
x
x S x
x S x
x S x S x S e x S
x
t
+

( )

ncama
i
kj kj kj
w w w
1
2
/
40
Tcnicas para Melhoraria em MLP-BP
Determinao de funo de ativao
Escalonamento de valores entrada/sada
Treinamento com dados ruidosos ou artificiais
Determinao do nmero de unidades escondidas
Inicializao dos pesos
Termo de Momento
Taxa de Aprendizagem
Decaimento dos pesos
Poda da rede
Aprendizagem a partir de pistas
Critrio de parada
41
Determinao da Funo de Ativao
Propriedades da funo de ativao:
No linearidade;
Saturao para valores mximos e mnimos;
Continuidade e suavidade;
Monotonicidade, que no essencial.
A funo sigmide tem estas propriedades.
O nmero de iteraes de treinamento tende diminuir quando a
funo sigmoide antiassimtrica ( f(-v)=-f(v)) ao invs de no-
simtrica.
A centralizao em zero facilita treinamento.
O alcance (range) e a inclinao devem ser compatveis com as
amostras de entrada e sada.
42
Escalonamento de Valores de
Entrada/Sada
Deve-se padronizar:
Diferenas altas de escala pode provocar reduo de erros apenas nos
valores mais altos de escala.
Normalizao das entradas: Pr-processamento das entradas
para obter mdia pequena se comparada a seu desvio padro, e
varincia unitria.
Para acelerar treino, usa-se entradas no-correlacionadas e escalonadas
para se obter covarincias aproximadamente iguais.
Valores para alvos: Estes valores devem estar dentro do
alcance da funo de ativao:
Nenhuma sada deve atingir a parte saturada da funo de ativao.
Sugesto para representao local: Binria (+1 positivo; -1 negativo).
43
Treinamento com Dados Ruidosos ou
Artificiais
Para conjunto de treinamento pequeno, pode-se gerar
padres de treinamento adicionais atravs de:
Adio de rudo Gaussiano d-dimensional aos verdadeiros
padres de treinamento (ausncia de informaes do problema)
com varincia menor que um.
Gerao artificial de padres (existncia de informaes sobre o
problema).
O nmero de unidades escondidas deveria ser menor que o
nmero total de amostras para treinamento (Npad). Uma
sugesto inicial Npad/10.
44
Determinao do Nmero de Unidades
Escondidas
Nmero de unidades escondidas crucial para desempenho
da MLP-BP pois determina as fronteiras de deciso.
Se a densidade complexa, com muitas interseces, ento
deve haver muitos nodos escondidos.
Nmero de pesos em resposta ao conjunto de treinamento:
Incio com nmero alto que diminui com o treinamento.
45
Inicializao de Pesos
No se deve inicializar todos os pesos em zero pois no h
mapeamento inicial restringindo a busca vizinhana da
origem.
Pesos inicialmente altos tendem a saturar as unidades. Valores
inicialmente baixos levam operao em regio muito plana
em torno da origem da superfcie de erro.
Valores de pesos sinpticos cujo desvio padro do campo local
induzido se situe entre as partes linear e saturada da sigmoidal.
Seleo de sementes adequadas para aprendizagem rpida e
uniforme.
46
Inicializao de Pesos
Para dados padronizados:
Escolha aleatria de distribuio nica.
Utilize igualmente pesos positivos e negativos
Para pequeno, ento net linear;
Para grande, ento net satura rapidamente.
Recomendaes de valores iniciais:
Pesos entrada-escondida
Pesos escondida-sada:
< < w
n
w
n
ji
1 1
+ < <
m
w
m
kj
1 1
+ < <

47
Termo de Momento
Pode ajudar a que um processo de aprendizagem no fique
preso em um mnimo local.
onde a constante do momento que para convergir 0 | | 1.
Valor tpico = 0.9
Se a derivada parcial tiver mesmo sinal em iteraes consecutivas,
o momento aumenta o ajuste dos pesos que estiverem na mesma
direo do ajuste atual, acelerando a convergncia.
Caso contrrio, momento leva diminuio do ajuste.
) 1 ( ) ( ) 1 ( ) ( ) 1 ( + + + m m m m
bp
w w w w
48
Termo de Momento
O termo de momento:
Permite que a rede
aprenda mais rapidamente
em regies de plancies na
superfcie de erro.
Impede variaes sbitas
de direo durante a
atualizao dos pesos.
49
Taxa de Aprendizagem
Taxas de aprendizagem pequenas levam a ajustes mais sutis
mas demoram mais a convergir.
Taxa de aprendizagem fixa deve ser menor que 1.
Inicie com taxa alta e gradualmente diminua seu valor.
Inicie com taxa baixa e periodicamente dobre seu valor at o erro
comear a aumentar.
Atribua taxas mais altas para padres pouco representados.
Determine mximo passo para cada estgio de aprendizagem para
evitar sobrevalor de erro.
Taxa da ltima camada deve ser menor que das anteriores.
ltima camada tem gradiente local mais alto.
Permite ajustes sutis.
50
Taxa de Aprendizagem
Sugesto de LeCun: A taxa de aprendizagem
inversamente proporcional raiz quadrada do nmero de
conexes sinpticas da camada.
Taxa de aprendizagem adaptativa (mtodo delta-bar-delta)
Cada peso w
kj
tem sua prpria taxa
.
Se ? w
kj
mantm a direo, aumenta a taxa pois E tem curva
suave na vizinhana do peso atual.
Se ? w
kj
muda de direo, diminua a taxa pois E tem curva
acentuada na vizinhana do peso atual.
kj

51
Decaimento do Peso
Heurstica: Manuteno do peso pequeno.
Simplifica rede e evita sobretreinamento.
Possibilidade de no houver algum tipo de normalizao:
Inicie com pesos altos e decaia seus valores durante o
treinamento:
Pesos pequenos so eliminados.
) 1 (
old new
w w
52
Poda da Rede
Minimizao da rede tende a melhorar generalizao
Diminui probabilidade de aprender peculiaridades ou rudos.
Poda da rede elimina pesos sinpticos com magnitude pequena.
Complexidade-regularizao
Compromisso entre confiabilidade dos dados de treinamento e
desempenho do modelo.
Aprendizagem supervisionada minimizando funo de risco:
de complexida por o penaliza a ) (
desempenho de medida a ) ( onde
) ( ? ) ( ) (
W E
W E
W E W E w R
c
s
c s
+
53
Aprendizagem a Partir de Pistas
Emprego de informao a priori para ser inclusa no processo.
Tal informao inclui propriedades invariantes, simetrias,
outros conhecimentos sobre a funo de ativao.
Adio de unidades de sada para resolver problema secundrio
O problema secundrio diferente mas relacionado ao original.
Treinamento com problema original e secundrio
simultaneamente.
Descarte unidades de pistas aps treinamento.
Vantagens
Melhora na seleo de caractersticas;
Melhora representao de unidades escondidas.
54
Aprendizagem a Partir de Pistas
Interessante se houver dados para treinamento que sejam
insuficientes para chegar a preciso desejada.
55
Critrio de Parada
Alguns possveis critrios de parada:
Vetor de gradiente nulo, indicando mnimo local ou global.
Medida de erro estacionria.
Medida de erro dentro de faixa de aceitao.
Progresso de treinamento a partir de pesos iniciais pequenos:
Incio: Linearidade.
Avanado: A no linearidade alcanada.
Portanto, trmino prematuro do treinamento se parece com
decaimento de pesos.
56
Parada com Conjunto de Validao
Separado
Mtodo de antecipao
de parada:
Computar os pesos
sinpticos depois de
parte do treinamento,
tomando valores fixos
de pesos.
Reassumir treinamento
depois de calcular erro
de validao.
Number of epoch
Mean
squared
error
Validation
sample
Training
sample
Early stopping point
57
Referncias
Hassoun, M. H. (1995). Fundamentals of Artificial
Neural Networks. Cambridge: The MIT Press.
Haykin, S. (1999). Neural Networks: A
Comprehensive Foundation. IEEE Press.

Você também pode gostar