Você está na página 1de 18

Redes Neurais Artificiais

Reconhecimento de Padres
Cincia da Computao 2008
Alessandro L. Koerich
Plano de Aula
Introduo
Motivao Biolgica
Perceptron
Superfcie de Deciso
Descida do Gradiente
Redes Multicamadas (Multilayer)
Retropropagao (Backpropagation)
Generalizao e Sobreajuste
Exemplo: Reconhecimento de Faces
Referncias
Duda R., Hart P., Stork D. Pattern Classification 2ed. Willey Interscience,
2002. Captulo 6
Mitchell T. Machine Learning. WCB McGrawHill, 1997. Captulo 4.
Haykin S. Neural Networks: A Comprehensive Foundation (2nd Edition)
842 pages Prentice Hall; 2nd edition (J uly 6, 1998) ISBN: 0132733501
Bishop C. Neural Networks for Pattern Recognition. 504 pages. Oxford
University Press (J anuary 1996) ISBN: 0198538642
Introduo
Redes Neurais Artificiais (RNAs) fornecem um mtodo geral e prtico
para a aprendizagem de funes de valor real e de valor discreto a
partir de exemplos.
Algoritmos tais como o Backpropagation (retro-propagao) utilizam a
descida do gradientepara ajustar os parmetros das redes para
melhor adaptar um conjunto de treinamento de pares entrada sada
(ou vetor de atributos valor do conceito alvo).
A aprendizagem de redes neurais robusta a erros e rudos nos dados
de treinamento.
Introduo
Modelo inspirado na aprendizagem de sistemas biolgicos
redes complexas de neurnios interconectados.
Modelo impreciso, pois no considera muitas complexidades.
Tambm chamadas de Artificial Neural Networks (ANN) ou
simplesmente Neural Networks (NN).
Introduo
Diversas aplicaes prticas:
Interpretao de cenas visuais.
Reconhecimento da fala.
Aprendizado de estratgias para controlar robs.
Reconhecimento de caracteres manuscritos.
Reconhecimento de faces
Bioinformtica
Predio financeira
Etc . . .
Motivao Biolgica
Considere os seres humanos:
Tempo de chaveamento do neurnios: 0.001 seg
Nmero de neurnios: 10.000.ooo.ooo (10
10
)
Conexes por neurnio: 10.000 a 100.000 (10
4
10
5
)
Tempo para o reconhecimento de uma cena: 0.1 seg
muita computao paralela !!
Propriedade de redes neurais artificiais (RNAs):
Muitas unidades de limiar similares aos neurnios
Muitas interconexes ponderadas entre unidades
Processo altamente paralelo e distribudo
nfase em ajustar pesos automaticamente
Motivao Biolgica
Apesar das RNAs serem motivadas pelos sistemas neurais
biolgicos, muitas complexidades no so modeladas pelas
RNAs.
Duas linhas de pesquisas:
Utilizao de RNAs para estudar e modelar o processo de
aprendizagem biolgico.
Obteno de algoritmos de aprendizagem de mquina altamente
eficientes.
Quando Considerar RNAs
Entrada discreta ou de valor real de alta dimenso
Sada discreta ou de valor real
Sada for um vetor de valores
Dados possivelmente ruidosos
Forma da funo alvo desconhecida
Leitura humana dos resultados no importante
Exemplos:
Reconhecimento de fonemas na fala
Classificao de imagens
Predio financeira
Exemplo: Sistema ALVINN
Sistema ALVINN: utiliza RNAs para guiar um veculo autnomo
em velocidade normal em vias pblicas.
Entrada: Grid de 30 x 32 pixel fornecidos por uma cmera montada
na frente do veculo. 960 neurnios
Camada escondida (hidden): 4 neurnios
Sada: Direo para qual o veculo deve seguir. 30 neurnios de
sada, cada um indicando uma direo particular para o veculo.
ALVINN Dirige a 112km/h Problemas Apropriados para RNAs
Aprendizagem de RNAs bem adaptada para problemas onde os
dados de treinamento correspondem a dados com rudo e dados
complexos, como os obtidos atravs de cmeras e microfones.
Problemas Apropriados para RNAs
Instncias so representadas por pares atributo-valor.
A funo alvo a ser aprendida descrita por um vetor de
caractersticas (nmeros reais).
O valor do conceito alvo (i.e. a sada da funo alvo) pode ser
valores discretos, valores reais ou vetores de valores discretos e
reais.
Geralmente o valor de cada sada um nmero real entre 0 e 1 que
corresponde a confiana da predio.
Problemas Apropriados para RNAs
Os exemplos de treinamento podem conter erros.
Grandes tempos de treinamento so aceitveis.
Algoritmos de treinamento de redes geralmente consomem muito
tempo (de poucos segundos a muitas horas.
Depende do nmero de pesos, nmero de exemplos de treinamento
e outros parmetros.
Problemas Apropriados para RNAs
Avaliao rpida da funo alvo aprendida.
Uma vez treinada, a avaliao da rede, dada uma nova instncia,
geralmente muito rpida.
A habilidade dos humanos entenderem a funo alvo aprendida
no importante.
Geralmente difcil interpretarmos os pesos aprendidos pelas redes
neurais.
Fazem menos sentido do que um conjunto de regras (C4.5).
Exemplo
Dada a imagem de um personagem, ele deve ser classificado
corretamente, ou seja, se a imagem for do personagem Bart, ela
deve ser classificada pelo algoritmo de aprendizagem como sendo
o personagem Bart.
Classes / Valor do Conceito Alvo
Marge 0 0 0 1 Homer 0 0 1 0 Bart 0 1 0 0 Famlia 1 0 0 0
Exemplo
0.43 0.03 0.40 0.19 0.12 0.16 0.04 0.01 0.00 0.01 0.40 0.02
0 0 1 0
0.119 0.059 0.253 0.569
vetor de caractersticas
valor do conceito alvo
associado ao vetor
rede neural treinada
valor do conceito alvo estimado
Erro = (valor do conceito alvo real) (valor do conceito alvo estimado)
Representao da RNA
unit definition section :
no. | type | unit | act | bias | st | posit | act func | out fun | sites
----|---------|--------|--------------|-------------|----|----------|------------------|----------|-------
1 | | | 0.15710 | 0.00200 | i | 2, 2, 0 | Act_Identity | |
2 | | | 0.08250 | 0.00492 | i | 2, 3, 0 | Act_Identity | |
3 | | | 0.31630 | 0.00955 | i | 2, 4, 0 | Act_Identity | |
4 | | | 0.16530 | 0.00616 | i | 2, 5, 0 | Act_Identity | |
5 | | | 0.11860 | 0.00476 | i | 2, 6, 0 | Act_Identity | |
6 | | | 0.43310 | 0.00818 | i | 2, 7, 0 | Act_Identity | |
7 | | | 0.06930 | 0.00605 | i | 2, 8, 0 | Act_Identity | |
8 | | | 0.00890 | 0.00587 | i | 2, 9, 0 | Act_Identity | |
9 | | | 0.00380 | 0.00916 | i | 2,10, 0| Act_Identity | |
10 | | | 0.29860 | 0.00922 | i | 2,11, 0 | Act_Identity | |
11 | | | 0.31760 | 0.00948 | i | 2,12, 0 | Act_Identity | |
12 | | | 0.19330 | 0.00649 | i | 2,13, 0 | Act_Identity | |
13 | | | -0.30391 | -46.0825 | h | 5, 2, 0 | Act_Identity | |
14 | | | -0.40381 | -101.310 | h | 5, 3, 0 | Act_Identity | |
15 | | | -0.30793 | 97.62634 | h | 5, 4, 0 | Act_Identity | |
16 | | | -0.52309 | 160.6598 | h | 5, 5, 0 | Act_Identity | |
17 | | | -0.21414 | -79.82547 | h | 5, 6, 0 | Act_Identity| |
18 | | | -0.32417 | 135.45871 | h | 5, 7, 0 | Act_Identity| |
19 | | | -0.10986 | -53.94949 | h | 5, 8, 0 | Act_Identity| |
20 | | | -0.39891 | -55.78927 | h | 5, 9, 0 | Act_Identity| |
21 | | | -0.00000 | -0.02777 | o | 8, 2, 0 | Act_Identity| |
22 | | | 0.33768 | 165.30469 | o | 8, 3, 0 | Act_Identity| |
23 | | | 0.33482 | 380.65833 | o | 8, 4, 0 | Act_Identity| |
24 | | | 1.03949 | 260.54959 | o | 8, 5, 0 | Act_Identity |
-----|--------|--------|---------------|---------------|----|-----------|-----------------|--------|-------
Representao da RNA: Pesos
connection definitionsection:
target | site | source:weight
13 | | 1:-0.13528, 2: 0.04893, 3:-0.32746, 4:-0.08375, 5:-0.34121, 6:-0.13578, 7: 0.20121, 8:-0.15724, 9: 0.00921, 10: 0.11034,
11:-0.19678, 12:-0.21812
14 | | 1:-0.55645, 2:-0.11265, 3:-0.49058, 4: 1.67717, 5:-0.26903, 6: 0.20352, 7: 0.21803, 8: 0.06280, 9: 0.28881, 10:-1.36910,
11:-0.10725, 12:-0.26972
15 | | 1: 0.04909, 2: 0.09190, 3: 0.15870, 4: 0.75809, 5:-0.17918, 6:-0.17613, 7: 0.19631, 8:-0.03773, 9:-0.03989, 10:-0.84408,
11:-0.32844, 12:-0.27992
16 | | 1:-0.24912, 2:-0.01193, 3: 0.33076, 4: 3.28676, 5:-0.07993, 6: 0.07680, 7: 0.27817, 8: 0.23728, 9: 0.19800, 10:-3.18631,
11:-0.43482, 12:-0.46441
17 | | 1:-0.20847, 2:-0.00470, 3:-0.37552, 4:-0.00523, 5:-0.25660, 6:-0.02310, 7: 0.13830, 8:-0.09997, 9: 0.06508 10: 0.09921,
11:-0.07738, 12:-0.13684
18 | | 1: 0.20934, 2: 0.16882, 3: 0.24766, 4: 0.26525, 5:-0.23404, 6:-0.32802, 7: 0.22154, 8:-0.12143, 9:-0.14677, 10:-0.46730,
11:-0.41720, 12:-0.30646
19 | | 1: 0.46806, 2: 0.29771, 3:-0.38300, 4:-3.76655, 5:-0.56653, 6:-0.68893, 7: 0.16836, 8:-0.61828, 9:-0.44112, 10: 3.38461,
11:-0.24341, 12:-0.07532
20 | | 1:-0.30391, 2: 0.00103, 3:-0.38042, 4: 0.73989, 5:-0.34855, 6:-0.02838, 7: 0.24377, 8:-0.07767, 9: 0.11745, 10:-0.61078,
11:-0.21432, 12:-0.28737
21 | | 13: 0.00300, 14:-0.00225, 15:-0.00017, 16: 0.00214, 17:-0.00030, 18:-0.00311, 19: 0.00052, 20:-0.00014
22 | | 13:-0.18994, 14:-0.34258, 15: 0.02922, 16: 0.01102, 17:-0.20919, 18: 0.09017, 19:-0.07391, 20:-0.25315
23 | | 13:-0.28049, 14: 0.06916, 15:-0.15606, 16: 0.20976, 17:-0.16213, 18:-0.30594, 19:-0.96542, 20:-0.17005
24 | | 13:-0.34923, 14:-0.43133, 15:-0.33860, 16:-0.53908, 17:-0.24484, 18:-0.36651, 19:-0.19405, 20:-0.44290
Perceptron
Rede neural elementar baseada em uma unidade chamada Perceptron
Um perceptron:
Recebe um vetor de entradas de valor real
Calcula uma combinao linear destas entradas
Fornece:
+1 se o resultado maior que algum limiar
1 caso contrrio.
Mais precisamente, fornecidas as entradas x
1
a x
n
, a sada o(x
1
, ..., x
n
)
computada pelo perceptron . . .
Perceptron
Algumas vezes utilizaremos notao vetorial simplificada:
Perceptron
onde:
Cada elemento w
i
uma constante de valor real, ou peso, que
determina a contribuio da entrada x
i
na sada do perceptron.
A aprendizagem do perceptron envolve:
A escolha dos valores dos pesos w
o
a w
n
.
Superfcies de Deciso
Podemos vero perceptron como uma superfcie de separao
em um espao n-dimensional de instncias.
O perceptron fornece 1para instncias dispostas em um lado do
hiperplano e -1para instncias dispostas no outro lado.
Um nico perceptron consegue separar somente conjuntos de
exemplo linearmente separveis.
Superfcies de Deciso
Linearmente Separvel Linearmente NoSeparvel
Superfcies de Deciso
Superfcie de separao para um perceptron de duas entradas (x
1
, x
2
).
Mas algumas funes no so representveis
e.g., no linearmente separvel
Portanto, queremos redes destes. . .
Superfcies de Deciso
Superfcies de Deciso Superfcies de Deciso
Regra de Treinamento Perceptron
Como aprender os pesos para um perceptron?
Problema: determinar um vetor de pesos que faa o perceptron
produzir a sada correta (1 ou +1) para cada um dos exemplos de
treinamento.
Soluo: Comear com um vetor de pesos aleatrios e aplicar
iterativamente a regra perceptron para cada exemplo de treinamento,
modificando os pesos cada vez que ele classificar um exemplo
erroneamente.
Este processo repetido vrias vezes at que o perceptron classifique
todos os exemplos de treinamento corretamente.
_
Regra de Treinamento Perceptron
Os pesos do perceptron so modificados a cada passo de acordo com a
regra de treinamento do perceptron, que modifica o peso w
i
associado a
entrada x
i
de acordo com a regra:
onde
t o valor alvo para o exemplo de treinamento.
o a sada gerada pelo perceptron.
uma constante pequena (e.g. 0.1) chamada de taxa de aprendizagem.
i i i
w w w +
( )
i i
x o t w =
Regra de Treinamento Perceptron
Se o exemplo de treinamento classificado corretamente:
(t o) =zero w
i
=0
Se o exemplo de treinamento classificado incorretamente, o
valor de w
i
alterado:
Se x
i
=0.8, =0.1, t =1, o =-1
A atualizao do peso ser:
( ) 16 . 0 8 . 0 )) 1 ( 1 ( 1 . 0 = = =
i i
x o t w
Regra de Treinamento Perceptron
Podese provar que este procedimento de aprendizagem
converge dentro de um nmero finito de passos quando:
Os dados de treinamento so linearmente separveis;
suficientemente pequeno.
Porm: falha em convergir se os dados forem linearmente no
separveis.
Alternativa: descida do gradiente
Descida do Gradiente
Para dados no linearmente separveis, a Regra Delta converge
em direo a aproximao que melhor se ajusta ao conceito alvo.
Idia chave: usar a descida do gradiente para procurar no espao
de hipteses o melhor vetor de pesos.
Considerando uma unidade linear, isto , um perceptron sem
limiar:
Descida do Gradiente
Considere uma unidade linear simples, onde:
Especificando uma medida para o erro de treinamento de uma hiptese
(vetor de pesos) relativamente aos exemplos de treinamento:
D o conjunto de exemplos de treinamento.
t
d
o valor alvo para o exemplo de treinamento d.
o
d
a sada da unidade linear para o exemplo d.
E(w) a metade do quadrado da diferena entre sada alvo e unidade linear
de sada somada sobre todos os exemplos de treinamento.
n n
x w x w w o + + + = ...
1 1 0

=
D d
d d
o t w E
2
) (
2
1
] [
r
Descida do Gradiente
O algoritmo de descida do gradiente pode entendido atravs da
visualizao do espao de hipteses.
A descida do gradiente determina um vetor de pesos que minimiza E,
comeando com um vetor inicial de pesos arbitrrio e modificandoo
repetidamente em pequenos passos.
A cada passo, o vetor de pesos alterado na direo que produz a
maior queda ao longo da superfcie de erro.
Este processo continua at atingir um erro mnimo global.
Descida do Gradiente
_
Descida do Gradiente
Gradiente:
Regra de treinamento para a descida do gradiente:
onde:
e
_
] [w E w
r r
=

=
n
w
E
w
E
w
E
w E ,..., , ] [
1 0
r
i
i
w
E
w

=
w w w
v v r
+
Descida do Gradiente
onde x
id
indica um componente nico de entrada x
i
para o exemplo de
treinamento d.
_
) ( ) (
) ( ) (
) ( ) ( 2
2
1

) (
2
1

) (
2
1
2
2
id
d
d d
i
d i d
i d
d d
d d
i d
d d
d
d d
i
d
d d
i i
x o t
w
E
x w t
w
o t
o t
w
o t
o t
w
o t
w w
E
=


r r
Descida do Gradiente
Assim, a regra para atualizao dos pesos para o gradiente
descendente
id
D d
d d i
x o t w

= = ) (
Descida do Gradiente
Resumindo o algoritmo descida do gradiente para a
aprendizagem de unidade lineares:
1. Pegar um vetor inicial aleatrio de pesos;
2. Aplicar a unidade linear para todos os exemplos de treinamento e
calcular w
i
para cada peso de acordo com a equao anterior;
3. Atualizar cada peso w
i
adicionando w
i
e ento repetir este
processo.
O algoritmo convergir para um vetor de pesos com erro
mnimo.
_
Descida do Gradiente
_
Resumo
A regra de treinamento perceptron tem sucesso se:
Exemplos de treinamento so linearmente separveis
Taxa de aprendizagem for suficientemente pequena
Regra de treinamento da unidade linear utiliza a descida do gradiente
Convergncia garantida para a hiptese com erro quadrado mnimo
Dada uma taxa de aprendizagem suficientemente pequena
Mesmo quando dados de treinamento contm rudo
Mesmo quando dados de treinamento no forem separveis
Redes Multicamadas
Perceptrons expressam somente superfcies de deciso linear.
Redes multicamadas treinadas pelo algoritmo backpropagation so
capazes de expressar uma rica variedade de superfcies de deciso no
lineares.
Rede multicamadas podem representar superfcies de deciso
altamente no lineares.
Por exemplo, uma tpica rede multicamadas e sua superfcie de deciso
(Fig.).
Redes Multicamadas
Exemplo: Distino entre 10 vogais possveis no reconhecimento
da fala.
Redes Multicamadas Redes Multicamadas
Que tipo de unidades devemos utilizar como base de uma rede
multicamadas?
Lineares ?
Mltiplas camadas de unidades lineares cascateadas produzem
somente funes lineares (Fig.).
Redes capazes de representar funes altamente no lineares.
Unidade cuja sada seja uma funo no linear de suas entradas
unidade sigmoidal.
Redes Multicamadas Unidade Sigmoidal
(x) a funo sigmoidal:
Propriedade interessante:
Podemos derivar regras do gradiente descendente para treinar:
Uma unidade sigmoidal
Redes multicamadas de unidades sigmoidais backpropagation
x
e

+ 1
1
)) ( 1 )( (
) (
x x
dx
x d

=
Algoritmo Backpropagation
Aprende os pesos para uma rede multicamadas, dada uma rede
com um nmero fixo de unidades e interconexes.
O algoritmo backpropagation emprega a descida do gradiente
para minimizar o erro quadrtico entre a sada da rede e os
valores alvos para estas sadas.
0.119 0.059 0.253 0.246
0 0 1 0
valor do conceito
alvo
valor do conceito alvo
na sada da rede
Erro = (valor do conceito alvo real) (valor do conceito alvo estimado)
Algoritmo Backpropagation
Como temos mltiplas unidades de sada, redefinimos E como
sendo a soma dos erros sobre todas as unidades de sada da
rede:
outputs o conjunto de unidades de sada na rede
t
kd
valor alvo associado com a ksima unidade de sada e exemplo
de treinamento d.
o
kd
valor de sada associado com a ksima unidade de sada e
exemplo de treinamento d.



D d
2
) (
2
1
) (
outputs k
kd kd
o t w E
r
Algoritmo Backpropagation
Problema de aprendizagem do algoritmo backpropagation:
Busca em um amplo espao de hipteses definido por todos os
valores de pesos possveis para todas as unidades na rede.
Encontrar a hiptese, i.e. os pesos que minimizem o erro mdio
quadrtico (E).
Algoritmo Backpropagation
Algoritmo Backpropagation Algoritmo Backpropagation
Notao:
Um ndice atribudo a cada n da rede, onde n pode ser uma
entrada da rede ou a sada de alguma unidade da rede.
x
ji
indica a entrada a partir do n i para unidade j e w
ji
indica o
peso correspondente.

n
indica o termo do erro associado com a unidade n. Similar a (t
o).
Mais sobre Backpropagation
Descida do gradiente sobre o vetor de pesos inteiro da rede
Facilmente generalizada para grafos diretos arbitrrios
Encontrar um erro mnimo local (no necessariamente global)
Na prtica, geralmente funciona bem (pode executar mltiplas vezes).
Geralmente inclui peso do momento
.
) 1 ( ) (
, , ,
+ = n w x n w
j i j i j j i

Mais sobre Backpropagation
Minimiza o erro sobre os exemplos de treinamento
Generalizar bem sobre exemplos subseqentes?
O treinamento pode levar milhares de iteraes vagaroso
A utilizao da rede aps o treinamento muito rpida
MLP 3 Camadas Convergncia do Backpropagation
Descida do gradiente para algum mnimo local
Talvez no seja um mnimo global
Adicionar momento
Descida do gradiente estocstico
Treinar mltiplas redes com pesos iniciais diferentes
Natureza da convergncia
Inicializar pesos prximo de zero
Portanto, redes iniciais quase lineares
Progressivamente para funes no lineares com o progresso do
treinamento
Capacidades Expressivas de RNAs
Funes Booleanas
Cada funo booleana pode ser representada por redes com uma nica
camada escondida
Mas podem necessitar unidades escondidas exponenciais (em nmero
de entradas)
Funes Contnuas
Cada funo contnua limitada pode ser aproximada pela rede com uma
camada escondida, com um erro arbitrrio pequeno [Cybenko,
1989][Hornik et al. 1989]
Qualquer funo pode ser aproximada por uma rede com duas camadas
escondidas para uma preciso arbitrria [Cybenko, 1988]
Generalizao e Sobreajuste
A condio de parada do algoritmo backpropagation foi deixada
em aberto.
Quando devemos parar o treinamento, i.e. parar de atualizar os
pesos?
Escolha bvia: continuar o treinamento at que o erro (E) seja menor
do que um valor pr-estabelecido.
Porm, isto implica em sobreajuste (overfitting) !!!
Generalizao e Sobreajuste
O algoritmo backpropagation susceptvel a sobreajustar a rede
aos exemplos de treinamento ao preo de reduzir a generalizao
sobre exemplos novos.
A figura ilustra o perigo de minimizar o erro sobre os dados de
treinamento em funo do nmero de iteraes (atualizao dos
pesos).
Generalizao e Sobreajuste
Generalizao e Sobreajuste Generalizao e Sobreajuste
A linha inferior mostra o decrscimo do erro sobre os exemplos de
treinamento em funo do nmero de iteraes de treinamento.
Esta linha mede o Erro de Aprendizagem
A linha superior mostra o erro medido sobre exemplos de
validao (no utilizados para atualizar os pesos !!!)
Esta linha mede a Preciso da Generalizao
A preciso que a rede classifica corretamente exemplos diferentes
dos utilizados no treinamento.
Reconhecimento de Faces RNAs
Tarefa de Aprendizagem: classificar de imagens de faces de
vrias pessoas em vrias poses.
20 pessoas diferentes
32 imagens por pessoa
Variaes na expresso: alegre, triste, braba, neutra, etc...
No total: 624 imagens 120 x 128 em nveis de cinza.
Funo Alvo: uma variedade de funes tais como identificar uma
pessoa, direo em que ela est olhando, o sexo, usando culos
ou no, etc . . .
Reconhecimento de Faces RNAs
Tarefa Particular: aprender a direo em que a pessoa est olhando
(left, right, straight ahead, upward)
Resultados: treinamento em 260 imagens. 90% de preciso em um
conjunto de testes.
Codificao da Entrada: imagens de 30 x 32 pixels. Uma reduo na
resoluo das imagens originais.
Codificao da Sada: uma nica unidade de sada com valores 0.2, 0.4,
0.6 e 0.8 para codificar cada uma das possveis sadas. No !!!! Ao invs
disso, 4 unidades de sada (0,0,0,1) ...(1,0,0,0)
Reconhecimento de Faces RNAs
Estrutura da rede: entradas e sadas so determinadas pelos
dados. Na camada escondida:
3 neurnios: 90% (5 minutos)
30 neurnios: 92% (1 hora)
Reconhecimento de Faces RNAs
Aprendendo corretamente posio da cabea, reconhecendo 1 em 20
faces.
Reconhecimento de Faces RNAs Resumo
Redes Neurais: um mtodo prtico para aprendizagem de funes de
valor real e vetorial sobre atributos de valor contnuo e discreto.
Robustez a rudos nos dados de treinamento.
O espao de hipteses considerado pelo algoritmo backpropagation o
espao de todas as funes que podem ser representadas pelos pesos.
O backpropagation busca o espao de hipteses possveis usando a
descida do gradiente para reduzir iterativamente o erro em uma rede
(ajustar aos dados de treinamento).
Resumo
Sobreajuste resulta em redes que no generalizam bem. Mtodos
de validao cruzada para aliviar este problema (utilizar um
conjunto de validao).
Backpropagation o algoritmo de aprendizagem mais comum,
porm existem muitos outros . . .

Você também pode gostar