Escolar Documentos
Profissional Documentos
Cultura Documentos
1. Leituras complementares
Páginas WEB:
ftp://ftp.sas.com/pub/neural/FAQ.html (comp.ai.neural-nets FAQ)
http://nips.djvuzone.org/ (Todos os artigos on-line da conferência “Neural Information Processing Systems
(NIPS)”)
http://ieeexplore.ieee.org/Xplore (Todas as publicação on-line do IEEE, inclusive de conferências em redes
neurais artificiais, como a International Joint Conference on Neural Networks (IJCNN))
Periódicos:
IEEE Transactions on Neural Networks and Learning Systems Neural Networks (Elsevier)
Neural Computation (MIT Press) Neurocomputing (Elsevier)
International Journal of Neural Systems (World Scientific Publishing) Biological Cybernetics (Springer)
IEEE Transaction on Systems, Man, and Cybernetics (Part B) Neural Processing Letters (Springer)
Information Sciences (Elsevier) Cognitive Science (CSS)
Learning & Nonlinear Models (SBIC - Brasil) Machine Learning (Springer)
Journal of Machine Learning Research (JMLR)
Livros:
1. Arbib, M.A. (ed.) (2002) “The Handbook of Brain Theory and Neural Networks”, The MIT
Press, 2nd. edition, ISBN: 0262011972.
2. Bertsekas, D.P. & Tsitsiklis, J.N. (1996) “Neuro-Dynamic Programming”, Athena Scientific,
ISBN: 1886529108.
3. Bishop, C.M. (1996) “Neural Networks for Pattern Recognition”, Oxford University Press,
ISBN: 0198538642.
4. Bishop, C.M. (2007) “Pattern Recognition and Machine Learning”, Springer, ISBN:
0387310738.
5. Braga, A.P., de Carvalho, A.P.L.F. & Ludermir, T.B. (2007) “Redes Neurais Artificiais –
Teoria e Aplicações”, Editora LTC, 2a. edição, ISBN: 9788521615644.
6. Chauvin, Y. & Rumelhart, D.E. (1995) “Backpropagation: Theory, Architectures, and
Applications”, Lawrence Erlbaum Associates, ISBN: 080581258X.
7. Cherkassky, V. & Mulier, F. (2007) “Learning from Data: Concepts, Theory, and Methods”,
2nd edition, Wiley-IEEE Press, ISBN: 0471681822.
8. Cristianini N. & Shawe-Taylor, J. (2000) “An Introduction to Support Vector Machines and
Other Kernel-Based Learning Methods”, Cambridge University Press, ISBN: 0521780195.
9. da Silva, I.N., Spatti, D.H. & Flauzino, R.A. (2010) “Redes Neurais Artificiais Para Engenharia
e Ciências Aplicadas”, Artliber Editora Ltda., ISBN: 9788588098534.
10. Dayan, P. & Abbot, L.F. (2001) “Theoretical Neuroscience: Computational and Mathematical
Modeling of Neural Systems”, The MIT Press, ISBN: 0262041995.
11. Duda, R.O., Hart, P.E. & Stork, D.G. (2000) “Pattern Classification”, 2nd edition, Wiley-
Interscience, ISBN: 0471056693.
12. Edelman, G.M. (1988) “Neural Darwinism: The Theory of Neuronal Group Selection”, Basic
Books, ISBN: 0465049346.
13. Fausett, L. (2004) “Fundamentals of Neural Networks: Architectures, Algorithms, and
Applications”, Dorling Kindersley India, ISBN: 8131700534.
14. Fiesler, E. & Beale, R. (1996) “Handbook of Neural Computation”, Institute of Physics
Publishing, ISBN: 0750303123.
15. Gardner, H. (2011) “Frames of Mind: The Theory of Multiple Intelligences”, 3rd edition,
BasicBooks, ISBN: 0465024335.
16. Hassoun, M. (2003) “Fundamentals of Artificial Neural Networks”, A Bradford Book, ISBN:
0262514672.
17. Hastie, T., Tibshirani, R. & Friedman, J.H. (2001) “The Elements of Statistical Learning”,
Springer, ISBN: 0387952845.
18. Haykin, S. (2008) “Neural Networks and Learning Machines”, 3rd edition, Prentice Hall,
ISBN: 0131471392.
19. Hecht-Nielsen, R. (1990) “Neurocomputing”, Addison-Wesley Publishing Co., ISBN:
0201093553.
20. Hertz, J., Krogh, A. & Palmer, R. (1991) “Introduction to the Theory of Neural Computation”,
Addison-Wesley, ISBN: 0201515601.
21. Kearns, M.J., Vazirani, U. (1994) “An Introduction to Computational Learning Theory”, The
MIT Press, ISBN: 0262111934.
22. Kohonen, T. (1989) “Self-Organization and Associative Memory”, 3rd edition, Springer-
Verlag, ISBN: 0387513876. (1st Edition: 1984; 2nd edition: 1988)
23. Kohonen, T. (2000) “Self-Organizing Maps”, 3rd Edition, Springer, ISBN: 3540679219.
24. Luenberger, D.G. (1984) “Linear and Nonlinear Programming”, 2nd edition, Addison-Wesley,
ISBN: 0201157942.
25. Mackay, D.J.C. (2003) “Information Theory, Inference and Learning Algorithms”, Cambridge
University Press, ISBN: 0521642981.
26. Mardia, K.V., Kent, J.T., Bibby, J.M. (1980) “Multivariate Analysis”. Academic Press, ISBN:
0124712525.
27. Marsland, S. (2009) “Machine Learning: An Algorithmic Perspective”, Chapman and
Hall/CRC, ISBN: 1420067184.
28. Masters, T. (1995) “Advanced Algorithms for Neural Networks: A C++ Sourcebook”, John
Wiley and Sons, ISBN: 0471105880.
29. Minsky, M.L. (1988) “The Society of Mind”, Simon & Schuster, ISBN: 0671657135.
30. Minsky, M.L. & Papert, S.A. (1988) “Perceptrons: Introduction to Computational Geometry”,
Expanded edition, The MIT Press, ISBN: 0262631113. (1st edition: 1969)
31. Mitchell, T.M. (1997) “Machine Learning”, McGraw-Hill, ISBN: 0071154671.
32. Ripley, B.D. (2008) “Pattern Recognition and Neural Networks”, Cambridge University Press,
ISBN: 0521717701.
33. Rumelhart, D.E. & McClelland, J.L. (1986) “Parallel Distributed Processing: Explorations in
the Microstructure of Cognition”, volumes 1 & 2. The MIT Press, ISBN: 026268053X.
34. Schalkoff, R.J. (1997) “Artificial Neural Networks”, The McGraw-Hill Companies, ISBN:
0071155546.
35. Schölkopf, B. & Smola, A.J. (2001) “Learning with Kernels: Support Vector Machines,
Regularization, Optimization, and Beyond”, The MIT Press, ISBN: 0262194759.
36. Sutton, R.S. & Barto, A.G. (1998) “Reinforcement Learning: An Introduction”, The MIT Press,
ISBN: 0262193981.
37. Vapnik V.N. (1998) “Statistical Learning Theory”, Wiley-Interscience, ISBN: 0471030031.
38. Vapnik V.N. (1999) “The Nature of Statistical Learning Theory”, 2nd edition, Springer, ISBN:
0387987800.
39. Weigend, A.S. & Gershenfeld, N.A. (eds.) (1993) “Time Series Prediction: Forecasting the
Future and Understanding the Past”, Perseus Press, ISBN: 0201626020.
40. Wilson, R.A. & Keil, F.C. (eds.) (2001) “The MIT Encyclopedia of the Cognitive Sciences”,
The MIT Press, ISBN: 0262731444.
O cérebro humano apresenta ~1011 neurônios e ~1014 sinapses ou conexões, com uma
média de ~1000 conexões por neurônio, podendo chegar a ~10000 conexões.
Estrutura de um nervo
Alguns autores defendem que o córtex humano pode ser modelado na forma de uma
rede “mundo pequeno” (BASSETT & BULLMORE, 2006; SPORNS & HONEY, 2006;
SPORNS, 2010) ou então uma rede complexa (AMARAL & OTTINO, 2004).
AMARAL, L. & OTTINO, J. (2004) “Complex networks”, The European Physical Journal B – Condensed Matter and
Complex Systems, vol. 38, no. 2, pp. 147-162.
BASSETT, D.S. & BULLMORE, E. (2006) “Small-world brain networks”, Neuroscientist, vol. 12, no. 6, pp. 512-523.
SPORNS, O. & HONEY, C.J. (2006) “Small worlds inside big brains”, Proceedings of the National Academy of
Science, vol. 103, no. 51, pp. 19219-19220.
SPORNS, O. (2010) “Networks of the Brain”, The MIT Press, ISBN: 0262014696.
KOLB, B & WHISHAW, I.Q. (2008) “Fundamentals of Human Neuropsychology”, Worth Publishers, 6th. edition,
ISBN: 0716795868.
d
e
n
s
i
d
a
d
e
c n p s
o a u e
n s f b n
c c i e i
e i m r l
p m d i
ç e d a d
ã n a d a
o t e d
o e
Voltando agora a atenção para o neurônio biológico, pode-se afirmar que se trata de
uma célula especializada em transmitir pulsos elétricos, sendo que as suas principais
partes constituintes são:
Membrana celular: é a “pele” da célula;
Citoplasma: tudo que está envolvido pela membrana;
Cérebro
estímulo sensores + atuadores resposta
Redes Periféricas
Unidade Central de
Processamento
Computador
Registradores Unidade de
I/O Controle
UCP
Barramentos
Barramentos
internos
Memória
Unidade
Aritmética e
Lógica
Todos os problemas
Problemas
factíveis
Problemas computáveis
Neurônio
Neuron
Cérebro
Brain
Sinapse
Synapse
Dendrites
Synaptic
clefts
Axon
Axon hillock
Mielin sheath
Cell body
(soma)
Bombas de sódio e potássio: os íons de sódio que haviam entrado no neurônio durante
a despolarização, são rebombeados para fora do neurônio mediante o funcionamento
das bombas de sódio e potássio, que exigem gasto de energia.
Para cada molécula de ATP empregada no bombeamento, 3 íons de sódio são
bombeados para fora e dois íons de potássio são bombeados para dentro da célula.
Esta etapa ocorre após a faixa azul da figura anterior.
6. Neurônio artificial
Modelo matemático: simplificação da realidade com o propósito de representar
aspectos relevantes de um sistema em estudo, sendo que detalhes de menor
significância são descartados para viabilizar a modelagem.
Pesos das
conexões bk Limiar(bias)
x1
wk1
Função de
x2 wk2 ativação
Entradas
wkm Saída
Junção
xm somadora
p=3
p=1.5
p=3
p=0.8
p=1.5
p=0.8
a) b)
Figura 2 – Função logística (a) e sua derivada em relação à entrada interna (b).
e puk e puk
y f (u k ) tanh( pu k ) puk
dy
p 1 y2 0
e puk
e duk
p=2.2
p=1
p=0.6 p=2.2
p=1
p=0.6
a) b)
Figura 3 – Função tangente hiperbólica (a) e sua derivada em relação à entrada interna (b).
Esta será a função de ativação a ser adotada nas implementações práticas do curso,
com parâmetro p = 1 fixo.
Tópico 2: Redes Neurais Artificiais: Estruturas Feedforward e Aprendizado Supervisionado 44
IA013 – Profs. Fernando J. Von Zuben & Levy Boccato
DCA/FEEC/Unicamp
Outra função de ativação tem sido amplamente empregada no âmbito das redes
neurais com aprendizado profundo (deep learning), a qual dá origem ao modelo de
neurônio conhecido como ReLU (rectified linear unit):
v1
v1- av2
av2 v2
av 2 v 1 av 2 ,
conduzindo a
av 2 , v1 av 2 0 .
Logo,
a v 2 , v1 a 2 v 2 , v 2 0 ,
permitindo obter a na forma
v 2 , v1
a
v2 , v2 .
v 2 , v1
projv2 (v1 ) v2
v2 , v2
0.8 1
0.8
0.6
0.6
f ( x) f (vT x)
j j 0.4
0.4
0.2
0.2 0
4
2 4
0 2
0 0
-4 -2 0 2 4 -2
x2 -4 -4
-2
x1
x
(a) (b)
1 wi0
yj
g
w
ui yi
g
x ij
wij
1 v10
v11 y1
+ f
1 w10
v1m w11
+ ^s
1
1 v20 w12
x1 v21 y2
+ f w1n
xm v2m 1 wr0
wr1
+ ^s
r
wr2
1 vn0
yn
vn1
+ f wrn
vnm
Figura 7 – Rede neural perceptron com uma camada intermediária (Multilayer Perceptron, MLP).
sˆk wkj f v ji xi wkj f v Tj x gˆ k x, , k 1,..., r
n
m
n
j 0 i 0 j 0
u1 y1
g
1
c0
x
b1
c1
y
1
a2
c2
u2 y2
g
x
b2
a : deslocamen to no eixo x
y c0 c1 g b1 x a1 c2 g b2 x a2 b : inclinação da sigmóide
c : amplitude da sigmóide
sl g( x l ) l , l 1,..., N ,
m n
n
sˆl gˆ x l , w j f v ji xli w j f v Tj x l
j 0 i 0 j 0
onde é o vetor contendo todos os pesos sinápticos da rede neural.
Logo, o erro quadrático médio produzido na saída da rede neural, considerando as N
amostras, assume a forma:
1 N 1 N
J sˆ l sl gˆ x l , sl
2 2
N l 1 N l 1
2 2
1 n 1 N n
m
N
w j f v ji xli sl w j f v j x l sl
T
N l 1 j 0 i 0 N l 1 j 0
Sendo P a dimensão do vetor , então tem-se que: J : P 1 .
(a) (b)
(c) (d)
Figura 17 – (a) Função a ser aproximada (agora considerando apenas uma entrada);
(b) Amostras disponíveis; (c) Resultado de um processo de aproximação com sobretreinamento
(overfitting); (d) Resultado de um processo de aproximação sem sobretreinamento.
(a) (b)
possível encontrar um conjunto de parâmetros ótimo *. Neste caso, o erro vai
depender da adequação e do nível de flexibilidade do modelo de aproximação ĝ (., θ).
Este erro é também conhecido como erro de aproximação, ou efeito bias.
Erro de Generalização: Em aplicações de mundo real, somente um número finito de
amostras está disponível ou pode ser usado simultaneamente. Além disso, os dados
podem conter ruído. Os valores de g(.) para os quais nenhuma amostra está disponível
devem ser interpolados. Devido a estes fatores, pode ocorrer um erro de generalização,
também conhecido como erro de estimação, ou variância.
Tópico 2: Redes Neurais Artificiais: Estruturas Feedforward e Aprendizado Supervisionado 68
IA013 – Profs. Fernando J. Von Zuben & Levy Boccato
DCA/FEEC/Unicamp
s
g
x + e
^s
g n, N
Hn
e C
eN
gn,N en g
g n, N gn
1.0 1.0
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0.0 0.0
-0.2 -0.2
-0.4 -0.4
-0.6 -0.6
-0.8 -0.8
-1.0 -1.0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
1.0 1.0
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0.0 0.0
-0.2 -0.2
-0.4 -0.4
-0.6 -0.6
-0.8 -0.8
-1.0 -1.0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
Figura 19 – Dados amostrados, função a ser aproximada e modelos de aproximação com diferentes
capacidades de generalização
Figura 20 – Ilustrações típicas da evolução, ao longo das épocas de treinamento, dos erros de
treinamento e de validação em treinamento supervisionado de redes MLP.
um peso da rede neural e indica o quanto a saída é influenciada por uma variação
incremental neste peso sináptico.
0 0
-1 -1 F2(x)
-2 -2
-6 -3 0 3 6
Tópico 2: Redes-6Neurais Artificiais:
-3 0
Estruturas 3
Feedforward e6Aprendizado Supervisionado 78
x
IA013 – Profs. Fernando J. Von Zuben & Levy Boccato
DCA/FEEC/Unicamp
ESTRATÉGIAS DE TREINAMENTO
onde se encontra a busca, que pode representar uma solução inadequada (com nível de
erro acima do aceitável).
10
-5
-10
Mínimo local
-15
Mínimo global
-20
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
Figura 22 – Exemplo ilustrativo de mínimos local e global (considerando uma única variável).
Um conceito relevante aqui é o de bacia de atração. Todo mínimo local tem uma
bacia de atração e o mínimo local a ser fornecido pelo algoritmo de otimização tende a
ser aquele em cuja bacia de atração encontra-se a condição inicial (ponto de partida da
busca iterativa).
Isso é bem provável no caso de buscas iterativas que dão passos sempre minimizantes,
mas podem ocorrer passos capazes de deslocar a busca para bacias de atração
vizinhas, associadas a outros mínimos locais.
A trajetória da condição inicial até o ótimo local resultante será certamente distinta
para algoritmos de 1ª e 2ª ordem, pois eles diferem a cada iteração da busca, mas o
resultado final tende a ser o mesmo, a menos que haja deslocamentos casuais para
outras bacias de atração vizinhas.
Hump function
100
90
80
70
60
f(x)
50
40
30
20
10
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
x
k = k + 1;
Calcule J w (k ) ;
x
2
(1,0) (1,1)
y=0
y=1
x
1
(0,0) (0,1)
1 w0
u y
x1 w1 ∑ g(·)
x2 w2
Para qualquer valor dos parâmetros w0 , w1 e w2, a função g(u) separa o espaço de
entradas em duas regiões, sendo que a curva de separação é uma linha reta.
Tópico 2: Redes Neurais Artificiais: Estruturas Feedforward e Aprendizado Supervisionado 89
IA013 – Profs. Fernando J. Von Zuben & Levy Boccato
DCA/FEEC/Unicamp
0.5
0
5
5
0
0
x2 -5 -5 x1
Figura 26 – Mapeamento de entrada-saída para o perceptron da Figura 25,
com w0 = 6, w1 = 4 e w2 = 3.
Aqui tomou-se a função g() como sendo a função sinal, pois as saídas são binárias.
No problema do OU-exclusivo (Figura 24), pode-se constatar que não existe uma
única reta divisória de forma que os pontos (0,0) e (1,1) se posicionem de um lado
enquanto que (0,1) e (1,0) permaneçam do outro lado da linha.
Logo, pode-se imediatamente concluir que um neurônio tipo perceptron não apresenta
grau de liberdade suficiente para resolver o problema proposto, o que foi corretamente
constatado por Minsky & Papert, em 1969.
No entanto, esses autores também acreditavam que não havia razão para supor que
redes multicamadas pudessem conduzir a uma solução para o problema proposto. Esta
hipótese só foi definitivamente rejeitada com a aplicação do algoritmo de
retropropagação (backpropagation), já nos anos 80, o qual permite o ajuste automático
de pesos para redes neurais multicamadas, arquitetura necessária para a realização de
mapeamentos não-lineares.
Considere o problema de mapeamento de uma rede neural tipo perceptron, com uma
camada intermediária (Figura 27), aplicada ao problema do OU-exclusivo.
w10
w11 1 w0
1
z1
w12 ∑ g(·) w1 ∑ g(·) y
x1
z2
w20 ∑ g(·) w2
x2 w21
w22
Surge uma questão: existem parâmetros wij (i=1,2; j=0,1,2) e wk (k = 0,1,2) tais que
y = 0 para as entradas (0,0) e (1,1) e y = 1 para as entradas (1,0) e (0,1)?
As saídas da primeira camada (z1 e z2) podem ser consideradas como variáveis
intermediárias utilizadas na geração da saída y. As variáveis z1 e z2 formam o que será
denominado mais à frente no curso de espaço de características.
Do que já foi visto a respeito de um neurônio do tipo perceptron, sabe-se que existem
pesos w1j (j=0,1,2) tais que (veja curva de separação L1 na Figura 28(a)):
(0,1) produza z1 = 1
(0,0),(1,0),(1,1) produza z1 = 0.
De forma similar, existem pesos w2j (j=0,1,2) tais que (veja curva de separação L2 na
Figura 28(a)):
(0,1),(0,0),(1,1) produza z2 = 1
(1,0) produza z2 = 0
x2 z2
L1
L3
L2 x
(1,1) z x z
(0,1) (1,1) (0,1) (0,1) (1,1)
(0,0)
x1 z1
(0,0) (1,0) x z
(1,0) (0,0)
(a) (b)
f ( x ) y ax b (x1,y1)
ajuste de parâmetros livres, o conjunto de “formas” que a função pode assumir (classe
de funções que o modelo do estimador pode prever) é muito amplo.
Como consequência, vai existir um número elevado de parâmetros (por exemplo,
quando comparado ao número de dados de entrada-saída para treinamento), os quais
não mais admitem uma interpretação física isolada.
Redes RBF
modelos baseados Perceptron com centros
em aprendizado de múltiplas e dispersões
construtivo camadas fixas
modelos puramente modelos puramente
não-paramétricos paramétricos
(requerem um conjunto (requerem um conjunto
infinito de dados finito de dados
do problema) do problema)
Com base no exposto acima, fica evidente que redes neurais artificiais para
treinamento supervisionado pertencem à classe de modelos de regressão não-
paramétricos. Sendo assim, os pesos não apresentam um significado físico particular
Tópico 2: Redes Neurais Artificiais: Estruturas Feedforward e Aprendizado Supervisionado 96
IA013 – Profs. Fernando J. Von Zuben & Levy Boccato
DCA/FEEC/Unicamp
O centro e a taxa de decrescimento (ou crescimento) em cada direção são alguns dos
parâmetros a serem definidos. Estes parâmetros devem ser constantes (i.e., pré-
definidos e mantidos fixos) caso o modelo de regressão seja tomado como linear nos
parâmetros ajustáveis.
Uma função de base radial monotonicamente decrescente típica é a função gaussiana,
dada na forma:
x c j 2
h j ( x ) exp , para o caso escalar (veja Figura 29(a));
rj2
Uma função de base radial monotonicamente crescente típica é a função multiquádrica
dada na forma:
r j2 x c j 2
h j ( x) , para o caso escalar (veja Figura 29(b));
rj
2.5
0.8
2
0.6
hj(x) hj(x) 1.5
0.4
1
0.2 0.5
0 0
-2 -1 0 1 2 -2 -1 0 1 2
x x
(a) (b)
h j x U ( x) x c j log x c j
2
U(x) = r2log(r) = x2log(|x|)
10
U(x) 4
-2
-3 -2 -1 0 1 2 3
x
Thin plate spline considerando cj = 0.
h j ( x, y ) ( x x j ) 2 ( y y j ) 2 log ( x x j ) 2 ( y y j ) 2
Thin plate spline considerando x j , y j (0,0) .
x1 c j1 2 x2 c j 2 2 x c 2
h j (x) exp ...
n jn . (2)
j1 j2 jn
y w j exp x c j T j 1 x c j
m
j 1
e
m x1 c j1 2 x2 c j 2 2 x c 2
y w j exp ...
n jn
j1 j2 jn
j 1
Uma versão para múltiplas saídas é apresentada na Figura 31.
y=f(x)
+
w1 wm
wj
x1 c11 h1
c21 w11
c1m .
c1j . w1p + y1
x2 c2j . wj1
.
c2m hGj .
. .
.
. . wjp
. wm1 + yp
cn1 cnj .
xn hm wmp
cnm
Camada de Camada Camada de
entrada intermediária saída
Dado um número suficiente de neurônios com função de base radial, qualquer função
contínua definida numa região compacta pode ser devidamente aproximada usando
uma rede RBF (PARK & SANDBERG, 1991).
As redes RBF são redes de aprendizado local, de modo que é possível chegar a uma
boa aproximação desde que um número suficiente de dados para treinamento seja
fornecido na região de interesse.
Em contraste, perceptrons multicamadas são redes de aprendizado “global” (em
virtude da natureza das funções de ativação: são ridge functions) que fazem
aproximações de efeito global, em regiões compactas do espaço de aproximação.
Redes neurais com capacidade de aproximação local são muito eficientes quando a
dimensão do vetor de entradas é reduzida. Entretanto, quando o número de entradas
não é pequeno, as redes MLP apresentam uma maior capacidade de generalização
(HAYKIN, 2008).
c0 c1 x j cn x nj y j , j 0,1,..., n ,
Estas n+1 equações com n+1 incógnitas podem ser colocadas na forma matricial:
f 0 x0 f1 x 0 f n x0 c0 y0
f x c1 y1
0 1 F c y
.
f 0 xn f n xn cn y n
e o conjunto de treinamento dado por x i , si i 1 , o método dos quadrados mínimos se
N
ocupa em minimizar (em relação aos coeficientes da combinação linear) a soma dos
quadrados dos erros produzidos a partir de cada um dos N padrões de entrada-saída.
Portanto, existem m equações para obter as m incógnitas wr , r 1,..., m. Exceto sob
condições “patológicas”, este sistema de equações vai apresentar uma solução única.
Para encontrar esta solução única do sistema de equações lineares, é interessante
recorrer à notação vetorial, fornecida pela álgebra linear, para obter:
h Tj f h Tj s , j=1,...,m,
onde
m
h j ( x1 ) w h
f ( x1 ) r 1 r r 1
( x )
s1
h j , f e s .
m
h j ( x N ) f ( x N ) wr hr ( x N ) s N
r 1
h1T f h1T s
h m f h m s
T T
Definindo a matriz H, com sua j-ésima coluna dada por hj, temos:
h1 (x 1 ) h2 (x 1 ) hm (x 1 )
h (x ) h (x ) hm (x 2 )
H h 1 h2 hm 1 2 2 2
h1 (x N ) h2 (x N ) hm (x N )
H T Hw H T s w H T H 1
HT s
4 5
4
3
3
2
2
1 1
0 0
0 2 4 6 8 10 0 2 4 6 8 10
5 7
6
4
5
3
4
2 3
1 2
1
0
0 2 4 6 8 10
0
0 2 4 6 8 10
assemelha ao adotado para as redes de Kohonen, mas não leva em conta noções de
vizinhança entre os centros. Ele também está sujeito a mínimos locais.
Sejam {c j (t )}mj1 os centros das funções de base radial na iteração t. O algoritmo k-
3. Ajuste: Defina a nova posição de cada um dos m centros como a média dos padrões
cujo índice corresponde àquele centro.
4. Ciclo: Repita os Passos 2 e 3 enquanto houver mudança de índice de centro para
pelo menos um dos padrões.
2
x2
-2
-4
-6
-8
-10
-10 -8 -6 -4 -2 0 2 4 6 8 10
x1
Figura 32 – Proposta de posicionamento dos centros das funções de base radial para uma rede
neural RBF com 8 neurônios na camada intermediária.
x2 2
-2
-4
-6
-8
-10
-10 -8 -6 -4 -2 0 2 4 6 8 10
x1
Figura 33 – Outra proposta de posicionamento dos centros para os mesmos dados, produzida por
uma segunda execução do algoritmo k-means.
0
10
10
-5 5
x2 0
-5
-10
-10 x1
Figura 34 – Ativação dos neurônios da rede neural RBF com os centros da Figura 33, considerando
todos os pesos de saída iguais a 1 e ausência de peso de bias. A dispersão é a mesma para todas as
funções de ativação, dada pela fórmula da pág. 116.
n n
f (w, x) w0 w j h j (x) w j h j (x) , com h0(x) = 1.
j 1 j 0
H T Hw H T s w H T H 1
HT s
Dados N pontos no plano, na forma xi , yi iN1 , obtenha uma fórmula fechada para os
N N N
J a r , a r 1 ,..., a1 , a 0 y i 2 Pr x i y i Pr x i
2 2
i 1 i 1 i 1
2
N N r j
N r
j
yi 2 a j x i y i a j x i
2
i 1 i 1 j 0 i 1 j 0
N r
N j
r r
N jk
yi 2 a j y i xi a j a k xi
2
i 1 j 0 i 1 j 0 k 0 i 1
J
Condição necessária de otimalidade: 0 para j=0,1,...,r. Assim, para cada j resulta:
a j
J N r N
jk
2 y i x i 2 a k x i 0 para j=0,1,...,r.
j
a j i 1 k 0 i 1
r N N
j k
a k xi y i x i para j=0,1,...,r.
j
k 0 i 1 i 1
N 0 N N N N
0 i 1 i 2 i r i i i
1 2 r 0
a x a x a x a x y x
i 1 i 1 i 1 i 1 i 1
N 1 N N N
r 1
N
a 0 x i a1 x i a 2 x i a r x i y i x i
2 3 1
i 1 i 1 i 1 i 1 i 1
N r N
r 1
N
r 2
N N
2r r
a 0 x i a1 x i a 2 x i a r x i y i x i
i 1 i 1 i 1 i 1 i 1
N 0 N N N
N 0
x i xi xi i 0 i i
1 2 r
x a y x
i N1 i 1 i 1 i 1
a i N1
r 1 1
N N N
x1
xi xi xi a 2 y i xi Za q
2 3 1
i
i 1 i 1 i 1 i 1 i 1
N r N
r 1
N
r 2
N N
x i xi xi xi a r y i xi
2r r
i 1 i 1 i 1 i 1 i 1
Se os xi’s forem todos distintos, então a matriz Z r 1r 1 é inversível e a solução
assume a forma: a Z 1 q . Exemplos:
5 5
4 4
3 3
2 2
1 1
0 0
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
5 5
4 4
3 3
2 2
1 1
0 0
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
5 5
4 4
3 3
2 2
1 1
0 0
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
w *k arg minn1 J w k Ck w k
2
w k 2
onde
k é o índice da saída;
n é o número de neurônios na camada intermediária;
2 é a norma euclidiana;
Ck é um coeficiente ou fator de ponderação, a ser determinado, por exemplo, por
métodos de busca unidimensional;
2
1 n
J w k wkj f v j , b j , x l wk 0 skl – erro quadrático;
N
2 l 1 j 1
N é o número de amostras disponíveis para treinamento.
s k sk1 sk 2 skN
T
4.1. Se n N, w k H T H Ck I 1
H T sk ;
4.2. Se n > N, w k H T HH T Ck I
1
sk .
24.1 LASSO
Uma formulação alternativa considera a penalização com a norma l1, produzindo:
onde e c 0.
Esta estratégia de regularização é conhecida como LASSO, do inglês Least Absolute
Shrinkage and Selection Operator, e foi proposta por Tibshirani em 1996: Tibshirani,
R. “Regression shrinkage and selection via the LASSO”, Journal of the Royal
Statistical Society B, vol. 58, pp. 267–288, 1996.
Ridge regression
Curvas de evolução dos pesos da camada de saída Erro quadrático médio junto ao conjunto de teste.
da ELM em função do coeficiente de ponderação.
LASSO
Curvas de evolução dos pesos da camada de saída Erro quadrático médio junto ao conjunto de teste.
da ELM em função do coeficiente de ponderação.
onde .
O cálculo dos coeficientes c e requer uma busca visando minimizar o erro junto a
um conjunto de dados de validação.
Repare que a Elastic Net contempla todas as demais propostas, para valores
específicos de c e :
x x
x x
(x) (x)
o (o)
x
(x) (x)
o x (o)
x x o (x) (x) (o)
o (o)
o (x) (x)
x o (o)
(x) (x)
x (o)
Dimensão = m Dimensão = M >> m
Hiperplano
Ótimo
Vetores-Suporte
Maximização :
Margem de Separação
Problema primal:
N
1 2
( w, ) w C F ( i ) s.a. y i [(w x i ) b] 1 i , i 1, , N
2 i 1
Problema dual:
1 N N N
min W ( ) i j yi y j K (xi , x j ) i
2 i 1 j 1 i 1
s.a. 0 i C, i 1, , N
N
y
i 1
i i 0
Classificação
Tópico 2: Redes Neurais Artificiais: Estruturas Feedforward e Aprendizado Supervisionado 149
IA013 – Profs. Fernando J. Von Zuben & Levy Boccato
DCA/FEEC/Unicamp
Regressão
K(v1 ,x)
x1
y11
x2
K(v2 ,x) y22
f (x)
x3 yNsvNsv
• •
• •
• •
b
xm
K(vNsv ,x)
Vetor de entrada
x = (x1, x2, ...xm) Transformação não linear
baseada em Nsv vetores-suportes
Decisão de uma SVM analisada sob o ponto de vista de uma estrutura típica de rede neural.
26. Referências
BATTITI, R. First- and Second-Order Methods for Learning: Between Steepest Descent and Newton's Method. Neural Computation,
vol. 4, no. 2, pp. 141-166, 1992.
BISHOP, C. Exact Calculation of the Hessian Matrix for the Multilayer Perceptron. Neural Computation, vol. 4, no. 4, pp. 494-501,
1992.
COVER, T.M. & HART, P.E. “Nearest neighbor pattern classification”, IEEE Transactions on Information Theory, 13:21-27, 1967.
CYBENKO, G. Approximation by superposition of sigmoidal functions. Mathematics of Control, Signals and Systems, vol. 2, no. 4, pp.
303-314, 1989.
GOMES, L.C.T. & VON ZUBEN, F.J. A Neuro-Fuzzy Approach to the Capacitated Vehicle Routing Problem. Proceedings of the IEEE
International Joint Conference on Neural Networks (IJCNN’2002), vol. 2, pp. 1930-1935, Honolulu, Hawaii, May 12-17, 2002.
HARTMAN, E.J., KEELER, J.D., KOWALSKI, J.M. Layered neural networks with gaussian hidden units as universal approximators.
Neural Computation, vol. 2, no. 2, pp. 210-215, 1990.
HAYKIN, S. “Neural Networks: A Comprehensive Foundation”, 2nd edition, Prentice-Hall, 1999.
HEBB, D. O. “The Organization of Behavior”, Wiley, 1949.
HINTON, G.E. “Connectionist learning procedures”, Artificial Intelligence, 40: 185-234, 1989.
HINTON, G. E. & SEJNOWSKI, T.J. “Learning and relearning in Boltzmann machines”, in D. E. Rumelhart, J. L. McClelland & The
PDP Research Group (eds.) Parallel Distributed Processing: Explorations in the Microstructure of Cognition, MIT Press, vol. 1,
pp. 282-317, 1986.
HORNIK, K., STINCHCOMBE, M., WHITE, H. Multi-layer feedforward networks are universal approximators. Neural Networks, vol. 2,
no. 5, pp. 359-366, 1989.
“Muitos não fizeram quando deviam porque não quiseram quando podiam”.
François Rabelais (1483/94-1553)