Você está na página 1de 12

IA353 Prof.

Von Zuben
DCA/FEEC/Unicamp

Regresso paramtrica e no-paramtrica


1. Introduo
h dois grandes problemas na cincia moderna:
1. mais pessoas do que se aceita como razovel usam terminologias diferentes para
resolver os mesmos problemas;
2. muito mais pessoas usam a mesma terminologia para abordar questes
completamente distintas.
Autoria desconhecida
diferentes denominaes para o problema de estimar uma funo a partir de
exemplos de estmulo-resposta (entrada-sada):
1. regresso (paramtrica/no-paramtrica)

2. aproximao de funes

3. identificao de sistemas

4. aprendizado supervisionado
1

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

conjunto de treinamento: estmulo / entrada / variveis independentes


resposta / sada / variveis dependentes
regresso paramtrica: a forma do relacionamento funcional entre as variveis
dependentes e independentes conhecida, mas podem existir parmetros cujos
valores so desconhecidos, embora passveis de serem estimados a partir do
conjunto de treinamento.
em problemas paramtricos, os parmetros livres, bem como as variveis
dependentes e independentes, geralmente tm uma interpretao fsica.
Exemplo: ajuste de uma reta a uma distribuio de pontos
y

f ( x ) = y = ax + b
a,b desconhecidos
y: sujeito a rudo

(x 1,y 1)

( x 2,y 2)

( x 3 ,y 3)

( x 4 ,y 4)

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

regresso no-paramtrica: sua caracterstica distintiva a ausncia (completa ou


quase completa) de conhecimento a priori a respeito da forma da funo que est
sendo estimada. Sendo assim, mesmo que a funo continue a ser estimada a
partir do ajuste de parmetros livres, o conjunto de formas que a funo pode
assumir (classe de funes que o modelo do estimador pode prever) muito
amplo.
como conseqncia, vai existir um nmero elevado de parmetros (por exemplo,
quando comparado ao nmero de dados de entrada-sada para treinamento), os
quais no mais admitem uma interpretao fsica isolada.
m od elos basead os
em aprend izad o
constru tiv o

p erc ep tron

m od elo s p u ram en te
no-p a ram tricos
(requ erem u m con ju n to
infinito d e d ad os
do p rob lem a)

RBF

m od elo s p u ra m en te
p aram tricos
(req u erem u m con ju n to
fin ito d e d ad os
d o p rob lem a)

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

todos os modelos de regresso que no so puramente paramtricos so


denominados no-paramtricos ou semi-paramtricos. Esta denominao no deve
causar confuso, principalmente levando-se em conta que modelos de regresso
puramente no-paramtricos so intratveis.
com base no exposto acima, fica evidente que redes neurais artificiais para
treinamento supervisionado pertencem classe de modelos de regresso noparamtricos. Sendo assim, os pesos no apresentam um significado fsico
particular em relao ao problema de aplicao.
alm disso, estimar os parmetros de um modelo no-paramtrico (por exemplo,
pesos de uma rede neural artificial) no o objetivo primrio do aprendizado
supervisionado. O objetivo primrio estimar a forma da funo em uma regio
compacta do espao de aproximao (ou ao menos a sada para certos valores
desejados de entrada).

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

por outro lado, em regresso paramtrica, o objetivo primrio estimar o valor


dos parmetros, por dois motivos:
1. a forma da funo j conhecida;
2. os parmetros admitem uma interpretao fsica.
2. O problema de classificao de padres revisitado
problemas de classificao de padres podem ser transformados em problemas de
regresso, pela simples introduo de um ps-processamento da sada do modelo
de regresso:
p a d r o a
se r
c la ssific a d o

m od e lo
de
re gre ss o

sa d a

p sp roc e ssa m e n to

c la sse

obs: nos dois exemplos apresentados a seguir, o critrio de erro deve ser tomado
como sendo o nmero de padres classificados incorretamente, e no o erro
(quadrtico mdio) frente sada desejada.
5

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

2.1 Tipos de ps-processamento: Exemplo 1


nmero de classes: 3 (vlido para
qualquer valor 2)

sada

psprocessamento

classe

intervalo de sada: (1,+1)


ps-processamento:
Se sada (1, 1 3 ], ento classe 1.
Se sada ( 1 3 , + 1 3], ento classe 2.
Se sada ( + 1 3,+1), ento classe 3.
limiar de erro para treinamento:
Se classe 1 e sada (1, 1 2 ], ento classificao correta no ajustar pesos.
Se classe 1 e sada (1, 1 2 ], ento classificao incorreta ajustar pesos tomando como
sada desejada 3 4 .
Se classe 2 e sada [ 1 4 , + 1 4 ], ento classificao correta no ajustar pesos.
Se classe 2 e sada [ 1 4 , + 1 4 ], ento classificao incorreta ajustar pesos tomando
como sada desejada 0.
Se classe 3 e sada [+0.5,+1), ento classificao correta no ajustar pesos.
Se classe 3 e sada [+0.5,+1), ento classificao incorreta ajustar pesos tomando como
sada desejada + 3 4 .
6

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

2.2 Tipos de ps-processamento: Exemplo 2


nmero de classes: 3 (vlido para
qualquer valor 2)

sada 1
sada 2

intervalo de sada i: (1,+1)

sada 3

psprocessamento

classe

ps-processamento:
Se max sada i = sada 1, ento classe 1.
i

Se max sada i = sada 2, ento classe 2.


i

Se max sada i = sada 3, ento classe 3.


i

limiar de erro para treinamento:

Se classe 1 e max sada i = sada 1, ento classificao correta no ajustar pesos.


i

Se classe 1 e max sada i sada 1, ento classificao incorreta ajustar pesos tomando
i

como sada desejada (+1,1,1).


Se classe 2 e max sada i = sada 2, ento classificao correta no ajustar pesos.
i

Se classe 2 e max sada i sada 2, ento classificao incorreta ajustar pesos tomando
i

como sada desejada (1,+1,1).

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

Se classe 3 e max sada i = sada 3, ento classificao correta no ajustar pesos.


i

Se classe 3 e max sada i sada 3, ento classificao incorreta ajustar pesos tomando
i

como sada desejada (1,1,+1).

2.3 Vantagens e desvantagens de cada tipo de ps-processamento


o exemplo 1 representa um nico problema de regresso multinivelado, contra
mltiplos problemas de regresso do exemplo 2.
o exemplo 2 possui uma representao mais prxima da natureza do problema.

classe 1

classe 2

Exemplo 1

classe 3

c la s s e 1

c la s s e 2

c la s s e 3

c la s s e 1

c la s s e 2

c la s s e 3

Exemplo 2
8

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

3. Modelos de regresso lineares


uma modelo linear f(x) para uma funo y(x) assume a forma:
f (x) =

w j h j (x) ,
j =1

representando uma combinao linear de um conjunto de m funes fixas,


geralmente denominadas funes-base, por analogia com o conceito de vetor
gerado a partir de uma combinao linear de vetores-base.
o modelo linear porque a flexibilidade de f(), ou seja, sua habilidade de assumir
formas diferentes, deriva apenas da liberdade de escolher diferentes valores para
os coeficientes da combinao linear, wj (j=1,...,m). As funes-base, que podem
ser no-lineares, e quaisquer parmetros que elas possam conter, so assumidos
fixos. Caso contrrio, para o caso de funes-base no-lineares o modelo seria
no-linear.

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

em princpio, qualquer conjunto de funes pode ser escolhido para formar a base
hj(), j=1,...,m, embora existam (o que no implica que possam ser facilmente
obtidos) conjuntos mais adequados para cada problema e tambm conjuntos
suficientemente flexveis para apresentarem desempenho adequado frente a uma
ampla classe de funes y().
como um caso particular e de grande interesse prtico (em virtude da maior
facilidade de manipulao matemtica e maior simplicidade na deduo de
propriedades bsicas), existem os modelos lineares cujas funes-base so
compostas por elementos de uma nica classe de funes.
exemplos de classes de funes-base:
funes-base polinomiais: h j ( x ) = x j 1

2j (x j )

1
funes-base logsticas (perceptron): h j ( x ) =
1 + exp b Tj x b0 j

funes-base senoidais (srie de Fourier): h j ( x ) = sen

10

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

Nota 1: no exemplo de regresso paramtrica apresentado no incio deste tpico do


curso, foi utilizada a funo f ( x ) = ax + b , que representa um modelo com
funes-base h1(x) = 1 e h2(x) = x, e coeficientes w1 = b e w2 = a.
Nota 2: o grande atrativo apresentado pelos modelos lineares est na possibilidade
de obter o conjunto de coeficientes da combinao linear em forma fechada,
atravs da aplicao de tcnicas de soluo baseadas em quadrados mnimos. O
mesmo no se aplica (na maioria absoluta dos casos) a modelos no-lineares, os
quais requerem processos numricos iterativos (tcnicas de otimizao no-linear)
para obter a soluo.
3.1 Funes de base radial
uma classe particular de funes-base caracterizadas por apresentarem uma
resposta que decresce (ou cresce) monotonicamente com a distncia a um ponto
central.
11

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

o centro e a taxa de decrescimento (ou crescimento) em cada direo so


parmetros do modelo de regresso. Estes parmetros devem ser fixos caso o
modelo seja tomado como linear.
uma funo de base radial monotonicamente decrescente tpica a funo
Gaussiana, dada na forma:
(x c j )2
, para o caso escalar
h j ( x ) = exp
2

r
j

1
h j ( x ) = exp (x c j ) R 1
j (x c j ) , para o caso multivarivel ( R j > 0)

a funo h j ( x ) =

r j2 + (x c j )2
rj

um exemplo do caso monotonicamente

crescente.

12

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp
3

2.5

0.8

0.6

hj(x)

hj(x)
0.4

0.2
0
-2

1.5

0.5

-1

0
-2

-1

r j2 + (x c j )2

Figura 1 - Funes radiais h ( x ) = exp (x c j ) e h j ( x ) =


j
2

rj

rj

para cj = 0 e rj = 1

3.2 Rede neural de base radial (RBF: Radial Basis Function)


em princpio, as funes de base radial podem ser utilizadas em qualquer tipo de
modelo de regresso (linear ou no-linear) e, particularmente, como funo de
ativao de qualquer tipo de rede multicamada.
13

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

as redes neurais de base radial foram originalmente propostas para o caso de uma
nica camada intermediria, tomando a funo Gaussiana como funo de
ativao.

f(x)
w1

wm

wj

h 1 (x )

...

h j (x )

...

h m (x )

x1

...

xi

...

xn

Figura 2 - Rede neural de base radial (BROOMHEAD & LOWE, 1988)


14

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

se apenas os pesos da camada de sada puderem ser ajustados, ento a rede neural
linear em relao aos parmetros. Caso contrrio, a rede neural no-linear em
relao aos parmetros, admitindo o prprio algoritmo de retro-propagao do erro
para o ajuste dos demais parmetros (centros e taxas de decrescimento) via
treinamento supervisionado, como feito no caso do perceptron.
4. O mtodo dos quadrados mnimos
quando o treinamento supervisionado aplicado a modelos lineares, o mtodo dos
quadrados mnimos conduz a um problema de otimizao que apresenta soluo na
forma fechada.
assim, com um modelo de regresso linear na forma
f (x) =

w j h j (x)
j =1

15

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

e o conjunto de treinamento dado por

{(x i , si )}ip=1 , o mtodo dos quadrados

mnimos se ocupa em minimizar (em relao aos coeficientes da combinao


linear) a soma dos quadrados dos erros produzidos a partir de cada um dos p
padres de entrada-sada.
p

min S ( w ) = min (si f ( x i ) )


w

i =1

= min si w j h j ( x i )
w i =1
j =1

4.1 Obteno da soluo tima


do Clculo Elementar sabe-se que a aplicao da condio de otimalidade
(restries atendidas pelos pontos de mximo e mnimo de uma funo
diferencivel) permite obter a soluo tima do problema de otimizao
min S ( w ) , na forma:
w

1. diferencie a funo em relao s variveis livres;


2. iguale o resultado a zero;
3. resolva o sistema de equaes resultante.
16

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

no caso em questo, os parmetros livres so os coeficientes da combinao linear,


T
dados na forma do vetor de pesos w = [w1  w j  wm ] .
para o j-simo peso temos:
p
p
S
f
= 2 (si f ( x i ) )
= 2 (si f ( x i ) )h j ( x i ) = 0 , j=1,...,m.
w j
w j
i =1
i =1
logo, o sistema de equaes resultante assume a forma:
p

i =1

i =1

f ( x i ) h j ( x i ) = si h j ( x i ) ,

j=1,...,m.

portanto, existem m equaes para obter as m incgnitas. Exceto sob condies


patolgicas, este sistema de equaes vai apresentar uma soluo nica.
para encontrar esta soluo nica do sistema de equaes lineares, interessante
recorrer notao vetorial, fornecida pela lgebra linear, para obter:
h Tj f = h Tj s , j=1,...,m,
onde
17

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

f (x1 )

f = 
f ( x p )

h j ( x1 )

h j =  ,
h j ( x p )

s1

s =  .
s p

como existem m equaes, resulta:


h1T f h1T s

 = 
h Tm f h Tm s

definindo a matriz H, com sua j-sima coluna dada por hj, temos:

H = [h1

h2

h1 ( x1 ) h2 ( x1 )
h (x ) h (x )
1
2
2
2
 hm ] =


h ( x ) h ( x )
2
p
1 p

 hm ( x 1 )
 hm ( x 2 )



 hm ( x p )

sendo possvel reescrever o sistema de equaes lineares como segue:


HT f = HT s
18

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

o i-simo componente do vetor f pode ser apresentado na forma:


f i = f (x i ) =

w j h j (x i ) = [h1 (x i )
j =1

h2 ( x i )  hm ( x i )]w

permitindo expressar f em funo da matriz H, de modo que:


f = Hw
substituindo no sistema de equaes lineares, resulta a soluo tima para o vetor
de coeficientes da combinao linear (que, por exemplo, correspondem aos pesos
da camada de sada da rede neural de base radial):

H T Hw = H T s w = H T H

HT s

esta equao de soluo do problema dos quadrados mnimos conhecida como


equao normal. Para que exista a inversa de HTH, basta que a matriz H tenha
posto completo.

19

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

4.2 Exemplo
o modelo linear de regresso mais simples a reta, aplicada nos casos em que a
entrada escalar: f ( x ) = w1h1 ( x ) + w2 h2 ( x ) , onde h1(x) = 1 e h2(x) = x.
assuma que foram amostrados, na presena de rudo, trs pontos da curva y = x,
gerando o conjunto de treinamento: {( xi , si )}i =1 = {(1,1.1), ( 2,1.8), (3,3.1)}.
p

obviamente, no se conhece a equao da curva, mas apenas estes trs pontos


amostrados.
para estimar w1 e w2, vamos proceder de acordo com os passos do mtodo dos
quadrados mnimos.
h1 ( x1 ) h2 ( x1 ) 1 1
H = h1 ( x 2 ) h2 ( x 2 ) = 1 2

h1 ( x3 ) h2 ( x3 ) 1 3

1.1
s = 1.8

3.1

w = HT H

0
HT s =
1

para o mesmo conjunto de treinamento, assuma agora que


20

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

f ( x ) = w1h1 ( x ) + w2 h2 ( x ) + w3 h3 ( x ) ,
onde h1(x) = 1, h2(x) = x e h3(x) = x2.
o efeito da adio da funo-base extra h3(x) representa a adio de uma coluna
h3 ( x1 ) 1
1

h 3 = h3 ( x 2 ) = 4 junto matriz H, e a soluo assume a forma w = 0.2 .

h
x
(
)
9
0
.
3
3 3

4
3.5
3
2.5
y

2
1.5
1
0.5
0
0

Figura 3 - Modelos de regresso linear (ordem 1 e ordem 2)


21

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp
1

Pontos amostrados: (1,2); (3,7); (5,6)

0.8

0.945
2
1
c = 3 ; r = 1 ; w = 2.850



5.930
3
5

0.6
0.4
0.2
0
0

10

8
7

6
6

4
3

3
2

0
0

0
0

10

10

22

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp
1

Pontos amostrados: (1,2); (3,7); (5,6); (8,1)

0.8

1.012
2
1
c = 3 ; r = 1 ; w = 3.084



5.538
3
5

0.6
0.4
0.2
0
0

10

8
7

5
4

3
2

2
1

0
0

10

0
0

10

23

IA353 Prof. Von Zuben


DCA/FEEC/Unicamp

5. Referncias
BROOMHEAD, D.S. & LOWE, D. Multivariate functional interpolation and adaptive
networks, Complex Systems, vol. 2, pp. 321-355, 1988.
ORR, M.J.L. Introduction to Radial Basis Function Networks, Technical Report,
Centre for Cognitive Science, University of Edinburgh, Scotland, 1996.

24