Você está na página 1de 44
Ajuste de Dados através do Uso de Modelos Lineares Prof. Júlio Cesar Nievola PPGIA -
Ajuste de Dados através do Uso
de Modelos Lineares
Prof. Júlio Cesar Nievola
PPGIA - PUCPR
Construção de Modelo Experimental ß Ajuste de dados é uma das ciências experimentais mais antigas
Construção de Modelo Experimental
ß Ajuste de dados é uma das ciências experimentais
mais antigas
ß Vantagens de um modelo matemático:
l Habilidade de compreender, explicar, prever e controlar
a saída do sistema
ß Principal vantagem: capacidade de prever o
comportamento futuro e controlá-lo através da
aplicação de entradas apropriadas
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
2
Sistemas Naturais e Modelos Formais Mundo Natural Decodificar Sistema Modelo Natural Prever Formal Observável
Sistemas Naturais e
Modelos Formais
Mundo Natural
Decodificar
Sistema
Modelo
Natural
Prever
Formal
Observável
Medidas
Mundo
Matemático
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
3
Coleta de Dados ß Deve ser cuidadosamente planejada ß Principais pontos a serem observados: Os
Coleta de Dados
ß Deve ser cuidadosamente planejada
ß Principais pontos a serem observados:
Os dados devem ser suficientes
l
Os dados devem capturar as características principais
l
do problema a ser tratado
Os dados devem ser tão “limpos” quanto possível
l
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
4
Adaline - Regressão Linear ß Adaline - Adaptive Linear Element, ou elemento de processamento (PE)
Adaline - Regressão Linear
ß Adaline - Adaptive Linear Element, ou elemento de
processamento (PE)
ß Composto por dois multiplicadores e um somador
x i
w
y
i
+1
b
PE
Exemplo 01
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
5
Mínimos Quadrados ß Uma reta ajusta perfeitamente duas observações ß Qual a melhor escolha de
Mínimos Quadrados
ß Uma reta ajusta perfeitamente duas observações
ß Qual a melhor escolha de (w, b) tal que uma reta
passe mais próxima de vários pontos?
ß Mínimos Quadrados: reta em que a soma do
quadrado dos desvios (resíduos) na direção d é
minimizada
ß Mínimos Quadrados: regressão linear
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
6
Determinação dos Parâmetros (1) ß A média da soma dos erros ao quadrado, denominado J
Determinação dos Parâmetros (1)
ß
A média da soma dos erros ao quadrado,
denominado J (também chamado de MSE), que é
um dos critérios mais usados, é dado por:
N
1
J
2
e
i
2 N
i 1
onde N é o número de observações
Exemplo 02
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
7
Determinação dos Parâmetros (2) ß Para minimizar J, usando Gauss, igualam-se as derivadas parciais a
Determinação dos Parâmetros (2)
ß Para minimizar J, usando Gauss, igualam-se as
derivadas parciais a zero e resolve-se as equações,
J
J
ou seja:
0
e
0
b
w
ß Obtém-se então:
2
x
i
d
i
x
i
x d
i
x
x
d
d
i
i
i
i
i
i
i
b
e
i
w
N
2
x
x
2
x
x
i
i
i
i
Exemplo 03
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
8
Coeficiente de Correlação ß Por definição, o coeficiente de correlação entre duas variáveis aleatórias x
Coeficiente de Correlação
ß Por definição, o coeficiente de correlação entre
duas variáveis aleatórias x e d é
i
x
x
d
d
i
i
N
r
2
d
d
2
x
x
i
i
i
i
N
N
ß O numerador é a covariância das duas variáveis e
o denominador é o produto dos correspondentes
desvio padrão
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
9
Método dos Mínimos Quadrados ß Interpretação da solução estimada dos mínimos quadrados: o erro é
Método dos Mínimos Quadrados
ß Interpretação da solução estimada dos mínimos
quadrados: o erro é ortogonal à entrada
ß Mínimos quadados: bastante potente
ß Pode ser generalizado para curvas polinomiais de
ordem superior, tal como quadráticas, cúbicas etc.,
dando origem aos mínimos quadrados
generalizados
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
10
Mínimos Quadrados como Busca de Parâmetros de um Sistema ß Objetivo: encontrar os parâmetros (b,w)
Mínimos Quadrados como Busca de
Parâmetros de um Sistema
ß Objetivo: encontrar os parâmetros (b,w) que
minimizam a diferença entre a saída y i do sistema
e a resposta desejada d i .
y=wx+b
y
.
d i
.
d i
x i
y i
(b,w)
+
.
-
d
.
1
.
.
e i
b
Alterar
d 2
parâmetros
x
x 1 x 2
x i
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
11
Proejto de um Sistema Supervisionado Adaptativo ß Elementos Sistema (linear) com parâmetros adaptativos l Resposta
Proejto de um Sistema
Supervisionado Adaptativo
ß Elementos
Sistema (linear) com parâmetros adaptativos
l
Resposta desejada ou objetivo d
l
Critério de otimalidade (MSE) a ser minimizado
l
Método para calcular os parâmetros ótimos
l
ß O objetivo é encontrar uma forma alternativa de
calcular os parâmetros usando um procedimento
de busca
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
12
Análise do Erro no Espaço de Parâmetros ß J(w) é chamada de superfície de desempenho.
Análise do Erro no
Espaço de Parâmetros
ß
J(w) é chamada de superfície de desempenho. Para
b=0:
1
1
2
2
J
2
d
wx
2
x w
2
d x w
d
i
i
i
i
i
i
2 N
2 N
i
i
J
Superfície de desempenho
J
min
w
Exemplo 04
w*
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
13
Gradiente da Superfície de Desempenho ß O gradiente de J é um vetor que sempre
Gradiente da Superfície de
Desempenho
ß
O gradiente de J é um vetor que sempre aponta na
direção da máxima alteração de J com magnitude
igual à inclinação da tangente à superfície de
desempenho
ß
No ponto inferior (vértice), o gradiente é zero
Superfície de desempenho
Magnitude do gradiente
J w
w
J w
w
0
0
J
lim
w
0 +Dw
w o
w
0
2
w
J
min
w
0 -Dw
w
w
w*
0
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
14
Superfície de Performance - Notas ß O valor mínimo do erro (J min ) depende
Superfície de Performance - Notas
ß O valor mínimo do erro (J min ) depende tanto da
sinal de entrada (x i ) quanto do sinal desejado (d i )
ß A posição no espaço de coeficientes onde o
mínimo w* ocorre também depende tanto de x i
quanto de d i
ß O formato da superfície de desempenho depende
somente do sinal de entrada x i
Exemplo 05
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
15
Busca usando Descida mais inclinada ß Busca eficiente do mínimo usando vários métodos baseados na
Busca usando Descida mais
inclinada
ß Busca eficiente do mínimo usando vários métodos
baseados na informação do gradiente
ß Vantagens da busca:
Computação local
l
l
O gradiente sempre indica a direção de máxima
alteração
ß Para o cálculo dos pesos em uma nova posição:
w k 1 w k h J k
ß onde é uma pequena constante e
J(k) indica o
gradiente da superfície de desempenho na iteração
k
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
16
Busca usando a informação do gradiente Superfície de desempenho Vetor Gradiente J min w(0) w*
Busca usando a informação do
gradiente
Superfície de desempenho
Vetor Gradiente
J min
w(0)
w*
w(1)
w
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
17
Estimativa do Gradiente: Algoritmo LMS ß Um sistema adaptativo pode usar a informação do gradiente
Estimativa do Gradiente:
Algoritmo LMS
ß Um sistema adaptativo pode usar a informação do
gradiente para otimizar os parâmetros
ß Em 1960 Widrow propôs o uso do valor
instantâneo como estimativa do valor do
gradiente:
1
1
2
2
J k
J
e
e
k
e
k x k
i
w k
w k
2
N
2
w k
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
18
Algoritmo LMS ß Usando a idéia de Widrow tem-se o algoritmo LMS, no qual o
Algoritmo LMS
ß Usando a idéia de Widrow tem-se o algoritmo
LMS, no qual o gradiente é estimado usando uma
multiplicação por peso
ß A equação da descida (ou LMS) torna-se
w k 1 w k he k x k
onde a constante é chamada de tamanho do passo
ou constante de aprendizagem
Exemplo 06
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
19
Aprendizagem On-line e Batch ß Aprendizagem on-line ou exemplo por exemplo: atualização dos pesos após
Aprendizagem On-line e Batch
ß Aprendizagem on-line ou exemplo por exemplo:
atualização dos pesos após o cálculo para cada
entrada
ß Aprendizagem batch: armazenam-se as
atualizações dos pesos durante uma época e no
final da mesma atualizam-se os mesmos
ß O algoritmo batch é ligeiramente mais eficiente
em termos do número de cálculos
Exemplo 07
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
20
Robustez e avaliação do treinamento ß O algoritmo LMS é robusto: sempre converge para o
Robustez e avaliação do treinamento
ß O algoritmo LMS é robusto: sempre converge
para o mesmo valor, independentemente dos pesos
iniciais
Exemplo 08
ß Após o treinamento, os pesos são fixados para uso
ß Precisa-se do coeficiente de correlação r e do MSE
para testar os resultados:
l
r informa é um indicador do resultado da modelagem,
dizendo o quanto da variância de d foi capturado pela
regressão linear, mas não indica a média
o MSE indica a ordem de grandeza
l
Exemplo 09
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
21
Adaptação Estável ß O algoritmo LMS tem um parâmetro livre, , que deve ser selecionado
Adaptação Estável
ß O algoritmo LMS tem um parâmetro livre, , que
deve ser selecionado pelo usuário
ß O gráfico do MSE ao longo das iterações é
chamado de curva de aprendizagem e é uma boa
forma de monitorar a convergência do processo
ß A taxa de decréscimo do erro depende do valor do
tamanho do passo
ß Busca-se uma forma de encontrar o maior
tamanho de passo possível que garanta
convergência
Exemplo 10
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
22
Curva de Aprendizagem e Gráfico dos Pesos ao longo das iterações Exemplo 11 PPGIA -
Curva de Aprendizagem e Gráfico
dos Pesos ao longo das iterações
Exemplo 11
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
23
Tamanho máximo do passo para convergência ß Convergência rápida, mas sem sistema instável: 2 1
Tamanho máximo do passo para
convergência
ß Convergência rápida, mas sem sistema instável:
2
1
h
h
,
onde
l
2
x
max
i
l
N
i
ß Na atualização batch, usa-se o passo normalizado:
h
h
n
N
ß No algoritmo LMS é comum incluir um fator de
segurança 10 no máximo ( máx ) ou usar o
treinamento em batch, o qual reduz o ruído na
estimativa do gradiente
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
24
Constantes de tempo ß A envoltória da progressão geométrica dos valores dos pesos pode ser
Constantes de tempo
ß A envoltória da progressão geométrica dos valores
dos pesos pode ser aproximado por uma
exponencial com decréscimo dado pela constante
de tempo de adaptação dos pesos :
1
t
hl
ß Em termos práticos, o processo iterativo converge
após 4 constantes de tempo
t
ß A constante de tempo da adaptação mse é:
t
mse
2
Exemplo 12
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
25
Estabilidade ß Na busca em pontos próximos ao mínimo: o gradiente é pequeno mas não
Estabilidade
ß Na busca em pontos próximos ao mínimo:
o gradiente é pequeno mas não zero
l
l
o processo continua a se movimentar na vizinhança do
mínimo, sem estabilizar
ß Rattling: é proporcional ao tamanho do passo
ß Nos mecanismos de busca com descida do
gradiente há um compromisso entre a precisão da
solução final e a velocidade de convergência
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
26
“Rattling” no procedimento iterativo Exemplo 13 PPGIA - PUCPR Prof. Júlio Cesar Nievola 27
“Rattling” no procedimento iterativo
Exemplo 13
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
27
Escalonamento do tamanho dos passos ß Forma simples de diminuir o “rattling”: l constante de
Escalonamento do tamanho dos
passos
ß Forma simples de diminuir o “rattling”:
l
constante de aprendizagem grande no começo
do processo para rápida convergência
l
pequena constante de aprendizagem no final do
processo para obter boa exatidão
ß Escalonamento da taxa de aprendizagem:
h k 1 h k b
ß O valor de precisa ser determinado
experimentalmente
Exemplo 14
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
28
Regressão para várias variáveis ß Considere-se que d é uma função de várias entradas x
Regressão para várias variáveis
ß Considere-se que d é uma função de várias
entradas x 1 , x 2 ,
, x D (variáveis independentes) e o
objetivo é encontrar a melhor regressão linear de d
em relação a todas as entradas
ß Assume-se que as medidas x são livres de ruído e
d é contaminado por um vetor de ruídos e com as
propriedades:
l
distribuição Gaussiana com componentes com média
zero
variâncias 2 igual
l
não correlacionada com as entradas
l
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
29
Várias variáveis x 1i w 1 x 2i . . w 2 d i .
Várias variáveis
x 1i
w 1
x 2i
.
.
w 2
d i
.
y i
w D
+
e i
x Di
b
+1
Sistema de Regressão
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
30
Regressão para várias variáveis (1) ß A equação para regressão com várias variáveis é D
Regressão para várias variáveis (1)
ß A equação para regressão com várias variáveis é
D
D
e
d
w x
d
w x
,
i
1,
,
N
i b
i
k
ik
i
ik
k
k
1
k
0
ß Neste caso o MSE é
2
D
1
J
ik
d
w x
i
k
2 N
i
k
0
ß A solução para esta equação (ponto de mínimo) é obtida
igualando a zero as derivadas de J com relação às variáveis
desconhecidas w k
ß Com isto, tem-se um conjunto de D+1 equações com D+1
variáveis, chamado equações normais (conforme a seguir)
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
31
Regressão para várias variáveis (2) D k x d ik w x x , j
Regressão para várias variáveis (2)
D
k
x d
ik
w
x
x
,
j
0,1,
,
D
ij
i
ij
i
k
0
i
ß Estas equações podem ser escritas em notação matricial.
Para tanto, define-se
1
R
x
x
kj
ik
ij
N
i
Rkj é a auto-correlação das amostras de entrada para os
índices k e j, a qual mede a similaridade entre exemplos do
conjunto de treinamento
R
R
L
R
00
0 D
ß Tem-se então a matriz de auto-correlação
R
M
O
M
L
R
D
0
DD
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
32
Regressão para várias variáveis (3) ß Considere-se 1 p x d j ij i N
Regressão para várias variáveis (3)
ß
Considere-se
1
p
x d
j
ij
i
N
i
como sendo a correlação cruzada da entrada x para índice j e a
resposta desejada d. A partir da mesma cria-se o vetor p de
dimensão D+1. Portanto,
1
p
R w
*
ou
w
*
R
p
ß
O coeficiente de correlação múltipla mede a quantidade de
variação explicada pela regressão linear, normalizada pela
variância de d
T
2
w
*
U d
Nd
x
r
m
T
2
d
d
Nd
Exemplo 15
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
33
Superfície de desempenho para duas dimensões e gráfico de contorno PPGIA - PUCPR Prof. Júlio
Superfície de desempenho para duas
dimensões e gráfico de contorno
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
34
Visão do Procedimento de Busca ß A superfície de desempenho em várias dimensões de J
Visão do Procedimento de Busca
ß A superfície de desempenho em várias dimensões de J
torna-o um parabolóide apontando para cima em D+1
dimensões:
2
d
T
T
J
0,5
w
i
w Rw
p
2 N
i
ß Os coeficientes que minimizam a solução são
1
J
0
Rw
*
p
ou
w
*
R
p
ß A auto-correlação das entradas R especifica de forma
completa a superfície de desempenho
ß A localização da superfície de desempenho no espaço de
pesos e o seu valor mínimo dependem a auto-correlação
das entradas e da resposta desejada
Exemplo 16
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
35
Gráfico de contornos da superfície de desempenho com dois pesos w Direção do maior autovetor
Gráfico de contornos da superfície
de desempenho com dois pesos
w
Direção do maior
autovetor de R
Gráficos de contorno de J
2
Direção do menor
autovetor de R
w 2 *
Inverso da diferença
é o menor autovalor de R
Inverso da diferença
é o maior autovalor de R
w 1 *
w 1
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
36
Descida mais inclinada no caso de vários pesos ß Neste caso o gradiente é um
Descida mais inclinada no caso de
vários pesos
ß Neste caso o gradiente é um vetor com D+1
componentes
T
J
J
J
,
L
,
w
w
0
D
ß Portanto,
w k 1 w k h J k
ß Ou seja,
w k 1 I h R w k h Rw*
ß Os pesos convergem com diferentes constantes de
tempo, cada uma ligada a um autovalor de R
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
37
Controle do tamanho do passo ß O conjunto de valores assumidos pelos pesos é chamado
Controle do tamanho do passo
ß O conjunto de valores assumidos pelos pesos é
chamado trilha dos pesos e se movem em direção
oposta ao gradiente em cada ponto
ß O pior caso para garantir a convergência ao ótimo
w* em todas as direções é
2
h
l max
ß O tamanho do passo deve ser menor que o
inverso do maior autovalor da matriz de auto-
correlação, a fim de que não haja divergência
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
38
Trilha dos pesos em direção ao mínimo Gradientes w 2 w(0) w 1 (0) w(1)
Trilha dos pesos em direção ao
mínimo
Gradientes
w 2
w(0)
w
1 (0)
w(1)
w
2 (1)
w 2 *
Autovalores iguais:
w
w
(0) w (1)
w
*
1
1
1
1
Gradientes
w 2
w
(0)
1
w(0)
w
2 (1)
w(1)
w 2 *
Autovalores diferentes:
w
w
(0) w (1)
w
*
1
1
1
1
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
39
Constante de tempo da adaptação ß A constante de tempo da adaptação é dada por
Constante de tempo da adaptação
ß A constante de tempo da adaptação é dada por
1
t
hl
min
ß Se a razão entre o maior e o menor autovalor for
grande, a convergência será lenta
ß A curva de aprendizagem se aproxima de J min em
uma progressão geométrica
ß Há várias constantes de tempo da adaptação (caso
os autovalores sejam diferentes), sendo uma para
cada direção
Exemplo 17
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
40
Algoritmo LMS com vários pesos ß O algoritmo LMS com vários pesos torna-se w k
Algoritmo LMS com vários pesos
ß O algoritmo LMS com vários pesos torna-se
w k 1 w k he k x k
ß Para a abordagem com bias:
Exemplo 18
l
amplia-se a matriz de entrada com uma coluna extra
com 1s; ou
l
modificam-se as entradas e saídas para que tenham
variáveis com valor médio igual a zero
ß Selecionar para produzir 10% de erro significa
uma duração de treinamento em iterações igual a
10 vezes o número de entradas
Exemplo 19
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
41
Método de Newton (1) ß A equação adaptativa dos pesos usando o método de Newton
Método de Newton (1)
ß A equação adaptativa dos pesos usando o método de
Newton
1
w k 1 w k R
J k
ß Método de Newton corrige a direção de busca de tal forma
que ela sempre aponta para o mínimo
ß O método de Newton é mais rápido que LMS quando a
matriz de correlação dos dados de entrada tem uma grande
faixa de autovalores
ß O cálculo da inversa da matriz de auto-correlação, é mais
demorado que LMS e necessita de informação global
ß Se a superfície não for quadrática o método diverge
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
42
Método de Newton (2) w 2 Método de Newton Descida do gradiente w 2 *
Método de Newton (2)
w 2
Método de Newton
Descida do gradiente
w 2 *
.
w 1 *
w 1
Exemplo 20
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
43
Solução Analítica x Iterativa ß Analítica Se R é mal-condicionada, a inversa não é precisa
Solução Analítica x Iterativa
ß Analítica
Se R é mal-condicionada, a inversa não é precisa
l
Tempo para cálculo da inversa é O(D 2 )
l
ß Iterativa
não há garantia da proximidade de w*
l
grande faixa de autovalores causa lenta convergência
l
ß Vantagens da abordagem iterativa
há algoritmos muito eficientes para estimar o gradiente
l
ordem de complexidade O(D)
l
o método pode ser estendido para sistemas não-lineares
l
PPGIA - PUCPR
Prof. Júlio Cesar Nievola
44