Você está na página 1de 30

Inteligência Computacional

Regressão Simples

Slides adaptados do material disponibilizado


pelo Prof. Dr. Guilherme de Alencar Barreto (UFC)
Motivação
 Em muitas aplicacões da ETI há duas ou mais variáveis que
são intrinsicamente relacionadas, sendo necessário explorar a
natureza dessa relação.
 A análise de regressão abrange uma série de técnicas voltadas
para a modelagem e a investigação de relações entre duas ou
mais variáveis aleatórias.
 Por exemplo, sabe-se que um aerogerador é um equipamento
que produz energia elétrica (P, em kW) em função da
velocidade do vento (v, m/s).
Motivação
 Podemos usar a análise de regressão para construir um modelo
matemático que represente fidedignamente a relação P = f(v),
em que f(·) define a relação funcional entre P e v.
 Esse modelo pode ser usado, então, para predizer o valor da
potência gerada para uma dada velocidade do vento.
 O modelo pode ser usado também para fins de otimização e
controle do equipamento.
Definição do Problema
 Suponha que haja uma única variável de saída, y.
 Suponha também que a variável y está relacionada com k
variáveis de entrada:
x1, x2, . . . , xk (1)
 A variável y é também chamada de variável de resposta ou
variável dependente.
 As variáveis xj , j = 1, ..., k são também chamadas de variáveis
de entradas, variáveis regressoras ou ainda variáveis
independentes.
Definição do Problema
 Assume-se que a variável y é uma variável aleatória e que as variáveis xj são
medidas com erro (i.e. ruído) desprezível.
 As variáveis xj são frequentemente controladas pelo experimentador
(usuário).
 A relação entre y e xj , j = 1, ..., k, é caracterizada por um modelo matemático
chamado equação de regressão.
 A equação de regressão é ajustada a um conjunto de dados.
 Em algumas situações, o experimentador saberá a forma exata da verdadeira
relação funcional f(·) entre y e xj , j = 1, ..., k, representada como
y = f(x1, x2, . . . , xk).
Definição do Problema
 No entanto, na maioria dos casos, a verdadeira relação funcional
f(·) é desconhecida.
 Cabe ao experimentador escolher uma função apropriada para
aproximar f(·).
 Normalmente usa-se um modelo polinomial como função
aproximadora.
 Primeiramente, iremos tratar o caso em que há apenas uma
variável de saída e uma de entrada (regressão simples).
 Em seguida, trataremos o caso em que há uma variável de saída e
várias de entrada (regressão múltipla).
Regressão Linear Simples
 Objetivo

Desejamos determinar a relação entre uma única variável de entrada
x e uma variável de saída y.
 Suposições

A variável x é uma variável matemática contínua, possivelmente
controlável pelo experimentador.

A verdadeira relação entre x e y é definida por uma reta.

O valor observado de y para cada valor de x é uma variável
aleatória.
Regressão Linear Simples
 Como supomos que y é uma variável aleatória, ela pode ser descrita pelo
seguinte modelo:
y = β0 + β1x + ε, (2)
em que ε é um erro (ruído) aleatório com média zero e variância σ2
 Daí, o valor esperado de y para cada valor de x é dado por
E[y|x] =β0 + β1x, (3)
em que β0 (intercepto) e β1 (inclinação) são constantes desconhecidas.
Regressão Linear Simples
 Vamos supor que temos n pares de observações (medições) feitas
com o equipamento adequado:
(x1, y1), (x2, y2), . . . , (xn, yn) (4)
 Estes dados devem obedecer à seguinte relação funcional:
yi = β0 + β1xi + εi, i = 1, 2, ..., n (5)
em que assume-se que os valores {εi} sejam variáveis aleatórias
não-correlacionadas.
Regressão Linear Simples
 Os dados medidos serão usados para estimar os parâmetros
desconhecidos β0 e β1 na Eq. (2).
 A técnica de estimação a ser usada é a dos mínimos quadrados (MQ).
Ou seja, devemos encontrar os valores de β0 e β1 que minimizem a
seguinte função-custo:

J (β0, β1 )=∑ni=1 ε2i =∑i=1


n
( yi −β0−β1 xi )2 . (6)

 Entendendo o problema: Minimar a função-custo equivale a fazer


com que a soma dos quadrados dos desvios entre os valores medidos
(observações) e a reta de regressão seja mínima.
Regressão Linear Simples

 As estimativas de β0 e β1 , denotadas por β̂ 0 e β̂ 1 são dadas


por
Regressão Linear Simples

 A solução das equações normais são dadas por

em que
Regressão Linear Simples
 Usualmente em regressão linear precisamos obter uma estimativa
da variância do ruído (σε2).
 Essa estimativa é feita com base na diferença entre a observação yi
e o valor predito correspondente,
e i = yi − ŷ i (7)
chamada de erro de estimação ou resíduo.
 A soma de quadrados dos resíduos é então dada por
n
SQ E =∑i=1 e 2i =∑i=1
n
( yi − ŷ i )2 (8)
Regressão Linear Simples

 Uma estimativa de σε2 pode ser dada por:


2 SQ E ∑ni=1 ( y i − ŷ i )2
σ̂ =
ε
n−2
= n−2 (9)

 Questão importante: Como saber se uma equação de regressão


linear é a mais adequada para modelar os dados experimentais?
Regressão Linear Simples
 Uma primeira abordagem é puramente visual, através do gráfico de
dispersão (scatterplot).
 Esse gráfico consiste em representar cada par (xi, yi ), i = 1, ..., n,
num sistema de coordenadas x × y, com um ponto.
 Assumindo que os valores medidos de x e y estão dispostos,
respectivamente, na primeira e segunda colunas da matriz de
dados X basta usar o seguinte comando do Matlab/Octave:
>> plot(X(:,1), X(:,2),’*’);
Regressão Linear Simples
 Gráfico de dispersão para valores de x (corrente) e y (tensão)
medidos em determinado equipamento elétrico ruidoso.
Regressão Linear Simples
 Gráfico de dispersão para valores de x (velocidade do vento) e y
(potência gerada) medidos de um aerogerador do parque eólico da
Prainha
Regressão Linear Simples
 Para o primeiro gráfico de dispersão mostrado anteriormente, o modelo
de regressão linear parece ser uma boa hipótese de modelagem dos
dados.
 Já para o segundo gráfico de dispersão, o modelo de regressão linear
não parece ser uma boa hipótese de modelagem.
 Para o segundo gráfico, um modelo polinomial de ordem maior que 1
parece ser o mais indicado.
 Mais adiante veremos como escolher um modelo mais adequado para o
segundo conjunto de medidas usando regressão linear múltipla.
Regressão Linear Simples
 Após averiguar pelo gráfico de dispersão se um modelo de
regressão linear pode ser uma boa escolha, devemos estimar os
parâmetros β̂ 0 e β̂ 1 da reta de regressão.
 Feito isto devemos, em seguida, calcular os resíduos e i = yi − ŷ i
resultantes.
 Além de serem utilizados para estimar a variância do ruído (σε2),
os resíduos são usados para validar a suposição de que os erros são
gaussianos, de média zero e não-correlacionados, ou seja
εi ∼N (0,σ ε2 )
E [εi ,ε j ]=0 ∀ i≠ j
Regressão Linear Simples
Regressão Linear Simples
Regressão Linear Simples
Regressão Linear Simples
 Considere o gráfico de dispersão que é mostrado abaixo (n = 500).
Encontrar a reta de regressão correspondente.
 Encontramos que β̂ 0 = 8,51, β̂ 1 = 0,90 e R2 = 0,44.
Regressão Linear Simples
 Qual seria reta de regressão que melhor modela os dados do
aerogerador (n = 2250).
 Encontramos que β ̂ 0 = -217,69, β̂ 1 = 56,44 e R2 = 0,93.
Regressão Linear Simples
Regressão Linear Simples
Regressão Linear Simples
 Em algumas situações, uma função não-linear pode ser expressa através
de uma reta, usando-se uma transformação adequada.
 Como exemplo, considere a função exponencial
β1 x
y=β0 e ε
 Esta função pode ser linearizada por uma transformação
Logarítmica *
y =ln( y)=ln (β0 )+β1 x+ln (ε)
 Assume-se que os erros, ln(ε), sejam distribuídos normal e
independentemente, com média 0 e variância σε2
".
c G. A. Barreto Regress˜ao Linear
Regressão Linear Simples
 Uma outra opção é dividir o gráfico de dispersão em duas ou mais sub-regiões
em que modelos de regressão linear sejam adequados.

R1: x ∈ [0 − 5,5], R2: x ∈ [5,5 − 12] e R3: x ∈ [12 − 15].


Regressão Linear Simples
Regressão Linear Simples
 Finalmente, para tratar o Caso 3, devemos lembrar que uma reta é
um polinômio de ordem 1.
 Para tratar dados cujo gráfico de dispersão revela uma relação não-
linear entre variáveis de entrada e de saída, é comum o uso de
modelos polinomiais de ordem maior que 1.
 Trataremos melhor de relações não lineares e modelos polinomiais
no tópico de: regressão múltipla.