Você está na página 1de 26

Regressão Linear Simples

Tipos de Modelos de Regressão

1 variável Modelos 2+ Variáveis


explicativa de Explicativas
Regressão

Simples Múltipla

Não- Não-
Linear Linear
Linear Linear

1
Modelo de Regressão Linear

• O relacionamento entre as variáveis é uma função Linear


Intercepto Inclinação Erro Aleatório
Hipótese
Y   0  1 X   :Descorrelacionado de X
Variável Independente
Variável Dependente (Explicativa)
(Resposta)
Y
Y =  X + 
Mudança
  = inclinação em Y
Mudança em X
= Y-intercepto
X

Modelos de Regressão para


Populações e Amostras

População Amostra
Aleatória
Yi  b0  b1X i   i
Relacionamento
desconhecido
Y   0  1X  

2
Modelo de Regressão Linear para a
Amostra

Y Yi  b0  b1X i  ei
i = erro aleatório

observação
não-
Yi  b0  b1X i amostrada

X
valor observado
na amostra

Análise Exploratória
Representação Gráfica

• Faça um gráfico de Estimação dos Parâmetros de


espalhamento (scatter) de Y uma regressão linear:
contra X. Determinar a melhor reta que
• Indicação visual da forma passa pelos pontos observados.
funcional da regressão.

Y
60
40
20
0
X
0 20 40 60

3
Mínimos Quadrados Ordinários: MQO

Para observações (Xi,Yi) i=1,..,n, temos o modelo

Yi   0  1 X i   i i  1,..,n

Desejamos ajustar o modelo, estimando os parâmetros  0 e  1.

O método de mínimos quadrados considera os desvios de Yi em relação ao seu valor esperado


(E(Yi)):

Yi  (  0  1 X i )

Elevando-se ao quadrado esses desvios e aplicando-se o somatório, temos o critério Q


n
Q   Yi   0  1 X i 
2
(10)
i 1

De acordo com o método de mínimos quadrados, os estimadores de  0 e  1 são os valores b0 e


b1, respectivamente, que minimizam o critério Q para a amostra (X1,Y1),..,(Xn,Yn).
6,5

e3
5,5

4,5
e1
VALOR

3,5
e2
2,5

e5
1,5
2 6 10 14 18 22

IDADE

4
Estimadores de mínimos quadrados
Os valores de  0 e  1 que minimizam o critério Q podem ser obtidos diferenciando-se (10) em
relação a  0 e  1 , portanto, obtemos:

n
Q
 0
 2 (Yi   0  1 X i )
i 1
n
Q
1
 2 X i (Yi   0  1 X i )
i 1

Iguala-se a zero as derivadas parciais, usando b0 e b1 para denotar valores particulares de


 0 e  1que minimizam Q.

As equações normais podem ser resolvidas simultaneamente para b0 e b1(estimadores pontuais):

b1   (i X  X i) 2
( X  X )(Y Y )

 i
b0  n  Yi  b1  X i   Y  b1 X
1

Outra forma de escrevermos:

 XY   
X Y
n
b1 
 
X  
2
2 X
n

5
Coeficientes das Equações

Equação de Yi  b0  b1X i


regressão
n
 X iYi  nXY
i 1
Inclinação b1  n 2


i 1
X i2 ()
n X

Intercepto b0  Y  b1X

Interpretação dos Coeficientes

• Inclinação (b1)
3 Estima as mudanças em Y em decorrência do
aumento de X de uma unidade.
– Se b1 = .2, então espera-se que os gastos (Y )
aumentem de 20% do aumento no saldo médio
(X).
• Intercepto (b0)
3 Valor esperado de Y quando X = 0
– Se b0 = 4, então espera-se que o valor dos gastos
(Y ) seja 4 quando o saldo médio (X) é 0.

6
Exemplo

Após várias campanhas de mala direta você está interessado


na relação entre o número de cartas enviadas e o número de
novos clientes. Você possui os seguintes dados:
Cartas Clientes
1 1
2 1
3 2
4 2
5 4

Scatter Cartas vs. Clientes

cliente
4s
3
2
1
0
0 1 2 3 4 5
cartas

7
Tabelas para Estimação dos Parâmetros

2 2
Xi Yi Xi Yi XiYi
1 1 1 1 1
2 1 4 1 2
3 2 9 4 6
4 2 16 4 8
5 4 25 16 20
15 10 55 26 37

Solução

n _ _
 X iYi  nXY ( ) 0.70
37  5 3 x 2
i 1
b1  n _

55  5 (9)

i 1
X i2 n X () 2

_ _
b0  Y  b1X  2  0.70 x3  0.10

Yi  0.10  0.70 X i

8
Interpretação dos coeficientes - Solução
• Inclinação (b1)
3 Espera-se que o número de clientes (Y) aumente de
0.7 para cada carta (X) a mais enviada, isto é, 7
clientes para cada 10 cartas.
• Intercepto (b0)
3 Quando não se manda nenhuma carta espera-se que
o número de clientes diminue 0.1 (Y)
– Espera-se a perda de clientes sem envio de
correspondência.

Interpretação Geométrica

Soma dos erros -


Y Yi ^
Inexplicada (Yi -Yi)2
Soma dos
quadrados
total(Yi - Y )
2 Yi  b0  b1X i
Soma da Regressão -
^ - Y) 2
explicada (Y i

Y
X
Xi

9
Medidas de Variação

Decomposição da Variação

10
Coeficiente de Determinação

Coeficiente de Determinação

11
Interpretação Geométrica

Y r2 = 1 Y r2 = 1
^=b +b X
Yi 0 1 i
^=b +b X
Yi 0 1 i
X X

Y r2 = .8 Y r2 = 0

^=b +b X
Y ^=b +b X
Y
i 0 1 i i 0 1 i
X X

Exemplo - Coeficiente de Determinação

No exemplo anterior nós encontramos b0 = -.1 & b1 = .7.


Cartas clientes
1 1
2 1
3 2
4 2
5 4
Qual é o coeficiente de determinação?

12
Tabela

2 2
Xi Yi Xi Yi XiYi
1 1 1 1 1
2 1 4 1 2
3 2 9 4 6
4 2 16 4 8
5 4 25 16 20
15 10 55 26 37

Solução

n n 81.67% da
2
b0  Yi  b1 X iYi  n(Y ) variação no
número de cliente
r2  i 1
n
i 1 é devido a cartas
2 enviadas por
 Yi 2  n(Y ) mala direta.
i 1

(0.10)(10)  (0.70)(37)  (5)(2)2


 2
26  (5)(2)
.8167

13
Coeficiente de Correlação

Coeficiente de Correlação
• No exemplo anterior,
rxy  0,8167  0,9037

Logo, há uma forte relação positiva entre x e y.

• Nota: O coeficiente de determinação nos dá medida entre


0 e 1 ao passo que o coeficiente de correlação da amostra
dá entre -1 e +1.
O coeficiente de correlação é restrito à relação linear entre
duas variáveis, o coeficiente de determinação é geral.

14
Interpretações errôneas dos coeficientes de
determinação e correlação

1) Um alto coeficiente de correlação indica que predições úteis


podem ser feitas. Isto não é necessariamente correto. Observe
se as amplitudes dos intervalos de confiança são grandes, isto
é, não são muito precisos.
2) Um alto coeficiente de correlação indica que a equação de
regressão estimada está bem ajustada aos dados. Isto também
não é necessariamente correto (Figura A).
3) Um coeficiente de correlação próximo de zero indica que X
e Y não são correlacionadas. Isto também não é
necessariamente correto (Figura B).


 
    
  
    
    
   
 
  
  
  
  
 
 

Figura A - Tem um alto valor de r; Figura B - Tem um baixo valor


o ajuste de uma equação de de r; porém existe uma forte
regressão linear não é adequada relação entre X e Y.

15
Análise de variância
Teste de significância global do modelo

• Testa se existe uma relação linear entre X e Y


• Hipóteses
H0: 1 = 0 (Não existe relacão linear)
H1: 1  0 (Existe Relacionamento linear)
• Distribuição amostral do estimador de MQO de 1
é uma distribuição F com P e (n - P -1) graus de
liberdade no numerador e denominador,
respectivamente.
p: número de variáveis explicativas
(na regressão simples =1)

Testando a significância Global


• Usa a estatística F= MSR/MSE
• MSR= Mean Square of the Regression= SSR/p
• MSE= Mean Square of the Error= SSE/(n-p -1)
• Hipóteses
H 0 : 1  0
H 1 : 1  0
• Teste para p=1 SSR
regressão simples F*  1
SSE
n2

Rejeite H 0 se F*  F (1, n  2)

16
Análise de variância
Teste de significância global do modelo
Fonte de Graus de Soma dos Média dos F
Variação Liberdade Quadrados Quadrados

Regressão 1 SSR
SSR
MSR=
1 MSR
Erro n-2 SSE
SSE MSE
MSE=
n2
Total n-1 SST

Teste F
• Testa se a variância explicada pela regressão é
significativamente maior do que a variância não explicada.
• Também indica uma relação significante em regressão.
• Se a hipótese nula ( H 0 : 1  0) é verdadeira, o valor de
MSR/MSE deverá ser próximo de um.
• Se a hipótese nula é falsa ( H 1 : 1  0 ), MSR/MSE dará
valores altos mostrando que a relação entre x e y é
estatisticamente significante.

17
Exemplo anterior
Fonte de Graus de Soma dos Média dos F
Variação Liberdade Quadrados Quadrados

Regressão 1 4,9000 4,9000 13,36

Erro 3 1,1000 0,3667

Total 4 6,0000

Exemplo anterior
  0,05

Pela tabela F0,05  10,1 com 1 grau de liberdade


no mumerador e 3 no denominador

• Como F>F0,05, rejeita-se H0 num nível de


significância de 5%, ou seja há evidências de que a
relação entre X e Y observada na amostra seja
significante.

18
Predição com Modelos de Regressão

• Tipos de predição
3 Estimativa pontual l O que é predição
3 Estimativa através de  Valor esperado da
população (Y/X) para um
intervalos
dado X
Y YIndividual – Ponto na reta de
regressão da população
média de Y  Resposta individual (Yi)
dado X ( Y/X ) para um dado X=x*
 Intervalo de Confiança para
a média de Y/X
^
Previsão, Y
 Intervalo de Confiança para
a predição (depende do
X anterior)
Xdado

Predição de uma nova observação

Desejamos predizer uma nova observação, Y, vista como resultado de


um novo ensaio, independente dos ensaios nos quais análise de
regressão foi feita.
Notação: denotamos o nível de X para o novo ensaio como Xh e a
nova observação em Y como Yh(novo). Assumimos que o modelo de
regressão continua válido para a nova observação.

19
Limites dos Intervalos de Confiança
para a Predição

_ X
X Xdado

Exemplo
• Deseja-se prever o retorno de TEL4 em função do retorno
do IBOVESPA.
• Constrói-se um modelo de regressão simples (este é
MARKET MODEL que é a versão ex-post do CAPM)
r =  +  rM + erro
• Os coeficientes da regressão podem ser estimados
usando o Excel (Tools/data analysis/regression)

20
Regressão Simples no Excel

Saída numérica

SUMMARY OUTPUT

Regression Statistics
Multiple R 0.877857221 Testa a significância
R Square 0.770633301
Adjusted R Square 0.770058447
GLOBAL
Standard Error 0.01444875 da regressão
Observations 401 (é bastante significante)
ANOVA
df SS MS F Significance F
Regression 1 0.279866453 0.279866 1340.572 1.2113E-129
Residual 399 0.083297782 0.000209
Total 400 0.363164234

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept 0.000844948 0.000721568 1.170988 0.242302 -0.000573603 0.002263498 -0.000573603 0.002263498
X Variable 1 0.923898485 0.025233594 36.61383 1.2E-129 0.874291073 0.973505897 0.874291073 0.973505897

21
Resíduos

RESIDUAL OUTPUT

Observation Predicted Y Residuals Standard Residuals


1 -0.19% 1.20% 0.83
2 0.29% 1.47% 1.02
3 -0.05% 0.17% 0.12
4 -0.66% -0.09% -0.06
5 -1.08% -1.71% -1.19
6 -0.33% 0.33% 0.23
7 -0.68% -0.81% -0.56
8 0.99% 0.24% 0.17

Saída gráfica

Forte excesso de curtose


Ajuste (real X previsto
no resíduos
0.15
Normal Probability Plot
0.10
0.15

0.05 0.1
0.05
0.00
0
-0.30 -0.20 -0.10 0.00 0.10 0.20
-0.05 -0.05 0 20 40 60 80 100

-0.1
-0.10
-0.15
-0.15 -0.2
-0.25
-0.20
Sample Percentile
-0.25

22
Cuidado Com

• Violação da premissas
Normalidade (os resíduos seguem uma distribuição Normal)
– Importante para os testes estatísticos
Independência (os resíduos são independentes de X)
Homocedasticidade (variância constane em relação a X)
• Influência de dados específicos
• Nível de significância (R )
2
• Extrapolação (predições para valores extremos de X)

Módulo de Análise de Dados - Excel


• Comandos para habilitar o módulo de Análise de Dados:
• (1) Personalizar a barra de ferramenta
• (2) Selecionar a opção de mais comandos
• (3) Selecionar a opção Suplementos
• (4) Selecionar a opção Ferramenta de análises
• (5) Selecione a opção ir
• (6) Seleciona a opção Ferramenta de análises

23
Exemplo
• A analista de mercado tem
interesse em estabelecer uma
relação entre o valor de venda e
a avaliação do imóvel. Para o
estudo foi selecionada uma
amostra de cinco propriedades.

24
25
Exercício
• A Armand’s Pizza é uma cadeia de restaurantes italianos
localizados em cinco estados. As localizações mais bem-
sucedidas da Armand’s têm sido as que estão perto de
campus universitários. Os gerentes acreditam que as
vendas trimestrais para esses restaurantes (y) estão
relacionadas positivamente com o tamanho da população
de estudantes (x). Fazer uma análise de regressão completa
para o caso.

Restaurante Estudantes (1000) Vendas trimestrais (US$ 1000)

Xi Yi

1 2 58

2 6 105

3 8 88

4 8 118

5 12 117

6 16 137

7 20 157

8 20 169

9 22 149

10 26 202

26

Você também pode gostar