Você está na página 1de 8

Regressão Linear Simples e Múltipla

Aula 3 – Modelo de
Regressão Linear Múltipla

1º semestre de 2018

Apresentação desenvolvida pela Equipe de Professores de Estatística da FGV-EAESP

Regressão Múltipla
 Uma variável dependente; múltiplas
variáveis independentes

VARIÁVEL VARIÁVEL
INDEPENDENTE DEPENDENTE

JORNADA DE ROTATIVIDADE
TRABALHO
Está associada NO EMPREGO

Está associado

VARIÁVEL
Está associada
INDEPENDENTE
CARGO

IDADE

VARIÁVEL
INDEPENDENTE

1
Modelo de Regressão Múltipla

- Uma variável dependente (Y)


- Várias variáveis independentes (X1, X2, X3, etc..)
- Hipótese de relação linear

Modelo populacional:
Intercepto Inclinações Erro aleatório

Variável dependente Variáveis independentes

Estimativa de Regressão Múltipla

Com base nos dados amostrais:


Estimativas por ponto dos Betas
Intercepto

Variável
dependente
Variáveis
independentes

• b0 é o intercepto
• O coeficiente bp é a variação de y para uma variação de 1 unidade
de xp, mantidos todos os demais x constantes

2
Modelo de Regressão Múltipla

Exemplo: modelo populacional com duas variáveis independentes

y
(y observado)
0
i

x 1
(X ,X )
1i 2i

x 2

Estimativa de Regressão Múltipla

Exemplo: modelo populacional com duas variáveis independentes

0 i

x1

x
2

3
Interpretação dos parâmetros

Exemplo: prever preço de um imóvel (Y) pelo tamanho (X1) e idade (X2)

Com base na População:

preço0= β0 : valor médio de um imóvel quando tamanho=0 e idade=0


(interpretação matemática apenas)
β1: variação no valor médio de um imóvel dada uma variação de 1
unidade no tamanho, mantendo constante a idade
β2: variação no valor médio de um imóvel dada uma variação de 1
unidade na idade, mantendo constante o tamanho
E(preço)= valor médio de um imóvel com determinada idade e
tamanho

Interpretação dos parâmetros

Exemplo: prever preço de um imóvel (Y) pelo tamanho (X1) e idade (X2)

Com base na amostra:

preço0= b0 : estimativa do valor médio de um imóvel quando


tamanho=0 e idade=0 (interpretação matemática apenas)
b1: estimativa da variação no valor médio de um imóvel dada uma
variação de 1 unidade no tamanho, mantendo constante a idade
b2: estimativa da variação no valor médio de um imóvel dada uma
variação de 1 unidade na idade, mantendo constante o tamanho
E(preço): estimativa do valor médio de um imóvel com determinada
idade e tamanho

4
Suposições do Modelo

São as mesmas de regressão


simples, ou seja:
- Variável aleatória com média zero
- Distribuição normal
- Variância constante do erro para quaisquer
valores das variáveis independentes
- Erros independentes

***recomenda-se que as variáveis independentes


não sejam fortemente correlacionadas. Por quê?

Análise de pressupostos

 A análise de resíduos deve ser feita antes


de se chegar a alguma conclusão sobre a
regressão. Se as suposições do modelo
não estiverem satisfeitas, o modelo não é
válido !!
Resíduo Resíduo Freq

Valor previsto para Y Variável X Resíduo

Um gráfico para cada variável X

 Teste de homocedasticidade e de
normalidade para os resíduos – os mesmos
usados na Regressão Linear Simples

5
Coeficiente de determinação
múltiplo (R2)

Observe que o R2 aumenta com o acréscimo de variáveis.

Se estamos comparando modelos com diferentes


números de variáveis usa-se R2 ajustado

n: número de observações
p: número de variáveis do modelo

O coeficiente ajustado é sempre menor que R2 !!

Hipóteses do Modelo

H0: 1= 2= ... = k = 0 (ou seja, não há relação linear)


Ha: Pelo menos um coeficiente é diferente de zero
(pelo menos uma variável independente afeta a variável
dependente)

Como analisar ? Pelo teste F


Se F > Fcrítico= Fp , n-p-1; então rejeito H0
Isso significa que pelo menos uma variável independente tem
relação linear com a variável dependente

Fonte de Soma de Graus de Quadrado


variação quadrados liberdade médio
Regressão SQR(SSR) p SQR/p F= QMReg
QMErro
Erro SQE(SSE) n-p-1 SQE/(n-p-1) F (estatística do teste)

Total SQT(SST) n-1

6
Hipóteses do Modelo

Qual é essa variável?


Variável g.l. Estimativa erro padrão estatística t valor-p

Intercepto n-p-1 b0 s b0 b0
s b0
X1 n-p-1 b1 s b1 b1
... ... ... ...
s b1
...
Xk n-p-1 bk
s bk bk
s bk

Estimação:
Intervalo de confiança de (1-)% para i:

bi  tn p1sbi

Exemplo
Número de respostas a um anúncio(y) de acordo
com o tamanho do anúncio e a circulação do jornal

respostas circulação (em mil) tamanho do anúncio


12 150 10
6 130 5
8 110 10
4 100 5
9 115 10
13 160 5
23 170 5
18 140 5
15 130 10
15 140 10
7 110 10
12 130 10
9 110 5

7
Saída do Excel

Estatística de regressão
R múltiplo 0.812
R-Quadrado 0.659
R-quadrado ajustado 0.591 P-valor
Erro padrão 3.370 (teste F)
Observações 13

ANOVA
gl SQ MQ F F de significação
Regressão 2 219.47 109.74 9.66 0.00
Resíduo 10 113.60 11.36
Total 12 333.08

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores


Interseção -16.117 7.372 -2.186 0.054 -32.544 0.310
circulação (em mil) 0.204 0.047 4.361 0.001 0.100 0.308
tamanho do anúncio 0.145 0.384 0.379 0.713 -0.709 1.000

Intervalo de confiança

Conclusão
 Admitindo que as suposições estão
satisfeitas, podemos continuar a
análise.
 Valor-p <0,05 => rejeito H0: pelo menos uma
das variáveis tem relação linear com Y (por
meio do teste F)
 Qual variável ? Ver teste t...
 Circulação: p-valor=0,001
 Tamanho: p-valor=0,713
 Deve-se ajustar um novo modelo de regressão
apenas com circulação como variável
independente, pois variáveis que não são
significantes não devem permanecer
 Como escolher quais variáveis entram
no modelo ?
Veremos no próximo tópico ....

Você também pode gostar