Você está na página 1de 16

Econometria I (IS 211)

Modelo de Regressão Múltipla

Lucas Siqueira de Castro


lucascastro@ufrrj.br

Referências

 WOOLDRIDGE, J. Introdução à
econometria: uma abordagem
moderna. São Paulo: Cengage
Learning, 6a edição, 2017, capítulo
3.

Modelo de Regressão Múltipla

 Modelo com k variáveis


independentes:

 y = b 0 + b 1x1 + b2x2 + . . . b kxk + u

 b0 é a constante (intercepto)
 b1 a bk são parâmetros de inclinação
 u é o termo de erro

1
Exemplo 1

 Equação de salários
 salárioh=b 0 + b 1educ + b2exper + u
 Outros fatores não incluídos encontram-
se no termo de erro (u)
 Aptidão, por exemplo.

 Aptidão
 Esta variável não-observada é
relacionada com educ?
 É válida a hipótese da média condicional
zero?

Exemplo 2

Interpretação da Regressão

 Modelo estimado
yˆ  bˆ0  bˆ1 x1  bˆ2 x2  bˆ3 x3    bˆk xk

 Modelo estimado em variações


yˆ  bˆ0  bˆ1x1  bˆ2 x2  bˆ3 x3    bˆk xk

 Se mantiver x2,..., xk fixos:


yˆ  bˆ1x1

2
Interpretação da Regressão

 b1 tem uma interpretação ceteris


paribus
 Cada bk tem interpretação ceteris
paribus
 Utilidade da regressão múltipla em
ambientes não-experimentais
 Economista como coletador passivo dos
dados observacionais
 Controle para as outras variáveis

Exemplo da Equação de Salários

 log(salárioh) = 0,284 + 0,092educ


+ 0,0041exper + 0,022perm

 salárioh: salário-hora
 educ: anos de educação formal
 exper: anos de experiência
 perm: anos no emprego atual

Interpretando a Equação de
Salários

 O coeficiente 0,092 significa que,


mantendo exper e perm fixos, uma
ano a mais de educação formal
aumenta o valor esperado de
log(salárioh) em 0,092, ou seja, um
aumento aproximado de 9,2%

3
Resíduos

 Mesma definição da regressão


simples:
𝑢 =𝑦 −𝑦
 Propriedades
 a) a média amostral dos resíduos é zero;
 b) a covariância amostral de cada Xj e os
resíduos é zero;
 c) o ponto 𝑥̅ , 𝑥̅ , … , 𝑥̅ , 𝑦 está sempre
sobre a reta de regressão estimado por
MQO

Quiz 1

 A reta estimada de MQO que explica


IRA em termos de ENEM é:

 IRA = 1,29 + 0,453NEM + 0,0094ENEM

 IRA: índice rendimento acadêmico


 NEM: nota média do ensino médio
 ENEM: nota do ENEM

Quiz 1 (Continua)

 Se NEM médio é de cerca de 3,4 a


nota média do ENEM é de 24,2,
qual é o IRA médio da amostra?
 (Dica: use a propriedade c da reta
de regressão)

4
Regressão Simples X Regressão
Múltipla

 Considere a regressão simples:


~y  b~  b~ x
0 1 1

 Considere agora a regressão


múltipla:
yˆ  bˆ0  bˆ1 x1  bˆ2 x2
~
 Geralmente b1  bˆ1 , a menos que:
 x2 não tenha efeito sobre y (bˆ  0 ) 2

 x1 e x2 não estejam correlacionados

Relação Simples

Quiz 2
 Considere que a verdadeira equação de
salários:
 log(salarioh) = b0 + b1 educ + b2 aptid + u

 Mas o pesquisador estimou a seguinte


regressão simples:
 log(salarioh) = b0 + b1 educ + u

 O estimador MQO de b1 será viesado?


Qual a direção do viés?

5
Qualidade de Ajuste

 Na regressão múltipla:
 SQT = SQE + SQR

 Dividindo tudo por SQT


 1 = SQE/SQT + SQR/SQT

 R2 é definido como:
 R2= SQE/SQT = 1 – SQR/SQT

Qualidade de Ajuste

 Quão bem a regressão se ajusta aos


dados?
 Quanto da variação amostral total
de y é explicada pelo modelo de
regressão múltipla?
 R2 indica qual é a proporção dessa
variação total que é explicada pelas
variáveis independentes

Qualidade de Ajuste

 R2 nunca diminui com mais


variáveis explicativas no lado direito
da equação
 Provavelmente, vai aumentar R2
mesmo sendo uma variável irrelevante
 Como R2 aumenta à medida que se
coloca mais variáveis explicativas,
pode vir a não ser bom indicador de
ajuste do modelo

6
Regressão através da Origem

 Às vezes, a teoria sugere b0=0


 Regressão através da origem
 Regressão sem constante
 Consequências
 𝑢≠0
 Média dos resíduos diferente de zero
 R2 pode ser negativo
 Se 𝛽 ≠ 0, então os coeficientes de
inclinação (𝛽 , 𝛽 , … , 𝛽 ) são viesados

Hipóteses do Modelo de
Regressão Linear Múltipla (RLM)

 Hipótese RLM1: linearidade nos


parâmetros
 Linear em b0, b 1, b2, ..., b k
 Não pode ter parâmetro multiplicando
parâmetro (b1 * b2)
 Não pode haver parâmetro dividindo
outro (b1 / b2)
 Mas a relação entre y e as variáveis xk
pode ser não linear
 x1*x2 (variável de interação)
 x1/x2 (divisão entre duas variáveis)
 (x1)2

Hipóteses da RLM

 Hipótese RLM2: Amostragem


Aleatória
 Temos uma amostra aleatória de n
observações {(xi1, xi2,..., xik, yi):
i=1,2,...,n} do modelo populacional
(FRP)
 Amostra representativa da população
 Às vezes a amostra esgota a população
 Estudo sobre o crescimento dos
municípios brasileiros em 2008(N=aprox.
5.650)

7
Hipóteses da RLM

 Hipótese RLM3: Colinearidade Não


Perfeita
 Descarte da colinearidade perfeita
(relação linear exata) entre duas
variáveis independentes
 Correlação entre x1 e x2 igual a um
 r(x1,x2 )=1
 Mas alguma colinearidade imperfeita deve
existir entre as variáveis independentes
 Essa hipótese garante que é possível
estimar os parâmetros da regressão.

Hipóteses da RLM

 Hipótese RLM3: Colinearidade Não


Perfeita
 Colinearidade perfeita
 x1: Renda em R$ e x2: renda em milhares
de R$
 x2 = 1000* x1
 log(rend) e log(rend2)
 log(rend2)=2.log(rend)
 x1 =gastoA, x2 =gastoB, x3=totalgasto
 x3= x1 + x2

Hipóteses da RLM

 Hipótese RLM3: Colinearidade Não


Perfeita
 Nenhuma variável explicativa é
constante
 n > k+1
 O tamanho da amostra precisa ser maior
que o número de parâmetros a ser
estimado
 k coeficientes que acompanham k variáveis
explicativas + parâmetro da constante (b 0)

8
Hipóteses da RLM

 Hipótese RLM4: Média Condicional


Zero
 E(u│x1, x2,...,xk)=0
 Variáveis explicativas exógenas
 Violação de RLM4
 Omissão de variáveis relevantes
 Esquecer rend2 na regressão:
Cons=b0+b1rend+b2rend2+u
 Forma funcional mal especificada
 Na FRP, y é em log, mas na FRA coloca-se
y em nível

Inexistência de Viés

 Sob as hipóteses do modelo de


regressão múltipla RLM1 a RLM4:
 
E bˆ j  b j para j=0,1,...,k

 Os estimadores MQO são


estimadores não viesados dos
parâmetros da população
 Hipótese crítica é a RLM4
 Fatores não-observáveis (u) não estão
relacionados com nenhum xk

Inclusão de Variáveis Irrelevantes

 Superespecificação do modelo
 Inclusão de variável que não exerce
efeito sobre y
 Modelo verdadeiro (FRP): y=b0+b1x1+u
 Modelo estimado (FRA):
y=b0+b1x1+b2x2+u
 E(u│x2)=E(y│x2)=0
 Consequências
 Estimador MQO não viesado
 Ineficiência
 maior variância dos estimadores de MQO

9
Viés de Variável Omitida

Modelo verdadeiro :
y  b 0  b1 x1  b 2 x2  u,
Mas se estima
~ ~ ~
y  b  b x  u, 0 1 1

Então
xi1  x1  yi
b1  
~
 xi1  x1 2
28

Viés de Variável Omitida


Recorde que o modelo verdadeiro é :
yi  b 0  b1 xi1  b 2 xi 2  ui ,
Então o numerador do estimador MQO fica :
 x  x b  b x  b x  u  
i1 1 0 1 i1 2 i2 i

b   x  x   b  x  x   b   x  x1 xi 2    xi1  x1 ui


2
0 i1 1 1 i1 1 2 i1

0
Note que  x i1  x1   0

29

Viés de Variável Omitida


0

 xi1  x1 xi 2  xi1  x1 ui


b  b1  b 2 
~

 x i1  x1    xi1  x1  
2 2

Desde que E(ui )  0, tomando as expectativ as tem - se que :

 
~
E b1  b1  b 2
 x  x x i1 1 i2

 x  x  
2
i1 1

30

10
Viés de Variável Omitida
Agora considere a regressão de x2 sobre x1
~ ~ ~
x    x ,
2 0 1 1

Então :
xi1  x1 xi 2
1  
~
 xi1  x1 2 
Assim :
~
  ~
E b1  b1  b 21

31

Resumo da Direção do Viés

Corr(x1, x2) > 0 Corr(x1, x2) < 0

b2 > 0 Viés positivo Viés negativo

b2 < 0 Viés negativo Viés positivo

32

Viés de Variável Omitida

 Na prática, não se sabe com certeza


a direção do viés
 Desconhecimento da verdadeira FRP
 Mas dá para se ter uma boa ideia da
direção do viés
 Dois casos em que o viés é zero
 b2 = 0
 x1 e x2 não estão correlacionados na
amostra

11
Exemplo do Direção do Viés

Tamanho do Viés

 Importância do tamanho do viés


 Viés grande
 Ex.: Retorno da educação é 8,6%, mas o
viés do estimador é de 3 pontos
percentuais
 É motivo de forte preocupação
 Viés pequeno
 Ex.: Retorno da educação é 8,6% na
população, mas o viés do estimador é de
0,1% (0,1 ponto percentual)
 Não é motivo de preocupação

Variância dos Estimadores MQO

 Distribuição amostral do estimador


é centrada em sua média
 Qual é a dispersão dessa
distribuição amostral do estimador?
 Quão perto da média encontram-se os
valores?
 Análise de sua variância

12
Mais uma Hipótese

 Hipótese RLM5: Homocedasticidade

Var(u|x1, x2,…, xk) = s2


ou
Var(y|x1, x2,…, xk) = s2

 Mesma variância do termo de erro u


(e da variável y) condicional aos
valores de x

Exemplo

 Equação de salários
 salárioh=b 0 + b 1educ + b2exper +
b3perm +u

 A homocedasticidade requer que a


variância do erro u não dependa
dos níveis de educação, experiência
e permanência:
 Var(u|educ, exper, perm)=s2

Hipóteses de Gauss-Markov

 Com dados na forma de corte


transversal, as hipóteses:
 RLM1: linearidade nos parâmetros
 RLM2: amostra aleatória
 RLM3: ausência de colinearidade perfeita
entre os x
 RLM4: média condicional zero

 RLM5: homocedasticidade

 As hipóteses de Gauss-Markov do
modelo de regressão linear múltipla

13
Variância do Estimador MQO

Dadas as hipóteses de Gauss - Markov

 
Var bˆ j 
s2

SQT j 1  R 2j 
em que
SQT j   xij  x j  e R 2j é o R 2
2

de regredir x j contra os outros x' s


40

Componentes da Variância do
Estimador MQO

 Variância do erro s2
 Quanto menor s2, menor a variância do
estimador
 A variação amostral total das
variáveis explicativas xj (SQTj)
 Quanto maior SQTj, menor é a variância
do estimador
 A relação entre as variáveis
explicativas x (Rj2)
 Quanto menor Rj2, menor a variância do
estimador

Multicolinearidade

 Definição
 A relação linear entre as variáveis
explicativas (Rj2) no lado direito da
equação
 Rj2 é diferente do R2 da regressão
múltipla
 Rj2 é obtido da regressão de xj sobre as
outras variáveis explicativas
Quando Var ( bˆ j )  , então R j  1
2

14
Multicolinearidade é Problema?

 Multicolinearidade pode ser


compensada por
 Muita variação nos dados de xj (SQTj)
 Baixa variância do erro (s2)

 Micronumerosidade
 Problemas advindos em se trabalhar
com pequenas amostras
 Pequeno SQTj
 Baixa variação amostral em xj

Estimando a Variância do Erro

 Desconhecimento da variância do
erro (s2)
 Erros não-observáveis
 Mas observamos os resíduos
 Erros estimados pela regressão
 Uso dos resíduos para se estimar a
variância do erro

15
Estimando a Variância do Erro

 Estimativa da variância do erro:


sˆ 2   uˆi2  n  k  1  SQR gl

 Assim, o erro-padrão (ep) do


estimador:

 
ep bˆ j  sˆ SQT j 1  R 2j 

Teorema de Gauss-Markov

 Dadas as hipóteses de Gauss-


Markov (RLM1 a RLM5), pode ser
mostrado que o estimador MQO é
BLUE:
 B: best; L: linear; U:unbiased; E:
estimator
 Assim, o estimador MQO de bj é o
melhor estimador linear não-viesado
(BLUE)

16

Você também pode gostar