WD CAP 03 Folhetos

Econometria I (IS 211)
Modelo de Regressão Múltipla
Lucas Siqueira de Castro

lucascastro@ufrrj.br
Referências
 WOOLDRIDGE, J. Introdução à
econometria: uma abordagem
moderna. São Paulo: Cengage
Learning, 6a edição, 2017, capítulo
3.
Modelo de Regressão Múltipla
 Modelo com k variáveis

independentes:
 y = b 0 + b 1x1 + b2x2 + . . . b kxk + u
 b0 é a constante (intercepto)
 b1 a bk são parâmetros de inclinação
 u é o termo de erro
1
Exemplo 1
 Equação de salários
 salárioh=b 0 + b 1educ + b2exper + u
 Outros fatores não incluídos encontram-
se no termo de erro (u)
 Aptidão, por exemplo.
 Aptidão
 Esta variável não-observada é
relacionada com educ?
 É válida a hipótese da média condicional
zero?
Exemplo 2
Interpretação da Regressão
 Modelo estimado
yˆ  bˆ0  bˆ1 x1  bˆ2 x2  bˆ3 x3    bˆk xk
 Modelo estimado em variações

yˆ  bˆ0  bˆ1x1  bˆ2 x2  bˆ3 x3    bˆk xk
 Se mantiver x2,..., xk fixos:

yˆ  bˆ1x1
2
Interpretação da Regressão
 b1 tem uma interpretação ceteris

paribus
 Cada bk tem interpretação ceteris
paribus
 Utilidade da regressão múltipla em
ambientes não-experimentais
 Economista como coletador passivo dos
dados observacionais
 Controle para as outras variáveis
Exemplo da Equação de Salários
 log(salárioh) = 0,284 + 0,092educ

+ 0,0041exper + 0,022perm
 salárioh: salário-hora
 educ: anos de educação formal
 exper: anos de experiência
 perm: anos no emprego atual
Interpretando a Equação de
Salários
 O coeficiente 0,092 significa que,

mantendo exper e perm fixos, uma
ano a mais de educação formal
aumenta o valor esperado de
log(salárioh) em 0,092, ou seja, um
aumento aproximado de 9,2%
3
Resíduos
 Mesma definição da regressão

simples:
𝑢 =𝑦 −𝑦
 Propriedades
 a) a média amostral dos resíduos é zero;
 b) a covariância amostral de cada Xj e os
resíduos é zero;
 c) o ponto 𝑥̅ , 𝑥̅ , … , 𝑥̅ , 𝑦 está sempre
sobre a reta de regressão estimado por
MQO
Quiz 1
 A reta estimada de MQO que explica

IRA em termos de ENEM é:
 IRA = 1,29 + 0,453NEM + 0,0094ENEM
 IRA: índice rendimento acadêmico

 NEM: nota média do ensino médio
 ENEM: nota do ENEM
Quiz 1 (Continua)
 Se NEM médio é de cerca de 3,4 a

nota média do ENEM é de 24,2,
qual é o IRA médio da amostra?
 (Dica: use a propriedade c da reta
de regressão)
4
Regressão Simples X Regressão
Múltipla
 Considere a regressão simples:

~y  b~  b~ x
0 1 1
 Considere agora a regressão

múltipla:
yˆ  bˆ0  bˆ1 x1  bˆ2 x2
~
 Geralmente b1  bˆ1 , a menos que:
 x2 não tenha efeito sobre y (bˆ  0 ) 2
 x1 e x2 não estejam correlacionados
Relação Simples
Quiz 2
 Considere que a verdadeira equação de
salários:
 log(salarioh) = b0 + b1 educ + b2 aptid + u
 Mas o pesquisador estimou a seguinte

regressão simples:
 log(salarioh) = b0 + b1 educ + u
 O estimador MQO de b1 será viesado?

Qual a direção do viés?
5
Qualidade de Ajuste
 Na regressão múltipla:
 SQT = SQE + SQR
 Dividindo tudo por SQT

 1 = SQE/SQT + SQR/SQT
 R2 é definido como:
 R2= SQE/SQT = 1 – SQR/SQT
Qualidade de Ajuste
 Quão bem a regressão se ajusta aos

dados?
 Quanto da variação amostral total
de y é explicada pelo modelo de
regressão múltipla?
 R2 indica qual é a proporção dessa
variação total que é explicada pelas
variáveis independentes
Qualidade de Ajuste
 R2 nunca diminui com mais

variáveis explicativas no lado direito
da equação
 Provavelmente, vai aumentar R2
mesmo sendo uma variável irrelevante
 Como R2 aumenta à medida que se
coloca mais variáveis explicativas,
pode vir a não ser bom indicador de
ajuste do modelo
6
Regressão através da Origem
 Às vezes, a teoria sugere b0=0

 Regressão através da origem
 Regressão sem constante
 Consequências
 𝑢≠0
 Média dos resíduos diferente de zero
 R2 pode ser negativo
 Se 𝛽 ≠ 0, então os coeficientes de
inclinação (𝛽 , 𝛽 , … , 𝛽 ) são viesados
Hipóteses do Modelo de
Regressão Linear Múltipla (RLM)
 Hipótese RLM1: linearidade nos

parâmetros
 Linear em b0, b 1, b2, ..., b k
 Não pode ter parâmetro multiplicando
parâmetro (b1 * b2)
 Não pode haver parâmetro dividindo
outro (b1 / b2)
 Mas a relação entre y e as variáveis xk
pode ser não linear
 x1*x2 (variável de interação)
 x1/x2 (divisão entre duas variáveis)
 (x1)2
Hipóteses da RLM
 Hipótese RLM2: Amostragem

Aleatória
 Temos uma amostra aleatória de n
observações {(xi1, xi2,..., xik, yi):
i=1,2,...,n} do modelo populacional
(FRP)
 Amostra representativa da população
 Às vezes a amostra esgota a população
 Estudo sobre o crescimento dos
municípios brasileiros em 2008(N=aprox.
5.650)
7
Hipóteses da RLM
 Hipótese RLM3: Colinearidade Não

Perfeita
 Descarte da colinearidade perfeita
(relação linear exata) entre duas
variáveis independentes
 Correlação entre x1 e x2 igual a um
 r(x1,x2 )=1
 Mas alguma colinearidade imperfeita deve
existir entre as variáveis independentes
 Essa hipótese garante que é possível
estimar os parâmetros da regressão.
Hipóteses da RLM

Perfeita
 Colinearidade perfeita
 x1: Renda em R$ e x2: renda em milhares
de R$
 x2 = 1000* x1
 log(rend) e log(rend2)
 log(rend2)=2.log(rend)
 x1 =gastoA, x2 =gastoB, x3=totalgasto
 x3= x1 + x2
Hipóteses da RLM

Perfeita
 Nenhuma variável explicativa é
constante
 n > k+1
 O tamanho da amostra precisa ser maior
que o número de parâmetros a ser
estimado
 k coeficientes que acompanham k variáveis
explicativas + parâmetro da constante (b 0)
8
Hipóteses da RLM
 Hipótese RLM4: Média Condicional

Zero
 E(u│x1, x2,...,xk)=0
 Variáveis explicativas exógenas
 Violação de RLM4
 Omissão de variáveis relevantes
 Esquecer rend2 na regressão:
Cons=b0+b1rend+b2rend2+u
 Forma funcional mal especificada
 Na FRP, y é em log, mas na FRA coloca-se
y em nível
Inexistência de Viés
 Sob as hipóteses do modelo de

regressão múltipla RLM1 a RLM4:
 
E bˆ j  b j para j=0,1,...,k
 Os estimadores MQO são

estimadores não viesados dos
parâmetros da população
 Hipótese crítica é a RLM4
 Fatores não-observáveis (u) não estão
relacionados com nenhum xk
Inclusão de Variáveis Irrelevantes
 Superespecificação do modelo
 Inclusão de variável que não exerce
efeito sobre y
 Modelo verdadeiro (FRP): y=b0+b1x1+u
 Modelo estimado (FRA):
y=b0+b1x1+b2x2+u
 E(u│x2)=E(y│x2)=0
 Consequências
 Estimador MQO não viesado
 Ineficiência
 maior variância dos estimadores de MQO
9
Viés de Variável Omitida
Modelo verdadeiro :
y  b 0  b1 x1  b 2 x2  u,
Mas se estima
~ ~ ~
y  b  b x  u, 0 1 1
Então
xi1  x1  yi
b1  
~
 xi1  x1 2
28

Recorde que o modelo verdadeiro é :
yi  b 0  b1 xi1  b 2 xi 2  ui ,
Então o numerador do estimador MQO fica :
 x  x b  b x  b x  u  
i1 1 0 1 i1 2 i2 i
b   x  x   b  x  x   b   x  x1 xi 2    xi1  x1 ui

2
0 i1 1 1 i1 1 2 i1
0
Note que  x i1  x1   0
29

0
 xi1  x1 xi 2  xi1  x1 ui

b  b1  b 2 
~

 x i1  x1    xi1  x1  
2 2
Desde que E(ui )  0, tomando as expectativ as tem - se que :
 
~
E b1  b1  b 2
 x  x x i1 1 i2
 x  x  
2
i1 1
30
10
Agora considere a regressão de x2 sobre x1
~ ~ ~
x    x ,
2 0 1 1
Então :
xi1  x1 xi 2
1  
~
 xi1  x1 2 
Assim :
~
  ~
E b1  b1  b 21
31
Resumo da Direção do Viés
Corr(x1, x2) > 0 Corr(x1, x2) < 0
b2 > 0 Viés positivo Viés negativo
b2 < 0 Viés negativo Viés positivo
32
 Na prática, não se sabe com certeza

a direção do viés
 Desconhecimento da verdadeira FRP
 Mas dá para se ter uma boa ideia da
direção do viés
 Dois casos em que o viés é zero
 b2 = 0
 x1 e x2 não estão correlacionados na
amostra
11
Exemplo do Direção do Viés
Tamanho do Viés
 Importância do tamanho do viés

 Viés grande
 Ex.: Retorno da educação é 8,6%, mas o
viés do estimador é de 3 pontos
percentuais
 É motivo de forte preocupação
 Viés pequeno
 Ex.: Retorno da educação é 8,6% na
população, mas o viés do estimador é de
0,1% (0,1 ponto percentual)
 Não é motivo de preocupação
Variância dos Estimadores MQO
 Distribuição amostral do estimador

é centrada em sua média
 Qual é a dispersão dessa
distribuição amostral do estimador?
 Quão perto da média encontram-se os
valores?
 Análise de sua variância
12
Mais uma Hipótese
 Hipótese RLM5: Homocedasticidade
Var(u|x1, x2,…, xk) = s2

ou
Var(y|x1, x2,…, xk) = s2
 Mesma variância do termo de erro u

(e da variável y) condicional aos
valores de x
Exemplo
 Equação de salários
 salárioh=b 0 + b 1educ + b2exper +
b3perm +u
 A homocedasticidade requer que a

variância do erro u não dependa
dos níveis de educação, experiência
e permanência:
 Var(u|educ, exper, perm)=s2
Hipóteses de Gauss-Markov
 Com dados na forma de corte

transversal, as hipóteses:
 RLM1: linearidade nos parâmetros
 RLM2: amostra aleatória
 RLM3: ausência de colinearidade perfeita
entre os x
 RLM4: média condicional zero
 RLM5: homocedasticidade
 As hipóteses de Gauss-Markov do
modelo de regressão linear múltipla
13
Variância do Estimador MQO
Dadas as hipóteses de Gauss - Markov
 
Var bˆ j 
s2

SQT j 1  R 2j 
em que
SQT j   xij  x j  e R 2j é o R 2
2
de regredir x j contra os outros x' s

40
Componentes da Variância do
Estimador MQO
 Variância do erro s2
 Quanto menor s2, menor a variância do
estimador
 A variação amostral total das
variáveis explicativas xj (SQTj)
 Quanto maior SQTj, menor é a variância
do estimador
 A relação entre as variáveis
explicativas x (Rj2)
 Quanto menor Rj2, menor a variância do
estimador
Multicolinearidade
 Definição
 A relação linear entre as variáveis
explicativas (Rj2) no lado direito da
equação
 Rj2 é diferente do R2 da regressão
múltipla
 Rj2 é obtido da regressão de xj sobre as
outras variáveis explicativas
Quando Var ( bˆ j )  , então R j  1
2

14
Multicolinearidade é Problema?
 Multicolinearidade pode ser

compensada por
 Muita variação nos dados de xj (SQTj)
 Baixa variância do erro (s2)
 Micronumerosidade
 Problemas advindos em se trabalhar
com pequenas amostras
 Pequeno SQTj
 Baixa variação amostral em xj
Estimando a Variância do Erro
 Desconhecimento da variância do
erro (s2)
 Erros não-observáveis
 Mas observamos os resíduos
 Erros estimados pela regressão
 Uso dos resíduos para se estimar a
variância do erro
15
Estimando a Variância do Erro
 Estimativa da variância do erro:

sˆ 2   uˆi2  n  k  1  SQR gl
 Assim, o erro-padrão (ep) do

estimador:
 
ep bˆ j  sˆ SQT j 1  R 2j 
Teorema de Gauss-Markov
 Dadas as hipóteses de Gauss-

Markov (RLM1 a RLM5), pode ser
mostrado que o estimador MQO é
BLUE:
 B: best; L: linear; U:unbiased; E:
estimator
 Assim, o estimador MQO de bj é o
melhor estimador linear não-viesado
(BLUE)
16

WD CAP 03 Folhetos

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

WD CAP 03 Folhetos

Enviado por

Direitos autorais:

Formatos disponíveis

Econometria I (IS 211)

Modelo de Regressão Múltipla

Lucas Siqueira de Castro

Modelo de Regressão Múltipla

 Modelo com k variáveis

 y = b 0 + b 1x1 + b2x2 + . . . b kxk + u

 Modelo estimado em variações

 Se mantiver x2,..., xk fixos:

 b1 tem uma interpretação ceteris

Exemplo da Equação de Salários

 log(salárioh) = 0,284 + 0,092educ

 O coeficiente 0,092 significa que,

 Mesma definição da regressão

 A reta estimada de MQO que explica

 IRA = 1,29 + 0,453NEM + 0,0094ENEM

 IRA: índice rendimento acadêmico

 Se NEM médio é de cerca de 3,4 a

 Considere a regressão simples:

 Considere agora a regressão

 x1 e x2 não estejam correlacionados

 Mas o pesquisador estimou a seguinte

 O estimador MQO de b1 será viesado?

 Dividindo tudo por SQT

 Quão bem a regressão se ajusta aos

 R2 nunca diminui com mais

 Às vezes, a teoria sugere b0=0

 Hipótese RLM1: linearidade nos

 Hipótese RLM2: Amostragem

 Hipótese RLM3: Colinearidade Não

 Hipótese RLM3: Colinearidade Não

 Hipótese RLM3: Colinearidade Não

 Hipótese RLM4: Média Condicional

 Sob as hipóteses do modelo de

 Os estimadores MQO são

Inclusão de Variáveis Irrelevantes

Viés de Variável Omitida

b   x  x   b  x  x   b   x  x1 xi 2    xi1  x1 ui

Viés de Variável Omitida

 xi1  x1 xi 2  xi1  x1 ui

Desde que E(ui )  0, tomando as expectativ as tem - se que :

Resumo da Direção do Viés

Corr(x1, x2) > 0 Corr(x1, x2) < 0

b2 > 0 Viés positivo Viés negativo

b2 < 0 Viés negativo Viés positivo

Viés de Variável Omitida

 Na prática, não se sabe com certeza

 Importância do tamanho do viés

Variância dos Estimadores MQO

 Distribuição amostral do estimador

 Hipótese RLM5: Homocedasticidade

Var(u|x1, x2,…, xk) = s2

 Mesma variância do termo de erro u

 A homocedasticidade requer que a

 Com dados na forma de corte

Dadas as hipóteses de Gauss - Markov

de regredir x j contra os outros x' s

 Multicolinearidade pode ser

Estimando a Variância do Erro

 Estimativa da variância do erro:

 Assim, o erro-padrão (ep) do

 Dadas as hipóteses de Gauss-

Você também pode gostar