Você está na página 1de 28

Violações das hipóteses do modelo de regressão linear clássico e

estratégias de identificação e correção

José Sérgio Casé de Oliveira

Programa de Pós-Graduação em Contabilidade - PPGCONT


Universidade Federal da Bahia - UFBA

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 1 / 28


Modelo de regressão

O modelo de regressão linear clássico pode ser expresso por

Y = Xβ + e

onde Y é um vetor n × 1 de observações da variável que se deseja modelar, X é uma


matriz n × k de k covariáveis explicativas, β é um vetor k de parâmetros a serem
estimados e e é um vetor n × 1 de erros não observáveis.
As estimativas para β são obtidas de forma bastante simples por meio de um problema
de minimização da soma dos quadrados dos resíduos, de forma que β̂ é dado por

β̂ = (X 0 X)−1 X 0 Y.

Para que β seja estimado de forma consistente, é necessários que alguns pressupostos
sejam atendidos.

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 2 / 28


Modelo de regressão

As hipótese do modelo de regressão linear clássico são:


S0 O modelo postulado está corretamente especificado;
S1 E(e) = 0;
S2 Var(e) = σ2 I (Homoscedasticidade);
S3 Cov(ei , ej ) = 0 ∀ i , j (não autocorrelação serial);
S4 X tem posto completo, ou seja, Posto(X) = k (não multicolinearidade);
S5 Os erros são normalmente distribuídos.
S6 X é não estocástico.
Mas por que essas hipóteses são necessárias?

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 3 / 28


Um resultado muito importante

Teorema de Gauss-Marcov: β̂ é o melhor estimador linear não viesado para β.


Considere o modelo de regressão linear

Y = Xβ + e

e as hipóteses
E(e) = 0 e Var(e) = σ2 I
Seja β̂ = (X 0 X)−1 X 0 Y o estimador de mínimos quadrados. Se existe outro estimador β̃, tal
que β̃ = A0 Y e E(β̃) = β então a Var(β̃) > Var(β̂).
Prova
β̃ = A0 Y ⇒ β̃ = A0 (Xβ + e) ⇒ β̃ = A0 Xβ + A0 e ⇒ E(β̃) = E(A0 Xβ) + A0 E(e) ⇒ E(β̃) = A0 Xβ
β̃ é não viesado, se e somente se A0 X = I .

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 4 / 28


Um resultado muito importante

Var(β̃) = A0 Var(e)A = A0 σ2 IA = σ2 A0 A
Tomando a diferença entre as variâncias de β̃ e β̂, temos
Var(β̃) − Var(β̂) = σ2 A0 A − σ2 (X 0 X)−1
Var(β̃) − Var(β̂) = σ2 (A0 A − (X 0 X)−1 )
Var(β̃) − Var(β̂) = σ2 (A0 A − A0 X(X 0 X)−1 X 0 A)
Var(β̃) − Var(β̂) = σ2 A0 (I − X(X 0 X)−1 X 0 )A
Var(β̃) − Var(β̂) = σ2 A0 MA
Como A0 MA é positiva definida, tem-se que

Var(β̃) > Var(β̂)

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 5 / 28


Violação de S0
Considere 2 modelos de regressão
M1 Y = X1 β1 + X2 β2 + e1
M2 Y = X1 β1 + e2
(Caso 1) Suponha que (M1) está correto, mas estimamos (M2)
β̂1 = (X10 X1 )−1 X10 Y
β̂1 = (X10 X1 )−1 X10 (X1 β1 + X2 β2 + e1 )
β̂1 = (X10 X1 )−1 X10 X1 β1 + (X10 X1 )−1 X10 X2 β2 + (X10 X1 )−1 X10 e1
β̂1 = β1 + (X10 X1 )−1 X10 X2 β2 + (X10 X1 )−1 X10 e1
Tomando o valor esperado,
E(β̂1 ) = E(β1 ) + E((X10 X1 )−1 X10 X2 β2 ) + (X10 X1 )−1 X10 E(e1 )
E(β̂1 ) = β1 + (X10 X1 )−1 X10 X2 β2 ⇒ é viesado
Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 6 / 28
Violação de S0
(Caso 2) "Suponha que M2 está correto, mas estimamos M1.
β1
#
Seja β = e X = [X1 X2 ]
β2
β̂ = (X 0 X)−1 X 0 Y
β1
" # " #
e2
Seja β̄ = e ē =
0 0
β̂ = (X 0 X)−1 X 0 (X β̄ + ē)
β̂ = (X 0 X)−1 X 0 X β̄ + (X 0 X)−1 X 0 ē
β̂ = β̄ + (X 0 X)−1 X 0 ē
Tomando o valor esperado

E(β̂) = E(β̄) + (X 0 X)−1 X 0 E(ē)


Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 7 / 28
Violação de S0

β
" #
E(β̂) = β̄ = 1 ⇒ é não viesado
0

Entretanto, o teorema de Gauss-Markov não é mais válido, logo, há perda de eficiência.

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 8 / 28


Violação de S0 (Identificação)

1. Teste t ⇒ H0 : βi = 0 vs H1 : βi , 0

β̂i
t= q ∼ t-Student
Var(β̂i )

Já é default do R, e é reportado pela função summary().


2. Teste F ⇒ H0 : β1 = β2 = . . . = βk = 0 vs H1 : algum βi , 0
Já é default do R, e é reportado pela função summary().
3. Teste J é um teste para modelos não encaixados.
Suponha o modelo
Y = (1 − α)Xβ + αZγ
Teste via teste t ⇒ H0 : α = 0 (Xβ está correto) vs H1 : α = 1 (Zγ está correto)
No R, use a função jtest(), do pacote lmtest.
Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 9 / 28
Violação de S0 (Identificação)

4. Teste RESET de Ransey é um teste de bondade de ajuste


Suponha o modelo
Y = Xβ + Zγ
onde Z é igual a Ŷ 2 ou Ŷ 3 .
Teste via teste F , H0 : γ = 0 (especificação correta) vs H1 : γ , 0
No R, use a função resettest(), do pacote lmtest.
5. Teste Rainbow é um teste de bondade de ajuste.
O teste se baseia na linearidade do modelo.
Divide a amostra em 2 grupos, e avalia a diferença entre os coeficientes estimados para
cada grupo.
H0 : linearidade do modelo, e H1 : não linearidade.
No R, use a função raintest(), do pacote lmtest.
Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 10 / 28
Violação de S0 (Correção)

Caso seja detectado que o modelo está erroneamente especificado, deve-se buscar uma
forma funcional alternativa para modelagem de Y .
Usar transformações logarítmicas.
Modelo recíproco.
Buscar novas variáveis.

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 11 / 28


Violação de S2 - Heteroscedasticidade

A violação de S2 implica que Var(ei ) = σ2i , onde σ2i é diferente de σ2j para pelo menos
algum i , j.
Implicação:

β̂ = (X 0 X)−1 X 0 Y = (X 0 X)−1 X 0 (Xβ + e) = (X 0 X)−1 X 0 Xβ + (X 0 X)−1 X 0 e = β + (X 0 X)−1 X 0 e

Tomando a variância

Var(β̂) = Var(β) + (X 0 X)−1 X 0 Var(e)X(X 0 X)−1


Var(β̂) = (X 0 X)−1 X 0 (σ2 Φ)X(X 0 X)−1 , Φ , I
Var(β̂) = σ2 (X 0 X)−1 X 0 ΦX(X 0 X)−1 ⇒ não vale Gauss-Markov
Logo heteroscedasticidade torna o estimador ineficiente.
Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 12 / 28
Violação de S2 - Heteroscedasticidade (Identificação)

1. Teste de Goldfeld-Quandt
Ordena-se as n observações de forma crescente;
Retira-se 25% das observações centrais;
Estima-se 2 regressões, uma para cada subgrupo;

SQR2
GQ = ∼F
SQR1
Sob homocedasticidade, GQ deve estar próximo de 1.
H0 : homocedasticidade e H1 : heterocedasticidade.
No R, use a função gqtest(), do pacote lmtest.

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 13 / 28


Violação de S2 - Heteroscedasticidade (Identificação)

2. Teste de Breusch-Pagan
A ideia consiste em modelar a variância dos resíduos.
Considere o modelo,
σ2 = δ0 + δ1 x1 + . . . + δk xk + ν
Assim, queremos testar
H0 : δ1 = . . . = δk (homocedasticidade).
No R, use a função bptest( ,studentize = FALSE), do pacote lmtest.
3. Teste de Koenker
A ideia é similar ao teste de Breusch-Pagan, entretanto, é utilizada uma padronização
das variáveis.
No R, use a função bptest( ,studentize = TRUE), do pacote lmtest.

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 14 / 28


Violação de S2 - Heteroscedasticidade (Correção)

Utilizar funções que suavizem Y , exemplo: log(·);


Utilizar técnicas de regressão robustas à heteroscedasticidade.
MQGF;
GAMLSS;
Regressão quantílica.

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 15 / 28


Violação de S3 - autocorrelação serial

A violação de S3 implica que Cov(ei , ej ) , 0 para pelo menos algum i , j.


Implicação:

β̂ = (X 0 X)−1 X 0 Y = (X 0 X)−1 X 0 (Xβ + e) = (X 0 X)−1 X 0 Xβ + (X 0 X)−1 X 0 e = β + (X 0 X)−1 X 0 e

Tomando a variância

Var(β̂) = Var(β) + (X 0 X)−1 X 0 Var(e)X(X 0 X)−1


Var(β̂) = (X 0 X)−1 X 0 (σ2 Ω)X(X 0 X)−1 , Ω , I
Var(β̂) = σ2 (X 0 X)−1 X 0 ΩX(X 0 X)−1 ⇒ não vale Gauss-Markov
Logo autocorrelação serial torna o estimador ineficiente.

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 16 / 28


Violação de S3 - autocorrelação serial (Identificação)

1. Teste Durbin-Watson
Suponha que
ei ∼ AR(1)
ou seja,
ei = µ + ρei−1 + ui
Testa-se ⇒ H0 : ρ = 0 vs H1 : ρ > (ou <)0.
No R, use a função dwtest(), do pacote lmtest.

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 17 / 28


Violação de S3 - autocorrelação serial (Identificação)

2. Teste de Breuch-Goldfrey
Suponha que
ei ∼ ARMA(p, q)
ou seja,
ei = µ + ρei−1 + . . . + ρp ei−p + θ(B)ui
 ρ  0
   
ρ  0
 1  
Testa-se ⇒ H0 :  .  =  .  vs H1 : algum ρ , 0.
 ..   .. 
   
ρp 0
No R, use bgtest(), do pacote lmtest.

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 18 / 28


Violação de S3 - autocorrelação serial (Correção)

i Utilizar MQO com Matriz de Covariâncias estimada de Newey-West


No R, use coeftest(fit, vcov=NeweyWest(fit))
ii Método da primeira diferença

Yt − Yt−1 = (Xt − Xt−1 )β + et − et−1

∆Yt = ∆Xt β + ∆et


iii Estimar ρ com base no teste de DW

d
ρ̂ ≈ 1 −
2
e estima-se
Yt − ρ̂Yt−1 = (Xt − ρ̂Xt−1 )β + et
Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 19 / 28
Violação de S4 - Multicolinearidade

Esta pode se dar de duas formas.


i) Multicolinearidade exata ⇒ X 0 X é singular, consequentemente, é não inversível.
β̂ não pode ser estimado.
ii) Multicolinearidade quase exata ⇒ X 0 X não é singular, logo, é inversível e β̂ pode ser
obtido.
Entretanto, essa característica de X 0 X inflaciona a variância das estimativas de MQO.

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 20 / 28


Violação de S4 - Multicolinearidade (Identificação)

1. Análise do coeficiente de correlação entre pares de regressores.


Se o módulo de alguma correlação for maior que 0.9 ⇒ Problema.
2. Análise do Fator de Inflação de variância.
Obter Xc tal que Xc = [xi1
c c
xi2 . . . xiJ
c
] (sem o intercepto)
xij − x̄j
xijc = q
Pn 2
i=1 (xij − x̄i )

Se diag((Xc0 Xc )−1 ) > 5 ⇒ Problema.


No R, use a função vif(), do pacote car.

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 21 / 28


Violação de S4 - Multicolinearidade (Identificação)

3. Análise do Número de Condição.


Sejam λ(1) e λ(k) respectivamente o maior e o menor autovalor de X 0 X .
λ(1)
q
Se λ(k) > 30 ⇒ Problema.
No R, use
X’X = t(X)% ∗ % X
autoval = eigen(X’X)
autoval$values
Considerando o exemplo em que k = 3,
sqrt(autoval$values[1]/autoval$values[3])

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 22 / 28


Violação de S4 - Multicolinearidade (Correção)

Obter mais dados.


Eliminar um dos regressores correlacionados.
Criar uma única variável a partir das variáveis correlacionadas.
Utilizar um modelo apropriado para esse problema ⇒ Regressão Ridge.

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 23 / 28


Violação de S5 - Erros não Normais

A suposição de Normalidade dos erros é útil apenas para a parte de inferência sobre as
estimativas do modelo.
Dessa forma, o problema associado a Violação de S5 é que não podemos mais usar os
testes de hipóteses usuais.

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 24 / 28


Violação de S5 - Erros não Normais (Identificação)

0. Análise gráfica (não é identificação, porém, ajuda).


Histograma (forma de sino)
Boxplot (simetria)
QQplot (quantil a quantil)
1. Teste Bera-Jarque
H0 : e segue Normal vs. H1 : c.c.
Se baseia nos valores de assimetria e curtose da distribuição Normal.
No R, use a função jarque.bera.test() do pacote tseries.
2. Teste Kolmogorov Smirnov
H0 : e é proveniente de uma distribuição Normal vs. H1 : c.c.
Se baseia na comparação entre a distribuição de frequência teórica e observada.
No R, use a função ks.test(,"pnorm") do pacote stats.

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 25 / 28


Violação de S5 - Erros não Normais (Correção)

i Utilizar uma transformação que suavize Y . Exemplo: log(·), Transformação de Box-Cox


ou Transformação de Yeo e Johson.
ii Utilizar outro tipo de modelagem que não necessite dessa suposição (RQ), ou que tenha
suposições mais adequadas para os dados utilizados (GAMLSS).

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 26 / 28


Violação de S1 e S6

Esses são casos que raramente são abordados.


Se E(e) = a, S1 é violada, e tem-se que

E(β̂) = E(β) + (X 0 X)−1 X 0 E(e)

E(β̂) = β + a(X 0 X)−1 X 0 , β, ∀ a , 0. ⇒ viesado


Se X é estocástica, tem-se que

plim(β̂) = plim(β) + plim((X 0 X)−1 X 0 e)

 X 0 X −1 X 0 e 
 ! !
plim(β̂) = β + plim   , β ⇒ inconsistente
n n 

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 27 / 28


Referências

1 Básica
Davidson, R.; MacKinnon, J.G. Econometric Theory and Methods. New York, Oxford
University Press, 2004.
2 Complementar
Hansen, B.E. Econometrics. University of Wisconsin, 2017.
Hayashi, F. Econometrics. New Jersey, Princeton University Press. 2000.
Wooldridge, J. M. Econometric Analysis of Cross Section and Panel Data. MIT Press, 2002.

Sérgio Oliveira (PPGCONT-UFBA) Violações das hipóteses do modelo de regressão linear 28 / 28

Você também pode gostar