Você está na página 1de 54

HETEROSCEDASTICIDADE

Aula 30

Gujarati, 2006, Capítulo 11 (trad. da 4a. ed.)


Wooldridge, 2011 – Capítulo 8 (Seções 8.1 a 8.4)
Recomenda-se uma leitura DETALHADA destes capítulos!!!!
INTRODUÇÃO
Essa aula objetiva responder às seguintes perguntas:

 Qual é a natureza da heterocedasticidade?

 O que acontece com as propriedades dos estimadores de


MQO quando a suposição de homocedasticidade dos erros
é violada?

 Como podemos testar se há ou não validade da suposição


de homocedasticidade dos erros?

 Caso exista, como levar em conta (ou corrigir) a


heterocedasticidade? 2
INTRODUÇÃO
A suposição MLR.5 (Homoscedasticidade) admite que o
termo de erro aleatório, u, tem a mesma variância, dados
quaisquer valores das variáveis explicativas.

Ou seja,
Var(u|x1, x2, ..., xk) = 2.

A homocedasticidade não se verifica sempre que a variância


do fator não observável mudar ao longo de diferentes
segmentos da população, nos quais os segmentos são
determinados pelos diferentes valores das variáveis
explicativas.
Exemplo

f(y|x)

. E(yi |x2i) = 1 + 2x2i


.
.
x21 x22 x23 x
4
INTRODUÇÃO

Em aulas anteriores foi dito que os estimadores de


MQO para os parâmetros do modelo de regressão
linear múltipla são não viesados, sob a validade das
suposições MLR.1 a MLR.4.

Ainda, sob as suposições MLR.1 a MLR.4, foi visto


que os estimadores de MQO são consistentes.
INTRODUÇÃO

Assim, é importante ressaltar que a presença da


heterocedasticidade não apresenta qualquer
responsabilidade sobre o viés ou inconsistência dos
estimadores de MQO.

Ainda, o R2 também não sofre alterações, devido à


presença da heterocedasticidade, uma vez que no
seu cálculo entram variâncias incondicionais.
INTRODUÇÃO

Todavia, na presença da heterocedasticidade, os


estimadores das variâncias dos estimadores de
MQO dos parâmetros do modelo de regressão serão
viesados.
INTRODUÇÃO

Ainda, como os erros-padrão são baseados


diretamente nos estimadores anteriormente citados,
eles não são mais válidos para construirmos ICs e
estatísticas t, uma vez que a distribuição não será
mais t-Student, mesmo na presença de grandes
amostras.
INTRODUÇÃO

De maneira semelhante, a estatística F não terá


distribuição F-Snedecor e a estatística LM não será
assintoticamente distribuída segundo uma Qui-
quadrado.

Finalmente, os estimadores de MQO não serão mais


BLUE, na presença da heterocedasticidade.
INTRODUÇÃO

Observação

A suposição de homoscedasticidade entra


fundamentalmente na derivação das distribuições
das variáveis aleatórias presentes nos testes. Dessa
forma, toda a análise neles baseada, na presença da
heterocedasticidade, deixa de ser válida.
TESTES DE HETEROSCEDASTICIDADE
Considere

H 0 : V ar ( u | x1 , x 2  , x k )   2

MLR.5  H0: Var(u|x1, ..., xk) =


= E(u2 |x1, ..., xk) – [E(u |x1, ..., xk)]2 =
= E(u2 |x1, ..., xk) = 2 .

Para H0 ser rejeitada, precisamos encontrar relação entre


u2 e variáveis explicativas; por exemplo:
u2 =  0 +  1x1 + ... +  kxk + ,
em que  é o termo de erro aleatório.
TESTES DE HETEROSCEDASTICIDADE
Neste caso,

H0 (hipótese de homoscedasticidade): 1 = ... = k = 0,

a qual pode ser testada a partir de um teste F ou LM.

Como não conhecemos os erros no modelo populacional,


temos que estimá-los, e, û i é uma estimativa do erro ui. Assim,
podemos estimar os parâmetros da equação

û2 = 0 + 1x1 + ... + kxk + ,

e calcular a estatística F ou LM para verificar a relevância


conjunta de x1, ..., xk, como segue:
TESTES DE HETEROSCEDASTICIDADE

R 22

Fobs  k ~ F[ k ; n  k 1 ]
( 1  R 22 )

( n  k 1 )

ou

LM  n  R 22 ~  2
uˆ k
TESTES DE HETEROSCEDASTICIDADE

1) Rejeitamos H0 quando o valor observado for superior


ao crítico;
2) A versão LM deste teste é conhecida como TESTE DE
BREUSCH-PAGAN (Teste BP).

Observações:
a) Podemos considerar apenas um sub-conjunto das
variáveis explicativas;
b) Se H0 for rejeitada, então, precisaremos recorrer a
algum método de estimação que leve em conta a
violação da suposição de homoscedasticidade.
EXEMPLO
Considerando o modelo,

price   0   1lotsize   2 sqrft   3 bdrm s  u


cujo objetivo é estimar o preço de residências numa
determinada localidade dos EUA, em que
price – preço da residência, em milhares de dólares;
bdrms – número de dormitórios;
lotsize – área do terreno, em pés2;
sqrft – área construída, em pés2;
conduza um teste BP para verificar se os erros são
homoscedásticos.
Modelo Estimado
Modelo estimado usando o quadrado dos resíduos
Solução:

2obs = 88 * 0,16 = 14,08


2(0,05; 3) = 7,81
p-valor = 0,0028

Fobs = 5,34
F(0,05; 3; 84) = 2,71
p-valor = 0,002048
TESTES DE HETEROSCEDASTICIDADE

TESTE DE WHITE

Este teste consiste em recorrer a uma suposição menos


rigorosa do que MLR.5:

H0 : u2 não é correlacionado com as variáveis explicativas,


seus quadrados e seus produtos cruzados (interações).
TESTES DE HETEROSCEDASTICIDADE

TESTE DE WHITE

Por exemplo, quando o modelo contem k = 3 variáveis


independentes, o teste de White fica baseado na estimação
do modelo

ˆu 2   0   1 x1   2 x 2   3 x3 
2 2 2
  4 x1   5 x 2   6 x3 
  7 x1 x 2   8 x1 x3   9 x 2 x3  erro
EXEMPLO
Considerando o modelo,

price   0   1lotsize   2 sqrft   3 bdrm s  u


cujo objetivo é estimar o preço de residências numa
determinada localidade dos EUA, em que
price – preço da residência, em milhares de dólares;
bdrms – número de dormitórios;
lotsize – área do terreno, em pés2;
sqrft – área construída, em pés2;
conduza um teste de White para verificar se os erros são
homoscedásticos.
Modelo Estimado
b) Teste de Hipóteses
TESTES DE HETEROSCEDASTICIDADE

TESTE DE WHITE
Observações:
1) A utilidade deste teste consiste ainda em identificar a
forma de heteroscedasticidade, ou de erro de
especificação, ou de ambos.
2) Comparado ao teste BP, este modelo tem 6 parâmetros a
mais para ser estimado, logo, há uma perda no número
de graus de liberdade.
3) Para minimizar a perda de graus de liberdade, este teste
pode ser feito a partir da seguinte regressão auxiliar:

uˆ 2   0   1 yˆ   2 yˆ 2  erro
TESTES DE HETEROSCEDASTICIDADE

Exercício

Para minimizar a perda de graus de liberdade, repita o


exercício anterior utilizando o modelo

ˆu 2   0   1 yˆ   2 yˆ 2  erro

para testar
H0: o erro é homoscedástico ( 1 =  2 = 0).
Compare os resultados.
Solução:

2obs = 88 * 0,1848 = 16,26


2(0,05; 2) = 5,99
p-valor = 0,000295
MÉTODOS DE ESTIMAÇÃO

As técnicas inferenciais são componentes importantes


em muitas análises de dados e na presença da
heterocedasticidade, como verificamos anteriormente,
toda a análise baseada em testes de hipóteses se torna
inválida. Assim sendo, como proceder nos casos em
que os erros são heterocedásticos e a forma da
heterocedasticidade é conhecida? Ainda, como ajustar
os erros-padrão e as estatísticas t e F, obtidos por MQO,
na presença de heterocedasticidade cuja forma é
desconhecida?
Mínimos Quadrados Ponderados (WLS)
Considere o seguinte modelo de regressão linear múltipla

y =  0 +  1x1 + ... +  kxk + u. (1)

Seja x = (x1, x2, ..., xk) um vetor que denota todas as variáveis
explicativas da equação anterior e assuma que

Var(u|x) = 2h(x). (2)

em que
h(x) é alguma função das variáveis explicativas que
determina a heterocedasticidade.
Mínimos Quadrados Ponderados (WLS)

Observação:
1) Como a variância retorna sempre um valor positivo,
então, h(x) > 0.
2) O desvio padrão de u, condicionado a x, é

DP ( u | x )   h ( x )

Pergunta:
Como poderemos utilizar (2) para estimarmos ̂ j ?
Mínimos Quadrados Ponderados (WLS)

Seja o modelo dado em (1), que contém erro heterocedástico;


vamos transformar tal modelo, num modelo com erro
homocedástico. [Vale lembrar que (1) satisfaz às outras
suposições Gauss-Markov].
Como

V ar ( u i | x1 , x 2 ,..., x k )  E ( u i2 | x1 , x 2 ,..., x k )   2 h ( x1 , x 2 ,..., x k )


a variância de

ui
h ( x1 , x 2 ,..., x k )

(condicionada a x), é 2.


Mínimos Quadrados Ponderados (WLS)
  
Var  ui  x , x ,..., x  
 h( x1 , x2 ,..., xk  1 2 k 
)
 


1
 
Var ui x1 , x2 ,..., xk  
 h( x1 , x2 ,..., xk )  2

 
E ui2 x1 , x2 ,..., xk  
1

h( x1 , x2 ,..., xk )  

1
   2 h( x1 , x2 ,..., xk )   2
h( x1 , x2 ,..., xk )
Mínimos Quadrados Ponderados (WLS)
Logo, dividindo (1) por

h ( x1 , x 2 ,..., x k ) , i  1 , 2 , ..., n ,
teremos

y 1 x1
 0   1  
h( x1 , x 2 ,..., x k ) h( x1 , x 2 ,..., x k ) h( x1 , x 2 ,..., x k )
xk ui
 ...   k  
h( x1 , x 2 ,..., x k ) h( x1 , x 2 ,..., x k )

ou,

y*   0 x*0   1 x1*  ...  k x*k  u *


Mínimos Quadrados Ponderados (WLS)

Observações

1) Este último modelo satisfaz às suposições CLM, se o


modelo (1) também as satisfizer, exceto por MLR.5.

2) A interpretação dos parâmetros do modelo deve ser feita a


partir de (1).
Estimadores Robustos (White)

Recentemente, muito se tem desenvolvido com relação ao


ajuste de erros padrões, estatísticas t, F e LM para que os
mesmos se tornem válidos na presença de
heterocedasticidade.

Estes procedimentos são conhecidos como ROBUSTOS pois


são válidos, pelo menos com amostras grandes, sendo ou
não a variância do erro constante.
Estimadores Robustos (White)

Suponhamos o modelo de regressão linear simples

yi =  0 +  1xi + ui

com

Var(ui|xi) = i2 (variância depende da observação i).

Sob MLR.1 a MLR.4:


n

 i
(x  x ) σi
2 2

Var(βˆ1 )  i 1
SQT x2
em que
SQTx =  (xi –x)2.
Estimadores Robustos (White)
Como fazer para encontrar estimadores robustos?
1. Estimar equação original por mínimos quadrados e
calcular os resíduos;
2. Calcular estimador robusto a heterocedasticidade.
n

 ij i uˆ j
( x  x ) 2 2

var( ˆi ) 
j 1

SQT x2i

Em seguida, tirar a raiz quadrada do resultado; este erro-


padrão é chamado de “White standard error”, ou “erro-
padrão robusto a heterocedasticidade segundo White”.
Estimadores Robustos (White)

Observações
1. O erro-padrão robusto pode ser maior ou menor do que o
erro-padrão não robusto (não sabemos se o viés é para cima
ou para baixo);

2. Usando um método de estimação robusto, a estatística de


teste t também será robusta.
Leitura Complementar
Existem vários outros testes formais que nos
auxiliam a detectar problemas de
heteroscedasticidade, entre eles:

• Teste de Park;
• Teste de Goldfeld-Quandt;
• Teste de Glejser;
Teste de Park

Park (1966) formaliza o método gráfico. Ou seja, suponha


que você esteja trabalhando com um modelo de regressão
linear. Sendo esse o caso, o autor sugere que a variância é
função de uma variável explicativa. A forma funcional fica
dada pela expressão, a seguir:

 i
   xi e
i
2 2
Teste de Park

ou

log(  )  log(  )   log( xi )  i


i
2 2

em que
 i – é o termo de erro estocástico.

Como em geral a variável resposta deste modelo proposto


é desconhecida, Park sugere a utilização dos resíduos ao
quadrado, ou seja,

log( ûi2 )  log(  2 )   log( xi )  i     log( xi )  i


Teste de Park

Assim, se  for estatisticamente significativo, podemos


considerar que existe o problema da heteroscedasticidade.

Problema:
Goldfeld e Quandt argumentam que o termo de erro,  i,
pode não atender às suposições usuais, sendo ele próprio
heteroscedástico.
Observação:
A forma funcional específica escolhida por Park é apenas
uma sugestão.
Teste de Goldfeld-Quandt
A idéia básica do teste é verificar se existe diferença entre a
variabilidade dos resíduos localizados nas proximidades do intercepto
e aqueles localizados a uma distância maior. Para mais detalhes, vide
Figura 1, a seguir.
2,50
Parte 1 Parte Central Parte 2

2,00

1,50
Y

1,00

0,50

0,00
0 5 10 15 20 25 30 35
X
Teste de Goldfeld-Quandt

É importante notar que, na figura anterior, estávamos


tratando de uma regressão linear simples. No caso de uma
regressão múltipla, antes de mais nada, é necessário
identificar com qual das variáveis independentes o erro
pode estar relacionado. Dessa forma, o teste de Goldfeld-
Quandt deverá ser realizado utilizando-se cada uma das
variáveis explicativas “suspeitas” por vez.
Teste de Goldfeld-Quandt
Procedimento para a realização do teste:
(a) Ordenar todas as observações de acordo com os
valores da variável explicativa “suspeita” de estar
relacionada com os erros;
(b) Dividir a amostra em três partes, separando, por
exemplo, 25% dos elementos centrais – c. Assim,
teremos (n-c)/2 elementos na primeira e na terceira
parte, conforme ilustrado na Figura 1.
(c) Estimar uma regressão utilizando somente os
elementos da parte 1, e calcular a soma dos quadrados
dos resíduos.
Teste de Goldfeld-Quandt
Procedimento para a realização do teste: (cont.)

(d) Estimar uma regressão utilizando somente os


elementos da parte 2, e calcular a soma dos quadrados
dos resíduos.

(e) Calcular a estatística F = SQRes2/SQRes1, que sob a


hipótese nula (de igualdade das variâncias), tem
distribuição F com (n-c-2k)/2 graus de liberdade no
numerador e no denominador. Aqui, k = número de
parâmetros estimados em cada regressão.
Teste de Goldfeld-Quandt
Observações:
1. Colocar sempre no numerador a soma de quadrados
dos resíduos que for superior.
2. O teste exige amostras relativamente grandes.
3. Pressupõe que a heteroscedasticidade seja decorrente
da relação entre o termo aleatório e alguma(s) das
variáveis explicativas. Existem, porém, outras
possibilidades, tais como a heteroscedasticidade
resultante da utilização de dados agrupados.
4. Não dá indicação sobre a exata relação existente entre
a variável explicativa e o termo aleatório.
Teste de Goldfeld-Quandt
Observações: (cont.)

5. Depende do número de elementos excluídos, ou seja,


do valor de c. Assim, se c for muito grande, sobrarão
poucos graus de liberdade para o cálculo da soma de
quadrados dos resíduos das duas regressões. Por
outro lado, se c for muito pequeno, será difícil captar
as diferenças de variâncias possivelmente existentes.
Teste de Glejser

Glejser (1969) propõe um teste bastante simples de ser


realizado e que, ainda, permite a superação da limitação 4
do teste de Goldfeld-Quandt. Assim, os resultados desse
teste darão indicações sobre o padrão da
heteroscedasticidade.
Teste de Glejser
Procedimento para a realização do teste:
(a) Obtenha os resíduos, ûi, de uma regressão estimada
por MQO.
(b) Estime as seguintes regressões:

1
uˆi   0  1 xi  i uˆi   0  1  i
xi

uˆi   0  1 xi2  i uˆi   0  1 xi  i


Teste de Glejser
Procedimento para a realização do teste: (cont)

ou, em termos gerais:

ui   0  1 xi  i
ˆ h

em que
x – é a variável explicativa com a qual se supõe que
a variância de ui esteja relacionada;
h – qualquer potência selecionada.
Teste de Glejser
Procedimento para a realização do teste: (cont.)
(c) Conduza testes t, que sob a hipótese nula afirmam que
1 = 0.
(d) Os critérios para a realização do teste são os
seguintes:
i. Se 1 = 0, para todas as regressões estimadas 
não existe heteroscedasticidade;
ii. Se 1 ≠ 0 para pelo menos uma das regressões
estimadas  existe heteroscedasticidade.
Teste de Glejser
Observação:
1. Goldfeld e Quandt assinalam que o termo de erro,  i,
apresenta alguns problemas, já que se espera que
tenha valor diferente de zero, esteja correlacionado
serialmente e seja heteroscedástico.
2. Glejser verificou que, para grandes amostras, os
modelos propostos anteriormente apresentam
resultados satisfatórios quanto à detecção da
heteroscedasticidade.

Você também pode gostar