Você está na página 1de 15

ECONOMETRIA II: NOTAS DE AULA1

MULTICOLINEARIDADE (Cap 10: Gujarati e Porter, 2011)2

Violao da hiptese 6 (o nmero de observaes deve ser maior do que


o nmero de parmetros a serem estimados); da hiptese 7 (os regressores
devem variar) e da hiptese 8 (ausncia de colinearidade/multicolinearidade)

10.1 A natureza da multicolinearidade

Originalmente:

Relao (correlao)3 linear exata/perfeita entre algumas ou todas as


variveis explicativas de um modelo de regresso.

Atualmente:

Refere-se correlao entre as variveis explicativas, mas essa


correlao j no to perfeita.

O modelo de Mnimos Quadrados Ordinrios tem como um dos


pressupostos que nenhuma das variveis explicativas uma funo linear das
outras nenhuma varivel redundante. Quando esse pressuposto
violado, o processo de mnimos quadrados falha.

Dados econmicos para estimar relaes econmicas so no-


experimentais (os dados no so resultantes de um experimento planejado).
Quando os dados resultam de um experimento no planejado/no controlado,
muitas das variveis econmicas podem caminhar juntas de modo
sistemtico (variveis colineares).

Na presena de multicolinearidade, no h garantia de que os dados sejam


ricos em informao, nem de que seja possvel isolar as relaes ou
parmetros econmicos de interesse.

Exemplo 1: Estimar o aumento da receita total (RT) de uma dada empresa


decorrente da propaganda em jornais e revistas (jorn) e o aumento da receita
total devido propaganda em panfletos (panf). Suposio: ambas as
propagandas ocorreram simultaneamente.
RTt = 1 + 2jornt + 3panft + ut

1
Estas notas de aula no substituem a leitura do livro.
2
Complementado por Hill; Griffhts; Judge (2010).
3
Correlao: relao mtua entre dois termos.

1
Intuitivamente: dificilmente os dados revelaro os efeitos separados de
cada uma das formas de propaganda. Os dois tipos de despesas caminham
juntas e pode ser difcil selecionar seus efeitos separadamente sobre a
receita total.

Exemplo 2: Seja X2 = renda familiar

X3 = mdia de horas de estudo por dia


X4 = mdia de horas de estudo por semana
X3 e X4 so perfeitamente colineares
X4 = 7X3

Exemplo 3: Ci = 1 + 2rendai + 3riquezai + ui

Pode ocorrer que nos dados obtidos sobre renda e riqueza, as duas variveis
sejam altamente, se no perfeitamente, correlacionadas. Pessoas ricas, em
geral, tm rendas maiores. Renda e riqueza so candidatas bvias para
explicar consumo, mas pode ser difcil isolar as influncias separadas da
renda e da riqueza sobre o consumo. Para avaliarmos os efeitos da riqueza e
da renda sobre o consumo, o ideal seria ter um nmero suficiente de
observaes de indivduos ricos com baixa renda e de indivduos com alta
renda e pouca riqueza.

Exemplo 4:

Sejam os seguintes dados hipotticos


X2 X3 X3*
10 50 52
15 75 75
18 90 97
24 120 129
30 150 152

Nota-se que:
X3 = 5X2 Perfeita colinearidade entre X2 e X3
X3* = 5X2 + vi com vi = {2, 0, 7, 9, 2} Colinearidade menos que exata
ou imperfeita.

2
Abordagem algbrica da multicolinearidade:

No caso de uma regresso com k variveis explicativas, X1, X2, ..., Xk, diz-
se que h uma relao linear exata se:

1X1 + 2X2 + 3X3 + ... + kXk = 0 (10.1.1)

Em que 1, 2, ..., k so constantes, tais que nem todas so simultaneamente


iguais a zero.

Atualmente, multicolinearidade um termo usado num sentido mais amplo,


pois inclui tambm o caso de multicolinearidade no to perfeita.

1X1 + 2X2 + 3X3 + ... + kXk + vi = 0 (10.1.2)

em que vi = termo de erro estocstico e X1 = 1 (intercepto)

Qual a diferena entre multicolinearidade perfeita e a


multicolinearidade menos que perfeita?

Reescrevendo a equao (10.1.1), sendo 2 0

1 3
2 = 1 3 (10.1.3)
2 2 2

X2 tem uma relao linear exata com outras variveis. X2 pode ser derivada
de uma combinao linear de outras variveis X.

Reescrevendo a equao (10.1.2), sendo 2 0:

1 3 1
2 = 1 3 (10.1.4)
2 2 2 2

X2 no uma combinao linear exata de outras variveis X, mas tambm


determinada por um termo de erro estocstico vi.

Abordagem da multicolinearidade via Diagrama de Venn ou Diagrama


de Ballentine

Y = varivel dependente
X2 e X3 so as variveis independentes
Os crculos representam as variaes em cada varivel.

3
possvel entender o grau de multicolinearidade pela extenso da
sobreposio dos crculos.

Figura 10.1: Viso da multicolinearidade segundo o diagrama de Ballentine.

Relaes lineares X relaes no-lineares

A multicolinearidade definida apenas como relaes lineares entre as


variveis X. Ela no descarta relaes no lineares entre elas. Por exemplo,
considere o seguinte modelo de regresso *funo de custo de produo):

Yi = 0 + 1Xi + 2Xi2 + 3Xi3 + ui (10.1.5)

em que Y = custos de produo e X = produo. X2 (produo ao quadrado)


e X3 (produo ao cubo) so funcionalmente relacionadas a Xi, mas a relao
no linear.

Em termos estritos, modelos como a Equao (10.1.5) no violam a hiptese


de no multicolinearidade. Entretanto, em aplicaes concretas, o coeficiente
4
de correlao medido em termos convencionais mostrar Xi, X2i e X3i como
altamente correlacionados, o que, como mostraremos, dificultar a estimao
dos parmetros da Equao (10.1.5) com maior preciso (isto , com erros
padro menores).

Fontes de multicolinearidade:

1) Mtodo utilizado na coleta de dados


2) Restries ao modelo ou populao que est sendo amostrada
3) M especificao do modelo
4) Um modelo sobredeterminado
5) Dados de sries temporais em que as variveis explicativas tm uma
tendncia comum.

10.2 Estimao na presena de multicolinearidade perfeita

Por que o modelo clssico de regresso linear pressupe que no h


multicolinearidade entre os Xs?

Se a multicolinearidade perfeita: os coeficientes das variveis X so


indeterminados e seus erros-padro infinitos. O clculo das estimativas dos
parmetros , matematicamente, impossvel.

Exemplo:
2 2 +
yi = 3 3 + (10.2.1)
2
( 2 )(3 )( 3 )(2 3 )
2 =
2 )( 2 )( )2 (7.4.7)
(2 3 2 3

3 (Equao 7.4.8)
Veja tambm a frmula para estimar

OBS.: o modelo e a frmula esto na forma de desvio.

Suponha que x3i = 2 em que = constante e 0.


0
2 =
Ao resolver, encontra-se que que uma expresso indeterminada.
0

Por que obtemos esse resultado? Lembre-se que 2 nos d a variao do valor
mdio de Y quando X2 varia por unidade, mantendo X3 constante. Mas se X2
e X3 so perfeitamente colineares, no h como manter X3 constante.
medida que X2 muda, X3 tambm muda pelo fator .

5
O que isto significa? No h como distinguir as influncias de X2 e X3 de
uma forma separada na amostra dada: X2 e X3 so indistinguveis.

Esse problema grave em econometria? Sim, pois o que queremos isolar


os efeitos parciais de cada X sobre a varivel dependente.

10.3 Estimao na presena de multicolinearidade alta, mas


imperfeita

Multicolinearidade perfeita um caso extremo. Em geral, no h relao


linear exata entre as variveis X. Um caso intermedirio ocorre quando se
tem multicolinearidade imperfeita.

Voltando ao modelo de trs variveis no formato de desvio dado na Equao


(10.2.1):

2 2 +
yi = 3 3 + (10.2.1)

em vez da multicolinearidade exata, podemos ter:

3 = 2 + (10.3.1) em que 0 e vi um termo de erro estocstico.

2 (Veja resultado da equao 10.3.2), mas se o termo


possvel estimar
aleatrio for muito pequeno (muito prximo de zero), retornamos ao
problema de indeterminao.

E se a multicolinearidade menos que perfeita?

Os coeficientes de regresso das variveis X, embora determinados possuem


erros padro grandes (em relao aos prprios coeficientes), o que significa
que os coeficientes no podem ser estimados com grande preciso ou
exatido.

Resumindo:

Quando h forte relao entre as variveis em uma amostra, h


dificuldade de isolar os efeitos separados de variveis explicativas
individuais em um modelo.

Similarmente, quando os valores de uma varivel explicativa no variam


muito dentro da amostra de dados, ou seja, quando uma varivel explicativa
apresenta pequena variao, difcil isolar seu impacto.

6
Portanto:

Quanto maior a variao em uma varivel explicativa, maior a preciso


com que podemos estimar seu coeficiente.

Ausncia de variao leva a uma impreciso do estimador.

10.4 Multicolinearidade: muito barulho por nada?

Sob multicolinearidade imperfeita, os estimadores de MQO so melhor


estimador linear no tendencioso (MELNT), mas com erros padro altos.
** Melhor porque tem varincia mnima, o que no quer dizer que a varincia
pequena.

Dois problemas relacionados amostra:

Multicolinearidade: situao em que ocorre uma relao perfeita ou quase


perfeita entre as variveis explicativas.

Micronumerosidade: poucas observaes; tem relao com o tamanho da


amostra.

Micronumerosidade exata: quando o nmero de observaes igual a zero.


No possvel obter as estimativas dos parmetros.

Quase numerosidade: quando o nmero de observaes mal excede o


nmero de parmetros a serem estimados.

A multicolinearidade um fenmeno amostral (da regresso) no sentido de


que, mesmo que as variveis explicativas (X) no estejam relacionadas
linearmente na populao, elas podem estar relacionadas na amostra.

10.5 Consequncias prticas da multicolinearidade

1. Estimadores de MQO so MELNT, mas com grandes varincias,


dificultando a preciso da estimativa.

A velocidade com a qual as varincias e covarincias aumentam pode ser


obtida pelo Fator de Inflao da varincia (FIV) ou da Tolerncia (TOL)
1
= (10.5.1)
(1 2 )

7
1
TOL = (10.5.5)

O FIV mostra como a varincia de um estimador inflada pela presena


de multicolinearidade. Quando R2 se aproxima de 1, o FIV se aproxima
do infinito.

Se R2 = 0,2 FIV = 1/0,8 = 1,25


Se R2 = 0,9 FIV = 1/0,1 = 10
Se R2 = 0,99 FIV = 1/0,01 = 100

OBS.: O FIV pode ser utilizado para calcular a varincia de uma


estimativa de um parmetro:

2 1
( ) = ( )
2 1 2

Se R2 = 1 multicolinearidade perfeita; se R2 = 0 no h
multicolinearidade.

2. Com varincias e covarincias grandes, os intervalos de confiana


tendem a aumentar, levando aceitao da hiptese nula de que o
verdadeiro coeficiente zero.

Lembre que a frmula do intervalo de confiana :

/2 ( ) = 1
IC =

Assim, quanto maior o erro padro (ep), maior a amplitude do intervalo


de confiana.

3. Conforme (1) e (2) a razo t ( = /( ) de um ou mais


coeficientes tende a ser estatisticamente no significativo.

4. Embora a razo t de um ou mais coeficientes seja estatisticamente no


significativa, R2, a medida geral da qualidade do ajustamento pode ser
muito alto.

5. Os estimadores de MQO e seus erros-padro podem ser sensveis a


pequenas alteraes nos dados (veja exemplos das tabelas 10.3 e 10.4)

8
10.6 Um exemplo ilustrativo

Consumo (Y) em funo da renda (X2) e da riqueza (X3)

Yi = 1 + 2X2i + 3X3i + ui

Renda e riqueza so duas variveis altamente, se no perfeitamente


correlacionadas.

Veja os dados da Tabela 10.5 e os resultados da estimao, conforme


equao (10.6.1)

= 24,7747 + 0,94152 0,04243


(10.6.1)
ep (6,7525) (0,8229) (0,0807)
t (3,6690) (1,1442) (-0,5261)

R2 = 0,9635 F = 92,4019

N = 10 gl = 7 Tcrtico = 2,365 Fcrtico = F2,7,5% = 4,74

Quando temos um teste F significativo, mas com valores t de X 2 e X3


individualmente no significativos, isso um indcio de que as duas variveis
esto to correlacionadas que impossvel identificar o impacto individual
da renda ou da riqueza sobre o consumo.

A regresso (10.6.1) mostra que renda e riqueza juntas explicam cerca de


96% da variao na despesa de consumo e nenhum dos coeficientes
angulares , individualmente, estatisticamente significativo. Alm disso, a
varivel riqueza no s estatisticamente insignificante, mas tambm tem o
sinal errado. A priori, pode-se esperar uma relao positiva entre consumo e
riqueza. Embora os coeficientes sejam individualmente insignificantes, do
ponto de vista estatstico, se testarmos a hiptese de que 2 = 3 = 0
simultaneamente, essa hiptese poder ser rejeitada (Veja o resultado do
teste F, altamente significativo).

Exemplo do que a multicolinearidade faz:

1) Test F significativo
2) Razes t individualmente no significativas para X2 e X3
3) O parmetro de X3 (riqueza) tem o sinal contrrio ao esperado

Agora veja os resultados de trs regresses:

9
Primeira: vamos regredir X3 contra X2 (riqueza contra a renda)

3 = 7,545 + 10,1912
(10.6.3)
T (0,256) (62,04)
2
R = 0,9979

Aqui h uma colinearidade quase perfeita entre X2 e X3.

Segunda: regredindo Y contra X2 (Consumo contra renda)

= 24,454 + 0,5092 (10.6.4)


t (3,8128) (14,2432)

R2 = 0,9621

Agora a varivel renda passa a ser significante, enquanto na equao (10.6.1)


ela era no significativa estatisticamente.

Terceira regresso: regredindo Y contra X3 (Consumo contra riqueza)

= 24,41 + 0,04983 (10.6.5)


t (3,551) (13,29)

R2 = 0,9567

Veja tambm que a riqueza tem um impacto significativo na despesa com


consumo, enquanto na equao (10.6.1) no.

Concluso: as equaes (10.6.4) e (10.6.5.) mostram que excluir a varivel


altamente colinear contribui para tornar a outra varivel estatisticamente
significativa.

Com colinearidade alta, os testes dos regressores individuais no so


confiveis.

Agora vamos considerar um conjunto concreto de dados sobre gastos reais


de consumo (C), renda pessoal real disponvel (Yd), riqueza real (W) e taxa
de juros real (I) para os Estados Unidos, no perodo de 1947-2000. Os
dados brutos so apresentados na Tabela 10.7.

lnCt = 1 + 2lnYdt + 3lnWt + 4It + ut (10.6.6.)

10
= 0,467711 + 0,804873 + 0,201270 0,002689

t (-10,93343) (45,99836) (11,44060) (-3,529265)


p (0,0000) (0,0000) (0,0000) (0,0009)

N = 54 R2 = 0,99956 F = 37.832,59 Prob F = 0,0000

Os resultados mostram que todos os coeficientes estimados so altamente


significativos, do ponto de vista estatstico, pois seus valores p so
extremamente pequenos. Os coeficientes estimados so interpretados como
segue. A elasticidade da renda aproximadamente 0,80, sugerindo que,
mantendo as outras variveis constantes, se a renda sobe em 1%, os gastos
mdios de consumo sobem cerca de 0,8%. O coeficiente de riqueza
aproximadamente 0,20, o que significa que, se a riqueza sobe em 1%, o
consumo mdio sobe apenas 0,2%, novamente mantendo-se as demais
variveis constantes. O coeficiente da varivel taxa de juros diz que, quando
esta sobe em um ponto percentual, a despesa de consumo cai em 0,26%,
ceteris paribus.

Todos os regressores tm sinais que atendem s expectativas anteriores, isto


, renda e riqueza tm ambas um impacto positivo no consumo, mas a taxa
de juros tem impacto negativo.

Todos os coeficientes so significativos; os sinais dos coeficientes estimados


esto corretos e R2 alto. Aparentemente no h porque se preocupar com a
multicolinearidade neste exemplo. Tudo o que podemos afirmar que se
houver, ela no alta.

10.7 Deteco da multicolinearidade

Kmenta afirma:

Multicolinearidade uma questo de grau


O problema no ausncia versus presena de multicolinearidade, mas
o seu grau
uma caracterstica da amostra
No se faz teste de multicolinearidade, mas sim teste para medir seu
grau

11
Regras para detectar multicolinearidade (no h um mtodo nico):

1.R2 alto, mas com poucas razes t significativas

Geralmente R2 > 0,8, mesmo com teste F significativo. Este o sintoma


clssico da multicolinearidade.

2. Altas correlaes entre pares de regressores

Se o coeficiente de correlao maior que 0,8, possvel que a


multicolinearidade seja um problema srio.

Altas correlaes de ordem zero so condio suficiente, mas no necessria,


para a existncia da multicolinearidade, porque ela pode existir embora as
correlaes de ordem zero ou simples sejam comparativamente baixas (por
exemplo, menores que 0,50).

OBS.: correlaes de ordem zero = correlaes simples.

3.Exame das correlaes parciais: se o coeficiente de correlao entre a


varivel dependente e as independentes alto, mas as correlaes parciais
entre a varivel dependente e cada varivel independente so baixos, pode
indicar que uma dessas variveis suprflua.

4.Regressoes auxiliares (entre variveis explicativas). Ver a Regra de Klein.

Uma vez que a multicolinearidade surge, porque um ou mais regressores so


combinaes lineares aproximadas ou exatas dos outros regressores, uma
forma de descobrir qual varivel X est relacionada a outras variveis X
fazer a regresso de cada Xi contra as demais variveis X e calcular o R2
correspondente, que designamos como R2i; cada uma dessas regresses
chamada regresso auxiliar, auxiliar em relao principal regresso de Y
contra os X.

Ver o teste F da equao (10.7.3). Se F calculado > Fcrtico, no nvel de


significncia escolhido, considera-se que o Xi colinear com os outros X; se
no exceder o Fi crtico, diremos que no colinear aos outros X e, neste
caso, mantemos a varivel no modelo. Se Fi for estatisticamente
significativo, ainda teremos de decidir se o Xi em questo deve ser excludo
do modelo.

Outra forma mais simples aplicar a Regra de Klein: que sugere que a
multicolinearidade s ser um problema complicado se o R2 obtido de uma

12
regresso auxiliar for maior que o R2 geral, aquele obtido da regresso de Y
contra todos os regressores.

5.Autovalores e ndice condicional (IC)

Autovalores: valores obtidos por meio de softwares; a lgebra deste


conceito est fora do escopo do livro; o autovalor obtido da matriz (XX).

A partir dos autovalores, obtm-se o nmero condicional (K)


= =

Regra: se IC > 30 indcios de multicolinearidade grave


Se 10 IC 30 a multicolinearidade moderada a grave

Se 100 K 1000 Multicolinearidade moderada a forte


Se K > 1000 Multicolinearidade grave

Exemplo: se K = 49,53 ou IC = 7,04, tanto pelo nmero condicional como


pelo ndice condicional, no temos problema srio de multicolinearidade.

6.Tolerncia (TOL) e Fator de Inflao da Varincia (FIV)

Quanto maior o FIV, maior a colinearidade da varivel. Regra prtica: se o


FIV de uma varivel maior do que 10 (o que ocorre se R2j > 0,9), essa
varivel considerada altamente colinear. Exemplo:

Fator de inflao da varincia


Variveis VIF 1/VIF
Renda agrcola 5,40 0,185041
Gini 1,07 0,932037
Escolaridade 4,38 0,228252
Renda no trabalho 1,27 0,787108
Permanente 1,56 0,641269
Mdia do VIF 2,74
Fonte: Elaborao prpria com base nos dados da PNAD.

13
TOL = 1/FIV = 1/(1-R2j)

Regra para TOL: quanto mais prximo de zero, maior o grau de


multicolinearidade da varivel X com os demais regressores. Quanto mais
prximo de 1, maior a evidencia de que X no colinear com outros
regressores.

7.Diagrarma de disperso

Fig 10.4 (Diagrama de disperso com base nos dados do exemplo 10.2)

Os campos fora da diagonal principal mostram as intercorrelaes entre as


variveis. Veja que riqueza (W) e renda (Yd) so altamente correlacionadas.
J a taxa de juros (I) no est correlacionada com as outras trs variveis.

10.8 Medidas corretivas

No fazer nada: a multicolinearidade um problema de deficincia dos


dados e s vezes no temos escolha sobre os dados disponveis para anlise
emprica.

14
Ou seguir alguns procedimentos prticos:

1.Informao a priori

2.Combinar dados de corte transversal e de sries temporais (dados em


painel): fornecem dados mais informativos e menos colinearidade

3.Excluso de uma variveis (ou das variveis) e vis de especificao

4. Transformao das variveis: primeira diferena; transformao


proporcional

5.Dados adicionais ou novos: aumentar o tamanho da amostra (se possvel);


aumentar o nmero de variveis

Veja o exemplo das equaes (10.8.8) e (10.8.9), quando aumenta o tamanho


da amostra, os sinais passam a ficar corretos e os coeficientes significativos.

6.Reduzindo a colinearidade nas regresses polinomiais4: neste caso h


dificuldade para estimar de forma precisa os coeficientes angulares.
Verificou-se que se essas variveis forem usadas na forma de desvios em
relao mdia, a multicolinearidade se reduz.

7. Outros mtodos: Anlise de Fator; Componentes Principais

10.9 A multicolinearidade uma mal necessrio?

Se o nico propsito da anlise de regresso for a previso ou o


prognstico, a multicolinearidade no um problema grave, porque, quanto
mais alto for o R2, melhor a previso

Mas se o objetivo da anlise no for apenas a previso, mas tambm a


estimao confivel dos parmetros, uma multicolinearidade acentuada ser
um problema, porque vimos que isso leva a erros padro maiores dos
estimadores

Quando a multicolinearidade no um problema? Quando R2 alto e os


coeficientes de regresso so individual, ente significativos.

Ver exemplo 10.10

4
Quando a varivel independente aparece com vrios expoentes.

15