Você está na página 1de 14

Sensibilidade dos estimadores de MQO e de seus erros padro a pequenas variaes nos dados

Contanto que a multicolinearidade no seja perfeita, possvel Dados hipotticos


Modelo 1 Y 1 2 3 4 5 X2 2 0 4 6 8 X3 4 2 12 0 16 Y 1 2 3 4 5 Modelo 2 X2 2 0 4 6 8 X3 4 2 0 12 16

SUMMARY OUTPUT (Modelo 1) Regression Statistics Multiple R R Square Adjusted R Square Standard Error Observations ANOVA df Regression Residual Total 2 2 4 Coefficients 1.193902439 0.446341463 0.00304878 SS 8.101219512 1.898780488 10 Standard Error 0.773678855 0.184810424 0.085065893 t Stat 1.543149889 2.415131425 0.035840222 P-value 0.262764835 0.137060016 0.97466527 MS 4.050609756 0.949390244 F 4.266538215 0.900067748 0.810121951 0.620243902 0.974366586 5

Intercept x2 x3

SUMMARY OUTPUT (Modelo 2) Regression Statistics

Multiple R R Square Adjusted R Square Standard Error Observations ANOVA

0.902399205 0.814324324 0.628648649 0.963523938 5

df Regression Residual Total 2 2 4

SS 8.143243243 1.856756757 10 Standard Error 0.748021496 0.272064987 0.125228061

MS 4.071621622 0.928378378

F 4.38573508

Intercept X2 X3

Coefficients 1.210810811 0.401351351 0.027027027

t Stat 1.618684514 1.475203978 0.215822451

P-value 0.246931182 0.278128264 0.849137143

No modelo 1 nenhum dos coeficientes de regresso , individualmente, significativo em nveis de significncia convencionais de 1% ou 5%, embora 2 estimado seja significativo com base no teste t unicaudal. No modelo 2, 2 estimado j no significativo mesmo ao nvel de 10%.
Regression Statistics (Modelo 1) Multiple R 0.552344771 R Square 0.305084746 Adjusted R Square 0.073446328 Standard Error 3.043934415 Observations ANOVA df Regression Residual Total 1 3 4 SS 12.20338983 27.79661017 40 Standard Error 2.030364161 0.221530892 MS 12.20338983 9.265536723 F 1.317073171 5

Intercept X3

Coefficients 2.271186441 0.254237288

t Stat 1.118610387 1.147638084

P-value 0.344803701 0.334339092

Regression Statistics (Modelo 2) Multiple R 0.828517156 R Square 0.686440678 Adjusted R Square 0.581920904 Standard Error 2.044698257 Observations ANOVA df Regression Residual Total 1 3 4 SS 27.45762712 12.54237288 40 Standard Error 1.363853978 0.148808669 MS 27.457627 4.180791 F 6.567567568 5

Intercept X3

Coefficients 1.406779661 0.381355932

t Stat 1.0314738 2.5627266

P-value 0.378191608 0.083016775

O aumento do R Mltiplo no modelo 2 revela um aumento da multicolinearidade. Os erros padres de 2 e 3 aumentam entre as duas regresses, um sintoma comum de colinearidade. Note-se que na presena de alta colinearidade, no podemos estimar os coeficientes individuais de regresso precisamente, mas as suas combinaes lineares podem ser estimadas mais precisamente. No modelo 1, os erros padro so praticamente iguais, 0,1550 contra 0,1823 do Modelo 2. Exemplo Ilustrativo: Consumo, Renda e Riqueza
Y, US$ 70 65 90 95 110 115 120 140 155 150 X2, US$ 80 100 120 140 160 180 200 220 240 260 X3, US$ 810 1009 1273 1425 1633 1876 2052 2201 2435 2686

Os resultados do modelo de Regresso constam da tabela abaixo:


SUMMARY OUTPUT Regression Statistics Multiple R 0.981582597 R Square 0.963504395 Adjusted R Square 0.95307708 Standard Error 6.80804069 Observations ANOVA Regression Residual Total df 2 7 9 SS 8565.554074 324.4459263 8890 Standard Error 6.7524996 0.822898263 0.080664483 MS 4282.777 46.349418 F 92.401959 10

Intercept X2, US$ X3, US$

Coefficients 24.77473327 0.941537342 -0.04243453

t Stat 3.6689722 1.1441722 -0.5260621

P-value 0.0079751 0.2901647 0.6150945

A regresso mostra que a renda e riqueza, juntas explicam cerca de 96,35% da variao no consumo, no entanto, nenhum dos coeficientes de inclinao , individualmente, estatisticamente significativo. Alm disso, a varivel riqueza no s estatisticamente insignificante, como tambm tem um sinal errado. A priori, esperaramos uma relao positiva entre consumo e riqueza. Embora 2 e 3 estimado individualmente sejam estatisticamente insignificantes, se testarmos a hiptese 2 = 3 = 0 simultaneamente, essa hiptese pode ser rejeitada como mostra o quadro acima. O F observado igual a 92,4019. Este valor altamente significativo. Alm desta abordagem podemos construir os intervalos de confiana para 2 e 3. Cada intervalo individual de estimado contm o valor zero. Podemos no rejeitar a hiptese ( 2 = 3 = 0). As duas inclinaes parciais so zero.

O exemplo dado evidencia uma amostra dramtica da presena de multicolinearidade. O facto do teste F ser significativo, porm os valores t de X2 e X3 serem individualmente insignificantes, indica que as duas variveis so to altamente correlacionadas que impossvel isolar o efeito sobre o consumo tanto da renda quanto da riqueza. Agora podemos calcular as regresses parciais de X3 sobre X2 e obtm-se:
SUMMARY OUTPUT Regression Statistics Multiple R 0.998962392 R Square 0.99792586 Adjusted R Square 0.997666593 Standard Error 29.83972337 Observations ANOVA df Regression Residual Total 1 8 9 SS 3427202.727 7123.272727 3434326 Standard Error 29.47581069 0.164262271 MS 3427202.727 890.4090909 F 3849.0204 10

Intercept X2, US$

Coefficients 7.545454545 10.19090909

t Stat 0.255988024 62.04047363

P-value 0.8044195 5.065E-12

De acordo com a tabela, existe uma quase perfeita colinearidade entre X 3 e X2. Se calcularmos Y sobre X2 obtm-se os seguintes resultados:
SUMMARY OUTPUT Regression Statistics Multiple R 0.980847369 R Square 0.96206156 Adjusted R Square 0.957319256 Standard Error 6.493003227 Observations 10

ANOVA df Regression Residual Total 1 8 9 SS 8552.727273 337.2727273 8890 Standard Error 6.413817299 0.035742806 MS 8552.727273 42.15909091 F 202.8679245

Intercept X2, US$

Coefficients 24.45454545 0.509090909

t Stat 3.812791091 14.24317115

P-value 0.005142172 5.75275E-07

A varivel renda era estatisticamente insignificante, enquanto agora altamente significativa. Se, em vez de calcularmos a regresso de Y sobre X2, regredimos sobre X3, obteremos:
SUMMARY OUTPUT Regression Statistics Multiple R 0.978099708 R Square 0.956679039 Adjusted R Square 0.951263919 Standard Error 6.93832963 Observations ANOVA df Regression Residual Total 1 8 9 SS 8504.876656 385.1233444 8890 Standard Error 6.87409684 0.003743986 MS 8504.876656 48.14041805 F 176.66811 10

Intercept X3, US$

Coefficients 24.41104485 0.049763767

t Stat 3.551163944 13.29165564

P-value 0.0074967 9.802E-07

Note que nas duas tabelas sobre regresses de Y sobre os X`s mostram claramente que, em situaes de multicolinearidade extrema, omitir uma varivel altamente colinear muitas vezes

tornar a outra varivel X estatisticamente significativa. Este resultado sugeriria que uma sada para a colinearidade extrema omitir a varivel colinear. Deteco da Multicolinearidade Existem regras prticas, algumas formais e outras informais: 1. Alto R2, porm poucas razes t significativas (em excesso de 0,8). Embora este diagnstico seja sensato, sua desvantagem que ele muito forte por que a multicolinearidade considerada prejudicial somente quando todas as influncias das variveis explicativas sobre Y no podem ser separadas. 2. Altas correlaes dois a dois entre os regressores (em excesso de 0,8), ento a multicolinearidade se constituem um srio problema. altas correlaes de ordem zero so condio suficiente, mas no necessria, para existncia da multicolinaridade, pois ela pode existir mesmo que as correlaes simples ou de ordem zero sejam relativamente baixas (digamos, menores que 0,5). Em modelos que envolvam mais de duas variveis explicativas, a correlao simples ou de ordem no nos dar um indcio infalvel da presena de multicolinearidade. Naturalmente, se houver somente duas variveis explicativas, as correlaes de ordem zero sero suficientes. 3. Exames das correlaes parciais. 4. Regresses auxiliares como a multicolinearidade se manifesta porque um ou mais regressores so combinaes lineares exactas ou aproximadas de outros regressores, um meio de descobrir qual varivel X se relaciona com outras variveis X regredir cada X i sobre as demais variveis e calcular o R2 correspondente, que designaremos por Ri2. em vez de testar formalmente todos os R2 auxiliares, podemos adoptar a regra prtica de Klein, que sugere que a multicolineraidade pode ser um problema incmodo somente se o R2 obtido de uma regresso auxiliar for maior que o R2 Global, ou seja, o obtido de uma regresso de Y sobre todos os regressores. 5. Autovalores e ndice de Condio

K =

AutovalorMaximo AutovalorMnimo

O ndice de Condio definido pela relao:


IC = AutovalorMximo = AutovalorMnimo K

Regra prtica: Se K estiver entre 100 e 1000, h multicolinearidade de moderada a forte; se exceder 100, h multicolinearidade grave. Alternativamente se IC se situar entre 10 e 30, h multicolinearidade de moderada a forte; se exceder 30, h multicolinearidade grave. 6. Tolerncia (TOL) e Factor Inflao da Varincia (FIV) Var(j) =
2
* 1 1 R2

x
2

2 j

Var(j) =

2 j

* FIV j

Onde j o coeficiente de regresso (parcial) do X j, Rj2 R2 na regresso (auxiliares) de Xj sobre os demais (k-2) regressores FIV o factor inflao da varincia. Regra prtica: se o FIV de uma varivel exceder 10 (isto ocorrer se R 2j exceder 0,90), diz-se que essa varivel altamente colinear. Medida de Tolerncia (TOL) TOLj = (1 R2j) =(1/FIVj) Claramente TOL = 1 se Xj no tem correlao com os outros regressores, enquanto ser zero se Xj se relacionar perfeitamente co outros regressores. Medidas Correctivas

Existem algumas regras prticas cujo sucesso depende da gravidade da colinearidade existente: 1. Informao Priori 2. Combinando dados de corte e sries temporais. Exerccio 10.25 3. Eliminao de uma varivel (ou variveis) e vis de especificao: quando nos deparamos com multicolinearidade grave, umas das coisas simples a fazer eliminar uma das variveis colineares. Assim no exemplo de consumo-renda-riqueza, quando suprimimos a varivel riqueza, obtemos uma regresso que mostra que, enquanto no modelo original a varivel renda era estatisticamente insignificante, agora altamente significativa. Enquanto a multicolinearidade pode impedir a estimativa precisa dos parmetros do modelo, omitir uma varivel pode nos enganar seriamente no que diz respeito aos verdadeiros valores dos parmetros. Lembre-se que os estimadores de MQO so BLUE apesar da quase-colinearidade. 4. Transformao das variveis Se a relao Yt = 1 + 2 X 2t + 3 X 3t + u t , for vlida no instante t, deve ser vlida tambm no instante t-1, porque de qualquer forma a origem do tempo arbitrria. Logo temos:
Yt 1 = 1 + 2 X 2 ,t 1 + 3 X 3,t 1 + u t 1 , se subtrairmos as duas equaes, obteremos:

Yt Yt 1 = 2 ( X 2 t X 2,t 1 ) + 3 ( X 3t X 3,t 1 ) + v t em que = ut ut-1. Esta equao

conhecida como forma de primeira diferena, porque rodamos a regresso no sobre as variveis originais, mas sobre as diferenas dos sucessivos valores das variveis. Este modelo pode no ser vivel em dados de corte. 5. Dados adicionais ou novos A multicolinearidade uma caracterstica da amostra. Esporadicamente, simplesmente aumentando-se o tamanho da amostra (se for possvel) pode-se atenuar o problema da colinearidade. Por exemplo, no modelo de trs variveis, vimos que

var(2 ) =

2 ) x 22i (1 r23

, assim, conforme aumenta o tamanho da amostra, x22i,

geralmente aumentar. Como exemplo considere a seguinte regresso de consumo Y sobre a renda X2 e a riqueza X3 com base em 10 observaes:
Yi = 24,377 + 0,8716 X 2i 0,0349 X 3i

(3,875) (2,7726)

(-1,1595)

R2 = 0,9682

O coeficiente da riqueza nessa regresso no somente tem o sinal errado, como tambm estatisticamente insignificante ao nvel de 5%. Mas quando aumenta-se o tamanho da amostra para 40 observaes obtm-se os seguintes dados:
Yi = 2,0907 + 0,7299 X 2i + 0,0605 X 3i

(0,8713) (6,0014)

(2,0014)

R2 = 0,9672

Agora o coeficiente de riqueza no somente tem o sinal correcto, como tambm estatisticamente significativo em nvel de 5%. 6. Reduzindo a colinearidade nas regresses polinomiais 7. Tcnicas estatsticas multivariadas, como anlise factorial e componentes principais

Exerccios: Multicolinearidade 1. Em dados envolvendo sries temporais econmicas, como PNB, oferta Monetria, preos, renda, desemprego, etc, geralmente suspeitamos da presena da multicolinearidade. Por qu? 2. Suponha que no modelo Yt = 1 + 2 X 2i + 3 X 3i + u i R23, o coeficiente de correlao entre X2 e X3, seja zero. Por isso, algum sugere que voc rode as seguintes regresses:
Yi = 1 + 2 X 2i + u1i Yi = 1 + 3 X 3i + u 2i

a) 2 = 2 e 2 = 3 ? Por qu? b) 1 igual a 1 ou 1 ou alguma combinao disso? c)


var2 = var(2 ) ou var3 = var( 3 )

3. Veja o exemplo ilustrativo do exerccio em que ajustamos a funo de Cobb-Douglas ao sector industrial de Taiwan. Os resultados da regresso mostram que os coeficientes de trabalho e de capital so, individualmente, estatisticamente significativos. a. Verifique se as variveis trabalho e capital so altamente correlacionadas. b. Caso a sua resposta em (a) seja afirmativa, voc suprimiria do modelo, digamos, a varivel trabalho e regrediria a varivel produto somente sobre o capital? c. Se voc fizer isso, que tipo de vis de especificao est cometendo? Descubra a natureza deste vis.

4. Diga, expondo a razo, se os enunciados a seguir so verdadeiros, falsos, ou incertos: a. Apesar da perfeita multicolinearidade, os estimadores de MQO so MELNV (BLUE). b. Nos casos de alta multicolinearidade, no possvel avaliar a significncia individual de um ou mais coeficientes de regresso parcial c. Se uma regresso auxiliar mostra que um determinado R2 alto, h uma clara evidncia de alta colinearidade. d. Correlao par a par alta no sugere que haja multicolinearidade alta e. A multicolinearidade no prejudicial se o objectivo da anlise for somente a previso do modelo. f. Tudo o mais constante, quanto mais alto o FIV, maiores as varincias dos estimadores de MQO. g. A tolerncia (TOL) mede melhor a multicolinearidade do que o FIV. h. Voc no obter um valor alto de R 2 em uma regresso mltipla se todos os coeficientes de inclinao parcial forem, individualmente, estatisticamente insignificantes segundo o teste t usual. i. Na regresso de Y sobre X2 e X3; suponha que haja pouca variabilidade nos valores de X3: Isto aumenta a var (3). 5. Considere o seguinte modelo:
PNBt = 1 + 2 M + 3 M t 1 + 4 ( M t M t 1 ) + u t

Em que PNBt = PNB no instante t, Mt = oferta monetria no instante t, Mt-1 = oferta monetria no instante t-1 e (Mt - Mt-1) = variao na oferta monetria entre os instantes t e t-1. Este modelo postula assim que o nvel do PNB na poca t uma da funo da oferta monetria nos instantes t e t-1, bem como da variao na oferta monetria entre estes perodos.

a) Supondo que voc tenha os dados para estimar o modelo anterior, voc conseguiria estimar todos os coeficientes desse modelo? Justifique. b) Em caso negativo, quais coeficientes podem ser estimados? c) Suponha que o termo 3Mt-1 esteja ausente do Modelo. Sua resposta em a) seria a mesma? d) Repita c), supondo que o termo 2Mt, esteja ausente do modelo. 6. Com base nos dados anuais do sector industrial dos EUA no perodo 1899-1922, Dougherty obteve os seguintes resultados de regresso:
log Y = 2.81 0.53 log K +0.91 log L +0.047t

ep

(1.38) (0.34)

(0.14)

(0.021)

R2 = 0.97 F = 189.9

com Y = ndice do produto real, K = ndice do capital, L = ndice do trabalho real e t = tempo ou tendncia. Usando os mesmos dados, ele obteve tambm a seguinte regresso:
log Y / L = 0.11 + 0.11 log( K / L) + 0.06t

ep

(0.03) (0.15)

(0.006)

R2 = 0.65 F = 19.5

a) H multicolinearidade na regresso1)? Como voc sabe? b) Na regresso 1), qual de principio o sinal do logK? Os resultados esto de acordo com suas expectativas? Justifique c) Como voc justificaria a forma funcional da regresso 1)? d) Interprete a regresso 1. Qual o papel da varivel de tendncia nesta regresso? e) Qual a lgica por trs da estimativa da regresso 2? f) Se havia multicolinearidade na regresso 1, ela foi reduzida pela regresso 2? Justifique.

7. Diga se as seguintes afirmaes so verdadeiras, falsas ou incertas, expondo resumidamente o motivo: a. Na presena de heteroscedasticidade, os estimadores de MQO so viesados e ineficiente? b. Se a heteroscedasticidade estiver presente, os testes F e t convencionais no tm validade. c. Na presena de heteroscedasticidade, o mtodo usual de MQO sempre superestima os erros-padres dos estimadores; d. No h um teste geral para heteroscedasticidade