Você está na página 1de 24

ANLISE DE REGRESSO

1 - Introduo........................................................................................................................................................2 2 - Exemplos de previso:....................................................................................................................................2 3 - Natureza dos dados..........................................................................................................................................3 4 - Causalidade.....................................................................................................................................................3 5 - Regresso Simples...........................................................................................................................................4 6. Inferncia no modelo de regresso...................................................................................................................7 7. Regresso Mltipla.........................................................................................................................................11 8 - multicolinearidade.........................................................................................................................................16 9 - Heterocedasticidade.......................................................................................................................................21 10 - Autocorrelao Dos Resduos.....................................................................................................................23

Anlise de Regresso - Prof. Fernanda Queiroz

Anlise de Regresso Prof. Dra. Fernanda C.B. Pereira Queiroz

www.ipeadata.gov.br www.fgvdados.com.br
1 - Introduo A anlise de regresso tem trs funes relacionadas:

testar teorias. Por exemplo, o consumo diretamente relacionado com a renda? A quantidade demandada de um bem inversamente relacionada com o seu preo? estimar relaes entre variveis. Por exemplo, o responsvel pela poltica econmica necessita ter uma estimativa precisa da relao entre taxa de juros e inflao a fim de determinar o novo valor dos juros na reunio do COPOM. Projetar eventos. Qual ser o consumo de carne nos prximos anos? Qual ser a demanda de carros no prximo ano?

O produto final deste estudo um Modelo cuja construo efetuada com a utilizao:

da teoria da matemtica de mtodos estatsticos e com anlise crtica

Ns expressamos nossas idias sobre relaes entre variveis econmicas, utilizando o conceito matemtico de funo. Por exemplo, para expressarmos uma relao entre renda i e consumo c, podemos escrever C = f(i) A demanda para um bem individual, digamos um carro Renault Clio pode ser expressa como

q d = f ( p, p s , p c , i)
A quantidade demandada de Clios, qd, uma funo do preo do Clio p, do preo de carros que so substitutos ps e do preo de itens que so complementares pc, como gasolina e o nvel de renda i. 2 - Exemplos de previso:

Os plantadores de arroz de Mato Grosso decidem estimar a quantidade produzida com base na rea plantada e na quantidade de fertilizante utilizada.

Anlise de Regresso - Prof. Fernanda Queiroz

Uma universidade precisa estimar quanto as matrculas cairo se a taxa for elevada 10% por semestre e, portanto, se a receita proveniente desta taxa subir ou cair. Uma empresa precisa estimar, no momento em que ela avalia quanto investir em uma nova fbrica e em equipamentos, a demanda de copos descartveis que haver daqui h 3 anos. Um empresrio deve prever em quanto a populao e a renda aumentaro nos prximos anos em Natal e se ser lucrativo implantar um empreendimento comercial (Rener / Lojas Americanas / Pernambucanas).

3 - Natureza dos dados Dados seccionais ou de corte (Dados de indivduos observados em um determinado instante de tempo) Altura de indivduos selecionados aleatoriamente (amostra aleatria) em um determinado instante de tempo. PIB dos pases latino-americanos no primeiro trimestre de 2010 Arrecadao dos municpios do RN em 2010 Sries temporais (conjunto de dados seqenciais observados em intervalos de tempo) Retornos dirios do IBOVESPA. Taxa de desemprego mensal.

4 - Causalidade Um dos objetivos de todo tipo de explicao estabelecer as causas dos fenmenos observados no tempo e espao: Quais as causas do desemprego? Quais as causas das desigualdades sociais?

A noo de causalidade est intimamente associada possibilidade de uma varivel gerar mudanas em outra varivel. A anlise de regresso estuda a relao causal entre uma varivel econmica a ser explicada (varivel dependente y) e uma ou mais variveis independentes ou explicativas (X).

Anlise de Regresso - Prof. Fernanda Queiroz

5 - Regresso Simples Sejam y e x duas variveis representando alguma populao. O objetivo explicar y em funo de x, ou seja, como y varia de acordo com mudanas em x. 3 pontos importantes:

Dado que no h uma relao precisa entre y e x, como levar em conta outros fatores que afetam y? Qual a relao funcional entre y e x? Como capturar uma relao entre y e x (se for o caso)?

Soluo: Considere a seguinte equao relacionando y e x Y = b0 + b1X + e Esta equao linear conhecida como modelo de regresso simples. Terminologia: y: varivel dependente, varivel explicada, varivel de resposta, varivel prevista, regressando, sada, efeito. x: varivel independente, varivel explicativa, varivel de controle, preditor, regressor, entrada, causa. u: erro, distrbio ou rudo. O erro deve ser includo na relao exata postulada pela teoria econmica, a fim de tornla probabilistica (i.e, a fim de refletir o fato que, no mundo real, as relaes econmicas entre as variveis econmicas so inexatas e, algumas vezes, errticas). Regresso: modelo que estabelece a relao entre as variveis:
b1 = y b1 x

Imagine duas variveis, que chamaremos genericamente de Y e X - mas que poderiam ser consumo e renda; salrios e anos de estudo; enfim, quaisquer duas variveis que, supostamente, tenham relao entre si. Suponhamos , ainda, que x a varivel independente e y a varivel dependente, isto pe, y afetado por x, e no o contrrio. y = b1 + b2x + e b1: coeficiente linear b2: coeficiente angular e = erro (eventos aleatrios) y = varivel dependente x = varivel independente

Anlise de Regresso - Prof. Fernanda Queiroz

Relao entre as variveis x e Y


300,00

250,00

Gastos com alimentao (R$)

200,00

150,00

100,00

50,00

y = 0,1194x + 47,553

200,00 400,00 600,00 800,00 1.000,00 1.200,00 1.400,00

Renda Semanal

(Gastos com alimentao e renda.xls) Objetivos da anlise de regresso: Descrever e compreender a relao entre duas variveis aleatrias; Projetar ou estimar uma das variveis em funo de outra 5.1 Mtodo dos mnimos quadrados Encontrar a reta de regresso significa encontrar os estimadores b1 e b2. Para tanto, utilizamos as seguintes frmulas:

b 2=

xt yt xt yt 2 n x 2 x t t

Anlise da varincia A anlise da varincia envolve dividir a varivel y em duas partes: a parte explicada pela regresso e a no explicada (resduos). SQT = soma dos quadrados totais SQE = soma dos quadrados explicados SQR = soma dos quadrados dos resduos R2 =
( y y ) ( y y )
2 2

A soma dos quadrados dos resduos uma parcela pequena do total e a soma dos quadrados explicados uma parcela importante. Essa proporo conhecida como coeficiente de determinao ou simplesmente R2. R2 = coeficiente de determinao = SQE / SQT

Anlise de Regresso - Prof. Fernanda Queiroz

impossvel que SQE seja maior do que SQT e, como se trata de uma soma de quadrados, ela no pode ser negativa. Ento, em qualquer regresso 0 <= R 2 <=1, sendo vlido express-lo como um percentual. O R2 mede a proporo ou a percentagem da variao total em y explicada pelo modelo de regresso. Um R2 prximo a um significa um perfeito ajuste, isto , , para todo i. Por outro lado, um R2 igual previsto e o realizado.
yi = yi

a zero significa que no h nenhuma relao entre o

5.3 Escolha da forma funcional A regresso busca construir modelos que simplifiquem a realidade. As informaes para a construo do modelo vm da teoria econmica, de estudos anteriores e do conhecimento sobre as condies especficas. A expresso linear nos parmetros significa que os parmetros no so multiplicados entre si, nem divididos, nem elevados ao quadrado. Critrios de escolha da forma funcional Simplicidade: entre uma forma funcional simples e uma complexa, tendem-se a escolher a primeira, se ambas explicam o fenmeno de modo igualmente bem. Por este motivo, muitos pesquisadores escolhem a forma linear. Indicao da teoria econmica: O uso de vrias formas funcionais e a escolha da que apresenta resultados mais satisfatrios deve ser realizado tendo como base a teoria econmica. Poder preditivo: A forma funcional deve ajustar-se aos dados afim de auxiliar nas previses. Formas funcionais comumente utilizadas Linear: descreve o ajustamento de uma reta aos dados originais Inverso: Na medida em que x aumenta y tende para o intercepto Log-Log (logartmico): o logaritmo aparece em ambos os membros da equao. muito utilizado em modelos de demanda e modelos de oferta. Log-linear (exponencial): muito utilizado para medir a taxa de crescimento Linear-log: Log-inverso: Y = b1 + b2x +e +e 1 Y = b1 + b2 x Ln (y) = b1 + b2 LN(x )+ e Ln (y) = b1 + b2X +e Y = b1 + b2 ln(x) + e Ln (y) = b1 - b2 (1/x )+e

Anlise de Regresso - Prof. Fernanda Queiroz

6. Inferncia no modelo de regresso Estimao de intervalos: Uma varivel normal padronizada baseia-se na distribuio normal do estimador de mnimos quadrados ordinrios. Na estatstica, a confiabilidade de uma estimador medida pelo seu erro padro. Por isso, em vez de confiar apenas na estimativa do ponto, trabalhamos com a estimativa de intervalo. Este intervalo conhecido como intervalo de confiana. 1 - = intervalo de confiana = nvel de significncia O intervalo de confiana serve para indicar o valor verdadeiro do parmetro populacional com determinado grau de probabilidade. Isto , se eu fizer o procedimento amostral 100 vezes, ao menos em 95 delas, o valor do parmetro estar dentro do intervalo informado. Para determinar o intervalo de confiana utiliza-se a varivel aleatria t com (n-2) graus de liberdade. t = b1 - 1 ~ t(n-2) dp(b1) Recorrendo-se s tabelas, pode-se achar os valores crticos tc de uma distribuio t(m), sendo que: P(t tc) = P (t tc) = 2 Intervalo de confiana para b2 e b1 b2 +- tc ep (b2)
2

b1 +- tc ep (b1)
2

O valor tc encontrado na tabela t com n-2 graus de liberdade. Teste de hipteses: Testa a hiptese de um parmetro ter ou no um valor especificado. Os valores encontrados fazem sentido?

A hiptese nula (que chamaremos de H0) geralmente uma igualdade. Isto , supe-se que determinado parmetro igual a um nmero. A hiptese alternativa (chamada de H1) contradiz a hiptese nula.

EXERCCIOS

Anlise de Regresso - Prof. Fernanda Queiroz

1) O gerente de vendas est sempre insistindo com os vendedores que a venda dos seus produtos tem forte relao com as visitas realizadas pelos vendedores aos clientes. Obter a regresso das vendas em funo das visitas e explicar os resultados. Vendedor Andr Fernando Nilane Mrcia Samira Fernando Maria Josiel Emanuela Vanessa AlexIA Vendas 40 42 50 51 55 60 66 78 87 87 105 Visitas 70 95 110 140 135 235 190 220 280 320 330

2) Construa o intervalo de confiana e faa o teste de hipteses 3) Qual o valor do coeficiente de determinao. Explique o que significa. 4) O funcionrio Pedro realizou 250 visitas neste ms. Quantas vendas espera-se que ele realize? 5) Construa a regresso que explique o preo dos imveis em funo do nmero de dormitrios. Faa tambm a regresso log-linear. Qual das duas melhor? Preo (R$) 20.386 30.062 40.950 41.926 48.141 64.195 65.000 74.624 80.614 82.479 85.663 89.151 105.000 107.750 108.573 dormitrios 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4

Anlise de Regresso - Prof. Fernanda Queiroz

6.1 - Exemplo das despesas com alimentao: Etapa1: Determine as hipteses nula e alternativa A hiptese nula H0:b2 =0. A hiptese alternativa H1:b2 0 Etapa 2 = Escolha o nvel de significncia. = 0,05. O valor crtico tc = 2,024 Etapa 3 = Calcular o t T = 0,119423 - 0 = 4,0195 0,0297 Como o valor calculado t = 4,0195 > tc = 2,024, rejeitamos a hiptese nula e aceitamos a hiptese alternativa de que h relao entre a renda semanal e os gastos com alimentao. Valor p: o menor valor de para o qual rejeitamos a hiptese nula. Se o pesquisador fixar =0,05, ento, para um valor p > 0,05 no rejeita-se H0. Caso contrrio, se o valor p for 0,05, rejeita-se H0, ou seja os valores dos parmetros so diferentes de zero. 6.2 Variveis binrias Varivel dummy ou binria aquela que indica a ocorrncia ou no de um evento, ou a presena ou a ausncia de uma condio. Assume apenas dois valores: 1, que indica uma situao , e 0 , a outra. Na tabela abaixo constam os dados de salrio mdio, anos de estudo e sexo. Faa a regresso. Analise estatisticamente os resultados. Do ponto de vista econmico, um ano a mais de estudo provoca um aumento de quanto no salrio? H discriminao no mercado de trabalho. Por qu? D = 0, se o trabalhador for do sexo feminino D = 1, se o trabalhador for do sexo masculino

salrio

anos de estudo

sexo

salrio

anos de estudo

sexo

Anlise de Regresso - Prof. Fernanda Queiroz

410,0 508,9 551,3 789,2 857,7 935,5 1.254,0 1.352,4 1.529,3 1.497,5 1.897,5 2.317,7

1 2 2 3 3 4 5 7 7 8 8 9

fem fem mas fem mas mas mas fem mas mas mas mas (continuao)

2.874,7 1.890,0 2.169,5 2.596,8 2.844,6 3.391,0 2.671,2 2.653,8 2.939,1 3.437,0 4.583,3 3.559,3 4.896,7

9 11 11 11 13 13 14 16 16 17 18 19 19

mas fem fem mas fem mas fem fem mas fem mas fem mas

2) Na tabela abaixo so dados, para vrios imveis, a rea, o padro de construo, o nmero de vagas na garagem e o nmero de dormitrios, se h ou no piscina. Faa uma regresso do preo em funo destas caractersticas. A seguir, teste a significncia dos parmetros e, se for o caso, elimine um e refaa a estimao. padro baixo alto alto alto baixo baixo baixo baixo alto alto alto alto alto alto alto baixo alto alto rea vagas 100 1 150 1 200 2 180 1 130 1 89 1 95 0 50 0 200 3 210 2 250 3 280 2 365 3 150 1 240 2 70 0 135 1 140 2 piscina sim sim sim no no no no no sim sim sim sim sim no no no sim sim banheiros 1 2 3 2 1 1 1 1 2 3 3 4 4 2 3 1 2 2 preo 88,90 149,10 194,40 153,50 121,70 85,90 73,50 39,90 189,70 186,30 229,70 272,00 339,50 155,20 232,70 68,70 157,00 151,00

Anlise de Regresso - Prof. Fernanda Queiroz

10

7. Regresso Mltipla 7.1.O modelo com trs variveis No modelo de regresso mltipla geral, uma varivel dependente yt relacionada com um nmero de variveis explicativas atravs de uma equao linear que pode ser escrita como:

yt = 1 + 2 xt 2 + 3 xt 3 + + xtK +et K
Os coeficientes 1, 2,, O parmetro valor esperado O parmetro
1 K

so parmetros desconhecidos.

mede o efeito de uma mudana na varivel de yt, E(yt), todas as outras variveis mantidas

xtk

sobre o constantes.

o termo de intercepto.

Quando tornamos um modelo econmico com mais de uma varivel explicativa em um modelo estatstico correspondente, ns dizemos que ele um modelo de regresso mltipla. Grande parte dos resultados desenvolvida para o modelo de regresso simples pode ser estendida naturalmente para esse caso geral. Existem pequenas mudanas na interpretao dos parmetros , os graus de liberdade para a distribuio t mudaro e ns necessitaremos modificar as hipteses concernentes as caractersticas das variveis explicativas (x). 7.2. Exemplo (receita preo e gastos com propaganda.xls) Cada semana, o gerente de uma rede de lanchonetes deve decidir quanto gastar com propaganda e que promoes (como preos mais baixos) deveria oferecer. Como se altera a receita total medida que o nvel de gastos com propaganda muda? Um aumento nos gastos com propaganda elevaria a receita total? Se afirmativo, o aumento na receita total suficiente para justificar uma elevao nos gastos com propaganda? O gerente tambm est interessado na estratgia de preos. Reduzir os preos aumentar ou diminuir a receita total? Se uma reduo de preo levar a uma diminuio da receita total, ento a demanda inelstica; se uma reduo de preo levar a um aumento da receita total, ento a demanda elstica. Ns, inicialmente, assumimos que a receita total, RT, linearmente relacionada com o preo, p, e com os gastos em propaganda, a. Assim, o modelo econmico :

RT = 1 + 2 p + 3 a

Anlise de Regresso - Prof. Fernanda Queiroz

11

onde RT representa a receita total para determinada semana, p representa o preo naquela semana e a o nvel de gastos com propaganda durante aquela semana. Tanto RT como a so mensurados em termos de milhares de unidades monetrias. No modelo de regresso mltipla, o parmetro intercepto, 1, o valor da varivel dependente quando cada varivel explicativa assume o valor zero. Em muitos casos, esse parmetro no tem uma interpretao econmica clara, mas ele quase sempre includo no modelo de regresso. Ele ajuda a estimao global do modelo e na previso. O sinal de 2 pode ser positivo ou negativo. Se um aumento nos preos levar a um aumento da receita, ento 2 > 0, e a demanda para a rede de lanchonetes inelstica. Inversamente, uma demanda elstica em relao ao preo ocorre se um aumento nos preos conduzir a uma queda na receita, que o caso de 2 < 0. O parmetro propaganda
3

descreve a resposta da receita a mudanas no nvel de gastos com

7.3. Resultados O coeficiente negativo de pt sugere que a demanda elstica em relao ao preo e ns estimamos que um aumento em $1.000,00 no preo levar a uma queda na receita semanal de $6.642. Ou, colocando positivamente, uma reduo no preo de $1.000,00 levar a um aumento na receita de $6.642. O coeficiente da propaganda positivo e ns estimamos que um aumento no gasto com propaganda de $1.000 resultar em uma elevao da receita total de $2.984. O intercepto estimado implica que se tanto o preo como o gasto com propaganda forem zero, a ganho de receita total seria de $104.790. Isso obviamente incorreto. Nesse modelo, assim como em outros, o intercepto includo no modelo para melhorar a capacidade de previso dele e dar uma especificao matemtica mais completa

Anlise de Regresso - Prof. Fernanda Queiroz

12

RTt = 104,79 6,642 pt + 2,984at


Observao: Uma palavra de ateno para a interpretao dos resultados da regresso. O sinal negativo do preo implica que a reduo desse aumentar a receita total. Se tomarmos isso literalmente, porque ns no deveramos ir reduzindo o preo at zero? Obviamente que no conseguiramos manter a elevao da receita total. Isso aponta para um importante ponto: modelos de regresso estimados descrevem a relao entre as variveis econmicas para valores semelhantes dos encontrados na amostra de dados. A extrapolao dos resultados para valores extremos no geralmente uma boa idia. Em geral, predizer valores da varivel dependente para valores das variveis explicativas distantes dos valores amostrais um convite para o desastre .

7.4. O coeficiente de determinao mltipla O coeficiente de determinao mltipla. R2, definido como a proporo da variao total em y que explicada pela regresso mltipla de Y em relao a X1 e X2. A incluso adicional de variveis independentes ou explicativas provavelmente aumentar o valor de R2. O valor de R2 depende do nmero de variveis explicativas (k) e do tamanho da amostra (n). Portanto, os coeficientes de determinao no so adequadamente comparveis, se k e n diferem entre equaes. A interpretao que 86.7% da variao na receita total explicada pela variao no preo e pela variao no nvel de gastos com propaganda. Uma dificuldade com o R2 que ele pode ser aumentado pela incluso de novas variveis, mesmo se as variveis acrescentadas no apresentarem qualquer justificativa econmica. Uma medida alternativa para mensurar a qualidade do ajustamento chamada de R2 ajustado, e tem, geralmente, como smbolo; ele usualmente apresentado pelos programas de regresso. Ele calculado como R2 = 1 SQE /(T K ) SQT /(T 1)

7.5. Teste de significncia global da regresso A significncia global da regresso pode ser testada pela razo da varincia explicada com a varincia no explicada. Esta apresenta uma distribuio F com k-1 e n-k graus de liberdade, onde n o nmero de observaes e k o nmero de parmetros estimados:
F=

( SQER SQEU ) J SQEU ( T K )

Anlise de Regresso - Prof. Fernanda Queiroz

13

Se a hiptese nula for verdadeira, ento a estatstica F tem uma distribuio F com J graus de liberdade no numerador e T-k graus de liberdade no denominador. Ns rejeitamos a hiptese nula se o valor da estatstica do teste F se tornar muito grande. Ns comparamos o valor de F com um valor crtico Fc o qual deixa uma probabilidade na cauda superior da distribuio F com J e T-k graus de liberdade Uma importante aplicao do teste F para o que chamamos de teste da significncia global do modelo. Considere novamente o modelo geral de regresso mltipla com (K 1) variveis explicativas e K coeficientes desconhecidos. Para examinar se temos um modelo vivel, ns elaboramos as seguintes hipteses nula e alternativa

H 0 : 2 = 0, 3 = 0, , K = 0 H1 : pelo menos um dos k no zero


Se essa hiptese nula for verdadeira, nenhuma das variveis explicativas influenciam o y e assim nosso modelo de pouco ou nenhum valor. Se a hiptese alternativa H1 for verdadeira, ento pelo menos um dos parmetros no zero. A hiptese alternativa no indica, contudo, qual dessas variveis pode ser. 7.6. Hipteses bsicas : Relao Linear Regressores tem variabilidade Erros tem mdia zero Erros tem varincia constante Erros so independentes (no correlacionados) Distribuio dos erros normal

7.8 - Exemplos:

Produo de soja Faturamento do comrcio em relao s vendas e taxa de juros Fatores que influenciaram na produo de mquinas agrcolas Fatores que influenciaram a produo e venda de veculos nacionais Determinantes da produo mundial de arroz Determinantes da demanda por energia eltrica Determinantes do rendimento mdio das pessoas ocupadas Determinantes dos preos dos imveis em Natal

Anlise de Regresso - Prof. Fernanda Queiroz

14

EXERCCIOS 1) O quadro abaixo informa a quantidade demandada de frango, o preo mdio por quilo do frango e a renda mdia da populao. Com base nestes dados, construa uma regresso do consumo em funo do preo e da renda.
Perodo jan/05 fev/05 mar/05 abr/05 mai/05 jun/05 jul/05 ago/05 set/05 out/05 nov/05 dez/05 jan/06 fev/06 mar/06 abr/06 mai/06 jun/06 jul/06 ago/06 set/06 out/06 nov/06 dez/06 jan/07 fev/07 mar/07 abr/07 mai/07 Consumo frango (tonelada) 757,6 745,2 673,2 676,2 709,1 704,7 691,8 696,6 667,6 667,2 671 716,9 698,4 676,7 661,4 686,8 685,2 684,9 675,1 663,1 672,8 722 715 721,6 747,5 742,4 750 741,5 722,6 preo frango R$ 1,13 1,16 1,3 1,29 1,2 1,21 1,24 1,22 1,35 1,35 1,34 1,2 1,23 1,28 1,35 1,25 1,26 1,27 1,3 1,35 1,32 1,22 1,23 1,15 1,17 1,14 1,18 1,19 1,19 Renda mdia (R$) 650 625 580 585 610 610 595 600 575 575 570 605 605 590 560 590 590 600 585 565 580 608 605 615 645 625 640 620 615

2) Analise os resultados encontrados (estatisticamente e economicamente). 3) Um aumento de R$ 1,00 no preo provoca qual impacto no consumo de frango. 4) Um aumento de R$ 100,00 na renda provoca qual impacto no consumo de frango. 5) Para que serve o teste F. 6) Por que na regresso mltipla devemos analisar o R2 ajustado ao invs do R2.
Problemas na anlise de regresso: multicolinearidade, heterocedasticidade, autocorrelao

Anlise de Regresso - Prof. Fernanda Queiroz

15

8 - multicolinearidade Hiptese bsica: Cada varivel independente Xi no pode ser combinao linear das demais. A violao desta hiptese ocorre quando a variao de uma varivel decorrente da variao da outra. Exemplo: X3 = 2X2 X3 = X2 + 3 Ou ainda, envolvendo mais de duas variveis. X4 = 2X2 + 3X3 + 4 O termo multicolinearidade designa a alta correlao entre as variveis. Ano / Trimestre Funo Consumo 1 2 3 Consumo (US$ bilhes) Renda (US$ bilhes) Taxa de juros (% a.a.) 1990/1 72,2 105,6 12 1990/2 75,6 97,4 12,5 1990/3 89,6 112 11 1990/4 93,7 128 10 1991/1 92,2 120,2 10,5 1992/2 84,6 115,3 10,75 1992/3 90,8 105,4 11,25 1992/4 82,9 103,6 12 1993/1 65,8 102,7 12,25 1993/2 70,9 93,2 13 1993/3 63,1 98,3 12,5 1993/4 86,3 108,1 11,75 1990/1 87,2 115,8 11,5 1990/2 79,3 99,8 11 1990/3 87,4 110,5 10,5 1990/4 100,6 127,8 10,25

Anlise de Regresso - Prof. Fernanda Queiroz

16

Os resultados da estimao do modelo so dados na tabela seguinte:

N=16 Intercept Renda (US$ bilhes) Taxa de juros (% a.a.)

Regression Summary for Dependent Variable: Consumo (US$ bilhes) (Aula 3 - Multicolin R= ,85486728 R= ,73079807 Adjusted R= ,68938239 F(2,13)=17,645 p<,00020 Std.Error of estimate: 5,9070 Beta Std.Err. B Std.Err. t(13) p-level of Beta of B 111,4873 66,84031 1,66796 0,119216 0,366340 0,282167 0,3742 0,28826 1,29831 0,216742 -0,519084 0,282167 -6,0967 3,31407 -1,83963 0,088763

Repare que o valor tabelado da estatstica t, considerando-se 5% de significncia e 13 graus de liberdade, 2,160. Observando o valor p-value todos os coeficientes no so signifcantes. Esse resultado , no mnimo estranho. Imaginar que o nvel de consumo no depende da renda disponvel surpreendente. Mais estranho ainda analisar o teste F (2,13). O valor tabela 3,81. Como o valor encontrado foi em torno de 17,6, pelo teste F conclumos que o modelo de regresso vlido. Com nvel de significncia de 10% Se a regresso foi aceita pelo teste F, a pergunta que fica : Por que os dois parmetros no so significantes (pelo menos a 5%)? O que deu errado com o teste t? A resposta esta na natureza da varivel. H uma forte influncia da taxa de juros real sobre a renda. A correlao amostral entre a taxa de juros e a renda : -0,86

Anlise de Regresso - Prof. Fernanda Queiroz

17

Correlations (Aula 3 - Multicolinearidade) Renda (US$ bilhes) Taxa de juros (% a.a.) Variable Renda (US$ bilhes) Taxa de juros (% a.a.) Consumo (US$ bilhes) 1,000000 -0,860181 0,812845 -0,860181 1,000000 -0,834202

Consumo (US$ bilhes) 0,812845 -0,834202 1,000000

Como identificar a multicolinearidade? Uma maneira de identificar a multicolinearidade, ou, pelo menos, suspeitar fortemente que ela existe, obter um teste F bastante significante (ou um R2 alto), acompanhado de estatististicas t para os coeficientes pouco significantes, ou at mesmo no siginificantes. Sinais dos coeficientes diferentes do esperado, especialmente quando ele muito esperado. Identificar a correlao entre as variveis tambm uma forma de identificar a presena da multicolinearidade. Observar o comportamento dos coeficientes quando adicionamos ou retiramos variveis ou quando h mudanas na amostra. Se ocorrerem mudanas muito drsticas, inclusive nos sinais de tais coeficientes, temos a uma evidncia de que h multicolinearidade no modelo.

O que fazer quando h multicolinearidade?

Retirar a varivel correlacionada: Como as variveis so altamente correlacionadas ela j capta o efeito das alteraes na varivel retirada, tornandose desnecessria. Contudo, este procedimento pode ferir a teoria econmica; Aumentar a amostra: Em muitos casos, a correlao alta pe decorrente da prpria amostra; isto , esta correlao pode no existir na populao e um aumento das observaes poder refletir melhor o fato.

Anlise de Regresso - Prof. Fernanda Queiroz

18

Retirando uma varivel da amostra: o resultado :

N=16 Intercept Renda (US$ bilhes)

Regression Summary for Dependent Variable: Consumo (US$ bilhes) (Aula 3 - Multicoline R= ,81284538 R= ,66071761 Adjusted R= ,63648315 F(1,14)=27,264 p<,00013 Std.Error of estimate: 6,3902 Beta Std.Err. B Std.Err. t(14) p-level of Beta of B -7,85898 17,40514 -0,451532 0,658522 0,812845 0,155674 0,83039 0,15903 5,221452 0,000129

Exerccio: Em uma cidade, foram obtidos os valores da tabela abaixo. Faa uma regresso que tome como varivel dependente o preo do imvel e como variveis explicativas as variveis: distncia ao centro, nmero de dormitrios, rea do imvel e renda mensal do chefe da famlia. Realizada essa estimao, calcule as correlaes amostrais entre as variveis explicativas; com estes ltimos resultados, faa as alteraes no modelo que voc julgar relevante e discuta os resultados obtidos.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

1 2 Preo (R$) Distncia (Km) 107.135 1 107.750 2 108.573 2 99.151 3 85.663 3 80.614 3 74.624 4 64.195 5 40.950 6 82.479 4 41.926 6 20.386 7 48.141 6 30.062 7 65.520 5

3 Dormitrios 2 2 3 4 2 3 2 3 4 2 3 1 1 2 4

4 rea (m2) 94 96 116 149 98 115 93 119 142 93 122 72 72 97 148

5 Renda mensal (R$) 3.537 3.174 3.072 2.683 2.512 2.580 2.031 1.549 1.104 2.119 1.068 549 1.043 671 1.521

Anlise de Regresso - Prof. Fernanda Queiroz

19

Correlao amostral entre as variveis explicativas:

Correlations (Spreadsheet27 in Aula 3 - Multi Exercicios) Distncia (Km) Dormitrios rea (m2) Renda mensal (R$) Variable Distncia (Km) Dormitrios rea (m2) Renda mensal (R$) Preo (R$) 1,000000 -0,118473 -0,084663 -0,998219 -0,974275 -0,118473 1,000000 0,993517 0,129077 0,183593 -0,084663 0,993517 1,000000 0,096065 0,157212 -0,998219 0,129077 0,096065 1,000000 0,977696

Preo (R$) -0,974275 0,183593 0,157212 0,977696 1,000000

Existe uma elevada correlao entre as variveis renda e distncia; preo e distncia; renda e preo. Imagine um modelo que relaciona o preo de apartamentos a diversas caractersticas,
Regression Summary for Dependent Variable: Preo (R$) (Spreadsheet27 in Aula 3 - Multi Exercicios) R= ,98102669 R= ,96241336 Adjusted R= ,94737870 F(4,10)=64,013 p<,00000 Std.Error of estimate: 6686,1 Beta Std.Err. B Std.Err. t(10) p-level of Beta of B -42021,1 129999,9 -0,323239 0,753172 0,185402 1,053803 2833,2 16103,3 0,175936 0,863856 -0,436216 0,568744 -12837,2 16737,3 -0,766981 0,460817 0,493743 0,568078 585,2 673,3 0,869145 0,405146 1,171642 1,052785 35,7 32,1 1,112898 0,291788

N=15 Intercept Distncia (Km) Dormitrios rea (m2) Renda mensal (R$)

entre elas o nmero de dormitrios e a rea til. Se esse estudo fosse realizado em um bairro ou uma pequena cidade onde o padro dos imveis no varia muito, possvel que o tamanho dos aposentos tambm no varie, fazendo com que a rea til dos apartamentos esteja altamente correlacionada ao nmero de dormitrios. Nesse casos, talvez fosse melhor substituir o preo total dos apartamentos pelo preo por metro quadrado. Correlaes Parciais
Redundancy of Independent Variables; DV: Preo (R$) (Spreadsheet27 in Aula 3 - Multi Exercicios) R-square column contains R-square of respective variable with all other independent variables Toleran. R-square Partial Semipart Variable Cor. Cor. Distncia (Km) 0,003385 0,996615 0,055550 0,010786 Dormitrios 0,011620 0,988380 -0,235707 -0,047022 rea (m2) 0,011647 0,988353 0,265020 0,053285 Renda mensal (R$) 0,003391 0,996609 0,331971 0,068230 Anlise de Regresso - Prof. Fernanda Queiroz 20

9 - Heterocedasticidade desejvel que a varincia dos resduos et, gerados pela estimao de um modelo, seja constante. Nesse caso, var (et) = pressuposto a heterocedasticidade. A principal conseqncia da heterocedasticidade que o mtodo dos mnimos quadrados no gera estimativas de parmetros eficientes ou de varincia mnima, o que implica erros-padres viesados e incorreo dos testes t e F. Tal problema mais freqente em sries no temporais, ou seja, cross section. Imagine uma regresso onde estamos fazendo uma pesquisa de salrios em funo dos anos de estudo. A relao certamente existe, pois pessoas com vrios anos de escolaridade ganham, em mdia, mais do que pessoas pouco escolarizadas. Mas a situao muda muito no que se refere ao erro: para aqueles com pouco ou nenhum estudo, os salrios no devero variar muito, fazendo com que a varincia seja muito pequena. No caso das pessoas com muitos anos de estudo, embora se espere que ganhem mais, possvel que uma pessoa desse grupo tenha problemas em avanar na carreira ou se torne proprietrio de uma grande empresa, o que torna a varincia dos salrios nesse caso muito alta. Como identificar a heterocedasticidade? Teste de Quandt-Goldfeld as observaes de modo crescente (varivel independente que
2

, onde uma constante. A violao desse

a) Ordenar

provavelmente provoca a heterocedasticidade) b) Dividir a amostra em duas partes c) Estimar as regresses separadas e obter a soma dos quadrados dos resduos para cada subamostra (n - c) observaes.

Anlise de Regresso - Prof. Fernanda Queiroz

21

F = SQR 2 / SQR 1 SQR2 = Soma dos quadrados dos resduos dos valores mais elevados de X SQR1 = Soma dos quadrados dos resduos dos valores mais baixos de X d) Estatstica F com (n-c)/2; k-1 graus de liberdade Onde n= n total de observaes C = n de observaes omitidas K = n de variveis explicativas includas no modelo. e) Se F observado > F crtico para (n-c)/2; k-1 graus de liberdade, a hiptese nula de homocedasticidade ser rejeitada.

Como corrigir a heterocedastividade (Exemplo: Trigo na Austrlia livro texto) Utilizar o mtodo dos mnimos quadrados generalizados por meio de uma transformao no modelo. qt = b1 + b2pt + b3t + e , var (et) = 1 qt = b1 + b2pt + b3t + e , var (et) = 2 Dividindo cada varivel por ltimas observaes temos: qt = b1 1 + b2pt + b3t + e 1 1 1 1 para t = 1,2,...13 para t = 14,15,...26 para as 13

para as 13 primeiras observaes e por

=1

qt = b1 1 + b2pt + b3t + e 2 2 2 2

=1
2

Deste modo, as varincias se tornaram constantes e iguais a 1, logo no existe mais o problema da heterocedasticidade.

Anlise de Regresso - Prof. Fernanda Queiroz

22

As novas variveis so: qt = 2 1 + pt + t 2 2

10 - Autocorrelao Dos Resduos Os erros para diferentes observaes (domiclios ou firmas) no devem ser autocorrelacionados. Autocorrelao significa dependncia temporal dos valores sucessivos dos resduos (erro), isto , os resduos so correlacionados entre si. Desta forma, a autocorrelao significa a correlao de uma varivel com valores defasados (com diferenas no tempo) dela mesma. Em termos formais, considere o seguinte modelo linear simples: Yt = b1 + b2Xt + et, a autocorrelao dos resduos implica que E(eiej) 0 para i j. A ausncia de autocorrelao significa, portanto, E (ei, ej) = 0 para i j. Conseqncias Quando os resduos so autocorrelacionados, as estimativas de MQO dos parmetros no so eficientes, isto , no apresentam varincia mnima, alm de seu erro-padro ser viesado; o que conduz a teste de hipteses e intervalos de confiana incorretos. Autocorrelao positiva: os resduos so diretamente relacionados entre si, isto : et = et-1 + vt >0; (1) se < 0 a autocorrelao ser negativa. Fontes de autocorrelao Omisso de varivel Erro de especificao: M especificao do verdadeiro termo aleatrio:

Testes para detectar a presena de autocorrelao O teste de Durbin-Watson o mais utilizado para diagnosticar a autocorrelao serial

Anlise de Regresso - Prof. Fernanda Queiroz

23

Se Se Se

= 0, Durbin-Watson d 2 -> os erros do modelo no so autocorrelacionados. = 1 Durbin-Watson d 0 -> autocorrelao positiva. = -1 Durbin-Watson d 4 -> autocorrelao negativa.

O que fazer quando h autocorrelao: necessrio corrigir o problema, refazendo a estimao e transformando as variveis. Y* = Yt - yt-1 X* = Yt - Xt-1

Anlise de Regresso - Prof. Fernanda Queiroz

24

Você também pode gostar