P. 1
Analise de regressão

Analise de regressão

|Views: 1.300|Likes:
Publicado porfernandacbpereira

More info:

Published by: fernandacbpereira on May 07, 2011
Direitos Autorais:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOC, PDF, TXT or read online from Scribd
See more
See less

06/13/2013

pdf

text

original

ANÁLISE DE REGRESSÃO

1 - Introdução........................................................................................................................................................2 2 - Exemplos de previsão:....................................................................................................................................2 3 - Natureza dos dados..........................................................................................................................................3 4 - Causalidade.....................................................................................................................................................3 5 - Regressão Simples...........................................................................................................................................4 6. Inferência no modelo de regressão...................................................................................................................7 7. Regressão Múltipla.........................................................................................................................................11 8 - multicolinearidade.........................................................................................................................................16 9 - Heterocedasticidade.......................................................................................................................................21 10 - Autocorrelação Dos Resíduos.....................................................................................................................23

Análise de Regressão - Prof. Fernanda Queiroz

1

Análise de Regressão Prof. Dra. Fernanda C.B. Pereira Queiroz

www.ipeadata.gov.br www.fgvdados.com.br
1 - Introdução A análise de regressão tem três funções relacionadas:
 

testar teorias. Por exemplo, o consumo é diretamente relacionado com a renda? A quantidade demandada de um bem é inversamente relacionada com o seu preço? estimar relações entre variáveis. Por exemplo, o responsável pela política econômica necessita ter uma estimativa precisa da relação entre taxa de juros e inflação a fim de determinar o novo valor dos juros na reunião do COPOM. Projetar eventos. Qual será o consumo de carne nos próximos anos? Qual será a demanda de carros no próximo ano?

O produto final deste estudo é um Modelo cuja construção é efetuada com a utilização: 

 

da teoria da matemática de métodos estatísticos e com análise crítica

Nós expressamos nossas idéias sobre relações entre variáveis econômicas, utilizando o conceito matemático de função. Por exemplo, para expressarmos uma relação entre renda i e consumo c, podemos escrever C = f(i) A demanda para um bem individual, digamos um carro Renault Clio pode ser expressa como

q d = f ( p, p s , p c , i)
A quantidade demandada de Clios, qd, é uma função do preço do Clio p, do preço de carros que são substitutos ps e do preço de itens que são complementares pc, como gasolina e o nível de renda i. 2 - Exemplos de previsão:

Os plantadores de arroz de Mato Grosso decidem estimar a quantidade produzida com base na área plantada e na quantidade de fertilizante utilizada.

Análise de Regressão - Prof. Fernanda Queiroz

2

Causalidade Um dos objetivos de todo tipo de explicação é estabelecer as causas dos fenômenos observados no tempo e espaço:   Quais as causas do desemprego? Quais as causas das desigualdades sociais? A noção de causalidade está intimamente associada à possibilidade de uma variável gerar mudanças em outra variável.Natureza dos dados Dados seccionais ou de corte (Dados de “indivíduos” observados em um determinado instante de tempo)  Altura de indivíduos selecionados aleatoriamente (amostra aleatória) em um determinado instante de tempo. a demanda de copos descartáveis que haverá daqui há 3 anos.  PIB dos países latino-americanos no primeiro trimestre de 2010  Arrecadação dos municípios do RN em 2010 Séries temporais (conjunto de dados seqüenciais observados em intervalos de tempo)   Retornos diários do IBOVESPA. 4 . Taxa de desemprego mensal. se a receita proveniente desta taxa subirá ou cairá. no momento em que ela avalia quanto investir em uma nova fábrica e em equipamentos.Prof. Uma empresa precisa estimar. Fernanda Queiroz 3 . portanto. 3 . Análise de Regressão . A análise de regressão estuda a relação causal entre uma variável econômica a ser explicada (variável dependente y) e uma ou mais variáveis independentes ou explicativas (X). Um empresário deve prever em quanto a população e a renda aumentarão nos próximos anos em Natal e se será lucrativo implantar um empreendimento comercial (Rener / Lojas Americanas / Pernambucanas).   Uma universidade precisa estimar quanto as matrículas cairão se a taxa for elevada 10% por semestre e.

Suponhamos .e. enfim. variável de resposta. quaisquer duas variáveis que. que chamaremos genericamente de Y e X . entrada. a fim de tornála probabilistica (i. que x é a variável independente e y a variável dependente. Terminologia: y: variável dependente. a fim de refletir o fato que. x: variável independente. erráticas). saída. variável prevista. causa. y é afetado por x. O erro deve ser incluído na relação exata postulada pela teoria econômica. variável de controle. ainda.Regressão Simples Sejam y e x duas variáveis representando alguma população. no mundo real. salários e anos de estudo. u: erro. variável explicativa.Prof. ou seja. y = b1 + b2x + e b1: coeficiente linear b2: coeficiente angular e = erro (eventos aleatórios) y = variável dependente x = variável independente Análise de Regressão . O objetivo é explicar y em função de x. supostamente. como y varia de acordo com mudanças em x. algumas vezes. e não o contrário. preditor.5 . as relações econômicas entre as variáveis econômicas são inexatas e. efeito. regressor. Fernanda Queiroz 4 . isto pe. distúrbio ou ruído. variável explicada.mas que poderiam ser consumo e renda. regressando. como levar em conta outros fatores que afetam y? Qual a relação funcional entre y e x? Como capturar uma relação entre y e x (se for o caso)? Solução: Considere a seguinte equação relacionando y e x Y = b0 + b1X + e Esta equação linear é conhecida como modelo de regressão simples. 3 pontos importantes:    Dado que não há uma relação precisa entre y e x. Regressão: modelo que estabelece a relação entre as variáveis: b1 = y −b1 x Imagine duas variáveis. tenham relação entre si.

553 200. R2 = coeficiente de determinação = SQE / SQT Análise de Regressão .00 50.00 1.00 1.00 Gastos com alimentação (R$) 200. SQT = soma dos quadrados totais SQE = soma dos quadrados explicados SQR = soma dos quadrados dos resíduos R2 = ˆ ∑( y − y ) ∑( y − y ) 2 2 A soma dos quadrados dos resíduos é uma parcela pequena do total e a soma dos quadrados explicados é uma parcela importante.00 600. Para tanto.400.1 Método dos mínimos quadrados Encontrar a reta de regressão significa encontrar os estimadores b1 e b2. utilizamos as seguintes fórmulas: b 2= n  ∑ xt yt −∑ xt ∑ yt 2 n  ∑ x 2−  ∑ x t  t Análise da variância A análise da variância envolve dividir a variável y em duas partes: a parte explicada pela regressão e a não explicada (resíduos).xls) Objetivos da análise de regressão:  Descrever e compreender a relação entre duas variáveis aleatórias.Relação entre as variáveis x e Y 300.00 1.Prof.200. Fernanda Queiroz 5 .00 800.00 400.  Projetar ou estimar uma das variáveis em função de outra 5.00 y = 0. Essa proporção é conhecida como coeficiente de determinação ou simplesmente R2.00 150.000.00 250.1194x + 47.00 100.00 Renda Semanal (Gastos com alimentação e renda.

para todo i. Log-linear (exponencial): muito utilizado para medir a taxa de crescimento Linear-log: Log-inverso: Y = b1 + b2x +e +e 1 Y = b1 + b2 x Ln (y) = b1 + b2 LN(x )+ e Ln (y) = b1 + b2X +e Y = b1 + b2 ln(x) + e Ln (y) = b1 . O R2 mede a proporção ou a percentagem da variação total em y explicada pelo modelo de regressão.b2 (1/x )+e Análise de Regressão . Indicação da teoria econômica: O uso de várias formas funcionais e a escolha da que apresenta resultados mais satisfatórios deve ser realizado tendo como base a teoria econômica. Por outro lado. sendo válido expressá-lo como um percentual.3 – Escolha da forma funcional A regressão busca construir modelos que simplifiquem a realidade. se ambas explicam o fenômeno de modo igualmente bem. É muito utilizado em modelos de demanda e modelos de oferta. nem divididos. em qualquer regressão 0 <= R 2 <=1. nem elevados ao quadrado. Poder preditivo: A forma funcional deve ajustar-se aos dados afim de auxiliar nas previsões. muitos pesquisadores escolhem a forma linear. Um R2 próximo a um significa um perfeito ajuste. isto é. As informações para a construção do modelo vêm da teoria econômica. ela não pode ser negativa. Critérios de escolha da forma funcional Simplicidade: entre uma forma funcional simples e uma complexa. Então. como se trata de uma soma de quadrados. de estudos anteriores e do conhecimento sobre as condições específicas. .É impossível que SQE seja maior do que SQT e. Por este motivo. Fernanda Queiroz 6 . um R2 igual previsto e o realizado. A expressão linear nos parâmetros significa que os parâmetros não são multiplicados entre si. tendem-se a escolher a primeira. ˆ yi = yi a zero significa que não há nenhuma relação entre o 5. Formas funcionais comumente utilizadas Linear: descreve o ajustamento de uma reta aos dados originais Inverso: Na medida em que x aumenta y tende para o intercepto Log-Log (logarítmico): o logaritmo aparece em ambos os membros da equação.Prof.

Fernanda Queiroz 7 . a confiabilidade de uma estimador é medida pelo seu erro padrão.tc α ep (b2) 2 b1 +. Isto é. Este intervalo é conhecido como intervalo de confiança. em vez de confiar apenas na estimativa do ponto. Na estatística. se eu fizer o procedimento amostral 100 vezes. trabalhamos com a estimativa de intervalo. supõe-se que determinado parâmetro é igual a um número. Para determinar o intervalo de confiança utiliza-se a variável aleatória t com (n-2) graus de liberdade. pode-se achar os valores críticos tc de uma distribuição t(m). o valor do parâmetro estará dentro do intervalo informado. A hipótese alternativa (chamada de H1) contradiz a hipótese nula. ao menos em 95 delas. sendo que: P(t ≥ tc) = P (t ≤ tc) = α 2 Intervalo de confiança para b2 e b1 b2 +.6.tc α ep (b1) 2 O valor tc é encontrado na tabela t com n-2 graus de liberdade. EXERCÍCIOS Análise de Regressão . t = b1 . Os valores encontrados fazem sentido? α α A hipótese nula (que chamaremos de H0) geralmente é uma igualdade.α = intervalo de confiança α = nível de significância O intervalo de confiança serve para indicar o valor verdadeiro do parâmetro populacional com determinado grau de probabilidade. Por isso. Isto é. 1 .β 1 ~ t(n-2) dp(b1) Recorrendo-se às tabelas. Teste de hipóteses: Testa a hipótese de um parâmetro ter ou não um valor especificado.Prof. Inferência no modelo de regressão Estimação de intervalos: Uma variável normal padronizada baseia-se na distribuição normal do estimador de mínimos quadrados ordinários.

926 48.614 82. Faça também a regressão log-linear.1) O gerente de vendas está sempre insistindo com os vendedores que a venda dos seus produtos tem forte relação com as visitas realizadas pelos vendedores aos clientes.062 40.624 80. Explique o que significa. Vendedor André Fernando Nilane Márcia Samira Fernando Maria Josiel Emanuela Vanessa AlexIA Vendas 40 42 50 51 55 60 66 78 87 87 105 Visitas 70 95 110 140 135 235 190 220 280 320 330 2) Construa o intervalo de confiança e faça o teste de hipóteses 3) Qual o valor do coeficiente de determinação.000 107.000 74.386 30.950 41.141 64. 4) O funcionário Pedro realizou 250 visitas neste mês. Qual das duas é melhor? Preço (R$) 20.750 108. Obter a regressão das vendas em função das visitas e explicar os resultados.479 85. Quantas vendas espera-se que ele realize? 5) Construa a regressão que explique o preço dos imóveis em função do número de dormitórios.573 dormitórios 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 Análise de Regressão .195 65.Prof.663 89.151 105. Fernanda Queiroz 8 .

05. Assume apenas dois valores: 1. Analise estatisticamente os resultados. ou a presença ou a ausência de uma condição. se o trabalhador for do sexo feminino D = 1.05. então.Prof. Se o pesquisador fixar α =0. rejeita-se H0. Por quê? D = 0.2 – Variáveis binárias Variável dummy ou binária é aquela que indica a ocorrência ou não de um evento.024 Etapa 3 = Calcular o t T = 0.6.0 = 4. e 0 . se o valor p for ≤ 0. anos de estudo e sexo. Fernanda Queiroz 9 . Caso contrário. para um valor p > 0. um ano a mais de estudo provoca um aumento de quanto no salário? Há discriminação no mercado de trabalho. se o trabalhador for do sexo masculino salário anos de estudo sexo salário anos de estudo sexo Análise de Regressão . Valor p: é o menor valor de α para o qual rejeitamos a hipótese nula.1 . A hipótese alternativa é H1:b2 ≠ 0 Etapa 2 = Escolha o nível de significância.0195 0. α = 0. 6.05.Exemplo das despesas com alimentação: Etapa1: Determine as hipóteses nula e alternativa A hipótese nula é H0:b2 =0.024. Faça a regressão. Do ponto de vista econômico. rejeitamos a hipótese nula e aceitamos a hipótese alternativa de que há relação entre a renda semanal e os gastos com alimentação. a outra.0297 Como o valor calculado t = 4. O valor crítico tc = 2. Na tabela abaixo constam os dados de salário médio.05 não rejeita-se H0.119423 . que indica uma situação .0195 > tc = 2. ou seja os valores dos parâmetros são diferentes de zero.

317.0 508.70 68.3 1.3 3. elimine um e refaça a estimação. padrão baixo alto alto alto baixo baixo baixo baixo alto alto alto alto alto alto alto baixo alto alto área vagas 100 1 150 1 200 2 180 1 130 1 89 1 95 0 50 0 200 3 210 2 250 3 280 2 365 3 150 1 240 2 70 0 135 1 140 2 piscina sim sim sim não não não não não sim sim sim sim sim não não não sim sim banheiros 1 2 3 2 1 1 1 1 2 3 3 4 4 2 3 1 2 2 preço 88.70 272.50 39.00 Análise de Regressão . o número de vagas na garagem e o número de dormitórios.352.5 1.70 85.50 155.1 3.20 232.50 121.0 1.437.0 2.169. Fernanda Queiroz 10 .671.5 2.497.Prof.70 157. a área. teste a significância dos parâmetros e.3 4.00 151.90 149.897.410.896. Faça uma regressão do preço em função destas características.3 789.90 189.2 857.00 339.939.5 1.583. se for o caso.7 1 2 2 3 3 4 5 7 7 8 8 9 fem fem mas fem mas mas mas fem mas mas mas mas (continuação) 2.7 9 11 11 11 13 13 14 16 16 17 18 19 19 mas fem fem mas fem mas fem fem mas fem mas fem mas 2) Na tabela abaixo são dados.7 1.559.653.40 153.30 229. se há ou não piscina.874.10 194.8 2.890.254.70 186.844.9 551.596.391.7 935.6 3.0 2.2 2. para vários imóveis.4 1.529.90 73.8 2. o padrão de construção.5 2.0 4. A seguir.

uma variável dependente yt é relacionada com um número de variáveis explicativas através de uma equação linear que pode ser escrita como: yt = β1 + β2 xt 2 + β3 xt 3 + … + β xtK +et K Os coeficientes β 1.O modelo com três variáveis No modelo de regressão múltipla geral.2. nós dizemos que ele é um modelo de regressão múltipla.xls) Cada semana. assumimos que a receita total. p. βk mede o efeito de uma mudança na variável de yt. β O parâmetro valor esperado O parâmetro β 1 K são parâmetros desconhecidos. Quando tornamos um modelo econômico com mais de uma variável explicativa em um modelo estatístico correspondente. Exemplo (receita preço e gastos com propaganda. Fernanda Queiroz 11 . os graus de liberdade para a distribuição t mudarão e nós necessitaremos modificar as hipóteses concernentes as características das variáveis explicativas (x). se uma redução de preço levar a um aumento da receita total. inicialmente. o gerente de uma rede de lanchonetes deve decidir quanto gastar com propaganda e que promoções (como preços mais baixos) deveria oferecer. é o termo de intercepto. Nós. então a demanda é elástica.1. 7. Reduzir os preços aumentará ou diminuirá a receita total? Se uma redução de preço levar a uma diminuição da receita total. Existem pequenas mudanças na interpretação dos parâmetros β . é linearmente relacionada com o preço. e com os gastos em propaganda. Assim.Prof. o aumento na receita total é suficiente para justificar uma elevação nos gastos com propaganda? O gerente também está interessado na estratégia de preços. a. RT.…. Como se altera a receita total à medida que o nível de gastos com propaganda muda? Um aumento nos gastos com propaganda elevaria a receita total? Se afirmativo. todas as outras variáveis mantidas xtk sobre o constantes. β 2. o modelo econômico é: RT = β1 + β2 p + β3 a Análise de Regressão . então a demanda é inelástica.7. Grande parte dos resultados desenvolvida para o modelo de regressão simples pode ser estendida naturalmente para esse caso geral. Regressão Múltipla 7. E(yt).

Resultados O coeficiente negativo de pt sugere que a demanda é elástica em relação ao preço e nós estimamos que um aumento em $1. a ganho de receita total seria de $104. esse parâmetro não tem uma interpretação econômica clara. Isso é obviamente incorreto. O intercepto estimado implica que se tanto o preço como o gasto com propaganda forem zero. p representa o preço naquela semana e a é o nível de gastos com propaganda durante aquela semana. β 1. uma redução no preço de $1.642. No modelo de regressão múltipla. Nesse modelo. O coeficiente da propaganda é positivo e nós estimamos que um aumento no gasto com propaganda de $1. colocando positivamente.642. é o valor da variável dependente quando cada variável explicativa assume o valor zero.onde RT representa a receita total para determinada semana. assim como em outros.00 no preço levará a uma queda na receita semanal de $6. Ele ajuda a estimação global do modelo e na previsão. Fernanda Queiroz 12 . que é o caso de β 2 < 0.3. o intercepto é incluído no modelo para melhorar a capacidade de previsão dele e dar uma especificação matemática mais completa Análise de Regressão .790. uma demanda elástica em relação ao preço ocorre se um aumento nos preços conduzir a uma queda na receita.000. O parâmetro β propaganda 3 descreve a resposta da receita a mudanças no nível de gastos com 7. O sinal de β 2 pode ser positivo ou negativo. então β 2 > 0. Se um aumento nos preços levar a um aumento da receita.00 levará a um aumento na receita de $6.984.000.Prof. o parâmetro intercepto. Tanto RT como a são mensurados em termos de milhares de unidades monetárias. Em muitos casos. Ou. e a demanda para a rede de lanchonetes é inelástica. mas ele é quase sempre incluído no modelo de regressão.000 resultará em uma elevação da receita total de $2. Inversamente.

ˆ RTt = 104. O sinal negativo do preço implica que a redução desse aumentará a receita total. Uma medida alternativa para mensurar a qualidade do ajustamento é chamada de R2 ajustado. R2. A inclusão adicional de variáveis independentes ou explicativas provavelmente aumentará o valor de R2. A interpretação é que 86. Esta apresenta uma distribuição F com k-1 e n-k graus de liberdade. Fernanda Queiroz 13 . Portanto. 7.5. predizer valores da variável dependente para valores das variáveis explicativas distantes dos valores amostrais é um convite para o desastre .642 pt + 2. é definido como a proporção da variação total em y que é explicada pela regressão múltipla de Y em relação a X1 e X2. geralmente. como símbolo.79 − 6. O coeficiente de determinação múltipla O coeficiente de determinação múltipla. se k e n diferem entre equações. Uma dificuldade com o R2 é que ele pode ser aumentado pela inclusão de novas variáveis. A extrapolação dos resultados para valores extremos não é geralmente uma boa idéia. e tem.984at Observação: Uma palavra de atenção para a interpretação dos resultados da regressão.7% da variação na receita total é explicada pela variação no preço e pela variação no nível de gastos com propaganda. porque nós não deveríamos ir reduzindo o preço até zero? Obviamente que não conseguiríamos manter a elevação da receita total. ele é usualmente apresentado pelos programas de regressão. onde n é o número de observações e k é o número de parâmetros estimados: F= ( SQER − SQEU ) J SQEU ( T − K ) Análise de Regressão . Isso aponta para um importante ponto: modelos de regressão estimados descrevem a relação entre as variáveis econômicas para valores semelhantes dos encontrados na amostra de dados. Ele é calculado como R2 = 1− SQE /(T − K ) SQT /(T − 1) 7. mesmo se as variáveis acrescentadas não apresentarem qualquer justificativa econômica. Em geral.Prof. Se tomarmos isso literalmente. Teste de significância global da regressão A significância global da regressão pode ser testada pela razão da variância explicada com a variância não explicada. O valor de R2 depende do número de variáveis explicativas (k) e do tamanho da amostra (n). os coeficientes de determinação não são adequadamente comparáveis.4.

nenhuma das variáveis explicativas influenciam o y e assim nosso modelo é de pouco ou nenhum valor. Fernanda Queiroz 14 .Exemplos:         Produção de soja Faturamento do comércio em relação às vendas e taxa de juros Fatores que influenciaram na produção de máquinas agrícolas Fatores que influenciaram a produção e venda de veículos nacionais Determinantes da produção mundial de arroz Determinantes da demanda por energia elétrica Determinantes do rendimento médio das pessoas ocupadas Determinantes dos preços dos imóveis em Natal Análise de Regressão . então a estatística F tem uma distribuição F com J graus de liberdade no numerador e T-k graus de liberdade no denominador. 7.Prof. Se a hipótese alternativa H1 for verdadeira. qual dessas variáveis pode ser. nós elaboramos as seguintes hipóteses nula e alternativa H 0 : β2 = 0. Hipóteses básicas :       Relação é Linear Regressores tem variabilidade Erros tem média zero Erros tem variância constante Erros são independentes (não correlacionados) Distribuição dos erros é normal 7. β 3 = 0. Nós comparamos o valor de F com um valor crítico Fc o qual deixa uma probabilidade α na cauda superior da distribuição F com J e T-k graus de liberdade Uma importante aplicação do teste F é para o que chamamos de “teste da significância global do modelo”.8 .Se a hipótese nula for verdadeira. Nós rejeitamos a hipótese nula se o valor da estatística do teste F se tornar muito grande. contudo.6. Para examinar se temos um modelo viável. β K = 0 H1 : pelo menos um dos βk não é zero Se essa hipótese nula for verdadeira. … . então pelo menos um dos parâmetros não é zero. Considere novamente o modelo geral de regressão múltipla com (K − 1) variáveis explicativas e K coeficientes desconhecidos. A hipótese alternativa não indica.

5) Para que serve o teste F.2 676.19 1.2 709.3 1.Prof. Com base nestes dados.6 747.35 1. Fernanda Queiroz 15 . heterocedasticidade.23 1.18 1.9 698.15 1.14 1.1 663.6 667.32 1.2 1.6 667.22 1.35 1.2 673.4 676.4 750 741.2 684.22 1.27 1.1 704.2 1.6 745.1 672.35 1.35 1.16 1.6 preço frango R$ 1.8 696.26 1.13 1.EXERCÍCIOS 1) O quadro abaixo informa a quantidade demandada de frango.8 722 715 721.7 691.28 1.00 na renda provoca qual impacto no consumo de frango.23 1.29 1. construa uma regressão do consumo em função do preço e da renda. autocorrelação Análise de Regressão .34 1.24 1.5 742.5 722. o preço médio por quilo do frango e a renda média da população. Problemas na análise de regressão: multicolinearidade.25 1. Período jan/05 fev/05 mar/05 abr/05 mai/05 jun/05 jul/05 ago/05 set/05 out/05 nov/05 dez/05 jan/06 fev/06 mar/06 abr/06 mai/06 jun/06 jul/06 ago/06 set/06 out/06 nov/06 dez/06 jan/07 fev/07 mar/07 abr/07 mai/07 Consumo frango (tonelada) 757.21 1. 6) Por que na regressão múltipla devemos analisar o R2 ajustado ao invés do R2.2 671 716.8 685. 4) Um aumento de R$ 100.3 1.00 no preço provoca qual impacto no consumo de frango.7 661.19 Renda média (R$) 650 625 580 585 610 610 595 600 575 575 570 605 605 590 560 590 590 600 585 565 580 608 605 615 645 625 640 620 615 2) Analise os resultados encontrados (estatisticamente e economicamente). 3) Um aumento de R$ 1.9 675.17 1.4 686.

5 1990/4 100.8 11.6 12 1990/2 75.4 110. Ano / Trimestre Função Consumo 1 2 3 Consumo (US$ bilhões) Renda (US$ bilhões) Taxa de juros (% a.8 105.4 12.75 1992/3 90.a.8 102.6 115.5 1990/2 79.9 93.1 98.3 99.25 Análise de Regressão .6 12 1993/1 65.6 127.) 1990/1 72.5 1993/4 86.4 11.multicolinearidade Hipótese básica: Cada variável independente Xi não pode ser combinação linear das demais.3 108.2 115.5 1992/2 84.25 1992/4 82.6 112 11 1990/4 93. Fernanda Queiroz 16 . X4 = 2X2 + 3X3 + 4 O termo multicolinearidade designa a alta correlação entre as variáveis.9 103.1 11.2 13 1993/3 63.5 10.2 105. A violação desta hipótese ocorre quando a variação de uma variável é decorrente da variação da outra.7 12.Prof.6 97.3 10.2 10. Exemplo: X3 = 2X2 X3 = X2 + 3 Ou ainda.25 1993/2 70.8 .8 11 1990/3 87.8 10.2 120.5 1990/3 89.75 1990/1 87.7 128 10 1991/1 92. envolvendo mais de duas variáveis.3 12.

Multicolin R= .9070 Beta Std.13). t(13) p-level of Beta of B 111.0967 3.Err.519084 0. B Std.Os resultados da estimação do modelo são dados na tabela seguinte: N=16 Intercept Renda (US$ bilhões) Taxa de juros (% a. Observando o valor p-value todos os coeficientes não são signifcantes.28826 1.00020 Std.29831 0. O valor tabela é 3.216742 -0. pelo teste F concluímos que o modelo de regressão é válido.088763 Repare que o valor tabelado da estatística t. Fernanda Queiroz 17 .66796 0.6.282167 -6. Imaginar que o nível de consumo não depende da renda disponível é surpreendente. Com nível de significância de 10% Se a regressão foi aceita pelo teste F.119216 0. a pergunta que fica é: Por que os dois parâmetros não são significantes (pelo menos a 5%)? O que deu errado com o teste t? A resposta esta na natureza da variável.) Regression Summary for Dependent Variable: Consumo (US$ bilhões) (Aula 3 . A correlação amostral entre a taxa de juros e a renda é: -0.31407 -1.13)=17.645 p<. Esse resultado é.86 Análise de Regressão .a. Há uma forte influência da taxa de juros real sobre a renda.68938239 F(2.73079807 Adjusted R²= . é 2.85486728 R²= . Como o valor encontrado foi em torno de 17.81. considerando-se 5% de significância e 13 graus de liberdade.84031 1.Prof.3742 0.83963 0.366340 0. Mais estranho ainda é analisar o teste F (2. no mínimo estranho.282167 0.Err.Error of estimate: 5.4873 66.160.

Observar o comportamento dos coeficientes quando adicionamos ou retiramos variáveis ou quando há mudanças na amostra. O que fazer quando há multicolinearidade?  Retirar a variável correlacionada: Como as variáveis são altamente correlacionadas ela já capta o efeito das alterações na variável retirada. isto é. tornandose desnecessária.Correlations (Aula 3 . Identificar a correlação entre as variáveis também é uma forma de identificar a presença da multicolinearidade.860181 0. Se ocorrerem mudanças muito drásticas. pelo menos. acompanhado de estatististicas t para os coeficientes pouco significantes. temos aí uma evidência de que há multicolinearidade no modelo.) Consumo (US$ bilhões) 1.000000 -0. especialmente quando ele é muito esperado. inclusive nos sinais de tais coeficientes.000000 -0.860181 1. Sinais dos coeficientes diferentes do esperado. Contudo.Prof.a.  Aumentar a amostra: Em muitos casos. ou.Multicolinearidade) Renda (US$ bilhões) Taxa de juros (% a. Fernanda Queiroz 18 . esta correlação pode não existir na população e um aumento das observações poder refletir melhor o fato. ou até mesmo não siginificantes.812845 -0.834202 1.000000 Como identificar a multicolinearidade? Uma maneira de identificar a multicolinearidade. é obter um teste F bastante significante (ou um R2 alto). suspeitar fortemente que ela existe.) Variable Renda (US$ bilhões) Taxa de juros (% a. Análise de Regressão . este procedimento pode ferir a teoria econômica.a.812845 -0. a correlação alta pe decorrente da própria amostra.834202 Consumo (US$ bilhões) 0.

155674 0.537 3.812845 0. foram obtidos os valores da tabela abaixo.119 1. Faça uma regressão que tome como variável dependente o preço do imóvel e como variáveis explicativas as variáveis: distância ao centro.264 p<.521 Análise de Regressão .950 6 82.Error of estimate: 6.104 2. calcule as correlações amostrais entre as variáveis explicativas.624 4 64.520 5 3 Dormitórios 2 2 3 4 2 3 2 3 4 2 3 1 1 2 4 4 Área (m2) 94 96 116 149 98 115 93 119 142 93 122 72 72 97 148 5 Renda mensal (R$) 3. t(14) p-level of Beta of B -7.3902 Beta Std.151 3 85.451532 0.Err.141 6 30.663 3 80.Prof.386 7 48.174 3.580 2. faça as alterações no modelo que você julgar relevante e discuta os resultados obtidos.Multicoline R= .479 4 41.15903 5.83039 0.Retirando uma variável da amostra: o resultado é: N=16 Intercept Renda (US$ bilhões) Regression Summary for Dependent Variable: Consumo (US$ bilhões) (Aula 3 .683 2.14)=27.Err.221452 0.135 1 107.573 2 99.658522 0. área do imóvel e renda mensal do chefe da família.068 549 1.195 5 40.926 6 20.031 1.062 7 65. com estes últimos resultados. B Std. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 2 Preço (R$) Distância (Km) 107.66071761 Adjusted R²= .81284538 R²= . Fernanda Queiroz 19 .85898 17.000129 Exercício: Em uma cidade.512 2.072 2.043 671 1.549 1.63648315 F(1. Realizada essa estimação.40514 -0.750 2 108.614 3 74. número de dormitórios.00013 Std.

996615 0.869145 0.084663 -0.493743 0.011647 0. Distância (Km) 0. B Std.Multi Exercicios) R-square column contains R-square of respective variable with all other independent variables Toleran.Error of estimate: 6686.068230 Análise de Regressão .096065 0.2 16737.974275 -0.323239 0.175936 0.993517 1.291788 N=15 Intercept Distância (Km) Dormitórios Área (m2) Renda mensal (R$) entre elas o número de dormitórios e a área útil.98102669 R²= .112898 0.96241336 Adjusted R²= .974275 0.1 Beta Std.10)=64.000000 Existe uma elevada correlação entre as variáveis renda e distância.331971 0.863856 -0.096065 1. fazendo com que a área útil dos apartamentos esteja altamente correlacionada ao número de dormitórios.977696 Preço (R$) -0.405146 1. Nesse casos.766981 0.157212 -0.993517 0. Regression Summary for Dependent Variable: Preço (R$) (Spreadsheet27 in Aula 3 .94737870 F(4. Cor.7 32.3 -0.3 0.Multi Exercicios) R= .171642 1.157212 0.084663 0.00000 Std. renda e preço.568744 -12837.568078 585.1 129999. Correlações Parciais Redundancy of Independent Variables.998219 -0.010786 Dormitórios 0.055550 0.183593 0. é possível que o tamanho dos aposentos também não varie.Correlação amostral entre as variáveis explicativas: Correlations (Spreadsheet27 in Aula 3 .003385 0.436216 0. R-square Partial Semipart Variable Cor.2 16103. t(10) p-level of Beta of B -42021.Err.235707 -0.Err.2 673.977696 1.183593 -0.000000 -0.053803 2833.998219 0.000000 0. Imagine um modelo que relaciona o preço de apartamentos a diversas características.053285 Renda mensal (R$) 0. talvez fosse melhor substituir o preço total dos apartamentos pelo preço por metro quadrado. DV: Preço (R$) (Spreadsheet27 in Aula 3 .Multi Exercicios) Distância (Km) Dormitórios Área (m2) Renda mensal (R$) Variable Distância (Km) Dormitórios Área (m2) Renda mensal (R$) Preço (R$) 1.003391 0.265020 0. Fernanda Queiroz 20 .013 p<.047022 Área (m2) 0.011620 0.118473 -0.996609 0.052785 35.3 0. preço e distância.129077 0. Se esse estudo fosse realizado em um bairro ou uma pequena cidade onde o padrão dos imóveis não varia muito.Prof.753172 0.118473 1.460817 0.000000 0.9 -0.988353 0.000000 0.988380 -0.129077 0.185402 1.1 1.

o que torna a variância dos salários nesse caso muito alta. Tal problema é mais freqüente em séries não temporais.  Mas a situação muda muito no que se refere ao erro: para aqueles com pouco ou nenhum estudo. A violação desse   a) Ordenar provavelmente provoca a heterocedasticidade) b) Dividir a amostra em duas partes c) Estimar as regressões separadas e obter a soma dos quadrados dos resíduos para cada subamostra (n . cross section.c) observações. A principal conseqüência da heterocedasticidade é que o método dos mínimos quadrados não gera estimativas de parâmetros eficientes ou de variância mínima. fazendo com que a variância seja muito pequena. var (et) = σ pressuposto é a heterocedasticidade. o que implica erros-padrões viesados e incorreção dos testes t e F. Como identificar a heterocedasticidade? • Teste de Quandt-Goldfeld as observações de modo crescente (variável independente que 2 . seja constante. Fernanda Queiroz 21 .Prof. A relação certamente existe.9 .Heterocedasticidade É desejável que a variância dos resíduos et. ou seja. Imagine uma regressão onde estamos fazendo uma pesquisa de salários em função dos anos de estudo. onde σ é uma constante. gerados pela estimação de um modelo. os salários não deverão variar muito. mais do que pessoas pouco escolarizadas. embora se espere que ganhem mais. Nesse caso. Análise de Regressão . pois pessoas com vários anos de escolaridade ganham.  No caso das pessoas com muitos anos de estudo. é possível que uma pessoa desse grupo tenha problemas em avançar na carreira ou se torne proprietário de uma grande empresa. em média.

k-1 graus de liberdade Onde n= nº total de observações C = nº de observações omitidas K = nº de variáveis explicativas incluídas no modelo. as variâncias se tornaram constantes e iguais a 1. qt = b1 + b2pt + b3t + e . e) Se F observado > F crítico para (n-c)/2.. Análise de Regressão .26 para as 13 1 para as 13 primeiras observações e por π 2 1 =1 qt = b1 1 + b2pt + b3t + e π 2 π 2 π 2 π 2 π =1 2 Deste modo. logo não existe mais o problema da heterocedasticidade. var (et) = π ²1 qt = b1 + b2pt + b3t + e ... var (et) = π ²2 Dividindo cada variável por π últimas observações temos: qt = b1 1 + b2pt + b3t + e π 1 π 1 π 1 π 1 π para t = 1.F = SQR 2 / SQR 1 SQR2 = Soma dos quadrados dos resíduos dos valores mais elevados de X SQR1 = Soma dos quadrados dos resíduos dos valores mais baixos de X d) Estatística F com (n-c)/2.13 para t = 14. k-1 graus de liberdade.2.. Como corrigir a heterocedastividade (Exemplo: Trigo na Austrália – livro texto) Utilizar o método dos mínimos quadrados generalizados por meio de uma transformação no modelo.15.. a hipótese nula de homocedasticidade será rejeitada.Prof.. Fernanda Queiroz 22 .

isto é.Prof. portanto. E (ei. ej) = 0 para i ≠ j. os resíduos são correlacionados entre si. Fontes de autocorrelação    Omissão de variável Erro de especificação: Má especificação do verdadeiro termo aleatório: Testes para detectar a presença de autocorrelação O teste de Durbin-Watson é o mais utilizado para diagnosticar a autocorrelação serial Análise de Regressão . Autocorrelação significa dependência temporal dos valores sucessivos dos resíduos (erro). (1) se ρ < 0 a autocorrelação será negativa. além de seu erro-padrão ser viesado. isto é: et = ρ et-1 + vt ρ >0. não apresentam variância mínima.Autocorrelação Dos Resíduos Os erros para diferentes observações (domicílios ou firmas) não devem ser autocorrelacionados. A ausência de autocorrelação significa. Em termos formais. Conseqüências Quando os resíduos são autocorrelacionados. isto é. considere o seguinte modelo linear simples: Yt = b1 + b2Xt + et. Desta forma. Fernanda Queiroz 23 . as estimativas de MQO dos parâmetros não são eficientes. a autocorrelação dos resíduos implica que E(eiej) ≠ 0 para i ≠ j. a autocorrelação significa a correlação de uma variável com valores defasados (com diferenças no tempo) dela mesma. o que conduz a teste de hipóteses e intervalos de confiança incorretos.As novas variáveis são: qt = π 2 1 + pt + t π 2 π 2 π 2 10 . Autocorrelação positiva: os resíduos são diretamente relacionados entre si.

Durbin-Watson d ≈ 2 -> os erros do modelo não são autocorrelacionados. Y* = Yt .Se ρ Se ρ Se ρ = 0.Prof. O que fazer quando há autocorrelação: É necessário corrigir o problema.ρ Xt-1 Análise de Regressão .ρ yt-1 X* = Yt . refazendo a estimação e transformando as variáveis. = 1 Durbin-Watson d ≈ 0 -> autocorrelação positiva. = -1 Durbin-Watson d ≈ 4 -> autocorrelação negativa. Fernanda Queiroz 24 .

You're Reading a Free Preview

Descarregar
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->