ANÁLISE DE REGRESSÃO

1 - Introdução........................................................................................................................................................2 2 - Exemplos de previsão:....................................................................................................................................2 3 - Natureza dos dados..........................................................................................................................................3 4 - Causalidade.....................................................................................................................................................3 5 - Regressão Simples...........................................................................................................................................4 6. Inferência no modelo de regressão...................................................................................................................7 7. Regressão Múltipla.........................................................................................................................................11 8 - multicolinearidade.........................................................................................................................................16 9 - Heterocedasticidade.......................................................................................................................................21 10 - Autocorrelação Dos Resíduos.....................................................................................................................23

Análise de Regressão - Prof. Fernanda Queiroz

1

Análise de Regressão Prof. Dra. Fernanda C.B. Pereira Queiroz

www.ipeadata.gov.br www.fgvdados.com.br
1 - Introdução A análise de regressão tem três funções relacionadas:
 

testar teorias. Por exemplo, o consumo é diretamente relacionado com a renda? A quantidade demandada de um bem é inversamente relacionada com o seu preço? estimar relações entre variáveis. Por exemplo, o responsável pela política econômica necessita ter uma estimativa precisa da relação entre taxa de juros e inflação a fim de determinar o novo valor dos juros na reunião do COPOM. Projetar eventos. Qual será o consumo de carne nos próximos anos? Qual será a demanda de carros no próximo ano?

O produto final deste estudo é um Modelo cuja construção é efetuada com a utilização: 

 

da teoria da matemática de métodos estatísticos e com análise crítica

Nós expressamos nossas idéias sobre relações entre variáveis econômicas, utilizando o conceito matemático de função. Por exemplo, para expressarmos uma relação entre renda i e consumo c, podemos escrever C = f(i) A demanda para um bem individual, digamos um carro Renault Clio pode ser expressa como

q d = f ( p, p s , p c , i)
A quantidade demandada de Clios, qd, é uma função do preço do Clio p, do preço de carros que são substitutos ps e do preço de itens que são complementares pc, como gasolina e o nível de renda i. 2 - Exemplos de previsão:

Os plantadores de arroz de Mato Grosso decidem estimar a quantidade produzida com base na área plantada e na quantidade de fertilizante utilizada.

Análise de Regressão - Prof. Fernanda Queiroz

2

Prof. Uma empresa precisa estimar. 3 . se a receita proveniente desta taxa subirá ou cairá. Taxa de desemprego mensal.  PIB dos países latino-americanos no primeiro trimestre de 2010  Arrecadação dos municípios do RN em 2010 Séries temporais (conjunto de dados seqüenciais observados em intervalos de tempo)   Retornos diários do IBOVESPA. a demanda de copos descartáveis que haverá daqui há 3 anos. Um empresário deve prever em quanto a população e a renda aumentarão nos próximos anos em Natal e se será lucrativo implantar um empreendimento comercial (Rener / Lojas Americanas / Pernambucanas). A análise de regressão estuda a relação causal entre uma variável econômica a ser explicada (variável dependente y) e uma ou mais variáveis independentes ou explicativas (X). 4 . Análise de Regressão . portanto.Natureza dos dados Dados seccionais ou de corte (Dados de “indivíduos” observados em um determinado instante de tempo)  Altura de indivíduos selecionados aleatoriamente (amostra aleatória) em um determinado instante de tempo. no momento em que ela avalia quanto investir em uma nova fábrica e em equipamentos.Causalidade Um dos objetivos de todo tipo de explicação é estabelecer as causas dos fenômenos observados no tempo e espaço:   Quais as causas do desemprego? Quais as causas das desigualdades sociais? A noção de causalidade está intimamente associada à possibilidade de uma variável gerar mudanças em outra variável.   Uma universidade precisa estimar quanto as matrículas cairão se a taxa for elevada 10% por semestre e. Fernanda Queiroz 3 .

3 pontos importantes:    Dado que não há uma relação precisa entre y e x. as relações econômicas entre as variáveis econômicas são inexatas e. quaisquer duas variáveis que. regressando. ou seja. causa. O objetivo é explicar y em função de x. Fernanda Queiroz 4 . a fim de tornála probabilistica (i. variável explicada. entrada. algumas vezes.Regressão Simples Sejam y e x duas variáveis representando alguma população. e não o contrário. variável explicativa. Terminologia: y: variável dependente. u: erro. que chamaremos genericamente de Y e X . variável prevista.mas que poderiam ser consumo e renda. que x é a variável independente e y a variável dependente.e. supostamente. enfim. a fim de refletir o fato que. saída. O erro deve ser incluído na relação exata postulada pela teoria econômica. no mundo real. variável de resposta. y é afetado por x. tenham relação entre si. x: variável independente. preditor. Regressão: modelo que estabelece a relação entre as variáveis: b1 = y −b1 x Imagine duas variáveis. como levar em conta outros fatores que afetam y? Qual a relação funcional entre y e x? Como capturar uma relação entre y e x (se for o caso)? Solução: Considere a seguinte equação relacionando y e x Y = b0 + b1X + e Esta equação linear é conhecida como modelo de regressão simples. Suponhamos .5 . isto pe. ainda.Prof. y = b1 + b2x + e b1: coeficiente linear b2: coeficiente angular e = erro (eventos aleatórios) y = variável dependente x = variável independente Análise de Regressão . regressor. efeito. como y varia de acordo com mudanças em x. salários e anos de estudo. variável de controle. erráticas). distúrbio ou ruído.

00 800. Fernanda Queiroz 5 .00 150. Para tanto. SQT = soma dos quadrados totais SQE = soma dos quadrados explicados SQR = soma dos quadrados dos resíduos R2 = ˆ ∑( y − y ) ∑( y − y ) 2 2 A soma dos quadrados dos resíduos é uma parcela pequena do total e a soma dos quadrados explicados é uma parcela importante.00 y = 0.00 Renda Semanal (Gastos com alimentação e renda.000.  Projetar ou estimar uma das variáveis em função de outra 5.00 1.400.00 600.1 Método dos mínimos quadrados Encontrar a reta de regressão significa encontrar os estimadores b1 e b2.00 1.200.1194x + 47. utilizamos as seguintes fórmulas: b 2= n  ∑ xt yt −∑ xt ∑ yt 2 n  ∑ x 2−  ∑ x t  t Análise da variância A análise da variância envolve dividir a variável y em duas partes: a parte explicada pela regressão e a não explicada (resíduos).Relação entre as variáveis x e Y 300.00 250.00 100.553 200.Prof.xls) Objetivos da análise de regressão:  Descrever e compreender a relação entre duas variáveis aleatórias. R2 = coeficiente de determinação = SQE / SQT Análise de Regressão .00 1.00 400.00 Gastos com alimentação (R$) 200. Essa proporção é conhecida como coeficiente de determinação ou simplesmente R2.00 50.

tendem-se a escolher a primeira. Log-linear (exponencial): muito utilizado para medir a taxa de crescimento Linear-log: Log-inverso: Y = b1 + b2x +e +e 1 Y = b1 + b2 x Ln (y) = b1 + b2 LN(x )+ e Ln (y) = b1 + b2X +e Y = b1 + b2 ln(x) + e Ln (y) = b1 . Poder preditivo: A forma funcional deve ajustar-se aos dados afim de auxiliar nas previsões. se ambas explicam o fenômeno de modo igualmente bem. ˆ yi = yi a zero significa que não há nenhuma relação entre o 5. Um R2 próximo a um significa um perfeito ajuste. em qualquer regressão 0 <= R 2 <=1. para todo i. A expressão linear nos parâmetros significa que os parâmetros não são multiplicados entre si. Então.3 – Escolha da forma funcional A regressão busca construir modelos que simplifiquem a realidade. Por outro lado. Por este motivo. O R2 mede a proporção ou a percentagem da variação total em y explicada pelo modelo de regressão. Critérios de escolha da forma funcional Simplicidade: entre uma forma funcional simples e uma complexa. ela não pode ser negativa. de estudos anteriores e do conhecimento sobre as condições específicas. Indicação da teoria econômica: O uso de várias formas funcionais e a escolha da que apresenta resultados mais satisfatórios deve ser realizado tendo como base a teoria econômica. É muito utilizado em modelos de demanda e modelos de oferta. um R2 igual previsto e o realizado.É impossível que SQE seja maior do que SQT e. Formas funcionais comumente utilizadas Linear: descreve o ajustamento de uma reta aos dados originais Inverso: Na medida em que x aumenta y tende para o intercepto Log-Log (logarítmico): o logaritmo aparece em ambos os membros da equação. como se trata de uma soma de quadrados. nem elevados ao quadrado. muitos pesquisadores escolhem a forma linear.b2 (1/x )+e Análise de Regressão . As informações para a construção do modelo vêm da teoria econômica. isto é. nem divididos. Fernanda Queiroz 6 . sendo válido expressá-lo como um percentual.Prof. .

1 . Isto é.β 1 ~ t(n-2) dp(b1) Recorrendo-se às tabelas. Isto é. sendo que: P(t ≥ tc) = P (t ≤ tc) = α 2 Intervalo de confiança para b2 e b1 b2 +. Inferência no modelo de regressão Estimação de intervalos: Uma variável normal padronizada baseia-se na distribuição normal do estimador de mínimos quadrados ordinários. o valor do parâmetro estará dentro do intervalo informado. Este intervalo é conhecido como intervalo de confiança. supõe-se que determinado parâmetro é igual a um número. se eu fizer o procedimento amostral 100 vezes. Os valores encontrados fazem sentido? α α A hipótese nula (que chamaremos de H0) geralmente é uma igualdade. t = b1 . Por isso. Teste de hipóteses: Testa a hipótese de um parâmetro ter ou não um valor especificado. pode-se achar os valores críticos tc de uma distribuição t(m).tc α ep (b2) 2 b1 +. em vez de confiar apenas na estimativa do ponto.α = intervalo de confiança α = nível de significância O intervalo de confiança serve para indicar o valor verdadeiro do parâmetro populacional com determinado grau de probabilidade. Na estatística. trabalhamos com a estimativa de intervalo. Para determinar o intervalo de confiança utiliza-se a variável aleatória t com (n-2) graus de liberdade.6.Prof. A hipótese alternativa (chamada de H1) contradiz a hipótese nula.tc α ep (b1) 2 O valor tc é encontrado na tabela t com n-2 graus de liberdade. Fernanda Queiroz 7 . a confiabilidade de uma estimador é medida pelo seu erro padrão. EXERCÍCIOS Análise de Regressão . ao menos em 95 delas.

573 dormitórios 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 Análise de Regressão .151 105.479 85.141 64.663 89. 4) O funcionário Pedro realizou 250 visitas neste mês. Obter a regressão das vendas em função das visitas e explicar os resultados.062 40.000 74.1) O gerente de vendas está sempre insistindo com os vendedores que a venda dos seus produtos tem forte relação com as visitas realizadas pelos vendedores aos clientes.Prof.195 65.750 108. Quantas vendas espera-se que ele realize? 5) Construa a regressão que explique o preço dos imóveis em função do número de dormitórios. Faça também a regressão log-linear. Vendedor André Fernando Nilane Márcia Samira Fernando Maria Josiel Emanuela Vanessa AlexIA Vendas 40 42 50 51 55 60 66 78 87 87 105 Visitas 70 95 110 140 135 235 190 220 280 320 330 2) Construa o intervalo de confiança e faça o teste de hipóteses 3) Qual o valor do coeficiente de determinação.926 48. Qual das duas é melhor? Preço (R$) 20.000 107.950 41. Explique o que significa. Fernanda Queiroz 8 .614 82.624 80.386 30.

0 = 4. um ano a mais de estudo provoca um aumento de quanto no salário? Há discriminação no mercado de trabalho.1 .05 não rejeita-se H0. ou a presença ou a ausência de uma condição.05.05. A hipótese alternativa é H1:b2 ≠ 0 Etapa 2 = Escolha o nível de significância. a outra. Caso contrário. Valor p: é o menor valor de α para o qual rejeitamos a hipótese nula. Por quê? D = 0. para um valor p > 0. rejeita-se H0. Do ponto de vista econômico. ou seja os valores dos parâmetros são diferentes de zero. e 0 . se o trabalhador for do sexo feminino D = 1. Assume apenas dois valores: 1. se o trabalhador for do sexo masculino salário anos de estudo sexo salário anos de estudo sexo Análise de Regressão .0195 > tc = 2. Na tabela abaixo constam os dados de salário médio. rejeitamos a hipótese nula e aceitamos a hipótese alternativa de que há relação entre a renda semanal e os gastos com alimentação.2 – Variáveis binárias Variável dummy ou binária é aquela que indica a ocorrência ou não de um evento.0195 0.119423 .0297 Como o valor calculado t = 4.024. Faça a regressão. que indica uma situação . então.05. anos de estudo e sexo.Prof.6. O valor crítico tc = 2.Exemplo das despesas com alimentação: Etapa1: Determine as hipóteses nula e alternativa A hipótese nula é H0:b2 =0. Se o pesquisador fixar α =0. Analise estatisticamente os resultados.024 Etapa 3 = Calcular o t T = 0. se o valor p for ≤ 0. 6. Fernanda Queiroz 9 . α = 0.

254.671.7 1.437.844.0 2.497.10 194.7 1 2 2 3 3 4 5 7 7 8 8 9 fem fem mas fem mas mas mas fem mas mas mas mas (continuação) 2.529. o padrão de construção.00 Análise de Regressão .90 73.5 1.50 39.890.30 229. para vários imóveis.8 2.3 789. a área.410.3 4.50 155.896.3 1.40 153.50 121.5 1.874.0 4.897. se há ou não piscina.90 149. teste a significância dos parâmetros e.70 68.939. se for o caso.0 2.391.3 3.352.70 186.0 508.90 189.20 232.1 3.5 2.00 151.653.6 3.70 272.4 1.2 2.583.5 2. padrão baixo alto alto alto baixo baixo baixo baixo alto alto alto alto alto alto alto baixo alto alto área vagas 100 1 150 1 200 2 180 1 130 1 89 1 95 0 50 0 200 3 210 2 250 3 280 2 365 3 150 1 240 2 70 0 135 1 140 2 piscina sim sim sim não não não não não sim sim sim sim sim não não não sim sim banheiros 1 2 3 2 1 1 1 1 2 3 3 4 4 2 3 1 2 2 preço 88. A seguir.0 1.559.9 551.317.596.7 9 11 11 11 13 13 14 16 16 17 18 19 19 mas fem fem mas fem mas fem fem mas fem mas fem mas 2) Na tabela abaixo são dados.70 157. Faça uma regressão do preço em função destas características. Fernanda Queiroz 10 .7 935. elimine um e refaça a estimação.Prof.2 857. o número de vagas na garagem e o número de dormitórios.169.00 339.8 2.70 85.

2. nós dizemos que ele é um modelo de regressão múltipla. o aumento na receita total é suficiente para justificar uma elevação nos gastos com propaganda? O gerente também está interessado na estratégia de preços. e com os gastos em propaganda. Existem pequenas mudanças na interpretação dos parâmetros β . o gerente de uma rede de lanchonetes deve decidir quanto gastar com propaganda e que promoções (como preços mais baixos) deveria oferecer. 7. inicialmente. Regressão Múltipla 7. a. é o termo de intercepto. assumimos que a receita total.7. RT. Grande parte dos resultados desenvolvida para o modelo de regressão simples pode ser estendida naturalmente para esse caso geral.…. βk mede o efeito de uma mudança na variável de yt. se uma redução de preço levar a um aumento da receita total. é linearmente relacionada com o preço. então a demanda é elástica. Fernanda Queiroz 11 .1. uma variável dependente yt é relacionada com um número de variáveis explicativas através de uma equação linear que pode ser escrita como: yt = β1 + β2 xt 2 + β3 xt 3 + … + β xtK +et K Os coeficientes β 1. p. os graus de liberdade para a distribuição t mudarão e nós necessitaremos modificar as hipóteses concernentes as características das variáveis explicativas (x).xls) Cada semana. então a demanda é inelástica. o modelo econômico é: RT = β1 + β2 p + β3 a Análise de Regressão . E(yt). Nós. Como se altera a receita total à medida que o nível de gastos com propaganda muda? Um aumento nos gastos com propaganda elevaria a receita total? Se afirmativo. todas as outras variáveis mantidas xtk sobre o constantes. Quando tornamos um modelo econômico com mais de uma variável explicativa em um modelo estatístico correspondente. Exemplo (receita preço e gastos com propaganda.O modelo com três variáveis No modelo de regressão múltipla geral. β O parâmetro valor esperado O parâmetro β 1 K são parâmetros desconhecidos.Prof. β 2. Assim. Reduzir os preços aumentará ou diminuirá a receita total? Se uma redução de preço levar a uma diminuição da receita total.

No modelo de regressão múltipla.3. e a demanda para a rede de lanchonetes é inelástica. Inversamente. o parâmetro intercepto.790. O sinal de β 2 pode ser positivo ou negativo. então β 2 > 0. o intercepto é incluído no modelo para melhorar a capacidade de previsão dele e dar uma especificação matemática mais completa Análise de Regressão . O coeficiente da propaganda é positivo e nós estimamos que um aumento no gasto com propaganda de $1. Resultados O coeficiente negativo de pt sugere que a demanda é elástica em relação ao preço e nós estimamos que um aumento em $1. Ele ajuda a estimação global do modelo e na previsão. Isso é obviamente incorreto. Nesse modelo. é o valor da variável dependente quando cada variável explicativa assume o valor zero. esse parâmetro não tem uma interpretação econômica clara. a ganho de receita total seria de $104. que é o caso de β 2 < 0.000. Em muitos casos. Ou.onde RT representa a receita total para determinada semana.00 levará a um aumento na receita de $6. Se um aumento nos preços levar a um aumento da receita.00 no preço levará a uma queda na receita semanal de $6.984. uma demanda elástica em relação ao preço ocorre se um aumento nos preços conduzir a uma queda na receita. O parâmetro β propaganda 3 descreve a resposta da receita a mudanças no nível de gastos com 7. uma redução no preço de $1. mas ele é quase sempre incluído no modelo de regressão. β 1. Tanto RT como a são mensurados em termos de milhares de unidades monetárias. Fernanda Queiroz 12 .642.Prof.000. O intercepto estimado implica que se tanto o preço como o gasto com propaganda forem zero. p representa o preço naquela semana e a é o nível de gastos com propaganda durante aquela semana.642. assim como em outros. colocando positivamente.000 resultará em uma elevação da receita total de $2.

porque nós não deveríamos ir reduzindo o preço até zero? Obviamente que não conseguiríamos manter a elevação da receita total.4.642 pt + 2. ele é usualmente apresentado pelos programas de regressão.Prof. os coeficientes de determinação não são adequadamente comparáveis. mesmo se as variáveis acrescentadas não apresentarem qualquer justificativa econômica. A interpretação é que 86. Teste de significância global da regressão A significância global da regressão pode ser testada pela razão da variância explicada com a variância não explicada. Fernanda Queiroz 13 .ˆ RTt = 104. Uma dificuldade com o R2 é que ele pode ser aumentado pela inclusão de novas variáveis. é definido como a proporção da variação total em y que é explicada pela regressão múltipla de Y em relação a X1 e X2.5. Uma medida alternativa para mensurar a qualidade do ajustamento é chamada de R2 ajustado. O coeficiente de determinação múltipla O coeficiente de determinação múltipla. Se tomarmos isso literalmente. geralmente.7% da variação na receita total é explicada pela variação no preço e pela variação no nível de gastos com propaganda. A inclusão adicional de variáveis independentes ou explicativas provavelmente aumentará o valor de R2.984at Observação: Uma palavra de atenção para a interpretação dos resultados da regressão. O valor de R2 depende do número de variáveis explicativas (k) e do tamanho da amostra (n). 7. O sinal negativo do preço implica que a redução desse aumentará a receita total. Em geral. predizer valores da variável dependente para valores das variáveis explicativas distantes dos valores amostrais é um convite para o desastre . A extrapolação dos resultados para valores extremos não é geralmente uma boa idéia. se k e n diferem entre equações. Ele é calculado como R2 = 1− SQE /(T − K ) SQT /(T − 1) 7. como símbolo. onde n é o número de observações e k é o número de parâmetros estimados: F= ( SQER − SQEU ) J SQEU ( T − K ) Análise de Regressão . e tem. Isso aponta para um importante ponto: modelos de regressão estimados descrevem a relação entre as variáveis econômicas para valores semelhantes dos encontrados na amostra de dados. R2. Esta apresenta uma distribuição F com k-1 e n-k graus de liberdade.79 − 6. Portanto.

Exemplos:         Produção de soja Faturamento do comércio em relação às vendas e taxa de juros Fatores que influenciaram na produção de máquinas agrícolas Fatores que influenciaram a produção e venda de veículos nacionais Determinantes da produção mundial de arroz Determinantes da demanda por energia elétrica Determinantes do rendimento médio das pessoas ocupadas Determinantes dos preços dos imóveis em Natal Análise de Regressão .Prof. Hipóteses básicas :       Relação é Linear Regressores tem variabilidade Erros tem média zero Erros tem variância constante Erros são independentes (não correlacionados) Distribuição dos erros é normal 7. Fernanda Queiroz 14 . então a estatística F tem uma distribuição F com J graus de liberdade no numerador e T-k graus de liberdade no denominador. Nós rejeitamos a hipótese nula se o valor da estatística do teste F se tornar muito grande. 7.8 .6. A hipótese alternativa não indica. contudo. então pelo menos um dos parâmetros não é zero. Para examinar se temos um modelo viável. β 3 = 0. Nós comparamos o valor de F com um valor crítico Fc o qual deixa uma probabilidade α na cauda superior da distribuição F com J e T-k graus de liberdade Uma importante aplicação do teste F é para o que chamamos de “teste da significância global do modelo”. nós elaboramos as seguintes hipóteses nula e alternativa H 0 : β2 = 0. qual dessas variáveis pode ser. nenhuma das variáveis explicativas influenciam o y e assim nosso modelo é de pouco ou nenhum valor. β K = 0 H1 : pelo menos um dos βk não é zero Se essa hipótese nula for verdadeira.Se a hipótese nula for verdadeira. Se a hipótese alternativa H1 for verdadeira. Considere novamente o modelo geral de regressão múltipla com (K − 1) variáveis explicativas e K coeficientes desconhecidos. … .

5) Para que serve o teste F. Fernanda Queiroz 15 .6 preço frango R$ 1.25 1. 3) Um aumento de R$ 1. Período jan/05 fev/05 mar/05 abr/05 mai/05 jun/05 jul/05 ago/05 set/05 out/05 nov/05 dez/05 jan/06 fev/06 mar/06 abr/06 mai/06 jun/06 jul/06 ago/06 set/06 out/06 nov/06 dez/06 jan/07 fev/07 mar/07 abr/07 mai/07 Consumo frango (tonelada) 757.8 722 715 721.1 663.23 1.00 na renda provoca qual impacto no consumo de frango.27 1.3 1.5 722. construa uma regressão do consumo em função do preço e da renda.7 691.35 1. autocorrelação Análise de Regressão .14 1.4 676.6 747.35 1.00 no preço provoca qual impacto no consumo de frango.3 1. Problemas na análise de regressão: multicolinearidade.9 698.19 Renda média (R$) 650 625 580 585 610 610 595 600 575 575 570 605 605 590 560 590 590 600 585 565 580 608 605 615 645 625 640 620 615 2) Analise os resultados encontrados (estatisticamente e economicamente).4 686.2 1.6 667.22 1.23 1.2 671 716.1 672.8 685. Com base nestes dados.24 1.17 1.8 696.26 1.4 750 741.35 1. o preço médio por quilo do frango e a renda média da população.18 1.6 667. 4) Um aumento de R$ 100.15 1.Prof.35 1.13 1.5 742. heterocedasticidade.2 676.34 1.21 1.1 704.9 675.2 684.29 1.2 673.2 1.16 1.22 1. 6) Por que na regressão múltipla devemos analisar o R2 ajustado ao invés do R2.2 709.EXERCÍCIOS 1) O quadro abaixo informa a quantidade demandada de frango.7 661.6 745.32 1.19 1.28 1.

6 115.3 99.5 10. Ano / Trimestre Função Consumo 1 2 3 Consumo (US$ bilhões) Renda (US$ bilhões) Taxa de juros (% a.6 97.25 Análise de Regressão .6 12 1990/2 75.1 11.8 11. Fernanda Queiroz 16 .8 .7 12.25 1993/2 70.8 105.25 1992/4 82.2 10.9 93.9 103.3 108.8 11 1990/3 87.8 102.5 1990/2 79.1 98. Exemplo: X3 = 2X2 X3 = X2 + 3 Ou ainda.2 120. envolvendo mais de duas variáveis.multicolinearidade Hipótese básica: Cada variável independente Xi não pode ser combinação linear das demais.4 11.8 10. X4 = 2X2 + 3X3 + 4 O termo multicolinearidade designa a alta correlação entre as variáveis.2 115.75 1990/1 87.) 1990/1 72.3 12.4 12.Prof.2 105.5 1992/2 84.5 1990/4 100.6 12 1993/1 65.3 10. A violação desta hipótese ocorre quando a variação de uma variável é decorrente da variação da outra.75 1992/3 90.5 1993/4 86.4 110.6 112 11 1990/4 93.7 128 10 1991/1 92.a.6 127.2 13 1993/3 63.5 1990/3 89.

4873 66.00020 Std.282167 0. Imaginar que o nível de consumo não depende da renda disponível é surpreendente.282167 -6.Prof. considerando-se 5% de significância e 13 graus de liberdade.81.13)=17.9070 Beta Std.a.Err.088763 Repare que o valor tabelado da estatística t.160.29831 0.216742 -0. pelo teste F concluímos que o modelo de regressão é válido.366340 0.13).84031 1.68938239 F(2. Esse resultado é. Observando o valor p-value todos os coeficientes não são signifcantes.83963 0.28826 1.3742 0. A correlação amostral entre a taxa de juros e a renda é: -0.6.31407 -1.Os resultados da estimação do modelo são dados na tabela seguinte: N=16 Intercept Renda (US$ bilhões) Taxa de juros (% a. B Std. t(13) p-level of Beta of B 111. a pergunta que fica é: Por que os dois parâmetros não são significantes (pelo menos a 5%)? O que deu errado com o teste t? A resposta esta na natureza da variável.Err. Com nível de significância de 10% Se a regressão foi aceita pelo teste F.Error of estimate: 5.) Regression Summary for Dependent Variable: Consumo (US$ bilhões) (Aula 3 .Multicolin R= .86 Análise de Regressão .645 p<. Há uma forte influência da taxa de juros real sobre a renda.85486728 R²= . O valor tabela é 3.66796 0. Fernanda Queiroz 17 . é 2. no mínimo estranho.519084 0.73079807 Adjusted R²= .0967 3. Como o valor encontrado foi em torno de 17.119216 0. Mais estranho ainda é analisar o teste F (2.

) Consumo (US$ bilhões) 1. especialmente quando ele é muito esperado. isto é. ou até mesmo não siginificantes.812845 -0. a correlação alta pe decorrente da própria amostra. este procedimento pode ferir a teoria econômica.) Variable Renda (US$ bilhões) Taxa de juros (% a. acompanhado de estatististicas t para os coeficientes pouco significantes.834202 Consumo (US$ bilhões) 0.860181 0.Correlations (Aula 3 . pelo menos. inclusive nos sinais de tais coeficientes.812845 -0. Identificar a correlação entre as variáveis também é uma forma de identificar a presença da multicolinearidade.a.  Aumentar a amostra: Em muitos casos. Se ocorrerem mudanças muito drásticas.Multicolinearidade) Renda (US$ bilhões) Taxa de juros (% a.834202 1. Análise de Regressão .Prof. suspeitar fortemente que ela existe.860181 1. Fernanda Queiroz 18 . Observar o comportamento dos coeficientes quando adicionamos ou retiramos variáveis ou quando há mudanças na amostra. é obter um teste F bastante significante (ou um R2 alto). temos aí uma evidência de que há multicolinearidade no modelo. ou. O que fazer quando há multicolinearidade?  Retirar a variável correlacionada: Como as variáveis são altamente correlacionadas ela já capta o efeito das alterações na variável retirada. Contudo. tornandose desnecessária. Sinais dos coeficientes diferentes do esperado.000000 -0. esta correlação pode não existir na população e um aumento das observações poder refletir melhor o fato.000000 Como identificar a multicolinearidade? Uma maneira de identificar a multicolinearidade.000000 -0.a.

104 2.580 2.81284538 R²= .85898 17.479 4 41.63648315 F(1.Err.135 1 107.624 4 64.068 549 1.221452 0.043 671 1.072 2.386 7 48.00013 Std.062 7 65. Faça uma regressão que tome como variável dependente o preço do imóvel e como variáveis explicativas as variáveis: distância ao centro.40514 -0.658522 0.520 5 3 Dormitórios 2 2 3 4 2 3 2 3 4 2 3 1 1 2 4 4 Área (m2) 94 96 116 149 98 115 93 119 142 93 122 72 72 97 148 5 Renda mensal (R$) 3.614 3 74.195 5 40.155674 0.683 2. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 2 Preço (R$) Distância (Km) 107.950 6 82.812845 0.3902 Beta Std. B Std.537 3. foram obtidos os valores da tabela abaixo.926 6 20.549 1.Retirando uma variável da amostra: o resultado é: N=16 Intercept Renda (US$ bilhões) Regression Summary for Dependent Variable: Consumo (US$ bilhões) (Aula 3 . área do imóvel e renda mensal do chefe da família. calcule as correlações amostrais entre as variáveis explicativas.141 6 30.151 3 85. número de dormitórios.174 3.512 2.451532 0.750 2 108.000129 Exercício: Em uma cidade.264 p<.521 Análise de Regressão .Err.663 3 80.14)=27.573 2 99.15903 5. faça as alterações no modelo que você julgar relevante e discuta os resultados obtidos.Error of estimate: 6.Prof. Fernanda Queiroz 19 . t(14) p-level of Beta of B -7.83039 0. Realizada essa estimação.119 1.Multicoline R= . com estes últimos resultados.66071761 Adjusted R²= .031 1.

Multi Exercicios) Distância (Km) Dormitórios Área (m2) Renda mensal (R$) Variable Distância (Km) Dormitórios Área (m2) Renda mensal (R$) Preço (R$) 1.3 -0.084663 -0.Error of estimate: 6686. Se esse estudo fosse realizado em um bairro ou uma pequena cidade onde o padrão dos imóveis não varia muito. Imagine um modelo que relaciona o preço de apartamentos a diversas características.323239 0.011647 0.998219 0.157212 0.Correlação amostral entre as variáveis explicativas: Correlations (Spreadsheet27 in Aula 3 . preço e distância.068230 Análise de Regressão .000000 0.977696 Preço (R$) -0.1 Beta Std. t(10) p-level of Beta of B -42021.055550 0. fazendo com que a área útil dos apartamentos esteja altamente correlacionada ao número de dormitórios.183593 -0.10)=64.00000 Std.568744 -12837.010786 Dormitórios 0.183593 0.405146 1.493743 0.2 673. Cor.Err.993517 0.157212 -0.996609 0.000000 0.011620 0.Prof.988353 0.047022 Área (m2) 0.1 129999.053803 2833.331971 0.Multi Exercicios) R-square column contains R-square of respective variable with all other independent variables Toleran.000000 Existe uma elevada correlação entre as variáveis renda e distância. Fernanda Queiroz 20 .568078 585.096065 1.988380 -0.118473 1.052785 35.185402 1.129077 0.974275 0. Distância (Km) 0.1 1.96241336 Adjusted R²= .235707 -0.003385 0. renda e preço. talvez fosse melhor substituir o preço total dos apartamentos pelo preço por metro quadrado.118473 -0.863856 -0.2 16103.436216 0.766981 0.998219 -0.Multi Exercicios) R= .2 16737.9 -0.000000 -0.94737870 F(4.291788 N=15 Intercept Distância (Km) Dormitórios Área (m2) Renda mensal (R$) entre elas o número de dormitórios e a área útil.175936 0.974275 -0.98102669 R²= . Correlações Parciais Redundancy of Independent Variables. é possível que o tamanho dos aposentos também não varie.753172 0. DV: Preço (R$) (Spreadsheet27 in Aula 3 .993517 1.869145 0.096065 0.3 0.003391 0.000000 0.7 32.084663 0. R-square Partial Semipart Variable Cor.129077 0.053285 Renda mensal (R$) 0. B Std.996615 0.171642 1. Regression Summary for Dependent Variable: Preço (R$) (Spreadsheet27 in Aula 3 .3 0.265020 0.112898 0.977696 1.460817 0.Err.013 p<. Nesse casos.

Nesse caso. Análise de Regressão . A violação desse   a) Ordenar provavelmente provoca a heterocedasticidade) b) Dividir a amostra em duas partes c) Estimar as regressões separadas e obter a soma dos quadrados dos resíduos para cada subamostra (n . mais do que pessoas pouco escolarizadas.Heterocedasticidade É desejável que a variância dos resíduos et. A principal conseqüência da heterocedasticidade é que o método dos mínimos quadrados não gera estimativas de parâmetros eficientes ou de variância mínima. cross section. o que torna a variância dos salários nesse caso muito alta. os salários não deverão variar muito. onde σ é uma constante. gerados pela estimação de um modelo. A relação certamente existe. embora se espere que ganhem mais. seja constante.  Mas a situação muda muito no que se refere ao erro: para aqueles com pouco ou nenhum estudo. pois pessoas com vários anos de escolaridade ganham. é possível que uma pessoa desse grupo tenha problemas em avançar na carreira ou se torne proprietário de uma grande empresa.  No caso das pessoas com muitos anos de estudo. Imagine uma regressão onde estamos fazendo uma pesquisa de salários em função dos anos de estudo. ou seja. Tal problema é mais freqüente em séries não temporais. var (et) = σ pressuposto é a heterocedasticidade. Fernanda Queiroz 21 . fazendo com que a variância seja muito pequena. o que implica erros-padrões viesados e incorreção dos testes t e F. Como identificar a heterocedasticidade? • Teste de Quandt-Goldfeld as observações de modo crescente (variável independente que 2 . em média.Prof.9 .c) observações.

Prof. Análise de Regressão .26 para as 13 1 para as 13 primeiras observações e por π 2 1 =1 qt = b1 1 + b2pt + b3t + e π 2 π 2 π 2 π 2 π =1 2 Deste modo. a hipótese nula de homocedasticidade será rejeitada..... Fernanda Queiroz 22 .2. as variâncias se tornaram constantes e iguais a 1.. k-1 graus de liberdade Onde n= nº total de observações C = nº de observações omitidas K = nº de variáveis explicativas incluídas no modelo..15. e) Se F observado > F crítico para (n-c)/2. var (et) = π ²1 qt = b1 + b2pt + b3t + e . k-1 graus de liberdade. Como corrigir a heterocedastividade (Exemplo: Trigo na Austrália – livro texto) Utilizar o método dos mínimos quadrados generalizados por meio de uma transformação no modelo.F = SQR 2 / SQR 1 SQR2 = Soma dos quadrados dos resíduos dos valores mais elevados de X SQR1 = Soma dos quadrados dos resíduos dos valores mais baixos de X d) Estatística F com (n-c)/2. var (et) = π ²2 Dividindo cada variável por π últimas observações temos: qt = b1 1 + b2pt + b3t + e π 1 π 1 π 1 π 1 π para t = 1. qt = b1 + b2pt + b3t + e . logo não existe mais o problema da heterocedasticidade.13 para t = 14.

os resíduos são correlacionados entre si. Fontes de autocorrelação    Omissão de variável Erro de especificação: Má especificação do verdadeiro termo aleatório: Testes para detectar a presença de autocorrelação O teste de Durbin-Watson é o mais utilizado para diagnosticar a autocorrelação serial Análise de Regressão . Autocorrelação significa dependência temporal dos valores sucessivos dos resíduos (erro). E (ei.Prof. considere o seguinte modelo linear simples: Yt = b1 + b2Xt + et. não apresentam variância mínima. Em termos formais. Fernanda Queiroz 23 .As novas variáveis são: qt = π 2 1 + pt + t π 2 π 2 π 2 10 . Conseqüências Quando os resíduos são autocorrelacionados. (1) se ρ < 0 a autocorrelação será negativa. a autocorrelação dos resíduos implica que E(eiej) ≠ 0 para i ≠ j. Desta forma. além de seu erro-padrão ser viesado. isto é: et = ρ et-1 + vt ρ >0. a autocorrelação significa a correlação de uma variável com valores defasados (com diferenças no tempo) dela mesma.Autocorrelação Dos Resíduos Os erros para diferentes observações (domicílios ou firmas) não devem ser autocorrelacionados. o que conduz a teste de hipóteses e intervalos de confiança incorretos. isto é. isto é. Autocorrelação positiva: os resíduos são diretamente relacionados entre si. as estimativas de MQO dos parâmetros não são eficientes. ej) = 0 para i ≠ j. portanto. A ausência de autocorrelação significa.

ρ yt-1 X* = Yt . Durbin-Watson d ≈ 2 -> os erros do modelo não são autocorrelacionados. Y* = Yt . = -1 Durbin-Watson d ≈ 4 -> autocorrelação negativa. refazendo a estimação e transformando as variáveis. Fernanda Queiroz 24 . O que fazer quando há autocorrelação: É necessário corrigir o problema.ρ Xt-1 Análise de Regressão .Se ρ Se ρ Se ρ = 0. = 1 Durbin-Watson d ≈ 0 -> autocorrelação positiva.Prof.

Sign up to vote on this title
UsefulNot useful