Você está na página 1de 24

ANÁLISE DE REGRESSÃO

1 - Introdução........................................................................................................................................................2
2 - Exemplos de previsão:....................................................................................................................................2
3 - Natureza dos dados..........................................................................................................................................3
4 - Causalidade.....................................................................................................................................................3
5 - Regressão Simples...........................................................................................................................................4
6. Inferência no modelo de regressão...................................................................................................................7
7. Regressão Múltipla.........................................................................................................................................11
8 - multicolinearidade.........................................................................................................................................16
9 - Heterocedasticidade.......................................................................................................................................21
10 - Autocorrelação Dos Resíduos.....................................................................................................................23

Análise de Regressão - Prof. Fernanda Queiroz 1


Análise de Regressão

Prof. Dra. Fernanda C.B. Pereira Queiroz

www.ipeadata.gov.br
www.fgvdados.com.br
1 - Introdução

A análise de regressão tem três funções relacionadas:

 testar teorias. Por exemplo, o consumo é diretamente relacionado com a renda? A


quantidade demandada de um bem é inversamente relacionada com o seu preço?
 estimar relações entre variáveis. Por exemplo, o responsável pela política
econômica necessita ter uma estimativa precisa da relação entre taxa de juros e
inflação a fim de determinar o novo valor dos juros na reunião do COPOM.
 Projetar eventos. Qual será o consumo de carne nos próximos anos? Qual será a
demanda de carros no próximo ano?

O produto final deste estudo é um Modelo cuja construção é efetuada com a utilização:

 da teoria
 da matemática
 de métodos estatísticos
 e com análise crítica

Nós expressamos nossas idéias sobre relações entre variáveis econômicas, utilizando o
conceito matemático de função.
Por exemplo, para expressarmos uma relação entre renda i e consumo c, podemos
escrever

C = f(i)

A demanda para um bem individual, digamos um carro Renault Clio pode ser expressa
como

q d = f ( p, p s , p c , i)

A quantidade demandada de Clios, qd, é uma função do preço do Clio p, do preço de


carros que são substitutos ps e do preço de itens que são complementares pc, como
gasolina e o nível de renda i.

2 - Exemplos de previsão:

 Os plantadores de arroz de Mato Grosso decidem estimar a quantidade produzida


com base na área plantada e na quantidade de fertilizante utilizada.

Análise de Regressão - Prof. Fernanda Queiroz 2


 Uma universidade precisa estimar quanto as matrículas cairão se a taxa for elevada
10% por semestre e, portanto, se a receita proveniente desta taxa subirá ou cairá.
 Uma empresa precisa estimar, no momento em que ela avalia quanto investir em uma
nova fábrica e em equipamentos, a demanda de copos descartáveis que haverá daqui
há 3 anos.
 Um empresário deve prever em quanto a população e a renda aumentarão nos
próximos anos em Natal e se será lucrativo implantar um empreendimento comercial
(Rener / Lojas Americanas / Pernambucanas).

3 - Natureza dos dados

Dados seccionais ou de corte (Dados de “indivíduos” observados em um determinado


instante de tempo)

 Altura de indivíduos selecionados aleatoriamente (amostra aleatória) em


um determinado instante de tempo.
 PIB dos países latino-americanos no primeiro trimestre de 2010
 Arrecadação dos municípios do RN em 2010

Séries temporais (conjunto de dados seqüenciais observados em intervalos de tempo)

 Retornos diários do IBOVESPA.


 Taxa de desemprego mensal.

4 - Causalidade

Um dos objetivos de todo tipo de explicação é estabelecer as causas dos fenômenos


observados no tempo e espaço:

 Quais as causas do desemprego?


 Quais as causas das desigualdades sociais?

A noção de causalidade está intimamente associada à possibilidade de uma variável


gerar mudanças em outra variável.

A análise de regressão estuda a relação causal entre uma variável econômica a ser
explicada (variável dependente y) e uma ou mais variáveis independentes ou explicativas
(X).

Análise de Regressão - Prof. Fernanda Queiroz 3


5 - Regressão Simples

Sejam y e x duas variáveis representando alguma população.


O objetivo é explicar y em função de x, ou seja, como y varia de acordo com mudanças
em x.

3 pontos importantes:

 Dado que não há uma relação precisa entre y e x, como levar em conta outros fatores
que afetam y?
 Qual a relação funcional entre y e x?
 Como capturar uma relação entre y e x (se for o caso)?

Solução: Considere a seguinte equação relacionando y e x

Y = b0 + b1X + e

Esta equação linear é conhecida como modelo de regressão simples.


Terminologia:

y: variável dependente, variável explicada, variável de resposta, variável prevista,


regressando, saída, efeito.
x: variável independente, variável explicativa, variável de controle, preditor, regressor,
entrada, causa.
u: erro, distúrbio ou ruído.

O erro deve ser incluído na relação exata postulada pela teoria econômica, a fim de torná-
la probabilistica (i.e, a fim de refletir o fato que, no mundo real, as relações econômicas
entre as variáveis econômicas são inexatas e, algumas vezes, erráticas).

Regressão: modelo que estabelece a relação entre as variáveis:


b1 = y −b1 x

Imagine duas variáveis, que chamaremos genericamente de Y e X - mas que poderiam


ser consumo e renda; salários e anos de estudo; enfim, quaisquer duas variáveis que,
supostamente, tenham relação entre si. Suponhamos , ainda, que x é a variável
independente e y a variável dependente, isto pe, y é afetado por x, e não o contrário.

y = b1 + b2x + e

b1: coeficiente linear


b2: coeficiente angular
e = erro (eventos aleatórios)
y = variável dependente
x = variável independente

Análise de Regressão - Prof. Fernanda Queiroz 4


Relação entre as variáveis x e Y
300,00

250,00
Gastos com alimentação (R$)

200,00

150,00

100,00

50,00
y = 0,1194x + 47,553

-
- 200,00 400,00 600,00 800,00 1.000,00 1.200,00 1.400,00

Renda Semanal

(Gastos com alimentação e renda.xls)

Objetivos da análise de regressão:

 Descrever e compreender a relação entre duas variáveis aleatórias;


 Projetar ou estimar uma das variáveis em função de outra

5.1 Método dos mínimos quadrados

Encontrar a reta de regressão significa encontrar os estimadores b1 e b2. Para tanto,


utilizamos as seguintes fórmulas:

b 2=
n  ∑ xt yt −∑ xt ∑ yt
2
n  ∑ x 2t −  ∑ x t 

Análise da variância

A análise da variância envolve dividir a variável y em duas partes: a parte explicada pela
regressão e a não explicada (resíduos).

SQT = soma dos quadrados totais


SQE = soma dos quadrados explicados
SQR = soma dos quadrados dos resíduos

R2 =
∑( yˆ − y ) 2

∑( y − y ) 2

A soma dos quadrados dos resíduos é uma parcela pequena do total e a soma dos
quadrados explicados é uma parcela importante. Essa proporção é conhecida como
coeficiente de determinação ou simplesmente R2.

R2 = coeficiente de determinação = SQE / SQT

Análise de Regressão - Prof. Fernanda Queiroz 5


É impossível que SQE seja maior do que SQT e, como se trata de uma soma de
quadrados, ela não pode ser negativa. Então, em qualquer regressão 0 <= R 2 <=1, sendo
válido expressá-lo como um percentual.

O R2 mede a proporção ou a percentagem da variação total em y explicada pelo modelo


de regressão.
Um R2 próximo a um significa um perfeito ajuste, isto é, , para todo i.
yˆ i = y i
Por outro lado, um R2 igual a zero significa que não há nenhuma relação entre o
previsto e o realizado.

5.3 – Escolha da forma funcional

A regressão busca construir modelos que simplifiquem a realidade. As informações para a


construção do modelo vêm da teoria econômica, de estudos anteriores e do
conhecimento sobre as condições específicas.

A expressão linear nos parâmetros significa que os parâmetros não são multiplicados
entre si, nem divididos, nem elevados ao quadrado.

Critérios de escolha da forma funcional

Simplicidade: entre uma forma funcional simples e uma complexa, tendem-se a escolher a
primeira, se ambas explicam o fenômeno de modo igualmente bem. Por este motivo,
muitos pesquisadores escolhem a forma linear.

Indicação da teoria econômica: O uso de várias formas funcionais e a escolha da que


apresenta resultados mais satisfatórios deve ser realizado tendo como base a teoria
econômica.

Poder preditivo: A forma funcional deve ajustar-se aos dados afim de auxiliar nas
previsões.

Formas funcionais comumente utilizadas

Linear: descreve o ajustamento de uma reta aos Y = b1 + b2x +e


dados originais
Inverso: Na medida em que x aumenta y tende 1 Y = b1 + b2 +e
para o intercepto x
Log-Log (logarítmico): o logaritmo aparece em Ln (y) = b1 + b2 LN(x )+
ambos os membros da equação. É muito utilizado e
em modelos de demanda e modelos de oferta.
Log-linear (exponencial): muito utilizado para medir Ln (y) = b1 + b2X +e
a taxa de crescimento
Linear-log: Y = b1 + b2 ln(x) + e
Log-inverso: Ln (y) = b1 - b2 (1/x )+e

Análise de Regressão - Prof. Fernanda Queiroz 6


6. Inferência no modelo de regressão

Estimação de intervalos: Uma variável normal padronizada baseia-se na distribuição


normal do estimador de mínimos quadrados ordinários. Na estatística, a confiabilidade de
uma estimador é medida pelo seu erro padrão.
Por isso, em vez de confiar apenas na estimativa do ponto, trabalhamos com a estimativa
de intervalo. Este intervalo é conhecido como intervalo de confiança.

1 - α = intervalo de confiança
α = nível de significância

O intervalo de confiança serve para indicar o valor verdadeiro do parâmetro populacional


com determinado grau de probabilidade. Isto é, se eu fizer o procedimento amostral 100
vezes, ao menos em 95 delas, o valor do parâmetro estará dentro do intervalo informado.

Para determinar o intervalo de confiança utiliza-se a variável aleatória t com (n-2) graus
de liberdade.

t = b1 - β 1 ~ t(n-2)
dp(b1)

Recorrendo-se às tabelas, pode-se achar os valores críticos tc de uma distribuição t(m),


sendo que:

P(t ≥ tc) = P (t ≤ tc) = α


2

Intervalo de confiança para b2 e b1

b2 +- tc α ep (b2)
2

b1 +- tc α ep (b1)
2

O valor tc é encontrado na tabela t com n-2 graus de liberdade.

Teste de hipóteses: Testa a hipótese de um parâmetro ter ou não um valor especificado.


Os valores encontrados fazem sentido?

α A hipótese nula (que chamaremos de H0) geralmente é uma igualdade. Isto é,


supõe-se que determinado parâmetro é igual a um número.
α A hipótese alternativa (chamada de H1) contradiz a hipótese nula.

EXERCÍCIOS

Análise de Regressão - Prof. Fernanda Queiroz 7


1) O gerente de vendas está sempre insistindo com os vendedores que a venda dos seus
produtos tem forte relação com as visitas realizadas pelos vendedores aos clientes. Obter
a regressão das vendas em função das visitas e explicar os resultados.

Vendedor Vendas Visitas


André 40 70
Fernando 42 95
Nilane 50 110
Márcia 51 140
Samira 55 135
Fernando 60 235
Maria 66 190
Josiel 78 220
Emanuela 87 280
Vanessa 87 320
AlexIA 105 330

2) Construa o intervalo de confiança e faça o teste de hipóteses


3) Qual o valor do coeficiente de determinação. Explique o que significa.
4) O funcionário Pedro realizou 250 visitas neste mês. Quantas vendas espera-se que ele

realize?

5) Construa a regressão que explique o preço dos imóveis em função do número de


dormitórios. Faça também a regressão log-linear. Qual das duas é melhor?

Preço (R$) dormitórios


20.386 1
30.062 1
40.950 1
41.926 1
48.141 2
64.195 2
65.000 2
74.624 2
80.614 3
82.479 3
85.663 3
89.151 3
105.000 4
107.750 4
108.573 4

Análise de Regressão - Prof. Fernanda Queiroz 8


6.1 - Exemplo das despesas com alimentação:

Etapa1: Determine as hipóteses nula e alternativa

A hipótese nula é H0:b2 =0.


A hipótese alternativa é H1:b2 ≠ 0

Etapa 2 = Escolha o nível de significância. α = 0,05. O valor crítico tc = 2,024

Etapa 3 = Calcular o t

T = 0,119423 - 0 = 4,0195
0,0297

Como o valor calculado t = 4,0195 > tc = 2,024, rejeitamos a hipótese nula e aceitamos a
hipótese alternativa de que há relação entre a renda semanal e os gastos com
alimentação.

Valor p: é o menor valor de α para o qual rejeitamos a hipótese nula. Se o pesquisador


fixar α =0,05, então, para um valor p > 0,05 não rejeita-se H0.
Caso contrário, se o valor p for ≤ 0,05, rejeita-se H0, ou seja os valores dos parâmetros
são diferentes de zero.

6.2 – Variáveis binárias

Variável dummy ou binária é aquela que indica a ocorrência ou não de um evento,


ou a presença ou a ausência de uma condição. Assume apenas dois valores: 1, que
indica uma situação , e 0 , a outra.

Na tabela abaixo constam os dados de salário médio, anos de estudo e sexo. Faça a
regressão. Analise estatisticamente os resultados. Do ponto de vista econômico, um ano
a mais de estudo provoca um aumento de quanto no salário? Há discriminação no
mercado de trabalho. Por quê?

D = 0, se o trabalhador for do sexo feminino


D = 1, se o trabalhador for do sexo masculino

salário anos de sexo salário anos de sexo


estudo estudo

Análise de Regressão - Prof. Fernanda Queiroz 9


410,0 1 fem 2.874,7 9 mas
508,9 2 fem 1.890,0 11 fem
551,3 2 mas 2.169,5 11 fem
789,2 3 fem 2.596,8 11 mas
857,7 3 mas 2.844,6 13 fem
935,5 4 mas 3.391,0 13 mas
1.254,0 5 mas 2.671,2 14 fem
1.352,4 7 fem 2.653,8 16 fem
1.529,3 7 mas 2.939,1 16 mas
1.497,5 8 mas 3.437,0 17 fem
1.897,5 8 mas 4.583,3 18 mas
2.317,7 9 mas 3.559,3 19 fem
(continuação) 4.896,7 19 mas

2) Na tabela abaixo são dados, para vários imóveis, a área, o padrão de construção, o
número de vagas na garagem e o número de dormitórios, se há ou não piscina. Faça
uma regressão do preço em função destas características. A seguir, teste a significância
dos parâmetros e, se for o caso, elimine um e refaça a estimação.

padrão área vagas piscina banheiros preço


baixo 100 1 sim 1 88,90
alto 150 1 sim 2 149,10
alto 200 2 sim 3 194,40
alto 180 1 não 2 153,50
baixo 130 1 não 1 121,70
baixo 89 1 não 1 85,90
baixo 95 0 não 1 73,50
baixo 50 0 não 1 39,90
alto 200 3 sim 2 189,70
alto 210 2 sim 3 186,30
alto 250 3 sim 3 229,70
alto 280 2 sim 4 272,00
alto 365 3 sim 4 339,50
alto 150 1 não 2 155,20
alto 240 2 não 3 232,70
baixo 70 0 não 1 68,70
alto 135 1 sim 2 157,00
alto 140 2 sim 2 151,00

Análise de Regressão - Prof. Fernanda Queiroz 10


7. Regressão Múltipla

7.1.O modelo com três variáveis

No modelo de regressão múltipla geral, uma variável dependente yt é relacionada com um


número de variáveis explicativas através de uma equação linear que pode ser escrita
como:

yt = β1 + β2 xt 2 + β3 xt 3 + … + βK xtK +et

Os coeficientes β 1, β 2,…, β K são parâmetros desconhecidos.

O parâmetro βk mede o efeito de uma mudança na variável xtk sobre o


valor esperado de yt, E(yt), todas as outras variáveis mantidas constantes.

O parâmetro β 1 é o termo de intercepto.

Quando tornamos um modelo econômico com mais de uma variável explicativa em um


modelo estatístico correspondente, nós dizemos que ele é um modelo de regressão
múltipla.

Grande parte dos resultados desenvolvida para o modelo de regressão simples pode ser
estendida naturalmente para esse caso geral. Existem pequenas mudanças na
interpretação dos parâmetros β , os graus de liberdade para a distribuição t mudarão e
nós necessitaremos modificar as hipóteses concernentes as características das variáveis
explicativas (x).

7.2. Exemplo (receita preço e gastos com propaganda.xls)

Cada semana, o gerente de uma rede de lanchonetes deve decidir quanto gastar com
propaganda e que promoções (como preços mais baixos) deveria oferecer.

Como se altera a receita total à medida que o nível de gastos com propaganda muda?
Um aumento nos gastos com propaganda elevaria a receita total? Se afirmativo, o
aumento na receita total é suficiente para justificar uma elevação nos gastos com
propaganda?

O gerente também está interessado na estratégia de preços. Reduzir os preços


aumentará ou diminuirá a receita total? Se uma redução de preço levar a uma diminuição
da receita total, então a demanda é inelástica; se uma redução de preço levar a um
aumento da receita total, então a demanda é elástica.

Nós, inicialmente, assumimos que a receita total, RT, é linearmente relacionada com o
preço, p, e com os gastos em propaganda, a. Assim, o modelo econômico é:

RT = β1 + β2 p + β3 a

Análise de Regressão - Prof. Fernanda Queiroz 11


onde RT representa a receita total para determinada semana, p representa o preço
naquela semana e a é o nível de gastos com propaganda durante aquela semana. Tanto
RT como a são mensurados em termos de milhares de unidades monetárias.
No modelo de regressão múltipla, o parâmetro intercepto, β 1, é o valor da variável
dependente quando cada variável explicativa assume o valor zero. Em muitos casos, esse
parâmetro não tem uma interpretação econômica clara, mas ele é quase sempre incluído
no modelo de regressão. Ele ajuda a estimação global do modelo e na previsão.

O sinal de β 2 pode ser positivo ou negativo. Se um aumento nos preços levar a um


aumento da receita, então β 2 > 0, e a demanda para a rede de lanchonetes é inelástica.
Inversamente, uma demanda elástica em relação ao preço ocorre se um aumento nos
preços conduzir a uma queda na receita, que é o caso de β 2 < 0.

O parâmetro β 3 descreve a resposta da receita a mudanças no nível de gastos com


propaganda

7.3. Resultados

O coeficiente negativo de pt sugere que a demanda é elástica em relação ao preço e nós


estimamos que um aumento em $1.000,00 no preço levará a uma queda na receita
semanal de $6.642. Ou, colocando positivamente, uma redução no preço de $1.000,00
levará a um aumento na receita de $6.642.

O coeficiente da propaganda é positivo e nós estimamos que um aumento no gasto com


propaganda de $1.000 resultará em uma elevação da receita total de $2.984.

O intercepto estimado implica que se tanto o preço como o gasto com propaganda forem
zero, a ganho de receita total seria de $104.790. Isso é obviamente incorreto. Nesse
modelo, assim como em outros, o intercepto é incluído no modelo para melhorar a
capacidade de previsão dele e dar uma especificação matemática mais completa

Análise de Regressão - Prof. Fernanda Queiroz 12


ˆ = 104,79 − 6,642 p + 2,984a
RTt t t

Observação: Uma palavra de atenção para a interpretação dos resultados da regressão.


O sinal negativo do preço implica que a redução desse aumentará a receita total. Se
tomarmos isso literalmente, porque nós não deveríamos ir reduzindo o preço até zero?
Obviamente que não conseguiríamos manter a elevação da receita total. Isso aponta para
um importante ponto: modelos de regressão estimados descrevem a relação entre as
variáveis econômicas para valores semelhantes dos encontrados na amostra de dados. A
extrapolação dos resultados para valores extremos não é geralmente uma boa idéia. Em
geral, predizer valores da variável dependente para valores das variáveis explicativas
distantes dos valores amostrais é um convite para o desastre .

7.4. O coeficiente de determinação múltipla

O coeficiente de determinação múltipla. R2, é definido como a proporção da variação total


em y que é explicada pela regressão múltipla de Y em relação a X1 e X2. A inclusão
adicional de variáveis independentes ou explicativas provavelmente aumentará o
valor de R2.
O valor de R2 depende do número de variáveis explicativas (k) e do tamanho da amostra
(n). Portanto, os coeficientes de determinação não são adequadamente comparáveis, se k
e n diferem entre equações.

A interpretação é que 86.7% da variação na receita total é explicada pela variação no


preço e pela variação no nível de gastos com propaganda.
Uma dificuldade com o R2 é que ele pode ser aumentado pela inclusão de novas
variáveis, mesmo se as variáveis acrescentadas não apresentarem qualquer justificativa
econômica.

Uma medida alternativa para mensurar a qualidade do ajustamento é chamada de R2


ajustado, e tem, geralmente, como símbolo; ele é usualmente apresentado pelos
programas de regressão. Ele é calculado como

SQE /(T − K )
R2 = 1−
SQT /(T − 1)

7.5. Teste de significância global da regressão

A significância global da regressão pode ser testada pela razão da variância explicada
com a variância não explicada. Esta apresenta uma distribuição F com k-1 e n-k graus de
liberdade, onde n é o número de observações e k é o número de parâmetros estimados:

F=
( SQER − SQEU ) J
SQEU ( T − K )

Análise de Regressão - Prof. Fernanda Queiroz 13


Se a hipótese nula for verdadeira, então a estatística F tem uma distribuição F com J
graus de liberdade no numerador e T-k graus de liberdade no denominador.
Nós rejeitamos a hipótese nula se o valor da estatística do teste F se tornar muito grande.
Nós comparamos o valor de F com um valor crítico Fc o qual deixa uma probabilidade α
na cauda superior da distribuição F com J e T-k graus de liberdade

Uma importante aplicação do teste F é para o que chamamos de “teste da significância


global do modelo”. Considere novamente o modelo geral de regressão múltipla com (K −
1) variáveis explicativas e K coeficientes desconhecidos.

Para examinar se temos um modelo viável, nós elaboramos as seguintes hipóteses nula e
alternativa
H 0 : β2 = 0, β 3 = 0, … , β K = 0
H1 : pelo menos um dos βk não é zero

Se essa hipótese nula for verdadeira, nenhuma das variáveis explicativas influenciam o y
e assim nosso modelo é de pouco ou nenhum valor.
Se a hipótese alternativa H1 for verdadeira, então pelo menos um dos parâmetros não é
zero. A hipótese alternativa não indica, contudo, qual dessas variáveis pode ser.

7.6. Hipóteses básicas :

 Relação é Linear

 Regressores tem variabilidade

 Erros tem média zero

 Erros tem variância constante

 Erros são independentes (não correlacionados)

 Distribuição dos erros é normal

7.8 - Exemplos:

 Produção de soja
 Faturamento do comércio em relação às vendas e taxa de juros
 Fatores que influenciaram na produção de máquinas agrícolas
 Fatores que influenciaram a produção e venda de veículos nacionais
 Determinantes da produção mundial de arroz
 Determinantes da demanda por energia elétrica
 Determinantes do rendimento médio das pessoas ocupadas
 Determinantes dos preços dos imóveis em Natal

Análise de Regressão - Prof. Fernanda Queiroz 14


EXERCÍCIOS

1) O quadro abaixo informa a quantidade demandada de frango, o preço médio


por quilo do frango e a renda média da população. Com base nestes dados,
construa uma regressão do consumo em função do preço e da renda.

Período Consumo frango preço frango R$ Renda média (R$)


(tonelada)
jan/05 757,6 1,13 650
fev/05 745,2 1,16 625
mar/05 673,2 1,3 580
abr/05 676,2 1,29 585
mai/05 709,1 1,2 610
jun/05 704,7 1,21 610
jul/05 691,8 1,24 595
ago/05 696,6 1,22 600
set/05 667,6 1,35 575
out/05 667,2 1,35 575
nov/05 671 1,34 570
dez/05 716,9 1,2 605
jan/06 698,4 1,23 605
fev/06 676,7 1,28 590
mar/06 661,4 1,35 560
abr/06 686,8 1,25 590
mai/06 685,2 1,26 590
jun/06 684,9 1,27 600
jul/06 675,1 1,3 585
ago/06 663,1 1,35 565
set/06 672,8 1,32 580
out/06 722 1,22 608
nov/06 715 1,23 605
dez/06 721,6 1,15 615
jan/07 747,5 1,17 645
fev/07 742,4 1,14 625
mar/07 750 1,18 640
abr/07 741,5 1,19 620
mai/07 722,6 1,19 615

2) Analise os resultados encontrados (estatisticamente e economicamente).


3) Um aumento de R$ 1,00 no preço provoca qual impacto no consumo de frango.
4) Um aumento de R$ 100,00 na renda provoca qual impacto no consumo de
frango.
5) Para que serve o teste F.
6) Por que na regressão múltipla devemos analisar o R2 ajustado ao invés do R2.

Problemas na análise de regressão: multicolinearidade, heterocedasticidade,


autocorrelação

Análise de Regressão - Prof. Fernanda Queiroz 15


8 - multicolinearidade

Hipótese básica: Cada variável independente Xi não pode ser combinação linear das
demais.

A violação desta hipótese ocorre quando a variação de uma variável é decorrente da


variação da outra. Exemplo:

X3 = 2X2
X3 = X2 + 3
Ou ainda, envolvendo mais de duas variáveis.

X4 = 2X2 + 3X3 + 4

O termo multicolinearidade designa a alta correlação entre as variáveis.

Ano / Trimestre Função Consumo


1 2 3
Consumo (US$ bilhões) Renda (US$ bilhões) Taxa de juros (% a.a.)
1990/1 72,2 105,6 12
1990/2 75,6 97,4 12,5
1990/3 89,6 112 11
1990/4 93,7 128 10
1991/1 92,2 120,2 10,5
1992/2 84,6 115,3 10,75
1992/3 90,8 105,4 11,25
1992/4 82,9 103,6 12
1993/1 65,8 102,7 12,25
1993/2 70,9 93,2 13
1993/3 63,1 98,3 12,5
1993/4 86,3 108,1 11,75
1990/1 87,2 115,8 11,5
1990/2 79,3 99,8 11
1990/3 87,4 110,5 10,5
1990/4 100,6 127,8 10,25

Análise de Regressão - Prof. Fernanda Queiroz 16


Os resultados da estimação do modelo são dados na tabela seguinte:

Regression Summary for Dependent Variable: Consumo (US$ bilhões) (Aula 3 - Multicolin
R= ,85486728 R²= ,73079807 Adjusted R²= ,68938239
F(2,13)=17,645 p<,00020 Std.Error of estimate: 5,9070
Beta Std.Err. B Std.Err. t(13) p-level
N=16 of Beta of B
Intercept 111,4873 66,84031 1,66796 0,119216
Renda (US$ bilhões) 0,366340 0,282167 0,3742 0,28826 1,29831 0,216742
Taxa de juros (% a.a.) -0,519084 0,282167 -6,0967 3,31407 -1,83963 0,088763

Repare que o valor tabelado da estatística t, considerando-se 5% de significância e 13


graus de liberdade, é 2,160. Observando o valor p-value todos os coeficientes não são
signifcantes.

Esse resultado é, no mínimo estranho. Imaginar que o nível de consumo não depende da
renda disponível é surpreendente.

Mais estranho ainda é analisar o teste F (2,13). O valor tabela é 3,81. Como o valor
encontrado foi em torno de 17,6, pelo teste F concluímos que o modelo de regressão é
válido.

Com nível de significância de 10%

Se a regressão foi aceita pelo teste F, a pergunta que fica é: Por que os dois parâmetros
não são significantes (pelo menos a 5%)? O que deu errado com o teste t?

A resposta esta na natureza da variável. Há uma forte influência da taxa de juros real
sobre a renda.
A correlação amostral entre a taxa de juros e a renda é: -0,86

Análise de Regressão - Prof. Fernanda Queiroz 17


Correlations (Aula 3 - Multicolinearidade)
Renda (US$ bilhões) Taxa de juros (% a.a.) Consumo (US$ bilhões)
Variable
Renda (US$ bilhões) 1,000000 -0,860181 0,812845
Taxa de juros (% a.a.) -0,860181 1,000000 -0,834202
Consumo (US$ bilhões) 0,812845 -0,834202 1,000000

Como identificar a multicolinearidade?

Uma maneira de identificar a multicolinearidade, ou, pelo menos, suspeitar


fortemente que ela existe, é obter um teste F bastante significante (ou um R2 alto),
acompanhado de estatististicas t para os coeficientes pouco significantes, ou até mesmo
não siginificantes.
Sinais dos coeficientes diferentes do esperado, especialmente quando ele é
muito esperado.
Identificar a correlação entre as variáveis também é uma forma de identificar a
presença da multicolinearidade.
Observar o comportamento dos coeficientes quando adicionamos ou retiramos
variáveis ou quando há mudanças na amostra. Se ocorrerem mudanças muito drásticas,
inclusive nos sinais de tais coeficientes, temos aí uma evidência de que há
multicolinearidade no modelo.

O que fazer quando há multicolinearidade?

 Retirar a variável correlacionada: Como as variáveis são altamente


correlacionadas ela já capta o efeito das alterações na variável retirada, tornando-
se desnecessária. Contudo, este procedimento pode ferir a teoria econômica;

 Aumentar a amostra: Em muitos casos, a correlação alta pe decorrente da própria


amostra; isto é, esta correlação pode não existir na população e um aumento das
observações poder refletir melhor o fato.

Análise de Regressão - Prof. Fernanda Queiroz 18


Retirando uma variável da amostra: o resultado é:

Regression Summary for Dependent Variable: Consumo (US$ bilhões) (Aula 3 - Multicoline
R= ,81284538 R²= ,66071761 Adjusted R²= ,63648315
F(1,14)=27,264 p<,00013 Std.Error of estimate: 6,3902
Beta Std.Err. B Std.Err. t(14) p-level
N=16 of Beta of B
Intercept -7,85898 17,40514 -0,451532 0,658522
Renda (US$ bilhões) 0,812845 0,155674 0,83039 0,15903 5,221452 0,000129

Exercício:
Em uma cidade, foram obtidos os valores da tabela abaixo. Faça uma regressão que
tome como variável dependente o preço do imóvel e como variáveis explicativas as
variáveis: distância ao centro, número de dormitórios, área do imóvel e renda mensal do
chefe da família.

Realizada essa estimação, calcule as correlações amostrais entre as variáveis


explicativas; com estes últimos resultados, faça as alterações no modelo que você julgar
relevante e discuta os resultados obtidos.

1 2 3 4 5
Preço (R$) Distância (Km) Dormitórios Área (m2) Renda mensal (R$)
1 107.135 1 2 94 3.537
2 107.750 2 2 96 3.174
3 108.573 2 3 116 3.072
4 99.151 3 4 149 2.683
5 85.663 3 2 98 2.512
6 80.614 3 3 115 2.580
7 74.624 4 2 93 2.031
8 64.195 5 3 119 1.549
9 40.950 6 4 142 1.104
10 82.479 4 2 93 2.119
11 41.926 6 3 122 1.068
12 20.386 7 1 72 549
13 48.141 6 1 72 1.043
14 30.062 7 2 97 671
15 65.520 5 4 148 1.521

Análise de Regressão - Prof. Fernanda Queiroz 19


Correlação amostral entre as variáveis explicativas:

Correlations (Spreadsheet27 in Aula 3 - Multi Exercicios)


Distância (Km) Dormitórios Área (m2) Renda mensal (R$) Preço (R$)
Variable
Distância (Km) 1,000000 -0,118473 -0,084663 -0,998219 -0,974275
Dormitórios -0,118473 1,000000 0,993517 0,129077 0,183593
Área (m2) -0,084663 0,993517 1,000000 0,096065 0,157212
Renda mensal (R$) -0,998219 0,129077 0,096065 1,000000 0,977696
Preço (R$) -0,974275 0,183593 0,157212 0,977696 1,000000

Existe uma elevada correlação entre as variáveis renda e distância; preço e distância;
renda e preço.

Imagine um modelo que relaciona o preço de apartamentos a diversas características,


Regression Summary for Dependent Variable: Preço (R$) (Spreadsheet27 in Aula 3 - Multi Exercicios)
R= ,98102669 R²= ,96241336 Adjusted R²= ,94737870
F(4,10)=64,013 p<,00000 Std.Error of estimate: 6686,1
Beta Std.Err. B Std.Err. t(10) p-level
N=15 of Beta of B
Intercept -42021,1 129999,9 -0,323239 0,753172
Distância (Km) 0,185402 1,053803 2833,2 16103,3 0,175936 0,863856
Dormitórios -0,436216 0,568744 -12837,2 16737,3 -0,766981 0,460817
Área (m2) 0,493743 0,568078 585,2 673,3 0,869145 0,405146
Renda mensal (R$) 1,171642 1,052785 35,7 32,1 1,112898 0,291788

entre elas o número de dormitórios e a área útil. Se esse estudo fosse realizado em um
bairro ou uma pequena cidade onde o padrão dos imóveis não varia muito, é possível que
o tamanho dos aposentos também não varie, fazendo com que a área útil dos
apartamentos esteja altamente correlacionada ao número de dormitórios.

Nesse casos, talvez fosse melhor substituir o preço total dos apartamentos pelo preço por
metro quadrado.

Correlações Parciais

Redundancy of Independent Variables; DV: Preço (R$) (Spreadsheet27 in Aula 3 - Multi Exercicios)
R-square column contains R-square of respective
variable with all other independent variables
Toleran. R-square Partial Semipart
Variable Cor. Cor.
Distância (Km) 0,003385 0,996615 0,055550 0,010786
Dormitórios 0,011620 0,988380 -0,235707 -0,047022
Área (m2) 0,011647 0,988353 0,265020 0,053285
Análise de Regressão -0,003391
Renda mensal (R$) 0,996609
Prof. Fernanda 0,331971 0,068230
Queiroz 20
9 - Heterocedasticidade

É desejável que a variância dos resíduos et, gerados pela estimação de um modelo, seja
constante. Nesse caso, var (et) = σ 2
, onde σ é uma constante. A violação desse
pressuposto é a heterocedasticidade.

A principal conseqüência da heterocedasticidade é que o método dos mínimos quadrados


não gera estimativas de parâmetros eficientes ou de variância mínima, o que implica
erros-padrões viesados e incorreção dos testes t e F.

Tal problema é mais freqüente em séries não temporais, ou seja, cross section.

 Imagine uma regressão onde estamos fazendo uma pesquisa de salários em função
dos anos de estudo. A relação certamente existe, pois pessoas com vários anos de
escolaridade ganham, em média, mais do que pessoas pouco escolarizadas.
 Mas a situação muda muito no que se refere ao erro: para aqueles com pouco ou
nenhum estudo, os salários não deverão variar muito, fazendo com que a variância
seja muito pequena.
 No caso das pessoas com muitos anos de estudo, embora se espere que ganhem
mais, é possível que uma pessoa desse grupo tenha problemas em avançar na
carreira ou se torne proprietário de uma grande empresa, o que torna a variância dos
salários nesse caso muito alta.

 Como identificar a heterocedasticidade?

• Teste de Quandt-Goldfeld

a) Ordenar as observações de modo crescente (variável independente que


provavelmente provoca a heterocedasticidade)
b) Dividir a amostra em duas partes
c) Estimar as regressões separadas e obter a soma dos quadrados dos resíduos para
cada subamostra (n - c) observações.

Análise de Regressão - Prof. Fernanda Queiroz 21


F = SQR 2 / SQR 1

SQR2 = Soma dos quadrados dos resíduos dos valores mais elevados de X
SQR1 = Soma dos quadrados dos resíduos dos valores mais baixos de X

d) Estatística F com (n-c)/2; k-1 graus de liberdade

Onde n= nº total de observações


C = nº de observações omitidas
K = nº de variáveis explicativas incluídas no modelo.

e) Se F observado > F crítico para (n-c)/2; k-1 graus de liberdade, a hipótese nula de
homocedasticidade será rejeitada.

Como corrigir a heterocedastividade (Exemplo: Trigo na Austrália – livro texto)

Utilizar o método dos mínimos quadrados generalizados por meio de uma transformação
no modelo.

qt = b1 + b2pt + b3t + e , var (et) = π ²1 para t = 1,2,...13


qt = b1 + b2pt + b3t + e , var (et) = π ²2 para t = 14,15,...26

Dividindo cada variável por π 1 para as 13 primeiras observações e por π 2 para as 13


últimas observações temos:

qt = b1 1 + b2pt + b3t + e
π 1 π 1 π 1 π 1 π 1 =1

qt = b1 1 + b2pt + b3t + e =1
π 2 π 2 π 2 π 2 π 2

Deste modo, as variâncias se tornaram constantes e iguais a 1, logo não existe mais o
problema da heterocedasticidade.

Análise de Regressão - Prof. Fernanda Queiroz 22


As novas variáveis são:

qt = 1 + pt + t
π 2 π 2 π 2 π 2

10 - Autocorrelação Dos Resíduos

Os erros para diferentes observações (domicílios ou firmas) não devem ser


autocorrelacionados.
Autocorrelação significa dependência temporal dos valores sucessivos dos
resíduos (erro), isto é, os resíduos são correlacionados entre si. Desta forma, a
autocorrelação significa a correlação de uma variável com valores defasados (com
diferenças no tempo) dela mesma.
Em termos formais, considere o seguinte modelo linear simples:
Yt = b1 + b2Xt + et, a autocorrelação dos resíduos implica que E(eiej) ≠ 0 para i ≠
j. A ausência de autocorrelação significa, portanto, E (ei, ej) = 0 para i ≠ j.

Conseqüências
Quando os resíduos são autocorrelacionados, as estimativas de MQO dos
parâmetros não são eficientes, isto é, não apresentam variância mínima, além de seu
erro-padrão ser viesado; o que conduz a teste de hipóteses e intervalos de confiança
incorretos.
Autocorrelação positiva: os resíduos são diretamente relacionados entre si, isto é:
et = ρ et-1 + vt ρ >0; (1)
se ρ < 0 a autocorrelação será negativa.

Fontes de autocorrelação
 Omissão de variável
 Erro de especificação:
 Má especificação do verdadeiro termo aleatório:

Testes para detectar a presença de autocorrelação


O teste de Durbin-Watson é o mais utilizado para diagnosticar a autocorrelação serial

Análise de Regressão - Prof. Fernanda Queiroz 23


Se ρ = 0, Durbin-Watson d ≈ 2 -> os erros do modelo não são autocorrelacionados.
Se ρ = 1 Durbin-Watson d ≈ 0 -> autocorrelação positiva.
Se ρ = -1 Durbin-Watson d ≈ 4 -> autocorrelação negativa.

O que fazer quando há autocorrelação:


É necessário corrigir o problema, refazendo a estimação e transformando as variáveis.
Y* = Yt - ρ yt-1
X* = Yt - ρ Xt-1

Análise de Regressão - Prof. Fernanda Queiroz 24

Você também pode gostar