Análise de Regressão: Métodos e Aplicações

ANÁLISE DE REGRESSÃO
1 - Introdução........................................................................................................................................................2
2 - Exemplos de previsão:....................................................................................................................................2
3 - Natureza dos dados..........................................................................................................................................3
4 - Causalidade.....................................................................................................................................................3
5 - Regressão Simples...........................................................................................................................................4
6. Inferência no modelo de regressão...................................................................................................................7
7. Regressão Múltipla.........................................................................................................................................11
8 - multicolinearidade.........................................................................................................................................16
9 - Heterocedasticidade.......................................................................................................................................21
10 - Autocorrelação Dos Resíduos.....................................................................................................................23
Análise de Regressão - Prof. Fernanda Queiroz 1

Análise de Regressão
Prof. Dra. Fernanda C.B. Pereira Queiroz
www.ipeadata.gov.br
www.fgvdados.com.br
1 - Introdução
A análise de regressão tem três funções relacionadas:
 testar teorias. Por exemplo, o consumo é diretamente relacionado com a renda? A

quantidade demandada de um bem é inversamente relacionada com o seu preço?
 estimar relações entre variáveis. Por exemplo, o responsável pela política
econômica necessita ter uma estimativa precisa da relação entre taxa de juros e
inflação a fim de determinar o novo valor dos juros na reunião do COPOM.
 Projetar eventos. Qual será o consumo de carne nos próximos anos? Qual será a
demanda de carros no próximo ano?
O produto final deste estudo é um Modelo cuja construção é efetuada com a utilização:
 da teoria
 da matemática
 de métodos estatísticos
 e com análise crítica
Nós expressamos nossas idéias sobre relações entre variáveis econômicas, utilizando o
conceito matemático de função.
Por exemplo, para expressarmos uma relação entre renda i e consumo c, podemos
escrever
C = f(i)
A demanda para um bem individual, digamos um carro Renault Clio pode ser expressa
como
q d = f ( p, p s , p c , i)
A quantidade demandada de Clios, qd, é uma função do preço do Clio p, do preço de

carros que são substitutos ps e do preço de itens que são complementares pc, como
gasolina e o nível de renda i.
2 - Exemplos de previsão:
 Os plantadores de arroz de Mato Grosso decidem estimar a quantidade produzida

com base na área plantada e na quantidade de fertilizante utilizada.

 Uma universidade precisa estimar quanto as matrículas cairão se a taxa for elevada
10% por semestre e, portanto, se a receita proveniente desta taxa subirá ou cairá.
 Uma empresa precisa estimar, no momento em que ela avalia quanto investir em uma
nova fábrica e em equipamentos, a demanda de copos descartáveis que haverá daqui
há 3 anos.
 Um empresário deve prever em quanto a população e a renda aumentarão nos
próximos anos em Natal e se será lucrativo implantar um empreendimento comercial
(Rener / Lojas Americanas / Pernambucanas).
3 - Natureza dos dados
Dados seccionais ou de corte (Dados de “indivíduos” observados em um determinado

instante de tempo)
 Altura de indivíduos selecionados aleatoriamente (amostra aleatória) em

um determinado instante de tempo.
 PIB dos países latino-americanos no primeiro trimestre de 2010
 Arrecadação dos municípios do RN em 2010
Séries temporais (conjunto de dados seqüenciais observados em intervalos de tempo)
 Retornos diários do IBOVESPA.

 Taxa de desemprego mensal.
4 - Causalidade
Um dos objetivos de todo tipo de explicação é estabelecer as causas dos fenômenos

observados no tempo e espaço:
 Quais as causas do desemprego?

 Quais as causas das desigualdades sociais?
A noção de causalidade está intimamente associada à possibilidade de uma variável

gerar mudanças em outra variável.
A análise de regressão estuda a relação causal entre uma variável econômica a ser
explicada (variável dependente y) e uma ou mais variáveis independentes ou explicativas
(X).

5 - Regressão Simples
Sejam y e x duas variáveis representando alguma população.

O objetivo é explicar y em função de x, ou seja, como y varia de acordo com mudanças
em x.
3 pontos importantes:
 Dado que não há uma relação precisa entre y e x, como levar em conta outros fatores
que afetam y?
 Qual a relação funcional entre y e x?
 Como capturar uma relação entre y e x (se for o caso)?
Solução: Considere a seguinte equação relacionando y e x
Y = b0 + b1X + e
Esta equação linear é conhecida como modelo de regressão simples.

Terminologia:
y: variável dependente, variável explicada, variável de resposta, variável prevista,

regressando, saída, efeito.
x: variável independente, variável explicativa, variável de controle, preditor, regressor,
entrada, causa.
u: erro, distúrbio ou ruído.
O erro deve ser incluído na relação exata postulada pela teoria econômica, a fim de torná-
la probabilistica (i.e, a fim de refletir o fato que, no mundo real, as relações econômicas
entre as variáveis econômicas são inexatas e, algumas vezes, erráticas).
Regressão: modelo que estabelece a relação entre as variáveis:

b1 = y −b1 x
Imagine duas variáveis, que chamaremos genericamente de Y e X - mas que poderiam

ser consumo e renda; salários e anos de estudo; enfim, quaisquer duas variáveis que,
supostamente, tenham relação entre si. Suponhamos , ainda, que x é a variável
independente e y a variável dependente, isto pe, y é afetado por x, e não o contrário.
y = b1 + b2x + e
b1: coeficiente linear

b2: coeficiente angular
e = erro (eventos aleatórios)
y = variável dependente
x = variável independente

Relação entre as variáveis x e Y
300,00
250,00
Gastos com alimentação (R$)
200,00
150,00
100,00
50,00
y = 0,1194x + 47,553
-
- 200,00 400,00 600,00 800,00 1.000,00 1.200,00 1.400,00
Renda Semanal
(Gastos com alimentação e renda.xls)
Objetivos da análise de regressão:
 Descrever e compreender a relação entre duas variáveis aleatórias;

 Projetar ou estimar uma das variáveis em função de outra
5.1 Método dos mínimos quadrados
Encontrar a reta de regressão significa encontrar os estimadores b1 e b2. Para tanto,

utilizamos as seguintes fórmulas:
b 2=
n  ∑ xt yt −∑ xt ∑ yt
2
n  ∑ x 2t −  ∑ x t 
Análise da variância
A análise da variância envolve dividir a variável y em duas partes: a parte explicada pela
regressão e a não explicada (resíduos).
SQT = soma dos quadrados totais

SQE = soma dos quadrados explicados
SQR = soma dos quadrados dos resíduos
R2 =
∑( yˆ − y ) 2
∑( y − y ) 2
A soma dos quadrados dos resíduos é uma parcela pequena do total e a soma dos
quadrados explicados é uma parcela importante. Essa proporção é conhecida como
coeficiente de determinação ou simplesmente R2.
R2 = coeficiente de determinação = SQE / SQT

É impossível que SQE seja maior do que SQT e, como se trata de uma soma de
quadrados, ela não pode ser negativa. Então, em qualquer regressão 0 <= R 2 <=1, sendo
válido expressá-lo como um percentual.
O R2 mede a proporção ou a percentagem da variação total em y explicada pelo modelo

de regressão.
Um R2 próximo a um significa um perfeito ajuste, isto é, , para todo i.
yˆ i = y i
Por outro lado, um R2 igual a zero significa que não há nenhuma relação entre o
previsto e o realizado.
5.3 – Escolha da forma funcional
A regressão busca construir modelos que simplifiquem a realidade. As informações para a

construção do modelo vêm da teoria econômica, de estudos anteriores e do
conhecimento sobre as condições específicas.
A expressão linear nos parâmetros significa que os parâmetros não são multiplicados
entre si, nem divididos, nem elevados ao quadrado.
Critérios de escolha da forma funcional
Simplicidade: entre uma forma funcional simples e uma complexa, tendem-se a escolher a
primeira, se ambas explicam o fenômeno de modo igualmente bem. Por este motivo,
muitos pesquisadores escolhem a forma linear.
Indicação da teoria econômica: O uso de várias formas funcionais e a escolha da que

apresenta resultados mais satisfatórios deve ser realizado tendo como base a teoria
econômica.
Poder preditivo: A forma funcional deve ajustar-se aos dados afim de auxiliar nas
previsões.
Formas funcionais comumente utilizadas
Linear: descreve o ajustamento de uma reta aos Y = b1 + b2x +e

dados originais
Inverso: Na medida em que x aumenta y tende 1 Y = b1 + b2 +e
para o intercepto x
Log-Log (logarítmico): o logaritmo aparece em Ln (y) = b1 + b2 LN(x )+
ambos os membros da equação. É muito utilizado e
em modelos de demanda e modelos de oferta.
Log-linear (exponencial): muito utilizado para medir Ln (y) = b1 + b2X +e
a taxa de crescimento
Linear-log: Y = b1 + b2 ln(x) + e
Log-inverso: Ln (y) = b1 - b2 (1/x )+e

6. Inferência no modelo de regressão
Estimação de intervalos: Uma variável normal padronizada baseia-se na distribuição

normal do estimador de mínimos quadrados ordinários. Na estatística, a confiabilidade de
uma estimador é medida pelo seu erro padrão.
Por isso, em vez de confiar apenas na estimativa do ponto, trabalhamos com a estimativa
de intervalo. Este intervalo é conhecido como intervalo de confiança.
1 - α = intervalo de confiança
α = nível de significância
O intervalo de confiança serve para indicar o valor verdadeiro do parâmetro populacional

com determinado grau de probabilidade. Isto é, se eu fizer o procedimento amostral 100
vezes, ao menos em 95 delas, o valor do parâmetro estará dentro do intervalo informado.
Para determinar o intervalo de confiança utiliza-se a variável aleatória t com (n-2) graus
de liberdade.
t = b1 - β 1 ~ t(n-2)
dp(b1)
Recorrendo-se às tabelas, pode-se achar os valores críticos tc de uma distribuição t(m),

sendo que:
P(t ≥ tc) = P (t ≤ tc) = α

2
Intervalo de confiança para b2 e b1
b2 +- tc α ep (b2)
2
b1 +- tc α ep (b1)
2
O valor tc é encontrado na tabela t com n-2 graus de liberdade.
Teste de hipóteses: Testa a hipótese de um parâmetro ter ou não um valor especificado.

Os valores encontrados fazem sentido?
α A hipótese nula (que chamaremos de H0) geralmente é uma igualdade. Isto é,

supõe-se que determinado parâmetro é igual a um número.
α A hipótese alternativa (chamada de H1) contradiz a hipótese nula.
EXERCÍCIOS

1) O gerente de vendas está sempre insistindo com os vendedores que a venda dos seus
produtos tem forte relação com as visitas realizadas pelos vendedores aos clientes. Obter
a regressão das vendas em função das visitas e explicar os resultados.
Vendedor Vendas Visitas

André 40 70
Fernando 42 95
Nilane 50 110
Márcia 51 140
Samira 55 135
Fernando 60 235
Maria 66 190
Josiel 78 220
Emanuela 87 280
Vanessa 87 320
AlexIA 105 330
2) Construa o intervalo de confiança e faça o teste de hipóteses

3) Qual o valor do coeficiente de determinação. Explique o que significa.
4) O funcionário Pedro realizou 250 visitas neste mês. Quantas vendas espera-se que ele
realize?
5) Construa a regressão que explique o preço dos imóveis em função do número de

dormitórios. Faça também a regressão log-linear. Qual das duas é melhor?
Preço (R$) dormitórios

20.386 1
30.062 1
40.950 1
41.926 1
48.141 2
64.195 2
65.000 2
74.624 2
80.614 3
82.479 3
85.663 3
89.151 3
105.000 4
107.750 4
108.573 4

6.1 - Exemplo das despesas com alimentação:
Etapa1: Determine as hipóteses nula e alternativa
A hipótese nula é H0:b2 =0.

A hipótese alternativa é H1:b2 ≠ 0
Etapa 2 = Escolha o nível de significância. α = 0,05. O valor crítico tc = 2,024
Etapa 3 = Calcular o t
T = 0,119423 - 0 = 4,0195
0,0297
Como o valor calculado t = 4,0195 > tc = 2,024, rejeitamos a hipótese nula e aceitamos a
hipótese alternativa de que há relação entre a renda semanal e os gastos com
alimentação.
Valor p: é o menor valor de α para o qual rejeitamos a hipótese nula. Se o pesquisador

fixar α =0,05, então, para um valor p > 0,05 não rejeita-se H0.
Caso contrário, se o valor p for ≤ 0,05, rejeita-se H0, ou seja os valores dos parâmetros
são diferentes de zero.
6.2 – Variáveis binárias
Variável dummy ou binária é aquela que indica a ocorrência ou não de um evento,

ou a presença ou a ausência de uma condição. Assume apenas dois valores: 1, que
indica uma situação , e 0 , a outra.
Na tabela abaixo constam os dados de salário médio, anos de estudo e sexo. Faça a
regressão. Analise estatisticamente os resultados. Do ponto de vista econômico, um ano
a mais de estudo provoca um aumento de quanto no salário? Há discriminação no
mercado de trabalho. Por quê?
D = 0, se o trabalhador for do sexo feminino

D = 1, se o trabalhador for do sexo masculino
salário anos de sexo salário anos de sexo

estudo estudo

410,0 1 fem 2.874,7 9 mas
508,9 2 fem 1.890,0 11 fem
551,3 2 mas 2.169,5 11 fem
789,2 3 fem 2.596,8 11 mas
857,7 3 mas 2.844,6 13 fem
935,5 4 mas 3.391,0 13 mas
1.254,0 5 mas 2.671,2 14 fem
1.352,4 7 fem 2.653,8 16 fem
1.529,3 7 mas 2.939,1 16 mas
1.497,5 8 mas 3.437,0 17 fem
1.897,5 8 mas 4.583,3 18 mas
2.317,7 9 mas 3.559,3 19 fem
(continuação) 4.896,7 19 mas
2) Na tabela abaixo são dados, para vários imóveis, a área, o padrão de construção, o
número de vagas na garagem e o número de dormitórios, se há ou não piscina. Faça
uma regressão do preço em função destas características. A seguir, teste a significância
dos parâmetros e, se for o caso, elimine um e refaça a estimação.
padrão área vagas piscina banheiros preço

baixo 100 1 sim 1 88,90
alto 150 1 sim 2 149,10
alto 200 2 sim 3 194,40
alto 180 1 não 2 153,50
baixo 130 1 não 1 121,70
baixo 89 1 não 1 85,90
baixo 95 0 não 1 73,50
baixo 50 0 não 1 39,90
alto 200 3 sim 2 189,70
alto 210 2 sim 3 186,30
alto 250 3 sim 3 229,70
alto 280 2 sim 4 272,00
alto 365 3 sim 4 339,50
alto 150 1 não 2 155,20
alto 240 2 não 3 232,70
baixo 70 0 não 1 68,70
alto 135 1 sim 2 157,00
alto 140 2 sim 2 151,00

7. Regressão Múltipla
7.1.O modelo com três variáveis
No modelo de regressão múltipla geral, uma variável dependente yt é relacionada com um

número de variáveis explicativas através de uma equação linear que pode ser escrita
como:
yt = β1 + β2 xt 2 + β3 xt 3 + … + βK xtK +et
Os coeficientes β 1, β 2,…, β K são parâmetros desconhecidos.
O parâmetro βk mede o efeito de uma mudança na variável xtk sobre o

valor esperado de yt, E(yt), todas as outras variáveis mantidas constantes.
O parâmetro β 1 é o termo de intercepto.
Quando tornamos um modelo econômico com mais de uma variável explicativa em um

modelo estatístico correspondente, nós dizemos que ele é um modelo de regressão
múltipla.
Grande parte dos resultados desenvolvida para o modelo de regressão simples pode ser
estendida naturalmente para esse caso geral. Existem pequenas mudanças na
interpretação dos parâmetros β , os graus de liberdade para a distribuição t mudarão e
nós necessitaremos modificar as hipóteses concernentes as características das variáveis
explicativas (x).
7.2. Exemplo (receita preço e gastos com propaganda.xls)
Cada semana, o gerente de uma rede de lanchonetes deve decidir quanto gastar com
propaganda e que promoções (como preços mais baixos) deveria oferecer.
Como se altera a receita total à medida que o nível de gastos com propaganda muda?
Um aumento nos gastos com propaganda elevaria a receita total? Se afirmativo, o
aumento na receita total é suficiente para justificar uma elevação nos gastos com
propaganda?
O gerente também está interessado na estratégia de preços. Reduzir os preços

aumentará ou diminuirá a receita total? Se uma redução de preço levar a uma diminuição
da receita total, então a demanda é inelástica; se uma redução de preço levar a um
aumento da receita total, então a demanda é elástica.
Nós, inicialmente, assumimos que a receita total, RT, é linearmente relacionada com o
preço, p, e com os gastos em propaganda, a. Assim, o modelo econômico é:
RT = β1 + β2 p + β3 a

onde RT representa a receita total para determinada semana, p representa o preço
naquela semana e a é o nível de gastos com propaganda durante aquela semana. Tanto
RT como a são mensurados em termos de milhares de unidades monetárias.
No modelo de regressão múltipla, o parâmetro intercepto, β 1, é o valor da variável
dependente quando cada variável explicativa assume o valor zero. Em muitos casos, esse
parâmetro não tem uma interpretação econômica clara, mas ele é quase sempre incluído
no modelo de regressão. Ele ajuda a estimação global do modelo e na previsão.
O sinal de β 2 pode ser positivo ou negativo. Se um aumento nos preços levar a um

aumento da receita, então β 2 > 0, e a demanda para a rede de lanchonetes é inelástica.
Inversamente, uma demanda elástica em relação ao preço ocorre se um aumento nos
preços conduzir a uma queda na receita, que é o caso de β 2 < 0.
O parâmetro β 3 descreve a resposta da receita a mudanças no nível de gastos com

propaganda
7.3. Resultados
O coeficiente negativo de pt sugere que a demanda é elástica em relação ao preço e nós

estimamos que um aumento em $1.000,00 no preço levará a uma queda na receita
semanal de $6.642. Ou, colocando positivamente, uma redução no preço de $1.000,00
levará a um aumento na receita de $6.642.
O coeficiente da propaganda é positivo e nós estimamos que um aumento no gasto com

propaganda de $1.000 resultará em uma elevação da receita total de $2.984.
O intercepto estimado implica que se tanto o preço como o gasto com propaganda forem
zero, a ganho de receita total seria de $104.790. Isso é obviamente incorreto. Nesse
modelo, assim como em outros, o intercepto é incluído no modelo para melhorar a
capacidade de previsão dele e dar uma especificação matemática mais completa

ˆ = 104,79 − 6,642 p + 2,984a
RTt t t
Observação: Uma palavra de atenção para a interpretação dos resultados da regressão.

O sinal negativo do preço implica que a redução desse aumentará a receita total. Se
tomarmos isso literalmente, porque nós não deveríamos ir reduzindo o preço até zero?
Obviamente que não conseguiríamos manter a elevação da receita total. Isso aponta para
um importante ponto: modelos de regressão estimados descrevem a relação entre as
variáveis econômicas para valores semelhantes dos encontrados na amostra de dados. A
extrapolação dos resultados para valores extremos não é geralmente uma boa idéia. Em
geral, predizer valores da variável dependente para valores das variáveis explicativas
distantes dos valores amostrais é um convite para o desastre .
7.4. O coeficiente de determinação múltipla
O coeficiente de determinação múltipla. R2, é definido como a proporção da variação total

em y que é explicada pela regressão múltipla de Y em relação a X1 e X2. A inclusão
adicional de variáveis independentes ou explicativas provavelmente aumentará o
valor de R2.
O valor de R2 depende do número de variáveis explicativas (k) e do tamanho da amostra
(n). Portanto, os coeficientes de determinação não são adequadamente comparáveis, se k
e n diferem entre equações.
A interpretação é que 86.7% da variação na receita total é explicada pela variação no

preço e pela variação no nível de gastos com propaganda.
Uma dificuldade com o R2 é que ele pode ser aumentado pela inclusão de novas
variáveis, mesmo se as variáveis acrescentadas não apresentarem qualquer justificativa
econômica.
Uma medida alternativa para mensurar a qualidade do ajustamento é chamada de R2

ajustado, e tem, geralmente, como símbolo; ele é usualmente apresentado pelos
programas de regressão. Ele é calculado como
SQE /(T − K )
R2 = 1−
SQT /(T − 1)
7.5. Teste de significância global da regressão
A significância global da regressão pode ser testada pela razão da variância explicada
com a variância não explicada. Esta apresenta uma distribuição F com k-1 e n-k graus de
liberdade, onde n é o número de observações e k é o número de parâmetros estimados:
F=
( SQER − SQEU ) J
SQEU ( T − K )

Se a hipótese nula for verdadeira, então a estatística F tem uma distribuição F com J
graus de liberdade no numerador e T-k graus de liberdade no denominador.
Nós rejeitamos a hipótese nula se o valor da estatística do teste F se tornar muito grande.
Nós comparamos o valor de F com um valor crítico Fc o qual deixa uma probabilidade α
na cauda superior da distribuição F com J e T-k graus de liberdade
Uma importante aplicação do teste F é para o que chamamos de “teste da significância

global do modelo”. Considere novamente o modelo geral de regressão múltipla com (K −
1) variáveis explicativas e K coeficientes desconhecidos.
Para examinar se temos um modelo viável, nós elaboramos as seguintes hipóteses nula e
alternativa
H 0 : β2 = 0, β 3 = 0, … , β K = 0
H1 : pelo menos um dos βk não é zero
Se essa hipótese nula for verdadeira, nenhuma das variáveis explicativas influenciam o y
e assim nosso modelo é de pouco ou nenhum valor.
Se a hipótese alternativa H1 for verdadeira, então pelo menos um dos parâmetros não é
zero. A hipótese alternativa não indica, contudo, qual dessas variáveis pode ser.
7.6. Hipóteses básicas :
 Relação é Linear
 Regressores tem variabilidade
 Erros tem média zero
 Erros tem variância constante
 Erros são independentes (não correlacionados)
 Distribuição dos erros é normal
7.8 - Exemplos:
 Produção de soja
 Faturamento do comércio em relação às vendas e taxa de juros
 Fatores que influenciaram na produção de máquinas agrícolas
 Fatores que influenciaram a produção e venda de veículos nacionais
 Determinantes da produção mundial de arroz
 Determinantes da demanda por energia elétrica
 Determinantes do rendimento médio das pessoas ocupadas
 Determinantes dos preços dos imóveis em Natal

EXERCÍCIOS
1) O quadro abaixo informa a quantidade demandada de frango, o preço médio

por quilo do frango e a renda média da população. Com base nestes dados,
construa uma regressão do consumo em função do preço e da renda.
Período Consumo frango preço frango R$ Renda média (R$)

(tonelada)
jan/05 757,6 1,13 650
fev/05 745,2 1,16 625
mar/05 673,2 1,3 580
abr/05 676,2 1,29 585
mai/05 709,1 1,2 610
jun/05 704,7 1,21 610
jul/05 691,8 1,24 595
ago/05 696,6 1,22 600
set/05 667,6 1,35 575
out/05 667,2 1,35 575
nov/05 671 1,34 570
dez/05 716,9 1,2 605
jan/06 698,4 1,23 605
fev/06 676,7 1,28 590
mar/06 661,4 1,35 560
abr/06 686,8 1,25 590
mai/06 685,2 1,26 590
jun/06 684,9 1,27 600
jul/06 675,1 1,3 585
ago/06 663,1 1,35 565
set/06 672,8 1,32 580
out/06 722 1,22 608
nov/06 715 1,23 605
dez/06 721,6 1,15 615
jan/07 747,5 1,17 645
fev/07 742,4 1,14 625
mar/07 750 1,18 640
abr/07 741,5 1,19 620
mai/07 722,6 1,19 615
2) Analise os resultados encontrados (estatisticamente e economicamente).

3) Um aumento de R$ 1,00 no preço provoca qual impacto no consumo de frango.
4) Um aumento de R$ 100,00 na renda provoca qual impacto no consumo de
frango.
5) Para que serve o teste F.
6) Por que na regressão múltipla devemos analisar o R2 ajustado ao invés do R2.
Problemas na análise de regressão: multicolinearidade, heterocedasticidade,

autocorrelação

8 - multicolinearidade
Hipótese básica: Cada variável independente Xi não pode ser combinação linear das
demais.
A violação desta hipótese ocorre quando a variação de uma variável é decorrente da

variação da outra. Exemplo:
X3 = 2X2
X3 = X2 + 3
Ou ainda, envolvendo mais de duas variáveis.
X4 = 2X2 + 3X3 + 4
O termo multicolinearidade designa a alta correlação entre as variáveis.
Ano / Trimestre Função Consumo

1 2 3
Consumo (US$ bilhões) Renda (US$ bilhões) Taxa de juros (% a.a.)
1990/1 72,2 105,6 12
1990/2 75,6 97,4 12,5
1990/3 89,6 112 11
1990/4 93,7 128 10
1991/1 92,2 120,2 10,5
1992/2 84,6 115,3 10,75
1992/3 90,8 105,4 11,25
1992/4 82,9 103,6 12
1993/1 65,8 102,7 12,25
1993/2 70,9 93,2 13
1993/3 63,1 98,3 12,5
1993/4 86,3 108,1 11,75
1990/1 87,2 115,8 11,5
1990/2 79,3 99,8 11
1990/3 87,4 110,5 10,5
1990/4 100,6 127,8 10,25

Os resultados da estimação do modelo são dados na tabela seguinte:
Regression Summary for Dependent Variable: Consumo (US$ bilhões) (Aula 3 - Multicolin
R= ,85486728 R²= ,73079807 Adjusted R²= ,68938239
F(2,13)=17,645 p<,00020 Std.Error of estimate: 5,9070
Beta Std.Err. B Std.Err. t(13) p-level
N=16 of Beta of B
Intercept 111,4873 66,84031 1,66796 0,119216
Renda (US$ bilhões) 0,366340 0,282167 0,3742 0,28826 1,29831 0,216742
Taxa de juros (% a.a.) -0,519084 0,282167 -6,0967 3,31407 -1,83963 0,088763
Repare que o valor tabelado da estatística t, considerando-se 5% de significância e 13

graus de liberdade, é 2,160. Observando o valor p-value todos os coeficientes não são
signifcantes.
Esse resultado é, no mínimo estranho. Imaginar que o nível de consumo não depende da
renda disponível é surpreendente.
Mais estranho ainda é analisar o teste F (2,13). O valor tabela é 3,81. Como o valor
encontrado foi em torno de 17,6, pelo teste F concluímos que o modelo de regressão é
válido.
Com nível de significância de 10%
Se a regressão foi aceita pelo teste F, a pergunta que fica é: Por que os dois parâmetros
não são significantes (pelo menos a 5%)? O que deu errado com o teste t?
A resposta esta na natureza da variável. Há uma forte influência da taxa de juros real
sobre a renda.
A correlação amostral entre a taxa de juros e a renda é: -0,86

Correlations (Aula 3 - Multicolinearidade)
Renda (US$ bilhões) Taxa de juros (% a.a.) Consumo (US$ bilhões)
Variable
Renda (US$ bilhões) 1,000000 -0,860181 0,812845
Taxa de juros (% a.a.) -0,860181 1,000000 -0,834202
Consumo (US$ bilhões) 0,812845 -0,834202 1,000000
Como identificar a multicolinearidade?
Uma maneira de identificar a multicolinearidade, ou, pelo menos, suspeitar

fortemente que ela existe, é obter um teste F bastante significante (ou um R2 alto),
acompanhado de estatististicas t para os coeficientes pouco significantes, ou até mesmo
não siginificantes.
Sinais dos coeficientes diferentes do esperado, especialmente quando ele é
muito esperado.
Identificar a correlação entre as variáveis também é uma forma de identificar a
presença da multicolinearidade.
Observar o comportamento dos coeficientes quando adicionamos ou retiramos
variáveis ou quando há mudanças na amostra. Se ocorrerem mudanças muito drásticas,
inclusive nos sinais de tais coeficientes, temos aí uma evidência de que há
multicolinearidade no modelo.
O que fazer quando há multicolinearidade?
 Retirar a variável correlacionada: Como as variáveis são altamente

correlacionadas ela já capta o efeito das alterações na variável retirada, tornando-
se desnecessária. Contudo, este procedimento pode ferir a teoria econômica;
 Aumentar a amostra: Em muitos casos, a correlação alta pe decorrente da própria

amostra; isto é, esta correlação pode não existir na população e um aumento das
observações poder refletir melhor o fato.

Retirando uma variável da amostra: o resultado é:
Regression Summary for Dependent Variable: Consumo (US$ bilhões) (Aula 3 - Multicoline
R= ,81284538 R²= ,66071761 Adjusted R²= ,63648315
N=16 of Beta of B
Intercept -7,85898 17,40514 -0,451532 0,658522
Renda (US$ bilhões) 0,812845 0,155674 0,83039 0,15903 5,221452 0,000129
Exercício:
Em uma cidade, foram obtidos os valores da tabela abaixo. Faça uma regressão que
tome como variável dependente o preço do imóvel e como variáveis explicativas as
variáveis: distância ao centro, número de dormitórios, área do imóvel e renda mensal do
chefe da família.
Realizada essa estimação, calcule as correlações amostrais entre as variáveis

explicativas; com estes últimos resultados, faça as alterações no modelo que você julgar
relevante e discuta os resultados obtidos.
1 2 3 4 5
Preço (R$) Distância (Km) Dormitórios Área (m2) Renda mensal (R$)
1 107.135 1 2 94 3.537
2 107.750 2 2 96 3.174
3 108.573 2 3 116 3.072
4 99.151 3 4 149 2.683
5 85.663 3 2 98 2.512
6 80.614 3 3 115 2.580
7 74.624 4 2 93 2.031
8 64.195 5 3 119 1.549
9 40.950 6 4 142 1.104
10 82.479 4 2 93 2.119
11 41.926 6 3 122 1.068
12 20.386 7 1 72 549
13 48.141 6 1 72 1.043
14 30.062 7 2 97 671
15 65.520 5 4 148 1.521

Correlação amostral entre as variáveis explicativas:
Correlations (Spreadsheet27 in Aula 3 - Multi Exercicios)

Distância (Km) Dormitórios Área (m2) Renda mensal (R$) Preço (R$)
Variable
Distância (Km) 1,000000 -0,118473 -0,084663 -0,998219 -0,974275
Dormitórios -0,118473 1,000000 0,993517 0,129077 0,183593
Área (m2) -0,084663 0,993517 1,000000 0,096065 0,157212
Renda mensal (R$) -0,998219 0,129077 0,096065 1,000000 0,977696
Preço (R$) -0,974275 0,183593 0,157212 0,977696 1,000000
Existe uma elevada correlação entre as variáveis renda e distância; preço e distância;
renda e preço.
Imagine um modelo que relaciona o preço de apartamentos a diversas características,

Regression Summary for Dependent Variable: Preço (R$) (Spreadsheet27 in Aula 3 - Multi Exercicios)
R= ,98102669 R²= ,96241336 Adjusted R²= ,94737870
N=15 of Beta of B
Intercept -42021,1 129999,9 -0,323239 0,753172
Distância (Km) 0,185402 1,053803 2833,2 16103,3 0,175936 0,863856
Dormitórios -0,436216 0,568744 -12837,2 16737,3 -0,766981 0,460817
Área (m2) 0,493743 0,568078 585,2 673,3 0,869145 0,405146
Renda mensal (R$) 1,171642 1,052785 35,7 32,1 1,112898 0,291788
entre elas o número de dormitórios e a área útil. Se esse estudo fosse realizado em um
bairro ou uma pequena cidade onde o padrão dos imóveis não varia muito, é possível que
o tamanho dos aposentos também não varie, fazendo com que a área útil dos
apartamentos esteja altamente correlacionada ao número de dormitórios.
Nesse casos, talvez fosse melhor substituir o preço total dos apartamentos pelo preço por
metro quadrado.
Correlações Parciais
Redundancy of Independent Variables; DV: Preço (R$) (Spreadsheet27 in Aula 3 - Multi Exercicios)
R-square column contains R-square of respective
variable with all other independent variables
Toleran. R-square Partial Semipart
Variable Cor. Cor.
Distância (Km) 0,003385 0,996615 0,055550 0,010786
Dormitórios 0,011620 0,988380 -0,235707 -0,047022
Área (m2) 0,011647 0,988353 0,265020 0,053285
Análise de Regressão -0,003391
Renda mensal (R$) 0,996609
Prof. Fernanda 0,331971 0,068230
Queiroz 20
9 - Heterocedasticidade
É desejável que a variância dos resíduos et, gerados pela estimação de um modelo, seja
constante. Nesse caso, var (et) = σ 2
, onde σ é uma constante. A violação desse
pressuposto é a heterocedasticidade.
A principal conseqüência da heterocedasticidade é que o método dos mínimos quadrados

não gera estimativas de parâmetros eficientes ou de variância mínima, o que implica
erros-padrões viesados e incorreção dos testes t e F.
Tal problema é mais freqüente em séries não temporais, ou seja, cross section.
 Imagine uma regressão onde estamos fazendo uma pesquisa de salários em função
dos anos de estudo. A relação certamente existe, pois pessoas com vários anos de
escolaridade ganham, em média, mais do que pessoas pouco escolarizadas.
 Mas a situação muda muito no que se refere ao erro: para aqueles com pouco ou
nenhum estudo, os salários não deverão variar muito, fazendo com que a variância
seja muito pequena.
 No caso das pessoas com muitos anos de estudo, embora se espere que ganhem
mais, é possível que uma pessoa desse grupo tenha problemas em avançar na
carreira ou se torne proprietário de uma grande empresa, o que torna a variância dos
salários nesse caso muito alta.
 Como identificar a heterocedasticidade?
• Teste de Quandt-Goldfeld
a) Ordenar as observações de modo crescente (variável independente que

provavelmente provoca a heterocedasticidade)
b) Dividir a amostra em duas partes
c) Estimar as regressões separadas e obter a soma dos quadrados dos resíduos para
cada subamostra (n - c) observações.

F = SQR 2 / SQR 1
SQR2 = Soma dos quadrados dos resíduos dos valores mais elevados de X
SQR1 = Soma dos quadrados dos resíduos dos valores mais baixos de X
d) Estatística F com (n-c)/2; k-1 graus de liberdade
Onde n= nº total de observações

C = nº de observações omitidas
K = nº de variáveis explicativas incluídas no modelo.
e) Se F observado > F crítico para (n-c)/2; k-1 graus de liberdade, a hipótese nula de
homocedasticidade será rejeitada.
Como corrigir a heterocedastividade (Exemplo: Trigo na Austrália – livro texto)
Utilizar o método dos mínimos quadrados generalizados por meio de uma transformação
no modelo.
qt = b1 + b2pt + b3t + e , var (et) = π ²1 para t = 1,2,...13

qt = b1 + b2pt + b3t + e , var (et) = π ²2 para t = 14,15,...26
Dividindo cada variável por π 1 para as 13 primeiras observações e por π 2 para as 13

últimas observações temos:
qt = b1 1 + b2pt + b3t + e
π 1 π 1 π 1 π 1 π 1 =1
qt = b1 1 + b2pt + b3t + e =1
π 2 π 2 π 2 π 2 π 2
Deste modo, as variâncias se tornaram constantes e iguais a 1, logo não existe mais o
problema da heterocedasticidade.

As novas variáveis são:
qt = 1 + pt + t
π 2 π 2 π 2 π 2
10 - Autocorrelação Dos Resíduos
Os erros para diferentes observações (domicílios ou firmas) não devem ser

autocorrelacionados.
Autocorrelação significa dependência temporal dos valores sucessivos dos
resíduos (erro), isto é, os resíduos são correlacionados entre si. Desta forma, a
autocorrelação significa a correlação de uma variável com valores defasados (com
diferenças no tempo) dela mesma.
Em termos formais, considere o seguinte modelo linear simples:
Yt = b1 + b2Xt + et, a autocorrelação dos resíduos implica que E(eiej) ≠ 0 para i ≠
j. A ausência de autocorrelação significa, portanto, E (ei, ej) = 0 para i ≠ j.
Conseqüências
Quando os resíduos são autocorrelacionados, as estimativas de MQO dos
parâmetros não são eficientes, isto é, não apresentam variância mínima, além de seu
erro-padrão ser viesado; o que conduz a teste de hipóteses e intervalos de confiança
incorretos.
Autocorrelação positiva: os resíduos são diretamente relacionados entre si, isto é:
et = ρ et-1 + vt ρ >0; (1)
se ρ < 0 a autocorrelação será negativa.
Fontes de autocorrelação
 Omissão de variável
 Erro de especificação:
 Má especificação do verdadeiro termo aleatório:
Testes para detectar a presença de autocorrelação

O teste de Durbin-Watson é o mais utilizado para diagnosticar a autocorrelação serial

Se ρ = 0, Durbin-Watson d ≈ 2 -> os erros do modelo não são autocorrelacionados.
Se ρ = 1 Durbin-Watson d ≈ 0 -> autocorrelação positiva.
Se ρ = -1 Durbin-Watson d ≈ 4 -> autocorrelação negativa.
O que fazer quando há autocorrelação:

É necessário corrigir o problema, refazendo a estimação e transformando as variáveis.
Y* = Yt - ρ yt-1
X* = Yt - ρ Xt-1

Análise de Regressão: Métodos e Aplicações

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análise de Regressão: Métodos e Aplicações

Enviado por

Direitos autorais:

Formatos disponíveis

ANÁLISE DE REGRESSÃO

Análise de Regressão - Prof. Fernanda Queiroz 1

Prof. Dra. Fernanda C.B. Pereira Queiroz

A análise de regressão tem três funções relacionadas:

 testar teorias. Por exemplo, o consumo é diretamente relacionado com a renda? A

A quantidade demandada de Clios, qd, é uma função do preço do Clio p, do preço de

 Os plantadores de arroz de Mato Grosso decidem estimar a quantidade produzida

Análise de Regressão - Prof. Fernanda Queiroz 2

3 - Natureza dos dados

Dados seccionais ou de corte (Dados de “indivíduos” observados em um determinado

 Altura de indivíduos selecionados aleatoriamente (amostra aleatória) em

Séries temporais (conjunto de dados seqüenciais observados em intervalos de tempo)

 Retornos diários do IBOVESPA.

Um dos objetivos de todo tipo de explicação é estabelecer as causas dos fenômenos

 Quais as causas do desemprego?

A noção de causalidade está intimamente associada à possibilidade de uma variável

Análise de Regressão - Prof. Fernanda Queiroz 3

Sejam y e x duas variáveis representando alguma população.

Solução: Considere a seguinte equação relacionando y e x

Esta equação linear é conhecida como modelo de regressão simples.

y: variável dependente, variável explicada, variável de resposta, variável prevista,

Regressão: modelo que estabelece a relação entre as variáveis:

Imagine duas variáveis, que chamaremos genericamente de Y e X - mas que poderiam

b1: coeficiente linear

Análise de Regressão - Prof. Fernanda Queiroz 4

(Gastos com alimentação e renda.xls)

Objetivos da análise de regressão:

 Descrever e compreender a relação entre duas variáveis aleatórias;

5.1 Método dos mínimos quadrados

Encontrar a reta de regressão significa encontrar os estimadores b1 e b2. Para tanto,

SQT = soma dos quadrados totais

R2 = coeficiente de determinação = SQE / SQT

Análise de Regressão - Prof. Fernanda Queiroz 5

O R2 mede a proporção ou a percentagem da variação total em y explicada pelo modelo

5.3 – Escolha da forma funcional

A regressão busca construir modelos que simplifiquem a realidade. As informações para a

Critérios de escolha da forma funcional

Indicação da teoria econômica: O uso de várias formas funcionais e a escolha da que

Formas funcionais comumente utilizadas

Linear: descreve o ajustamento de uma reta aos Y = b1 + b2x +e

Análise de Regressão - Prof. Fernanda Queiroz 6

Estimação de intervalos: Uma variável normal padronizada baseia-se na distribuição

O intervalo de confiança serve para indicar o valor verdadeiro do parâmetro populacional

Recorrendo-se às tabelas, pode-se achar os valores críticos tc de uma distribuição t(m),

P(t ≥ tc) = P (t ≤ tc) = α

Intervalo de confiança para b2 e b1

O valor tc é encontrado na tabela t com n-2 graus de liberdade.

Teste de hipóteses: Testa a hipótese de um parâmetro ter ou não um valor especificado.

α A hipótese nula (que chamaremos de H0) geralmente é uma igualdade. Isto é,

Análise de Regressão - Prof. Fernanda Queiroz 7

Vendedor Vendas Visitas

2) Construa o intervalo de confiança e faça o teste de hipóteses

5) Construa a regressão que explique o preço dos imóveis em função do número de

Preço (R$) dormitórios

Análise de Regressão - Prof. Fernanda Queiroz 8

Etapa1: Determine as hipóteses nula e alternativa

A hipótese nula é H0:b2 =0.

Etapa 2 = Escolha o nível de significância. α = 0,05. O valor crítico tc = 2,024

Valor p: é o menor valor de α para o qual rejeitamos a hipótese nula. Se o pesquisador

6.2 – Variáveis binárias

Variável dummy ou binária é aquela que indica a ocorrência ou não de um evento,

D = 0, se o trabalhador for do sexo feminino

salário anos de sexo salário anos de sexo