Escolar Documentos
Profissional Documentos
Cultura Documentos
(8814 - 28949) Econometria Livro Completo
(8814 - 28949) Econometria Livro Completo
w w w. u n i s u l . b r
Universidade do Sul de Santa Catarina
Econometria
UnisulVirtual
Palhoça, 2016
Econometria
Livro didático
Designer instrucional
Carmelita Schulze
UnisulVirtual
Palhoça, 2016
Livro Didático
330.015195
M64
Miranda, Joseane Borges de
DEconometria : livro didático / Joseane Borges de Miranda ; design
instrucional Carmelita Schulze. – Palhoça : UnisulVirtual, 2016.
212 p. : il. ; 28 cm.
Inclui bibliografia.
Introdução | 7
Capítulo 1
Análise de Regressão | 9
Capítulo 2
Técnicas adicionais de análise de regressão | 49
Capítulo 3
Problemas de regressão | 101
Capítulo 4
Equações simultâneas | 135
Considerações Finais | 159
Referências | 161
Infelizmente, os modelos não são tão fáceis de serem aplicados, ou melhor, são
fáceis de aplicar, porém, devem passar por uma série de testes estatísticos para
sua validação e utilização. Estudaremos os métodos de regressão simples e
múltipla e seus possíveis problemas de consistência dos parâmetros estimados,
assim como aprenderemos a fazer projeção a partir da estimação do modelo.
Desejo que todos realizem seus estudos com sucesso e muito aprendizado.
Profa. Josiane
Análise de Regressão
Seção 1
Introdução à econometria
Inicialmente, vamos entender o que significa a econometria nos estudos das
ciências econômicas. Para isso, destacaremos os principais conceitos discutidos
pela bibliografia pertinente quanto a essa área. Assim, comecemos por entender
o que significa a regressão linear em economia.
10
11
(1)
12
(2)
Graficamente temos:
13
Hill et al. (2010) acredita que para expressarmos nossas ideias sobre relações
entre variáveis econômicas (baseadas na teoria econômica), lançamos mão do
conceito matemático de função.
O erro aleatório expresso por e não só responde pelos diversos fatores que
afetam o consumo e que omitimos nesse modelo simples, como também reflete a
incerteza intrínseca na atividade econômica.
Modelo matemático
Modelo econométrico
Por inferência, queremos dizer que a utilização de informação contida com uma
amostra de dados pode “inferir” alguma coisa sobre o mundo real.
14
Seção 2
Análise de regressão linear simples
Conforme Barbetta (2001), a análise de regressão estuda a relação causal entre
uma variável econômica a ser explicada (variável dependente Y) e uma ou mais
variáveis independentes ou explicativas (X).
15
Sempre usamos a forma geral com o sinal de mais, ou seja, uma relação
positiva de X e Y, porém, o sinal do coeficiente de inclinação depende dos
cálculos desse parâmetro, como veremos ao desenvolver a aplicação do
modelo de regressão linear simples.
1. Normalmente distribuído.
2. Com média ou valor esperado igual a zero: E( )=0
3. A variância do termo erro é constante em cada período e para todos
os valores de X, isto é:
Sumarizando:
(2)
(3)
16
(4)
(5)
17
Exemplo:
A Tabela 1.1 mostra as toneladas de milho por hectare, Y, resultantes
do uso de vários montantes de fertilizantes em Kg por hectare, X,
produzidos em uma fazenda, em 10 anos, de 2001 a 2011.
Ano Yi Xi
2001 40 6
2002 44 10
2003 46 12
2004 48 14
2005 52 16
2006 58 18
2007 60 22
2008 68 24
2009 74 26
2010 80 32
Passo 1:
Xi Yi
6 40
10 44
12 46
14 48
16 52
continua...
18
18 58
22 60
24 68
26 74
32 80
Passo 2:
19
20
Passo 3:
Depois de calcularmos os parâmetros, podemos escrever a função que
representa esse exemplo:
21
(intercepto)
(coeficiente angular)
Note que a variância é muito parecida com a variância dos nossos casos mais
simples de estatística, assim como o desvio padrão tem o mesmo conceito, ou
seja, é a raiz quadrada da variância.
A ideia é que quanto menor a variância, melhor. Dessa forma, os dados são mais
concentrados e menos dispersos, mais dispersos significam mais longe da nossa
reta de regressão que é a estimativa da verdadeira reta que representa todos os
verdadeiros valores de X e Y.
Como não podemos trabalhar com os verdadeiros valores das variáveis no futuro
usamos o método da regressão para estimar essa função. Menos variância
resultará em t calculado maior, aumentando a chance do parâmetro não aceitar
a hipótese nula do teste. Nosso objetivo é que ambos os parâmetros passem no
teste t, ou seja, aceitem o H1 e rejeitem o H0.
Como calcular e ?
22
Exemplo:
Continuando nosso exemplo, a Tabela 1.1 – Milho produzido e fertilizante
utilizado, mostra as toneladas de milho por hectare Y, resultantes do uso
de vários montantes de fertilizantes em KG por hectare X, produzidos em
uma fazenda, em 10 anos, de 2001 a 2010.
O primeiro valor de Y^ é:
23
=B2-H2
=I2^2
=C2^2
Na calculadora:
24
Calculando o t:
25
Ho : bo = 0 contra H1 : bo ≠ 0
H0 : b1 = 0 contra H1 : b1 ≠ 0
26
27
(13,70)* (16,60)*
VT VER VR
28
No Excel:
29
r varia de -1 (para correlação linear negativa perfeita) até +1 (para correlação linear
positiva perfeita). Ele é a raiz quadrada do R2, não é utilizado na análise, mas
serve para medir a força da relação entre as duas variáveis, no caso a inclinação
da reta de tendência que plotamos no Gráfico 1.1. Para o nosso exemplo ele foi
0,98, bem perto de um, o que indica uma forte correlação positiva entre o nosso X
e o nosso Y, isso implica que se X aumentar, Y aumentará também.
(13,70)* (16,60)*
Desta forma, dada a análise de t e R2, temos que nosso modelo serve para
previsão.
30
Exemplo:
Voltando ao nosso exemplo, a tabela mostra as toneladas de milho por
hectare, Y, resultantes do uso de vários montantes de fertilizantes em
KG por hectare, X, produzidos em uma fazenda, em 10 anos, de 2001 a
2010.
Ano Yi Xi
2001 40 6
2002 44 10
2003 46 12
2004 48 14
2005 52 16
2006 58 18
2007 60 22
2008 68 24
2009 74 26
2010 80 32
Passo 1:
Passo 2:
31
32
Passo 3:
ANOVA
33
Também não precisamos dos valores dos erros já que o t está calculado,
mas a ferramenta calcula em caso de necessidade o erro, daí para obter
o quadrado, temos que fazer utilizando o mesmo procedimento anterior.
(13,70)* (16,60)*
34
Seção 3
Análise de regressão linear múltipla
A análise de regressão múltipla é usada para testar hipóteses sobre a relação
entre uma variável dependente, Y, e duas ou mais variáveis independente, X, e
para previsões.
(1)
1. Normalmente distribuído
2. Com média ou valor esperado igual a zero:
3. A variância do termo erro é constante em cada período e para todos
os valores de X, isto é:
Sumarizando:
4. O valor que o termo erro assume em um período é não
correlacionado com seu valor em algum outro período, isto é:
E( )=0 para i≠j com i, j=1,2,3,....,n
35
(2)
resulta:
(3)
(4)
(5)
Note que agora as equações se tornam muito mais complexas do que o modelo
de regressão linear simples, por isso, temos que resolver a partir da planilha
Excel.
36
Exemplo:
37
Passo 1:
38
Passo 2:
Mas, para validar o modelo temos que fazer o teste t, como segue.
Ho : bo = 0 H0 : b1 = 0 H0 : b2 = 0
H1 : bo ≠ 0 H1 : b1 ≠ 0 H1 : b2 ≠ 0
39
No caso do nosso exemplo, para b0 o valor-p é 0,00019 que é menor que 0,05; b1
é 0,00485 que é menor que 5% e b2 é 0,0328 que também é menor, então, todos
os parâmetros passam no teste.
Podemos comparar os valores com o t tabelado para tirar a prova real. Como
temos 20 observações na nossa amostra, o gl será 20 - 3 = 17 então o t tabelado
é 2,110 (vide tabela t).
Notamos que os t’s calculados 4,74, 3, 23 e 2,23 são maiores que o tabelado
2,11, então, todos caíram dentro da área H1 no gráfico da distribuição t, ao lado
direito por serem positivos.
Analisando o modelo
Após calcularmos os testes t, que é uma das condições de aprovação do nosso
modelo de regressão múltipla para previsão do valor futuro do aluguel, podemos
dizer que o modelo é bom, dado que além das relações positivas entre as
variáveis, já mencionadas, todos os parâmetros passaram no t. Os parâmetros
estimados aceitam H1 e rejeitam Ho a um nível de confiança de 5%.
Mas, além de analisarmos os sinais das variáveis e o teste t, temos que calcular o
R quadrado ajustado e coeficiente global de regressão (F), esse é um coeficiente
novo que só é calculado para regressão múltipla.
40
(6)
Em que:
n = número de observações e
41
No nosso exemplo:
No Excel é R-quadrado ajustado, no caso, deu 0,36 ou 36%, isso indica que as
variações conjuntas de X1 (renda) e X2 (taxas de juros) explicam somente 36% da
variação de Y (aluguel), resultando em um erro do modelo de estimação de 0,64
ou 64%. Dessa forma, o poder de explicação do erro é maior que os das
variáveis explicativas, assim não podemos usar o modelo para previsão.
(7)
(8)
Em que:
42
(9)
(10)
(11)
(12)
43
No nosso exemplo:
Figura 1.17 – Cálculo do F
k -1 = 3 - 1 = 2 e
n - k = 20 -3 = 17,
Então, temos um F(2/17), não é dois dividido por dezessete e sim uma indicação
para procurar o F na tabela, o numerador (2) é a coluna, e o denominador (17) é a
linha. Note que na mesma linha todos os níveis de significância 0,25, 0,10,0,05 e
0,01.
O F tabelado é 3,59. Como o F calculado 6,24 é maior que 3,59, o teste global da
regressão deu bom.
Análise de variância
Até agora utilizamos vários dados do ANOVA para a análise de variância. Vamos
identificá-los:
44
gl:
2 = k-1
17 = n-k
19 = n-1
SQ:
SQT (soma dos quadrados tratados) = 351,67
SQE (soma dos quadrados dos erros) = 479,28
SQ (soma dos quadrados) = 830,95
MQ:
MQ (média dos quadrados)
MQT (média dos quadrados tratados)
MQT = SQT/(k-1) = 351,67/ 2 = 175, 84
MQE (média do quadrado dos erros)
MQE = SQE/(n-k) = 479,28/17 = 28,1928
F:
F = MQT/MQE = 175, 836/28,1928 = 6,24
F de significação
45
Atividades de autoavaliação
Ao final de cada capítulo, você realizará atividades de autoavaliação. O
gabarito está disponível no final do livro didático. Mas, esforce-se para resolver
as atividades sem ajuda do gabarito, pois, assim, você estará promovendo
(estimulando) a sua aprendizagem.
Ano Y X
1999 50 16
2000 54 20
2001 56 22
2002 58 24
2003 62 26
46
2013
2014
47
Tabela 1– Brasil: índice da quantidade por demanda de energia elétrica (Q), da tarifa média (T) e do
produto real (Y)
Ano 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990
7. Vamos supor que para o ano de 1991 a tarifa é 100 e o índice de Y = 106,
quanto seria a quantidade de energia estimada para este ano?
48
Seção 1
Defasagens distribuídas
Vamos estudar os motivos teóricos plausíveis para defasar uma variável
explicativa em um modelo de regressão. Para Gujarati (2011), temos três razões
para as defasagens: psicológica, tecnológica e institucional.
49
Segundo Hill et al. (2010), uma mudança no nível de uma variável explanatória
pode ter implicações comportamentais além do período de tempo em
que ocorreram. Por exemplo, quando se aumenta o imposto de renda, os
consumidores passam a ter menos renda disponível, (Yd = Y – T), o que
reduz suas despesas com bens e serviços, que, por sua vez, reduz lucro dos
fornecedores, a demanda por insumos produtivos, os lucros dos fornecedores
de insumo e assim por diante. Os efeitos de um aumento de imposto refletem em
toda a economia, não se manifestando instantaneamente, mas se dispersando,
ou se distribuindo, por períodos futuros de tempo.
(1)
(2)
Ou
(3)
50
Exemplo 1
Gujarati (2011) desenvolve um exemplo da função consumo. Eis o
exemplo: suponha que uma pessoa receba um aumento salarial de
US$ 2.000,00 em sua remuneração anual e que esse aumento seja
permanente. Qual será o efeito deste aumento da renda no consumo
anual da pessoa?
(4)
51
52
53
Exemplo 2
Na Tabela 2.1 temos dados do consumo de um bem normal (C) no
período de janeiro de 2009 a junho de 2010 e os Índices de preços,
no mesmo período. O índice de preço é a proxy da variável inflação. A
hipótese é que quanto maior for a inflação menos as famílias consomem
o bem. Mas, como a inflação não é percebida instantaneamente, vamos
supor uma defasagem de k=3, ou seja, três períodos, no caso, três
meses.
54
Fevereiro 708 94
Abril 702 80
Maio 772 82
Resolução:
Passo 1:
Passo 2:
55
98,6 82 80
98,6 82
98,6
56
Passo 3:
57
Resultado da regressão
58
Passo 4:
O modelo, a priori, não serve para previsão, pois nenhum dos parâmetros passa
nos devidos testes.
Vamos começar avaliando os sinais esperados. Nossa hipótese inicial era de que
quanto maior a inflação menor o consumo. Dessa forma, todos os parâmetros
estimados de IP deveriam apresentar o sinal negativo, mas isso ocorre somente
para as variáveis IP e IPt-2. Nenhum parâmetro passa no teste, uma vez que
todos os p-valor são superiores a 5%. Lembrando que na falta da informação do
p-valor devemos fazer o teste a partir da tabela do teste t (ver anexo).
59
Exemplo 3
A partir da Tabela 2.1 do exemplo 2, vamos supor uma defasagem de
k=2 ou seja, dois meses.
Passo 1:
Passo 2:
60
Nosso objetivo é testar modelos, o fato do modelo proposto não ser utilizado
para previsão do consumo desse bem, não invalida a tentativa de provar com
essa amostra, para esse caso específico, a teoria. Os modelos empíricos são
caracterizados pela teoria econômica e as hipóteses estabelecidas.
61
Seção 2
Variável Dummy
Na economia, a maioria dos modelos econômicos estão baseados em variáveis
medidas em grandezas físicas ou monetárias, o que chamamos de variáveis
quantitativas. As variáveis quantitativas discretas ou contínuas são grandezas
numéricas possíveis de trabalhar em modelagem econométrica sem grandes
problemas. Mas, além das variáveis discretas, a economia também trabalha
com variáveis qualitativas, tais como gênero, região etc. Na questão de gênero,
podemos perguntar como diferenciar os rendimentos em salários de homens
e mulheres ou em relação à região dos trabalhadores do sul se são melhores
remunerados que os do nordeste? As variáveis binárias ou Dummy auxiliam nos
modelos quando convertem variáveis como as citadas em qualitativas ou em
constructos numéricos.
Tempo de guerra = 1
EX
Tempo de paz = 0
62
Segundo Hill et al. (2010), as variáveis binárias são variáveis explanatórias que
podem tomar um de dois valores. Essas variáveis simples, segundo os autores,
constituem instrumento poderoso para representar características qualitativas
de indivíduos, como sexo, raça ou local de residência. Além da inclusão simples
da variável dummy no modelo, podemos ter interações de dummies a partir da
multiplicação de duas ou mais variáveis binárias.
•• processo de produção;
•• grupo social;
•• setor de atividade;
•• região;
•• religião;
•• gênero;
•• estado civil.
•• faixa etária;
•• classe de renda;
•• nível de escolaridade.
63
A - Forma aditiva
Exemplo:
Em que D:
1
D
0
Note-se que quando D = 0:
ou seja,
Mas quando D = 1:
ou seja,
64
Exemplo1
Q = volume de exportação de produtos manufaturados
1 a partir de 1967
D
0 antes de 1967
65
B - Forma multiplicativa
ou seja,
Note que quando a dummy assume zero não muda nada no modelo inicial e essa
é a ideia, ou seja, quando é zero não tem efeito sobre nossa variável dependente.
, ou seja,
A partir do exemplo 1:
Note que:
66
C- Forma mista
ou seja,
Mas quando D = 1:
ou seja,
67
68
Exemplo 2
Os dados da tabela abaixo são referentes ao Brasil de 1981 a 1990,
adaptado de Matos (2000). Nesta tabela, temos a variável dependente
Q (quantidade demanda de energia elétrica), T (tarifa média) de energia
elétrica e Y (produto real) representando a renda.
Ano Q T Y
1981 69 143 84
1982 76 134 85
1983 81 117 82
1984 90 111 86
1985 94 109 93
69
Resolução:
Ano Q T Y D
1981 69 143 84 0
1982 76 134 85 0
continua...
70
1983 81 117 82 0
1984 90 111 86 0
1985 94 109 93 1
71
72
Exemplo 3
Vamos modificar um pouco o modelo do exemplo anterior, agora
teremos apenas duas variáveis: Q (quantidade demanda de energia
elétrica) e T (tarifa média) de energia elétrica, como segue:
Ano Q T
1981 69 143
1982 76 134
1983 81 117
1984 90 111
1985 94 109
1989 113 85
1990 115 90
Resolução:
73
O resultado final:
Ano Q T D TD
1981 69 143 0 0
1982 76 134 0 0
1983 81 117 0 0
1984 90 111 0 0
1989 113 85 1 85
1990 115 90 1 90
Fonte: Elaboração autor (2012).
74
Ano Q T TD
1981 69 143 0
1982 76 134 0
1983 81 117 0
1984 90 111 0
1989 113 85 85
1990 115 90 90
Fonte: Elaboração do autor (2012).
75
c) Análise do modelo:
76
Quando D=1
Seção 3
Previsões
Previsões ou projeções de valores futuros a partir da função de regressão é mais
uma ferramenta para auxílio da análise e tomada de decisão a partir de dados
passados. Além de projetar, ressaltaremos a importância das séries tempo e taxa
de crescimento.
As séries tempo são muito usadas na teoria econômica porque muitas das
variáveis, principalmente as macroeconômicas, são medidas ao longo do
tempo. Estudar o comportamento de tendências dessas variáveis auxilia o
economista na tomada de decisão.
77
Uma série temporal é definida pelos valores: Y1 ,Y2 , ... , Yn , nos tempos t1, t2, ...,
tn.
Função:
Tendência (T)
78
Variações cíclicas (C): são variações repetidas em longo prazo, tais como ciclos
econômicos, índices ao longo do tempo.
Exemplo 1
A tabela
jan/11 0,8859
fev/11 0,8212
mar/11 0,9455
abr/11 0,9235
continua...
79
mai/11 0,9659
jun/11 0,9481
jul/11 0,9931
ago/11 0,9999
set/11 0,9358
out/11 0,9523
nov/11 0,8987
dez/11 0,8903
jan/12 0,8717
fev/12 0,7943
mar/12 0,8042
abr/12 0,7436
mai/12 0,7333
jun/12 0,6709
jul/12 0,668
ago/12 0,6514
set/12 0,5946
Fonte: Banco Central (2012).
Resolução:
Passo 1:
No Excel:
80
Resultado do gráfico:
Passo 2:
81
0,8859 1
0,8212 2
0,9455 3
0,9235 4
0,9659 5
0,9481 6
0,9931 7
0,9999 8
0,9358 9
0,9523 10
0,8987 11
0,8903 12
0,8717 13
0,7943 14
0,8042 15
0,7436 16
0,7333 17
0,6709 18
0,668 19
0,6514 20
0,5946 21
Fonte: Elaboração do autor (2012).
82
83
84
Passo 3:
85
(1)
(2)
Sejam agora:
(3)
(4)
86
(5)
87
Exemplo 2
A tabela abaixo mostra a variável tempo representada por anos de 1972-
1991 e o PIB real para os Estados Unidos da América. Calcule a taxa de
crescimento para o PIB no período.
Ano PIB
1972 3107,1
1973 3268,6
1974 3248,1
1975 3221,7
1976 3380,8
1977 3533,3
1978 3703,5
1979 3796,8
1980 3776,3
1981 3843,1
1982 3760,3
1983 3906,6
1984 4148,5
1985 4279,8
1986 4404,5
1987 4539,9
1988 4718,6
1989 4838,0
1990 4877,5
1991 4821,0
Fonte: Gujarati (2010).
88
Resolvendo:
Passo 1:
PIB T
3107,1 1
3268,6 2
3248,1 3
3221,7 4
3380,8 5
3533,3 6
3703,5 7
3796,8 8
3776,3 9
3843,1 10
3760,3 11
3906,6 12
4148,5 13
4279,8 14
4404,5 15
4539,9 16
4718,6 17
4838,0 18
4877,5 19
4821,0 20
89
Passo 2:
PIB t lnPIB
3107,1 1 8,04
3268,6 2 8,09
3248,1 3 8,09
3221,7 4 8,08
3380,8 5 8,13
3533,3 6 8,17
3703,5 7 8,22
3796,8 8 8,24
3776,3 9 8,24
3843,1 10 8,25
3760,3 11 8,23
3906,6 12 8,27
continua...
90
4148,5 13 8,33
4279,8 14 8,36
4404,5 15 8,39
4539,9 16 8,42
4718,6 17 8,46
4838,0 18 8,48
4877,5 19 8,49
4821,0 20 8,48
Passo 3:
(700,54)* (25,86)*
91
3.3 Projeções
Em todos os casos que estudamos até aqui, após a regressão de uma função,
desde que passe nos testes que estabelecemos para um bom modelo de
previsão, ou seja, passar no teste de significância teste t apresentar o R2 superior
a 60%. E no caso da regressão múltipla apresentar um F significante, o modelo
serve para previsão de valores futuros
Agora veremos como calcular o erro que cometemos nessas projeções futuras e
o intervalo de confiança.
Em que:
= tamanho da amostra
= média de X
= X futuro
= o erro ao quadrado
= valor inicial de Y
= valor inicial de X
92
Exemplo 3
Ano Yi Xi
2001 40 6
2002 44 10
2003 46 12
2004 48 14
2005 52 16
2006 58 18
2007 60 22
2008 68 24
2009 74 26
2010 80 32
Fonte: Elaboração do autor (2012).
Resolvendo:
Passo 1:
93
Função de regressão:
(13,70)* (16,60)*
Passo 2:
Este valor é dado no ANOVA, já que a somatória dos erros é 47,30 (SQ)
e o grau de liberdade é 8 (10-2), temos o valor de 5,91 (MQ). Vamos usar
este valor para calcular a variância da projeção:
Passo 3:
94
2002 44 10 -8 64
2003 46 12 -6 36
2004 48 14 -4 16
2005 52 16 -2 4
2006 58 18 0 0
2007 60 22 4 16
2008 68 24 6 36
2009 74 26 8 64
2010 80 32 14 196
Media 18 576
Fonte: Elaboração do autor (2012).
Passo 4:
95
96
Atividades de autoavaliação
Ao final de cada capítulo, você realizará atividades de autoavaliação. O
gabarito está disponível no final do livro didático. Mas esforce-se para resolver
as atividades sem ajuda do gabarito, pois, assim, você estará promovendo
(estimulando) a sua aprendizagem.
Ano Y X
1995 60 35,1
1997 68,2 41
1998 78 44,9
2004 108,3 63
2005 124,7 73
97
5. A tabela abaixo mostra a quantidade ofertada de leite (em mil litros) por mês
por uma empresa, essa variável será apresentada pela letra Q, a vários preços
P, para um período de 14 meses. A partir desses dados estime a função de
regressão.
Mês Q P
1 98 0,79
2 100 0,80
3 103 0,82
4 105 0,82
5 80 0,93
6 87 0,95
7 94 0,96
8 113 0,88
9 116 0,88
10 118 0,90
11 121 0,93
12 123 0,94
13 126 0,96
14 128 0,97
Fonte: Elaboração do autor (2012).
98
0,8859 1
0,8212 2
0,9455 3
0,9235 4
0,9659 5
0,9481 6
0,9931 7
0,9999 8
0,9358 9
0,9523 10
0,8987 11
0,8903 12
0,8717 13
0,7943 14
0,8042 15
0,7436 16
0,7333 17
0,6709 18
continua...
99
0,668 19
0,6514 20
0,5946 21
Fonte: Elaboração do autor (2012).
10. A partir dos dados de PIB dos USA, vamos projetar o valor para o ano 1992 e
calcular o intervalo de confiança.
PIB T
3107,1 1
3268,6 2
3248,1 3
3221,7 4
3380,8 5
3533,3 6
3703,5 7
3796,8 8
3776,3 9
3843,1 10
3760,3 11
3906,6 12
4148,5 13
4279,8 14
4404,5 15
4539,9 16
4718,6 17
4838,0 18
4877,5 19
4821,0 20
Fonte: Elaboração do autor (2012).
100
Problemas de regressão
Estudaremos um dos primeiros e mais importantes problemas possíveis de
ocorrer no modelo de regressão múltipla que é a correlação dos resíduos. Esse
é um problema que ocorre somente em séries temporais. Aprenderemos a testar
uma série para verificar se há esse problema e veremos um método possível de
correção.
Além da autocorreção dos resíduos que causa viés nos testes t, temos a
heteroscedasticidade e a multicolinearidade.
Vejamos com detalhes cada um desses problemas, bem como possíveis soluções
na área de economia para resolvê-los.
101
Seção 1
Autocorrelação dos resíduos
Para a previsão utilizando o método dos mínimos quadrados ordinários,
destacamos alguns pressupostos ou condições, entre eles, em que o valor que o
termo erro assume em um período não se correlaciona com seu valor em algum
outro período, isto é :
102
Conceitos e consequências
Autocorrelação significa dependência temporal dos valores sucessivos dos
resíduos, ou seja, os resíduos são correlacionados entre si.
103
(1)
Fontes de autocorrelação
São fontes de autocorrelação a omissão de alguma variável importante, a má
especificação da forma matemática e do termo aleatório e ajustes imperfeitos de
observações estatísticas. Vejamos em detalhes cada um desses casos.
104
Por exemplo, o efeito negativo de uma seca sobre o nível de produção de uma
lavoura pode perdurar por algum tempo, sob a forma de escassez e deterioração
de sementes.
Esse é o teste mais comum para diagnosticar a autocorrelação serial pela primeira
ordem.
A estatística para teste de Durbin Watson (d) é definida pela seguinte expressão:
(2)
Portanto:
105
H0 = 0 (ausência de autocorrelação);
H1 ≠
0 (presença de autocorrelação).
106
Exemplo 1
Fez-se um estudo durante vários meses em um bairro de uma grande
cidade, calculando-se o valor médio para o aluguel. Estimou-se esses
valores como função da atividade econômica (renda) e da taxa de juros
de curto prazo.
107
Passo 1
O resultado será:
108
Os erros (resíduos):
R2 ajustado = 0,36
(4,74)* (3,24)* (2,23)*
109
Passo 2
Para criar a coluna et-1, você vai copiar a coluna et e colar uma célula
abaixo na , ou seja, na célula dois. Note que a segunda observação é
referente a fevereiro de 2010, um t (meses) menos 1 (de janeiro de 2010),
o que comprova a defasagem.
110
Então temos:
n = 20
111
112
di = 1,100
ds =1,537
4 – ds = 4 – 1,537 = 2,463
4 – di = 4 – 1,100 = 2,900
Racionalização do problema
113
(4)
Em que:
(5)
(6)
, ou seja,
(7)
(8)
Fazendo-se:
O raciocínio pode ser entendido para casos de mais de uma variável explicativa.
114
•• transforma-se a equação 8
;
Generalizando, tem-se:
Fazendo-se:
................
(10)
Passo 3: calcular o
Modelo inicial:
Note que nosso modelo tinha três variáveis, sendo uma dependente Y e duas
explicativas X1 e X2. Para estimar o , acrescentamos como variáveis explicativas
o X1 defasado (t-1) e o X2 defasado e também o Y defasado. Observe que o Y
agora se torna uma variável explicativa e o coeficiente estimado para esta variável
será o . Esse valor se faz necessário para transformar as variáveis originais
e eliminar o problema de autocorrelação.
115
Para calcular esse coeficiente, vamos incluir na nossa planilha os dados iniciais e
mais cada variável defasada.
116
Fazendo-se:
Para estimar esta nova função derivada da anterior, temos que criar as três novas
variáveis dessa forma para o primeiro valor de W. Clique na célula em branco
abaixo da variável e digite igual (=), depois clique em Y (102) e em seguida digite o
sinal - (menos), colocando entre parênteses o valor de rô (0,75), pressione * (para
multiplicar) e clique no valor de Yt-1 que é 100. Dê um enter para calcular e depois
arraste para todos os valores. Repita o mesmo procedimento para as demais
variáveis e a tabela vai ficar desta forma:
117
118
Seção 2
Heteroscedasticidade
É desejável que a variância dos resíduos ei seja constante, ou seja,
homoscedasticidade , a variância dos resíduos é igual a signa dois.
A violação desse pressuposto é a heteroscedasticidade que se refere ao fato de a
variância de ei, não ser constante, isto é,
119
(1)
Dessa forma:
120
Fazendo-se:
Y/X = W
1/X = S
e/X = u,
(2)
Portanto:
(e)
(homoscedasticidade)
Fazendo-se:
YX = U
X2 = Z
eX =s, ter-se-á:
(3)
121
Teste de Quandt-Goldfeld
O teste consiste nos seguintes passos:
(4)
Em que:
n = número de observações;
c = número de observações omitidas;
K= número de variáveis explicativas.
122
123
Exemplo 2
Com os dados da tabela a seguir, faça a regressão dos salários
em função dos anos de estudo, levantamento feito em 2009, em
Florianópolis. Verifique a existência de heterocedsticidade, em caso
positivo, faça as correções devidas e reestime o modelo.
1099 5
1243 8
4305 23
220 0
1757 9
1842 10
2181 11
3464 17
120 0
2821 15
4140 22
1439 8
1847 11
130 0
251 1
1801 9
3788 22
145 0
467 2
861 4
continua...
124
3692 21
2587 15
2900 15
507 2
1226 7
3259 17
2033 11
2029 11
1618 8
637 3
2216 12
3078 16
1160 6
2335 12
3223 16
1630 8
2367 13
125
126
Passo 3: Cálculo do F*
Valor de F(tabelado)
127
120 0 120 1
130 0 120 1
145 0 145 1
220 0 220 1
128
129
original da variável.
(2,91)* (54,71)*
(-0,56) (32,53)*
130
Seção 3
O problema de Multicolinearidade
Multicolinearidade refere-se à correlação entre duas variáveis explicativas
incluídas na equação de modelo. A multicolinearidade ocorre, quando, por
exemplo, duas variáveis X1 e X2 medem aproximadamente a mesma coisa, ou
seja, a correlação entre elas é quase perfeita. Quando tal correlação é elevada, a
eficiência dos parâmetros estimados é significativamente afetada, tornando-os
instáveis.
O tratamento da multicolinearidade
131
Atividades de Autoavaliação
1. A tabela a seguir demonstra as despesas com máquinas e equipamentos de
utilidade pública (Y) PNB e Índice de preço de produto (IPP).
Ano 1993 1994 1995 1996 1997 1998 1999 2000 2001
PNB 573,8 604,7 645,7 698,1 763,0 806,3 878,5 945,5 992,4
IPP 102,8 103,8 104,6 105,7 108,2 110,0 113,7 118,4 123,5
Ano 2002 2003 2004 2005 2006 2007 2008 2009 2010
PNB 1073,4 1181,1 1316,6 1422,9 1538,8 1712,2 1909,5 2137,6 2378,5
IPP 127,4 130,9 139,9 155,5 168,4 175,2 184,7 197,1 218,4
132
Consumo Renda
55 80
65 85
70 90
74 100
75 105
79 110
80 115
84 120
90 125
95 130
98 140
108 145
110 150
113 160
115 165
120 180
125 185
130 190
135 200
137 205
140 210
140 220
144 225
145 230
152 240
continua...
133
175 245
178 250
180 260
189 265
191 270
134
Equações simultâneas
Em alguns casos na teoria econômica, uma variável pode assumir o papel de
variável dependente numa função e, ao mesmo tempo, ou simultaneamente, ser
uma variável independente em outra função.
Para variáveis que apresentam essas características, não podemos estimar com
o método clássico de estimação de regressão. Para isso, vamos introduzir um
novo método de estimação que leva em consideração o sistema de equações
simultâneas.
Seção 1
Conceito e natureza
Até agora estudamos exclusivamente modelos de equação única, isto é,
modelos em que havia uma única variável dependente Y e uma ou mais variáveis
explicativas, os Xs. Em tais modelos, a ênfase foi na estimativa e/ou previsão do
valor médio de Y condicionado aos valores das variáveis Xs. A relação de causa e
efeito em tais modelos, portanto, flui dos Xs para o Y.
Segundo Gujarati (2011), em muitas situações, porém, não faz sentido tal relação
de causa e efeito de mão única, ou unidirecional. Isso ocorre se Y é determinado
pelos Xs, e alguns dos Xs são, por sua vez, determinados por Y. Ou seja, há uma
relação de mão dupla, ou simultânea, entre Y e (alguns dos) Xs. No modelo de
equações simultânea é possível reunir um conjunto de variáveis que possam ser
determinados simultaneamente pelo conjunto restante de variáveis.
135
Em tais modelos, há mais de uma equação, uma para cada das variáveis
mutuamente ou conjuntamente dependentes, ou variáveis endógenas.
Exemplo 1
Modelo de demanda e oferta
Função demanda
Função oferta
Condições de equilíbrio
Em que:
Qd = quantidade demandada;
Qo = quantidade ofertada;
P = Preço;
t = tempo.
136
Exemplo 2
Modelo Keynesiano de determinação da renda.
Função consumo
Identidade de renda
Em que:
C = consumo;
Y = renda;
S= poupança;
t= tempo;
= parâmetros;
Para os dois exemplos, não podemos estimar as funções pelo MQO (mínimos
quadrados ordinários), pois, se aplicarmos isso, os parâmetros estimados serão
inconsistentes, dessa forma, vamos aprender um método alternativo para esses
casos.
137
Seção 2
Método dos mínimos quadrados indiretos (MQI)
Os modelos de equações simultâneas pressupõem um sistema de equações
representantes do problema estudado. Desse pressuposto temos o problema de
identificação do sistema de equações. Quanto à estimativa de uma equação é
exatamente identificada, usamos o MQI para estimativa das equações reduzidas,
já quando a estimativa de uma equação é sobre identificada, usaremos o MQ2E,
o método de dois estágios para estimar as equações reduzidas. Primeiramente,
vamos desenvolver o método MQI.
138
Exemplo 3
Para ilustrar, considere o modelo Keynesiano de determinação de
renda.
Passo 1:
Equação:
(3)
Em que:
139
Passo 2:
(4)
Em que:
Note que agora temos duas equações como no início, porém, ambas
são determinadas ou explicadas pelo mesmo X, ou seja, I (investimento)
e pela mesma quantidade de X, no caso um.
140
Exemplo 4
Na tabela abaixo temos os dados referentes ao mercado de um produto
agrícola. Em que Q representa quantidades em toneladas, P preço US$/
kg e Renda em número índice com base em 1977=100. Estime a oferta e
a demanda pelo MQI – método dos mínimos indiretos.
Ano Q P Y
141
Em que:
Qd = quantidade demanda
Qs = quantidade ofertada
P = preço
= erro
Resolvendo:
Oferta (2)
(2)
142
(3)
(4)
143
(3)
(4)
144
Resolvendo no Excel:
Passo 1:
(7,70)* (2,91)*
Passo 2:
145
(16,74)* (5,16)*
Passo 3:
146
Seção 3
Método de dois estágios para estimação
de mínimos quadrados (MMQ2E)
Os dois estágios desse método são:
(1)
Se essa equação é identificada, então, seus parâmetros podem ser estimados por
meio dos dois passos abaixo:
(2)
147
Exemplo 5
As trufas, um tipo de cogumelo subterrâneo, são usadas na gastronomia.
Na França, são localizados por pessoas que utilizam porcos para fareja-
las. Hill et al. (2010):
Obs. P q Ps rd Pf
148
Demanda
Oferta
149
Demanda (1)
Oferta (2)
Formas reduzidas:
Demanda
Oferta
150
Demanda
Função demanda:
151
Função oferta:
Passo 1:
Q Ps rd Pf P^
152
Digite igual na primeira célula do Excel, abaixo do nome da variável (P^), e depois
digite -8,07 mais 0,47*(asterisco para multiplicar) e clique no primeiro valor de Ps;
em seguida, digite + seguido de 0,29* e clique no primeiro valor da variável rd;
digite + seguido de 0,37*e clique no primeiro valor de Pf; tecle Enter para finalizar
e arraste a fórmula até o fim da tabela.
No Excel:
153
Q Ps Rd Pf P^
154
Função demanda:
Figura 4.6 – Regressão da função demanda
155
Função oferta:
156
Atividades de autoavaliação
1. A tabela abaixo mostra dados referentes à Y (produto interno bruto)
representando renda nesta economia, C (consumo pessoal) e I (investimento
doméstico privado bruto), em bilhões de dólares, para o período de 1970-1991.
Função consumo
Identidade de renda
Ano C I Y
157
158
Anexos
Anexo 1
Tabela – Distribuição t de Student (teste bilateral).
Grau de
Probabilidade de um valor maior em
Liberdade valor absoluto que o valor tabelado
(gl)
159
160
161
a. Caminho de resposta:
Função:
b. Caminho de resposta:
(13,80) e (11,13)
165
c. Caminho de resposta:
Análise do teste t:
(13,80)* (11,13)*
d. Caminho de resposta:
R2 = 0,98
A partir desse resultado, podemos inferir que 98% das variações de Y são
explicadas pelas variações de X, restando apenas 2% de erro, o que caracteriza
um ótimo modelo para a previsão.
Questão 2:
R2 = 0,04
(-0,43) (0,62)*
166
Questão 3:
167
Questão 4:
Função de regressão:
Questão 5:
Função de regressão:
168
Questão 6:
Questão 7:
169
Capítulo 2
Questão 1:
Questão 2:
170
Questão 3:
171
Questão 4:
Questão 5:
R2 = 0,06
(0,97) (0,86)
Questão 6:
Na tabela:
Mês Q P D
1 98 0,79 0
2 100 0,80 0
continua...
172
3 103 0,82 0
4 105 0,82 0
5 80 0,93 1
6 87 0,95 1
7 94 0,96 1
8 113 0,88 0
9 116 0,88 0
10 118 0,90 0
11 121 0,93 0
12 123 0,94 0
13 126 0,96 0
14 128 0,97 0
Questão 7:
Na tabela:
Mês Q P D PD
1 98 0,79 0 0
2 100 0,80 0 0
3 103 0,82 0 0
4 105 0,82 0 0
5 80 0,93 1 0,93
6 87 0,95 1 0,95
7 94 0,96 1 0,96
8 113 0,88 0 0
continua...
173
9 116 0,88 0 0
10 118 0,90 0 0
11 121 0,93 0 0
12 123 0,94 0 0
13 126 0,96 0 0
14 128 0,97 0 0
Função:
Análise do modelo:
174
Questão 8
Questão 9
Passo1:
0,8859 1 -0,12115
0,8212 2 -0,19699
0,9455 3 -0,05604
0,9235 4 -0,07958
0,9659 5 -0,03469
0,9481 6 -0,0533
0,9931 7 -0,00692
0,9999 8 -0,0001
0,9358 9 -0,06635
0,9523 10 -0,04888
0,8987 11 -0,10681
0,8903 12 -0,1162
0,8717 13 -0,13731
0,7943 14 -0,23029
0,8042 15 -0,21791
0,7436 16 -0,29625
175
0,7333 17 -0,3102
0,6709 18 -0,39914
0,668 19 -0,40347
0,6514 20 -0,42863
0,5946 21 -0,51987
Passo 2:
Escrever a função:
(1,01) (-6,17)*
176
Questão 10
Passo 1:
Função de regressão:
(57,97)* (23,13)*
Passo 2:
Este valor é dado no ANOVA, já que a somatória dos erros é 213.298,36 (SQ) e o
grau de liberdade é 18 (20-2), temos o valor de 11.861,02 (MQ).
177
Passo 3:
PIB t (t-média)^2
3107,1 1 90,25
3268,6 2 72,25
3248,1 3 56,25
3221,7 4 42,25
3380,8 5 30,25
3533,3 6 20,25
3703,5 7 12,25
3796,8 8 6,25
3776,3 9 2,25
3843,1 10 0,25
3760,3 11 0,25
3906,6 12 2,25
4148,5 13 6,25
4279,8 14 12,25
4404,5 15 20,25
4539,9 16 30,25
4718,6 17 42,25
4838 18 56,25
4877,5 19 72,25
4821 20 90,25
178
Passo 4:
Desvio padrão:
Calculando o YF:
179
Capítulo 3
Questão 1:
R2 ajustado = 0,99
(4,04)* (6,14)* (-2,39)*
Passo 2: Calcular o d:
180
n = 18
di = 1,046
ds =1,535
4 – ds = 4 – 1,537 = 2,465
4 – di = 4 – 1,100 = 2,954
181
Questão 2
Calcular o rô:
182
Passo 2
ρ=0,62
Passo 3
Transforme as variáveis:
183
Passo 4
Questão 3
184
Questão 4
Questão 5
Questão 6
a) F
b) V
c) V
d) V
185
Questão 7
186
Valor de F(tabelado)
F11/11=2,82
Reestimando o modelo:
Ponderando as variáveis
C/Y 1/Y
0,6875 0,0125
0,7647 0,0118
0,7778 0,0111
0,7400 0,0100
0,7143 0,0095
0,7182 0,0091
0,6957 0,0087
0,7000 0,0083
0,7200 0,0080
0,7308 0,0077
0,7000 0,0071
0,7448 0,0069
0,7333 0,0067
0,7063 0,0063
0,6970 0,0061
0,6667 0,0056
0,6757 0,0054
0,6842 0,0053
0,6750 0,0050
0,6683 0,0049
continua...
187
0,6667 0,0048
0,6364 0,0045
0,6400 0,0044
0,6304 0,0043
0,6333 0,0042
0,7143 0,0041
0,7120 0,0040
0,6923 0,0038
0,7132 0,0038
0,7074 0,0037
188
Capítulo 4
Questão 1
Yt = (b0 + b1Yt + mt ) + It ,
Yt - b1Yt = b0 + mt + It,
Yt (1 - b1) = b0 + mt + It
Ct = b0 + b1(Ct + It) + mt
Ct - b1Ct = b0 + b1It + mt
189
Questão 2
Função renda:
Yt = π0 + π1It + w1t
Função consumo:
Ct = π2 + π3It + w2t
190
Questão 3
Funções estruturais:
Funções reduzidas:
191
Esperamos que, com o que foi estudado nesta disciplina, você possa ter suporte
para análises e tomadas de decisões. Sucesso!
193
195
197
w w w. u n i s u l . b r