Escolar Documentos
Profissional Documentos
Cultura Documentos
Unidade III
7 ANÁLISE DE REGRESSÃO MÚLTIPLA: ESTIMAÇÃO E INFERÊNCIA
Passamos pelas etapas de elaboração de um modelo de regressão linear simples (MRLS). Agora,
conforme fluxograma a seguir, avaliaremos os pressupostos básicos teóricos e metodológicos e
encontraremos algumas hipóteses que não foram atendidas, como o pressuposto da normalidade, em
que os resíduos não se comportaram como uma distribuição de probabilidade normal, o que vem a
comprometer os testes de significância e os intervalos de confiança das estimativas do modelo.
Observação do
Teoria econômica mundo real
Formulação de hipóteses
Modelo matemático
Modelo econométrico
Não Sim
As hipóteses são
aceitáveis?
107
Unidade III
A seguir, vamos nos dedicar à construção e análise de um modelo de regressão capaz de resolver o
problema encontrado na etapa anterior (MRLS), ampliar a eficácia e o grau de explicação nas variações
da produção de açúcar (r2) e garantir maior confiabilidade nas projeções futuras. Apresentamos um
modelo de regressão linear múltipla (MRLM), no caso em questão (da produção de açúcar), no qual a
variável dependente Y é explicada por duas variáveis independentes (X).
O modelo passa a incluir uma segunda variável: X2: Produção de etanol hidratado. O novo modelo
oferece um grau de explicação maior, isto é, de um coeficiente de determinação (ajustado) de 0,7450
passa para 0,9084, e de um erro-padrão de estimação de 2.005,91 passa para 1.202,09, uma queda de
40% em seu valor. Isso apresenta um grau de explicação (r2) de 93%, como detalhado na tabela a seguir,
conforme dados do IBGE:
108
ECONOMETRIA
Anova
gl SQ MQ F F de significação
Regressão 2 146.234.836,98 73.117.418,49 50,60 0,0000288
Resíduo 8 11.560.075,67 1.445.009,46
Total 10 157.794.912,66
95%
Coeficientes Erro-padrão Stat t Valor-P 95% inferiores superiores
Interseção 18.179,933265 1.763,899430 10,31 0,0000068 14.112,37 22.247,49
Preço do açúcar VHP 607,225875 73,574330 8,25 0,0000349 437,56 776,89
(x1)
Produção de etanol (x2) 0,000412 0,000100 4,13 0,0032963 0,000182 0,000641
Resíduos
Observação Previsto(a) Yi Resíduos Percentil Yi
padrão
1 26.770,88 -350,80 -0,3263 4,55 26.420,08
2 30.742,62 -519,02 -0,4827 16,64 30.223,60
3 30.243,42 1.036,28 -0,9638 22,73 31.279,70
4 31.791,44 -171,24 -0,1593 31,82 31.620,20
5 34.473,47 -1.668,77 -1,5521 40,91 33.074,70
6 38.190,90 -22,50 -0,0209 50,00 33.489,14
7 39.165,32 -893,52 -0,8310 59,09 35.560,18
8 38.026,05 310,83 0,2891 68,18 37.878,26
9 35.461,89 2.416,37 2,2474 77,27 38.168,40
10 35.111,40 448,78 0,4174 86,36 38.271,80
11 34.075,56 -586.42 -0,5454 95,45 38.336,88
109
Unidade III
Resíduos
2.000 2.000
0 0
-2.000 5 10 15 20 25 30 -2.000 10.000.000 20.000.000 30.000.000
Preço do açúcar VHP (x1) Produção etanol (x2)
Graficamente, observamos que os valores estão bem dispersos. Podemos concluir que há
homocedasticidade, isto é, variância constante dos resíduos.
Para os modelos de regressão linear múltipla (MRLM), adicionalmente, devemos incluir a hipótese
de multicolinearidade. Ela ocorre com duas ou mais variáveis independentes do modelo explicando o
mesmo fenômeno, variáveis contendo informações similares, altamente correlacionadas. Encontramos
dificuldade na separação dos efeitos de cada uma delas. A multicolinearidade tende a distorcer os
coeficientes (βs) estimados. Como consequência, apresentam erros-padrões maiores, o que significa
menor eficiência no modelo e estimativas mais imprecisas, estimadores mais sensíveis a pequenas
variações dos dados e até mesmo a dificuldade na separação de seus efeitos. Exemplo: explicar preço de
consumo de energia elétrica em uma residência com regressão que tenha como variáveis explicativas a
área da casa e o número de cômodos, ou o número de pessoas e o número de camas.
110
ECONOMETRIA
Veja a fórmula:
Onde:
n: número de observações;
k: número de variáveis independentes;
Ln: logaritmo neperiano;
Det: determinante;
rij: coeficiente de correlação parcial.
1 0,87778 0,55043
1
X 2teste =− n − 1 − × ( 2 × k + 5) × Ln Det 0,87778 1 0,18449
6
1
0,55043 0,18449
k −1 1
gl = k . = 2 × =1
2 2
111
Unidade III
Portanto:
1
X 2teste =− n − 1 − × ( 2 × k + 5) × Ln (0,070767)
6
1
X 2teste = − 11 − 1 − × ( 2 × 2 + 5) × −2,64837
6
Portanto, caso X2teste > X2crítico , rejeita-se a hipótese nula de ausência de multicolinearidade (há
correlação entre as variáveis).
Veja a fórmula:
1
VIFk =
(1 − rk2 )
Onde:
1 1
=
VIFk = 2
= 1,0352
(1 − 0,18449 ) 0,9660
112
ECONOMETRIA
Acima de 10
Multicolinearidade
problemática
De 1 até 10
multicolinearidade aceitável
VIFk = 1,0352
Até 1
Sem multicolinearidade
Veja a fórmula:
TLk = (1 - r2k)
Onde:
Acima de 1
Sem multicolinearidade
De 0,1 até 1
Multicolinearidade aceitável
TLk = 0,9660
Abaixo de 0,1
Multicolinearidade
problemática
113
Unidade III
É importante, ao escolher as variáveis que irão compor a base de dados para a elaboração de um
modelo, saber o nível de confiabilidade e o período que formará a base de estudo (conhecimento a
priori de uma teoria e métodos estatísticos). Essa fase inicial permite conhecer como se dá a distribuição
desses dados e também se a série testada é normal (teste de Kolmogorov-Smirnov para amostra maior
que 30 elementos). Além disso, possibilita selecionar os principais indicadores para mostrar as principais
medidas estatísticas dessa amostra, a qual podemos considerar como uma fase exploratória, que são:
amplitude, valor mínimo, valor máximo, média e desvio-padrão.
Além de analisar esses dados, deve-se elaborar um box plot, gráfico que permite a visualização
de como esses dados estão distribuídos na amostra. Isso torna possível perceber se há a presença de
outliers, o que gera uma maior segurança para a construção dos modelos de regressão. Segundo Gujarati
(2000), dependendo da amostra utilizada, é necessário tratar os outliers para que não distorçam os
resultados encontrados pela regressão. O método mais comum para esse tratamento é a eliminação
desses elementos da amostra.
A seguir, vamos nos lembrar dos pressupostos básicos que precisam ser seguidos para garantir a
qualidade do resultado dos modelos de regressão linear:
I – E(ε) = 0 (a esperança matemática dos resíduos é nula, ou seja, a média dos resíduos é nula).
V – Os resíduos são independentes entre si: E(εi εj) = 0, i ≠ j (erros não são autocorrelacionados).
Na maioria dos casos, quando o objeto de estudo envolve relações sociais, como as relações
econômicas, essas hipóteses são violadas, especialmente as quatro últimas.
A multicolinearidade (hipótese VI) traz correlações entre duas ou mais variáveis explicativas
(independentes) onde há correlação bem próxima ou igual a 1 (ou menos um), isto é, a variação de uma
delas é decorrente da variação de outra.
• Consequências: a variância dos coeficientes estimados das variáveis explicativas aumenta (é muito
grande) quando ocorre multicolinearidade (os testes t apresentam baixa significância, mas isso não
significa que sejam inválidos), podendo nos levar, do ponto de vista econômico, a conclusões erradas,
visto que seus valores ficam muito sensíveis quando se acrescenta ou se retira uma variável do modelo ou
114
ECONOMETRIA
quando há pequenas alterações no tamanho da amostra. Nesse contexto, as propriedades dos estimadores
não se alteram, continuam não viesados, eficientes e consistentes, bem como as previsões elaboradas.
• Como corrigir: retirando variáveis correlacionadas do modelo; a escolha das variáveis é pela
permanência da(s) que possui(em) alta significância apresentada pelo(s) seu(s) coeficiente(s).
Outra opção é aumentando a amostra, pois se a amostra é pequena, a variância dos estimadores
será grande ou mesmo terá de reformular o modelo. Dependendo do objetivo proposto para o
modelo – por exemplo, previsões –, a retirada tende a reduzir a eficiência das previsões. Portanto,
não há necessidade de retirar, pois diante da multicolinearidade as propriedades dos estimadores
estão preservadas (não viés, eficiência, consistência).
É importante observar que a omissão de uma variável relevante transfere sua influência sistemática
para o erro, podendo acarretar a autocorrelação residual. Um outro erro que se pode cometer na
existência de autocorrelação é a especificação errada na forma funcional do modelo.
No entanto, a autocorrelação pode ocorrer pela própria natureza do processo, casos em que a
autocorrelação é parte integrante do comportamento das variáveis distribuídas no tempo. Por exemplo,
na produção agrícola, a decisão de quanto se vai produzir não é simultânea à formação de preço (o
preço que influencia a quantidade produzida é o do período anterior, não o atual).
As exceções advêm dos modelos que incluem, entre as variáveis explicativas, defasagens da variável
dependente, em modelos do tipo:
Yt = α + β1Yt + β2Yt - 1 + ut
• Identificação: pela aplicação do teste de Durbin-Watson, que é a forma mais comum para
identificar a existência de autocorrelação.
115
Unidade III
Yt = α + βXt + ut
Reduziremos a um modelo sem autocorrelação, que pode ser estimado pelo MQO e apresenta o
mesmo coeficiente β do modelo original, representado a seguir:
Yt* = α* + βXt* + ut
Onde:
DW = Durbin-Watson
Yt* = Yt - DW . Yt-1
Xt* = Xt - DW . Xt-1
Por sua vez, a heterocedasticidade (hipótese IV) estabelece que a variância dos resíduos deve ser
constante (homocedasticidade). Um exemplo é a poupança das famílias em relação à renda: as famílias de baixa
renda pouparão valores próximos entre si, enquanto entre as famílias de alta renda, mais ricas, a amplitude de
variação se torna maior, pois encontram-se famílias que tendem a gastar mais, e outras, a poupar mais.
• Consequências: podemos dizer que são as mesmas que acontecem na autocorrelação, pois os
estimadores de MQO continuam não viesados, porém não são mais os de menor variância.
• Identificação: através de um teste comum de comparação de variâncias (por exemplo, teste F), que
consiste em separar o modelo de regressão em duas partes – uma com valores menores de X e outra
com valores maiores –, faz-se o teste para comparar a variância em cada um dos modelos estimados.
Estima-se o modelo com o total das observações e, pelo comportamento dos resíduos num gráfico
nota-se que eles são mais espalhados quando os valores de X são maiores, por exemplo. Ao proceder
a divisão em dois grupos (valores dos extremos de X), é indicado, para obter maior eficiência, omitir
os dados do meio. Existem outros testes, tais como de White e o de Goldfeld-Quandt.
• Como corrigir: primeiro, é necessário tentar definir o padrão associado à heterocedasticidade. Partimos
de um modelo de regressão que é dado a seguir. Suponhamos que exista heterocedasticidade:
var(et) = Ziσ2
116
ECONOMETRIA
isto é, que a variância não é constante, notaremos ser uma variável Zi multiplicada por uma constante.
Porém, se conseguirmos eliminar essa variável da variância, encontraremos uma variância constante,
portanto livre da heterocedasticidade.
A simultaneidade (hipótese III) estabelece que as variáveis independentes (X) num modelo de
regressão devem ser fixos (não estocásticos, não aleatórios). Se uma (ou mais) variável independente for
aleatória, será preciso que, pelo menos, ela não tenha correlação com o resíduo. Se tiver, significa que há
uma determinação mútua, onde se discute a relação de causa e efeito. Um exemplo clássico é entre as
duas variáveis preços e quantidades (vende mais porque o preço está baixo ou está com o preço baixo
porque vende mais?). A quantidade afeta o preço, que afeta a quantidade. Em economia, esse tipo de
situação ocorre com frequência.
Pelo lado da oferta (lei da oferta), a quantidade a ser produzida ou ofertada é dada como função
única do preço (P):
Qofertada_i = α0 + α1Pi + ui
sendo α1 > 0.
Pelo lado da demanda (lei da procura), na quantidade a ser consumida ou demandada, além do preço
(P), é levada em conta a renda (R), conforme a função:
Sendo β1 < 0.
Qofertada_i = Qdemandada_i
Qi = α0 + α1Pi + ui
Qi = β0 + β1Pi + β2Ri + vi
Nota-se que P e Q se determinam mutuamente nesse modelo. Por esse motivo, são consideradas
variáveis endógenas, interagindo internamente dentro de um mesmo sistema. A renda (R) já é uma variável
independente no modelo; fora do sistema, seu valor já é predeterminado, sendo considerada uma
variável exógena.
• Consequências: a regressão por MQO dessas equações anteriormente apresentadas nos levará a
estimadores viesados e inconsistentes, visto que uma das variáveis explicativas, um dos regressores,
é uma variável endógena, determinada pelo próprio modelo representado aqui, e, portanto, está
correlacionada com os resíduos, levando a estimadores viesados e inconsistentes.
117
Unidade III
Passamos a ter um novo sistema de equações, que isola as variáveis endógenas em cada equação,
chamadas de equações na forma reduzida; o sistema original de equações recebe o nome de
forma estrutural do modelo.
O sistema de equações na forma reduzida deixa de ter os problemas de que um ou mais regressores
são correlacionados com os resíduos, o que permite serem estimados pelo MQO. Ao estimarmos as
equações na forma reduzida, os parâmetros estimados não se encontram na forma normal, sendo
preciso encontrar os da forma estrutural (original).
Saiba mais
Observando os aspectos já trabalhados até aqui, fica claro que o objetivo de qualquer modelo de
regressão é estimar os parâmetros de modo a alcançar o melhor valor de Y, isto é, minimizar os erros.
A introdução das variáveis dummies na análise de regressão amplia, de certa forma, o poder de
análise dos modelos, pois permite incorporar nos modelos variáveis importantes que se pretende analisar
e que não podem ser medidas quantitativamente.
118
ECONOMETRIA
Porém, algumas vezes queremos incluir no modelo de regressão variáveis qualitativas (ou categóricas,
binárias, ou dummies). Isso ocorre em fenômenos pouco usuais que poderão determinar viés nas
estimativas se não forem controlados. Esse tipo de fenômeno é conhecido na literatura como quebra
estrutural, e para controlá-lo são utilizadas as variáveis qualitativas dummies ou binárias. A seguir,
apresentamos um exemplo para análise desse fenômeno: a demanda por importações no Brasil entre
1995 e 2010, a partir de dados extraídos do IBGE:
200.000
180.000
160.000
140.000
US$ milhões
120.000
100.000
80.000
60.000
40.000
20.000
0
Ano
05
02
03
04
06
07
08
09
10
95
96
97
98
99
00
01
20
20
20
20
20
20
20
20
20
20
19
19
19
19
19
20
Figura 46 – Teste de hipótese de uma quebra estrutural na demanda por importações no Brasil (1995-2010). Dois períodos em
destaque: governo FHC (1996-2002) e governo Lula (2003-2010)
Nota-se na figura, aparentemente, um padrão sazonal, além de uma possível quebra estrutural
localizada no início do ano de 2003 indicada pela mudança de tendência a partir de 2004 na demanda
de importação. Um dos motivos para considerar isso como uma quebra estrutural foi que o fluxo de
capitais externos, o real, entrou em recuperação em movimento de valorização, enquanto a inflação se
encontrava em níveis reduzidos, e a indústria brasileira vinha apresentando dificuldade para aumentar
a participação dos produtos de conteúdo tecnológico mais elevados. Em consequência, a pauta de
exportações vinha sendo dominada por produtos de média e baixa intensidade tecnológica. Associado
a esse contexto, havia o crescimento da renda social, que contribuiu para aumentar a demanda por
importações (compras no exterior e/ou de produtos importados). Portanto, faz-se necessário testar a
hipótese da existência de uma quebra estrutural ou não no período em análise; caso aceita a hipótese,
justifica-se uma correção no modelo.
De acordo com Greene (2003), quando empregamos um modelo de regressão que envolve o uso de
séries temporais, pode acontecer que se verifique uma mudança estrutural na relação entre a variável
dependente, o regressando (a explicada), e as independentes, os regressores e os Xs (as explicativas).
Por mudança estrutural entendemos que os valores dos parâmetros do modelo não se mantêm iguais
durante todo o período considerado. As possíveis diferenças, isto é, as mudanças estruturais, podem ser
provocadas por diferenças no intercepto ou no coeficiente angular, ou em ambos. Para identificar essas
alterações, utiliza-se o teste de Chow, muito útil nesse tipo de análise.
119
Unidade III
conjuntos diferentes de dados (1994-2003 e 2004-2008). Para testar, iniciaremos pela hipótese nula
de que a as regressões, respectivamente do primeiro e do segundo período, são idênticas, e veremos se
podemos rejeitar essa hipótese. Para aplicarmos o teste de Chow, devemos considerar os dois modelos
de regressão a seguir.
O modelo para que se verifique a existência ou não de quebra estrutural nas importações brasileiras no
período 1996-2010 envolve três variáveis, sendo a variável importações (US$ milhões) a ser explicada por
duas outras variáveis PIB (US$ milhões), conforme dados do IBGE:
Período 1: (1994-2003)
R12 = 0,6792
n1 = 10
k=2
120
ECONOMETRIA
SQR1 = 43.721.998,42
Período 2: (2004-2008)
R22 = 0,9348
n2 = 10
k=2
SQR2 = 1.124.264.737,77
Tendo estimado o modelo em estudo representado pelas duas equações, aplicando a cada uma,
individualmente, o MMQO, e por não ter estabelecido nenhuma restrição aos parâmetros do modelo,
podemos calcular a soma dos quadrados irrestrita como a soma dos quadrados dos resíduos das
equações individuais (SQRIR = SQR1 + SQR2). O número de graus de liberdade é a soma do número de
graus de liberdade em cada regressão individual, isto é, (n1 –k) + (n2 –k) = n1 + n2 – 2k.
H0 = β1 = δ1, β2 = δ2 , … , βk = δk
e
Var(ei) = Var(ej).
Então, o modelo de regressão pode ser reescrito como uma única equação:
Nessa equação, estimada pelo método dos mínimos quadrados ordinários (MMQO), calculamos a soma
dos quadrados dos resíduos restrita SQRR. Se a hipótese nula for verdadeira, as restrições não prejudicarão
o poder explanatório do modelo, e SQRR não será muito maior que SQRIR. Portanto, podemos aplicar um
121
Unidade III
teste F (Fisher-Snedecor) para verificar se a diferença entre os dois valores para a soma dos quadrados dos
resíduos é significativa ao nível de 5%. Como o número dos graus de liberdade é n1 + n2 - 2k na regressão
irrestrita e existem k restrições, a estatística F adequada é a definida a seguir. Temos:
SQR R = 1.240.348.131,26
(SQRR − SQRIR ) / k
Fk, n1+ n2 −2k =
(SQRIR ) / (n1 + n2 − 2k)
(1.240.348.131,26 − 1.167.986.736,19) / 2
Fk, n1+ n2 −2k = 0,37
1.167.986.736,19 /12
250.000
Real
Previsto
200.000
US$ milhões
150.000
100.000
50.000
0
Ano
03
04
05
06
07
08
09
10
95
96
97
98
99
00
01
02
20
20
20
20
20
20
20
20
20
20
19
19
19
19
19
20
Finalizando, temos que se a estatística F = 0,37 for menor do que o valor crítico da distribuição F
com k e n1 + n2 - 2k graus de liberdade F(0,05; 2,12) = 3,89, não se rejeitará a hipótese nula. Isso implica dizer
que não é preciso estimar duas regressões separadas: não existe quebra de estrutura, e os dados podem
ser usados em conjunto, conforme visualizado na figura anterior.
Lembrete
A estatística tem uma distribuição F porque cada soma de desvios
quadrados tem uma distribuição qui-quadrado, tendo o numerador k
graus de liberdade e o denominador n1 + n2 - 2k graus de liberdade. Como
as duas distribuições são independentes, a razão segue uma distribuição
F (Fisher-Snedecor).
O método dos mínimos quadrados pode modelar curvatura transformando as variáveis (funções
linearizáveis). É necessário especificar a forma funcional correta para modelar qualquer curva. Conforme
122
ECONOMETRIA
a curvatura apresentada na figura anterior, a função indicada a ser linearizável é a logaritma na sua
forma original Y = aXb e na sua forma linearizada (por transformação) lnY = lna + b . lnX. Portanto,
aplicando à função de demanda por importações a transformação logarítmica, propõe-se um melhor
ajuste assumindo o seguinte formato:
Todas as variáveis se encontram transformadas para o seu logaritmo natural enquanto expressão de
taxa média de crescimento.
Notamos uma melhora no modelo transformado ou linearizável. Sabemos que o modelo de regressão só
fornece as melhores estimativas quando todas as pressuposições são atendidas, e é muito importante testá-las.
Observação
A variável dummy representa estados ou níveis de fatores, ou seja,
representa algo que não possui valores numéricos ou, caso possua, esses
valores não têm realmente um significado numérico.
Assim, uma variável dummy (D), pode ser descrita da seguinte maneira:
A variável dummy recebe este nome por ser uma variável explicativa (X) que assume apenas dois
valores, 0 e 1 (variável indicadora), ao longo de toda a amostra. Indica a presença (1) ou a ausência (0)
de um atributo. O funcionamento da variável é o seguinte:
123
Unidade III
Yi = α + βXi + δD + ei
Portanto:
Yi = α + βXi + ei
Período da quebra: D = 1.
Yi = (α + δ) + βXi + ei
Outro formato possível que a variável dummy pode assumir refere-se a mudanças na inclinação.
A variável, assim, assume o valor zero para o período sem a mudança e o valor igual ao da variável cuja
inclinação mudou para o período com mudança.
Yi = α + βXi + δD + ei
Portanto:
Yi = α + βXi + ei
Período da quebra: D = Xi
Yi = α + (β + δ)Xi + ei
Na forma aditiva, a variável dummy (D) altera o termo constante (intercepto) do modelo de
regressão linear:
Yi = α + βXi + δD + ei
Onde:
Yi = consumo do indivíduo i;
Xi = renda do indivíduo i;
D = variável dummy: 1 para indivíduo do sexo masculino e 0 para indivíduo do sexo feminimo.
Consumo Y Yi = (α + δ) + βXi
Yi = α + βXi
(α + δ)
β
Renda X
Figura 48
Variáveis binárias, que são incorporadas num modelo de regressão para dar conta de um
deslocamento do intercepto como resultado de algum fator qualitativo, são chamadas de variáveis
binárias de intercepto ou, simplesmente, variáveis dummies de intercepto.
Observação
Interpretação dos coeficientes ligados às variáveis dummies
correspondem à diferença em relação ao valor do intercepto e, portanto, à
categoria que ele representa (ou categoria de referência).
125
Unidade III
Na forma multiplicativa (ou de inclinação), a variável dummy (D) altera o coeficiente de uma
variável explicativa do modelo de regressão linear:
Yi = α + βX1 + δDiX1 + ei
Onde:
Yi = consumo do indivíduo i;
Xi = renda do indivíduo i;
D = variável dummy: 1 para indivíduo do sexo masculino e 0 para indivíduo do sexo feminimo.
Yi = α + βX1 + δDiX1
Consumo previsto, em função da renda, para indivíduos do
(DiX1: representa a interação de
sexo masculino (D = 1).
renda e sexo)
Para as mulheres, cada aumento adicional de 100 reais acrescenta β reais ao consumo médio. Para
os homens, cada aumento adicional de 100 reais acrescenta β + δ reais ao consumo médio.
Consumo Y Yi = α + (β + δ)Xi
Yi = α + βXi
(α + δ)
β
Renda X
Figura 49
126
ECONOMETRIA
Na forma mista, a variável dummy (D) altera o intercepto e o coeficiente de uma variável explicativa
do modelo de regressão linear:
Onde:
Yi = consumo do indivíduo i;
Xi = renda do indivíduo i;
D = variável dummy: 1 para indivíduo do sexo masculino e 0 para indivíduo do sexo feminimo.
Para as mulheres, cada aumento adicional de 100 reais acrescenta β reais ao consumo médio. Para
os homens, cada aumento adicional de 100 reais acrescenta β + δ reais ao consumo médio.
Consumo Y
Yi = (α + δ) + (β + y)Xi
Yi = α + βXi
(α + δ)
β
Renda X
Figura 50
Agora estendemos a noção de variável binária em que algumas das variáveis independentes são
contínuas, enquanto outras são binárias. Vamos utilizar o exemplo da função consumo e verificar se o
comportamento de consumo da economia no período do governo FHC comparado com o do governo
Lula se tornou diferente. Casos diferentes podem ser analisados a partir de uma função simples de
consumo agregado determinado pela renda agregada sem defasagem. Veja os dados a seguir, de acordo
com o IBGE:
127
Unidade III
Y X
Ano Consumo Renda D DX
1996 116.080 180.397 0 0
1997 119.601 186.521 0 0
1998 118.739 187.151 0 0
1999 119.189 188.027 0 0
2000 123.995 196.278 0 0
2001 124.951 199.006 0 0
2002 126.599 205.082 0 0
2003 125.908 207.422 1 207.422
2004 130.848 219.369 1 219.369
2005 136.634 226.394 1 226.394
2006 143.855 235.364 1 235.364
2007 153.027 249.650 1 249.650
2008 162.919 262.367 1 262.367
2009 170.180 262.037 1 262.037
2010 180.781 281.764 1 281.764
Caso I:
Yy = α + β1X1 + ei
Yy = - 491,70 + 0,6270X1
Este modelo apresenta um comportamento de consumo idêntico, em todos os aspectos, para os dois
períodos de governo.
Caso II:
Yy = α + β1X1 + δ1Di + ei
A variável dummy D será igual a 0 se referente ao governo FHC e 1 se vinculada ao governo Lula.
Este caso corresponde à pressuposição de que o intercepto da função consumo mude no período do
governo Lula, mas que o parâmetro de inclinação permaneça o mesmo. Um modo de certificar
se de fato tal mudança é estatisticamente significativa é oferecido pelo teste da hipótese nula
de que δ1 = 0. Aplicando o teste t de Student, temos que o valor calculado de t-teste (stat-t = -3,50)
em módulo é maior que o t-crítico = 2,18 (tabela, com 5% de significância e gl II = 12). Portanto, o
coeficiente da variável dummy D é diferente de zero, isto é, a mudança de comportamento de consumo
é significativa estatisticamente entre os dois períodos de governo.
128
ECONOMETRIA
Caso III:
Yy = α + β1X1 + δ1(DiX1) + ei
Caso IV:
Neste caso, é permitido mudar tanto a inclinação como o intercepto. Nota-se que o modelo
continua sendo expresso por uma única equação em que se supõe que a variância do termo de erro seja
igual nos dois períodos analisados.
Aplicando o teste t de Student, temos que o valor calculado de t-teste (stat-t para a variável dummy
D = -3,4 e para a dummy DX = 3,0) em módulo é maior que o t-crítico =2,20 (tabela, com 5% de
significância e gl II = 11). Portanto, o coeficiente das variáveis dummies D e DX é diferente de zero, isto
é, a mudança de comportamento de consumo é significativa estatisticamente, tanto para o intercepto
quanto para a inclinação, entre os dois períodos de governo.
A estimação através do método dos mínimos quadrados (MMQ) produz estimativas únicas do
erro-padrão da regressão e das distribuições dos parâmetros da regressão estimados.
Caso V:
Neste caso, a proposta é elaborar duas regressões, uma para cada período de governo, o que permite
acompanhar a variância dos erros dos parâmetros em cada um dos períodos e obter as estimativas
separadas dos erros-padrão das duas regressões em análise. O que se pretende é verificar se os parâmetros
estimados de regressão no caso IV (período 1996-2010) e no caso V (equação período FHC, de 1996 a
2002, e equação período Lula, de 2003 a 2010) são equivalentes.
129
Unidade III
No entanto, a escolha entre o modelo único para o período (Caso IV) e o modelo desmembrado nos
dois períodos (Caso V) vai depender de o comportamento da variância do erro ser constante ao longo
de todo o período considerado (1996-2010).
Saiba mais
Veremos agora como podemos ajustar um modelo mais geral, no qual, por exemplo, também as
inclinações possam ser distintas. O modelo se propõe a explicar as variações dos rendimentos familiares
per capita (variável dependente Y) através da média de anos de estudos (variável independente X) de
62 municípios que compõem as três regiões metropolitanas: de Campinas (19), Ribeirão Preto (25) e
Sorocaba (18). Para representar as três regiões metropolitanas, utilizaremos duas variáveis dummies,
conforme tabela a seguir:
Variáveis dummies
Regiões metropolitanas
DR DS
Campinas 0 0
Ribeirão Preto 1 0
Sorocaba 0 1
Tabela 40
130
ECONOMETRIA
131
Unidade III
Cássia dos
24 2 14,4 23,5 830,18 6,49 0 6,49 1 1
Coqueiros
Assim, para cada uma das regiões metropolitanas, teríamos os seguintes modelos de regressão:
Y_cps = β1 + β2testud + ε
faz com que sejam ajustadas três retas com interceptos e inclinações diferentes.
132
ECONOMETRIA
Tabela 41
Assim:
Esse é o modelo mais geral, no qual também as inclinações podem ser distintas. Portanto, os
resultados da estimação com média dos anos de estudos (X), regiões metropolitanas e interações são:
As três retas ajustadas simultaneamente (Y^RM), neste exemplo, são equivalentes às retas que
obteríamos se ajustássemos separadamente um modelo para cada região metropolitana (Y^RMCampinas,
Y^RMRibeirão Preto e Y^RMSorocaba). No entanto, este procedimento tem a vantagem de facilitar a construção dos
testes de hipóteses envolvendo simultaneamente parâmetros das três retas.
133
Unidade III
Tabela 42
Assim:
Portanto, os resultados da estimação com média dos anos de estudos (X), regiões metropolitanas e
interações são:
Tabela 43
Assim:
Portanto, os resultados da estimação com média dos anos de estudos (X), regiões metropolitanas e
interações são:
Poderíamos utilizar apenas uma variável dummy D (D_pobres =1) indicando municípios com
porcentagem de pessoas em domicílios pobres igual a ou acima de 15% e D (D_pobres = 0) indicando
municípios com porcentagem de pessoas em domicílios pobres abaixo de 15%.
Tabela 44
Assim:
A variável binária que representa os municípios com porcentagem de pessoas em domicílios pobres
acima de 15% foi significativa no nível de 5%. Como a renda familiar per capita média do grupo todo
dos municípios (62 municípios) representa R$ 1.227,32, a variável dummy nos informa que a renda
familiar per capita dos municípios com porcentagem de pessoas em domicílios pobres acima de 15% é
mais baixa em R$ 361,00 reais, o que representa uma queda em relação à média aproximada de 30%.
Esse diferencial significativo confirmado pelo teste t-Student da renda familiar desaparece quando
o modelo de regressão é expandido levando em conta a média de anos de estudos:
Tabela 45
135
Unidade III
Assim:
A variável binária não apresenta diferencial significativo quanto às diferenças de intercepto (stat-t).
Portanto, os resultados da estimação com média dos anos de estudos (X) e regiões metropolitanas são:
No modelo expandido, a variável binária que representa os municípios com porcentagem de pessoas
em domicílios pobres acima de 15% não foi significativa no nível de 5%. Como a renda familiar per
capita média do grupo todo dos municípios (62 municípios) representa R$ 1.227,32, a variável dummy
nos informa que a renda familiar per capita dos municípios com porcentagem de pessoas em domicílios
pobres acima de 15%, que isoladamente era mais baixa em R$ 361,00 reais, passou a ser de R$ 52,00, o
que representa uma queda em relação à média aproximada de 4%.
Lembrete
Qualquer variável expressa em categorias pode ser transformada em
uma variável dummy: por exemplo, variáveis envolvendo os três setores da
economia (primário, secundário e terciário).
Frequentemente, em análise de uma série temporal, é comum adotar modelos em que aparecem
variáveis defasadas, isto é, o valor de Yt referente ao t-ésimo período aparece como função de Xt1, Xt, Xt-1,
Xt-2 e/ou Yt-1 etc. Isso é útil para a análise de políticas públicas.
Variáveis defasadas são valores que estão fortemente correlacionados aos valores que os antecedem
e àqueles que os sucedem. Esse tipo de correlação é conhecido como autocorrelação. Na modelagem
136
ECONOMETRIA
Yt = α + β1Yt-1 + ut
Yt = α + β1Yt-1 + β2Yt-2 + ut
Em que:
137
Unidade III
Depois de selecionado o modelo, devemos, através do MMQ, calcular as estimativas dos parâmetros
e validá-los. Para selecionar o modelo nos baseamos em experiências anteriores ou escolhemos um
modelo com diversos parâmetros e, em seguida, por meio do teste t (t0,05; n-2k-1), passo a passo, vamos
eliminando os parâmetros de ordem mais elevada que não contribuam significativamente para o modelo
(quando a hipótese nula é aceita, indicando que o parâmetro de maior ordem é igual a zero) e vamos
ajustando o modelo até que a hipótese nula (H0) seja rejeitada. Quando isso ocorrer, concluiremos que
esse modelo pode ser utilizado para fins de previsão.
Para demonstrar esse procedimento de escolha do modelo autorregressivo mais eficaz, retomemos
a série temporal do exemplo que trata da renda (X) explicando o consumo (Y) ao longo do período
de 1996 a 2010. Construímos a planilha conforme tabela a seguir, que apresenta os dados do IBGE
para os modelos autorregressivos de primeira a terceira ordem.
1996 116.080
1997 119.601 116.080
1998 118.739 119.601 116.080
1999 119.189 118.739 119.601 116.080
2000 123.995 119.189 118.739 119.601
2001 124.951 123.995 119.189 118.739
2002 126.599 124.951 123.995 119.189
2003 125.908 126.599 124.951 123.995
2004 130.848 125.908 126.599 124.951
2005 136.634 130.848 125.908 126.599
2006 143.855 136.634 130.848 125.908
2007 153.027 143.855 136.634 130.848
2008 162.919 153.027 143.855 136.634
2009 170.180 162.919 153.027 143.855
2010 180.781 170.180 162.919 153.027
138
ECONOMETRIA
Tabela 47
Anova
F de
gl SQ MQ F significação
Regressão 3 4.586.569.794 1.528.856.598 216,65 0,00000005
Resíduo 8 56.455.153 7.056.894
Total 11 4.643.024.946
Partimos da ideia que não temos experiência para estabelecer o modelo de imediato. Assim, a
seleção do modelo autorregressivo que melhor se ajuste a séries temporais anuais deve ser iniciada com
o modelo autorregressivo de terceira ordem. A equação autorregressiva ajustada é:
Na sequência, vamos testar a significância de β3 = 0,2155 (parâmetro de ordem mais elevada), com
um erro-padrão de 0,4564. Para testar a hipótese nula:
H0 : β3 = 0
H1 : β3 ≠ 0
139
Unidade III
α α
2 2
-2,31 0 +2,31 t
O valor de stat-t (estatística t calculada) é de 0,47 e se encontra na região de aceitação (veja a figura
anterior), pois o valor em módulo do stat-t é menor do que o valor t crítico = |0,47| = 0,47 < 2,31. Assim,
concluímos que devemos aceitar a hipótese nula H0, indicando que o parâmetro de maior ordem do
modelo autorregressivo é igual a zero, não sendo significativo, e, portanto, pode ser excluído.
Não sendo significativo o parâmetro de maior ordem (terceira), foi descartado. Prosseguimos no
ajuste do modelo autorregressivo de segunda ordem, conforme a tabela a seguir:
Tabela 48
Anova
gl SQ MQ F F de significação
Regressão 3 5.101.411.991 1.700.470.664 667,8 0,0000000001
Resíduo 9 22.918.546 2.546.505
Total 12 5.124.330.537
140
ECONOMETRIA
Assim:
Na sequência, vamos testar a significância de β2 = - 0,0492 (parâmetro de ordem mais elevada), com
um erro-padrão de 0,3673. Para testar a hipótese nula:
H0 : β2 = 0
H1 : β2 ≠ 0
α α
2 2
-2,23 0 +2,23 t
Não sendo significativo o parâmetro de maior ordem (segunda), foi descartado. Prosseguimos no
ajuste do modelo autorregressivo de primeira ordem, conforme a tabela a seguir:
141
Unidade III
Tabela 49
Anova
gl SQ MQ F F de significação
Regressão 1 5.431.067.611 5.431.067.611 895,41 0,000000000001
Resíduo 12 72.785.837 6.065.486
Total 13 5.503.853.448
Assim:
Na sequência, vamos testar a significância de β1 = 1,1796 (parâmetro de ordem mais elevada), com
um erro-padrão de 0,0394. Para testar a hipótese nula:
H0 : β1 = 0
H1 : β1 ≠ 0
142
ECONOMETRIA
α α
2 2
-2,18 0 +2,18 t
O valor de stat-t (estatística t calculada) é de 29,92 e se encontra na região de rejeição (veja a figura
anterior), pois o valor em módulo do stat-t é maior do que o valor t crítico = |29,92| = 29,92 > 2,18.
Assim, concluímos que devemos rejeitar a hipótese nula H0, indicando que o parâmetro de primeira
ordem do modelo autorregressivo é diferente de zero, sendo significativo, e, portanto, deve permanecer
no modelo.
Por esta técnica de construção de modelo, o modelo autorregressivo de primeira ordem foi o
selecionado como o mais apropriado:
Através do modelo autorregressivo de primeira ordem, a figura a seguir ilustra os valores reais e os
previstos do consumo (Y):
143
Unidade III
220.000,00
Previsto Consumo (Yt)
200.000,00 Realizado Consumo (Yt)
180.000,00
160.000,00
140.000,00
120.000,00
100.000,00
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
Figura 54 – Gráfico de consumo real e previsto, a partir de um modelo autorregressivo de primeira ordem
Lembrete
Observação
A utilização das variáveis instrumentais nos auxiliará na busca de estimadores consistentes quando
tivermos regressores endógenos presentes no modelo de regressão (regressores endógenos são variáveis
independentes X cujos valores são determinados dentro do sistema). Numa regressão com mais variáveis,
144
ECONOMETRIA
mesmo que a estatística R2 seja elevada, se uma única variável for endógena, todos os coeficientes
estimados (inclusive os das variáveis exógenas) poderão se tornar enviesados.
Considere a equação:
Y = α + βX + u
Onde:
E(u) = 0
Cov(X, u) ≠ 0
Mesmo não conhecendo o motivo para a existência de correlação entre X e u, o método de variáveis
instrumentais (VI) fornece um estimador consistente dos parâmetros de interesse.
O método se baseia na utilização de uma variável adicional Z, não incluída na fórmula anterior, que
satisfaça tais condições:
Cov(Z, u) = 0
Cov(Z, X) ≠ 0
O método de regressão por variáveis instrumentais (VI) é uma solução possível que fornece
estimadores consistentes dos parâmetros de interesse quando o erro (e) e uma variável regressora (X)
são correlacionados. Sabe-se que surgem problemas para os mínimos quadrados quando X é aleatório
e correlacionado com a perturbação aleatória E(xiei) ≠ 0. Sob essa condição, o método de mínimos
quadrados ordinários (MMQO) produz estimadores viesados e inconsistentes.
As razões mais comuns para a existência de correlação entre o erro (e) e alguma variável explicativa
(x) ou regressora são:
• simultaneidade.
O viés de omissão de variáveis surge quando uma variável (independente) que determina a
variável-resposta (dependente) é omitida da regressão e quando pelo menos uma das variáveis
explicativas é correlacionada com a variável omitida. Neste caso, o estimador de MMQO é inconsistente,
mesmo para grandes amostras.
145
Unidade III
Já o viés de erros de mensuração nas variáveis é originado quando uma variável explicativa (X)
é medida de forma imprecisa (resposta equivocada, digitação errada etc.). Neste caso, o estimador de
MMQO é viesado e inconsistente.
Por sua vez, o viés de simultaneidade surge quando existe simultaneidade na relação causal entre
a variável dependente (Y) e uma variável explicativa (X), isto é, de um lado, a variável explicativa (X)
determina a variável dependente (Y); do outro lado, a variável dependente (Y) determina uma variável
explicativa (X).
Se essas hipóteses forem violadas, MQO será inconsistente e viesado. O método de regressão por
variáveis instrumentais (VI) é uma solução possível que fornece estimadores consistentes dos parâmetros
de interesse.
Portanto, esse método de um modelo com variáveis instrumentais se baseia na utilização de uma
variável adicional, Z, denominada variável instrumental, que satisfaça as duas condições a seguir:
Encontrar variáveis instrumentais adequadas (ou instrumentos válidos) para os nossos modelos nem
sempre é fácil, porque não se pode ter certeza de que elas sejam independentes do erro (e). Uma das
razões dessa dificuldade encontra-se nas duas condições a serem cumpridas, que na maioria das vezes
são conflitantes. Por exemplo, ao estimarmos a equação de salários em função do nível educacional,
uma variável omitida seria a própria habilidade da pessoa, o que iria viesar o coeficiente do nível
educacional. Um possível instrumento a ser escolhido seria a variável nível educacional da mãe, a qual
está correlacionada com o nível educacional da pessoa, mas, por sua vez, o nível educacional da mãe
também deve estar correlacionado com a habilidade da pessoa que está presente nos resíduos. Portanto,
por essa razão, o mais indicado é que devemos procurar um instrumento que tenha a mais alta correlação
possível com a variável independente X.
Observação
∑( )
2
^ − β xi
yi − α
σ^ 2 =
n−2
Para obtermos as estimativas dos parâmetros da regressão pelo método das variáveis instrumentais
(VI), multiplica-se a equação que corresponde à variável X, a qual contém os erros, pela respectiva
variável instrumental Z. Os procedimentos de cálculo, no modelo linear simples, de uma única variável
independente X consistem em multiplicar a segunda equação do sistema pela variável instrumental Z,
conforme a seguir:
∑Y = α^ n + β ∑X
∑YZ = α^ ∑Z + β∑XZ
∑Y∑Z
∑ YZ −
n ˆ
Cov(Z, Y)
=β =
∑X ∑Z Cov
ˆ (Z, X)
∑XZ −
n
Cov(Z, Y)
β →
Cov(Z, X)
Para que a variável instrumental seja válida, deve ser não correlacionada com o erro (e), mas
correlacionada com a variável explicativa X:
Cov(Z, Y) Cov(Z,e)
=β −
Cov(Z, X) Cov(Z, X)
147
Unidade III
Cov(Z, e) = 0 é uma condição que foi imposta para a escolha da variável instrumental Z, então o
estimador de variáveis instrumentais converge, em grandes amostras, para β:
Cov(Z, Y)
β → =β
Cov(Z, X)
α^ = Y - β^ X
média de X X
W=
Z× =
Z×
média de Z Z
Em geral, os erros são “não observáveis”. Desconhecemos o que está contido neles, são fatores não
coletados e/ou impossíveis de coletar ou mensurar. O termo residual representa tudo o que afeta Yi além de Xi.
Quaisquer que sejam os erros, devemos supor o que a teoria nos assegura: que eles não estejam
associados à variável independente X. Um resultado dessa independência é não haver correlação ou
covariância entre X e o erro (e). Isso implica que o valor esperado (a média) da multiplicação entre X e
o erro (e) é zero.
A ideia é isolar o vetor de coeficientes de regressão (os parâmetros), numa equação que não depende
dos erros, isto é, precisamos de um meio de “cancelar” os erros da equação com a proposta de obter
a relação com os “verdadeiros” parâmetros da equação (modelo). Através das variáveis instrumentais,
isolamos a parte da variável explicativa que não está correlacionada com o erro, com o propósito de
obtermos estimadores consistentes e não viesados dos parâmetros da regressão. A regressão linear que
representa o modelo da regressão de variáveis instrumentais é definida de forma geral da seguinte
maneira, sendo Y1, Y2 e Y3, as variáveis endógenas e X1 e X2 as variáveis exógenas:
148
ECONOMETRIA
Lembrete
A partir dos dados da tabela a seguir, vamos estimar a regressão pelo método dos mínimos quadrados
ordinários (MMQO) e comparar os resultados com a mesma função pelo método da variável instrumental
(VI), usando a variável X2 (consumo de energia elétrica industrial – TWh) como instrumento. Veja os
dados do IBGE:
Utilizando a variável consumo de energia elétrica industrial (E. E. Ind.) como instrumento no modelo
de regressão que define a relação de despesa de consumo (Y), sendo explicado pela renda (X), verifica-se
na matriz de correlação (veja as tabelas anteriores) que a variável instrumental a ser utilizada possui um
grau de correlação de 95,21% com a variável independente. Veja os dados do IBGE:
149
Unidade III
Tabela 52 – Despesa de consumo (Y), renda (X) e consumo de energia elétrica industrial (Z)
Y X Z YZ XZ
Seq. Ano Consumo Renda E. E. Ind. W YW XW
1 1996 116,1 180,4 117,13 177,2921 20583,61 31983,50
2 1997 119,6 186,5 121,72 184,2391 22035,00 34360,60
3 1998 118,7 187,2 121,98 184,6357 21916,26 34563,81
4 1999 119,2 188,0 123,89 187,5321 22353,82 35256,03
5 2000 124,0 196,3 131,28 198,7114 24640,21 39007,04
6 2001 125,0 199,0 122,54 185,4829 23185,36 36911,10
7 2002 126,6 205,1 130,93 198,1803 25089,63 40646,78
8 2003 125,9 207,4 136,22 206,1926 25959,65 42764,34
9 2004 130,8 219,4 154,16 233,3513 30522,35 51197,27
10 2005 136,6 226,4 158,61 240,0825 32795,27 54354,68
Média 124,25 199,57 131,85 199,5700
∑ 1.242,50 1.995,70 1.318,45 1.995,70 249.081,16 401.045,15
Primeiramente, vamos calcular a estimativa dos parâmetros pelo método dos mínimos quadrados
ordinários (MMQO). A estimativa por esse método é a seguinte:
Tabela 53
Anova
gl SQ MQ F F de significação
Regressão 1 338,83 338,83 276,22 0,0000002
Resíduo 8 9,81 1,23
Total 9 348,65
150
ECONOMETRIA
Assim:
Yi = 42,9395 + 0,4074X1i
Vamos obter as estimativas dos parâmetros da regressão pelo método das variáveis instrumentais (VI),
conforme cálculos a seguir:
Para compatibilizar as unidades entre as variáveis renda (X) e instrumental Z, usa-se a transformação
X
Z × médio , obtendo-se:
Zmédio
Outra maneira de proceder aos cálculos é por meio da matriz de covariância, apresentada a seguir:
Tabela 54
ˆ
Cov(Z, Y) 111,54376
=β = = 0,4037
ˆ (Z, X) 276,329738
Cov
Yi = 43,6836 + 0,4037Xi
Nem sempre dispomos de uma variável instrumental, obtida dos dados observados. Com base no
modelo de regressão linear simples (Yj = α + βXj + uj), define-se uma forma de obtê-la que parte
151
Unidade III
inicialmente de que as observações estão ordenadas de acordo com os valores de Xj, em ordem crescente.
Se o número de observações (n) for par, estabeleceremos Zj = - 1 para as primeiras n/2 observações e
Zj = 1 para as n/2 últimas observações. Sendo n ímpar, estabelecemos Zj = - 1 para j = 1,2,..., (n-1)/2,
Zj = 0 para j = (n+1)/2 e Zj = 1 para j=(n+3)/2,...,n.
Y −Y
β = 2 1
X 2 − X1
Onde:
O estimador (fórmula descrita anteriormente) foi proposto por Wald (1940). É denominado por
método do agrupamento das observações, obtido a partir das médias de X e Y para dois conjuntos
de observações.
Vamos elaborar o cálculo para o estimador proposto por Wald em relação ao modelo consumo (Y) e
renda (X), a seguir:
Y X
Seq. Ano Consumo Renda Z XY X2
1 1996 116,1 180,4 -1 20944,44 32544,16
2 1997 119,6 186,5 -1 22305,40 34782,25
3 1998 118,7 187,2 -1 22220,64 35043,84
4 1999 119,2 188,0 -1 22409,60 35344,00
5 2000 124,0 196,3 -1 24341,20 38533,69
6 2001 125,0 199,0 1 24875,00 39601,00
7 2002 126,6 205,1 1 25965,66 42066,01
8 2003 125,9 207,4 1 26111,66 43014,76
9 2004 130,8 219,4 1 28697,52 48136,36
10 2005 136,6 226,4 1 30926,24 51256,96
Média 124,25 199,57
∑ 1.242,50 1.995,70 248.797,36 400.323,03
152
ECONOMETRIA
Tabela 56
Y X
Média 1 119,52 187,68
Média 2 128,98 211,46
Média (1+2) 124,25 199,57
Yi = 44,8584 + 0,3978Xi
Nessa mesma lógica de obter uma variável instrumental, Bartlett (1949) mostrou que a eficiência
do estimador aumentará se fizermos uma divisão em três grupos, de maneira equilibrada, com
aproximadamente o mesmo número de observações em cada um dos grupos.
Lembrando que as observações devem estar ordenadas de acordo com os valores crescentes de Xj,
estabelecemos Zj = - 1 para as observações do primeiro grupo, Zj = 0 para as observações do segundo
grupo e Zj = 1 para as observações do terceiro grupo. Assim, obtemos:
Y −Y
β = 3 1
X 3 − X1
Onde X1 e Y1, X3 e Y3 são as médias dos valores de Xj e Yj, respectivamente, para as observações do
primeiro e do terceiro grupo.
Apresentamos outro método de obter uma variável instrumental que pode ser estendido para o caso
de regressões múltiplas, como consta em Johnston (1972, p. 289-290).
Conforme o modelo de regressão linear simples Yj = α + βXj + uj, a estimativa de β, de acordo com
o MMQO, é:
1
n
∑x jy j
b=
1
n
∑x2j
153
Unidade III
1
β = n
∑x jy j
1
n
∑ x2j − σu2
2
1
σu2 = ln1,2
2
Calculando:
2
1
=σu2 =ln1,2 0,0083
2
1 1
n
∑ x jy j
10
× 248.797,36
24.879,7360
=β = = = 0,6215
1 1 40.032,2947
n
∑ x2j − σu2
10
× 400.323,03 − 0,0083
Yi = 0,2189 + 0,6215Xi
Observação
Podemos determinar a estimativa consistente de β admitindo, por
exemplo, que a variância do erro de medida de X seja de σ u2 = 1,5.
Observação
O uso de valores defasados das variáveis exógenas (Xt-h, h = 1, 2, 3, ...)
não altera as propriedades teóricas dos estimadores. No entanto, a utilização de
valores defasados da variável endógena (Yt-h, h = 1, 2, 3, ...) no segundo membro
da equação, entre as variáveis independentes, exige uma análise especial.
Saiba mais
Sobre erros nas variáveis independentes e variáveis defasadas, leia as
páginas 229-247 da obra a seguir:
HOFFMANN, R. Análise de regressão: uma introdução à econometria.
São Paulo: Hucitec, 1977.
Nos tópicos anteriores, abordamos mais intensamente os métodos causais de previsão, aqueles que
envolvem a determinação de fatores que se relacionam à variável que tentamos prever, em especial a
regressão linear múltipla. A seguir, vamos abordar os métodos de previsão de séries temporais. Os métodos
quantitativos de previsão de séries temporais utilizam dados históricos, do passado e do presente, de
uma determinada variável, para prever valores futuros. Os modelos utilizados para descrever séries
temporais são processos estocásticos, isto é, processos controlados por leis probabilísticas. A construção
desses modelos depende de vários fatores, como o comportamento do fenômeno ou o conhecimento a
priori que temos de sua natureza e do objetivo da análise.
Veja o gráfico a seguir, de acordo com informações do site HC Investimentos (CARVALHO, 2013):
140
120
100,00
100
80
60
40
11,35
20
0
94 95 96 97 98 99 00 01 02 03 04 05 06 07 08 09 10 11 12 13
155
Unidade III
Uma série temporal é um conjunto de observações ordenadas no tempo. Alguns exemplos de séries
temporais são:
1
Observações
-1
-2
-3
A) 1 11 21 31 41 51 61 71 81 91 101 111 121 131 141 151 161 171 181 191
156
ECONOMETRIA
14
12
Observações
10
B) 1 11 21 31 41 51 61 71 81 91 101 111 121 131 141 151 161 171 181 191
Quanto ao estado estacionário, no que se refere ao crescimento econômico a longo prazo (os fatores
que impulsionam, como a divisão do trabalho, o aumento da produtividade, as inovações tecnológicas
e a crescente acumulação de capital), existe a possibilidade de que esse crescimento venha a ser
interrompido. O caráter progressivo da economia caminha inevitavelmente para um ponto de saturação:
o “Estado estacionário”. Previsão de modelos relacionados às taxas de crescimento que recebem o nome
de “princípio da dinâmica da transição” aponta que quanto mais “abaixo” do seu estado estacionário
estiver uma economia, tanto mais rápido deverá ser seu crescimento. Quanto mais “acima” ela estiver
do seu estado estacionário, mais lento será seu crescimento.
Nos modelos de regressão linear, supõe-se que os erros gerados pelo modelo possuam algumas
características, como média zero, variância constante, distribuição normal e independência, implicando,
assim, a inexistência de correlação. No entanto, ao se elaborar um modelo de regressão linear para
uma série temporal (conjunto de dados numéricos coletados ao longo do tempo), a hipótese de
independência dos resíduos acaba não sendo aceita, e os resultados e testes usados nos modelos
acabam não sendo significativos.
O que se pressupõe é que os fatores que influenciam atividades no passado e no presente tendam a
se repetir aproximadamente do mesmo modo, no futuro. Para elaborar as previsões, é preciso identificar
e isolar os fatores que compõem o modelo em estudo. Ao tentarmos descrever o comportamento de
uma série temporal, podemos decompô-la em três séries temporais, a seguir:
• tendência (Tt);
• sazonalidade (St);
• componente aleatória (at).
157
Unidade III
Os ciclos são grandes desvios da tendência devido a fatores não sazonais. Eles demonstram oscilações
ou movimentos ascendentes ou descendentes ao longo de toda a série e ocorrem em um grande intervalo
de tempo, geralmente durando de dois a dez anos, e a duração dos intervalos entre picos sucessivos
ou ciclos não é necessariamente a mesma – portanto, diferem em intensidade e estão frequentemente
correlacionados a um ciclo econômico.
1,6
1,5
1,4
1,3
1,2 Ciclos
1,1 Sazonais
1 Irregulares
0,9
0,8
0,7
0,6
Tempo
Quanto ao movimento irregular ou componente aleatória (conforme a linha de cor verde no gráfico
anterior), em alguns períodos de tempo, os valores se mostram mais elevados e, em outros, mais abaixo
do que seria previsto por uma linha de tendência. São os movimentos restantes após explicação da
tendência e dos movimentos cíclicos e sazonais, dados que não seguem a tendência modificada pelo
componente cíclico e fazem parte do efeito aleatório ou irregular, chamados de ruído aleatório ou erro
em uma série temporal.
158
ECONOMETRIA
400
Observações
200
49
50
51
52
53
55
54
56
58
57
59
60
19
19
19
19
19
19
19
19
19
19
19
19
Anos
Sejam {Zt, t = 1, ..., N} as observações de uma série temporal. Podemos decompor Zt em duas formas:
• Modelo aditivo:
Zt = Tt + St + at
• Modelo multiplicativo:
Zt = Tt x St x at
Onde:
Tt: tendência;
St: sazonalidade;
O ponto central será estimar Tt e St e obter uma série de sazonalidade ajustada e sem tendência ou
uma série livre de sazonalidade.
159
Unidade III
Observação
Partimos de um modelo que não comtempla a componente sazonal (St), representado pela fórmula
a seguir:
Zt = Tt + at
Onde:
Tt: tendência;
A partir do modelo livre da sazonalidade, estimamos a componente Tt através dos métodos mais
utilizados, como:
• ajuste da linha de tendência, em função do tempo, usando um modelo linear polinomial ou exponencial;
• suavização, ao redor de um ponto, para estimar a tendência naquele ponto, através de sucessivos
ajustes de mínimos quadrados ponderados.
Detalhamos alguns dos métodos mais utilizados nas análises de séries temporais:
• Para calcular a média de observações recentes e excluir observações mais antigas, use um método
de média móvel. Não use quando suas séries exibirem uma tendência.
• Para fornecer pesos decrescentes a observações mais antigas, quando suas séries temporais
não exibirem uma tendência ou um padrão sazonal, use um método de suavização
exponencial simples.
• Para fornecer pesos decrescentes para observações mais antigas, quando suas séries
temporais exibirem uma tendência, mas não um padrão sazonal, use um método de
suavização exponencial dupla.
• Para fornecer pesos decrescentes para observações mais antigas, quando suas séries
temporais exibirem um padrão sazonal, com ou sem uma tendência, use o método de
suavização de Winters.
160
ECONOMETRIA
• Crie uma nova coluna de dados para análises personalizadas e gráficos e armazene as diferenças
entre observações dentro de uma série.
• Para medir quão bem as observações em diferentes pontos de tempo se correlacionam entre si e
procurar um padrão sazonal, realize uma análise de autocorrelação.
• Para medir quão bem as observações passadas em uma série temporal se correlaciona com futuras
observações, enquanto explicam observações que estão entre o par de correlações, realize uma
análise de autocorrelação parcial.
• Para determinar se uma série prediz outra representando graficamente as correlações entre duas
séries, em diferentes pontos no tempo, realize uma análise de correlação cruzada.
• Para ajustar um modelo com componentes autorregressivos, diferença e média móvel, realize
uma ARIMA. Para ajustar um modelo ARIMA, você deve entender a autocorrelação e a estrutura
de autocorrelação parcial das suas séries.
161
Unidade III
Figura 63 – Método de Winters, comprimento curto a médio, tendência com padrão sazonal
Após estimada a tendência em T^ t, podemos ter a série ajustada para tendência ou livre de tendência:
Yt = Zt - T^ t
∆Zt = Zt - Zt-1
162
ECONOMETRIA
Saiba mais
http://www.minitab.com/pt-br/
01
3
0
04
3
6
5
07
6
9
i/0
/0
/0
v/0
v/0
/0
i/0
v/0
i/0
/0
o/
o/
o/
fev
fev
fev
fev
ma
ma
ma
no
no
ag
no
ag
ag
163
Unidade III
Quantidade de encomendas
Tempo
É preciso, inicialmente, desenhar um gráfico para os dados de uma série temporal e observar
quaisquer padrões que possam ocorrer ao longo do tempo. Caso não exista evidência de tendência
a longo prazo, podemos utilizar o método das médias móveis, ou método do ajuste exponencial, para
ajustar a série, bem como métodos de previsão de séries temporais.
Média móvel
Na sua forma mais simples, usam-se normalmente os dados mais recentes para gerar previsões através da
média móvel. Assim, a cada novo período de previsão, substituem-se os dados mais antigos pelos mais recentes.
Veja a seguir o exemplo do histórico de vendas de uma loja de roupas femininas nos últimos 12 meses:
Tabela 57
Seq. 1 2 3 4 5 6 7 8 9 10 11 12
Mês Jan. Fev. Mar. Abr. Maio Jun. Jul. Ago. Set. Out. Nov. Dez. Média
Vendas (R$ mil) 19,9 25,2 48,2 34,0 48,6 42,1 30,0 18,9 35,3 42,5 43,4 59,0 37,3
Para prever as vendas através da média móvel para o mês de janeiro/ano 2, devemos calcular a venda
média dos últimos doze meses: 37,3 mil reais.
Porém, se quisermos calcular a previsão para o mês de fevereiro/ano 2, consideraremos a média dos
últimos doze meses (fev./ano 1 a jan./ano 2), procedendo de igual modo nos meses sucessivos.
Podemos atribuir um peso a cada um dos dados; a soma dos pesos é 1 (um). O mais indicado é
atribuir peso maior aos períodos mais recentes.
164
ECONOMETRIA
Faremos a mesma previsão do exemplo anterior (jan./ano 2), porém de forma ponderada, escolhida a
ponderação trimestral com fator de ajuste de 0,5 para o mês de dezembro e 0,3 para o mês de novembro,
e o peso de 0,2 para o mês de outubro.
Então, a previsão para jan./ano 2 é: 0,5 x 59,0 + 0,3 x 43,4 + 0,2 x 42,5 = 51,02
Diante da existência da sazonalidade, faremos a previsão baseada nas vendas dos quatro últimos anos:
100
90
80
70
R$ mil
60
50
40
30
20
10
0
J_ano 1
M
M
J
S
N
J_ano 2
M
M
J
S
N
J_ano 3
M
M
J
S
N
J_ano 4
M
M
J
S
S
Mês/ano
Tabela 58
165
Unidade III
Calculando os coeficientes de sazonalidade e dividindo cada valor pela média do respectivo ano:
Tabela 59
Supondo que as vendas para o ano 5 alcançassem o valor total de R$ 498,53 mil, a média trimestral
seria de R$ 124,63 mil, o que proporcionaria uma previsão distribuída pelos quatro períodos sazonais,
conforme cálculos na tabela a seguir:
Tabela 60
O ciclo de sazonalidade é de três períodos MMC(3). Assim, a primeira média móvel centrada (31,10) se
situa na segunda linha, que consiste na média das três primeiras vendas (19,91 + 25,20 + 48,19) / 3 = 31,10.
O índice de sazonalidade para o mês de fevereiro (segunda linha) é a divisão do valor da venda pela sua
respectiva média móvel (25,20 / 31,10 = 0,81), e assim por diante.
Tabela 61
166
ECONOMETRIA
167
Unidade III
Devemos calcular o índice de sazonalidade padronizado para cada mês com base na média. Para o
mês de janeiro (0,704 + 0,351 + 0,551) / 3 = 0,54, e assim por diante.
Tabela 62
Índice de sazonalidade
Mês mensal (padrão)
Janeiro 0,54
Fevereiro 0,63
Março 1,31
Abril 0,92
Maio 1,09
Junho 1,00
Julho 1,05
Agosto 0,73
Setembro 1,14
Outubro 0,86
Novembro 0,97
Dezembro 1,51
Supondo que as vendas para o ano 5 alcançassem o valor total de R$ 498,53 mil, a média mensal seria
de R$ 41,54 mil, o que proporcionaria uma previsão distribuída pelos doze meses no ano 5, conforme
cálculos na tabela a seguir:
Tabela 63
Os dados a seguir representam a despesa de consumo das famílias brasileiras (em bilhões de R$)
do primeiro trimestre de 2013 ao terceiro trimestre de 2015, conforme dados do IBGE:
168
ECONOMETRIA
Tabela 64
2013/T1 2013/T2 2013/T3 2013/T4 2014/T1 2014/T2 2014/T3 2014/T4 2015/T1 2015/T2 2015/T3
776 804 829 866 854 866 888 940 912 916 937
Médias móveis
Vamos calcular as médias móveis de cinco trimestres para essa série temporal trimestral. Inicialmente,
calcula-se o total da movimentação para cinco trimestres, e em seguida divide-se esse total por 5. A
primeira das médias móveis é:
Para o cálculo da segunda das médias móveis para 5 anos, calcula-se o total da movimentação
partindo do segundo até o sexto trimestre e divide-se esse valor por 5:
Essa média é centrada no valor do meio (o quarto trimestre da série temporal). As demais medias
móveis são:
169
Unidade III
Todas as sete médias móveis são centralizadas em seus respectivos valores do meio. Nota-se que quanto
mais extenso o período (no caso, igual a 5), menor o número de médias móveis que podemos calcular – a
extensão do período utilizada para a construção das médias é totalmente subjetiva, e caso haja oscilações
cíclicas, é indicado que ela corresponda ao período cíclico (de valor inteiro mais próximo) ou de seu múltiplo.
Caso não haja evidências de oscilação cíclica, os períodos mais escolhidos ficam em torno de três ou cinco,
chegando às vezes até sete, dependendo do tamanho (número) de observações da série temporal.
Ajuste exponencial
O ajuste exponencial em uma série temporal consiste em uma série de médias móveis exponencialmente
ponderadas baseada na equação definida a seguir:
E1 = Y1
Ei = WYi + (1 - W)Ei-1 i = 2, 3, 4, 5, ...
Onde:
Os pesos vão sofrendo modificações de tal modo que o valor mais recente recebe o maior peso, o valor
anterior recebe o segundo maior peso e assim sucessivamente, com o primeiro valor recebendo o menor
peso, em que cada um dos valores exponencialmente ajustados depende de todos os valores anteriores.
A atribuição subjetiva ou a escolha do coeficiente de ajuste (W) com valores próximos de zero tem
por objetivo somente eliminar as variações cíclicas e irregulares consideradas indesejáveis. Se o interesse
passar a ser em projeções (previsões de curto prazo), o indicado será escolher valores próximos de 0,5.
Baseados nos valores trimestrais da despesa de consumo das famílias brasileiras apresentados na
tabela a seguir, no período de 36 trimestres, de 1996 a 2014, calculamos os valores exponencialmente
ajustados, com a utilização da planilha do Microsoft Excel, atribuindo os valores do coeficiente de ajuste
W = 0,5 e W = 0,25, juntamente com os respectivos gráficos.
Iniciamos o procedimento de cálculo para o ajuste exponencial com coeficiente W = 0,25, tendo
como ponto de partida o valor inicial Y1996/T1 = 126 (primeiro valor ajustado), isto é:
E1 = Y1
170
ECONOMETRIA
Na sequência, devemos utilizar o segundo valor da série temporal correspondente ao segundo trimestre
de 2016 (Y1996/T2 = 133). Ajustamos a série para o segundo trimestre de 1996, procedendo ao cálculo:
Dando sequência aos ajustamentos dos demais valores, até o final da série, apresentamos os
resultados na tabela a seguir:
Tabela 65
171
Unidade III
320
270
Consumo
R$ bilhões
AJ_EX (W = 0,50)
220 AJ_EX (W = 0,25)
170
120
1996/T1 1997/T1 1998/T1 1999/T1 2000/T1 2001/T1 2002/T1 2003/T1 2004/T1 Ano/trimestre
Para proceder ao ajuste com a finalidade de previsão, adotamos o valor ajustado no período de
tempo corrente como uma projeção para o valor no período de tempo seguinte (Y^i+1):
Y^i+1 = Ei
Vamos prever as despesas de consumo das famílias brasileiras para o ano seguinte apresentado na
série (primeiro trimestre de 2015). Com base no coeficiente de ajuste de W = 0,25, utilizamos o valor
ajustado para 2014/T4 como estimativa (285,5).
Como previsão nova, para o primeiro trimestre de 2015 temos o valor de 293,63.
Tendência é o fator componente de uma série temporal mais frequentemente estudado para realizar
projeções de médio e de longo prazo. Ao plotar o gráfico da série histórica visualmente, temos uma ideia
das movimentações gerais de longo prazo em uma série temporal. Havendo a possibilidade de uma linha
reta ser ajustada aos dados da série, podemos utilizar o modelo de tendência linear (Yi = α + βXi + ei). Se
observarmos o tipo de movimento quadrático de longo prazo (ascendente ou descendente), poderemos
utilizar o modelo de tendência quadrática (Yi = α + β1Xi + β2Xi2 + ei). Caso os dados da série temporal
cresçam a uma taxa constante, podemos utilizar um modelo de tendência exponencial (Yi = βXiei), em
que α é o intercepto de Y e (β -1)100% é a taxa de crescimento composta (em %).
Yi = α + βXi + ei
No exemplo a seguir, já vamos adotar esse procedimento. Nos dados da série temporal (conforme a
tabela anterior), notamos que os valores inteiros codificados a serem considerados para a variável (X) se
encontram na primeira coluna da tabela. O modelo ajustado através do MMQO é apresentado a seguir:
Tabela 66
Anova
gl SQ MQ F F de significação
Regressão 1 86.719,70 86.719,70 603,47 0,0000000
Resíduo 34 4.885,86 143,70
Total 35 91.605,56
173
Unidade III
Assim:
O intercepto α = 120,2087 corresponde ao consumo autônomo previsto (em bilhões de reais) para
as famílias durante o ano de origem (1996 = ano-base).
A inclinação β = 4,7246 indica que a previsão do consumo das famílias é de crescimento em R$ 4,72 bilhões
por trimestre.
350 y = 4,7246x + 120,21
Consumo (Y) R2 = 0,9467
300
Linear (Consumo (Y))
250
R$ bilhões
200
150
100
50
0
10 20 30 40
Ano codificado
Existe uma forte tendência linear crescente. O r2 ajustado é de 0,9451, indicando que 94,51% das
variações no consumo são explicadas pela tendência linear ao longo da série temporal.
40 y = 0,1024x2 - 3,5845x + 20,312
R2 = 0,7184
20
Resíduos
0
10 20 30 40
- 20
- 40 Seq. (X)
Yi = α + β1Xi + β2Xi2 + ei
174
ECONOMETRIA
Onde:
α = intercepto estimado de Y;
Tabela 67
Anova
gl SQ MQ F F de significação
Regressão 2 90.229,5 45.114,8 1.081,9 0,0000
Resíduo 33 1.376,1 41,7
Total 35 91.605,6
Assim:
Nota-se que o modelo de tendência quadrática com r2ajustado =0,9841 proporciona um ajuste melhor
que o da tendência linear, e a estatística de teste (stat-t) para a contribuição do termo quadrático é
significativa, de 9,17.
175
Unidade III
350
y = 0,1024x2 + 1,1401x + 140,52
Consumo (Y) R2 = 0,985
300
250
R$ bilhões
200
150
100
50
0
10 20 30 40
Ano codificado
A presença de uma tendência exponencial é observada quando a série temporal cresce a uma taxa
tal que a diferença percentual de um valor para outro é constante. A equação que define esse modelo é:
Yi = βXiei
Nota-se que o pressuposto da linearidade não está sendo aceito; a equação é não linear, sendo
necessário transformá-la em linear. Neste caso, podemos utilizar a transformação logarítmica de base 10
ou de base e. Assim, a equação do modelo de tendência exponencial, pela aplicação do logaritmo em
ambos os lados da equação transformada, resulta em:
In(Yi) = In(αβXiei)
Pela transformação, a equação se tornou linear, aplicando o MMQO, sendo In(Yi) a variável dependente
e Xi a variável independente:
176
ECONOMETRIA
Tabela 68
Anova
gl SQ MQ F F de significação
Regressão 1 2,1 2,1 1.342,8 0,0000
Resíduo 34 0,1 0,0
Total 35 2,1
Assim:
Não devemos esquecer que para o cálculo dos parâmetros estimados devemos aplicar o antilogaritmo
(e ) aos coeficientes da regressão:
x
α^ = e4,8780 = 131,3677
β^ = e0,0231 = 1,0326
Utilizando a equação original Yi = βXiei, obtemos a equação para a previsão de tendência exponencial
a seguir:
Yi = (131,3677)(1,0326)Xi
O intercepto de Y, α^ = 131,38 bilhões de reais, corresponde à previsão para as despesas das famílias
brasileiras para o ano-base de 1996. O valor (β^ - 1)100% = 3,26% representa a taxa composta de
crescimento trimestral para as despesas das famílias brasileiras.
177
Para prever as despesas do primeiro trimestre de 2015 (ou seja, valor decodificado de X = 36),
podemos utilizar a equação:
250
R$ bilhões
200
150
100
50
0
10 20 30 40
Ano codificado
O r2ajustado correspondente ao modelo de tendência exponencial é igual a 0,9746. É mais alto do que
o r2ajustado correspondente ao modelo de tendência linear (0,9451), porém mais baixo que o modelo de
tendência quadrática (0,9841).
Além de analisar visualmente os gráficos e o r2ajustado de cada um dos modelos para verificar qual o
mais apropriado para a utilização de previsões, podemos calcular e examinar a primeira diferença, a
segunda diferença e diferenças percentuais da série temporal.
Se as primeiras diferenças em relação a uma série temporal forem constantes, irão proporcionar
um ajuste perfeito no modelo de tendência linear e, consequentemente:
Se as segundas diferenças em relação a uma série temporal forem constantes, irão proporcionar
um ajuste perfeito no modelo de tendência quadrática e, consequentemente:
[(Y3 - Y2) - (Y2 - Y1)] = [(Y4 - Y3) - (Y3 - Y2)] = ... = [(Yn - Yn-1) - (Yn-1 - Yn-2)]
178
Se as diferenças percentuais entre valores consecutivos de uma série temporal forem constantes,
irão proporcionar um ajuste perfeito no modelo de tendência exponencial e, consequentemente:
( Y3 − Y2 ) × 100% =
( Y2 − Y1 ) × 100% = ( Y4 − Y3 ) × 100% = (n − Y )
… =n−1 × 100%
Y1 Y2 Y3 Yn−1
Vale lembrar que o procedimento é só um norteador para encontrar um ajuste mais significativo
entre os três modelos que foram apresentados: os de tendências linear, quadrática e exponencial.
Ao desenhar um gráfico dos resíduos ao longo de n períodos de tempo após ter ajustado
adequadamente um modelo, o que se espera é uma distribuição aleatória dos resíduos ao longo do
tempo. Caso o modelo não esteja bem-ajustado, os resíduos tendem a demonstrar algum padrão
sistemático que expressa o fato de não se ter levado em conta alguma tendência, variação cíclica ou
variações sazonais, características básicas componentes de uma série temporal que não foram inclusas
na parte explicada do modelo.
Outro aspecto a ser observado é o erro-padrão da estimativa, medida que é baseada na soma das
diferenças ao quadrado entre os valores reais e os previstos de uma série temporal. Portanto, a opção do
melhor ajuste recai sobre o menor valor do erro-padrão da estimativa; porém, a desvantagem em usá‑lo
ocorre quando existe uma grande diferença sobre Yi (observado) e Y^i (previsto): o valor do erro fica
superdimensionado em razão de sua elevação ao quadrado. Existe uma preferência pelo uso do desvio
médio absoluto (DMA) como a média aritmética das diferenças absolutas entre os valores observados e
os valores previstos em uma série temporal:
DMA =
∑ i=1 Yi − Y^i
n
Um valor do DMA próximo de zero significa um modelo que possui um perfeito ajuste aos dados da
série temporal. Quer dizer que ao comparar dois ou mais modelos de previsão podemos selecionar como
o mais apropriado o que possui o menor valor. A orientação de escolha é pelo modelo com a menor
quantidade de variáveis independentes e a maior capacidade de previsão.
Observação
Sabemos que um indicador do nível de custo de vida é construído levando-
se em consideração não apenas os custos de aluguel, mas também outros
custos de moradia, bem como os itens educação, transporte, alimentação etc.
Nesse contexto, a análise de regressão possibilita, com base nos indicadores
dos níveis de custo de aluguel, devido à correlação entre os dois indicadores
ser muito alta, usá-lo como aproximação para um indicador do custo de vida.
Significa que os custos de aluguel são uma boa aproximação para o custo de
vida e de extrema importância para estudos de desigualdade regional.
179
Lembrete
Resumo
180
são correlacionados. O método tem como destaque a sua utilização em
séries temporais que registram ciclos econômicos, momentos de retração
e expansão com movimentos lentos de recuperação e impulsos que
continuam e tendem a desacelerar no decorrer do tempo – portanto,
observações sucessivas que são interdependentes.
Exercícios
Questão 1. (Enade 2009) Considere o modelo de regressão linear múltipla, com variável dependente
y e variáveis explicativas X1, X2, ..., Xk que pode ser expresso como
em que εt significa o fator de erro e t = 1,2, ..., no índice relativo às observações amostrais.
Nesse modelo,
IV – Ao se incluir uma variável explicativa irrelevante num modelo de regressão linear múltipla, o
valor de r2 ajustado não se elevará de forma significativa, mesmo que aumente o valor r2.
A) I e III.
B) I, II e IV.
C) I, II e III.
D) I, III e IV.
E) II e III.
I – Afirmativa correta.
Justificativa: a multicolinearidade implica que variáveis explicativas interfiram entre si, na variável
dependente e na própria precisão dos estimadores.
II – Afirmativa incorreta.
IV – Afirmativa correta.
Justificativa: essa diferença esperada de impacto neutro no R2 ajustado frente à adição de uma
variável explicativa irrelevante é o que diferencia do R2 (que aumenta pela adição de variáveis explicativas,
mesmo irrelevantes).
182
Questão 2. (Enade 2015) A utilização de dados em painel para a análise de políticas públicas
tornou‑se bastante comum recentemente, dada a disponibilidade de informações para anos
consecutivos de variáveis de interesse. Ainda que se faça uma análise para apenas dois períodos,
no que se refere à variável dependente, a existência de informações anuais para vários períodos
consecutivos das variáveis explicativas permite a utilização de modelos de defasagem distribuída.
Para análise da ocorrência de crimes e da influência das prisões, foi realizado um estudo na Noruega
com dados para 53 distritos policiais, tendo sido medida a taxa de crimes (crime) para os anos 1972 e
1978. A variável explicativa foi definida como a porcentagem dos crimes que resultaram em prisão (pcp).
O modelo com controle para efeitos fixos foi especificado como segue.
Na equação, D78t é uma variável dummy com valor igual a 1 para o ano de 1978 e zero para o ano
de 1972, αi corresponde ao controle para os efeitos fixos, e ui,t corresponde aos resíduos de regressão.
Os módulos dos valores entre parênteses são, respectivamente, as estatísticas t calculadas para cada
um dos coeficientes estimado,s e o valor t, tabelado ao nível de significância de 5%, é igual a 2,00.
Considerando os resultados do estudo descrito acima e a influência das prisões sobre a criminalidade,
conclui-se que:
C) Um aumento de 10% nas prisões resultaria, em média, em uma queda de 1,32% na taxa de crimes
com dois períodos de defasagem.
D) As prisões efetuadas no ano de 1972 têm efeito negativo e são estatisticamente significativas, ao
nível de significância de 0,05, para a redução da criminalidade.
E) As prisões efetuadas com a defasagem de dois períodos têm efeito negativo e exercem efeito
significativo, ao nível de significância de 0,05, para redução da criminalidade.
183
Análise das alternativas
A) Alternativa incorreta.
Justificativa: o coeficiente de determinação (R²) igual a 0,193 indica que o modelo prevê (ou explica)
19,3% da variabilidade observada na variável dependente.
B) Alternativa incorreta.
Justificativa: como os resíduos û têm média zero, o valor previsto estimado pela equação (6) é
calculado por:
log crime 0 1pcp1 2pcp2
Se não há prisões no período, temos que pcpt-1 = pcpt-2 = pcpt-3 = 0. Assim, ∆pcp-1 =Δ∆pcp-2 = 0.
Substituindo esses valores na equação acima, temos que, se não há prisões:
log crime 0
No enunciado, temos que a constante da equação (6), (δ_0 ) ̂, foi estimada igual a 0,086. Assim:
log crime 0, 086
Nota-se que, na ausência de crimes, a tendência é de aumento na variável dependente, o que
contraria a afirmativa. Podemos calcular o efeito exato com algumas manipulações algébricas.
log crime t
log
crime t log crime t1 0, 086
log crime
t 1
log crime t 0, 086 log crime t1
log crime t e0,086 log crime t1 1, 0898 log crime t1
C) Alternativa incorreta.
Justificativa: pelos dados do enunciado, estimou-se que o coeficiente de Δ∆pcp-2 é igual a -0,0132.
Assim, espera-se que um aumento temporário de um ponto percentual (não de 10%) na taxa de
aprisionamento resulte em aproximadamente 1,32% de diminuição na taxa de crimes.
184
D) Alternativa incorreta.
Justificativa: tomando o ano de 1978 como referência, 1972 correspondente ao período t-1. O
coeficiente de Δ∆pcp-1, β1 , é igual a -0,004. A estatística t correspondente a esse coeficiente é, em
módulo, 0,85, menor que o valor crítico de 2,00 dado pelo enunciado para a distribuição t ao nível de
significância de 5%. Portanto, o efeito da taxa de aprisionamento em 1972, embora negativo, não é
estatisticamente significativo ao nível de 5%.
E) Alternativa correta.
185
REFERÊNCIAS
Textuais
BARTLETT, M. S. Fitting a straight line when both variables are subject to error. Biometrics, n. 5, 1949,
p. 207-242.
BUSCARIOLLI, B.; EMERICK, J. Econometria com eviews. São Paulo: Saint Paul, 2011.
CARVALHO, H. Como investir em ouro com apenas R$ 1.000. HC Investimentos, 2013. Disponível em: http://
hcinvestimentos.com/2013/02/26/como-investir-em-ouro/?hvid=4AmjBx. Acesso em: 6 abr. 2017.
FRIEDMAN, M. The methodology of positive economics. In: FRIEDMAN, M Essays in positive economics
3.3. Chicago: University of Chicago Press, 1953.
GREENE, W. H. Econometric analysis. 5. ed. New Jersey: Prentice Hall/Upper Saddle River, 2003.
HILL, C.; GRIFFITHS, W.; JUDGE, G. Econometria. São Paulo: Saraiva, 2003.
HOFFMANN, R. Análise de regressão: uma introdução à Econometria. São Paulo: Hucitec, 1977.
HOOVER, K. The methodology of Econometrics. In: MILLS, T. C.; PATTERSON, K. (Ed.). Palgrave handbook
of econometrics: econometric theory. Nova York: MacMillan, 2006.
INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. Censo 2000: microdados. Brasília: IBGE, 2000.
KEYNES, J. M. (1929). Can Lloyd George do it? In: Essays in persuasion. Cambridge: Macmillan, 1972.
(The Collected Writings of John Maynard Keynes, v. IX).
KEYNES, J. M. (1933). The means to prosperity. In: Essays in persuasion. Cambridge: Macmillan, 1972.
(The Collected Writings of John Maynard Keynes, v. IX).
186
KNOEMA. Atlas mundial de dados. [s.d.]. Disponível em: http://pt.knoema.com/atlas/topics/Economia.
Acesso em: 14 mar. 2017.
LEVINE, D. M. et al. Estatística: teoria e aplicações – usando Microsoft Excel em português. Tradução:
Teresa Cristina Padilha de Souza. Rio de Janeiro: LTC, 2013.
MARCIAL, E.; GRUMBACH, R. J. dos S. Cenários prospectivos: como construir um futuro melhor. São
Paulo: FGV, 2007.
MORETTIN, P. A.; TOLOI, C. M. C. Análise de séries temporais. São Paulo: Blucher, 2006.
SILVEIRA, F. G. et al. (Org.). Gasto e consumo das famílias brasileiras contemporâneas. v. 2. Brasília:
Ipea, 2007. Disponível em: http://ipea.gov.br/portal/images/stories/PDFs/livros/Livro_completo2.pdf.
Acesso em: 5 abr. 2017.
STOCK, J. H., WATSON, M. W. Econometria. São Paulo: Addison Wesley Brasil, 2004.
WALD, A. The fitting of straight lines if both variables are subject to error. The Annals of Mathematical
Statistics, n. 11, 1940, p. 284-300.
Sites
www.bcb.gov.br/
http://brasilemsintese.ibge.gov.br/
http://www.minitab.com/pt-br/
www.mme.gov.br/
187
Exercícios
188
189
190
191
192
Informações:
www.sepi.unip.br ou 0800 010 9000