Gorimaiaeconometria PDF

Universidade Estadual de Campinas
Instituto de Economia
Econometria: conceitos e aplicações
Alexandre Gori Maia
2013
Sumário
1. Correlação e Regressão Linear Simples ................................................................................. 9
Introdução ................................................................................................................................... 9
1.1. Correlação ........................................................................................................................ 9
1.2. Regressão Linear Simples .............................................................................................. 15
1.3. Método de Mínimos Quadrados Ordinários ................................................................... 18
1.3.1. Definição ................................................................................................................. 19
1.3.2. Aplicação do MQO na regressão linear simples ..................................................... 20
1.3.3. Propriedades dos Estimadores de Mínimos Quadrados Ordinários ........................ 22
Exercícios .................................................................................................................................. 23
Respostas................................................................................................................................... 24
2. Inferência com os Estimadores de MQO .............................................................................. 25
Introdução ................................................................................................................................. 25
2.1. Teorema de Gauss-Markov ............................................................................................ 25
2.2. Significância das estimativas ......................................................................................... 29
2.3. Distribuição amostral dos estimadores ....................................................................... 29
2.4. Variância dos estimadores .......................................................................................... 30
2.5. Teste de hipóteses para os coeficientes ...................................................................... 32
2.6. Intervalo de confiança para os coeficientes ................................................................ 35
Exercícios .................................................................................................................................. 37
Respostas................................................................................................................................... 38
3. Intervalos de Confiança e Previsão para os Valores de Y ..................................................... 48
Introdução ................................................................................................................................. 48
3.1. Intervalos para valores individuais e para a média aritmética ....................................... 48
3.2. Intervalo de confiança para o valor previsto de Yi ......................................................... 50
3.3. Intervalo de previsão para valores individuais de Yi ...................................................... 52
3.4. Propriedades das estimativas por intervalo .................................................................... 53
Exercícios .................................................................................................................................. 55
Respostas................................................................................................................................... 55
4. Formas Funcionais ................................................................................................................ 58
Introdução ................................................................................................................................. 58
4.1. Modelo Linear ................................................................................................................ 58
4.2. Modelo Log-Lin ............................................................................................................. 60
4.3. Modelo Lin-Log ............................................................................................................. 62
4.4. Modelo Log-Log ............................................................................................................ 64
Exercícios .................................................................................................................................. 66
Respostas................................................................................................................................... 67
5. Análise de Variância ............................................................................................................. 68
Introdução ................................................................................................................................. 68
5.1. Soma dos Quadrados ...................................................................................................... 68
5.2. Coeficiente de Determinação ......................................................................................... 72
5.3. Análise de Variância (ANOVA) .................................................................................... 74
Exercícios .................................................................................................................................. 76
Respostas................................................................................................................................... 77
6. Introdução à Regressão Linear Múltipla ............................................................................... 82
Introdução ................................................................................................................................. 82
6.1. Estimadores de MQO ..................................................................................................... 82
6.2. Estimadores de MQO a partir de notação matricial ....................................................... 85
6.3. O uso de variáveis centradas .......................................................................................... 89
Exercícios .................................................................................................................................. 94
Respostas................................................................................................................................... 96
7. Análise de Variância para Regressão Linear Múltipla ....................................................... 102
Introdução ............................................................................................................................... 102
7.1. Coeficiente de determinação e estatística F ................................................................. 102
7.2. Coeficiente de determinação ajustado .......................................................................... 106
Exercícios ................................................................................................................................ 108
Respostas................................................................................................................................. 110
8. Inferência em Regressão Linear Múltipla ........................................................................... 113
Introdução ............................................................................................................................... 113
8.1. Matriz de variância e covariância e teste t para βk ....................................................... 113
8.2. Inferência para combinação linear dos parâmetros ...................................................... 117
8.3. Teste de hipóteses para combinação linear dos parâmetros ......................................... 118
8.3. Intervalo de confiança para valor previsto ................................................................... 120
Exercícios ................................................................................................................................ 122
Respostas................................................................................................................................. 124
9. Contribuição Marginal ........................................................................................................ 125
Introdução ............................................................................................................................... 125
9.1. ANOVA para contribuição marginal ........................................................................... 125
9.2. Correlação parcial ........................................................................................................ 130
Exercícios ................................................................................................................................ 132
Respostas................................................................................................................................. 134
10. Multicolinearidade ........................................................................................................... 135
Introdução ............................................................................................................................... 135
10.1. Definição .................................................................................................................. 136
10.2. Fator Inflacionário da Variância ............................................................................... 139
10.3. Identificação da multicolinearidade.......................................................................... 141
10.4. Correção da multicolinearidade ................................................................................ 142
Exercícios ................................................................................................................................ 145
Respostas................................................................................................................................. 148
11. Variáveis Binárias ............................................................................................................ 153
Introdução ............................................................................................................................... 153
11.1. Variáveis binárias para representar 2 categorias ...................................................... 154
11.2. Variáveis binárias para representar múltiplas categorias ......................................... 156
11.3. Interpretação de coeficientes de binárias em equações semi-logaritmicas ............... 159
11.4. Outras aplicações das variáveis binárias .................................................................. 161
11.5. Teste de mudança estrutural ..................................................................................... 165
Exercícios ................................................................................................................................ 169
Respostas................................................................................................................................. 171
12. Heterocedasticidade ......................................................................................................... 172
Introdução ............................................................................................................................... 172
12.1. Definição .................................................................................................................. 172
12.2. Identificação ............................................................................................................. 175
12.2.1. Análise Gráfica .................................................................................................. 175
12.2.2. Teste de Goldfeld-Quandt ................................................................................. 177
12.2.3. Teste de Breusch-Pagan .................................................................................... 180
12.2.4. Teste de White ................................................................................................... 182
12.3. Mínimos Quadrados Ponderados .............................................................................. 184
12.3.1. Função de heterocedasticidade conhecida......................................................... 186
12.3.2. Função de heterocedasticidade desconhecida – Mínimos Quadrados
Generalizados Factíveis ...................................................................................................... 188
12.4. Estimadores Robustos da Variância ......................................................................... 190
Exercícios ................................................................................................................................ 192
Respostas................................................................................................................................. 194
13. Autocorrelação ................................................................................................................. 195
Introdução ............................................................................................................................... 195
13.1. Definição .................................................................................................................. 195
13.2. Identificação ............................................................................................................. 199
13.2.1. Análise Gráfica ..................................................................................................... 199
13.2.2. Teste t para regressores estritamente exógenos .................................................... 201
13.2.3. Teste de Durbin-Watson para um MCRL ............................................................. 203
13.2.4. Teste de Breusch-Godfrey para múltiplas defasagens .......................................... 205
13.3. Mínimos Quadrados Generalizados.......................................................................... 207
13.3.1. Coeficiente de autocorrelação conhecido – Mínimos Quadrados Generalizados
210
13.3.2. Coeficiente de autocorrelação desconhecido – Mínimos Quadrados
Generalizados Factíveis ...................................................................................................... 212
13.4. Estimadores Robustos da Variância ......................................................................... 214
Exercícios ................................................................................................................................ 215
Respostas................................................................................................................................. 217
14. Equações Simultâneas ...................................................................................................... 220
Introdução ............................................................................................................................... 220
14.1. Origem do problema ................................................................................................. 221
14.2. Definição .................................................................................................................. 223
14.3. Mínimos Quadrados Indiretos .................................................................................. 226
14.4. Identificação ............................................................................................................. 228
14.5. Estimação por Variáveis Instrumentais .................................................................... 236
14.6. Mínimos Quadrados em dois Estágios (MQ2E) ....................................................... 238
14.7. Teste de endogeneidade ............................................................................................ 241
Exercícios ................................................................................................................................ 243
Respostas................................................................................................................................. 245
15. Estacionariedade .............................................................................................................. 247
Introdução ............................................................................................................................... 247
15.1. Processos estocásticos .............................................................................................. 248
15.2. Estacionariedade ....................................................................................................... 249
15.2.1. Definição ............................................................................................................... 249
15.2.2. Raiz Unitária ......................................................................................................... 251
15.2.3. Terminologia ......................................................................................................... 255
15.3. Função de autocorrelação ......................................................................................... 258
15.4. Teste de raiz unitária................................................................................................. 260
15.4.1. Teste de Dickey-Fuller .......................................................................................... 261
15.4.2. Teste de Dickey-Fuller aumentado ....................................................................... 263
Exercícios ................................................................................................................................ 265
Respostas................................................................................................................................. 266
16. Cointegração .................................................................................................................... 267
Introdução ............................................................................................................................... 267
16.1. Relação espúria ......................................................................................................... 267
16.2. Modelo de tendência estacionária............................................................................. 269
16.2.1. Coeficiente de determinação para regressando com tendência............................. 270
16.3. Modelo de diferença estacionária ............................................................................. 272
16.4. Cointegração ............................................................................................................. 273
16.4.1. Modelo de correção de erros ................................................................................. 278
Exercícios ................................................................................................................................ 280
Respostas................................................................................................................................. 281
17. Modelos ARIMA ............................................................................................................. 283
Introdução ............................................................................................................................... 283
17.1. Modelo Autorregressivo (AR) .................................................................................. 283
17.2. Modelo de Médias Móveis (MA) ............................................................................. 286
17.3. Modelo Autorregressivo e de Médias Móveis (ARMA) .......................................... 287
17.4. Modelo Autorregressivo Integrado e de Médias Móveis (ARIMA) ........................ 288
Exercícios ................................................................................................................................ 293
Respostas................................................................................................................................. 293
Referências .............................................................................................................................. 294
PARTE I
Regressão Linear Simples

Econometria Alexandre Gori Maia
1. Correlação e Regressão Linear Simples
Introdução
O termo regressão foi originalmente proposto por Francis Galton em seu trabalho
Regression Towards Mediocrity in Hereditary Stature, publicado no Journal of the
Anthropological Institute of Great Britain and Ireland, em 1886. Galton analisou a relação entre
a estatura média dos pais de uma família e a de seus filhos adultos. Como se esperava, observou
que, em geral, pais altos têm filhos altos e pais baixos têm filhos baixos. Também verificou que
os filhos de pais altos não são tão altos quanto seus pais, assim como os filhos de pais baixos não
são tão baixos quanto seus pais. Em outras palavras, a estatura dos filhos tendia a regredir à
estatura média da população, comportamento que Galton denominou regressão à mediocridade1.
A estatística moderna reserva, entretanto, o termo regressão ao estudo da relação de
dependência de uma variável, a variável dependente, em função de uma ou mais variáveis, as
variáveis explanatórias. O objetivo dessas análises é estimar ou prever o valor médio da variável
dependente a partir de variações na variável explanatória, ou independente.
Para melhor compreender os objetivos e aplicações da regressão em estatística, será
inicialmente apresentada a análise de correlação, estreitamente relacionada à análise de
regressão, mas conceitualmente muito diferente. Posteriormente, descrevem-se alguns conceitos
e técnicas iniciais da regressão aplicada às relações lineares entre duas variáveis, a regressão
linear simples.
1.1. Correlação
Uma técnica simples para identificar possíveis padrões de associação entre duas variáveis
quantitativas é o diagrama de dispersão. A Figura 1 apresenta três diagramas com diferentes
padrões de dispersão entre duas variáveis X e Y. No primeiro observa-se uma tendência de
associação linear positiva, ou seja, aumentando o valor de X, o valor de Y também tende a
aumentar. No segundo, a associação assemelha-se a uma parábola, ou seja, Y aumenta com X até
determinado ponto, quando, então, passa a diminuir. No último não há associação aparente entre
as variáveis Y e X, pois os pontos não apresentam qualquer tendência particular.
1
Medíocre no sentido de médio ou mediano, algo que está entre pequeno e grande, segundo definição do dicionário
Michaelis da Língua Portuguesa.
9
Econometria Regressão Linear Simples
(1)
Entre os muitos tipos de associações entre duas variáveis, a mais simples e frequente é a
linear. A associação de dependência linear pode ser positiva, quando os valores de Y e X são
diretamente proporcionais2, ou negativa, quando os valores de Y e X são inversamente
proporcionais.
Uma medida simples para quantificar a relação de dependência linear entre X e Y é a
covariância. Dado N pares de valores de uma população (X1, Y1), ..., (XN, YN), a covariância entre
X e Y será dada por:
N
∑ ( X i − µ X )(Yi − µY ) (2)
i =1
σ XY =
N
Onde µX e µY são, respectivamente, as médias populacionais de X e Y.
Quando se trata de uma amostra de n pares de valores de X e Y, com médias amostrais
equivalentes a X e Y , a estimativa da covariância será dada por:
n r
∑ ( X i − X )(Yi − Y ) (3)
i =1
σˆ XY =
n −1
Valores negativos da covariância sugerem relação de dependência linear negativa;
valores positivos sugerem dependência linear positiva; e valores muito próximos de zero
sugerem ausência de dependência linear.
Observe que a covariância é uma média dos produtos em relação aos valores centrados de
X e Y (desvios em relação às respectivas médias). Para simplificar as representações, esses
valores centrados podem ser representados pelas minúsculas x e y:
xi = ( X i − X ) e y i = (Yi − Y ) (4)
E a covariância, expressa em valores centrados, será dada por:
2
Aumentando X, aumenta o valor de Y.
10
n
∑ xi y i (5)
i =1
σˆ XY =
n −1
Graficamente, os valores centrados representam uma mudança de eixos no diagrama de
dispersão, que passam a ter origem nas médias de X e Y, mas sem alterar o padrão de associação:
(6)
Observe agora que, no diagrama formado pelos eixos x e y, pontos com padrão de
associação linear positiva tendem a concentrar-se no 1º e 3º quadrantes, onde as coordenadas
apresentam o mesmo sinal e, portanto, o produto xiyi, ou ( X i − X )(Yi − Y ) , será sempre positivo.
Ou seja, a covariância será positiva.
Analogamente, pontos com padrão de associação linear negativa concentrar-se-ão no 2º e
4º quadrantes, onde as coordenadas apresentam sinais diferentes e o produto xiyi, será sempre
negativo (primeiro gráfico da Figura 7). Na ausência de padrões de associação linear (segundo e
terceiro gráficos da Figura 7), produtos com sinais negativos tendem a compensar aqueles com
sinais positivos e a covariância será próxima de zero.
(7)
Exemplo 1. Uma amostra de 10 ocupados ofereceu os seguintes valores para anos de

escolaridade (X) e rendimento mensal (Y):
X 0 3 5 7 7 9 11 13 15 15
Y 240 240 440 300 640 870 700 1800 2400 240
11
O diagrama de dispersão e a covariância entre as duas variáveis seriam dados por:
(0 − 8,5)(240 − 787) + ... + (15 − 8,5)(240 − 787)

σˆ XY =
10 − 1
21135
σˆ XY = = 2348,3
9
Os resultados sugerem, portanto, uma associação linear positiva entre anos de

escolaridade e rendimento, ou seja, se os anos de escolaridade aumentarem, a tendência é que os
rendimentos também aumentem.
Exemplo 2. Uma amostra hipotética apresentou os seguintes dados para o rendimento (X) e um
indicador de felicidade, com escala entre 0 e 10 (Y), de 10 indivíduos:
X 240 300 440 640 700 870 1500 1800 2400 2900
Y 1 3 4 7 7 8 7 7 5 2
O diagrama de dispersão e a covariância entre as duas variáveis serão dados por:
(240 − 1179)(1 − 5,1) + ... + (2900 − 1179)(2 − 5,1)

σˆ XY =
10 − 1
11
σˆ XY = = 1,2
9
Embora o valor da covariância seja positivo, ele é baixo e, visualmente, observa-se que a
associação entre as variáveis não é linear, mas sim quadrática.
Embora a covariância permita identificar a presença e o sentido da associação linear, não

permite avaliar seu grau de associação, ou seja, o quão próximo os pontos estão de uma reta. Isso
porque a amplitude de variação da covariância depende das escalas de medida de X e Y e,
consequentemente, de seus desvios em relação às respectivas médias (x e y). Por exemplo, no
primeiro exemplo tínhamos uma covariância dada pelo produto de anos (escolaridade) por reais
(rendimento) e, no segundo caso, pelo produto de reais (rendimento) por uma escala de
felicidade (0..10). Não poderíamos, portanto, comparar as duas covariâncias e afirmar qual delas
12
apresenta o maior grau de associação linear. A medida derivada do produto de variáveis com um
maior grau de dispersão tenderia, naturalmente, a apresentar um maior valor de covariância.
Para contornar esse problema e medir o grau de associação linear entre duas variáveis,
utilizamos a correlação linear. A correlação (ρ) é uma medida padronizada (adimensional) de
associação linear entre duas variáveis, obtida ao se ponderar a covariância pelo produto dos
desvios padrão de X e Y (σX e σY, respectivamente):
σ XY
ρ= (8)
σ XσY
Outra maneira de enxergar a correlação é como uma média do produto dos desvios
padronizados de X e Y. Em outras palavras, de (2), (4) e (8) teremos:
N
∑ xi y i N
i =1
∑ xi y i 1 1 N xi y i
(9)
N i =1
ρ= = = ∑
σ XσY σ XσY N N i =1 σ X σ Y
Que pode ainda ser expressa apenas em função dos valores xi, yi e seus respectivos
quadrados:
N
∑i=1 xi yi N
ρ= N =
∑i=1 xi yi
N N N N
(10)
∑i=1 xi2 ∑i=1 yi2 ∑i=1 xi2 ∑i=1 yi2
N N
Para um conjunto de dados da amostra, teremos:
σ̂ XY
r= (11)
S X SY
Ou ainda:
n
r=
1 n xi y i
∑ =
∑i =1 xi yi
(12)
n − 1 i =1 S X S Y n n
∑i =1 xi2 ∑i =1 yi2
Graficamente, significa que, enquanto a covariância mede a aproximação dos desvios em
relação a uma reta, a correlação medirá a aproximação dos desvios padronizados em relação a
uma reta. Mantém-se a proporcionalidade e se elimina as distorções das diferentes escalas de
medida, passando todas a referir-se a unidades de desvios padrão:
13
(13)
A correlação assume valores entre -1 e +1 (inclusive) e permite uma interpretação

intuitiva do grau de associação linear entre duas variáveis. Quão mais próximo o valor estiver
dos extremos, mais próxima a dispersão dos pontos estará de uma reta com inclinação negativa
(ρ≈-1) ou positiva (ρ≈+1).
(14)
Importante assinalar que a correlação não capta a proporcionalidade da associação, mas

sim o grau de associação linear. Em outras palavras, uma correlação forte significa que, dadas
variações em X, será muito provável que haja variações (positivas ou negativas) em Y, não
importa em que razão (quanto Y irá variar em função de variações em X). Uma correlação nula
também não implica necessariamente ausência de associação entre duas variáveis, já que a
correlação refere-se exclusivamente à associação linear.
Exemplo 3. Supondo a amostra de 10 observações para anos de escolaridade (X) e rendimento

mensal (Y) do Exemplo (1), teríamos:
S X = 5,1 e S Y = 739,3
σˆ XY 2348,3
r= = = 0,628
S X SY (5,1)(739,3)
14
Ou seja, há um forte grau de associação linear entre anos de escolaridade e rendimento,

sugerindo, por exemplo, que o aumento dos anos de escolaridade implicará, muito
provavelmente, no aumento da renda.
Exemplo 4. A partir dos dados do Exemplo (2), sobre renda (X) e felicidade (Y), teríamos:
S X = 928,4 e S Y = 2,5
σˆ XY 1,2
r= = = 0,001
S X SY (928,4)(2,5)
Ou seja, não há qualquer associação linear entre anos de escolaridade e rendimento, sugerindo,
por exemplo, que o aumento da renda não implicará, necessariamente, em variações
proporcionais na felicidade.
1.2. Regressão Linear Simples

Embora a correlação seja uma medida útil do grau de associação entre duas variáveis, não
explica algumas questões fundamentais, como: i) qual seria a variação em Y dada uma variação
em X? ii) Qual o valor esperado de Y dado um de X? Para responder essas e outras questões,
devemos realizar uma análise de regressão linear.
A regressão linear simples pressupõe que a relação entre Y e X na população seja dada
pela equação3:
Yi = α + βX i + ei (15)
Onde Y é chamado de variável dependente, explicada ou regressando; X é a variável
independente, explanatória ou regressor; e é o erro aleatório não explicado pelo modelo; α é
termo constante ou intercepto; e β é o coeficiente angular ou coeficiente de regressão. Em outras
palavras, a função de regressão linear estabelece que cada valor de Yi pode ser dado a partir de
uma função linear de um valor controlado de Xi mais um erro não previsto pelo modelo ei (Figura
16).
3
O termo linear refere-se aos coeficientes unitários dos parâmetros α e β. Modelos em que os coefecientes não
apresentam expoente unitário são chamados de modelos de regressão não lineares.
15
(16)
O erro ei representa variáveis omitidas ou mesmo dificuldades para mensurar aquelas

presentes no modelo. O modelo de regressão pressupõe que o efeito do erro seja mínimo e que
este tenha uma natureza estocástica e esteja aleatoriamente distribuído em torno da reta de
regressão, como representa a Figura 17.
(17)
Exemplo 5. Podemos pressupor que rendimento mensal (Y) seja determinado pelos anos de
escolaridade (X) segundo a relação linear:
Yi = α + βX i + ei
Assim, pressupomos que o rendimento de um ocupado seja dado em função (linear) de seus anos
de escolaridade mais um fator não observado ei. Os erros ei representam outras informações não
previstas pelo modelo que também afetam o rendimento, tais como experiência profissional,
aptidão, tipo de ocupação e características socioeconômicas do local de moradia.
Um pressuposto central da análise de regressão é que a reta de regressão representa a

esperança condicional de Y dado um valor de X. Em outras palavras, representa o valor médio de
Y caso o valor de X seja igual a Xi (Figura 16). A representação formal para essa esperança
condicional será dada por:
16
E (Y / X i ) = α + βX i ou E (Yi ) = α + βX i (18)
Podemos também demonstrar, sem muita dificuldade, que se a reta de regressão
representa a esperança condicional de Yi, então a esperança condicional dos erros será igual a 0.
Em outras palavras:
ei = Yi − (α + βX i )
E (e | X i ) = E[Yi − (α + βX i )] = E (Yi ) − E (α + βX i ) = E (Yi ) − E (Yi ) = 0 (19)
E (ei | X i ) = E (ei ) = 0
Esse pressuposto é denominado de média condicional zero dos erros, segundo o qual os
erros não estão associados aos valores das variáveis independentes. Para compreendermos seu
significado, vamos supor uma aplicação da análise de regressão onde a variável Xi representa os
anos de escolaridade de um ocupado e Yi seu rendimento. Poderíamos ter um comportamento não
observado nos erros (ei), aptidão, por exemplo, que seja maior para pessoas com elevada
escolaridade e menor para pessoas com baixa escolaridade. Em outras palavras, teríamos E(ei)>0
para valores elevados de Xi e E(ei)<0 para valores baixos de Xi, ou seja E(ei|Xi)≠0. O problema é
que, quando formos analisar um modelo de regressão, não saberemos se os rendimentos mais
elevados se devem a uma maior escolaridade ou uma maior aptidão. A relação de determinação
entre escolaridade e renda poderia, assim, estar viesada.
Compreendido esse pressuposto muito importate da análise de regressão (que será ainda
abordado futuramente), voltemos agora à análise da reta de regressão. A equação (15) permite
uma interpretação muito intuitiva da relação entre Y e X. O intercepto α, por exemplo, representa
o valor esperado de Y quando o valor controlado de X for nulo. O coeficiente angular β, por sua
vez, representa a variação marginal no valor esperado de Y dada uma variação unitária em X. Isso
porque, se desejamos estimar a variação marginal no valor esperado de Y - ∆E(Y) - dada uma
variação infinitesimal em X - ∆X - basta calcularmos a derivada de E(Y/X) em função de X:
E (Y / 0) = α + β (0) = α
e
(20)
∆E (Y | X ) ∂E (Y | X ) ∂ (α + βX )
= = =β
∆X ∂X ∂X
17
Uma diferença importante entre regressão e correlação está na forma com que as
variáveis são tratadas. Na regressão, pressupomos que a variável dependente seja, assim como os
resíduos, de natureza estocástica. Já a variável independente é considerada como um valor fixo,
controlado pelo pesquisador. Seria o caso, por exemplo, de controlarmos o nível de fertilizante
em um solo (variável independente) e verificarmos a produtividade resultante (variável
dependente). Para cada nível de fertilizante teríamos variações aleatórias na produtividade, das
quais poderíamos estimar os valores médios. Não seria adequado, por sua vez, tentarmos
controlar a produtividade para verificarmos as variações no nível de fertilizante. A correlação,
por sua vez, não estabelece qualquer distinção entre as variáveis X e Y.
Quando trabalhamos com dados de uma amostra, a representação da função de regressão
(amostral) será dada por:
Yi = αˆ + βˆX i + eî (21)
Onde α̂ e βˆ são estimadores amostrais para os coeficientes do modelo de regressão e êi

é o resíduo amostral4. Por sua vez, o valor previsto pela função de regressão amostral será dado
por:
Yî = αˆ + βˆX i (22)
Exemplo 6. Seja a relação do rendimento mensal (Y) com função dos anos de escolaridade (X):
Assim, o rendimento esperado para aqueles trabalhadores não remunerados seria dado por α e,
para cada ano adicional de escolaridade, haveria uma variação marginal de β reais no rendimento
esperado.
1.3. Método de Mínimos Quadrados Ordinários

Estabelecida a relação linear entre Y e X, o próximo passo é estimar a função de regressão
com base em informações da amostra da maneira mais exata e eficiente possível. O método mais
utilizado é o de mínimos quadrados ordinários (MQO), dada sua relativa simplicidade
4
O termo erro costuma ser reservado à função de regressão da população e resíduo para a função de regressão da
amostra.
18
operacional e resultados que, satisfeitas algumas condições, são os mais acurados (exatos) e
eficientes (variância mínima) existentes (essas condições serão abordadas posteriormente). O
método utiliza princípios matemáticos para ajustar uma função a uma série de valores
observados em uma amostra, utilizando procedimentos que minimizam a soma dos erros de
previsão ao quadrado, ou seja, a soma quadrática das diferenças entre os valores observados na
amostra e os estimados pela função.
O método de mínimos quadrados é uma das ferramentas mais importantes da estatística
moderna e sua descoberta envolveu uma das disputas mais famosas da história da estatística.
Adrien Marie Legendre foi o primeiro a publicar a técnica, em 1805, em seu livro Nouvelles
Méthodes pour la Determination des Orbites de Comètes, mas Johann Carl Friedrich Gauss
clamou a descoberta da técnica que dizia utilizar desde 1795, também em problemas de
Astronomia e Física, embora publicada apenas em 1809.
1.3.1. Definição
Seja um conjunto de observações (Yi) e uma função matemática f(θ) utilizada para prever
os valores de Yi na população Em outras palavras:
Yi = f (θ ) + ei (23)
Onde ei é o erro de previsão, ou seja, a diferença entre o valor observado Yi e aquele
previsto pela função f(θ):
ei = Yi − f (θ ) (24)
O método de mínimos quadrados estimará o parâmetro θ de tal forma que a soma dos
erros de previsão ei ao quadrado seja mínima. Para isso, o primeiro passo é obter a função que
define a soma dos erros ao quadrado que, assim como f(θ), também dependerá de θ. Essa função
é chamada de Erro Quadrático Total (EQT):
n n
EQT (θ ) = ∑ ei2 = ∑ [Yi − f (θ )]2 (25)
i =1 i =1
Dependendo do valor de θ, teremos um valor para o EQT. O objetivo é encontrar um

valor para θ, ou θ*, de tal forma que o EQT seja mínimo. Como se trata de uma função côncava
19
para cima5, seu valor mínimo será obtido igualando-se a primeira derivada da função em relação
ao parâmetro a zero.
dEQT (θ )
=0 (26)
dθ
1.3.2. Aplicação do MQO na regressão linear simples

A partir de um conjunto de observações da amostra, o método de mínimos quadrados
ajustará a reta que apresentar as menores distâncias quadráticas entre os valores observados de Yi
e seus valores previstos ( Yî ). Obterá, assim, os estimadores dos parâmetros α e β de tal forma
que a soma dos erros quadráticos seja a mínima possível, ou seja, minimizando a função de EQT:
n
2
EQT = ∑ eî
i =1
n
EQT = ∑ [Yi − Yî ] 2 (27)
i =1
n
EQT = ∑ [Yi − (αˆ + βˆX i )] 2
i =1
Para minimizar a função de EQT, deve-se igualar a zero as derivadas parciais em relação
a α e β.
d EQT
= 2∑in=1[Yi − (αˆ + βˆX i )](−1) = 0 (28)
d αˆ
d EQT
= 2∑in=1[Yi − (αˆ + βˆX i )](− X i ) = 0 (29)
ˆ
dβ
Desenvolvendo as expressões (28) e (29) chegaremos aos estimadores de MQO α̂ e β̂ .
5
Verifique que o sinal associado ao termo quadrático θ2 será sempre positivo.
20
αˆ = Y − βˆ X (30)
n
∑ X i Yi − n X Y
i =1
β̂ = n (31)
2 2
∑ Xi − nX
i =1
Aplicando-se algumas identidades algébricas, podemos ainda simplicar a representação

do estimador β̂ para6:
n n n n n n
∑ X iYi − n X Y n∑ X iYi − ∑ X i ∑ Yi ∑ ( X i − X )(Yi − Y ) ∑ xi yi
βˆ = i =1
n
= i =1
n
i =1
n
i =1
= i =1
n
= i =1
n (32)
2
∑ Xi 2
− nX n∑ X i − (∑ X i )
2 2
∑(Xi − X ) 2
∑ xi 2
i =1 i =1 i =1 i =1 i =1
Conforme a conveniência analítica, pode-se demonstrar que β̂ pode ainda ser dado por:
n n n
∑ xi yi ∑ X i yi ∑ xiYi
βˆ = i =1
n
= i =1
n
= i =1
n
(33)
∑ xi 2
∑ xi 2
∑ xi 2
i =1 i =1 i =1
Exemplo 6. A partir das informações da amostra apresentas no Exemplo (1), podemos estimar os
parâmetros para o ajuste de regressão linear entre o rendimento mensal (Y) e os anos de
escolaridade (X):
Yi = αˆ + βˆX i + eî
Onde:
αˆ = 787 − βˆ(85) = 7,62

n
∑ xi y i 21135
βˆ = i =1
n
= = 91,69
2 230,5
∑ xi
i =1
Sendo então o ajuste de MQO dado por:
Yî = 7,62 + 91,69 X i
6
Dica: faça o caminho contrário da demostração, partindo da forma simplificada, para facilitar a compreensão.
21
Em outras palavras, o rendimento esperado para quem não possui escolaridade seria de 7,62 reais
e, para cada ano adicional de escolaridade, espera-se um acréscimo de 91,69 reais no rendimento.
1.3.3. Propriedades dos Estimadores de Mínimos Quadrados Ordinários

A partir de desenvolvimento algébrico, podemos derivar algumas importantes
propriedades do ajuste de MQO.
Propriedade 1. O valor médio dos resíduos será igual a zero.

Da equação (28) para os estimadores de mínimos quadrados pode-se demonstrar que a
soma e, consequentemente, o valor médio dos resíduos será igual a zero:
2∑i=1[Yi − (αˆ + βˆX i )](−1) = 0

n
(34)
∑ n
i =1[Yi − Yî ] = ∑in=1 eî = 0
Propriedade 2. Os resíduos não estão correlacionados aos valores de Xi.

Dada a definição de covariância, para demonstrarmos que não há relação entre êi e Xi,
precisamos provar que:
n
∑i =1 (eî − e )( X i − X ) = 0
Como a soma dos resíduos é igual a zero, teremos simplesmente que provar:
∑in=1 eî X i −X ∑in=1 eî − e ∑in=1 X i + e ∑in=1 X = ∑in=1 eî X i = 0

Utilizando agora os resultados da equação (29) para os estimadores de mínimos
quadrados podemos demostrar que:
n
2∑i=1[Yi − (αˆ + βˆX i )](− X i ) = 0
(35)
∑
n
i =1 (Yi − Yî )( X i ) = ∑in=1 (eî )( X i ) = 0
Essas duas primeiras propriedade (Propriedade 1 e 2) são muito importantes na análise de

regressão e denominadas condições de primeira ordem dos estimadores de mínimos quadrados.
Propriedade 3. A reta de regressão passará pelas médias aritméticas de X e Y.
22
Das equações (22) e (30) podemos demonstrar que, quando o valor controlado de Xi for
equivalente à média de X, o valor esperado de Yi será igual à média de Y.
Yî = αˆ + βˆX i
Yî = Y − βˆ X + βˆX i
(35)
Yî = Y − βˆ X + βˆ X
Yî = Y
Propriedade 4. Os resíduos não estão correlacionados aos valores previstos de Yi.

Devemos provar que:
∑in=1 eî (Yî − Y ) = ∑in=1 eî Yî = 0

De (22) e (35), teremos que:
∑i =1 eî Yî = ∑i =1 eî (αˆ + βˆX i ) = αˆ ∑i =1 eî + βˆ ∑i =1 eî X i = 0

n n n n
(36)
Exercícios
1. Dados os estimadores de MQO do ajuste Yî = αˆ + βˆX i , prove que yˆ i = β̂xi .
2. Observaram-se os gastos per capita com alimentação (Y) e a renda mensal per capita (X) em
uma amostra de 5 famílias:
Y 52 104 122 141 166
X 254 487 615 950 1014
a. Esboce e análise o gráfico de dispersão para as variáveis em questão;
b. Estime e analise a covariância e a correlação entre as variáveis;
c. Estime os parâmetros do modelo de regressão linear simples para prever o gasto com
alimentação (Y) em função da renda (X);
d. Interprete os parâmetros do modelo de regressão;
e. Obtenha os resíduos associados a cada estimativa para os gastos com alimentação;
f. Qual o gasto esperado com alimentação para uma família com renda per capita de
2.000 reais?
23
3. Uma amostra de quatro anos de uma economia fictícia forneceu os seguintes dados:
Y (Consumo, bilhões de US$) 1 1 2 4
X (Taxa de juros, % a.a.) 8 7 6 5

Agora suponha que a relação entre as variáveis seja dada por:
Yt = α + βX t + et
a. Estime os coeficientes do modelo por MQO;
b. Interprete as estimativas dos coeficientes;
c. Qual seria o consumo esperado para a economia caso a taxa de juros baixasse para
4% a.a.?
4. (ANPEC, 1992) Responda Falso ou Verdadeiro. O custo total, C, de uma indústria e sua
produção, X, têm uma relação linear do tipo Ct = α + βX t + et . Para se ajustar esse modelo por
mínimos quadrados ordinários é preciso assumir certas hipóteses como:
a. A variável independente X seja aleatória.
b. Os erros tenham média zero.
c. Os erros sigam uma distribuição normal.
d. A variável independente X seja independente do temo erro.
Respostas
2) b. σXY=13180; r=0,96; c. αˆ = 30,80 ; βˆ = 0,13 ; e. êi=-11,8; 10,0; 11,4; -13,1; 3,6; f. 290,4
3) a. αˆ = 8,5 ; βˆ = −1 ; c. Yî = 4,5

4) a. F; b. V; c. F.; d. V
24
2. Inferência com os Estimadores de MQO
Introdução
Após estimar os coeficientes de um modelo de regressão, deve-se verificar o grau de
confiabilidade dos resultados, ou seja, verificar em que medida as estimativas obtidas na amostra
aproximam-se dos reais parâmetros da população. Para cumprir com esse objetivo, serão
realizados testes de hipóteses e intervalos de confiança para os reais parâmetros do modelo
regressão linear simples a partir das estimativas de MQO.
Para viabilizar essas análises, é fundamental conhecer algumas importantes propriedades
estatísticas dos estimadores de MQO. A contribuição mais importante para essa análise foi dada
em 1821, quando Gauss demontrou que, sob determinadas premissas, as estimativas de MQO
seriam não viesadas e de mínima variância. Posteriormente, em 1912, Markov desenvolveu de
maneira mais usual esse mesmo teorema, que passou a ser conhecido como teorema de Gauss-
Markov.
2.1. Teorema de Gauss-Markov

Ao elaborarmos um modelo de regressão linear simples estamos pressupondo que, na
população, Y seja dado por uma função linear de X segundo a equação:
Yi = α + βX i + ei (1)
Em primeiro lugar, devemos estar cientes que uma população pode gerar amostras
diferentes. Assim, embora na população os valores de α e β sejam constantes, ou seja, há apenas
uma reta para o conjunto de dados da população, na amostra estaremos sujeitos à aleatoriedade
da seleção e, assim, as estimativas dos coeficientes α̂ e βˆ poderão assumir quaisquer valores
segundo uma dada distribuição de probabilidade. Em outras palavras, poderemos ter retas
diferentes dependendo da amostra selecionada (Figura 2).
25
Econometria Propriedades dos Estimadores
(2)
Em segundo lugar, devemos considerar que, para uma dada amostra selecionada, outras
técnicas poderiam ser aplicadas para obter os estimadores dos coeficientes α e β , não apenas o
MQO7, as quais não necessariamente chegariam aos mesmos resultados. Em outras palavras,
para uma dada amostra, poderíamos ter diferentes retas amostrais, dependendo da técnica
utilizada. O que garante que os estimadores de MQO serão melhores que outros estimadores é
uma série de condições estabelecidas pelo Teorema de Gauss-Markov.
Segundo o Teorema de Gauss-Markov, cinco pressupostos básicos devem ser satisfeitos
para que os estimadores de MQO sejam os Melhores Estimadores Lineares Não Viesados
(MELNV) ou, em ingês, Best Linear Unbiased Estimator (BLUE). Ser linear, significa que os
estimadores de α e β serão funções lineares da variável aleatória Y8. Ser não viesado significa
que o valor esperado do estimador de MQO será igual ao parâmetro da população (3) e ser o
melhor estimador significa que sua variabiliadde será a mínima possível (4).
E (αˆ ) = α e E ( βˆ ) = β (3)
V (αˆ ) < V (αˆ ′) e V ( βˆ ) < V ( βˆ ′) (4)

Onde αˆ ′ e βˆ ′ são quaisquer outros estimadores lineares que não aqueles obtidos pelo
MQO.
Os cinco pressupostos para que os estimadores de MQO sejam MELNV são:
i) Relação linear entre Y e X:
7
Entre as técnicas alternativas, destaque para o Método de Máxima Verossimilhança e o Método de Momentos.
8
Pressupondo que os valores de X sejam controlados (não aleatórios), é fácil demonstrar que os estimadores de
MQO são funções lineares de Y.
26
A relação entre Y e X na população pode ser representada por uma função com
coeficientes (parâmetros) lineares9. A linearidade nas variáveis, por sua vez, não é
necessária, já que estas podem ser algebricamente transformadas em novas
variáveis que apresentem relação linear entre si. Por exemplo, o modelo
Yi = α + βX i2 + ei não é linear no regressor, mas, se criarmos a variável Z i = X i2 ,
então a relação Yi = α + β Z i + ei será linear (esse tema será abordado

posteriormente).
ii) Os valores de X são fixos em repetidas amostras e não aleatórios:
Pressupõe que cada variável independente possa ser controlada pelo pesquisador,
ou seja, este pode mudar seu valor de acordo com os objetivos da pesquisa. O
caso característico é o de um estudo experimental, onde o pesquisador seleciona
aleatoriamente os elementos amostrais que sofrerão um determinado efeito
controlado de X e observa os valores resultantes de Y. Por exemplo, o pesquisador
seleciona aleatoriamente as parcelas de terra que receberão uma determinada
quantidade de fertilizantes (X) e observa suas produções (Y). Embora essa
premissa seja necessária para demonstração de várias propriedades estatísticas,
não é verdadeiramente essencial, tampouco factível na maioria dos estudos
econômicos. Em muitas situações, pode ser pouco ético ou inviável controlar o
efeito de X. Por exemplo, não seria factível selecionar aleatoriamente pessoas que
receberiam uma determinada quantidade de educação (X) para avaliar seus efeitos
sobre o rendimento no trabalho (Y). Em estudos não experimentais, quando não
controlamos os valores de X, mas os observamos aleatoriamente, devermos ter
cuidados especiais para que as relações de causa e efeito não sejam viesadas.
iii) Esperança condicional dos erros igual a zero:
Em outras palavras, E(e/Xi) = E(ei) = 0. É o mesmo que afirmar que a esperança
condicional de Y é igual à reta de regressão, ou E(Y/Xi) = E(Yi) = α+βXi. Significa
que os valores dos erros não podem estar associados aos valores de Xi. Caso
contrário, as relações de causa e efeito podem estar viesadas. Não é um problema
em estudos experimentais, quando conseguimos controlar os valores de X e esses
9
Expoentes dos coeficientes iguais a 1.
27
são considerados como constantes10. Entretanto, quando trabalhamos com estudos

não experimentais, devemos nos precaver para que não haja fatores não
controlados pelo modelo (e) afetando simutaneamente Y e X. Seria o caso, por
exemplo, da aptidão, variável não controlada em um modelo de determinação da
renda (presente, assim, nos erros e), que poderia afetar simultaneamente a renda
(Y) e os anos de estudo (X). Por definição, os estimadores de MQO pressupõem a
ausência de correlação entre os resíduos (êi) e a variável independente (Xi)11. Caso
a ausência de correlação não se concretize na população, os estimadores de MQO
serão viesados;
iv) A variabilidade dos erros é constante, qualquer que seja X:
Em outras palavras, significa afirmar que a variância condicional dos erros seja
dada por Var (e | X i ) = Var (ei ) = E (ei2 ) − [ E (ei )]2 = E (ei2 ) = σ 2 . Quando a
dispersão dos erros é a mesma em todos os pontos de X dizemos que os erros são
homocedáticos (homo=igual; cedásticia=dispersão). Caso contrário, dizemos que
se tratam de erros heterocedásticos, ou seja, E (ei2 ) = σ i2 .
v) Os erros são não autocorrelacionados:

Em outras palavras, Cov(ei,ej)=E(eiej)−E(ei)E(ej)=0 para todos i≠j. Representa
independência entre observações da amostra, não havendo quaquer tipo de relação
entre seus erros. A autocorrelação é, entretanto, frequente em análises de séries
temporais (correlação serial) ou dados espaciais (correlação espacial);
Enquanto os três primeiros pressupostos são necessários para que os estimadores sejam
não viesados, os dois últimos são necessários para que estes sejam os mais eficientes12.
Em adição a estes cinco pressupostos, é ainda importante que os erros estejam
normalmente distribuídos para viabilizar a aplicação de testes de hipóteses e intervalos de
confiança aos coeficientes do modelo de regressão (a ser visto no próximo tópico). Modelos
10
Lembre-se que a associação entre uma constante (X) e uma variável aleatório (e) será sempre nula.
11
É uma das condições de primeira ordem dos estimadores de MQO.
12
Para os leitores familiarizados com álgebra, as demonstrações dessas propriedades podem ser consultadas nos
Apêndices A e B.
28
baseados nessas seis pressuposições são chamados de Modelos Clássicos de Regressão Linear
(MCRL). Uma propriedade adicional muito importante dos estimadores de MQO sob a premissas
de um MCRL é que esses serão os mais eficientes (apresentarão variância mínima) entre
quaisquer estimadores não viesados de β, não apenas entre os estimadores lineares como
pressupõe o teorema de Gauss-Markov.
2.2. Significância das estimativas

Uma vez que os valores das estimativas de α e β (Equação 1) dependem da amostra
selecionada, devem-se considerar suas variabilidades para saber se há evidências estatísticas de
que os respectivos parâmetros da população são diferentes de zero. Caso tenhamos, por exemplo,
evidências estatísticas que o parâmetro β seja diferente de zero, significaria poder afirmar que a
reta da população tem uma inclinação (positiva ou negativa) e, consequentemente, que há relação
linear entre Y e X. Analogamente, caso haja evidências estatísticas que o parâmetro α seja
diferente de zero, significaria poder afirmar que a reta da população não passa pela origem dos
eixos e, consequentemente, que o valor esperado de Y para um X nulo seja diferente de zero.
Graficamente, temos possíveis representações dessas situações na Figura 5.
(5)
Para verificar se os parâmetros do modelo de regressão são iguais ou não a zero, é

conveniente aplicar testes de hipóteses às estimativas obtidas por α̂ e β̂ . A aplicação desses
testes viabilizar-se-á caso se conheça: i) as distribuições de probabilidade dos estimadores; ii) as
estimativas para os parâmetros dessas distribuições.
2.3. Distribuição amostral dos estimadores

Sob um pressuposto mais geral do Teorema do Limite Central, pode-se afirmar que a
soma de variáveis independentes e igualmente distribuídas terá uma distribuição normal. Assim,
29
os erros ei, por serem considerados uma soma de diferentes fatores não observáveis afetando a
variável Y, também estariam normalmente distribuídos em torno de uma média zero. Entretanto,
essa pressuposição pode não ser verdadeira, sobretudo para amostras pequenas, dependendo da
composição dos fatores não observáveis (caso estes não sejam aditivos, por exemplo) e de suas
respectivas distribuições de probabilidade. Há testes estatísticos apropriados para verificar até
que ponto a distribuição dos resíduos se aproxima de uma normal e se tal pressuposição pode ser
considerada verdadeira.
Dizer que os erros possuem distribuição normal com média zero é o mesmo que afirmar
que os valores de Yi se distribuem normalmente em torno da reta de regressão (5). Ademais, a
normalidade dos erros (e dos valores de Yi em torno da reta) implicaria ainda que os estimadores
de MQO estariam normalmente distribuídos, já que esses são combinações lineares dos valores
de Yi (ver Apêndice A). Pressupondo ainda que os estimadores de MQO sejam não viesados,
como sugere o Teorema de Gauss-Markov, teríamos que os estimadores de um MCRL estariam
normalmente distribuídos em torno dos reais parâmetros α e β .
ei ~ N (0, σ 2 )
αˆ ~ N (α , σ α̂2 ) (6)
βˆ ~ N ( β ,σ β̂2 )
2.4. Variância dos estimadores

Conhecidas as funções de densidade de probabilidade (fdp) dos erros e dos estimadores
de MQO (6), o próximo passo é definir os parâmetros dessas fdp para viabilizar a inferência
estatística, em especial, a aplicação de testes de hipóteses e intervalos de confiança. Os três
parâmetros necssários são13: i) a variância dos erros ou variância da regressão (σ2); ii) a variância
do estimador α̂ ( σ α̂2 ); iii) a variância do estimador βˆ ( σ β̂2 ).
13
Os valores dos parâmetros α e β não são necessários já que o objetivo dos testes de hipóteses e dos intervalos de
confiança é justamente inferir sobre seus reais valores.
30
A variância dos erros representa a dispersão quadrática média dos erros em torno da reta
de regressão. Como usualmente desconhecemos o real valor de σ2 na população, precisamos de
um estimador para estimá-lo a partir dos resíduos da amostra. Como demonstrado no Apêndice
C, o estimador não viesado de σ2 a partir dos resíduos do MQO será dada por:
2
σˆ 2 =
∑ eî (7)
n−2
O denominador n–2 representa o número de graus de liberdade dos resíduos e significa
que, caso se conheça n–2 valores dos resíduos, os outros dois seriam automaticamente
determinados a partir de restrições impostas às propriedades matemáticas dos estimadores de
MQO14. A raiz quadrada da variância da regressão, ou σˆ , é chamada de erro padrão da regressão
e é uma medida da dispersão média dos resíduos.
Como o cálculo do numerador da equação (7), ∑ êi2 , pode ser demasiadamente
trabalhoso, uma alternativa pode ser dada por:
∑ eî2 = ∑ yi2 − β̂ ∑ xi yi (8)

Não é difícil demonstrar a relação estabelecida acima. Basta utilizarmos a expressão
definida no Apêndice C para yi = βˆxi + eî e lembrarmos que βˆ =

∑ xi y i :
∑ xi2
∑ eî2 = ∑ ( yi − βˆxi ) 2 = ∑ yi2 − 2βˆ ∑ xi yi + βˆ 2 ∑ xi2
(∑ xi y i ) 2 ( ∑ xi y i ) 2
∑ eî = ∑ yi − 2
2 2
+ 2 2 ∑ i
x2
∑ i
x 2
( ∑ i x ) (9)
(∑ xi y i ) 2
∑ eî = ∑ yi −
2 2
= ∑ y i2 − βˆ ∑ xi y i
∑ xi
2
As variâncias dos estimadores α̂ e β̂ ( σ α̂2 e σ β̂2 ) representam as dispersões quadráticas
médias destes em função da aleatoriedade da amostra. Serão dadas por (ver demonstrações no
Apêndice B):
Var (αˆ ) = E (αˆ − α ) 2 =

∑ X i2 σ 2 e Var ( βˆ ) = E ( βˆ − β ) 2 =
σ2
(10)
n ∑ xi2 ∑ xi2
14
São duas as restrições impostas aos resíduos: i) Σêi=0; ii) ΣêiXi=0.
31
Seus estimadores são obtidos substituindo σ 2 por σˆ 2 :
∑ X i2 σˆ 2 =  1 + X 2 σˆ 2 σˆ 2
Sα2ˆ =  2
e S β2ˆ = (11)
n∑ xi2  n ∑ xi 
1
∑ xi2
As raízes quadradas dessas variâncias ( Sα̂ e S βˆ ) são chamadas de erros padrão dos
estimadores.
A partir dos estimadores obtidos em (11) podemos derivar algumas importantes
propriedades matemáticas:
i. Quanto maior o erro padrão da regressão, menos precisa será a estimativa dos
parâmetros: em outras palavras, quanto mais dispersos estiverem os valores
observados em torno da reta de regressão, mais dispersas serão as estimativas de
MQO. Algebricamente, pode-se observar essa propriedade a partir do numerador
das equações em (11).
ii. Quanto maior a variabilidade observada para os valores de X, mais precisa será a
estimativa dos parâmetros: a variabilidade dos valores amostrados de X é uma
importante medida da qualidade do ajuste. Baixa dispersão de X indica que a
amostra não representa uma relevante amplitude de valores. Matematicamente, a
dispersão de X será medida pelo denominador ∑ xi2 das equações em (11);
iii. Quanto maior o tamanho da amostra, maior a variabilidade observada para X e

mais precisas serão as estimativas dos parâmetros: a maior representatividade da
amostra garante uma maior amplitude de comportamentos considerados.
Matematicamente, essa relação é dada pelos denominadores n e ∑ xi2 das
equações em (11).
2.5. Teste de hipóteses para os coeficientes

O teste de hipóteses para os coeficientes do modelo de regressão usualmente é utilizado
para verificar se há evidências, com base nas estimativas observadas na amostra, que seus
valores na população sejam diferentes de zero. Assim, as hipóteses a serem testadas seriam:
32
H 0 : α = 0 H 0 : β = 0
 e  (12)
H 1 : α ≠ 0 H 1 : β ≠ 0
Embora menos frequentes, podem ainda ser elaborados testes para verificar se os
parâmetros α e β são diferentes, maiores ou menores que quaisquer outras constantes que não o
zero.
Pressupondo a veracidade das hipóteses nulas e conhecendo as propriedades dos
estimadores de MQO (propriedade 6 e 10), teremos as seguintes distribuições de probabilidade
para as estatísticas de teste:
αˆ ~ N (0, σ α̂2 ) e βˆ ~ N (0, σ β2ˆ ) (13)

A partir de então, os passos para resolução serão análogos aos de qualquer teste de
hipóteses: i) observar estimativa para a estatística de teste na amostra ( α̂ e βˆ ); ii) calcular valor
p, probabilidade de erro ao afirmar que o parâmetro seja diferente de zero. Como a real variância
dos coeficientes é desconhecida, o uso de suas estimativas amostrais obtidas por Sα̂2 e S β2ˆ
exigirá ainda a consideração da distribuição t de Student para o cálculo da probabilidade de erro,

como exemplifica a Figura (14). Os graus de liberdade são os mesmo obtidos para a variância
amostral da regressão (Equação 7), ou seja, n–2.
(14)
Rejeitar H0 significa afirmar que a estimativa de β é significativa, ou, no caso do

coeficiente angular, que a variável independente X é significativa no modelo.
Exemplo 1. Obeservou-se o consumo mensal de energia (Y, em Kwh) e o total de horas que o ar
condicionado permaneceu ligado (X, em h) em uma amostra de 21 domicílios. Os valores
observados e as estimativas de MQ para o ajuste linear foram:
33
KWh AC KWh AC
i i
(Y) (X) (Y) (X)
1 35 1,5 12 77 7,5
2 17 2,0 13 62 7,5
3 57 2,5 14 65 7,5
4 63 4,5 15 66 8,0
5 66 5,0 16 65 8,0
6 33 5,0 17 75 8,0
7 79 6,0 18 94 8,5
8 43 6,0 19 85 12,0
9 33 6,0 20 94 12,5 Yi = 27,85 + 5,34 X i + eî
10 78 6,5 21 93 13,5
11 82 7,5
Em outras palavras, espera-se que para cada hora adicional com o ar condicionado ligado o
consumo de energia aumente, em média, 5,34 KWh. O consumo esperado para um domicílio que
não utilize o ar condicionado é de 27,85 KWh.
As estimativas da variância e erro padrão da regressão serão dadas por:
σˆ 2 =
∑ eî2 = (−0,86) 2 + (−21,53) 2 + ... + (−0,61) 2 + (−6,96) 2 = 3968,91 = 208,89
n−2 21 − 2 19
σˆ = 208,89 = 14,45
O erro padrão é uma estimativa do erro médio de previsão do modelo, ou seja, de
aproximadamente 14,45 KWh.
O próximo passo é estimar as variâncias dos coeficientes do modelo para verificar se as
estimativas de α e β são significativas, ou seja, se são estatisticamente diferentes de zero. Essas
serão dadas por:
1 X2  2 1 6,9 2 
Sα2ˆ =  + 2 σˆ =  + 2 2
208,89 = 60,94 = 7,812
 n ∑ xi   21 (−5,4) + ... + (6,6) 
σˆ 2 208,89
S β2ˆ = 2
= = 1,06 = 1,03 2
1
∑ xi 196 ,6
Pode-se então, finalmente, verificar se as estimativas são significativas aplicando-se o teste de
hipóteses para aos coeficientes do modelo:
34
O valor p associado ao teste para o coeficiente α é de 0,2%, ou seja, a probabilidade de erro ao

afirmarmos que o intercepto é diferente de zero é de apenas 0,2%. Sendo assim, pode-se afirmar
que residências que não utilizam ar condicionado (X=0) possuem um consumo positivo de
energia, já que outros aparelhos estariam influenciando o consumo.
Por sua vez, o valor p associado ao teste para o coeficiente β é aproximadamente nulo. Em outras
palavras, se afirmarmos que β é diferente de zero, ou seja, que o número de horas com ar
condicionado ligado tenha relação linear com o consumo de energia, a chance de estarmos
errados seria praticamente nula.
2.6. Intervalo de confiança para os coeficientes

Outra técnica de inferência estatística clássica que pode ser aplicada às estimativas dos
coeficientes do modelo de regressão é o intervalo de confiança. Dado um nível de confiança γ, o
intervalo de confiança definirá intervalos que, em repetidas amostras de tamanho n, conterá o
real parâmetro da população em γ das situações.
Antes de verificarmos as estimativas de intervalo para os coeficientes do modelo de
regressão, vale a pena relembrar alguns cuidados especiais na sua interpretação. Primeiro, como
o parâmetro a ser estimado é uma constante e não uma variável aleatória, não podemos afirmar
que esse tenha γ de probabilidade de pertencer a um intervalo. O parâmetro estará contido
(probabilidade 1) ou não (probabilidade 0) em um intervalo. Segundo, uma vez estimado o
intervalo com os valores de uma determinada amostra, não podemos afirmar que o intervalo
estimado tenha γ de probabilidade de conter o parâmetro, já que, uma vez definidos os limites do
35
intervalo, esses conterão (probabilidade igual a 1) ou não (probabilidade igual a 0) o parâmetro

da população.
Sabendo que os estimadores de MQO seguem uma distribuição normal sob as premissas
do MCRL, os intervalos de confiança para os parâmetros α e β seriam dados por:
(15)
Onde Zγ é o número de desvios padrão, obtido da distribuição Z~N(0,1), que se deve estar
afastado do centro da distribuição para que se tenha γ de probabilidade entre os dois extremos do
intervalo. Entretanto, como os reais valores σ α̂2 e σ β̂2 são desconhecidos, o uso das estimativas
obtidas pelos estimadores Sα̂2 e S β̂2 implicará na consideração da estatística t de student em
substituição à Z. Assim, os intervalos de confiança para os parâmetros α e β serão dados por:
IC(α , γ) = [αˆ − t n−2 Sαˆ ; αˆ + t n−2 Sαˆ ]

(16)
IC(β , γ) = [βˆ − t n −2 S βˆ ; βˆ + t n− 2 S βˆ ]
Onde tn–2 é o valor da distribuição t de student com n–2 graus de liberdade para que se
tenha γ de probabilidade entre os dois extremos do intervalo.
Exemplo 2. Para estimar intervalos com confiança de 95% para os parâmetro do modelo da
relação linear entre consumo mensal de energia (Y, em Kwh) e o total de horas que o ar
condicionado permaneceu ligado (X, em h), teríamos:
IC(α , γ) = [ 27,85 − t19 (7,81); 27,85 + t19 (7,81) ]
IC(β , γ) = [ 5,34 − t19 (1,03); 5,34 + t19 (1,03) ]
Para uma confiança de 95%, por exemplo, os intervalos seriam dados por:
IC(α , γ) = [27,85 − 2,09(7,81); 27,85 + 2,09(7,81)] = [11,51; 44,19]

IC(β , γ) = [5,34 − 2,09(1,03); 5,34 + 2,09(1,03)] = [3,18; 7,50]
36
O intervalo determinado pelos valores 11,51 a 44,19 KWh é uma estimativa de um intervalo que,
em repetidas amostras de tamanho 21, conteria o real valor do parâmetro α em 95% das
situações. Por sua vez, o intervalo definido pelos valores 3,18 a 7,50 KWh é uma estimativa do
intervalo de 95% de confiança para o parâmetro β .
Exercícios
1. Observaram-se os gastos per capita com alimentação (Y) e a renda mensal per capita (X) em
uma amostra de 5 famílias:
Y 52 104 122 141 166
X 254 487 615 950 1014
a. Estime a variância dos coeficientes do modelo de regressão linear simples para
prever o gasto com alimentação (Y) em função da renda (X).
b. As estimativas dos coeficientes são significativas? Interprete.
c. Defina intervalos com confiança de 95% para os parâmetros do modelo. Interprete
seus resultados.
d. Existe alguma associação entre os resultados dos testes de hipóteses (b) e dos
intervalos de confiança (c)?
2. A partir de uma amostra de n elementos, foi estimada uma regressão linear simples, pelo
método de mínimos quadrados, obtendo-se o resultado: Yˆ = αˆ + βˆ1 X . A seguir, a mesma
regressão foi estimada sabendo-se que a reta de regressão da população passa pela origem
das coordenadas (termo constante = 0), obtendo-se o resultado: Yˆ = βˆ2 X . Pode-se afirmar
que:
a. βˆ1 = βˆ2 .
b. A reta de regressão passa pelas médias amostrais de Y e X, mesmo que o modelo
não tenha intercepto.
c. No primeiro modelo, quanto maior for a variação da variável explicativa, maior
será a precisão com que o coeficiente angular pode ser estimado.
37
3. (ANPEC, 1996) Suponha que, num modelo de regressão linear simples, o regressor (variável
independente) seja correlacionado com o termo erro. Sobre o estimador de MQO, podemos
afirmar:
a. É, em geral, viesado.
b. Não é possível de ser obtido.
c. É não viesado, porém não é eficiente.
d. É consistente.
Respostas
1) a. Sα2ˆ = 15,38 2 ; S β2ˆ = 0,02 2 ; b. α: p=0,139; β: p=0,009; c. IC(95%;α)=[-18,16; 79,77];
IC(95%;β)=[0,06; 0,20]
2) a. F; b. F; c. V
3) a. V; b. F; c. F; d. F
38
Apêndice A – Valor Esperado e Exatidão dos Estimadores de MQO

Para demonstrarmos algebricamente que os estimadores de MQO são não viesados caso os
pressupostos (i) a (iii) do teorema de Gauss-Markov sejam válidos, comecemos pela
representação do coeficiente angular:
n
∑ xiYi
βˆ = i =1
n
∑ xi 2
i =1
n
xi
Para simplificar a demonstração, vamos denominar zi = n
e teremos βˆ = ∑ z i Yi
∑ x j2 i =1
j =1
Pressuposto i: supondo a relação linear entre as variáveis, Yi = α + βX i + ei , teremos:

n n n n n n n n
βˆ = ∑ z i Yi = ∑ z i (α + β X i + ei ) = ∑ αz i + ∑ βz i X i + ∑ z i ei = α ∑ z i + β ∑ z i X i + ∑ z i ei
i =1 i =1 i =1 i =1 i =1 i =1 i =1 i =1
n ∑(Xi − X ) 0
O primeiro termo, α ∑ z i , será igual a zero, pois α i =1
n
=α n
=0
i =1
∑ xi2 ∑ xi2
i =1 i =1
n
O segundo termo, β ∑ z i X i , sera igual a β, pois
i =1
n n n n n
∑ xi X i ∑(Xi − X )X i ∑ X i2 − ∑ X i X ∑ X i2 − nX 2
i =1 i =1 i =1 i =1 i =1
β n
=β n
=β n n n
=β n
=β
∑ xi2 ∑(Xi − X ) 2
∑ X i2 − 2∑ X i X + ∑ X 2
∑ X i2 − 2 nX + nX 2 2
i =1 i =1 i =1 i =1 i =1 i =1
Assim, teremos:
n
βˆ = β + ∑ z i ei
i =1
Agora, para calcularmos o valor esperado de β̂ :
 n   n 
E ( βˆ ) = E  β + ∑ z i ei  = β + E  ∑ z i ei 
 i =1   i =1 
39
Pressuposto ii: se consideramos os valores de X fixos, não aleatórios, teremos:

n
E ( βˆ ) = β + ∑ z i E (ei )
i =1
Pressuposto iii: e se a esperança condicional dos erros for zero, teremos finalmente:
n
E ( βˆ ) = β + ∑ z i 0 = β
i =1
A demonstração para o intercepto é mais simples. Primeiro, o estimador de MQO será:

αˆ = Y − βˆX
Pressuposto i: supondo que a relação linear entre Y e X, Yi = α + βX i + ei , se calcularmos o
valor médio de cada lado da equação teremos:
Y = α + βX + e
Substituindo o valor de Y na equação do estimador de α:
αˆ = (α + β X + e ) − βˆX = α + X ( β − βˆ ) + e
Assim, a esperança de α̂ será:
E (αˆ ) = E (α ) + E[ X ( β − βˆ )] + E (e ) = α + E ( X )[ E ( β ) − E ( βˆ )] + E (e )
Pressuposto iii: dada a esperança condicional (e incondicional) zero dos erros, teremos que
E (e ) = 0
Presspostos i a iii: ademais, caso os pressupostos (i) a (iii) sejam satisfeitos, sabemos que
E ( βˆ ) = β . Então o valor esperado de α̂ será:
E (αˆ ) = α + E ( X ) × 0 + 0 = α
40
Apêndice B – Variância e Eficiência dos Estimadores de MQO

Para demonstrarmos algebricamente que os estimadores de MQO são eficientes caso os
pressupostos (i) a (iii) do teorema de Gauss-Markov sejam válidos, precisamos inicialmente
calcular suas variâncias. Começando pelo coeficiente angular:
Var ( βˆ ) = E[ βˆ − E ( βˆ )]2
n
Pressupostos i a iii: supondo E ( βˆ ) = β e βˆ = β + ∑ z i ei , então:
i =1
n
Var ( βˆ ) = E ( βˆ − β ) 2 = E (∑ z i ei ) 2 = E ( z12 e12 + ... + z n2 en2 + 2 z1 z 2 e1 e2 + ... + 2 z n−1 z n en −1en )
i =1
Pressuposto ii: considerando que os valores de X sejam controlados, então E ( z i ei ) = z i E (ei ) e:
Var ( βˆ ) = z12 E (e12 ) + ... + z n2 E (en2 ) + 2 z1 z 2 E (e1 e2 ) + ... + 2 z n−1 z n E (en−1en )
Pressuposto iv: caso a variância dos erros será constante para qualquer i, ou seja E (ei2 ) = σ 2 e:
n n n −1
Var ( βˆ ) = ∑ z i2σ 2 + 2∑∑ z i z j E (ei e j )
i =1 i =1 j ≠i
Pressuposto v: caso os erros sejam não autocorrelacionados, ou seja, E (ei e j ) = 0 para i≠j,
então:
n
n n ∑ xi2
Var ( βˆ ) = ∑ zi2σ 2 = σ 2 ∑ zi2 = σ 2 i =1
2
i =1 i =1  n 
 ∑ xi2 
 i =1 
E:
ˆ σ2
Var ( β ) = n
∑ xi2
i =1
Para agora demonstrarmos que a variância dos estimador de MQO para β é a menor entre os
estimadores lineares não viesados de β , comecemos pela representação desse primeiro dada por:
41
n
βˆ = ∑ z i Yi
i =1
Que é, naturalmente, uma função linear da variável aleatória Yi.

Agora, vamos generalizar a representação de outro estimador linear para β por:
n
βˆ * = ∑ wi Yi
i =1
Ou seja, uma função linear de Yi segundo um fator de ponderação wi.

A esperança deste estimador genérico será dada por:
n n n n n n n
E ( βˆ * ) = E (∑ wi Yi ) = ∑ wi E (Yi ) = ∑ wi E (α + βX i ) = ∑ wi α + ∑ wi βX i = α ∑ wi +β ∑ wi X i
i =1 i =1 i =1 i =1 i =1 i =1 i =1
Primeiro, as condições necessária para que β̂ * seja não vieasado, ou seja E ( βˆ * ) = β , são:
n
∑ wi = 0 e
i =1
n
∑ wi X i = 1
i =1
E, dessas igualdades, derivamos ainda que:

n n n
∑ wi xi = ∑ wi X i − X ∑ wi = 1
i =1 i =1 i =1
Cientes dessas condições, vamos agora estimar a variância de βˆ * :

n n
Var ( βˆ * ) = Var (∑ wi Yi ) = ∑ wi2Var (Yi )
i =1 i =1
n
Como Var(Yi) = Var(ei)=σ2, então Var ( βˆ * ) = σ 2 ∑ wi2
i =1
Agora vamos realizar um malabarismo algébrico, incluindo o termo zi na equação sem

comprometer a igualdade:
n
Var ( βˆ * ) = σ 2 ∑ ( wi − z i + z i ) 2
i =1
Desenvolvendo, teremos:
n
Var ( βˆ * ) = σ 2 ∑ [( wi − z i ) 2 + 2 z i ( wi − z i ) + z i2 ] =
i =1
42
n n n
Var ( βˆ * ) = σ 2 ∑ ( wi − z i ) 2 + 2σ 2 ∑ ( z i wi − z i2 ) + σ 2 ∑ z i2
i =1 i =1 i =1
O segundo termo será zero, pois

n n
n ∑ wi xi ∑ xi2 1 1
∑ ( zi wi − z i2 ) = i =1
n
− i =1
2
= n
− n
=0
 n 2
i =1
∑ xi2  ∑ xi  ∑ xi2 ∑ xi2
i =1 i =1 i =1
 i =1 
Assim, a variância βˆ * de resume-se a:
n n n
σ2
Var ( βˆ * ) = σ 2 ∑ ( wi − z i ) 2 + σ 2 ∑ z i2 = σ 2 ∑ ( wi − z i ) 2 + n
i =1 i =1 i =1
∑ xi2
i =1
n
Como o segundo termo da equação ( σ 2 ∑ xi2 ) é constante, a variância de β̂ * será minimizada
i =1
quando wi = z i . Em outra palavras, o estimador linear não viesado de β de mínima variância é
justamente o βˆ , pois:
n n
βˆ * = ∑ wi Yi = ∑ z i Yi = β̂
i =1 i =1
A demonstração da eficiência do estimador intercepto segue o mesmo raciocínio. Vamos,

entretanto, apenas apresentar o desenvolvimento para o estimador de sua variância:
Var (αˆ ) = E[α − E (αˆ )]2
Pressupostos i a iii: supondo E (αˆ ) = α e αˆ = α + X ( β − βˆ ) + e , então:
Var (αˆ ) = E (αˆ − α ) 2 = E[ X ( β − βˆ ) + e ] 2 = X 2 E ( β − βˆ ) 2 + 2 E[ X ( β − βˆ )e ] + E (e 2 )

O segundo termo é igual a zero pois E (e ) = 0 .
Ademais, sabendo que E ( β − βˆ ) 2 = E ( βˆ − β ) 2 = Var ( βˆ ) , teremos:

n
1
Var (αˆ ) = X 2Var ( βˆ ) + 2 E (∑ ei ) 2
n i =1
Pressuposto iv e v: caso a variância dos erros seja constante, E (ei2 ) = σ 2 , e os erros sejam não
43
correlacionados, E (ei e j ) = 0 , teremos:
σ2 1 n
σ2 nσ 2
Var (αˆ ) = X 2 n
+
n2
∑ E (ei2 ) = X 2 n
+
n2
∑ xi2 i =1
∑ xi2
i =1 i =1
E:
X2 1
Var (αˆ ) = ( n
+ )σ 2
n
∑ xi2
i =1
A demonstração que a variância do estimador de MQO para α é a menor entre os estimadores

lineares não viesados de α, segue os mesmos passos da obtida para β , embora não seja aqui
apresentada.
44
Apêndice C – Variância dos erros

n
Devemos demonstrar que σˆ 2 ∑ eˆ 2

= i =1 é um estimador não viesado de σ 2 . Em outras
n−2
palavras:
E (σˆ 2 ) = σ 2
Comecemos pela especificação da função de regressão populacional:
Yi = α + β X i + ei
Se calcularmos a média dos dois lados da equação teremos:
Y = α + βX + e
Subtraindo as duas equações teremos:
Yi − Y = β ( X i − X ) + (ei − e ) , ou simplificadamente, yi = βxi + (ei − e )
Perceba que até agora trabalhamos apenas com parâmetros e erros da população. Vamos agora
integrar este desenvolvimento à especificação dos resíduos na amostra. Primeiro, temos que:
yi = βˆxi + eî
E, consequentemente:
eî = yi − β̂xi
Substituindo yi por βxi + (ei − e ) teremos:
eî = βxi + (ei − e ) − βˆxi = − xi ( βˆ − β ) + (ei − e )
A partir desta especificação dos resíduos, vamos desenvolver o numerador de σˆ 2 . Ou seja, a

soma do quadrado dos resíduos (SQRes):
n n
∑ eî2 = ∑ [ xi2 (βˆ − β ) 2 − 2 xi ( βˆ − β )(ei − e ) + (ei − e ) 2 ]
i =1 i =1
Por sua vez, o valor esperado da SQRes será

n n n n
E (∑ eî2 ) = E[∑ xi2 ( βˆ − β ) 2 ] − 2 E[∑ xi ( βˆ − β )(ei − e )] + E[∑ [(ei − e ) 2 ]
i =1 i =1 i =1 i =1
n n n n
E (∑ eî2 ) = E[∑ xi2 ( βˆ − β ) 2 ] − 2 E[∑ xi ( βˆ − β )(ei − e )] + E[∑ [(ei − e ) 2 ]
i =1 i =1 i =1 i =1
45
Supondo que os valores de Xi sejam controlados:

n n n n
E (∑ eî2 ) = ∑ xi2 E[( βˆ − β ) 2 ] − 2 E[∑ xi ( βˆ − β )(ei − e )] + E[∑ (ei − e ) 2 ]
i =1 i =1 i =1 i =1
n n 2
ˆ) = 2 σ
O primeiro termo pode ser simplicado por ∑ i x 2
Var ( β ∑ i n =σ2
x
i =1 i =1
∑ xi2
i =1
O segundo termo pode ser desenvolvido a partir de uma das propriedades do Apêndice A,
n
xi
βˆ = β + ∑ z i ei , onde z i = n
:
i =1
∑ z i2
i =1
n n
xe n
x 2e 2 x 2e e
2 E[∑ xi ( βˆ − β )(ei − e )] = 2 E[∑ xi ( β + n i i − β )(ei − e )] = 2 E[∑ ni i − ni i ]
i =1 i =1
∑ xi2 i =1
∑ xi2 ∑ xi2
i =1 i =1 i =1
Como o valor médio dos erros é zero e os valores de Xi são considerados controlados:
n
n n
x 2e 2
∑ xi2 E (ei2 )
2 E[∑ xi ( βˆ − β )(ei − e )] = 2 E[∑ ni i ] = 2 i =1
n
= 2σ 2
i =1 i =1
∑ xi2 ∑ xi2
i =1 i =1
O terceiro termo, por sua vez, será dado por:

n n n n n
E[∑ (ei − e ) 2 ] = E[∑ (ei2 − 2ei e + e 2 )] = E[∑ ei2 − 2e ∑ ei + ne 2 ] = E[∑ ei2 − 2ne 2 + ne 2 ]
i =1 i =1 i =1 i =1 i =1
2
n n n  n 
E[∑ (ei − e ) ] = E (∑
2
ei2 − ne ) = E [ ∑
2
ei2 + n ∑ ei n  ]
i =1 i =1 i =1  i =1 
Caso os erros sejam não correlacionados (pressuposto v), então E(eiej)=0 e
n n
E (∑ ei ) 2 = E (∑ ei2 ) . Então:
i =1 i =1
n n n n
1 n 2
E[∑ (ei − e ) 2 ] = E[∑ ei2 − n∑ ei2 n 2 ] = E[∑ ei2 − ∑ ei ] = nσ 2 − σ 2 = (n − 1)σ 2 =
i =1 i =1 i =1 i =1 n i =1
Finalmente, voltamos ao desenvolvimento da SQRes, substituindo cada termo pelos seus
respectivos desenvolvimentos:
46
n
E (∑ eî2 ) = σ 2 − 2σ 2 + (n − 1)σ 2 = (n − 2)σ 2
i =1
Assim, se definirmos o estimador da variância dos erros por σˆ 2

=
∑i =1
eˆ 2
teremos um
n−2
estimador não viesado para σ 2 , pois:
 n eˆ 2 
∑
E (σˆ ) = E  i =1
2  = (n − 2)σ
2
 n−2  n−2
 
47
Econometria Intervalos de Confiança e Previsão
4. Intervalos de Confiança e Previsão para os Valores de Y
Introdução
Sabemos que, dependendo da amostra selecionada, teremos estimativas diferentes para os
coeficientes da regressão α e β . Assim como as estimativas variam aleatoriamente, o mesmo
ocorrerá com os valores previstos de Ŷ . Portanto, ao realizarmos uma previsão em regressão

linear, é também necessário considerar a variabilidade do estimador, o que pode ser feito
elaborando estimativas por intervalo para os valores previstos.
Antes de elaborar estimativas por intervalo para os valores previstos de um modelo de
regressão linear, é necessário compreender uma importante distinção entre estimativas para
médias e estimativas por valores individuais. Isso será feito revisando alguns simples conceitos
da distribuição normal e do teorema do limite central.
3.1. Intervalos para valores individuais e para a média aritmética

Suponha, por exemplo, que os rendimentos de uma população (Y) estejam normalmente
2
distribuídos com média ( µY ) 800 reais mensais e variância ( σ Y ) de 2002.
Y ~ N (800, 200 2 )
A partir da fdp de Y poderíamos estimar quaisquer intervalos com probabilidades de
ocorrência de valores individuais de Y em uma amostra. O intervalo definido pelos rendimentos
entre 408 e 1192 reais conteria, por exemplo, 95% dos rendimentos de uma amostra.
Imagine, agora, que dessa população Y seja selecionada uma amostra aleatória de 100
pessoas e calculada sua média aritmética. Pelo Teorema do Limite Central, sabemos que essa
48
2
média aritmética Y estará normalmente distribuída com média de 800 reais e variância ( σ Y ) de
2002/100.
200 2
Y ~ N (800, )
100
Da mesma forma que fizemos para valores individuais de Y, podemos também estimar
intervalos com probabilidades de ocorrência dos valores de Y . Teríamos, por exemplo, 95% de
probabilidade de o rendimento médio de uma amostra de 100 pessoas estar entre 761 e 839 reais:
Imagine agora que desconheçamos a real média populacional ( µY ). O objetivo principal

passa a ser inferir valores da população a partir de estimativas da amostra. O intervalo de
confiança é uma técnica simples de inferência que permite estabelecer um intervalo com
probabilidade γ de conter um parâmetro populacional. No nosso exemplo, a especificação de um
intervalo com confiança de 95% para µY signficaria que este, em repetidas amostras de tamanho
n, conteria o real rendimento médio da população em 95% das situações. Esse intervalo seria
definido por:
IC (γ , µY ) = [Y − Z γ σ Y ; Y + Z γ σ Y ] (1)
Supondo que o valor da média observada na amostra Y seja de 780, a estimativa para
esse intervalo seria:
200 200
IC (95%, µ Y ) = [780 − 1,96( ); 780 + 1,96( )] = [740,9; 819,2]
10 10
A partir da média observada na amostra ( Y =780) poderíamos ainda inferir sobre os
valores individuais de Y, ou seja, sobre os rendimentos individuais. Enquanto o intervalo de
confiança refere-se a uma estimativa para um parâmetro populacional, uma constante, o intervalo
49
de previsão refere-se a uma estimativa para variáveis aleatórias. A especificação de um intervalo

de previsão para Y seria dada pro:
IP(γ , Y ) = [Y − Z γ σ Y ; Y + Z γ σ Y ] (2)
Perceba que, enquanto a estimativa do intervalo de confiança baseia-se na variabiliade da
média amostral ( σ Y ), o intervalo de previsão baseia-se na variabilidade dos valores individuais
( σ Y ).
No nosso exemplo, a estimativa para o intervalo de previsão de 95% para os rendimentos
individuais seria dada por:
IP(95%, Y ) = [780 − 1,96(200); 780 + 1,96(200)] = [388; 1172]
3.2. Intervalo de confiança para o valor previsto de Yi

O conceito de intervalo de confiança aplicado aos valores previstos de um modelo de
regressão linear é análogo àquele da média aritmética, com a diferença de o primeiro se tratar de
uma estimativa para um média condicional – E (Y | X i ) - e o segundo para uma média
incondicional – E (Y ) . Em outras palavras, o objetivo é estimar o valor esperado condicional de

Y de um modelo de RLS na população, que é dado por:
E[Y / X i ] = E[Yi ] = α + βX i (3)
A estimativa pontual obtida para E[Yi] em uma amostra será dada por:
Yî = αˆ + βˆX i (4)
Assim como os valores de α̂ e βˆ variam aleatoriamente em função da amostra
selecionada, Yî também estará aleatoriamente distribuído. Aproveitando-se ainda da mesma

generalização do Teorema do Limite Central utilizada para justificar a ditribuição normal dos
erros, pode-se demonstrar que Yî , por ser uma função linear de variáveis normais15, terá
distribuição normal com parâmetros dados por:
15
Controlando-se os valores de Xi, a única fonte de variabilidade Yî será proveniente dos estimadores α̂ e βˆ , já
que Yî = αˆ + βˆX i . Como esses apresentam distribuição normal, uma função linear de variáveis normais terá
também distribuição normal.
50
Yî ~ N ( E[Yi ], σ Y2ˆ ) (5)

i
Sendo que σ Y2ˆ será dado por (ver Apêndice A para demonstração):
i
 
 2 
1 x
σ Y2ˆ =  + n i σ 2 (6)
i n 
 ∑ x 2j 
 j =1 
Entretanto, como σ2 é desconhecido, teremos sua estimativa não tendenciosa dada por:
 
 
 1 xi2 σˆ 2
S Y2ˆ = + n (7)
i n 
 ∑ x 2j 
 j =1 
Assim, intervalos de confiança γ para os valores previstos de Y serão dados por:
IC (γ , E[Yi ]) = [Yî − t n − 2 S Yˆ ; Yî + t n − 2 S Yˆ ] (8)

i i
Onde tn2 corresponde ao valor da distribuição t de student com n2 graus de liberdade e

probabilidade γ.
Exemplo 1. Observaram-se o consumo mensal per capita de vinho (X em litros mensais per
capita) e a taxa de mortalidade cardíaca (Y em mortes para cada grupo de 100 mil habitantes) em
19 países. Os valores observados foram:
País X Y País X Y
Alemanha 2,7 172 Holanda 1,8 167
Austrália 2,5 211 Irlanda 0,7 300
Áustria 3,9 167 Islândia 0,8 211
Bélgica 2,9 131 Itália 7,9 107
Canadá 2,4 191 Noruega 0,8 227
Dinamarca 2,9 220 Nova Zelândia 1,9 266
Espanha 6,5 86 Reino Unido 1,3 285
Estados Unidos 1,2 199 Suécia 1,6 207
Finlândia 0,8 297 Suiça 5,8 115
França 9,1 71
Pressupondo que a relação entre consumo de vinho e mortalidade cardíaca seja linear, estimou-se
o seguinte ajuste:
51
Yî = 360,6 + 23,0 X i

Em outras palavras, estamos pressupondo que, para cada litro adicional per capita de vinho, a
mortalidade cardíaca média reduza em 23 pessoas para cada grupo de 100 mil habitantes.
Caso desejássemos estimar a mortalidade cardíaca média para um consumo de 5 litros per capita,
esta seria dada por:
Yî = 360,6 + 23,0(5) = 145,7

Ou seja, uma estimativa pontual para a mortalidade cardíaca média de países com consumo
equivalente a 5 litros per capita de vinho seria de 145,7 mortes/100 mil habitantes. Uma
estimativa por intervalo de 95% para esta estimativa seria dada por:
IC (95%, E[Yi ]) = [145,7 − 2,11(11,2); 145,7 + 2,11(11,2)] = [122,1; 169,3]
Pois:
σˆ 2 = 37 ,9 2
e
 1 (5 − 3) 2 
S Y2ˆ =  + 2 2
37,9 2 = 11,2 2

 19 ( 2,7 − 3) + ...( 5,8 − 3)
i

Assim, o intervalo definido pelos valores 122 e 169 mortes/100 mil habitatantes seria uma
estimativa do intervalo que, em repetidas amostras de tamanho 19, conteria a real mortalidae
média dos países com consumo de vinho equivalente a 5 litros per capita em 95% das situações
3.3. Intervalo de previsão para valores individuais de Yi

Partindo do pressuposto que os valores individuais de Yi também estejam, assim como os
erros da regressão, normalmente distribuídos em torno da reta de regressão, é possível
estabelecer intervalos de previsão para os mesmos. A f.d.p. para Yi será dada por:
Yi ~ N ( E[Yi ], σ Y2i ) (9)
Sendo que σ Y2i será dado por (ver demonstração no Apêndice A):
 
 
1 x2
σ Y2ˆ = 1 + + n i σ 2 (10)
i  n 
 ∑ x 2j 
 j =1 
52
Entretanto, como σ2 é desconhecido, teremos a estimativa não tendenciosa dada por:
 
 
1 x2
S Y2i = 1 + + n i σˆ 2 (11)
 n 
 ∑ x 2j 
 j =1 
Assim, intervalos de previsão de γ para valores individuais de Y serão dados por:
IP(γ , Yi ) = [Yî − t n − 2 S Yi ; Yî + t n − 2 S Yi ] (12)

Onde tn–2 corresponde ao valor da distribuição t de student com n–2 graus de liberdade e
probabilidade γ.
Exemplo 2. No exemplo (1) tínhamos uma estimativa por intervalo para a mortalidade cardíaca
média em países com consumo de vinho equivalente a 5 litros per capita. Suponha que agora
desejamos uma estimativa por intervalo para as mortalidades de cada país, não mais para a
mortalidade média. Em outras palavras, uma estimativa por intervalo de, por exemplo, 95% para
as taxas individuais de mortalidade seria dada por:
IC (95%, Yi ) = [145,7 − 2,11(39,5); 145,7 + 2,11(39,5)] = [62,4; 229,0]
Pois:
 1 (5 − 3) 2 
S Y2i = 1 + + 2 2
37 ,9 2 = 39,5 2

 19 ( 2,7 − 3) + ...( 5,8 − 3) 
Assim, os valores 62 e 229 mortes/100 mil habitantes definiriam a estimativa de um intervalo de
95% de probabilidade para as taxas de mortalidade de países com consumo de 5 litros de vinho
per capita.
3.4. Propriedades das estimativas por intervalo

A análise apresentadas permitem algumas importantes considerações sobre a
confiabilidade das estimativas:
i. Quanto maior a dispersão dos resíduos, menor a precisão do intervalo de

confiança e/ou previsão: as equações (5) e (9) permitem observar que, à medida
que aumenta a dispersão dos resíduos ( σ̂ 2 ), aumentará a variância de Yî e Yi, e,
53
consequentemente, aumentará a amplitude de variação do intervalo de confiança

e/ou previsão;
ii. Quanto maior o tamanho da amostra, maior a precisão do intervalo de confiança
e/ou previsão: o efeito do tamanho da amostra na precisão das estimativas pode
ser identificados pelos denominadores n e Σx2j nas equações (5) e (9);
iii. Quanto maior a variabilidade do regressor, maior a precisão do intervalo de
confiança e/ou previsão: a variabilidade do regressor é representada pelo
denominador Σx2j nas equações (5) e (9);
iv. Quanto mais o valor controlado Xi aproxima-se da média de X ( X ), maior a
precisão das estimativas: significa que intervalos de confiança e/ou previsão terão
maior amplitude para valores mais afastados da média amostral de X, sugerindo
que cuidados adicionais devem ser considerados na extrapolação de valores muito
afastados daqueles observados na amostra. Matematicamente, essa propriedade
pode ser observada a partir do numerador x2i nas equações (5) e (9).
Exemplo 3. A Figura abaixo apresenta as faixas de amplitude para os intervalos de confiança dos
valores previsos (faixas mais estreitas) e para os intervalos de previsão dos valores individuais
(faixas mais largas) da mortalidade por grupo de 100 mil habitantes.
Em primeiro lugar, a amplitude do intervalo de previsão (para valores individuais) é superior ao

de confiança (para a média) já que, para um mesmo consumo per capita de vinho, há,
naturalmente, maior variabildiade mortalidades dos países que entre as estimativas de suas
médias.
54
Em segundo lugar, como as variâncias de Yî e Yi dependem do valor controlado de Xi, observa-
se que as amplitudes dos dois intervalos tendem a aumentar à medida que os valores controlados
de X afastam-se da médias de suas observações (3 litros per capita), o que está associado à
menor precisão para extrapolações distantes do conjunto de valores ovservados.
Exercícios
1. A partir dos gastos per capita com alimentação (Y) e a renda mensal per capita (X) em uma
amostra de 5 famílias, pede-se:
Y 52 104 122 141 166
X 254 487 615 950 1014
a. Estabeleça uma previsão, com 95% de confiança, para a despesa mensal média
das famílias com renda mensal de 1.500 reais e para possíveis valores individuais
dos gastos dessa mesma família. Interprete os resultados.
Respostas
1) a. IC(90%, E[Yi])=[229,8 ± 57,9]; IP(90%, Yi)=[229,8 ± 70,7];
55
Apêndice A – Variância do Valor Previsto

Dado um determinado valor de X, chamaremos de X * , a estimativa para o valor esperado de Y,
chamaremos de Ŷ* , será dada por:
Yˆ* = αˆ + βˆX *
A variância de Ŷ* será então dada por:
Var (Yˆ* ) = Var (αˆ + βˆX * ) = Var (αˆ ) + Var ( βˆ ) X *2 + 2Cov (αˆ , βˆX * )
Embora as variâncias de α̂ e βˆ sejam conhecidas e os valor de X * constante, conhecer o valor
da covariância entre α̂ e βˆ para dar continuidade ao desenvolvimento algébrico. Esta será dada
por:
Cov(αˆ , βˆ ) = E[αˆ − E (αˆ )][ βˆ − E ( βˆ )]
Como αˆ = Y − βˆX e E (αˆ ) = Y − XE ( βˆ ) , teremos:
Cov(αˆ , βˆ ) = E[(Y − βˆX ) − (Y − XE ( βˆ ))][ βˆ − E ( βˆ )] = − XE[ βˆ − E ( βˆ )][ βˆ − E ( βˆ )] = − XVar ( βˆ )
Dando agora continuidade ao desenvolvimento da variância de Yˆ* :
Var (Yˆ* ) = Var (αˆ ) + Var ( βˆ ) X *2 − 2 XVar ( βˆ ) X *

2 2
1 X2 X2 X X 1 X − 2X* X + X
Var (Yˆ* ) = ( + n )σ 2 + n * σ 2 − 2 n * σ 2 = ( + * n
)σ 2
n n
∑ xi2 ∑ xi2 ∑ xi2 ∑ xi2
i =1 i =1 i =1 i =1
2
1 (X − X )
Var (Yˆ* ) = [ + *n ]σ 2
n
∑ xi2
i =1
Por sua vez, a representação do valor individual Yi, dado o valor de X * , será dada por:
Yi* = αˆ + βˆX * + ei*
Como os resíduos não são relacionados aos valores previstos de Y, a variância de Yi* será dada
por:
56
2 2
1 (X − X ) 1 (X − X )
Var (Yi* ) = Var (αˆ + βˆX * ) + Var (eî* ) = [ + *n ]σ 2 + σ 2 = [ + *n + 1]σ 2
n n
∑ xi2 ∑ xi2
i =1 i =1
57
Econometria Formas Funcionais
4. Formas Funcionais
Introdução
Sabemos que o MQO limita-se ao ajuste de funções lineares, ou seja, ao ajuste de uma
reta no caso de regressão linear simples. Entretanto, há relações que, embora originalmente
sejam não lineares nas variáveis, podem ser transformadas em relações lineares por anamorfose,
ou seja, através de transformações de suas variáveis originais. Isso significa que, caso a relação
entre Y e X não seja linear, podemos encontrar transformações f(Y) e g(X) tais que as relações
entre estas funções sejam lineares. Seria o caso, por exemplo, de uma relação quadrática entre Y
e X ( Yi = α + βX i2 + ei ), que se transformaria em linear quando analisada em relação a Y e Z=X2
( Yi = α + βZ i + ei ).
A escolha da forma funcional apropriada (tipo de transformação das variáveis) dependerá

da análise prévia da relação entre os valores observados na amostra e, principalmente, do
conhecimento prévio das relações por parte do pesquisador. As formas funcionais mais
conhecidas são: i) linear; ii) log-lin; iii) lin-log; iv) log-log ou log-duplo; e v) modelo inverso.
Abordaremos apenas os quatro primeiros, que são mais frequentes em estudos econômicos.
4.1. Modelo Linear

É a forma mais simples de relação entre duas variáveis, pressupondo que Y apresente
aumentos (ou reduções) absolutos constantes segundo variações absolutas em X.
58
Yi = α + β X i + ei (1)
Como já discutido em capítulos anteriores, o intercepto α do modelo linear representa o

valor esperado de Y para valores nulos de X e o coeficiente angular β representa a variação
marginal absoluta no valor esperado de Y dada uma variação unitária em X. Isso porque, de
maneira simplificada, teríamos:
E[Y / 0] = α + β (0) = α
e
(2)
∆Y ∂Y ∂ (α + βX )
= = =β
∆X ∂X ∂X
Dizemos ainda que a inclinação do modelo linear é constante, ou seja, a variação

marginal no valor esperado de Y é a mesma para qualquer valor de X. Geometricamente, pode-se
observar pela Figura (2) que a tangente β será a mesma em qualquer ponto da reta.
Exemplo 1. Observou-se, durante 19 dias, a relação entre o total de vendas nos finais de semana
de uma sorveteria (Y, em 1.000 R$) e a temperatura média (X, em oC). Pressupondo que haja
uma relação linear de determinação entre as variáveis, o modelo ajustado foi:
Yi = −1,038 + 0,125 X i + eî
59
A estimativa do coeficiente angular sugere que, para cada aumento unitário na temperatura
média (∆X=1 oC), haja um incremento médio e constante de 125 reais nas vendas de sorvete
(∆Y=0,125×1.000 R$). O intercepto negativo não possui interpretação econômica, pois indicaria
um venda esperada negativa caso a temperatura média fosse igual a 0 oC. Este ocorre porque os
valores observados na amostra limitam-se basicamente a temperaturas entre 20 e 40º C, ficando
muito difícil prever o que ocorreria com uma temperatura igual a 0o C.
4.2. Modelo Log-Lin

Em muitas situações, pode ser irrealista acreditar que a variável Y apresente crescimentos
absolutos constantes em função de variações absolutas também constantes de X. Uma forma
característica de relação econômica acontece quando Y apresenta crescimento (ou decaimento)
exponencial em relação a variações absolutas de X. Em outras palavras, quanto maior o valor de
Y, mais rápido esta cresceria (ou mais lentamente decairia) em função de variações absolutas em
X. Esse tipo de relação pode ser dada pelo modelo log-lin, com a transformação de Y pelo seu
logaritmo natural ln(Y):
ln(Yi ) = α + β X i + ei (3)
As relações dos coeficientes com as variáveis do modelo linear, que eram dadas
diretamente com Y e X, passam, agora, a ser dadas entre ln(Y) e X:
E[ln(Y ) / 0] = α + β (0) = α
e
(4)
∆ ln(Y ) d ln(Y ) d (α + βX )
= = =β
∆X dX dX
60
Como a interpretação de variações absolutas no valor esperado de ln(Y) não é algo trivial,
a relação direta entre variações de X e Y pode ser obtida através de algumas propriedades básicas
do cálculo diferencial:
E[ln(Y ) / 0] = α ⇒ E[Y / 0] ≈ eα
e
∆ ln(Y ) ∆Y / Yi
=β ⇒ =β
∆X ∆X (5)
pois
∆ ln(Y ) 1 ∆Y
= ⇒ ∆ ln(Y ) =
∆Y Yi Yi
Isso significa que variações absolutas marginais em ln(Y), ou seja, ∆ln(Y), representam
variações relativas em Y (∆Y/Yi). Assim, o coeficiente angular β representará a variação relativa
em Y dada uma variação unitária em X, pois quando ∆X=1, teremos ∆Y/Yi=β e,
consequentemente, ∆Y=βYi.
Já a representação para o valor esperado de Y quando X é igual a zero (E[Y/0] ≈eα) deve
ser interpretada de forma aproximada. O antilogaritmo trata-se, na verdade, de uma estimativa
viesada para a esperança condicional de Y para qualquer valor condicionado de X, já que o valor
médio de ln(Y) corresponde ao log da média geométrica de Y e não de sua média aritmética.
Exemplo 2. Uma amostra ofereceu informações sobre a renda mensal (Y, em R$) e anos
completos de escolaridade (X) de 94 ocupados do estado de São Paulo em 2007. Acredita-se que
a renda cresça exponencialmente com os anos de escolaridade, ou seja, acréscimos absolutos nos
anos de escolaridade implicariam em variações absolutas maiores no rendimento médio para
aqueles com escolaridade mais elevada: A relação estabelecida seria dada por:
61
ln(Yi ) = 6,006 + 0,121X i + eî
Assim, o coeficiente angular sugere que, para cada ano adicional de escolaridade (∆X=1), haja
um incremento médio relativo constante de 12,1% no rendimento do trabalho (∆Y=0,121Yi).
Espera-se ainda que o rendimento daqueles sem escolaridade (X=0) seja de aproximadamente
406 reais (e6,006)16.
4.3. Modelo Lin-Log

Da mesma forma que o modelo log-lin supõe variações relativas em Y dadas variações
absolutas em X, podemos estabelecer o modelo lin-log pressupondo que Y apresente variações
absolutas constantes dadas variações relativas em X. Nesse caso teríamos:
Yi = α + β ln( X i ) + ei (6)
As relações seriam, então, dadas entre Y e ln(X):
16
Lembre-se que se trata de uma estimativa viesada do valor esperado de Y.
62
∆Y dY d [α + β ln( X )]
= = =β (7)
∆ ln( X ) d ln( X ) d ln( X )
Cabe agora compreender a relação entre variações em ln(X) e variações em X, o que pode
ser feito através de desenvolvimento análogo ao realizado para os coeficientes do modelo log-lin:
∆Y ∆Y
=β ⇒ =β
∆ ln( X ) ∆X / X i
pois (8)
∆ ln( X ) 1 ∆X
= ⇒ ∆ ln( X ) =
∆X Xi Xi
Isso significa que variações absolutas em ln(X), ou seja, ∆ln(X), representam variações
relativas em X (∆X/Xi). Assim, o coeficiente angular β representará variações absolutas em Y
(∆Y) dada uma variação relativa de 100% em X (∆X/Xi=1=100%). Como o cálculo diferencial
considera apenas variações infinitesimais das variáveis, não seria conveniente considerar 100%
de variação em X como uma variação marginal. Assim, em modelos lin-log, é sempre
recomendado considerar que uma variação de 1% em X causará um impacto de β/100 em Y (ou
seja, dividir os dois lados da relação por 100).
Exemplo 3. Para analisar a relação entre a jornada de trabalho (X, em h) e o rendimento hora do
trabalho (X, em R$/h) observou-se uma amostra de 92 ocupados com rendimentos positivos do
estado de São Paulo no ano de 2007. Pressupõe-se que o aumento da renda tenha um efeito
positivo sobre a jornada de trabalho, já que o custo do lazer tornar-se-ia relativamente mais caro
para rendimentos mais elevados. Entretanto, essa relação não seria linear, já que à medida que a
renda cresça indefinidamente, esperam-se variações cada vez mais tênues sobre a jornada de
63
trabalho, já que reduziria, ao mesmo tempo, a disposição a trabalhos adicionais. O modelo

proposto é o lin-log:
Yi = 30,799 + 4,790 ln (X i ) + eî
Assim, a princípio, o coeficiente angular sugeriria que, para cada variação relativa de 100% no
rendimento do trabalho (∆ln(X)=1), haveria um acréscimo médio de 4,79 horas na jornada
semana de trabalho. Entretanto, como um incremento de 100% no rendimento não pode ser
considerado uma variação marginal, o correto seria afirmar que, para cada variação relativa de
1% no rendimento hora do trabalho, espera-se um incremento absoluto de 0,0490 horas (2,87
minutos) na jornada de trabalho do ocupado.
4.4. Modelo Log-Log

Um modelo particularmente útil em análises econômicas é o log-log, ou log-duplo. Este
assume que variações relativas em X implicarão em variações relativas constantes em Y e será
representado por:
Yi = φX iβ e ei
ou, com α=ln(φ): (9)
ln(Yi ) = α + β ln( X i ) + ei
As relações dos coeficientes seriam, então, dadas com ln(Y) e ln(X):
64
E[ln(Y ) / ln( X ) = 0] = α + β (0) = α

e
(10)
∆ ln(Y ) d ln(Y ) d [α + β ln( X )]
= = =β
∆ ln( X ) d ln( X ) d ln( X )
Como, de (5) e (8), sabemos que variações absolutas em ln(X) e ln(Y) representam,
respectivamente, variações relativas em X e Y, o coeficiente angular β representará as variações
relativas em Y (∆Y/Yi) dada uma variação relativa de 100% em X (∆X/Xi=1). Entretanto, por
conveniência analítica, a interpretação correta é que, dada uma variação de 1% em X, espera-se
uma variação de (β/100)% em Y.
∆ ln(Y ) ∆Y / Yi
=β ⇒ =β
∆ ln( X ) ∆X / X i (11)
A conveniência do modelo log-log é que seu coeficiente β é uma medida constante da

elasticidade de Y em relação a X, ou seja, considera que as variações relativas em Y dadas
variações relativas em X sejam as mesmas para quaisquer valores de Xi e Yi.
Exemplo 4. Obteve-se uma amostra de 94 municípios brasileiros para analisar a relação entre a
taxa de visitação a um parque nacional (Y, em visitas/1000 habitantes) e o custo de viagem para
uma pessoa se deslocar do município de residência ao parque (X, em R$). Espera-se que haja
uma elasticidade constante entre taxa de visitação e custo de viagem, ou seja, incrementos
percentuais no custo de viagem gerariam reduções percentuais na taxa de visitação.
65
ln(Yi ) = 13,492 − 2,049 ln( X i ) + eî
O coeficiente angular sugere uma demanda relativamente elástica às variações no custo de

viagem. Para cada aumento de percentual no custo de viagem, espera-se uma redução média
2,05% na taxa de visitação.
Exercícios
Y 52 104 122 141 166
X 254 487 615 950 1014
a. As estimativas para os coeficientes do modelo: ln(Y)=α + β ln(X) + e. Interprete os
resultados
b. As estimativas são significativas?
c. Qual a despesa esperada para uma família com renda equivalente a 1.000 reais?
2. Uma amostra de 4 anos forneceu os seguintes dados sobre a emissão de CO2 (Y, em ton) e
PIB (X, em bilhões de US$ correntes):
Y 5 7 9 10
X 10 12 14 16
Suponha ainda que a relação entre as variáveis seja dada por ln(Y)=α + β X + e. Pede-se:
a. Estime e interprete os coeficientes do modelo por MQO.
b. Calcule e interprete a significância dos coeficientes estimados.
Utilize a seguinte tabela de conversão dos valores:
66
Z 5 7 9 10 12 14 16
ln(Z) 1,6 1,9 2,2 2,3 2,5 2,6 2,8
Respostas
1) a. αˆ = −0,279 ; αˆ = 0,779 ; b. α: p=0,688; β: p=0,004; c. Yˆ = 163,9 .
2) a. αˆ = 0,44 ; βˆ = 0,12 ; b. α: t=1,926; p=0,194; β: t=6,928; p=0,020
67
Econometria Análise de Variância
3. Análise de Variância
Introdução
Um bom modelo de regressão é aquele capaz de explicar em grande medida o
comportamento da variável dependente Y. Portanto, para avaliar a qualidade de um ajuste, nada
mais natural que medir a parcela do comportamento de Y explicada pela variável explanatória X,
comparando-a com a associada aos resíduos do ajuste.
Passo fundamental para esse tipo de análise foi dado por Ronald Fisher em 1925, com a
publicação do livro intitulado “Statistical Methods for Research Workers”. Para muitos, a obra
mais influente da estatística moderna. Fisher desenvolveu o conceito de Análise de Variância, na
qual o comportamento de um resultado de interesse pode ser dividido entre aquele devido a
fatores controlados e aquele devido a fatores não controlados.
Para entender como o conceito de Análise de Variância pode ser aplicado à RLS, serão
apresentadas algumas medidas simples e intuitivas de análise do comportamento de uma variável
para, ao final, sistematizar os resultados na Análise de Variância.
5.1. Soma dos Quadrados

Na análise de regressão, a diversidade de valores assumidos por Y é representada por sua
variabilidade total. Esta variabilidade pode ainda ser decomposta em duas parcelas: i) uma
parcela que pode ser explicada pelo comportamento de X; ii) uma parcela não explicada por X,
que estará associada aos erros do modelo de regressão e se deve ao conjunto de fatores não
controlados que também influenciam Y além de X.
Graficamente, o que a reta de regressão explica do comportamento de Y seria uma
medida da variabilidade de Y explicada por X, enquanto que os erros de previsão, distâncias dos
pontos observados à reta, representariam a variabilidade de Y não explicada por X.
68
(1)
A medida estatística da variabilidade total de Y é dada pela Soma Total dos Quadrados
(STQ) e será calculada pela distância quadrática total dos valores de Y em relação à média
aritmética Y . Em outras palavras:
n
STQ = ∑ (Yi − Y )2 (2)
i =1
Graficamente, a STQ representa a soma das distâncias quadráticas de cada valor

observado de Y em relação à sua média aritmética, desconsiderando a existência da linha de
regressão.
(3)
Não é difícil demonstrar que a STQ pode ser decomposta em dois fatores principais: um
associado aos desvios dos valores previstos do modelo em relação à média de Y, ou seja, ŷi , e
outro associado aos resíduos do modelo êi .

n n n
STQ = ∑ yi2 = ∑ ( yˆ i + eî ) 2 = ∑ ( yˆ i + eî ) 2
i =1 i =1 i =1
(4)
n n n n n
STQ = ∑ yˆ + 2∑ yˆ i eî + ∑ eˆ = ∑ yˆ + ∑ eˆ
2
i
2
i i
2 2
i
i =1 i =1 i =1 i =1 i =1
69
Lembrando, a partir das propriedades dos estimadores de MQO, que os valores previstos
n
de Y não estão associados aos resíduos de MQO ( ∑ yˆ i eî = 0 ).
i =1
O primeiro fator dessa variabilidade total, ou distância quadrática total, corresponde à

variabilidade explicada pela reta de regressão. Assim, a variabilidade de Y explicada por X será
medida pela soma das distâncias quadráticas entre os valores previstos ( Ŷi ) e a média aritmética
de Y ( Y ). Em outras palavras, a Soma dos Quadrados da Regressão (SQReg) será dada por:
n n
SQ Re g = ∑ yˆ i2 = ∑ (Yî − Y )2 (5)
i =1 i =1
Graficamente, a SQReg representa a soma das distâncias quadráticas dos pontos da reta
em relação à média aritmética.
(6)
A parcela da variabilidade de Y não explicada por X será medida pela Soma dos
Quadrados dos Resíduos (SQRes). Como o próprio nome diz, a SQRes será dada pela soma
quadrática dos resíduos (Yi Ŷi ) ou, em outras palavras:
n n
SQ Re s = ∑ eî2 = ∑ (Yi − Yî )2 (7)
i =1 i =1
Graficamente, a SQRes representa a soma das distâncias quadráticas dos valores

observados (Yi) em relação à reta de regressão ( Ŷi ).
70
(8)
Através de desenvolvimento algébrico, pode-se ainda chegar às seguintes expressões para

as somas dos quadrados, úteis conforme a conveniência operacional:
n n
STQ = ∑ (Yi − Y )2 = ∑ yi2 (9)
i =1 i =1
n n n
SQ Re g = ∑ (Yî − Y )2 = βˆ 2 ∑ xi = βˆ ∑ xi y i
2
(10)
i =1 i =1 i =1
n n n n
SQ Re s = ∑ (Yi − Yî )2 = ∑ eî = ∑ yi2 − βˆ ∑ xi yi
2
(11)
i =1 i =1 i =1 i =1
Exemplo 1. Seja a relação entre consumo mensal de energia (Y, em kWh) e total de horas que o
ar condicionado permaneceu ligado (X, em h). Os valores observados para uma amostra de 21
domicílios foram:
kWh AC kWh AC
i i
(Y) (X) (Y) (X)
1 35 1,5 12 77 7,5
2 17 2,0 13 62 7,5
3 57 2,5 14 65 7,5
4 63 4,5 15 66 8,0
5 66 5,0 16 65 8,0
6 33 5,0 17 75 8,0
7 79 6,0 18 94 8,5
8 43 6,0 19 85 12,0
9 33 6,0 20 94 12,5
10 78 6,5 21 93 13,5 Yi = 27,85 + 5,34 X i + eî
11 82 7,5
A variabilidade total do consumo mensal de energia será dada por:
71
STQ = (35 − 64,9) 2 + ... + (93 − 64,9) 2 = 9578,6

A variabilidade de Y explicada pelo ajuste será dada por:
SQReg = (35,9 − 64,9) 2 + ... + (100,0 − 64,9) 2 = 5609,7

Lembrando que:
Yˆ1 = 27,85 + 5,34(1,5) = 35,9

…
Yˆ21 = 27,85 + 5,34(13,5) = 100,0
E, finalmente, a variabilidade não explicada pelo ajuste será dada por:
SQRes = (35 − 35,9) 2 + ... + (93 − 100,0) 2 = 3968,9

De onde temos a igualdade:
STQ = SQReg + SQRes = 5609,7 + 3968,9 = 9578,6
5.2. Coeficiente de Determinação

Um bom modelo de regressão é aquele que ajuda a explicar em grande medida a
variabilidade de Y. Por outro lado, valores elevados para os resíduos significariam um ajuste de
baixa qualidade. Assim, uma interpretação intuitiva das somas dos quadrados é que, quanto
maior a SQReg em relação à SQRes, maior a variabilidade explicada pelo modelo e,
consequentemente, melhor a qualidade do ajuste. Por outro lado, quando X não explica
significativamente Y, a SQRes (variabilidade não explicada pela variável explanatória)
representará a maior parcela da variabilidade total de Y.
72
Dessa análise pode-se extrair uma medida simples e muito útil de qualidade do ajuste, o
coeficiente de determinação (R2). O R2 estima a proporção da variabilidade da variável
dependente que é explicada pela variável independente do modelo de regressão. Em outras
palavras:
n n
SQ Re g ∑ yˆ i2 ∑ (Yˆ i − Y )2
R2 = = i =1
n
= i =1
n (12)
STQ
∑yi =1
2
i ∑ (Y
i =1
i −Y ) 2
Conforme a conveniência operacional, o R2 pode ainda ser calculado por:

n n
∑ eî2 ∑ xi2
R2 = 1− i =1
n
= βˆ 2 i =1
n
(13)
∑ yi2 ∑ yi2
i =1 i =1
2
O R assumirá valores entre zero, quando a variabilidade explicada pelo modelo for nula,
e um, quando 100% da variabilidade total for explicada pelo modelo.
(14)
Como o coeficiente de correlação, o R2 é uma medida de relação linear. Assim, embora

variáveis independentes apresentem R2 nulo ou próximo de zero, a recíproca não é
necessariamente verdadeira, já que a relação entre Y e X pode ser não linear.
73
Outra precaução em relação à análise do R2 refere-se ao fato de valores baixos para esta
estatística não necessariamente significar um ajuste insatisfatório. Algumas variáveis, como, por
exemplo, a riqueza de uma pessoa, são muito difíceis de serem determinadas quantitativamente e
mesmo uma baixa contribuição de um fator explanatório pode nos dar uma importante fonte de
informação.
Exemplo 2. Calculadas as somas dos quadrados para o consumo de energia, o R2 será facilmente
obtido por:
9578,6
R2 = = 0,586
5609,7
Em outras palavras, 58,6% da variabilidade do consumo de energia elétrica é explicada pelo total
de horas que o ar condicionado permanece ligado. Os demais 41,4% seriam determinados por
outros equipamentos ou mesmo por diferenças entre os ar condicionados.
5.3. Análise de Variância (ANOVA)

Uma questão que surge da interpretação do R2 é: quando este pode ser considerado
significativo? Em outras palavras, dada a variabilidade presente na amostra, o valor observado de
R2 pode ser considerado estatisticamente diferente de zero?
A análise de variância (ANOVA, de Analysi of Variance) responde essa questão
realizando um teste de significância para as somas dos quadrados do ajuste de MQO. A
estatística de teste utilizada é a F, a qual, por definição, pode ser obtida a partir da razão entre
dois quadrados médios (variâncias amostrais).
Ponderando a SQReg e a SQRes pelos seus respectivos graus de liberdade, teremos as
medidas de seus respectivos quadrad os médios. Assim, a estatística F do teste da ANOVA será
dada por:
SQ Re g / 1
F= ~ F1,n− 2 (15)
SQ Re s /(n − 2)
Conforme observado anteriormente, os graus de liberdade dos resíduos são dados
por n − 2 , já que duas restrições são impostas ao resultado da SQRes. Em outras palavras,
sabemos, pela equação (11), que há dois parâmetros necessários ao cálculo da SQRes, α e β.
Assim, no caso da SQRes, teríamos n − 2 observações da amostra variando aleatoriamente e duas
74
observações com valores fixos para chegarmos às igualdades necessárias às estimativas dos
parâmetros α e β. A SQReg, por sua vez, possui apenas 1 grau de liberdade já que, de acordo
com a equação (10), apenas o estimador de β apresentaria variabilidade em função da amostra
(lembre-se que os valores de Xi são considerados fixos). A estatística F seguirá, portanto, uma
distribuição F com 1 grau de liberdade no numerador e n − 2 graus de liberdade no
denominador.
A razão da SQReg pelos seus respectivos graus de liberdade é chamada de Quadrado
Médio da Regressão e representa uma medida de variabilidade quadrática média explicada pelo
modelo. Por sua vez, a razão da SQRes pelos seus respectivos graus de liberdade é chamada de
Quadrado Médio dos Resíduos, que é igual à variância da regressão (σˆ 2 ) .
Sob a hipótese nula de que o modelo não contribui para explicar o comportamento de Y,
espera-se que a SQReg seja mínima e a SQRes seja máxima, fazendo com que a estatística F
apresente valores baixos. O valor esperado da estatística F na hipótese de contribuição nula do
modelo será igual a 1, como é demonstrado no Apêndice A.
À medida que o modelo contribua significativamente para explicar o comportamento de
Y, a SQReg tende a ser máxima e a SQRes mínima, fazendo com que a estatística F apresente
valores elevados. Assim, quão maior o valor da estatística F, mais evidências teremos para
rejeitar a hipótese nula de que o modelo não contribui para explicar o comportamento de Y. O
valor p será a medida da probabilidade de erro que estaremos sujeitos caso rejeitássemos H0, ou
seja, caso afirmássemos que o modelo contribui para explicar a variabilidade de Y.
(15)
Perceba ainda que, no caso da RLS, testar a hipótese nula de que o modelo não contribui
para explicar a variabilidade de Y é a mesma coisa que testar se o coeficiente associado à
variável X (β) é igual a zero. Isso porque, como só há uma variável independente no modelo,
caso β seja nulo significa que a melhor previsão para Y seria sua média aritmética, fazendo com
que SQT seja igual à SQRes.
Uma síntese dos resultados é dada pela Tabela ANOVA:
75
(15)
Exemplo 3. A Tabela ANOVA sistematizando os resultados obtidos na análise de variabilidade

do consumo de energia será dada por:
Soma dos Quadrados

Fonte gl F
Quadrados Médios
Regessão 1 5609,7 5609,7 26,9
Resíduos 19 3968,9 208,9
Total 20 9578,6
A estatítsica F obtida pela razão entre os quadrados médios terá 1 grau de liberdade no
numerador e 19 no denominador. Assim, a probabiliade de erro associada à estimativa obtida
será praticamente nula.
Em outras palavras, pode-se afirmar que o modelo ou, no caso, as horas de ar condicionado
ligado, contribua significativamente para explicar a variabilidade do consumo de energia. A
probabilidade de errro ao fazermos tal afirmação é praticamente nula.
Exercícios
76
Y 52 104 122 141 166

X 254 487 615 950 1014
a. Calcule SQReg, SQRes e STQ.

b. Calcule e interprete o coeficiente de determinação.
c. Construa a tabela ANOVA.
d. Interprete o valor p obtido no teste F da tabela ANOVA.
Respostas
1) a. SQReg=6843,7; SQRes=552,3; STQ=7396; b. R2=0,925; d. p=0,009.
77
Apêndice A – Valor Esperado das Somas dos Quadrados

Vamos demonstrar que o valor esperado da estatística F para a análise de variância é igual a 1.
Primeiro, seja a estatística F:
SQ Re g 1
F=
SQ Re g (n − 2)
Então, devemos demonstrar que E ( F ) = 1 ou E ([ SQ Re g 1] = E[ SQ Re g ( n − 2)]

Comecemos pela esperança da SQReg. Temos que:
n
n n
( ∑ xi y i ) 2
SQ Re g = βˆ 2 ∑ xi 2 = βˆ ∑ xi yi = i =1
n
i =1 i =1
∑ xi 2
i =1
Podemos substituir yi por βxi + ei − e , pois:
y i = Yi − Y = (α + β X i + ei ) − (α + β X + e ) = β ( X i − X ) + ei − e = βxi + ei − e
Continuando o desenvolvimento da SQReg, teremos então:
n n n n n n
[∑ xi ( βˆxi + ei − e )] 2 ( βˆ ∑ xi2 + ∑ xi ei − e ∑ xi ) 2 ( βˆ ∑ xi2 + ∑ xi ei ) 2
i =1 i =1 i =1 i =1 i =1 i =1
SQ Re g = n
= n
= n
∑ xi2 ∑ xi2 ∑ xi2
i =1 i =1 i =1
n n n n
βˆ 2 (∑ xi2 ) 2 + 2βˆ ∑ xi2 ∑ xi ei + (∑ xi ei ) 2
i =1 i =1 i =1 i =1
SQ Re g = n
∑ xi2
i =1
Pressupondo que os erros sejam não correlacionados aos valores de X (Σxiei=0) teremos:
n n n n n
βˆ 2 (∑ xi2 ) 2 + 2βˆ ∑ xi2 ∑ xi ei + (∑ xi ei ) 2 n ∑ xi2 ei2
SQ Re g = i =1 i =1
n
i =1 i =1
= βˆ 2 ∑ xi2 + i =1
n
∑ xi2 i =1
∑ xi2
i =1 i =1
Pressupondo agora os valores de X fixos e variância constante para os erros – E (ei2 ) = σ 2 -

teremos:
78
n
σ 2 ∑ xi2 n
E ( SQ Re g ) = β 2 ∑ xi2 + n
i =1
= β 2 ∑ xi2 + σ 2
i =1
∑ xi2 i =1
i =1
Procedimentos análogos devem agora ser realizados para a STQ (a SQRes será obtida a partir da
diferença entre STQ e SQReg):
n n n
STQ = ∑ yi2 = ∑ ( βxi + ei − e ) 2 = ∑ [ β 2 xi2 + 2 xi (ei − e ) + (ei − e ) 2 ]
i =1 i =1 i =1
n n n n n n n
STQ = β 2 ∑ xi2 + 2∑ xi ei − 2e ∑ xi + ∑ (ei − e ) 2 = β 2 ∑ xi2 + 2∑ xi ei + ∑ (ei − e ) 2
i =1 i =1 i =1 i =1 i =1 i =1 i =1
n
O último termo da expressão - ∑ (ei − e ) 2 - pode ainda ser dado por:
i =1
n n n n n n
∑ (ei − e ) 2 = ∑ ei2 − 2e ∑ ei + ∑ e 2 = ∑ ei2 − 2e ∑ ei + ne 2
i =1 i =1 i =1 i =1 i =1 i =1
2
n n  n n  n  n n n
∑ (ei − e ) 2
=∑ ei2 − 2 ∑ ei n ∑ ei + n ∑ ei n  = ∑ ei2 − 2 (∑ ei ) 2 n + (∑ ei ) 2 n
i =1 i =1  i =1  i =1  i =1  i =1 i =1 i =1
n n n
∑ (ei − e ) 2 = ∑ ei2 − (∑ ei ) 2 n
i =1 i =1 i =1
Voltando agora ao desenvolvimento da STQ, teremos:

n n n n
STQ = β 2 ∑ xi2 + 2∑ xi ei + ∑ ei2 − (∑ ei ) 2 n
i =1 i =1 i =1 i =1
E o valor esperado dado por:

n n n n
E ( STQ) = β 2
∑ xi2 + 2 E (∑ xi ei ) + E (∑ ei2 ) − E[(∑ ei ) 2 n]
i =1 i =1 i =1 i =1
Pressupondo que os valores de X sejam não correlacionados aos erros e a variância dos erros
seja constante, teremos:
n n
E ( STQ) = β 2 ∑ xi2 + nσ 2 − nσ 2 n = β 2 ∑ xi2 + (n − 1)σ 2
i =1 i =1
Definidos os valores esperados para SQReg e STQ, calculamos agora para a SQRes:
79
n n
E ( SQ Re s ) = E ( STQ) − E ( SQ Re g ) = [ β 2 ∑ xi2 + (n − 1)σ 2 ] − [ β 2 ∑ xi2 + σ 2 ]
i =1 i =1
E ( SQ Re s) = (n − 2)σ 2
Finalmente, teremos o valor esperado para a estatística F:
n
β 2 ∑ xi2 + σ 2
SQ Re g 1 i =1
E ( F ) = E[ ]=
SQ Re g ( n − 2) σ2
Caso o valor de β seja zero (hipótese nula do teste F para a Análise de Variância), teremos:
σ2
E ( F | β = 0) = =1
σ2
80
PARTE II
Regressão Linear Múltipla
81
Econometria Regressão Linear Múltipla
4. Introdução à Regressão Linear Múltipla
Introdução
Embora a regressão com apenas uma variável independente seja operacionalmente
simples e muito útil para compreendermos conceitos e cálculos, acaba, na prática, sendo pouco
utilizada, já que mais de um fator explanatório costuma afetar o comportamento de uma variável
dependente. Ademais, como a presença nos erros de fatores relacionados à variável independente
tende a viesar as relações de causa e efeito, o ideal seria também controlá-los como regressores
adicionais em nosso modelo. O modelo de regressão linear com mais de uma variável
independente é chamado de regressão linear múltipla (RLM).
O conceito de regressão múltipla foi introduzido por Karl Pearson em 1908 e vem sendo
constantemente aperfeiçoado. O MQO também pode ser utilizado para obter seus estimadores, os
quais apresentam procedimentos de cálculos e propriedades muito semelhantes àquelas da RLS.
Embora os cálculos possam se tornar complexos, o emprego da álgebra matricial pode facilitar
seu desenvolvimento.
Uma das grandes virtudes da RLM é permitir a análise do efeito isolado de fatores
explanatórios sobre a variável dependente. Em outras palavras, permite, por exemplo, verificar o
impacto da variação do preço sobre as vendas de uma mercadoria, desde que os preços de seus
substitutos não se alterem. Apresentaremos, neste capítulo, os principais conceitos que envolvem
a RLM, assim como o cálculo de seus estimadores pelo método de MQO.
6.1. Estimadores de MQO

Para compreender o conceito de regressão linear múltipla (RLM), vamos inicialmente
comparar um modelo com uma variável independente (RLS) a outro com duas variáveis
independentes (RLM). No modelo de RLS pressupomos que o comportamento de Y seja
linearmente determinado por uma única variável X. No caso da RLM com 2 variáveis
independentes, pressupomos que o comportamento de Y seja linearmente determinado por X1 e
X2. Geometricamente, teríamos uma reta representando o ajuste de RLS e uma superfície plana
representando o ajuste de RLM:
82
. (1)
Yi = α + β X i + ei Yi = α + β1 X 1i + β 2 X 2i + ei
Em ambas as situações, o MQO pode ser empregado para obter os estimadores que
minimizam o erro quadrático total (EQT), ou seja, a soma dos quadrados dos erros de previsão.
No caso da RLS, o EQT será função das estimativas de α e β , pois:
EQT (αˆ , βˆ ) = ∑ eî2 = ∑ [Yi − (αˆ + βˆX i )]2 (2)

Já no caso da RLM, o EQT dependerá das estimativas de α, β1 e β2:
EQT (αˆ , βˆ1 , βˆ2 ) = ∑ eî2 = ∑ [Yi − (αˆ + βˆ1 X 1i + βˆ2 X 2i )]2 (3)
Aplicando-se os conceitos de cálculo diferencial, sabemos que os parâmetros que
minimizam a função de EQT são aqueles em que as respectivas derivadas parciais igualam-se a
zero. No caso da função de EQT para a RLS (2), os estimadores de α e β seriam dados por:
∂EQT
= 0 ⇒ αˆ = Y − βˆX
∂αˆ
(4)
∂EQT
= 0 ⇒ βˆ =
∑ xi yi
∂βˆ ∑ xi2
E, no caso da funçao de EQT para a RLM (3), teríamos os seguintes estimadores de
MQO:
∂EQT
= 0 ⇒ αˆ = Y − βˆ1 X 1 − βˆ2 X 2
∂αˆ
∂EQT (∑ yi x1i )(∑ x22i ) − (∑ yi x2i )(∑ x1i x2i )
= 0 ⇒ βˆ1 = (5)
∂βˆ 1 (∑ x12i )(∑ x22i ) − (∑ x1i x2i ) 2
∂EQT (∑ yi x2i )(∑ x12i ) − (∑ yi x1i )(∑ x1i x2i )

= 0 ⇒ βˆ2 =
∂βˆ 2 (∑ x 2 )(∑ x 2 ) − (∑ x x ) 2
1i 2i 1i 2i
83
Em outras palavras, os estimadores obtidos em (4) são aqueles que minimizam o EQT do
modelo de RLS proposto em (1) e os estimadores obtidos em (5) são aqueles que minimizam o
EQT do modelo de RLM proposto também em (1).
Para interpretar os coeficientes dos modelos de RLS e RLM, podemos desenvolver
alguns simples exercícios matemáticos. No caso do modelo de RLS, α representará o valor
esperado de Y quando X for nulo e β representará a variação marginal esperada em Y dada uma
variação unitária em X. Isso porque:
E[Y / X = 0] = α
∂Y (6)
=β
∂X
A partir de desenvolvimento análogo chegamos às interpretações dos parâmetros do
modelo de RLM (equações 7). Neste caso, destaca-se o fato de as derivadas parciais
representarem as relações entre as variações marginais de duas variáveis mantendo-se as demais
constantes. Assim, α representará o valor esperado de Y quando ambos X1 e X2 forem nulos; β1
será a variação marginal esperada em Y dada uma variação unitária em X1, mantendo-se X2
constante; e β2 será a variação marginal esperada em Y dada uma variação unitária em X2,
mantendo-se X2 constante.
E[Y / X 1 = 0, X 2 = 0] = α
∂Y
= β1
∂X 2 (7)
∂Y
= β2
∂X 2
Como as derivadas parciais (β1 e β2) são constantes, dizemos ainda que a variação
marginal esperada em Y dada, por exemplo, uma variação unitária em X1 será independente do
valor de X2 e vice-versa17. Graficamente, podemos observar que a inclinação do plano em (1) é a
mesma para todos os valores de X1 e X2.
17
Nem sempre a variação marginal em Y será independente dos valores dos regressores. Por exemplo, no modelo
Y = α + β1 X 1 + β 2 X 12 + e , a variação marginal em Y será função do valor de X1, ou seja, ∂Y ∂X 1 = β1 + 2β 2 X 1
84
O modelo de RLM com duas variáveis independentes pode ser extrapolado para um
conjunto de k variáveis independentes. Genericamente, um modelo de regressão linear múltipla
com k variáveis independentes e p (p=k+1) parâmetros será dado por:
Yi = α + β1 X 1i + β1 X 2i + ... + β k X ki + ei (8)
Onde:
α é o valor esperado de Y quando todos as variáveis independentes forem nulas;
βk é a variação esperada em Y dado um incremento unitário em Xk, mantendo-se
constantes todas as demais variáveis independentes;
ei é o erro não explicado pelo modelo.
Exemplo 1. Suponha dois modelos para prever o consumo de energia elétrica de domicílios
(Kwh):
Kwhi = α + βACi + ei Kwhi = α + β1 ACi + β 2 SECi + ei
O primeiro caso pressupõe que o consumo de energia seja unicamente determinado pelas horas
de ar condicionado ligado (AC). Nesse caso, α indicaria o consumo de energia esperado para
uma residência em que o ar condicionao permaneça desligado e β indicaria o consumo de
energia adicional esperado para cada hora adicional com ar condicionado ligado.
No segundo, pressupõe-se que o consumo de energia seja conjuntamente determinado por uma
função linear das horas de ar condicionado e secadora (SEC) ligados. Neste caso, α indicaria o
consumo esperado de energia quando ambos ar condicionado e secadora permaneçam
desligados. O coeficiente β1 indicaria o aumento no consumo esperado de energia para cada hora
adicional com ar condicionado ligado, mantendo-se constante o tempo de uso da secadora.
Analogamente, o coeficiente β2 indicaria o efeito isolado de uma hora adicional com a secadora
ligada sobre o consumo esperado de energia.
6.2. Estimadores de MQO a partir de notação matricial

Os cálculos utilizados para obter os estimadores de MQO em (4) e (5) podem tornar-se
demasiadamente complexos à medida que novas variáveis independentes sejam incorporadas no
modelo de RLM. Para simplificar esse processo, trabalha-se com a notação matricial,
representando as equações lineares a partir de funções matriciais.
85
Para compreender esse processo, suponha inicialmente um modelo de RLS com sua
equivalente representação matricial:
Yi = α + β X i + ei y = Xβ + e
ou ou
Y1 = α + βX 1 + e1  Y1  1   X 1   e1   Y1  1 X1   e1 
              (9)
Y2 = α + βX 2 + e2  Y2  1   X 2   e2   Y2  1 X 2  α   e2 
 ...  = α  ... + β  ...  +  ...  ⇒  ...  =  ...  +
... ...  β   ... 
             
Y  1   X  e   Y  1 X n  e 
Yn = α + βX n + en  n    n  n  n   n
A partir da função linear em (9), sabemos que, para obter os estimadores de MQO,
devemos minimizar sua função de EQT (equações 2 e 4). Analogamente, podemos também
derivar a expressão matricial obtida em (9) para obter a notação matricial dos estimadores de
MQO. Neste caso, a função de EQT será expressa por:
EQT = eˆ T eˆ (10)
Onde
eˆ = y − yˆ
yˆ = Xβˆ
(11)
 αˆ 
β̂ =  
ˆ
β 
Aplicando cálculo diferencial em funções matriciais chegaremos ao vetor de estimadores
que minimiza a função EQT (o desenvolvimento desta derivada é apresentado no Apêndice A):
∂EQT
= 0 ⇒ βˆ = ( X T X) −1 ( X T y ) (12)
ˆ
∂β
A grande vantagem da expressão matricial para o cálculo dos estimadores de α e β, no
caso, do vetor coluna β̂ , é que este é indiferente ao número de variáveis. Assim, para o caso do
modelo de regressão múltipla com k variáveis independentes e p coeficientes teríamos:
86
Yi = α + β1 X 1 + β 2 X 2 + ... + β k X k + ei
ou
Y1 = α + β1 X 11 + β 2 X 21 + ... + β k X k1 + e1
(13)
Y2 = α + β1 X 12 + β 2 X 22 + ... + β k X k2 + e2
...
Yn = α + β1 X 1n + β 2 X 2n + ... + β k X kn + en
Com a equivalente representação matricial:
y = Xβ + e
ou
(14)
Sendo que o vetor de estimadores de MQO continua sendo dado por (12).
Importante ainda destacar que as pressuposições do modelo de regressão linear múltipla
para que os estimadores de MQO sejam os MELNV são muito semelhantes às do modelo
simples:
1. A v.a. Yi é uma função linear das variáveis explanatórias (Xij, j=1..k);
2. Os valores de Xj são fixos (controlados) em repetidas amostras;
3. Esperança condicional dos erros igual a zero, ou seja, E(ei)=0;
4. Os erros são homocedásticos, ou seja, E( ei2 )=σ2;
5. Os erros são não-correlacionados, ou seja, E(eiej)=0, para i≠j;

E, para que tenhamos um modelo clássico de regressão linear (MCRL), devemos ainda
considerar que:
6. Os erros estão normalmente distribuídos;
Combinando os pressupostos 4 e 5 teremos, em representação matricial:
87
 e12 e1e2 ... e1en  σ 2 0 ... 0

   
e e e22 ... e2 en   σ 2
... 0
E (ee T ) = E  2 1 = = Iσ 2 (15)
 ... ... ... ...   ... ... ... ... 
   
en e1 e n e2 ... en2   0 0 ... σ 2 
Em outras palavras, a matriz de variâncias e covariâncias será uma matriz escalar, com
constantes (σ2) na diagonal principal, que representa a variância para cada ponto observação i, e
valores nulos nas partes superior e inferior da matriz, que representam as covariâncias entre ei e
ej.
É importante também destacar que, caso o pressuposto 6 sejá válido (normalidade dos
erros) e tenhamos um MCRL, os estimadores de MQO terão variância mínima entre quaisquer
estimadores não viesados de β j, não apenas entre os estimadores lineares.
Exemplo 2. Em uma amostra de 4 ocupados, observaram-se o rendimento do trabalho em

número de salários mínimos (Y, em SM), anos de estudo (X1) e idade (X2) da pessoa de referência
na família.
Y (Renda) 4 6 8 6
X1 (Anos Estudo) 5 10 15 0
X2 (Idade) 21 30 40 50
Supõe-se que a relação entre as variáveis seja dada por:
Yi = α + β1 X 1i + β 2 X 2i + ei
Que, a partir da notação matricial, nos daria:
y = Xβˆ + eˆ
ou
Aplicando MQO para obter o vetor com os estimadores de β, teríamos:
βˆ = ( X T X) −1 ( X T y )
88
−1
  1 5 21    4 
 1 1 1 1    1 1 1 1  
  1 10 30    6 
βˆ =  5 10 15 0   5 10 15 0  

  1 15 40   8

 21 30 40 50  
   21 30 40 50  
  1 0 50    6 
−1
 4 30 141   24   0,829 
     
ˆ
β =  30 350 1005   200  =  0,203 
 141 1005 5441   884   0,103 
     
Assim, o ajuste de MQO seria dado por:
Yi = 0,829 + 0,203X 1i + 0,103X 2i + ei
Em outras palavras, espera-se, para cada ano adicional de estudo do ocupado, um aumento de
0,203 SM na renda do trabalho, mantendo-se constante a idade da pessoa. E, para cada ano de
idade adicional, espera-se um aumento de 0,103 SM na renda, independente dos anos de
escolaridade.
6.3. O uso de variáveis centradas

Os exaustivos cálculos matriciais necessários para obtenção do vetor de estimadores de β
podem ser facilitados com o emprego de variáveis independentes centradas. Antes de verificar
sua aplicação na regressão linear múltipla, vamos compreender seus conceitos e consequências
na análise da RLS.
Variável dependente e independente centradas

Suponha inicialmente que tenhamos um modelo de RLS de Y em função de X:
89
Onde:
αˆ = Y − βˆ X
n n
(16)
∑ ( X i − X )(Yi − Y ) ∑ xi yi
βˆ = i =1
n
= i =1
n
2 2
∑(Xi − X ) ∑ xi
i =1 i =1
Se ajustarmos um novo modelo substituindo as variáveis originais Yi e Xi pelas suas

respectivas variáveis centradas yi e xi teremos:
yi = α ′ + β ′xi + ei′ (17)
Onde
y i = Yi − Y e xi = X i − X (18)
Geometricamente, isso significa que substituimos os eixos originais por aqueles
representando os valores médios de Y e X. Assim, o novo modelo passará obrigatoriamente pela
origem sem, entretanto, qualquer mudança na inclinação ou qualidade do ajuste.
(19)
Para demostrar que o novo ajuste terá intercepto nulo e inclinação semelhante à de (16),
basta lembrarmos que a soma dos desvios em relação à média aritmética é igual a zero.
Consequentemente:
y=0 e x=0 (20)
E:
αˆ ′ = y − βˆ x = 0
n n
∑ ( xi − x )( yi − y ) ∑ xi y i (21)
βˆ ′ = i =1
n
= i =1
n
= βˆ
∑ ( xi − x ) 2 ∑ xi2
i =1 i =1
90
Uma vez estimado o valor de βˆ ′ (ou β̂ ), pode-se chegar a α̂ (da equação 16) através de:
αˆ = Y − βˆ X = Y − βˆ ′X (22)
Variável independente centrada

Raciocínio análogo pode ser considerado para o modelo com variável dependente
original e independente centrada:
Yi = α ′ + β ′xi + ei′ (23)
Nesse caso, apenas o eixo das ordenadas (Y) seria transposto para a média de X, como
pode ser observado pela Figura (24). Embora mude o intercepto do novo modelo, que passará
agora pelo valor médio de Y, não há qualquer alteração na inclinação ou qualidade da reta de
regressão.
(24)
Para demostrar que o novo ajuste terá intercepto igual à média de Y e inclinação
semelhante à de (16), devemos desenvolver:
α̂ ′ = Y − βˆ x = Y
n n
∑ ( xi − x )(Yi − Y ) ∑ xi y i (25)
βˆ ′ = i =1
n
= i =1
n
= β̂
∑ ( xi − x ) 2 ∑ xi2
i =1 i =1
A partir de βˆ ′ pode-se ainda chegar a α̂ através de:
αˆ = Y − βˆ X = Y − βˆ ′X (26)
Regressão linear múltipla com variáveis independentes centradas

Para facilitar as operações matriciais, sobretudo a inversão da matriz XTX, podemos
também trabalhar em regressão linear múltipla com variáveis independentes centradas.
91
Duas matrizes utilizadas em muitas fases da análise de regressão linear múltipla (por
exemplo, na equação 12) são:
 n
 ∑ X1 j ∑ X1 j
... ∑ Xk j


 ∑ X1 ∑ X 12 ∑ X1 X 2 ... ∑ X1 X k 
XT X =  j J j j j j
 e
 ... ... ... ... ... 
∑ X k ∑ X1j X k j ∑ X2j Xkj ... ∑ X k2J 
 j 
(27)
 ∑Y j 
 

XT y = 
∑ X 1 j
Y j 
... 
 
∑ X k Yj 
 j 
Entretanto, se considerarmos um ajuste com variáveis independentes centradas, onde:
x k i = X ki − X k (28)
O sistema de equações será dado por:
 Y1   1 x11 x 21 ... x k1  α ′   e1 
      
 Y2   1 x12 x 22 ... x k2  β1   e2 
 ...  =  ... ... + (29)
... ... ...  ...   ... 
      
Y   1 x
 n  1n x 2n ... x kn  β k   en 
Como:
∑ j xk j = 0 (30)
Teremos:
n 0 0 ... 0   ∑Y j 
   
T 0 ∑ x12J ∑ x1 j x2 j ... ∑ x1 j xk j  T  ∑ x1 j Y j 
X X=
... ... ... ... ...  e X y =  ...  (31)
   
0
 ∑x 1j xk j ∑x 2j xk j ... ∑x 2
kJ


 ∑ xk Y j 
 j 
Que é mais fácil de ser invertida que a matriz XTX em (27). Assim como no ajuste de
variáveis independentes centradas de RLS, o ajuste de RLM terá a mesma inclinação (β’s) e
qualidade do ajuste. Apenas o intercepto α’ de (29) será diferente do α de (9), já que o primeiro
representará o valor médio de Y (ver equação 26). Entranto, a estimativa do intercepto para o
modelo original pode facilmente ser obtido por:
αˆ = Y − ∑i βî X i (32)
92
Exemplo 3. Poderíamos chegar aos mesmos resultados do Exemplo 2 utilizando variáveis

independentes centradas. Nesse caso, teríamos:
X 1 = 7,5 e X 2 = 35,25
E os dados da amostra ficariam:
Y 4 6 8 6
x1 -2,5 2,5 7,5 -7,5
x2 -14,25 -5,25 4,75 14,75
O ajuste seria então com as variáveis centradas x1 e x2:
Yi = α ′ + β1 x1i + β 2 x2i + ei
Que, a partir da notação matricial, teríamos:
y = Xβˆ + eˆ
ou
 4   1 - 2,5 - 14,25  αˆ ′  eˆ1 
      
 6   1 2,5 - 5,25  ˆ   eˆ2 
 8  =  1 7,5  β1  +
4,75    eˆ3 
      
 6   1 - 7,5 14,75  βˆ2   eˆ 
     4
Devemos então calcular o vetor de estimadores de β:
βˆ = ( X T X ) −1 ( X T y )
Resolvendo as operações matriciais chegaremos a:
−1
4 0 0   24   6 
     
βˆ =  0 125 - 52,5   20  =  0,203 
 0 - 52,5 470,75   38   0,103 
     
Note que a matriz XTX ficou muito mais fácil de ser invertida. O termo 4 na primeira linha e
primeira coluna pode ser invertido isoladamente e, invertendo a sub-matriz resultante, cujo
determinante é 56088:
93
 
 
 1/4 0 0  24   6 
1 -1
βˆ =  0 (470,75) (−52,25)  20  =  0,203 
 56088 56088    
 -1 1  38   0,103 
 0 (−52,25) (125) 
 56088 56088 
Falta apenas obter a constante do modelo com variáveis originais, que, segundo equação (31),
será dado por:
αˆ = 6 − [0,203(7,5) + 0,103(35,25)] = 0,829
Chegando ao ajuste de MQO:
Yi = 0,829 + 0,203 X 1i + 0,103 X 2i + eî
Exercícios
1. Observaram-se os gastos mensais com alimentação (Y, em 1000 reais), renda mensal (X1, em
1000 reais) e distância da residência ao supermercado mais próximo (X2, em km) de 4
domicílios:
Y 0,4 0,2 0,3 0,6
X1 1 2 2 3
X2 2 3 3 2
a) Estime e interprete os coeficientes do modelo de regressão linear múltipla para os
gastos mensais com alimentação em função da renda mensal e tamanho da família;
2. Sejam as seguintes informações sobre o consumo de frango (Y), renda disponível (X1) e preço
do frango (X2) em 4 diferentes anos:
Ano 1974 1975 1976 1977
Y (kg per capita) 74 82 84 110
X1 (1.000 R$) 6 8 8 10
X2 (R$ / kg) 0.8 1.2 1.2 1.0
a) Estime e interprete os coeficientes da função demanda relacionando o consumo à renda
e ao preço do frango;
b) Estime e interprete os coeficientes da função demanda relacionando o log do consumo
ao log da renda e ao log do preço do frango;
94
3. Uma amostra de 4 países forneceu os seguintes dados sobre mortalidade infantil (Y, em
mortes para cada mil nascidos vivos), PIB per capita (X1, em mil dólares) e número de
médicos (X2, em médios por 1000 habitantes):
Y 5 4 7 8
X1 10 12 13 16
X2 3 2 1 0
Suponha agora que a relação entre as variáveis seja dada por:
Yi = α + β1 ln( X 1 ) + β 2 X 2 + ei
a) Estime os coeficientes do modelo por MQ;
b) Interprete as estimativas dos coeficientes angulares;
Caso necessário, trabalhe com os seguintes valores para o logaritmo natural:
Z 1 2 3 4 5 7 8 10 12 13 16
ln(Z) 0 0,7 1,1 1,4 1,6 1,9 2,1 2,3 2,5 2,6 2,8
4. Uma amostra de 4 empresas que produzem o mesmo tipo de produto forneceu os seguintes
dados sobre o total de venda (Y, em milhões de reais), investimento (X1, em milhões de reais)
e horas trabalhadas (X2, em mil horas):
Y X X ln(Y) ln(X ) ln(X )

1 2 1 2
60 20 7 4,1 3,0 2,0

90 20 7 4,5 3,0 2,0
191 55 55 5,2 4,0 4,0
493 403 55 6,2 6,0 4,0

ln(Yi ) = α + β1 ln( X 1 ) + β 2 ln( X 2 ) + ei
a) Estime os coeficientes do modelo por MQO e interprete as estimativas dos coeficientes
angulares;
5. (ANPEC, 1994) Considerando o modelo de regressão múltipla
95
Yi = β 0 + β1 X 1i + β 2 X 2i + K + β k X ki + ei
Pode-se afirmar que:
a) O método, dos mínimos quadrados ordinários (MQO), usado para estimar os coeficientes
β j , j = 0,1,K , k exige que o erro tenha distribuição normal.
b) Os estimadores de MQO dos coeficientes β j , j = 0,1,K , k são não viciados (ou não
viesados).
c) Os coeficientes β j , j = 0,1, K , k podem ser interpretados como as elasticidades entre os
regressores X j e a variável Y.
6. (ANPEC, 1995) Em um modelo clássico de regressão linear múltipla:

a) Uma das hipóteses estabelece que as variáveis explicativas são linearmente independentes.
b) Cada uma das variáveis explicativas tem distribuição normal.
c) A variância da variável dependente é igual à variância do termo aleatório.
Respostas
1) a. βˆ ′ = (0,8; 0,1; −0,25)
2) a. βˆ ′ = (35; 10,5; −30) ; b. βˆ ′ = (2,52; 0,95; −0,39)
3) a. Yi = 91,5 − 30 ln( X 1i ) − 6 X 2i + eî
4) a. ln(Yi ) = 2,4 + 0,5 ln( X 1i ) + 0,2 ln( X 2i ) + eî
5) a. F; b. F; c. F;
6) a. F; b. F; c. F;
96
Apêndice A – Estimadores de MQO para Regressão Linear Múltipla

Seja o modelo de regressão linear múltipla populacional dado por:
y = Xβ + e
A função equivalente na amostra será:
y = Xβˆ + eˆ
Onde
yˆ = Xβˆ
Então, a função EQT será dada por:
EQT = eˆ T eˆ = ( y − yˆ ) T ( y − yˆ ) = ( y − Xβˆ ) T ( y − Xβˆ )
Desenvolvendo teremos:
EQT = y T y − y T Xβˆ − βˆ T X T y + βˆ T X T Xβˆ
Como os produtos das matrizes y T Xβˆ e βˆ T X T y resultam em grandezas escalares e uma é
transposta da outra, essas podem ser somadas:
EQT = y T y − 2βˆ T X T y + βˆ T X T Xβˆ
Para encontrarmos o ponto de mínimo de EQT, devemos igualar a zero sua derivada em relação
a β̂ . Primeiro, a representação da derivada do escalar EQT em função do vetor β̂ será dada por:
∂EQT  ∂EQT ∂EQT ∂EQT 

= ... 
∂βˆ  ∂αˆ ∂βˆ1 ∂βˆ k 
Antes de minimizarmos a expressão, devemos relembrar duas propriedades básicas da

diferenciação matricial. Primeiro, seja aT é uma vetor linha de constantes e w é um vetor coluna
de variáveis, então:
∂ (a T w )
=a
∂w
Considere agora a matriz definida por wTAw. Então teremos:
∂ ( w T Aw )
= 2 Aw
∂w
Em forma de um vetor coluna, ou:
97
∂ ( w T Aw )
= 2w T A
∂w
Em forma de um vetor linha.
Então, prosseguindo com a diferenciação da função EQT, teremos:
∂EQT ∂ ( y T y − 2βˆ T X T y + βˆ T X T Xβˆ )

= = −2 X T y + 2 X T Xβˆ
ˆ
∂β ∂βˆ
Para minimizarmos a função de EQT, devemos igualar sua derivada a zero e teremos:
2 X T Xβˆ = 2 X T y
Ou, simplesmente:
βˆ = ( X T X) −1 X T y
98
Apêndice B – Exatidão e Eficiência dos Estimadores de MQO

Devemos demonstrar que, caso os pressupostos (i) a (iii) do teorema de Gauss-Markov sejam
válidos, os estimadores de MQO para a RLM são não viesados e que, caso os pressupostos (iv)
a (v) também sejam válidos, os mesmos são também eficientes.
Primeiro, o estimador de MQO é dado por:
βˆ = ( X T X) −1 X T y
Como y = Xβ + e , teremos:
βˆ = ( X T X) −1 X T ( Xβ + e) = ( X T X ) −1 ( X T X)β + ( X T X) −1 X T e
E, como ( X T X ) −1 ( X T X) = I :
βˆ = β + ( X T X) −1 X T e
Pressupondo que os valores de Xj sejam fixos (pressuposto ii) e que a esperança condicional dos
erros seja zero (pressuposto iii), o valor esperado de β̂ será:
E (βˆ ) = β + ( X T X) −1 X T E (e)
E (βˆ ) = β
O próximo passo é demonstrar que a variância do estimador β̂ é mínima entre os estimadores
lineares não viesados de β̂ . Primeiro, a matriz de variâncias e covariâncias de β̂ será:
Var (βˆ ) = E[(βˆ − β)(βˆ − β )T ] = E{[( X T X) −1 X T e][( X T X ) −1 X T e]T }
Var (βˆ ) = E[( X T X ) −1 X T eeT X( X T X) −1 ]

Pressupondo que os valores de Xj sejam fixos (pressuposto ii), teremos:
Var (βˆ ) = ( X T X) −1 X T E (eeT ) X ( X T X) −1
E, caso os erros sejam homocedásticos (pressuposto iv) e não autocorrelacionados (pressuposto
v), então E(eeT)=σ2I e:
Var (βˆ ) = ( X T X) −1 X T σ 2 IX ( X T X ) −1
Var (βˆ ) = ( X T X ) −1σ 2
99
Vamos agora representar qualquer outro estimador linear de β por:
βˆ ∗ = W T y
Onde W é uma matriz de ordem n × k com valores que definem uma combinação linear de y.
Considerando que y = Xβ + e teremos:
βˆ ∗ = W T ( Xβ + e) = W T Xβ + W T e
E o valor esperado de β̂ ∗ será:
E (βˆ ∗ ) = E ( W T Xβ + W T e) = W T Xβ + W T E (e)
Pressupondo a esperança dos erros igual a zero (pressuposto iii):
E (βˆ ∗ ) = E ( W T Xβ + W T e) = W T Xβ
Assim, para que β̂ ∗ seja não viesado, ou seja E (βˆ ∗ ) = β , devemos ter:
WT X = I
A variância de β̂ ∗ , por sua vez, será dada por:
Var (βˆ ∗ ) = E[(βˆ ∗ − β)(βˆ ∗ − β) T ] = E[( W T Xβ + W T e − β )( W T Xβ + W T e − β) T ]
Assumindo W T X = I :
Var (βˆ ∗ ) = E[( W T e)( W T e) T ] = E ( W T ee T W ) = W T E (ee T ) W = W T Wσ 2
Comparando agora as variâncias de β̂ ∗ e β̂ teremos:
Var (βˆ ∗ ) − Var (βˆ ) = ( W T W )σ 2 − ( X T X) −1 σ 2 = [( W T W ) − ( X T X) −1 ]σ 2
Utilizando um malabarismo algébrico, incluímos W T X = I na equação:

Var (βˆ ∗ ) − Var (βˆ ) = [ W T W − W T X( X T X ) −1 X T W ]σ 2
Var (βˆ ∗ ) − Var (βˆ ) = W T [I − X( X T X) −1 X T ]Wσ 2
A matriz X ( X T X ) −1 X T é muito utilizada em econometria e denominada de “matriz chapéu”

(hat matrix). O motivo é o fato de esta ser também utilizada para a estimação dos valores
estimados da variável dependente. Uma propriedade importante da matriz chapéu é que esta é
idempotente, ou seja, quando multiplicada por si mesma, resulta em si mesma (AA=A). Se
100
X ( X T X ) −1 X T é idempotente, então I − X ( X T X) −1 X T também é. Toda matriz idempotente é
positiva semi-definida, ou seja, o produto W T [I − X( X T X ) −1 X T ]W será sempre maior ou igual

a zero. Assim, temos que:
Var (βˆ ∗ ) − Var (βˆ ) ≥ 0
Ou seja, a variância do estimador de MQO será sempre menor ou igual à de outro estimador β̂ ∗
linear não viesado de β.
101
Econometria ANOVA para Regressão Linear Múltipla
5. Análise de Variância para Regressão Linear Múltipla
Introdução
Após estimar e interpretar os coeficientes de um modelo de RLM pelo MQO, é
necessário iniciar a análise da qualidade do ajuste. Em outras palavras, é preciso verificar em que
medida podemos inferir sobre a relação linear entre as variáveis na população a partir do que
observamos na amostra.
Passos essencias para essa análise são a elaboração da tabela ANOVA e o cálculo do
coeficiente de determinação. Embora com procedimentos muito semelhantes aos da RLS, essa
análise da variabilidade dos resíduos com múltiplas variáveis independentes possui algumas
peculiaridades e requer atenção na interpretação. Em especial, na compreensão dos efeitos
parciais e combinados das variáveis independentes sobre a dependente.
7.1. Coeficiente de determinação e estatística F

Assim como em RLS, a análise dos resíduos é fundamental para compreender a qualidade
do ajuste de RLM. O primeiro passo é decompor a soma total dos quadrados (STQ) em: soma
dos quadrados da regressão (SQReg), e dos resíduos (SQRes). Embora análoga à da RLS,
ressalva-se o fato de que agora as distâncias da soma dos quadrados (SQs) referem-se ao ajuste
de um plano de um espaço de k+1 dimensões (k+1= k variáveis independentes + 1 variável
dependente), não mais simplesmente de uma reta em um espaço de 2 dimensões.
As SQs em suas respectivas notações matriciais serão dadas por18:
Soma Total dos Quadrados (STQ)

Representa variabilidade total da variável depedente:
n n
(1)
STQ = ∑ (Yi − Y ) = ∑ yi = y y − nY
2 2 T 2
i =1 i =1
Soma dos Quadrados da Regressão (SQReg)

Variabilidade da variável dependente explicada pelo
conjunto das k variáveis independentes do modelo: (2)
n
SQ Re g = ∑ (Yî − Y ) 2 = βˆ T X T y − nY 2
i =1
18
O desenvolvimento algébrico dessas expressões pode ser acompanhado no Apêndice A.
102
Soma dos Quadrados dos Resíduos (SQRes)

Variabilidade da variável dependente não explicada pelo
conjunto das variáveis independentes: (3)
n
SQ Re s = ∑ (Yi − Yî )2 = eˆ T eˆ = y T y − βˆ T X T y
i =1
As SQs são medidas de varabilidade total e não consideram o número de observações da

amostra (quanto maior o tamanho da amostra, maior a variabilidade total), nem o número de
variáveis independentes (quanto maior o número de variáveis independentes, maior tende a ser a
SQReg). Os quadrados médios (QMs), por sua vez, permitem uma estimativa média das
variabilidades quadráticas ponderando as SQs pelos respectivos graus de liberdade (gl). Todos
esses resultados podem ser observados em uma versão prévia da tabela ANOVA:
(4)
Sabemos que os graus de liberdade da STQ são iguais a n–1 pois, das n observações da
amostra, uma apresentará valor fixo em função da restrição imposta pela equação ∑ (Yi − Y ) = 0 .
Os resíduos, por sua vez, apresentarão n–(k+1) graus de liberdade pois k+1 restrições são
impostas às n observações da amostra para obter os parâmetros do modelo (pressupondo um
modelo de RLM com k coeficientes angulares e um intercepto)19. E a regressão apresentará
apenas k graus de liberdades, equivalentes ao número de coeficientes angulares que podem variar
aleatoriamente para obtenção da SQReg.
Da tabela ANOVA derivam-se duas importantes estatísticas da qualidade do ajuste da
regressão linear: o coeficiente de determinação (R2) e a estatística F. O coeficiente de
determinação é uma medida descritiva da proporção da variabilidade da variável dependente que
é explicada pelo conjunto das k variáveis independentes do modelo de regressão, sendo dado por:
19
As restrições impostas à SQRes referem-se à soma zero dos resíduos e à ausência de correlação entre os resíduos e
cada uma das variáveis independentes. Em outras palavras: ∑ eî = 0 ; ∑ eî X 1
i
= 0 ; ...; ∑ eî X k i
=0
103
SQ Re g SQ Re s
R2 = = 1− (5)
STQ STQ
A estatística F, por sua vez, permite verificar se a variabilidade explicada pelo ajuste de
regressão é significativa, ou seja, se o valor observado de R2 na amostra pode ser considerado
estatisticamente diferente de zero. A estatística F será dada pela razão entre os quadrados médios
da regressão e dos resíduos:
SQ Re g / k
F= ~ Fk ,n −k −1 (6)
SQ Re s /(n − k − 1)
As propriedades da estatística F para a RLM são semelhantes àquelas da RLS. Sob a
hipótese nula de que o modelo não contribui para explicar o comportamento de Y, espera-se que
a SQReg seja mínima e a SQRes seja máxima, fazendo com que a estatística F apresente valores
baixos. O valor esperado da estatística F na hipótese de contribuição nula do modelo será igual a
1.
À medida que o modelo contribua significativamente para explicar o comportamento de
Y, a SQReg tende a ser máxima e a SQRes mínima, fazendo com que a estatística F apresente
valores elevados. Assim, quão maior o valor da estatística F, mais evidências teremos para
rejeitar a hipótese nula de que o modelo não contribui para explicar o comportamento de Y. O
valor p será a medida da probabilidade de erro que estaremos sujeitos caso rejeitemos H0.
(7)
Um detalhe importante desse teste F para a RLM é que não rejeitar H0 implica afirmar
que nenhuma das k variáveis independentes contribui para explicar a variabilidade de Y. Assim,
se o modelo não contribui para explicar Y, todos os coeficientes angulares serão iguais a zero, já
que nenhuma variável independente seria necessária no modelo. Por outro lado, se o modelo
contribui para explicar Y, pelo menos um coeficiente angular seria diferente de zero. Ou seja,
pelo menos uma variável independente seria necessária no modelo, não necessariamente todas.
104
Uma representação esquemática de possíveis resultados para o ajuste de RLM com duas
variáveis independentes Y = α + β1 X 1 + β 2 X 2 + e é apresentada na Figura (8). Os três primeiros
exemplos representam situações em que pelos menos uma das variáveis independentes contribui
para explicar a variabilidade de Y e, consequentemente, a hipótese nula deveria ser rejeitada. No
último exemplo, nenhuma das variáveis contribui para explicar a variabilidade de Y e a hipótese
nula não deveria ser rejeitada.
(8)
Pode-se ainda demonstrar que o teste F, ao medir a significância geral da regressão

estimada, é também um teste de significância de R2. Em outras palavras, testar a hipótese nula de
que os coeficientes angulares são simultaneamente iguais a zero é o mesmo que testar a hipótese
nula de que o R2 é igual a zero. Para melhor compreender essa relação, podemos também
expressar a estatística F como uma função do R2:
(n − k − 1) SQ Re g (n − k − 1) SQ Re g / SQT
F= =
k SQ Re s k (1 − SQ Re g / SQT )
(9)
(n − k − 1) R 2 R2 / k
F= =
k (1 − R 2 ) (1 − R 2 ) /(n − k − 1)
Exemplo 1. Vamos aproveitar os resultados obtidos no ajuste estabelecido para a relação linear
entre a variável dependente rendimento familiar (Y) e as variáveis independentes anos de estudo
(X1) e idade do responsável pela família (X2), onde:
Yi = 0,829 + 0,203 X 1i + 0,103 X 2i + eî
O primeiro passo na análise da qualidade do ajuste é obter as somas dos quadrados:
105
 4
 
 6
STQ = y y − nY = (4 6 8 6)  − 4(6) 2 = 152 − 144 = 8
T 2
8
 
 6
 
 24 
 
SQ Re g = βˆ T X T y − nY 2 = (0,829 0,203 0,103) 200  − 4(6) 2 = 151,998 − 144 = 7,998
 884 
 
SQ Re s = STQ − SQ Re g = 8 − 7,998
O coeficiente de determinação será então dado por:
SQReg
R2 = = 0,9998
STQ
Significando que as variáveis independentes anos de estudo e idade da pessoa responsável pela
família explicam, conjuntamente, quase a totalidade (99,98%) da variabilidade observada para a
renda familiar na amostra.
Embora expressiva, essa contribuição não pode ser considerada estatisticamente significativa
sem a realização do teste F da ANOVA. A estatística F para testar a hipótese nula de que todos
os coeficientes angulares são iguais a zero será dada pela razão entre os quadrados médios da
regressão e dos resíduos. Os resultados aparecem sistematizados na tabela ANOVA:
O valor p associado ao valor da estatística F é de 0,0149. Assim, há fortes evidências para

afirmar que o modelo contribua para explicar a variabilidade da renda familiar. A probabilidade
de erro ao fazermos tal afirmação é muito baixa, de aproximadamente 1,5%.
7.2. Coeficiente de determinação ajustado

A inclusão de variáveis independentes adicionais em um modelo de RLM tenderá a
aumentar a SQReg e, consequentemente, o valor o R2. Na pior das hipóteses, quando a
contribuição da variável independente adicional for nula, a SQReg e o R2 permancerão com o
106
mesmo valor. Assim, modelos com mais variáveis independentes tendem a apresentar valores
mais elevados para o R2. Por exemplo, sejam as medidas de qualidade do ajuste:
Yi = α + βˆ1 X 1i + βˆ2 X 2i + eî
(10)
A inclusão de uma variável independente adicional (X3) iria, na pior das hipóteses,
manter o mesmo valor para SQReg e R2 (R2y12, no exemplo) quando esta variável não possuir
qualquer relação linear com Y:
Yi = α + βˆ1 X 1i + βˆ 2 X 2i + βˆ3 X 3i + eî
(11)
Esse comportamento ocorre porque as estatísticas SQReg e R2 são medidas de

variabilidade total e não de variabilidades médias. Nesse sentido, a solução proposta pelo
coeficiente de determinação ajustado ( R 2 ) é justamente ponderar o R2 pelos respectivos graus de
liberdade associados a cada SQ:
SQ Re s /[ n − (k + 1)] n −1
R 2 = 1− = 1 − (1 − R 2 ) (12)
STQ /(n − 1) n − (k + 1)
O R 2 é particularmente útil quando desejamos comparar modelos de RLM para a mesma
variável dependente, pois penaliza aquele modelo com maior número de variáveis
independentes. Assim, quando novas variáveis independentes são acrescentadas ao modelo de
regressão, o R2 sempre aumentará, equanto que o R 2 poderá aumentar ou diminuir. Reduz-se,
dessa maneira, a tentação de incluir novas variáveis independentes, muitas vezes, desnecessárias
ao modelo de regressão.
De maneira geral, podemos demonstrar que:
107
1. Se k=1, R2= R 2 ;
2. Se k>1, R2≥ R 2 ;
3. R 2 pode ser negativo.
Podemos ainda afirmar que, ao incluirmos uma variável independente adicional no

modelo de RLM, o R 2 somente aumentará se a estatística t associada a essa variável for maior
que 1 em valor absoluto. Analogamente, ao incluirmos um conjunto de j variáveis independentes,
o R 2 somente aumentará se a estatística F associada à contribuição conjunta dessas variáveis for
maior que 1.
Exemplo 2. Aproveitando os resultados do ajuste estabelecido para a relação linear entre a

variável dependente rendimento familiar (Y) e as variáveis independentes anos de estudo (X1) e
idade do responsável pela família (X2), teremos:
4 −1
R 2 = 1 − (1 − 0,9998 ) = 0,9996
4 − (2 + 1)
Nesse caso, não há grande impacto do número de observações sobre o coeficiente de
determinação, que mantém-se elevado mesmo ajustado para ponderar o número de observações
da amostra e o número de variáveis independentes.
Exercícios
1. A partir de informações sobre os gastos mensais com alimentação (Y, em 1000 reais), renda
mensal (X1, em 1000 reais) e distância ao supermercado mais próximo (X2, em km) de 4
famílias, pede-se:
Y 0,4 0,2 0,3 0,6
X1 1 2 2 3
X2 2 3 3 2
a) Calcule STQ, SQReg e SQRes;
b) Calcule e interprete R2 e R 2 ;
c) Construa tabela ANOVA e interprete o teste F.
108
Ano 1974 1975 1976 1977
X1 (1.000 R$) 6 8 8 10
X2 (R$ / kg) 0.8 1.2 1.2 1.0
a) Estime e interprete os resultados da tabela ANOVA pressuponto que a relação entre as
variáveis seja dada por Y = α + β1 X 1 + β 2 X 2 + e ;
b) Estime e interprete os resultados da tabela ANOVA pressuponto que a relação entre as
variáveis seja dada por ln(Y ) = α + β1 ln( X 1 ) + β 2 ln( X 2 ) + e ;
c) Qual dos dois modelos você considera mais apropriado para representar a relação entre as
variáveis?
Y 5 4 7 8
X1 10 12 13 16
X2 3 2 1 0
Yi = α + β1 ln( X 1 ) + β 2 X 2 + ei
a) Construa a tabela ANOVA e interprete o nível de significância do teste F;
b) Calcule e interprete o coeficiente de determinação e o coeficiente de determinação ajustado.
Caso seja necessário, trabalhe com os seguintes valores para o logaritmo natural:
Z 1 2 3 4 5 7 8 10 12 13 16
ln(Z) 0 0,7 1,1 1,4 1,6 1,9 2,1 2,3 2,5 2,6 2,8
109
4. Uma amostra de 4 empresas que produzem o mesmo tipo de produto forneceu os seguintes
dados sobre o total de venda (Y, em milhões de reais), investimento (X1, em milhões de reais)
e horas trabalhadas (X2, em mil horas):
Y X
1
X
2
ln(Y) ln(X1) ln(X2)
60 20 7 4,1 3,0 2,0

90 20 7 4,5 3,0 2,0
191 55 55 5,2 4,0 4,0
493 403 55 6,2 6,0 4,0
ln(Yi ) = α + β1 ln( X 1 ) + β 2 ln( X 2 ) + ei
a) Construa a tabela ANOVA e interprete o nível de significância do teste F;
b) Calcule e interprete o coeficiente de determinação e o coeficiente de determinação ajustado.
5. Considerando o modelo de regressão múltipla

Pode-se afirmar que:
a) (ANPEC, 1993) A análise de variância da regressão testa se todos os coeficientes estimados
da regressão ( β$ j ) são significantes simultaneamente.
b) (ANPEC, 1993) O coeficiente de determinação múltipla corrigido para graus de liberdade
pode ser negativo.
c) (ANPEC, 1994) Se adicionarmos um novo regressor X k +1 à equação acima, então o
coeficiente de determinação R 2 pode ou não aumentar.
6. (ANPEC, 1995) Em um modelo clássico de regresão linear múltipla, a comparação do poder

explicativo de modelos envolvendo número diferente de variáveis explicativas deve ser feita
com base no R 2 ajustado.
Respostas
1) a. STQ=0,0875; SQReg=0,0825; SQRes=0,005; b. R2=0,9429; R 2 =0,8286; c. F=8,25;
p=0,2391.
110
2) a. STQ=731; SQReg=729; SQRes=2; F=182.25; p=0,0523; R2=0,9973; R 2 =0,9918; b.

STQ=0,0858; SQReg=0,0855; SQRes=0,0003; F=147,3; p=0,0582; R2=0,9966; R 2 =0,9899.
3) a. STQ=10; SQReg=9; SQRes=1; F=4,5; p=0,316; b. R2=0,9; R 2 =0,7.
4) a. STQ=2,54; SQReg=2,46; SQRes=0,08; F=15,375; p=0,1775; b. R2=0,97; R 2 =0,91.
5) a. F; b. V; c. V.
6) V.
111
Apêndice A – ANOVA em Regressão Linear Múltipla

Iremos iniciar o desenvolvimento das expressões matriciais para as somas dos quadrados da
regressão linear múltipla pela SQRes. Primeiro, de desenvolvimento anterior, sabemos que a
SQRes será:
SQ Re s = y T y − 2βˆ T X T y + βˆ T X T Xβˆ
Como βˆ = ( X T X ) −1 ( X T y ) , então X T Xβˆ = X T y e:
SQ Re s = y T y − 2βˆ T X T y + βˆ T X T y
Teremos, então, a expressão matricial para a SQRes:
SQ Re s = y T y − βˆ T X T y
Por sua vez, a STQ será:

n n n n n
STQ = ∑ (Yi − Y ) 2 = ∑ Yi − 2Y ∑ Yi + nY 2 = ∑ Yi − 2nY 2 + nY 2 = ∑ Yi − nY 2
2 2 2
i =1 i =1 i =1 i =1 i =1
n
Como y T y = ∑ Yi 2 teremos a expressão matricial para a STQ:
i =1
STQ = y T y − nY 2
A expressão matricial para a SQReg pode ser obtida a partir da diferença:

SQ Re g = STQ − SQ Re s
Então:
SQ Re g = βˆ T X T y − nY 2
112
6. Inferência em Regressão Linear Múltipla
Introdução
A partir de algumas propriedades do modelo clássico de regressão linear, podemos
realizar inferências para os coeficientes e esperanças condicionais do modelo de RLM. Para
viabilizar essas análises, o primeiro passo é estimar a variância dos estimadores de MQO que,
sob as premissas do Teorema de Gauss-Markov, serão não viesados e de variância mínima. O
segundo passo é conhecer a distribuição de probabilidade dos estimadores que, sob a premissa de
normalidade dos erros, também estariam normalmente distribuídos. A partir de então, poderemos
realizar testes de hipóteses para os desconhecidos parâmetros da regressão ou estabelecer
intervalos de confiança para valores esperados da variável dependente.
8.1. Matriz de variância e covariância e teste t para βk

Enquanto a análise de variância permite analisar a contribuição geral do modelo de
regressão múltipla, ou seja, se o conjunto das variaveis independentes contribui para explicar a
variabilidade de Y, o teste t permite verificar a significância do efeito parcial de cada variável
independente Xj sobre Y. Em outras palavras, significa verificar se, por exemplo, em um modelo
com duas variáveis independentes, Y = α + β1 X 1 + β 2 X 2 + e , a contribuição da variável X1,
desconsiderando-se a contribuição da variável X2, é diferente de zero. Esquematicamente:
(1)
Testar o efeito isolado de Xj sobre Y é o mesmo que testar as hipóteses:
H 0 : β j = 0
 (2)
 H1 : β j ≠ 0
Como β j representa o efeito isolado de Xj sobre Y, depois de controlado o efeito das
demais variáveis independentes, rejeitar a hipótese nula significa afirmar que Xj apresenta
113
Econometria Inferência em Regressão Linear Múltipla
relação linear isolada com Y ou, em outras palavras, que Xj contribua isoladamente para explicar
a variabilidade de Y.
Para testar a hipótese nula em (2) precisamos conhecer: i) a estatística de teste
apropriada; ii) a distribuição de probabilidade dessa estatística. Sob as premissas do modelo
clássico de regressão linear, o estimador β̂ j de MQO, que é uma função linear dos erros do
modelo20, será o MELNV do parâmetro βj e terá distribuição normal. Em outras palavras,

teremos a seguinte distribuição para o estimador:
(3)
Para viabilizar a resolução do teste de hipóteses, é, primeiro, necessário conhecer a

Var( β̂ j ), ou σ β2ˆ . Esta poderá ser obtida a partir da matriz de variâncias e covariância dos
j
estimadores βˆ j , que, em notação matricial, será dada por (ver Apêndice B do Capítulo 6):
Var (βˆ ) = E[(βˆ − β)(βˆ − β)T ] = ( X T X ) −1σ 2 (4)

Essa matriz, que contém as variâncias e covariâncias dos parâmetros do modelo, pode
ainda ser representada por:
 Var (αˆ )
 Cov(αˆ , βˆ1 ) ... Cov(αˆ , βˆk ) 
 Cov( βˆ1 , αˆ ) Var ( βˆ1 ) ... Cov( βˆ1 , βˆk ) 
Var (βˆ ) =   (5)
 ... ... ... ... 
 Cov( βˆ , αˆ ) Cov( βˆ , βˆ ) ... Var ( βˆk ) 
 k k 1
Para obter a matriz de variâncias e covariâncias, devemos conhecer a matriz (XTX)-1,

obtida na estimativa do vetor de coeficientes β, e σ 2 , a variância da regressão. Este último,
embora desconhecido, pode ser estimado não tendenciosamente pelo QMRes presente na tabela
ANOVA, ou seja:
20
Sabemos, da demonstração apresentada no Apêndice B do Capítulo 6, que βˆ = β + ( XT X) −1 XT e . Sendo β um
vetor de constantes e X uma matriz de valores fixos, temos que β̂ será uma função linear do vetor de variáveis
aleatórias e.
114
eˆ T eˆ y T y − βˆ T X T y
σˆ 2 = = (6)
n − (k + 1) n − (k + 1)
Teremos então a matriz de estimadores de σ β̂2 dada por:
S β2ˆ = ( XT X) −1σˆ 2 (7)

E representada por:
 Sα2ˆ Sαˆβˆ ... Sαˆβˆ 

 1 k 
S ˆ S β2ˆ ... S βˆ βˆ 
S β2ˆ =  β1αˆ 1 1 k  (8)
 ... ... ... ... 
S S βˆ ... S β2ˆ 
 βˆkαˆ ˆ
k β1 k 
Estimado o erro padrão de β̂ j podemos dar continuidade ao teste de hipóteses.
Pressupondo a veracidade de H0 em (2), teríamos a seguinte distribuição de probabilidade da

estatística de teste:
βˆ j ~N (0 , σ 2βˆ ) (9)
j
O próximo passo é estimar o valor p, ou probabilidade de erro ao rejeitar H0, associado ao

valor de β̂ j observado na amostra. Como a hipótese alternativa em (2) é da diferença,
deveremos realizar um teste bicaudal:
(10)
O uso do estimador S β̂ em substituição ao parâmetro σ βˆ na padronização da estatística

j j
de teste em (9) exige a consideração de uma distribuição t de student. Os graus de liberdade

serão aqueles associados aos resíduos, ou seja, n–(k+1). Assim, o valor p obtido representará a
probabilidade mínima de erro que estaríamos sujeitos caso rejeitássemos H0. Caso seu valor seja
inferior ao erro máximo tolerado pelo pesquisador (α, ou nível de significância esperado21),
21
Não confundir com constante do modelo de regressão, embora ambos sejam representados pela letra grega “α”.
115
rejeitamos H0. Na ausência de α, fica a critério do pesquisador considerar se o valor p é

suficientemente pequeno para rejeitar H0.
Exemplo 1. A partir do ajuste estabelecido para a relação linear entre a variável dependente
rendimento familiar (Y) e as variáveis independentes anos de estudo (X1) e idade do responsável
pela família (X2), vamos proceder com o teste de hipóteses para os coeficientes do modelo. O
modelo ajustado foi:
Yi = 0,829 + 0,203 X 1i + 0,103 X 2i + eî
A matriz de estimativas das variâncias e covariâncias dos coeficientes será dada por:
−1
 4 30 141 
 
S βˆ = ( X X) σˆ =  30 350 1005  σˆ 2
2 T −1 2
141 1005 5441 

 
Onde:
eˆ T eˆ 0,002
σˆ 2 = = = 0,002
n − (k + 1) 4 − (2 + 1)
Teremos então:
 3,986 − 0,096 − 0,086   0,007 − 0,0002 − 0,0002 

   
S β̂2 =  − 0,096 0,008 0,009 0,002 =  − 0,0002 0,00001 0,000002 
 − 0,086 0,009 0,002   − 0,0002 0,000002 0,000004 
  
Realizando os testes de hipóteses para os dois coeficientes angulares do modelo teremos:
E:
Assim, a probabilidade de erro ao afirmarmos que a variável anos de estudo do responsável pela
família tenha relação linear isolada com a renda familiar é de apenas 1,2% e podemos rejeitar H0.
116
Resultado semelhante ocorre para o teste do coeficiente β2, associado à variável idade do
responsável. Podemos afirmar que a idade tenha relação linear isolada com a renda familiar com
uma chance de erro de apenas 1,2%.
8.2. Inferência para combinação linear dos parâmetros

Veremos agora como inferências para dois ou mais parâmetros, ou mesmo para os
valores previstos de um modelo de regressão múltipla (testes de hipóteses ou intervalos de
confiança), podem ser realizados conhecendo-se uma propriedade simples dos estimadores.
Sabemos que a matriz de variâncias e covariâncias dos estimadores de um modelo de
regressão linear múltipla é dada pela expressão (5). Agora suponha que, ao invés de desejarmos
analisar os parâmetros β isoladamente, interessemo-nos em estudar uma combinação linear dos
mesmos. Uma combinação linear dos parâmetros, onde cada parâmetro βj seja multiplicado por
uma constante cj, seria dado por:
α 
 
 β1 
c0α + c1 β1 + ... + c k β k = (c0 c1 ... ck )  = c T β (11)
...
 
β 
 k
Como veremos posteriormente, a combinação cTβ pode ser utilizada para testar
combinações dos parâmetros ou estabelecer previsões para Y. Por hora, analisemos as
propriedades dessa combinação linear. A primeira diz que uma combinação linear dos
estimadores de MQO será também um estimador não viesado da combinação dos parâmetros.
Em outras palavras:
E (c T βˆ ) = c T E (βˆ ) = c T β (12)
Podemos ainda demonstrar facilmente qual será a variância dessa combinação linear:
Var (c T βˆ ) = E[(c T βˆ − c T β)(c T βˆ − c T β) T ] = c T ( X T X) −1 cσ 2 (13)

Como a variância da regressão na população σ2 é desconhecida, o estimador com base
nas informações da amostra será dado por:
S c2T βˆ = c T ( X T X ) −1 cσˆ 2 (14)
117
8.3. Teste de hipóteses para combinação linear dos parâmetros

Uma das aplicações da combinação linear dos parâmetros é a realização de testes de
hipóteses para mais de um parâmetro populacional. Seja, por exemplo, o ajuste definido por:
Yi = αˆ + βˆ1 X 1i + βˆ2 X 2i + ... + βˆk X ki + eî (15)

Poderíamos estar interessados em testar a hipótese da igualdade entre os parâmetros β1 e
β2:
 H 0 : β1 = β 2
 (16)
 H 1 : β1 ≠ β 2
Testar a hipótese nula H0 é o mesmo que testar a nulidade da seguinte combinação linear:
(0)α + (1) β1 + (−1) β 2 ... + (0) β k = 0 (17)
Ou, matricialmente:
α 
 
β
(0 1 − 1 0 ... 0) 1  = cT β = 0 (18)
...
 
β 
 k
Neste caso, a estatística de teste seria dada por:
 αˆ 
 
βˆ
(0 1 − 1 0 ... 0) 1  = cT βˆ (19)
...
 
 βˆ 
 k
Como uma função linear de variáveis aleatórias normalmente distribuídas é também
apresenta uma distribuição normal, teremos a seguinte distribuição para a estatística de teste:
cT βˆ ~ N (cT β, σ c2T β̂ ) (20)

Sendo a variância desta estatística dada por (13) e o respectivo estimador dado por (14).
Conhecida a distribuição e estimada a variância da estatística de teste, podemos dar
continuidade à resolução do teste de hipóteses. O próximo passo é obter a probabilidade de erro
ao rejeitar H0 (valor p). Para isso, deve-se calcular a estatística t, uma medida de quantos erros
padrão o valor observado para c T βˆ na amostra encontra-se do valor central da distribuição (zero,
no caso).
118
(21)
O valor p representará assim, a mínima probabilidade de erro que estaríamos sujeitos

caso rejeitássemos H0 e deverá ser a referência para nossa decisão.
Exemplo 2. Aproveitando os resultados do ajuste estabelecido para a relação linear entre a

variável dependente rendimento familiar (Y) e as variáveis independentes anos de estudo (X1) e
idade do responsável pela família (X2), podemos, por exemplo, testar a hipótese nula de que o
efeito isolado de um ano adicional de escolaridade sobre a renda familiar seja igual ao efeito
isolado de um ano adicional de idade, contra a hipótese alternativa de que o efeito isolado dos
anos de escolaridade seja maior que o da idade. Nesse caso, as hipóteses seriam dadas por:
 H 0 : β1 = β 2

 H 1 : β1 > β 2
A hipótese nula pode também ser representada pela combinação linear:
α 
 
(0)α + (1) β1 + (−1) β 2 = 0 ou, matricialmente, (0 1 − 1) β1  = c T β = 0
β 
 2
A estatística de teste será, por sua vez, dada por:
 αˆ   0,829 
   
Tˆ ˆ
c β = (0 1 − 1) β1  = (0 1 − 1) 0,203  = 0,10
 βˆ   0,103 
 2  
Com variância estimada por:
S c2T βˆ = c T ( XT X) −1 cσˆ 2
−1
 4 30 141   0 
   
S c2T βˆ = (0 1 − 1) 30 350 1005   1 0,002 = 0,0000156
141 1005 5441  − 1
   
Podemos, então, dar continuidade ao teste de hipóteses. Supondo a veracidade da hipótese nula, a
estatística cT βˆ estará normalmente distribuída em torno de zero. O objetivo é estimar a
119
probabilidade de erro (valor p) associado à rejeição da hipótese nula. Como se trata de um teste
unicaudal, a região de rejeição estará associada a valores positivos de cT βˆ ( β̂1 > β̂ 2 ):
O valor da estatística observada na amostra (0,10) estaria 25,32 erros padrão afastado do centro
da distribuição e a probabilidade de erro associada a esse valor é de 1,3%. Em outras palavras, se
afirmarmos que o efeito isolado da escolaridade seja superior ao da idade da pessoa responsável,
estaremos sujeitos a um erro de apenas 1,3%. Há, assim, fortes evidências estatísticas para
afirmar que o efeito parcial da escolaridade sobre a renda seja superior ao da idade.
8.3. Intervalo de confiança para valor previsto

Uma segunda aplicação da combinação linear dos parâmetros é a realização de intervalos
de confiança para previsões do modelo de regressão múltipla. Seja, por exemplo, uma previsão
estabelecida por:
Yî = αˆ + βˆ1 X 1i + βˆ 2 X 2i + ... + βˆ k X ki (22)

Que nada mais é que uma combinação linear dos parâmetros β:
 αˆ 
 
 βˆ1 
(
Yî = x T βˆ = 1 X 1i X 2i ... X ki ) ...  (23)
 
 βˆ 
 k
Lembrando que esta previsão é uma estimativa da real esperança condicional na
população dada por:
E (Yi / X 1i ,..., X ki ) = α + β1 X 1i + β 2 X 2i + ... + β k X ki (24)
Ou, matricialmente:
α 
 
 β1 
(
E (Yi / X 1i ,..., X ki ) = x T β = 1 X 1i X 2i ... X ki )
 ...  (25)
 
β 
 k
120
Para estabelecermos uma estimativa por intervalo para E(Yi) precisamos conhecer a
distribuição da estatística xT βˆ , ou simplesmente Ŷi . Esta, por ser uma combinação linear de
variáveis normais, apresentará também distribuição normal:
x T βˆ ~ N (x T β, σ x2T β̂ ) (26)
E já sabemos que a variância de uma combinação linear será dada por:
σ x2T βˆ = xT ( X T X) −1 xσ 2 (27)
Por trabalharmos, na prática, com valores da amostra, o estimador da variância será:
S x2T βˆ = x T ( XT X) −1 xσˆ 2 (28)

Podemos, finalmente, realizar uma previsão por intervalo para E(Yi). Dada uma confiança
igual a γ, e a estatística t representará o número de erros padrão a se deslocar do valor estimado
na amostra para a estatística xT βˆ . Graficamente, teremos:
(29)
Assim, uma estimativa com confiança de γ para E(Yi) seria dada por:
IC[E(Yi ); γ ] = [ x T βˆ ± t x T ( X T X ) −1 xσˆ 2 ] (30)

E significa que, em repetidas amostras de tamanho n, o intervalo definido por (30)
conterá a real esperança condicional de Yi dado o conjunto de características do vetor x em γ das
situações.
Exemplo 3. Uma família onde o responsável tenha nível superior completo (X1=15) e 30 anos de
idade (X2=30) teria uma renda familiar prevista pelo modelo do exemplo (1) de:
Yî = 0,829 + 0,203(15) + 0,103(30) = 6,983

Ou seja, 6983 reais. Esta estimativa poderia ainda ser representada matricialmente por:
121
 0,829 
Tˆ
 
ˆ
Yi = x β = (1 15 30 ) 0,203  = 6,983
 0,103 
 
Onde Ŷi seria uma v.a. com distribuição dada por:
Yî ~ N ( E (Yi ), x T ( XT X) −1 xσ 2 )
Com variância estimada por:
−1
 4 30 141   1 
   
S x2T βˆ T T −1 2
= x ( X X) xσˆ = (1 15 30) 30 350 1005   15 0,002 = 0,00127
141 1005 5441  30 
   
Uma estimativa por intervalo com 95% de confiança seria, por exemplo, dada por:
Onde o valor da estatística t com 1 grau de liberdade (resíduos) representa o número de erros
padrão a se deslocar à direita e à esquerda do valor previsto para que se tenham 95% de
probabilidade em um intervalo simétrico. Assim, a estimativa para o intervalo com 95% de
confiança para E(Yi) seria dada por:
IC[E(Yi );0,95 ] = [6,983 ± 0,452]
E significaria a estimativa para o intervalo que conteria a real renda esperada de uma família
onde o responsável tenha superior completo e 30 anos de idade em 95% das situações (repetidas
amostras).
Exercícios
mensal (X1, em 1000 reais) e distância ao supermercado (X2, em número de integrantes) de 4
famílias, pede-se:
Y 0,4 0,2 0,3 0,6
X1 1 2 2 3
122
X2 2 3 3 2
a. Obtenha e interprete os valores p associados ao teste de hipóteses para os
coeficientes angulares do modelo.
b. Há evidências significativas para afirmar que o efeito conjunto de um integrante
adicional e um aumento de 1000 reais na renda sobre os gastos mensais com
alimentação seja negativo?
c. Estabeleça e interprete uma estimativa por intervalo com 90% para os gastos
esperados de uma família com renda mensal de 5.000 reais e com 2 integrantes.
Ano 1974 1975 1976 1977
X1 (1.000 R$) 6 8 8 10
X2 (R$ / kg) 0.8 1.2 1.2 1.0
a. Há evidências significativas para afirmar que uma redução de 3% no preço do
frango tenha um efeito marginal superior sobre o consumo de frango que o
acréscimo de 1% na renda disponível?
Y 5 4 7 8
X1 10 12 13 16
X2 3 2 1 0
Supondo que a relação entre as variáveis seja dada por:
Yi = α + β1 ln( X 1 ) + β 2 X 2 + ei
a. Estime e interprete um intervalo com 90% de confiança para a mortalidade
infantil de um país com PIB per capita de 10 mil dólares e 1 médico por 1000
habitantes.
123
Z 1 2 3 4 5 7 8 10 12 13 16
ln(Z) 0 0,7 1,1 1,4 1,6 1,9 2,1 2,3 2,5 2,6 2,8
4. (ANPEC, 1992) Dada a função de produção Pi = β 0 K β1 Lβ2 eui , tem-se que:

a. Para verificar se a função é homogênea de grau 1 deve-se testar a hipótese de
que β 1 + β 2 = 1.
b. Se o teste t indicar que β 1 é não significante, a variável K deverá ser retirada do
modelo.
5. (ANPEC, 1995) Em um modelo de regressão linear múltipla, os testes t e F não são

equivalentes.
Respostas
1) a. β1: t=2; p=0,295; β2: t=-3,54; p=0,175; b. S c2T βˆ = 0,0075 ; t=--1,732; p=0,167; c.
IC[E(Yi);95%]=[0,8±0,999].
2) a. c T βˆ = 0,22 ; S c2T βˆ = 0,025 ; t=-1,368; p=0,201.
3) a. x T βˆ = 16,5 ; S x2T βˆ = 54,75 ; t=12,71; IC[E(Yi);95%]=[16,5±94,02].
4) a. V; b. F.
5) V.
124
9. Contribuição Marginal
Introdução
A contribuição marginal mede a parcela da variabilidade de Y que é explicada
exclusivamente por uma ou mais variáveis independentes, após considerada a contribuição das
demais variáveis independentes do modelo. Em outras palavras, desejamos saber qual a parcela
da SQReg devida exclusivamente a uma variável Xj, ou a um grupo de q variáveis independentes.
Pode ser útil, por exemplo, para decidirmos se é necessária a inclusão de uma variável
independente (ou de um grupo de variáveis) em um modelo de RLM após a consideração dos
demais fatores explanatórios. Identificada esta contribuição marginal, podemos ainda realizar
inferências para saber se essa parcela da variabilidade explicada pode ser considerada
siginificativa.
Para viabilizar essas análises, veremos primeiramente como desagregar a variabilidade
total explicada pelo modelo entre as parcelas devidas às contribuições parciais (ou marginais) de
cada variável independente e a parcela devida à contribuição conjunta. Posteriormente, veremos
como o teste F pode ser aplicado para verificar a significância destas contribuições marginais.
9.1. ANOVA para contribuição marginal

Vamos supor um modelo de RLM com duas variáveis independentes X1 e X2:
Yi = α + β1 X 1i + β 2 X 2i + ei (1)
A SQReg do ajuste para esse modelo seria uma medida da variabilidade da variável
dependente explicada pelas variáveis X1 e X2 (Figura 2). Os graus de liberdade dessa SQReg
125
Econometria Contribuição Marginal
seriam 2, já que há duas variáveis independentes no modelo ou, em outras palavras, o valor da
SQReg dependeria da variação aleatória de β̂1 e βˆ 2 .
SQRegir (2)
O modelo (1) será, a partir de agora, denominado modelo irrestrito (ir), pois não são
feitas quaisquer restrições sobre os valores dos coeficientes β1 e β2. Sua SQReg será, agora,
representada por SQRegir.
Suponha agora que coloquemos a restrição de que o coeficiente β2 seja igual a zero.
Teríamos então o modelo restrito (r), ou seja, com restrição em um de seus coeficientes (β2=0):
Yi = α + β1 X 1i + ei (3)
A SQRreg desse ajuste (SQRegr) seria, portanto, uma medida da variabilidade de Y
explicada exclusivamente por X1 (Figura 4). Teria apenas 1 grau de liberdade, já que sua
estimativa dependeria unicamente da variação aleatória de β̂1 :
SQRegr (4)
A diferença entre a SQRegir e a SQRegr seria, portanto, uma medida da contribuição

marginal de X2 após considerada a variabilidade já explicada por X1:
Contribuição X2= SQRegir - SQRegr (5)
Podemos estender esse raciocínio para um ajuste de RLM com k variáveis independentes
e verificar, por exemplo, se um subconjunto de q variáveis independentes apresenta contribuição
significativa sobre Y. Nesse caso, o modelo irrestrito de RLM seria dado por:
Y = α + β1 X 1 + β 2 X 2 + ... + β k X k + e (6)
126
Para calcularmos a contribuição de um grupo de q variáveis independentes devemos

colocar restrições aos seus respectivos parâmetros. Suponha que, por simplicidade, as q variáveis
que desejamos testar são as últimas das k variáveis do modelo irrestrito (a ordem, obviamente,
não faz importância). Nosso modelo restrito seria dado por:
Y = α + β1 X 1 + β 2 X 2 + ... + β k − q X k − q + e (7)
Podemos, agora, verificar se a contribuição dessas q variáveis é significativa. Em outras
palavras, estaríamos interessados em testar a hipótese nula de que os q coeficientes do modelo
irrestrito são nulos:
H 0 : β k − q +1 = 0, ..., β k = 0 (8)
Analogamente ao teste F para a ANOVA irrestrita, o teste estatístico para restrição aos
parâmetros consiste agora em verificar se a contribuição marginal dessas q variáveis é
significativa comparando-a com a variabilidade dos resíduos do modelo irrestrito. A estatística F
será então dada por:
( SQReg ir − SQReg r ) / q ( SQRes r − SQResir ) / q
F= ou F = (9)
SQResir /(n − k − 1) SQResir /( n − k − 1)
Onde SQRegir e SQRegr são, respectivamente, a soma dos quadrados da regressão sem e
com restrição nos parâmetros, SQResir e SQResr são a soma dos quadrados dos resíduos da
regressão sem e com restrição. O número de graus de liberdade do numerador (contribuição
marginal) será igual a q, número de coeficientes considerados na contribuição marginal, e o
número de graus de liberdade do denominador (resíduos) será igual a n–k–1, representando a
variabilidade aleatória dos resíduos do modelo irrestrito em torno do plano ajustado.
Uma maneira alternativa de calcular a estatística F para a contribuição marginal é a partir
das diferenças entre os coeficientes de determinação do modelo irrestrito ( Rir2 ) e restrito ( Rr2 ).
Pode-se demonstrar facilmente que a equação (9) será também igual a:
( Rir2 − Rr2 ) / q
F= (10)
(1 − Rir2 ) /( n − k − 1)
A equação (10) é particularmente útil pois em muitos trabalhos não dispomos dos
resultados das somas dos quadrados, apenas dos coeficientes de determinação dos ajustes.
Entretanto, como o R2 refere-se ao percentual da variabilidade da variável dependente explicada
127
pelo modelo, a utilização da equação (10) exige sempre supor que as variáveis dependentes do
modelo restrito e irrestrito são as mesmas.
Sinteticamente, a tabela ANOVA para análise da contribuição marginal das q variáveis

independentes pode ser representada por:
(11)
Para testar a hipótese nula de que não há contribuição marginal (expressão 8), devemos
estimar a probabilidade de erro p associada ao valor estimado de F em (9), que terá distribuição
Fq,n–k–1. O valor p indicará a probabilidade de erro ao rejeitarmos H0, ou seja, a chance de erro ao
afirmarmos que o grupo de q variáveis independente contribui para explicar a variabiliade de Y.
(12)
Exemplo 1. Dada a relação entre renda familiar (Y), anos de estudo (X1) e idade (X2) do
responsável pela família, podemos afirmar que a contribuição marginal da idade seja
significativa?
Para identificar a contribuição marginal da idade, o primeiro passo é verificar a contribuição do
conjunto de variáveis independentes (X1 e X2) no ajuste para o modelo irrestrito:
128
Yi = 1,9 + 1X 1i + 0,06 X 2i + eî

Cuja SQRegir como verificado anteriormente, seria dada por:
SQ Re g ir = 34,8
Como desejamos analisar a contribuição marginal de X2, a restrição ao seu respectivo parâmetro
(β2) levaria ao ajuste:
Yi = 2,714 + 1,286 X 1i + eî

Com respectiva SQReg dada por:
SQ Re g r = 34,714
Teríamos, então, a contribuição marginal de X2 dada por:
Contribuição X2= 34,8 – 34,714 = 0,086
Resumidamente, a Tabela ANOVA para a contribuição marginal seria dada por:
Onde os três quadrados médios da regressão apresentados na tabela representam a variabilidade

média explicada por cada componente da regressão restria (X1), contribuição marginal (X2) e
regressão irrestrita (X1 e X2). A estatística F dada pela razão entre o quadrado médio da
contribuição marginal e o quadrado médio dos resíduos permite testar a hipótese nula de que a
contribuição marginal de X2 é igual a zero, ou seja:
H0 : β2 = 0
Como a contribuição marginal e os resíduos apresentam, cada, apenas um grau de liberdade, a
estatística F de teste teria distribuição F1,1 e o valor p associado ao valor observado na amostra
(0,430) seria de 0,430:
129
Em outras palavras, não haveria evidências para afirmar que a contribuição marginal da idade
sobre a variabilidade da renda familiar seja significativa. A probabilidade de erro ao fazermos tal
afirmação seria muito alta, de aproximadamente 63%.
9.2. Correlação parcial

Da mesma forma que a desagregação da análise de variância permite considerar a
contribuição marginal de uma variável explanatória, podemos estender o conceito de correlação
simples para estimar em que medida a variável dependente e uma das variáveis independentes
estão relacionadas, depois de isolados os efeitos das demais variáveis explanatórias do modelo de
RLM. Seria o caso, por exemplo, de verificarmos o grau de associação linear entre renda e idade
para indivíduos com o mesmo grau de escolaridade.
A representação da correlação parcial entre, por exemplo, Y e X1, mantendo-se constantes
os efeitos das k–1 variáveis independentes restantes, será:
rY 1.23...k (13)
Analogamente, rY21.23...k seria o respectivo coeficiente de determinação parcial, igual ao
quadrado da correlação parcial. Outras notações utilizadas são: rY1, para a correlação simples
entre Y e X1, e rY21 , o respectivo coeficiente de determinação; r1k, a correlação simples entre X1 e
Xk, e r12k o respectivo coeficiente de determinação. Lembrando que o coeficiente de correlação

linear entre duas variáveis é dado por:
n
côv(Y , X ) ∑i =1 xi y i
rYX = = (14)
SY S X n n
∑i =1 xi2 ∑i =1 yi2
Por simplicidade, veremos apenas os procedimentos para cálculo da correlação parcial de
um ajuste de RLM com duas variáveis independentes (1), embora a generalização para um caso
com k variáveis independentes possa ser feita sem grandes dificuldades.
130
Para, por exemplo, calcular rY1.2 , primeiro devemos isolar a parcela de Y não associada a
X2. A parcela de Y não associada a X2 estaria contida nos resíduos (êY2) do ajuste:
Yi = βˆ0 + βˆ1 X 2i + eˆY 2i (15)
Posteriormente, devemos isolar a parcela de X1 não associada a X2, que estaria contida
nos resíduos (ê12) do ajuste:
X 1i = αˆ 0 + αˆ1 X 2i + eˆ12i (16)
Por sua vez, a correlação parcial entre Y e X1, isolando-se o efeito de X2, seria então dada
pela relação entre os resíduos dos dois ajustes:
rY 1.2 = reˆY 2eˆ12 (17)
Embora trabalhosa, a vantagem dessa estimativa por etapas é que pode ser facilmente
generalizada para o caso com k variáveis independentes. Mas, no caso de duas variáveis
independentes, pode-se demonstrar que o coeficiente de correlação parcial pode ser diretamente
obtido pela expressão:
rY 1 − rY 2 r12 rY 2 − rY 1r12
rY 1.2 = e rY 2.1 = (18)
(1 − r122 )(1 − rY22 ) (1 − r122 )(1 − rY21 )
Analogamente, o coeficiente de determinação parcial seria dado por:
R 2 − rY22
r 2Y 1.2 = (19)
1 − rY22
Uma importante consequência das expressões em (18) é que, nem sempre, a correlação
parcial terá o mesmo sinal da correlação simples. Em outras palavras, duas variáveis podem
estar, por exemplo, positivamente relacionadas, embora a correlação parcial entre essas, após
isolado o efeito de outras variáveis, seja negativa.
131
Exemplo 2. Para obtermos diretamente, por exemplo, a correlação parcial entre renda familiar
(Y) e anos de estudo (X1), isolando-se o efeito da idade (X2), devemos calcular:
rY 1 − rY 2 r12
rY 1.2 =
(1 − r122 )(1 − rY22 )
As correlações simples necessárias para o cálculo serão dadas por:
n
rY 1 =
∑i=1 x1i yi =
27
= 0 ,9959
n n (21)(35)
∑i=1 x12 ∑i=1 yi2
i
rY 2 =
∑i=1 x2 i yi =
130
= 0 ,9827
n n (500)(35)
∑i=1 x22 ∑i=1 yi2i
r12 =
∑i=1 x1i x2 i =
100
= 0,9759
n n (21)(500)
∑i=1 x12 ∑i=1 x22
i i
A correlação parcial será, então, dada por:

(0,9959) − (0,9827)(−0,9757)
rY 1.2 = = 0,913
[1 − (0,9759) 2 ][1 − (0,9827) 2 ]
Ou seja, mesmo desconsiderando o efeito da idade, há uma coerelação extremamente forte entre
renda e anos de estudo.
Exercícios
mensal (X1, em 1000 reais) e tamanho (X2, distância ao supermercado) de 4 famílias, pede-se:
Y 0,4 0,2 0,3 0,6
X1 1 2 2 3
X2 2 3 3 2
a. Analise a significância da contribuição marginal da distância ao supermercado
sobre os gastos com alimentação.
b. Calcule e interprete a correlação parcial entre gastos com alimentação e renda
mensal.
132
Ano 1974 1975 1976 1977
X1 (1.000 R$) 6 8 8 10
X2 (R$ / kg) 0.8 1.2 1.2 1.0
a. Analise a significância da contribuição marginal do logaritmo da renda sobre o
logaritmo do consumo de frango.
b. Calcule e interprete o coeficiente de determinação parcial entre o logaritmo da
renda e o logaritmo do consumo de frango.
médicos (X2, em médicos por 1000 habitantes):
Y 5 4 7 8
X1 10 12 13 16
X2 3 2 1 0

Yi = α + β1 ln( X 1 ) + β 2 X 2 + ei
a. Qual a parcela da variabilidade da taxa de mortalidade que é explicada
isoladamente pelo número de médicos? Há evidências que essa parcela seja
significativa?
b. Calcule e interprete o coeficiente de determinação parcial entre a taxa de
mortalidade e o número de médicos.
Z 1 2 3 4 5 7 8 10 12 13 16
ln(Z) 0 0,7 1,1 1,4 1,6 1,9 2,1 2,3 2,5 2,6 2,8
133
Respostas
1) a. SQRegir-SQRegr=0,0825-0,02=0,0625; QMRegcontribuiçao=0,0625; F=12,5; p=0,175; b.
rY1.2= 0,8944.
2) a. SQRegir-SQRegr=0,0855-0,0035=0,0821; QMRegcontribuição=0,0821; F=282,6; p=0,038; b.
r2Y2.1=0,996.
3) a. SQRegir-SQRegr=9-3,769=5,231; QMRegcontribuição=5,231; F=5,231; p=0,262; b.
2
r Y2.1=0,735.
134
10. Multicolinearidade
Introdução
Como sabemos, um coeficiente angular de um modelo de regressão múltipla estima o
efeito marginal de uma variável independente sobre a variável dependente. Em outras palavras,
estima a variação esperada na variável dependente caso haja uma variação unitária na referida
variável independente, mantendo todas as demais constantes. Imagine agora uma siutuação em
que a variação unitária de um regressor implique necessariamente na variação de outro regressor.
Por exemplo, horas médias trabalhadas por dia e horas médias trabalhadas por semana. Como
poderíamos identificar o efeito marginal isolado de cada variável se não podemos variar uma
mantendo constante a outra?
Uma condição necessária para estimar os coeficientes do modelo de regressão é que não
haja relação linear exata entre quaisquer variáveis explanatórias do modelo. Quando há uma
relação linear exata dizemos que as variáveis explanatórias são perfeitamente colineares, ou que
existe perfeita colinearidade. Seria o caso de tentarmos prever a renda de uma pessoa (Y) com
base na jornada média diária (X1) e na jornada média de uma semana de 5 dias (X2). Como as
variáveis X1 e X2 são perfeitamente colineares (X2=5X1), seria impossível determinar o efeito
isolado X2 sobre Y. Isso porque se mantermos X1 constante, X2 também permanecerá constante e
será impossível medir seu efeito isolado sobre Y.
Na prática, entretanto, a colinearidade exata ocorre raramente, muitas vezes por falhas na
especificação do modelo. Frequentemente nos deparamos com a situação de multicolinearidade,
na qual há uma elevada, mas não exata, relação linear entre duas ou mais variáveis
independentes22. Embora a multicolinearidade não afete as propriedades dos estimadores de
MQO, pode dificultar a identificação do efeito isolado das variáveis independentes, já que seria
muito difícil observar na amostra variações isoladas de uma variável após mantidas constantes as
demais. Por exemplo, se a renda temporária (X1) e a renda permanente (X2) de um indivíduo
apresentam relação de multicolinearidade, será mais difícil observar variações na renda
22
O termo multicolinearidade foi originalmente proposto por Ragnar Frisch em 1934 para designar a relação
colinear exata entre duas ou mais variáveis independentes. Atualmente, refere-se a um conceito mais amplo, de
interrelação entre as varáveis independentes, mas não de maneira exata.
135
Econometria Multicolinearidade
temporária sem que haja, simultaneamente, variações na renda permanente. Consequentemente,

seria difícil estimar, por exemplo, seu efeito isolado sobre o consumo do indivíduo (Y).
10.1. Definição
Dizemos que há perfeita colinearidade entre as variáveis explanatórias quando uma delas
(Xj) for definida por uma função linear exata das demais:
X ji = λ1 X 1i + λ 2 X 2i + ... + λk X ki (1)
Onde λ1, λ2,... λk são constantes tais que nem todas são zero simultaneamente.
Entretanto, a chance de se observarmos uma amostra em que os regressores se relacionem
dessa maneira é muito pequena. Usualmente ocorrerá quando há falhas na especificação do
modelo. O que ocorre, na prática, é a relação de multicolinearidade, na qual as variáveis
independentes estão interrelacionadas, não de maneira perfeita, mas com a incorporação de um
termo vi aleatório.
X ji = λ1 X 1i + λ 2 X 2i + ... + λk X ki + vi (2)
Exemplo 1. Suponha, por exemplo, a jornada média diária (X1) de um ocupado e sua equivalente
jornada média semanal (X2) considerando uma semana de 5 dias úteis. Há uma evidente
colinearidade exata entre X1 e X2 já que esta última foi obtida pela expressão X2=5X1.
X1 X2 X2*
4 20 22
6 30 38
8 40 44
10 50 50
*
Já a variável X2 representa a jornada efetivamente praticada em uma semana de referência, ou
seja, a jornada diária multiplicada pelo número de dias da semana mais eventuais desvios devido
a ausências ou horas extras de trabalho na semana: X2*=5X1+vi. Os desvios observados foram: 2,
8 4 e 0. Embora não haja uma relação exata entre X1 e X2*, há uma forte relação de
multicolinearidade, já que o coeficiente de correlação linear entre ambas é de 0,965.
136
No caso de perfeita colinearidade entre, por exemplo, X1 e X2 (X1=λ2X2), seria impossível

estimar seus respectivos coeficientes de regressão em modelo de RLM. Como os coeficientes do
modelo de regressão estimam o efeito isolado de cada variável independente sobre a variável
dependente, não haveria, nesse caso, efeito isolado a ser identificado (figura 3).
(3)
Outra maneira de enxergar esse problema é a partir de desenvolvimento algébrico.

Substituindo X1 por sua função linear de X2 no ajuste de RLM teríamos:
Yi = αˆ + βˆ1 X 1i + βˆ 2 X 2i + eî
) )
Yi = αˆ + βˆ1 (λ2 X 2i ) + β 2 X 2i + ei (4)
) )
Yi = αˆ + ( βˆ1λ2 + β 2 ) X 2i + ei
)
Isso significa que, embora seja possível estimar a função dos coeficiente ( βˆ1λ2 + β 2 ) ,
essa estimativa permitiria infinitas soluções para β̂1 e βˆ 2 , já que teríamos apenas uma equação
para duas incógnitas. Em outras palavras, na presença de perfeita colinearidade não haveria uma
solução única para os coeficientes isolados do modelo de regressão, embora seja possível obter
uma resposta única para uma combinação linear dos mesmos. Se tentarmos encontrar as
estimativas de MQO por βˆ = ( X T X) −1 ( X T y ) na presença de perfeita colinearidade, chegaremos
a uma matriz ( XT X) que é singular e não-inversível, inviabilizando nossas análises (ver

apêndice A)23.
23
Caso uma das variáveis independentes seja uma função linear exata de outra variável independente, uma das
colunas da matriz XTX será uma combinação linear exata de outra coluna. Nesse caso, a matriz XTX será singular
(determinante igual a zero) e não-inversível.
137
Por sua vez, a existência de multicolinearidade entre as variáveis independentes dificulta,

mas não inviabiliza, a estimativa dos coeficientes de regressão. Como estes coeficientes
pressupõem, por definição, a variação marginal em Y dada uma variação unitária em Xj,
mantendo-se constantes as demais variáveis independentes, seria muito difícil observarmos uma
mudança em Xj sem que haja mudanças nos demais fatores interrelacionados. Graficamente,
poderíamos representar um efeito isolado inexpressivo de cada variável independente ante o
efeito conjunto dessas (Figura 5).
(5)
Em outro extremo, teríamos a situação de ausência de qualquer relação linear entre X1 e

X2, ou seja, toda a contribuição do modelo para explicar a variabilidade de Y seria dada pelos
efeitos isolados de X1 e X2 (Figura 6). Nesta situação, os coeficientes do modelo de RLM seriam
exatamente os mesmos daqueles obtidos por RLS para cada uma das variáveis independentes
separadamente (ver Apêndice B).
(6)
É importante lembrar que a ausência de multicolinearidade não faz parte dos pressupostos
do Teorema de Gauss-Markov para que os estimadores de MQO sejam os MELNV. Em outras
palavras, a presença de multicolinearidade não implica que os coeficientes de MQO deixam de
ser não viesados e de mínima variância. A multicolinearidade apenas dificulta a identificação dos
138
efeitos isolados na amostra e, caso esta não seja suficientemente representativa dos inúmeros
comportamentos das variáveis (represente variações conjuntas e isoladas dos regressores), não
permitirá estimar coeficientes significativos para os efeitos marginais. Assim, o impacto da
multicolinearidade sobre as estimativas dos coeficientes dependerá também de outros fatores,
como o tamanho da amostra e a variabilidade do regressor. Por esse motivo, muitos autores
argumentam que a multicolinearidade trata-se, na verdade, de um problema de
micronumerosidade, ou seja, que a amostra não seria grande o suficiente para representar
significativamente o relacionamento entre as variáveis em questão24.
10.2. Fator Inflacionário da Variância

Para melhor compreender o que acontece com a significância dos coeficientes estimados
na presença de multicolinearidade, podemos representar a variância de cada estimador como uma
função de sua relação com as demais variáveis independentes do modelo.
Sabemos que a matriz de variâncias e covariâncias dos estimadores de MQO é dada pela
expressão:
Var (βˆ ) = ( X T X ) −1σ 2 (7)

A partir de desenvolvimento algébrico, pode-se ainda chegar à expressão para a variância
de cada estimador β̂ j (ver Apêndice C):
σ2
Var ( βˆ j ) = n (8)
∑i =1 x 2ji (1 − R 2j )
Onde R 2j é o coeficiente de determinação do ajuste de Xj em função de todas as demais
variáveis independentes, ou seja, do ajuste:

X ji = α + β1 X 1i + ... + β k −1 X ki + ei (9)
Assim, a partir de (8), temos que quanto maior for a relação linear entre a variável Xj e as
demais variáveis independentes do modelo de RLM, maior será R 2j e maior será a variância do
24
O conceito da micronumerosidade foi sugerido por Arthur Goldberger (1991), argumentando que o problema da
multicolinearidade deve-se, na verdade, à pequena variabilidade dos regressores observados em uma amostra de
tamanho insuficiente. Segundo o autor, amostras de tamanho pequeno e baixa variabilidade dos regressores causam
problemas tão graves quanto o da multicolinearidade.
139
estimador βˆ j (Figura 10). Consequentemente, mais dificíl será provarmos que o valor estimado
por β̂ j é estatisticamente diferente de zero. À medida que R 2j aproxima-se de 1 (perfeita
colinearidade), a variância de β̂ j tende a infinito, tornando praticamente impossível identificar
significância no coeficiente estimado.
(10)
Para facilitar a identificação da multicolinearidade, é comum representar a equação (8)

como uma função de um termo denominado Fator de Inflacionário da Variância (FIV):
σ2 1 σ2
Var ( βˆ j ) = n 2
= n
FIV j (11)
∑i =1 x 2ji (1 − R j ) ∑i =1 x 2ji
O termo FIV representa o quanto a variância de β̂ j está sendo inflacionada pela relação
de multicolinearidade entre Xj e as demais variáveis independentes do modelo. Quando não

houver relação entre as variáveis independentes ( R 2j =0), o FIV será igual a 1 e, à medida que
aproximamo-nos de uma relação exata ( R 2j =1), o FIV tenderá a infinito. Para relações
relativamente fortes ( R 2j superior a 0,8), o FIV será igual ou superior a 5.
A partir da equação (11) podemos ainda derivar duas importantes propriedades da

variância das estimativas dos coeficientes:
i) quanto menor a dispersão do erros em torno da regressão (menor σ 2 ), mais

precisa será a estimativa de β j ;
n
ii) quanto maior a variabilidade da variável Xj (medida por ∑i =1 x 2ji ), maior será a
representatividade dessa variável na amostra e, consequentemente, mais precisa

será a estimativa de β j .
140
Essas propriedades já nos permitem concluir algumas soluções intuitivas para

compensarmos as consequências da multicolinearidade sobre a variância dos estimadores: i)
aumentar a representatividade da variável independente na amostra, o que raramente é possível
em estudos não experimentais; ii) aumentar o tamanho da amostra; iii) reduzir a variância dos
erro, por exemplo, incluindo regressores que contribuiam para explicar a variabilidade do
regressando e não estejam associados aos demais regressores do modelo.
10.3. Identificação da multicolinearidade

A partir das análises apresentadas, podemos definir algumas regras muito simples de
identificação da multicolinearidade. Antes, porém, é importante destacar que a
multicolinearidade é uma característica exclusiva da amostra, já que na população os regressores
são considerados fixos, não estocásticos (não aleatórios). Assim, não seria prudente realizar
testes de inferência estatística para identificá-la. Podemos, entretanto, observar alguns
comportamentos na amostra que sugerem sua presença e seus impactos sobre a significância dos
coeficientes:
iii) Estatísticas conflitantes: um R2 elevado em um modelo com poucas estatísticas t

significativas. Em um caso extremo, teríamos uma estatística F significativa sem
qualquer estatística individual t significativa. Enquanto o R2 e a estatística F
analisam o comportamento conjunto das variáveis independentes, as estatísticas t
analisam o efeito isolado de cada uma. Assim, poderíamos ter uma contribuição
conjunta significativa sem que as contribuições marginais o sejam (Figura 5).
iv) Relacionamento das variáveis independentes: um elevado grau de
relacionamento entre uma variável independente Xj e o conjunto das demais
(Equação 9) pode sugerir a presença de multicolinearidade. O R 2j costuma ser
utilizado como medida da presence de multicolinearidade;

v) Fator Inflacionário da Variância: uma consequência do relacionamento entre as
variáveis independentes é que se o valor de R 2j for elevado, o FIVj (Fator
Inflacionário para a j-ésima variável independente) também o será. Como S β̂

j
141
cresce proporcionalmente com o FIVj, será difícil provarmos a significância de

β̂ . Assim, o FIV costuma ser utilizado como indicador da presença de
multicolinearidade na amostra. Não há, entretanto, um padrão estabelecido para
definir a partir de que valor o FIV indicará problemas com a multicolinearidade.
Um valor de FIVj superior a 10 (o que significa um R 2j superior a 0,9), por
exemplo, indica que a variância de β j é 10 vezes maior que poderia ser na

ausência de relação entre as variáveis independentes. Entretanto, seus impactos
sobre a significância do coeficiente βj dependerá do tamanho da amostra, da
variância dos erros e da variabilidade desse regressor.
10.4. Correção da multicolinearidade

Como a multicolinearidade representa, essencialmente, uma deficiência da amostra em
representar a relação entre as variáveis, em muitas situações não nos resta muito a fazer.
Sobretudo em estudos econômicos, quando frequentemente trabalhamos com fontes secundárias
de informações. Entretanto, algumas possíveis respostas à presença de multicolinearidade são:
i) Aumentar o tamanho da amostra: aumentando o tamanho da amostra estaremos

aumentando a variabilidade de Xj e, consequentemente, reduzindo a variância do
estimador βˆ j . Podemos, assim, compensar o elevado valor de FIVj de tal forma
que a estimativa do coeficiente se torne significativa.

ii) Transformar as variáveis: a multicolinearidade pode ser eliminada
transformando-se as variáveis independentes. Por exemplo, se estamos estimando
o preço de venda da soja com base na área e quantidade produzida, teremos
provavelmente uma relação de colinearidade entre área e quantidade produzida.
Entretanto, se substituirmos ambas as variáveis independentes pela variável
produtividade (produção/área), estaríamos eliminando esse problema;
iii) Exclusão de variáveis: uma solução simples, mas perigosa, é a exclusão de uma
ou mais variáveis que apresentam multicolinearidade. A exclusão de variáveis
essenciais para compreensão do problema pode, entretanto, gerar o chamado viés
142
de especificação, que é a falha na formulação apurada das relações entre a

variável dependente e independentes.
Esta última opção, exclusão de variáveis independentes, usualmente coloca o pesquisador

em um dilema entre a variância e o viés dos estimadores. Suponha, por exemplo, que na real
relação da população Y dependa de X1 e X2.
Y = α + β1 X 1 + β 2 X 2 + e (12)
Caso X1 e X2 sejam correlacionados, então a não consideração de, por exemplo, X2 no
ajuste gerará estimadores viesados para β1. Por outro lado, a manutenção de X2 no ajuste
inflacionará a variância de β1. Há, no mínimo, duas razões para preferir a manutenção de X2 no
ajuste. Primeiro, o viés gerado pela sua exclusão não se reduz aumentando o tamanho da
amostra, ao passo que a variância sim. Segundo, a exclusão de X2 tenderá a aumentar a
variabilidade dos erros e, consequentemente a variância de β1.
Exemplo. A tabela abaixo contém dados hipotéticos sobre emissões de CO2 (CO2, em milhões
de toneladas), PIB (PIB, em bilhões de US$) e população (Pop, em milhões de habitantes) para 8
países.
CO2 PIB Pop
1,5 13,2 3,2
8,7 197,0 35,5
2,8 128,6 19,1
9,4 286,4 40,4
4,4 72,6 3,1
8,4 167,8 22,3
3,2 114,4 8,4
0,9 58,0 9,0
Pressupõe-se que as emissões cresçam linearmente com o crescimento da economia e também da
população, teremos:
CO 2 = β0 + β1 PIB + β 2 Pop + e
Aplicando-se MQO, teremos o seguinte resultado para a tabela ANOVA:
143
Fonte gl SQ QM F p
Regressão 2 63.9 31.9 8.80 0.023
Resíduos 5 18.2 3.6
Total 7 82.0
Em outras palavras, o ajuste mostrou-se significativo. A probabilidade de erro ao afirmarmos que
as variáveis PIB e Pop contribuem para expliciar a variabilidade do CO2 é de apenas 0,02%.
Mais ainda, o R2 de 0,779 sugere que 78% da variabilidade do CO2 seja explicada pelas
variáveis PIB e Pop.
Entretanto, se verificarmos as contribuições isoladas dos regressores, veremos que ambas são
insignificantes:
Variável β̂ S β̂ t p
Intercepto 0.472 1.328 0.356 0.737
PIB 0.030 0.025 1.226 0.275
Pop 0.028 0.150 0.183 0.862
A probabilidade de erro ao afirmarmos que o efeito isolado do PIB sobre o CO2 seja diferente de
zero é de 27,5%. Para a variável Pop, a probabilidade de erro é de 86,2%. Esses resultados
sugerem a presença de colinearidade entre PIB e Pop, pois, embora o ajuste seja significativo no
conjunto, não está conseguindo estimar os efeitos isolados de cada variável independente sobre o
CO2.
Como os coeficientes β1 e β2 estimam o efeito isolado das variáveis PIB e Pop sobre o CO2, suas
estimativas estariam sendo insignificantes pois essas variáveis representariam apenas uma
pequena parcela da variabilidade total explicada pelo ajuste. Em outras palavras, o efeito
conjunto do PIB e Pop representaria a maior parcela da variabilidade explicada pelo ajuste.
Para certificar-se da relação de colinearidade entre PIB e Pop, podemos analisar o modelo:
PIB = α 0 + α 1 Pop + e
Aplicando-se MQO, chegaremos a um R2 de 0,889 e uma estatística F igual a 47,9, a qual
corresponde a uma probabilidade de erro inferior a 0,001% ao afirmarmos que haja relação linear
entre PIB e Pop.
Em outras palavras, há fortes indícios para suspeitar que a relação de colinearidade entre PIB e
Pop esteja comprometendo a significância de seus estimadores na regressão para o CO2. As
variâncias desses estimadores estariam sendo inflacionadas pela relação de colinearidade entre os
144
regressores e a amostra não estaria sendo suficiente para captar os efeitos isolados de suas
respectivas variáveis independentes.
Podemos ainda calcular o FIV para estimarmos em que medida as variâncias estão sendo
inflacionadas pela relação de multicolinearidade. Como temos apenas uma relação linear simples
entre PIB e Pop, o R 2j e, consequentemente, o FIVj serão os mesmos para PIB e Pop. O FIV será
dado por:
1
FIV j = = 8,98
(1 − 0,889)
Em outras palavras, as variâncias dos estimadores β̂1 e β̂ 2 são 9 vezes supeior ao que poderiam
ser na ausência de relação linear entre as variáveis independentes. Esse elevado valor do FIV está
sendo suficiente para tornar as estimativas insiginificantes, dada a baixa representatividade da
amostra. A solução ideal para este problema seria obter uma amostra mais representativa
(maior). Excluir uma das variáveis poderia comprometer a especificação teórica das relações, ou
seja, tornar tendenciosas as estimativas dos coeficientes. Transformações podem ainda ser
sugeridas às variáveis como, por exemplo, estimar as emissões per capita de CO2 como função
do PIB per capita.
Exercícios
1. A tabela abaixo apresenta informações sobre a renda (Renda), anos de idade (Idade), anos de
estudo (Escolaridade) de uma amostra de 6 ocupados. Na ausência de informações apuradas
sobre a experiência profissional dos ocupados, trabalha-se com uma aproximação dada pela
idade da pessoa menos a idade esperada de finalização dos estudos. Supondo que o indivíduo
ingresse na escola com 7 anos, teríamos a variável medindo a experiência profissional
(Experiencia) dada por:
Experiencia = Idade – Escolaridade – 7
Renda Idade Escolaridade Experiencia
1590 25 15 3
1340 24 12 5
1880 32 18 7
1600 31 15 9
1910 36 18 11
2190 40 20 13
145
Pressupõe agora que a renda seja uma função linear da escolaridade e da experiência
profissional, teríamos o modelo de RLM:
Renda = α + β1 Escolaridade + β2 Experiencia + e
a. Ajuste a regressão por MQO e analise a significância dos coeficientes;
b. A colinearidade entre as variáveis independentes poderia estar influenciando a
significância dos coeficientes?
c. Estime as medidas utilizadas para analisar a magnitude da relação linear entre as
variáveis (R2 e FIV) e interprete seus resultados;
d. Seria possível incluir a variável Idade no modelo de RLM? Por quê?
2. O arquivo VendaAutomoveis.xls contém informações anuais sobre venda de novos

automóveis de passeio (AUTO, em milhares de unidades), índice de preço ao consumidor
geral (IPC, 1967=100), índice de preço ao consumidor para automóveis (IPCAuto, 1967 =
100) e renda pessoal disponível (RENDA, em bilhões de dólares) nos EUA entre 1971 e
1986.
a. Ajuste a regressão para as vendas (AUTO) como uma função linear do IPC,
IPCAuto e RENDA. Interprete os coeficientes;
b. A partir das estatísticas do ajuste, suspeitaria da existência de multicolinearidade?
c. Estime as relações entre as variáveis independentes e identifique evidências para
suspeitar da multicolinearidade.
d. Calcule o FIV de cada estimador dos coeficientes de regressão.
e. Proponha uma correção para o problema da multicolinearidade.
3. O arquivo TransporteColetivo.xls contém informações sobre o número de viagens de ônibus

(Y, em 000s passageiros / hora), tarifa do ônibus (X1, em R$) e preço do litro de gasolina (X2,
em R$). Suponha que a relação entre as variáveis seja dada por:
ln(Y ) = α + β1 ln( X 1 ) + β 2 ln( X 2 ) + e .
a. Há razões econômicas para suspeitar de multicolinearidade?
b. Há evidências estatísticas para suspeitar de multicolinearidade?
146
4. (ANPEC, 2012) Suponha que o pesquisador esteja interessado em investigar os

determinantes da delinquência juvenil e tenha acesso aos seguintes dados provenientes de
1000 cidades de um dado país: A, o número de internações por 1000 adolescentes; P, o
número de residências por 1000 domicílios na cidade com renda abaixo da linha de pobreza;
S, o número de residências por 1000 domicílios na cidade com apenas um dos pais. O
pesquisador estima a regressão: A = β 1 + β 2 P + β 3 S + u
em que u é um termo de erro que satisfaz todas as hipóteses usuais do modelo de regressão.
A correlação populacional entre P e S é 0,96.
Julgue as seguintes afirmativas:
a. A alta correlação populacional entre P e S dará origem ao problema conhecido
como multicolinearidade.
b. Multicolinearidade não torna viesados os estimadores de mínimos quadrados
ordinários dos coeficientes, mas faz com que eles sejam inconsistentes.
c. As estimativas dos desvios padrão serão viesadas e provavelmente subestimarão
os valores verdadeiros.
d. Na presença de multicolinearidade, os testes t e F não são válidos.
e. Se, ao invés de uma alta correlação populacional entre P e S, houvesse uma alta
correlação populacional entre A e P ou entre A e S, o problema da
multicolinearidade seria ainda maior.
5. (ANPEC, 1992) Dada a função de produção Pi = β 0 K β1 Lβ2 eui , se houver correlação linear
perfeita entre K e L, necessariamente o modelo não poderá ser estimado.
6. (ANPEC, 1993) Considerando o modelo de regressão múltipla

Pode-se afirmar que para estimar os parâmetros β j da regressão é necessário que as
variáveis explicativas sejam independentes entre si.
7. Para um modelo de RLM com k variáveis independentes, é corretor afirmar que:
147
a. Caso a relação linear simples entre X1 e cada uma das outras k–1variáveis
independentes seja não perfeita, então não haverá multicolinearidade perfeita
entre X1 e as demais variáveis independentes conjuntamente;
b. Caso a variância para um coeficiente estimado seja elevada, significa que há
necessariamente multicolinearidade;
Respostas
1) a. Renda = 128 + 95 Escolaridade + 9 Experiencia + ê; F = 129.47; p = 0.001; S βˆ =9,67;
1
t=9.83; p=0,002; S βˆ =7,43; t=1,21; p=0,312; c. R2=0,553; FIV=2,237.

2
2) a. AUTO = 10650,4 + 87,4 IPC − 137,9 IPCAuto + 8,8RENDA + eˆ ; F=10,78; p=0,001; t1=1,53;
2
p1=0,151; t2=-4,40; p2<0,001; t3=4,70; p3<0,001; c. R123 = 0,994 ; F123=1138,7; p123<0,001;
2 2
R213 = 0,994 ; F213=1128,2; p213<0,001; R312 = 0,984 ; F312=406,1; p312<0,001; d.
FIV123=176,2; FIV213=174,6; FIV312=63,5.
3) b. ln(Y ) = 7,42 − 1,52 ln( X 1 ) + 4,80 ln( X 2 ) + eˆ ; F=5,75; p=0,033; t1=-2,36; p1=0,050;
2
t2=1,068; p2=0,320; R12 = 0,212 ; F12=2,15; p12<0,181; FIV12=1,268.
4) a. V; b. F; c. F; d. F; e. F.
5) V.
6) F.
7) a. F; b. F.
148
Apêndice A – Estimativas de MQO na presença de colinearidade perfeita

Seja, por exemplo, um modelo de RLM com duas variáveis independentes:
Yi = α + β1 X 1i + β 2 X 2i + ei
Podemos ainda representá-lo como uma função dos desvios:

yi = β1 x1i + β 2 x 2i + ei
E os estimadores de MQO serão dados por:

βˆ = ( X T X ) −1 ( X T y )
Onde:
 ∑ x12J ∑x x 
X X= 
T 1j 2j
 ∑ x 2 x1 ∑x 2

 j j 2J 
O determinante desta matriz será:
X T
X=
∑x 2
1J ∑x x 1j 2j
= ∑ x12J ∑ x22J − (∑ x1 j x2 j ) 2
∑x x 2j 1j ∑x 2
2J
No caso de colinearidade perfeita entre X1 e X2, teremos que:

2
 ∑x x  (∑ x1 j x2 j ) 2
 1j 2j 
r122 =   = =1

 ∑x ∑x 2
1J
2
2J  ∑ x12J ∑ x22J
Onde r122 é o quadrado do coeficiente de correlação linear entre x1 e x2, ou o coeficiente de

determinação da relação linear simples entre essas variáveis.
Desenvolvendo teremos:
(∑ x1 j x2 j ) 2 = ∑ x12J ∑ x22J
E, consequentemente, o determinante da matriz XTX será nulo:
XT X = 0
Em outras palavras, a matriz XTX será singula e não inversível, não sendo possível obter os
estimadores de MQO para β1 e β2.
149
Apêndice B –Estimativas de MQO na ausência de relação linear entre os regressores

Seja, por exemplo, o caso do modelo de RLM com duas variáveis independentes X1 e X2,
representado pela função das variáveis centradas:
yi = β1 x1i + β 2 x 2i + ei
Se ajustássemos Y como função simples de cada variável independente teríamos:

yi = β1 x1i + e1i
y i = β 2 x 2i + e 2 i
Sabemos que o vetor de estimadores de MQO para a RLM será:

−1
ˆβ = ( X T X) −1 ( XT y ) =  ∑ 1J ∑ x1 x2
 x2   ∑ x1 j y j 
j j   
 ∑ x 2 x1 ∑ x22   ∑ x2 y j 
 j j j   j 
E que os estimadores de MQO para os modelos de RLS serão:
βˆ1 =
∑ x1 y jj
e βˆ 2 =
∑ x2 y j j
∑ x12j ∑ x22 j
Entretanto, caso as variáveis X1 e X2 sejam independentes, teremo que ∑ x1 x2
j j
= 0 e,
consequentemente:
−1
 ∑ x12 0   ∑ x1 j y j   ∑ x1 j y j ∑ x12 
βˆ =  J   = J 
 0 ∑ x2 j 
2  ∑ x2 y j   ∑ x2 y j ∑ x22 
  j   j j 
Ou seja, os estimadores do modelo de RLM equivalem-se aos estimadores dos modelos de

RLM.
150
Apêndice C – Variâncias das Estimativas de MQO na presença de multicolinearidade

Considerando o exemplo do model de RLM com duas variáveis independentes:
yi = β1 x1i + β 2 x 2i + ei
A matriz de variâncias e covariâncias dos estimadores dos coeficientes será:

Var (βˆ ) = ( X T X ) −1 σ 2
Para invertermos a matriz XTX teremos:
−1
 ∑ x12J ∑x x   ∑ x 22J − ∑ x1 j x2 j 
( X X) = 
T −1 1j 2j
 = 1  
 ∑ x 2 x1 ∑x 2
 XT X  − ∑ x2 x1 ∑ 1J 
x 2
 j j 2J   j j
Para simplificar as representações, definiremos as seguintes expressões: S11 = ∑ x12 ;
S 22 = ∑ x 22 ; S12 = S 21 = ∑ x1 x 2 .Teremos então:
1  S 22 − S12   S 22 ( S11 S 22 − S122 ) − S12 ( S11 S 22 − S122 ) 

( X T X) −1 = 2 
 = 
S11 S 22 − S12  − S12 S11   − S12 ( S11S 22 − S122 ) S11 ( S11 S 22 − S122 ) 
Se dividirmos todos os termos por S11S22 teremos:

 `1 S2 S S2 
 (1 − 12 ) − 12 (1 − 12 ) 
S11 S11 S 22 S11S 22 S11 S 22 
( XT X) −1 = 
 S12 S122
1 S122 
− (1 − ) (1 − ) 
 S11 S 22 S11 S 22 S 22 S11 S 22 
Se considerarmos que r122 = S122 S11 S 22 , podemos simplificar (XTX)1 por:
 1 S 
 2
− 12 (1 − r122 ) 
S11 (1 − r12 ) S11 S 22
( XT X) −1 =  

S 1
 − 12 (1 − r122 ) 
 S11 S 22 S 22 (1 − r122 ) 
Finalmente, teremos:
 1 S 
 2
− 12 (1 − r122 ) 
S11 (1 − r12 ) S11 S 22
Var(βˆ ) =  σ 2

S12 1
− (1 − r122 ) 
 S11 S 22 S 22 (1 − r122 ) 
Ou seja:
151
σ2
Var ( β 1) =
S11 (1 − r122 )
σ2
Var ( β 2) =
S 22 (1 − r122 )
− S12σ 2
Cov( β 1, β 2) =
S11 S 22 (1 − r122 )
Assim, quanto maior for a relação linear entre X1 e X2, maior será r122 e, consequentemente,
maiores serão as variâncias de β̂1 e β̂ 2 .Quando o valor de r122 aproximar-se de 1, as variâncias
tenderão a infinito.
A demonstração para o caso de k variáveis independente é semelhante, embora mais trabalhosa.
De maneira geral, teremos:
σ2
Var ( βˆ j ) =
S j (1 − R 2j )
Onde Sj é a soma dos quadrados dos desvios de Xj e R 2j é o coeficiente de determinação de Xj

em função das demais variáveis independentes.
152
11. Variáveis Binárias
Introdução
As variáveis utilizadas em análises estatísticas podem ser classificadas em quatro grupos
principais, segundo suas escalas de medidas:
i) Escala nominal: valores representam categorias (nomes) e não se pode estabelecer

uma hiearquia entre esses, ou seja, não se pode falar que um valor seja maior que o
outro. Exemplo: sexo, cor, religião;
ii) Escala ordinal: valores representam uma hierarquia de posições, mas não se pode
falar quão maior é um valor em relação a outro. Exemplo: classe social, avaliação
de satisfação (ótimo, bom, médio, ruim, péssimo);
iii) Escala intervalar: valores representam ordem e é possível mensurar intervalo entre
esses, embora não se possa dizer quantas vezes um é maior que outro. Exemplo:
período medido em anos.
iv) Escala de razão: valores representam ordem, é possível mensurar intervalo entre
esses e quantificar grandezas em uma escala de razão. Exemplo: renda, peso, idade.
Os modelos de RLM usualmente consideram que tanto as variáveis dependentes quanto

as independentes representam grandezas quantitativas, as quais apresentam escala intervalar ou
de razão. Entretanto, muitas vezes dispomos de informações qualitativas, ou seja, categorias de
valores sem qualquer associação de ordem ou proporcionalidade entre essas (escalas nominal e
ordinal).
Neste capítulo, veremos o uso e aplicações de variáveis independentes qualitativas em
ajustes de RLM a partir de sua representação por variáveis binárias. Por sua vez, o uso de
variáveis dependentes qualitativas exige modelos especiais de regressão que estão além do
presente objetivo25.
25
Os modelos de regressão logística, por exemplo, são indicados para ajustes com variável dependente nominal.
153
Econometria Variáveis Binárias
11.1. Variáveis binárias para representar 2 categorias

Uma representação usual para variáveis independentes qualitativas é através de variáveis
binárias (variável dummy). Uma variável binária (D) pode representar dois estados possíveis:
0, na ausência da característica de interesse (fracasso)

Di =  (1)
1, na presença da característica de interesse (sucesso)
A escolha de qual categoria representará sucesso (D=1) é apenas uma questão de
interpretação do problema, sem qualquer resultado prático sobre a qualidade do ajuste (caso haja
inversão na definição das categorias, apenas o sinal do coeficiente associado à variável binária
será invertido). Definidas as variáveis binárias, essas podem ser incorporadas como regressores
em modelos de regressão da mesma forma que fazemos com qualquer variável quantitativa.
Exemplo 1. Seja uma amostra de 4 observações com informações sobre o número de filhos de
um casal (Y), anos completos de escolaridade da esposa (X) e se o domicílio onde residem assina
televisão a cabo:
Y X TV?
0 15 Sim
2 8 Sim
4 5 Não
6 4 Não
Podemos definir a variável binária D para representar a posse (1) ou não (0) de televisão:
0, se domicílio não assina TV a cabo

Di = 
1, se domicílio assina TV a cabo
E estabelecer a seguinte relação linear
Yi = α + β1 X i + β 2 Di + ei
Onde o modelo a ser ajustado, em notação matricial, seria dado por:
 0   1 15 1  αˆ  eˆ1 
      
 2  1 8 1 ˆ    eˆ2 
y = Xβˆ + eˆ ⇒   =   β  +
1 5 0    eˆ3 
1
4
      
 6   1 3 0  βˆ2   eˆ 
     4
Como em qualquer ajuste de RLM, as estimativas de MQO para esse modelo seriam dadas por:
154
βˆ = ( X T X ) −1 ( X T y )
−1
 1 15 1    0 
 1 1 1 1    1 1 1 1  
 1 8 1    2 
βˆ = 15 8 5 3   15 8 5 3  

  1 5 0   4
 1 1 0 0    1 1 0 0  
  
 1 3 0    6 
−1
 4 31 12   12   6,36 
     
βˆ =  31 323 23   54  =  − 0,34 
12 23 2   2   - 1,45 
     
Que nos daria o seguinte ajuste:
Yi = 6,36 − 0,34 X i − 1,45 Di + eî
Percebam, pela figura abaixo, que o ajuste estabelecido permite a representação de um plano
para quaisquer valores de D, embora, na prática, esta representação seja válida apenas para os
valores 0 e 1:
Para melhor compreendermos a interpretação do coeficiente associado à variável binária, vamos

ver o que acontece com a função estimada quando modificamos o valor de D. Quando o
domicílio não assinar TV a cabo (D=0), a função para o número de filhos será dada por:
Yi = 6,36 − 0,34 X i + eî
E quando o domicílio assinar TV a cabo (D=1), a função será.
Yi = (6,36 − 1,45) − 0,34 X i + eî
Em outras palavras, independente dos anos de escolaridade da mulher (X), casais com TV a cabo
no domicílio teriam, em média, 1,45 filhos a menos que casais sem TV no domicílio. Outra
forma de representarmos a relação gráfica acima seria através de duas retas, com as mesmas
155
inclinações em relação aos anos de estudo, mas com deslocamentos (interceptos) diferentes para
domicílios com TV e sem TV a cabo.
11.2. Variáveis binárias para representar múltiplas categorias

Para melhor compreendermos a interpretação de modelo com variáveis independentes
binárias, seja, inicialmente, uma variável binária DA representando duas categorias (A e B):
Categoria DAi
A 1 (2)
B 0
E o modelo de RLM dado por:
Yi = α + β1 X i + β 2 D Ai + ei (3)
Nessa situação o coeficiente β2 indicaria quanto Y seria, em média, maior (ou menor)
para a categoria A (DA=1) que a categoria de referência B (DA=0), independente do valor de X.
Isso porque seria o mesmo que analisarmos dois modelos possíveis para Y:
(4)
Dizemos, nessa situação, que a categoria B é nossa referência de análise, pois o

coeficiente β2 nos indicaria um maior ou menor valor esperado de Y em relação ao observado
para B.
A inclusão de uma segunda variável binária para representar a categoria B (por exemplo,
DB) na equação (3), além de redundante, inviabilizaria a estimativa de MQO. Isso porque a
primeira coluna de nossa matriz X, contendo os valores unitários associados ao intercepto,
passaria a representar uma função linear perfeita das duas variávels binárias: 1=DA+DB. Uma
alternativa seria ajustarmos um modelo sem interceptos e com duas binárias representando cada
um das duas categorias:
Yi = γ 0 D Ai + γ 0 DBi + β1 X i + ei (5)
156
Percebam que agora os coeficientes γ0 e γ1 representam, respectivamente, os interceptos

para as categorias A e B. Em outras palavras: γ 0 = (α + β ) e γ 1 = α . Não há diferenças na
qualidade do ajuste e nos efeitos marginais obtidos pelas equações (3) ou (5). A escolha
dependerá, sobretudo, da praticidade analítica de cada modelo.
Da mesma forma que uma variável binária é suficiente para representar duas categorias
nominais (sucesso ou fracasso), utilizamos k−1 variáveis binárias para representar k categorias
nominais. A inclusão de uma k-ésima variável binária implicaria em redundância e linearidade
perfeita entre as colunas da matriz X, uma vez que: 1 = D1 + D2 + ... + Dk.
Suponha, por exemplo, que agora tenhamos 3 categorias nominais (A, B e C) e duas
binárias (DA e DB) para representá-las. Por exemplo, sendo DA igual a 1 para a categoria A e DB
igual a 1 para a categoria B, teríamos:
Categoria DAi DBi

A 1 0
(6)
B 0 1
C 0 0
E o modelo com duas binárias dados por:
Yi = α + β1 X i + β 2 D Ai + β 3 DBi + ei (7)
Verifique que, quando o i-ésimo indivíduo pertencer à categoria C, as duas binárias
assumiriam valor 0 e o modelo resumir-se-ia a: Yi = α + β1 X i + ei . Dizemos, nessa situação, que
a categoria C é nossa referência de análise e que os coeficientes β2 e β3 indicariam

deslocamentos em relação aos valores de referência para C. Assim, o coeficiente β2 indicaria
quanto Y seria, em média, maior (ou menor) para a categoria A (DA=1) em relação à categoria de
referência C (DA=0 e DB=0), independente do valor de X. O coeficiente β3, da mesma forma,
indicaria quanto Y seria, em média, maior (ou menor) para a categoria B (DB=1) em relação à
categoria de referência C. Essa relação pode ser representada pela Figura (8):
157
(8)
Exemplo 2. Seja uma amostra com informações sobre a renda (Y), anos de estudo (X) e posição
na ocupação (empregado; autônomo ou empregador) de seis trabalhadores, e duas variáveis
binárias (D1 e D2) para representar três categorias ocupacionais (empregado, autônomo e
empregador):
Yi Xi Posição Ocupação D 1i D2i

100 0 Empregado 0 0
200 4 Empregado 0 0
400 8 Empregado 0 0
400 4 Autônomo 1 0
500 8 Autônomo 1 0
600 0 Empregador 0 1
Onde:
1, se Autônomo 1, se Empregador

D1i =  e D2i = 
0, c.c. 0, c.c.
A categoria ocupacional empregado seria, assim, a referência de análise e o modelo de regressão
proposto seria dado por:
Yi = α + β1 X i + β 2 D1i + β 3 D2i + ei
Em notação matricial, a função na amostra corresponderia a:
158
 100  1 0 0
0  eˆ1 
     
 200  1 4 0  αˆ   eˆ2 
0
 
ˆ
 400  1 8 0  βˆ1   eˆ3 
0
y = Xβ + e ⇒ 
ˆ =  + 
 400  1 4 0  βˆ2   eˆ4 
1
      
 500  1 8 1 0  βˆ3   eˆ5 
 600  1 0 0 1   eˆ 
    6
Aplicando MQO chegaríamos às estimativas:
βˆ = ( X T X ) −1 ( X T y )
−1
 6 24 2 1   2200   93,3 
     
 24 160 12 0   9600   35 
βˆ =     =
2 12 2 0 900 146,7 
     
1 0 0 1   600   506,7 

Que sugeririam o ajuste:
Yi = 93,3 + 35 X i + 146,7 D1i + 506,7 D2i + eî
Assim, independente dos anos de escolaridade, o rendimento médio dos autônomos seria 146,7
reais superior ao dos empregados e o dos empregadores 506,7 superior ao dos empregados. A
figura abaixo representa graficamente essa relação:
11.3. Interpretação de coeficientes de binárias em equações semi-logarítmicas

Cuidados especiais devem ser tomados na interpretação de coeficientes associados a
variáveis binárias quando a variável dependente encontra-se na forma logarítmica. Suponha, por
simplicidade, um modelo de regressão para o logaritmo de Y como função de uma única variável
binária D:
159
ln(Yi ) = α + β Di + ui
(9)
Em outras palavras, o valor esperado de ln(Y) seria β unidades superior para D=1 em
comparação à categoria de referência (D=0), já que para D=0 a E[ln(Y)]=α e para D=1 a
E[ln(Y)]=α+β. Baseado no que aprendemos sobre a interpretação de coeficientes em modelos
logarítmicos, seríamos também levados a afirmar que o valor esperado de Y para D=1
(chamaremos de Y1) seria β×100% superior ao valor para D=0 (chamaremos de Y0), pois:
∆Y
∆ ln(Y ) Y0 Y1 − Y0 (10)
β= = =
∆D 1− 0 Y0
Entretanto, a relação estabelecida em (10) é apenas válidas quando as variações em ln(Y)
e D forem infinitesimais, o que não necessariamente é o caso quando comparamos categorias
nominais, sobretudo quando o valor de β não for suficientemente pequeno. Para obtermos a real
variação relativa em Y quando comparamos as categorias D=1 e D=0, podemos realizar o
Y1 − Y0
caminho inverso do desenvolvimento em (10), ou seja, estimar o valor para . O primeiro
Y0
passo é estimar a relação entre Y e D, que é representada pela função não linear:
Yi = eα + βDi +ui
(11)
Em seguida, calculamos a variação relativa em Y por:
160
Y1 − Y0 eα + β − eα eα e β − eα
= α
= α
= eβ −1 (12)
Y0 e e
Em outras palavras, para obtermos a variação relativa em Y quando mudamos da
categoria D=0 para a categoria D=1, devemos calcular eβ–1. Quando o valor de β for
suficientemente pequeno, ou seja, quando podemos considerar que as variações em ln(Y) são
infinitesimais, as equações (10) e (12) se equivalem e a transformação acaba sendo
desnecessária. Na dúvida, entretanto, é sempre recomendável utilizar a expressão (12) quando
temos coeficientes associados a variáveis binárias em equações semi-logarítimicas.
11.4. Outras aplicações das variáveis binárias

Nos exemplos anteriores, consideramos o uso de variáveis binárias apenas para
determinar deslocamentos na reta de regressão (diferentes interceptos). Entretanto, as variáveis
binárias possuem várias outras aplicações, duas das quais são ilustradas na figura 13:
Y = α + β1 D + β 2 X + β 3 D ⋅ X + e Y = α + β1 X + β 2 ( X − X *) D + e
(13)
No primeiro exemplo, teríamos diferentes interceptos e diferentes inclinações para a

regressão de Y em função de X. Em outras palavras, quando D=0 a relação seria dada por
Y = α + β 2 X + e enquanto que para D=1 a relação seria Y = (α + β1 ) + ( β 2 + β 3 ) X + e .
Na segunda situação, consideramos uma mudança na inclinação da reta de regressão para
valores de X superiores a determinado limite (X>X*), quando a variável binária D passaria de 0
para 1. Em outras palavras, quando D=0 a relação seria dada por Y = α + β1 X + e , enquanto que
para D=1 a relação seria Y = (α − β 2 X *) + ( β1 + β 2 ) X + e .
Este último modelo pode ainda ser generalizado para permitir várias mudanças de
inclinações e é chamado de modelo de regressão poligonal. Pressupondo, por exemplo, um
modelo com p mudanças de inclinações (vértices), teríamos:
161
p
Y = α + β X + ∑ γ j ( X − X *j ) D j + e
j =1
(14)
Onde X *j é o valor correspondente à j-ésima mudança de inclinação e Dj é uma variável
binária que assume 1 quando X > X *j e 0 caso contrário. Assim, o coeficiente γj indicará a
mudança de inclinação para cada segemento poligonal.
Exemplo 3. Seja uma amostra com informações sobre renda (Y), anos de estudo (X) e sexo de
seis ocupados:
Yi Xi Sexo
100 0 Mulher
250 4 Mulher
300 8 Mulher
200 0 Homem
400 4 Homem
500 8 Homem
Definimos a variável binária D para identificar o sexo da pessoa:
1, Homem
D=
0, Mulher
Para considerar que as mulheres ganham, em média, menos que os homens, independente da
escolaridade, e que os retornos marginais da escolaridade sobre a renda sejam diferentes entre os
sexos, podemos propor o seguinte modelo:
Yi = α + β1 X i + β 2 Di + β 3 Di ⋅ X i + ei
Onde a variável DiXi é simplesmente o produto de Di por Xi. Para compreender seu significado,
vejamos o que acontece com a reta de regressão para homens e para mulheres:
162
Para mulheres (D=0): Yi = α + β1 X i + ei

Para homens (D=1): Yi = (α + β 2 ) + ( β1 + β 3 ) X i + ei
Assim, α seria a renda esperada de uma mulher quando X=0. Para homens, essa renda esperada
seria β2 unidades superior (ou inferior se β2<0). O coeficiente β1, por sua vez, indicaria a
variação marginal na renda da mulher para cada ano adicional de escolaridade. Para homens,
essa variação marginal seria β3 unidades superior (ou inferior se β3<0). O pressuposto desta
análise é que os retornos marginais de escolaridade sejam diferentes para homens e mulheres.
Com os dados da amostra, a representação matricial para o problema seria:
 100  1 0 0 0  ê1 
     
 250  1 4 0 0  αˆ   ê 2 
 
 300  1 8 0 0  βˆ1   ê 3 
y = Xβˆ + eˆ ⇒  =  + 
 200  1 0 1 0  βˆ 2   ê 4 
 400  1    
   4 1 4  βˆ3   ê 5 
 500  1 8 1 8   ê 
    6
E as estimativas de MQO:
βˆ = ( X T X ) −1 ( X T y )
−1
 6 24 3 12   1750  116,7 
     
 24 160 12 80   9000   25 
βˆ =   1100  =  100 
3 12 3 12 
     
 12 80 12 80   5600   12,5 
    
Teríamos, então, o seguinte ajuste:
Yi = 116,7 + 25 X i + 100Di + 12,5Di ⋅ X i + eî

Isso significa que, para ocupados sem escolaridade, o rendimento médio dos homens seria 100
reais superior ao das mulheres. A variação marginal da escolaridade para os homens seria ainda
12,5 reais superior à das mulheres, ou seja, o efeito da escolaridade seria maior para os homens.
A figura abaixo representa graficamente essa relação:
163
Exemplo 4. Sejam os seguintes dados amostrais para a renda (Y) e anos de estudo (X) de seis
ocupados:
Yi Xi
100 0
250 4
300 8
450 10
700 13
800 15
Supõe-se que o retorno marginal da escolaridade sobre a renda seja diferente para aqueles com
até o 1º grau (X≤8) e aqueles com 2º grau ou mais de escolaridade (X>8). Uma maneira de
expressar essa relação seria, primeiramente, definindo a variável binária D para discriminar dois
grupos de escolaridade:
0, se X i ≤ 8
Di = 
1, se X i > 8
Posteriormente, estabeleceríamos a relação:
Yi = α + β1 X i + β 2 ( X i − 8) Di + ei
Em outras palavras, β1 seria a variação marginal na renda para cada ano adicional de
escolaridade até o 8º ano de escolaridade. A partir do 2º grau (X>8 e D=1), a variação marginal
na renda seria de β1+β2 para cada ano adicional de escolaridade.
Com os dados da amostra, a representação matricial para o problema seria:
164
 100  1 0 0   eˆ1 
     
 250  1 4 0   eˆ2 
 300  1 8 0  αˆ   eˆ 
y = Xβˆ + eˆ ⇒  =  βˆ1  +  3 
 450  1 10 2  ˆ   eˆ4 
    β 2   eˆ 
 700   1 13 5   5
 800  1 15 7   eˆ 
     6
E as estimativas de MQO:
βˆ = ( X T X ) −1 ( X T y )
−1
 6 50 14   2600  116,6 
     
ˆβ =  50 574 190   29000  =  25,1 
 14 190 78   10000   46,2 
     
Teríamos, então, o seguinte ajuste:
Yi = 116,6 + 25,1X i + 46,2( X i − 8) Di + eî
Isso significa que, até o 8º ano de escolaridade (D=0), seria esperada uma variação marginal de
25,1 reais na renda para cada ano adicional de escolaridade. Por sua vez, o retorno marginal da
educação na renda seria, em média 46,2 reais superior após o 8º ano de escolaridade. A figura
abaixo permite ainda visualizar graficamente essa relação:
11.5. Teste de mudança estrutural

Como sabemos, o teste F pode ser aplicado para verificar se a contribuição marginal de q
variáveis independentes na explicação da variabilidade de Y é significativa, isolando-se o efeito
da variabilidade já explicada pelas demais k−q variáveis independentes. Raciocínio análogo pode
ser aplicado para verificar se a inclusão da variável binária, ou da combinação desta com o
regressor X, contribuem conjuntamente para explicar a variabilidade de Y. Em outras palavras,
podemos aplicar o teste F para verificar se dois grupos da população, definidos pelas categorias
165
da variável binária, apresentam a mesma função de regressão. Esse tipo de teste é denominado
teste de mudança estrutural, pois, uma vez provada a relevância da variável binária no modelo,
significa afirmar que há mudanças significativas na estrutura da função de regressão (mudança
do intercepto e/ou inclinação da reta) após a consideração de algum atributo qualitativo de
interesse.
Para visualizarmos a aplicação do teste de mudança estrutural, suponha inicialmente que
tenhamos a seguinte especificação do modelo de regressão:
Yi = β 0 + β1 X i + ei (15)
Vamos agora considerar um modelo com mudança de intercepto e de inclinação da reta
em função de um atributo qualitativo de interesse, discriminado pela variável binária D:
Yi = β 0 + β1 X i + β 2 Di + β 3 Di ⋅ X i + ei (16)
Caso o atributo qualitativo incorpore alguma informação relevante ao modelo original
(15), devemos esperar que haja mudança no intercepto e/ou inclinação da reta. Em outras
palavras, esperamos que haja uma mudança estrutural em virtude da consideração da variável
binária D em (16), situação caracterizada pelas três últimas regressões em (17):
Regressões Regressões Regressões Regressões
Coincidentes Paralelas Concorrentes Dissimilares
(17)
Testar se há mudança estrutural significa testar se pelo menos um dos coeficientes

associados à binária, β2 ou β3, é diferente de zero. Em outras palavras:
H 0 : β 2 = β 3 = 0
 (18)
H 1 : β 2 ≠ 0 e / ou β 3 ≠ 0
A hipótese nula deste teste é o da estabilidade da regressão, ou seja, quando as relações
entre X e Y são as mesmas (constantes) para as duas categorias de análise. A hipótese alternativa
é a da diferença da relação de regressão para as categorias.
Este teste de hipóteses corresponde àquele utilizado para a contribuição marginal das
variáveis associadas aos coeficientes β2 e β3. Assim, podemos aplicar um teste de restrição aos
166
parâmetros, onde o modelo irrestrito seria definido pela equação (16) e o modelo restrito pela
equação (15). A estatística de teste seria a F, com graus de liberdade do numerador definidos
pelo número de restrições impostas aos parâmetros (no caso, 2) e, no denominador, com os
mesmos graus de liberdade dos resíduos do modelo irrestrito:
( SQReg ir − SQReg r ) / 2 ( SQRes r − SQResir ) / 2
F= ou F = (19)
SQResir /( n − 4) SQResir /( n − 4)
Caso a hipótese nula seja rejeitada pelo teste F, ou seja, caso o valor p associado à
estatística F seja suficientemente pequeno, dizemos que há mudança estrutural na relação entre Y
e X. Para saber se a mudança se deve à variação no intercepto, no coeficiente angular ou nos
dois, podemos verificar os resultados dos testes t isolados para cada coeficiente.
O teste de mudança estrutural com variáveis binárias é uma alternativa àquele conhecido
na literatura como teste de Chow26. Neste teste, são ajustadas duas regressões independentes para
cada categoria de análise e seus resultados comparados através de uma mesma estatística F com
os resultados obtidos para um ajuste com as populações das duas categorias conjuntamente. A
principal vantagem do teste com variáveis binárias é que este também permite identificar em que
coeficiente se dá a mudança estrutural (intercepto ou coeficiente angular). A principal
desvantagem é que a especificação do modelo com variáveis binárias pode ficar demasiadamente
extensa quando estamos analisando as interações com inúmeras variáveis independentes X.
Exemplo 4. Seja a mesma amostra com informações sobre renda (Y), anos de estudo (X) e sexo
de seis ocupados:
Yi Xi Sexo
100 0 Mulher
250 4 Mulher
300 8 Mulher
200 0 Homem
400 4 Homem
500 8 Homem
26
Chow, G. C. Test of equality between subsets of coefficients in two linear regressions models. Econometrica,
1960, p. 591-605.
167
E a variável binária D para identificar o sexo da pessoa:
1, Homem
D1 = 
0, Mulher
O modelo irrestrito, com a consideração da mudança estrutural imposta pela consideração do
sexo da pessoa, seria:
Yi = α + β1 X i + β 2 Di + β 3 Di X i + ei
Aplicando MQO, chegaríamos ao ajuste:
Yi = 116,7 + 25 X i + 100 Di + 12,5 Di X i + ei
Com soma dos quadrados da regressão (SQRegir) igual a 98750 e soma dos quadrados dos
resíduos (SQResir) igual a 3333,3.
Por sua vez, o modelo restrito seria aquele sem a consideração de mudança estrutural entre os
sexos, ou seja, com restrição aos parâmetros β 2 e β3 do modelo. Seria, então, definido por:
Yi = α + β1 X i + ei
E com estimativas de MQO dadas por:
Yi = 166,7 + 31,25 X i + eî
Nesse caso, a soma dos quadrados da regressão (SQRegr) seria igual a 62500.
A representação do modelo restrito e irrestrito pode ser observada no gráfico abaixo:
E, para testar a hipótese nula de ausência de mudança estrutural, utilizamos a estatística F

estimada por:
( SQ Re g ir − SQ Re g r ) / 2 (98750 − 62500) / 2
F= = = 10,875
SQ Re sir /( n − 4) 3333,3 / 2
Onde o valor p associado a 10,875 em uma distribuição F com 2 graus de liberdade no
numerador e denominador é de 0,084. Ou seja, se afirmarmos que há mudança estrutural em
relação ao sexo estaremos sujeito a uma probabilidade de erro de 8,4%.
168
Exercícios
1. Observaram-se informações sobre o preço (X) e a quantidade ofertada (Y) de determinado
produto nos 6 bimestres de um ano (t):
Y 2,0 1,5 2,5 3,0 5,5 6,5
X 1 2 3 1 2 3
t 1 2 3 4 5 6
a. Ajuste a regressão linear da quantidade ofertada em função do preço pressupondo

deslocamentos da função de um semestre para outro sem, entranto, mudanças na
declividade. Interprete os coeficientes estimados.
b. Os coeficientes de regressão estimados são significativos?
c. Ajuste a regressão pressupondo agora que haja também mudança na declividade
da função de um semestre para outro;
d. Ajuste uma regressão poligonal pressupondo que haja mudança na declividade da
função quando o preço for maior que 2 unidades.
2. O arquivo SalariosProfessores.xls contém informações referentes ao salário de professores

(US$ por ano), anos de docência após doutorado (anos) e Universidade em que trabalham (A,
B ou C). Supondo que o salário seja linearmente determinado pelos anos de docência, pede-
se:
a. Considere interceptos diferentes para a universidade A e as demais;
b. Considere interceptos diferentes para cada uma das universidades;
c. Considere intercepto e variação marginal diferente para a universidade A em
relação às demais;
d. Verifique a existência de quebra estrutural das relações entre a universidade A e
as demais;
e. Considere retornos marginais diferentes a partir de 30 anos de docência.
3. (ANPEC, 2012) Usando uma base de dados que tem informação de 65.535 trabalhadores,
queremos verificar se existe desigualdade salarial entre setores da economia. Consideremos
169
que a economia está dividida em 4 setores: indústria, comércio, serviços e construção. Cada
um dos trabalhadores está em um dos quatro setores e eles são mutuamente exclusivos. Seja
Yi o salário mensal do trabalhador i e definimos para cada setor uma variável binária que é
igual a 1 se o trabalhador está em determinado setor e 0 caso contrário. Estimando um
modelo linear de regressão, obtemos o seguinte resultado:
em que educ representa o número de anos de estudos de cada trabalhador, idade é medida
em anos, Homem é uma variável binária que assume valor igual a 1 se i é homem e 0 caso
contrário, DI representa a dummy para indústria, DC para o comércio e DCons para o setor
de construção. Entre parênteses encontra-se o erro padrão.
Baseado nas informações acima, julgue as seguintes afirmativas:
[ Para a resolução desta questão talvez lhe seja útil saber que se Z tem distribuição Normal
Padrão, então Pr(|Z|>1,645)=0,10 e Pr(|Z|>1,96)=0,05.]
a. Com base nos resultados acima, é possível rejeitar ao nível de 5% de significância
a hipótese nula de que o salário do setor da indústria é igual ao salário do setor de
serviços para trabalhadores com o mesmo nível educacional, a mesma idade e do
mesmo sexo. A hipótese alternativa é que os salários nestes setores sejam
diferentes;
b. Com base nos resultados acima, é possível rejeitar ao nível de 5% de significância
a hipótese nula de que o salário no setor da construção é igual ao salário no setor
de comércio, mantendo educação, idade e sexo fixos. A hipótese alternativa é que
os salários nestes setores sejam diferentes;
c. Com base nos resultados acima, é possível rejeitar ao nível de 5% de significância
a hipótese nula de que o salário nos 4 setores da economia são iguais, mantendo
constante educação, idade e sexo;
d. Os resultados do modelo acima permitem testar a hipótese de que o retorno
salarial entre homem e mulher é diferente para cada nível educacional, ao nível de
5% de significância;
170
e. Com base nos resultados acima, podemos testar a hipótese de que o intercepto do
modelo linear de salário em função da educação, idade e setor para homem é
diferente do intercepto do mesmo modelo linear de salário para mulher;
Respostas
1) a. Yˆ = 0 + X + 3D ; b. β1: t=2; p=0,139; β2: t=0,816; p=0,035; c.
Yˆ = 1,5 + 0,25 X + 3D + 1,5 D ⋅ X ; d. Yˆ = 3 + X + 0 D ( X − 2)
2) a. Yˆ = 51,7 + 1,58 Anos + 17,54 A ; b. Yˆ = 53,7 + 1,53 Anos + 16,42 A − 6,71B ; c.
Yˆ = 48,1 + 1,73 Anos + 33,18 A − 0,83 A ⋅ Anos ; d. Yˆ = 60,2 + 1,39 Anos ;

(12.138 − 9.302) / 2
F2,40 = = 4,28 ; p=0,021; e. Yˆ = 59,14 + 1,46 Anos − 0,43( Anos − 29) D
13.270 / 40
3) a. V; b. F; c. F; d. F.; e. V;
171
Econometria Heterocedasticidade
12. Heterocedasticidade
Introdução
Passaremos agora a verificar as consequências da ausência de algum dos pressupostos do
Teorema de Gauss-Markov sobre os estimadores de mínimos quadrados. Um desses pressupõe
que a variância do erro ( σ 2 ) seja a mesma para todos os valores condicionais de X. Em outras
palavras, pressupõe a homocedasticidade (ou homocedasticia) dos erros, palavra de origem
grega que significa igual (homo) dispersão (skedasis).
Na presença de heterocedasticidade, a variância dos erros será diferente para cada valor
de X e os estimadores de MQO, embora permaneçam não viesados e consistentes, deixam de ser
eficientes, ou seja, deixam de apresentar variância mínima. Neste capítulo, além da definição de
heterocedasticidade, veremos quais suas causas, consequências, como detectá-la e quais as
possíveis medidas corretivas.
12.1. Definição
Dado o modelo de RLM:
Yi = α + β1 X 1i + β 2 X 2i + ... + β k X ki + ei (1)
Um dos pressupostos para que os estimadores de MQO dos parâmetors α e β’s sejam os
MELNV é que a variância dos erros e, condicional aos valores das variáveis explanatórias, seja
constante. Em outras palavras, a homocedasticidade define-se por:
Var (ei / X 1i , X 2i ,..., X ki ) = σ 2 (2)

Isso quer dizer que a dispersão dos erros será a mesma em qualquer ponto de regressão
em relação Xj, como esquematiza a figura (3).
(3)
172
Por outro lado, na presença de hetocedasticia, a variância dos erros será diferente para
cada valor condicional de Xj. Esse comportamento pode ser representado pela expressão (4) e
figura (5).
Var (ei / X 1i , X 2i ,..., X ki ) = σ i2 (4)
(5)
Na presença de heterocedasticidade os estimadores de MQO deixarão de ser eficientes

(mesmo para amostras relativamente grandes), ou seja, não mais apresentarão variância mínima,
embora permaneçam não viesados e consistentes.
A hetocedasticidade pode ocorrer devido a uma série de fatores, entre os quais podemos
destacar:
• Natureza das variáveis: alguns relacionamentos apresentam naturalmente tendência à
heterocedasticia. Por exemplo, renda e poupança. Pessoas de baixa renda são
limitadas pela renda ao poupar e possuem pouca dispersão em relação ao valores
médios de seu grupo econômico. Já entre os ricos, o comportamento é mais disperso:
há aqueles que poupam boa parcela de seus ricos rendimentos, até aqueles que nada
poupam. Analogamente, pessoas com menor escolaridade podem apresentar
rendimentos baixos e mais homogêneos, enquanto que a heterogeneidade seria maior
entre pessoas mais escolarizadas;
• Valores extremos: a ocorrência de um valor extremo (muito superior ou muito inferior
aos demais valores da amostra) pode inflacionar a variabilidade em um determinado
ponto do ajuste;
• Falhas na especificação do modelo: a heterocedasticidade pode também encobrir
problemas mais graves do modelo, como a omissão indevida de algum importante
regressor. Por exemplo, a ausência de um termo quadrático para a idade em uma
173
função de rendimentos pode implicar em maior variabilidade dos erros para valores
intermediários da idade, onde o rendimento seria maior;
• Transformação dos dados: a transformação das variáveis (por exemplo, proporção ao
invés de valores absolutos) ou da forma funcional (modelo log-duplo ao invés de
linear) pode eliminar ou atenuar a heterocedasticidade.
Além de os estimadores de MQO não serem mais eficientes na presença de

heterocedasticidade, podemos também demonstrar que os estimadores de suas variâncias
passam a ser viesados. Por simplicidade, vamos considerar um modelo de regressão linear
simples:
Yi = α + βX i + ei (6)
Sabemos, de desenvolvimento anterior, que a variância de β será dada por27:
n n n
∑
Var ( βˆ ) = Var ( β + i =1
xi ei
) = Var ( β ) +
∑ x 2Var (ei ) ∑i =1 xi2Var (ei )
i =1 i
= (7)
n n n
∑i=1 xi2 (∑i =1 xi2 ) 2 (∑i =1 xi2 ) 2
Agora comparemos como ficariam a variância de β̂ na presença de homocedasticidade e

heterocedasticidade.
Homocedasticidade Heterocedasticidade
Var (ei ) = σ 2 Var (ei ) = σ i2
n (8)
Var ( βˆ ) =
σ2
Var ( βˆ ) =
∑i=1 xi2σ i2
n
∑i=1 xi2 n
(∑i =1 xi2 ) 2
Em outras palavras, as variâncias serão diferentes desde que σ 2 ≠ σ i2 . Assim, o
σˆ 2
estimador de MQO para a variância de β̂ ( S 2ˆ = n
) seria não viesado na presença de
β
∑i=1 xi2
homocedasticidade e viesado na presença de heterocedasticia. Consequentemente, a estatística t
para o coeficiente β e a estatística F para a contribuição conjunta dos coeficientes deixariam de
27
Ver Apêndices A e B do Capítulo 2.
174
ser válidas na presença de heterocedasticidade, não mais apresentando distribuição t de student

ou F, mesmo para amostras grandes.
12.2. Identificação
Caso não haja conhecimento a priori da existência de heterocedasticidade em um modelo
de regressão populacional, pode-se analisar o comportamento dos resíduos na regressão amostral
para inferir sobre sua existência e forma de relacionamento com as variáveis independentes.
Veremos quatro técnicas bem populares de identificação: i) análise gráfica; ii) teste de Goldfeld-
Quandt; iii) teste de Breush-Pagan; iv) teste de White.
12.2.1. Análise Gráfica

Uma forma simples e intuitiva para detertar a heterocedasticidade é analisando a
dispersão dos resíduos em função dos valores das variáveis independentes. O ideal seria
relacionarmos graficamente cada valor de Xi à respectiva variância dos resíduos ( σˆ i2 ).
Entretanto, como nem sempre dispomos de mais de uma observação amostral para cada valor
controlado de Xi, o que inviabilizaria a estimativa de σˆ i2 , na prática trabalhamos com uma
aproximação para a variância condicional: o quadrado dos resíduos ( eî2 ). Assim, visualizando a
dispersão dos resíduos quadráticos eî2 em função dos valores de Xi, podemos identificar
possíveis padrões de associação de σ̂ 2 às variáveis independentes.

A figura (9) apresenta alguns padrões característicos de dispersão dos resíduos
quadráticos em função da variável dependente. O primeiro gráfico sugere erros homocedásticos,
já que o comportamento dos resíduos quadráticos é o mesmo para quaisquer valores de Xi. Por
sua vez, os três últimos gráficos sugerem erros heterocedásticos, com diferentes padrões de
associação dos resíduos quadráticos aos valores de Xi.
No caso de RLM, essa análise deve-se repetir para cada uma das variáveis independentes
para sabermos em função de qual dessas ocorre a heterocedasticidade. Alternativamente,
podemos também analisar a dispersão dos resíduos em função dos valores previstos da variável
dependente (Ŷ ), já que esses referem-se a uma função linear das variáveis independentes
( Yˆ = αˆ + βˆ1 X 1 + ... + βˆ k X k ).
175
(9)
Exemplo 1. O ajuste linear dos gastos com alimentação (Gasto Aliment, em R$) em função
renda (Renda, em R$) em uma amostra de 40 famílias forneceu o seguinte resultado:
Gasto Aliment i = 40,8 + 0,13 Rendai + eî
A dispersão dos valores em torno da reta de regressão já sugere que, à medida que a renda
cresce, a dispersão dos erros também aumenta, indicando a presença de heterocedasticidade.
Essa análise é complementada pelo gráfico abaixo, entre o quadrado dos resíduos e a variável
independente renda. Seria natural supor a existência de heterocedasticidade nesse problema, já
que famílias pobres estão limitadas economicamente a gastos fixos básicos com alimentação
(feijão com arroz), enquanto famílias ricas podem optar por uma alimentação básica (gastos
176
relativamente baixos) ou gostos extravagantes com alimentação (foie gras e vinho Romanée-
Conti).
A partir do padrão de dispersão observado, podemos ainda sugerir que a variabilidade dos erros
em função da renda siga um formato linear, que poderia ser representado pela expressão:
σ i2 = σ 2 X i
12.2.2. Teste de Goldfeld-Quandt

O teste de Goldfeld-Quandt verifica se a variância da regressão é a mesma em
subjconjuntos da amostra, definidos por maiores e menores valores de X. Caso haja
heterocedasticidade, definida, por exemplo, por σ i2 = σ 2 X i , espera-se que cada subconjunto de
valores de X apresente um erro padrão diferente para a reta de regressão.

Os passos para realização do teste de Goldfeld-Quandt são:
i) Ordenar as observações da amostra de acordo com o valores da variável X com a

qual se pressupõe a relação de heterocedasticidade.
Y1 Y2 ... Yn
X1 X2 ... Xn
Onde X1 ≤ X2 ≤ ... ≤ Xn.
ii) Omitir c observações centrais para dar mais poder ao teste (por exemplo, c costuma
ser igual a 4 para n=30 e igual a 10 para n=60)28 e separar observações em duas
28
Goldfeld e Quandt sugerem que, quando a relação de heterocedasticidade é definida por σi2=σ2Xi2, o poder de
teste será maior quando c for igual a n/4.
177
subamostras de (n–c)/2 observações. A omissão objetiva acentuar a diferença entre o

grupo com variância pequena ( σ 12 ) e variância grande ( σ 22 ). Em outras palavras,
dizemos que o teste torna-se mais poderoso, ou seja, aumenta a chance de se rejeitar
a hipótese da igualdade das variâncias quando essas são de fato diferentes;
iii) Ajustar uma regressão para cada subamostra (considerando um modelo de RLM,
cada regressão terá as mesmas k variáveis independentes) e obter seus respectivos
quadrados médios dos resíduos. Para cada subamostra j teremos:
SQRes j n−c
σˆ 2j = QMRes j = onde gl = − (k + 1) (10)
gl 2
Onde gl serão os graus de liberdade dos resíduos em cada ajuste.
iv) Testar a hipótese da igualdade das variâncias utilizando a estatística F:
 H 0: σ12 = σ 22 σˆ 22
 ⇒ F = onde F ~ Fgl , gl (11)
 H1: σ12 < σ 22 σˆ 12
Colocando no denominador da estatística F a estimativa da subamostra com maior
variância ( σˆ 22 ), garante-se um valor de F superior a 1 e permite-se, assim, um teste
unicaudal para hipótese da igualdade das variâncias. O valor p associado a esse teste
unicaudal indicará a probabilidade de erro ao afirmarmos que há heterocedasticidade
no resíduos ( σ 12 < σ 22 );
Esquematicamente, teremos:
(12)
No caso de um modelo de RLM (k>1), a mesma análise pode-se repetir para cada
variável independente.
178
Exemplo 2. O teste de Goldfeld-Quandt foi aplicado para encontrar evidências formais da

existência de heterocedasticidade na relação entre gastos com alimentação e renda. Após ordenar
as 40 observações da amostra segundo os valores da renda (X), foram eliminadas 6 observações
centrais para acentuar a diferença entre o grupo com variância pequena (SQReg1) e com
variância grande (SQReg2). Restaram dois subconjuntos com 17 observações cada. Para cada
subconjunto, ajustou-se uma regressão por MQO e calculou-se o respectivo quadrado médio dos
resíduos:
Amostra 1 Amostra 2
Gasto Aliment i = 12,6 + 0,18 Rendai + eî Gasto Aliment i = 75,1 + 0,09 Rendai + eî
Para testar a hipótese nula de igualdade entre as variâncias das regressões, utilizamos a estatística
F. Colocando a maior variância no numerador (amostra 2), podemos realizar um teste unicaudal
com probabilidade de erro associada à área no extremo direito da distribuição F.
 H 0: σ12 = σ 22 σˆ 22 2629,9
 com estatística de teste: F = 2 = = 4,99
 H1: σ12 < σ 22 σˆ1 526,7
A probabilidade de erro associada ao valor 4,99 em uma distribuição F com 15 graus de

liberdade no numerador e 15 graus no denominador (graus de liberdade dos resíduos de cada
sub-ajuste) será de 0,17%. Em outras palavras, há fortíssimas evidências para afirmarmos que os
erros são heterocedásticos.
179
12.2.3. Teste de Breusch-Pagan

Partindo do pressuposto que a heterocedasticidade significa a relação entre a
variabilidade dos erros e as variáveis independentes do modelo, o teste de Breush-Pagan analisa
sua presença relacionando o quadrado dos resíduos estimados (uma aproximação para a
variabilidade dos erros) como função das variáveis independentes.
Em outras palavras, seja o modelo de RLM com duas variáveis independentes:
Yi = α + β1 X 1i + β 2 X 2i + ei (13)
Após ajustar o modelo em (13) por MQO, o teste de Breusch-Pagan verifica se os
resíduos quadrádicos ( eî2 ) possuem relação linear com as variáveis independentes do modelo.
Essa relação é definida pelo modelo auxiliar:
eî2 = δ 0 + δ 1 X 1i + δ 2 X 2i + ui (14)
A hipótese nula de homocedasticidade será dada por:
H 0 : δ1 = δ 2 = 0 (15)
Importante destacar que, para testar a hipótese de homocedasticidade dos erros a partir de
(15), consideramos que os erros (ei) não estejam associados às variáveis independentes, ou seja,
que a relação a ser testada seja unicamente entre o quadrado dos erros ( eî2 ) e as variáveis
independentes. Assim, para testar a hipótese de homocedastidade (15), podemos utilizar a
estatística F da tabela ANOVA ou a estatística LM, que é o produto do número de observações
da amostra pelo coeficiente de determinação do ajuste auxiliar obtido em (14). As duas
estatísticas dependem do coeficiente de determinação do modelo e, mesmo que os resíduos êi não
estejam normalmente distribuídos, ambas se justificam assintoticamente, ou seja, apresentam as
distribuições de probabilidade esperadas para amostras relativamente grandes. Originalmente, o
teste de Breusch-Pagan baseia-se no resultado da estatística LM, que terá distribuição χ2 com
graus de liberdade dados pelo número de variáveis independentes do modelo (k):
180
2
n × Raux ~ χ k2 (16)
2
Onde Raux é o coeficiente de determinação do modelo auxiliar (14). Assim, quanto
melhor for a qualidade do ajuste, maior será o valor de LM e mais evidências teremos para
rejeitar a hipótese nula da homocedasticidade. A probabilidade de erro ao rejeitarmos a hipótese
nula será dada pela região crítica representada pelo valor p na Figura (17):
(17)
Uma vantagem do teste de Breusch-Pagan em relação ao de Goldfeld-Quandt é que o

mesmo pode analisar a relação entre a variabilidade dos erros e uma série de variáveis
independentes com um único ajuste de regressão auxiliar. Não há, portanto, a necessidade de
múltiplas segmentações da amostra quando temos mais de uma variável independente. Se
suspeitamos que a relação de heterocedasticidade se dê unicamente em função de um
subconjunto de variáveis independentes, podemos ainda adaptar a equação (14) para considerar
apenas as variáveis de interesse.
Exemplo 3. Após encontrarmos evidências significativas de heterocedasticidade pelo teste de

Goldfeld-Quandt para a relação entre gastos com alimentação e renda, testaremos agora a
hipótese de homocedasticidade pelo teste de Breush-Pagan.
A dispersão dos quadrados dos resíduos em função da variável independente Renda é ilustrada
no exemplo 1. A ideia é agora analisarmos a qualidade do ajuste dos quadrados dos resíduos
como função da variável Renda, o único regressor do modelo de regressão original. O modelo
auxiliar a ser ajustado será dado por:
eî2 = δ 0 + δ 1 Rendai + ui
Estimando por MQO teremos:
eî2 = −2279,5 + 5,21Rendai + uî

Para testar a hipótese nula de homocedasticidade, utilizamos a estística LM dada pelo produto
entre o número de observações e o coeficiente de determinação do ajuste acima. Como temos
181
apenas uma variável independente no modelo (Renda), a hipótese nula equivale à igualdade a
zero do único coeficiente angular do modelo (δ1). Assim, teremos:
 H 0: δ1 = 0 2
 com estatística de teste: n × Raux = 40 × 0,301 = 12,0
H
 1 1: δ ≠ 0
Também pelo fato de termos apenas uma variável independente no modelo, a distribuição de
probabilidade da estatística LM será uma χ2 com 1 grau de liberdade. A probabilidade de erro
associada ao valor 12,0 em uma distribuição χ2 com 1 grau de liberdade será de 0,05%. Em
outras palavras, há fortíssimas evidências para suspeitarmos que os erros sejam heterocedásticos.
12.2.4. Teste de White

O teste proposto por White (1980) permite analisar outras formas de relação entre o
quadrado dos resíduos e as variáveis independentes. Além da relação linear com as variáveis
independentes Xj propostas pelo teste de Breusch-Pagan, o teste de White também considera que
a variabilidade possa estar associada ao quadrado dos regressores ( X 2j ) e a seus produtos
cruzados (XjXp).
Em outras palavras, seja o ajuste de RLM com duas variáveis independentes:
Yi = α + β1 X 1i + β 2 X 2i + ei (18)
Após ajustar a equação (18) por MQO, o teste de White analisará a qualidade de um
ajuste auxiliar para o quadrado dos resíduos:
eî2 = δ 0 + δ 1 X 1i + δ 2 X 2i + δ 3 X 1i X 2i + δ 4 X 12i + δ 5 X 22i + u i (19)

A hipótese nula de homocedasticidade será dada por:
H 0 : δ 1 = δ 2 = ... = δ h = 0 (20)
Onde h é o número de variáveis independentes do modelo (19). Analogamente ao teste de
Breusch-Pagan, essa hipótese pode ser testada pela estatística F ou a estatística LM.
Originalmente, o teste de White baseia-se na estatística LM, que terá distribuição χ2 com h graus
de liberdade:
182
2
n × Raux ~ χ h2 (21)
Assim, quanto melhor for a qualidade do ajuste, maior será o valor de LM e mais
evidências teremos para rejeitar a hipótese nula da homocedasticidade. A probabilidade de erro
ao rejeitarmos a hipótese nula será dada pela região crítica representada pelo valor p na figura
(22):
(22)
Uma vantagem do teste de White em relação ao teste de Breusch-Pagan é que o primeiro

considera formas mais abrangentes de relações heterocedásticas entre os erros e as variáveis
independentes. Este teste é também menos sensível à premissa de normalidade dos erros.
Entretanto, merece cuidados adicionais na interpretação. Ao considerar regressores adicionais no
ajuste auxiliar (o quadrado das variáveis independentes e seus produtos cruzados), o teste de
White pode indicar, na verdade, falhas na especificação do modelo original (ausência de
regressores ao quadrado, por exemplo).
Exemplo 4. Vamos agora aplicar o teste de White para identificar a presença de

heterocedasticidade na relação entre gastos com alimentação e renda. Além da variável
independente do modelo original (Renda), consideraremos também seu quadrado (Renda2) como
segundo fator explantório. A existência de apenas uma variável independente no modelo original
elimina a necessidade da consideração do produto cruzado entre as variáveis independentes
como regressores do modelo de White. Assim, o modelo auxiliar a ser ajustado será:
eî2 = δ 0 + δ 1 Rendai + δ 2 Rendai2 + ui

Estimando por MQO:
eî2 = 1923,5 − 7,42 Rendai + 0,01Rendai2 + uˆ i

Para testar a hipótese nula de homocedasticidade, considerou-se a estística LM dada pelo produto
entre o número de observações e o coeficiente de determinação do ajuste acima:
 H 0: δ 1 = δ 2 = 0 2
 com estatística de teste: n × Raux = 40 × 0,366 = 14,6
 H 1: δ 1 ≠ 0 ou δ 2 ≠ 0
183
A probabilidade de erro associada ao valor 14,6 em uma distribuição χ2 com 2 graus de liberdade
será de 0,08%. Em outras palavras, há fortíssimas evidências para suspeitarmos que os erros
sejam heterocedásticos.
12.3. Mínimos Quadrados Ponderados

Uma vez identificada a existência de heterocedasticidade, podemos corrigir
algebricamente o modelo para que seus estimadores sejam os MELNV. Vermos aqui a proposta
do método de Mínimos Quadrados Ponderados (MQP), um caso específico de uma técnica mais
abrangente, denominada de Mínimos Quadrados Generalizados (MQG).
De maniera geral, o MQG consiste em aplicar transformações algébricas às variáveis
originais do modelo de regressão para que a relação entre as variáveis transformadas passe a
atender às premissas do MCRLN e, então, possa-se aplicar o MQO. O MQP é um caso
específico, quando as variáveis originais são ponderardas por um fator proporcional a
variabilidade dos erros.
Para compreender o princípio dessa técnica, suponha que a variância dos erros do modelo
de RLM (1) possa ser representada por um termo constante (σ2) multiplicado por um fator vi que
indica como varia a variância para cada observação i:
Var (ei ) = E (ei2 ) = σ 2 vi (23)

Matricialmente, essa relação seria dada por:
v1 0 0 0
0 v 0 0  2
Var (e) = E (eeT ) = 
2
σ = Vσ 2 (24)
0 0 ... 0 
 
0 0 0 vn 
Se conhecermos vi podemos demonstrar que, ao ponderar o modelo pela raiz quadrada de
vi, chegaremos aos MELNV. Em outras palavras, o modelo corrigido seria dado por:
184
Yi 1 X1 Xk e
=α + β1 i + ... + β 2 i + i (25)
vi vi vi vi vi
Sendo que a variância dos erros desse modelo transformado ( ei vi ) seria a constante
σ2, pois:
   1
2
e
E  i   = E (ei2 ) = σ 2 (26)
 vi   vi

 
A equivalente da equação (25) em representação matricial seria:
1 v1 0 0 0
 
0 1 v2 0 0 
Λy = ΛXβ + Λe onde Λ =  (27)
 0 0 ... 0 
 
 0 0 0 1 v 2 
Sendo Λ a matrix diagonal com os fatores de ponderação de cada observação.
Analogamente, os erros de (27) seriam homocedásticos, pois:
E ( Λee T Λ ) = ΛVΛσ 2 = Iσ 2 (28)

Chegaríamos então ao modelo homocedástico Λy = ΛXβ + Λe, o qual será utilizado para
estimar a matriz de coeficientes β de maneira precisa e não viesada. Assim, podemos
simplesmente aplicar a técnica de MQO para obter os estimadores β, sendo Λy nosso vetor com
os valores das variáveis dependentes e ΛX a matriz com os valores das variáveis independentes.
O nome de estimadores de MQP decorre justamente do fato de os estimadores a serem obtidos
para a euqação (27) serem aqueles que minimizarão a soma dos erros quadráticos ponderados
(Λ
Λe).
A nova expressão para os estimadores do modelo, denominados agora de estimadores de
MQP será:
βˆ = (X T ΛΛX)−1 X T ΛΛy = (X T V −1 X)−1 X T V −1y (29)

Analogamente ao procedimento adotado em (29) para ponderar os estimadores, a
respectiva matriz de variâncias e covariâncias para β̂ será dada pelas ponderações:
σ β2ˆ = ( XT ΛΛX) −1σ 2 = ( XT V −1X) −1σ 2 (30)

E seu respectivo estimador dado por:
185
S β2ˆ = ( XT V −1X) −1σˆ 2 (31)

Onde:
) SQRes
σ2 =
n - (k + 1) (32)
T −1
SQRes = y V y − β X V y ˆT T −1
A questão que agora fica é como estabelecer a matriz de fatores V e sua equivalente
matriz de ponderações Λ. Veremos a seguir duas situações: i) quando a relação de
heterocedasticidade é conhecida; ii) quando a relação de heterocedasticadade é desconhecida e
devemos trabalhar com estimativas obtidas a partir de comportamentos observados na amostra.
12.3.1. Função de heterocedasticidade conhecida

Quando conhecemos a relação de heterocedasticidade podemos definir previamente a
matriz de ponderações V e obter diretamente os estimadores de MQP pela equação (29). Por
exemplo, um caso característico de heterocedasticidade ocorre quando a variância dos erros é
proporcional aos valores de uma das variáveis independentes Xj (segundo exemplo da Figura 2).
Nessas circunstâncias teríamos:
 X j1 0 0
0 
 0 X j2 0 0  2
Var (e) = E (ee ) = 
T
σ = Vσ 2 (33)
 0 0 ... 0 
 
 0 0 0 X jn 
E a matriz de ponderações seria:
1 X j 0 0 0 
 i

 0 1 X j2 0 0 
Λ=  (34)
0 0 ... 0
 
 0 0 0 1 X jn 
Importante destacar que todos os valores de Xj devem, necessariamente, ser positivos.

Caso contrário, teríamos valores negativos para a variância.
186
Exemplo 5. Partindo do pressuposto que a variância dos erros da relação entre gastos com
alimentos e renda seja proporcioanl ao valor de X (Renda), podemos obter estimativas de mínima
variância aplicando a técnica de MQP. A variância dos erros seria dada por:
 X 1 ... 0 
2
Var (ei ) = σ X i ou Var (e) =  ... ... ... σ 2 = Vσ 2
 0 ... X 40 
Os estimadores de MQP seriam:
31,9
βˆ = ( X T V −1 X) −1 X T V −1y =  
0,14
Graficamente podemos perceber que o ajuste de MQP (em azul) aproxima-se mais do
comportamento observado para as observações de baixa variabilidade (menores rendas) do que
aquele obtido com MQO (tracejado em vermelho):
Podemos ainda testar a significância dos estimadores de MQP. O primeiro passo é obter as
estimativas de suas variâncias:
 323,5 − 0,46 
S βˆ2 = ( X T V −1 X) −1σˆ 2 =  
− 0,46 0,0007
Onde:
SQRes y T V −1y − βˆ T X T V −1y

σˆ 2 = = = 1,808
n − k −1 38
Teremos, então, as seguintes estatísticas para testar as hipóteses nulas de de que os coeficientes
são, individualmente, iguais a zero:
187
βˆ0 − 0 3,19
t βˆ = = = 1,77 ⇒ p = 0,084
0 S βˆ 323,5
0
βˆ1 − 0 0,14
t βˆ = = = 5,22 ⇒ p = 6 × 10 −6
1 S βˆ 0,0007
1
Considerando uma chance máxima de erro de 10%, podemos afirmar que os dois coeficientes
são significativos, ou seja, que são diferentes de zero.
12.3.2. Função de heterocedasticidade desconhecida – Mínimos Quadrados Generalizados

Factíveis
Quando desconhecemos a relação de heterocedasticidade, podemos estimá-la a partir de
comportamentos observados na amostra. Em outras palavras, estimamos os valores de v̂i a partir
de uma função v(xi) que relaciona a variância dos resíduos às k variáveis independentes do
modelo de RLM. Entre as várias propostas de especificação da função v(xi), podemos destacar:
Var (e | x) = v(x)σ 2 = eδ 0 +δ1X1+...+δ k X k σ 2 (35)

Ou seja:
v ( x) = eδ 0 +δ1X1+...+δ k X k (36)
A opção pela forma exponencial proposta em (36), em detrimento das forma linear
proposta pelo teste de Breusch-Pagan (14), ou mesmo da forma quadrática proposta pelo teste de
White (18), justifica-se, entre outros motivos, pelo fato de essa garantir que os valores estimados
para vi em (36) sejam todos positivos. Como sabemos, a variância não pode assumir valores
negativos, o que não seria garantido caso os mesmos sejam fossem etimados, por exemplo,
segunda a função linear proposta pelo teste de Breusch-Pagan.
Utilizando o quadrado dos erros como aproximação para a variância, podemos propor o
seguinte modelo de relacionamente entre a variabilidade dos erros e as variáveis independentes:
δ 0 +δ1 X1i +...+δ k X ki
ei2 = e ui (37)
Ou, a partir da equivalente função linear:
ln(ei2 ) = δ 0* + δ1 X 1i + ... + δ k X ki + ui* (38)
Onde δ 0* e u * representam, respectivamente, o novo intercepto e erro do modelo linear.
Como o valor do erro não é observado, trabalhamos com os resíduos da amostra:
188
ln(eî2 ) = δ 0* + δ1 X 1i + ... + δ k X ki + ui* (39)

Uma vez estimado o modelo (39) por MQO, podemos estimar o fator vi para cada
observação da amostra por:
δˆ0* +δˆ1X1i +...+δˆk X ki
vî = e (40)
O fator v̂i pode então ser substituído na matriz de ponderações Λ em (27) para obter os
estimadores de MQP, agora denominados de estimadores de Mínimos Quadrados Generalizados

Factíveis (MQGF). Uma consideração importante sobre a propriedade dos estimadores de
MQGF é que, pelo fato de substituirmos vi por v̂i , esses acabam viesados, embora sejam
consistentes e assintoticamente mais eficientes que os estimadores de MQO.
Exemplo 6. Para obtermos os estimadores de MQGF da relação entre renda e consumo de

alimentos, o primeiro passo é estimar, por MQO, a relação entre o quadrado dos resíduos do
modelo orignal e a única variável independente segundo a função:
ln(eî2 ) = 3,363 + 0,004Rendai + uî

Assim, a relação de heterocedasticidade estimada para os erros será dada por:
vî = e 3,363+0,004 Rendai

A partir desses resultados, nossa matriz de ponderação V será estimada por:
vˆ1 ... 0  vˆ1 ... 0 

  2 ˆ =  ... ... ... 
Var (e) =  ... ... ... σ onde V  
 0 ... vˆ   0 ... vˆ 
 40   40 
Os estimadores de MQGF seriam:
βˆ = ( XT V ˆ −1y = 22,6
ˆ −1X) −1 XT V
0,16 
 
As estimavas diferem marginalmente das obtidas por MQO e MQP. Devemos, entretanto,
considerar que o MQGF seria apropriado, sobretudo, para amostras relativamente grandes, já que
seus estimadores são viesados para amostras pequenas.
189
12.4. Estimadores Robustos da Variância

Uma limitação do método de MQP é a necessidade de se conhecer (ou estimar pelo
método de MQGF) a forma de relacionamento entre os erros e as variáveis independentes para se
obter novos estimadores dos coeficientes e de suas variâncias. Como a heterocedasticidade não
implica em viés nos estimadores dos coeficientes de MQO, uma alternativa simples seria
corrigirmos apenas as estimativas das variâncias. Em outras palavras, obteríamos estimadores
das variâncias que seriam robustos à presença de heterocedasticidade e igualmente válidos na
presença de homocedasticidade, pelo menos para amostras grandes.
Para compreendermos esse procedimento, vamos inicialmente considerar o caso de uma
RLS:
Yi = α + βX i + ei (41)
De desenvolvimento anterior, sabemos que a variância do coeficiente angular na presença
de heterocedasticidade será dada por:
n
Var ( βˆ ) =
∑i=1 xi2σ i2 (42)
n
(∑i =1 xi2 ) 2
Precisamos agora de um estimador para essa variância, ou seja, um estimador que seja
robusto à presença de heterocedasticidade. De acordo com White (1980), essa variância pode ser
estimada consistentemente por:
n
S β2ˆ ∗ =
∑ x 2 eˆ 2
i =1 i i
(43)
n
(∑i =1 xi2 ) 2
Onde eî2 são os resíduos obtidos pelo ajuste da equação (42) por MQO.
De maneira genérica, podemos considerar um modelo de RLM dado por:
Yi = α + β1 X 1i + β 2 X 2i + ... + β k X ki + ei (44)
O estimador robusto à heterocedasticidade para a variância do coeficiente βj será, neste
caso:
n
S β2ˆ ∗ =
∑ uˆ 2 eˆ 2
i =1 j i i
(45)
n
j
(∑i =1 uˆ 2j ) 2 i
190
Onde uˆ 2j corresponde aos resíduos estimados do ajuste de Xj em função das demais
variáveis independentes. A raiz quadrada do estimador S β2ˆ∗ é conhecida como erro padrão
j
robusto à heterocedasticidade e sua autoria atribuída à Halbert White. Seu uso justifica-se
quando trabalhamos com amostras grandes, já que é assintoticamente não viesado, ou seja,
converge, em amostras grandes, para a a real variância na presença de heterocedasticidade (42).
Analogamente, as estatísticas t e F baseadas no estimador de White também se justificam apenas
assintoticamente.
A grande vantagem desse procedimento é que não necessita estabelecer premissas sobre a
forma de heterocedasticidade dos erros (como o MQP), tampouco gera estimadores viesados dos
coeficientes para amostras pequenas (como os MQGF). A desvantagem é que, para amostras
relativamente pequenas, as estatísticas t e F baseadas nas variâncias robustas não apresentarão as
respectivas distribuições de probabilidade t e F.
Exemplo 7. O ajuste de MQO para a relação entre gastos com alimentação e renda forneceu as
seguintes estimativas:
Gasto Aliment i = 40,8 + 0,13 Rendai + eî
A estimativa de MQO para a variância do estimador de β seria:
σˆ 2 1.429
S β2ˆ = n
= = 0,00093 = 0,0312
∑ x2
i =1 i
1.532.463
O estimador da variância robusto à heterocedasticidade seria, por sua vez:

n
S β2ˆ ∗ =
∑i=1 xi2 eî2 = 3.421.453.919 = 0,0015 = 0,0382
n
(∑i =1 xi2 ) 2 (1.532.463) 2
Como pode-se observar, a estimativa do erro padrão robusto à heterocedasticidade é superior à

estimativa de MQO. Não se pode, entretanto, garantir que as estimativas de MQO irão sempre
subestimar a variância dos coeficientes na presença de heterocedasticidade.
O teste t para a significância do coeficiente angular seria então:
0,13
t= = 3,36
0,038
191
O valor p associado à esta estimativa seria 0,00178. Em outras palavras, considerando o erro
padrão robusto à heterocedasticidade, haveria apenas 0,2% de chance de erro se afirmássemos
que há relação significativa entre renda e gastos com alimentação.
Exercícios
1. O arquivo DistanciaPercorridaFerias.XLS contém informações sobre a distância percorrida
por famílias em férias (Dist, em km), renda mensal (Renda, em reais) e idade do chefe da
família (Idade). Pressupõe-se que a distância percorrida seja uma função linear da renda e da
idade do chefe da família.
a. Sem qualquer tipo de análise prévia, há motivos para suspeitar de
heterocedasticidade nesse modelo?
b. Obtenha os estimadores de MQO.
c. Verifique a existência de heterocedasticidade a partir da análise gráfica.
d. Teste a existência de heterocedasticidade a partir do teste de Goldfeld-Quandt.
e. Teste a existência de heterocedasticidade a partir do teste de White.
f. Pressupondo que a variância dos resíduos seja proporcional à renda, obtenha os
estimadores de MQP.
g. Analise a significância das estimativas obtidas em (f).
2. O arquivo FuncaoInvestimaneto.XLS contém informações sobre o investimento de uma

firma (Inv em milhões de US$), seu valor em ações (V, em milhões de US$) e capital da
firma (K, em milhões de US$). Supondo que o investimento seja linearmente determinado
pelo valor da firma e seu capital, pede-se:
a. Obtenha os estimadores de MQO.
b. Teste a existência de heterocedasticidade a partir do teste de Goldfeld-Quandt.
c. Teste a existência de heterocedasticidade a partir do teste de White.
d. Supondo que a heterocedasticidade seja diretamente proporcional ao valor da
empresa, ajuste a regressão por MQP.
e. Analise a significância das estimativas obtidas em (d).
192
3. Uma amostra de 6 famílias forneceu as seguintes informações sobre gastos com alimentos
(Gasto em mil reais) e renda (Renda, em mil reais):
Gasto 0,4 0,6 2,8 1,2 4,2 2,2
Renda 1 2 3 4 5 6
Supondo que os gastos sejam linearmente determinados pela renda das famílias, pede-se:
b. Teste a existência de heterocedasticidade a partir do teste de Goldfeld-Quandt.
Tendo em vista o limitado tamanho da amostra, não elimine observações centrais
para realização do teste.
c. Teste a existência de heterocedasticidade a partir do teste de Breusch-Pagan.
d. Teste a existência de heterocedasticidade a partir do teste de White.
e. Supondo que a heterocedasticidade seja diretamente proporcional ao valor da
renda, ajuste a regressão por MQP.
f. Analise a significância das estimativas obtidas em (d).
g. Obtenha as estimativas de MQGF.
4. (ANPEC, 2010) Considere as seguintes afirmações referentes ao modelo de regressão linear

clássico com regressores estocásticos:
yi = β 0 + β1 x1i + β 2 x 2i + ε i , i=1..n
em que E[ε i | x1 , x2 ] = 0 e Var[ε i | x1 , x 2 ] = σ 2 . Então, se a hipótese de homoscedasticidade

for violada, os estimadores de mínimos quadrados ordinários de β0, β1 e β2 serão viesados.
5. (ANPEC, 2009) Considere o seguinte modelo de regressão linear: y = β 0 + β1 x + u , em que

u é o erro da regressão, y é a variável dependente e X é a variável explicativa. Caso o erro
seja heterocedástico, a estatística t usual para testarmos a hipótese H0: β1=0 contra a
alternativa H1: β1≠0 não é mais válida.
6. (ANPEC, 2008) Na presença de heterocedasticidade nos erros de um modelo de regressão

linear, os estimadores de mínimos quadrados ordinários são ineficientes.
193
Respostas
1) b. Dist = 5,52 + 0,27 Renda + 11,07 Idade + eˆ ;
e. eˆ 2 = −3375 + 163Renda − 2556 Idade − 0,02 Renda 2 + 44,7 Idade 2 − 2, ,45Renda ⋅ Idade + uˆ ;
nR2=7,99; p=0,157; f. Dist = 100,9 + 0,24 Renda + 9,66 Idade + eˆ ; g. βˆ0 : t=-0,798; p=0,461;
βˆ1 : t=-3,831; p=0,012; βˆ2 : t=-3,226; p=0,023;

2) b. Inv = −25,6 + 0,03V + 0,16 K + eˆ ;
e. eˆ 2 = 750,2 − 0,48V − 8,69 K − 0,0001V 2 − 0,01K 2 + 0,008V ⋅ K + uˆ ; nR2=6,35; p=0,274; f.
Inv = −17,9 + 0,028V + 0,156 K + eˆ ; g. βˆ0 : t=-0,629; p=0,549; βˆ1 : t=-2,150; p=0,069; βˆ2 :
t=-2,492; p=0,041;
3) a. Gasto = 0,08 + 0,52 Renda + ê; b. F=6,267, p=0,242; c. nR2= 6×0,4778=2,866; p=0,090; c.
nR2= 6×0,628=3,768; p=0,152; e. Gasto = -0,16 + 0,59 Renda + ê; f. tβ0=0,23; p=0,83; .
tβ1=2,46; p=0,07; g. Gasto = 0,005 + 0,542 Renda + ê;
4) F.
5) V.
6) V.
194
13. Autocorrelação
Introdução
Os dados utilizados em análises econométricas podem ser classificados em três grupos
principais: i) dados de corte transversal (cross section): quando indivíduos independentes são
observados em um mesmo ponto do tempo (por exemplo, dados sobre a renda e escolaridade de
um grupo de pessoas em um determinado período); ii) dados de séries temporais (time series):
quando um mesmo indivíduo é observado em perídos consecutivos de tempo (por exemplo,
dados sobre o consumo e renda de um país entre 1981 e 2010); iii) dados em painel (panel data):
quando um grupo de elementos amostrais é observado em períodos consecutivos de tempo (por
exemplo, dados sobre o consumo e renda para cada um dos países da América do Sul entre 1981
e 2010).
Uma característica da análise de dados de séries temporais é que valores de períodos
correntes tendem a estar associados a valores de períodos passados. Seria o caso, por exemplo,
da área plantada em determinado ano que dependeria da área plantada no ano anterior, ou do
consumo em determinado trimestre, que dependeria não somente da renda presente como da
renda nos trimestres anteriores. Para contornar esse problema, modelos com dados de séries
temporais costumam conter valores defasados (de períodos anteriores) das variáveis Y e X entre
os regressores.
Entretanto, quando a relação entre valores presentes e passados reproduz-se nos erros do
modelo, é quebrada uma das premissas do MCRL, a ausência de autocorrelação nos erros. Da
mesma forma que ocorre com a heterocedasticidade, na presença de autocorrelação os
estimadores de MQO deixam de ser eficientes, embora permaneçam não viesados e consistentes.
Adicionalmente, o estimador de MQO para a variância dos coeficentes do modelos passa a ser
tendencioso. Neste capítulo, além da definição de autocorrelação, discutiremos quais suas
consequências, determinantes, técnicas para detectá-la e as principais medidas corretivas.
13.1. Definição
Seja o modelo de RLM para um conjunto de dados de séries temporais:
Yt = α + β1 X 1t + β 2 X 2t + ... + β k X kt + et (1)
195
Econometria Autocorrelação
Dizemos que há autocorrelação (ou correlação serial) quando os erros associados a

observações em um dado período de tempo se mantêm por transferência nos períodos de tempo
futuros. Em outras palavras, significa afirmar que valores presentes e passados (ou futuros) dos
erros estão correlacionados, o que pode ser representado por:
Cov(et , et + s ) = E (et et − s ) ≠ 0 (2)
Perceba que as notações t–s e t+s se equivalem no conceito de covariância.
Embora as análises aqui apresentadas refiram-se exclusivamente à autocorrelação em
estudos de séries temporais (correlação serial), esta pode ainda ocorrer em dados espaciais de
corte transversal (correlação espacial), quando indicadores de localidades espacialmente
próximas tendem a estar autocorrelacionados.
O caso mais comum de autocorrelação é aquele em que os erros presentes dependem dos
valores imediamente anteriores, segundo um processo denominado de autorregressivo de 1ª
ordem, AR(1):
et = ρet −1 + ut (3)
Onde ρ é o denominado coeficiente de autocorrelação dos erros (–1 < ρ < 1)29 e ut são os
erros não autocorrelacionados e com as propriedades já conhecidas dos erros de um MCRL, ou
seja:
E (u t ) = 0 E (ut2 ) = σ u2 E (u t u t −s ) = 0 (4)
Graficamente, a autocorrelação nos erros significa que esses apresentarão um padrão
sistemático ao longo do tempo, enquanto que, na ausência de autocorrelação, sua dispersão ao
longo do tempo será indiscernível:
Não Autocorrelacionado Autocorrelacionado
(5)
29
Embora o coeficiente de autocorrelação ρ possa também assumir o valor 1 ou –1, veremos adiante que esse
resultado implicaria em um problema mais sério no modelo de regressão: não estacionariedade dos erros.
196
São vários os motivos que podem levar à autocorrelação no erros, entre os quais podemos
destacar:
• Inércia: é comum que séries temporais econômicas apresentarem ciclos, ou seja,
períodos de crescimento ou decaimento. Mudanças em uma tendência temporal
costumam ocorrer lentamente. Quando esse comportamento se reflete nos erros de um
modelo de regressão, esses tenderão a estar autocorrelacionadas, ou seja, erros
positivos tenderão a estar próximos em períodos de crescimento, assim como erros
negativos tenderão a estar próximos em períodos de retrocesso. Por exemplo, se a
declaração de otimismo da população em relação à economia está, em um
determinado período, acima do que se esperaria para a respectiva taxa de crescimento
econômico por fatores não observáveis, é natural supor que esse comportamento se
mantenha em períodos subsequentes, mesmo com tendência de convergência ao
padrão histórico de relacionamento ao longo do tempo;
• Falhas de especificação: a autocorrelação pode ser devida à ausência de uma
importante variável no modelo de regressão ou transformação das variáveis
existentes. Os erros expresariam, assim, um padrão sistemático devido à ausência
dessas informações. Por exemplo, omitir o preço de um substituto em uma função de
demanda pode sujeitar os erros a um comportamento sistemático. Analogamente,
ajustar uma função linear a uma relação quadrática também poderia sujeitar os
resíduos a um padrão sistemático.
• Defasagens: as decisões econômicas em um período t dependem, muitas vezes, de
informações defasadas do período t−1. Desconsiderar esse tipo de relação sujeitaria
os erros à correlação serial. Por exemplo, o otimismo da população pode ser
influenciada não apenas pelo crescimento da economia no período presente, mas
também pelo comportamento da econômia nos períodos anteriores. Analogamente, o
consumo pode depender, além da renda presente, do consumo e da renda nos períodos
anteriores;
Assim como ocorre na heterocedasticidade, na presença de autocorrelação os estimadores

de MQO continuam sendo não viesados e consistentes, mas deixam de ser eficientes (ou seja,
não possuem mais variância mínima). Outra consequência importante da autocorrelação é o fato
197
de os estimadores das variâncias dos coeficientes serem viesados. Assim, estatísticas de teste
baseadas na variabilidade dos coeficientes, como as estatísticas t e F, deixariam de ser válidas.
Para melhor compreender esse problema, suponha que estejamos trabalhando com um modelo de
RLS:
Yt = α + βX t + et (6)
Onde sabemos que os estimadores de MQO serão:
n
∑ xt yt
β̂ = t =n1 S β2ˆ =
σˆ 2
(7)
n
∑t =1 xt2 ∑t =1 xt2
Agora comparemos algumas propriedades do modelo na presença e ausência de
autocorrelação (ver demostração no Apêndice A):
Não Autocorrelacionado Autocorrelacionado

σ2
Var (et ) = σ 2 Var (et ) =
1− ρ 2
σ2 (8)
Cov(et , et +s ) = 0 Cov (et , et + s ) = ρ s
1− ρ 2
σ2 σ2 σ2 n −1 n −t
Var ( βˆ ) = n Var ( βˆ ) = +2 ∑∑ ρ s xt xt + s
∑
n n
x2
t =1 i ∑ x2
t =1 i ∑ x 2 t =1 s =1
t =1 i
O fato de a variância dos erros ser diferente de σ2 e de as covariâncias serem diferentes
de zero no modelo autocorrelacionado implica em uma nova variância para β̂ . Comparando o
estimador de MQO (7) com a real variância de βˆ (8), podemos observar que o primeiro
desconsidera o segundo componente de Var ( βˆ ) , que é a fonte de viés do estimador. Como, na

maioria dos estudos econométricos de séries temporais, tanto a correlação serial quanto a relação
entre os regressores costumam ser postivias (ΣΣρsxtxt+s>0), o estimador de MQO usualmente
subestima a real variância de β̂ .
198
Caso não haja conhecimento a priori da existência de autocorrelação nos erros, deve-se
analisar o comportamento dos resíduos para inferir sobre sua existência. Veremos quatro formas
principais de análise: i) análise gráfica; ii) teste t para regressores estritamente exógenos; iii)
teste de Durbin-Watson para o MCRL; iv) teste de Breusch-Godfrey para ordens superiores e
regressores não estritamente exógenos.
13.2.1. Análise Gráfica

Uma forma simples e intuitiva para suspeitar da existência de autocorrelação nos erros é
analisando a dispersão dos resíduos em função do tempo de observação dos valores. Uma
dispersão aleatória e não sistemática dos resíduos ao longo do tempo sugeriria a ausência de
autocorrelação, como mostra a primeira representação (a) da figura 9. Por outro lado, padrões
sistemáticos de dispersão serão indícios da existência de autocorrelação, como ocorrem nas
demais três representações (b, c, d) da figura 9:
(a) (b)
(9)
(c) (d)
Exemplo 1. Observou-se, durante 34 trimestres, a relação entre área plantada (Área, em mil
hectares) e preço (Preço, em reais por tonelada) da cana-de-açucar em determinada região. A
199
dispersão dos valores observados e o ajuste de MQO estabelecido, com seus respectivos erros
padrão (em parênteses), são apresentados abaixo:
Áreat = 2,54 + 4,79 Preçot + êt

(17,8) (0,63)
Quando se observa a distribuição dos resíduos (êt) ao longo do tempo, observa-se um provável
padrão cíclico, o que sugeriria a existência de autocorrelação nos erros do modelo.
Afinal, é natural supor que a área plantada no trimestre t não dependa apenas do preço no ano t,
mas também de informações observadas em períodos anteriores. A área plantada em um
trimestre pode ser influenciada tanto pela área plantada no trimestre anterior, pelo preço pago
pela cana-de-açucar no período anterior, como por outros fatores não previstos pelo ajuste
(política de incentivos do governo, previsões sobre os preços futuros e expectativas sobre o
estabelecimento de usinas na região, por exemplo) que tenham lento amortecimento no tempo.
Ademais, o próprio ajuste da oferta pelo produtor em função de variações no preço da cana
podem ser pouco flexíveis e, consequentemente, também gerar um lento amortecimento no
tempo.
200
13.2.2. Teste t para regressores estritamente exógenos

A análise gráfica pode sugerir padrões de autocorrelação, mas não oferece evidências
formais de sua existência na população. Devemos, então, realizar testes de hipóteses para inferir
sobre a presença de autocorrelação nos erros do modelo populacional a partir de evidências
observadas na amostra. Vamos supor que os erros sigam o caso mais simples e usual de
autocorrelação, o de um processo autorregressivo de primeira ordem, AR(1):
et = ρet −1 + ut (10)
As hipóteses a serem testadas seriam:
 H 0: ρ = 0
 (11)
 H1: ρ > 0
A hipótese nula corresponde à hipótese da ausência de autocorrelação, já que implicaria a
inexistência de relação entre os erros presentes (et) e passados (et–1). Como a correlação serial é
usualmente positiva, limitamo-nos a realizar um teste unicaudal para o ceficiente de
autocorrelação (ρ).
Um procedimento natural seria substituirmos et pelos resíduos êt de MQO e estimarmos o
coeficiente ρ também por MQO. Teríamos então o estimador ρ̂ e a respectiva estatística t para
testar as hipóteses em (11) dados por:
n
∑ eˆt eˆt −1
ρˆ = t =2 2 e t=
ρˆ
(12)
n S ρˆ
∑t =2 eˆ t −1
n 2
Sendo S ρˆ =
σˆ 2 ∑ uˆ
e σˆ 2 = t =2 t −1 os estimadores de MQO para o erro padrão do
2
n (n − 1) − 1
∑t =2 eˆ t −1
coeficiente e para a variância da regressão. Perceba que a primeira observação é perdida em

função de a defasagem et–1 não existir para t=1. Ademais, como o modelo possui apenas 1
coeficiente (ρ), teremos (n–1)–1 graus de liberdade para a soma do quadrado dos resíduos e para
a estatística t. O problema é que, ao substituirmos os valores não obervados de et pelas
estimativas de MQO êt, não podemos garantir que a estatística t tenha distribuição t de Student.
Segundo Wooldridge (1991), a distribuição t não será afetada pela substituição caso tenhamos
uma amostra razoavelmente grande e os regressores sejam estritamente exógenos. Em outras
201
palavras, o estimador ρ̂ será um estimador consistente caso os erros et não sejam

correlacionados a quaisquer valores presentes ou futuros dos regressores Xs. A exogeneidade
estrita pode genericamente representada pela esperança condicional dos erros:
E (et | X s ) = 0 onde s≠t (13)
Adicionalmente, para a validade teste t, precisamos assumir como premissas básicas de
uma função de autocorrelação de primeira ordem dos erros que:
Var (ut ) = σ u2 e E (ut | et −1 , et −2 ,...) = 0 (14)
Exemplo 2. Para testar a presença de autocorrelação de 1ª ordem no modelo para a área plantada
em função do preço da cana-de-açucar, ajustamos o seguinte modelo por MQO:
eˆt = 0,252eˆt −1 + uˆt
A estatística t associada ao coeficiente de autocorrelação foi estimada por:
ρˆ 0,252
t= = = 1,443
S ρˆ 0,175
Das 34 observações originais, a primeira foi perdida em função da ausência de uma estimativa
para êt–1 quando t=1. Considerando ainda o único coeficiente do modelo, teremos 32 graus de
liberdade para a estatística t e o valor p associado ao teste unicaudal será dado por:
Em outras palavras, se rejeitarmos a hipótese de ausência de autocorrelação pelo teste t,

estaremos sujeitos a um erro de 7,9%. A validade do teste depende, entretanto, de dois
pressupostos fundamentais. Primeiro, devemos pressupor que não haja correlação entre os erros
et e os valores defasados do preço da cana-de-açucar. Segundo, como o tamanho da amostra não
é razoavelmente grande, não podemos garantir que a estatística t estimada tenha de fato uma
distribuição t de Student ao utilizarmos os resíduos êt de MQO em substituição aos valores não
observados de et. Testes adicionais podem auxiliar na decisão.
202
13.2.3. Teste de Durbin-Watson para um MCRL

O teste mais utilizado para identificar autocorrelação foi proposto em 1950 por James
Durbin e Geoffrey Watson. As hipóteses a serem testadas são análogas ao do teste t:
 H 0: ρ = 0
 (15)
 H1: ρ > 0
A estatística de Durbin-Watson (DW) proposta para testar essas hipóteses será dada por:
n
DW =
∑ (eˆ − eˆt −1 ) 2
t =2 t
(16)
n
∑t =1 eˆt 2
Onde êt são os resíduos obtidos no ajuste de MQO. Perceba que, como desconhecemos a
defasagem (t–1) para o primeiro período (t=1), a expressão no numerador considera apenas o
comportamento para n–1 observações. Podemos ainda demonstrar que existe uma estreita relação
entre a estimativa de DW e o coeficiente de autocorrelação dos resíduos. Desenvolvendo a
expressão (11) teremos:
n n n
DW =
∑ eˆ − 2∑t =2 eˆt eˆt −1 + ∑t =2 eˆt −1
t =2 t
2 2
(17)
n
∑t =1 teˆ 2
Quando n for relativamente grande, teremos ∑ eˆt2 aproximadamente igual a ∑ eˆt2−1 e a
equação poderá ser representada por:

n
∑ eˆt eˆt −1
DW ≈ 2(1 − t =n2 2 ) (18)
∑t =1 eˆt
n
Perceba ainda que o componente

∑t =2 eˆt eˆt −1 , também representado por ρ̂ , é
n
∑t =1 eˆt 2
aproximadamente igual ao estimador ρ̂ de MQO para o modelo autorregressivo de primeira
ordem dos resíduos (equação 12). A diferença encontra-se no denominador, que, no caso da
expressão (18), também considera a primeira observação da amostra. Como assintoticamente os
dois estimadores são semelhantes, teremos:
DW ≈ 2(1 − ρˆ ) (19)
A partir de (19), notamos que a estatística DW assumirá valores entre 0 e 4. Na ausência
de autocorrelação, o valor de DW será próximo de 2. Quão mais próxima de 0, mais evidências
203
teremos para rejeitar a hipótese nula, sugerindo a existência de correlação serial positiva. Embora
possível, valores de DW próximos de 4 dificilmente ocorrem, pois implicariam correlação serial
negativa, fenômeno pouco comum em séries temporais.
Os valores críticos da tabela de Durbin-Watson apresentam uma importante
peculiaridade. Diferentemente das estatísticas de teste padrão, como t e F que se baseiam em
valores observados na amostra, a estatística DW baseia-se em valores estimados a partir da
amostra (êt). Essa peculiaridade condiciona sua distribuição de probabilidade aos valores
observados para as variáveis independentes (X) na amostra. Para contornar essa limitação,
Durbin e Watson propuseram uma tabela com possíveis valores extremos de DW em função do
número de variáveis independentes (k) e observações da amostra (n).
Assim, dados os valores de n e k, pode-se consultar o valor crítico inferior (dI) e superior
(dS) para DW supondo que sua distribuição esteja, respectivamente, o mais concentrado possível
à esquerda ( DWnI,k ) e à direita ( DWnS,k ), como mostra a Figura 13:
(20)
A novidade nessa análise é a existência de uma zona de indecisão, entre dI e dS, onde não
se pode rejeitar nem aceitar H0, já que cada distribuição extrema proporcionaria uma decisão
diferente:
(21)
Alguns autores sugerem, entretanto, que o limite superior da tabela (ds) seja uma boa
aproximação para o real valor crítico da distribuição na maioria das situações.
Em comparação ao teste t, a vantagem da estatística de Durbin-Watson é o fato de
apresentar uma distribuição específica de probabilidade, não dependendo apenas de
aproximações assintóticas. Entretanto, a validade do teste de Durbin-Watson também depende de
algumas considerações importantes. Primeiro, o teste depende fundamentalmente das premissas
do MCRL, como a homocedasticidade e normalidade dos erros. O teste também limita-se ainda
à detecção de esquemas autorregressivos de 1ª ordem (et=et–1+ut). Ademais, todos os regressores
204
devem ser não aleatórios, o que não ocorrerá, por exemplo, quando temos um componente
autorregressivo de Y entre as variáveis explanatórias.
Exemplo 3. Voltando ao caso da área plantada de cana em função do preço, utilizamos a

estatística DW para testar a existência de autocorrelação de 1ª ordem no modelo. A partir dos
resíduos obtidos pelo ajuste de MQO, o coeficiente de autocorrelação dos resíduos foi estimado
por:
n
ρˆ =
∑t =2 eˆt eˆt −1 = 0,2419
n 2
∑t =1 eˆt
Um coeficiente de correlação relativamente baixo, que implicará na seguinte estimativa para
DW:
n
DW =
∑ (eˆ − eˆt −1 ) 2
t =2 t
= 1,4745
n
∑t =1 t
eˆ 2
Para conhecermos os pontos críticos da tabela DW, devemos considerar os valores inferior e
superior para uma amostra com 34 observações (n=34) e apenas a variável Preço como regressor
(k=1).
Como o valor de DW obtido para os resíduos (1,4745) está na região de indecisão, o teste é
inconclusivo, ou seja, não há evidências, a 5% de significância, para rejeitar ou não H0. Em
outras palavras, não podemos afirmar se os erros são ou não autocorrelacionados para uma
significância de 5%.
13.2.4. Teste de Breusch-Godfrey para ordens superiores

Duas importantes limitações dos testes t e DW são: i) apenas identificam autocorrelações
de primeira ordem; ii) são inconsistentes quando as variáveis independentes não são estritamente
exógenas, como nas situações em que os regressores contêm variáveis dependentes defasadas.
Apresentaremos agora o teste conhecido como teste de Breusch-Godfrey (BG) , ou teste LM, que
205
considera tanto a presença de regressores estocásticos como esquemas autorregressivos de

múltiplas defasagens.
Por exemplo, suponha que desejamos verificar se os erros seguem um esquema
autorregressivo de 2ª ordem, AR(2):
et = ρ1et −1 + ρ 2 et −2 + ut (22)
As hipóteses a serem testadas seriam:
H 0: ρ1 = ρ 2 = 0
 (23)
H 1: ρ1 ≠ 0 ou ρ 2 ≠ 0
O procedimento usual seria substituirmos et pelos resíduos de MQO êt e estimarmos o
modelo:
eˆt = ρ1eˆt −1 + ρ 2 eˆt −2 + ut (24)
Entretanto, para permitirmos que os erros defasados correlacionem-se com os
regressores, consideramos esses também na equação (24), assim como o intercepto. No caso de
um modelo de RLS, teremos:
eˆt = δ 0 + δ1 X t + ρ1eˆt −1 + ρ 2 eˆt −2 + ut (25)
Os regressores incluídos na equação acima podem conter valores defasados de X ou Y.
Esse procedimento permite que Xt seja correlacionado a et–s e, consequentemente, que o teste seja
válido mesmo na ausência de exogeneidade estrita.
O teste pode ainda ser facilmente generalizado para autocorrelações de múltiplas ordens,
AR(q). Neste caso, teríamos:
et = ρ1et −1 + ... + ρ q et −q + ut (26)
As hipóteses seriam:
 H 0: ρ1 = ... = ρ q = 0
 (27)
 H1: ρ j ≠ 0
Supondo agora um modelo de RLM com k regressores, a equação a ser estimada seria:
eˆt = δ 0 + δ1 X 1t + ... + δ k X kt + ρ1eˆt −1 + ... + ρ q eˆt −q + ut (28)
Para testarmos a hipótese de ausência de autocorrelação de ordem q (27), tanto a
estatística F para a contribuição marginal dos q coeficientes como a estatística LM se justificam
assintoticamente. O teste de BG baseia-se na estatística LM, que será dada por:
206
LM = (n − q) Reˆ2 (29)
Onde Rê2 é o coeficiente de determinação do ajuste para a equação (28). A estatística LM
terá uma distribuição qui-quadrado com q graus de liberdade ( χ q2 ) e o valor p representará a
probabilidade do extremo superior da distribuição:
(30)
Exemplo 4. Utilizando o teste de BG, testaremos a existência de autocorrelação de 1ª ordem no

modelo para a relação entre área e preço da cana-de-açucar. O modelo ajustado por MQO foi:
eˆt = 0,043 + 0,022 Precot −1 + 0,253eˆt −1 + uˆt
A estatística LM associada ao coeficiente de autocorrelação foi estimada por:
LM = (n − q ) Reˆ2 = (34 − 1)0,061 = 2,023

Como consideramos apenas a autocorrelação de 1ª ordem (q=1), a estatística LM terá distribuição
qui-quadrado com 1 grau de liberdade:
Em outras palavras, se rejeitarmos a hipótese de ausência de autocorrelação pelo teste BG,

estaremos sujeitos a um erro de 15,5%.
13.3. Mínimos Quadrados Generalizados

Uma vez pressuposta a autocorrelação nos erros ou detectada a partir do comportamento
dos resíduos, é necessário aplicar uma outra técnica para obter estimadores que sejam os
MELNV. Analogamente ao procedimento aplicado para a heterocedasticidade, trabalharemos
com o método de Mínimos Quadrados Generalizados (MQG). Neste caso, o MQG transformará
as variáveis do modelo original de tal forma que o modelo transformado apresente erros não
autocorrelacionados e possa ser estimado por MQO de maneira eficiente e não viesada.
207
Seja, por exemplo, o modelo de RLM dado por:

Yt = α + β1 X 1t + ... + β 2 X kt + et (30)
Onde a autocorrelação se expressaria por:
et = ρet −1 + ut (31)
O objetivo é demonstrar como, através de transformações algébricas, podemos estimar os
coeficientes do modelo original (30) a partir de um modelo transformado e não
autocorrelacionado. Como o modelo proposto em (30) é válido para todos os períodos, teremos a
seguinte relação no período t–1:
Yt −1 = α + β1 X 1t −1 + ... + β 2 X kt −1 + et −1 (32)
Agora, subtraindo-se da equação (30) a equação (32) multiplicada pela constante ρ,
chegaremos ao modelo transformado:
(Yt − ρYt −1 ) = α (1 − ρ ) + β1 ( X 1t − ρX 1t −1 ) + ... + β k ( X kt − ρX kt −1 ) + (et − ρet −1 ) (33)
Perceba que este modelo apresenta os mesmos coeficientes de (30), que podem, agora,
ser obtidos a partir de MQO, já que os erros transformados (ut=et–ρet–1) são, por definição, não
autocorrelacionados (ver equação 31). Perceba ainda que, em substituição às variáveis originais,
utilizam-se, agora, as variáveis transformadas:
Yt* = (Yt − ρYt −1 ) e X *jt = ( X jt − ρX jt −1 ) (34)

Simplificadamento, teremos:
Yt* = α * + β1 X 1*t + ... + β k X k*t + ut (35)
Sendo α * = α (1 − ρ ) o intercepto do modelo transformado.

Os estimadores de MQO para a equação (35) ainda não são, entretanto, os MELNV, pois
a primeira observação contendo os valores de Y1* e X 1* é perdida em função da ausência das
defasagens Y0 e X0. Este problema pode ser facilmente corrigido transformando separadamente
os valores de Y1* e X 1* . A maneira mais simples de compreender essa transformação é utilizando
algebra matricial.
A transformação equivalente em notação matricial consiste em encontrar a matriz de
variâncias e covariâncias dos erros e adotar procedimentos análogos aos realizados para
heterocedasticidade. No caso da autocorrelação, entretanto, a matriz de variâncias e covariâncias
208
terá diagonal principal constante (variâncias homogêneas) e as partes inferior e superior

diferentes de zero (covariâncias diferentes de zero). Para autocorelação de 1ª ordem, por
exemplo, essa matriz será dada por:
 1 ρ ρ2 ... ρ n −1 
 
ρ 1 ρ ... ρ n −2 
1  2
... ρ n −3 σ = Vσ
T 2 2
Var (e) = E (ee ) = ρ ρ 1 (36)
1− ρ 2  
 ... ... ... ... ... 
 ρ n−1 ρ n− 2 ρ n −3 ... 1 

Para melhor compreender essa estrutura de variâncias e covariâncias, reveja as
propriedades apresentadas em (8).
Se conhecemos essa estrutura de variâncias e covariâncias, podemos aplicar o mesmo
raciocício do MQP para corrigir a matriz de valores de X e Y e chegarmos a um modelo com
erros de variância constante e não autocorrelacionados. Em outras palavras, os estimadores
MELNV de MQG serão obtidos pelo modelo:
Λy = ΛXβ + Λe (37)
Onde:
Λ T Λ = V −1 (38)
A partir de desenvolvimento algébrico, podemos chegar à matriz V–1:
 1 −ρ 0 ...0
− ρ 1 + ρ 2 −ρ ... 0 

V −1 = 0 − ρ 1+ ρ 2 ... 0  (40)
 
 ... ... ... ... ...
 0 0 ... − ρ 1 
E à matriz Λ:
 1− ρ 2 0 0 0 ...
 
 −ρ 1 0 0 ...
Λ= 0 − ρ 1 ... 0  (39)
 
 ... ... ... ... ...
 
 0 0 ... − ρ 1 
Perceba que os produtos Λy e ΛX nos darão, para t≥2, as variáveis transformadas
Yt* = (Yt − ρYt −1 ) e X *jt = ( X jt − ρX jt −1 ) . Para t=1, teremos Y1* = Y1 1 − ρ 2 e
209
X *j1 = X j1 1 − ρ 2 . Ademais, a primeira coluna da matriz X continha originalmente valores
unitários constantes associados ao intercepto (α). Agora a matriz ΛX conterá valores variáveis,
sendo α1* = α 1 − ρ 2 para a primeira observação (t=1) e α * = α (1 − ρ ) para as demais
observações (t≥2).
Assim como ocorre no caso da heterocedasticidade, a questão que fica é como estabelecer
a matriz de correções das covariâncias V e a resepectiva matriz de transformação Λ. Veremos a
seguir duas situações: i) quando o coeficiente de autocorrelação ρ é conhecido; ii) quando o
coeficiente de autocorrelação ρ é desconhecido e trabalhamos com estimativas obtidas a partir de
comportamentos observados na amostra.
13.3.1. Coeficiente de autocorrelação conhecido

Embora seja pouco usual na prática, podemos definir a priori o valor de ρ a partir de
pressuposições sobre a forma de relacionamento dos erros na população. Nesse caso,
conheceremos a matriz V e as estimativas de MQG poderão ser obtidas diretamente por:
βˆ = ( X T V −1 X) −1 X T V −1 y (40)
E a respectiva estimativa da matriz de variâncias e covariâncias dos coeficientes por:
S βˆ2 = ( X T V −1 X) −1σˆ 2 (41)

Onde:
y T V −1y − βˆ T X T V −1y
σˆ 2 = (42)
n − (k + 1)
Exemplo 3. Vamos pressupor que o coeficiente de autocorrelação de primeira ordem entre os

erros do modelo para a área plantada de cana-de-açucar como função de seu preço seja
conhecido e igual a 0,5. Em outras palavras, vamos considerar que a função de autocorrelação
seja dada por:
et = 0,5et −1 + ut
Isso significa que a matriz de variâncias e covariâncias dos erros será:
210
 1 0,5 0,5 2 ... 0,5 33 

 
0,5 1 0,5 ... 0,5 32 
1  2
... 0,5 31 σ = Vσ
2 2
Var (e) = 0,5 ρ 1
1 − 0,5 2  
 ... ... ... ... ... 
0,5 33 0,5 32 0,5 31 ... 1 

E a inversa de V:
 1 − 0,5 0 ... 0
− 0,5 1 + 0,5 2 − 0,5 ... 0 

V −1 = 0 − 0,5 1 + 0,5 2 ... 0
 
 ... ... ... ... ...
 0 0 ... − 0,5 1 
Os estimadores de MQG serão, portanto:
− 3,34
βˆ = ( XT V −1X) −1 XT V −1y =  
5,056 
Area = −3,34 + 5,056 Precot + eˆt
Embora não haja diferenças expressivas entre a reta de MQO (linha tracejada) e MQG (linha
contínua), devemos considerar que as estimativas das variâncias de MQO serão viesadas. No
caso do MQG, as variâncias estimadas serão obtidas da matriz:
 727,4 − 21,35
S β2ˆ = ( XT V −1X) −1σˆ 2 =  
− 21,35 0,823 
Onde:
SQRes y T V −1y − βˆ T X T V −1y

σˆ 2 = = = 1563,9
n − k −1 32
211
As estatísticas t para a análise de significância dos coeficientes parciais seriam:

− 3,34
tα = = −0,124
727,4
5,056
tβ = = 5,572
0,823
O valor p associado ao teste t para o intercepto (α) é de 0,90 e o valor p para o coeficiente
angular (β) é menor que 0,001.
13.3.2. Coeficiente de autocorrelação desconhecido

Como dificilmente conhecemos o real valor do parâmetro ρ, um procedimento usual é
estimá-lo a partir de comportamentos observados na amostra. Podemos, por exemplo, estimar o
valor de ρ̂ a partir do ajuste de MQO para a função de autocorrelação de 1a ordem:
eˆt = ρêˆt −1 + uˆt (43)

1
Neste caso, a estimativa para a matriz V seria dada por:
 1 − ρˆ 0 ... 0
− ρˆ 1 + ρˆ 2 − ρˆ ... 0 

ˆ −1
V = 0 − ρˆ 1 + ρˆ 2 ... 0  (44)
 
 ... ... ... ... ...
 0 0 ... − ρˆ 1 
De maneira similar ao MQG, os estimadores de MQGF seriam agora obtidos pela
expressão:
βˆ = ( X T V
ˆ −1 X ) − 1 X T V
ˆ −1y (45)
Com a respectiva estimativa da matriz de variâncias e covariâncias dos coeficientes dada
por:
ˆ −1X) −1σˆ 2
S β2ˆ = ( XT V (46)
Onde:
ˆ −1y − βˆ T XT V
yT V ˆ −1y
σˆ 2 = (47)
n − (k + 1)
A única diferença em relação aos estimadores de MQG (expressões 40, 41 e 42) é a
ˆ −1 . A consequência imediata da substituição de
substituição da matriz V −1 pela sua estimativa V
212
ρ por ρ̂ é, entretanto, que os estimadores de MQGF serão viesados, embora permaneçam

consistentes. Em outras palavras, devemos ter muito cuidado ao analisar os estimadores de
MQGF quando trabalhamos com amostras finitas (pequenas), já que suas estimativas tendem a
ser viesadas. Para amostras grandes, os estimadores de MQGF são os MELNV e mais eficientes
que os estimadores de MQO.
Há várias propostas alternativas para estimação de ρ̂ . Theil (1971), por exemplo, sugere
uma correção pelos graus de liberdade do estimador de ρ associado à estatística DW (equação
18). Por sua vez, os procedimentos iterativos de Cochrane-Orcutt e Prais-Winstem estimam ρ̂
através de inúmeras aproximações. Primeiramente, os estimadores do modelo são obtidos por
MQGF. As estimativas de MQGF permitirão estimar novos resíduos êt e, consequentemente, um
novo valor para ρ̂ . O procedimento se repete até que haja convergência nas estimativa de ρ̂ . As
propriedades dos estimadores que utilizam ρ̂ de processos iterativos são as mesmas dos
procedimentos que utilizam apenas uma iteração, ou seja, ambos são válidos assintoticamente.
Procedimentos adicionais são também propostos para considerar autocorrelações de ordem mais
elevada, AR(q), tanto para os métodos iterativos como para os métodos de uma única etapa.
Exemplo 6. Para obtermos os estimadores de MQGF da relação entre área e preço da cana-de-
açucar, o primeiro passo é estimar, por MQO, a função de autcorrelação de 1ª ordem para os
resíduos:
eˆt = 0,252eˆt −1 + uˆt
A partir da estimativa ρˆ = 0,252 , termos a seguinte estimativa para a matriz de transformação
das covariâncias dos erros:
 1 0,252 0,252 2 ... 0,25233 

 
 0,252 1 0,252 ... 0,25232 
ˆ = 1  0,252 2
V ρ 1 ... 0,25231 
1 − 0,252 2  
 ... ... ... ... ... 
0,25233 0,25232 0,25231 ... 1 

E para a inversa V −1 :
213
 1 − 0,252 0 ... 0
− 0,252 1 + 0,252 2 − 0,252 ... 0 

ˆ −1
V = 0 − 0,252 1 + 0,252 2 ... 0
 
 ... ... ... ... ...
 0 0 ... − 0,252 1 
Os estimadores de MQGF serão, portanto:
− 0,007
βˆ = ( XT V −1X) −1 XT V −1y =  
4 ,903 
Area = −0,007 + 4,903Precot + eˆt
As diferenças entre as retas de MQO (vermelho tracejado) e MQGF (roxo contínuo) são quase
imperceptíveis. Assintoticamente, as estimativas de MQGF seriam mais eficientes que as de
MQO, embora sua exatidão possa ser discutível em razão do número razoavelmente pequeno de
observações na amostra.
13.4. Estimadores Robustos da Variância

Uma limitação da técnica de MQGF é que suas estimativas para os coeficientes do
modelo podem ser tendenciosas para amostras pequenas e válidas apenas para amostras grandes.
Por outro lado, embora os estimadores dos coeficientes de MQO sejam ineficientes na presença
de autocorrelação, permanecem não viesados. Assim, uma alternativa simples seria corrigirmos
apenas os estimadores das variâncias de MQO, obtendo estimadores robustos à presença de
autocorrelação.
Primeiro, vamos relembrar a variância do estimador do coeficiente angular de um modelo
de RLS na presença de autocorrelação:
214
σ2 σ2 n −1 n −t
Var ( βˆ ) = n
+2 n ∑∑ ρ s xt xt +s (48)
∑ x2
t =1 t ∑ x 2 t =1 s=1
t =1 t
Um estimador robusto para essa variância poderia ser obtido, por exemplo, substituindo ρ
e σ2 pelos seus respectivos estimadores:
σˆ 2 σˆ 2 n −1 n −t
Var ( βˆ ) = n
+2 n ∑∑ ρˆ s xt xt +s (49)
∑ x2
t =1 t ∑ x 2 t =1 s=1
t =1 t
Uma limitação desse procedimento é que considera apenas autocorrelações de 1a ordem e

que os erros sejam homocedásticos. O procedimento proposto por Newey e West permite um
trantamento mais abrangente, considerando tanto autocorrelações de ordem mais elevada como
erros heterocedásticos. Embora a álgebra deste procedimento seja mais complexa, a idéia é
mesma: manter os estimadores dos coeficientes de MQO e obter erros padrão que sejam robustos
à presença de autocorrelação (ou heterocedasticidade). Como todos esses métodos trabalham
com estimativas para os relacionamentos observados na amostra, são válidos assintoticamente e
podem não ser apropriados para amostras pequenas.
Exercícios
1. O arquivo FuncaoCobbDouglas.XLS contém informações anuais sobre produto bruto real
(Y), dias trabalhados (L) e insumos de capital real (K) em Taiwan entre 1958 e 1972.
Suponha que a relação entre as variáveis seja dada por:
ln(Yt ) = α + β1 ln(Lt ) + β 2 ln(K t ) + et
a. Sem qualquer tipo de análise prévia, há motivos para suspeitar de autocorrelação
nesse modelo?
c. Verifique a existência de autocorrelação a partir da análise gráfica.
d. Verifique a existência de autocorrelação a partir do teste de Durbin-Watson.
e. Pressupondo que o coeficiente de autocorrelação dos erros seja de 0,4, obtenha os
estimadores de MQG. Analise suas propriedades em comparação às do MQO.
f. Analise a significância das estimativas obtidas em (e).
215
2. O arquivo PrecoCobre.XLS contém informações anuais sobre preço médio do cobre nos
EUA (Preco, em US$/libra) e PIB (em bilhões de dólares). Suponha que a relação entre as
variáveis seja dada por:
ln(Preco) = α + β ln(PIB) + et
a. Sem qualquer tipo de análise prévia, há motivos para suspeitar de autocorrelação
nesse modelo?
c. Verifique a existência de autocorrelação a partir da análise gráfica.
d. Verifique a existência de autocorrelação a partir do teste de Durbin-Watson.
e. Pressupondo que o coeficiente de autocorrelação dos erros seja de 0,2, obtenha os
estimadores de MQG. Analise suas propriedades em comparação às do MQO.
3. O arquivo PescaDias.XLS contém informações anuais sobre o total de peixes pescados

(Pesca, em mil toneladas) e dias dedicados à pesca (Dias, em mil unidades). Suponha que a
relação entre as variáveis seja dada por:
Pesca = α + βDias + et
b. Analise a existência de autocorrelação pelo teste t.
c. Analise a existência de autocorrelação a partir do teste de Durbin-Watson.
d. Analise a existência de autocorrelação de 2a ordem pelo teste de Breusch-
Godfrey.
e. Obtenha os estimadores de MQGF.
4. (ANPEC, 2010) Considere as seguintes afirmações referentes ao modelo de regressão linear

clássico com regressores estocásticos:
yi = β 0 + β1 x1i + β 2 x 2i + ε i , i=1..n
216
em que E[ε i | x1 , x 2 ] = 0 e Var[ε i | x1 , x 2 ] = σ 2 . Então, os estimadores de mínimos

quadrados ordinários dos parâmetros não são eficientes se a hipótese de ausência de
autocorrelação dos erros for violada.
5. (ANPEC, 2005) A respeito do modelo de regressão múltipla:

Yi = β 0 + β1 X 1i + β 2 X 2i + ei , i=1..n
em que et tem média zero e variância σ 2 . Então, se os erros são autocorrelacionados, ainda
assim os estimadores de Mínimos Quadrados Ordinários de β1 e β2 são lineares e não
tendenciosos.
Respostas
1) b. ln(Yt ) = −3,34 + 1,50 ln(Lt ) + 0,49 ln(K t ) + eˆt ; d. ρˆ = 0,366 ; DW≈1,269;
e. ln(Yt ) = −2,54 + 1,26 ln(Lt ) + 0,54 ln(K t ) + eˆt ; f. α: t=-0,851; p=0,412; β1: t=2,039;
p=0,064; β2: t=4,750; p<0,001;

2) b. ln( Precot ) = −0,824 + 0,682 ln(PIBt ) + eˆt ; d. ρˆ = 0,215 ; DW≈1,570;
d. ln(Precot ) = −0,922 + 0,695 ln(PIBt ) + eˆt ; f. α: t=-1,487; p=0,161; β: t=8,087; p<0,001
3) a. Pescat = 5,648 + 1,068Diast + eˆt ; b. t= 0,658; p=0,539; c. ρˆ = 0,230 ; DW=1,539;
d.LM=1,793; p=0,408; r. Pescat = 9,366 + 0,841Diast + eˆt ; α: t=1,026; p=0,344; β: t=1,453;
p=0,196;
4) V.
5) V.
217
Apêndice A – Variância dos estimadores de MQO na presença de autocorrelação

Por simplicidade analítica, vamos inicialmente considerar um modelo de RLS:
Yt = α + β X t + et
Caso os erros sejam autorrelacionados segundo um processo AR(1) teremos:

et = ρet −1 + ut
Sendo ut um ruído branco, ou seja, com média zero, homocedástico e não autocorrelacionado:
E (u t ) = 0 E (ut2 ) = σ u2 E (u t u t − s ) = 0
A partir dessas premissas, vamos, primeiro, calcular a variância dos erros et (σ2):
σ 2 = Var (et ) = E (et2 ) = E ( ρet −1 + ut ) 2 = ρ 2 E (et2−1 ) + ρE (et −1ut ) + E (ut2 )
Como o erro ut deve ser não correlacionado ao regressor (et −1) de seu modelo, teremos:
σ 2 = ρ 2σ 2 + σ u2
Finalmente:
2 σ u2
Var (et ) = σ =
1− ρ 2
Por sua vez, a covariância entre os erros et e et−1 será:

Cov(et , et −1 ) = E (et et −1 ) = E[( ρet −1 + ut )(et −1 )] = ρE (et2−1 ) + E (ut et −1 )
Como E (ut −1et ) = 0 , teremos:
E (et et −1 ) = ρE (et2−1 )
E, finalmente:
σ u2
Cov(et , et −1 ) = ρ 2
= ρσ 2
1− ρ
Se utilizarmos o mesmo raciocício para calcularmos a covariância entre et e et−2 teremos:
E (et et −2 ) = E[( ρet −1 + ut )(et −2 )] = E[( ρ 2 et −2 + ut + ut −1 )(et −2 )] = ρ 2 E (et2−2 )
E, sucessivamente, para a covariância entre et e et−s teremos:
218
σ u2
Cov(et , et − s ) = ρ s 2
= ρ sσ 2
1− ρ
Podemos, agora, desenvolver a variância de β na presença de autocorreção. A partir de

desenvolvimento anterior (ver Apêndices A e B do Capítulo 2), sabemos que a variância de β
será dada por:
n n
∑
Var ( βˆ ) = Var ( β + t =1
xt et ∑ xt et ) 2
) = E ( t =n1
n
∑t =1 xt2 ∑t =1 xt2
n n −1 n −t
E (∑t =1 xi2 ei2 + 2∑t =1 ∑s =1 xt xt + s et et + s )
Var ( βˆ ) = n
(∑t =1 xt2 ) 2
n n −1 n −t
ˆ
Var ( β ) =
∑ x 2 E (et2 ) + 2∑t =1 ∑s=1 xt xt + s E (et et + s )
t =1 t
n
(∑t =1 xt2 ) 2
n −1 n −t
E (et2 ) 2∑t =1 ∑s =1 xt xt + s E (et et + s )
Var ( βˆ ) = n
+ n
∑t =1 xt2 (∑t =1 xt2 ) 2
Como, no caso de erros autocorrelecionados segundo um AR(1), teremos E (et2 ) = σ 2 e
E (et et − s ) = E (et et + s ) = ρ sσ 2 , a variância de β será dada por:
σ2 σ2 n −1n − t
Var ( βˆ ) =
n 2
+2
n 2 ∑ ∑ ρ s xt xt + s
∑ t =1 xt ∑ t =1 xt t =1s =1
219
Econometria Equações Simultâneas
14. Equações Simultâneas
Introdução
Boa parte das relações econométrica pode ser representada por apenas uma equação de
regressão, onde se supõe que a relação de causa e efeito seja unidirecional, ou seja, os
regressores (variáveis independentes) determinam ou causam efeitos sobre o regressando
(variável dependente). Entretanto, pode haver situações em que um regressor determina e, ao
mesmo tempo, é determinado pelo regressando. Seria o caso, por exemplo, do preço de um
produto, que, ao mesmo tempo, determinaria a quantidade consumida (preços maiores reduzem a
demanda) e seria determinado pela quantidade produzida (aumento da oferta reduz os preços).
Ou da jornada de trabalho, que determinaria a remuneração do trabalho (pessoas que trabalham
mais são mais experientes e tendem a ganhar mais) e seria determinada pela remuneração
(acréscimos controlados na renda tendem a aumentar a disposição a trabalhar horas adicionais).
Como será visto a seguir, esse tipo de relação de reciprocidade, ou simultaneidade, entre
variáveis dependentes e independentes, ocorre em situações de quebra de um dos pressupostos
do Teorema de Gauss-Markov, aquele que diz que os valores de X são controlados em repetidas
amostras. Uma consequência importante da simultaneidade é que os erros passam a apresentar
relação com a variável independente, implicando na tendenciosidade e inconsistência dos
estimadores de MQO.
A simultaneidade entre as variáveis exige a consideração de um sistema de equações, ou
equações simultâneas, onde cada variável endógena (aquela que apresenta relação de
simultaneidade) seja representada por um modelo individual de regressão, e todos os modelos
individuais estejam interconectados através de um sistema de equações. O conceito de equações
simultâneas que veremos nesta seção foi desenvolvido nos anos 40, por econometristas da
Cowles Foundation at the University of Chicago. Além da definição e implicações da
simultaneidade, veremos as duas principais técnicas para estimação de seus coeficientes
(Mínimos Quadrados Indiretos e Mínimos Quadrados em 2 Estágios), as condições impostas
para a identificação de estimadores consistentes e um teste estatístico para verificação da relação
de endogeneidade.
220
14.1. Origem do problema

Um dos pressupostos do MCRL é que, controlando o valor de X (variável independente),
é possível observar variações aleatórias da variável dependente (Y). Entretanto, sabemos que, em
muitas situações, não podemos facilmente controlar o valor de X, como o clima que determina a
produtividade agrícola ou a saúde do trabalhador que determina a disponibilidade e a renda do
trabalho.
Caso os valores de X não sejam fixos, mas comportem-se como uma variável aleatória,
com probabilidades associadas à ocorrência de cada valor, será necessário verificar um outro
pressuposto, o da ausência de correlação entre as variáveis independentes (X) e os erros (e) do
modelo. Em outras palavras, devemos observar se:
Cov(ei , X i ) = 0 ou E (ei X i ) = 0 (1)
Quando X é controlado, consideramos seus valores constantes e, dessa forma, não haveria
como supor relação com os erros, que variam aleatoriamente. Entretanto, quando X é observado
e não controlado em repetidas amostras, ele também se comportará como uma variável aleatória.
Nessas condições, caso haja relação entre os erros e os valores de qualquer uma das variáveis
independentes do modelo, os estimadores de MQO deixarão de ser os MELNV, passando a ser
viesados e inconsistentes, ou seja, viesados mesmo para amostras grandes. De acordo com
Hoffmann (2006), essa tendenciosidade será positiva, ou seja, os estimadores de MQO tenderão
a superestimar o valor de β.
No caso da relação entre a produtividade agrícola e o clima, seria difícil imaginar um
fator não observado que, ao mesmo tempo afete a produtividade e o clima. Assim, embora o
clima não seja controlado, provavelmente não apresentará relação com os erros do modelo. Por
outro lado, na relação entre renda e saúde, há fatores não observados, ou não mensurados, como
hábitos e comportamentos, que podem afetar ao mesmo tempo ambas as variáveis,
caracterizando o problema de relação entre variáveis independentes e erros.
Talvez o exemplo mais ilustrativo dessa situação seja a relação entre as funções de
demanda e oferta de um determinado produto. Sabemos, pela teoria microeconômica, que à
221
medida que o preço de um produto aumenta, os consumidores deixarão de adquiri-lo. A função

demanda relacionando o preço (P) à quantidade demandada (Qd) pode ser representada por30:
Q d = α 0 + α1 P + e d (2)
Mas também sabemos que, pela mesma teoria microeconômica, à medida que o preço de
um produto aumenta, o produtor sentir-se-á mais estimulado a produzi-lo, aumentando sua
oferta. A função oferta relacionando o preço da mercadoria (P) à quantidade ofertada (Qo) pode
ser representada por:
Q o = β 0 + β1 P + e o (3)
Pressupondo que preço e quantidade sejam determinados conjuntamente pelo equilíbrio

entre as funções de demanda e oferta, o preço observado no mercado será aquele dado pela
interação entre as forças de consumidores e produtores, ou seja, pelo ponto onde as funções de
demanda e oferta se encontram. Esse esquema analítico exige a consideração de um sistema de
equações em que haja interação entre as funções de demanda e oferta, no qual a quantidade
ofertada seja a mesma demandada:
Q d = α 0 + α 1 P + e d
 o o
Q = β 0 + β1 P + e (4)
 d o
Q = Q = Q
Embora o sistema de equações em (4) não evidencie a relação de simultaneidade
abertamente, podemos desenvolver conceitualmente a interdepedência entre preço e quantidade.
Como mostra a figura (5), se, por exemplo, a demanda aumentar de Q0 para Q1 em decorrência
de uma variação positiva de ed (outros fatores que não o preço, como mudanças na renda ou no
gosto da população), o preço também aumentará pois os produtores não estarão dispostos a
aumentar a oferta sem variação do preço. Em outras palavras, a função de demanda deslocar–se-
30
Embora a representação gráfica não condiga com a função estatística (Q no eixo das abscissas), essa é a forma
usual de representação da função demanda.
222
á para cima, pois os consumidores estariam dispostos a pagar um pouco mais pela mesma
quantidade demandada.
Raciocínio análogo é válido para a função oferta. Se, por exemplo, a quantidade ofertada
reduzir de Q0 para Q2 por fatores alheios ao preço (efeito de eo, tais como greve ou fatores
ambientais), o preço também aumentará para ajustar-se à demanda. Haveria, pois, um
deslocamento da função oferta para cima, já que a manutenção de uma oferta superior só seria
possível a um custo superior.
(5)
De maneira geral, podemos dizer que variações de ed irão afetar tanto Q quanto P, assim
como eo também afetará ambas as variáveis. Em outras palavras, P e Q são conjuntamente
dependentes e tanto ed quanto eo possuem relação com P.
14.2. Definição
Um sistema de equações simultâneas representa a relação de mútua determinação entre
variáveis endógenas (aquelas que são conjuntamente determinadas dentro do sistema) e seus
determinantes exógenos (aqueles que são determinados fora do sistema). Em outras palavras, seja
o sistema:
Y1i = α 0 + α1Y2i + α 2 X 1i + e1i

 (6)
Y2i = β 0 + β1Y1i + β 2 X 1i + e2i
Onde Y1 e Y2 se determinam simultaneamente, ou seja, são mutuamente dependentes, ou
ditas variáveis endógenas. X1 é uma variável predeterminada ou exógena, ou seja, variável
controlada externamente que determinará os valores das variáveis endógenas31. Esse esquema de
relacionamento entre variáveis endógenas, exógenas e erros de previsão pode também ser
representado pelo seguinte diagrama de influências:
31
Variáveis predeterminadas consideram, além das variáveis exógenas, variáveis endógenas de períodos defasados
(t−1). Supõe-se que essas sejam determinadas no período t.
223
(7)
A existência de relação mútua entre Y1 e Y2 faz, por exemplo, com que fatores não
explicados pelo modelo da primeira equação (e1) afetem, simultaneamente, Y1 e Y2, causando
correlação entre os erros e1 e a variável independente Y2. Da mesma forma, haverá relação linear
entre a variável independente Y1 e os erros aleatórios da segunda equação (e2). Com a quebra do
pressuposto da ausência de relação entre erros e variáveis independentes, a regressão por MQO
traria estimadores viesados e inconsitentes.
Exemplo 1. Vamos, inicialmente, considerar apenas a relação estabelecida pela função demanda
isoladamente. Supondo que, além do preço (P), a renda (R) também influencie a quantidade
demandada (Qd), teremos:
Q d = α 0 + α1P + α 21R + e d
Nessa representação isolada pressuporíamos que, dados os valores do preço (P) e da renda (R)
seriam determinados exogenamente e, em adição ao erro aleatório não explicado pelo modelo
(ed), determinariam a demanda (Qd).
Por outro lado, teríamos a função oferta relacionando preço à quantidade ofertada (Qo):
Q o = β 0 + β1P + e o
Nessa representação isolada, o preço (P) seria considerado um fator exógeno que, em conjunto
com o erro aleatório não explicado pelo modelo (eo), determinaria a oferta da mercadoria.
Considerando agora o equilíbrio do mercado, teríamos não somente que Qd=Qo (genericamente
Q), mas também que fatores não explicados pelas equações (ed e eo), como mudanças climáticas
ou nos padrões de consumo, causariam impactos simultâneos em Q e P:
224
Q d = α 0 + α 1 P + α 2 R + e d
 o o
Q = β 0 + β 1 P + e
 d o
Q = Q
Assumindo que haja retro-alimentação entre P e Q, ou seja, que P e Q sejam conjuntamente

determinados no sistema, teremos um único fator exógeno: a renda R. Em outras palavras, Q e P
seriam variáveis endógenas, determinadas internamente no sistema de equações pela única
variável exógena R.
Exemplo 2. Vamos agora considerar um modelo simplificado de determinação do consumo (C) e

da renda (Y) de uma economia. Inicialmente, considerando apenas a função para o consumo, este
dependeria de vários fatores mas, principalmente, da renda:
C = β 0 + β1Y + e
Segundo a relação estabelecida, dada uma variação na renda Y, as pessoas aumentariam o

consumo segundo uma propensão marginal equivalente a β1. Nessa representação isolada, Y seria
considerado uma variável exógena que determina a variável endógena C. Os erros e indicariam
fatores alheios à renda que determinariam o consumo, tais como otimismo.
Por outro lado, teríamos uma função identidade para a determinação da renda. Pressupondo uma
economia fechada, pode-se, simplificadamente, supor que a renda nacional seja igual ao
consumo mais investimentos (I):
Y =C+I
A função identidade define a renda como soma do consumo mais investimento. Não há erro
aleatório nessa representação pois não se trata de um modelo estatístico, mas sim de uma relação
matemática determinística.
225
A partir das relações estabelecidas, fica claro que o consumo dependeria da renda, da mesma
forma que a renda dependeria do consumo. Essa interação entre as funções de consumo e renda
pode ser representada por:
C = β 0 + β1Y + e

Y = C + I
Pela função consumo, variações em C devido a fatores alheios à renda (e) também afetariam a
renda, até se chegar a um novo ponto de equilíbrio da economia entre consumo e renda. C e Y
seriam então consideradas variáveis endógenas, ou seja, determinadas internamente no sistema
de equações. I seria a única variável exógena do sistema.
14.3. Mínimos Quadrados Indiretos

Seja o sistema de equações simultâneas em sua forma estrutural, isto é, aquela definida a
partir de pressuposições sobre as relações de causa e efeito entre as variáveis:
Y1i = α 0 + α1Y2i + α 2 X 1i + e1i

 (8)
Y2i = β 0 + β1Y1i + β 2 X 1i + e2i
Como visto anteriormente, a relação de mútua causalidade entre as variáveis Y1 e Y2
inviabilizaria a estimação por MQO, que geraria estimadores viesados e inconsistentes. Uma
maneira intuitiva de resolver o problema seria, como em qualquer sistema de equações,
desenvolver algebricamente as equações. Por exemplo, substituindo a igualdade da segunda
equação para Y2 na primeira equação para Y1 teríamos:
Y1 = α 0 + α1[ β 0 + β1Y1 + β 2 X 1 + e2 ] + α 2 X 1 + e1
α 0 + α 1β 0 α 1β 2 + α 2 e + α1e2 (9)
Y1 = + X1 + 1
1 − α1β1 1 − α1β1 1 − α1β1
Em outras palavras, fazendo-se as devidas transformações algébricas, conseguiríamos
representar Y1 em função apenas da variável exógena X1. Transformação análoga pode ser feita
para a segunda equação, substituindo agora Y1 na segunda equação pelo resultado obtido em (9).
Fazendo-se as devidas transformações, chegaríamos a um novo sistema de equações, em que
226
cada variável endógena seria representada por uma função única e exclusiva das variáveis
exógenas ou predeterminadas, no caso, somente X1:
 α 0 + α 1 β 0  α 1 β 2 + α 2   e1 − α1e2 
Y1 =  +  X1 +  
  1 − α 1 β1   1 − α 1 β1   1 − α 1 β1 
 (10)
Y =  β + β α 0 + α 1 β 0  +  β + β α 1 β 2 + α 2  X + e + β e1 − α1e2 
 2  0 1   2
1 − α1β 0  
1
1 − α1β 0 
 1  2 1 
1 − α 1 β1 
  
Para simplicar as representações, podemos criar funções dos coeficientes α’s e β’s e dos
erros e1 e e2:
Y1 = π 1 + π 2 X 1 + u1
 (11)
Y2 = π 3 + π 4 X 1 + u 2
Onde:
α 0 + α1 β 0 α1β 2 + α 2
π1 = e π2 =
1 − α 1 β1 1 − α 1 β1
α 0 + α1β 0 α1 β 2 + α 2
π 3 = β 0 + β1 e π 4 = β 2 + β1 (12)
1 − α1β 0 1 − α1β 0
e1 − α 1e2 e1 − α 1e2
u1 = e u 2 = e2 + β1
1 − α 1β1 1 − α 1 β1
O sistema obtido em (11), em que cada variável endógena é representada por uma função
das variáveis exógenas (ou predeterminadas) do sistema, é chamado de sistema de equações da
forma reduzida. Os parâmetros π’s são chamados parâmetros da forma reduzida. Os erros u1 e u2
são chamados de erros da forma reduzida.
Como não há problema de endogeneidade nas equações da forma reduzida, seus
parâmetros (π’s) podem ser obtidos pelo MQO. Para obter os estimadores consistentes dos
parâmetros da forma estrutural (α’s e β ’s) bastaria, posteriormente, desenvolver o sistema de
equações obtido em (12). Em outras palavras, estimar os coeficientes α’s e β ’s como funções dos
coeficientes π’s. Esse procedimento é denominado Mínimos Quadrados Indiretos (MQI).
Antes de resolvermos o sistema de equações é necessário, entretanto, saber se os
coeficientes da forma estrutural poderão ser identificados a partir dos coeficientes da forma
reduzida. Em outras palavras, precisamos saber se à partir dos coeficientes π’s conseguiremos
estimar todos os coeficientes da forma estrutura. Essa análise pode ser feita previamente e é
denominada identificação.
227
Em sistemas de equações simultâneas, o conceito de identificação está associado à
possibilidade de obtermos estimativas consistentes para os parâmetros da forma estrutural.
Através de algumas regras básicas, prodemos definir a priori se os parâmetros de uma equação
da forma estrutural poderão ser identificados, ou seja, se poderão ser estimados
consistentemente. Antes de analisarmos essas regras, vamos relembrar algumas propriedades de
um sistema de equações. Sabemos que, para estimarmos k incógnitas em um sistema de
equações, precisamos de pelo menos k equações independentes. Quando o número de equações é
idêntico ao número de incógnitas, podemos chegar a soluções únicas para as incógnitas (por
exemplo, a+b=3 e 2a+b=5). Quando o número de equações é superior ao de incógnitas,
poderemos ter múltiplas soluções para cada incógnita (por exemplo, a=6 e a=5). Quando o
número de equações é inferior ao número de incógnitas (por exemplo, a+b=2), teremos uma
infinidade de soluções e o sistema será indeterminado.
Em sistemas de equações simultâneas, a estimativa dos coeficientes da forma estrutural
(equação 8) a partir do sistema de equações da forma reduzida (equação 12) também exige que o
número de equações seja, no mínimo, igual ao número de incógnitas (coeficientes estruturais).
Em outras palavras, é necessário que o número de coeficientes da forma reduzida seja, no
mínimo, igual ao número de coeficientes da forma estrutural. O problema é que, muitas vezes,
como no caso ilustrado em (12), o número de incógnitas supera o número de equações, ou seja,
não é possível estimar todos os parâmetros da forma estrutural.
Analisaremos a seguir duas regras básicas para sabermos a priori se os coeficientes de
uma equação podem ser identificados: i) condição de ordem, uma condição necessária mas não
suficiente para a estimação; ii) condição de posto, uma condição suficiente para a estimação.
14.4.1. Condição de ordem

Uma regra simples para identificarmos, a priori, a possibilidade de estimativa dos
coeficientes das equações estruturais é dada pela condição de ordem. Seja M o número total de
variáveis endógenas do sistema de equações, m o número de variáveis endógenas em dada
equação, K o número de variáveis predeterminadas do sistema e k o o número de variáveis
228
predeterminadas em dada equação. Então, uma condição necessária (mas não suficiente) para a
identificação dos coeficientes de cada equação do sistema é:
• Se K − k = m − 1, a equação é exatamente identificada, ou seja, há uma solução
única para os parâmetros da forma estrutural;
• Se K − k > m − 1, a equação é superidentificada, ou seja, há estimativas
múltiplas para os parâmetros da forma estrutural;
• Se K − k < m − 1, a equação é subidentificada, ou seja, não é possível obter
estimativas para os parâmetros da forma estrutural;
Basicamente, a condição de ordem especifica que, para que os coeficientes de uma dada
equação estrutural possam ser estimados, o número de variáveis predeterminadas do sistema
excluídas na respectiva equação seja igual ou superior ao número de variáveis endógenas
incluídas como independentes na mesma equação. Apenas as equações exatamente identificadas
podem ser resolvidas por MQI. Equações superidentificadas podem ser resolvidas por Mínimos
Quadrados em 2 Estágios, a ser apresentado posteriormente.
Exemplo 3. Seja o sistema de equações simultâneas para as funções de demanda e oferta de um

produto:
Q d = α 0 + α 1 P + e d
 o o
Q = β 0 + β1 P + e
 d o
Q = Q
Nessa representação, o sistema como um todo apresenta duas variáveis endógenas e nenhuma
variável predeterminada (K=0). A equação para a demanda (Qd) possui 2 variáveis endógenas
(m=2) e não há nenhuma variável predeterminada ausente (K−k=0). É portanto, uma equação
subidentificada (K−k < m−1). A equação para a oferta (Qo) também não pode ser identificada
pois possui 2 variáveis exógenas (m=2) e nenhuma variável predeterminada ausente (K−k=0).
Para melhor compreender a indeterminação dessas equações, podemos realizar o
desenvolvimento algébrico das expressões. Igualando a função demanda à função oferta
chegaremos à forma reduzida de P. Posteriormente, substituindo P na função de demanda (ou
oferta) pela sua equação da forma reduzida, chegaremos à forma reduzida de Q. As duas
equações da forma reduzida seriam então dadas por:
229
  β 0 − α 0   eo − ed 
 P =  + 
  α1 − β1   α1 − β1 

 α 1β 0 − α 0 β1  α1e o − β1e d 
Q =  + 
  α1 − β1   α1 − β1 
De maneira simplificada, teremos:
 P = π 1 + u p β0 − α0 α 1 β 0 − α 0 β1
onde π1 = e π2 =
 α 1 − β1 α 1 − β1
Q = P = π 2 + u q
Ou seja, restaram 2 equações para determinar 4 coeficientes estruturais. Nem todos os
coeficientes da forma estrutural poderiam ser estimados. Como há subidentificação nas duas
equações, não será possível estimar nenhum dos coeficientes da forma estrutural.
Outra maneira de enxergarmos essa subidentificação é a partir da representação gráfica. Cada
ponto observado na amostra refere-se ao preço e quantidade obtidos a partir de uma condição de
equilíbrio do mercado. Ou seja, sabemos qual o ponto de equilíbrio, mas não conseguimos
determinar as inclinações das curvas de demanda e oferta.
Exemplo 4. Vamos agora considerar que, além do preço, a renda (R) também determine a
demanda de um produto:
Q d = α 0 + α 1 P + α 2 R + e d
 o o
Q = β 0 + β1 P + e
 d o
Q = Q
No sistema como um todo, temos agora duas variáveis endógenas (M=2) e uma variável exógena
(K=1). A equação da demanda (Qd) possui duas variáveis endógenas (m=2) e uma variável
exógena (k=1), sendo subidentificada (K−k < m-1). Na equação da oferta (Qo), a ausência da
variável exógena renda (k=0) permite esta seja exatamente identificada (K−k=m–1).
Fazendo-se os devidos desenvolvimentos algébricos, chegaremos às representações:
230
 P = π 1 + π 2 R + u p

Q = π 3 + π 4 R + u q
Onde:
β0 − α0 α2
π1 = e π2 = −
α1 − β1 α 1 − β1
α 1 β 0 − α 0 β1 α 2 β1
π3 = e π4 = −
α 1 − β1 α 1 − β1
Restaram 4 equações para determinar 5 coeficientes estruturais. Embora não seja possível uma
solução única para todos os coeficientes, pode-se chegar, após as devidas transformações, a
soluções únicas para β0 e β1:
β 0 = π 3 − β1π 1 e β1 = π 4 π 2
Em outras palavras, apenas os parâmetros estruturais da função oferta podem ser identificados.
Para melhor compreender a identificação da função oferta, lembre-se que, pela teoria econômica,
um aumento na renda deslocará a curva de demanda para cima. Da mesma forma, uma redução
na renda descolará a curva de demanda para baixo. Com diferentes valores observados para a
renda na amostra, e pressupondo equilíbrio das forças de oferta e demanda no mercado, será
possível estabelecer a relação entre P e Q para a função de oferta:
Exemplo 5. A partir do desenvolvimento elaborado no Exemplo 4, estimaremos os coeficientes

da forma estrutural de um sistema de equações simultâneas pelo método de MQI. Suponha que o
índice de consumo per capita de alimentos (Q) dependa, na demanda, da razão entre o índice de
preços dos alimentos e o índice geral de preço (P) e da renda da população (R). Na oferta, a
quantidade dependeeria basicamente do índice de preços P:
231
Q d = α 0 + α 1 P + α 2 R + e d
 o o
Q = β 0 + β1 P + e
 d o
Q = Q
Como visto anteriormente, a função da oferta poderá ser exatamente identificada enquanto que a
função da demanda é subidentificada.
A partir de uma amostra observada para 20 períodos, ajustaram-se por MQO as seguintes
equações da forma reduzida:
 P = π 1 + π 2 R + u p  P = 72,3392 + 0,2838R + uˆ p
 ⇒ 
Q = π 3 + π 4 R + u q Q = 77,0146 + 0,2449 R + uˆ q
O próximo passo é resolver, para os coeficientes da única função identificável (função oferta), as
estimativas de MQI a partir das igualdades previamente estabelecidas (Exemplo 4):
βˆ0 = πˆ 3 − βˆ1πˆ1 = 77,0146 − βˆ1 72,3392 = 14,5966

βˆ1 = πˆ 4 πˆ 2 = 0,2449 / 0,2838 = 0,8629
Assim, a estimativa de MQI para a função oferta será dada por:
Q o = 14,5966 + 0,8629 P + uˆ q
Para a função demanda não é possível obter as estimativas já que esta é subidentificada.
Exemplo 6. Podemos ainda supor (e ter informações suficientes para isso) que, além do preço
corrente (Pt) e da renda (Rt), a riqueza (RQt), sendo o patrimônio uma boa aproximação, seja
outro fator a ser considerado na função demanda. Na função oferta, poderíamos supor que, além
do preço corrente do produto, o preço do período anterior (Pt–1) também influencie a oferta do
produto no período corrente. Teríamos então:
Q td = α 0 + α 1 Pt + α 2 Rt + α 2 RQt + e td

 o o
Q t = β 0 + β1 Pt + β 2 Pt −1 + et
 d o
Q t = Q t
Nesse sistema há 2 variáveis endógenas (M=2: Qt e Pt) e 3 variáveis predeterminadas (K=3: Rt,
RQt e Pt–1). Embora Pt seja endógeno, Pt-1 é conhecido (predeterminado) no período t. A equação
da demanda seria exatamente identificada (K–k=m–1) e a equação da oferta seria
superidentificada (K−k>m−1).
232
Desenvolvendo a igualdade entre as equações ( Qtd = Qto ), chegaremos ao sistema de equações

reduzidas:
 Pt = π 1 + π 2 Rt + π 3 RQt + π 4 Pt −1 + utp

Qt = π 5 + π 6 Rt + π 7 RQt + π 8 Pt −1 + utq
Ou seja, restaram 8 coeficientes reduzidos para determinar 7 coeficientes estruturais. Com o
devido desenvolvimento algébrico, chegaremos à conclusão de que todos os coeficientes
estruturais apresentam mais de uma possível solução. Esse sistema é superidentificado, ou seja,
não há uma solução algébrica única para quaisquer das equações do sistema.
β0 − α0 α2 α3 β2
π1 = π2 = − π3 = − π4 =
α1 − β1 α1 − β1 α1 − β1 α1 − β1
α β − α 0 β1 α β α β α β
π5 = 1 0 π 6 = − 2 1 π 7 = − 3 1 π8 = 1 2
α1 − β1 α1 − β1 α1 − β1 α1 − β1
Geometricamente, a relação estabelecida significa que, com variações da renda (Rt) e da riqueza
(RQt), seria possível identificar deslocamentos da função demanda e, consequentemente, estimar
a função oferta. Por sua vez, com descolamentos da funçã oferta em função de variações no
preço defasado (Pt–1) seria possível determinar a função demanda.
Embora não haja uma solução algébrica única para o sistema de equações dos coeficientes da
forma reduzida, esses poderão ser estimados pela técnica de Mínimos Quadrados em dois
Estágios.
14.4.2. Condição de posto

Embora seja simples e necessária, a condição de ordem não garante a identificação em
todos os casos. Uma condição suficiente é dada pela condição de posto. Assim, uma vez
verificada a identificação pela condição de ordem, o ideal seria confirmá-la pela condição de
posto.
233
Em um sistema com apenas duas equações, a condição de posto resume-se a exigir que,
para que os coeficientes de uma dada equação sejam identificados, pelo menos uma das variáveis
exógenas ausentes em sua especificação apresente coeficiente diferente de zero na outra equação.
Em outras palavras, não basta excluir uma variável exógena de uma equação para que esta possa
ser identificada, é necessário que a variável excluída apresente de fato contribuição parcial na
outra equação.
Embora essa regra seja fácilmente verificada em um sistema com duas equações,
precisamos de um procedimento mais sistemático para verificá-la em um sistema com múltiplas
equações. Vamos ilustrar os passos da análise para um sistema hipotético para três variáveis
endógenas (M=3):
Y1 = α1 + δ11 X 1 + δ13 X 3 + e1


Y2 = α 2 + β 23Y3 + δ 22 X 2 + δ 22 X 2 + e2 (13)
Y = α + β Y + δ X + δ X + e
 3 3 31 1 31 1 33 3 3
Segundo a condição de ordem, todas as equações seriam identificáveis. A primeira seria

superidentificada, a segunda e a terceira seriam exatamente identificadas. Para confirmarmos a
identificação pela condição de posto, devemos seguir os seguintes passos:
1º Passo
Estruturar as equações de forma que todas as variáveis, endógenas e predeterminadas,
apareçam do lado esquerdo da igualdade:
− α1 + Y1 − δ11 X 1 − δ13 X 3 = e1
− α2 + Y2 − β 23Y3 − δ 21 X 1 − δ 22 X 2 = e2 (14)
− α3 − β 31Y1 + Y3 − δ 31 X 1 − δ 33 X 3 = e3
Em seguida, escrever o sistema em forma tabular:
Equação Intercepto Y1 Y2 Y3 X1 X2 X3
(1) − α1 1 0 0 − δ 11 0 − δ13
(15)
(2) −α2 0 1 − β 23 − δ 21 − δ 22 0
(3) −α3 − β 31 0 1 − δ 31 0 − δ 33
2º Passo
234
A partir da tabela (15), elaborar uma matriz para a equação que se deseja analisar a
identificação. Nessa matriz, deverão ser desconsideradas: i) a linha correspondente à equação
analisada; e ii) todas as colunas que contenham valores diferentes de zero nessa respectiva linha.
Por exemplo, a matriz correspondente à equação 3 (Y3) será dada por:
0 0 
A3 =   (16)
1 − δ 22 
Observe que essa matriz A3 conterá todos os coeficientes das variáveis incluídas no
sistema mas não inseridas na equação em análise (Y3).
3º Passo
Aplicar a condição de posto à matriz obtida. Ou seja, identificar todas as submatrizes de
ordem (M−1)×(M−1) da matriz obtida e calcular seus determinantes. Se pelo menos um
determinante for diferente de zero, então a equação será identificada (exatamente ou
superidentificada).
Por exemplo, a única submatriz de ordem (M−1)×(M−1) (ordem 2×2) que podemos obter
da matriz A1 é ela mesma (sua ordem é igual a 2×2). Assim, a equação não identificada pois seu
determinante é igual a zero.
0 0
det A 3 = = (0) × (−δ 22 ) − (0) × (1) = 0 (17)
1 − δ 22
Embora a terceira equação não possa ser identificada segundo a condição de posto, a
condição de ordem sugeriu indevidamente sua identificação. Perceba que a variável exógena
excluída da terceira equação (X2) não apresenta consta entre os regressores da variável endógena
Y1. Assim, embora tenhamos excluído um regressor exógeno na terceira equação, este não
apresenta relação diferente de zero com o regressor endógeno dessa mesma equação.
O nome “posto” desta condição de identificação deriva do conceito de posto de uma
matriz. Ou seja, a ordem da maior submatriz quadrada cujo determinante é diferente de zero.
Embora seja uma condição necessária e suficiente, na prática, a condição de posto é raramente
empregada. A condição de ordem é muito mais simples e apenas em casos excepcionais não será
suficiente para a identificação da equação.
235
14.5. Estimação por Variáveis Instrumentais

Uma técnica muito utulizada para resolver ou, pelo menos minimizar, o problema da
relação entre regressor e erros do modelo é o uso de variáveis instrumentais (VI). Além de sua
aplicação em equações simultâneas, o método de VI pode também ser empregado para resolver o
problema de endogeneidade que surge quando há omissão de importantes regressores ou quando
esses apresentam erros de mensuração.
O método de VI consiste, basicamente, em encontrar uma nova variável Z que seja
altamente relacionada com a variável independente X e, ao mesmo tempo, não seja relacionada
aos erros e do modelo. Suponha, por exemplo, que desejamos estudar a relação entre X e Y dada
por:
Yi = α + βX i + ei (18)
A variável Y pode ser, por exemplo, o rendimento e X a escolaridade. Uma condição
necessária para que os estimadores de MQO sejam não viesados é que:
Cov( X , e) = 0 (19)
Caso a premissa (19) não seja satisfeita, temos um problema de endogeneidade do
regressor X. Imagine, por exemplo, a habilidade da pessoa, que além de determinar a renda,
também estaria associada à educação alcançada. No modelo proposto em (18), a habilidade, por
não constar entre os regressores, estaria contida nos erros e e, assim, esses apresentariam relação
com a variável independente X. Essa relação é representada esquematicamente pela Figura (20),
em que uma parcela de X aparece contaminada pela associação com os erros e do modelo.
(20)
A proposta do método de VI é encontra um instrumento, ou variável instrumental Z, que

seja relacionado à X e não aos erros e. Em outras palavras, procuramos um Z tal que:
Cov( Z , X ) ≠ 0 e Cov( Z , e) = 0 (21)
No nosso exemplo da relação entre renda e escolaridade, um intrumento Z para a
escolaridade do indivíduo poderia ser, por exemplo, a escolaridade da mãe, que estaria associada
à escolaridade do filho X mas não à sua habilidade.
236
Uma vez identificado o instrumento Z, uma técnica simples e muito utilizada para obter
os coeficientes da equação (18) é a de Mínimos Quadrados em Dois Estágios (MQ2E). Como o
próprio nome sugere, há dois processos de estimação, ambos aplicando MQO. No primeiro
estágio, identificamos a parcela de Z associada à X ajustando o modelo:
X i = δ 0 + δ 0 Z i + ui (22)
O valor previsto de X pelo ajuste do modelo (22), ou Xˆ i = δˆ0 + δˆ1Z i , conteria a parcela
de Z associada à X (representação inferior de Z na figura 23), eliminando qualquer interferência
da parcela de X associada aos erros e (representação superior de X na figura 23).
(23)
No segundo estágio, utilizamos X̂ como intrumento para a variável endógena X na

equação original:
Yi = α + βXˆ i + ei (24)
O estimador de β da equação (24) é denominado de estimador de variáveis instrumentais,
ou estimador de MQ2E. Uma vez eliminada a parcela de X contaminada pela associação com os
erros e (ver representação na Figura 25), este estimador pode ser obtido por MQO.
(25)
O raciocício do método de MQ2E pode ser facilmente extendido quando temos 2 ou mais
fatores exógenos que podem ser utilizados como instrumento para uma variável endógena. Por
exemplo, poderíamos utilizar a escolaridade da mãe (Z1) e do pai (Z2) como instrumentos para a
escolaridade do filho (X). Nesse caso, nossa variável instrumental X̂ seria dada por:
Xˆ i = δˆ0 + δˆ1Z1i + δˆ2 Z 2i (26)

Caso Z1 e Z2 sejam ambos não correlacionados aos erros e, então qualquer função linear
desses (equação 26) também não seria relacionada a e.
237
Podemos ainda pensar no caso de um modelo de regressão múltipla para Y onde, além da
endógena X, tenhamos um ou mais regressores exógenos (W, por exemplo):
Yi = α + βX i + λWi + ei (27)
Onde:
Cov( X , e) ≠ 0 e Cov(W , e) = 0 (28)
Neste caso, todos os estimadores de MQO para a equação (27) seriam viesados e
inconsistentes, não apenas aquele associado à endógena X.
Como a variável exógena W aparece como regressor na equação da forma estrutural (27),
não pode ser utilizado como instrumento para X. Agora nossos instrumentos (Z1 e Z2, por
exemplo), além de não constarem como regressores na equação da forma estrutural, precisam
apresentar correlação parcial significativa com X. Em outras palavras, seja a equação para X
como função das variáveis exógenas:
X i = δ 0 + δ 1Z1i + δ 2 Z 2i + δ 3Wi + ui (29)
Para que X̂ ( Xˆ i = δˆ0 + δˆ1Z1i + δˆ2 Z 2i + δˆ3Wi ) seja um variável instrumental válida de X, é
necessário que δ1≠0 ou δ2≠0.

A identificação do instrumento adequado permitiria obter estimativas consistentes dos
parâmetros, embora essas possam ser viesadas para amostras pesquenas. Por isso, os estimadores
de MQ2E devem ser analisados com muita cautela quando não dispomos de um número
razoavalmente grande de observações na amostra.
14.6. Mínimos Quadrados em dois Estágios (MQ2E)

O MQ2E, introduzido na sessão anterior, permite estimar coeficientes estruturais de
equações exatamente identificadas ou superidentificadas. A ideia é eliminar a relação entre o
regressor endógeno e erros, substituindo esses primeiros por VIs, ou seja, variáveis que
apresentam forte relação com os regressores endógenos mas sejam não relacionadas aos erros da
forma estrutural.
Para compreender sua aplicação, suponha o seguinte sistema de equações simultâneas:
Y1i = α 0 + α 1Y2i + α 2 X i + e1i

 (30)
Y2i = β 0 + β1Y1i + e2i
238
A partir da condição de ordem, sabemos que a primeira equação é subidentificada

(nenhuma variável predeterminada excluída) e a segunda é exatamente identificada (X foi
excluído). Desenvolvendo algebricamente as equações do sistema, chegaremos ao seguinte
sistema de equações reduzidas:
(31)
Ou, simplificadamente:
Y1i = π 1 + π 2 X i + u1i
 (32)
Y2i = π 3 + π 4 X i + u 2i
Como pode ser observado a partir da relação algébrica expressa para a equação de Y1 na
forma reduzida (equação 31), parte do comportamento total de Y1 é devida à influência da
variável exógena X e parte devida à influência conjunta de e1 e e2 (u1). Assim, a variável Y1não
poderia ser utilizada para prever Y2 na forma estrutural, pois carregaria consigo uma parcela
associada aos erros e2.
A proposta do MQ2E é substituir a variável independente Y1 da forma estrutural por uma
variável instrumental, ou seja, uma aproximação para Y1 que elimine a interferência de e2 e acabe
com a relação entre regressor e erros. No caso do MQ2E, essa variável será dada pelo valor
previsto de Y1 na forma reduzida.
Em outras palavras, para estimar os coeficientes da segunda equação por MQ2E, o
primeiro estágio consiste em estimar os coeficientes da forma reduzida por MQO e,
posteriormente, estimar os valores previstos de Y1 e Y2:
Yˆ1i = πˆ1 + πˆ 2 X i
 (33)
Yˆ2i = πˆ 3 + πˆ 4 X i
Verifique que o valor previsto de Y1 mantém a relação com X, mas elimina o componente
associado a e1 e e2.
O segundo estágio consiste em substituir os valores originais das variáveis endógenas das
equações estruturais identificáveis (no nosso exemplo, apenas a segunda equação), pelos seus
valores previstos:
239
Y2i = β 0 + β1Yˆ1i + e2i (34)
O MQO pode então ser aplicado para estimar β0 e β1, já que Yˆ1 não apresenta relação
com e2. Assim como no MQI, os estimadores de MQ2E são consistentes, embora tendam a ser
viesados para amostras pequenas.
Exemplo 7. Vamos agora supor que as funções de demanda e oferta de alimentos sejam dadas
pelas seguintes equações:
Q td = α 0 + α 1 Pt + α 2 Rt + e td

 o o
Q t = β 0 + β1 Pt + β 2 P1t + e
 d o
Q t = Q t
Onde Pt é a razão entre o índice de preços dos alimentos e o índice geral de preços, Rt a renda
média dos consumidores e P1t é o índice de preços no ano anterior. Temos 2 equações com 2
variáveis endógenas (M=2: Qt e Pt), e 2 variáveis predeterminadas (K=2: Rt e P1t). Há omissão
de 1 variável predeterminada na equação para a demanda (P1t) e de 1 variável exógena na
equação para a oferta (Rt). Assim, as duas equações são exatamente identificadas (K−k=1).
Ambas as equações podem ser estimadas por MQ2E.
O primeiro passo para obter os estimadores de MQ2E é elaborar as equações da forma reduzida,
representando cada endógena como função das variáveis exógenas do sistema:
 Pt = π 1 + π 2 Rt + π 3 P1t + utp

Qt = π 4 + π 5 Rt + π 6 P1t + utq
A partir dos valores observados na amostra, aplicamos MQO para obtermos as estimativas dos
valores previstos das endógenas:
 Pˆt = 85,18 + 0,43Rt − 0,29 P1t


Qˆ t = 71,73 + 0,18 Rt + 0,12 P1t
Finalmente, substituímos os valores originais dos regressores endógenos na forma estrutural
pelos seus respectivos valores previstos (no caso, substituímos apenas Pt por P̂t ). Aplicando
MQO chegaremos às estimativas:
240
Q td = 106,79 − 0,41Pˆt + 0,36 Rt + eˆtd


 o
Q t = 35,90 + 0,42 Pˆt + 0,24 P1t + eˆ
o
14.7. Teste de endogeneidade

Os formuladores originais da ideia simultaneidade, da Cowles Foundation, defendiam
que a exogeneidade não poderia ser testada. O pesquisador deveria definir a priori, com
embasamento teórico, eventuais relações de simultaneidade entre as variáveis. Entretanto, testes
desenvolvidos recentemente permitem verificar se, uma vez identificados regressores exógenos
em uma equação identificável, as variáveis consideradas endógenas nas especificações são de
endógenas.
Entre esses testes de endogeneidade, uma solução relativamente simples é dada pelo teste
de especificação de Hausman. Para compreender o princípio do teste, devemos antes saber que,
caso o regressor seja de fato endógeno, as estimativas de MQO serão viesadas e inconsistentes,
enquanto que as estimativas de MQ2E serão consistentes. Caso não haja endogeneidade, as duas
estimativas serão consistentes, mas as de MQO serão mais eficientes. A ideia central do teste de
Hausman é comparar as estimativas de MQO e MQ2E: caso haja diferenças significativas,
podemos suspeitar da existência de endogeneidade no regressor, ou seja, as estimativas de MQO
seriam viesadas.
Para compreender a operacionalidade do teste, considere o seguinte sistema de equações
simultâneas e o respectivo diagrama de influências:
Y1i = α 0 + α1Y2i + α 2 X i + e1i

 (35)
Y2i = β 0 + β1Y1i + e2i
O que nos levaria às seguintes representações para a forma reduzida:
(36)
Ou, simplificadamente:
241
Y1i = π 1 + π 2 X i + u1i
 (37)
Y2i = π 3 + π 4 X i + u 2i
Aplicando MQO a essas equações, chegaríamos às estimativas dos coeficientes da forma
reduzida:
Y1i = πˆ1 + πˆ 2 X i + uˆ1i Y1i = Yˆ1i + uˆ1i

 ⇒  (38)
Y2i = πˆ 3 + πˆ 4 X i + uˆ 2i Y2i = Yˆ2i + uˆ 2i
Em outras palavras, o comportamento de Y1i poderia, por exemplo, ser decomposto em
uma parcela associada à variável exógena X (estimada na forma reduzida por Yˆ1 ) e outra parcela
associada conjuntamente a e1 e e2 (estimada por û1 ). Esquematicamente teríamos:
(39)
A ideia central é que, caso Y1 seja de fato endógeno, os erros da forma reduzida u1 estarão
associados aos erros da forma estrutural e2 (já que essas apresentariam uma parcela de e2 em sua
composição). Caso contrário, o único componente de u1 seria o erro e1 e não observaríamos a
relação entre u1 e e2. Em outras palavras, podemos representar e2 por
e2i = δu1i + v2i (40)

Sendo v2 a parcela de e2 não associada aos erros u1. Caso δ=0, significa que u1 e e2 são
independentes e, consequentemente, a variável Y1 não é endógena. Uma maneira simples de
testarmos essa hipótese é incorporar o erro u1 como regressor na equação para Y2 e analisarmos a
significância do coeficiente estimado para δ. Entretanto, como não observamos u1, na prática
trabalhamos com os resíduos û1:
Y2i = β 0 + β1Y1i + δuˆ1i + v2i (41)
Podemos agora utilizar a estatística t associada a δˆ para testar a hipótese nula de que
δ=0. Caso a estimativa seja significativo, haverá indícios de endogeidade para Y1 e,
consequentemente, de simultaneidade entre Y1 e Y2.
242
Exemplo 8. Suponha a mesma especificação do exemplo 7 para a relação entre demanda e oferta
de alimentos:
Q td = α 0 + α 1 Pt + α 2 Rt + e td

 o o
Q t = β 0 + β1 Pt + β 2 P1t + e
 d o
Q t = Q t
Com a respectiva relação na forma reduzida para a endógena Pt dada por:
Pt = π 1 + π 2 Rt + π 3 P1t + utp
Caso haja de fato relação de endogeneidade para P, espera-se que os erros da forma reduzida utp
estejam relacionados aos erros da forma estrutural eo e ed. Para analisarmos, por exemplo, a
relação de endogeneidade na função oferta, vamos considerar que:
eto = δutp + vt
Em que vt é a parcela de eo não associada a up. Para testarmos essa relação, analisaremos a
significância da estimativa de δ no ajuste do modelo:
Q to = β 0 + β1 Pt + β 2 P1t + δuˆtp + vt
Aplicando MQO, chegaremos às estimativas:
Q to = 35,90 + 0,42 Pt + 0,24 P1t − 0,67uˆtp + vˆt
A estatística t associada ao coeficiente δ é igual −4,30 e o valor p do teste é menor que 0,1%. Em
outras palavras, há evidencias significativas que a variável Pt comporte-se como variável
endógena na equação de oferta.
Exercícios
1. O arquivo ConsumoAlimentos.XLS contém informações anuais sobre o índice de consumo
per capita de alimentos (Q), a razão entre o índice de preço dos alimentos e índice geral de
preços (P), renda pessoal disponível (R), a razão entre os índices de preços dos anos
anteriores (P1) e ano (t=1..20). Suponha agora as seguintes equações para a função demanda
e oferta de alimentos:
243
Qid = α 0 + α1 Pi + α 2 Ri + eid
 o
Qi = β 0 + β1 Pi + eio
a. Analise a identificação das equações.

b. Obtenha as estimativas por MQI.
2. Suponha agora as seguintes equações para a função demanda e oferta de alimentos:

Qid = α 0 + α1 Pi + α 2 Ri + eid
 o
Qi = β 0 + β1 Pi + β 2 P1i + β 3Ti + eio
a. Analise a identificação das equações.

b. Obtenha as estimativas por MQ2E.
c. Analise a simultaneidade entre quantidade e preço pelo teste de Hausman.
3. (ANPEC, 2011) Considere o seguinte modelo de equações simultâneas:

 y1 = θ1 z + u1 (1)

 y 2 = β1 y1 + β 2 z + u 2 ( 2)
em que
E[u1 ] = E[u 2 ] = 0
E[u12 ] = σ 12 , E[u 22 ] = σ 22 , E[u1 u 2 ] = σ 12 ≠ 0
E[u1 z ] = E[u 2 z ] = 0
É correto afirmar que:
a. O estimador de mínimos quadrados ordinários de θ1 na equação (1) é consistente.
b. Os estimadores de mínimos quadrados ordinários de β1 e β2 na equação (2) são
não viesados.
c. A equação (1) é exatamente identificada e a equação (2) é sobreidentificada.
d. Se σ 12 =0, tanto a equação (1) quanto a equação (2) são exatamente identificadas.
e. Se σ 12 =0, os estimadores de mínimos quadrados ordinários de β1 e β2 na equação

(2) são consistentes.
244
4. (ANPEC, 2010) Considere o seguinte modelo de equações simultâneas:

q d = α 1 p + α 2 z + α 3 y + ε 1 (demanda )

q s = β 1 p + ε 2 (oferta )
q = q = q (equilíbrio)
 d s
com
E[ε 1 | z , y ] = E[u 2 | z , y] = 0
E[ε 12 | z , y ] = σ 12 , E[ε 22 | z , y ] = σ 22 , E[ε 1 ε 2 ] = σ 12 ≠ 0

É correto afirmar que:
a. Os estimadores de mínimos quadrados ordinários dos parâmetros das equações de
oferta e de demanda são inconsistentes;
b. A equação de demanda satisfaz a condição de ordem para identificação, ao
contrário da equação de oferta;
c. A equação de oferta é sobreidentificada e a equação de demanda é
subidentificada;
d. Suponha que α2 = 0. Então, tanto os parâmetros da equação de demanda, quanto
da equação de oferta, podem ser estimados consistentemente.
Respostas
1) b. Qio = 14,60 + 0,86 Pi + eîo
Q d = 94,63 − 0,24 Pî + 0,32 Ri + eîd

2) b.  i
Qio = 49,53 + 0,24 Pî + 0,26 P1i + 0,25Ti + eîo
c. Qˆ id = 94,63(***) − 0,24 Pî(**) − 1,12uîp (***) + 0,31Ri(***)
3) a. V; b. F; c. F; d. V; e. V
4) a. V; b. F; c. V; d. F
245
Econometria Análise de Séries Temporais
PARTE III
Introdução à Análise de Séries Temporais
246
15. Estacionariedade
Introdução
Série temporal é um conjunto de valores coletados em períodos regulares ou não de
tempo. Por exemplo, o conjunto de valores anuais da renda de uma população, do lucro de uma
empresa ou do preço de uma mercadoria. Além de essas séries serem utilizadas para elaborar
modelos estruturais de causa (variável independente) e efeito (variável dependente), são também
muito utilizadas para elaborar modelos univariados ou multivariados de previsão. Nos modelos
univariados de previsão, por exemplo, a previsão de um valor futuro de uma variável é dada
unicamente em função dos valores passados da mesma. Em outras palavras, a partir do
comportamento passado da série procuramos inferir seu provável comportamento futuro.
Modelos univariados de previsão são particularmente úteis em análises de séries financeiras,
eliminando, por exemplo, a difícil tarefa de se prever valores futuros das variáveis independentes
(Xt+s) para se estimar o valor futuro de uma variável dependente (Yt+s).
A análise de séries temporais exige, entretanto, cuidados adicionais em relação àqueles
necessários em análises de dados de corte transversal (dados coletados em um único período de
tempo). Em especial, deve-se verificar se o comportamento da série é o mesmo ao longo do
tempo, ou seja, se esta apresenta uma estrutura que possa ser caracterizada e descrita. A análise
da relação entre duas séries que apresentam comportamentos não sistemáticos pode levar a
conclusões totalmente equivocadas. Analogamente, a previsão de uma série que apresenta
importantes mudanças estruturais no tempo a partir de seu comportamento passado seria algo
provavelmente ineficaz.
Quando trabalhamos com modelos de regressão para dados de corte transversal,
pressupomos que nossa amostra contenha valores extraídos aleatoriamente de uma população e,
consequentemente, os valores sejam não correlacionados. Entretanto, em séries temporais os
valores estão usualmente correlacionados no tempo. Nessas circunstâncias, a consistência das
análises dependerá fundamentalmente da velocidade com essa correlação tende a zero para
observações de períodos distintos. Séries temporais com correlação serial elevada exigem
cuidados especiais nas análises.
O objetivo desta seção é justamente apresentar o conceito de estacionariedade, uma
propriedade fundamental para análises estruturais de relação de causa e efeito ou para modelos
247
Econometria Estacionariedade
de previsão de séries temporais. Apresentaremos ainda outros importantes conceitos e técnicas

para análise de séries temporais, como a definição de processo estocástico, função de
autocorrelação e o teste de raiz unitária.
15.1. Processos estocásticos

Séries temporais apresentam algumas definições peculiares. Dizemos, por exemplo, que
toda série temporal pode ser considerada como gerada por um processo estocástico, ou processo
aleatório, com uma estrutura que pode ser caracterizada e descrita. Em termos mais formais,
podemos definir um processo estocástico Y como Y={ Yt, t=1,2,...,n}, onde Yt é uma variável
aleatória. Em outras palavras, supomos que cada valor de Y1, Y2, ..., Yn na série seja extraído
aleatoriamente de um conjunto finito ou infinito de valores, com uma determinada distribuição
de probabilidade.
Uma amostra deste processo estocástico é considerada uma realização e é a partir desta
que fazemos inferência sobre a natureza do processo gerador da série temporal. Por exemplo, do
nascimento até o presente, uma pessoa teria inúmeras possibilidades de trajetórias de vida a
trilhar, as quais seriam representadas pelo processo estocástico. A trajetória de fato vivenciada
pela pessoa seria uma realização do processo estocástico. Fazendo uma analogia aos dados de
corte transversal, o processo estocástico representaria o conjunto de valores da população
enquanto a realização seria o conjunto de dados da amostra.
Graficamente, podemos representar o processo estocástico como aquele conjunto de
possíveis trajetórias para Yt (linhas tracejadas na Figura 1). A realização será uma trajetória
observada para a série (linha sólida). Assim, embora, na prática, observemos apenas um valor de
Y em um dado período t (Yt), devemos considerar que este poderia assumir infinitas
possibilidades de ocorrência, segundo uma dada distribuição de probabilidade.
(1)
248
15.2. Estacionariedade
15.2.1. Definição
Uma propriedade desejável de uma série temporal é que esta apresente um
comportamento constante no tempo, ou seja, seja estacionária. Por exemplo, caso o
comportamento da série seja não estacionário, ou seja, mude com o tempo, seria muito difícil
estabelecermos um modelo de previsão para seus valores futuros baseado no seu comportamento
passado. Analogamente, seria muito difícil estabelecermos uma relação de determinação para
uma variável dependente em função de variáveis independentes caso essa relação apresente
importantes quebras estruturais com o tempo.
O conceito mais abrangente de estacionariedade, ou estacionariedade estrita, supõe que a
distribuição conjunta para todos os Yt não mude com o tempo, ou seja, a distribuição conjunta de
Y1, Y2, ..., Yk seja, por exemplo, igual à de Y1+s, Y2+s, ..., Yk+s. Entretanto, como na prática é
impossível conhecer todas as distribuições conjuntas de Y1, Y2, ..., Yk, restringimo-nos ao
conceito de estacionariedade fraca. Uma série será fracamente estacionária se:
i) Apresentar média constante: E (Yt ) = µ ;
ii) Apresentar variância constante: Var (Yt ) = σ 2 = γ 0 ;

iii) A covariância entre dois valores de Y (Yt e Yt+s, por exemplo) depende apenas da
distância s entre esses, ou seja, não importa qual sejá o período t, a covariância
entre Yt e Yt+s será sempre a mesma Cov(Yt , Yt + s ) = γ s ;
Em um processo estacionário, o valor de Y tende a convergir para uma média constante,

sua variabilidade não muda com o tempo e a relação entre, por exemplo, o valor presente Yt e seu
valor defasado Yt–1 será a mesma em todos os pontos de t. Em processos não estacionários, o
valor esperado de Yt é diferente em cada período, sua variância não é constante no tempo e/ou as
relações entre os valores presentes e defasados se modificam com o tempo.
249
(2)
Em modelos de previsão, a estacionariedade é importante, primeiro, porque supõe que o

relacionamento entre Yt e seus valores defasados Yt–s seja o mesmo em todos os períodos t.
Segundo, porque sinaliza a convergência da série para uma média histórica segundo uma
distribuição de probabilidade previsível. Em modelos de RLM, a não estacionariedade pode
implicar na instabilidade dos coeficientes angulares, assim como pode se refletir nos erros do
modelo que, além de poderem não apresentar uma média constante, tenderiam a apresentar uma
variabilidade crescente no tempo. Nesse caso, os estimadores de MQO deixariam de ser
consistentes.
A estacionariedade também é importante para a compreensão das relações econômicas.
Por exemplo, se a inflação segue um processo não estacionário, os efeitos de um choque
(aumento do preço do tomate, por exemplo) tendem a ser permanentes, não se dissipando mesmo
depois de vários períodos.
Exemplo 1. A série de valores mensais do Índice Nacional de Preços ao Consumidos (INPC)

entre janeiro de 2004 e dezembro de 2010 apresentou um comportamento aparentemente
estacionário. Seus valores convergiram para uma média próxima de 0,4% a.m. e a variabilidade
não se modificou substancialmente no período, com valores entre 0% e 1% a.m.:
250
Exemplo 2. No mesmo período, a cotação internacional para o barril do petróleo apresentou um

comportamente tipicamente não estacionário. Combinou períodos de semi-estacionariedade com
períodos de crescimento e queda substancial. Com esse tipo de comportamento, a variabilidade
da série tende a crescer indefinidamente, pois não haveria um limite para os valores máximos e
mínimos a serem alcançados. Ademais, a relação entre os valores passados e presentes muda
com o tempo, dificultando previsões baseadas no comportamento histórico da série.
15.2.2. Raiz Unitária

Uma característica de uma série não estacionária é que, ao representá-la por um modelo
de regressão de Yt em função de seus valores defasados (Yt–1, Yt–2, ...), a soma dos coeficientes
associados às variáveis defasadas será igual a 1. Para as séries estacionárias, a soma desses
coeficientes será inferior a 1.
A representação mais simples para esse processo seria dada por um processo com apenas
uma defasagem para Y. Também chamado de modelo autorregressivo de 1ª ordem, ou AR(1), a
especificação deste processo seria dada por:
Yt = ρYt −1 + et (3)
O coeficiente ρ, também denominado de inércia, ou coeficiente de autocorrelação de 1ª
ordem, indica a capacidade de assimilação temporal, ou seja, a parcela do valor defasado (Yt–1)
que é absorvido no presente (Yt). Caso ρ<1, então podemos afirmar que a série será estacionária.
Caso ρ=1, então a série será não estacionária. Em teoria, ρ pode assumir valores negativos, mas
na prática isso raramente ocorre em análises econométricas.
251
O erro et é também denominado de ruído branco32 e representa uma série com média
igual a zero, variância constante e não autocorrelacionada. Em outras palavras:
E (et ) = 0 Var (et ) = γ 0 = σ 2 Cov(et , et + k ) = γ k = 0 (4)

Adicionalmente ao processo sem constante com componente autorregressivo (equação 3),
podemos ainda considerar dois outros tipos principais de processos definidores de uma série
quando analisamos sua estacionariedade:
Yt = α + ρYt −1 + et
(5)
Yt = α + βt + ρYt −1 + et
O primeiro considera, além do coeficiente ρ associado ao componente autorregressivo, a
constante α na especificação do processo. O segundo incorpora um tendência determinística à
especificação do processo. Em todas as situações, o processo será considerado estacionários
quando ρ<1.
Exemplo 3. Suponha que o processo definidor de um índice de inflação seja dado pelo seguinte
modelo autorregressivo de 1a ordem:
Yt = 0,5Yt −1 + et
Considere agora, por exemplo, que no mês 1 a inflação fora igual a 0% (Y1=0) e que, no
mês 2, houve um choque não esperado (alta dos combustíveis, por exemplo) que elevou a
inflação para 2% (Y2=0,02). Segundo a especificação do modelo, esse comportamento seria
expresso por:
Y1 = 0
Y2 = 0,5Y1 + e2 = 0,5 × 0 + 0,02 = 0,02
A idéia central é que, segundo a especificação do processo, com coeficiente associado à
variável defasada Yt1 inferior a 1, esse choque de 0,02 seria amortecido com o tempo e a série
convergiria naturalmente à sua média histórica. Para visualizarmos esse comportamento, basta
supormos que não haja mais choques (negativos ou positivos) e verificarmos que o valor de Yt
convergirá para próximo de 0 (sua média histórica):
32
O termo ruído branco deriva da acústica, utilizado para representar um tipo de ruído produzido pela combinação
simultânea de sons de todas as frequências sonoras. O adjetivo branco é uma analogia à luz branca, já que esta é
obtida pela combinação simultânea de todas as frequências cromáticas.
252
Y3 = 0,5Y2 + e3 = 0,5 × 0,02 + 0 = 0,01

Y4 = 0,5Y3 + e4 = 0,5 × 0,01 + 0 = 0,005
Y5 = 0,5Y4 + e5 = 0,5 × 0,005 + 0 = 0,0025
Graficamente, teríamos:
Exemplo 4. Suponha agora o caso do preço de uma commodity (preço do barril do petróleo, por
exemplo), com processo definido pelo seguinte modelo autorregressivo de 1a ordem:
Yt = Yt −1 + et
Imagine, por exemplo, que até o mês 1 o preço tenha oscilado em torno de 1 unidade
(Y1=1). No mês 2 há um choque, aumentando o preço em 0,5 unidade (de 1 para 1,5 unidade):
Y1 = 1
Y2 = Y1 + e2 = 1 + 0,5 = 1,5
Em séries não estacionárias, eventuais choques serão assimilados eternamente pela
variável. Neste exemplo, dado um choque positivo no mês 2, a tendência é que nos demais anos
este preço seja mantido. Em outras palavras, na ausência de um novo choque que reverta a
tendência da série, esta não voltará naturalmente à sua média histórica:
Y3 = Y2 + e3 = 1,5 + 0 = 1,5
Y4 = Y3 + e4 = 1,5 + 0 = 1,5
Y5 = Y4 + e5 = 1,5 + 0 = 1,5
Graficamente, teríamos:
253
Além das simulações e representações gráficas, podemos demonstrar algebricamente que

processos autorregressivos com inércia igual a 1 (ρ=1) não satisfazem pelo menos uma das duas
primeiras propriedades das séries fracamente estacionárias: valor médio constante e variância
constante. Por exemplo, vamos supor um processo definido pelo modelo autorregressivo sem
constante:
Yt = Yt −1 + et (6)
Então, por desenvolvimento algébrico, teríamos:
Y1 = Y0 + e1
Y2 = Y1 + e2 = Y0 + [e1 + e2 ] (7)
Yt = Y0 + ∑i =1 ei
t
A partir daí, podemos calcular o valor esperado e a variância de Yt:
E (Yt ) = E (Y0 + ∑i =1 ei ) = Y0
t
(8)
Var (Yt ) = Var (Y0 + ∑i =1 ei ) = Var (Y0 ) + Var (∑i =1 ei ) = tσ 2
t t
Ou seja, embora a valor médio da série convirja para uma constante, igual ao seu valor
inicial (Y0), sua variância tende a aumentar com tempo. A representação gráfica de uma possível
realização desse processo é dada por:
(9)
254
Vamos agora analisar os dois primeiros momentos (média e variância) de outro processo
não estacionário, dado pelo modelo autorregressivo com constante α:
Yt = α + Yt −1 + et (10)
Nesse caso, teríamos por desenvolvimento algébrico:
Y1 = α + Y0 + e1
Y2 = Y1 + e2 = [α + α ] + Y0 + [e1 + e2 ] (11)
t t
Yt = Y0 + ∑i =1α + ∑i =1 ei
O valor esperado e a variância de Yt seriam então dados por:
t
E (Yt ) = E (Y0 + α + ∑i =1 ei ) = Y0 + tδ
(12)
t t
Var (Yt ) = Var (Y0 + ∑i =1α + ∑i =1 ei ) = tσ 2
Neste caso, tanto o valor médio da série como sua variância tenderão a crescer com o
tempo. A representação gráfica de uma possível realização desse processo é dada por:
(13)
Uma variância que cresce com o tempo pode trazer sérias implicações para um ajuste de
regressão. Caso esse comportamento se reproduza nos erros do modelo, esses deixariam de
apresentar variância finita e os estimadores de MQO não seriam mais consistentes.
15.2.3. Terminologia
Alguns processos estocásticos apresentam denominações próprias, que caracterizam sua
natureza estacionária e os componentes que fazem parte de sua especificação. Entre as
denominações para processos estacionários, podemos destacar os seguintes casos:
Ruído branco: Yt = et
255
É o caso mais simples de processo estacionário. Possui média zero, variância constante
(σ2) e é não autocorrelacionado serialmente. O erro do modelo clássico de regressão linear é, por
definição, um ruído branco, independente e identicamente distribuído de maneira normal:
et ~ IIDN (0, σ 2 ) . A Figura 13 apresenta uma realização de um ruído branco.
(13)
Tendência determinística: Yt = α + βt + et
Embora a média não seja constante, pode ser prevista com exatidão conhecendo-se o
valor de t. É também chamado de processo estacionário em tendência ou estacionário pós-
remoção de tendência. Em outras palavras, é uma série que apresenta comportamento
estacionário em cima de uma tendência no tempo. A Figura 14 apresenta um exemplo de
realização de tendência determinística definida pelo processo Yt = 0,5 + 0,1t + et .
(14)
Tendência determinística com componente autorregressivo estacionário:

Yt = α + βt + ρYt −1 + et , ρ < 1
Choques são absorvidos com o tempo ( ρ<1) e o processo tende a ser estacionário em
torno de uma tendência determinística (βt). Em relação ao processo anterior (tendência
determinística), apresenta um comportamento mais errático, com magnitude que dependerá da
256
inércia do componente autorregressivo (ρ). A Figura 15 apresenta uma realização definida pelo
processo Yt = 0,5 + 0,05t + 0,7Yt −1 + et .
(15)
Já, entre os processos não estacionários, podemos destacar:
Passeio aleatório sem deslocamento: Yt = Yt −1 + et

Choques ocorridos no presente serão absorvidos integralmente nos períodos posteriores.
Assim, a série apresentará um comportamento totalmente imprevisível, com variância que tende
a explodir com o tempo (ver demonstração 7). Embora o processo gerador da série Y não seja
estacionário, podemos chegar, a partir de transformações da variável Yt, a uma nova série que
seja estacionária. Esta será dada pela primeira diferença de Y: ∆Yt = Yt − Yt −1 = et . A Figura 16
apresenta um exemplo de uma realização de um passeio aleatório sem deslocamento.
(16)
Passeio aleatório com deslocamento: Yt = α + Yt −1 + et

Além de absorver integralmente choques passados, apresenta uma tendência constante de
variação em cada período (α). Média e variância variam com o tempo (ver demonstração 11).
Pode, todavia, ser transformada para gerar uma série estacionária: ∆Yt = α + et . A Figura (17)
257
apresenta uma realização de um passeio aleatório com descolamento definido pelo processo
Yt = 0,1 + Yt −1 + et .
(17)
Passeio aleatório com deslocamento e tendência determinística: Yt = α + βt + Yt −1 + et

Apresenta comportamento errático, imprevisível, em torno de uma tendência
determinística (βt). Pode, através de transformação algébrica, gerar um processo estacionário em
tendência: ∆Yt = α + βt + et . A Figura 18 apresenta uma realização de um passeio aleatório com
deslocamento e tendência determinística definida pelo processo Yt = 0,1 + 0,002t + Yt −1 + et .
(18)
15.3. Função de autocorrelação

A função de autocorrelação descreve os padrões de relacionamento entre valores
presentes e defasados de Y, permitindo identificar a presença de estacionariedade em um
processo estocástico. A partir das correlações entre valores observados em um período base (t) e
seus valores defasados (t−k), é possível verificar em que medida os valores de um período base
influenciam ou são influenciados por valores defasados da série.
A função de autocorrelação, ρk, é dada por:
258
Cov(Yt , Yt −k ) Cov(Yt , Yt −k ) γ k
ρk = = = (19)
DP (Yt ) DP (Yt −k ) Var (Yt ) γ0
O gráfico de ρk em função de k é chamado correlograma.

Em processos não estacionários, valores presentes (t) e defasados (t−k) de Y tendem a
apresentar elevada autocorrelação, pois choques observados no período t são totalmente
assimilados para o período t+1 e assim sucessivamente. Em processos estacionários, a correlação
entre valores presentes (t) e defasados (t−k) tende a desaparecer à medida que aumentamos a
defasagem k, pois choques observados no período t tendem a ser amortecidos rapidamente com o
tempo.
Para demonstrarmos essa propriedade, vamos considerar, por exemplo, o processo
definido por:
Yt = ρYt −1 + et (20)
Substituindo repetidamente, chegaremos à seguinte representação:
Yt = ρ ( ρYt −2 + et −1 ) + et = ρ 2Yt −2 + ρet −1 + et

(21)
Yt = ρ 2 ( ρYt −3 + et −2 ) + ρet −1 + et = ... = ρ k Yt −k + ρet −k + ... + ρet −1 + et
Agora, para calcularmos a covariância entre Yt e Yt−k, ou seja, Cov(Yt , Yt −k ) = E (Yt Yt −k ) ,
basta obtermos o valor esperado do produto entre a última equação de (21) e Yt−k:
E (Yt Yt −k ) = ρ k E (Yt 2−k ) + ρE (Yt −k et −k ) + ... + ρE (Yt −k et −1 ) + E (Yt −k et ) (22)

Pressupondo regressores estritamente exógenos, ou seja, que os erros não estejam
relacionados a quaisquer defasagens de Yt, teremos:
Cov(Yt , Yt −k ) = E (Yt Yt −k ) = ρ k E (Yt 2−k ) = ρ k σ y2 (23)

A correlação, por sua vez, será:
ρ k σ y2
Corr (Yt , Yt −k ) = = ρk (24)
σ yσ y
O que as equações (23) e (24) nos dizem é que, embora os valores de um processo
estacionário (|ρ|<1) estajam autocorrelacionados no tempo, esta correlação tende à zero à medida
que nos afastamos no tempo (k relativamente grande).
259
Exemplo 5. O quadro abaixo apresenta as autocorrelações para 6 defasagens do índice de preços

e o respectivo correlograma à direita.
k γk ρk
0 0,0748 1,0000
1 0,0414 0,5531
2 0,0085 0,1137
3 -0,0115 -0,1531
4 -0,0142 -0,1899
5 -0,0098 -0,1306
6 -0,0056 -0,0754
Os valores estimados para a autocorrelação sugerem um comportamento estacionário da série do
índice de preços. Para um processo estacionário, a autocorrelação fica próxima de zero em várias
defasagens, já que valores defasados apresentam pouca ou quase nenhuma relação com valores
presentes. A correlação de Yt com seus próprios valores (defasagem 0) será, naturalmente, igual a
Exemplo 6. Análise análoga foi realizada para o preço do barril do petróleo:

k γk ρk
0 470,4 1,0000
1 438,7 0,9325
2 387,8 0,8244
3 323,4 0,6874
4 257,0 0,5463
5 195,5 0,4155
6 142,0 0,3019
Os valores estimados para a autocorrelação sugerem um comportamento não estacionário da
série do preço do barril do petróleo. Para um processo não estacionário, a tendência é que a
autocorrelação seja elevada para várias defasagens, já que variações (choques) em t serão
repercutidas integralmente no próximo período e, consecutivamente, nos períodos posteriores.
15.4. Teste de raiz unitária

Adicionalmente à análise gráfica e à análise descritiva da função de autocorrelação,
podemos realizar um teste estatístico para encontrar evidências formais da presença de
estacionariedade em uma série temporal. O teste de estacionariedade usual, proposto por Dickey
260
e Fuller em 1979, consiste em verificar se a inércia (ρ) associada ao componente autorregressivo

de 1ª ordem (Yt−1) possui raiz unitária. Veremos duas maneiras de realizarmos o teste de Dickey-
Fuller: i) teste de Dickey-Fuller; ii) teste de Dickey-Fuller aumentado.
15.4.1. Teste de Dickey-Fuller

Para realizarmos o teste de Dickey-Fuller, deveríamos conhecer, à priori, a especificação
do processo estocástico gerador da série Y. Em outras palavras, saber qual dos seguintes modelos
define o processo estocástico em questão:
i) Sem constante: Yt = ρYt −1 + et
ii) Com constante: Yt = δ + ρYt −1 + et
iii) Com constante e tendência determinística: Yt = δ + β t + ρYt −1 + et
Por exemplo, se sabemos que um processo estocástico apresenta termo contante e

tendência determinística, devemos verificar se o componente do termo autorregressivo da
especificação (iii) apresenta raiz unitária para classificá-lo como não estacionário. Em outras
palavras, gostaríamos de testar as hipótes:
H 0 : ρ = 1 {não estacionário}

 (25)
H 1 : ρ < 1 {estacionário}
Para testar essas hipóteses, pensaríamos, intuitivamente, em aplicar MQO às equações (i),
(ii) ou (iii) e utilizar a estatística t. O problema é que, sob a hipótese nula de que ρ=1, o
estimador de MQO será tendencioso em direção à zero, podendo nos levar a rejeitar
indevidamente a hipótese de não estacionariedade.
O teste introduzido por David Dickey e Wayne Fuller em 1979 consiste inicialmente em
transformar a equação do processo, subtraindo o termo Yt−1 nos dois lados da igualdade para que
tenhamos regressandos estacionários. Assim, a equação transformada para cada especificação
seria dada por:
i) Yt = ρYt −1 + et ⇒ Yt − Yt −1 = ( ρ − 1)Yt −1 + et ⇒ ∆Yt = δYt −1 + et
ii) Yt = δ + ρYt −1 + et ⇒ ∆Yt = δ + ( ρ − 1)Yt −1 + et ⇒ ∆Yt = α + δYt −1 + et
261
iii) Yt = α + βt + ρYt −1 + et ⇒ ∆Yt = α + βt + ( ρ − 1)Yt −1 + et ⇒ ∆Yt = α + βt + δYt −1 + et
A partir das equações transformadas, testar a hipótese nula de que ρ=1 seria, agora,
equivalente a testar a hipótese de que δ=0. Ou seja, as novas hipóteses seriam:
H 0 : δ = 0 {não estacionário}

 (26)
H 1 : δ < 0 {estacionário}
Agora, mesmo sob a veracidade da hipótese nula, a variável dependente ∆Yt será
estacionária e poderemos aplicar MQO. O problema é que, em função da não estacionarieade da
variável independente Yt−1, a estatística t obtida para o coeficiente δ ( t = δˆ S δˆ ) não apresentará
mais a distribuição t de Student, mesmo em amostras grandes. Para contornar esse problema,
Dickey e Fuller definiriam uma nova distribuição de probabilidade para essa estatística, também
denominada de ι (tau). A distribuição da estatística ι dependerá do tamanho da amostra e
também da especificação utilizada para o processo estocástico. Isso quer dizer que, para cada
especificação que adotemos para o processo estocástico (i, ii ou iii), teremos uma distribuição
distinta de probabilidade.
A tabela 27 apresenta valores críticos de ι a 5% para diferentes tamanhos de amostra (n) e
diferentes especificações do processo estocástico. Como o teste é unicaudal, devemos encontrar
um valor de ι inferior aos valores críticos da tabela para termos evidências para rejeitar H0
(afirmar que a série é estacionária).
Valores críticos de ι a 5% para teste de raiz unitária
Sem Com Constante e
n
Constante Constante Tendência
25 −1,95 −3,00 −3,60
50 −1,95 −2,93 −3,50 (27)
100 −1,95 −2,89 −3,45
250 −1,95 −2,88 −3,43
500 −1,95 −2,87 −3,42
∞ −1,95 −2,86 −3,41
Exemplo 7. Podemos aplicar o teste de Dickey-Fuller para testar a estacionariedade da série para
o preço do petróleo (Y). O ideal seria, à priori, conhecer a especificação do processo gerador da
série (sem constante, com constante ou com constante e tendência). Como este é, na prática,
262
deconhecido, iremos realizar o teste para os três processos e arriscar, posteriormente, uma
especificação a partir de evidências observadas na amostra. Aplicando MQO, teremos:
i) ∆Yt = 0,004Yt −1 + eˆt
ii) ∆Yt = 4,244 − 0,054Yt −1 + eˆt
iii) ∆Yt = 4,218 + 0,027t − 0,071Yt −1 + eˆt
Como perdemos a primeira observação para calcularmos ∆Yt e Yt–1, nossa amostra final contém
84 observações (fevereiro de 2004 a dezembro de 2010). Os valores críticos aproximados com
5% de significância para cada especificação seriam, respectivamente: −1,95; −2,89; −3,45. Por
sua vez, os valores de ι associados a cada coeficiente do termo atuorregressivo foram: 0,430;
−1,633; −1,757. Como nenhum dos valores de ι se encontra na região crítica, qualquer que seja o
processo considerado, não é possível rejeitar H0 em nenhuma das circunstâncias, ou seja, a série
é não estacionária.
15.4.2. Teste de Dickey-Fuller aumentado

Uma limitação do teste de Dickey-Fuller apresentado anteriormente é que não considera
situações em que os erros et sejam autocorrelacionados. Como sabemos, nessas situações o
estimador de MQO para a variância do coeficiente δ será viesado.
Dickey-Fuller também desenvolveram um teste conhecido como teste de Dickey-Fuller
aumentado, que considera defasagens da variável dependente ∆Yt entre os regressores como
forma de controlar a autocorrelação nos erros et. Assim, a equação transformada para cada
especificação seria dada por:
p
i) ∆Yt = δYt −1 + ∑ ∆Yt − j + et
j =1
p
ii) ∆Yt = α + δYt −1 + ∑ ∆Yt − j + et
j =1
p
iii) ∆Yt = α + β t + δYt −1 + ∑ ∆Yt − j + et
j =1
263
O número de defasagens p a ser considerada é, na maioria dos casos, um problema

empírico. O ideal é incluir tantas defasagens quanto forem necessárias para que o erro et deixe de
apresentar correlação serial.
As hipóteses do teste de Dickey-Fuller aumentado são as mesmas do teste de Dickey-
Fuller (26). Assintoticamente, a estatística τ ( τ = δˆ Sδˆ ) também apresentará a mesma
distirbuição de probabilidade do teste anterior, com valores críticos definidos pela da tabela (27).
Exemplo 8. Para identificar a presença de autocorrelação nos erros dos ajustes realizados no
exemplo 7 para os testes de Dickey-Fuller, estimamos o coeficiente de autocorrelação de 1ª
n
∑ eˆt eˆt −1 . Os valores obtidos foram para cada ajuste:
ordem dos erros por ρ̂ e = t =n2
∑t =1 eˆt 2
i) ∆Yt = 0,004Yt −1 + eˆt ⇒ ρˆ e = 0,486
ii) ∆Yt = 4,244 − 0,054Yt −1 + eˆt ⇒ ρˆ e = 0,491
iii) ∆Yt = 4,218 + 0,027t − 0,071Yt −1 + eˆt ⇒ ρˆ e = 0,497
O ideal seria realizarmos o teste de de Durbin-Watson para comprovarmos se os valores obtidos

são significativos. Entretanto, iremos considerar que a magnitude das estimativas de ρ̂ e sejam
indícios suficientes da existência de autocorrelação nos erros para ilustrarmos a aplicação do
teste de Dickey-Fuller aumentando. Considerando agora uma defasagem de ∆Yt entre os
regressores, teremos:
i) ∆Yt = −0,002Yt −1 + 0,496∆Yt −1 + eˆt ⇒ ρˆ e = −0,082
ii) ∆Yt = 5,291 − 0,074Yt −1 + 0,516∆Yt −1 + eˆt ⇒ ρˆ e = −0,126
iii) ∆Yt = 5,206 + 0,051t − 0,106Yt −1 + 0,537 ∆Yt −1 + eˆt ⇒ ρˆ e = −0,157
As magnitudes das estimativas das autocorrelações nos erros se reduziram substancialmente em

módulo. Nesse teste de Dickey-Fuller aumentado, os valores de ι associados a cada coeficiente
do termo atuorregressivo foram, respectivamente: −0,164; −2,546; −3,029. Os valores críticos
são os mesmos do exercício anterior: −1,95; −2,89; −3,45. Embora agora estejamos mais
próximos de rejeitar a hipótese de não estacionariedade, ainda não temos evidências suficientes a
264
um nível de significância de 5%. Ou seja, nossa conclusão é que a série seria gerada por um
processo não estacionário, independente da especificação proposta.
Exercícios
1. O arquivo ProducaoAutosAco.XLS contém informações mensais sobre a produção de
automóveis (unidades) e aço (toneladas) no Brasil, entre janeiro de 1990 e agosto de 2008.
Pede-se:
a. Analise a estacionariedade da produção de automóveis e de aço a partir da análise
gráfica e da função de autocorrelação.
b. Analise a estacionariedade das séries a partir do teste de Dickey-Fuller.
2. O arquivo EmpregoExportacao.XLS contém informações mensais o emprego com carteira de

trabalho nas regiões metropolitanas (ocup, em mil ocupados) e exportações de produtos
industrializados (exp, em milhões de US$) no Brasil em 2008. Pede-se:
a. Verifique se as ocupações podem ser consideradas como geradas por um processo
com componente autorregressivo estacionário a partir do teste de Dickey-Fuller.
b. Verifique se as exportações podem ser consideradas como geradas por um
processo com componente autorregressivo estacionário a partir do teste de
Dickey-Fuller aumentado. Considere apenas a primeira ordem para o componente
autorregressivo.
3. (ANPEC, 2011) Suponha que

yt = φ yt−1 + ut , ut ~ N(0, σ ), t=1,...,T.
Então yt é um processo estacionário de segunda ordem se φ = 1.
4. (ANPEC, 2011) No passeio aleatório com drift, yt = c + yt−1 + ε t , y0 = 0, em que ε t é um
ruído branco com média zero e variância σ², a média de yt varia com t.
5. (ANPEC, 2008) Julgue as afirmativas:

a. O teste de Dickey-Fuller é monocaudal.
265
b. Um passeio aleatório é um processo estacionário.
Respostas
1) a. Automóveis: ρ1=0,923; ρ2=0,874; ρ3=0,830; ρ4=0,776; ρ5=0,753; Aço: ρ1=0,886;
ρ2=0,854; ρ3=0,805; ρ4=0,780; ρ5=0,757; b. ∆Autost = 0,0002 Autost −1 + eˆt ( τ = 0,022 );
∆Autost = 6746,8 − 0,048 Autost −1 + eˆt ( τ = −2,057 );
∆Autost = 11286,9 + 132,6t − 0,209 Autost −1 + eˆt ( τ = −4,879 ); ∆Açot = 0,0003 Açot −1 + eˆt
( τ = 0,061 ); ∆Açot = 216,4 − 0,092 Açot −1 + eˆt ( τ = −3,066 );
∆Açot = 744,6 + 1,997t − 0,423 Açot −1 + eˆt ( τ = −7,603 )
2) a. ∆Ocupt = 540,2 − 0,048Ocupt −1 + eˆt ; τ = −0,309 ;
b. ∆Expt = 430,4 − 0,421t −1 + 0,304∆Expt −1 + eˆt ; τ = −1,526

3) F.
4) V.
5) a. V; b. F.
266
16. Cointegração
Introdução
Um problema frequente quando relacionamos séries que não apresentam comportamentos
estacionários é o fenômeno da relação espúria. Em outras palavras, a análise estatística sugeriria
falsamente uma associação significativa entre as séries, quando na verdade não haveria nenhuma
relação de causa e efeito entre essas.
Quando trabalhamos com dados de corte transversal, a relação espúria ocorre nas
situações em que a relação entre o regressor Y e o regressando X se deve exclusivamente ao fato
de essas variáveis serem relacionadas a uma terceira variável Z, não considerada na especificação
do modelo. Em outras palavras, a relação desapareceria se incluíssemos a variável Z no modelo.
Em análise de séries temporais, a relação espúria é frequente quando não consideramos a
tendência comum de crescimento (ou decaimento) no tempo para regressor e regressandos.
Ademais, relacionamentos entre séries que são passeios aleatórios usualmente resultam em
estatísticas significativas, mesmos que essas não apresentem deslocamentos em comum.
Nesse módulo, veremos como identificar a relação espúria e três maneiras distintas de
evitar sua ocorrência: i) incluindo o componente tempo na especificação do modelo (modelo de
tendência estacionária); ii) transformando as séries originais (não estacionárias) em séries
estacionárias (modelo de diferenças estacionárias)); iii) trabalhando com séries não estacionárias
que sejam cointegradas.
16.1. Relação espúria

Seja a relação entre duas séries temporais Y e X:
Yt = α + β X t + et (1)
Suponha ainda que não haja nenhuma relação de causalidade entre as séries, mas que
ambas apresentem comportamentos não estacionários no tempo, como mostra a figura abaixo:
267
Econometria Cointegração
(2)
Caso as séries Y e X sejam não estacionárias a associação estatística entre as variáveis

pode falsamente indicar uma relação significativa, embora não haja nenhuma relação de
causalidade entre as variáveis. Pressupondo que as séries sejam passeios aletórios com
deslocamento ( Yt = δ y + Yt −1 + ut e X t = δ x + X t −1 + vt ), esse problema poderia ser devido ao
fato de desconsiderarmos um descolamento comum das séries no tempo. Em outras palavras, os

valores esperados das duas séries seriam uma função do tempo: E (Yt ) = Y0 + tδ y e
E ( X t ) = X 0 + tδ x . Nessa situação, valores baixos de X estariam associados a valores baixos de

Y, assim como valores elevados de X estariam associados a valores elevados de Y. Ou seja, uma
falsa relação de causa e efeito.
Mesmo que as séries não estacionárias não apresentem deslocamentos no tempo, o
relacionamento entre essas resultaria usualmente em uma estatística t indevidamente
significativa. Por exemplo, vamos supor que as duas séries sejam passeios aleatórios sem
deslocamento, ( Yt = Yt −1 + ut e X t = X t −1 + vt ). Sabemos ainda que esses mesmos passeios
t t
aleatórios podem ser representados por33: Yt = Y0 + ∑i =1 ui e X t = X 0 + ∑i =1 vi . Quando
realizamos o teste t para o coeficiente β da equação (1), nossa hipótese nula é H 0 : β = 0 .
Entretanto, pressupondo a veracidade da hipótese nula, teríamos que:

Yt = α + et (3)
Que será equivalente a afirmarmos que:
t
α = Y0 e et = ∑i =1 ui (4)
33
O desenvolvimento encontra-se no Capítulo 15.
268
Em outras palavras, et será um passeio aleatório com variância tendendo a explodir com o
tempo: Var (et ) = tσ u2 . Fato que viola as premissas do Teorema de Gauss-Markov para que os
estimadores de MQO para β sejam não tendenciosos e eficientes.
Exemplo 1. Sejam as séries anuais para o número de vacas ordenhadas (Y, em mil cabeças) e o
número de médicos (X, em mil médicos) no Brasil entre 1996 e 2008:
As séries apresentam comportamento aparentemente não estacionários, já que não apresentam

um valor médio constante no tempo. Caso ajustemos o modelo:
ln(Yt ) = α + β ln( X t ) + et
Chegaremos às estimativas de MQO:
ln(Yt ) = 6,97 + 0,52 ln( X t ) + eˆt
O coeficiente angular é significativo a 0,1% e o R2 é de 0,98, sugerindo um relação altamente
significativa. Entretanto, sabemos que não há relação causal alguma entre número de médicos e
vacas ordenhadas, ou seja, estamos em um caso típico de relação espúria.
16.2. Modelo de tendência estacionária

Em muitos casos, a relação espúria deve-se ao fato de as séries não estacionárias
apresentarem tendências determinísticas comuns (ou opostas) no tempo (crescimento ou
decrescimento). Nesses casos, uma solução simples para evitar o problema de relação espúria
seria a inclusão da variável explanatória tempo (t) no modelo de regressão. Caso as séries sejam
geradas por processos estacionários em tendência, a variável tempo permitirá isolar o efeito da
tendência de crescimento e indentifcar o efeito isolado do regressor sobre o regressando.
Em outras palavras, suponha que a relação entre as variáveis Y e X seja dada por:
269
Yt = α + β1 X t + β 2 t + et (5)
Onde Yt e Xt são processos estacionários em tendência. A omissão da variável t do
modelo, como sugere a equação (1), implicaria na relação entre regressor e erros e,
consequentemente, em estimativas viesadas e inconsistentes pelo MQO. Por outro lado, a
consideração da variável t permitiria identificar o efeito de X sobre Y, isolando a tendência de
ambas as séries no tempo.
Exemplo 2. Se incluirmos a variável tempo (t=1..13) no modelo proposto no exemplo 1

terermos:
ln(Yt ) = α + β1 ln( X t ) + β 2 t + et
E as respectivas estimativas de MQO:
ln(Yt ) = 9,18 + 0,10 ln( X t ) + 0,02t + eˆt
O impacto do número de médicos sobre as vacas ordenhadas (β1) passou a ser insignificante a
5% e o R2 passou a 0,99. Esses resultados sugerem que o comportamento do número de vacas
ordenhadas seja exclusivamente determinado pela tendência temporal. Para reforçarmos essa
análise, podemos ajustar o logaritmo do número de vacas com função linear simples do tempo:
ln(Yt ) = 9,68 + 0,02t + eˆt
O R2 permaneceu inalterado (0,99) e o coeficiente estimado para o tempo continuou com o
mesmo valor e significativo a 0,1%. Em ouras palavras, após isolado o efeito do tempo sobre a
dinâmica do número de vacas ordenhadas, o número de médicos não agrega qualquer tipo de
informação.
16.2.1. Coeficiente de determinação para regressando com tendência

O coeficiente de determinação (R2) de ajustes de séries temporais são usualmente bem
elevados em comparação àqueles de dados em corte transversal. Um dos motivos é o fato de o
regressando apresentar usualmente alguma tendência no tempo, fazendo com que sua
variabilidade total (SQT) seja bem elevada em relação à variabilidade dos resíduos (SQRes).
Para compreendermos melhor, sabemos que o R2 é dado por:
SQReg SQRes
R2 = =1− (6)
STQ STQ
270
Como a STQ mede as distâncias quadráticas dos valores de Yt em relação à sua média
constante ( Y ), seu valor tende a crescer substancialmente com o tempo quando Yt apresenta
tendência. O resultado é que a STQ e o R2 acabam superestimados.
Para contornar esse problema, sugere-se que, quando a variável dependente apresenta
alguma tendência, o ideal seja isolarmos o efeito do tempo antes de calcularmos o R2. A proposta
é trabalhar com uma variável dependente com remoção de tendência ( Yt* ). Para calcularmos Yt* ,
o primeiro passo é ajustar a relação entre Yt e t:
Yˆt = αˆ 0 + αˆ1t (7)
Em seguinda, removemos o efeito do tempo em Yt por:
Yt* = Yt − Yˆt = Yt − (αˆ 0 + αˆ1t ) (8)
Sendo que Yt* nada mais é que os resíduos do ajuste em (6).

O R2 com remoção de tendência será então estimado a partir do modelo:
Yt* = α + β1 X t + β 2t + et (9)
A ideia é que o R2 do modelo (8) melhor reflete a contribuição de Xt para explicar a
variabildiade de Yt, já que desconsidera a contribuição da tendência.
Exemplo 3. No exemplo 2, verificamos que o ajuste para o logaritmo do número de vacas

ordenhadas como função do logaritmo do número de médicos resultou em um R2 igual a 0,99.
Boa parte desse valor deve-se, provavelmente, ao fato de a variável dependente apresentar um
tendência de crescimento no tempo. Para removermos o efeito da tendência sobre o regressando
e calcularmos um novo R2, o primeiro passo é ajustar o logaritmo do número de vacas
ordenhadas como função do tempo:
ln(Yt ) = 9,68 + 0,02t + eˆt
Em seguida, removemos o efeito da tendência sobre o regressando por:
ln(Yt )* = ln(Yt ) − (9,68 + 0,02t )
Finalmente, o ajuste da variável dependente com remoção de tendência pelas variáveis
independentes originais será:
ln(Yt )* = −0,50 + 0,10 ln( X t ) − 0,004t + eˆt
271
O R2 desse modelo é de apenas 0,08, bem inferior ao valor obtido anteriormente. Se

considerarmos ainda a margem de erro da amostra da pequena amostra, chegaremos à conclusão
que se trata de um valor insignificante.
16.3. Modelo de diferença estacionária

Outra maneira de nos resguardarmos em relação à presença relação espúria é
transformando as séries não estacionárias em séries estacionárias. Em muitas situações, uma
série não estacionária Yt pode gerar uma série estacionária em primeira diferença, ou seja, a
variável ∆Yt=Yt−Yt−1 seria estacionária. Seria o caso, por exemplo, de um processo um passeio
aleatório com deslocamento:
Yt = α y + Yt −1 + et (10)
Que, em primeira diferença, ficaria:
∆Yt = α y + et (11)
Ou seja, pressupondo que et seja um ruído branco, a série ∆Yt seria estacionária, variando
aleatoriamente em torno de uma constante αy. Entretanto, como na prática desconhecemos o
processo que define a série Yt, o ideal seria realizarmos um teste de estacionariedade à série ∆Y
para nos certificarmos que a diferenciação de fato eliminou a não estacionariedade.
Quando a série Yt se torna estacionária a partir da primeira diferença, dizemos que ela é
um processo integrado de ordem um, ou I(1)34. Isso significa que ela é gerada a partir de uma
única integração (o oposto de diferenciação) de um processo estacionário, que no caso seria ∆Yt.
Caso a série Yt seja estacionária, dizemos que ela é um I(0). E, caso sejam necessárias d
diferenciações para ela se tornar estacionária, dizemos que ela é um I(d).
Além de poder transformar uma série não estacionária em estacionária, a diferenciação
também remove qualquer tendência linear que a série apresente no tempo. Por exemplo, caso a
série Yt apresente uma tendência definida por:
Yt = γ 0 + γ 1t + et (12)
Então a primeira diferença gerará a série:
∆Yt = Yt − Yt −1 = (γ 0 − γ 0 ) + γ 1[t − (t − 1)] + (et − et −1 ) = γ 1 + ∆et (13)
34
Os processos integrados serão discutidos com maiores detalhes no Capítulo 17.
272
Que apresenta valor esperado constante igual a γ1.

Assim, ao invés de analisarmos a relação entre Yt e Xt, que podem apresentar não
estacionariedade, podemos analisar a relação entre ∆Yt e ∆Xt:
∆Yt = α + β∆X t + et (14)
A diferença entre o modelo para as variáveis originais este para as suas diferenças é que,
enquanto o primeiro capta relações de longo prazo, o segundo capta relações de curto prazo
(mudanças de um período para outro). O problema é que muitas vezes o pesquisador está
interessado em captar o efeito de longo prazo das relações, que não é possível com o modelo de
diferenças estacionárias.
Exemplo 3. Para eveitar o problema de relação espúria entre número de vacas ordenhadas (Y) e
número de médicos (X), podemos trabalhar as primeiras diferenças de seus logaritmos:
∆ ln(Yt ) = ln(Yt ) − ln(Yt −1 ) ∆ ln( X t ) = ln( X t ) − ln( X t −1 )
Embora o ideal seja realizar um teste de estacionariedade nas séries ∆Y e ∆X, vamos pressupor
que essas sejam de fato estacionárias e ajustar o modelo:
∆ ln(Yt ) = α + β∆ ln( X t ) + et
As estimativas de MQO seriam:
∆ ln(Yt ) = 0,02 − 0,01∆ ln( X t ) + eˆt
A relação entre número de médicos e vacas ordenhadas passa a ser insignificante a 10%, assim
como o R2 do ajuste (0,001). Em outras palavras, eliminando o problema da não
estacionariedade, constatamos que a variação de curto prazo (anual) no número de médicos não
possui qualquer relação com a variação (anual) no número de vacas ordenhadas.
16.4. Cointegração
Mesmo não estacionárias, duas séries podem apresentar relação de causa e efeito caso
essas sejam cointegradas. Duas séries que apresentam a mesma ordem de integração serão
denominadas cointegradas caso apresentem comportamentos semelhantes no tempo, que tendem
a convergir em longo prazo. É como se uma série puxasse a outra, produzindo um efeito elástico
na relação entre essas.
273
Para compreendermos melhor o conceito de cointegração, vamos supor o exemplo da

relação entre os preços de dois substitutos: arroz e macarrão. Suponha ainda que os preços desses
produtos sejam não estacionários, já que alguns choques, como aumento da demanda e dos
custos de produção, não seriam facilmente assimilados com o tempo. Caso a relação entre as
duas séries de preços seja de não cointegração, a diferença entre as elas tenderia a crescer com o
tempo. Entretanto, esse resultado seria pouco factível do ponto de vista econômico. Caso, por
exemplo, o arroz se torne substancialmente mais caro que o macarrão, as pessoas tenderiam a
consumir mais macarrão. Consequentemente, o preço do macarrão tenderia a aumentar,
aproximando novamente as duas séries de preços. Em outras palavras, embora desvios de uma
série em relação a outra sejam esperados em um curto período de tempo, não é de se esperar que
essas diferenças cresçam substancialmente com o tempo.
Assim, para sabermos se a relação entre duas séries não estacionárias é espúria ou de
cointegração, nada mais natural que analisarmos o comportamento dos resíduos do ajuste de
regressão. Uma regressão entre duas séries cointegradas gerará erros estacionários, que
convergem rapidamente para a média zero. Em outras palavras, seja o modelo:
Yt = α + β X t + et (15)
Caso Y e X sejam cointegradas, os erros et desse modelo serão estacionários. Como, na
prática, não observamos e, analisamos a relação de cointegração a partir dos resíduos êt. A figura
(16) representa um ajuste com variáveis cointegradas e resíduos estacionários.
(16)
Por outro lado, caso as séries não estacionárias não sejam cointegradas, os resíduos de
seu ajustes serão não estacionários, como representa da Figura (17).
(17)
274
Além de analisarmos graficamente o comportamento de êt, podemos realizar o teste da

raiz unitária para encontrarmos evidências formais da presença de estacionariedade nos erros et,
consequentemente, de relação de cointegração entre as séries temporais. Caso os erros fossem
observados, poderíamos aplicar diretamente o teste de Dickey-Fuller, ou Dickey-Fuller
aumentado. Em outras palavras, desejaríamos analisar a relação:
et = ρet −1 + ut (18)
E testar as hipóteses de que o coeficiente ρ é igual a 1 (H0: não estacionário) ou inferior a
1 (H1: estacionário). Entretanto, como, na prática, o ajuste será feito a partir dos resíduos êt,
consideramos a seguinte especificação:
eˆt = ρeˆt −1 + ut (19)
O primeiro passo seria realizarmos a transformação do modelo para que, sob a veracidade
da hipótese nula, tenhamos um modelo com regressor estacionário:
∆eˆt = δeˆt −1 + ut (20)
E verificar se a estimativa de MQO para o coeficiente δ é estatisticamente igual a 0
(hipótese nula) ou inferior a 0 (hipótese alternativa). No teste de Dickey-Fuller, utilizamos a
estatística τ = δˆ S δˆ com distribuição tau ou de Dickey-Fuller. O problema agora é que estamos
trabalhando com valores estimados (êt e êt−1) em substituição aos valores observados (et).
Ademais, sob a veracidade da hipótese nula, essas estimativas seriam obtidas através de um
estimador β̂ inconsistente, já que a relação seria de não cointegração. Consequentemente, os
valores criticos da estatístca de Dickey-Fuller não seriam mais apropriados para o teste.
Para contornar esse problema, Davidson e Mackninnon propuseram novos valores
críticos para o teste de cointegração. Esses valores consideram ainda duas possibilidades de
especificação: i) relações de cointegração com constante (equação 15); ii) relações de
cointegração em tendência (equação 22).
Yt = α + β1 X t + β 2 t + et (22)
Os valores críticos propostos por Davidson e Mackninnon para cada especificação são
apresentados na tabela 23:
275
Com Com
Signifiância Constante Constante e
Tendência
1% −3,90 −4,32 (23)
5% −3,34 −3,78
10% −3,04 −3,50
Uma vez rejeitada a hipótese nula, ou seja, identificada a estacionariedade dos erros,
podemos afirmar que há relação de cointegração entre as séries.
Exemplo 4. Podemos verificar a cointegração das séries dos logaritmos do número de vacas
ordenhadas e de médicos analisando os resíduos do ajuste:
ln(Yt ) = 6,97 + 0,52 ln( X t ) + eˆt
O primeiro passo é analisar o comportamento gráfico dos resíduos:
O comportamento presente (êt) parece estar fortemente associado ao comportamento passado

(êt−1). Entretanto, para encontrarmos evidências formais da existência de não estacionariedadade
e, consequentemente, de ausência de cointegração, devemos avaliar o coeficiente associado ao
termo autorregressivo do modelo:
eˆt = ρeˆt −1 + ut
O teste da raiz unitária consiste em verificar se há evidências para afirmar que ρ<1, ou seja, que
os resíduos são estacionários. Testar a hipótese nula de que ρ=1 é o mesmo que testar se δ=0,
sendo δ o coeficiente do modelo:
∆eˆt = δeˆt −1 + ut
Aplicando MQO, chegaremos à estimativas:
276
∆eˆt = −0,512eˆt −1 + uˆt
A estimativa do erro padrão de δˆ foi de 0,248 e da estatística τ foi de −2,067. Como o valor de
τ não é inferior ao valor critico da tabela de Davidson e Makninnon para 10% de significância
em um ajuste sem intercepto (−3,50), não rejeitaríamos a hipótese nula de não estacionariedade
dos resíduos. Ou seja, o teste sugeriria que os resíduos são não estacionários e,
consequentemente, que a relação entre as variáveis não seja de cointegração.
Exemplo 5. Vamos agora analisar a relação entre renda disponível no Brasil (X, em mil reais) e
consumo final das famílias (Y, em mil reais) entre 1961 (t=1) e 2009 (t=63).
Embora as duas séries sejam aparentemente não estacionárias, a relação linear entre essas seria
consistente caso essas sejam cointegradas. O modelo proposto é dado por:
ln(Yt ) = α + β ln( X t ) + et
Aplicando MQO chegaremos a:
ln(Yt ) = −0,07 + 0,98 ln( X t ) + eˆt
A elasticidade renda consumo é significativa a 1% e o R2 do modelo (sem remoção de tendência)
é de 0,998. Como pôde ser observado visualmente, consumo e renda compartilham tendências
estocásticas (aleatórias) semelhantes. Essas séries não divergem muito uma da outra, e
compartilham de um equilíbrio a longo prazo.Os resíduos obtidos no ajuste foram:
277
Embora a dispersão dos resíduos no tempo sugira um comportamento aleatório, devemos realizar
o teste da raiz unitária para nos certificarmos da presença de estacionariedade nos resíduos.
Aplicando MQO, chegaremos às estimativas:
∆eˆt = −0,625eˆt −1 + uˆt
A estimativa do erro padrão de δˆ foi de 0,120 e da estatística τ foi de -5,211. Como o valor de
τ é inferior ao valor critico da tabela de Davidson e Makninnon para 1% de significância em um
ajuste sem tendência (−3,90), encontramos evidências fortíssimas para rejeitar a hipótese nula de
não estacionariedade dos erros. Ou seja, sujeitos a um erro inferior a 1%, afirmaríamos que a
relação entre o logaritmo da renda e do consumo é de cointegração.
16.4.1. Modelo de correção de erros

É importante destacar que a cointegração significa uma relação de longo prazo, ou de
equilíbrio, entre as séries. No curto prazo, porém, pode haver desequilíbrios entre as séries.
Assim, embora o modelo (15) possa ser apropriado para representar relações de longo prazo
entre duas séries cointegradas, relações de curto prazo devem ser analisadas através do
denominado modelo de correção de erros. Uma representação simplicada do modelo de correção
de erros pode ser dada por:
∆Yt = γ 0 + γ 1∆X t + δet −1 + ut (22)
Onde et é dado por:
et −1 = Yt −1 − (α + βX t −1 ) (23)
O termo δet−1 é denominado de componente de correção de erro. Espera-se que δ<0 para
que este componente funcione como um termo de equilíbro. Por exemplo, caso haja um desvio
positivo no período anterior (et−1>0), o termo δet−1 será negativo para forçar a série Yt a retornar
278
ao equilíbro. Assim, a constante δ determinará a velocidade com que a série retornará ao ponto
de equilíbro após desvios ocorrerem no período anterior.
Como, na prática, não observamos os valores de et, trabalhamos com os resíduos
estimados êt para o modelo de cointegração. Assintoticamente, o uso de estimativas êt obtidas
por MQO ou outra técnica de estimação não afetará os coeficientes do modelo correção de erros.
O modelo de correção de erros permite analisar a relação de curto prazo entre duas séries
cointegradas. Alguns modelos de correção de erros incorporam ainda defasagens do regressor
∆Xt e do regressando ∆Yt, que são particularmente úteis em modelos de previsão de séries
temporais ou quando desejamos analisar o comportamento dinâmico das séries temporais.
Exemplo 6. No exemplo 5, identificamos uma relação de cointegração entre renda disponível (X,
em mil reais) e consumo final das famílias (Y, em mil reais) entre 1961 (t=1) e 2009 (t=63) no
Brasil. O ajuste para a relação de longo prazo foi dado por:
ln(Yt ) = −0,07 + 0,98 ln( X t ) + eˆt
Para estabelecermos a relação de curto prazo entre as séries, podemos considerar o seguinte
modelo de correção de erros:
∆ ln(Yt ) = γ 0 + γ 1∆ ln( X t ) + δet −1 + ut
Como os valores de et não são observados, trabalharemos com as estimativas dadas pelo ajuste
de cointegração:
eˆt −1 = ln(Yt −1 ) − [−0,07 + 0,98 ln( X t −1 )]
Assim, as estimativas para o modelo de correção de erros foram:
∆ ln(Yt ) = 0,01 + 0,88∆ ln( X t ) − 0,07eˆt −1 + uˆt
A estimativa de δ é negativa, como esperado, mas não significativa a 5% (seu erro padrão é igual
a 0,12). O ajuste sugere, portanto, que o consumo se ajusta à renda no mesmo período. Ademais,
enquanto a elasticidade obtida no exemplo 5 (0,98) refere-se à propensão marginal a consumir de
longo prazo, a elasticidade de curto prazo estimada pelo modelo de correção de erros é igual a
0,88 e significativa a 0,1%.
279
Exercícios
1. O arquivo ProducaoAutosAco.XLS contém informações mensais sobre a produção de
automóveis (unidades) e aço (toneladas) no Brasil, entre janeiro de 1990 e agosto de 2008.
Pede-se:
a. Analise a relação entre a produção de aço (Y) e de automóveis (X). Há motivos
para suspeitar de relação espúria?
b. Analise os resultados de um modelo de tendência estacionária.
c. Analise os resultados de um modelo de diferença estacionária.
d. Analise a realção de cointegração entre as séries.
2. O arquivo SuinoMilho.XLS contém informações mensais o preço de atacado da saca de 60

kg de milho (milho, em R$) e o preço médio do kg da carcaça de suíno (suino, em R$) no
estado do Paraná entre janeiro de 2009 e dezembro de 2010. Pede-se:
a. Ajuste um modelo para o logaritmo do preço do suíno como função do logaritmo
do preço do milho. Você suspeitaria de relação espúria?
b. Analise a relação de cointegração no model ajustado em (a).
c. Considere agora um componente de tendência determinística para a relação
estabelecida em (a).
d. Analise a relação de cointegração do modelo ajustado em (c)
e. Pressupondo que haja relação de cointegração no modelo ajustado em (c),
proponha um modelo de correção de erros.
3. O arquivo MoedaPIB.XLS contém informações anuais sobre a quantidade de papel-moeda

em poder público (M1) e o PIB (PIB) no Brasil, entre 1994 e 2008. Pede-se:
a. Sem qualquer resultado estatístico prévio, você acredita que o ajuste da série M1
em função da série PIB pode gerar uma relação espúria?
b. Analise os resultados de um modelo de tendência estacionária.
c. Analise os resultados de um modelo de diferença estacionária.
d. Analise a realção de cointegração entre as séries.
e. Que outro tipo de problema pode estar envolvido na regressão da oferta de moeda
como função do PIB?
280
4. (ANPEC, 2008) A regressão entre duas variáveis não estacionárias é sempre espúria.
5. (ANPEC, 2007) Sejam Yt e Xt duas séries temporais. Considere os resultados dos seguintes
modelos de regressão estimados por mínimos quadrados ordinários (MQO):
Considere também os resultados da regressão de Yt em Xt
em que êt é o resíduo. Finalmente, considere a seguinte regressão:
Os números entre parênteses são os valores do teste t de significância individual dos

parâmetros. Dado que o valor crítico a 5% da estatística de Dickey-Fuller é −2,938, é correto
afirmar que:
a) Yt e Xt são séries temporais integradas de ordem 1.
b) A regressão de Yt em Xt é espúria.
c) A hipótese de cointegração entre Yt e Xt é rejeitada pois os resíduos da regressão de Yt em
Xt são não-estacionários.
d) Para que duas variáveis sejam cointegradas é necessário que ambas tenham a mesma
ordem de integração.
e) A rejeição da hipótese nula do teste Dickey-Fuller implica que a variável em questão é
não-estacionária.
Respostas
1) a. Açot = 1524,5 *** + 0,006 *** Autos t + eˆt ;
b. Açot = 1629,3*** + 0,003*** Autos t + 3,079t *** + eˆt ;
c. ∆Açot = 4,6 + 0,002** ∆Autost + eˆt ;
d. ∆eˆt = −0,034 − 0,383*** eˆt −1 + uˆ t
281
2) a. ln( suinot ) = −0,16 + 0,533*** ln(milhot ) + eˆt ;
b. ∆eˆt = −0,150eˆt −1 + uˆt ; τ = −0,999 ;
c. ln(suinot ) = −0,245 + 0,538*** ln(milhot ) + 0,006*** t + eˆt ;
d. ∆eˆt = −0,483eˆt −1 + uˆt ; τ = −2,894 ;
e. ∆ ln(suinot ) = 0,004 + 0,328** ∆ ln(milhot ) − 0,580*** eˆt −1 + vˆt
3) b. M 1t = −10314,5*** + 0,035*** PIBt − 258,0t + eˆt ;
c. ∆M 1t = 2177,1 + 0,020 + ∆PIBt + eˆt ;
d. ∆eˆt = −504,8 − 0,885** eˆt −1 + uˆt

4) F
5) a. V; b. F (questão anulada); c. F (questão anulada); d. V; e. F
282
17. Modelos ARIMA
Introdução
O proeminente trabalho de Box e Jenkins em 1970, intitulado “Time series
analysis:forecasting and control”, revolucionou o estudo sobre previsão de séries temporais. Os
autores propuseram uma nova metodologia para prever os valores futuros de uma série tempo a
partir de seus valores passados. A idéia central dessa proposta, também denominada de
“metodologia de Box e Jenkins”, é “deixar que os dados falem por si mesmos”.
Nesse módulo, veremos as principais formulações propostas por Box e Jenkins. Em
especial, veremos a definição de 4 tipos de modelos: i) autorregressivos; ii) média móvel; iii)
autorregressivo de média móvel; iv) autorregressivo integrado de média móvel. A metodologia
completa de previsão não será, entretanto, abordada nesta apresentação. Esta exige uma literatura
específica e programas estatísticos apropriados para o desenvolvimento das análises.
17.1. Modelo Autorregressivo (AR)

Podemos pressupor que o valor previsto da variável Yt seja dado exclusivamente pelo seu
valor defasado Yt–1. Nesse caso, o modelo de previsão seria dado por:
Yt = α + φYt −1 + et (1)
Esse modelo é denominado de autorregressivo de ordem 1, ou AR(1), pois considera

apenas a primeira defasagem de Yt como variável explicativa. Podemos generalizar esse modelo
para inúmero defasagens. Assim, em um processo autorregressivo de ordem p, ou AR(p), a
observação corrente de Yt é gerada por uma média ponderada de p observações passadas mais
uma perturbação aleatória no período corrente. Em outras palavras:
Yt = α + φ1Yt −1 + φ 2Yt − 2 + ... + φ p Yt − p + et (2)
Outra maneira de representar esse processo é utilizando o operador de defasagem B. Seja

o operador definido por:
283
Econometria Modelos ARIMA
B k (Yt ) = Yt −k (3)
Então, o processo AR(2) definido em (2) poderia também ser representado por:
(1 − φ1 B1 − ... − φ p B p )Yt = α + et (4)
Ou ainda, mais simplificadamente:
φ ( B)Yt = α + et (5)
A partir da especificação do modelo AR(p) (equação 2), podemos calcular o valor

esperado de Yt, ou seja, descobrir para qual valor médio a série convergirá. Considerando que
µ = E (Yt ) = E (Yt − p ) , então:
E (Yt ) = E (α + φ1Yt −1 + φ 2Yt −2 + ... + φ p Yt − p + et )
E (Yt ) = α + φ1 E (Yt −1 ) + φ 2 E (Yt −2 ) + ... + φ p E (Yt − p )
µ (1 − φ1 − ... − φ p ) = α (6)
α
µ=
(1 − φ1 − ... − φ p )
Ou seja, conhecendo a especificação do modelo AR(p), conseguiremos calcular

facilmente o valor médio da série (equação 6). Outro resultado interessante desse
desenvolvimento é que, para que a série apresente um valor constante e definido, o denominador
não pode ser igual a zero. Ou seja:
φ1 + ... + φ p < 1 (7)
284
Esse resultado nada mais é que uma generalização do conceito de raiz unitária aplicado
ao modelo AR(1). Ou seja, o modelo de previsão AR(p) será estacionário, com média definida e
constante, caso ( φ1 + ... + φ p < 1 ). Caso contrário ( φ1 + ... + φ p = 1 ), a série será não estacionária e
não apresentará valor médio definido.
Exemplo 1. Sejam os dados trimestrais, em dólares constantes de 1987, para investimento em

estoques não agrícolas. Aparentemente, um processo estacionário:
Podemos pressupor que o investimento em estoque seja gerado por um AR(1), ou seja, que o
valor da série para o período t seja dado com no valor de sua primeira defasagem (t–1) mais um
erro aleatório et. Teríamos, então, o seguinte ajuste para o modelo:
Yt = 9,80 + 0,54Yt −1 + et
A comparação entre os valores observados e previsto de Yt pelo AR(1) (linha tracejada em
vermelho) é dada pelo gráfico:
Percebam que, para os períodos contidos na amostra, os valores previstos pelo AR(1) se
aproximam muito daqueles observados. Para previsões futuras, entretanto, a tendência é de que a
previsão convirja para o valor esperado de Yt. Esse valor esperado, por sua vez, será dado por:
E (Yt ) = E (9,80 + 0,54Yt −1 )
µ = 9,80 + 0,54 µ
285
9,80
µ= = 21,3
1 − 0,54
17.2. Modelo de Médias Móveis (MA)

Podemos também considerar a previsão de uma série temporal a partir de uma “média
ponderada” das perturbações aleatórias presentes e passadas. Se o processo estocástico em
questão é estacionário, os erros estariam identificando variações em torno de uma média
constante devido a fatores diversos não explicados pelo modelo.
Genericamente, um processo de médias móveis de ordem q, ou MA(q), pressupõe que
cada observação corrente de Yt seja gerada por uma média invariável no tempo (µ ), mais uma
soma ponderada de q observações defasadas das perturbações aleatórias, mais a perturbação do
período corrente. Em outras palavras::
Yt = µ + et − θ1et −1 − θ 2 et −2 − ... − θ q et − q (8)
Que também pode ser representado pelo operador de defasagem B:
Yt = µ + (1 − θ 1 B 1 − θ 2 B 2 − ... − θ q B q )et (9)
Os parâmetros θ’s podem ser positivos ou negativos. A representação pelo sinal negativo
é apenas uma prática frequente, embora não seja universal. Por sua vez, o termo média móvel
está associado à ponderação dos parâmetros θ’s, embora não essa ponderação não se trate
necessariamente de uma média. Não há qualquer restrição que limite os parâmetros θi a valores
positivos ou que a soma de seus valores seja igual a 1.
No caso de um processo MA(q), podemos demonstrar facilmente que o valor esperado da
série será dado pelo parâmetro do modelo µ :
E (Yt ) = E ( µ + et − θ 1 et −1 − θ 2 et − 2 − ... − θ q et − q ) = µ (10)
286
Exemplo 2. Vamos agora considerar a investimento em estoque em um período t seja dado por
uma soma ponderada de uma perturbação aleatória presente e outra passada, ou seja, um MA(1).
O ajuste para o modelo proposto seria dado por:
Yt = 21,64 + et + 0,48et −1
É fácil identificarmos que o valor esperado da série será dado pelo termo constante 21,64. Assim,
o investimento em estoque para o período t seria previsto com base na média constante 21,64
mais uma soma ponderada do resíduo presente e do resíduo passado.
Graficamente, observamos que previsões futuras dos valores de Yt convergirão rapidamente para
a média histórica 21,64:
17.3. Modelo Autorregressivo e de Médias Móveis (ARMA)

Em muitas situações, um processo estocástico pode não ser modelado puramente como
de médias móveis ou puramente como autorregressivo, mas sim como uma combinação dos dois.
Em um processo autorregressivo e de médias móveis de ordem (p, q), ou ARMA(p, q),
considera-se que cada observação corrente Yt seja gerada por uma combinação de um processo
autorregressivo de ordem p e um processo de médias móveis de ordem q. Em outras palavras:
Yt = φ1Yt −1 + φ2Yt −2 + ... + φ pYt − p + δ + et − θ1et −1 − θ 2et −2 − ... − θ q et − q (11)
(1 − φ1B1 − φ2 B 2 − ... − φ p B p )Yt = δ + (1 − θ1B1 − θ 2 B 2 − ... − θ p B p )et (12)
O valor esperado deste processo será semelhante ao do AR(p), ou seja:
287
E (Yt ) = E (φ1Yt −1 + φ 2Yt − 2 + ... + φ p Yt − p + δ + et − θ1et −1 − θ 2 et − 2 − ... − θ q et − q )
µ (1 − φ1 − ... − φ p ) = δ
(13)
δ
µ=
(1 − φ1 − ... − φ p )
Ou seja, o modelo de previsão ARMA(p, q) será estacionário, com média definida e

constante, caso ( φ1 + ... + φ p < 1 ).
Exemplo 3. Vamos agora supor que o investimento em estoque no período corrente seja definido
por uma combinação do investimento no período anterior e uma defasagem da flutuação
aleatória em torno de uma média constante. A estimativa para o modelo ARMA (1,1) proposto
seria dada por:
Yt = 21,72 + 0,63Yt −1 + et − 0,13et −1
Segundo as especificações propostas, o processo convergeria para uma média constante dada
por:
21,72
µ= = 58,7
1 − 0,63
E o comportamento gráfico dos valores observados, previstos e extrapolações futuras seria:
17.4. Modelo Autorregressivo Integrado e de Médias Móveis (ARIMA)

Uma limitação dos modelos AR, MA e ARMA é que estes aplicam-se apenas a séries
estacionárias. Assim, caso uma série seja não estacionária, será antes necessário transformá-la
em uma série estacionária para podermos aplicar um modelo de previsão.
288
O processo utilizado para transformar uma série não estacionária em estacionária

denomina-se diferenciação. Por exemplo, a primeira diferença de uma série Yt (∆Yt) será dada
por:
∆Yt = Yt − Yt −1 (13)
Caso a nova série ∆Yt não seja estacionária, aplicam-se novas diferenças até se chegar a
uma série estacionária. Por exemplo, a segunda diferença da série Yt (∆2Yt) será dada por:
∆2 Yt = ∆Yt − ∆Yt −1 (14)
Usualmente, a primeira diferença é suficiente para transformar um série não estacionária

em estacionária. Teoricamente, podemos diferenciar uma série quantas vezes forem necessárias
para transformá-la em estacionária. A d-ésima direrença da série Yt (∆dYt) será dada por:
∆d Yt = ∆d −1Yt − ∆d −1Yt −1 (15)
A d-ésima diferença estacionária de uma série poderá ser utilizada em modelos de

previsão ARMA ou outros modelos econométricos. Após previsão da série ∆dYt, podemos
retornar aos valores da série original através do processo denominado integração. Por exemplo,
desenvolvendo a expressão (13), chegaremos à série Yt integrando uma vez os valores de ∆Yt
( ∑ ∆Yt ):
Yt = ∆Yt + Yt −1 = ∆Yt + ∆Yt −1 + Yt − 2 = ... = ∑ ∆Yt (16)
Analogamente, desenvolvendo a equação (14), podemos chegar à série ∆Yt integrando a

série ∆2Yt:
∆Yt = ∆2Yt + ∆Yt −1 = ∆2 Yt + ∆2 Yt −1 + ∆Yt − 2 = ... = ∑ ∆2 Yt (17)
289
Por sua vez, igualando as equações (16) e (17) teremos que integrando duas vezes a série
2
∆2Yt ( ∑ ∆2 Yt ) chegaremos à série Yt:
2
Yt = ∑ ∆Yt = ∑ ∑ ∆2 Yt = ∑ ∆2 Yt (18)
Genericamente, teríamos que integrar d vezes a série ∆dYt para se chegar à série Yt:
d
Yt = ∑ ∆Yt = ∑ ∑ ∆2 Yt = ∑ ...∑ ∆d Yt = ∑ ∆d Yt (19)
Diz-se que um processo é integrado de ordem d, ou I(d), quando, ele se torna estacionário
após ser diferenciado d vezes. Em outras palavras:
• Se Yt é estacionário então Yt é uma série integrada de ordem 0, ou I(0);

• Senão, se ∆Yt é estacionário então Yt é um I(1) e ∆Yt um I(0);
• Senão, se ∆2Yt é estacionário então Yt é um I(2);
• Senão, se ∆dYt é estacionário então Yt é um I(d).
Após diferenciar uma série não estacionária Yt um total de d vezes para torná-la
estacionária e, sendo ∆dYt um processo ARMA (p, q), então dizemos que Yt é um processo
autorregressivo integrado e de médias móveis de ordem (p, d, q), ou simplesmente
ARIMA( p, d , q) . Em outras palavras:
∆d Yt = φ1 ∆d Yt −1 + φ 2 ∆d Yt − 2 + ... + φ p ∆d t − p + δ + et − θ1et −1 − θ 2 et − 2 − ... − θ q et − q (20)
(1 − φ1B1 − φ2 B 2 − ... − φ p B p )∆d Yt = δ + (1 − θ1B1 − θ 2 B 2 − ... − θ p B p )et (21)
290
Ou simplesmente:
φ ( B )∆d Yt = δ + θ ( B)et (22)
Seguindo a metodologia proposta por Box e Jenkins, é possível elaborar modelos

ARIMA e, desta maneira, realizar previsões de Yt a partir de valores defasados do próprio Yt e
seus erros aleatórios. Após elaborar um modelo de previsão com base na d-ésima diferença de
Yt, ∆dYt, é possível retornar à série original Yt a partir do operador de soma ∑d.
Exemplo 4. Seja a série Yt reprsentada no gráfico abaixo, com comportamento claramente não
estacionário:
O primeiro passo para o procedimento de previsão seria transformá-la em uma série estacionária.
Aplicando a primeira diferença, obteríamos a série ∆Yt, com comportamento expresso
graficamente por:
Assumindo que a série ∆Yt seja estacionária (os testes usuais de estacionariedade seriam
necessários), podemos prevê-la pelo modelo ARIMA. Como foi necessária uma diferenciação
para transformá-la em um série estacionária, sabemos que o parâmetro d será igual a 1, ou seja, a
série Yt é um I(1).
291
Pressupondo agora que o valor de ∆Yt seja uma função de um componete autorregressivo (p=1) e
dois componentes de médias móveis (d=2), teríamos um modelo ARIMA(1,1,2) , expresso por:
∆Yt = φ1 ∆d Yt −1 + δ + et − θ 1et −1 − θ 2 et − 2
Uma vez estimado os valores de ∆Yt, podemos estimar os valores de Yt integrando uma vez a
série ∆Yt:
Yt = ∑ ∆Yt
Exemplo 5. Seja agora a série Yt dada por:
O primeiro passo seria diferenciarmos a série Yt quantas vezes forem necessárias para
transformá-la em estacionária. Como pode ser observado nos gráficos abaixo, esta tornar-se-á
estacionária à partir da segunda diferença, ou seja, Yt é um I(2):
O próximo passo é encontrar os parâmetros p e q do modelo ARIMA, os quais deveriam ser

obtidos seguindo a metodologia de Box e Jenkins. Neste exercício, vamos supor como dados p=2
e q=0. Teríamos então um ARIMA(2,2,0) expresso por :
∆2 Yt = φ1 ∆2Yt −1 + φ1 ∆2 Yt − 2 + δ + et
Após realizadas as previsões de ∆2Yt, podemos estimar os valores de Yt integrando duas vezes a
série ∆2Yt:
Yt = ∑ ∆Yt = ∑∑ ∆2 Yt
292
Exercícios
1. (ANPEC, 2012) Suponha que ∆Yt pode ser representado pelo seguinte processo:
∆Yt = et − 0,6et −1 , para t=1
∆Yt = ∆Yt −1 + et − 0,6et −1 , para t ≥2
em que et, t=1,2,... é uma sequência de variáveis aleatórias independentes e identicamente

distribuídas com média igual a 0. Se Yt=10, quando t=0, calcule o valor da E(Y3).
2. (ANPEC, 2011) Suponha que Yt = φYt −1 + et , então Yt é um processo estacionário de segunda
ordem se θ=1.
3. (ANPEC, 2009) É correto afirmar que:

a. No processo AR(1), Yt = φ 0 + φ1Yt −1 + et , em que φ1 < 1 e et é um ruído branco
de média nula e variância σ2, a média de Yt será igual a φ0.

b. O processo MA(1), Yt = et + θet −1 , em que et é um ruído branco de média nula e
variância constante, será estacionário mesmo que θ > 1 .
Respostas
1) 10
2) Falso.
3) a. Falso; b. Verdadeiro.
293
Referências
Box, G.; Jenkins, G. Time series analysis: Forecasting and control, San Francisco: Holden-Day,
1970.
Breusch, T.S. Testing for autocorrelation in dynamic linear models. Australian Economic
Papers, v. 17, 1979, pp. 334–355.
Chow, G. C. Test of equality between subsets of coefficients in two linear regressions models.
Econometrica, 1960, p. 591-605.
Davidson, R.; Mackinnon, J. Estimation and inference in econometrics. New York, Oxford
University Press, 1993.
Dickey, D. A.; Fuller, W. A. Distribution of the estimators for autoregressive time series with a
unit root. Journal of the American Statistical Association, v. 74, 1979, pp. 427–431.
Durbin, J.; Watson, G. S. Testing for Serial Correlation in Least Squares Regression, I.
Biometrika, v. 37, 1950, pp. 409–428.
Durbin, J.; Watson, G. S. Testing for Serial Correlation in Least Squares Regression, II.
Biometrika, v. 38, 1951, pp. 159–179.
Engle, R. F.; Granger, C. W. J. Co-integration and error correction: representation, estimation,
and testing. Econometrica, v. 55, n. 2, 1987, pp. 251-276.
Frisch, R. Statistical confluence analysis by means of complete regression systems. Institute
of Economics, University of Oslo, 1934.
Godfrey, L.G. Testing against general autoregressive and moving average error models when the
Regressors Include Lagged Dependent Variables. Econometrica, v. 46, 1978, pp. 1293–1302.
Goldfeld, S. M.; Quandt, R. E. Some Tests for Homoscedasticity. Journal of the American
Statistical Association, v. 60, n. 310, 1965, pp. 539–547.
Galton, F. Regression towards mediocrity in hereditary stature. Journal of the Anthropological
Institute of Great Britain and Ireland, v. 15, 1886, pp. 246-263.
Goldberger, A. S. A course in econometrics. Cambridge, Mass: Harvard University Press, 1991.
Gujarati, D. Econometria Básica: Rio de Janeiro: Elsevier, 2006.
Hoffmann, R. Análise de regressão: uma introdução à econometria. São Paulo: Hucitec,
2006.
Maddala, G. S. Introduction to econometrics. Englewood Cliffs: Prentice Hall, 1992.
294
Regressão Linear Simples Alexandre Gori Maia
Murray, M. P. A drunk and her dog: an illustration of cointegration and error correction. The
American Statistician, v. 48, n. 1, 1994, pp. 37-39.
Pindyck, R. S.; Rubinfeld, D. L. Econometria: modelos & previsões. Rio de Janeiro: Elsevier,
2004.
Shao, S. P. Estadistica para economistas y administradores de empresas. Mexico: Herrero
Hermanos, 1970.
Theil, H. Principles of econometrics. New York, John Wiley, 1971.
White, H. A heteroskedasticity-consistent covariance matrix estimator and a direct test for
heteroskedasticity. Econometrica, v. 48, n. 4, 1980, pp. 817-838.
Wooldridge, J. M. Introductory Econometrics: a modern approach. Thomson Learning,
2002.
Wooldridge, J. M. On the application of robust regression-based diagnostics to models of
conditional means and conditional variances. Journal of Econometrics, v. 47, 2001, pp. 5-46.
295

Gorimaiaeconometria PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Gorimaiaeconometria PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade Estadual de Campinas

Econometria: conceitos e aplicações

Alexandre Gori Maia

Regressão Linear Simples

1. Correlação e Regressão Linear Simples

Exemplo 1. Uma amostra de 10 ocupados ofereceu os seguintes valores para anos de

O diagrama de dispersão e a covariância entre as duas variáveis seriam dados por:

(0 − 8,5)(240 − 787) + ... + (15 − 8,5)(240 − 787)

Os resultados sugerem, portanto, uma associação linear positiva entre anos de

(240 − 1179)(1 − 5,1) + ... + (2900 − 1179)(2 − 5,1)

Embora a covariância permita identificar a presença e o sentido da associação linear, não

A correlação assume valores entre -1 e +1 (inclusive) e permite uma interpretação

Importante assinalar que a correlação não capta a proporcionalidade da associação, mas

Exemplo 3. Supondo a amostra de 10 observações para anos de escolaridade (X) e rendimento

Ou seja, há um forte grau de associação linear entre anos de escolaridade e rendimento,

1.2. Regressão Linear Simples

O erro ei representa variáveis omitidas ou mesmo dificuldades para mensurar aquelas

Um pressuposto central da análise de regressão é que a reta de regressão representa a

Yi = αˆ + βˆX i + eˆi (21)

Onde α̂ e βˆ são estimadores amostrais para os coeficientes do modelo de regressão e êi

Yˆi = αˆ + βˆX i (22)

1.3. Método de Mínimos Quadrados Ordinários

Dependendo do valor de θ, teremos um valor para o EQT. O objetivo é encontrar um

1.3.2. Aplicação do MQO na regressão linear simples

Aplicando-se algumas identidades algébricas, podemos ainda simplicar a representação

αˆ = 787 − βˆ(85) = 7,62

Sendo então o ajuste de MQO dado por:

Yˆi = 7,62 + 91,69 X i

1.3.3. Propriedades dos Estimadores de Mínimos Quadrados Ordinários

Propriedade 1. O valor médio dos resíduos será igual a zero.

2∑i=1[Yi − (αˆ + βˆX i )](−1) = 0

Propriedade 2. Os resíduos não estão correlacionados aos valores de Xi.

∑in=1 eî X i −X ∑in=1 eî − e ∑in=1 X i + e ∑in=1 X = ∑in=1 eî X i = 0

Essas duas primeiras propriedade (Propriedade 1 e 2) são muito importantes na análise de

Propriedade 3. A reta de regressão passará pelas médias aritméticas de X e Y.

Propriedade 4. Os resíduos não estão correlacionados aos valores previstos de Yi.

∑in=1 eî (Yî − Y ) = ∑in=1 eî Yî = 0

∑i =1 eî Yî = ∑i =1 eî (αˆ + βˆX i ) = αˆ ∑i =1 eî + βˆ ∑i =1 eî X i = 0

X (Taxa de juros, % a.a.) 8 7 6 5

3) a. αˆ = 8,5 ; βˆ = −1 ; c. Yˆi = 4,5

2. Inferência com os Estimadores de MQO

2.1. Teorema de Gauss-Markov

V (αˆ ) < V (αˆ ′) e V ( βˆ ) < V ( βˆ ′) (4)

i) Relação linear entre Y e X:

então a relação Yi = α + β Z i + ei será linear (esse tema será abordado

são considerados como constantes10. Entretanto, quando trabalhamos com estudos

v) Os erros são não autocorrelacionados:

2.2. Significância das estimativas

Para verificar se os parâmetros do modelo de regressão são iguais ou não a zero, é

2.3. Distribuição amostral dos estimadores

2.4. Variância dos estimadores

do estimador α̂ ( σ α̂2 ); iii) a variância do estimador βˆ ( σ β̂2 ).

trabalhoso, uma alternativa pode ser dada por:

∑ eˆi2 = ∑ yi2 − β̂ ∑ xi yi (8)

definida no Apêndice C para yi = βˆxi + eˆi e lembrarmos que βˆ =

As variâncias dos estimadores α̂ e β̂ ( σ α̂2 e σ β̂2 ) representam as dispersões quadráticas

Var (αˆ ) = E (αˆ − α ) 2 =

Seus estimadores são obtidos substituindo σ 2 por σˆ 2 :

iii. Quanto maior o tamanho da amostra, maior a variabilidade observada para X e

2.5. Teste de hipóteses para os coeficientes

αˆ ~ N (0, σ α̂2 ) e βˆ ~ N (0, σ β2ˆ ) (13)

exigirá ainda a consideração da distribuição t de Student para o cálculo da probabilidade de erro,

Rejeitar H0 significa afirmar que a estimativa de β é significativa, ou, no caso do