Carlos Silva Ribeiro - Econometria-Escolar Editora (2014)

CAPÍTULO 1
INTRODUÇÃO
1.1 - De que trata a Econometria?
Numa primeira aproximação, pode dizer-se que a Econometria procura fornecer

uma base empírica para o estudo de relações entre variáveis económicas (ou, em ge-
ral, de natureza social). Para atingir este objectivo, a Econometria dedica-se ao desen-
volvimento de métodos estatísticos para estimar e testar tais relações. Em especial, no
campo da Economia, estes métodos devem possibilitar o teste das teorias económicas
que podem estar na base das relações preconizadas, e a avaliação e fundamentação de
decisões de natureza empresarial ou de política económica.
Estas considerações vão ser analisadas nas secções seguintes deste capítulo. Para
motivar a análise que vai ser feita, apresentam-se alguns exemplos.
Exemplo 1.1 – O consumo privado, considerado como agregado macroeconómico, é

uma variável cujo comportamento tem sido amplamente estudado pela teoria macroeco-
nómica. A especificação mais simples é a função consumo keynesiana, onde, para su-
cessivos períodos de tempo, se procura explicar o consumo, cons, a partir do rendimento
disponível, rdisp: cons = h(rdisp) . É habitual propor a função h seguinte:
cons = α 1 + α 2 rdisp ,
onde α1 e α 2 são parâmetros desconhecidos (em particular, α 2 é a propensão marginal
para consumir, a verificar 0 < α 2 < 1 ). Esta função é razoavelmente adequada para anali-
sar a evolução do consumo privado? Se a resposta for afirmativa, é desejável conhecer
uma boa estimativa da propensão marginal a consumir.
∇
Exemplo 1.2 – Para as unidades produtivas que se dedicam ao fabrico de um bem é,

muitas vezes, possível estabelecer, em certas condições, e para um determinado período
de tempo, uma relação funcional h entre a produção, Q, do bem, e determinada combi-
nação de factores produtivos (por exemplo: capital, K, e trabalho, L): Q = h( K , L) . Esta
relação funcional chama-se função de produção. O estudo deste tipo de funções faz
parte de um capítulo muito importante da teoria microeconómica: a teoria da produção.
Uma especificação muito utilizada é a função Cobb-Douglas,
Capítulo 1 – Introdução 2
Q = α1 K α 2 Lα3 ,
onde α1 , α 2 e α 3 são parâmetros positivos ( α 2 e α 3 representam, neste caso, as elasti-
cidades pontuais da quantidade produzida relativamente ao capital e ao trabalho, respec-
tivamente; ver secção 1.4). A análise estatística destas elasticidades (estimação pontual
e por intervalos, teste de hipóteses, etc.) é uma preocupação empírica muito importante.
Outra especificação corrente, na teoria da produção, é a função de produção
CES (elasticidade de substituição constante),
γ
−
Q = β {(1 − δ ) L− ρ + δ K − ρ } ρ
,
com parâmetros β > 0 , γ > 0 , 0 < δ < 1 e ρ .
∇
Exemplo 1.3 – Quando pretende explicar-se o comportamento, ao longo de vários pe-

ríodos de tempo, das importações portuguesas, a nível agregado, em função de um indi-
cador de preços relativos e de um indicador do nível de actividade, pode estabelecer-se
a relação funcional h,
import = h( prm, pib) ,
onde: import designa as importações portuguesas a preços constantes; prm é o rácio en-
tre o índice de preços implícito nas importações e o índice de preços implícito no PIB;
pib é o produto interno bruto português a preços constantes.
Uma especificação possível da função h é a seguinte:
import = α1 prm α 2 pib α3 (α1 > 0) .
Estabelecida esta relação teórica entre as três variáveis, põe-se a questão de esti-
mar os respectivos parâmetros (nomeadamente as elasticidades pontuais), e de proceder
a outras análises estatísticas.
∇
Exemplo 1.4 – Considere-se as variáveis educ (número de anos de escolaridade de um

trabalhador) e salar (salário mensal médio num determinado ano do mesmo trabalha-
dor), com o objectivo de saber se educ influencia salar. O efeito da escolaridade sobre o
salário chama-se habitualmente retorno da educação.
É consenso na economia do trabalho que exper (número de anos de experiência
profissional do trabalhador), empc (número de anos de trabalho no emprego corrente),
mulher (variável binária que assume o valor 1 quando se trata de uma mulher, e o valor
0 quando é um homem; a discriminação salarial com base no género do trabalhador con-
tinua a ser realidade em muitos sectores de actividade) e aptid (aptidão ou capacidade
inata da pessoa; variável não observável) são variáveis que também podem influenciar o
salário. Tem-se, então,
salar = h(educ, exper, empc, mulher , aptid ) .
Evidentemente, outros factores – como o número de anos de escolaridade da

mãe, do pai e do cônjuge do trabalhador, e outros antecedentes familiares, o número de
filhos, o estado civil, a localização da habitação, a região onde trabalha, a origem social
ou étnica, a nacionalidade, etc. – poderiam ser acrescentados à relação funcional; facil-
mente se compreende que não é candidato a figurar em h o número de golos que o clube
de futebol da preferência do trabalhador faz em média por mês.
Desprezando a variável aptid, podia propor-se a seguinte especificação:
salar = exp{α1 + α 2 educ + α 3 exper + α 4 empc + α 5 mulher } ,
ou ainda,
lsalar = α1 + α 2 educ + α 3 exper + α 4 empc + α 5 mulher ,
onde lsalar = ln(salar ) . Com facilidade se interpreta o significado dos parâmetros (esta
questão vai ser aprofundada nas próximas secções). Por exemplo: α 2 (multiplicado por
100) mede, aproximadamente, a variação percentual do salário quando um trabalhador
tem mais um ano de escolaridade (em estudos deste tipo é particularmente útil conhecer
uma estimativa deste parâmetro, que representa o retorno da educação); α 5 (multiplica-
do por 100) mede, aproximadamente, a diferença percentual de salário entre uma mu-
lher e um homem.
∇
Exemplo 1.5 – Procura saber-se se a assiduidade às aulas de um aluno de Estatística du-

rante um semestre (assid) é factor explicativo da nota no exame final da unidade curri-
cular (nest). Para isso, considera-se que
nest = h(assid , tae, mis) ,
onde tae (nota obtida num teste geral de aptidão escolar) e mis (média geral das notas já
obtidas até ao início do semestre) são medidas gerais que reflectem a capacidade e os
hábitos de estudo dos alunos. Estas variáveis (conjuntamente com assid) são adequadas
para explicar nest? Talvez não, porque podem não reflectir a aptidão e o interesse do
aluno pela Estatística. Sendo assim, seria importante a inclusão de uma variável que
contemplasse estes aspectos, mas teria o inconveniente de não ser observável.
∇
Exemplo 1.6 – Suponha-se que pretende estimar-se o número diário de viagens de au-
tomóvel (viag) entre os concelhos da Área Metropolitana de Lisboa (AML) situados a
norte do Tejo, por motivo de deslocação para o trabalho, com vista a tomar decisões so-
bre a construção de novas vias rápidas ou alargamento das existentes. Com o objectivo
de melhor entender estes movimentos, decidiu-se propor uma relação funcional, onde os
factores explicativos de viag são a população activa no concelho de origem (pop), o nú-
mero de empresas no concelho de destino (nemp) como sucedâneo do emprego, e a dis-
tância entre as sedes dos concelhos de origem e destino (dist). Assim,
viag = h( pop, nemp, dist ) .
Podia propor-se a seguinte especificação de h:

viag = α1 popα 2 nempα 3 dist α 4 (α1 > 0) .
∇
Os exemplos seguintes consideram modelos económicos com duas ou mais rela-

ções.
Exemplo 1.7 – Sabe-se da teoria económica que, em muitos casos, o factor principal
que explica a procura mensal de um certo bem, qd , é o respectivo preço, p. Tem-se, en-
tão, a seguinte função procura: qd = hd ( p) .
Como se sabe, a quantidade e o preço de equilíbrio do mercado (respectivamen-
te, q e p∗ ) não podem ser determinados apenas com aquela função. É indispensável
∗
considerar também a função oferta, qs = hs ( p ) , e a relação de equilíbrio, qd = qs , o que

permite determinar simultaneamente q∗ e p∗ . Obtém-se, assim, um modelo de procu-
ra e oferta num mercado em equilíbrio:
qd = hd ( p ) (função procura)

qs = hs ( p) (função oferta )
q = q (equilíbrio de mercado).
 d s
A especificação mais habitual é a seguinte:

qd = α 0 + α1 p (função procura)

qs = β 0 + β1 p (função oferta )
 d s
Devido à simultaneidade atrás referida, o modelo apresentado tem o grave in-

conveniente de nem sequer permitir estimar a função procura (ou a função oferta), por-
que são observáveis apenas a quantidade e o preço de equilíbrio: muitas funções procura
(oferta) são compatíveis com o par ( q∗ , p∗ ).
Uma especificação mais adequada seria, por exemplo,
qd = α 0 + α1 p + α 2 r (função procura)

qs = β 0 + β1 p + β 2 z (função oferta )
 d s
onde r é o rendimento médio dos consumidores do bem, e z é um indicador da dimensão

média das empresas que vendem o bem. Este assunto será retomado no capítulo 4.
∇
Exemplo 1.8 – Sabe-se da teoria macroeconómica que a função consumo introduzida

no exemplo 1.1 não deve ser considerada isoladamente, mas integrada num sistema de
equações que traduza as relações entre os agregados macroeconómicos.
Por exemplo, podia considerar-se o seguinte modelo macroeconómico simples:
cons = β1 + β 2 pnb (função consumo)


 pnb = cons + invest (identidade do PNB),
onde cons é o consumo agregado, pnb é o produto nacional bruto (PNB) ou rendimento
nacional, e invest é o investimento agregado. O parâmetro β 2 desempenha um papel
fundamental neste modelo, já que representa a propensão marginal a consumir a partir
do rendimento ( 0 < β 2 < 1 ).
Outro caso típico é o modelo keynesiano simples da procura agregada, onde
se tem, por exemplo,
cons = β1 + β 2 ( pnb − impd ) + β 2 tjuro

invest = γ 1 + γ 2 tjuro
 pnb = cons + invest + dp,

onde impd é a receita dos impostos directos, tjuro é a taxa de juro, e dp é a despesa púb-
lica.
Podia, também, propor-se o seguinte modelo:
cons = β1 + β 2 ( pnb − impd ) + β 3 tjuro + β 4cons−1

invest = γ 1 + γ 2 tjuro + γ 3 ( pnb − pnb−1 )

onde cons−1 é consumo do período anterior, e pnb−1 é o PNB do período anterior.
O estudo empírico destes pequenos protótipos de funcionamento de uma econo-
mia pode ser particularmente útil para esclarecer certos aspectos das complexas relações
entre as grandezas macroeconómicas.
∇
Exemplo 1.9 – Suponha-se que pretende determinar-se a influência do número de agen-

tes de polícia (pol) existente em cada cidade sobre a respectiva taxa de criminalidade
(crime), admitindo que outro factor explicativo de crime é o rendimento percapita dos
habitantes da cidade (rpc). Assim, tem-se
crime = h1 ( pol , rpc ) .
Mesmo admitindo que esta relação traduz adequadamente o comportamento dos
criminosos, o modelo a considerar não pode ser composto apenas por h1 , pois é admis-
sível que crime e pol sejam interdependentes, e, portanto, determinados simultaneamen-
te. Assim, teria de considerar-se uma segunda relação que reflectisse o comportamento
das autoridades camarárias relativamente a pol. Por exemplo, poderia supor-se que
pol = h2 (crime , imunicip) ,
onde imunicip é a receita de impostos municipais.
Podia, então, especificar-se o seguinte modelo:
crime = β1 + β2 pol + β3 rpc

 pol = γ1 + γ2crime + γ3 imunicip .
A análise empírica da interdependência entre as variáveis crime e pol pode ser

um objectivo importante do estudo econométrico.
∇
Exemplo 1.10 – Os países de economia mais aberta têm menores taxas de inflação?
Para responder a esta pergunta, considerou-se que
inf = h1 ( ga, rpc ) ,
onde inf é a taxa de inflação, ga é o grau de abertura da economia medido pelo quo-
ciente entre as importações e o PIB, e rpc é o rendimento per capita.
Como é admissível supor que ga também é influenciado por inf (há interdepen-
dência entre as duas variáveis), deve considerar-se uma segunda relação funcional, que,
por exemplo, poderia ser
ga = h1 (inf , rpc, ap ) ,
onde ap é a área do país em quilómetros quadrados.
Fazendo
inf = β1 + β 2 ga + β 3 ln(rpc)

 ga = γ 1 + γ 2inf + γ 3 ln(rpc) + γ 4 ln(ap) ,
é de admitir, por exemplo, que β 2 < 0 (quanto maior é o grau de abertura da economia,
menor a taxa de inflação), e γ 4 < 0 (quanto menor é o país, maior é o grau de abertura).
A interdependência sugerida entre inf e ga deve ser submetida a uma análise em-
pírica adequada.
∇
Ragnar Frisch (economista norueguês, prémio Nobel da Economia em 1969 –

conjuntamente com o economista holandês Jan Tinbergen –, e um dos fundadores da
Econometric Society), apresentou em 1936 (“Note on the term Èconometrics´”, Eco-
nometrica, vol. 4) a primeira definição consistente de Econometria. Trata-se de uma
definição ampla (“ideal”), enunciada nos seguintes termos: “a Econometria é uma disci-
plina que visa estudar a aplicação da Matemática e dos métodos estatísticos à análise
dos dados económicos”. O mesmo economista já afirmava, em 1933, o seguinte: “A ex-
periência tem mostrado que cada um destes três pontos de vista, o da Estatística, o da
Teoria Económica e o da Matemática, é condição necessária, mas não em si suficiente,
para uma verdadeira compreensão das relações quantitativas na vida económica moder-
na. É a unificação dos três pontos de vista que é fecunda e constitui a Econometria”
(Econometrica, Editorial, 1933).
Outra definição célebre deve-se a Samuelson (prémio Nobel em 1970), Koop-
mans (prémio Nobel em 1975) e Stone (prémio Nobel em 1984): “A Econometria pode
ser definida como a análise quantitativa dos fenómenos económicos, baseada na teoria e
na observação, e utilizando os métodos de inferência apropriados”.
Muitos outros autores têm apresentado definições de Econometria. Indicam-se
mais três citações de econometristas proeminentes:
− “A Econometria pode ser definida como a ciência social em que as ferramentas da

teoria económica, da matemática e da inferência estatística são utilizadas na análise
de fenómenos económicos” (Goldberger).
− “A Econometria preocupa-se com a determinação empírica de leis económicas”
(Theil).
− “A arte do econometrista consiste em procurar o conjunto de hipóteses que são sufi-
cientemente específicas e suficientemente realistas para permitir tirar o melhor parti-
do dos dados disponíveis” (Malinvaud).
Embora se esteja ainda relativamente distante desta situação ideal, a Econome-

tria constitui, actualmente, uma área científica autónoma, que muito tem contribuído
para o avanço da ciência económica. Este avanço está bem patente nos contributos de
alguns econometristas que foram prémios Nobel recentemente. No ano 2000, o prémio
foi atribuído a dois microeconometristas: James Heckman (University of Chicago,
USA) [“for his development of theory and methods for analyzing selective samples”];
Daniel Mc Fadden (University of California, at Berkeley, USA) [“for his development
of theory and methods for analyzing discrete choice”]. Em 2003, os galardoados foram
dois macroeconometristas: Clive Granger (University of California, at San Diego,
USA) [“for methods of analyzing economic time series with common trends (cointegra-
tion)”]; Robert Engle (University of New York, USA) [“for methods of analyzing eco-
nomic time series time-varying volatility (ARCH)”]. A econometria não é, longe disso,
“um conjunto de métodos para medir a altura dos economistas”.
Em termos muito gerais, pode afirmar-se que o progresso da Econometria é re-
levante nos seguintes aspectos: a) nas técnicas de estimação e de análise estatística dos
modelos (nos métodos econométricos); b) nas aplicações; c) e mais recentemente, nas
tentativas de sistematizar os seus fundamentos metodológicos.
1.2 - Modelo teórico
Quando se estuda, com base em dados, um determinado fenómeno de natureza

social (em particular, de índole económica), com o objectivo de descrever, explicar ou
prever o seu comportamento, procura-se conceber, ainda que de forma aproximada ou
simplificada, o mecanismo subjacente ao fenómeno observável. Este mecanismo é desi-
gnado habitualmente por modelo teórico. O modelo é assim adjectivado para salientar
que deve ser baseado numa determinada teoria (construção conceptual fornecedora de
uma descrição idealizada do fenómeno em estudo). No entanto, a teoria subjacente ao
modelo não é necessariamente uma conceptualização matemática formal (como mui-
tas vezes acontece em macroeconomia e em microeconomia), mas pode consistir numa
análise menos formal – em muitos casos apoiada no bom senso e na intuição – com
vista a estabelecer meras relações entre variáveis. Deve enfatizar-se ainda que o mode-
lo a adoptar é objecto de uma teoria, mas também deve ser encarado como a fonte gera-
dora dos dados observáveis.
Exemplo 1.11 – Retome-se os exemplos anteriores:

a) No exemplo 1.4 sugeriu-se, tendo por base considerações da área da economia do
trabalho, que o modelo teórico a adoptar poderia ser
lsalar = α1 + α 2 educ + α 3 exper + α 4 empc + α 5 mulher .
b) Na sequência do exemplo 1.8, e apoiados na teoria macroeconómica, podia ser ra-

zoável adoptar o modelo teórico
cons = β1 + β 2 ( pnb − impd ) + β 3 tjuro + β 4cons−1

invest = γ 1 + γ 2 tjuro + γ 3 ( pnb − pnb−1 )

para estudar as relações entre os agregados económicos referidos.
c) O exemplo 1.9 sugere que o modelo teórico para estudar as interdependências entre
a taxa de criminalidade e o efectivo policial numa cidade poderia ser
crime = β1 + β2 pol + β3 rpc

 pol = γ1 + γ2crime + γ3 imunicip .
d) Fica ao cuidado do leitor indicar modelos teóricos para estudar os fenómenos referi-
dos nos exemplos 1.1, 1.2, 1.3, 1.5, 1.6, 1.7 e 1.10.
∇
Cada relação do modelo teórico proposto – exceptuando possíveis relações de

equilíbrio ou identidades (ver exemplos 1.7 e 1.8) – procura estabelecer o comporta-
mento de uma variável, z, em função de outras variáveis, w1 , w2 , K , w p . Na relação
funcional considerada, diz-se que z é a variável explicada (a variável dependente ou a
variável resposta), e w1 , w2 , K , w p são as variáveis explicativas (as variáveis indepen-
dentes ou as variáveis controlo). Pode dizer-se que “z é explicado como função de
w1 , w2 , K , w p ”; “os factores explicativos de z são w1 , w2 , K , w p ”.
Assim, tem-se a função h de p variáveis
(1.1) z = h( w1 , w2 , K , wp ) .
Pressupõe-se que (1.1) envolve um conjunto finito de parâmetros desconheci-

dos, α1 , α 2 , K , α k . Diz-se, então, que se tem uma relação paramétrica. O modelo teó-
rico pode ser composto por várias relações de tipo (1.1).
As variáveis que fazem parte de um modelo teórico podem ser consideradas atri-
butos de uma determinada população em estudo. Deste modo, o modelo teórico compor-
ta uma ou mais relações que visa explicar o comportamento de certos atributos da popu-
lação. Por exemplo, a relação (1.1) procura estudar o comportamento do atributo z das
entidades de uma determinada população em função dos atributos w1 , w2 , K , w p das
mesmas entidades. Assim, como para qualquer modelo teórico está subjacente uma po-
pulação, também se diz que este modelo é um modelo da população.
A relação (1.1) também pode ser apresentada na forma seguinte:
z = h(w) ,
onde, por convenção, w é o vector-linha das variáveis explicativas, e α é o vector-colu-

na dos parâmetros desconhecidos. Assim,
 α1 
α 
w = [ w1 w2 L wp ] e α =  2  .
M
 
α
 k
Exemplo 1.12 – Considerem-se, novamente, os exemplos 1.1, 1.2, 1.4 e 1.5, e as últi-
mas especificações propostas (os outros exemplos da secção 1.1 ficam ao cuidado do
leitor). Tem-se:
a) Exemplo 1.1: z = cons e w = rdisp .
b) Exemplo 1.2: z = Q , w1 = K e w2 = L .
c) Exemplo 1.4: z = lsalar , w1 = educ , w2 = exper , w3 = empc e w4 = mulher .
d) Exemplo 1.5: z = nest , w1 = assid , w2 = tae e w3 = mis .
∇
1.3 - Relações lineares
Um caso particular muito importante das relações de tipo (1.1) é aquele que é
caracterizado pela linearidade relativamente aos parâmetros, isto é, as relações assu-
mem a forma
(1.2) y = β1 x1 + β2 x2 + L + βk xk ,
onde y é a variável explicada ou dependente (ou uma função desta variável), x1 , x2 ,K , xk

são as variáveis explicativas ou independentes (ou determinadas funções destas variá-
veis), e β1 , β 2 , K , β k são os parâmetros.
Muitas vezes, a variável x1 é identicamente igual a 1. Trata-se de uma conven-
ção que permite considerar, na relação linear, um termo independente ou constante.
Na maioria das situações a relação (1.2) tem termo independente, β1 , uma vez que ape-
nas em casos muito especiais se supõe que a nulidade das variáveis explicativas implica
a nulidade de y.
A relação (1.2), também, pode apresentar-se da seguinte maneira:
y = xβ ,
onde
 β1 
β 
x = [ x1 x2 L xk ] e β =  2  .
M 
 
β k 
Em muitas situações, a relação (1.1) não é linear (relativamente aos parâmetros),
mas mediante uma transformação da variável z, g (z ) , consegue obter-se uma relação da
forma (1.2), ou seja, linearizou-se (1.1). Uma relação linear ou linearizável diz-se
intrinsecamente linear (relativamente aos parâmetros).
Exemplo 1.13 – Retome-se alguns dos dez exemplos da secção 1.1:

a) A função de consumo keynesiana referida no exemplo 1.1, cons = β1 + β 2 rdisp , é li-
near relativamente aos parâmetros. Tem-se: y = cons , x1 = 1 , x2 = rdisp , β1 = α1 e
β2 = α2 .
b) A função de produção Cobb-Douglas (exemplo 1.2), Q = α1 K α 2 Lα3 (α1 > 0) , é li-
nearizável. Com efeito, logaritmizando a expressão anterior, obtém-se uma função,
linear nos parâmetros, equivalente à relação anterior,
ln(Q) = β1 + β 2 ln( K ) + β 3 ln( L) ,
onde: y = ln(Q) , x1 = 1 , x2 = ln( K ) , x3 = ln( L) , β1 = ln(α1 ) , β2 = α2 e β3 = α3 .

Verifica-se, assim, que a função de produção Cobb-Douglas, embora não linear nos
parâmetros, é intrinsecamente linear, pois a transformação logarítmica permite con-
vertê-la numa função linear.
c) A função de produção CES (ver exemplo 1.2) não é intrinsecamente linear nos parâ-
metros, pois não existe qualquer transformação de Q que permita obter uma relação
linear.
d) Considere-se a relação import = α1 prm α 2 pib α3 (α1 > 0) do exemplo 1.3. Logaritmi-
zando esta expressão, obtém-se
ln(import ) = β1 + β 2 ln( prm) + β 3 ln( pib) ,
em que: y = ln(import ) , x1 = 1 , x2 = ln( prm) , x3 = ln( pib) , β1 = ln(α1 ) , β 2 = α 2 e

β3 = α3 .
e) No exemplo 1.4 a relação
salar = exp{α1 + α 2 educ + α 3 exper + α 4 empc + α 5 mulher }
não é linear nos parâmetros. No entanto, facilmente se passa a

lsalar = β1 + β 2 educ + β 3 exper + β 4 empc + β5 mulher ,
onde: y = lsalar , x1 = 1 , x2 = educ , x3 = exper , x4 = empc , x5 = mulher , β1 = α1 ,

β 2 = α 2 , β 3 = α 3 , β 4 = α 4 e β5 = α 5 .
f) Se, no exemplo 1.5, a especificação de nest = h(assid , tae, mis) for
nest = β1 + β 2 assid + β 3 tae + β 4 mis ,
obtém-se uma relação linear relativamente aos parâmetros, onde y = nest , x1 = 1 ,

x2 = assid , x3 = tae e x4 = mis .
∇
É particularmente importante não confundir linearidade relativa aos parâme-

tros com linearidade relativa às variáveis. Por exemplo, uma relação linear nos parâ-
metros, mas não linear nas variáveis, é dada por z = α1 + α2 w + α3 w 2 . Contudo, a relação
z = α 1 + α 2 w2 + α 22 w3 é linear nas variáveis, mas não é linear (nem linearizável) nos pa-
râmetros. A função de produção Cobb-Douglas referida no exemplo 1.2 é intrinseca-
mente linear nos parâmetros, mas não é linear relativamente às variáveis. A relação
1
z = α1 + ,
α2 + w
não é, nem linear nas variáveis, nem (intrinsecamente) linear nos parâmetros.
Como vai ver-se, para a estimação dos parâmetros de uma relação (intrinseca-
mente) linear, a linearidade relativamente às variáveis tem pouca importância. A expres-
são “a relação é linear” significa que a relação é linear ou linearizável relativamente
aos parâmetros. No entanto, a linearidade, ou não, relativamente às variáveis desem-
penha um papel decisivo para interpretar os parâmetros (ver secção seguinte).
1.4 - Efeitos parciais, elasticidades e semi-elasticidades
Esta secção tem por objectivo apresentar alguns conceitos de grande importância
para a interpretação dos parâmetros – muito particularmente no quadro da Economia –,
o que vai permitir dar conteúdo à última frase da secção anterior (“a linearidade, ou não,
relativamente às variáveis desempenha um papel decisivo para interpretar os parâme-
tros”).
O objectivo de muitos estudos empíricos em Economia (e nas Ciências Sociais,
em geral) é determinar relações de causalidade entre duas variáveis. Trata-se de saber
se a variação de uma variável implica ou causa uma variação noutra variável. Neste
contexto, é crucial a noção de ceteris paribus [“supondo todos os outros factores (rele-
vantes) fixos”].
Exemplo 1.14 – Considere-se as seguintes perguntas:

− Uma variação do rendimento disponível dá lugar a uma variação no consumo (ver
exemplo 1.1)?
− Uma variação da quantidade do factor trabalho altera a quantidade produzida (ver
exemplo 1.2)?
− Uma alteração dos preços relativos (ver a variável prm referida no exemplo 1.3)
causa uma variação nas importações?
− Possuir mais um ano de escolaridade aumenta o salário mensal de um trabalhador
(ver exemplo 1.4)?
− O aumento da taxa de frequência das aulas de Estatística provoca um aumento das
notas dos alunos (ver exemplo 1.5)?
− Como variam entre si a procura (oferta) e o preço (ver exemplo 1.7)?
− O aumento do número de agentes policiais faz diminuir a taxa de criminalidade (ver
exemplo 1.9)? Ou, pelo contrário, a subida da taxa de criminalidade influencia o au-
mento do número de polícias?
− Um acréscimo no grau de abertura de economia de um país implica a diminuição da
taxa de inflação (ver exemplo 1.10)? Ou, pelo contrário, é a diminuição desta taxa
que provoca um aumento do grau de abertura?
∇
Efeitos parciais
Dado o modelo z = h( w1 , K w j , K , wp ) , a análise ceteris paribus da relação de

causalidade entre cada variável explicativa, w j , e z pretende medir as respostas de z às
alterações de w j , supondo que os factores fixos (também designados por variáveis de
controlo) são as outras variáveis explicativas. Como se admite que estas variáveis estão
controladas (a necessidade de as controlar resulta de haver razões para concluir que w j
está relacionada com outros factores que também influenciam z), a análise visa medir os
efeitos parciais de w j sobre z. Naturalmente, estes efeitos dependem, em geral, dos
valores assumidos por todas as variáveis explicativas e dos valores dos parâmetros.
Suponha-se que as variáveis z e w j são quantitativas (contínuas ou discretas).
Quando o valor de w j passa para w j + ∆w j , o valor da variável z altera-se para
z + ∆ z = h( w1 , K , w j + ∆w j , K , wp ) .
As variações absolutas das duas variáveis são, respectivamente, ∆w j e ∆ z (po-

dem calcular-se estas variações porque as variáveis são quantitativas). Nestas condições,
o efeito parcial de w j sobre z é dado por
∆z
(1.3) .
∆w j
Como este efeito mede, ceteris paribus, a variação (absoluta) de z quando w j

varia de uma unidade, é designado por efeito marginal (parcial), que pode depender das
variáveis explicativas, w1 , w2 , K , w p , e dos parâmetros.
Quando, em particular, as variáveis z e w j são contínuas, e a função h é deri-
vável (pelo menos em relação a w j ), o efeito marginal de w j sobre z pode ser determi-
nado para uma variação infinitesimal de w j . Neste caso, tem-se o efeito marginal pon-
tual, que é dado pela respectiva derivada parcial
∂z ∆z
(1.4) = lim .
∂ w j ∆w j →0 ∆w j
Para ∆w j ≈ 0 , tem-se
∂z ∆z
≈ .
∂ w j ∆w j
Considerem-se os seguintes exemplos:

1) Seja a relação linear nas variáveis, z = α1 + α2 w2 + α3 w3 , onde z, w2 e w3 são variá-
veis contínuas. O efeito marginal (parcial) de w2 sobre z é medido pelo parâmetro
α 2 (constante), isto é,
∂z ∆z
= = α2 .
∂ w2 ∆w2
Neste caso, α 2 é igual à variação de z quando w2 varia de uma unidade.

2) Seja z = α1 + α2 w + α3 w 2 , relação quadrática entre z e w (variáveis contínuas). O

efeito marginal pontual de w sobre z (para uma variação infinitesimal de w) já não é
medido por α 2 , mas por
dz
= α2 + 2 α3w .
dw
Como este efeito depende linearmente de w, o parâmetro α 3 tem uma interpretação

interessante: o seu sinal permite saber se o efeito marginal de w sobre z é crescente
( α 3 > 0 ) ou decrescente ( α 3 < 0 ), uma vez que
d 2z
= 2 α3 .
d w2
O valor de w que anula a primeira derivada (ponto de estacionaridade) é

α2
w∗ = − .
2 α3
Este valor é maximizante ou minimizante da função conforme o sinal da segunda de-

rivada em w∗ . Por exemplo, no caso de maximizante, a função é côncava, sendo
crescente à esquerda de w∗ , e decrescente à sua direita.
Note-se que
∆z dz dz ∆z
= α2 + 2 α3 w + α 3∆w ≠ e = lim .
∆w d w d w ∆ w→0 ∆ w
3) Suponha-se que a relação (não linear) entre z, w2 e w3 (variáveis contínuas) é dada

por z = α1 + α2 w2 + α3 w3 + α4 w2 w3 , onde existe um termo de interacção entre duas va-
riáveis explicativas. Neste caso, o efeito marginal de w2 sobre z, ceteris paribus, é
medido por
∂z ∆z
= = α 2 + α 4 w3 ,
∂ w2 ∆w2
que depende do valor de w3 (obtém-se um efeito marginal para cada valor fixado pa-
ra w3 ).
4) Seja a relação linear nas variáveis, z = α1 + α2 w2 + α3 w3 , onde z e w3 são variáveis
contínuas, e w2 é uma variável discreta. Suponha-se, para fixar ideias, que a variável
discreta w2 é uma variável de contagem (por exemplo, o número de dias de falta ao
trabalho de determinado trabalhador). Para medir as variações de z quando w2 se al-
tera, não se pode calcular a derivada parcial. Neste caso, quando w2 varia para
w2 + ∆w2 , z passa para z + ∆ z = α1 + α2 ( w2 + ∆w2 ) + α3 w3 . Facilmente se verifica que
∆ z = α2 ∆w2 ou
∆z
= α2 .
∆w2
Pode dizer-se que α 2 mede a variação de z quando w2 varia de uma unidade (por
exemplo, α 2 mede o efeito parcial sobre z de mais uma falta ao trabalho).
Suponha-se, agora, que a variável z ainda é quantitativa (contínua ou discreta), e

que existe um factor qualitativo explicativo do comportamento de z. Se este factor cor-
responde à realização ou não de determinado acontecimento, ele pode ser representado
por uma variável binária, w j , que assume apenas os valores 1 ou 0. Tem-se: w j = 1 ,
quando se realiza o acontecimento; w j = 0 , no caso contrário. No exemplo 1.4, supõe-se
que o género é um factor qualitativo explicativo dos salários dos trabalhadores. A variá-
vel binária respectiva, mulher, é igual a 1 quando o trabalhador é do género feminino
(igual a 0, quando é um homem). Nestes casos, o efeito parcial de w j sobre z é medido
comparando os valores assumidos por z para os dois valores possíveis de w j (no caso
do exemplo 1.4, quando se comparam homens com mulheres). Este tópico vai ser
aprofundado no capítulo 2, na secção dedicada ao estudo das variáveis artificiais (ver
secção 2.11).
1) Seja a relação linear nas variáveis, z = α1 + α2 w2 + α3 w3 , onde z e w3 são variáveis
contínuas, e w2 é uma variável binária. O efeito parcial de w2 sobre z é calculado
fazendo a diferença dos valores de z que correspondem aos dois valores possíveis de
w2 : para w2 = 0 , tem-se z0 = α1 + α3 w3 ; para w2 = 1 , vem z1 = α1 + α2 + α3 w3 . Então,
quando w2 passa de 0 para 1, a variação de z é ∆ z = z1 − z0 = α2 .
2) Nas mesmas condições de 1), seja a relação z = α1 + α2 w2 + α3 w3 + α4 w2 w3 , onde exis-
te um termo de interacção entre a variável contínua, w3 , e a variável binária, w2 .
O efeito marginal pontual de w3 sobre z,
∂z
= α 3 + α 4 w2 ,
∂ w3
depende de w2 . Há um efeito marginal para cada valor de w2 : α 3 , quando w2 = 0 ;

α 3 + α 4 , para w2 = 1 .
Para medir as variações de z quando w2 passa de 0 para 1, começa-se por calcular os
respectivos z1 e z0 :
z1 = α1 + α2 + α3 w3 + α4 w3 e z0 = α1 + α3 w3 .
Então, ∆ z = z1 − z0 = α2 + α4 w3 depende de w3 .
Elasticidades
Admita-se que as variáveis z e w j são quantitativas (contínuas ou discretas).

Quando os valores de w j e z passam, respectivamente, para w j + ∆w j e z + ∆z , verifi-
cam-se as seguintes variações relativas:
∆w j ∆z
e .
wj z
Multiplicando por 100 as variações relativas, obtêm-se as respectivas variações

percentuais (variações em pontos percentuais) ou taxas de variação, que se represen-
tam com os seguintes símbolos:
∆w j ∆z
%∆w j = 100 e %∆z = 100 .
wj z
A elasticidade de z em relação a w j é dada por

∆z / z %∆ z ∆ z wj
(1.5) EL( z ; w j ) = = = .
∆w j / w j %∆w j ∆w j z
Esta elasticidade mede, ceteris paribus, a variação percentual de z quando w j

varia de um ponto percentual. Obviamente, este efeito pode depender de w1 , w2 , K , w p ,
e dos parâmetros.
O logaritmo pode ser utilizado para fazer várias aproximações. Uma delas, es-
tabelece que ln(1 + x) ≈ x , para x ≈ 0 . A qualidade da aproximação diminui à medida
que x se afasta de zero. Por exemplo, para x igual a 0.015, 0.15 e 0.6 tem-se, respectiva-
mente, ln(1.015) = 0.0149 , ln(1.15) = 0.1398 e ln(1.6) = 0.47 .
Outra aproximação importante que envolve logaritmos é dada por
∆x
∆ ln( x) ≈ ,
x
para x > 0 e pequenas variações relativas. Por exemplo, se x = 600 e x + ∆ x = 606 ,
tem-se ∆ x / x = 0.01 e ∆ ln( x) = ln( x + ∆ x) − ln( x) = 0.00995 . No entanto, se x = 600 e
x + ∆ x = 720 , resulta ∆ x / x = 0.2 e ∆ ln( x) = 0.1823 (a qualidade da aproximação pio-
ra).
Suponha-se que z > 0 e w j > 0 . Para pequenas variações relativas, podem esta-
belecer-se as seguintes aproximações:
%∆w j ≈ 100 ∆ ln(w j ) e %∆ z ≈ 100 ∆ ln( z ) .
Facilmente se conclui que

∆ ln( z )
EL( z ; w j ) ≈ .
∆ ln(w j )
No caso particular em que as variáveis z e w j são contínuas, e a função h é de-

rivável (pelo menos em relação a w j ), a elasticidade de z em relação a w j pode ser de-
finida para uma variação infinitesimal de w j . Neste caso, a elasticidade pontual de z
em relação a w j é dada por
∆z / z ∆ z wj ∂ z wj
(1.6) EL∗ ( z ; w j ) = lim = lim = .
∆w j → 0 ∆w / w ∆w j → 0 ∆w ∂wj z
j j j z
Facilmente se verifica que

EL∗ ( z ; w j ) = lim EL( z ; w j ) .
∆w j → 0
Para ∆w j ≈ 0 , tem-se EL∗ ( z ; w j ) ≈ EL( z ; w j ) .

Quando z > 0 e w j > 0 , pode também demonstrar-se que
∂ ln( z )
EL∗ ( z ; w j ) = .
∂ ln(w j )
Com efeito, notando que w j = exp{ln(w j )} e que

d wj d eln( w j ) ln( w )
= = e j = wj ,
d ln(w j ) d ln(w j )
aplicando duas vezes a regra da derivada da função composta, obtém-se

∂ ln( z ) d ln( z ) ∂ z d w j 1 ∂z w ∂z
= = wj = j = EL∗ ( z ; w j ) .
∂ ln(w j ) d z ∂ w j d ln(w j ) z ∂ w j z ∂wj

1) Seja a relação linear nas variáveis, z = α1 + α2 w , onde z e w são variáveis contínuas.
Dada a variação ∆w , tem-se z + ∆ z = α1 + α2 ( w + ∆w) . A elasticidade de z em relação
a w é dada por
∆z w w
EL( z ; w) = = α2 ,
∆w z α1 + α 2 w
que depende de w. Conclui-se imediatamente que EL∗ ( z ; w) = EL( z ; w) .
2) Seja z = α1 + α2 w2 , relação quadrática entre z e w (variáveis contínuas). Dada a va-
riação ∆w , vem z + ∆ z = α1 + α2 ( w + ∆w) 2 = α1 + α2{w2 + 2 w∆w + (∆w) 2 } . A elastici-
dade de z em relação a w é
∆z w w
EL( z ; w) = = α 2 (2 w + ∆w) .
∆w z α1 + α 2 w 2
dz w w
EL∗ ( z ; w) = = 2α 2 w .
dw z α1 + α 2 w 2
Para ∆w → 0 , tem-se EL( z ; w) → EL∗ ( z ; w) .
3) Suponha-se que a relação (não linear) entre z, w2 e w3 (variáveis contínuas) é dada
por z = α1 + α2 w2 + α3 w3 + α4 w2 w3 (a quarta parcela é termo de interacção entre w2 e
w3 ). Dado ∆w2 , obtém-se z + ∆ z = α1 + α2 ( w2 + ∆w2 ) + α3 w3 + α4 ( w2 + ∆w2 ) w3 . Então,
∆ z w2 w2
EL( z ; w2 ) = = (α 2 + α 4 w3 ) = EL∗ ( z ; w2 ) .
∆w2 z α1 + α2 w2 + α3 w3 + α4 w2 w3
Semi-elasticidades
Suponha-se que as variáveis z e w j são quantitativas (contínuas ou discretas).

A semi-elasticidade de z em relação a w j é dada por
∆z / z %∆ z ∆z 1
(1.7) SEL( z ; w j ) = = = .
∆w j 100∆w j ∆w j z
A semi-elasticidade mede, ceteris paribus, a variação relativa de z quando w j

varia de uma unidade. Obviamente, este efeito pode depender de w1 , w2 , K , w p , e dos
parâmetros.
%∆ z
100 × SEL( z ; w j ) =
∆w j
mede, ceteris paribus, a variação percentual de z quando w j varia de uma unidade.

Quando z > 0 , e para pequenas variações relativas, tem-se
∆ ln( z )
SEL( z ; w j ) ≈ .
∆w j
Quando as variáveis z e w j são contínuas, e a função h é derivável (pelo me-

nos em relação a w j ), a semi-elasticidade z em relação a w j pode ser definida para uma
variação infinitesimal de w j . Neste caso, a semi-elasticidade pontual z em relação a
w j é dada por
∆z / z ∆z 1 ∂z 1
(1.8) SEL∗ ( z ; w j ) = lim = lim = .
∆w j → 0 ∆w j ∆w j → 0 ∆w z
j ∂wj z
Resulta imediatamente que

SEL∗ ( z ; w j ) = lim SEL( z ; w j ) .
∆w j → 0
Para ∆w j ≈ 0 , tem-se SEL∗ ( z ; w j ) ≈ SEL( z ; w j ) .

Quando z > 0 , vem
∂ ln( z )
SEL∗ ( z ; w j ) = .
∂wj

1) Seja z = α1 + α2 w , onde z e w são variáveis contínuas. A semi-elasticidade de z em re-
lação a w é dada por
∆z 1 α2
SEL( z ; w) = = = SEL∗ ( z ; w) ,
∆w z α1 + α 2 w
que depende de w.
2) Considere-se z = α1 + α2 w2 , onde z e w são variáveis contínuas. A semi-elasticidade
de z em relação a w é
∆ z 1 α 2 (2 w + ∆w)
SEL( z ; w) = = .
∆w z α1 + α 2 w2
A respectiva semi-elasticidade pontual é dada por
dz 1 2α 2 w
SEL∗ ( z ; w) = = .
d w z α1 + α 2 w 2
Para ∆w → 0 , tem-se SEL( z ; w) → SEL∗ ( z ; w) .

3) Considere-se a relação z = α1 + α2 w2 + α3 w3 + α4 w2 w3 entre variáveis contínuas. Vem

∆z 1 α 2 + α 4 w3
SEL( z ; w2 ) = = = SEL∗ ( z ; w2 ) .
∆w2 z α1 + α2 w2 + α3 w3 + α4 w2 w3
1.5 - Algumas relações linearizáveis
Existe uma grande variedade de relações que se podem estudar sob a capa das
relações lineares. Com o objectivo de aprofundar esta questão, vão apresentar-se alguns
tipos de relações funcionais muito utilizados na prática. Por simplicidade de exposição,
estas relações consideram apenas uma variável explicativa, mas podem ser imediata-
mente generalizadas para duas ou mais variáveis.
a) A relação log-log. Considere-se a função potência (ver figura 1.1)

(1.9) z = γ wα ( w > 0 ; γ > 0) .
Esta função verifica uma propriedade muito importante: a elasticidade pontual
de z em relação a w é constante (igual a α ). Com efeito,
dz w
(1.10) EL∗ ( z ; w) = =α .
dw z
Por esta razão, é também designada por função de elasticidade constante.
0 1 2
Fig. 1.1 – Função potência.
Linearizando (1.9), obtém-se a especificação log-log,

(1.11) ln( z ) = β1 + β2 ln(w) ,
onde β1 = ln (γ ) e β 2 = α .
Então,
d ln( z ) ∆ ln z ∆ z /z %∆ z
β2 = = ≈ = ,
d ln( w) ∆ ln w ∆ w / w %∆ w
ou seja, β 2 é, aproximadamente, o quociente entre a variação relativa de z e a variação

relativa de w (variação percentual de z quando w varia de um ponto percentual).
Pode, também, escrever-se
%∆ z ≈ β 2 %∆ w .
O valor exacto de %∆ z pode ser calculado sem dificuldade. Suponha-se que o
valor de w passa para w + ∆w . Atendendo a (1.9), tem-se z + ∆ z = γ ( w + ∆ w)α . Então,
α α
∆ z γ {( w + ∆ w)α − wα }  w + ∆ w   ∆w 
= =  − 1 = 1 +  − 1.
z γw α
 w   w 
Multiplicando ambos os membros por 100, obtém-se

 ∆ w α 
%∆ z = 100 × 1 +  − 1 .
w 
 
Então,
α
 ∆w 
1 +  −1
%∆ z  w 
(1.12) EL( z ; w) = = .
%∆ w ∆w
w
O grau de aproximação entre (1.12) e (1.10) é ilustrado a seguir. Por exemplo,
suponha-se que z = w0.33 . O quadro seguinte apresenta os desvios entre β 2 = α = 0.33 e
%∆ z %∆ w :
w ∆w %∆ w %∆ z EL( z ; w) EL∗ ( z ; w) = α Desvios

600 6 1 0.3289 0.3289 0.33 – 0.0011
600 60 10 3.1952 0.3195 0.33 – 0.0105
600 120 20 6.2013 0.3101 0.33 – 0.0199
600 180 30 9.0439 0.3015 0.33 – 0.0285
b) A relação log-lin. Considere-se a função exponencial (ver figura 1.2)

(1.13) z = γ α w (α > 0 ; γ > 0) .
Logaritmizando, obtém-se a relação semi-logarítmica ou log-lin,
(1.14) ln( z ) = β1 + β2 w ,
onde β1 = ln(γ ) e β 2 = ln(α ) .
A semi-elasticidade pontual de z em relação a w é constante (igual a β 2 ). De
facto,
d z 1 d ln( z )
(1.15) SEL∗ ( z ; w) = = = β2 .
dw z dw
A função dada por (1.13) também é conhecida pela designação de função de se-
mi-elasticidade constante.
-2 -1 0 1 2
Fig. 1.2 – Função exponencial.
Tem-se
d ln( z ) ∆ ln( z ) ∆ z / z %∆ z %∆ z
β2 = = ≈ = ⇔ 100 β 2 ≈ ,
dw ∆w ∆ w 100 ∆ w ∆w
ou seja, β 2 é, aproximadamente, o quociente entre a variação relativa de z e a variação

absoluta de w (se w varia de 1 unidade, z varia, aproximadamente, de 100 β 2 % ).
%∆ z ≈ 100 β 2 ∆ w .
O valor exacto de %∆ z pode ser determinado sem dificuldade. Suponha-se que
o valor de w passa para w + ∆w . Atendendo a (1.13) ou (1.14), tem-se
z + ∆ z = γ α w + ∆ w = exp{β1 + β 2 ( w + ∆w)} .
Então,
∆ z γ (α w + ∆ w − α w ) α w + ∆ w ∆z
= = − 1 = α ∆ w − 1 ou = exp{β 2 ∆ w} − 1 .
z γα w
α w
z
Multiplicando ambos os membros de qualquer destas igualdades por 100, vem

%∆ z = 100 × (α ∆ w − 1) = 100 × (exp{β 2 ∆ w} − 1) .
Então,
%∆ z ∆ z / z α ∆ w − 1 exp{β 2 ∆ w} − 1
(1.16) SEL( z ; w) = = = = .
100 ∆ w ∆w ∆w ∆w
A aproximação entre (1.16) e (1.15) é ilustrada a seguir. Por exemplo, supondo

que β 2 = 0.094 , o quadro seguinte mostra os desvios entre β 2 e %∆ z (100 × ∆ w) :
∆w %∆ z SEL( z ; w) SEL∗ ( z ; w) = β 2 Desvios

0.1 0.9444 0.0944 0.094 0.0004
0.5 4.8122 0.0962 0.094 0.0022
1.0 9.8560 0.0986 0.094 0.0046
5.0 59.9994 0.1200 0.094 0.0260
10.0 155.9981 0.1560 0.094 0.0620
20.0 555.3505 0.2777 0.094 0.1837
A relação log-lin é particularmente interessante quando a variável explicativa é o

tempo (considerada variável contínua): w = t . Neste caso, tem-se
z = γ α t ⇔ z = γ e β 2 t ⇔ ln( z ) = β1 + β2 t ,
onde β1 = ln( γ ) e β 2 = ln(α ) . Diz-se, então, que z tem tendência exponencial, e ln(z )
tem tendência linear.
Verifica-se que
d ln( z ) d z 1 ∆ ln( z ) %∆ z %∆ z
β2 = = = ≈ ⇔ 100 β 2 ≈ ,
dt dt z ∆t 100 ∆ t ∆t
é a taxa instantânea de variação de z no momento t.

Se o tempo for considerado de forma discreta, a variável z é observada nos mo-
mentos 0,1, 2, K , t , K , e ∆ t = 1 . Pode fazer-se zt = γ (1+ g )t , onde g é a taxa média de
variação de z no período t (entre o momento 0 e o momento t) Com efeito, basta consi-
derar que: para t = 0 , tem-se z0 = γ ; para t = 1 , vem z1 = γ (1 + g ) ; quando t = 2 , resulta
z2 = γ (1 + g ) 2 ; em geral, tem-se zt = γ (1+ g )t . Omitindo o índice t da variável z, pode
escrever-se
z = γ (1+ g )t
onde α = 1 + g , e, portanto, β2 = ln(1 + g ) .
Como ln( z ) = ln(γ ) + ln(1 + g ) t e ∆ t = 1 , vem
∆ ln( z ) = ln(1 + g ) ≈ g ,
para g pequeno. Assim, nestas condições, a variação de ln(z ) (a taxa instantânea de va-
riação de z) é aproximadamente igual à taxa média de variação de z.
c) A relação lin-log é outro tipo de relação semi-logarítmica, mas onde os papéis das
variáveis estão trocados, isto é, a variável explicada é especificada em níveis, e a variá-
vel explicativa, em logaritmos. Tem-se, então (ver figura 1.3),
(1.17) z = β1 + β2 ln( w) ( w > 0) .
Esta relação verifica a propriedade
dz
(1.18) = β2 .
d ln( w)
Como
d z β2 dz dz dw β
= e = = 2 w,
dw w d ln( w) d w d ln( w) w
também se conclui que

dz
β2 = w.
dw
A partir de (1.18), vem

dz ∆z ∆z 100 ∆ z β ∆z
β2 = = ≈ = ⇔ 2 ≈ .
d ln( w) ∆ ln( w) ∆w / w %∆w 100 %∆w
ou seja, β 2 é, aproximadamente, o quociente entre a variação absoluta de z e a varia-

ção relativa de w. Também se pode dizer que β 2 / 100 é, aproximadamente, o quociente
entre a variação absoluta de z e a variação percentual de w (variação absoluta de z quan-
do w varia de um ponto percentual). Assim,
β2
∆z ≈ %∆w .
100
0 1 2
Fig. 1.3 – Função logarítmica.
Por exemplo, supondo que β 2 = 42.4 , o quadro seguinte mostra os desvios entre
β 2 e (100 × ∆ z ) %∆ w [note-se que ∆ z = β 2{ln( w + ∆w) − ln( w)} ]:
w ∆w %∆ w ∆z (100 × ∆ z ) %∆ w β 2 Desvios
600 6 1 0.4219 42.1894 42.4 – 0.2106
600 60 10 4.0412 40.4115 42.4 – 1.9885
600 120 20 7.7304 38.6522 42.4 – 3.7478
600 180 30 11.1242 37.0808 42.4 – 5.3192
Esta relação é utilizada quando pretende estudar-se o efeito da variação relativa

de uma variável (por exemplo, a taxa de crescimento da oferta de moeda, m) sobre a va-
riação absoluta de outra variável (por exemplo, o nível do PIB): pib = β1 + β 2 ln(m) .
d) A relação inversa é dada pela função (ver figura 1.4),

1
(1.19) z = β1 + β2 ( w ≠ 0) .
w
Como
dz β d 2 z 2 β2
= − 22 e = ,
dw w d w2 w3
e supondo w > 0 (que corresponde à situação mais habitual para as variáveis económi-
cas), verifica-se facilmente que: se β 2 > 0 , a função é decrescente e convexa, com uma
assíntota horizontal igual a β1 ; se β 2 < 0 , a função é crescente e côncava, com uma
assíntota horizontal igual a β1 .
Fig. 1.4 – Função hiperbólica com w > 0 e β 2 > 0 .
e) A relação polinomial,
(1.20) z = δ 0 + δ1w + δ2 w2 + L + δ p w p ,
é uma relação linear (nos parâmetros) em que as variáveis x j são as sucessivas potên-
cias de w. Por exemplo, quando p = 2 (relação quadrática na variável w), os efeitos
marginais w sobre z são crescentes ou decrescentes conforme o sinal de δ 2 .
Quando w = t , a variável z tem tendência (linear, quando p = 1 ; quadrática,
quando p = 2 ; etc.).
f) A relação logística (ver figura 1.5) é intrinsecamente não linear,

γ
(1.21) z= ,
1 + β exp{−α w}
onde γ > 0 , β > 0 e α > 0 são os parâmetros.

O estudo desta função mostra que se trata de uma função crescente, convexa en-
tre − ∞ e ln(β ) / α , côncava a partir deste ponto, e com uma assíntota horizontal igual a
γ.
Fig. 1.5 – Função logística ( β = 1) .
1.6 - O valor esperado condicionado estrutural
Embora algumas questões sobre a análise empírica dos modelos, e sobre a natu-
reza dos dados, sejam abordadas mais adiante (ver secções 1.7 e 1.8), é importante, des-
de já, chamar a atenção para duas questões.
A primeira questão tem a ver com o modo como os dados podem ser obtidos
ou gerados. Assim:
a) Nas Ciências da Natureza (Física, Biologia, etc.), sobretudo em ambientes laborato-
riais, os dados resultam, muitas vezes, de uma situação controlada pelo investigador.
Neste caso, os dados dizem-se experimentais.
b) Em Economia (e, em geral, nas Ciências Sociais) os dados decorrem, quase sempre,
de um fenómeno passivamente observado pelo investigador. Nesta situação, os dados
são não experimentais.
Esta distinção é crucial para a Econometria, porque põe a questão da natureza

estocástica das variáveis do modelo, bem como das respectivas observações.
Pode, então, estabelecer-se a premissa básica da Econometria:
Premissa básica da Econometria

Devido à natureza não experimental dos dados, as variáveis explicadas e as variáveis
explicativas do modelo – e as respectivas observações – são consideradas variáveis
aleatórias.
Esta premissa abrange o caso de as observações de algumas variáveis explicati-

vas serem determinísticas; estas observações são consideradas, então, variáveis aleató-
rias degeneradas.
Porventura, é esta premissa básica que pode justificar que a Econometria tenha
evoluído como uma disciplina científica autónoma (separada da estatística clássica,
que teve a sua génese no tratamento e análise de dados predominantemente experimen-
tais). A Econometria impôs-se como uma disciplina própria a partir do momento em que
se acumularam desenvolvimentos metodológicos que não existiam na estatística clássi-
ca. Por exemplo, embora o modelo de regressão linear (a apresentar nos capítulos se-
guintes) seja muito estudado na estatística clássica, ele tem a sua interpretação própria
na Econometria; os econometristas desenvolveram novas técnicas e métodos para estu-
dar este modelo que têm em conta as suas aplicações (por exemplo, testar as previsões
das teorias económicas) e as complexidades dos dados económicos.
A segunda questão diz respeito à flexibilidade relacional do modelo teórico
que vai ser submetido à análise econométrica.
Quando se considera a relação (1.1), z = h(w) , está subentendido que os únicos
factores explicativos de z são w1 , w2 , K , w p . Contudo, é de esperar (sobretudo, quando
se procura caracterizar fenómenos de natureza social ou económica), que existam mui-
tos outros factores explicativos de z que não estão explicitados (no exemplo 1.4, o loga-
ritmo dos salários dos trabalhadores não é explicado apenas pelos factores explicitados
– educ, exper, empc, mulher, aptid –, mas também por muitos outros, como os referidos
no mesmo exemplo). Deste modo, (1.1) não é operacional porque estabelece uma rela-
ção rígida entre as variáveis do modelo.
A flexibilidade relacional pretendida pode obter-se introduzindo uma variável
adicional, u, que abrange todos os factores que não foram considerados, mas que podem
afectar o comportamento da variável explicada. Em especial, aqueles factores podem
incluir variáveis não observáveis, variáveis omitidas observáveis e erros de medida.
Se u for incorporado de forma aditiva, o modelo teórico passa a ser
(1.22) z = h( w) + u .
A variável u não é observável, chama-se variável residual (erro ou termo per-
turbador), e desempenha um papel fundamental na relação (1.22), como vai ver-se nos
capítulos subsequentes. Desta forma, a variável explicada, z, é decomposta em duas
componentes aditivas: a componente sistemática ou sinal, h(w) ; a componente resi-
dual ou ruído, u. Como vai ver-se, esta especificação é muito útil para fazer um trata-
mento unificado das propriedades estatísticas de vários métodos econométricos.
Do mesmo modo, quando a relação é linear pode escrever-se [ver (1.2)]
(1.23) y = β1 x1 + β2 x2 + L + βk xk + u = xβ + u .
Para aligeirar as notações é habitual fazer-se em Econometria a seguinte conven-

ção:
Convenção
Vai utilizar-se o mesmo símbolo para representar as variáveis aleatórias e os res-
pectivos valores concretamente observados.
O modelo (1.22) é formado apenas por uma equação que representa uma relação
de causalidade. Nestas condições, diz-se que (1.22) é uma equação estrutural, e os
respectivos parâmetros, α j , chamam-se parâmetros estruturais. Muitas vezes, estes
parâmetros são estimáveis exclusivamente apenas tendo por base a equação estrutural.
Diz-se, então, que a equação estrutural é directamente estimável. Outras vezes, tal não
acontece, sendo necessário combinar hipóteses adicionais sobre outras variáveis com
manipulações algébricas para obter uma equação estimável. Neste caso, é de esperar
que esta equação permita estimar alguns parâmetros estruturais (ou mesmo todos). Além
disso, pode haver motivos para estimar equações não estruturais, que pode ser,
nalguns casos, um passo preliminar para estimar uma equação estrutural.
Muitas vezes, supõe-se que
(1.24) h( w) = E ( z | w) = µ ( w) ,
ou seja, a componente sistemática do modelo é o valor esperado de z condicionado por
w. Daqui resulta que E (u | w) = 0 , isto é, o valor esperado da componente residual con-
dicionado por w é nulo. Neste caso, tem-se que u = z − E ( z | w) = z − µ ( w) , ou seja, a
variável residual não é mais do que o desvio entre z e o seu valor esperado condicionado
por w.
Quando se verifica (1.24), o valor esperado condicionado passa a desempenhar
um papel primordial na análise econométrica, uma vez que E ( z | w) coincide com a
componente sistemática do modelo. De facto, uma parte substancial dos desenvolvimen-
tos metodológicos em Econometria tem a ver com métodos de estimação de valores es-
perados condicionados. Neste contexto, é fundamental apresentar a seguinte definição:
Definição 1.1 – Valor esperado condicionado estrutural.

Considere-se a relação (1.22). Se E ( z | w) = h( w) , então a função µ ( w) : ℜ p → ℜ dada
por
(1.25) µ ( w) = E ( z | w)
designa-se por valor esperado condicionado estrutural.
A função µ (w) tem esta designação porque supõe-se que representa o compor-
tamento médio da variável z (normalmente associada a um certo tipo de agentes eco-
nómicos, ou outros), quando variam as componentes do vector w.
Considere-se a relação na forma (1.22), admitindo que h(w) é o valor esperado

condicionado estrutural: z = µ ( w) + u . Quando se pretende analisar o efeito parcial de
w j sobre z, o conjunto dos factores fixos ou das variáveis de controlo é formado pelas
outras variáveis explicativas. Para facilitar a exposição, vai utilizar-se o símbolo c para
designar o vector-linha das variáveis de controlo; tem-se w = ( w j , c) . A análise ceteris
paribus pretende medir a resposta média ou esperada – como é habitual em muitas si-
tuações –, estimando o valor esperado de z condicionado por w, µ ( w) = E ( z|w) .
Todas as considerações feitas nas secções 1.4 e 1.5 – a propósito de efeitos par-
ciais, de elasticidades, de semi-elasticidades e de relações linearizáveis – são aplicáveis
neste contexto, desde que se considere a função µ (w) . Por exemplo:
1) Se w j e z são variáveis aleatórias quantitativas, é usual focar a atenção no efeito
marginal médio de w j sobre z, dado por
∆µ ( w) ∆ E ( z|w)
(1.26) = .
∆w j ∆wj
2) Se as variáveis aleatórias w j e z são contínuas, e a função µ (w) é derivável em rela-

ção a w j , pode obter-se o respectivo efeito marginal pontual médio resultante de uma
variação infinitesimal de w j . Tem-se
∂µ ( w) ∂ E ( z|w)
(1.27) = .
∂wj ∂wj
3) A elasticidade pontual média de z em relação a w j é dada por

∂µ ( w) w j ∂ E ( z|w) w j
(1.28) EL∗{µ ( w) ; w j } = = .
∂ w j µ ( w) ∂ w j E ( z|w)
4) Se µ ( w) > 0 e w > 0 (como acontece muitas vezes), tem-se

∂ ln{ µ ( w)} ∂ ln{ E ( z|w)}
(1.29) EL∗{µ ( w) ; w j } = = .
∂ ln( w j ) ∂ ln( w j )
5) Se w j é variável binária, os efeitos parciais médios são calculados comparando

µ (w) para os dois valores possíveis de w j : w j = 0 e w j = 1 .
Quando o modelo tem a forma ln( z ) = g ( w) + u , onde g é uma função de w e

E (u | w) = 0 , é natural definir a elasticidade pontual média de ln(z ) em relação a w j da
seguinte maneira:
∂ E{ln( z )| w}
(1.30) .
∂ ln(w j )
Como se pode comparar (1.30) com (1.29)? Como E{ln( z )| w} ≠ ln{ E ( z|w)} , as
duas elasticidades são diferentes. Contudo, se w e u são independentes, a igualdade é
verificada. Com efeito, notando que z = exp{g ( w) + u} = exp{g ( w)} exp{u} , vem
E ( z | w) = E (exp{g ( w)} exp{u} | w) = δ exp{g ( w)} ,
onde δ = E (exp{u} | w) = E (exp{u}) , uma vez que exp{u} e w também são independen-
tes. Então,
E{ln( z )| w} = E{g ( w) + u | w} = g ( w) e ln{ E ( z|w)} = ln(δ ) + g ( w)
têm derivadas iguais em relação a ln(w) . Por exemplo, se
ln( z ) = β1 + β 2 ln(w1 ) + β 2 w2 + u ,
e se u tem valor esperado nulo e é independente de ( w1 , w2 ) , a elasticidade de z em rela-
ção a w1 é β 2 , usando qualquer das duas definições.
Se E (u | w) = 0 , mas w e u não são independentes, as duas definições dão resul-
tados diferentes, embora, em muitas situações, as diferenças não sejam significativas,
desde que z > 0 . Contudo, a primeira definição é mais geral porque pode utilizar-se em
casos em que não existe ln(z ) [mas existe ln{ E ( z|w)} ].
Escolher a lista adequada de variáveis de controlo nem sempre é fácil; a utiliza-
ção de listas diferentes pode conduzir a conclusões diferentes sobre a relação de causali-
dade entre z e w j . É por esta razão que estabelecer causalidades pode ser complicado,
pois depende dos factores que se supõem constantes.
Admitindo que se conhece a lista de variáveis de controlo, e supondo que estas
variáveis são observáveis, não é complicado, em geral, estimar o efeito parcial pretendi-
do. Infelizmente, em Economia (nas Ciências Sociais) muitas das variáveis de controlo
não são observáveis.
Podem, ainda, surgir outros problemas que interferem na estimação de relações
de causalidade. Para exemplificar, vão referir-se duas situações:
a) Erros de medida nas variáveis. Mesmo que a lista de variáveis de controlo esteja
correctamente especificada, pode acontecer que não seja possível dispor de medidas
suficientemente rigorosas de w j ou de z;
b) Simultaneidade. As variáveis w j e z são simultaneamente determinadas, e as únicas
observações disponíveis são valores de equilíbrio (como pode acontecer nos casos
dos exemplos 1.7, 1.9 e 1.10).
Em situações como estas, tem-se E (u | w) ≠ 0 ou h( w ) ≠ µ ( w) , isto é, a compo-

nente sistemática do modelo não é um valor esperado condicionado estrutural. No
entanto, embora continue a existir µ (w) , o econometrista não está condições de obter
dados para o estimar. O estudo de situações deste tipo vai ser feito em capítulos poste-
riores.
Exemplo 1.15 – Considere-se as seguintes situações:

a) Retome-se o exemplo 1.4, e suponha-se que procura detectar-se uma relação de cau-
salidade de educ sobre lsalar, em que as variáveis de controlo são exper, empc, mu-
lher e aptid. Embora aptid não seja observável, admita-se que
lsalar = β1 + β 2 educ + β 3 exper + β 4 empc + β 5 mulher + β 6 aptid + u .
Fazendo µ (educ, c) = E (lsalar | educ, c) , com c = [ exper empc mulher aptid ], su-
põe-se que o comportamento médio do logaritmo do salário é dado por
µ (educ, c) = β1 + β 2 educ + β3 exper + β 4 empc + β5 mulher + β 6 aptid ,

ou seja, a componente sistemática do modelo é o valor esperado condicionado estru-
tural. Tem-se
∂ E (lsalar | educ, c) ∂µ (educ, c)
β2 = = .
∂ educ ∂ educ
Assim, β 2 mede o efeito parcial de educ sobre o valor esperado do logaritmo do sa-
lário condicionado por educ e pelas variáveis de controlo. Este efeito não é estimá-
vel, uma vez que a variável de controlo aptid não é observável.
A semi-elasticidade (pontual) média de salar em relação a educ é, então,
∂µ (educ, c) 1
× .
∂ educ µ (educ, c)
É óbvio que esta semi-elasticidade também não é estimável.
Desprezando a variável não observável, aptid, esta passa a estar incluída na variável
residual, u. Como é de esperar que haja correlação entre aptid e educ, verifica-se
que E (educ × aptid ) ≠ 0 . Então, E (u | educ, c) ≠ 0 , onde o vector das variáveis de
controlo é, agora, c = [ exper empc mulher ]. Neste caso,
E (lsalar | educ, c) = β1 + β 2 educ + β 3 exper + β 4 empc + β 5 mulher + E (u | educ, c) ,
e a componente sistemática do modelo não é um valor esperado condicionado estru-

tural.
b) Suponha-se que pretende estabelecer-se uma relação de causalidade de assid sobre
nest (ver exemplo 1.5). Seja
nest = h(assid , tae, mis) + u .
Suponha-se que
E (nest | assid , c) = µ (assid , c) = h(assid , c) ,
onde c = [ tae mis ] é composto por variáveis observáveis. Embora já se saiba que
estas variáveis são medidas gerais da capacidade e dos hábitos de estudo dos alunos,
pode pôr-se a dúvida sobre a sua adequação para controlar a relação de causalidade,
porque não entram em linha de conta com a aptidão específica e o interesse do aluno
para estudar Estatística. A inclusão em c de uma variável deste tipo pode ser impor-
tante, embora não seja observável.
O efeito parcial de assid sobre E (nest | assid , c) é medido por
∂ E ( nest | assid , c) ∂ µ ( assid , c)
= .
∂ assid ∂ assid
∇
Para terminar esta secção vão apresentar-se algumas propriedades gerais dos va-
lores esperados condicionados (médias, variâncias e covariâncias), envolvendo variá-
veis aleatórias e vectores aleatórios.
Propriedades dos valores esperados condicionados

Seja a variável aleatória z, e os vectores aleatório x, w e v. Tem-se:
a) Regra do valor esperado total:
E ( z ) = E{E ( z | w)} .
b) Regra do valor esperado iterado:
E ( z | w) = E{E ( z | x) | w} ,
onde w é função de x, w = g (x) .
c) Caso especial da regra do valor esperado iterado:
E ( z | w) = E{E ( z | w, v) | w} .
d) Linearidade do valor esperado condicionado: Considerem-se as funções de w, ai (w)
(i = 1, K , m) e b(w) , e as variáveis aleatórias z1 , K , zm . Então,
E{a1 ( w) z1 + L + am ( w) zm + b( w) | w} = a1 ( w) E ( z1 | w) + L + am ( w) E ( zm | w) + b( w) ,
desde que E (| zi |) < +∞ , E (| ai ( w) zi |) < +∞ e E (| b( w) |) < +∞ .

e) Se u = z − E ( z | w) , então E{h( w) u} = 0 , onde h(w) é uma função (vectorial) de w,
desde que E (| hi ( w) u |) < +∞ [os hi (w) são as componentes de h(w) ] e E (| u |) < +∞ .
Em particular, E (u ) = 0 e Cov( w j , u ) = 0 [os w j são as componentes de w].
f) Desigualdade de Jensen para valores esperados condicionados: se g : ℜ → ℜ é
uma função convexa com domínio ℜ , e E (| z |) < +∞ , então
g{E ( z | w)} ≤ E{g ( z ) | w} .
g) Considerem-se as funções de w, a (w) e b(w) . Então,
Var{a( w) z + b( w) | w} = {a( w)}2 Var( z | w) .
h) Tem-se:
Var( z ) = E{Var( z | w)} + Var{E ( z | w)} .
i) Tem-se:
Var( z | w) = E{Var( z | w, v) | w} + Var{E ( z | w, v) | w} .
j) Se z1 e z2 são variáveis aleatórias, vem
Cov( z1 , z2 ) = E{Cov ( z1 , z2 | w)} + Cov{E ( z1 | w), E ( z2 | w)} .
Considerando dois vectores aleatórios w e z quaisquer, vem:
k) Cov( z ) = E{Cov( z | w)} + Cov{E ( z | w)} , onde: o símbolo Cov(⋅) representa a matriz
das covariâncias de um vector aleatório; o símbolo E (⋅) refere-se ao valor esperado
de uma matriz aleatória ou de um vector aleatório.
Podem fazer-se os seguintes comentários a estas propriedades:

− Em muitos casos, o cálculo directo de E (z ) pode ser complicado. No entanto, se
for conhecido (ou se for relativamente fácil de calcular) E ( z | w) = µ ( w) , a proprie-
dade a) permite determinar E (z ) , calculando o valor esperado de µ (w) . Deste mo-
do, o problema difícil [o cálculo directo de E (z ) ] pode ser resolvido mediante a re-
solução de dois problemas mais simples: o conhecimento ou a determinação da fun-
ção µ (w) ; o cálculo do respectivo valor esperado.
Apresentam-se dois exemplos simples:
1. Se E ( z | w) = a (constante) então E ( z ) = a. Com efeito,
E ( z ) = E{E ( z | w)} = E (a) = a
Contudo, E ( z ) = a não implica E ( z | w) = a .
2. Seja w é um vector aleatório discreto que assume os valores c•1 , c• 2 , K , c• m com
probabilidades p1 , p2 , K , pm , respectivamente. Então,
E ( z ) = p1E ( z | w = c•1 ) + p2 E ( z | w = c• 2 ) + L + pm E ( z | w = c• m ) ,
isto é, o valor esperado de z é a média ponderada dos E ( z | w = c•i ) , onde os pesos

são as respectivas probabilidades pi .
− A propriedade b) é a versão mais geral que vai considerar-se da regra do valor espe-
rado iterado. Recordando que w = g (x) , a propriedade é dada por
E{z | g ( x)} = E{E ( z | x) | g ( x)} .
Se se fizer µ1 ( x) = E ( z | x) e µ 2 ( w) = E ( z | w) , a propriedade b) estabelece que
µ 2 ( w) = E{µ1 ( x) | w} .
Assim, pode determinar-se µ 2 ( w) , calculando o valor esperado de µ1 ( x) condiciona-
do por w.
Há outra propriedade que parece semelhante à anterior, mas é muito mais simples
de verificar. Trata-se de
E{z | g ( x)} = E ( E{z | g ( x)} | x) ,
ou
E ( z | w) = E{E ( z | w) | x} ⇔ µ2 ( w) = E{µ2 ( w) | x} ,
onde se trocaram as posições de w e x. Com efeito, como w é função de x, conhecer x
implica conhecer w; como µ 2 ( w) = E ( z | w) , o valor esperado de µ 2 ( w) , dado x, é,
obviamente, µ 2 ( w) .
Estas duas propriedades podem resumir-se com a seguinte frase: “o conjunto de in-
formação menor é sempre dominante”. Dito de outro modo: “menos informação do-
mina mais informação”. Aqui, w representa menos informação do que x, uma vez
que conhecer x implica conhecer w (mas não inversamente).
− A propriedade c) é um caso especial da lei do valor esperado iterado. Neste caso,
tem-se x = ( w, v) [como x é o par ( w, v) , obviamente w é função de x]. Fazendo
µ1 ( w, v) = E ( z | w, v) [função de w e v] e µ 2 ( w) = E ( z | w) [função de w], tem-se
µ 2 ( w) = E{µ1 ( w, v) | w} ,
onde o valor esperado do segundo membro, E (⋅ | w) , é calculado em relação a v.
− Vai fazer-se uma interpretação muito interessante da propriedade c). Suponha-se
que num determinado estudo econométrico se admite que as variáveis explicativas
importantes de z são w e v, o que significa que o interesse da análise incida sobre o

valor esperado condicionado estrutural µ1 ( w, v) = E ( z | w, v) , que é função de w e v.
Se o vector v não é observável, não pode estimar-se µ1 ( w, v) directamente. No entan-
to, se w e z são observáveis pode estimar-se µ 2 ( w) = E ( z | w) , que é função apenas
de w.
Em geral, a obtenção de µ 2 ( w) = E ( z | w) à custa de µ1 ( w, v) = E ( z | w, v) é muito
complicada. Contudo, em muitas situações, a forma de µ1 ( w, v) é suficientemente
simples para que o problema tenha uma resolução fácil, desde que se introduzam al-
gumas hipóteses adicionais. Por exemplo, suponha-se que se começa com o modelo
µ1 ( w1 , w2 , v) = E ( z | w1 , w2 , v) = β 0 + β1w1 + β 2 w2 + β3v + β 4 w1v ,
onde v não é observável. As propriedades c) e d) permite estabelecer que
µ2 ( w1 , w2 ) = E ( z | w1 , w2 ) = E{E ( z | w1 , w2 , v) | w1 , w2 }
= E ( β 0 + β1w1 + β 2 w2 + β 3v + β 4 w1v | w1 , w2 )
= β 0 + β1w1 + β 2 w2 + β 3 E (v | w1 , w2 ) + β 4 w1 E (v | w1 , w2 ) .
O cálculo de E (v | w1 , w2 ) é, em geral, uma tarefa muito complicada, uma vez que
exige o conhecimento da distribuição de v condicionada por w1 e w2 . Contudo, ad-
mitindo a hipótese adicional,
E (v | w1 , w2 ) = δ 0 + δ 1w1 + δ 2 w2 ,
obtém-se
µ2 ( w1 , w2 ) = E ( z | w1, w2 ) = α 0 + α1w1 + α 2 w2 + α 3w12 + α 4 w1w2 ,
onde
α 0 = β 0 + β 3 δ 0
α = β + β δ + β δ
 1 1 3 1 4 0
α 2 = β 2 + β 3 δ 2
α = β δ
 3 4 1
α 4 = β 4 δ 2 .
− A regra do valor esperado iterado [propriedade b)] tem outra implicação importan-
te. Suponha-se que para alguma função vectorial, g (x) , e para alguma função (esca-
lar), h, tem-se E ( z | x) = h{g ( x)} . Então,
E{z | g ( x)} = E ( z | x) = h{g ( x)} .
Com efeito, de acordo com a propriedade b), tem-se
E{z | g ( x)} = E{E ( z | x) | g ( x)} = E{h{g ( x)} | g ( x)} = h{g ( x)} = E ( z | x) .
Este resultado pode ser apresentado de outro modo. Com efeito, fazendo w = g (x) ,
vem E ( z | w) = h( w) .
Pode concluir-se que: se o valor esperado de z condicionado por x é uma função de x,
é redundante condicioná-lo por g (x) ; basta condicioná-lo por x.
Por exemplo, suponha-se que
 x1 
 
 x2 
g ( x1 , x2 ) = 2 ,
 x2 
 
 x1 x2 
e que E ( z | x1 , x2 ) = h{g ( x1 , x2 )} = β 0 + β1 x1 + β 2 x2 + β 3 x22 + β 4 x1 x2 . Então,

E ( z | x1 , x2 , x22 , x1 x2 ) = β 0 + β1 x1 + β 2 x2 + β3 x22 + β 4 x1 x2 .
Assim, se o valor esperado condicionado por x1 e x2 é função destas variáveis, é re-

dundante condicioná-lo, também, por x22 e por x1 x2 .
Este exemplo pode ser enquadrado numa formalização mais geral. Suponha-se que
E ( z | x) é linear relativamente aos parâmetros,
E ( z | x) = β1 g1 ( x) + β 2 g 2 ( x) + L + β k g k ( x) ,
onde g j (x) ( j = 1, 2, K , k ) são funções de x. Fazendo w j = g j (x) , tem-se

E ( z | w1 , w2 , K , wk ) = β1w1 + β 2 w2 + L + β k wk .
Assim, qualquer valor esperado condicionado linear relativamente aos parâmetros

pode considerar-se, também, como linear relativamente a certas variáveis condicio-
nantes. Quando se considera explicitamente a variável residual u, pode escrever-se
z = β1w1 + β 2 w2 + L + β k wk + u .
Supondo que E (u | x) = 0 , e como w j = g j (x) , pode concluir-se que u não está corre-
lacionado com qualquer w j (e com qualquer função dos w j ).
− A propósito da regra do valor esperado iterado, pode enunciar-se uma outra pro-
priedade muito importante:
− Sejam u, x e w três vectores aleatórios. Se ( u, x ) é independente do vector w, en-
tão E (u | x) = E (u | x, w) .
− Para justificar a propriedade d), basta invocar que nos valores esperados condicio-
nados por w, as funções de w são consideradas constantes.
− Para provar a propriedade e), começa-se por notar que E (u | w) = 0 . Então, devido à
propriedade a), tem-se E{h( w) u} = E ( E{h( w) u | w}) = E{h( w) E (u | w)} = 0 . Fica ao
cuidado do leitor verificar que E (u ) = 0 e que Cov( w j , u ) = 0 .
− Pode referir-se dois casos particulares importantes da propriedade f):
− {E ( z | w)}2 ≤ E ( z 2 | w) ;
− Se z > 0 , então − ln{E ( z | w)} ≤ E{− ln( z ) | w} , ou E{ln( z ) | w} ≤ ln{E ( z | w)} .
− As propriedades h) e j) são passíveis de comentário semelhante ao da propriedade
a): o problema do cálculo directo de Var( z ) ou de Cov ( z1 , z2 ) é decomposto em ou-
tros problemas mais simples. Por exemplo, para determinar Cov ( z1 , z2 ) , primeiro de-
termina-se σ12 ( w) = Cov ( z1 , z2 | w) , µ1 ( w) = E ( z1 | w) e µ 2 ( w) = E ( z2 | w) . Em segui-
da, calcula-se E{σ 12 ( w)} e Cov{µ1 ( w), µ 2 ( w)} .
− Como consequência da propriedade i), pode provar-se que
(1.31) E{Var( z | w)} ≥ E{Var( z | w, v)} .

Com efeito, atendendo à propriedade i), Var ( z | w) ≥ E{Var( z | w, v) | w} , porquanto
Var{E ( z | w, v) | w} ≥ 0 . Então, devido à propriedade a), tem-se
E{Var( z | w)} ≥ E ( E{Var( z | w, v) | w}) = E{Var( z | w, v)} .
O resultado (1.31) pode ser interpretado da seguinte maneira: em média, a dispersão
de z condicionada por certas variáveis não aumenta quando se acrescentam variáveis
condicionantes. Em particular, quando Var( z | w) e Var( z | w, v) são constantes, vem
Var( z | w)} ≥ Var( z | w, v) .
− A propriedade k), que generaliza as propriedades h) e j), vai ser analisada com de-
talhe. Considerando o vector aleatório
 z1 
z 
z =  2,
M
 
 zm 
a respectiva matriz das covariâncias é dada por
 Var( z1 ) Cov( z1 , z2 ) L Cov( z1 , zm ) 
 Cov( z , z ) Var ( z2 ) L Cov( z2 , zm )
Cov( z ) =  2 1
.
 M M M 
 
Cov( zm , z1 ) Cov( zm , z2 ) L Var( zm ) 
Do mesmo modo, tem-se
 Var( z1 | w) Cov( z1 , z2 | w) L Cov( z1 , zm | w) 
 Cov( z , z | w) Var( z2 | w) L Cov( z2 , zm | w)
Cov( z | w) =  2 1
,
 M M M 
 
Cov( zm , z1 | w) Cov( zm , z2 | w) L Var( zm | w) 
ou
 σ 11 ( w) σ 12 ( w) L σ 1m ( w) 
σ ( w) σ ( w) L σ ( w) 
Cov( z | w) =  21 22 2m ,
 M M M 
 
σ m1 ( w) σ m 2 ( w) L σ mm ( w)
onde σ ij ( w) = Cov( zi , z j | w) , para i, j = 1, 2, K , m . Então,
 E{σ 11 ( w)} E{σ 12 ( w)} L E{σ 1m ( w)} 
 E{σ ( w)} E{σ ( w)} L E{σ ( w)}
E{Cov( z | w)} =  21 22 2m .
 M M M 
 
 E{σ m1 ( w)} E{σ m 2 ( w)} L E{σ mm ( w)}
Também se tem
 E ( z1 | w)   µ1 ( w) 
 E ( z | w)   µ ( w) 
E ( z | w) =  2 = 2 ,
 M   M 
   
 E ( zm | w)  µ m ( w)
onde µi ( w) = E ( zi | w) , para i = 1, 2, K , m .
Então,
 Var{µ1 ( w)} Cov{µ1 ( w), µ2 ( w)} L Cov{µ1 ( w), µ m ( w)}
 Cov{µ ( w), µ ( w)} Var{µ 2 ( w)} L Cov{µ 2 ( w), µ m ( w)}
Cov{E ( z | w)} =  2 1
.
 M M M 
 
Cov{µ m ( w), µ1 ( w)} Cov{µm ( w), µ 2 ( w)} L Var{µm ( w)} 
Por exemplo, verifica-se imediatamente que
Cov( z2 , z4 ) = E{Cov( z2 , z4 | w)} + Cov{E ( z2 | w), E ( z4 | w)}
= E{σ 24 ( w)} + Cov{µ2 ( w), µ4 ( w)}.
Suponha-se que se pretende analisar os efeitos parciais das variáveis explicati-

vas observáveis (as componentes do vector w) sobre a variável explicada, z, consideran-
do explicitamente factores não observáveis. Seja, então, o valor esperado condicionado
estrutural, µ1 ( w, v) = E ( z | w, v) , onde v representa o vector dos factores não observáveis
(designado por heterogeneidade não observada). Para simplificar a exposição vai su-
por-se que v é um escalar (a análise é imediatamente generalizável quando v é um vec-
tor). A análise vai ser feita para o caso em que w j (componente genérica de w) e z são
variáveis aleatórias contínuas e µ1 (⋅) é derivável pelo menos em relação a w j [fica ao
cuidado do leitor proceder a análise semelhante quando estas variáveis são quantitativas,
mas não necessariamente contínuas; quando w j é binária, os efeitos parciais são obtidos
determinando as diferenças de µ1 (⋅) para os dois valores de w j ].
Para o caso em estudo, e para uma variação infinitesimal de w j , o efeito parcial
médio de w j sobre z é
∂ E ( z | w, v) ∂ µ1 ( w, v)
θ j ( w, v) = = .
∂wj ∂wj
Como, em geral, este efeito parcial depende de v, não é possível estimá-lo. Con-
tudo, em certas condições, é possível determinar o valor esperado de θ j ( w, v ) , a partir
da distribuição de v. Este valor esperado avaliado em w0 (valor assumido por w) é dado
por
δ j ( w0 ) = Ev {θ j ( w0 , v)} .
Supondo que v é contínua, com densidade f v , vem

δ j ( w0 ) = ∫ θ j ( w0 , v) f v (v)dv .
ℜ
Note-se que: θ j ( w, v) é o efeito parcial de w j sobre o comportamento médio de

z; δ j ( w0 ) é a média ou o valor esperado deste efeito (em relação a v).
É possível estimar δ j ( w0 ) a partir de um valor esperado condicionado que de-
penda apenas de variáveis condicionantes observáveis? Em geral, a resposta é não. Con-
tudo, estabelecendo hipóteses sobre a relação entre v e w, é possível estimar δ j ( w0 ) .
As hipóteses são as seguintes:
1) Independência condicional. Os factores explicativos v e w são condicionalmente
independentes em relação a um vector q de variáveis observáveis,
F (v, w | q ) = Fv (v | q ) Fw ( w | q) ,
onde F é a função de distribuição conjunta, e Fv e Fw são as respectivas funções de

distribuição marginais. Em muitos casos, o vector q pode ser considerado como um
vector de variáveis proxy. Quando q é vazio, a independência condicional reduz-se
à independência entre v e w.
2) O vector q é redundante ou ignorável no valor esperado condicionado estrutural,
ou seja,
E ( z | w, v, q) = E ( z | w, v) .
Pode provar-se que

 ∂ E ( z | w0 , q ) 
δ j ( w0 ) = Eq  .
 ∂wj 
Com efeito, fazendo µ 2 ( w, q ) = E ( z | w, q ) , tem-se
µ2 ( w, q) = E{E ( z | w, v, q) | w, q} = E{µ1 ( w, v) | w, q} = ∫ µ1 ( w, v) f (v | q)dv ,
ℜ
onde: a primeira igualdade decorre a lei do valor esperado iterado; a segunda, resulta da
hipótese da redundância; a terceira, é consequência da independência condicional. Deri-
vando parcialmente, e supondo que a derivada parcial é permutável com o integral, vem
∂ µ2 ( w, q )
= ∫ θ j ( w, v) f (v | q )dv .
∂wj ℜ
Para w = w0 , o segundo membro desta igualdade é E{θ j ( w0 , v) | q} . Então,

 ∂ µ ( w0 , q ) 
 = E ( E{θ j ( w , v) | q}) = δ j ( w ) .
0 0
Eq  2
 ∂ w j 
A utilidade deste resultado é a seguinte: a heterogeneidade não observada, v, de-
sapareceu totalmente, e µ2 ( w, q ) = E ( z | w, q ) pode ser estimado porque ( z, w, q) é ob-
servável. Dispondo desta estimativa quando w = w0 , µˆ 2 ( w0 , q ) , a estimação do efeito
parcial médio para w = w0 consiste em determinar a média amostral de
∂ µˆ 2 ( w0 , q )
.
∂wj
1.7 - Análise empírica
Proposto um modelo teórico para explicar as relações entre as variáveis em estu-

do, é indispensável avaliar a sua adequação à realidade, por meio da estimação dos pa-
râmetros desconhecidos, nomeadamente para explicar ou prever a evolução do fenó-
meno. Então, torna-se necessário dispor de um modelo econométrico que permita proce-
der a uma análise empírica das relações propostas [por exemplo, estimar as funções re-
feridas nos exemplos 1.1 a 1.10 e fazer a respectiva inferência estatística (construir in-
tervalos de confiança; efectuar testes de hipóteses) sobre os respectivos parâmetros].
Como é fácil de compreender, o modelo teórico não está preparado para a análi-
se empírica. Para dar operacionalidade ao modelo teórico é necessário ter em conta,
entre outros, os seguintes aspectos:
1) Especificar as relações funcionais do modelo (propor as respectivas expressões
analíticas), e estabelecer, se for caso disso, restrições sobre os parâmetros.
2) Estabelecer hipóteses sobre o comportamento probabilístico das variáveis, dan-
do especial atenção às variáveis não observáveis.
3) Conhecer ou delimitar a população subjacente ao modelo. Como o modelo diz res-
peito à população em estudo, pode dizer-se que as variáveis consideradas represen-
tam a respectiva população.
4) Adoptar um processo de amostragem (processo para obtenção dos dados), ou esta-
belecer hipóteses sobre o processo de amostragem subjacente ao fenómeno em estu-
do.
5) Dispor de observações das variáveis, que são os dados ou a amostra do modelo.
6) Utilizar os métodos adequados para obter estimativas dos parâmetros.
7) Dispor de técnicas que permitam efectuar inferências estatísticas.
O tópico 1) já foi abordado, ainda que de forma pouco sistemática. No entanto,

nas secções 1.3 e 1.5 deu-se particular relevo a um tipo particular de especificação das
relações funcionais: as relações lineares ou linearizáveis. Também nos exemplos tem
havido, embora parcialmente, este tipo de preocupações [no exemplo 1.4 é proposta
uma especificação para a relação explicativa de lsalar, mas o mesmo não acontece no
exemplo 1.5 a propósito da relação que explica a variável nest; no exemplo 1.1 referiu-
se que o parâmetro α 2 deveria obedecer à condição 0 < α 2 < 1 ; etc.].
Como o tópico 2) tem a ver com as hipóteses que, em cada caso, se propõem so-
bre o comportamento probabilístico das variáveis, é óbvio que, em termos gerais, pouco
há a dizer; o assunto vai ser sistematicamente retomado nos capítulos que se seguem.
Os tópicos 3), 4) e 5) são comentados na próxima secção, a propósito da nature-
za dos dados. Esta abordagem preliminar deve servir para reforçar a ideia de que as
questões relacionadas com a população e com a amostra devem ser uma preocupação
permanente nos desenvolvimentos teóricos dos capítulos seguintes, e nas aplicações
práticas.
Os tópicos 6) e 7) dizem respeito aos métodos econométricos, e serão estudados
aprofundadamente nos restantes capítulos.
Os comentários anteriores permitem ter uma noção aproximada das caracterís-

ticas que deve ter um modelo econométrico. Pode apresentar-se uma definição preli-
minar, uma vez que está esclarecido o alcance e o sentido da premissa básica da Econo-
metria (as variáveis observáveis, e as respectivas observações, são variáveis aleatórias).
Definição 1.2 – Modelo econométrico

Um modelo econométrico é uma família de distribuições conjuntas das observações das
variáveis explicadas e das variáveis explicativas, a verificar um conjunto de restrições
ou hipóteses.
1.8 - Estruturas de dados
As duas categorias básicas de dados são as seguintes:

a) Dados seccionais. Os dados são seccionais quando as observações se referem a de-
terminadas entidades (unidades seccionais) em certa data (momento ou período de
tempo). Por exemplo: as quantidades produzidas e as quantidades de factores de
produção utilizados nas empresas de uma certa indústria num determinado ano; as
despesas em bens de consumo e as receitas das famílias em determinado mês.
Este tipo de dados pode ser apresentado num quadro onde a chave identificadora é
o nome da unidade seccional (US). Como é habitual, zt (t = 1, 2, K , n) representa a
observação genérica de z, e wtj (t = 1, 2, K , n ; j = 1, 2, K , p) é a observação genérica
da variável explicativa w j (ver quadro 1.1).
Quadro 1.1
Dados seccionais
N.º US z w1 w2 … wp
1 US1 z1 w11 w12 … w1 p
2 US2 z2 w21 w22 … w2 p
M M M M M M
n USn zn wn1 wn 2 … wnp
Nalguns casos, pode acontecer que os dados não correspondam exactamente, para
todas as entidades observadas, à mesma data. No entanto, se os dados se referem a
datas relativamente próximas, pode considerar-se que fazem parte do mesmo con-
junto de dados seccionais. Por exemplo, se há observações de despesas e de recei-
tas de certas famílias realizadas num certo mês, e há observações de outras famílias
feitas no mês seguinte, é lícito, em muitos casos (depende dos meses!), supor que
esta pequena variação temporal não afecta significativamente a análise empírica.
Uma característica fundamental dos dados seccionais é que a ordem das observa-
ções é irrelevante (pouco importa qual é a primeira família observada ou a vigési-
ma quinta!).
Os dados seccionais são muito utilizados em Economia (e noutras Ciências Sociais),

e, em especial, em certos ramos da microeconomia aplicada (economia do traba-
lho, finanças públicas locais, economia regional e urbana, demografia, economia da
saúde, economia da educação, etc.).
b) Dados temporais. Os dados são temporais ou cronológicos quando as observações
se referem a uma mesma entidade, para várias datas (momentos ou períodos de tem-
po). Por exemplo: as quantidades produzidas por ano e as quantidades de factores de
produção utilizados anualmente numa determinada indústria; o consumo e o rendi-
mento disponível trimestrais num determinado país.
Quando os dados são numéricos, e se pretende descrever a evolução no tempo dos
valores observados, os dados devem, como é evidente, conservar-se associados à da-
ta em que ocorreram, e apresentarem-se sob a forma de série temporal, dando ori-
gem a um gráfico que se chama cronograma.
Facilmente se conclui que a ordem cronológica dos dados é uma característica
essencial das séries temporais, fornecendo informação relevante para o comporta-
mento do fenómeno em estudo. Pode falar-se em passado, presente e futuro, e é
prática comum trabalhar com modelos dinâmicos, nos quais é particularmente im-
portante a análise dos desfasamentos temporais ou lags (certos acontecimentos pas-
sados podem influenciar acontecimentos presentes ou futuros). Por exemplo, o con-
sumo agregado de um determinado país, em certo período, pode ser explicado pelo
consumo do período anterior, e pelo rendimento disponível do período corrente e do
período anterior.
Este tipo de dados representa-se de forma semelhante à dos dados seccionais, mas,
agora, a chave identificadora é a data (ver quadro 1.2).
Quadro 1.2
Dados temporais
N.º Data z w1 w2 … wp
1 Data 1 z1 w11 w12 … w1 p
2 Data 2 z2 w21 w22 … w2 p
M M M M M M
n Data n zn wn1 wn 2 … wnp
Outros aspectos típicos dos dados temporais são os seguintes:

− A frequência temporal das observações. Trata-se de saber se as variáveis de-
vem ser observadas numa base diária, semanal, mensal, trimestral, anual ou ou-
tra.
− A tendência. Muitas vezes, é importante conhecer se certa variável depende sig-
nificativamente do tempo (basta o tempo passar para que a variável se comporte
de uma determinada maneira). Neste caso, diz-se que a variável tem tendência.
− A sazonalidade. É comum verificar que o comportamento de determinada variá-
vel se altera em certos subperíodos de um período mais alargado (por exemplo,
em determinados meses do ano). Neste caso, diz-se que a variável tem sazonali-
dade.
As séries temporais têm grande importância para o estudo de muitos fenómenos de
natureza económica e, em especial, na macroeconomia aplicada (estudo agregado
do comportamento do consumo, do investimento, das importações, das exportações,
das finanças públicas, da procura de moeda, da inflação, das taxas de juro, etc.).
Além das duas categorias básicas de dados apresentadas, convém referir mais
duas que, de certo modo, são derivadas daquelas.
c) Dados seccionais combinados. Alguns conjuntos de dados têm aspectos seccionais
e temporais. Diz-se que se tem um conjunto de dados seccionais combinados (poo-
led cross sections) quando se juntam vários conjuntos de dados seccionais, cada um
referente a certa data (momento ou período de tempo). Por exemplo, em determina-
do ano tem-se um conjunto de 200 famílias (com as respectivas despesas e receitas),
e cinco anos depois tem-se outro conjunto de 250 famílias. Este tipo de dados pode
ser analisado como se fosse um conjunto de dados seccionais, mas tem a vantagem
de permitir testar se as famílias têm comportamentos diferentes nos dois anos con-
siderados. Obviamente que o primeiro conjunto de 200 famílias não coincide com o
segundo conjunto de 250 famílias (o mais provável é que os dois conjuntos sejam
disjuntos!) Estes dados podem ser apresentados num quadro semelhante ao dos da-
dos seccionais, mas a chave identificadora é formada pela data e pela unidade
seccional (ver quadro 1.3).
Quadro 1.3
Dados seccionais combinados
N.º Data US z w1 w2 … wp
1 Data 1 US1 z1 w11 w12 … w1 p
2 Data 1 US2 z2 w21 w22 … w2 p
M M M M M M M
m Data 1 USm zm wm1 wm 2 … wmp
m +1 Data 2 USm +1 z m+1 wm+1,1 wm+1, 2 … wm+1, p
m+2 Data 2 USm + 2 z m+ 2 wm+2,1 wm+2, 2 … wm+ 2, p
M M M M M M M
n Data 2 USn zn wn1 wn 2 … wnp
d) Dados de painel. Em muitas situações, os dados disponíveis referem-se a um con-

junto fixo de entidades observadas em várias datas (momentos ou períodos de tem-
po). Neste caso, diz-se que se tem um conjunto de dados de painel ou de dados lon-
gitudinais. Por exemplo, as observações das despesas de consumo e das receitas de
um conjunto fixo de famílias ao longo de vários anos.
A característica essencial dos dados de painel é que o conjunto de entidades a ob-
servar é sempre o mesmo para todas as observações temporais, o que, muitas vezes,
dificulta a sua obtenção. Contudo, pode ter-se omissão de observações para sub-
conjuntos de unidades seccionais em determinadas datas (painéis de dados não ba-
lanceados).
Muitas vezes, a chave identificadora do quadro das observações deste tipo de da-
dos é o par ordenado (unidade seccional, data) [ver quadro 1.4].
Quadro 1.4
Dados de painel
N.º US Data z w1 w2 … wp
1 US1 Data1 z11 w111 w112 … w11 p
2 US1 Data 2 z21 w211 w212 … w21 p
M M M M M M M
q US1 Data q zq1 wq11 wq12 … wq1 p
q +1 US2 Data 1 z12 w121 w122 … w12 p
q+2 US2 Data 2 z 22 w221 w222 … w22 p
M M M M M M M
2q US2 Data q zq 2 wq 21 wq 22 … wq 2 p
M M M M M M M
(m − 1)q + 1 USm Data 1 z1m w1m1 w1m 2 … w1mp
(m − 1)q + 2 USm Data 2 z2 m w2m1 w2m 2 … w2 mp
M M M M M M M
n = mq USm Data q zqm wqm1 wqm 2 … wqmp
A observação genérica da variável explicada é identificada por dois índices: um, re-
fere-se à unidade seccional; o outro, à data. Assim, tem-se zti para i = 1, 2, K , m e
t = 1, 2, K , q . As observações das variáveis explicativas representam-se por wtij [ob-
servação da variável explicativa w j ( j = 1, 2, K , p ) , relativa à unidade seccional i e
à data t].
Noutros casos, é conveniente apresentar os dados com outra chave identificadora,
correspondente ao par ordenado (data, unidade seccional), e obtinha-se um quadro
de dados de painel semelhante ao quadro 1.3.
Embora os dados de painel possam ser encarados como dados seccionais combina-
dos, existem métodos adequados que, com vantagem, tiram partido da sua caracte-
rística essencial (conjunto fixo de entidades a observar). As vantagens têm a ver
com o facto de se dispor de várias observações temporais para a mesma entidade,
e de se poder analisar, em alguns casos, os seus lags de comportamento.
A distinção entre dados seccionais e dados temporais é, como vai ver-se, crucial
para a Econometria. Tendo presente a premissa básica – e supondo que o modelo é
constituído apenas por uma relação (1.22) –, vão fazer-se alguns comentários sobre
os dois tipos fundamentais de dados no que diz respeito aos seguintes aspectos:
− Definição ou delimitação da população de interesse;

− Hipóteses sobre o processo de amostragem;
− Recolha da amostra.
Dados seccionais
Recorde-se que dados seccionais são observações de certos atributos de certas

entidades em determinada data. Assim, a população é formada por todas as entidades
que podem ser observadas relativamente aos atributos em causa.
Definido o processo de amostragem, pode obter-se uma amostra de dimensão n,
{( zt , wt1 , wt 2 , K , wtp ) : t = 1, 2, K , n} ,
que tanto pode ser encarada como uma sequência de n vectores aleatórios ou de n vec-
tores efectivamente observados.
Muitas vezes, supõe-se que os dados seccionais são obtidos por amostragem ca-
sual. Então, tendo em conta a premissa básica atrás referida, os vectores aleatórios
( zt , wt1 , wt 2 , K , wtp ) são iid (independentes e identicamente distribuídos) [no caso de da-
dos seccionais combinados (pooled cross sections), com amostras casuais obtidas em
diferentes datas (para a mesma população), não é razoável aceitar a hipótese de que os
dados são iid; é mais credível supor que as observações são inid (independentes e não
identicamente distribuídas)].
Noutras situações, pode não ser apropriado estabelecer a hipótese da casualidade
no processo de amostragem, sendo de considerar outros tipos de amostragem (amos-
tragem estratificada, amostragem por conglomerados, etc.).
Por exemplo, se se estiver interessado em estudar os factores que explicam a
acumulação de riqueza por parte das famílias, pode acontecer que grande parte das fa-
mílias mais ricas se recusem a revelar as respectivas riquezas. Neste caso, a amostra
disponível não é uma amostra casual da população.
Outra situação interessante, em que não é adequado supor que o processo de
amostragem é casual, é aquela em que as entidades a serem observadas são poucas e
têm, individualmente, um peso relativamente importante no contexto da respectiva po-
pulação. Por exemplo, se se pretendesse estudar, em função de determinados factores, o
número de empresas novas criadas em certo ano nos vários distritos do continente por-
tuguês, não é razoável admitir a independência de comportamentos em distritos próxi-
mos, pois existe correlação espacial. A população de certos distritos não é suficiente-
mente grande para diluir a influência de cada um sobre os outros (pelo menos, sobre os
mais próximos), ou cada distrito é suficientemente grande para induzir comportamentos
nos distritos vizinhos.
A amostragem por conglomerados (cluster sampling) também induz correla-
ção em dados seccionais. Por exemplo, as poupanças de reforma dos empregados de
uma empresa podem estar correlacionadas devido às características comuns dos traba-
lhadores da empresa (muitas vezes não observáveis) ou devido às características da pró-
pria empresa (por exemplo, o tipo de plano de reformas). Como cada empresa represen-
ta um grupo (cluster), e a amostra é formada por vários trabalhadores de um número

elevado de empresas, pode estar-se em presença de correlações intra-empresas.
Outro aspecto importante a salientar é que as amostras podem ser escolhidas –
intencionalmente ou não – de modo a serem amostras não casuais da população de in-
teresse. Estes casos abrangem, por exemplo, a amostragem estratificada e a selecção de
amostras (sample selection).
Exemplo 1.16 – Os modelos apresentados nos exemplos 1.2, 1.4, 1.5, 1.6, 1.9 e 1.10
são modelos geradores de dados seccionais.
a) Exemplo 1.2: a população é o conjunto de todas as unidades produtivas de um certo
bem num determinado país ou região, num determinado ano. A amostra casual se-
ria formada por um subconjunto da população. A amostra também podia ser estrati-
ficada em função da dimensão das empresas.
b) Exemplo 1.4: Supondo que a população é constituída por todos os trabalhadores de
uma determinada região e num determinado ano, pode não ser difícil obter uma
amostra casual. No entanto, se a população é formada por todas as pessoas da
mesma região, podem surgir problemas na selecção da amostra, uma vez que podem
ser escolhidas pessoas que não trabalham, e, portanto, o salário não é observável.
Fica a questão de saber qual a população que deve ser considerada para se ter uma
explicação adequada do comportamento dos salários.
c) Exemplo 1.5: a população é formada pelos alunos de Economia e Gestão do ISEG
inscritos na disciplina de Estatística em determinado semestre. No caso de amostra-
gem casual, obtinha-se uma amostra de alunos, sem atender ao curso e às turmas a
que pertencem. No entanto, a amostra podia ser estratificada, escolhendo-se para
factores de estratificação o curso e o facto de o aluno ser repetente ou não.
d) Exemplo 1.6: para estimar viag realizou-se um inquérito, por amostragem casual, à
população activa da AML a norte do Tejo, referido a um dia útil razoavelmente
representativo do tráfego rodoviário.
Cada inquirido tinha que responder a três perguntas:
1) Qual o concelho onde habita?
2) Qual o concelho onde trabalha?
3) Se naquele dia foi de automóvel para o trabalho?
Como existiam, naquela data, nove concelhos da AML a norte do Tejo (Amadora,
Azambuja, Cascais, Lisboa, Loures, Mafra, Oeiras, Sintra e Vila Franca de Xira),
agruparam-se os inquiridos em 72 categorias, tantas quantas os pares de concelhos
(existiam oito destinos possíveis para cada uma das nove origens). Depois de elimi-
nados os casos em que o concelho de habitação coincidia com o concelho de traba-
lho, calculou-se, para cada categoria, a proporção de respostas afirmativas à pergun-
ta 3), a qual, multiplicada pela população activa do respectivo concelho de origem,
permitiu estimar viag, para o dia seleccionado.
Os dados para estimar a relação proposta no exemplo 1.6, depois de logaritmizada,
são formados por 72 observações do seguinte vector de variáveis:
[ ln(viag ) ln( pop) ln(nemp) ln(dist ) ].
Note-se que não se dispõe das verdadeiras observações de viag, mas das estimativas
obtidas da forma indicada.
A “amostra” assim construída permitiria estimar os parâmetros do modelo. Não é
fácil delimitar a população subjacente a esta amostra. No entanto, pelo menos sabe-
-se que foi seleccionada uma amostra casual da população activa da AML.
e) Exemplo 1.9: a população pode ser formada pelo conjunto de cidades com mais de
100000 habitantes num determinado país ou região, e num certo ano. O subconjunto
de cidades que constitui a amostra podia ser obtido por amostragem casual.
f) Exemplo 1.10: a população corresponde, por exemplo, ao conjunto dos 27 países da
União Europeia, num determinado ano. Neste caso, a amostra podia coincidir com
a população.
∇
Dados temporais
Como é difícil admitir que as observações de uma mesma variável são indepen-
dentes, não se pode supor que os vectores aleatórios ( zt , wt1 , wt 2 , K , wtp ) sejam iid. No
entanto, pode pensar-se, intuitivamente, que cada elemento de uma série temporal é o
valor assumido por certa variável aleatória, uma vez que em cada data não se sabe qual
o valor da variável na data seguinte.
Formalmente, pode considerar-se que a partir de uma sucessão de vectores alea-
tórios,
{( zt , wt1 , wt 2 , K , wtp ) : t = 1, 2, K}
(habitualmente designada por processo estocástico ou aleatório), se pode obter uma se-
quência (finita) de vectores,
{( zt , wt1 , wt 2 , K , wtp ) : t = 1, 2, K , n} ,
que constitui a amostra. Tal como nos dados seccionais, esta sequência tanto pode ser
encarada como uma sequência de n vectores aleatórios ou de n vectores efectivamente
observados.
Diz-se, então, que a amostra efectivamente observada é uma realização finita do
processo estocástico. Assim, os dados disponíveis são interpretados como a única rea-
lização (finita) do processo estocástico, uma vez que não se pode recuar no tempo e re-
começar o processo de novo. Neste contexto, a população em estudo é o conjunto de
todas as realizações possíveis do processo estocástico.
Exemplo 1.17 – Os modelos apresentados nos exemplos 1.1, 1.3, 1.7 e 1.8 podem ser
considerados como modelos geradores de dados temporais.
a) Exemplo 1.1: considere-se a sucessão de vectores aleatórios com duas componentes
(processo estocástico bidimensional), {(const , rdispt ) : t = 1, 2, K} . A população é o
conjunto de todas as realizações possíveis desta sucessão. Quando, por exemplo, se
dispõe de dados sobre estas variáveis de 1970 a 2006, tem-se uma amostra.
b) Exemplo 1.3: considerando o processo estocástico tridimensional,
{ [ln(importt ), ln( prmt ), ln( pibt )]: t = 1, 2, K},

a população é formada por todas as realizações possíveis desta sucessão de vectores
aleatórios. Admitindo que as observações são trimestrais, a amostra podia ser for-
mada pelas observações desde o primeiro trimestre de 1980 até ao quarto trimestre
de 2008.
c) Exemplo 1.7: seja a sucessão de vectores aleatórios,
{( qt , pt , rt , zt ) : t = 1, 2, K} ,
onde qd = qs = q . A população é constituída pelo conjunto de todas as realizações

possíveis deste processo estocástico. Como as observações são mensais, a amostra
podia ser formada pelas observações de Janeiro de 1995 a Dezembro de 2008.
d) Exemplo 1.8: suponha-se que o processo estocástico é o seguinte:
{(const , investt , pnbt , const −1 , pnbt −1 , impdt , tjurot , dpt ) : t = 2, 3, K} .
A população é formada por todas as realizações possíveis desta sucessão de vecto-

res aleatórios com oito componentes. Quando se recolhem dados sobre estas variá-
veis de 1971 a 2008, tem-se uma amostra.
∇
PALAVRAS-CHAVE
Amostra Regra do valor esperado total
Amostragem casual Relação de causalidade
Análise ceteris paribus Relação inversa
Análise empírica Relação linear(izável)
Componente residual Relação lin-log
Componente sistemática Relação logística
Dados Relação log-lin
Dados de painel Relação log-log
Dados (não) experimentais Relação polinomial
Dados seccionais (combinados) Relação quadrática
Dados temporais Resposta média
Desfasamento (lag) Sazonalidade
Econometria Semi-elasticidade (pontual)
Efeito marginal (pontual) Série temporal
Efeito parcial Simultaneidade
Elasticidade (pontual) Taxa de variação
Equação estimável Tendência
Equação estrutural Tendência exponencial
Erro de medida Tendência linear
Factor não observável Tendência quadrática
Factor qualitativo Teoria
Heterogeneidade não observada Unidade seccional
Independência condicional Valor esperado condicionado estrutural
Inferência estatística Variação absoluta
Interacção Variação percentual
Linearidade relativa aos parâmetros Variação relativa
Linearidade relativa às variáveis Variável binária
Linearidade (intrínseca) Variável contínua
Macroeconometria Variável de contagem
Microeconometria Variável de controlo
Modelo da população Variável dependente
Modelo econométrico Variável discreta
Modelo teórico Variável explicada
Ordem cronológica Variável explicativa
Parâmetro (estrutural) Variável independente
População Variável qualitativa
Premissa básica da Econometria Variável quantitativa
Processo de amostragem Variável residual
Processo estocástico Variável resposta
Regra do valor esperado iterado Vector redundante (ignorável)
PERGUNTAS DE REVISÃO
1. Explique o significado da seguinte proposição: “a equação de regressão é intrinse-

camente linear”.
2. Seja z = α 0 + α1 w1 + α 2 ln(w2 ) . Considerem-se as seguintes afirmações: a) a rela-
ção é intrinsecamente linear; b) a relação é linear em relação às variáveis; c) a re-
lação é linear em relação aos parâmetros; d) a relação não é intrinsecamente
linear. Quais das seguintes afirmações são verdadeiras?
3. Considere a relação z = α 0 + (α1 + α 2 w) −1 . Classifique-a quanto à linearidade rela-
tivamente aos parâmetros, e quanto à linearidade relativamente às variáveis.
4. Considere a relação z = α + β e w + γ e − w . Esta relação é intrinsecamente linear? No
caso afirmativo, defina as variáveis e os parâmetros da relação linear respectiva.
5. Considere a relação z = α + β w + γ ln(w) ( w > 0 ). Esta relação é intrinsecamente
linear? No caso afirmativo, defina as variáveis e os parâmetros da relação linear
respectiva.
6. Considere a relação z = 6α + wβ ( w > 0 ). Esta relação é intrinsecamente linear?
No caso afirmativo, defina as variáveis e os parâmetros da relação linear respecti-
va.
7. Considere a relação z = exp{α1wα 2 } ( z > 1 ). Esta relação é intrinsecamente linear?
No caso afirmativo, defina as variáveis e os parâmetros da relação linear respecti-
va.
8. Considere a relação z = α 0 + α1 w + α 2 w 2 . Como interpreta o parâmetro α 2 ?
9. Considere a relação z = α + β e w + γ e − w . Supondo que as variáveis são contínuas,
determine a elasticidade pontual de z em relação a w.
10. Seja z = β 0 + β1 ln( w) + β 2 {ln( w)}2 . Determine a elasticidade pontual de z em re-
lação a w.
11. Considere a relação z = α + β e w + γ e − w . Supondo que as variáveis são contínuas,
determine a semi-elasticidade pontual de z em relação a w.
12. Considere a relação z = α + β e 2 w . Supondo que as variáveis são contínuas, de-
termine a elasticidade pontual de z em relação a w.
13. Seja z = β 0 + β1 ln( w1 ) + β 2 ln(w2 ) + β 3 ln(w1 ) ln( w2 ) . Calcule a expressão da va-
riação absoluta de z quando, ceteris paribus, w1 varia de 3 unidades.
14. Considere a relação z = α1eα 2 w . Supondo que as variáveis são contínuas, determi-
ne a semi-elasticidade pontual de z em relação a w.
15. Considere o modelo log-log, ln( z ) = β1 + β2 ln(w) . Como sabe, β 2 mede, aproxi-
madamente, a variação percentual de z quando w varia de 1%. Assim, tem-se:
%∆ z ≈ β 2 %∆ w . Determine o valor exacto de %∆ z .
16. A premissa básica da Econometria é a seguinte: “todas as variáveis observáveis do
modelo são consideradas variáveis aleatórias”. Esta premissa resulta de: a) os da-
dos poderem ser temporais; b) a estimação dos parâmetros ser feita a partir de
uma amostra; c) a natureza não experimental dos dados; d) o facto de poderem
existir variáveis endógenas. Quais destas afirmações são verdadeiras?
17. A premissa básica da Econometria é a seguinte: “todas as variáveis observáveis do

modelo são consideradas variáveis aleatórias”. Esta premissa resulta de: a) a teoria
econométrica poder abranger modelos com dados temporais ou com dados seccio-
nais; b) a estimação dos parâmetros ser feita a partir de uma amostra extraída de
uma população; c) a natureza não experimental dos dados; d) as variáveis po-
derem ser exógenas ou endógenas. Quais destas afirmações são verdadeiras?
18. Considere o modelo econométrico z = h( w) + u , onde w é o vector das variáveis
explicativas e u é a variável residual. A que condição deve obedecer u para que
h( w) seja o valor esperado condicionado estrutural?
19. Considere o modelo da população, z = h( w) + u . Seja:
a) E (u | w) = 0 implica que h( w) ≠ E ( z | w) ;
b) h( w) = E ( z | w) implica que E (u | w) ≠ 0 ;
c) E (u | w) ≠ 0 é equivalente a h( w) ≠ E ( z | w) .
Quais destas afirmações são verdadeiras?
20. Seja z = µ ( w) + u , onde µ ( w) = E ( z | w) . Se w j é a componente genérica do
vector w, indique a expressão da semi-elasticidade de µ em relação a w j .
21. Enuncie a regra do valor esperado iterado para o cálculo de E ( z | w) .
22. Apresente a fórmula de cálculo de Var( z ) a partir de Var( z | w) e de E ( z | w) .
23. Apresente a fórmula para calcular de Cov( w, z ) a partir de Cov( w, z | v) , de
E ( w | v) e de E ( z | v) .
24. Considere dois vectores aleatórios w e z. Apresente a fórmula de cálculo da matriz
das covariâncias de z, Cov( z ) , a partir de Cov( z | w) e de E ( z | w) .
25. Prove que Cov( w, z ) = Cov{w, E ( z | w)} .
26. Defina, em termos gerais, a população quando o modelo econométrico envolve
dados temporais.
27. Suponha que está interessado em estudar o comportamento conjunto de várias
taxas de juro: a taxa de juro dos títulos do tesouro a 12 meses, r12t , a 6 meses,
r6 t , e a 3 meses, r3t . As observações são feitas no final do trimestre t, e são
anualizadas. Defina a população quando o modelo envolve estas variáveis.
28. Considere as seguintes afirmações: a) a ordem das observações é relevante para
qualquer tipo de dados; b) no caso de dados temporais, a amostragem casual não é
relevante; c) no caso de dados temporais, a população é formada por todas as
observações possíveis de um vector aleatório; d) no caso de dados temporais, a
amostra efectivamente observada é formada pela única realização finita de um
processo estocástico. Quais destas afirmações são verdadeiras?
29. Como sabe, há diferenças essenciais entre dados seccionais e dados temporais.
Indique quatro aspectos, relativamente aos dados, que são relevantes para o estudo
de modelos com dados temporais, mas que não o são para o estudo de modelos
com dados seccionais.
30. Indique a diferença essencial entre dados de painel e dados seccionais combinados
(pooled cross sections).
CAPÍTULO 2
O MODELO DE REGRESSÃO LINEAR CLÁSSICO
2.1 - Apresentação do modelo de regressão linear
Neste capítulo vai considerar-se que o modelo da população é apenas constituí-

do por uma relação de tipo (1.23): y = β1 x1 + β2 x2 + L + βk xk + u = xβ + u . Para o estudo
econométrico é vantajoso apresentar o modelo explicitando um índice t, para permitir
designar qualquer observação possível. Assim, o modelo passa a escrever-se da seguinte
maneira:
(2.1) yt = β1 xt1 + β 2 xt 2 + L + β k xtk + ut ( t ∈ T ),
onde T é um conjunto de índices.

Quando os dados são seccionais, o índice t designa qualquer unidade seccional
da população. Se a população é finita, tem-se T = {1, 2, K , N } , em que N é a dimensão
da população. Em muitas situações (em especial, quando N é muito grande), a popula-
ção pode ser considerada infinita numerável, ou seja, T = {1, 2, K} = N (conjunto dos
números naturais).
Quando os dados são temporais, o índice t designa qualquer data (período ou
momento). Pode ter-se, por exemplo, T = {1, 2, K} = N , T = { 0,1, 2, K} = N 0 (conjunto
dos números inteiros não negativos) ou T = { 0, ± 1, ± 2, K} = Z (conjunto dos números
inteiros). A escolha do conjunto T depende de conveniências analíticas.
O modelo (2.1) é tradicionalmente conhecido pela designação de modelo de re-
gressão linear (MRL), e é o primeiro caso de modelo econométrico a ser estudado. No
MRL pode utilizar-se a seguinte terminologia: a variável yt designa-se por regressan-
do, e as variáveis xt1 , xt 2 , K , xtk chamam-se regressores. Na prática é indiferente repre-
sentar: o regressando por y ou por yt ; os regressores por x j ou por xtj .
A notação das grandezas (variáveis e parâmetros) do MRL pode resumir-se da
seguinte maneira:
− yt é a variável aleatória que representa a observação t ( t ∈ T ) do regressando y.
− xtj é a variável aleatória que representa a observação t ( t ∈ T ) do regressor x j
( j = 1, 2, K , k ) .
− β j é o coeficiente de regressão do regressor x j ( j = 1, 2, K , k ) . Estes parâmetros
são fixos e desconhecidos.
Capítulo 2 – O Modelo de Regressão Linear Clássico 2
− ut é a variável aleatória não observável, variável residual associada à observação t

( t ∈ T ) do regressando e dos regressores. A variável ut (ou u) não é observável por-
que depende dos coeficientes de regressão que são desconhecidos.
Note-se que: variável explicada ou dependente não é sinónimo de regressando;

variável explicativa ou independente não é sinónimo de regressor. Por exemplo, no mo-
delo ln( zt ) = β1 + β 2 xt + β3 xt2 + ut pode considerar-se que a variável explicada é zt , mas
o regressando é yt = ln( zt ) ; a única variável explicativa (genuína) é xt , embora existam
três regressores, 1, xt e xt2 .
Em alternativa, o modelo de regressão linear (2.1) pode apresentar-se com a se-
guinte notação:
(2.2) yt = xt • β + ut ( t ∈ T ),
onde
 β1 
β 
 2
M
xt • = [ xt1 xt 2 L xtj L xtk ] e β =  
β j 
M
 
 β k 
são, respectivamente, o vector 1 × k dos regressores e o vector k × 1 dos coeficientes de

regressão. Diz-se que xt • β é a componente sistemática ou sinal, e que ut é a compo-
nente residual ou ruído. A componente sistemática também se designa por função de
regressão linear (teórica).
Exemplo 2.1 – Retome-se o modelo referido no exemplo 1.4, considerando a respectiva

variável residual,
lsalar = β1 + β 2 educ + β3 exper + β 4 empc + u .
A escolha deste regressando, lsalar, e destes regressores, pressupõe que a semi-

-elasticidade (pontual) de salar em relação a cada variável explicativa é constante. Por
exemplo, β 2 é a semi-elasticidade (pontual) de salar em relação a educ. Neste caso,
tem-se
%∆ salar ≈ 100 β 2 ∆educ .
O valor exacto de %∆ salar é dado por
%∆ salar = 100 (exp{β 2 ∆educ } − 1) .
Como o crescimento percentual do salário é o mesmo por cada ano adicional de
escolaridade, o acréscimo do salário, devido a mais um ano de escolaridade (o retorno
da educação), cresce quando educ aumenta (por cada ano de escolaridade, os acréscimos
de salários são crescentes).
Como vai ver-se na secção seguinte, é crucial conhecer as hipóteses que relacio-
nam a variável residual com as variáveis explicativas. Por exemplo:
− O valor esperado de u, condicionado por educ, exper e empc, é nulo?
− A variância de u, condicionado pelas mesmas variáveis, é constante? Ou depende
dos valores de certas variáveis explicativas?
− A correlação entre u e cada uma das variáveis explicativas é nula? Ou há correlações
significativas entre a variável residual e algumas variáveis explicativas?
As respostas a estas perguntas (e outras) são decisivas para uma adequada análi-
se econométrica do modelo em estudo. Para este efeito (nomeadamente, para a análise
das propriedades dos estimadores dos coeficientes de regressão), é vantajoso explicitar,
para cada variável, um índice t identificador dos trabalhadores que, genericamente, po-
dem ser seleccionadas da população. Assim, tem-se
lsalart = β1 + β 2 educt + β3 expert + β 4 empct + ut .
Este modelo vai ser utilizado para exemplificar as hipóteses básicas do MRL
(ver secção 2.2) e para ilustrar, no presente capítulo, os vários aspectos da análise esta-
tística do MRL.
∇
Dada uma amostra de dimensão n, {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , as n igual-

dades decorrentes do modelo (2.1) podem apresentar-se utilizando a notação matricial.
Com efeito, fazendo
 y1   x11 x12 L x1 j L x1k   u1 
y  x x22 L x2 j L x2 k  u 
 2  21   2
 M  M M M M  M
Y = , X =  , U = ,
y x xt 2 L xtj L xtk u
 t  t1   t
M  M M M M  M
 yn   xn1 xn 2 L xnj L xnk  un 

obtém-se a relação amostral:
(2.3) Y = Xβ + U ,
onde:
− Y é o vector n × 1 das observações (aleatórias) do regressando (por abuso de lingua-
gem, é costume chamar regressando ao vector Y).
− X é a matriz n × k das observações dos regressores. Como em cada coluna desta ma-
triz se encontram as observações de um regressor, é habitual designar X por matriz
dos regressores.
Representando por x• j ( j = 1, 2, K , k ) a coluna das n observações do regressor xtj , e
por x t • (t = 1, 2,K, n) a linha da observação t dos k regressores, tem-se
 x1• 
x 
 2• 
 M 
[
X = x•1 x•2 L x• j L x•k ] = .
 xt • 
 M 
 
 xn• 
Quando o modelo tem termo independente (caso muito frequente), tem-se
1
1
x•1 = e =   .
M 

1
− U é o vector n × 1 das variáveis residuais.
Em alternativa, (2.3) pode escrever-se com as notações seguintes:
(2.4) yt = xt • β + ut (t = 1, 2,K, n) ,
ou
(2.5) Y = β1 x•1 + β 2 x• 2 + L + β j x• j + L + β k x• k + U .
Exemplo 2.2 – Retome-se o exemplo 2.1, e suponha-se que se dispõe de observações de

1000 trabalhadores, ou seja, tem-se uma amostra de dados seccionais de dimensão
1000. Então,
lsalart = β1 + β 2 educ t + β 3 expert + β 4 empc t + ut (t = 1, 2, K ,1000) .
Os dados disponíveis foram obtidos por simulação, e podem ser disponibilizados

aos leitores interessados.
Utilizando a notação (2.3), tem-se
 7.53773 1 11 17 11  β1   u1 
6.31180  1 15 8 8     
 u2 
    β
M  , X = M M M M  , β =   , U =  M  .
2
Y =
 β3   u999 
7.05908 1 12 13 2  
7.27514    β 4   
  1 12 15 3 u1000 
O vector-coluna Y tem 1000 elementos, indicando-se os dois primeiros e os dois

últimos, ( lsalar1 , lsalar2 , K , lsalar999 , lsalar1000 ); a matriz X é de tipo 1000 × 4 , explici-
tando-se as duas primeiras e as duas últimas linhas (os dois primeiros valores, e os dois
últimos valores de educ, exper e empc, respectivamente)
∇
2.2 - Hipóteses básicas do modelo
Nesta secção vão estabelecer-se as hipóteses básicas do modelo de regressão li-

near. Naturalmente, estas hipóteses referem-se ao modelo da população (2.1), e não à
relação amostral (2.3). A primeira hipótese, REX.1, deve ser entendida como um resu-
mo das considerações feitas na secção anterior (o significado do prefixo REX é esclare-
cido mais adiante). Assim:
Hipótese REX.1 - Linearidade

yt = xt • β + ut ( t ∈ T ), onde: yt é o regressando; xt • = [ xt1 xt 2 L xtk ] é o vector 1 × k
dos regressores; β é o vector k × 1 de parâmetros desconhecidos (coeficientes de re-
gressão), não sujeitos a restrições; ut é a variável residual.
Quando, no enunciado da hipótese REX.1, se postula que os coeficientes de re-

gressão não estão sujeitos a restrições, fica estabelecido que não existe informação a
priori sobre aqueles coeficientes sob a forma de igualdades ou desigualdades. Na fun-
ção de produção Cobb-Douglas [ver os exemplos 1.2 e 1.13-b)] poderia introduzir-se a
seguinte restrição: a soma das elasticidades (pontuais) é igual a 1, ou seja, β 2 + β 3 = 1 .
Trata-se de uma igualdade linear que envolve dois dos coeficientes de regressão, e que
tem um significado económico bem conhecido – os rendimentos de escala são constan-
tes.
A segunda hipótese, a mais importante, refere-se à exogeneidade estrita dos re-
gressores.
Hipótese REX.2 – Exogeneidade estrita

O valor esperado de cada variável residual, condicionado por XT = {xs • : s ∈ T } [con-
junto de todas as observações possíveis dos regressores], é nulo. Assim:
(2.6) E (ut | XT ) = 0 (t ∈ T ) .
Nestas condições, diz-se que os regressores são estritamente exógenos.
Podem fazer-se os seguintes comentários:

a) Por exemplo, se T = {1, 2, K} , tem-se XT = {x1• , x2• , K} .
b) Se o modelo tem termo independente, xt1 = 1 , e E (ut | XT ) = θ (constante), facilmen-
te se converte num modelo a verificar REX.2. Com efeito, fazendo,
yt = β1 + β 2 xt 2 + L + β k xtk + ut = ( β1 + θ ) + β 2 xt 2 + L + β k xtk + (ut − θ ) ,
conclui-se imediatamente que o valor esperado condicionado da nova variável resi-

dual é nulo: E (ut − θ | XT ) = 0 .
c) A condição (2.6) é uma hipótese muito forte, uma vez que, em geral, o valor espe-
rado condicionado, E (ut | XT ) , é função das observações dos regressores; a hipó-
tese REX.2 postula que não é.
As propriedades dos valores esperados condicionados apresentadas na secção

1.6 permitem obter algumas consequências da hipótese REX.2:
− O valor esperado não condicionado da variável residual é nulo: E (ut ) = 0 .
Com efeito, com a propriedade a), tem-se E (ut ) = E{E (ut | XT )} = 0 .
− Cada regressor é estritamente exógeno: E (ut | xsj ) = 0 ( t , s ∈ T ; j = 1, 2, K , k ).
Com efeito, utilizando a propriedade c), obtém-se E (ut | xsj ) = E{E (ut | XT ) | xsj } = 0 .
− Do mesmo modo se verifica que E (ut | xs• ) = 0 ( t , s ∈ T ).
− Os regressores são ortogonais às variáveis residuais:
E ( xtj u s ) = 0 ( t , s ∈ T ; j = 1, 2, K , k ).
[esta propriedade pressupõe a seguinte definição: duas variáveis aleatórias são orto-
gonais se e só se o valor esperado do produto é igual a 0].
Com efeito, atendendo às propriedades a) e d),
E ( xtj u s ) = E{E ( xtj u s | xtj )} = E{xtj E (u s | xtj )} = 0 .
Utilizando a notação matricial, tem-se

E ( xt •us ) = 0 ( t , s ∈ T ),
onde 0 é o vector nulo. Este resultado garante que a observação t de cada regressor é
ortogonal, não só à variável residual associada à observação t, mas a qualquer outra
variável residual.
− As covariâncias entre os regressores e as variáveis residuais são nulas:
Cov( xtj , u s ) = 0 ( t , s ∈ T ; j = 1, 2, K , k ).
Com efeito, tem-se

Cov( xtj , us ) = E ( xtj us ) − E ( xtj ) E (us ) = 0 ,
porque E (u s ) = 0 e E ( xtj u s ) = 0 .
Utilizando a notação matricial, vem
Cov( xt • , us ) = 0 ( t , s ∈ T ).
Assim, a observação t de cada regressor não está correlacionada, não só com a variá-
vel residual associada à observação t, mas com qualquer outra variável residual. Dito
de outro modo, não há associação linear entre as respectivas variáveis.
− Qualquer função dos regressores é ortogonal às variáveis residuais:
E{g ( xt • ) us } = 0 ( t , s ∈ T ).
Com efeito,
E{( g ( xt • ) us } = E ( E{g ( xt • ) us | xt • }) = E{g ( xt • ) E (us | xt • )} = 0 .
Daqui resulta que Cov{g ( xt • ), us } = 0 .

O facto de a hipótese REX.2 postular a nulidade do valor esperado condicionado,

E (ut | XT ) = 0 , e não a nulidade das covariâncias, Cov( xt • , us ) = 0 ( t , s ∈ T ) [hipóte-
se mais fraca], significa que se estabelece que não há associação (linear ou não)
entre cada xtj e cada u s . Assim, a hipótese pressupõe que a relação funcional entre
o regressando e os regressores está correctamente especificada.
A violação da hipótese REX.2 pode ter origem numa incorrecta especificação do
modelo, que se pode dever, entre outras causas, a uma deficiente escolha da forma
funcional, à omissão de variáveis explicativas relevantes ou a erros de medida nas
variáveis explicativas. Infelizmente como se trata de uma hipótese sobre a população
nunca é possível ter a certeza da sua veracidade [contudo, existem testes estatísticos
(como o teste RESET; ver a secção 3.8 do capítulo 3) que podem mostrar se a evi-
dência empírica é favorável, em certas condições, à especificação do modelo].
− O valor esperado condicionado do regressando é igual à componente sistemática
do modelo:
E ( yt | XT ) = xt • β (t ∈ T ) ,
o que permite interpretar a variável residual ut como o desvio entre o regressando e

o respectivo valor esperado condicionado: ut = yt − E ( yt | XT ) .
Portanto, o MRL, yt = xt • β + ut , pode ser apresentado sob a forma de um valor es-
perado condicionado estrutural:
E ( yt | XT ) = µ ( xt • ) = xt • β (t ∈ T ) .
A função µ (⋅) é adequada para fazer a análise ceteris paribus de relações de causa-
lidade, estudando os respectivos efeitos parciais (ver secção 1.6).
− Quando se dispõe da amostra {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , a condição (2.6)
implica que E (ut | x1• , x2• , K , xn• ) = 0 ou que E (ut | X ) = 0 (t = 1, 2, K , n) . Pode es-
crever-se E (U | X ) = 0 [e, portanto, E (U ) = 0 ]. Também se tem: E (Y | X ) = Xβ .
Convém fazer ainda mais alguns comentários sobre a hipótese REX.2 e a natu-
reza dos dados:
1) Com dados seccionais e amostragem casual é fácil verificar que, pelo facto de os
vectores aleatórios ( yt , xt • ) serem iid, o mesmo sucede com (ut , xt • ) , já que ut é
função de yt e xt • . Então, pouco importa a distinção entre exogeneidade estrita e
exogeneidade para a mesma unidade seccional. De facto, não é necessário explicitar
como a variável residual relativa à unidade seccional t está relacionada com as ob-
servações dos regressores para outras unidades seccionais, porque ut é independente
de xs• ( s ≠ t ) . Neste caso, tem-se sempre
E (ut | XT ) = E (ut | xt • ) (t ∈ T ) ,
e a hipótese REX.2 reduz-se a E (ut | xt• ) = 0 .

2) Se num modelo de regressão linear com dados temporais se verifica a hipótese da
exogeneidade estrita, então as variáveis residuais são ortogonais às (não estão cor-
relacionadas com as) observações, passadas, presentes e futuras dos regressores.
Um exemplo típico de modelo que pode verificar REX.2 é o MRL estático,

yt = β1 + β 2 xt + ut ,
tal que E (ut | XT ) = 0 . Neste caso, XT = {x1 , x2 , K} , se T = {1, 2, K} .

Outro exemplo, é o MRL dinâmico,
yt = α + δ 0 xt + δ1 xt −1 + L + δ r xt − r + ut ,
com E (ut | XT ) = 0 . Este modelo é conhecido pela designação de MRL com desfa-
samento escalonado finito de ordem r ou DL(r) [DL significa Distributed Lags].
3) É possível encontrar, com facilidade, exemplos de modelos de regressão linear com
dados temporais, em que a hipótese REX.2 não se verifica. Considere-se o modelo
dinâmico
yt = β1 + β 2 yt −1 + ut ,
onde o regressor é a variável y desfasada de um período. Este modelo é designado

por modelo auto-regressivo de 1.ª ordem ou AR(1).
Mesmo supondo que E (ut | yt −1 ) = 0 [ ⇒ E ( yt −1ut ) = 0 ], é fácil verificar que
E ( yt ut ) = E{( β1 + β 2 yt −1 + ut )ut } = β1 E (ut ) + β 2 E ( yt −1ut ) + E (ut2 ) = E (ut2 ) ≠ 0 .
Então, a observação t + 1 do regressor, yt , está correlacionada com ut . Pode mes-

mo provar-se que yt + h ( h = 1, 2, K ) está correlacionada com ut . Conclui-se, assim,
que não existe correlação contemporânea (e, porventura, passada) entre os regresso-
res e as variáveis residuais, mas existe correlação futura.
Considere-se de novo o MRL estático, yt = β1 + β 2 xt + ut . A hipótese REX.2 exclui
a possibilidade de variações da variável residual (ou do regressando) no presente
provocarem variações futuras do regressor. No entanto, é fácil encontrar modelos
estáticos em que, por exemplo, Cov( xt +1 , ut ) ≠ 0 . Com efeito, suponha-se que numa
exploração agrícola se pretende explicar a produção agrícola, yt , em função da
quantidade de trabalho utilizada, xt . Como os valores desta variável podem ser es-
colhidos pelo agricultor, este pode ajustar a quantidade de trabalho no futuro (por
exemplo, xt +1 ) em função da produção agrícola no presente ou no passado (por
exemplo, yt ).
Em Economia, existem muitas situações deste género (variáveis explicativas que po-
dem variar no futuro em função dos valores assumidos, no presente ou no passado,
pela variável explicada) que tornam pouco realista a adopção da hipótese REX.2
para modelos de regressão linear com dados temporais. É o caso do modelo (com
dados temporais), investt = β1 + β 2 tjurot + ut , em que invest é o investimento e tjuro
é a taxa de juro. É de esperar que exista de feedback de invest sobre tjuro (a taxa de
juro no futuro depende do investimento no presente ou passado).
4) Os exemplos anteriores mostram claramente que, em muitos casos, a exogeneidade
estrita dos regressores não se verifica num modelo de regressão linear com dados
temporais. Contudo, quando se supõe que
E (ut | xt • ) = 0 (t ∈ T ) ,
diz-se que os regressores são contemporaneamente exógenos.

Este tipo de exogeneidade permite concluir sem dificuldade que:
− E (ut ) = 0 ;
− E (ut | xtj ) = 0 (cada regressor é contemporaneamente exógeno);
− E ( xt •ut ) = 0 (ortogonalidade contemporânea);
− Cov( xt • , ut ) = 0 (não correlação contemporânea);
− E ( yt | xt • ) = xt • β ;
− ut = yt − E ( yt | xt • ) .
Exemplo 2.3 – Admitindo que os dados são seccionais e a amostragem é casual, supo-
nha-se que era especificado o modelo (ver exemplo 2.1),
lsalart = β1 + β 2 educt + ut ,
omitindo-se as variáveis exper e empc. Assim, a variável residual passa a abranger estes
factores explicativos (para além de outros, como a aptidão, o género, o número de anos
de escolaridade do pai e da mãe do trabalhador, o número de filhos, o local da habita-
ção, etc.).
Como, por exemplo, é de esperar que exper e educ estejam negativamente corre-
lacionados (quando a escolaridade aumenta, a experiência profissional diminui), a variá-
vel residual está correlacionada com educ. Nesta situação, tem-se
E (lsalart | educt ) = β1 + β 2 educt + E (ut | educt ) ,
em que E (ut | educt ) depende de educt . Deste modo, o parâmetro β 2 não mede o efeito
ceteris paribus de educ sobre lsalar, e o modelo não está correctamente especificado.
Note-se que:
∂ E (lsalart | educt ) ∂ E (ut | educt )
= β2 + .
∂ educt ∂ educt
Numa tentativa de melhorar a especificação, inclui-se exper na componente sis-

temática (diz-se, então, que o factor exper é controlado), propondo-se o modelo
lsalart = β1 + β 2 educt + β3 expert + ut ,
onde a variável residual já não inclui exper. Neste caso, deve exigir-se que o valor espe-
rado condicionado, E (ut | educt , expert ) , não dependa dos factores condicionantes. No
entanto, é natural que empc e exper (ou empc e educ) estejam correlacionados, o que
significa que o modelo continua mal especificado (a hipótese REX.2 é violada).
Propõe-se, então,
lsalart = β1 + β 2 educt + β 3 expert + β 4 empct + ut ,
controlando a variável empc.

Se a hipótese REX.2 é verdadeira,
E (ut | educt , expert , empct ) = 0 ,
nenhuma das três variáveis (educ, exper, empc) está correlacionada com a variável resi-
dual: os três regressores são exógenos. Ter-se-ia, então, o seguinte valor esperado con-
dicionado estrutural:
E (lsalart | educt , expert , empct ) = β1 + β 2 educt + β3 expert + β 4 empct .
Para garantir a especificação correcta do modelo não basta afirmar, por exemplo,
que a correlação entre a variável residual e exper é nula, uma vez que esta ausência de
correlação estabelece apenas que não há associação linear entre as duas variáveis. Se
houvesse correlação entre a variável residual e exper 2 , o modelo continuava mal espe-
cificado porque E (ut | educt , expert , empct ) dependia de expert . Nestas circunstâncias,
devia fazer-se
lsalart = β1 + β 2 educt + β 3 expert + β 4 expert 2 + β 5 empct + ut .
No entanto, continua a ser possível que educ esteja correlacionado com a variá-
vel residual, porque educ pode depender de aptid (aptidão da pessoa) ou de mulher.
Embora seja imediato controlar o factor género, não teria sentido controlar o factor
aptid (incluindo-o na componente sistemática do modelo), uma vez que se trata de um
factor não observável. Provavelmente deveria manter-se a especificação do modelo, mas
a hipótese REX.2 era violada. Esta questão será retomada no capítulo 4.
∇
A terceira hipótese refere-se às variâncias das variáveis residuais, condiciona-

das por todas as observações possíveis dos regressores.
Hipótese REX.3 – Homocedasticidade condicionada

Tem-se:
(2.7) Var(ut | XT ) = σ 2 > 0 (t ∈ T ) .

a) A condição (2.7) impõe uma restrição muito forte ao modelo, pois, em geral, a va-
riância condicionada, Var(ut | XT ) , é função das observações dos regressores; no
entanto, na hipótese REX.3 supõe-se que é constante.
b) No caso de amostragem casual, verifica-se sempre que
Var(ut | XT ) = Var(ut | xt • ) ,
e a hipótese REX.3 reduz-se a Var(ut | xt • ) = σ 2 > 0 (t ∈ T ) .
Podem obter-se algumas consequências das hipóteses anteriores:

− Tem-se: E (ut2 | XT ) = σ 2 (t ∈ T ) . Com efeito, basta notar que E (ut | XT ) = 0 .
− A variância não condicionada das variáveis residuais é constante:
Var(ut ) = E (ut2 ) = σ 2 (t ∈ T ) .
− A variância condicionada das observações do regressando é constante:

Var( yt | XT ) = σ 2 (t ∈ T ) .
Este resultado mostra uma diferença essencial entre as hipóteses REX.2 e REX.3.
Enquanto esta hipótese implica que a variância do regressando, condicionada pelos
regressores, não depende destes, a hipótese REX.2 origina que o valor esperado do
regressando, condicionado pelos regressores, já depende.
Note-se que Var( yt ) ≠ σ 2 . Com efeito, atendendo à propriedade h) dos valores espe-
rados condicionados, tem-se
Var( yt ) = E{Var( yt | XT )} + Var{E ( yt | XT )}
= σ 2 + Var( xt • β ) = σ 2 + β T Cov( xt • ) β ≠ σ 2 .
− Também se verifica que: Var (ut | xsj ) = σ 2 ; Var(ut | xs• ) = σ 2 (t ∈ T ) .

− Quando se dispõe da amostra {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , a condição (2.7)
implica que Var(ut | x1• , x2• , K , xn• ) = σ 2 , ou que Var(ut | X ) = σ 2 (t = 1, 2, K , n) .
Também se tem:
− E (ut | X ) = 0 ⇒ Var(ut | X ) = E (ut2 | X ) = σ 2 ;
− Var( yt | X ) = Var(ut | X ) = σ 2 (a variância das observações do regressando, con-
dicionada por X, é constante).
Como Var(ut | XT ) = Var( yt | XT ) é constante (ou seja, não depende de X T ), a

homocedasticidade condicionada significa que a influência dos factores que condicio-
nam o comportamento do regressando apresenta, na sua globalidade, uma dispersão
constante para as várias observações. Deste modo, cada observação yt (condicionada
por X T ) é portadora da mesma quantidade de informação sobre a relação linear sub-
jacente, xt • β , isto é, cada observação está sujeita à mesma incerteza ou “ruído”. Como
Var(ut | XT ) é constante, também se pode afirmar que os factores não observáveis que
influenciam yt têm, na sua globalidade, dispersão constante.
Quando a homocedasticidade condicionada for considerada uma hipótese dema-
siado restritiva, deve admitir-se a possibilidade de as variâncias condicionadas serem di-
ferentes de observação para observação. Neste caso, a variância condicionada de cada
variável residual é função das observações dos regressores,
(2.8) Var(ut | XT ) = σ 2 (XT ) ,
e tem-se uma situação de heterocedasticidade condicionada.

A heterocedasticidade condicionada é pouco frequente em modelos com dados
temporais, mas é particularmente importante em modelos com dados seccionais. Po-
de ocorrer por dois tipos de razões: a) ser uma evidência de especificação deficiente do
modelo, isto é, a componente residual (o ruído) conter factores que, pelo seu comporta-
mento, deveriam ser incorporados na componente sistemática (no sinal); b) ser inerente
ao fenómeno em estudo, considerando-se o modelo bem especificado. No caso a), deve
procurar-se uma reespecificação mais adequada. No caso b), a heterocedasticidade con-
dicionada deve ser encarada como tal, e os parâmetros devem ser estimados utilizando
técnicas apropriadas.
Exemplo 2.4 – Retomando o exemplo 2.3, e continuando a admitir que os dados são
seccionais e a amostragem é casual, a homocedasticidade condicionada significa que
Var(ut | educt , expert , empct ) = σ 2 .
Se, pelo contrário, a variância da variável residual dependesse, por exemplo, dos
valores observados para exper, ter-se-ia
Var(ut | educt , expert , empct ) = σ 2 (expert ) ,
ou seja, uma situação de heterocedasticidade condicionada.

∇
A quarta hipótese refere-se às covariâncias entre as variáveis residuais condi-

cionadas por todas as observações possíveis de todos os regressores.
Hipótese REX.4 – Ausência de autocorrelação

Tem-se:
(2.9) Cov(ut , us | XT ) = 0 (t , s ∈ T ; t ≠ s) .
Demonstra-se sem dificuldade que:

− As hipóteses REX.2 e REX.4 implicam que E (ut us | XT ) = 0 .
− As covariâncias não condicionadas entre as variáveis residuais são nulas:
Cov(ut , u s ) = E (ut u s ) = 0 .
− As covariâncias condicionadas entre as observações do regressando são nulas:

Cov( yt , ys | XT ) = 0 .
Neste caso, tal como acontece com a homocedasticidade condicionada, as covariân-

cias condicionadas entre as observações do regressando não dependem dos regresso-
res.
Como
Cov( yt , ys ) = E{Cov( yt , ys | XT )} + Cov{E ( yt | XT ), E ( ys | XT )}
= 0 + Cov( xt • β , xs • β ) = β T Cov( xt • , xs • ) β ,
resulta Cov( yt , y s ) ≠ 0 , desde que a matriz das covariâncias entre os elementos de

xt • e os elementos de xs • , Cov( xt • , xs • ) , não seja a matriz nula. No caso de amostra-
gem casual, tem-se Cov( xt • , xs • ) = O , e, portanto, Cov( yt , ys ) = 0 .
− Verifica-se que: Cov(ut , u s | xt • , xs• ) = 0 .
− Quando se tem a amostra {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , a condição (2.9) imp-

lica que Cov(ut , u s | x1• , x2• , K , xn• ) = 0 ou que Cov(ut , u s | X ) = 0 , para t ≠ s e para
t , s = 1, 2, K , n .
Tem-se:
− E (ut | X ) = 0 ⇒ Cov(ut , u s | X ) = E (ut u s | X ) = 0 ;
− Cov( yt , y s | X ) = Cov(ut , u s | X ) = 0 ;
− Cov(ut , u s | X ) = 0 ⇒ Cov(ut , u s | xt • , xs• ) = 0 .
Como Cov( yt , ys | XT ) = Cov(ut , us | XT ) = 0 , a ausência de autocorrelação (con-

dicionada por X T ) pode ser interpretada como a não existência de influências recípro-
cas entre as observações do regressando. Deste modo, o conhecimento do valor assumi-
do por uma observação yt do regressando não acrescenta qualquer informação sobre o
comportamento de outra observação. Como Cov(ut , us | XT ) = 0 , a ausência de autocor-
relação traduz uma situação em que as variáveis residuais não se influenciam entre si.
Com dados temporais é muito frequente especificar modelos em que existe au-
tocorrelação, isto é,
(2.10) Cov(ut , us | XT ) ≠ 0 (para algum t ≠ s ).
A presença de autocorrelação pode ter, tal como a heterocedasticidade condicio-

nada, dois tipos bem distintos de causas: a) a autocorrelação é uma manifestação de
má especificação do modelo; b) a autocorrelação é inerente ao processo de amostragem,
aceitando-se que o modelo está bem especificado. O tipo de tratamento a dar ao modelo
em cada uma das situações deve ser encarado nos termos referidos para a heterocedasti-
cidade condicionada.
Em modelos com dados seccionais, praticamente não se põe a questão da exis-
tência de autocorrelação. Se, em particular, a amostra for casual fica garantido que não
existe autocorrelação, uma vez que os vectores aleatórios (ut , xt • ) são iid. Neste caso,
verifica-se sempre que
E (ut us | XT ) = E (ut | xt • ) E (us | xs • ) e Cov(ut , us | XT ) = 0 ,
para t ≠ s . Com efeito,

E (ut us | XT ) = E{E (ut us | us , XT ) | XT } = E{us E (ut | us , XT ) | XT } .
Como a amostragem é casual, tem-se E (ut | us , XT ) = E (ut | x´t • ) . Então,

E (ut us | XT ) = E{us E (ut | xt • ) | XT } = E (ut | xt • ) E (us | XT ) = E (ut | xt • ) E (us | xs • ) .
Quando se dispõe da amostra {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , pode determi-

nar-se a matriz das covariâncias de U, condicionada por X:
 Var(u1 | X ) Cov(u1 , u 2 | X ) L Cov(u1 , u n | X ) 
Cov(u , u | X ) Var (u 2 | X ) L Cov(u 2 , u n | X )
Cov(U | X ) =  2 1
.
 M M M 
 
Cov(u n , u1 | X ) Cov(u n , u 2 | X ) L Var (u n | X ) 
Atendendo às hipóteses REX.3 e REX.4, facilmente se verifica que

σ 2 0 L 0 
 
 0 σ2 L 0 
Cov(U | X ) = σ I n =
2
,
 M M M 
 
 0 0 L σ 2 
onde I n é a matriz identidade de ordem n. Deste modo, tem-se:

(2.11) Cov(U | X ) = E (UU T | X ) = σ 2 I n .

Cov(U ) = E (UU T ) = σ 2 I n .
Também se verifica sem dificuldade que

(2.12) Cov(Y | X ) = σ 2 I n ,
isto é, que as matrizes das covariâncias de U e de Y, respectivamente condicionadas por

X, são iguais.
No entanto, em geral, Cov(Y ) ≠ σ 2 I n . Com efeito, atendendo à propriedade k)
dos valores esperados condicionados, obtém-se
Cov(Y ) = E{Cov(Y | X )} + Cov{E (Y | X )} = σ 2 I n + Cov( Xβ ) ≠ σ 2 I n .
Note-se que o elemento genérico da matriz Cov( Xβ ) é

Cov( xt • β , xs• β ) = β T Cov( xt • , xs• ) β .
Em particular, os elementos da diagonal principal são dados por

Var( xt • β ) = β T Cov( xt • ) β .
A quinta hipótese refere-se apenas aos regressores, e garante que existe a ma-
triz dos valores esperados dos elementos da matriz xtT• xt • , e a respectiva inversa.
Hipótese REX.5 – Condição de característica

A matriz quadrada de ordem k,
(2.13) Qxx = E ( xtT• xt • ) (t ∈ T )
existe e tem inversa.
Comentários:
a) A matriz Qxx = E ( xtT• xt • ) é simétrica, uma vez que
 xt21 xt1 xt 2 K xt1 xtk 
 
x x xt22 L xt 2 xtk 
xt • xt • =  t1 t 2
T
.
 M M M 
 
 xt1 xtk xt 2 xtk L xtk2 
b) A hipótese REX.5 implica que Qxx tem característica igual a k, e é definida positi-
va. Pode, então, afirmar-se que a hipótese falha se e só se um dos regressores é com-
binação linear de outros regressores.
Por exemplo se yt = β1 + β 2 ln( xt ) + β3 ln( xt2 ) + ut , tem-se
 1   1 ln( xt ) 2 ln( xt ) 
 
xtT• xt • =  ln( xt )  [ 1 ln( xt ) 2 ln( xt )] =  ln( xt ) {ln( xt )}2 2{ln( xt )}2  ,

2 ln( xt ) 2 ln( xt ) 2{ln( xt )}2 4{ln( xt )}2 
e verifica-se que, por exemplo, a terceira coluna é o dobro da segunda. Em casos co-
mo este, diz-se que o modelo da população tem multicolinearidade exacta ou per-
feita. A condição de característica não exclui a possibilidade de haver correlações en-
tre regressores; contudo, não permite que estas correlações sejam perfeitas.
c) Quando se dispõe da amostra {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , pode concluir-se
que, em certas condições de regularidade (ver capítulo 3), a hipótese REX.5 implica
que a característica da matriz X é igual a k (número de coeficientes de regressão),
r ( X ) = k , com probabilidade 1. Isto significa que, dada a sucessão de acontecimen-
tos {Cn : n = k , k + 1, K} , onde Cn = {numa amostra de dimensão n, r ( X ) = k} , tem-se
lim P(Cn ) = 1 .
n → +∞
Assim, é praticamente certo que as colunas de X são linearmente independentes [a

coluna das observações de um regressor não é, quase certamente, combinação linear
das colunas das observações de outros regressores]. Caso contrário, diz-se que, na
amostra, há multicolinearidade exacta ou perfeita.
d) A hipótese REX.5 também implica que, quase certamente, existe ( X T X ) −1 , o que
tem uma importância decisiva, como vai ver-se, para a estimação dos coeficientes de
regressão pelo método dos mínimos quadrados.
e) Suponha-se que a característica de X é igual a k: r ( X ) = k . Esta condição significa
que, na amostra (e, portanto, na população), não existem relações lineares exactas en-
tre os regressores. Como a matriz X é n × k , decorre que k ≤ n (o número de obser-
vações não pode ser inferior ao número de coeficientes de regressão). A diferença
n − k designa-se por número de graus de liberdade do modelo. O seu significado é
esclarecido mais adiante.
Exemplo 2.5 – Considere-se, de novo, o modelo,

lsalart = β1 + β 2 educt + β 3 expert + β 4 empct + ut .
Como
xt • = [ 1 educt expert empct ],
a matriz Qxx = E ( xtT• xt • ) é dada por

 1 E (educt ) E (expert ) E (empct ) 

 E (educ ) 2
E (educt ) E (educt × expert ) E (educt × empct ) 
 t
.
 E (expert ) E (educt × expert ) E (expert 2 ) E (expert × empct )
 
 E (empct ) E (educt × empct ) E (expert × empct ) E (empct2 ) 
Se a população fosse constituída apenas pelos trabalhadores que estão no seu
primeiro emprego, é evidente que REX.5 não se verificava, pois expert = empct [a
matriz Qxx teria característica inferior a 4, uma vez que as terceira e quarta colunas (li-
nhas) seriam iguais], e só se podia estimar β 3 + β 4 .
Numa situação destas, seria aconselhável alterar a especificação do modelo (eli-
minando, por exemplo, o regressor exper) ou redefinir a população (considerando, por
exemplo, o conjunto de todos os trabalhadores da região).
Mesmo para a população de todos os trabalhadores – mantendo a primeira espe-
cificação –, podia ter-se multicolinearidade exacta na amostra se todas as pessoas se-
leccionadas estivessem no primeiro emprego (a matriz X teria duas colunas iguais). Na-
turalmente é muito improvável a ocorrência desta amostra quando a população tem mui-
tos trabalhadores que não estão no primeiro emprego.
∇
A análise feita na presente secção pode resumir-se na seguinte definição:
Definição 2.1 – Modelo de regressão linear clássico

O modelo de regressão que verifica as hipóteses REX.1 a REX.5 é designado por mode-
lo de regressão linear clássico (MRLC). Os parâmetros desconhecidos deste modelo
são β1 , β 2 , K , β k e σ 2 .
As hipóteses são designadas com o prefixo REX para lembrar que os regresso-
res são estritamente exógenos.
O MRLC tem particular vocação para o estudo de relações entre variáveis com
dados seccionais e amostragem casual. No entanto, há situações interessantes em que
o MRLC para séries temporais permite estimar razoavelmente alguns efeitos parciais
relativos a variáveis macroeconómicas. É o caso do efeito da taxa de inflação, ou da
proporção do défice orçamental em relação ao PIB, sobre a taxa de juro.
Habitualmente, a expressão “modelo de regressão linear clássico” estava reser-
vada para designar o “modelo de regressão linear com regressores fixos”, tão conhe-
cido do estudo tradicional da Econometria. Neste modelo, supõe-se que, para a observa-
ção t, se obtém um valor para o regressando, e certos valores para os regressores; se fos-
se possível repetir a experiência, ainda para a observação t, podia obter-se outro valor
para o regressando, mas os valores dos regressores eram os mesmos. Deste modo, para
cada observação, o valor do regressando podia flutuar de amostra para amostra, mas os
valores dos regressores eram constantes.
Facilmente se conclui que esta concepção do modelo pode ser interessante para
gerar dados experimentais, mas não é compatível com o tipo de hipóteses que se po-
dem considerar num MRL em Economia. Por exemplo, estaria eliminada, por natureza,
a possibilidade de haver correlação não nula entre a variável residual e qualquer
regressor (admitir que há regressores exógenos pressupõe a possibilidade de existirem,
também, regressores endógenos). Para ilustrar o contra-senso da hipótese dos
regressores fixos, considere-se a seguinte afirmação (que aparece em muitos manuais de
econometria): “ σ 2 = Var(ut ) = Var( yt ) , qualquer que seja t”. Esta afirmação é falsa
quando os regressores são aleatórios, mas é verdadeira quando os regressores são fixos.
Trata-se de uma situação em que a hipótese dos regressores fixos conduz a conclusões
contra-intuitivas. De facto, suponha-se que w é um factor explicativo de y, está incluído
na variável residual e não está correlacionado com os regressores. Quando se dispõe de
observações de w, esta variável pode ser acrescentada à lista dos regressores. Neste ca-
so, a variável residual muda, bem como a respectiva variância (é menor do que a an-
terior). Deste modo, a hipótese dos regressores fixos pressupõe que existe sempre a pos-
sibilidade de aceder a todos os factores explicativos possíveis de controlar; só deste mo-
do fica garantido que não haverá qualquer factor w, inicialmente abrangido pela compo-
nente residual, que possa ser “transferido” para a componente sistemática. Esta especifi-
cação perfeita do modelo é praticamente impossível em grande parte das aplicações eco-
nométricas (não se pode exigir ao analista capacidades que ele quase nunca pode ter).
Como o modelo com regressores fixos não é objecto de estudo neste texto, reser-
va-se a sigla MRLC para designar o modelo de regressão linear com regressores estrita-
mente exógenos.
2.3 - Estimação dos coeficientes de regressão pelo método dos mínimos quadrados
Dada uma amostra de dimensão n, {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , é possível

estimar o vector dos coeficientes de regressão, β . Para cada observação tem-se, como
se sabe, yt = xt • β + ut . Embora a variável residual não seja observável, porque depende
dos coeficientes de regressão (desconhecidos), é possível calcular os desvios
~
u~t = yt − xt • β ,
~
em que β é um qualquer valor hipotético de β . Ao desvio u~t dá-se o nome de resíduo
~
relativo à observação t quando β = β . Pode escrever-se
 u~1 
u~ 
 2
~ M ~
U =  ~  = Y − Xβ .
u
 t
M
u~n 
O método habitualmente utilizado para estimar os coeficientes de regressão, β ,

consiste em minimizar a soma dos quadrados dos resíduos. Este critério (método dos
mínimos quadrados) impõe uma penalização forte para os resíduos grandes, e escolhe
~
um valor β que evite resíduos elevados para poucas observações à custa de tolerar re-
síduos relativamente pequenos para muitas observações. Deste modo, consegue garan-
tir-se um compromisso que permite obter um estimador com propriedades desejáveis
(ver secção 2.5).
Definição 2.2 – Estimador dos mínimos quadrados dos coeficientes de regressão

O estimador dos mínimos quadrados (estimador MQ) de β é aquele que minimiza a so-
~
ma dos quadrados dos resíduos (função de β ),
~ ~ ~ ~ ~
ϕ ( β ) = ∑t =1 u~t2 = U T U = (Y − Xβ )T (Y − Xβ ) .
n
(2.14)
Representando o estimador MQ por b, tem-se

~
b = argmin
~
ϕ ( β ).
β
~ ~
Quando se minimiza ϕ ( β ) em ordem a β está a supor-se, como é evidente, que
~
β varia no respectivo espaço-parâmetro, isto é, que pode ser qualquer ponto deste es-
paço. A relação que existe entre β (vector desconhecido dos coeficientes de regressão),
~
b (a respectiva estimativa MQ de β ) e β (valor hipotético de β ) está ilustrada na figu-
ra 2.1, para o caso em que estas três grandezas são escalares. De acordo com a conven-
ção estabelecida na secção 1.6 do capítulo 1, vai utilizar-se o mesmo símbolo para re-
presentar o estimador e as respectivas estimativas.
Fig. 2.1 – Ilustração do método dos mínimos quadrados.
O estimador b pode ser obtido recorrendo ao cálculo diferencial. Com efeito,

derivando
~ ~ ~ ~ ~ ~ ~ ~
ϕ ( β ) = U T U = (Y − Xβ )T (Y − Xβ ) = Y T Y − 2 β T X T Y + β T X T Xβ ,
~
em ordem a β , obtém-se
~ ~
∇ϕ ( β ) = −2 X T Y + 2 X T X β ,
~ ~
onde ∇ϕ ( β ) é o gradiente de ϕ em ordem a β (vector k × 1 das derivadas parciais). O
minimizante b, que resulta da anulação do gradiente, verifica a seguinte igualdade:
(2.15) X T X b = X TY .
Sem dificuldade se verifica que
 ∑ n xt21 ∑
n
x x L ∑
n
x x 
 t =1 t =1 t 1 t 2

t =1 t1 tk
 x x 
∑t =1 xt 2 xt1 ∑ ∑
n n 2 n
x L
X X =
T t =1 t 2 t =1 t 2 tk 
,
 M M M 
 
 n x x 2 
 ∑t =1 tk t1 ∑ ∑t =1 xtk 
n n
x x
t =1 tk t 2
L
onde o elemento genérico desta matriz é Σtn=1 xti xtj (i, j = 1, 2, K , k ) , e

 ∑ n xt1 yt 
 t =1 
 n x y
X TY = 
∑t =1 t 2 t  ,
 M 
 
 n x y
 ∑t =1 tk t 
onde o respectivo elemento genérico é Σtn=1 xtj yt ( j = 1, 2, K , k ) .
No caso particular em que há termo independente, tem-se
∑ ∑ x x = ∑t =1 xtj ( j = 2, K , k ) , ∑ x y = ∑t =1 yt ,
n n n n n
x =n,
2
t =1 t1 t =1 t 1 tj t =1 t 1 t
uma vez que xt1 = 1 (t = 1, 2, K , n) .

Note-se que a igualdade (2.15) é um sistema de k equações lineares – as equa-
ções normais dos mínimos quadrados – nas k incógnitas b j ( j = 1, 2, K , k ) . Pode, en-
tão, escrever-se:
 n 2   n   n 
 ∑t =1 xt1  b1 +  ∑t =1 xt1 xt 2  b2 + L +  ∑t =1 xt1 xtk  bk = ∑t =1 xt1 yt
n
     
 n   n 2  n 
 ∑t =1 xt 2 xt1  b1 +  ∑t =1 xt 2  b2 + L +  ∑t =1 xt 2 xtk  bk = ∑t =1 xt 2 yt
n
(2.16)      
L

 n  b +  n x x  b + L +  n x2  b = n x y .

 ∑ t =1
xtk xt 1  1  ∑t =1 tk t 2  2
  
 ∑t =1 tk  k ∑t =1 tk t
 

Supondo que existe a matriz inversa de X T X , a solução do sistema (2.15) for-
nece o estimador MQ:
 b1 
b 
 2
M
(2.17) b =   = ( X T X ) −1 X T Y ,
b
 j
M
bk 
onde cada b j é o estimador MQ do respectivo β j ( j = 1, 2, K , k ) .

~
Trata-se, de facto, do minimizante absoluto de ϕ ( β ) , pois a matriz das segundas
~
derivadas (a hesseana), ∇ 2ϕ ( β ) = 2 X T X , é definida positiva. No anexo 2A é apresen-
tado outro modo de obter o estimador MQ (a técnica “soma e subtrai”). Pode, também,
utilizar-se o símbolo β̂ MQ , em vez de b, para representar o estimador MQ de β .
Recorrendo a algumas das hipóteses do MRLC, o vector β dos coeficientes de
regressão pode ser determinado, de forma unívoca, exclusivamente à custa de momen-
tos da população que envolvem apenas variáveis observáveis. Com efeito, sejam as se-
guintes condições:
− Condição de ortogonalidade: E ( xtT•ut ) = 0 ;
− Condição de característica: r (Qxx ) = k , onde Qxx = E ( xtT• xt • ) .
Considerando a condição de ortogonalidade, e notando que ut = yt − xt • β , vem
E{xtT• ( yt − xt • β )} = E ( xtT• yt ) − E ( xtT• xt • ) β = 0 ,
obtendo-se o sistema de k igualdades

E ( xtT• xt • ) β = E ( xtT• yt ) ,
que mostra a existência de um conjunto de k restrições sobre a distribuição conjunta de

yt e xt • . Atendendo à condição de característica, sai, sem dificuldade,
(2.18) β = {E ( xtT• xt • )}−1 E ( xtT• yt ) = Qxx−1q xy ,
onde Qxx = E ( xtT• xt • ) e q xy = E ( xtT• yt ) . Deste modo, β é univocamente obtido a partir

de valores esperados da população que envolvem apenas variáveis observáveis. Diz-se,
então, que se identificou β [neste contexto, o problema da identificação do vector dos
parâmetros consiste em conhecer uma única forma de exprimir este vector em função de
momentos da população que envolvam apenas variáveis observáveis].
Vale a pena explorar o caso particular do modelo de regressão linear simples
com termo independente: yt = β1 + β 2 xt + ut . As duas restrições são as seguintes:
 β1 + E ( xt ) β 2 = E ( yt )

 E ( xt ) β1 + E ( xt ) β 2 = E ( xt yt ) .
2
Daqui, obtém-se
 E ( xt yt ) − E ( xt ) E ( yt ) Cov( xt , yt )
β 2 = =
(2.19)  E ( xt2 ) − {E ( xt )}2 Var( xt )
β = E ( y ) − β E ( x ) .
 1 t 2 t
Uma vez identificado β , é possível encontrar outra via para determinar o res-
pectivo estimador MQ, que consiste em substituir os valores esperados da população,
Qxx e q xy , pelas respectivas médias amostrais:
1 n T 1 n
S xx =
n
∑ x x e s xy = ∑t =1 xtT• yt .
t =1 t • t •
n
Assim, a contrapartida amostral de {E ( xtT• xt • )}−1 E ( xtT• yt ) = Qxx−1qxy é dada por
−1
1 n T  1 n T
 ∑t =1 xt • xt •  ∑ x y = S xx−1sxy .
t =1 t • t
 n  n
Como
∑ ∑
n n
t =1
xtT• xt • = X T X e t =1
xtT• yt = X T Y ,
facilmente se verifica que

b = ( X T X ) −1 X T Y = S xx−1sxy .
Esta via de obtenção de b ilustra um princípio geral de obtenção de estimadores,

conhecido pela designação de princípio da analogia, uma vez que se considera a con-
trapartida amostral de certos momentos da população. Neste caso, trata-se de uma apli-
cação do método dos momentos.
A notação b = ( X T X ) −1 X T Y é mais adequada para o estudo das propriedades
exactas do estimador b; a outra notação, b = S xx−1s xy , é mais interessante para estabelecer
as respectivas propriedades assintóticas (ver capítulo 3).
Notando que
b = ( X T X ) −1 X T Y = ( X T X ) −1 X T ( Xβ + U ) = β + ( X T X ) −1 X T U ,
o desvio entre o estimador MQ e o verdadeiro valor do vector dos coeficientes de re-
gressão é dado por
(2.20) b − β = ( X T X ) −1 X T U .
Este desvio, designado por erro de amostragem, nunca pode ser determinado
de forma exacta porque β é desconhecido (U não é observável).
Exemplo 2.6 – Considerando de novo o exemplo 2.2, tem-se:

 1000 12609 11967 7256  6817.15962 5.815050
     
12609 164983 150520 92005 86283 .13112 0.055383
X T X =  

, X TY =  


, b= .
11967 150520 165085 86177 82060.65240 0.022988
     
 7256 92005 86177 76752  49573.99911 0.003953
Assim:
− A estimativa MQ da semi-elasticidade (pontual) do salário em relação ao número de
anos de escolaridade (retorno da educação) é igual a 0.0554, isto é, se a escolaridade
aumentar de um ano, o salário cresce, ceteris paribus, aproximadamente 5.54%.

anos de experiência profissional é de 0.023. Assim, por cada ano de experiência, o
efeito parcial sobre o salário é de mais 2.3%.
anos de trabalho no emprego corrente é de 0.004. Portanto, o respectivo efeito par-
cial é, aproximadamente, 0.4%.
− Os sinais das três estimativas coincidem com os sinais esperados para os respectivos
parâmetros.
∇
A seguir vai apresentar-se a fórmula do estimador MQ, (2.17), para alguns casos
particulares:
a) Modelo de regressão linear simples com termo independente:
Como yt = β1 + β 2 xt + ut , tem-se
 n x   n y 
∑ ∑ t
n
− X X = n
T t =1 t
, X T Y =  n t =1  ,
 x   xy
∑t =1 t ∑ ∑t =1 t t 
n 2
x t =1 t
 n x2 − n x 
− (X X ) =
T −1 1  ∑t =1 t ∑t =1 t  .
 
n∑t =1 xt2 −  ∑t =1 xt  − ∑t =1 xt
2 n
n n n

 
Donde
 n x2 − n x   n y 
 ∑t =1 t ∑t =1 t   ∑t =1 t  ,
 b1  1
b= =
−  n x y 
 ∑t =1 t  ∑t =1 t t 
2 n
b2 
  n∑t =1 xt2 −  ∑t =1 xt  x n
n n
 
ou

∑ ∑ ∑ ∑
n n n n
b = t =1
xt
2
t =1
y t − t =1
xt t
xy
=1 t t
,
 1
 
2
n∑t =1 xt −  ∑t =1 xt 
n 2 n

  
(2.21) 
n ∑t =1 xt yt − ∑t =1 xt ∑t =1 yt
n n n

b
 2 = 2
.
 
n∑t =1 xt −  ∑t =1 xt 
n 2 n 
  
Fazendo
1 n 1 n
y=
n ∑ t =1
yt e x = ∑t =1 xt ,
n
facilmente se mostra que
∑ ( xt − x ) 2 = ∑t =1 xt2 − n x 2 , ∑ ( xt − x )( yt − y ) = ∑t =1 xt yt − n x y .
n n n n
t =1 t =1
Então, pode verificar-se que as fórmulas (2.21) são equivalentes às seguintes:


∑
n
b = ( xt − x )( yt − y ) s xy sy
t =1
= = r
∑
2 xy
(2.22) 
n
( xt − x ) 2 s x2 sx
t =1

b1 = y − b2 x ,
onde
1 n 1 n 1 n sxy
s y2 = ∑
n t =1
( yt − y ) 2
, s 2
x = ∑
n t =1
( xt − x ) 2
, s xy = ∑
n t =1
( xt − x )( yt − y ) , rxy =
sx s y
.
De acordo com o princípio da analogia, (2.22) é a contrapartida amostral de (2.19).

Note-se, também, que
1 x   y 
S xx =   e sxy =  .
 x (1 / n)∑t =1 xt2  (1 / n)∑t =1 xt yt 
n n
   
b) Modelo de regressão linear simples sem termo independente: yt = β xt + ut .
Tem-se
1
X T X = ∑t =1 xt2 , X T Y = ∑t =1 xt yt , ( X T X ) −1 = n
n n
,
∑t =1 t
x 2
e
∑
n
xy
t =1 t t
(2.23) b= .
∑
n 2
t =1 t
x
c) Modelo de regressão linear simples só com termo independente: yt = β + ut .

Obtém-se
1
X T X = n , X T Y = ∑t =1 yt , ( X T X ) −1 =
n
n
e
∑
n
yt
(2.24) b= t =1
= y.
n
Verifica-se um resultado bem conhecido: o estimador MQ de E ( yt ) = β é a média
das observações do regressando.
Uma vez determinado o estimador MQ dos coeficientes de regressão, podem de-

finir-se os respectivos resíduos e os valores ajustados das observações do regressando.
Definição 2.3 – Resíduos MQ e valores ajustados das observações do regressando

O resíduo dos mínimos quadrados relativo à observação t é dado por
(2.25) uˆt = yt − yˆt ( t = 1, 2, K , n ),
onde yˆt = xt •b = b1 xt1 + b2 xt 2 + L + bk xtk é o valor ajustado da observação t do regressan-

do.
O vector n × 1 dos resíduos MQ e o vector n × 1 dos valores ajustados das ob-

servações do regressando são, respectivamente,
 uˆ1   yˆ1 
uˆ   yˆ 
 2  2
M M
Uˆ =   e Yˆ =   = X b .
 uˆt   yˆ t 
M M
   
uˆ n   yˆ n 
É imediato concluir que Ŷ é o estimador do valor esperado de Y, condicionado
por X: Yˆ = Eˆ (Y | X ) .
Tem-se
(2.26) Uˆ = Y − Xb = Y − Yˆ .
É habitual chamar à função em que ŷt depende dos x tj ( j = 1, 2, K , k ) ,
(2.27) yˆ t = b1 xt1 + b2 xt 2 + L + bk xtk ,
função de regressão linear ajustada. Esta designação tem por finalidade salientar o
facto de esta função ter sido estimada e, portanto, de ser conhecida por meio de um pro-
cedimento empírico.
Não se deve confundir a função de regressão linear da população, µ ( xt • ) = xt • β ,
com a função de regressão linear ajustada (amostral), yˆ t = xt •b ; também não se deve
confundir as variáveis residuais, ut , com os resíduos MQ, ût . Facilmente se conclui que
se têm duas formas distintas de decompor yt : yt = µ ( xt • ) + ut e yt = yˆ t + uˆt . A primeira
refere-se à população, e a segunda à amostra.
O critério dos mínimos quadrados pode interpretar-se facilmente no caso do
modelo de regressão linear, yt = β1 + β 2 xt + ut , onde a componente sistemática é dada
por µ ( xt ) = β1 + β 2 xt . Esta componente é a função de regressão linear (recta teórica)
desconhecida, uma vez que os coeficientes de regressão são desconhecidos.
Quando se dispõe de n observações das duas variáveis do modelo, tem-se o res-
pectivo diagrama de dispersão:
{( yt , xt ) ∈ ℜ2 : t = 1,2, K , n } ,
que, por exemplo, corresponde à “nuvem” de pontos da figura 2.2. A função de re-
gressão linear estimada pelo método MQ (recta estimada), yˆt = b1 + b2 xt , é aquela que
“melhor” se ajusta à “nuvem” de pontos de ℜ 2 (ver figura 2.2).
Assim, deve distinguir-se entre (ver figura 2.3):
− O ponto [ xt , µ ( xt ) ], que se encontra sobre a recta teórica;
− O ponto ( xt , yˆt ) , que está sobre a recta estimada;
− O ponto ( xt , yt ) , que corresponde aos valores observados.
Então:
− yt − µ ( xt ) = ut é o valor da variável residual (não observável, uma vez que β1 e β 2

são desconhecidos);
− yt − yˆt = uˆt é o resíduo MQ relativo à observação t.
Fig. 2.2 – Diagrama de dispersão.
yt E (Y ) = β 1 + β 2 x
 
 u t
 
û t 
 yˆ = b1 + b2 x

0 xt x
Fig. 2.3 – Rectas teórica e ajustada.
Exemplo 2.7 – Retomando o exemplo 2.6, a respectiva função ajustada é a seguinte:

^
lsalart = 5.81505 + 0.055383 educt + 0.022988 expert + 0.003953 empct .
Os vectores dos valores ajustados das observações do regressando e dos resíduos

(os dois primeiros e os dois últimos) são, respectivamente,
6.85855  0.67918
   
 6.86923 − 0.55743
Yˆ =  M  e Uˆ =  M .
   
6.78640  0.27268
 6.83633  0.43881
   
8
7.5
6.5
5.5
0 10 20 30 40 50 60 70 80 90 100
Observado Ajustado
Fig. 2.4 – Primeiras 100 observações de lsalar e respectivos valores ajustados.
1.5
0.5
-0.5
-1
-1.5
0 10 20 30 40 50 60 70 80 90 100
Resíduos
Fig. 2.5 – Primeiros 100 resíduos MQ.
Na figura 2.4 apresenta-se o gráfico das observações do regressando (lsalar) e

dos respectivos valores ajustados, para os primeiros 100 trabalhadores (como os dados
são seccionais, a ordem dos trabalhadores que fazem parte da amostra é irrelevante). Na
figura 2.5 pode ver-se a representação gráfica dos respectivos resíduos.
O primeiro resíduo (0.67918) mostra que o modelo ajustado prevê, para o logari-
tmo do salário o valor 6.85855 que é inferior àquele que foi observado (7.53773). Como
o segundo resíduo é negativo (– 0.55743), o valor previsto (6.86923) é superior ao valor
observado (6.31180).
∇
2.4 - Propriedades dos resíduos dos mínimos quadrados
Esta secção destina-se a apresentar as propriedades dos resíduos MQ.
Propriedade 2.1 – A matriz PX = I n − X ( X T X ) −1 X T é simétrica ( PXT = PX ), idempo-

tente ( PX PX = PX2 = PX ), e transforma as observações do regressando nos resíduos MQ,
(2.28) Uˆ = PX Y .
Demonstração: Com efeito, é imediato verificar que PX é simétrica e idempotente. Para

verificar (2.28) faz-se
Uˆ = Y − Xb = Y − X ( X T X ) −1 X T Y = {I n − X ( X T X ) −1 X T }Y = PX Y .
∇∇
Propriedade 2.2 – A matriz PX transforma as variáveis residuais nos resíduos MQ,

(2.29) Uˆ = PX U .
Demonstração: Com efeito,

Uˆ = PX Y = PX ( Xβ + U ) = PX Xβ + PX U .
Como PX X = {I n − X ( X T X ) −1 X T } X = O (matriz nula), obtém-se o resultado
pretendido.
∇∇
As duas propriedades anteriores permitem obter o vector Û a partir do vector Y,

ou do vector U, pré-multiplicando estes vectores pela matriz simétrica, idempotente,
PX . Na demonstração da propriedade 2.2 provou-se, também, que PX X = O .
Propriedade 2.3 - A matriz H X = X ( X T X ) −1 X T = I n − PX é simétrica, idempotente, ve-

rifica H X PX = O e transforma as observações do regressando nos respectivos valores
ajustados,
(2.30) Yˆ = H X Y .
Demonstração: Facilmente se verifica que H X = H XT e H X = H X2 , ficando provado que

H X é simétrica e idempotente. É imediato concluir que H X = I n − PX e H X PX = O .
Para demonstrar (2.30), basta notar que
Yˆ = Xb = X ( X T X ) −1 X T Y = H X Y .
∇∇
A propriedade anterior mostra que pode obter-se o vector Ŷ à custa do vector Y,

pré-multiplicando este vector pela matriz simétrica, idempotente, H X . Facilmente se
mostra que H X X = X .
As matrizes H X e PX = I n − H X desempenham um papel fundamental na álge-

bra dos mínimos quadrados. Como estas matrizes são simétricas e idempotente, e como
tr ( H X ) = tr{ X ( X T X ) −1 X T } = tr{ X T X ( X T X ) −1} = tr ( I k ) = k ,
pode concluir-se que:

r ( H X ) = tr ( H X ) = k e r ( PX ) = tr ( PX ) = tr ( I n ) − tr ( H X ) = n − k .
Sejam
ht = xt • ( X T X ) −1 xtT• e pt = 1 − ht (t = 1, 2, K , n)
os elementos da diagonal principal das matrizes H X e PX , respectivamente. Conclui-se

imediatamente que 0 ≤ ht ≤ 1 e 0 ≤ pt ≤ 1 . Também se tem
tr ( H X ) = ∑t =1 ht = k , tr ( PX ) = ∑t =1 pt = n − k e ∑ h + ∑t =1 pt = n .
n n n n
t =1 t
Propriedade 2.4 – A soma dos quadrados dos resíduos MQ é
∑ uˆt2 = Uˆ T Uˆ = Y T PX Y = U T PX U .
n
(2.31) t =1

Uˆ T Uˆ = Y T PXT PX Y = Y T PX2Y = Y T PX Y .
Da mesma forma se demonstra que Uˆ T Uˆ = U T PX U .

∇∇
Note-se que Uˆ TUˆ = Y T PX Y = Y T {I − X ( X T X ) −1 X T }Y é o mínimo absoluto de

~
ϕ ( β ) [soma dos quadrados dos resíduos].
Propriedade 2.5 – O valor esperado da soma dos quadrados dos resíduos MQ, condi-
cionado por X, é dado por
E  ∑t =1 uˆt2 | X  = E (Uˆ TUˆ | X ) = (n − k )σ 2 .

n
(2.32)
 
Demonstração: Com efeito, notando que tr ( PX ) = n − k , tem-se

E (Uˆ TUˆ | X ) = E (U T PX U | X ) = E{tr (U T PX U ) | X } = E{tr ( PX UU T ) | X }
= tr{E ( PX UU T | X )} = tr{PX E (UU T | X )} = σ 2 tr ( PX ) = (n − k )σ 2 .
∇∇
E  ∑t =1 ut2 | X  = E (U TU | X ) = nσ 2 .
n
 
Intuitivamente, o valor esperado condicionado de (2.32) não é nσ 2 , como acon-

tece com a soma dos quadrados dos ut , mas sim (n − k )σ 2 , porque houve a necessidade
de estimar previamente os k coeficientes de regressão.
Também se conclui que: E (Uˆ T Uˆ ) = (n − k )σ 2 .
Propriedade 2.6 – A soma dos quadrados dos valores ajustados das observações do re-
gressando é
∑ Yˆ = Yˆ T Yˆ = Y T H X Y .
n 2
(2.33) t =1 t

Yˆ T Yˆ = Y T H TX H X Y = Y T H X2 Y = Y T H X Y .
∇∇
Propriedade 2.7 – O vector dos resíduos MQ é ortogonal aos regressores,
X TUˆ = 0 ⇔ ∑t =1 xtj uˆt = 0 ( j = 1, 2,K , k ) .

n
(2.34)
Demonstração: Com efeito, X TUˆ = X T PX U = 0 , uma vez que X T PX = O .

∇∇
A relação X TUˆ = 0 constitui um sistema homogéneo de k equações independen-

tes nas n incógnitas uˆ1 , uˆ 2 , K , uˆ n . O grau de indeterminação deste sistema é n − k , o nú-
mero de graus de liberdade do modelo. Isto significa que os resíduos MQ estão su-
jeitos a k restrições lineares, e, portanto, apenas n − k podem variar livremente. Dados
n − k valores para os resíduos, os outros k valores podem ser calculados resolvendo o
sistema X TUˆ = 0 .
O resultado (2.34) também podia ser obtido imediatamente a partir das equações
normais. Com efeito, X T X b = X T Y implica que X T (Y − X b) = X TUˆ = 0 [obviamente,
o mesmo resultado podia ser obtido a partir das k igualdades (2.16)].
Como
1 n
X TUˆ = 0 ⇔ ∑t =1 xt •uˆt = 0 ,
n
facilmente se conclui que as equações normais podem ser interpretadas como a con-
trapartida amostral (empírica) das condições de ortogonalidade, E ( xt •ut ) = 0 .
Propriedade 2.8 – O vector dos resíduos MQ é ortogonal a Ŷ ,
Uˆ T Yˆ = Yˆ T Uˆ = 0 ⇔ ∑t =1 uˆt yˆ t = 0 .
n
(2.35)
Demonstração: Com efeito, devido a (2.34), tem-se Uˆ T X = 0 . Logo,

Yˆ TUˆ = Uˆ T Yˆ = Uˆ T X b = 0 .
∇∇
O resultado (2.35) também se pode provar a partir das propriedades 2.1 e 2.3.
Com efeito, basta notar que
Uˆ T Yˆ = Yˆ TUˆ = Y T H X PX Y = 0 .
Propriedade 2.9 - Se o modelo tem termo independente, então a soma dos resíduos MQ
é igual a zero:
∑
n
(2.36) t =1
uˆt = 0 .
Demonstração: Com efeito, como a primeira coluna de X é x•1 = e = [ 1 1 L 1 ] T , e sa-

bendo que X TUˆ = 0 , obtém-se
x•T1Uˆ = 0 ⇔ eT Uˆ = 0 ⇔ ∑t =1 uˆt = 0 .
n
∇∇
Esta propriedade é a contrapartida amostral de E (ut ) = 0 .

Quando o modelo não tem termo independente, a soma dos resíduos MQ, em ge-
ral, não é nula.
O resultado (2.36) pode demonstrar-se directamente a partir da primeira igualda-
de de (2.16), fazendo xt1 = 1. Com efeito, tem-se
∑ uˆ = ∑t =1{ yt − (b1 + b2 xt 2 + b3 xt 3 + L + bk xtk )}

n n
t =1 t
= ∑t =1 yt − n b1 − b2 ∑t =1 xt 2 − b3 ∑t =1 xt 3 − L − bk ∑t =1 xtk = 0 .
n n n n
Sabendo que yt = yˆ t + uˆt , e utilizando a propriedade 2.9, verifica-se imediata-

mente que
∑t =1 yˆ t = ∑t =1 yt .
n n
e, portanto, y = yˆ (a média das observações do regressando é igual à média dos respec-

tivos valores estimados).
Também se conclui sem dificuldade que y = x b , onde x = [ 1 x2 L xk ] é o
vector das médias das observações dos regressores (quando x = x , o valor previsto de y
é y ). Deste modo, o ponto ( y , x2 , x3 , K , xk ) [centro de gravidade da “nuvem” de pon-
tos; ver figura 2.2] verifica a função de regressão ajustada, (2.27). De facto, como
yt = b1 + b2 xt 2 + b3 xt 3 + L + bk xtk + uˆt ( t = 1, 2, K , n ),
vem
∑ yt = n b1 + b2 ∑t =1 xt 2 + b3 ∑t =1 xt 3 + L + bk ∑t =1 xt 3 + ∑t =1 uˆt
n n n n n
i =1
ou, devido a (2.36), y = b1 + b2 x2 + b3 x3 + L + bk xk .

Como
∑t =1 xtj uˆt = ∑t =1 ( xtj − x j ) uˆt ,
n n
resulta da propriedade 2.7 que a covariância amostral entre xtj e ût é nula.
Como
∑t =1 uˆt yˆ t = ∑t =1 uˆt ( yˆ t − y ) ,
n n
tem-se, devido à propriedade 2.8, que a covariância amostral entre ût e ŷt é nula.
Propriedade 2.10 – A soma dos quadrados das observações do regressando é igual à

soma dos quadrados dos respectivos valores ajustados mais a soma dos quadrados dos
resíduos MQ,
∑ yt2 = ∑t =1 yˆ t2 + ∑t =1 uˆt2 ⇔ Y T Y = Yˆ T Yˆ + Uˆ T Uˆ .
n n n
(2.37) t =1
Demonstração: Com efeito, notando que Y = Yˆ + Uˆ , tem-se

Y T Y = (Yˆ + Uˆ )T (Yˆ + Uˆ ) = Yˆ T Yˆ + 2 Uˆ T Yˆ + Uˆ T Uˆ .
Então, devido à propriedade 2.8, obtém-se o resultado pretendido.

∇∇
Notando que Uˆ = PX U , conclui-se imediatamente que

E (Uˆ | X ) = E (Uˆ ) = 0 e Cov(Uˆ | X ) = σ 2 PX .
Como a matriz PX é semidefinida positiva (o determinante é nulo), a distribuição
conjunta dos resíduos MQ, condicionada por X, é degenerada (a matriz das cova-
riâncias de Û , condicionadas por X, é singular).
No anexo 2A aprofunda-se a interpretação geométrica do método dos mínimos
quadrados.
2.5 - Propriedades do estimador dos mínimos quadrados dos coeficientes de re-

gressão
Nesta secção vão apresentar-se algumas das propriedades mais importantes do

estimador b (estimador MQ de β ): não enviesamento, linearidade e eficiência. Estas
propriedades costumam designar-se por propriedades exactas, uma vez que são verda-
deiras, qualquer que seja o número n de observações. Diz-se, também, que são proprie-
dades para pequenas amostras ou para amostras de dimensão finita.
Propriedade 2.11 – O estimador MQ de β , b, condicionado ou não por X, é não en-

viesado ou centrado. Assim,
(2.38) E (b | X ) = β ,
e
(2.39) E (b) = β .
Demonstração: Com efeito, notando que b = ( X T X ) −1 X T Y e que E (Y | X ) = Xβ , tem-

-se
E (b | X ) = ( X T X ) −1 X T E (Y | X ) = ( X T X ) −1 X T Xβ = β .
Imediatamente se conclui que E (b) = E{E (b | X )} = β .
∇∇
A propriedade (2.38) significa que, se fosse possível obter muitas observações

particulares do vector Y, para a mesma matriz X, obtinham-se outras tantas estimativas
b, que, em média, tenderiam para o verdadeiro valor do vector dos coeficientes, β . Po-
de, então, afirmar-se que o não enviesamento de b garante que este estimador é “correc-
to em média”. Contudo, para a amostra observada, a estimativa obtida, b, não coincide,
em geral, com o verdadeiro valor de β . O maior ou menor afastamento entre b e β de-
pende da amostra.
O resultado (2.39) pode ser interpretado do seguinte modo: se calcular-se b para
todas as amostras possíveis (Y , X ) – variando não só Y, mas também X –, a média dos
valores calculados seria o verdadeiro valor do vector β . Esta conclusão, porventura, é
mais interessante para a Economia do que (2.38), porque as amostras diferem em Y, e
em X.
Propriedade 2.12 – O estimador b, condicionado por X, é linear em Y.
Demonstração: Com efeito, basta notar que b = AY , onde A = ( X T X ) −1 X T , ficando a

linearidade garantida porque a matriz A é fixada.
∇∇
Facilmente se encontra um exemplo de estimador de β , linear e não enviesado,

diferente do estimador b. Seja o modelo de regressão linear, yt = β1 + β 2 xt + ut . Consi-
derando a amostra {( yt , xt ) : t = 1, 2, K , n} , propõe-se o seguinte estimador de β 2 :
y2 − y1
βˆ2 = .
x2 − x1
Este estimador é manifestamente linear em y1 , y 2 , K , yn . Com efeito, basta notar

que β̂ 2 = a1 y1 + a2 y2 + L + an yn , onde
1 1
a1 = − , a2 = , a3 = 0 , ..., an = 0 .
x2 − x1 x2 − x1
Como y2 − y1 = β 2 ( x2 − x1 ) + (u2 − u1 ) , tem-se

u2 − u1
βˆ2 = β 2 + ⇒ E ( βˆ2 | x1 , x2 , K , xn ) = β 2 ,
x2 − x1
provando-se, assim, que o estimador é não enviesado.

Para se ter linearidade, é indispensável supor que a matriz X é dada. Caso contrá-
rio, a matriz A é estocástica e o estimador não é linear. Como vai ver-se, há muitos esti-
madores que não são lineares.
A propriedade seguinte vai permitir conhecer as expressões da variância de b j
( j = 1, 2, K, k ) , e da covariância entre bi e b j (i, j = 1, 2, K, k ; i ≠ j ) , todas condiciona-
das por X. Vai determinar-se a matriz das covariâncias de b condicionada por X,
 Var (b1 | X ) Cov(b1 , b2 | X ) L Cov(b1 , bk | X ) 
 
Cov(b2 , b1 | X ) Var (b2 | X ) L Cov(b2 , bk | X )
Cov(b | X ) =  .
M M M
 
Cov(bk , b1 | X ) Cov(bk , b2 | X ) L Var (bk | X ) 
Propriedade 2.13 – A matriz das covariâncias de b, condicionada por X, é

(2.40) Cov(b | X ) = σ 2 ( X T X ) −1 .

Cov(b | X ) = Cov{( X T X ) −1 X T Y | X }
= ( X T X ) −1 X T Cov(Y | X ) X ( X T X ) −1
= σ 2 ( X T X ) −1 ,
pois Cov( AY | X ) = A Cov(Y | X ) AT e Cov(Y | X ) = σ 2 I .

∇∇
Quando se está interessado apenas num coeficiente de regressão, β j , a proprie-

dade 2.13 permite escrever
(2.41) Var(b j | X ) = σ b2j = σ 2 m jj ( j = 1, 2, K , k ) ,
onde m jj é o elemento diagonal de ordem j da matriz ( X T X ) −1 .

Dada a matriz X, Cov(b | X ) traduz a dispersão ou variabilidade média do esti-
mador b, e, portanto, fornece uma base para a comparação do desempenho do estimador
MQ de β com outros estimadores.
Notando que Cov(b) = E{Cov(b | X )} + Cov{E (b | X )} [propriedade k) dos valo-
res esperados condicionados], e que a matriz das covariâncias de um vector constante é
nula, tem-se
Cov(b) = σ 2 E{( X T X ) −1} .
Verifica-se, assim, que a matriz das covariâncias não condicionadas de b só po-
de ser descrita em termos do comportamento médio de ( X T X ) −1 .
No caso particular do modelo de regressão linear simples com termo indepen-
dente, yt = β1 + β 2 xt + ut , tem-se,


∑
n
 x2
t =1 t
 Var (b1 | X ) = σ 2
2
,
 
n∑t =1 xt −  ∑t =1 xt 
n 2 n 
  

 n
Var (b2 | X ) = σ
2
(2.42) 2
,
 
n∑t =1 xt −  ∑t =1 xt 
n 2 n 
  

∑t =1 xt
n

Cov(b1 , b2 | X ) = −σ
2
2
.
 
n∑t =1 xt −  ∑t =1 xt 
n 2 n 
  
Neste caso, a variância de b2 , condicionada por X, pode também ser apresentada

do seguinte modo:
σ2 σ2
(2.43) Var (b2 | X ) = = .
∑t =1 ( xt − x )2
n
n sx2
Este resultado mostra que a precisão na estimação de β 2 é tanto maior quanto

menor for a variância das variáveis residuais (medida por σ 2 ) e quanto maior for a dis-
persão das observações do regressor xt [medida por Σ ( xt − x ) 2 ].
No modelo de regressão linear simples sem termo independente, yt = β xt + ut ,
obtém-se
σ2
(2.44) Var(b | X ) = .
∑
n
x2
t =1 t
No caso do modelo só com termo independente, yt = β + ut , tem-se

σ2
Var (b) = ,
n
resultado já conhecido da estatística clássica.
A seguir, vai estudar-se a propriedade da eficiência.
Propriedade 2.14 – Qualquer que seja o estimador β̂ de β , linear e não enviesado, a

matriz
Cov( βˆ | X ) − Cov(b | X )
é semidefinida positiva.
Demonstração: Com efeito, seja C uma matriz k × n , função de X. Considere-se o esti-

mador de β , β̂ = CY , e suponha-se que este estimador é linear em Y (condicionado por
X), e que E ( βˆ | X ) = β . Sem perda de generalidade, pode fazer-se
C = ( X T X ) −1 X T + D ,
onde D é função de X.
Como
E ( βˆ | X ) = C E (Y | X ) = {( X T X ) −1 X T + D} Xβ = β + DXβ ,
conclui-se que
E ( βˆ | X ) = β ⇔ DX = O .
Donde
Cov( βˆ | X ) = C Cov(Y | X ) C T = σ 2{( X T X ) −1 X T + D}{ X ( X T X ) −1 + DT }
= σ 2{( X T X ) −1 + ( X T X ) −1 X T DT + DX ( X T X ) −1 + DDT }
= σ 2{( X T X ) −1 + DDT } ,
pois DX = O . Então,
Cov( βˆ | X ) − Cov(b | X ) = σ 2 DDT .
Como DDT é semidefinida positiva, fica provado que Cov( βˆ | X ) − Cov(b | X )
∇∇
Esta propriedade garante que b é, condicionado por X, o estimador mais efi-

ciente na classe dos estimadores lineares não enviesados. Diz-se, então, que b é BLUE
(utilizando a sigla da expressão Best Linear Unbiased Estimator). Este resultado é
conhecido por teorema de Gauss-Markov, e significa que, se a classe dos estimadores
possíveis for restringida à dos estimadores lineares não enviesados, então o estimador
MQ de β é aquele que apresenta melhor desempenho amostral, com base no critério da
minimização da dispersão.
Uma consequência importante da propriedade 2.14 é que a variância de cada b j
( j = 1, 2, K, k ) é menor ou igual à variância do respectivo β̂ j (qualquer estimador de
β j , linear e não enviesado), supondo que ambas as variâncias são condicionadas por X:
Var(b j | X ) ≤ Var( βˆ j | X ) .
Pode demonstrar-se um resultado semelhante ao da propriedade 2.14, utilizando

as matrizes das covariâncias não condicionadas. Vai, então, provar-se que
Cov( βˆ ) − Cov(b)
é semidefinida positiva, quando β̂ está nas mesmas condições da propriedade 2.14.
Com efeito, como
Cov( βˆ ) = E{Cov( βˆ | X )} = σ 2 E{( X T X ) −1 + DDT },
Cov(b) = E{Cov(b | X )} = σ 2 E{( X T X ) −1},

tem-se
Cov( βˆ ) − Cov(b) = σ 2 E ( DD T ) ,
que é semidefinida positiva.
Facilmente se propõe um estimador de β , linear e enviesado, com matriz de

covariâncias condicionadas “inferior” à do estimador b. Com efeito, basta considerar
βˆ = β 0 ≠ β . Este estimador apresenta as seguintes características: é trivialmente linear
em Y; é enviesado, uma vez que E ( βˆ | X ) = β 0 ≠ β e Cov( βˆ | X ) = O .
Evidentemente, a questão da escolha dos “melhores” estimadores é mais com-
plexa do que a análise feita pode dar a entender. Com efeito, podem propor-se outros
critérios de escolha, e ou podem considerar-se classes de estimadores mais amplas ou
mais restritas do que a classe dos estimadores lineares não enviesados. Por exemplo, se
a classe de estimadores considerada admitir estimadores enviesados, o critério de esco-
lha pode ser o da minimização do erro quadrático médio. É curioso notar que, em algu-
mas situações, o estimador MQ ainda pode ser o “melhor” estimador, tendo por base
critérios diferentes daquele que conduziu ao estimador BLUE. Este assunto é retomado
mais adiante, a propósito dos estimadores de máxima verosimilhança.
Pode demonstrar-se que
Cov(b, Uˆ | X ) = O ,
onde O é a matriz nula de tipo k × n . Com efeito, como E (b | X ) = β e E (Uˆ | X ) = 0 ,
tem-se
Cov(b, Uˆ | X ) = E{(b − β ) Uˆ T | X } .
Notando que b − β = ( X T X ) −1 X T U e Uˆ = PX U , vem
Cov(b, Uˆ | X ) = E{( X T X ) −1 X TU U T PX | X } = σ 2 ( X T X ) −1 X T PX = O ,
uma vez que X T PX = O .
Quando δ = Rβ , onde R é uma matriz m × k , e δ , um vector m × 1 , têm-se m
combinações lineares dos coeficientes de regressão,
δ 1 = r11 β1 + r12 β 2 + L + r1k β k
δ = r β + r β + L + r β
 2 21 1 22 2 2k k

L
δ m = rm1 β1 + rm 2 β 2 + L + rmk β k .
Sem dificuldade se demonstra que, condicionado por X, o estimador BLUE de

ˆ
δ é δ = Rb , onde b é o estimador MQ de β . Neste caso, o erro de amostragem é dado
por δˆ − δ = R( X T X ) −1 X TU .
Tem-se
(2.45) Cov(δˆ | X ) = σ 2 R( X T X ) −1 RT .
Com efeito,
Cov(δˆ | X ) = Cov( Rb | X ) = R Cov(b | X ) RT = σ 2 R( X T X ) −1 RT .
Por exemplo, se k = 5 e
δ1 = 2 β 2 − β 4

δ 2 = β3 + β5 ,
tem-se
0 2 0 − 1 0 δ1 
R=  e δ = .
0 0 1 0 1 δ 2 
  
Então,
δˆ1 = 2b2 − b4

δˆ2 = b3 + b5 .
O cálculo das respectivas variâncias e covariância condicionadas por X é imedia-

to. Obtém-se:
Var (δˆ1 | X ) = Var (2b2 − b4 | X ) = 4 Var (b2 | X ) + Var (b4 | X ) − 4 Cov(b2 , b4 | X ) ,
Var (δˆ2 | X ) = Var(b3 + b5 | X ) = Var (b3 | X ) + Var (b5 | X ) + 2 Cov(b3 , b5 | X ) ,
Cov(δˆ1 , δˆ2 | X ) = Cov(2b2 − b4 , b3 + b5 | X )

= 2 Cov(b2 , b3 | X ) + 2 Cov(b2 , b5 | X ) − Cov(b4 , b3 | X ) − Cov(b4 , b5 | X ).
Apresenta-se, a seguir, um resultado muito importante que permite uma sugesti-

va interpretação dos estimadores MQ dos coeficientes de regressão (para mais por-
menores, ver no anexo 2A, a subsecção “Regressão por blocos”).
Seja
β 
X = [X 1 X 2 ] e β =  •1  ,
 β •2 
onde:
− X 1 é a matriz n × k1 dos primeiros k1 regressores;
− X 2 é a matriz n × k2 dos últimos k2 regressores;
− k1 + k2 = k ;
− β •1 e β •2 são os respectivos vectores dos coeficientes de regressão.
Então, a relação Y = Xβ + U pode escrever-se da seguinte maneira:
Y = X 1 β •1 + X 2 β •2 + U .
Vai provar-se que
b•1 = ( X 1T P2 X 1 ) −1 X 1T P2 Y ,

b• 2 = ( X 2T P1 X 2 ) −1 X 2T P1Y ,
onde P1 = I n − X 1 ( X 1T X 1 ) −1 X 1T e P2 = I n − X 2 ( X 2T X 2 ) −1 X 2T .
Com efeito, a partir das equações normais, X T X b = X T Y , obtém-se
 X 1T X 1b•1 + X 1T X 2b• 2 = X 1T Y
 T
 X 2 X 1b•1 + X 2 X 2b• 2 = X 2 Y .
T T
Resolvendo a primeira igualdade em relação a b•1 ,

b•1 = ( X 1T X 1 ) −1 ( X 1T Y − X 1T X 2b•2 ) ,
e substituindo na segunda, vem
X 2T X 1 ( X 1T X 1 ) −1 ( X 1T Y − X 1T X 2b•2 ) + X 2T X 2b•2 = X 2T Y ,
ou
X 2T X 2b•2 − X 2T X 1 ( X 1T X 1 ) −1 X 1T X 2b•2 = X 2T Y − X 2T X 1 ( X 1T X 1 ) −1 X 1T Y ,
ou ainda
X 2T P1 X 2b• 2 = X 2T P1Y ,
obtendo-se o resultado pretendido. Da mesma forma se tem o estimador b•1 (no anexo
2A deduzem-se estes resultados utilizando a técnica da inversão de matrizes por blo-
cos).
Suponha-se que se pretende estimar o efeito ceteris paribus de X 2 sobre Y (isto
é, expurgado das eventuais influências de X 1 ). Para isso, considerem-se as seguintes re-
gressões:
~ ~
a) Y = X 1b•′1 + Y 1 , onde Y 1 = P1Y é o vector dos resíduos;
~ ~
b) X 2 = X 1B1 + X 2 , onde X 2 = P1 X 2 é a matriz dos resíduos destas k2 regressões ( B1 é
matriz k1 × k2 );
~ ~
c) Y 1 = X b∗ + Uˆ 1 .
2 •2
Assim:
− A regressão a) permite obter as observações do regressando expurgadas da influência
~
de X 1 (estes valores são os respectivos resíduos, Y 1 ).
~
− A regressão b) procura determinar X 2 “purificado” da influência de X 1 , isto é, X 2 .
− Em c) faz-se a regressão dos resíduos obtidos em a) sobre os resíduos resultantes de
b). Obtém-se
~ ~ ~ ~
b•∗2 = ( X 2T X 2 ) −1 X 2T Y 1 .
Facilmente se prova que b•∗2 = b•2 (ver anexo 2A). Com efeito, basta notar que
~ ~ ~ ~
b•∗2 = ( X 2T X 2 ) −1 X 2T Y 1 = ( X 2T P1 X 2 ) −1 X 2T P1Y = b• 2 .
Este resultado é conhecido pela designação de teorema de Frisch-Waugh-Lo-
vell (FWL), e tem a seguinte interpretação: a estimativa do efeito ceteris paribus de
X 2 sobre Y (isto é, expurgado das eventuais influências de X 1 ) é dada por b•2 , e ob-
tém-se fazendo a regressão de Y sobre X 1 e X 2 ; esta estimativa não acusa a influência
dos regressores considerados em X 1 desde que tais regressores sejam explicitados no
modelo.
Esta interpretação é simples numa situação com dois regressores. Assim, supo-
nha-se que se procura conhecer o efeito de xt 2 sobre yt , sabendo que tanto xt 2 como
yt são influenciados por xt 3 . Se adoptar-se o modelo yt = α1 + α 2 xt 2 + vt , o parâmetro
α 2 não mede o efeito pretendido, porque aquela influência comum “perturba” a relação
entre xt 2 e yt (o regressor omisso, xt 3 , está incluído na variável residual, vt ). A estima-

tiva do efeito “puro” pretendido pode ser conseguida depois de eliminar o efeito do re-
gressor “perturbador”. Para isso, vão fazer-se duas regressões MQ: a regressão de yt
sobre 1 e xt 3 ; a regressão de xt 2 sobre 1 e xt 3 . Os resíduos da primeira regressão, ~ yt ,
representam yt “expurgado” da influência de xt 3 (e do termo independente); os resí-
duos da segunda regressão, ~ xt 2 , representam xt 2 “expurgado” da influência de xt 3 (e do
termo independente). A estimativa do efeito parcial (ceteris paribus) pretendido é, en-
tão, obtida fazendo uma terceira regressão MQ, de ~ yt sobre ~xt 2 (sem termo indepen-
dente).
Considerando o modelo yt = β1 + β 2 xt 2 + β3 xt 3 + ut , o efeito parcial xt 2 sobre yt
pode ser estimado com o yˆt = b1 + b2 xt 2 + b3 xt 3 . O valor de b2 é uma estimativa daquele
efeito “puro”, não sendo necessário obter previamente os resíduos resultantes da correc-
ção da influência de xt 3 , e proceder em seguida à regressão com os resíduos.
Uma situação interessante que ilustra bem aquela interpretação é a seguinte: ad-
mita-se que é proposto o modelo, com dados temporais, yt = β1 + β 2 xt + ut , mas sabe-
-se que, tanto o regressando, yt , como o regressor, xt , têm uma tendência linear. Nes-
tas condições, a estimativa MQ de β 2 mede o efeito de xt sobre yt influenciado pela
tendência. Então, para obter uma estimativa de β 2 expurgada da tendência, é mais ade-
quado considerar o modelo yt = β1 + β 2 xt + β 3 t + ut , onde se explicitou o regressor t.
Exemplo 2.8 – Quando se faz a regressão MQ de lsalar sobre 1, educ, exper e empc,
obtém-se a estimativa do coeficiente de educ: 0.055383. Este valor é também obtido fa-
zendo três regressões. A primeira, é a regressão de lsalar sobre 1, exper e empc, onde os
respectivos resíduos representam os logaritmos dos salários expurgados da influência
das variáveis consideradas na regressão. A segunda tem por objectivo obter os valores
de educ expurgados da influência das mesmas variáveis. Para isso, basta fazer a regres-
são MQ de educ sobre 1, exper e empc, e considerar os respectivos resíduos. A terceira,
consiste em fazer a regressão MQ dos resíduos obtidos com a primeira regressão sobre
os resíduos dados pela segunda regressão (sem termo independente). Pode verificar-se
que a estimativa do coeficiente dos segundos resíduos é ainda 0.055383. Os cálculos fi-
cam ao cuidado do leitor.
∇
2.6 - Estimador não enviesado da variância das variáveis residuais
Como σ 2 = E (ut2 ) – recorde-se que Var(ut2 ) = σ 2 e E (ut ) = 0 –, um estimador

“natural” (não enviesado) de σ 2 seria
∑
n 2
U TU u
σ̂ =
2
= t =1 t
,
n n
uma vez que
1  n 2 1 n
n  ∑t =1 t  n ∑t =1
E (σˆ 2 ) = E u = E (ut2 ) = σ 2 .
Como ut não é observável, vai propor-se um estimador não enviesado de σ 2 ,

usando os resíduos MQ, ût , em vez de ut ( ût é observável porque se substitui cada β j
pelo respectivo b j ). Assim, com base na propriedade 2.5 dos resíduos MQ, tem-se:
Uˆ TUˆ ∑t =1 uˆt
2 n
(2.46) s =
2
= .
n−k n−k
Evidentemente, este estimador, condicionado por X, é não enviesado,
(2.47) E (s 2 | X ) = σ 2 .
Com algum abuso de linguagem, pode dizer-se que s 2 é o estimador MQ de σ 2 .
A justificação desta afirmação pouco rigorosa pode encontrar-se no facto de s 2 ser cal-
culado utilizando a soma dos quadrados dos resíduos MQ. Note-se que s 2 é uma forma
quadrática em Y (e em U), porquanto Uˆ T Uˆ = Y T PX Y = U T PX U .
Facilmente se verifica que o valor esperado marginal de s 2 é ainda σ 2 ,
E ( s 2 ) = E{E ( s 2 | X )} = σ 2 .
É habitual designar s por erro padrão da regressão. Note-se que s pode crescer
ou decrescer quando mais um regressor é acrescentado ao modelo (para a mesma amos-
tra). De facto, a presença do novo regressor provoca uma diminuição do numerador de
(2.46) (da soma dos quadrados dos resíduos MQ), mas também uma diminuição do de-
nominador (dos graus de liberdade); não é possível saber, a priori, qual é o efeito que
prevalece.
O estimador não enviesado da matriz das covariâncias de b, condicionada
por X, é
^
(2.48) Cov(b | X ) = s 2 ( X T X ) −1 .
Assim,
^
(2.49) Var (b j | X ) = sb2j = s 2 m jj ,
é o estimador da variância condicionada de b j . É habitual designar sb j por erro padrão

de b j .
Pode verificar-se que o estimador não enviesado de Cov(b) é ainda
^
Cov(b) = s 2 ( X T X ) −1 .
Com efeito,
E{s 2 ( X T X ) −1} = E{E ( s 2 ( X T X ) −1 | X )} = E{σ 2 ( X T X ) −1} = σ 2 E{( X T X ) −1} = Cov(b) .
Exemplo 2.9 – Em relação ao exemplo que está a servir de ilustração, tem-se
∑
n
uˆ = 140.445 e s 2 = 0.141 .
2
t =1 t
O erro padrão da regressão é, então, s = 0.3755 .

Tem-se
 0.0051795 − 0.0002984 − 0.0000834 − 0.0000384

 
^
 − 0.0002984 0.0000236 0.0000004 − 0.0000005
Cov(b | X ) =  .
− 0.0000834 0.0000004 0.0000065 0.0000002
 
− 0.0000384 − 0.0000005 0.0000002 0.0000059
Assim, por exemplo,

^
Cov(b2 , b4 | X ) = −0.0000005 .
Os erros padrão dos estimadores MQ dos b j são, respectivamente:
sb1 = 0.071968 , sb2 = 0.004856 , sb3 = 0.002541 e sb4 = 0.002422 .
∇
No anexo 2B faz-se o estudo do método dos mínimos quadrados no MRLC

quando se consideram variáveis centradas (as observações de cada variável são sub-
traídas da respectiva média amostral). Embora este tópico tenha perdido muito do seu
interesse devido às possibilidades proporcionadas pelos meios computacionais moder-
nos, alguns dos resultados obtidos ainda podem ser úteis para facilitar a compreensão e
a demonstração de outros resultados.
2.7 - Coeficiente de determinação
Suponha-se que pretende explicar-se o comportamento de um regressando, yt ,

em função de certos regressores. Dispondo de uma amostra de dimensão n, estimados os
parâmetros com base num determinado método, obtêm-se os valores ajustados, ŷt , das
observações do regressando. Por exemplo, no MRLC tem-se, utilizando o método MQ,
b = ( X T X ) −1 X T Y e Yˆ = X b .
Quando se admite que são válidas as hipóteses do modelo, uma forma grosseira
de avaliar a adequabilidade do modelo aos dados consiste em dispor de um indicador
que permita medir o “grau de ajustamento” entre os yt e os ŷt ( t = 1, 2, K , n ). O indica-
dor habitualmente proposto é o coeficiente de correlação (empírico) entre as observa-
ções do regressando, yt , e os respectivos valores ajustados, ŷt .
Pode, então, apresentar-se a definição de coeficiente de determinação.
Definição 1.4 – Coeficiente de determinação

O coeficiente de determinação é o quadrado do coeficiente de correlação empírico entre
os yt e os ŷt ( t = 1,2, K , n ),
2
 n ( y − y ) ( yˆ − yˆ ) 
 ∑t =1 t t 
(2.50) ry2yˆ =  n  ,
∑t =1 ( yt − y ) ∑t =1 ( yˆt − yˆ )2
2 n
onde y e ŷ são as médias dos yt e dos ŷt , respectivamente.

Como 0 ≤ ry2yˆ ≤ 1 , pode concluir-se que quanto mais próximo de 1 estiver o coe-
ficiente de determinação melhor é o “grau de ajustamento”, ou seja, maior é a “proxi-
midade” entre os yt e os ŷt . Por exemplo, observando a figura 2.6 verifica-se que no
gráfico da esquerda se tem uma boa aderência ( ry2ŷ elevado), e que no gráfico da direita
há um afastamento significativo entre os valores de yt e de ŷt ( ry2ŷ baixo). Um valor
negativo de ryyˆ não tem significado, uma vez que traduziria um ajustamento absurdo.
ŷt ŷt
y t yt ry2ŷ elevado yt 2
r yŷ baixo
Fig. 2.6 – Coeficiente de determinação.
Qualquer que seja o MRL (com ou sem termo independente), tem-se sempre, de-
vido à propriedade 2.10 dos resíduos MQ,
∑ yt2 = ∑t =1 yˆ t2 + ∑t =1 uˆt2 ⇔ Y T Y = Yˆ T Yˆ + Uˆ T Uˆ .
n n n
t =1
Quando o modelo tem termo independente, pode obter-se uma relação seme-
lhante, mas considerando os desvios das observações em relação às respectivas médias,
∑ ( yt − y ) 2 = ∑t =1 ( yˆ t − y ) 2 + ∑t =1 uˆt2 .
n n n
(2.51) t =1
Para verificar (2.51), faz-se
∑ ( yt − y ) 2 = ∑t =1 ( yˆt + uˆt − y ) 2 = ∑t =1{( yˆt − y ) + uˆt }2

n n n
t =1
= ∑t =1 ( yˆt − y ) 2 + 2∑t =1{( yˆt − y ) uˆt } + ∑t =1 uˆt2

n n n
= ∑t =1 ( yˆt − y ) 2 + 2∑t =1 yˆt uˆt − 2 y ∑t =1 uˆt + ∑t =1 uˆt2

n n n n
= ∑t =1 ( yˆt − y ) 2 + ∑t =1 uˆt2 ,
n n
devido às propriedades 2.8 e 2.9 dos resíduos MQ.

Fazendo
VT = ∑t =1 ( yt − y ) 2 , VE = ∑t =1 ( yˆt − y ) 2 e VR = ∑t =1 uˆt2 ,
n n n
tem-se
(2.52) VT = VE + VR ,
onde:
− VT é a variação total dos yt , ou seja, a soma dos quadrados dos desvios em relação
à média das observações do regressando.
− VE é a variação explicada pela regressão, ou seja, a soma dos quadrados dos des-
vios em relação à média dos valores ajustados das observações do regressando, ob-
tidos com o método dos mínimos quadrados, ŷt .
− VR é a variação residual, ou seja, a soma dos quadrados dos resíduos MQ.
No MRLC com termo independente é habitual definir o coeficiente de determi-

nação, que se representa por R 2 , como sendo igual à proporção entre a variação expli-
cada pela regressão e a variação total,
VE VR
(2.53) R2 = = 1− .
VT VT
Note-se que 0 ≤ R 2 ≤ 1 e que
 R 2 = 1 ⇔ VR = 0,
 2
 R = 0 ⇔ VE = 0 ⇔ VR = VT.

VE = R 2 VT,

VR = (1 − R 2 )VT.
Facilmente se prova que as duas definições são equivalentes, no caso do MRLC

com termo independente, utilizando o critério dos mínimos quadrados para estimar os
coeficientes de regressão. Com efeito, atendendo às propriedades 2.8 e 2.9 dos resíduos
MQ, vem
2 2
 n ( y − y ) ( yˆ − y )   n ( yˆ − y + uˆ ) ( yˆ − y ) 
 ∑t =1 t t   ∑t =1 t t t 

ryyˆ = n
2  =  
∑t =1 ( yt − y ) ∑t =1 ( yˆt − y ) ∑t =1 ( yt − y ) ∑t =1 ( yˆt − y )2
2 n 2 n 2 n
2
 n ( yˆ − y ) 2 + n uˆ yˆ − y n uˆ 
 ∑t =1 t ∑t =1 t t ∑t =1 t  ∑tn=1 ( yˆt − y )2 2
=  = n =R .
∑t =1 t ∑t =1 t ∑t =1 t
n n
( y − y ) 2
( ˆ
y − y ) 2
( y − y ) 2
No caso do MRLC simples, yt = β1 + β 2 xt + ut , facilmente se verifica que

R 2 = rxy2 ,
ou seja, R 2 é o quadrado do coeficiente de correlação empírico entre as observações yt

e xt . Com efeito, como yˆt = b1 + b2 xt e y = b1 + b2 x , vem yˆt − y = b2 ( xt − x ) . Então,
2
∑t =1 ( yˆ t − y )2 ∑t =1 ( xt − x )2
 ∑ n ( xt − x )( yt − y )  ∑
n n n
( xt − x ) 2
R = n
2
= b2
2
=  t =1 n  t =1
,
∑t =1 t ∑t =1 t ∑t =1 t ∑
n n
( y − y ) 2
( y − y ) 2

 ( x − x ) 2
 t =1
( y t − y )2
ou
2
 n ( x − x )( y − y ) 
 ∑t =1 t t 

R = n
2  = r2 .
∑t =1 ( xt − x ) ∑t =1 ( y t − y )2
2 n xy
Em Ciências Sociais (e, em particular, em Economia) com dados seccionais é

comum encontrar situações com coeficientes de determinação pequenos (ou mesmo
muito pequenos). É importante salientar que isto não significa necessariamente que as
estimativas MQ dos coeficientes de regressão são inúteis. Pelo contrário, é possível que,
ceteris paribus, as estimativas encontradas sejam boas. Em qualquer caso, esta aprecia-
ção não depende directamente do valor do coeficiente de determinação. Em geral, um
R 2 baixo significa apenas que é difícil, em Ciências Sociais, prever comportamentos
individuais.
Quando o modelo não tem termo independente, a soma dos resíduos MQ não
é nula (ver propriedade 2.9), e o coeficiente de determinação R 2 , dado por (2.53), pode
ser negativo. De facto, notando que
∑ ∑ ( yt − y ) 2 − ∑t =1 uˆt2 ∑ yt2 − n y 2 − ∑t =1 uˆt2

n 2 n n n n
uˆ
t =1 t
R =1−
2
= t =1
= t =1
,
∑ ∑ ∑
n n n
t =1
( yt − y ) 2 t =1
( yt − y ) 2 t =1
( yt − y ) 2
tem-se, devido à propriedade 2.10 dos resíduos MQ,
∑
n
yˆt2 − n y 2
R 2
= t =1
.
∑
n
t =1
( yt − y ) 2
Este valor pode ser negativo porque a média das observações do regressando,
yt , é diferente da média dos respectivos valores ajustados, ŷt ( y ≠ yˆ ). Contudo, conti-
nua a ter-se R 2 ≤ 1 .
A propriedade 2.10 atrás referida, garante que a igualdade Y T Y = Yˆ T Yˆ + Uˆ T Uˆ se
verifica sempre (quer o modelo tenha termo independente quer não tenha). Pode, então,
escrever-se
(2.54) SQT = SQE + SQR ,
onde:
− SQT = ∑t =1 yt2 é a soma total dos quadrados dos yt .

n
− SQE = ∑t =1 yˆ t2 é a soma dos quadrados explicada pela regressão.

n
− SQR = ∑t =1 uˆt2 é a soma dos quadrados dos resíduos.

n
Nestas condições, pode definir-se outro coeficiente de determinação,

SQE SQR
(2.55) R∗2 = =1− ,
SQT SQT
que se chama coeficiente de determinação não centrado.
Assim, enquanto R 2 (coeficiente de determinação centrado) mede a proporção

entre a variação explicada pela regressão e a variação total, R∗2 é igual à proporção entre
a soma dos quadrados explicada pela regressão e a soma total dos quadrados.
Tem-se 0 ≤ R∗2 ≤ 1 , e
 R∗2 = 1 ⇔ SQR = 0,
 2
 R∗ = 0 ⇔ SQE = 0 ⇔ SQR = SQT.
Em geral, R∗2 ≠ ry2yˆ e R∗2 ≠ R 2 (no caso do modelo ter termo independente vem
R 2 ≤ R∗2 , pois VT ≤ SQT ).
Facilmente se verifica a seguinte relação entre R 2 e R∗2 :
 n y2 
R 2 = 1 − (1 − R∗2 ) 1 + n .
 ∑t =1 ( yt − y ) 2 
Considere-se de novo o modelo com termo independente. O coeficiente de deter-

minação R 2 apresenta o seguinte inconveniente (que não se verifica com o erro padrão
da regressão, s): quando se acrescenta ao modelo mais um regressor, qualquer que ele
seja, o R 2 nunca decresce (para a mesma amostra), pois Σ uˆt2 nunca pode crescer.
Notando que
∑ ∑
n n
( yt − y ) 2 uˆ2
t =1 t
s 2
y = t =1
e s 2
uˆ =
n n
são, respectivamente, a variância amostral das observações, yt , do regressando e a va-
riância amostral dos resíduos, tem-se R 2 = 1 − su2ˆ / s y2 . Se utilizarem-se as respectivas va-
riâncias corrigidas pelos graus de liberdade,
∑ ∑
n n
( yt − y ) 2 uˆ2
s′y
2
= t =1
e s 2
= t =1 t
,
n −1 n−k
em vez de s y2 e sû2 , obtém-se o coeficiente de determinação ajustado,
VR /(n − k )
(2.56) R 2 =1− .
VT /(n − 1)
Verifica-se sem dificuldade que
n −1 k −1
R 2 = 1 − (1 − R 2 ) = R 2 − (1 − R 2 ) .
n−k n−k
O inconveniente apontado para R 2 já não se verifica com R 2 . Com efeito,
quando se adiciona mais um regressor, R 2 cresce se a diminuição da soma dos quadra-
dos dos resíduos for suficiente para compensar o decréscimo de uma unidade no deno-
minador de s 2 . Esta comprovação sugere que se pode conferir a R 2 uma característica
de medida de eficácia da regressão relativamente ao número de regressores utilizados, o
que não acontece com R 2 .
Note-se que:
a) R ≤ R 2 ; R 2 = R 2 , se k = 1 ou R 2 = 1 .
2
b) R 2 tem o inconveniente de poder ser negativo. Com efeito, se R 2 < (k − 1) /( n − 1)

então 1 − R 2 > (n − k ) /(n − 1) e, portanto, R 2 < 0 . Por exemplo, se k = 3 , n = 21 e
R 2 = 0.08 , tem-se R 2 < 2 / 20 = 0.1 , então R 2 = 1 − 0.92 × (20 / 18) = −0.022 .
c) Como s 2 = (1 − R 2 ) s′y2 , pode concluir-se que R 2 aumenta quando s 2 diminui.
8.5
7.5
Valores ajustados
6.5
5.5
5.5 6 6.5 7 7.5 8 8.5
Valores observados
Fig. 2.7 – Diagrama de dispersão dos valores observados e ajustados de lsalar.
Exemplo 2.10 – No exemplo em estudo, tem-se

R 2 = 0.174 e R 2 = 0.171 .
Assim, o modelo explica 17.4% da variação total do logaritmo do salário. Verifica-se
que R 2 é ligeiramente inferior a R 2 .
Na figura 2.7 encontra-se o diagrama de dispersão dos 1000 pares formados por
cada valor observado e o respectivo valor ajustado de lsalar [com a notação geral, estão
representados os 1000 pontos ( yt , yˆt ) ; a bissectriz do 1.º quadrante corresponde ao con-
junto de pontos em que yt = yˆt ]. A recta representa a “nuvem” para o caso em que
R2 = 1.
∇
No anexo 2C apresentam-se alguns resultados sobre coeficientes de correlação

(amostrais) simples e parciais, e as suas relações com o coeficiente de determinação.
Deve sublinhar-se uma vez mais que, quando se pretende utilizar o coeficiente
de determinação como uma mera medida do “grau de ajustamento” de um modelo, a ex-
pressão (2.50) permite calcular tal medida para qualquer modelo, tenha ou não termo in-
dependente, qualquer que seja o método de estimação dos respectivos parâmetros (míni-
mos quadrados ou outro). Segundo tal perspectiva, pode afirmar-se que R 2 é supérfluo.
No entanto, como vai ver-se mais adiante, R 2 pode ser útil para facilitar a obtenção de
resultados para efectuar alguns testes de hipóteses.
Além disso, o cálculo de R 2 em certas regressões pode ser útil para aprofundar a
análise dos factores que contribuem para explicar os valores obtidos para os erros pa-
drão dos b j . Com efeito, considere-se um MRLC com termo independente, e recorde-se
que Var (b j | X ) = σ 2 m jj [ver (2.41)], onde m jj é o elemento diagonal de ordem j da
matriz ( X T X ) −1 .
Vai demonstrar-se que (2.41) é equivalente a
σ2
(2.57) Var (b j | X ) = ,
(1 − R 2j )VT j
onde VT j é a variação total das observações do regressor xtj ,
VT j = ∑t =1 ( xtj − x j ) 2 ,
n
e R 2j é o coeficiente de determinação da regressão auxiliar do regressor xtj sobre os ou-

tros regressores.
Com efeito, seja
X = [ x• j X ( j ) ],
onde x• j é a coluna j da matriz X (colocada em primeiro lugar), e X ( j ) é a submatriz de

X formada pelas restantes k − 1 colunas. Tem-se
 xT x x•T j X ( j ) 
X X = T .
T •j •j
 X ( j ) x• j X (Tj ) X ( j ) 
 
Invertendo esta matriz por blocos, o elemento da matriz inversa situado na pri-
meira linha e na primeira coluna é dado por
( x•Tj Pj x• j ) −1 onde Pj = I n − X ( j ) ( X (Tj ) X ( j ) ) −1 X (Tj ) .
Então,
Var (b j | X ) = σ 2 ( x•Tj Pj x• j ) −1 .
Devido à propriedade 2.4 dos resíduos MQ, verifica-se que x•Tj Pj x• j é igual à so-
ma dos quadrados dos resíduos correspondente à regressão auxiliar, e, portanto,
x•Tj Pj x• j = (1 − R 2j )VT j ,
ficando assim provado (2.57).

Este resultado permite reconhecer os factores que influenciam a variância con-
dicionada do estimador MQ de cada coeficiente de regressão:
a) A variância da variável residual, σ 2 .
A precisão na estimação de β j é tanto maior quanto menor for a variância da variá-
vel residual, uma vez que σ 2 representa a variabilidade do “ruído” do modelo. Co-
mo σ 2 é um parâmetro (desconhecido) da população este factor nada tem a ver com
a dimensão da amostra. A variância da variável residual só pode ser reduzida intro-
duzindo mais regressores no modelo. No entanto, este procedimento nem sempre é
possível, e, mesmo que o seja, nem sempre é desejável (a inclusão de regressores
significativamente irrelevantes pode ter consequências negativas na estimação dos

parâmetros).
b) A variação total das observações do regressor xtj , VT j .
A variância condicionada do estimador MQ é tanto menor quanto maior for a dis-
persão das observações do regressor xtj . Embora seja praticamente impossível esco-
lher estas observações, o aumento da dimensão da amostra pode ser uma forma de
aumentar aquela variação total.
c) O grau de associação linear entre o regressor xtj e os outros regressores (medi-
do por R 2j ).
A precisão na estimação de β j é tanto maior quanto menor for R 2j (a proporção da
variação total do regressor xtj que é explicada pelos outros regressores). Como
0 ≤ R 2j ≤ 1 , a situação ideal é que R 2j = 0 [neste caso, (2.57) reduz-se a σ 2 /VT j ]. No
outro caso extremo, R 2j = 1 , tem-se multicolinearidade exacta, pois x j é combina-
ção linear dos outros regressores [notar que Var (b j | X ) → +∞ , quando R 2j → 1 ].
No entanto, a multicolinearidade deve ser analisada não em termos exactos, mas do
ponto de vista do maior ou menor “afastamento” desta situação extrema. Quando se
diz que existe um “problema da multicolineridade” é porque R 2j está “próximo”
de 1, podendo surgir dificuldades significativas no que respeita ao grau de confiança
dos resultados obtidos, bem como ao modo como esses resultados podem ser inter-
pretados. Assim, os coeficientes de determinação R 2j ( j = 2, 3, K, k ) das k − 1 re-
gressões auxiliares possíveis devem ser encarados como indicadores do grau de
multicolinearidade entre os regressores.
No entanto, deve notar-se que, mesmo em situações de elevado grau de multicoli-
nearidade (não exacta), o estimador MQ de β continua a ser BLUE.
Tal como um valor elevado de R 2j pode implicar uma elevada imprecisão na estima-
ção de β j , o mesmo pode acontecer quando a dimensão da amostra é muito pequena
( VT j pode ser muito reduzida). Arthur Goldberger, numa reacção à obsessão dos
econometristas pela multicolinearidade, chamou micronumerosity ao problema da
dimensão da amostra ser pequena.
Como, em geral, os dados são passivamente observados (dados não experimentais),
pouco se pode fazer para reduzir o grau de multicolinearidade, a não ser recolher
mais dados (“combater a micronumerosidade”).
Deve, ainda, fazer-se o seguinte comentário: elevados graus de associação entre
certos regressores pode ser irrelevante para a estimação de outros coeficientes
de regressão. Por exemplo, considere-se que yt = β1 + β 2 xt 2 + β 3 xt 3 + β 4 xt 4 + ut , e
suponha-se que xt 3 e xt 4 estão altamente correlacionados. Neste caso, Var (b3 | X ) e
Var (b4 | X ) são grandes, mas Var (b2 | X ) pode não ser significativamente afectada,
se R22 for relativamente reduzido. Nestas condições, se β 2 for o parâmetro de inte-
resse para analisar, ceteris paribus, o efeito parcial de xt 2 sobre yt , não deve haver
preocupação com aquela correlação elevada. Este comentário é importante porque é
prática corrente dos economistas incluir muitas variáveis explicativas (de controlo)
no modelo para isolar o efeito causal de uma dada variável.
Quando em (2.57) se substitui σ 2 por s 2 , obtém-se

^ s2
(2.58) Var (b j | X ) = .
(1 − R 2j )VT j
A fórmula (2.58) põe em evidência os factores que contribuem para a determi-

nação do erro padrão de b j . Assim, além de VT j e R 2j já comentados relativamente a
(2.57), o erro padrão de b j é tanto menor quanto menor for o erro padrão da regressão
(medido por s).
Como s 2 = VR /(n − k ) = (1 − R 2 )VT /(n − k ) , tem-se
^ (1 − R 2 )VT
(2.59) Var (b j | X ) = ,
(n − k ) (1 − R 2j )VT j
que dá uma informação mais precisa sobre os factores que determinam o erro padrão de
b j . Assim, além dos factores já apontados a propósito de (2.58), o erro padrão de b j é
tanto menor quanto menor for a variação dos yt (medida por VT), quanto maior for o
coeficiente de determinação R 2 , e quanto maior for o número de graus de liberdade do
modelo.
Exemplo 2.11 – Sabe-se que s 2 = 0.141 , VT = 169.93349 (variação total das obser-
vações de lsalar), R 2 = 0.174 e n − k = 996 [ver exemplos 2.9 e 2.10].
Como VT2 = 5996.119 (variação total das observações de educ) e R22 = 0.00281
(coeficiente de determinação da regressão MQ de educ sobre 1, exper e empc), tem-se,
devido a (2.58) e (2.59),
^ s2 0.141
Var (b2 | X ) = = = 0.0000236
(1 − R2 )VT2
2
(1 − 0.00281 ) × 5996.119
e
^ (1 − R 2 )VT (1 − 0.174) × 169.93349
Var(b2 | X ) = = = 0.0000236 .
(n − k ) (1 − R2 )VT2
2
996 × (1 − 0.00281) × 5996.119
Do mesmo modo, como VT3 = 21875.911 (variação total das observações de ex-
per) e R32 = 0.00179 (coeficiente de determinação da regressão MQ de exper sobre 1,
educ e empc), vem
^ s2 0.141
Var (b3 | X ) = = = 0.0000065
(1 − R3 )VT3 (1 − 0.00179) × 21875.911
2
e
^ (1 − R 2 )VT (1 − 0.174) × 169.93349
Var (b3 | X ) = = = 0.0000065 .
(n − k ) (1 − R3 )VT3 996 × (1 − 0.00179) × 21875.911
2
Como VT4 = 24102.464 (variação total das observações da variável empc) e

R = 0.00257 (coeficiente de determinação da regressão MQ de empc sobre 1, educ e
2
4
exper), obtém-se
^ s2 0.141
Var(b4 | X ) = = = 0.0000059
(1 − R4 )VT4
2
(1 − 0.00257 ) × 24102.464
e
^ (1 − R 2 )VT (1 − 0.174) × 169.93349
Var(b3 | X ) = = = 0.0000059 .
(n − k ) (1 − R3 )VT3
2
996 × (1 − 0.00257) × 24102.464
∇
2.8 - Estimação com restrições lineares sobre os coeficientes de regressão
Nas aplicações práticas encontram-se, com frequência, situações em que a teoria

subjacente impõe certas relações lineares entre os coeficientes de regressão. Por
exemplo, considerando a função de produção Cobb-Douglas, Q = α1 K α 2 Lα3 , a existên-
cia de rendimentos de escala constantes implica a restrição α 2 + α 3 = 1 .
Suponha-se que os coeficientes de regressão estão sujeitos a m restrições linea-
res de igualdade,
Rβ = δ ,
onde R é uma matriz m × k , com característica m ≤ k , e δ é um vector m × 1 .
Exemplo 2.12 – Considere-se o MRLC decorrente da função de produção Cobb-Dou-

glas, ln(Qt ) = β1 + β 2 ln( K t ) + β3ln( Lt ) + ut , com a restrição β 2 + β 3 = 1 (rendimentos de
escala constantes). Esta restrição pode escrever-se da seguinte maneira:
 β1 
[ 0 1 1 ]  β 2  = 1 ,
 β 3 
onde R = [ 0 1 1 ] e δ = 1 .
∇
Exemplo 2.13 – Suponha-se que β é composto por cinco β j e está sujeito às seguintes
condições: β1 = 2 ; a soma dos coeficientes é igual a 1; β 2 e β 3 são iguais; β 4 é o
dobro de β 5 . Tem-se
 2
1 0 0 0 0  
1 1 1 1 1 1 
R=  e δ = 
0 1 −1 0 0 0
 
0 0 0 1 − 2 0
∇
Vai representar-se por br o estimador MQ de β a verificar as m restrições

Rβ = δ . Para determinar este estimador, deve minimizar-se a soma dos quadrados dos
~
resíduos sujeita à condição Rβ = δ . Assim,
~ ~ ~
min ϕ ( β ) = (Y − Xβ )T (Y − Xβ )
(2.60)  ~
sujeito a Rβ = δ .
Este problema pode ser resolvido com o clássico método dos multiplicadores de
Lagrange. Seja a função lagrangeana
~ ~ ~ ~
L ( β , λ ) = (Y − Xβ )T (Y − Xβ ) − 2( Rβ − δ )T λ ,
onde λ = [ λ1 λ2 L λm ] T é o vector m × 1 dos multiplicadores de Lagrange. Calculan-
~
do as primeiras derivadas em ordem a β e λ , obtém-se
~ ~
∇ β~ L ( β , λ ) = −2 X T Y + 2 X T Xβ − 2 RT λ
 ~ ~
∇ λ L ( β , λ ) = −2( Rβ − δ ) ,
onde
~ ~
∇ β~ L ( β , λ ) e ∇ λ L ( β , λ )
~
são, respectivamente, o gradiente da lagrangeana em relação a β (vector k × 1 das res-
pectivas derivadas parciais) e o gradiente da lagrangeana em ordem a λ (vector m × 1
das derivadas parciais da lagrangeana em relação aos multiplicadores de Lagrange).
Igualando a zero estes gradientes, obtém-se o seguinte sistema de equações:
 X T Xβ~ − X T Y − RT λ = 0

 ~
 Rβ = δ .
Multiplicando à esquerda a primeira equação por R( X T X ) −1 , vem

~
Rβ − Rb − R ( X T X ) −1 RT λ = 0 .
~
Como Rβ = δ (segunda equação), tem-se
λ = {R( X T X ) −1 RT }−1 (δ − Rb) .
Como da primeira equação se tem
~
β = b + ( X T X ) −1 RT λ ,
vem
~
β = b + ( X T X ) −1 R T {R( X T X ) −1 R T }−1 (δ − Rb) .
Pode, então, concluir-se que o estimador MQ de β , sujeito às restrições impos-
tas, é dado por
(2.61) br = b + ( X T X ) −1 R T {R( X T X ) −1 R T }−1 (δ − Rb) .
Verifica-se, assim, que o estimador com restrições, br , é igual ao estimador sem
restrições, b, mais uma combinação linear das diferenças entre δ = Rβ e o seu estima-
dor sem restrições, Rb .
Deve notar-se que, quase sempre, é mais simples obter br inserindo as restri-
ções directamente no modelo, do que calcular br com a fórmula (2.61). Por exemplo, no
modelo correspondente à função de produção Cobb-Douglas, em vez de estimar β1 , β 2

e β 3 a partir de ln(Qt ) = β1 + β 2 ln( K t ) + β3 ln( Lt ) + ut e de β 2 + β 3 = 1 , seria mais sim-
ples fazer β 3 = 1 − β 2 e considerar o modelo reparametrizado,
ln(Qt ) − ln( Lt ) = β1 + β 2{ln( K t ) − ln( Lt )} + ut .
Aplicando o método MQ (sem restrições) a este modelo, estimam-se os parâme-

tros β1 e β 2 . A seguir, estima-se β 3 com a igualdade β 3 = 1 − β 2 .
As considerações anteriores podem ser apresentadas em termos gerais. Como a
matriz R tem característica m ≤ k , existem m colunas linearmente independentes que
formam uma submatriz quadrada de ordem m, não singular. Sem perda de generalidade,
seja
β 
R = [R1 R2 ] e β =  •1  ,
 β •2 
onde: R1 é matriz quadrada de ordem m; R2 é matriz de tipo m × (k − m) ; β •1 é o vector
m × 1 , subvector de β ; β •2 é o vector (k − m) × 1 , subvector de β . As restrições são,
então,
R1 β •1 + R2 β •2 = δ .
Considere-se o modelo sem restrições,
yt = xt(•1) β •1 + xt(•2) β• 2 + ut (t ∈ T ) ,
onde: xt(•1) é o vector 1 × m dos primeiros m regressores; xt(•2) é o vector 1 × (k − m) dos

últimos k − m regressores.
Como β •1 = R1−1 (δ − R2 β •2 ) , tem-se yt − xt(•1) R1−1δ = ( xt(•2 ) − xt(•1) R1−1R2 ) β• 2 + ut . En-
tão, o modelo com restrições é dado por
ytr = xtr• β• 2 + ut (t ∈ T ) ,
onde ytr = yt − xt(•1) R1−1δ e xtr• = xt(•2) − xt(•1) R1−1R2 . Os estimadores dos coeficientes de re-
gressão são
b• 2 = ( X r X r ) X r Yr
r T −1 T
 r
b•1 = R1−1 (δ − R2b•r2 ) ,
onde: Yr é o vector n × 1 das observações do regressando do modelo com restrições (de

elemento genérico ytr ); X r é a matriz n × (k − m) das observações dos regressores do
modelo com restrições (de linha genérica xtr• ). Verifica-se, sem dificuldade, que, juntan-
do os vectores b•r1 e b•r2 , se reconstitui o estimador br já obtido. Naturalmente o cálculo
é invariante com a escolha da submatriz não singular R1 .
O estimador br , condicionado por X, é não enviesado. Com efeito,
E (br | X ) = β + ( X T X ) −1 RT {R( X T X ) −1 RT }−1 E (δ − Rb | X ) = β ,
pois E (b | X ) = β e E ( Rb | X ) = Rβ = δ .
Obtém-se, também,
E (br ) = β .
Tal como se fez para o estimador b, pode determinar-se o erro de amostragem

do estimador br . Como b = β + ( X T X ) X TU e δ − Rβ = 0 , tem-se
br = β + ( X T X ) −1 X TU + ( X T X ) −1 RT {R ( X T X ) −1 RT }−1 (δ − Rβ − R ( X T X ) −1 X TU )
= β + ( X T X ) −1 X TU − ( X T X ) −1 RT {R ( X T X ) −1 RT }−1 R( X T X ) −1 X TU
= β + ( I k − ( X T X ) −1 RT {R( X T X ) −1 RT }−1 R( X T X ) −1 X TU .
Então, o erro de amostragem é

br − β = Pr ( X T X ) −1 X TU ,
onde
Pr = I k − ( X T X ) −1 RT {R( X T X ) −1 RT }−1 R
é uma matriz idempotente, não simétrica.

Vai calcular-se, a seguir, a matriz das covariâncias de br , condicionada por X.
Notando que
br = b + ( X T X ) −1 RT {R( X T X ) −1 RT }−1 (δ − Rb)
= Pr b + ( X T X ) −1 RT {R( X T X ) −1 RT }−1δ ,
tem-se
Cov(br | X ) = Pr Cov(b | X ) PrT = σ 2 Pr ( X T X ) −1 PrT .
Atendendo a que
Pr ( X T X ) −1 PrT = ( X T X ) −1 − ( X T X ) −1 RT {R( X T X ) −1 RT }−1 R( X T X ) −1 ,
tem-se
(2.62) Cov(br | X ) = Cov(b | X ) − σ 2 ( X T X ) −1 RT {R( X T X ) −1 RT }−1 R( X T X ) −1 .
Como a matriz
( X T X ) −1 RT {R( X T X ) −1 RT }−1 R( X T X ) −1
é semidefinida positiva, também o é Cov(b | X ) − Cov(br | X ) , o que permite afirmar
que o estimador br é mais eficiente do que b. Facilmente se conclui que br , condiciona-
do por X, é o estimador mais eficiente na classe dos estimadores lineares (em y e δ ),
não enviesados, a satisfazer as restrições Rβ = δ .
Como a matriz idempotente Pr é singular (com característica igual a k − m ), re-
sulta imediatamente que Cov(br | X ) também é singular (com a mesma característica),
e, portanto, br é um vector aleatório degenerado. A singularidade da matriz das cova-
riâncias decorre de β ser estimado, obedecendo a m restrições de igualdade lineares.
Os resíduos MQ, supondo verdadeira a condição Rβ = δ , são os resíduos MQ
com restrições,
(2.63) Uˆ r = Y − X br .
Estes resíduos podem ser obtidos com facilidade, uma vez que são os resíduos
do modelo reparametrizado.
Para determinar o estimador não enviesado de σ 2 , supondo verdadeira a condi-

ção Rβ = δ , vai começar-se por obter os resíduos MQ com restrições em função do
vector das variáveis residuais. Tem-se
Uˆ r = ( Xβ + U ) − X {β + Pr ( X T X ) −1 X TU } = {I n − X Pr ( X T X ) −1 X T }U .
Como Pr ( X T X ) −1 PrT = Pr ( X T X ) −1 , conclui-se que I n − X Pr ( X T X ) −1 X T é simé-

trica e idempotente. Então, Uˆ rTUˆ r = U T {I n − XPr ( X T X ) −1 X T }U .
Notando que
 
ˆ T ˆ   T  
E (U r U r | X ) = E tr U {I n − XPr ( X X ) X }U X 
T −1 T
 
 
= σ 2 tr{I n − XPr ( X T X ) −1 X T } = σ 2{n − tr ( Pr )} .
 
= σ 2 n − tr  I k − ( X T X ) −1 RT {R( X T X ) −1 RT }−1 R  
 
 
= σ ( n − k + m) ,
2
o estimador não enviesado de σ 2 , obedecendo à condição Rβ = δ , é dado por

Uˆ rT Uˆ r
(2.64) s =
2
r .
n−k +m
É de esperar que o denominador de (2.64) seja n − k + m , uma vez que o MRLC
que satisfaz as restrições tem menos m coeficientes de regressão, ou seja, o número de
graus de liberdade sobe de n − k para n − (k − m) . Deve referir-se que sr2 pode ser obti-
do directamente, estimando o modelo reparametrizado, onde o número de regressores é
k −m.
Exemplo 2.14 – Suponha-se que no exemplo em estudo se impõe a restrição de que a

semi-elasticidade (pontual) do salário em relação a educ é o dobro da semi-elasticidade
(pontual) do salário em relação a exper, isto é, β 2 = 2β 3 .
O modelo de regressão linear que verifica esta restrição é, então,
lsalart = β1 + β3 (2 × educt + expert ) + β 4 empct + ut .
Fazendo a regressão de lsalar sobre os regressores 1, 2 × educ + exper e empc,

obtém-se:
br1 = 5.84092 ; br 2 = 0.0509 ; br 3 = 0.02545 ; br 4 = 0.004116 ;
Uˆ TUˆ = 140.706 ; s 2 = 0.141129 ; s = 0.375672 .
r r r r
2.9 - O modelo de regressão linear clássico normal. Estimadores de máxima ve-

rosimilhança
Todos os resultados até agora obtidos prescindiram da especificação do modelo

probabilístico subjacente ao MRLC, ou seja, são válidos para qualquer distribuição das
variáveis aleatórias envolvidas no modelo. Contudo, no caso de pequenas amostras, o

conhecimento das leis probabilísticas que governam estas variáveis aleatórias é indis-
pensável para fazer inferência estatística (nomeadamente para a construção de intervalos
ou regiões de confiança e para a realização de testes de hipóteses) sobre os parâmetros
do MRLC.
Muitas vezes, a teoria que motivou a equação de regressão também especifica
alguns valores que os coeficientes de regressão devem assumir. Suponha-se, por exem-
plo, que a teoria subjacente ao MRLC sugere que o verdadeiro valor do coeficiente β 2 é
igual a 0.5. Então, se a restrição β 2 = 0.5 é verdadeira, tem-se E (b2 ) = 0.5 . Contudo,
isto não significa que, para uma amostra particular, a estimativa b2 tenha que ser exac-
tamente igual a 0.5; não se pode concluir que a restrição é falsa só porque b2 é diferente
de 0.5. Como a questão reside em saber se o erro de amostragem, b2 − 0.5 , é suficiente-
mente grande para pôr em causa a restrição, é necessário testar a sua veracidade. Para
isso, deve construir-se, a partir do erro de amostragem, uma estatística-teste cuja distri-
buição seja conhecida quando a restrição é verdadeira (na linguagem da teoria dos testes
de hipóteses, a restrição designa-se por hipótese nula).
Como, em geral, o erro de amostragem, b − β = ( X T X ) −1 X T U , depende de X
e de U, seria de esperar que se especificasse a distribuição conjunta de ( X , U ) . No en-
tanto, como vai ver-se mais adiante, a distribuição da estatística-teste pode ser obtida
sem especificar aquela distribuição conjunta, quando a distribuição de U, condicionada
por X, é normal; não é necessário especificar a distribuição de X.
Vai, então, estabelecer-se a seguinte hipótese:
Hipótese REX.6 – Distribuição normal da variável residual

A variável residual ut segue uma distribuição normal, condicionada por XT , com valor
esperado 0 e com variância σ 2 ,
(2.65) ut | XT ~ N (0, σ 2 ) .
Esta hipótese apenas acrescenta às hipóteses anteriores o facto de a distribuição

de ut , condicionada por XT = {xs • : s ∈ T } , ser normal; as hipóteses sobre o valor espe-
rado e a variância já resultavam de REX.2 e de REX.3.
Além da vantagem teórica atrás referida, podem também ser apresentados al-
guns argumentos empíricos a favor desta hipótese: como a variável residual representa
todos os factores que não são capturados pelos regressores, pode invocar-se o teorema
do limite central (TLC) para sugerir a hipótese REX.6; além disso, a variável residual
pode contemplar erros de medida do regressando, os quais seguem, muitas vezes,
uma distribuição normal.
No entanto, a invocação do teorema do limite central é, em muitos casos, um ar-
gumento frágil: a aproximação pela normal pode ser fraca porque depende dos factores
que estão abrangidos pela variável residual, os quais podem ter distribuições muito dife-
renciadas; como o TLC pressupõe que os factores referidos afectam o regressando de
forma separada e aditiva, pode acontecer que o conjunto de tais influências seja uma
função mais complicada dos factores não observados.
Muitas vezes, a utilização de uma transformação da variável explicada (em es-
pecial, a logaritmização) pode favorecer a hipótese da normalidade. Por exemplo, é
mais razoável admitir que lsalar tem distribuição aproximadamente normal do que salar
(que teria, então, distribuição lognormal).
Quando os valores possíveis que o regressando pode assumir são poucos, e em
que o valor zero é muito frequente (por exemplo, o número de sinistros num ano por
apólice de seguro automóvel), a hipótese REX.6 é claramente pouco adequada.
Como vai ver-se no capítulo 3, o abandono da hipótese da normalidade não
constitui um problema grave no caso de grandes amostras. Neste caso, as distribuições
necessárias para fazer inferência estatística são assintóticas.
Convém fazer, ainda, os seguintes comentários:
− A distribuição de ut , condicionada por XT , depende apenas de dois parâmetros ca-
racterísticos: o valor esperado e a variância.
− A função densidade em (2.65) é dada por
 u2 
f (ut | XT ) = (2πσ 2 ) −1 / 2 exp− t 2  .
 2σ 
− Antes de prosseguir, convém referir um resultado muito importante:
• Suponha-se que: a variável aleatória (vector aleatório) u depende de um con-
junto de variáveis aleatórias (vectores aleatórios), X ; os parâmetros característi-
cos da distribuição de u condicionada por X não dependem de X . Então, a
distribuição condicionada coincide com a distribuição não condicionada.
Este resultado vai ser utilizado em todas as situações de inferência estatística que vão
estudar-se na secção 2.10.
− Aplicando o resultado anterior, pode concluir-se o seguinte: como os parâmetros ca-
racterísticos da distribuição de ut , condicionada por XT , não dependem de XT , a
distribuição não condicionada (marginal) é a mesma que a distribuição condicionada.
Assim, ut ~ N (0, σ 2 ) e
 u2 
f (ut ) = (2πσ 2 ) −1/ 2 exp− t 2  .
 2σ 
− Se duas variáveis aleatórias são independentes, então a respectiva correlação é nula,
mas a recíproca não é verdadeira. No entanto, no caso da distribuição normal, inde-
pendência e correlação nula são equivalentes.
Neste caso, considerando as hipóteses REX.4 e REX.6, conclui-se imediatamente
que as variáveis ut (t ∈ T ) são iid. Pode, então, escrever-se
ut ~ NIID(0, σ 2 ) (t ∈ T ) ,
para significar que as variáveis aleatórias do conjunto {ut : t ∈ T } são normais e iid.
− Qualquer combinação linear de variáveis aleatórias com distribuição conjunta nor-

mal tem ainda distribuição normal.
− Tem-se
(2.66) yt | XT ~ N ( xt • β , σ 2 ) .
Nestas condições, a função densidade respectiva é dada por

 1 
f ( yt | XT ) = (2πσ 2 ) −1 / 2 exp− 2 ( yt − xt • β ) 2  .
 2σ 
Como Cov( yt , ys | XT ) = 0 , para t ≠ s , pode escrever-se
yt | XT ~ NID( xt • β , σ 2 ) (t ∈ T )
para significar que as variáveis aleatórias do conjunto { yt : t ∈ T } , condicionadas por

XT , são normais e independentemente distribuídas.
Note-se que: como E ( yt | XT ) = xt • β (o valor esperado depende de xt • ), a distribui-
ção não condicionada de yt é diferente da distribuição de yt condicionada por XT .
Em termos gerais, chama-se hipótese a manter a um conjunto de suposições so-

bre o comportamento de certas variáveis, desde que estas suposições permitam, na pre-
sença de uma hipótese nula admitida como verdadeira, propor uma estatística-teste com
distribuição conhecida.
No caso presente, quando se junta a hipótese REX.6 às cinco hipóteses anterio-
res, tem-se o modelo de regressão linear clássico normal (MRLCN). Este modelo é a
hipótese a manter porque as seis suposições (REX.1 a REX.6) possibilitam, como vai
ver-se na secção seguinte, fazer testes de hipóteses sobre os parâmetros desconhecidos
do modelo.
Diz-se que o modelo está correctamente especificado se a hipótese a manter é
verdadeira. Convém, então, esclarecer o seguinte: a rejeição de uma hipótese nula num
determinado teste estatístico só é válida se o modelo estiver correctamente especificado;
é possível que a estatística-teste não tenha a distribuição aparentemente suposta quando
a hipótese nula é verdadeira, porque a hipótese a manter é falsa. O mesmo tipo de co-
mentário se pode fazer em relação aos intervalos e às regiões de confiança.
Dispondo da amostra (Y , X ) , a hipótese REX.6 implica imediatamente que o
vector U das variáveis residuais segue uma distribuição normal n-dimensional, condi-
cionada por X, com valor esperado 0 e matriz das covariâncias σ 2 I ,
U | X ~ N ( n ) (0, σ 2 I n ) .
As considerações anteriores permitem concluir que

U ~ N ( n ) (0, σ 2 I n ) ,
e, portanto,
 U TU 
f (U | X ) = f (U ) = (2πσ 2 ) −n / 2 exp− 2 
.
 2σ 
Tem-se
Y | X ~ N ( n ) ( Xβ , σ 2 I n ) .
Nestas condições, a função densidade de Y, condicionada por X, é

 1 
f (Y | X ) = (2πσ 2 ) − n / 2 exp− 2 (Y − Xβ )T (Y − Xβ ) .
 2σ 
Uma vez estabelecida a hipótese REX.6, pode utilizar-se o método da máxima
verosimilhança (MV) para estimar os parâmetros do modelo, β e σ 2 . Assim, seja
f (Y , X | φ ) a função densidade conjunta de Y e X, parametrizada pelo vector φ . Esta
~
função, encarada como função de φ (qualquer valor hipotético do vector dos parâme-
~
tros), é a função de verosimilhança: L(φ | Y , X ) . Um estimador de máxima verosi-
milhança (MV) de φ , φˆ , é tal que as respectivas estimativas maximizam a função de
verosimilhança, dado (Y , X ) (ver anexo 2D).
Sabe-se que f (Y , X | φ ) = f (Y | X ;θ ) f ( X |ψ ) , onde φ = (θ ,ψ ) [para simplificar
as notações, utiliza-se o mesmo símbolo f para representar as três funções densidade; em
rigor, deve usar-se fY , X para a função densidade conjunta, fY | X para a função densidade
condicionada, e f X , para a função densidade marginal]. Como no MRLCN o vector
θ = ( β , σ 2 ) não depende do vector ψ , não é necessário conhecer a função densidade
marginal de X para obter o estimador MV do vector dos parâmetros de interesse,
θ = ( β , σ 2 ) . Assim, basta considerar a função de verosimilhança correspondente à dis-
tribuição de Y condicionada por X,
~  1 ~ ~
L( β , σ~ 2 | Y , X ) = (2π σ~ 2 ) − n / 2 exp− ~ 2 (Y − Xβ )T (Y − Xβ ) ,
 2σ 
~
onde β e σ~ 2 representam, respectivamente, quaisquer valores hipotéticos de β e σ 2 .
Os estimadores MV respectivos, β̂ e σ̂ 2 , obtêm-se maximizando esta função de verosi-
~
milhança em ordem a β e σ~ 2 .
A determinação dos maximizantes é feita utilizando o logaritmo da função de
verosimilhança,
~ n 1 ~ ~
ln{ L( β , σ~ 2 | Y , X )} = − ln (2π σ~ 2 ) − ~ 2 (Y − Xβ )T (Y − Xβ ) ,
2 2σ
o que permite simplificar os cálculos.
A obtenção dos estimadores MV de β e σ 2 vai ser feita recorrendo ao cálculo
~
diferencial. Calculando as primeiras derivadas em ordem a β e σ~ 2 , e igualando-as a
zero, obtêm-se as equações de verosimilhança,
 ~ ~2 1 ~
∇ β~ ln{ L( β , σ | Y , X )} = σ~ 2 ( X Y − X X β ) = 0
T T

∇ ~ 2 ln{ L( β~, σ~ 2 | Y , X )} = − n + 1 (Y − Xβ~ )T (Y − Xβ~ ) = 0 .
 σ 2σ~ 2 2σ~ 4
Da primeira equação, vem imediatamente
(2.67) β̂ = b ,
ou seja, o estimador MV de β é igual ao respectivo estimador MQ.

~
Substituindo β por b na segunda equação, tem-se o estimador MV de σ 2 ,
Uˆ TUˆ
(2.68) σˆ 2 = .
n
Note-se que β̂ e σ̂ 2 são, de facto, os estimadores MV, pois a matriz hesseana
(das segundas derivadas) de ln( L) é definida negativa.
Conclui-se imediatamente que σ̂ 2 é enviesado. Com efeito,
 (n − k ) s 2  n−k 2
E (σˆ 2 | X ) = E  X  = σ ≠σ2.
 n  n
Estes estimadores podem ser obtidos de outro modo. De facto, é instrutivo maxi-
mizar o logaritmo da função de verosimilhança em dois passos. No primeiro, a maximi-
~
zação é feita em ordem a β , supondo σ~ 2 constante. No segundo passo, maximiza-se
~
em ordem a σ~ 2 , tendo em conta que β , obtido no primeiro passo, pode depender de
σ~ 2 .
Observando a expressão do logaritmo da função de verosimilhança, verifica-se
~
que maximizar esta função em ordem a β é equivalente a minimizar a função
~ ~ ~
ϕ ( β ) = (Y − Xβ )T (Y − Xβ ) ,
já conhecida do método MQ. Assim, obtém-se imediatamente (2.67). Além disso, devi-
do às hipóteses estabelecidas para o MRLCN, este maximizante não depende de σ~ 2 .
~
Substituindo β por b no logaritmo da função de verosimilhança, obtém-se
n n Uˆ TUˆ
ln{L∗ (σ~ 2 | Y , X )} = − ln (2π ) − ln (σ~ 2 ) − ~ 2 ,
2 2 2σ
~
que se chama logaritmo da função de verosimilhança concentrada (em relação a β ).
Trata-se de uma função apenas de σ~ 2 , e a sua maximização permite obter (2.68). Este
cálculo é imediato, uma vez que a soma dos quadrados dos resíduos não depende de
σ~ 2 .
Facilmente se conclui que o máximo do logaritmo da função de verosimilhança
é dado por
~ ~2 n   2π   n
~ ~ 2 ln{ L ( β , σ | Y , X )} = −
max ln   + 1 − ln (Uˆ TUˆ ) .
β ,σ 2   n   2
Então,
−n / 2
~ ~2  2π   n
~ ~ 2 L( β , σ | Y , X ) = 
max  exp  −  (Uˆ TUˆ ) − n / 2 .
β ,σ  n   2
Alternativamente, a concentração da função de verosimilhança pode fazer-se em
~
relação a σ~ 2 , obtendo-se uma função de β . De facto, fazendo γ~ = σ~ 2 no logaritmo da
função de verosimilhança,
~ n 1 ~ ~
ln{ L( β , γ~ | Y , X )} = − ln (2π γ~ ) − ~ (Y − Xβ )T (Y − Xβ ) ,
2 2γ
obtém-se
~ n 1 ~ ~
∇γ~ ln{ L( β , γ~ | Y , X )} = − ~ + ~ 2 (Y − Xβ )T (Y − Xβ ) = 0 ,
2γ 2γ
ou
1 ~ ~
γ~ = (Y − Xβ )T (Y − Xβ ) .
n
~
Então, obtém-se a função de β ,
~ n   2π   n ~ ~
ln{ L∗ ( β | Y , X )} = − ln   + 1 − ln{(Y − Xβ )T (Y − Xβ )} ,
2  n   2
que permite obter (2.67).

Supondo verificadas as hipóteses do MRLCN, e as restrições Rβ = δ , os esti-
madores de máxima verosimilhança de β e σ 2 são obtidos maximizando a função de
verosimilhança com as restrições referidas. Obtém-se
Uˆ rT Uˆ r
β̂ r = br e σˆ r2 = .
n
No anexo 2E relacionam-se alguns resultados fundamentais da Estatística (esta-
tísticas suficientes; estimadores UMVU; desigualdade de Fréchet-Crámer-Rao) com os
estimadores MQ dos parâmetros do MRLCN.
2.10 - Inferência estatística
Esta secção tem por objectivo desenvolver o estudo da inferência estatística do

MRLCN, nomeadamente apresentar os resultados que permitem construir intervalos e
regiões de confiança, e realizar testes estatísticos. Estes resultados baseiam-se em certas
distribuições exactas, sendo, portanto, válidos para qualquer dimensão da amostra.
Quando se abandona a hipótese REX.6, as distribuições passam a ser assintóticas, e,
portanto, válidas só para grandes amostras (ver capítulo 3). No anexo 2F apresentam-se
alguns conceitos e resultados fundamentais sobre teste de hipóteses.
As distribuições exactas referidas podem ser obtidas, com mais facilidade, a par-
tir de certas propriedades das distribuições que envolvem um vector aleatório com
distribuição normal multidimensional, e certas formas quadráticas obtidas a partir deste
vector.
Propriedades de distribuições de vectores aleatórios

1) A primeira propriedade é bem conhecida (a soma dos quadrados de n variáveis alea-
tórias normais estandardizadas independentes é uma variável aleatória com distri-
buição do qui-quadrado com n graus de liberdade). Trata-se, agora, de apresentá-la
utilizando a notação matricial. Assim,
z ~ N ( n ) (0, I ) ⇒ z T z ~ χ 2 (n) .
2) Quando se pretende generalizar a propriedade anterior, supondo que E ( z ) = µ e
Cov( z ) = V , obtém-se
z ~ N ( n ) ( µ , V ) ⇒ ( z − µ )T V −1 ( z − µ ) ~ χ 2 (n) .
3) Se z ~ N ( n ) (0, σ 2 I ) e A é uma matriz quadrada de ordem n, simétrica e idempotente,
com característica igual a r, então
1
z T A z ~ χ 2 (r ) .
σ2
4) Se z ~ N ( n ) (0, σ 2 I ) , e A e B são matrizes quadradas de ordem n, simétricas e idem-
potentes, tais que AB = O , então z T A z e z T B z são independentes.
5) Se z ~ N ( n ) ( µ , σ 2 I ) , A é uma matriz não aleatória quadrada de ordem n, simétrica e
idempotente, B é uma matriz não aleatória de tipo m × n , e BA = O , então B z e
z T A z são independentes.
Inferência estatística sobre a variância das variáveis residuais
Sabe-se que: Uˆ T Uˆ = U T PX U (ver propriedade 2.4); U | X ~ N ( n ) (0, σ 2 I n ) [con-

sequência da hipótese REX.6]; PX é uma matriz simétrica e idempotente, de caracterís-
tica n − k (ver propriedade 2.1). Então, atendendo à propriedade 3) das distribuições de
vectores aleatórios, tem-se
Uˆ TUˆ (n − k ) s 2
X ~ χ 2 (n − k ) ou X ~ χ 2 (n − k ) .
σ 2
σ 2
O parâmetro característico desta distribuição, condicionada por X, é n − k . Co-

mo este parâmetro não depende de X, a respectiva distribuição não condicionada é dada
por
Uˆ TUˆ (n − k ) s 2
(2.69) q= = ~ χ 2 (n − k ) .
σ 2
σ 2
Conclui-se imediatamente que

2σ 4
Var( s 2 | X ) = Var( s 2 ) = .
n−k
O resultado (2.69) vai permitir construir intervalos de confiança, e fazer testes de
hipóteses sobre o parâmetro σ 2 .
Para construir um intervalo de confiança de nível 1 − α para σ 2 , tem-se

 (n − k ) s 2 
P  χ12−α / 2 ≤ ≤ χα2 / 2  = 1 − α ,
 σ 2

onde χα2 é tal que P(q > χα2 ) = α . Os valores de χα2 / 2 (quantil de ordem 1 − α / 2 ) e de
χ12−α / 2 (quantil de ordem α / 2 ) estão tabelados, ou podem ser calculados com o soft-
ware adequado. Vem
 (n − k ) s 2 (n − k ) s 2 
P  ≤ σ 2
≤  = 1−α .
 χα / 2
2
χ12−α / 2 
Então, o intervalo de confiança para σ 2 , de nível 1 − α , é

 (n − k ) s 2 (n − k ) s 2 
(2.70)  ; .
 χ 2
α /2 χ 2
1−α / 2 
Para efectuar testes de hipóteses de dimensão α para o parâmetro σ 2 , a estatís-

tica-teste é construída recorrendo a (2.69), e segue-se o procedimento habitual.
Vai testar-se H 0 : σ 2 = σ 02 contra uma das alternativas seguintes:
a) H 1 : σ 2 > σ 02 ; b) H 1 : σ 2 < σ 02 ; c) H 1 : σ 2 ≠ σ 02 .
A estatística-teste é
(n − k ) s 2
(2.71) q= ~ χ 2 (n − k ) .
σ 2
0
Por exemplo, no caso a), representando por qobs o respectivo valor observado,
este valor vai comparar-se com o valor crítico, χ α2 , e rejeita-se a hipótese nula quando
qobs > χ α2 . O valor-p é P(q > qobs | H 0 ) .
No quadro 2.1 apresentam-se as regiões críticas e os valores-p para os três casos
referidos.
Quadro 2.1
Teste de H 0 : σ 2 = σ 02 contra H 1
H1 Região crítica Valor-p
σ 2 > σ 02 χα2 σ 02 P(q > qobs | H 0 )

q > χα2 ou s 2 >
n−k
σ 2 < σ 02 χ12−α σ 02 P(q < qobs | H 0 )

q < χ12−α ou s 2 <
n−k
q < χ12−α / 2 ∨ q > χα2 / 2 ou

σ ≠σ
2 2
0 duas vezes o
χ12−α / 2 σ 02 χα2 / 2 σ 02 menor dos valores
s <
2
∨s >
2
n−k n−k acima
Nota – χα2 : P(q > χα2 ) = α

Deve notar-se que os resultados desta subsecção são, em geral, pouco úteis, uma
vez que não é habitual, nos MRL, fazer inferência estatística sobre σ 2 . Contudo, (2.69)
é importante para fundamentar os resultados necessários para a inferência estatística re-
lativa aos coeficientes de regressão.
Inferência estatística sobre um coeficiente de regressão isolado
Como b = ( X T X ) −1 X T Y e Y | X ~ N ( n ) ( Xβ , σ 2 I ) , obtém-se
b | X ~ N ( k )  β , σ 2 ( X T X ) −1  .
 
Note-se que a distribuição não condicionada de b não é normal k-dimensional,
uma vez que a matriz das covariâncias da distribuição de b, condicionada por X, de-
pende de X.
Em particular,
bj − β j
X ~ N (0,1) ( j = 1, 2,K, k ) ,
σb j
onde σ b2j = σ 2 m jj (a respectiva raiz quadrada é o desvio padrão de b j ), e m jj é o j-ési-

mo elemento da diagonal principal da matriz ( X T X ) −1 . Então,
bj − β j bj − β j
(2.72) = ~ N (0,1) ( j = 1, 2,K, k ) .
σ m jj σb j
Não é possível fazer inferências com (2.72) sobre β j porque o parâmetro σ 2 é

desconhecido (parâmetro perturbador). Vai, então, procurar-se o resultado estatístico
adequado para tal propósito.
Facilmente se verifica que b (ou qualquer b j ) e Û são condicionalmente inde-
pendentes, uma vez que as respectivas distribuições, condicionadas por X, são normais,
e Cov(b, Uˆ | X ) = O (no anexo 2E também se demonstra que b e s 2 são condicional-
mente independentes).
Evidentemente que as duas variáveis aleatórias
bj − β j (n − k ) s 2
e ,
σ m jj σ2
são condicionalmente independentes, porque são funções de b e de Û , respectivamente.
A primeira destas variáveis aleatórias tem distribuição (condicionada por X) nor-
mal estandardizada; a segunda tem distribuição (condicionada por X) do qui-quadrado.
Então, facilmente se conclui que, dividindo a primeira variável aleatória pela raiz qua-
drada da segunda, dividida pelos seus graus de liberdade, se obtém uma variável aleató-
ria, cuja distribuição, condicionada por X, é uma t-Student com n − k graus de liberda-
de. Assim,
bj − β j
X ~ t (n − k ) ( j = 1, 2, K , k ) .
s m jj
O parâmetro característico desta distribuição, condicionada por X, é n − k . Co-
mo este parâmetro não depende de X, a respectiva distribuição não condicionada é dada
por
bj − β j bj − β j
(2.73) tj = = ~ t (n − k ) ( j = 1, 2, K , k ) ,
s m jj sb j
onde, como se sabe, sb j é o erro padrão de b j .

Suponha-se que se pretende construir um intervalo de confiança de nível 1 − α
(por exemplo, 1 − α = 0.95 ) para β j . Como o resultado (2.73) fornece uma variável ful-
cral, vem
 bj − β j 
P  − tα / 2 ≤ ≤ tα / 2  = 1 − α ,
 sb j 
 
onde tα / 2 é tal que P(t j > tα / 2 ) = α / 2 .
Então,
P  b j − tα / 2 sb j ≤ β j ≤ b j + tα / 2 sb j  = 1 − α ,
 
e o intervalo de confiança, de nível 1 − α , para β j é
(2.74) [ b j − tα / 2 sb j ; b j + tα / 2 sb j ].
Suponha-se que se pretende fazer o teste de hipóteses H 0 : β j = β 0j contra uma

das três seguintes hipóteses alternativas:
a) H 1 : β j > β 0j ; b) H1 : β j < β 0j ; c) H 1 : β j ≠ β 0j .
Em qualquer dos casos, a estatística-teste é dada pelo rácio-t

b j − β 0j
(2.75) tj = ~ t (n − k ) .
sb j
Por exemplo, no caso c), se t j ,obs é o valor observado da estatística-teste, este
valor vai ser comparado com o valor crítico, tα / 2 , e rejeita-se H 0 quando | t j ,obs | > t a / 2 .
O valor-p é 2 P (t j > | t j , obs | H 0 ) . As três situações referidas estão resumidas no quadro
2.2.
Deve chamar-se a atenção para um aspecto interessante relativo ao cálculo do
valor-p quando a alternativa é unilateral. Suponha-se, por exemplo, que H 1 : β j > β 0j e
que b j < β 0j . Neste caso, não vale a pena calcular o valor-p, pois sabe-se que o seu valor
é superior a 0.50, o que leva sempre a não rejeitar a hipótese nula.
Quadro 2.2
Teste de H 0 : β j = β 0j contra H 1
β j > β 0j t j > tα ou b j > β 0j + tα sb j P(t j > t j ,obs | H 0 )
β j < β 0j t j < −tα ou b j < β 0j − tα sb j P(t j < t j ,obs | H 0 )
β j ≠ β 0j | t j | > tα / 2 ou 2 P (t j > | t j ,obs | H 0 )

b j < β − tα / 2 sb j ∨ b j > β + tα / 2 sb j
0
j
0
j
Nota – tα : P(t j > tα ) = α
É particularmente importante o caso em que β 0j = 0 , ou seja, considerar a hipó-

tese nula H 0 : β j = 0 . Neste caso, o rácio-t reduz-se a
bj
tj = .
sb j
Se o teste rejeitar a hipótese nula, diz-se que o regressor xtj é estatisticamente

significativo para explicar o comportamento médio de yt ; também pode dizer-se que
xtj tem significância estatística para a finalidade referida.
Por exemplo, se lsalart = β1 + β 2 educt + β3 expert + β 4 empct + ut , rejeitar a hipó-
tese H 0 : β 2 = 0 tem a seguinte interpretação: controlando expert e empct , educt é sig-
nificativo, do ponto de vista estatístico, para explicar o comportamento médio do regres-
sando lsalart .
Antes de retomar o exemplo reservado para a análise empírica, vão fazer-se mais
alguns comentários:
a) Quando se faz um teste de hipóteses, como os indicados anteriormente, é preferível
utilizar a expressão “não rejeitar a hipótese nula” do que “aceitar a hipótese nu-
la”. Considere-se de novo a equação explicativa de lsalar, e que pretendia fazer-
-se o teste de H 0 : β 2 = 0.06 , com dimensão 0.05. Não rejeitar esta hipótese não in-
valida obviamente que também se possa não rejeitar a hipótese H 0 : β 2 = 0.061 . É
absurdo dizer que se aceitam as duas hipóteses, porque as afirmações “ β 2 = 0.06 ” e
“ β 2 = 0.061 ” não podem ser ambas verdadeiras. Tudo o que se pode dizer, é que os
dados não permitem rejeitar qualquer das duas hipóteses ao nível 0.05. Também se
usa a expressão “a evidência estatística é favorável à hipótese nula” quando se
conclui que a hipótese não é rejeitada.
b) Muitas vezes, dá-se toda a ênfase à significância estatística de um regressor, não se
dando a atenção devida à sua significância prática, que tem a ver com a magnitude
da estimativa obtida. Como o rácio-t para fazer o teste de H 0 : β j = 0 é t j = b j / sb j ,
pode haver significância estatística porque b j é “grande”, ou porque sb j , é “peque-
no”. Assim, pode ter-se um regressor estatisticamente significativo ( t j é “grande”),

mas sem significado prático ( b j é “pequeno”).
c) No caso de grandes amostras, é importante dar especial atenção à magnitude da es-
timativa obtida para o coeficiente, pois acontece muitas vezes que o regressor é esta-
tisticamente significativo porque o erro padrão é baixo (com grandes amostras os
parâmetros podem ser estimados com mais precisão).
d) Alguns autores preconizam que a dimensão do teste, α , deve diminuir à medida
que a dimensão da amostra, n, cresce, de forma a compensar parcialmente o facto
de os erros padrão se tornarem mais pequenos. Por exemplo, no caso de dados sec-
cionais, se se utiliza o nível de 0.05 quando a dimensão da amostra é de algumas
centenas, deve usar-se o nível de 0.01 quando a dimensão da amostra é de alguns
milhares. Uma dimensão menor para o teste contribui para que as duas significân-
cias (estatística e prática) possam coincidir, embora esta ocorrência não esteja garan-
tida.
e) Recorde-se que erros padrão elevados podem resultar da existência de um forte grau
de multicolinearidade. Nesta situação, as estimativas de alguns coeficientes podem
ser muito imprecisas, levando à conclusão, talvez errada, de que os regressores não
são estatisticamente significativos.
f) Podem dar-se algumas indicações práticas para orientar a discussão relativa à ques-
tão das significâncias estatística e prática de um regressor. Assim:
− Deve analisar-se a significância estatística dos regressores. Se um regressor tem
significância estatística, deve discutir-se a magnitude da estimativa do respectivo
coeficiente para se ter uma ideia da sua importância prática. Neste aspecto, deve
dar-se particular atenção às unidades de medida das variáveis, e à forma como
aparecem no modelo (em níveis, em logaritmos, etc.).
− Mesmo que o regressor não seja estatisticamente significativa aos níveis usuais
(0.10, 0.05 ou 0.01), o seu significado prático pode ainda ser importante porque
pode não ser pequena a magnitude da estimativa do seu coeficiente. Neste caso,
deve ter-se presente o respectivo valor-p, pois, como se sabe, este mede a proba-
bilidade de obter qualquer valor mais desfavorável para a hipótese nula (supon-
do-a verdadeira) do que o valor observado da estatística-teste. Na prática, o va-
lor-p é um indicador da “credibilidade” da hipótese nula.
− Pode acontecer que um regressor é estatisticamente significativo, mas a estimati-
va do respectivo coeficiente, embora sendo elevada, tem o “sinal trocado”. Este
problema não é fácil de resolver, pois resulta muitas vezes de uma deficiente es-
pecificação do modelo (forma funcional, regressores importantes omitidos, erros
de medida nas variáveis, etc.). Em certas aplicações, as dificuldades encontradas
podem ser atenuadas com algum esforço de análise sobre a especificação do mo-
delo, e sobre a natureza dos dados disponíveis.
Exemplo 2.15 – Considere-se de novo o exemplo em estudo. Para analisar a significân-

cia estatística dos três regressores ( educt , expert e empct ), faz-se, separadamente, o tes-
te das seguintes hipóteses nulas: β 2 = 0 ; β 3 = 0 ; β 4 = 0 (as alternativas são bilaterais).
Regressores Rácios-t Valores-p

educt 11.40450 0.000
expert 9.04644 0.000
empct 1.63237 0.103
Os valores referidos no quadro anterior permitem concluir que, a nível 0.05, os

regressores educt e expert , individualmente, são estatisticamente significativas [os efei-
tos parciais sobre lsalart são significativos, e os sinais estão correctos]. O regressor
empct não é significativo a 0.10. Contudo, quando a hipótese alternativa é H1 : β 4 > 0
(o sinal esperado deste coeficiente), o valor-p é 0.0515, e empct já é significativo a ní-
vel 0.10.
Suponha-se que se pretenda testar H 0 : β 2 = 0.06 (retorno da educação igual a
6%) contra H1 : β 2 > 0.06 . Como b2 = 0.055383 < 0.06 , não vale a pena calcular o valor
observado da estatística-teste e o valor-p, pois sabe-se que o seu valor é superior a 0.50,
o que leva sempre a não rejeitar a hipótese nula. Calculando, tem-se
b2 − 0.06 0.055383 − 0.06
t2, obs = = = −0.951 ,
sb2 0.004856
e o valor-p é igual a 0.829. Quando a hipótese alternativa é H1 : β 2 < 0.06 , o valor-p é

0.17, não se rejeitando a hipótese nula, mesmo a nível 0.15 (o valor crítico a 0.05 é igual
a –1.646).
Podem construir-se intervalos de confiança a 95% para os coeficientes de regres-
são. Com α = 0.05 e n − k = 996 , vem t0.025 = 1.962 . Utilizando os valores obtidos nos
exemplos 2.6 e 2.9, obtém-se:
β 2 : [ b2 − tα / 2 sb , b2 + tα / 2 sb ] = [0.0459, 0.0649];
2 2
β 3 : [ b3 − tα / 2 sb , b3 + tα / 2 sb ] = [0.018, 0.028];
3 3
β 4 : [ b4 − tα / 2 sb , b4 + tα / 2 sb ] = [–0.0008, 0.0087];
4 4
Facilmente se conclui que a hipótese nula que corresponde a cada um dos valo-
res destes intervalos não é rejeitada a nível 0.05, quando as hipóteses alternativas são
bilaterais. Por exemplo, as hipóteses nulas H 0 : β 2 = 0.05 ou H 0 : β 2 = 0.06 não são re-
jeitadas porque 0.05 e 0.06 pertencem ao intervalo de confiança de β 2 .
Para construir um intervalo de confiança a 95% para a variância das variáveis re-
siduais, tem-se, com α = 0.05 e n − k = 996 , χ 02.025 = 1085.355 e χ 02.975 = 910.4327 . En-
tão,
 (n − k ) s 2 (n − k ) s 2 
σ2:  , 2 = [0.1294, 0.15426].
 χα / 2
2
χ1−α / 2 
∇
Inferência estatística sobre uma combinação linear dos coeficientes de regressão
Considere-se a combinação linear dos coeficientes de regressão

δ = c1β1 + c2 β 2 + L + ck β k = cβ ,
onde c é um vector 1 × k de elemento genérico c j .
O estimador MQ de δ é δˆ = cb , e facilmente se conclui que
δˆ | X ~ N  δ , σ 2c( X T X )−1 cT  ,
 
ou
δˆ − δ
X ~ N (0,1) .
σ c( X T X ) −1 cT
Com um procedimento semelhante ao caso anterior, facilmente se chega à conc-

lusão de que
δˆ − δ
X ~ t (n − k ) .
s c( X T X ) −1 c T
Logo,
δˆ − δ δˆ − δ
(2.76) tδˆ = = ~ t (n − k ) ,
s c( X T X ) −1 cT sδˆ
onde
sδˆ = s c( X T X ) −1 c T
é o erro padrão de δˆ = cb .
Para uma melhor compreensão do resultado (2.76), suponha-se, por exemplo,
δ = β 2 + 3β3 . Então, δˆ = b2 + 3b3 , e vem
^ ^ ^ ^
sδ2ˆ = Var(b2 + 3b3 | X ) = Var(b2 | X ) + Var(3b3 | X ) + 2 Cov(b2 ,3b3 | X )
^ ^ ^ ^
= Var(b2 | X ) + 9 Var(b3 | X ) + 6 Cov(b2 , b3 | X ) = sb22 + 9sb23 + 6 Cov(b2 , b3 | X ) ,
e, portanto, de acordo com (2.76), obtém-se
(b2 + 3b3 ) − ( β 2 + 3β 3 )
~ t (n − k ) .
^
s + 9 s + 6 Cov(b2 , b3 | X )
2
b2
2
b3
Evidentemente, esta expressão dá os mesmos resultados numéricos que (2.76),

mas permite, muitas vezes, tirar partido do output fornecido pelo software computacio-
nal, evitando fazer o produto matricial c( X T X ) −1 c T .
Quando a combinação linear dos coeficientes de regressão não envolve o termo
independente β1 , ou seja, quando δ = c2 β 2 + c3β 3 + L + ck β k ( c1 = 0 ), pode calcular-se
directamente o erro padrão de δˆ . Com efeito, considere-se, sem perda de generalidade,

que um dos coeficientes c j ( j = 2, 3, K, k ) é igual a 1. Por exemplo, se c2 = 1 , tem-se
δ = β 2 + c3β3 + L + ck β k .
Como
yt = β1 + β 2 xt 2 + β3 xt 3 + L + β k xtk + ut
= β1 + ( β 2 + c3 β3 + L + ck β k ) xt 2 + β 3 ( xt 3 − c3 xt 2 ) + L + β k ( xtk − ck xt 2 ) + ut
= β1 + δ xt 2 + β 3 ( xt 3 − c3 xt 2 ) + L + β k ( xtk − ck xt 2 ) + ut ,
pode estimar-se imediatamente δ (e calcular o erro padrão de δˆ ), fazendo a regressão

MQ de yt sobre 1, xt 2 , xt 3 − c3 xt 2 ,…, xtk − ck xt 2 . Por exemplo, considere-se o modelo
yt = β1 + β 2 xt 2 + β 3 xt 3 + ut ,
onde δ = β 2 + 3β3 . Como

yt = β1 + ( β 2 + 3β 3 ) xt 2 + β 3 ( xt 3 − 3 xt 2 ) + ut = β1 + δ xt 2 + β 3( xt 3 − 3 xt 2 ) + ut ,
δ pode ser estimado fazendo a regressão MQ de yt sobre 1, xt 2 e xt 3 − 3xt 2 ; o erro pa-

drão de δˆ é obtido directamente desta regressão.
Pode obter-se um intervalo de confiança para uma combinação linear dos coe-
ficientes de regressão, ficando ao cuidado do leitor verificar que
(2.77) [ δˆ − tα / 2 sδˆ , δˆ + tα / 2 sδˆ ].
Suponha-se que se pretende fazer o teste de hipóteses H 0 : δ = δ 0 contra uma

das seguintes alternativas:
a) H 1 : δ > δ 0 ; b) H 1 : δ < δ 0 ; c) H 1 : δ ≠ δ 0 .
A estatística-teste é o rácio-t,
δˆ − δ 0
(2.78) tδˆ = ~ t (n − k ) .
sδˆ
Quadro 2.3
Teste de H 0 : δ = δ 0 contra H 1
H1 : δ > δ 0 tδˆ > tα ou δˆ > δ 0 + tα sδˆ P (tδˆ > tδˆ ,obs | H 0 )
H1 : δ < δ 0 tδˆ < −tα ou δˆ < δ 0 − tα sδˆ P (tδˆ < tδˆ , obs | H 0 )
H1 : δ ≠ δ 0 | tδˆ | > tα / 2 ou 2 P(tδˆ > | tδˆ ,obs | H 0 )

δˆ < δ 0 − tα / 2 sδˆ ∨ δˆ > δ 0 + tα / 2 sδˆ
Nota – tα : P(tδˆ > tα ) = α

As três situações referidas estão apresentadas no quadro 2.3.

Por exemplo, no caso b), representando por tδ ,obs o valor observado da estatísti-
ca-teste, este valor vai ser comparado com o valor crítico, tα , e rejeita-se H 0 quando
tδ ,obs < −ta . O valor-p é P(tδ < tδ ,obs | H 0 ) .
Exemplo 2.16 – Considerando de novo o exemplo em estudo, suponha-se que se preten-

de construir um intervalo de confiança a 95% para δ = β 3 − β 4 . Reformulando o mode-
lo, o cálculo de δˆ e de sδˆ pode ser feito com facilidade. Fazendo β 3 = δ + β 4 , tem-se
lsalart = β1 + β 2 educt + β 3 expert + β 4 empct + ut
= β1 + β 2 educt + (δ + β 4 ) expert + β 4 empct + ut
= β1 + β 2 educt + δ expert + β 4 (expert + empct ) + ut .
Com a regressão MQ de lsalart sobre 1, educt , expert e expert + empct resulta

imediatamente que δˆ = 0.019035 e sδˆ = 0.00346 . Então,
[ δˆ − tα / 2 sδˆ , δˆ + tα / 2 sδˆ ] = [0.0122, 0.0258].
Note-se que δˆ e sδˆ podem ser calculados, utilizando directamente os resultados

já obtidos nos exemplos 2.6 e 2.9. Assim, tem-se
δˆ = b3 − b4 = 0.022988 − 0.003953 = 0.019035 ,
e
^ ^ ^
sδˆ = Var(b3 | X ) + Var(b4 | X ) − 2 Cov(b3 , b4 | X )
= 0.00000646 + 0.00000587 − 2 × 0.000000167 = 0.00346 .
Para testar, a nível 0.05,
H 0 : δ = β3 − β 4 = 0 contra H1 : δ = β3 − β 4 > 0 .
Tem-se
δˆ − 0 0.019035
tδˆ , obs = = = 5.49764 ,
sδˆ 0.00346
a que corresponde o valor-p aproximadamente igual a 0. Então, rejeita-se H 0 .

Suponha-se, agora, que vai testar-se
H 0 : β3 + β 4 = 0.03 contra H1 : β3 + β 4 ≠ 0.03 .
Fazendo δ = β 3 + β 4 − 0.03 , o teste pode ser feito substituindo no modelo origi-

nal β 3 por δ − β 4 + 0.03 . Então,
lsalart = β1 + β 2 educt + β 3 expert + β 4 empct + ut
= β1 + β 2 educt + (δ − β 4 + 0.03) expert + β 4 empct + ut
= β1 + β 2 educt + δ expert + β 4 (empct − expert ) + 0.03 expert + ut ,
ou
lsalart − 0.03 expert = β1 + β 2 educt + δ expert + β 4 (empct − expert ) + ut .
Então, testar
H 0 : δ = 0 contra H1 : δ ≠ 0
equivale a testar H 0 : β3 + β 4 = 0.03 contra H1 : β3 + β 4 ≠ 0.03 (no modelo original). Fa-

zendo a regressão de lsalart − 0.03 expert sobre 1, educt , expert e empct − expert , ob-
tém-se δˆ = −0.003058 e sδˆ = 0.003558 . O rácio-t é − 0.859587 , que corresponde ao
valor-p igual a 0.39; a hipótese nula não é rejeitada.
∇
Exemplo 2.17 – É interessante saber se o retorno da educação depende de alguma das

outras variáveis explicativas (por exemplo, expert ). No caso de se pretender averiguar
se o retorno da educação depende do número de anos de experiência profissional, é ne-
cessário acrescentar ao modelo o regressor que representa a interacção entre educt e
expert . A especificação do modelo passa a ser
lsalart = β1 + β 2 educt + β3 expert + β 4 empct + β 5 (educt × expert ) + ut .
Os resultados da estimação são os seguintes:
Regressores Estimativas dos coeficientes Erros padrão Rácios-t Valores-p

constante 5.685180 0.170480 33.34810 0.000
educt 0.065622 0.013116 5.00305 0.000
expert 0.033817 0.013134 2.57476 0.010
empct 0.003924 0.002422 1.62005 0.106
educt × expert –0.000854 0.001017 –0.84035 0.401
Testar que o retorno da educação, β 2 + β5 expert , não depende de expert corres-

ponde a fazer H 0 : β5 = 0 contra H1 : β 5 ≠ 0 . Como o valor-p é 0.401, não se rejeita a hi-
pótese nula. A evidência estatística é favorável a que o retorno da educação não depen-
da do número de anos de experiência profissional.
Vai construir-se o intervalo de confiança a 95% para o retorno da educação
quando expert = 10 , ou seja, para δ = β 2 + 10β 5 . Reformulando o modelo, tem-se
lsalart = β1 + β 2 educt + β 3 expert + β 4 empct + β 5 (educt × expert ) + ut
= β1 + (δ − 10β 5 )educt + β 3 expert + β 4 empct + β 5 (educt × expert ) + ut
= β1 + δ educt + β 3 expert + β 4 empct + β 5 educt × (expert − 10) + ut .
A estimativa de δ é δˆ = 0.057077 . Como sδˆ = 0.005259 , facilmente se verifica

que o intervalo de confiança é [0.046758, 0.067397], que pouco difere do intervalo de
confiança de β 2 do modelo inicial.
∇
Inferência estatística sobre combinações lineares dos coeficientes de regressão
Seja δ = Rβ , onde R é uma matriz m × k com característica igual a m ≤ k . Já se

sabe que δˆ = Rb é o estimador MQ de δ . Tem-se, então,
δˆ | X ~ N ( m )  δ , R Cov(b | X ) RT  ,
 
ou
δˆ | X ~ N ( m )  δ , σ 2 R( X T X ) −1 RT  .
 
Atendendo à propriedade 2) das distribuições de vectores aleatórios, obtém-se
1
(δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ ) X ~ χ 2 (m) .
σ2
Utilizando este resultado, e (2.69), é possível obter uma variável aleatória que
segue uma distribuição F-Snedcor. Para isso, basta demonstrar a independência, condi-
cionada por X, entre
Uˆ T Uˆ = U T PX U e (δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ ) = U T S X U ,
onde
δˆ − δ = R( X T X )−1 X TU e S X = X ( X T X )−1 RT {R( X T X ) −1 RT }−1 R ( X T X )−1 X T
é simétrica e idempotente. Com efeito, basta notar que PX S X = O e atender à proprieda-
de 4) das distribuições de vectores aleatórios.
Como (1 / σ 2 ) U T S X U | X ~ χ 2 (m) e (1 / σ 2 ) Uˆ TUˆ | X ~ χ 2 (n − k ) , obtém-se
(δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ ) / m

X ~ F (m, n − k ) ,
Uˆ TUˆ /(n − k )
ou
(δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ )
X ~ F (m, n − k ) .
2
ms

^
Cov(δˆ | X ) = s 2 R( X T X ) −1 R T .
Os parâmetros característicos daquela distribuição, condicionada por X, são m e
n − k . Como estes parâmetros não dependem de X, a respectiva distribuição não condi-
cionada é dada por
(δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ )
(2.79) F= ~ F (m, n − k ) .
ms 2
São de referir três casos particulares importantes de (2.79):
1) R = [ 0 L 1 L 0 ], onde 1 se encontra na posição j.

Neste caso, a partir de (2.79), tem-se
(b j − β j ) 2 (b j − β j ) 2
= ~ F (1, n − k ) ( j = 1, 2, K , k ) .
m jj s 2 sb2j
Este resultado permite fazer o teste H 0 : β j = β 0j contra H 1 : β j ≠ β 0j (hipótese al-

ternativa bilateral), mas não quando a hipótese alternativa é unilateral. Tirando par-
tido das relações existentes entre a t-Student e a F-Snedcor, facilmente se obtém
(2.73).
2) R é uma matriz-linha 1 × k , ou seja, R = c .
Neste caso, de (2.79) sai
(δˆ − δ ) 2 (δˆ − δ ) 2
= ~ F (1, n − k )
s 2c ( X T X ) −1 cT sδ2ˆ
Este resultado permite fazer o teste H 0 : δ = δ 0 contra H 1 : δ ≠ δ 0 (hipótese alter-

nativa bilateral), mas não no caso unilateral. Recorrendo uma vez mais à relação en-
tre as distribuições F-Snedcor e t-Student, obtém-se (2.76).
3) R = [ O I k 2 ], onde O é a matriz nula, quadrada de ordem k1 .
Seja
b  β 
b =  •1  e β =  •1  ,
b•2   β •2 
onde: b•1 e β •1 têm k1 elementos; b•2 e β •2 têm k2 elementos ( k1 + k2 = k ).
Seja M = X T X , e
M M 12  −1  M 11 M 12 
M =  11 , M =  21 ,
 M 21 M 22  M M 22 
onde as partições por blocos de M e de M −1 são compatíveis com a partição dos

vectores b e β . Então,
(δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ ) = (b• 2 − β • 2 )T ( M 22 ) −1 (b• 2 − β• 2 ) ,
onde, atendendo à técnica de cálculo da inversa de matrizes por blocos (ver anexo
2A), ( M 22 ) −1 = M 22 − M 21M 11−1M 12 .
Assim,
(b• 2 − β• 2 )T ( M 22 ) −1 (b• 2 − β• 2 )
~ F (k2 , n − k ) .
k2 s 2
Este resultado serve para fazer inferência estatística sobre

β • 2 = [ β k +1 β k + 2 L β k ] T .
1 1
Retomando o caso geral, note-se que o resultado (2.79) pode ser apresentado de
forma equivalente, utilizando os resíduos MQ com restrições, e evitando o cálculo da
matriz {R( X T X ) −1 RT }−1 . Com efeito, seja
Uˆ r = Y − Xbr = Y − X {b + ( X T X ) −1 RT {R( X T X ) −1 RT }−1 (δ − δˆ)}

= Y − Xb − X ( X T X ) −1 RT {R( X T X ) −1 RT }−1 (δ − δˆ )
= Uˆ − X ( X T X ) −1 RT {R( X T X ) −1 RT }−1 (δ − δˆ) .
Então,
T
Uˆ rTUˆ r =  Uˆ − X ( X T X ) −1 RT {R( X T X ) −1 RT }−1 (δ − δˆ) 
 
×  Uˆ − X ( X T X ) −1 RT {R( X T X ) −1 RT }−1 (δ − δˆ ) 
 
= Uˆ TUˆ + (δˆ − δ )T {R ( X T X ) −1 RT }−1 (δˆ − δ ),
pois X TUˆ = 0 .
Pode, assim, dispor-se do seguinte resultado equivalente a (2.79):
Uˆ rTUˆ r − Uˆ TUˆ
(2.80) F= ~ F (m, n − k ) .
m s2
Os resultados anteriores – (2.79) e (2.80) – vão permitir efectuar inferências re-

lativamente a qualquer conjunto de restrições lineares sobre os coeficientes de re-
gressão.
Para determinar uma região de confiança de nível 1 − α para δ = Rβ deve uti-
lizar-se (2.79). Obtém-se
R1−α = {δ : (δˆ − δ )T {R ( X T X ) −1 RT }−1 (δˆ − δ ) ≤ m s 2 Fα } ,
onde Fα é tal que P( F > Fα ) = α .

Um caso particular importante diz respeito à construção de uma região de con-
fiança para alguns coeficientes de regressão, β •2 . Assim, recorrendo ao terceiro caso
particular de (2.79), vem
R1−α = β• 2 : (b• 2 − β• 2 )T ( M 22 ) −1 (b• 2 − β• 2 ) ≤ k2 s 2 Fα  ,

 
obtendo-se um elipsóide centrado em β •2 .
Obviamente, não é equivalente construir, por exemplo, uma região de confiança
de nível 1 − α para o par de coeficientes de regressão ( β 2 , β 3 ) , ou determinar dois in-
tervalos de confiança de nível 1 − α (um para cada coeficiente de regressão). De facto,
facilmente se podem encontrar pares de valores possíveis daqueles coeficientes que per-
tencem à região – à elipse centrada em ( β 2 , β 3 ) –, mas não pertencem ao rectângulo
formado pelos dois intervalos de confiança; ou pares que pertencem ao rectângulo, mas
não pertencem à elipse. Embora o nível de confiança da região (elipse) seja 1 − α , o ní-
vel de confiança do rectângulo é diferente de 1 − α .
Vai ver-se a seguir como utilizar os resultados (2.79) ou (2.80) para efectuar
testes de hipóteses sobre os coeficientes de regressão.
Suponha-se que se pretende testar
H 0 : Rβ = δ 0 contra H1 : Rβ ≠ δ 0 ,
onde δ 0 é um valor assumido pelo vector m × 1 , δ . Assim, a hipótese nula a testar é

constituída por m igualdades lineares sobre os coeficientes de regressão,
r11β1 + r12 β 2 + L + r1k β k = δ10
r β + r β + L + r β = δ
 2k k
H 0 :  21 1 22 2 20
 L
rm1β1 + rm 2 β 2 + L + rmk β k = δ m 0 ,
onde cada δ i 0 (i = 1, 2, K , m) é conhecido. A hipótese alternativa, H1 , consiste em ne-

gar H 0 , ou seja, em não se verificar pelo menos uma das igualdades referidas.
A estatística-teste é o rácio-F
(δˆ − δ 0 )T {R( X T X ) −1 RT }−1 (δˆ − δ 0 )
(2.81) F= ~ F (m, n − k ) ,
ms2
onde δˆ = Rb . A obtenção da distribuição deste rácio-F foi feita de acordo com o princí-
pio de Wald (ver capítulo 8), que se baseia no estimador MQ de β sem restrições, b.
Como se sabe, quando a hipótese nula se supõe verdadeira, obtém-se o resultado
equivalente,
Uˆ rTUˆ r − Uˆ TUˆ (VR 0 − VR1 ) / m
(2.82) F= = ~ F (m, n − k ) ,
ms2 VR1 /(n − k )
onde: VR 0 = Uˆ rTUˆ r (variação residual ou soma dos quadrados dos resíduos do modelo
com as restrições impostas pela hipótese nula); VR1 = Uˆ TUˆ (variação residual ou soma
dos quadrados dos resíduos do modelo sem restrições); s 2 = VR1 /(n − k ) .
O resultado (2.82) serve para fazer, nas condições referidas, qualquer teste de
hipóteses sobre um conjunto de igualdades lineares que envolvem os coeficientes de re-
gressão. Trata-se de um resultado de fácil aplicação, desde que se tenham estimado o
modelo sem restrições, e o modelo com as restrições dadas pela hipótese nula. Com
efeito, basta notar que o numerador é a diferença entre a variação residual (a soma dos
quadrados dos resíduos) com as restrições e a variação residual sem restrições, e que o
denominador é o produto do número de restrições, m, pelo estimador da variância das
variáveis residuais do modelo sem restrições.
A mecânica do teste é a seguinte: se o valor observado de F, Fobs , é superior a
Fα rejeita-se a hipótese nula; caso contrário, esta hipótese não é rejeitada. Pode também
reportar-se o resultado do teste indicando o respectivo valor-p: pobs = P( F > Fobs | H 0 ) .
Exemplo 2.18 – Suponha-se que yt = β1 + β 2 xt 2 + β 3 xt 3 + β 4 xt 4 + β 5 xt 5 + ut , e que a hi-

pótese nula considera as seguintes restrições sobre os coeficientes de regressão: a soma
dos coeficientes, excepto o termo independente, é igual a 1; β 2 e β 3 são iguais; β 4 é o
dobro de β 5 . Pode, então, escrever-se
β 2 + β 3 + β 4 + β 5 = 1

H 0 : β 2 − β 3 = 0
 β − 2 β = 0.
 4 5
Neste caso, tem-se k = 5 , m = 3 ,

0 1 1 1 1 1 
R = 0 1 − 1 0 0 e δ 0 = 0 .
 
0 0 0 1 − 2 0
A seguir, vai determinar-se o modelo que obedece às restrições estabelecidas na

hipótese nula. Como β 2 = β 3 , β 4 = 2β5 , tem-se 2β3 + 3β5 = 1 ou β 3 = 0.5 − 1.5β5 . En-
tão, obtém-se
yt = β1 + (0.5 − 1.5β 5 )( xt 2 + xt 3 ) + 2 β5 xt 4 + β 5 xt 5 + ut ,
ou
yt − 0.5( xt 2 + xt 3 ) = β1 + β5{−1.5( xt 2 + x3 ) + 2 xt 4 + xt 5} + ut .
Então, o modelo com restrições é dado por

ytr = β1 + β5 xtr + ut ,
onde ytr = yt − 0.5 ( xt 2 + xt 3 ) e xtr = −1.5 ( xt 2 + xt 3 ) + 2 xt 4 + xt 5 .

Neste caso, tem-se
(VR 0 − VR1 ) / 3
F= ~ F (3, n − 5)
VR1 /( n − 5)
∇
Suponha-se que δ 0 = 0 , ou seja, considere-se que o sistema de restrições é ho-

mogéneo, Rβ = 0 . Se as restrições forem inseridas no modelo yt = xt • β + ut , e seguin-
do o mesmo procedimento apresentado na secção 2.8, verifica-se que o regressando do
modelo com restrições continua a ser yt . Neste caso, é possível reformular (2.82). Com
efeito, considerem-se as somas dos quadrados dos resíduos, sem e com restrições,
VR1 = (1 − R 2 )VT e VR 0 = (1 − R02 )VT ,
onde R 2 e R02 são os coeficientes de determinação correspondentes, respectivamente,

aos modelos sem e com restrições. Tem-se: R 2 > R02 .
Substituindo em (2.82), e notando que s 2 = (1 − R 2 )VT /(n − k ) , obtém-se
( R 2 − R02 ) / m
(2.83) ~ F (m, n − k ) ,
(1 − R 2 ) /( n − k )
concluindo-se que o cálculo desta expressão necessita apenas do conhecimento dos coe-
ficientes de determinação referidos.
A distribuição do rácio-F referida em (2.82) foi obtida obedecendo ao princípio
da razão de verosimilhanças (ver capítulo 8), pois baseia-se nos estimadores MQ de
β sem restrições, b, e com restrições, br . Assim, vai verificar-se que rácio-F para testar
a hipótese nula H 0 : Rβ = δ 0 contra a alternativa H1 : Rβ ≠ δ 0 é uma transformação
monótona da razão de verosimilhanças, λ (ver anexo 2F).
Neste caso, tem-se
~ ~ ~ ~
Θ = ( β , σ~ 2 ) : β ∈ ℜk , σ~ 2 > 0 , Θ0 = ( β , σ~ 2 ) : Rβ = δ 0 , σ~ 2 > 0 .
   
Então,
 1  n n / 2 exp{−n / 2} ˆ T ˆ − n / 2
Lˆ (Θ) = (2π σˆ 2 ) − n / 2 exp− 2 (Y − Xb)T (Y − Xb) = (U U ) ,
 2σˆ  (2π ) n / 2
onde σˆ 2 = Uˆ T Uˆ / n é o estimador MV de σ 2 (sem restrições), b é o estimador MV de

β (sem restrições) e Uˆ = Y − Xb .
Do mesmo modo,
 1  n n / 2 exp{−n / 2} ˆ T ˆ − n / 2
Lˆ (Θ0 ) = (2π σˆ r2 ) − n / 2 exp− 2 (Y − Xbr )T (Y − Xbr ) = (U r U r ) ,
 2σˆ r  (2π ) n / 2
onde σˆ r2 = Uˆ rT Uˆ r / n é o estimador MV de σ 2 (com restrições), br é o estimador MV de

β (com restrições) e Uˆ r = Y − Xbr .
Donde
−n / 2
Lˆ (Θ)  Uˆ T Uˆ 
λ= =  .
Lˆ (Θ 0 )  Uˆ rT Uˆ r 
Confrontando esta expressão de λ com o rácio-F dado por (2.82), facilmente se

verifica que
n − k 2/ n
F= (λ − 1) .
m
Pode, então, concluir-se que o teste RV e o teste correspondente a (2.82) dão o
mesmo resultado.
Teste de significância global da regressão
Considere-se o MRLCN com termo independente, e suponha-se que se pretende

testar se todos os coeficientes de regressão, excepto o termo independente, são iguais a
zero. Assim,
H 0 : β 2 = β 3 = L = β k = 0 contra H1 : ∃β j ≠ 0 ( j = 2, 3, K , k ) .
Não rejeitar a hipótese nula corresponde a verificar que o modelo proposto não é
adequado, na sua globalidade, para descrever o comportamento do regressando.
Como a hipótese nula corresponde a E ( yt | XT ) = β1 = E ( yt ) , diz-se que se está a
testar a significância global da regressão.
Para obter a estatística-teste, vai considerar-se (2.82) e notar que, neste caso, a
soma dos quadrados dos resíduos a satisfazer as restrições definidas pela hipótese nula
( β 2 = β 3 = L = β k = 0 ) é igual à variação total das observações do regressando,
VR 0 = VT = ∑t =1 ( yt − y ) 2 ,
n
ou seja, no modelo sujeito às restrições, a variação total coincide com a variação resi-
dual (a variação explicada é nula). A igualdade anterior é facilmente provada em virtude
de o modelo com restrições ser apenas yt = β1 + ut . Neste caso, tem-se
b1 = y e uˆ rt = yt − y .
Então,
∑ ( yt − y ) 2 − Uˆ TUˆ
n
VT − VR
F= t =1
= ~ F (k − 1, n − k ) ,
(k − 1) s 2
(k − 1) s 2
onde VR é a variação residual do modelo sem restrições.

Como VR = (1 − R 2 )VT , VR = (n − k ) s 2 e VE = VT − VR , obtém-se
R 2 / (k − 1) VE /( k − 1)
(2.84) F= = ~ F (k − 1, n − k ) .
(1 − R ) /( n − k ) VR /( n − k )
2
Note-se que (2.84) pode obter-se de (2.83), fazendo R02 = 0 . Se não se rejeita a
hipótese nula, conclui-se que há evidência de que o conjunto de todos os regressores
não é adequado para explicar o comportamento do regressando. Obviamente, a rejeição
da hipótese nula significa que os regressores, na sua globalidade, explicam alguma va-
riação das observações do regressando. Contudo, isto não quer dizer que o valor de R 2
tenha que ser muito elevado (por exemplo, pode acontecer que o teste rejeite a hipótese
nula, mas o valor de R 2 é igual a 0.04). É por esta razão que se deve fazer o teste de
significância global, e não ter em conta apenas a magnitude de R 2 .
Teste de nulidade conjunta de coeficientes de regressão
Este teste de hipóteses consiste em averiguar se alguns dos coeficientes de re-

gressão são conjuntamente iguais a zero. Trata-se, com efeito, de saber se o regressando
responde ou não, conjuntamente, às variações de alguns regressores. Não rejeitar a hipó-
tese de que, por exemplo, certos β j são iguais a zero significa existir evidência estatísti-
ca que pode levar a concluir que os correspondentes regressores não contribuem para
esclarecer o comportamento do regressando.
Sem perda de generalidade vai supor-se que
yt = xt(•1) β •1 + xt(•2) β • 2 + ut ,
onde xt • = [ xt(•1) xt(•2 ) ], com xt(•1) de tipo 1× k1 e xt(•2) de tipo 1 × k2 . Os subvectores de β ,

β•1 e β • 2 , são de tipo k1 × 1 e k2 × 1 , respectivamente. O teste é o seguinte:
H 0 : β• 2 = 0 contra H1 : β• 2 ≠ 0 .
Trata-se de testar se os regressores correspondentes a estes coeficientes dão uma

contribuição significativa para a explicação do comportamento do regressando. Diz-se,
então, que se está a testar a significância conjunta de alguns regressores. Como a não
rejeição de H 0 significa que há evidência estatística a favor da exclusão daqueles re-
gressores, diz-se também que se está a testar um conjunto de relações de exclusão.
Para efectuar o teste pode utilizar-se a distribuição correspondente ao terceiro

caso particular de (2.79). No entanto, é preferível basear o teste em (2.82) ou (2.83),
fazendo as duas regressões seguintes: a primeira, considerando todos os regressores, de
forma a obter a soma dos quadrados dos resíduos sem restrições; a segunda, utilizando
os primeiros k1 regressores, obtendo-se assim a soma dos quadrados dos resíduos com
restrições. O teste é feito com a estatística F dada por (2.82) ou (2.83), com m = k2 .
O teste da significância conjunta de alguns regressores merece os seguintes co-
mentários:
a) Pode acontecer que: o teste de significância separada de cada um destes regressores
(utilizando o respectivo rácio-t) conclua que nenhum deles, isoladamente, é signi-
ficativo; mas, o teste de significância conjunta (utilizando o rácio-F) não exclui
aquele grupo de regressores. A explicação mais frequente para uma situação destas é
a de existência de multicolinearidade entre os regressores sujeitos a teste. Com
efeito, embora as elevadas correlações entre regressores não permita discernir os
efeitos parciais, o efeito global é detectado. Daí que seja útil fazer o teste do rácio-F
de significância conjunta de regressores com sintomas de multicolinearidade.
b) Pode acontecer que: o teste de significância conjunta de alguns regressores conclua
pela sua exclusão; mas, algum regressor, considerado isoladamente, é significativo.
A explicação para esta ocorrência tem a ver com o seguinte: o teste do rácio-F é
adequado para avaliar significâncias conjuntas, mas não é o melhor teste para conc-
luir sobre significâncias isoladas; para isso, existe o teste do rácio-t. Dito de outro
modo: o teste do rácio-F é menos potente que o teste do rácio-t para detectar que
um determinado coeficiente de regressão é diferente de zero. Assim, quando se faz
um teste de significância conjunta também se devem realizar os testes respectivos de
significância isolada, para evitar a situação de o primeiro teste esconder a significân-
cia de um regressor.
Exemplo 2.19 – Considere-se o MRL apresentado no exemplo 2.1. Suponha-se que pre-
tende testar-se a hipótese nula, H 0 : β 2 = β 3 = β 4 = 0 , isto é, procura-se testar se as semi-
-elasticidades (pontuais) são conjuntamente nulas (teste de significância global dos re-
gressores). Recorrendo a (2.84), tem-se
R 2 / (k − 1) 0.173527 / 3
Fobs = = = 69.707 ,
(1 − R ) /(n − k ) (1 − 0.173527) / 996
2
e F0.05 = 2.6138 (valor crítico com 3 e 996 graus de liberdade). Pode concluir-se que
deve rejeitar-se a hipótese nula, quando a dimensão do teste é 0.05; o valor-p é pratica-
mente nulo.
Considere-se o seguinte MRL:
lsalart = β1 + β 2 educt + β 3 expert + β 4 empct + β 5 expert 2 + β 6 empct2 + ut ,
onde se incluíram os regressores que representam o quadrado de expert e de empct .

Os resultados da estimação MQ são os seguintes:
Regressores Estimativas dos coeficientes Erros padrão Rácios-t Valores-p

constante 5.907880 0.093984 62.8607 0.000
educt 0.055978 0.004855 11.5310 0.000
expert 0.013606 0.011510 1.18217 0.237
empct – 0.016116 0.008748 – 1.84237 0.066
2
expert 0.000390 0.000474 0.82228 0.411
2
empct 0.001215 0.000514 2.36384 0.018
s = 0.140372 ; R1 = 0.1789 ; VR1 = 139.53 .
2 2
Verifica-se que expert 2 não é estatisticamente significativa (o valor-p é igual a

0.411). Como o valor-p relativo a empct2 é 0.018, esta variável é significativa.
Para testar a significância estatística conjunta dos dois regressores é necessário,
para aplicar (2.82), dispor das variações residuais com e sem restrições, da estimativa
sem restrições da variância residual e do número de restrições. Como VR 0 = 140.445 ,
VR1 = 139.53 , s 2 = 0.140372 e m = 2 , vem
VR 0 − VR1 140.445 − 139.53
Fobs = = = 3.26193 ,
ms 2 2 × 0.140372
ficando ao cuidado do leitor obter o mesmo valor com (2.83). Com graus de liberdade
iguais a 2 e 994, o respectivo valor-p é 0.0387 a nível 0.05, rejeitando-se a hipótese nu-
la: os dois regressores são conjuntamente significativos (o valor crítico é 3.00478).
Considerando o modelo inicial (ver exemplo 2.1), vai agora testar-se, a 0.05,
H 0 : β 2 = 0.06 ∧ β 3 + β 4 = 0.025 contra H1 : β 2 ≠ 0.06 ∨ β 3 + β 4 ≠ 0.025 .
Neste caso, o modelo sem restrições é obviamente o modelo inicial. O modelo

com restrições é dado por
lsalart − 0.06 educt − 0.025 empct = β1 + β 3 (expert − empct ) + ut ,
Tem-se: VR 0 = 140.614 , VR1 = 140.445 , s 2 = 0.141 e m = 2 . Então, recorrendo

a (2.82), sai
VR 0 − VR1 140.614 − 140.445
Fobs = = = 0.59774 .
ms 2 2 × 0.141
Como os graus de liberdade são 2 e 996, o valor-p correspondente ao valor ob-
servado da estatística-teste é 0.55 (o valor crítico é 3.00476): não se rejeita a hipótese
nula.
Fica ao cuidado do leitor verificar que no teste (a nível 0.05)
H 0 : β 2 = 0.06 ∧ β 3 + β 4 = 0.04 contra H1 : β 2 ≠ 0.06 ∨ β3 + β 4 ≠ 0.04 ,
rejeita-se a hipótese nula (tem-se: Fobs = 7.20939 , pobs = 0.00078 ).

∇
No anexo 2G apresenta-se o modelo de regressão linear clássico generalizado

(Aitken), onde se abandonam as hipóteses REX.3 e REX.4.
2.11 - Variáveis artificiais
Em muitos casos, certos factores explicativos do comportamento do regressando

não podem ser representados por uma variável quantitativa. Estão nestas condições to-
das as causas de natureza qualitativa, nomeadamente aquelas que se manifestam pela
presença ou pela ausência de certo atributo ou, quando muito, pela presença de uma de
várias situações alternativas possíveis.

a) Para estudar, com dados seccionais, o comportamento de um conjunto de agrega-
dos familiares relativamente à despesa anual em bens e serviços culturais (cine-
ma, teatro, música, leitura, …) é natural considerar como variáveis explicativas, a
par de certas variáveis quantitativas – como o rendimento disponível ou o número
de elementos do agregado –, variáveis qualitativas como a zona de residência (por
forma a ter em conta a oferta existente), o grupo etário de alguns membros do agre-
gado ou, ainda, o grau de escolaridade global do agregado.
b) Quando pretende explicar-se, com dados seccionais, o comportamento dos salários
dos trabalhadores de uma determinada região apontaram-se, como variáveis ex-
plicativas quantitativas (ver exemplos 1.4 e 2.1), o número de anos de escolaridade
do trabalhador, o número de anos de experiência profissional e o número de anos de
trabalho no emprego corrente, embora se tenha referido uma variável qualitativa, o
género (feminino ou masculino). No entanto, podem indicar-se outros factores quali-
tativos que influenciam o salário: o grau de especialização do trabalhador, o uso de
computador no trabalho, o sector de actividade da empresa, etc.
c) Os modelos com dados temporais também podem considerar variáveis qualitativas
para explicar a evolução de outra variável. Uma das situações mais interessantes, de-
signada por estudo de um acontecimento (event study), é aquela em que se procura
analisar o impacto da ocorrência de um certo acontecimento mais ou menos dura-
douro (uma nova regulamentação, uma catástrofe, uma guerra, um choque energéti-
co, etc.). Obviamente muitos agregados macroeconómicos comportam-se de manei-
ra diferente antes, durante e depois de acontecimentos como os referidos.
d) No caso de um modelo com dados temporais, as variáveis envolvidas podem ter um
comportamento sazonal. Em muitos casos, a integração da sazonalidade no modelo
pode ser feita mediante a consideração de variáveis qualitativas.
∇
Começa por considerar-se a situação em que o factor qualitativo assume apenas

duas modalidades. Exemplos de factores deste tipo são: o género (feminino/masculi-
no); a divisão geográfica em que se faz a distinção apenas entre zonas urbanas e zonas
rurais; possuir ou não computador pessoal.
Para modelar um factor com duas modalidades basta definir uma variável biná-
ria, d, (que, por convenção, assume os valores 0 ou 1), associada a um determinado
acontecimento, A, da seguinte maneira:
 1 (se A se verifica),
(2.85) d =
 0 (se A não se verifica).
No caso d = 0 , também se diz que se verifica o acontecimento contrário, A .

A variável d também é designada por variável artificial (dummy na literatura
anglo-saxónica), ou variável zero-um. A escolha dos valores 0 e 1 é arbitrária, mas es-
tes valores têm uma interpretação natural.
É habitual fazer a convenção de o nome da variável binária ser o nome da mo-
dalidade que corresponde ao valor 1. Por exemplo, se A = {o trabalhador é mulher},
tem-se: d = 1 , se o trabalhador é mulher; d = 0 , se o trabalhador é homem. Então, faz-
-se d ≡ mulher .
A forma mais simples de introduzir num modelo de regressão linear a informa-
ção qualitativa trazida pela variável artificial consiste em considerá-la como um regres-
sor. Assim, se se tivesse o modelo yt = β1 + β 2 xt + ut , e se se pretendesse introduzir a
informação qualitativa dada por uma variável artificial, especificava-se o modelo
(2.86) yt = β1 + δ dt + β 2 xt + ut ,
onde, por exemplo, d t assume o valor 1 se se realiza o acontecimento A, e o valor 0, se

não se verifica este acontecimento. Tem-se, então:
 yt = β1 + β 2 xt + ut (para dt = 0)
(2.87) 
 yt = ( β1 + δ ) + β 2 xt + ut (para dt = 1).
Ao formular o modelo (2.86) está a considerar-se que a variável qualitativa tem
efeito apenas no termo independente e não há interacção com o regressor quantitativo,
xt . Além disso, a interpretação dos parâmetros β1 e δ é diferente daquela que se faz
habitualmente: β1 representa o termo independente no caso em que não se realiza o
acontecimento A; β1 + δ é o termo independente quando se verifica o acontecimento A;
δ é a diferença de termos independentes, quando se passa de d t = 0 (não realização de
A) para d t = 1 (realização de A) [Por exemplo, quando se passa de um trabalhador (ho-
mem) para uma trabalhadora (mulher)].
Deste modo, o parâmetro δ tem a seguinte interpretação: representa a variação
ceteris paribus de yt , quando se passa de A ( d t = 0 ) para A ( d t = 1 ). Se δ > 0 , yt
cresce; se δ = 0 , yt não varia; se δ < 0 , yt decresce.
A figura 2.8 ilustra um modelo do tipo (2.86) quando δ > 0 e β1 > 0 .
Fazendo XT = {xs : s ∈ T } , facilmente se conclui que
δ = E ( yt | XT , dt = 1) − E ( yt | XT , dt = 0) ,
uma vez que
E ( yt | XT , dt = 1) = ( β1 + δ ) + β 2 xt e E ( yt | XT , dt = 0) = β1 + β 2 xt .
Pode escrever-se
δ = E ( yt | XT , A) − E ( yt | XT , A ) .
d=0 d=1
Fig. 2.8 – Variável artificial com efeito no termo independente.
Como δ mede a variação do valor esperado condicionado de y t , quando se pas-

sa de A para A, diz-se que A é o acontecimento de referência (por exemplo, o acon-
tecimento de referência é A = {o trabalhador é homem}).
A estimação do modelo (2.86), em alternativa à estimação separada dos dois
submodelos dados por (2.87), tem por consequência garantir que o coeficiente β 2 , co-
mum aos dois submodelos, é estimado, de forma única, utilizando toda a informação
disponível. Esta ideia está patente na figura 2.8 pelo facto de as duas rectas serem para-
lelas.
Quando se lida com variáveis artificiais, é necessário evitar situações de multi-
colinearidade exacta, que traduz o facto de um regressor ser combinação linear dos ou-
tros. Se se tivesse introduzido não uma, mas duas variáveis artificiais, d1 e d 2 , defini-
das por
 1 (se A se verifica)
d1 = 
 0 (se A não se verifica)
 1 (se A se verifica)
d2 = 
 0 (se A não se verifica),
e considerado o modelo yt = β1 + β 2 d t1 + β 3 d t 2 + β 4 xt + ut , verifica-se que d t1 + d t 2 = 1

(os trabalhadores só podem ser mulheres ou homens). Neste caso, o modelo reduzir-se-
-ia a
yt = ( β1 + β 3 ) + ( β 2 − β 3 ) d t1 + β 4 xt + ut ,
não sendo possível estimar separadamente os parâmetros β1 , β 2 e β 3 .

Daqui decorre que, dispondo de uma amostra, e em relação ao modelo com mul-
ticolinearidade, yt = β1 + β 2 d t1 + β 3 d t 2 + β 4 xt + ut , não é possível aplicar o método dos
mínimos quadrados uma vez que a matriz X T X não é invertível. É por esta razão que,
para um factor qualitativo com duas modalidades, se deve introduzir apenas uma va-
riável artificial.
Quando se trata apenas de um factor qualitativo com duas modalidades, é fácil

evitar a situação de multicolinearidade exacta, que alguns autores chamam a armadilha
das variáveis artificiais. Quando se consideram vários factores qualitativos, alguns
com mais do que duas modalidades, aumenta a possibilidade de cair nesta armadilha.
Querendo manter as duas variáveis artificiais, uma forma de evitar a armadilha
seria considerar a especificação yt = β1d t1 + β 2 d t 2 + β 3 xt + ut (modelo sem termo inde-
pendente), embora se continue a ter d t1 + d t 2 = 1 . É possível estimar separadamente os
três coeficientes de regressão, uma vez que yt = β 2 + ( β1 − β 2 ) d t1 + β 3 xt + ut . No entan-
to, quando se estima o modelo sem termo independente, há dois inconvenientes práti-
cos: é mais difícil, por exemplo, testar a hipótese H 0 : β1 − β 2 = 0 do que H 0 : δ = 0 ;
como formalmente o modelo não tem termo independente, o coeficiente de determina-
ção, R 2 , pode ser negativo e deixa de ter o significado habitual (deve calcular-se o coe-
ficiente de determinação não centrado, R∗2 ?).
Obviamente todas as considerações anteriores são válidas quando o modelo tem
mais do que um regressor quantitativo.
Exemplo 2.21 – Retomando o exemplo 2.20a), suponha-se que procura explicar-se a

despesa anual em bens e serviços culturais, despc, de certos agregados familiares, em
função do rendimento disponível, rdisp, e da dimensão do agregado familiar, daf. Além
disso, podem considerar-se alguns factores explicativos de tipo qualitativo, como sejam:
a existência ou não de crianças de idade inferior a 12 anos; a zona de residência do agre-
gado (urbana/rural); o grau de escolaridade do agregado (alto/médio/baixo).
Numa primeira tentativa de modelação, um sociólogo definiu uma variável arti-
ficial cri12, atribuindo o valor 1 às observações referentes aos agregados com crianças
de idade inferior a 12 anos, e o valor 0 aos restantes. O modelo é o seguinte:
despct = β1 + β 2 rdispt + β3 daft + β 4 cri 12t + ut .
Dispõe-se de uma amostra casual de 209 agregados familiares. Estimado o mo-

delo, obteve-se
^
despct = 14.08 + 0.0486 rdisp t + 6.566 daft + 4.630 cri 12t ,
(0.0015) (1.384) (4.228)
figurando entre parênteses os erros padrão dos estimadores MQ.

Ao efectuar o teste H 0 : β 4 = 0 contra H 1 : β 4 ≠ 0 , não se rejeita, para os níveis
habituais, a hipótese H 0 (o valor-p é 0.275), o que leva a concluir que a variável artifi-
cial cri12 pode ser eliminada da regressão. Assim sendo, não existe, em termos estatísti-
cos, diferenças significativas no comportamento esperado de despc entre as famílias
com ou sem filhos de idade inferior a 12 anos.
A regressão estimada, quando não se inclui a variável artificial, é dada por
^
despct = 15.81 + 0.0485 rdispt + 6.7068 daft ,
(0.0015) (1.379)
verificando-se que há significância individual de cada regressor (obviamente também se

tem significância global).
Rejeitado o possível efeito da variável cri12, o sociólogo decidiu investigar a
importância da zona de residência. Para tal, definiu uma nova variável artificial, urb,
atribuindo o valor 1 às observações referentes aos agregados que residem nas zonas ur-
banas de grande ou média dimensões, e o valor 0 a todos os outros casos (áreas rurais).
Estimado o novo modelo, obtém-se
^
despc t = 12.53 + 0.0484 rdisp t + 6.754 daf t + 9.968 urbt .
(0.0014) (1.364) (4.252)
Facilmente se conclui que se rejeita a hipótese de nulidade do parâmetro associa-

do à variável artificial, e, consequentemente, que esta deve ser mantida no modelo.
∇
Considere-se que a variável explicada é expressa em logaritmos,

ln( yt ) = β1 + δ dt + β 2 xt + ut .
Ceteris paribus, o parâmetro δ , multiplicado por 100, representa aproximada-

mente a variação percentual de yt , quando se passa de d t = 0 (realização de A ) para
d t = 1 (realização de A). De facto, seja
δ = ln( yt1 ) − ln( yt0 ) ,
onde yt1 é o valor de yt quando d t = 1 , e yt0 é o valor de yt quando d t = 0 .
Para calcular o valor exacto, tem-se
yt1 − yt0
= exp{δ } − 1 ,
yt0
ou
%∆yt = 100 × (exp{δ } − 1) ,
onde
yt1 − yt0
%∆yt = 100 × .
yt0
Exemplo 2.22 – Considere-se que, no caso do exemplo 2.20b), o modelo é o seguinte:

lsalart = β1 + β 2 educt + β3 expert + β 4 empct + β 5 mulhert + ut .
Ceteris paribus, 100 (exp{β 5} − 1) mede, em média, a variação percentual do sa-

lário, quando se compara um homem com uma mulher. O valor aproximado é 100 β 5 ,
quando β 5 é pequeno. Por exemplo, se β 5 = 0.01 , o valor aproximado da variação per-
centual do salário é 1%; como 100 × (e0.01 − 1) = 1.005 , o valor exacto é 1.005%. Quando
β5 = 0.15 , o valor aproximado é 15%, mas o valor exacto é 16.183%.
∇
Existem, no entanto, situações em que o efeito do factor qualitativo se dá no

coeficiente de um regressor quantitativo, e não no termo independente. Numa situa-
ção destas, o modelo adequado é
(2.88) yt = β1 + ( β 2 + δ dt ) xt + ut = β1 + β 2 xt + δ dt xt + ut ,
onde d t xt traduz a interacção entre o regressor quantitativo e o factor qualitativo re-

presentado pela variável artificial (assume o valor 0 quando d t = 0 , e o valor xt quando
d t = 1 ).
O desdobramento do modelo (2.88) origina
 yt = β1 + β 2 xt + ut (para dt = 0)
(2.89) 
 yt = β1 + (δ + β 2 ) xt + ut (para dt = 1).
Interpretando os coeficientes, tem-se o seguinte: β 2 corresponde ao efeito mar-
ginal xt sobre yt quando d t = 0 ; β 2 + δ mede o mesmo efeito para d t = 1 ; δ traduz a
diferença dos dois efeitos.
d=0 d=1
Fig. 2.9 – A variável artificial com impacte no declive.
Verifica-se facilmente que

δ xt = E ( yt | XT , dt = 1) − E ( yt | XT , dt = 0) ,
uma vez que
E ( yt | XT , dt = 1) = β1 + ( β 2 + δ ) xt e E ( yt | XT , dt = 0) = β1 + β 2 xt .
Assim, a variação do valor esperado condicionado de y t não é medida por δ

(não é constante), mas por δ xt (depende de xt ). A figura 2.9 ilustra esta situação quan-
do δ > 0 e β 2 > 0 .
Mantém-se, naturalmente, a recomendação feita para se utilizar apenas uma va-
riável artificial de forma a evitar a multicolinearidade perfeita. Note-se também que po-
dem ser considerados os efeitos do factor qualitativo simultaneamente no termo inde-
pendente e no coeficiente de um regressor.
Exemplo 2.23 – No seguimento do exemplo 2.21, suponha-se que urb interage com
rdisp, mas não influencia o termo independente. O modelo é, então,
despct = β1 + β 2 rdisp t + β3 daft + β 4 (urbt × rdisp t ) + ut .
Interpretando os coeficientes, tem-se: β 2 corresponde ao efeito marginal de uma

unidade monetária de rendimento disponível para um agregado que vive numa zona ru-
ral ( urb = 0 ); β 2 + β 4 mede o mesmo efeito para um agregado de uma zona urbana
( urb = 1 ); β 4 traduz a diferença dos dois efeitos.
A estimação do modelo é a seguinte:
^
despc t = 15.50 + 0.0477 rdisp t + 6.752 daf t + 0.00239 (urbt × rdisp t ) .
(0.0015) (1.369) (0.00119)
Pode facilmente verificar-se que se rejeita, para os níveis habituais, a hipótese de

nulidade do coeficiente do regressor urbt × rdispt (embora o valor-p seja 0.045), isto é,
não se rejeita que o factor qualitativo representado pela variável artificial urb tem efeito
sobre o coeficiente de rdisp.
A variação média estimada de despc, quando urb passa de 0 para 1, é dada por
0.00239 rdisp t . Por exemplo, quando rdispt = 2500 , a variação é de 5.975.
Uma vez que não se rejeitou em modelos separados (ver exemplo 2.21) a influ-
ência daquele factor quer no termo independente quer em rdisp, pode ser-se tentado a
concluir, erroneamente, que os dois efeitos são significativos simultaneamente. Para ve-
rificar que, neste caso, tal não é verdade, basta construir o respectivo modelo completo,
e proceder à sua estimação. Obtém-se:
^
despc t = 11.32 + 0.0488 rdisp t + 6.7497 daf t − 0.00125 (urbt × rdisp t ) + 14.13 urbt ,
(0.0017) (1.367) (0.00315) (11.33)
Os testes do rácio-t mostram, separadamente, que os regressores urbt × rdispt e

urbt não são significativos (os valores-p são, respectivamente, 0.692 e 0.214). Quando
se faz o teste conjunto sobre a significância dos dois regressores, o valor observado do
rácio-F é 2.815. Como o valor crítico a nível 0.05 (com 2 e 204 graus de liberdade) é
3.04 (o valor-p é 0.062), pode concluir-se que não se rejeita a nulidade conjunta a 0.05
(a 0.10 a conclusão é oposta).
Assim, tem-se uma situação em que, do ponto de vista estatístico, não se rejei-
tam em modelos separados os efeitos no termo independente e em rdisp, mas rejeitam-
-se quando considerados no mesmo modelo. Esta situação ocorre porque na amostra há
um problema de multicolinearidade, uma vez que há uma forte correlação entre os re-
gressores urbt × rdispt e urbt : o respectivo coeficiente de correlação é igual a 0.9.
Nestas circunstâncias, parece ser aconselhável adoptar o modelo sem a interac-
ção entre urb e rdisp, ou seja,
despct = β1 + β 2 rdisp t + β3 daft + β 4 urbt + ut .
∇
Analise-se, agora, a situação em que o factor qualitativo apresenta mais do que

duas modalidades. Neste caso, para evitar a armadilha das variáveis artificiais, consi-
deram-se tantas variáveis binárias quantas as modalidades do factor menos uma.
Suponha-se que existem m modalidades, a que correspondem os acontecimentos
A1 , A2 , K , Am−1 , Am . As variáveis artificiais são as seguintes:
 1 (se A1 se verifica)
d1 = 
 0 (se A1 não se verifica),
 1 (se A2 se verifica)
d2 = 
 0 (se A2 não se verifica),
...
 1 (se Am −1 se verifica)
d m −1 = 
 0 (se Am −1 não se verifica).
Neste caso, o acontecimento de referência é Am .
Uma vez definidas as variáveis artificiais, utiliza-se um procedimento em tudo
semelhante àquele que se seguiu quando se tinha apenas uma variável artificial, ou seja,
é necessário determinar se os efeitos do factor qualitativo afectam o termo independente
ou os coeficientes dos regressores. Os coeficientes associados às variáveis artificiais in-
terpretam-se, agora, como diferenças em relação à alternativa escolhida para referência.
Exemplo 2.24 – Suponha-se que no exemplo da despesa anual em bens e serviços cultu-
rais se define o grau de escolaridade do agregado familiar, distinguindo três modalida-
des: “alto”, “médio” e “baixo”. Torna-se, então, necessário introduzir duas variáveis ar-
tificiais, que se podem definir da seguinte forma:
 1 (grau de escolaridade alto)
educA = 
 0 (caso contrário),
 1 (grau de escolaridade médio)

educM = 
 0 (caso contrário).
Tomou-se como acontecimento de referência aquele que não é referido na defi-

nição das duas variáveis artificiais, ou seja, o de o agregado familiar ter grau de escola-
ridade baixo. Sem dificuldade se redefinem as variáveis artificiais se se desejar escolher
outra modalidade para referência. O quadro seguinte resume a correspondência entre os
três graus de escolaridade e os valores assumidos pelas variáveis artificiais.
Graus de escolaridade educA educM

Baixo 0 0
Médio 0 1
Alto 1 0
Supondo que os efeitos do grau de escolaridade do agregado se fazem sentir ape-

nas no termo independente, adoptou-se o seguinte modelo:
despct = β1 + β 2 rdispt + β3 daft + β 4 educAt + β 5 educM t + ut .
A estimação fornece os seguintes resultados:
Regressores Estimativas dos coeficientes Erros padrão

constante 8.3830
rdispt 0.0492 0.0014
daf t 6.6170 1.336
educAt 22.9970 5.895
educM t 7.7945 4.639
Como facilmente se vê, educAt é estatisticamente significativa a 0.05. Quanto à

variável educM t , pode concluir-se que não é significativa a 0.05; contudo, é significati-
va a nível 0.10 (o valor-p é 0.094).
Quando se admite que o factor qualitativo afecta não o termo independente, mas
o coeficiente de rdispt , a estimação MQ fornece os seguintes resultados:

Constante 14.6800
rdispt 0.0476 0.00140
daf t 6.4010 1.3330
educAt × rdispt 0.0069 0.0017
educM t × rdispt 0.0023 0.0013
A significância estatística do regressor educM t × rdispt não é clara: como o va-

lor-p é 0.085, rejeita-se a nível 0.10, mas não se rejeita a 0.05.
∇
Factores qualitativos como o género, o estado civil, a zona de residência ou o

uso, ou não, de computador, registam-se numa escala nominal, uma vez que a ordem
não tem significado. Existem outros factores qualitativos, como o grau de escolaridade
ou o grau de especialização profissional, que se registam numa escala ordinal, porque a
ordem das modalidades é importante.
No caso de um factor ordinal, com mais de duas modalidades, é possível codifi-
car numericamente as várias modalidades atribuindo um número a cada uma, e respei-
tando a respectiva ordem. Por exemplo, se o factor em estudo é o grau de especialização
profissional, a codificação podia ser a seguinte:
Trabalhador não especializado: 0
Trabalhador semi-especializado: 1
Trabalhador especializado: 2
Trabalhador muito especializado: 3
Este procedimento é o mais adequado para tratar um factor qualitativo ordinal

como explicativo num modelo de regressão linear? A resposta é negativa, porque a nu-
meração das modalidades não significa, por exemplo, que um trabalhador muito espe-
cializado corresponde a três trabalhadores semi-especializados.
O exemplo seguinte esclarece esta questão.
Exemplo 2.25 – Considere-se o modelo

lsalart = β1 + β 2 educt + β 3 expert + δ1 gept1 + δ 2 gept 2 + δ 3 gept 3 + ut ,
onde:
 1 ( trabalhador semi-especializado)
gept1 = 
 0 (caso contrário)
 1 ( trabalhador especializado)
gept 2 = 
 0 (caso contrário)
 1 ( trabalhador muito especializado)

gept 3 = 
 0 (caso contrário) .
O grau de especialização de referência é o de “trabalhador não especializado”.

Este modelo, com três variáveis artificiais, permite estimar o efeito do grau de
especialização profissional sobre os salários.
Se se considerasse, em vez das três variáveis artificiais, a variável gep com a
codificação atrás referida, fazia-se
lsalart = β1 + β 2 educt + β3 expert + β 4 gept + ut ,
onde
0 ( trabalhador não especializado)

1 ( trabalhador semi-especializado)
gept = 
2 ( trabalhador especializado)
3 ( trabalhador muito especializado) .

Este modelo pressupõe que o efeito parcial de gep sobre lsalar é constante.
Fazendo δ 2 = 2δ 1 e δ 3 = 3δ 1 , facilmente se conclui que estas restrições sobre os
coeficientes do primeiro modelo permitem obter o segundo. De facto, inserindo as res-
trições no primeiro modelo, obtém-se
lsalart = β1 + β 2 educt + β3 expert + δ1 ( gept1 + 2 gept 2 + 3 gept 3 ) + ut ,
que não é mais do que o segundo modelo, onde gept = gept1 + 2 gept 2 + 3 gept 3 .
Para testar a hipótese de efeito parcial constante, utiliza-se o teste do rácio-F ha-
bitual, onde o primeiro modelo é o modelo sem restrições, e o segundo, o modelo com
restrições.
∇
Sabe-se que num factor com m modalidades (a que correspondem m aconteci-

mentos) se definem m − 1 variáveis artificiais, tomando um dos acontecimentos para re-
ferência. Contudo, quando o número de modalidades do factor qualitativo ordinal é
muito elevado, não é, em geral, adequado definir as variáveis artificiais desta maneira
(por exemplo, se o factor qualitativo fosse o ranking das 1000 maiores empresas portu-
guesas, não se podem definir 999 variáveis artificiais!). Nestes casos, o procedimento
aconselhável é o de agrupar as modalidades por classes (por exemplo, definir cinco clas-
ses de acordo com as classificações no ranking: de 1 a 10; de 11 a 50; de 51 a 200; de
201 a 500; de 501 a 1000).
A introdução de variáveis artificiais não está confinada à consideração de um
único factor qualitativo. No entanto, quando se considera mais do que um factor, é ne-
cessário encontrar solução para um problema que se levanta com frequência: o da pos-
sível existência de interacções dos factores. Entende-se por interacção o facto de uma
modalidade de determinado factor poder ter um efeito diferenciado em função da moda-
lidade de outro factor. Por exemplo, pode considerar-se que o grau de escolaridade do
agregado tem um efeito diferenciado no consumo de bens culturais em função da zona
de residência, uma vez que se admite que o grau de escolaridade influencia a procura,
enquanto a área de residência traduz a oferta.
Por facilidade de exposição, suponha-se que a variável y (por exemplo, o con-
sumo de bens culturais) depende de uma variável quantitativa x (por exemplo, o rendi-
mento disponível), e de dois factores qualitativos: o primeiro, com duas modalidades
(por exemplo, a zona de residência – rural/urbana); o segundo, com três modalidades
(por exemplo, o grau de escolaridade – alto/médio/baixo). As respectivas variáveis arti-
ficiais são dadas por
 1 (zona urbana )
d1 = 
 1 (grau de escolaridade alto)

d2 = 
 1 (grau de escolaridade médio)

d3 = 
 0 (caso contrário).
A convenção estabelecida permite fazer: d1 ≡ urb , d 2 ≡ educA , d3 ≡ educM .

Admite-se ainda, por simplicidade, que nenhum dos factores influencia o coefi-
ciente do regressor quantitativo. Caso não existam interacções, o modelo é dado por
(2.90) yt = β1 + β 2 xt + β3 dt1 + β 4 dt 2 + β 5 dt 3 + ut .
No quadro 2.4 apresenta-se o termo independente para as seis situações possí-

veis. Verifica-se assim que a diferença entre os termos independentes das duas zonas de
residência é sempre β 3 , qualquer que seja o grau de escolaridade; a passagem do grau
baixo para o grau médio (alto) de escolaridade é sempre medida por β 5 ( β 4 ), qualquer
que seja a zona de residência.
Quadro 2.4
Termo independente no modelo sem interacções
Grau de escolaridade
Zona Alto Médio Baixo
Urbana β1 + β 3 + β 4 β1 + β 3 + β 5 β1 + β 3
Rural β1 + β 4 β1 + β 5 β1
Para estabelecer as interacções, torna-se necessário introduzir mais duas variá-

veis artificiais a partir das variáveis artificiais inicialmente definidas. Aquelas variáveis
adicionais são obtidas multiplicando cada variável artificial relativa a um factor por to-
das as variáveis artificiais que dizem respeito ao outro factor. Neste caso, têm-se mais
duas variáveis:
d 4 = d1 × d 2 e d 5 = d1 × d 3 .
O modelo é, então,
(2.91) yt = β1 + β 2 xt + β 3 dt1 + β 4 dt 2 + β 5 dt 3 + β 6 dt 4 + β 7 dt 5 + ut .
Note-se que d t 4 assume o valor 1 apenas quando d t1 = d t 2 = 1 ; comentário se-

melhante pode fazer-se para d t 5 .
A interpretação dos coeficientes é menos óbvia do que no caso de não haver in-
teracções. No entanto, o quadro 2.5 ajuda a clarificar as interacções no que se refere ao
termo independente.
Quadro 2.5
Termo independente no modelo com interacções
Grau de escolaridade
Zona Alto Médio Baixo
Urbana β1 + β 3 + β 4 + β 6 β1 + β 3 + β 5 + β 7 β1 + β 3
Rural β1 + β 4 β1 + β 5 β1
Pode, então, verificar-se que a diferença entre as duas zonas de residência varia
com o grau de escolaridade: β 3 + β 6 para o grau de escolaridade alto; β 3 + β 7 para o
grau médio; β 3 para o grau baixo. Fica ao cuidado do leitor verificar, recorrendo a um
raciocínio semelhante, que as diferenças entre os graus de escolaridade dependem da
zona de residência.
Exemplo 2.26 – Retome-se os exemplos 2.21 e 2.24, e estime-se o modelo com as va-
riáveis artificiais correspondentes aos factores zona de residência – variável urb – e grau
de escolaridade – variáveis educA e educM. Os resultados da estimação dos modelos
com e sem interacções apresentam-se nos quadros seguintes.
Modelo com interacções

constante 4.959
rdispt 0.049 0.0014
daf t 6.604 1.3380
urbt 10.648 5.4390
educAt 21.850 7.3400
educM t 9.418 5.7030
educAt × urbt 2.689 12.1300
educM t × urbt –4.510 9.6520
R = 0.8609 ; ∑ uˆt = 163861 ; s = 815.229
2 2 2
Modelo sem interacções

constante 5.163
rdispt 0.049 0.0014
daf t 6.665 1.3210
urbt 9.807 4.1160
educAt 22.838 5.8290
educM t 7.851 4.5870
R = 0.8607 ; ∑ uˆt = 164142 ; s = 808.581
2 2 2
Analisando estes resultados, vê-se que as interacções não são, individualmente,

estatisticamente significativas (os valores-p são, respectivamente, 0.825 e 0.641).
Efectuando o teste de nulidade conjunta dos coeficientes respectivos – recorren-
do ao resultado (2.82) –, tem-se
164142 − 163861
Fobs = = 0.172 ,
2 × 815.229
valor que indica claramente que, conjuntamente, as duas interacções não são significati-
vas (o valor-p é 0.84; F0.05 = 3.04 , para 2 e 201 graus de liberdade). Deste modo, o mo-
delo mais adequado não deve considerar as interacções.
∇
Em muitas situações, as variáveis que integram um MRL com dados temporais,

apresentam sazonalidade, isto é, têm comportamentos sistemáticos em determinados
subperíodos de um período de tempo mais alargado. São numerosos os exemplos que se
podem apresentar de oscilações em valores observados que são originados por compor-
tamentos semelhantes em meses ou trimestres homólogos de anos sucessivos: a produ-
ção mensal de fruta tem um andamento global fortemente marcado pela posição que o
mês ocupa no ano; o consumo de electricidade para fins domésticos apresenta as mes-
mas características; o consumo de gasolina pode reflectir a influência da época do ano.
Contudo, também se podem observar fenómenos de sazonalidade quando se considera

um mês e os dias do mês, ou um dia e as horas do dia.
Existem vários métodos para estudar este fenómeno. Contudo, nesta secção, vai
abordar-se apenas a questão da sazonalidade determinística, utilizando variáveis artifi-
ciais.
Seja m o número de subperíodos em que se divide cada período de tempo sob
observação. Se o período for o ano, e os subperíodos os meses, tem-se m = 12 ; no caso
de trimestres, vem m = 4 . Faz-se m = 30 , quando o período for o mês, e os subperíodos
os dias. Em geral, o número total de observações é n = mp , sendo p o número de perío-
dos.
Sem perda de generalidade, considere-se o modelo de regressão linear simples,
yt = β1 + β 2 xt + ut , e suponha-se que yt e xt são observáveis trimestralmente e apresen-
tam sazonalidade (neste caso, os períodos são anos, e os subperíodos são trimestres).
Como existem quatro trimestres, vão definir-se três variáveis artificiais da seguinte ma-
neira:
 1 (se t ocorre no trimestre i ),
dti = 
 0 (caso contrário),
onde i = 2, 3, 4 (considerou-se que o trimestre de referência é o primeiro).
Pretendendo-se estimar o coeficiente de regressão de xt (o efeito, ceteris pari-
bus de xt sobre yt ) expurgado da sazonalidade, deve considerar-se o modelo de re-
gressão linear,
(2.92) yt = β1 + β 2 xt + δ 2 dt 2 + δ 3 dt 3 + δ 4 dt 4 + ut .
Trata-se de outro exemplo de aplicação do teorema de Frisch-Waugh-Lovell, es-

tudado no final da secção 2.5.
Um teste importante é o da sazonalidade, em que se procura testar se os coefi-
cientes das variáveis artificiais são conjuntamente nulos, ou seja, a hipótese nula é dada
por H 0 : δ 2 = 0, δ 3 = 0, δ 4 = 0 .
2.12 - Testes de alteração da estrutura
Suponha-se que num modelo de regressão linear é possível dividir a população

em grupos de tal modo que se admite a possibilidade de os coeficientes de regressão va-
riarem com o grupo. Admitindo que se pode estimar o modelo para cada um dos grupos,
é razoável testar a variabilidade inter-grupos dos coeficientes de regressão. Os testes
que dão resposta a esta questão são conhecidos pela designação de testes de alteração
da estrutura.

1) Suponha-se que no modelo de regressão linear com dados seccionais explicativo do
comportamento dos salários dos trabalhadores referido no exemplo 2.1, a população
é dividida em dois grupos: o das mulheres, e o dos homens. Estimando separadamen-
te o modelo para as mulheres e para os homens, procura-se testar se os coeficientes

de regressão do grupo das mulheres são diferentes dos do grupo dos homens.
2) Admita-se que num modelo de regressão linear com dados temporais, de frequência
trimestral, se podem considerar três períodos: o primeiro, decorre até ao final do 4.º
trimestre de um determinado ano; o segundo, abrange os trimestres dos 6 anos se-
guintes; o terceiro, começa no 1.º trimestre do ano seguinte ao do último ano do se-
gundo período. Neste caso, os grupos são os três períodos. Estimando separadamente
o modelo para os três períodos, pretende-se testar se os coeficientes de regressão
variam de período para período.
3) Suponha-se que no modelo de regressão linear referido em 1), se consideram duas
populações de trabalhadores: uma, é formada pelos trabalhadores numa determinada
data; a outra, é constituída pelos trabalhadores numa data posterior (por exemplo 5
anos depois). Trata-se, neste caso, de um modelo com dados seccionais combina-
dos, em que a população é a união das duas subpopulações referidas. Neste caso, os
grupos são as duas subpopulações. Estimando o modelo para cada data, o teste pro-
cura saber se os coeficientes de regressão variam entre as duas datas.
∇
Para facilitar a exposição, começa-se por tratar o caso em que número de gru-
pos é igual a 2. O modelo é o seguinte:
 yt = β11 xt1 + β 21 xt 2 + L + β k1 xtk + ut (t ∈ T1 )
(2.93) 
 yt = β12 xt1 + β 22 xt 2 + L + β k 2 xtk + ut (t ∈ T2 ),
onde:
− os coeficientes de regressão, β ji ( j = 1, 2, K k ; i = 1, 2 ), representam-se com dois ín-
dices: o primeiro refere-se ao regressor; o segundo, ao grupo.
− Os conjuntos de índices dos grupos 1 e 2 representam-se, respectivamente, por T1 e
T2 . Estes conjuntos constituem uma partição de T: T1 ∪ T2 = T e T1 ∩ T2 = ∅ .
O modelo (2.93) pode apresentar-se com a seguinte notação:

 yt = xt • β •1 + ut (t ∈ T1 )
(2.94) 
 yt = xt • β • 2 + ut (t ∈ T2 ),
onde β •1 e β • 2 são os vectores k × 1 dos respectivos coeficientes de regressão.

As hipóteses do modelo são as seguintes:
− Em cada grupo verificam-se as hipóteses do MRLC (hipóteses REX.1 a REX.5). Por
exemplo, a exogeneidade estrita no grupo 1 é dada por: E (ut | XT1 ) = 0 , para t ∈ T1 ,
onde XT1 = {xs • : s ∈ T1} . Fica ao cuidado do leitor enunciar as hipóteses básicas para
cada um dos grupos.
− As variáveis residuais referentes a grupos diferentes não estão correlacionadas. Deste
modo, tem-se: Cov(ut , us | XT ) = 0 , para t ∈ T1 e s ∈ T2 .
No teste de alteração da estrutura, a hipótese nula é dada por

H 0 : β11 = β12 , β 21 = β 22 , K , β k1 = β k 2 ,
e, naturalmente, a hipótese alternativa estabelece que pelo menos uma destas k igualda-
des não se verifica. Pode, então, escrever-se:
(2.95) H 0 : β •1 = β • 2 contra H1 : β•1 ≠ β • 2 .
O modelo com restrições (que corresponde à hipótese nula) é dado por

(2.96) yt = β1 xt1 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + vt (t ∈ T ) ,
ou
(2.97) yt = xt • β + vt (t ∈ T ) ,
onde β é o respectivo vector dos coeficientes de regressão. Neste caso, β •1 = β • 2 = β .

O modelo sem restrições corresponde a (2.93) ou (2.94).
Dispondo de n1 observações para o grupo 1, e n2 para o grupo 2, a relação
amostral correspondente ao modelo sem restrições, (2.94), é dada por
Y•1 = X 1β •1 + U •1
(2.98) 
Y• 2 = X 2 β• 2 + U • 2 ,
onde, para i = 1, 2 , se tem: Y•i é o vector ni × 1 das observações do regressando no gru-

po i; X i é a matriz ni × k das observações dos regressores no grupo i; U •i é o vector
ni × 1 das variáveis residuais do grupo i.
Verifica-se que:
E (U •i | X i ) = 0 ( i = 1, 2 ); Cov(U •i | X i ) = σ 2 I ni ( i = 1, 2 );
Cov(U •1 , U • 2 | X 1 , X 2 ) = O (matriz nula n1 × n2 ).
Fazendo n = n1 + n2 , a relação (2.98) pode apresentar-se da seguinte maneira:
(2.99) Y = X ∗β∗ + U ,
onde
Y  X O   β •1  U •1 
Y =  •1  , X ∗ =  1  , β∗ =   e U =   .
Y• 2   O X 2   β • 2  U • 2 
Note-se, por exemplo, que a matriz X ∗ tem n linhas e 2k colunas. Naturalmente,
tem-se: E (U | X ∗ ) = 0 ; Cov(U | X ∗ ) = σ 2 I n .
A relação amostral correspondente ao modelo com restrições, (2.97), é
(2.100) Y = Xβ + V ,
onde
X  V 
X =  1  e V =  •1  .
 X 2  V• 2 
Neste caso, E (V | X ) = 0 e Cov(V | X ) = σ 2 I n . Obviamente a relação (2.100) é

equivalente a
Y•1 = X 1β + V•1
(2.101) 
Y• 2 = X 2 β + V• 2 .
Supondo que n1 > k e que n2 > k , os coeficientes de regressão do modelo sem

restrições podem ser estimados pelo método MQ. Obtêm-se os seguintes resultados:
b•i = ( X iT X i ) −1 X iT Y•i , Yˆ•i = X ib•i e Uˆ •i = Y•i − Yˆ•i ( i = 1, 2 ).
Fazendo o mesmo para o modelo com restrições, tem-se:

b = ( X T X ) −1 X T Y , Yˆ = X b e Vˆ = Y − Yˆ .
Supondo que se verifica a hipótese REX.6 para os dois modelos (sem e com res-
trições), pode demonstrar-se que
{Vˆ TVˆ − (Uˆ •T1Uˆ •1 + Uˆ •T2Uˆ • 2 )} / k
(2.102) FChow = ~ F ( k , n − 2k ) ,
(Uˆ •T1Uˆ •1 + Uˆ •T2Uˆ • 2 ) /( n − 2k )
se a hipótese nula é verdadeira. O teste de alteração da estrutura baseado na estatística-

-teste dada por (2.102) é conhecido pela designação de teste de Chow.
Com efeito, o resultado (2.102) é um caso particular de (2.82), onde a soma dos
quadrados dos resíduos MQ com restrições é VR 0 = Vˆ TVˆ , o número de restrições é k, a
soma dos quadrados dos resíduos MQ sem restrições é VR1 = Uˆ •T1Uˆ •1 + Uˆ •T2Uˆ • 2 = Uˆ TUˆ e
o número de graus de liberdade do denominador é n − 2k (diferença entre o número to-
tal de observações e o número de coeficientes a estimar). Note-se, também, que as res-
trições assumem a forma Rβ∗ = 0 , onde R = [ I k − I k ].
Quando não se considera a hipótese de normalidade das variáveis residuais, o re-
sultado (2.102) é assintótico, pelo que só é válido para grandes amostras (ver capítulo
3).
O teste de Chow com dois grupos pode ser feito introduzindo a variável artifi-
cial
 1 (t ∈ T1 )
dt = 
 0 (t ∈ T2 ).
Facilmente se verifica que o modelo sem restrições é o MRLC dado por

(2.103) yt = β1 xt1 + δ1dt xt1 + β 2 xt 2 + δ 2 dt xt 2 + L + β k xtk + δ k dt xtk + ut (t ∈ T ) ,
que é equivalente a (2.93). Com efeito, conclui-se imediatamente que:

Grupo 1 – β11 = β1 + δ1 , β 21 = β 2 + δ 2 , K , β k1 = β k + δ k ou β •1 = β + δ ;
Grupo 2 – β12 = β1 , β 22 = β 2 , K , β k 2 = β k ou β • 2 = β ,
onde
 β1   δ1 
   
 β2  δ
β= e δ =  2 .
M M
   
 β k  δ k 
Assim, a hipótese nula pode ser formalizada da seguinte maneira:

H 0 : δ1 = 0, δ 2 = 0, K , δ k = 0 ou H 0 : δ = 0 .
O modelo com restrições continua a ser (2.96) ou (2.97).

Na relação amostral correspondente ao modelo sem restrições, a matriz dos
regressores é dada por
 X1 X1 
 .
X O
 2 
Exemplo 2.28 – Retome-se o exemplo 2.2. Suponha-se que se pretende verificar se há

comportamentos diferenciados do salário (em logaritmos) em função do género do tra-
balhador. Deste modo, o objectivo é saber se o padrão é diferente conforme o trabalha-
dor é mulher ou homem (recorde-se que a amostra disponível é composta por 1000 ob-
servações, das quais 381 são mulheres e 619 são homens).
Vai utilizar-se o resultado (2.102) para efectuar o teste da alteração da estrutura,
calculando o valor observado da estatística FChow . Tem-se:
− Soma dos quadrados dos resíduos MQ quando se utilizam as 1000 observações (ver
exemplo 2.9): VR 0 = 140.445 (soma dos quadrados dos resíduos MQ com restri-
ções);
− Soma dos quadrados dos resíduos MQ com as 381 observações que correspondem
às mulheres: 50.1637;
− Soma dos quadrados dos resíduos MQ com as 619 observações relativas aos ho-
mens: 81.3226;
− Logo: VR1 = 50.1637 + 81.3226 = 131.4863 (soma dos quadrados dos resíduos MQ
sem restrições).
Assim, o valor observado da estatística-teste é

(140.445 − 131.4863) / 4
FChow = = 16.898 ,
131.4863 /(1000 − 2 × 4)
que se deve comparar com o respectivo valor crítico da tabela da F-Snedcor com 4 e
992 graus de liberdade. Como este valor é igual 2.38, conclui-se que se rejeita a hipó-
tese de permanência de estrutura (o valor-p é praticamente nulo), ou seja, não se rejeita
a hipótese de existirem diferenças significativas de salários em função do género.
Por curiosidade, referem-se os resultados das três regressões:
− Regressão com 1000 observações:

^
lsalart = 5.815 + 0.05538 educ t + 0.02299 expert + 0.00395 empct .
(0.00486) (0.00254) (0.00242)
− Regressão com 381 observações (mulheres):

^
(0.00768) (0.004) (0.00379)
− Regressão com 619 observações (homens):

^
(0.00596) (0.00313) (0.003)
O estudo precedente pode ser generalizado para g grupos. O modelo sem res-
trições passa a ser
 yt = xt • β •1 + ut (t ∈ T1 )

 yt = xt • β • 2 + ut (t ∈ T2 )
(2.104) 
 M
 yt = xt • β • g + ut (t ∈ Tg ),

onde os conjuntos T1 , T2 , K , Tg formam uma partição de T. O modelo com restrições
continua a ser dado por (2.97), onde β •1 = β • 2 = L = β • g = β .
Dispondo de ni observações para o grupo i (i = 1, 2, K , g ) , a relação amostral
correspondente ao modelo sem restrições é semelhante a (2.99), Y = X ∗ β∗ + U , onde
 Y•1   X1 O L O  β•1  U •1 
Y  O X2 L O   β• 2  U 
Y=  •2 
, X∗ =  , β∗ =  eU =
•2 
,
 M  M M M   M   M 
       
Y• g   O O L X g   β• g  U • g 
(note-se que: n = n1 + n2 + L + ng ; X ∗ é uma matriz n × g k ; β∗ é um vector g k × 1 ).
A relação amostral relativa ao modelo com restrições tem a mesma forma que
(2.100), Y = Xβ + V , onde
 X1  V•1 
X  V 
X=  2
e V = .
•2
 M   M 
   
 X g  V• g 
O teste de alteração da estrutura é dado por
H 0 : β•1 = β • 2 = L = β• g contra H1 : ∃(i, l) : β •i ≠ β•l .
Neste caso, as restrições podem apresentar-se na forma Rβ∗ = 0 , com

Ik O L O − Ik 
O Ik L O − I k 
R= ,
M M M M 
 
O O L Ik − Ik 
em que R é de tipo ( g − 1)k × g k .

Supondo que ni > k (i = 1, 2, K , g ) , o teste de Chow baseia-se no seguinte re-
sultado:
{Vˆ TVˆ − Uˆ TUˆ } /{( g − 1)k}
(2.105) ~ F  ( g − 1)k , n − g k  ,
Uˆ Uˆ /(n − g k )
T  
onde
Uˆ TUˆ = Uˆ •T1Uˆ •1 + Uˆ •T2Uˆ • 2 + L + Uˆ •TgUˆ • g .
O teste de alteração da estrutura também pode ser feito considerando um MRLC

com variáveis artificiais. Admitindo que, por exemplo, o grupo g é o de referência, vão
definir-se g − 1 variáveis artificiais (uma para cada um dos outros grupos). Assim:
 1 (t ∈ T1 )  1 (t ∈ T2 )  1 (t ∈ Tg −1 )
d t1 =  , dt 2 =  ,..., dt , g −1 =  .
 0 (t ∉ T1 )  0 (t ∉ T2 )  0 (t ∉ Tg −1 )
O conjunto dos regressores do modelo sem restrições é formado pelos regresso-

res originais, xtj ( j = 1, 2, K, k ) , e pelos produtos de cada dti (i = 1, 2, K , g − 1 ) , por ca-
da xtj ( j = 1, 2, K , k ) : dti xtj . Designando por β j o coeficiente de xtj , e por δ ji o coefi-
ciente de dti xtj , facilmente se conclui que
β •1 = β + δ •1 , β • 2 = β + δ • 2 ,..., β •, g −1 = β + δ •, g −1 e β • g = β ,
onde
 β1  δ11  δ12  δ1, g −1 
       
 β2   δ 21   δ 22   δ 2, g −1 
β= ,δ = ,δ = ,..., δ •, g −1 = .
 M  •1  M  • 2  M   M 
       
β
 k 
δ
 k1  δ k 2  δ k , g −1 
O número de regressores deste modelo é ainda g k , e a matriz dos regressores

é dada por
 X1 X1 O L O 
 
 X2 O X2 L O 
 M M M M .
 
 X g −1 O O L X g −1 
 X O O L O 
 g 
A hipótese nula pode ser formalizada da seguinte maneira:
H 0 : δ •1 = δ • 2 = L = δ •, g −1 = 0 .
O modelo com restrições continua a ser (2.96) ou (2.97). A relação amostral

do modelo com restrições continua a ser Y = Xβ + V .
A utilização de variáveis artificiais tem a vantagem de permitir a realização de
testes de alteração da estrutura mais flexíveis do que o teste de Chow. De facto, en-
quanto este teste abrange todos os coeficientes de regressão, pode ser vantajoso con-
siderar testes em que apenas alguns coeficientes estão envolvidos. Por exemplo, uma
possibilidade é a de aceitar que o termo independente pode variar com o grupo, e testar
se os outros coeficientes (as inclinações) variam de grupo para grupo. Outra possibilida-
de, é a de manter as inclinações fixas inter-grupos, e testar se o termo independente
não se altera quando se muda de grupo.
Suponha-se, sem perda de generalidade, que os primeiros k1 coeficientes estão
sujeitos a teste, e os restantes k2 coeficientes podem variar de grupo para grupo
( k1 + k2 = k ). O modelo sem restrições corresponde ao caso em que todos os coefi-
cientes podem variar inter-grupos. Este modelo pode ser formalizado da seguinte ma-
neira:
 yt = xt1• β •11 + xt2• β•21 + ut (t ∈ T1 )

 yt = xt • β • 2 + xt • β• 2 + ut (t ∈ T2 )
1 1 2 2

 L
 yt = xt1• β •1g + xt2• β •2g + ut (t ∈ Tg ),

onde: xt1• é o vector 1 × k1 dos primeiros k1 regressores; xt2• é o vector 1 × k2 dos restan-
tes k2 regressores; β •1i (i = 1, 2, K , g ) é o vector k1 × 1 dos coeficientes sujeitos a teste;
β •2i (i = 1, 2, K, g ) é o vector k2 × 1 dos coeficientes não sujeitos a teste (e que podem
variar inter-grupos).
As respectivas relações amostrais são
Y•1 = X 11β•11 + X 12 β•21 + U •1

Y• 2 = X 2 β• 2 + X 2 β• 2 + U • 2
1 1 2 2

L
Y• g = X 1g β•1g + X g2 β•2g + U • g ,

onde: X i1 (i = 1, 2, K , g ) é a matriz ni × k1 dos regressores relativamente ao grupo i, e
aos regressores cujos coeficientes estão sujeitos a teste; X i2 (i = 1, 2, K , g ) é a matriz
ni × k2 dos regressores relativamente ao grupo i, e aos regressores cujos coeficientes não
estão sujeitos a teste.
Pode, também, fazer-se Y = X ∗ β∗ + U , onde
X1 O L O X 2 O L O 
 1 1 
 O X1 L O O X 2 L O 
X* =  ,
2 2
 M M M M M M 
 1 2

 O O L Xg O O L Xg
 
e
 β1 
 •1 
β 1 
 •2 
 M 
 1 
 β• g 
β∗ =  2  .
 β•1 
β 2 
 •2 
 M 
 2
 β• g 
 
O teste é, então, H 0 : β•11 = β•12 = L = β•1g = β 1 contra H1 : ∃(i, l) : β•1i ≠ β •1l , onde
 β1 
 
β
β = 2.
1
 M 
 
 β k1 
Como no modelo com restrições apenas os últimos k2 coeficientes podem va-

riar de grupo para grupo, tem-se
 yt = xt1• β 1 + xt2• β •21 + ut (t ∈ T1 )

 yt = xt • β + xt • β • 2 + ut (t ∈ T2 )
1 1 2 2

 L
 yt = xt1• β 1 + xt2• β •2g + ut (t ∈ Tg ).

As respectivas relações amostrais são dadas por
Y•1 = X 11β 1 + X 12 β•21 + V•1

Y• 2 = X 2 β + X 2 β• 2 + V• 2
1 1 2 2

L
Y• g = X 1g β 1 + X g2 β •2g + V• g .

Pode, também, escrever-se Y = Xβ + V , onde
 β1 
 X 11 X 21  
O L O β2 
 1 2
  •1 
X 2 O X2 L O 
X =  e β =  β•22  .
 1
M M M M
  
 X g O
2
O L X g  
  2
 β• g 
Se a hipótese nula é verdadeira, obtém-se

{Vˆ TVˆ − Uˆ TUˆ } /{( g − 1)k1}
(2.106) ~ F  ( g − 1)k1 , n − g k  .
Uˆ Uˆ /(n − g k )
T  
Este teste pode ser feito recorrendo a um modelo com variáveis artificiais, tal
como se fez a propósito do teste de Chow (2.105). O modelo sem restrições pode ser
formalizado com apenas uma equação de regressão cujos regressores são
xtj e d ti xtj (i = 1, 2, K , g − 1; j = 1, 2, K , k1 , k1 + 1, K , k ; k2 = k − k1 ) .
Designando os respectivos coeficientes de regressão por β j e por δ ji , tem-se

β•11 = β 1 + δ •11 , β•12 = β 1 + δ •12 ,..., β •1, g −1 = β 1 + δ •1, g −1 , β •1g = β 1 ,
β•21 = β 2 + δ •21 , β•22 = β 2 + δ •22 ,..., β•2, g −1 = β 2 + δ •2, g −1 , β•2g = β 2 ,
onde
 δ11   δ12   δ1, g −1 
     
 δ 21  1  δ 22   δ 2, g −1 
δ •1 =
1
,δ = ,..., δ •, g −1 =
1
,
 M  •2  M   M 
     
δ δ k1 2  δ
 k11   k1 , g −1 
e
 β k +1  δ k +1,1  δ k +1, 2  δ k +1, g −1 
 1   1   1   1 
 β k1 + 2   δ k1 + 2 ,1   δ k1 + 2 , 2   δ k1 + 2, g −1 
β =
2
,δ =
2
,δ =
2
,..., δ •, g −1 =
2
,
 M  •1  M  • 2  M   M 
       
β δ  δ k 2  δ
 k   k1   k , g −1 
A matriz dos regressores é
 X1 X 11 O L O X 12 X 12 O L O 
 11 
 X2 O X 21 L O X 22 O X 22 L O 
 M M M M M M M M .
 1 1 2 
 X g −1 O O L X g −1 X g −1 O O L X g2−1 
 X 1g O O L O X g2 O O L O 
 
A hipótese nula é dada por
H 0 : δ •11 = δ •12 = L = δ •1, g −1 = 0 .
O modelo com restrições é constituído por uma equação de regressão em que

os regressores são
xtj ( j = 1, 2, K , k1 , k1 + 1, K , k ) e dti xtj (i = 1, 2, K , g − 1; j = k1 + 1, k1 + 2, K , k ) .
A matriz dos regressores é dada por

 X 11 X 12 X 12 O L O 
 1 
 X2 X 22 O X 22 L O 
 
 M M M M M .
 1 
 X g −1 X g2−1 O O L X g2−1 
 1 
 Xg X g2 O O L O 
Para ilustrar este resultado, vai considerar-se um modelo com termo indepen-
dente e mais dois regressores ( k = 3 ). Suponha-se que existem três grupos ( g = 3 ), e
que se pretende testar se as inclinações são constantes inter-grupos. Assim, o número de
coeficientes sujeitos a teste é k1 = 2 (e, portanto, k2 = 1 ).
Definindo duas variáveis artificiais, dti (i = 1, 2) [o grupo de referência é o ter-
ceiro], o modelo sem restrições é dado por
yt = β1 + δ11dt1 + δ12 dt 2
+ β 2 xt 2 + δ 21dt1 xt 2 + δ 22 dt 2 xt 2
+ β3 xt 3 + δ 31dt1 xt 3 + δ 32 dt 2 xt 3 + ut ,
Como k = 3 , o número de graus de liberdade é n − gk = n − 9 .

A hipótese nula é
δ = δ 22 = 0
H 0 :  21 .
δ 31 = δ 32 = 0.
O modelo com restrições é, então,

yt = β1 + δ11dt1 + δ12 dt 2 + β 2 xt 2 + β 3 xt 3 + vt .
Como k1 = 2 , o número de restrições é ( g − 1)k1 = 4 .

Considere-se, agora, a seguinte situação: os primeiros k1 coeficientes estão su-
jeitos a teste, e os restantes k2 coeficientes mantêm-se constantes inter-grupos.
Neste caso, o modelo sem restrições é dado por
 yt = xt1• β•11 + xt2• β 2 + ut (t ∈ T1 )

 yt = xt • β• 2 + xt • β + ut (t ∈ T2 )
1 1 2 2

 L
 yt = xt1• β•1g + xt2• β 2 + ut (t ∈ Tg ),

onde β 2 é o vector k2 × 1 dos coeficientes não sujeitos a teste (e que não variam inter-
-grupos).
As respectivas relações amostrais são
Y•1 = X 11β •11 + X 12 β 2 + U •1

Y• 2 = X 2 β• 2 + X 2 β + U • 2
1 1 2 2

L
Y• g = X 1g β•1g + X g2 β 2 + U • g .

Se se considerar Y = X ∗β∗ + U , tem-se

β1 
X 1 O L O X 2   •1 
 1 1 
β1 
 O X1 L O X 2  •2 
X* =  2 2
 ; β∗ =  M  .
 M M M M   1 
 1 2
 β• g 
 O O L Xg Xg  2
 
 β 
O teste continua a ser H 0 : β•11 = β•12 = L = β •1g = β 1 contra H1 : ∃(i, l) : β•1i ≠ β•1l .
No modelo com restrições os regressores são xtj ( j = 1, 2, K , k ) .
Daqui resulta que as relações amostrais são dadas por
Y•1 = X 11 β 1 + X 12 β 2 + V•1

Y•2 = X 2 β + X 2 β + V•2
1 1 2 2

L
Y = X 1 β 1 + X 2 β 2 + V .
 •g g g •g
Fazendo Y = Xβ + V , tem-se
X1 X 2
 1 1
X 1 X 2 β 1 
X =
2 2
; β = .
 M M  β 2 
 1   
2
X
 g X g
 
Se a hipótese nula é verdadeira, tem-se
{Vˆ TVˆ − Uˆ TUˆ } /{( g − 1)k1}
(2.107) ~ F  ( g − 1)k1 , n − g k1 − k2  .
ˆ T ˆ
U U /(n − g k − k )  
1 2
Utilizando variáveis artificiais, os regressores do modelo sem restrições são

dti xtj ( i = 1, 2, K , g − 1; j = 1, 2, K , k1 ) e xtj ( j = 1, 2, K , k1 , k1 + 1, k1 + 2, K , k ).
Designando ainda os respectivos coeficientes de regressão por β j e por δ ji ,

continua a ter-se β •11 = β 1 + δ •11 , β •12 = β 1 + δ •12 ,..., β •1, g −1 = β 1 + δ •1, g −1 , β •1g = β 1 .
A respectiva matriz dos regressores é, então,
 X 11 X 11 O L O X 12 
 1 
 X2 O X 21 L O X 22 
 
 M M M M M .
 1 
 X g −1 O O L X 1g −1 X g2−1 
 1 
 Xg O O L O X g2 
Neste caso, a hipótese nula ainda é H 0 : δ •11 = δ •12 = L = δ •1, g −1 = 0 .

O modelo com restrições não tem variáveis artificiais, e a respectiva matriz
dos regressores é X.
Por exemplo, considere-se de novo um modelo com termo independente, mais
dois regressores ( k = 3 ) e três grupos ( g = 3 ).
Procura testar-se se o termo independente é constante inter-grupos, mantendo a
hipótese de que as inclinações não variam de grupo para grupo. Neste caso, vem k1 = 1 e
k2 = 2 .
O modelo sem restrições é dado por
yt = β1 + δ11d t1 + δ12 d t 2 + β 2 xt 2 + β 3 xt 3 + ut . .
O número de graus de liberdade é n − gk1 − k2 = n − 5 .

A hipótese nula é H 0 : δ11 = δ12 = 0 , a que corresponde o modelo com restrições
yt = β1 + β 2 xt 2 + β3 xt 3 + vt .
Como k1 = 1 , o número de restrições é ( g − 1)k1 = 2 .
Exemplo 2.29 – No exemplo 2.28, embora se rejeite a permanência de estrutura, parece

que as estimativas do retorno da educação pouco diferem entre mulheres e homens. Po-
de, então, fazer-se o teste de o retorno da educação não variar com o género. Como o
modelo sem restrições deve considerar todas as interacções entre a variável mulher e os
outros regressores, tem-se:
lsalart = β1 + δ1 mulhert + β 2 educt + δ 2 (mulhert × educt )
+ β 3 expert + δ 3 (mulhert × expert ) + β 4empct + δ 4 (mulhert × empct ) + ut .
Neste caso, basta testar H 0 : δ 2 = 0 contra H1 : δ 2 ≠ 0 , utilizando o rácio-t.
Os resultados da regressão são os seguintes:
Estimativas Erros
Regressores dos coeficientes padrão Rácios-t Valores-p
constante 5.88936
mulhert – 0.22665 0.14345 – 1.58004 0.114
educt 0.55732 0.00597 9.33295 0.000
mulhert × educt – 0.00032 0.00971 – 0.03330 0.973
expert 0.02302 0.00313 7.34721 0.000
mulhert × expert 0.00096 0.00507 0.19009 0.849
empct 0.00323 0.00300 1.07699 0.282
mulhert × empct 0.00339 0.00483 0.70336 0.482
Conclui-se imediatamente que não se rejeita a hipótese nula, isto é, a evidência

estatística é favorável a que o retorno da educação não varie com o género. Obviamente,
esta conclusão não invalida que não se rejeite a alteração de estrutura atrás testada.
∇
2.13 - Previsão e análise dos resíduos
Até aqui, o modelo de regressão linear foi apresentado de acordo com o seguinte
ponto de vista: dispondo de um certo número de observações sobre as variáveis, procu-
ra-se estimar uma relação linear capaz de explicar o comportamento do regressando em
função de certos regressores. Outro ponto de vista é o de encontrar o modo mais eficaz
de utilização do modelo com o objectivo da previsão de observações adicionais do re-
gressando a partir de certos valores assumidos pelos regressores. No entanto, deve subli-
nhar-se que só se deve passar à fase da previsão depois de se adoptar um determinado
modelo estimado, o que pressupõe que as estimações feitas foram submetidas a uma
cuidada análise da especificação.
O “problema da previsão” procura dar resposta a dois tipos de questões:
a) Previsão em média: estimação do valor esperado das observações do regressando
condicionado por uma ou várias combinações de valores assumidos pelos regresso-
res.
b) Previsão pontual (para valores isolados): estimação de valores observados pelo re-
gressando em correspondência com uma ou várias combinações de valores assumi-
dos pelos regressores.
A distinção entre estes dois tipos de previsão é ilustrada pelo exemplo que se se-
gue.
Exemplo 2.30 – Seja

const = β1 + β 2 rdispt + β3 nef 16t + ut ,
onde:
− const é o consumo da família t de certos tipos de bens;
− rdispt é o rendimento real disponível da família t;
− nef 16t é o número de elementos da família t com mais de 16 anos.
Sabendo que nef 16n +1 = 3 e rdispn +1 = 24 , a questão da alínea a) consiste em
prever o consumo médio das famílias com rendimento disponível igual a 24 unidades
monetárias e 3 elementos com idade superior a 16 anos. A questão da alínea b) corres-
ponde à previsão do consumo de uma certa família nas mesmas condições.
∇
Considere-se no MRLCN a relação amostral, Y = Xβ + U , e suponha-se que se

dispõe de r observações adicionais dos regressores. Estas observações vão ser agrupadas
numa matriz X 0 de tipo r × k ,
 xn +1,1 xn +1, 2 L xn +1, k 
 
 xn + 2,1 xn + 2, 2 L xn + 2, k 
X0 =  .
M M M 
 
 xn + r ,1 xn + r , 2 L xn + r , k 
No domínio de previsão ( t = n + 1, n + 2, K , n + r ) continuam a verificar-se as

mesmas hipóteses do modelo que se tinha no domínio de estimação ( t = 1, 2, K , n ). Da-
qui resulta que
Y0 = X 0 β + U 0 ,

 E (U 0 | X , X 0 ) = 0,

Cov(U 0 | X , X 0 ) = σ I r ,
2
(2.108)
U | X , X ~ N ( r ) (0, σ 2 I ),
 0 0 r
Cov(U , U 0 | X , X 0 ) = O,

onde
 yn+1   u n+1 
y  u 
Y0 =  n+2 
, U 0 =  n+ 2  ,
 M   M 
   
 yn+r  u n + r 
e Cov(U , U 0 | X , X 0 ) é a matriz n × r das covariâncias, condicionadas por X e X 0 ,
entre as variáveis residuais, ut , relativas ao domínio de estimação e as variáveis resi-
duais, u s , referentes ao domínio de previsão. Assim,
Cov(ut , us | X , X 0 ) = 0 (t = 1, 2, K , n ; s = n + 1, n + 2, K , n + r ) .
Evidentemente não se dispõe de – ou não se consideram as – observações do re-

gressando no domínio de previsão.
Nas condições (2.108), facilmente se verifica que
 E (Y0 | X , X 0 ) = X 0 β ,

Cov(Y0 | X , X 0 ) = σ I r ,
2

Y0 | X , X 0 ~ N ( X 0 β , σ I r ),
(r ) 2
Cov(Y , Y | X , X ) = O.
 0 0
Também se tem, em termos marginais,

 E (U 0 ) = 0,

Cov(U 0 ) = σ I r ,
2

U 0 ~ N (0, σ I r ),
(r ) 2
Cov(U , U ) = O.
 0
Previsão em média
No caso da previsão em média, pretende estimar-se o vector r × 1 ,

θ = E (Y0 | X , X 0 ) = X 0 β ,
que não é mais do que um sistema de r combinações lineares dos coeficientes de regres-
são. Naturalmente que
(2.109) θˆ = X 0b
é BLUE para θ = X 0 β , condicionado por X e X 0 .
Tem-se
 E (θˆ | X , X ) = E ( X 0b | X , X 0 ) = X 0 β = θ ,
 0
Cov(θˆ | X , X ) = Cov( X 0b | X , X 0 ) = X 0 Cov(b | X , X 0 ) X 0T

 0
(2.110)  = σ 2 X 0 ( X T X ) −1 X 0T ,

 θˆ | X , X 0 ~ N ( r ) θ , σ 2 X 0 ( X T X ) −1 X 0T  .
  

Como s 2 = Uˆ T Uˆ /(n − k ) é o estimador MQ de σ 2 , tem-se
^ ^
(2.111) Cov(θˆ | X , X 0 ) = Cov( X 0b | X , X 0 ) = s 2 X 0 ( X T X ) −1 X 0T .
Então,
(θˆ − θ )T { X 0 ( X T X ) −1 X 0T }−1 (θˆ − θ )

X , X 0 ~ F (r , n − k ) ,
r s2
e
(θˆ − θ )T { X 0 ( X T X ) −1 X 0T }−1 (θˆ − θ )
(2.112) ~ F (r , n − k ) .
r s2
Este resultado é semelhante a (2.79), onde R foi substituído por X 0 (no entanto,
R é não estocástica e X 0 é matriz aleatória), e permite fazer inferência estatística sobre
θ = X 0 β : construir regiões de confiança (elipsóides de previsão) e testar hipóteses.
Quando se abandona a hipótese REX.6, a distribuição anterior é assintótica, e o resul-
tado (2.112) só é válido para grandes amostras (ver capítulo 3).
Quando se tem apenas uma observação adicional ( r = 1 ), para simplificar, vai
fazer-se
X 0 = c = [ c1 c2 L ck ],
onde c é um vector 1 × k . O parâmetro a estimar e o respectivo estimador são, respecti-

vamente, os seguintes escalares:
θ = E ( y0 | X , c) = cβ = c1β1 + c2 β 2 + L + ck β k ,
θˆ = Eˆ ( y0 | X , c) = cb = c1b1 + c2b2 + L + ck bk .
Recorrendo à distribuição t-Student, obtém-se
θˆ − θ Eˆ ( y0 | X , c) − E ( y0 | X , c)
(2.113) = ~ t (n − k ) ,
sθˆ s c( X T X ) −1 cT
onde
sθˆ = s c( X T X ) −1 cT
é o erro padrão da previsão em média.

Este resultado serve para determinar intervalos de confiança (intervalos de previ-
são) para θ , e fazer testes de hipóteses.
Supondo que se pretende construir um intervalo de confiança de grau 1 − α
para θ = cβ , o intervalo é dado por
(2.114) [ θˆ − tα / 2 sθˆ , θˆ + tα / 2 sθˆ ].
Quando o modelo tem termo independente, o cálculo de θˆ e de sθˆ pode ser feito
utilizando uma técnica já conhecida (ver secção 2.10, subsecção “Inferência estatística
sobre uma combinação linear dos coeficientes de regressão”). Com efeito, seja o MRL,
yt = β1 + β 2 xt 2 + L + β k xtk + ut e θ = β1 + β 2c2 + L + β k ck . Como
β1 = θ − β 2c2 − L − β k ck ,
substituindo no modelo, vem
yt = θ + β 2 ( xt 2 − c2 ) + L + β k ( xtk − ck ) + ut .
Então, θˆ e sθˆ são, respectivamente, o estimador do termo independente desta

equação e o respectivo erro padrão.
Como a variância do estimador do termo independente é mínima quando as mé-
dias das observações dos regressores são nulas [ver (2B.9)], o erro padrão da previsão é
mínimo quando x2 = c2 , K , xk = ck .
Considere-se o MRLCN simples, yt = β1 + β 2 xt + ut , e suponha-se que r = 1
(mais uma observação da variável explicativa). Fazendo xn +1 = c , pode deduzir-se, sem
dificuldade, que
θˆ − θ Eˆ ( y0 | X , c) − E ( y0 | X , c)
= ~ t (n − 2) ,
sθˆ 1 (c − x ) 2
s +
n
∑
n
t =1
( xt − x ) 2
onde
θˆ = Eˆ ( y0 | X , c) = b1 + b2 c , θ = E ( y0 | X , c) = β1 + β 2c ,
e
1 (c − x ) 2
sθˆ = s + .
n
∑
n
t =1
( xt − x ) 2
A expressão do erro padrão mostra claramente quais os factores que influem na

maior ou menor confiança que se pode atribuir à previsão, todos eles susceptíveis de
fácil interpretação. Assim, a confiança é tanto maior:
− Quanto menor for a dispersão da variável residual, medida por s;
− Quanto maior for o número de observações, n, utilizadas na estimação;
− Quanto mais dispersas forem as observações da variável explicativa, o que é tradu-

zido por Σ( xt − x ) 2 ;
− Quanto mais perto c (observação adicional da variável explicativa) estiver de x
(média das observações da mesma variável no domínio de estimação).
Fazendo variar o valor c, as extremidades do intervalo de confiança também va-

riam, afastando-se da recta b1 + b2c à medida que c se afasta do valor médio das obser-
vações, x . Para cada c, o intervalo de confiança para θ encontra-se entre as duas curvas
que definem as extremidades do intervalo. A região compreendida entre as duas curvas
chama-se manga de previsão para θ .
Previsão pontual
Em muitos casos, especialmente com dados temporais, a previsão em média

não tem interesse, devido à própria natureza dos dados. De facto, em muitas situações
não tem sentido prever o comportamento médio do regressando, estando o investigador
interessado em prever apenas um particular valor do regressando referido a outro perío-
do ou a outro contexto.
Considere-se de novo uma matriz X 0 com r observações adicionais dos regres-
sores, e Y0 = X 0 β + U 0 , onde U 0 verifica as condições referidas em (2.108). Enquanto
na previsão em média se pretendia estimar θ = E (Y0 | X , X 0 ) , agora, procura prever-se
valores assumidos por Y0 (previsão pontual).
Considere-se o seguinte previsor MQ de Y0 ,
(2.115) Yˆ0 = X 0b = X 0 ( X T X ) −1 X T Y ,
e o erro de previsão,
(2.116) D = Y0 − Yˆ0 .
Utilizando o vector aleatório D, vão estudar-se as propriedades estatísticas do

previsor. Como E ( D | X , X 0 ) = E (Y0 − Yˆ0 | X , X 0 ) = 0 , diz-se que Yˆ0 , condicionado por
X e X 0 , é um previsor não enviesado de Y0 . Verifica-se que E (D) = 0 .
A matriz das covariâncias de D, condicionadas por X e X 0 , é dada por
(2.117) Cov( D | X , X 0 ) = σ 2{I r + X 0 ( X T X ) −1 X 0T } .
Com efeito,
Cov( D | X , X 0 ) = Cov(Y0 | X , X 0 ) + Cov(Yˆ0 | X , X 0 ) − 2 Cov(Y0 , Yˆ0 | X , X 0 )
= σ 2 I r + σ 2 X 0 ( X T X ) −1 X 0T − 2 E{(Y0 − X 0 β )(Yˆ0 − X 0 β )T | X , X 0 }
= σ 2 I r + σ 2 X 0 ( X T X ) −1 X 0T − 2 E{U 0 ( X 0b − X 0 β )T | X , X 0 }
= σ 2 I r + σ 2 X 0 ( X T X ) −1 X 0T − 2 E{U 0 (b − β )T X 0T | X , X 0 }
= σ 2 I r + σ 2 X 0 ( X T X ) −1 X 0T − 2 E{U 0U T | X , X 0 } X ( X T X ) −1 X 0T
= σ 2{I r + X 0 ( X T X ) −1 X 0T } ,
pois b − β = ( X T X ) −1 X T U , e E (U 0U T | X , X 0 ) = O .
Verifica-se, assim, que a matriz das covariâncias do erro de previsão, condicio-
nadas por X e X 0 , é a soma de duas matrizes:
− A matriz das covariâncias condicionadas de Y0 , que não depende dos dados,
Cov(Y0 | X , X 0 ) = σ 2 I r ;
− A matriz das covariâncias condicionadas de Yˆ0 = X 0b ,
Cov(Yˆ0 | X , X 0 ) = σ 2 X 0 ( X T X ) −1 X 0T .
Como X 0b é BLUE para X 0 β , então diz-se que Yˆ0 = X 0b é o melhor previsor

linear não enviesado (BLUP: Best Linear Unbiased Predictor) para Y0 . Isto significa
~ ~
que, para qualquer outro previsor de Y0 , Y0 , linear em Y ( Y0 = CY ) e não enviesado –
~ ~
E ( D | X , X 0 ) = E (Y 0 − Y 0 | X , X 0 ) = 0 –, tem-se
~
Cov( D | X , X 0 ) − Cov( D | X , X 0 ) é semidefinida positiva.
Facilmente se conclui, utilizando o procedimento habitual, que

(Y 0 − Yˆ 0 )T {I r + X 0 ( X T X ) −1 X 0T }−1 (Y 0 − Yˆ 0 )
(2.118) ~ F (r , n − k ) .
r s2
Quando se abandona a hipótese REX.6, a distribuição anterior é assintótica, e o
resultado (2.118) só é válido para grandes amostras (ver capítulo 3).
Quando se tem apenas uma observação adicional, r = 1 , o erro de previsão é um
escalar, d = y0 − ŷ0 , e verifica-se sem dificuldade que
Var(d | X , c) = Var( y0 | X , c) + Var( yˆ 0 | X , c)
= σ 2 + σ 2c( X T X ) −1 cT
= σ 2{1 + c( X T X ) −1 cT }.
Então,
d y0 − yˆ 0
(2.119) = ~ t (n − k ) ,
sd s 1 + c( X T X ) −1 cT
onde
sd = s 1 + c( X T X ) −1 cT
é o erro padrão do erro de previsão.

Um intervalo de confiança de nível 1 − α para y0 é dado por
(2.120) [ yˆ 0 − tα / 2 sd , yˆ 0 + tα / 2 sd ].
Quando se considera o MRLCN simples e r = 1 , pode deduzir-se, sem dificulda-

de, que
d y0 − yˆ 0
= ~ t ( n − 2) ,
sd 1 (c − x ) 2
s 1+ +
n
∑
n
t =1
( xt − x ) 2
onde
1 (c − x ) 2
sd = s 1 + + ,
n
∑
n
t =1
( xt − x ) 2
podendo construir-se os respectivos intervalos de confiança e a manga de previsão.

Para qualquer r, pode verificar-se que
Cov( D | X , X 0 ) − Cov(θˆ | X , X 0 )
é semidefinida positiva. Em particular, considerando r = 1 , tem-se

Var (d | X , c) = σ 2{1 + c( X T X ) −1 cT }
> Var{θˆ | X , c} = σ 2{c( X T X ) −1 cT }.
n +1
Isto significa que, embora cb seja o estimador de cβ na previsão em média e o

previsor de y0 na previsão pontual, as variâncias neste tipo de previsão são maiores do
que as variâncias naquele.
Teste de previsão de Chow
Considere-se o modelo (2.94). Supondo, tal como se fez na secção 2.12, que se
dispõe de n1 observações para o grupo 1, e n2 para o grupo 2, a relação amostral corres-
pondente é dada por (2.98). No teste de Chow de alteração da estrutura, em que se uti-
liza a estatística (2.102), pressupõe-se que n1 > k e que n2 > k , e fazem-se três ajusta-
mentos MQ (com n1 observações, com n2 observações e com n = n1 + n2 observações).
Para efectuar o teste de previsão de Chow, vai adoptar-se outro ponto de vista:
as observações do grupo 1 são utilizadas para estimar os coeficientes de regressão, ob-
tendo-se b•1 = ( X 1T X 1 ) −1 X 1T Y•1 (supõe-se que n1 > k ); as observações do grupo 2 são usa-
das para testar a hipótese (2.95),
H 0 : β •1 = β • 2 contra H1 : β •1 ≠ β • 2 ,
mesmo no caso em que n2 ≤ k .

Para isso, vai utilizar-se o previsor Yˆ• 2 = X 2b•1 de Y• 2 , tal como se fez na previ-
são pontual. Nestas condições, o erro de previsão é dado por D = Y• 2 − Yˆ• 2 = Y• 2 − X 2b•1
ou D = X 2 β • 2 + U • 2 − X 2b•1 = U • 2 − X 2 (b•1 − β • 2 ) . Como D = U • 2 − X 2 (b•1 − β•1 ) sob a
hipótese nula, é imediato verificar que
E ( D | X 1 , X 2 ) = 0 e Cov( D | X 1 , X 2 ) = σ 2{I n2 + X 2 ( X 1T X 1 ) −1 X 2T } ,
obtendo-se uma estatística-teste semelhante a (2.118):

(Y• 2 − Yˆ• 2 )T {I n2 + X 2 ( X 1T X 1 ) −1 X 2T }−1 (Y• 2 − Yˆ• 2 ) / n2

(2.121) ~ F (n2 , n1 − k ) ,
Uˆ T Uˆ /(n − k )
•1 •1 1
onde Uˆ •1 é o vector dos resíduos MQ do ajustamento com n1 observações.

Este resultado pode ser obtido de forma equivalente. Com efeito, notando que
Y• 2 = X 2 β • 2 + U • 2 = X 2 β •1 + X 2 ( β • 2 − β•1 ) + U • 2 = X 2 β •1 + γ + U • 2 ,
onde γ = X 2 ( β• 2 − β•1 ) é um vector n2 × 1 , (2.98) pode apresentar-se da seguinte manei-
ra:
Y•1 = X 1β •1 + U •1
(2.122) 
Y• 2 = X 2 β •1 + γ + U • 2 ,
ou
Y•1   X 1 O   β•1  U •1 
 =  + ,
Y 
 •2   X 2 I n   γ  U • 2 
2 
onde γ é um vector n2 × 1 de parâmetros. Facilmente se verifica que H 0 : β•1 = β• 2 é

equivalente a H 0 : γ = 0 .
O estimador MQ dos vectores β•1 e γ é dado por
−1
 βˆ•1   X 1T X 1 + X 2T X 2 X 2T   X 1T Y•1 + X 2T Y• 2 
 =   .
γˆ
   X 2 I n2  
  Y•2 
Invertendo a matriz por blocos, vem

 βˆ•1   ( X 1T X 1 ) −1 − ( X 1T X 1 ) −1 X 2T   X 1T Y•1 + X 2T Y• 2 
 = 
T  ,
 γˆ  − X 2 ( X 1 X 1 ) I n2 + X 2 ( X 1 X 1 ) X 2  
T −1 T −1
Y• 2 
ou
 βˆ•1   ( X 1T X 1 ) −1 X 1T Y•1   b•1  b•1 
 =  =   =  .
 γˆ  Y• 2 − X 2 ( X 1 X 1 ) X 1 Y•1  Y• 2 − X 2b•1   D 
T −1 T
Deste modo, o estimador MQ de β •1 , a partir da relação amostral (2.122), coin-

cide com o estimador MQ de β•1 resultante da primeira relação amostral de (2.98); o
estimador MQ de γ é igual ao erro de previsão.
Os respectivos resíduos MQ são dados por
Uˆ •1 = Y•1 − X 1b•1

Uˆ • 2 = Y• 2 − ( X 2b•1 + D) = 0,
e, portanto, a respectiva soma dos quadrados dos resíduos MQ é Uˆ •T1Uˆ •1 .

Pode fazer-se o teste de H 0 : γ = 0 recorrendo ao resultado geral (2.81). Neste
caso, têm-se n2 restrições e R = [ O I n2 ], onde O é a matriz nula de tipo n2 × k . Então,
−1
 X 1T X 1 + X 2T X 2 X 2T   ( X 1T X 1 ) −1 − ( X 1T X 1 ) −1 X 2T   O 
R  RT = O I n2 [ ]   
− X 2 ( X 1 X 1 ) I n2 + X 2 ( X 1 X 1 ) X 2   I n2 
T −1 T −1 T
 X2 I n2 
= I n2 + X 2 ( X 1T X 1 ) −1 X 2T .
O número de graus de liberdade da estimação MQ de (2.122) é igual ao número

de observações, n, menos o número de coeficientes de regressão a estimar k + n2 , isto é,
n − (k + n2 ) = n1 − k . Então, facilmente se verifica que
γˆT {I n + X 2 ( X 1T X 1 )−1 X 2T }−1γˆ / n2
2
~ F (n2 , n1 − k ) ,
Uˆ •T1Uˆ •1 /(n1 − k )
ou seja, obtém-se (2.121) uma vez que γˆ = D = Y• 2 − Yˆ• 2 e a soma dos quadrados dos
resíduos MQ que resulta da estimação de (2.122) é ainda Uˆ •T1Uˆ •1 .
O teste da hipótese nula H 0 : γ = 0 pode, também, fazer-se recorrendo ao resul-
tado (2.82) [equivalente a (2.81)]. A soma dos quadrados dos resíduos MQ sem restri-
ções é Uˆ •T1Uˆ •1 . Quando se verifica γ = 0 , são impostas n2 restrições, (2.122) reduz-se a
(2.100) ou (2.101), e a respectiva soma dos quadrados dos resíduos MQ é igual a Vˆ T Vˆ .
Então, admitindo que a hipótese nula é verdadeira, tem-se
(Vˆ TV − Uˆ •T1Uˆ •1 ) / n2
(2.123) ~ F (n2 , n1 − k ) .
Uˆ •T1Uˆ •1 /(n1 − k )
Quando se abandona a hipótese REX.6, os resultados (2.121) e (2.123) só são
válidos assintoticamente, ou seja, para grandes amostras (ver capítulo 3).
É particularmente interessante o caso particular em que há apenas uma observa-
ção adicional, n2 = 1 . Neste caso, (2.123) reduz-se a
Vˆ TVˆ − Uˆ •T1Uˆ •1
~ F (1, n1 − k ) ,
s2
onde s 2 = Uˆ •T1Uˆ •1 /(n1 − k ) .
Donde,
Vˆ T Vˆ − Uˆ •T1Uˆ •1
(2.124) ~ t (n1 − k ) .
s
Prever y quando ln(y) é o regressando
Quando o MRLCN resulta de uma transformação linearizante de um modelo ini-

cial, as previsões obtidas dizem naturalmente respeito ao modelo transformado. Preten-
dendo-se fazer previsões em termos da variável explicada original, é necessário proce-
der à transformação inversa. Neste contexto, tem particular interesse o caso do regres-
sando ln(y).
Para facilitar a exposição vai utilizar-se a seguinte notação: ly = ln( y ) . Assim, o
MRLCN a considerar é dado por lyt = xt • β + ut , a verificar:
E (lyt | X ) = xt • β ;
Var(lyt | X ) = σ 2 ;
Cov(lyt , ly s | X ) = 0 (t ≠ s );
(lyt | X ) ~ NID( xt • β , σ 2 ) .
Como yt = exp{lyt } = exp{xt • β + ut } = exp{xt • β } exp{ut } , tem-se

E ( yt | X ) = E (exp{xt • β } exp{ut } | X ) = exp{xt • β }E (exp{ut } | X ) .

E (lyt | X ) = xt • β ≠ ln{ E ( yt | X )} = xt • β + ln{ E (exp{ut } | X )} ,
e
exp{E (lyt | X )} = exp{xt • β } ≠ E ( yt | X ) = exp{xt • β }E (exp{ut } | X ) ,
isto é, a transformação inversa do valor esperado condicionado de lyt não conduz ao

valor esperado condicionado de yt .
Pode provar-se que
E ( yt | X ) = exp {xt • β + σ 2 / 2} > exp {xt • β } ,
recorrendo à função geradora dos momentos de variável aleatória com distribuição nor-
mal, e notando que exp {σ 2 / 2} > 1 (porque σ 2 > 0 ).
Nestas condições, o previsor
 ^ 
yˆ 0 = exply 0  = exp{cb} ,
 
é enviesado (o respectivo erro de previsão não tem valor esperado nulo) e inconsistente
(subestima sistematicamente o valor esperado condicionado de y0 ).
Facilmente se verifica que este enviesamento é tanto maior quanto maior for σ 2 .
Na prática, este enviesamento é tanto maior quanto menor for o coeficiente de determi-
nação, ou quanto maior for o erro padrão, s, da regressão de lyt sobre xt • .
Refira-se, ainda, que este problema tem consequências diferentes quando se pre-
tende fazer uma previsão pontual ou quando se efectua uma previsão por intervalos.
Com efeito, na primeira situação, a previsão é enviesada em termos da variável original,
y0 , e deve ser corrigida sempre que possível. No segundo caso, obtém-se uma previsão
com o grau de confiança desejado, embora descentrada em relação ao valor esperado
condicionado de y0 . Em vez de centrar o intervalo de previsão no valor esperado condi-
cionado de y0 , opta-se por utilizar um intervalo de previsão com idêntica probabilidade
à esquerda e à direita.
As considerações anteriores mostram que é necessária uma correcção simples
para prever y0 . O novo previsor é dado por
 s 2   ^   s 2 
(2.125) yˆ 0 = exp exply 0  = exp  exp{cb} ,
 2     2 
que continua a ser enviesado, mas é consistente.

Quando não se verifica a hipótese REX.6, (2.125) não pode ser utilizado.
Como E ( yt | X ) = α exp{xt • β } , onde α = E (exp{ut } | X ) , o previsor pode ser
dado por
 ^ 
(2.126) yˆ 0 = αˆ exply 0  = αˆ exp{cb} ,
 
desde que se conheça um estimador consistente, α̂ , de α .

Pode provar-se que, fazendo a regressão auxiliar (sem constante) de
^ 
yt sobre wt = exply t  ( t = 1, 2, K , n ),
 
o estimador do coeficiente de wt é α̂ .
A técnica de estimação do factor α , referido em (2.126), pode servir para obter
um coeficiente de determinação relativo ao modelo lyt = xt • β + ut , comparável com o
R 2 habitual referente ao modelo yt = xt • β + vt . Uma proposta possível de tal coeficien-
te de determinação resume-se a calcular o quadrado do coeficiente de correlação empíri-
co entre os yt e os yˆ t = α̂ wt .
Exemplo 2.31 – Suponha-se que se vai fazer a previsão pontual do salário (previsão
para um determinado trabalhador), quando os regressores assumem os seguintes valo-
res: educt = 14 ; expert = 7 ; empct = 4 . A previsão é a seguinte:
^
lsalar0 = 5.81505 + 14 × 0.055383 + 7 × 0.022988 + 4 × 0.00395 = 6.76714 .
Este valor podia ser obtido fazendo a regressão de lsalart sobre 1, educt − 14 ,
expert − 7 e empct − 4 . A estimativa do termo independente é, então, 6.76714; o respec-
tivo erro padrão é igual a 0.020314. Como
sd = s 2 + sθ2ˆ = 0.141009 + 0.0203142 = 0.37606 ,
e t0.025 = 1.9624 (com 996 graus de liberdade), o intervalo de confiança é dado por
[6.02918, 7.50511].
O valor previsto para o salário (sem correcção do enviesamento) é, então, igual a
exp{ 6.76714 } = 868.82491 . Calculando os anti-logaritmos das extremidades daquele
intervalo, obtém-se
[415.3725, 1817.29631].
Como era de esperar, a amplitude deste intervalo é elevada, uma vez que, tratan-
do-se de previsão pontual, o cálculo dos anti-logaritmos acentua a disparidade de valo-
res.
O valor previsto anteriormente para o salário, 868.82491, pertence a este interva-
lo, mas encontra-se claramente mais perto da extremidade inferior do que da extremida-
de superior. Para corrigir este enviesamento, vai determinar-se o factor de correcção, α̂ ,

fazendo a regressão auxiliar (sem termo independente) de
 ^ 
salart sobre explsalart  .
 
Como αˆ = 1.07272 (estimativa do coeficiente do regressor), o valor previsto pa-
ra o salário passa a ser
1.07272 × exp{ 6.76714 } = 932.00229 ,
mais afastado daquela extremidade inferior.
∇
Previsão ex-post
Todos os resultados apresentados nesta secção supõem que se conhece a matriz

X 0 , ou seja, conhecem-se as observações adicionais dos regressores ( X 0 não faz parte
da previsão). Neste caso, a previsão (relativamente a Y0 ) é ex post. Este tipo de pre-
visão deve distinguir-se da previsão ex ante, que inclui a previsão das observações adi-
cionais dos regressores.
Estão disponíveis alguns critérios para avaliar a qualidade das previsões ex post,
desde que se conheça o vector Y0 . São eles:
a) A raiz do erro quadrático médio
∑
n+ r
( yt − yˆ t ) 2
REQM = t = n +1
.
r
b) O erro absoluto médio
∑
n+r
| yt − yˆ t |
EAM = t = n +1
.
r
Estas duas estatísticas têm um problema de escala (dependem da unidade de me-
dida dos yt ). As duas estatísticas seguintes evitam este problema.
c) A estatística U T de Theil
∑
n+ r
( y − yˆ t ) 2
t
UT = t = n +1
.
∑t =n+1 yt
n+ r 2
d) A estatística U T∆ de Theil
∑
n+r
∆
(∆yt − ∆yˆ t ) 2
U = t = n +1
.
∑
T n+ r
t = n +1
(∆yt ) 2
Esta estatística, que pode também ser apresentada em taxas de variação, é uma
variante de U T . Ela permite detectar pontos de viragem (turning points) nas observa-
ções do regressando.
Análise dos resíduos
Muitas vezes é útil examinar individualmente as observações para verificar se o

valor efectivamente observado do regressando, yt , é maior ou menor do que o respec-
tivo valor ajustado, ŷt ; ou seja, trata-se de analisar individualmente os resíduos MQ,
ût .
Exemplo 2.32 – Considere-se o modelo de regressão linear (a verificar as hipóteses bá-

sicas do MRLCN),
nestt = β1 + β 2 assidt + β 3 taet + β 4 mist + ut ,
onde as variáveis já são conhecidas do exemplo 1.5.

A estimação MQ deste modelo, com os dados disponíveis, permitiria conhecer
os respectivos resíduos,
^
uˆt = nestt − nestt .
Admitindo que as variáveis de controlo são as mais adequadas para explicar a

nota no exame final de Estatística, o aluno com o maior resíduo negativo é aquele que
teve menor desempenho (em relação a si próprio), porque obteve a diferença máxima
entre a nota prevista pelo modelo e a nota efectivamente verificada. O aluno com o
maior resíduo positivo seria, então, aquele que fez maiores progressos.
Evidentemente as considerações anteriores pressupõem que o modelo está bem
especificado, uma vez que os resíduos poderiam resultar do facto de não serem correcta-
mente seleccionados os controlos de nest. Uma nota substancialmente inferior (superior)
ao valor previsto pelo modelo pode ser indicador de uma especificação deficiente.
Acreditando que o modelo estava bem especificado, podia ter-se a pretensão de
propor um ranking dos alunos baseado na ordem dos resíduos, e não na ordem das notas
obtidas. Isto seria, no mínimo, arriscado, pois poderia acontecer a situação absurda de
alunos com notas baixas ficarem melhor classificados do que alunos com notas altas!
Este ranking seria semelhante a alguns que já se fizeram para estabelecer ran-
kings de escolas básicas e secundárias. Nestes casos, controla-se o desempenho médio
dos alunos em exames nacionais com factores socioeconómicos considerados relevan-
tes. As conclusões absurdas foram óbvias.
∇
Outro aspecto interessante a ter em conta na análise dos resíduos, consiste em

determinar um intervalo de confiança para cada observação, utilizando (2.120). Neste
caso, yt seria considerada a “observação a prever”, os parâmetros seriam estimados
com as outras observações, e o erro de previsão seria d t = yt − yˆ t .
A observação t tem de ser excluída da estimação, pois, caso contrário, a variân-
cia condicionada do resíduo ût (um falso “erro de previsão”) não seria
Var(uˆt | X ) = σ 2{1 + xt • ( X T X ) −1 xtT•} ,
mas sim
Var(uˆt | X ) = σ 2{1 − xt • ( X T X ) −1 xtT• } ,
porque Cov(Uˆ | X ) = σ 2 PX (ver secção 2.4). A este propósito, fica ao cuidado do leitor
verificar que Var( yˆ t | X ) = Cov( yt , yˆ t | X ) = σ 2 xt • ( X T X ) −1 xtT• , donde se conclui que
Var(uˆt | X ) = Var( yt − yˆ t | X ) = Var( yt | X ) − Var( yˆ t | X ) ≥ 0 .
PALAVRAS-CHAVE
Acontecimento de referência Interacção
Alteração da estrutura Intervalo de confiança
Análise dos resíduos Linearidade
Armadilha das variáveis artificiais Matriz das covariâncias das variáveis re-
siduais
Associação (não) linear Matriz das covariâncias dos estimadores
MQ
Ausência de autocorrelação Matriz dos regressores
Autocorrelação Método da máxima verosimilhança (MV)
Coeficiente de correlação (parcial) Método dos mínimos quadrados (MQ)
Coeficiente de determinação Método dos momentos
Coeficiente de determinação ajustado Modalidades
Coeficiente de determinação não centrado Modelo com restrições
Coeficiente de regressão Modelo de regressão linear (clássico)
Condição de característica Modelo de regressão linear normal
Condição de ortogonalidade Modelo de regressão linear simples
Diagrama de dispersão Modelo sem restrições
Dimensão do teste Multicolinearidade (aproximada)
Distribuição assintótica Multicolinearidade exacta
Distribuição do qui-quadrado Parâmetro característico
Distribuição exacta Parâmetro perturbador
Distribuição F-Snedcor Previsão em média
Distribuição normal Previsão ex-ante
Distribuição t-Student Previsão ex-post
Domínio de estimação Previsão pontual
Domínio de previsão Previsor
Eficiência Previsor BLUP
Enviesamento Princípio da analogia
Equações de verosimilhança Princípio da razão de verosimilhanças
Equações normais Princípio de Wald
Erro de amostragem Rácio-F
Erro de previsão Rácio-t
Erro padrão da previsão em média Região crítica
Erro padrão da regressão Região de confiança
Erro padrão do erro de previsão Regressando
Erro padrão do estimador MQ Regressor
Escala nominal Regressores fixos
Escala ordinal Relação amostral
Estimador BLUE Resíduo MQ com restrições
Estimador de máxima verosimilhança Resíduo (dos mínimos quadrados)
Estimador dos mínimos quadrados Sazonalidade determinística
PALAVRAS-CHAVE
Estimador eficiente Significância estatística
Estimador linear Significância prática
Estimador MQ com restrições Soma dos quadrados dos resíduos
Estimador não enviesado Soma dos quadrados explicada
Exogeneidade contemporânea Soma total dos quadrados
Exogeneidade estrita Teorema de Frisch-Waugh-Lovell
Factor qualitativo Teorema de Gauss-Markov
Função de regressão linear ajustada Teorema do limite central
Função de regressão linear (teórica) Teste de Chow
Função de verosimilhança (concentrada) Teste de hipóteses
Grau de multicolinearidade Teste de nulidade conjunta
Graus de liberdade Teste de previsão de Chow
Heterocedasticidade condicionada Teste de significância global
Homocedasticidade condicionada Valor ajustado
Hipótese a manter Valor-p
Hipótese alternativa Variação explicada
Hipótese nula Variação residual
Identificação Variação total
Inferência estatística Variável artificial
Inferência estatística sobre a variância da Variável binária
variável residual
Inferência estatística sobre combinações Variável residual
lineares de coeficientes de regressão
Inferência estatística sobre um coeficiente Variáveis centradas
de regressão isolado
Inferência estatística sobre uma combina-
ção linear de coeficientes de regressão
1. Considere o modelo de regressão linear, yt = xt • β + ut . Defina regressor estrita-

mente exógeno.
2. Considere o modelo de regressão linear, yt = α + β xt + ut . Em que condições po-
de afirmar que o regressor é estritamente exógeno.
3. Considere o modelo de regressão linear, yt = β1 + β 2 xt 2 + β 3 xt 3 + β 4 xt 4 + ut . De-
monstre que E (ut | xt 2 , xt 3 , xt 4 ) = 0 ⇒ E (ut | xt 2 , xt 3 ) = 0 .
4. Prove que: se um regressor é estritamente exógeno então existe ortogonalidade en-
tre o regressor e as variáveis residuais.
5. Prove que: a exogeneidade estrita dos regressores é equivalente a que o valor es-
perado do regressando condicionado por todas as observações possíveis dos re-
gressores é igual à componente sistemática do modelo.
6. Mostre que no modelo AR(1), yt = β1 + β 2 yt −1 + ut , não existe exogeneidade estri-
ta.
7. Prove que: se um regressor é contemporaneamente exógeno então existe ortogo-
nalidade contemporânea entre o regressor e a variável residual.
8. Considere o MRLC, yt = xt • β + ut , onde xt • é o vector dos regressores, cuja com-
ponente genérica é xtj . Quando se escreve Cov( xsj , ut ) = 0 e E (ut | xsj ) = 0 , que ti-
po de associações se estabelecem, respectivamente, entre o regressor e as variá-
veis residuais.
9. Considere a relação amostral Y = Xβ + U , associada ao modelo de regressão li-
near clássico. Prove que: E (ut | X ) = 0 ⇒ E ( xsj ut ) = 0 .
near clássico. Prove que: E (ut | X ) = 0 ⇒ E (ut | x• j ) = 0 , onde x• j é a coluna ge-
nérica da matriz X.
11. Considere um MRLC com dados seccionais, e onde a amostragem é casual. Indi-
que a relação entre Var(ut | xt • ) e Var(ut | X T ) .
12. No caso de regressores estritamente exógenos, enuncie a hipótese de ausência de
autocorrelação.
near clássico. Prove que: Cov(ut , u s | X ) = 0 ⇒ E (ut u s ) = 0 .
near. De acordo com as hipóteses clássicas, sabe-se que a matriz das covariâncias
de U condicionada por X é dada por Cov(U | X ) = σ 2 I . Determine a respectiva
matriz das covariâncias marginal, Cov(U ) .
15. Considere o modelo de regressão linear, yt = α + β xt + ut . Seja: a) se o regressor
é estritamente exógeno então existe ortogonalidade entre o regressor e a variável
residual; b) se existe ortogonalidade entre o regressor e a variável residual então o
regressor é estritamente exógeno; c) o regressor é estritamente exógeno se e só se
existe ortogonalidade entre o regressor e a variável residual.
16. Considere o modelo yt = α + β xt + ut . Quais das seguintes afirmações são verda-

deiras: a) xt é estritamente exógeno se e só se E (ut | X T ) = 0 ; b) xt é estritamente
exógeno se e só se Cov( xt , u s ) = 0 (t ≠ s) .
17. Considere o modelo de regressão linear, yt = α + β xt + ut , e suponha que se veri-
fica a hipótese de ausência de autocorrelação: E (ut u s | xt , xs ) = 0, ∀t ≠ s . Prove
que E (ut u s ) = 0, ∀t ≠ s .
18. Considere o MRL, yt = β 0 + β1 ln( xt ) + β 2 ln( xt2 ) + ut . Construa a matriz Qxx , e ve-
rifique se pode admitir a hipótese da condição de característica.
19. A partir das hipóteses clássicas do MRL, yt = xt • β + ut , deduza a expressão que
permite identificar o vector β .
20. Considere os resíduos MQ no modelo de regressão linear clássico, e as seguintes
afirmações: a) o vector dos resíduos é ortogonal ao vector dos valores ajustados;
b) a soma dos resíduos é sempre nula; c) a soma dos quadrados dos resíduos é
igual ao produto do número de observações pela variância das variáveis residuais;
d) a soma dos quadrados das observações da variável dependente é sempre igual à
soma dos quadrados dos valores ajustados mais a soma dos quadrados dos resí-
duos. Indique quais são verdadeiras, e quais são falsas.
21. Considere a relação amostral Y = Xβ + U associada ao modelo de regressão li-
near clássico. Determine a transformação do vector U de modo a obter o vector
dos resíduos MQ, Û . Quais são as propriedades algébricas da matriz de transfor-
mação?
near clássico. Deduza a transformação do vector Y de modo a obter o vector dos
valores ajustados, Ŷ . Quais são as propriedades algébricas da matriz de transfor-
mação?
near clássico. Determine a forma quadrática em Y (em U) que lhe permite obter a
soma dos quadrados dos resíduos MQ. Qual é a matriz da forma quadrática?
near clássico. Prove a ortogonalidade entre o vector dos resíduos MQ e o vector
dos valores ajustados.
near clássico. Sabe-se que X T Uˆ = 0 . Utilize este sistema de k equações (em que
as incógnitas são os n resíduos MQ) para justificar a expressão “graus de liberda-
de” do MRL.
near clássico. Utilize a relação X T Uˆ = 0 para provar que a soma dos resíduos MQ
é nula quando o modelo tem termo independente.
near clássico. Deduza a relação entre a soma dos quadrados das observações do
regressando, a soma dos quadrados dos respectivos valores ajustados, e a soma
dos quadrados dos resíduos. Indique uma utilização desta relação.
28. Considere o modelo de regressão linear, yt = α + β xt + ut . Além disso, suponha

que E (ut | xt ) = 0 . Que pode afirmar sobre o enviesamento do estimador dos mí-
nimos quadrados (MQ) do parâmetro β ? Justifique.
29. Num modelo de regressão linear, yt = xt • β + ut , que hipóteses se devem conside-
rar para que o estimador MQ de β verifique o teorema de Gauss-Markov.
30. Considere o modelo de regressão linear, yt = xt • β + ut , onde xt • é o vector dos
regressores, a verificar as hipóteses clássicas. Indique a expressão da matriz das
covariâncias do estimador dos mínimos quadrados de β condicionada por X.
31. Considere o modelo yt = β 0 + β1 xt1 + β 2 xt 2 + ut com regressores estritamente exó-
genos e com dados temporais. Suponha que xt1 é uma variável com tendência li-
near. Reespecifique o modelo de forma a capturar o efeito, sobre yt , da variação
de xt1 em torno da sua tendência.
32. Considere, no modelo de regressão linear clássico, o erro padrão associado com o
estimador MQ de um coeficiente de regressão. Considere, também, as seguintes
afirmações: a) o erro padrão é tanto maior quanto maior for o erro padrão da re-
gressão; b) o erro padrão é tanto menor quanto maior for a variação total das ob-
servações do respectivo regressor; c) o erro padrão é tanto menor quanto maior for
o grau de associação linear entre este regressor e os outros; d) o erro padrão é tan-
to menor quanto maior for o número de observações.
Indique quais são verdadeiras, e quais são falsas.
33. Considere o MRLC, yt = β1 + β 2 xt 2 + β3 xt 3 + ut . Indique a expressão que permite
relacionar Var (b2 | X ) com a variação total do regressor xt 2 .
34. Para efectuar inferência estatística sobre σ 2 no MRLCN começa-se por obter o
resultado
Uˆ T Uˆ (n − k ) s 2
X ~ χ 2 (n − k ) ou X ~ χ 2 (n − k ) .
σ2 σ2
Apresente a estatística-teste que permite testar H 0 : σ 2 = σ 02 (qualquer que seja a

hipótese alternativa), e justifique a sua obtenção a partir do resultado referido.
35. No MRLCN, obtenha a distribuição de b j | X , onde b j é a componente genérica
de b. A partir deste resultado, obtenha a estatística-teste para testar H 0 : β j = β 0j
(qualquer que seja a hipótese alternativa), e justifique a sua obtenção a partir da
distribuição de b j | X .
36. Suponha que y é explicada por x (variável quantitativa) e por um factor qualitativo
com quatro modalidades. Definindo quatro variáveis artificiais, especifique o
MRL de modo a evitar a “armadilha da multicolinearidade”.
37. Considere o MRL, com dados trimestrais, yt = β1 + β2 xt + ut , como modelo de re-
ferência. Admitindo que pode existir sazonalidade com influência no termo inde-
pendente, este termo seria β11 no 1.º trimestre, β12 no 2.º trimestre, β13 no 3.º tri-
mestre e β14 no 4.º trimestre. Reformule o modelo de referência de modo a con-
templar a possibilidade de sazonalidade.
38. Considere o modelo yt = β 0 + β1 xt + ut , com regressores estritamente exógenos e
com dados trimestrais. Considere que variáveis xt e yt têm sazonalidade trimes-
tral. Como sabe β1 não mede o efeito dessazonalizado de xt sobre yt . Reespeci-

fique o modelo de forma a obter uma estimativa daquele efeito.
39. Explique porque se deve dizer estimador BLUE na previsão em média, e previsor
BLUP na previsão pontual.
40. Suponha que, num modelo de regressão linear simples com termo independente,
pretendia fazer previsão pontual para uma observação adicional. Considere as se-
guintes afirmações: a) o erro padrão da previsão é tanto menor quanto menor for o
erro padrão da regressão; b) o erro padrão da previsão é tanto menor quanto maior
for a dispersão das observações da variável explicativa; c) o erro padrão da previ-
são é tanto maior quanto menor for o desvio entre a observação adicional da variá-
vel explicativa e a média das observações desta variável utilizadas na estimação
dos parâmetros; d) o erro padrão da previsão é tanto maior quanto maior for o nú-
mero de observações.
Indique quais são verdadeiras, e quais são falsas.
CAPÍTULO 3
O MODELO DE REGRESSÃO LINEAR
COM REGRESSORES PRÉ-DETERMINADOS
No capítulo 2 estudou-se o modelo de regressão linear clássico, onde impera a

hipótese da exogeneidade estrita dos regressores. Impondo a hipótese de que a variável
residual segue uma distribuição normal, foi possível obter distribuições exactas para os
estimadores MQ, e para as estatísticas-teste necessárias para a inferência estatística. Não
é possível continuar a dispor deste tipo de distribuições quando são violadas as hipóte-
ses do MRLCN, nomeadamente a exogeneidade estrita dos regressores (REX.2) e a nor-
malidade das variáveis residuais (REX.6).
No presente capítulo apresenta-se outro modelo de regressão linear (mantém-se
a hipótese da linearidade), onde os regressores deixam de ser estritamente exógenos. Es-
te simples facto faz com que as distribuições indispensáveis para inferência estatística
passem a ser assintóticas, o que torna inútil a hipótese REX.6 (as distribuições só são
válidas para grandes amostras, quer se mantenha ou não esta hipótese).
Antes de apresentar o MRL em causa, é vantajoso dedicar as duas primeiras sec-
ções ao estudo de alguns conceitos e resultados fundamentais sobre convergência esto-
cástica e sobre processos estocásticos.
3.1 - Convergência estocástica
Considere-se uma sucessão de variáveis aleatórias,

z1 , z 2 , K , z n , K ou {z n } ,
ou de vectores aleatórios,
z•1 , z•2 , K , z•n , K ou {z•n } ,
onde z•n (n = 1, 2, K) é um vector m × 1 , de elemento genérico zin (i = 1, 2, K , m) .
Modos de convergência estocástica
O comportamento limite destas sucessões pode ser analisado segundo vários

modos de convergência estocástica. Nesta subsecção vão estudar-se três modos de
convergência: em probabilidade; em distribuição; em média quadrática.
Capítulo 3 – MRL com Regressores Pré-Determinados 2
Definição 3.1 – Convergência em probabilidade

A sucessão de variáveis aleatórias {z n } converge em probabilidade para a constante c
se e só se, qualquer que seja ε > 0 ,
(3.1) lim P( | zn − c | < ε ) = 1 .
n → +∞
A constante c chama-se o limite em probabilidade da sucessão, e escreve-se

p
plim( zn ) = c ou z n → c .
A sucessão de vectores aleatórios {z•n } converge em probabilidade para o vec-

tor de constantes c se e só se cada elemento de {z•n } converge em probabilidade para o
elemento homólogo do vector c. Neste caso, tem-se
p
plim( z• n ) = c ou z•n → c .

a) Na definição de convergência em probabilidade pode usar-se, em vez de (3.1), a con-
dição
lim P( | zn − c | > ε ) = 0 .
n → +∞
b) É possível apresentar outra definição de convergência em probabilidade no caso vec-

torial. Como
 lim P( | z − c | < ε ) = 1
n → +∞ 1n 1
 lim P( | z2 n − c2 | < ε ) = 1
p

z• n → c ⇔ n → +∞
L
 lim P( | z − c | < ε ) = 1,
n → +∞ mn m
e notando que
( z• n − c)T ( z• n − c) = ( z1n − c1 ) 2 + ( z2 n − c2 ) 2 + L + ( zmn − cm ) 2 ,
facilmente se verifica que

p
z• n → c ⇔ lim P{( z• n − c)T ( z• n − c) < δ } = 1, ∀δ > 0 .
n → +∞
Para vectores aleatórios, a condição correspondente a (3.1) também se pode escrever

na forma
lim P( | z•n − c | < ε ) = 1 ,
n→+∞
onde | z•n − c | representa o módulo da diferença entre os vectores z•n e c (a raiz qua-
drada da distância euclideana). Esta definição adapta-se imediatamente às sucessões
de matrizes aleatórias, notando que uma matriz de tipo m × p pode ser encarada co-
mo um vector mp × 1 .
c) A convergência de sucessões de números reais é um caso particular da convergên-

cia em probabilidade de sucessões de variáveis aleatórias. De facto, se {z n } é uma
sucessão de números reais, o acontecimento, dado pela condição | zn − c | < ε , é certo
a partir de certa ordem. Então, P( | zn − c | < ε ) = 1 e plim( zn ) = c .
Vai enunciar-se a seguir uma propriedade muito importante da convergência em

probabilidade (teorema de Slutsky) que preserva este tipo convergência para quaisquer
transformações, desde que sejam contínuas.
Preservação da convergência em probabilidade (teorema de Slutsky)

Suponha-se que a função g : ℜ m → ℜ p é contínua em c, e não depende de n. Tem-se
(3.2) plim( z• n ) = c ⇒ plim{g ( z• n )} = g{plim( z• n )} = g (c) .
Os resultados seguintes são consequência imediata desta propriedade. Assim, se

existirem os respectivos limites em probabilidade, obtém-se:
Propriedades da convergência em probabilidade

a) plim(c) = c ;
b) plim ( z• n + w• n ) = plim( z• n ) + plim(w• n ) ;
c) plim (λ z• n ) = λ plim( z• n ) ;
d) plim ( zn wn ) = plim( zn ) plim(wn ) ;
e) Se wn ≠ 0 e plim(wn ) ≠ 0 então plim ( zn / wn ) = plim( zn )/plim(wn ) ;
f) plim ( Z n + Wn ) = plim(Z n ) + plim(Wn ) , onde Z n e Wn são matrizes aleatórias;
g) plim ( Z n Wn ) = plim(Z n ) plim(Wn ) , onde Z n e Wn são matrizes aleatórias;
h) plim ( Z n−1 ) = {plim(Z n )}−1 , onde Z n é uma matriz aleatória invertível.
A partir da definição 3.1 é possível definir convergência em probabilidade pa-

ra uma variável aleatória. Assim,
(3.3) plim( zn ) = z ⇔ plim ( zn − z ) = 0 .
Para o caso de vectores aleatórios, tem-se

plim( z• n ) = z ⇔ plim ( z• n − z ) = 0 ,
onde z é um vector aleatório m × 1 , de elemento genérico zi (i = 1, 2, K , m) .

A propriedade da preservação da convergência em probabilidade continua vá-
lida, bem como as propriedades a) a h) que daí decorrem. Além disso, é possível verifi-
car que:
− plim( zn ) = z ∧ plim( zn ) = w ⇒ P( z = w) = 1 ;
− plim( zn ) = z ⇒ plim( zn w) = z w , onde w é uma variável aleatória.
Dada a sucessão de variáveis aleatórias, {z n } (escalar), e supondo que existem

E ( zn ) e Var( zn ) , pode demonstrar-se que
(3.4) lim E ( zn ) = c e lim Var( z n ) = 0 ,
n→+∞ n→+∞
são condições suficientes de convergência em probabilidade [ver (3.13)].

Do mesmo modo, quando se considera {z•n } (sucessão de vectores aleatórios),
as respectivas condições suficientes são
(3.5) lim E ( z•n ) = c e lim Cov( z•n ) = O ,
n→+∞ n→+∞
desde que existam E ( z• n ) e Cov( z• n ) .

A seguir, apresenta-se a definição de convergência em distribuição.
Definição 3.2 – Convergência em distribuição

Considere-se a sucessão de variáveis aleatórias, {z n } , e a respectiva sucessão de fun-
ções de distribuição, {Fn } [ Fn ( x) = Pn ( zn ≤ x) ]. A sucessão {z n } converge em distri-
buição para a variável aleatória z, com função de distribuição F [ F ( x) = P( z ≤ x) ], se e
só se
(3.6) lim Fn ( x) = F ( x) ,
n→+∞
em todos os pontos de continuidade de F.

Nestas condições, escreve-se
d
zn → z ,
e diz-se que F é a distribuição limite de z n .
No caso de sucessões de vectores aleatórios {z•n } , tem-se uma definição seme-

lhante. Assim, se {Fn } é a respectiva sucessão de funções de distribuição, diz-se que
{z•n } converge em distribuição para o vector aleatório z, com função de distribuição F,
se e só se a condição (3.6) se verifica em todos os pontos de continuidade de F.
Não se pode definir a convergência em distribuição para sucessões de vectores
aleatórios, considerando os elementos homólogos de z•n e de z. De facto, afirmar que
cada elemento de z•n tende em distribuição para o elemento homólogo de z, não implica
que {z•n } convirja do mesmo modo para z.
Para indicar que {z n } tende em distribuição para z, pode escrever-se
d
zn → z ~ F ,
ou, simplesmente,
d
zn → F ,
quando a função de distribuição de z, F, é bem conhecida.

Quando, por exemplo, z ~ N ( µ , σ 2 ) , escreve-se
d d
zn → z ~ N ( µ , σ 2 ) ou zn → N ( µ , σ 2 ) ,
ou seja, a distribuição limite de zn é N ( µ , σ 2 ) .

O valor esperado e a variância de z (se existirem) designam-se, respectivamente,
por valor esperado limite e variância limite de z n . No caso vectorial, a matriz das
covariâncias de z (se existir) é a matriz das covariâncias limite de z•n .
Em muitos casos, a variável aleatória z é contínua, mesmo que as variáveis alea-
tórias z n sejam discretas. Tal acontece, por exemplo, com o teorema de De Moivre-La-
place, em que
xn − np
zn = ,
np (1 − p)
onde xn tem distribuição binomial com parâmetros n e p, e z é N (0,1) .

Um caso especial de convergência em distribuição é aquele em que z = c . Nes-
tas condições a distribuição limite é degenerada (toda a massa de probabilidade está
concentrada em c).
Tal como se fez para a convergência em probabilidade, é possível garantir a pre-
servação da convergência em distribuição.
Preservação da convergência em distribuição

Suponha-se que a função g : ℜ m → ℜ p é contínua no seu domínio, e não depende de n.
Tem-se
d d
(3.7) z •n → z ⇒ g ( z •n ) → g ( z ) .
Pode provar-se que a convergência em probabilidade implica a convergência

em distribuição,
p d
(3.8) zn → z ⇒ zn → z .
Obviamente que
p d
(3.9) zn → c ⇔ zn → c .
Tem-se:
Propriedades que relacionam a convergência em probabilidade com a convergên-

cia em distribuição
d p d
a) z•n → z ∧ w•n → c ⇒ ( z•n + w•n ) → z + c .
p d d
b) wn → c ≠ 0 ∧ z•n → z ⇒ ( wn z•n ) → c z .
p d d
c) w• n → 0 ∧ z• n → z ⇒ ( w•Tn z• n ) → 0 .
d p d
d) z•n → z ∧ An → A ⇒ ( An z•n ) → A z , onde An é matriz aleatória k × m e A matriz não
aleatória do mesmo tipo; em particular, deve considerar-se o caso em que An = A .
d
e) Se, nas condições de d), z ~ N ( m ) ( µ , V ) então ( An z• n ) → N ( k ) ( Aµ , AVAT ) .
d p d
f) z•n → z ∧ An → A ⇒ ( z•Tn An−1 z•n ) → z T A −1 z , se as matrizes An e A tiverem inversa.
d p d
g) z• n → z ~ N ( m ) (0, V ) ∧ Vn → V ⇒ ( z•TnVn−1 z• n ) → z TV −1 z ~ χ 2 (m) , se Vn tiver inversa;
em particular, deve considerar-se o caso em que Vn = V .
Diz-se que as sucessões { y•n } e {z•n } são assintoticamente equivalentes se e

só se têm a mesma distribuição limite:
 a
  d d

 y• n ~ z• n  ⇔  y• n → F ∧ z• n → F  .
   
Suponha-se que na propriedade a) se tem c = 0 . Fazendo y•n = z•n + w•n , conc-
lui-se imediatamente que { y•n } e {z•n } são assintoticamente equivalentes. Este resulta-
do [a propriedade a) com c = 0 ] é conhecido pela designação de lema da equivalência
assintótica.
A vantagem deste lema é a seguinte: suponha-se que é difícil obter a distribuição
limite de z•n ; no entanto, dispõe-se de uma sucessão { y•n } tal que a distribuição limite
de y•n é conhecida (ou é fácil de obter). Se se verificar que
plim ( y• n − z• n ) = 0 ,
pode concluir-se as distribuições limites de y•n e de z•n são iguais.

Suponha-se que
d p
z•n → z ∧ w•n → c .
Então, de acordo com a propriedade c), tem-se

d
( w•Tn z•n − c T z•n ) → 0 ou plim ( w•Tn z•n − cT z•n ) = 0 ,
ou seja,
a
w•Tn z•n ~ cT z•n .
Assim, verifica-se que substituir w•n pelo seu limite em probabilidade, não alte-
ra a distribuição limite de w•Tn z•n , desde que z•n convirja em distribuição para algum
vector aleatório z.
A seguir vai apresentar-se e demonstrar-se um teorema (conhecido pelo nome de
método delta), que permite obter distribuições limite que envolvem uma função (não li-
near) dos vectores de uma sucessão de vectores aleatórios.
Teorema 3.1 (método delta)

Considere-se uma sucessão de vectores aleatórios m × 1 , {z•n } a verificar
d
plim( z• n ) = θ e n ( z• n − θ ) → z .
Seja a função g : ℜ m → ℜ p , com primeiras derivadas contínuas, e represente-se por

∇ g (θ ) a matriz Jacobiana, de tipo p × m , calculada em θ . Então,
d
(3.10) n{g ( z• n ) − g (θ )} → ∇ g (θ ) z .
Em particular,
d
n ( z• n − θ ) → N ( m ) (0, V ) ⇒
(3.11) d
n{g ( z• n ) − g (θ )} → N ( p )  0, ∇g (θ ) V ∇g (θ )T  .
 
Dem.: De acordo com o teorema dos acréscimos finitos da análise diferencial, existe um
vector w•n entre z•n e θ a verificar
g ( z• n ) − g (θ ) = ∇ g ( w• n )( z• n − θ ) ,
ou
n{g ( z• n ) − g (θ )} = ∇ g ( w• n ) n ( z• n − θ ) .
Como w•n está entre z•n e θ e plim( z• n ) = θ , então também plim(w• n ) = θ . Co-
mo ∇ g é contínua, tem-se, devido a (3.2), plim{∇g ( w• n )} = ∇g (θ ) .
Atendendo a que
d
n ( z• n − θ ) → z ,
e à propriedade d) anterior, obtém-se

d
∇ g ( w• n ) n ( z• n − θ ) → ∇g (θ ) z ,
ficando assim demonstrado (3.10).

Para demonstrar (3.11) basta invocar a propriedade e) das relações entre a con-
vergência em probabilidade e a convergência em distribuição.
∇∇
Como vai ver-se, este teorema permite testar hipóteses não lineares, dada a dis-
tribuição limite de um estimador.
É altura de apresentar a definição de convergência em média quadrática.
Definição 3.3 – Convergência em média quadrática

A sucessão de variáveis aleatórias {z n } converge em média quadrática para a constan-
te c se e só se
(3.12) lim E{( z n − c) 2 } = 0 ,
n→+∞
supondo que existe E ( z n2 ) . Então, escreve-se

mq
zn → c .
A sucessão de vectores aleatórios {z•n } converge em média quadrática para o

vector de constantes c se e só se cada elemento de z•n converge em média quadrática
para o elemento homólogo do vector c. Neste caso, tem-se
mq
z•n → c .
É possível apresentar outra definição de convergência em média quadrática no

caso vectorial. Sabe-se que
mq
z• n → c ⇔ lim E{( z1n − c1 ) 2 } = 0 ∧ lim E{( z2 n − c2 ) 2 } = 0 ∧ K ∧ lim E{( zmn − cm ) 2 } = 0 .
n → +∞ n → +∞ n → +∞
Notando que
E{( z• n − c)T ( z• n − c)} = E{( z1n − c1 ) 2 } + E{( z2 n − c2 ) 2 } + L + E{( zmn − cm ) 2 } ,
conclui-se imediatamente que

mq
lim E{( z• n − c)T ( z• n − c)} = 0 ⇔ z• n → c .
n → +∞
Facilmente se verifica que a condição necessária e suficiente para a sucessão

{z n } convergir em média quadrática para c é
(3.13) lim E ( z n ) = c e lim Var( z n ) = 0 .
n→+∞ n→+∞
E{( zn − c) 2 } = E {zn − E ( zn ) + E ( zn ) − c}2 

 
= E {zn − E ( zn )}2 + {E ( zn ) − c}2 + 2{zn − E ( zn )}{E ( zn ) − c}
 
= Var ( zn ) + {E ( zn ) − c} .
2
No caso de uma sucessão de vectores aleatórios, a condição necessária e sufi-

ciente escreve-se da seguinte maneira:
(3.14) lim E ( z•n ) = c e lim Cov( z•n ) = O .
n→+∞ n→+∞
É possível provar que a convergência em média quadrática implica a conver-

gência em probabilidade,
mq p
(3.15) zn → c ⇒ zn → c .
Verifica-se, assim, que as condições (3.13) são apenas condições suficientes de

convergência em probabilidade.
A definição 3.3 pode ser estendida à convergência em média quadrática para
uma variável aleatória. Assim, supondo que existem E ( z n2 ) e E ( z 2 ) ,
mq mq
(3.16) z n → z ⇔ ( z n − z ) → 0 ⇔ lim E{( z n − z ) 2 } = 0 .
n→+∞
Então,
mq p
(3.17) zn → z ⇒ zn → z .
Apresentam-se a seguir três propriedades muito importantes sobre a conver-

gência em média quadrática para uma variável aleatória:
mq
a) z n → z ⇔ lim E{( z m − z n ) 2 } = 0 .
m→+∞
n→+∞
mq
b) zn → z ⇒ lim E ( z n ) = E ( z ) .
n→+∞
mq mq
c) wn → w ∧ z n → z ⇒ lim E ( wn z n ) = E ( w z ) .
n→+∞
No caso de vectores aleatórios, tem-se

mq mq
z• n → z ⇔ ( z• n − z ) → 0 .
As relações de implicação entre os três modos de convergência estocástica estão

resumidas na figura 3.1.
Convergência em ⇒ Convergência ⇒ Convergência

média quadrática em probabilidade em distribuição
Fig. 3.1 - Modos de convergência estocástica.
Estimadores consistentes e assintoticamente normais
Seja ( z1 , K , zn ) uma amostra aleatória com função densidade f ( z1 , K , zn | θ ) ,

onde θ é o vector m × 1 dos respectivos parâmetros desconhecidos. Suponha-se que θˆ•n
é um estimador de θ , baseado na amostra de dimensão n. A sucessão {θˆ•n } é exemplo
de uma sucessão de vectores aleatórios, pelo que os conceitos estudados na subsecção
anterior são aplicáveis a estas sucessões.
Quando a dimensão da amostra aumenta deve exigir-se de um bom estimador
precisão cada vez maior, ou seja, uma probabilidade cada vez mais elevada de pertencer
a uma vizinhança do verdadeiro valor do parâmetro. Em termos formais, se θˆ•n é um es-
timador de θ ∈ Θ ⊂ ℜ m [ Θ é o espaço-parâmetro de θ ], obtido a partir de uma amostra

de dimensão n, deve ter-se
P ( | θˆ•n − θ | < ε ) < P ( |θˆ•n′ − θ | < ε ) ,
qualquer que seja ε > 0 e n′ > n . Esta condição sugere que θˆ•n deve tender em probabi-
lidade para θ .
Definição 3.4 – Consistência

O estimador θˆ•n é consistente para θ se e só se
(3.18) plim(θˆ• n ) = θ , ∀θ ∈ Θ .
Como não se conhece o verdadeiro valor de θ , a condição (3.18) deve verificar-

-se para qualquer valor de θ no espaço-parâmetro.
O enviesamento assintótico de θˆ•n é definido por
Env a (θˆ• n ) = plim(θˆ• n ) − θ .
Assim, estimador consistente tem enviesamento assintótico nulo (o estimador é

assintoticamente não enviesado).
Um estimador consistente, θˆ•n , tem evidentemente distribuição limite degene-
rada, uma vez que os seus limites em distribuição e em probabilidade são iguais a θ . No
entanto, em muitas situações, é possível encontrar uma transformação de θˆ•n que te-
nha uma distribuição limite adequada.
Definição 3.5 – Estimador assintoticamente normal

Seja θˆ•n um estimador de θ . Quando se tem
d
(3.19) n (θˆ• n − θ ) → N ( m ) (0, V ) ,
diz-se que o estimador θˆ•n é assintoticamente normal ou n -assintoticamente normal.
A matriz das covariâncias limite do vector aleatório n (θˆ•n − θ ) é V, que se de-

signa por matriz das covariâncias assintóticas de θˆ•n . Escreve-se
Cov a (θˆ• n ) = V .
Como o valor esperado limite de n (θˆ•n − θ ) é 0 , diz-se que o valor esperado

assintótico de θˆ•n é θ ,
Ea (θˆ•n ) = θ .
Alguns autores preferem utilizar a matriz (1 / n) V para matriz das covariâncias

assintóticas de θˆ•n (que converge para zero), o que tem a ver com a circunstância de que
Cov  n (θˆ• n − θ )  = n Cov(θˆ• n ) .

 
No entanto, vai adoptar-se a convenção de que a matriz das covariâncias assintó-

ticas de θˆ•n coincide com a matriz das covariâncias limite de n (θˆ•n − θ ) .
Sem dificuldade se prova que estimador assintoticamente normal é comsis-
tente, ou seja,
 d   
 n (θˆ• n − θ ) → N (0, V ) ⇒ plim(θˆ• n ) = θ  .
( m)
   
Com efeito, como

1  1 
θˆ• n − θ = n (θˆ• n − θ ) e plim  = 0,
n  n
e devido à propriedade c) que relaciona a convergência em probabilidade com a conver-
gência em distribuição, tem-se
 d   
θˆ• n → θ  ⇔ plim(θˆ• n ) = θ  .
   
Vão apresentar-se dois resultados gerais muito usados nos testes de hipóteses
em Econometria:
1) Suponha-se que θˆ•n é um estimador assintoticamente normal de θ , e que R é uma
matriz p × m tal que p ≤ m e r ( R) = p . Então,
d
n R (θˆ• n − θ ) → N ( p ) (0, R V RT ) ,
e
d
n{R (θˆ• n − θ )}T ( R V RT ) −1{R (θˆ• n − θ )} → χ 2 ( p ) .
Se plim (Vˆn ) = V , então

d
n{R (θˆ• n − θ )}T ( R Vˆn RT ) −1{R (θˆ• n − θ )} → χ 2 ( p ) .
Para testar a hipótese nula H 0 : Rθ = δ contra H1 : Rθ ≠ δ , onde δ é um vector co-

nhecido p × 1 , a respectiva estatística-teste tem distribuição limite do qui-quadrado
com p graus de liberdade. Assim,
d
(3.20) ( R θˆ• n − δ )T {R (Vˆn / n) RT }−1 ( R θˆ• n − δ ) → χ 2 ( p) .
2) Suponha-se que θˆ•n é um estimador assintoticamente normal de θ . Seja a função

g : ℜ m → ℜ p , com primeiras derivadas contínuas, e represente-se por ∇ g (θ ) a ma-
triz Jacobiana, de tipo p × m , calculada em θ . O método delta permite concluir que
d
n{g (θˆ• n ) − g (θ )} → N ( p ){0, ∇g (θ ) V ∇g (θ )T } ,
e
d
n{g (θˆ• n ) − g (θ )}T {∇g (θ ) V ∇g (θ )T }−1{g (θˆ• n ) − g (θ )} → χ 2 ( p) .
Se plim (Vˆn ) = V , e como plim {∇g (θˆ• n )} = ∇g (θ ) , então

d
n{g (θˆ• n ) − g (θ )}T {∇g (θˆ• n ) Vˆn ∇g (θˆ• n )T }−1{g (θˆ• n ) − g (θ )} → χ 2 ( p ) .
Para testar a hipótese nula H 0 : g (θ ) = 0 contra H1 : g (θ ) ≠ 0 , a respectiva estatística-

teste tem distribuição limite do qui-quadrado com p graus de liberdade.
Assim,
d
(3.21) g (θˆ• n )T {∇g (θˆ• n ) (Vˆn / n)∇g (θˆ• n )T }−1 g (θˆ• n ) → χ 2 ( p ) .
Leis dos grandes números
A experiência acumulada ensina que: os acontecimentos com probabilidade mui-

to grande (próxima de 1) realizam-se quase sempre; os acontecimentos com probabili-
dade muito pequena (próxima de 0) raramente ocorrem. Esta circunstância desempenha
um papel fundamental em todas as aplicações práticas que envolvem incerteza, uma vez
que este facto permite considerar como praticamente impossíveis os acontecimentos
com probabilidade muito próxima de 0, e como praticamente certos, os acontecimen-
tos com probabilidade muito próxima de 1. Contudo, não pode responder-se sem ambi-
guidade à seguinte pergunta: qual a probabilidade que permite considerar um aconteci-
mento como praticamente impossível (praticamente certo)?
Como se sabe da teoria da probabilidade, os acontecimentos com probabilidade
próxima de 1 (ou de 0) são de grande importância. De facto, um dos principais proble-
mas daquela teoria é o estabelecimento de regularidades envolvendo probabilidades pró-
ximas de 1; nesta matéria, um papel particular deve ser desempenhado por leis que re-
sultam da sobreposição de um grande número de factores aleatórios independentes ou
com fraco grau de dependência, uns em relação aos outros. A mais importante destas
leis é a lei dos grandes números.
Considere-se um resultado ou efeito de intensidade aleatória que é calculado a
partir das intensidades de um grande número, n, de factores aleatórios, cada um exer-
cendo reduzida influência no resultado, quando considerado individualmente. A intensi-
dade do efeito representa-se por uma variável aleatória yn ; as intensidades aleatórias
dos n factores representam-se por n variáveis aleatórias, z1 , z2 , K , zn ; o facto de a inten-
sidade do efeito ser calculada a partir das intensidades dos n factores, leva a escrever
yn = ϕ ( z1 , z2 , K , zn ) .
A lei dos grandes números deve afirmar a existência de um número cn que,
quando n for suficientemente grande, possa ser tomado como valor aproximado de yn ,
de maneira a ter-se uma certeza prática de que o erro cometido não excede determinada
magnitude. Esta concepção geral e vaga da lei dos grandes números vai ser seguidamen-
te apresentada de uma forma mais precisa, construindo a sucessão das intensidades dos
efeitos a partir das intensidades dos factores.
Considere-se a sucessão de variáveis aleatórias
z1 , z 2 ,K, z n ,K ,
a partir da qual se constrói outra sucessão,

y1 = ϕ1 ( z1 ), y2 = ϕ 2 ( z1 , z 2 ), K , yn = ϕ n ( z1 , z 2 , K , z n ), K .
Se existem constantes
c1 , c2 , K , cn , K ,
tais que a sucessão { yn − cn } converge em probabilidade para zero, diz-se que a suces-
são {z n } obedece à lei dos grandes números (LGN). É esta convergência estocástica
que, como vai ver-se, dá uma certeza prática de que o valor de yn não se afasta signi-
ficativamente de cn , desde que se considere n suficientemente grande. Assim, tem-se
plim ( yn − cn ) = 0 ⇔ lim P ( | yn − cn | < ε ) = 1 .
n→+∞
Normalmente, as funções ϕ n consideradas são as médias aritméticas das variá-

veis z1 ,K, z n ,
1 n
yn = zn = ∑i=1 zi ,
n
e as constantes cn são os respectivos valores esperados,
1 n
cn = E ( z n ) = ∑ E ( zi ) ,
n i =1
tendo-se, assim, uma concepção mais restrita da lei dos grandes números.
A definição adoptada é, então, a seguinte:
Definição 3.6 – Lei dos grandes números

A sucessão de variáveis aleatórias {z n } obedece à lei dos grandes números se e só se a
sucessão {z n − E ( z n )} converge em probabilidade para zero,
(3.22) plim {zn − E ( zn )} = 0 .
Esta concepção mais restrita é, mesmo assim, suficientemente geral para abran-
ger, como casos particulares, as várias leis clássicas dos grandes números (Bernoulli,
Poisson, etc.).
Vão apresentar-se a seguir alguns teoremas sobre lei dos grandes números que
vão ser úteis para o estudo do modelo de regressão linear considerado neste capítulo.
Estes teoremas estabelecem condições suficientes relativamente a três aspectos
do comportamento da sucessão de variáveis aleatórias:
1) Dependência ou “memória”: supõe-se que as variáveis aleatórias zn (n = 1,2, K)
são independentes? Caso contrário, a dependência está sujeita a algumas comdições?
2) Heterogeneidade: as variáveis aleatórias zn são identicamente distribuídas (homo-
geneidade)? Caso contrário (heterogeneidade), que condições se devem impor?
3) Momentos: que hipóteses se estabelecem sobre os momentos das variáveis aleatórias
zn ?
Assim, os teoremas sobre a lei dos grandes números têm o seguinte formato:
Teoremas sobre a lei dos grandes números (formato)

Dadas certas restrições sobre a dependência, a heterogeneidade e os momentos da su-
cessão de variáveis aleatórias {z n } , verifica-se que plim {zn − E ( zn )} = 0 .
O primeiro teorema (Khinchine) supõe que a sucessão de variáveis aleatórias é

iid, e que existe o valor esperado.
Teorema 3.2 (Khinchine)

Considere-se a sucessão de variáveis aleatórias iid, {z n } . Se E ( z n ) = µ , então a suces-
são {z n } obedece à lei dos grandes números,
plim {zn − E ( zn )} = plim ( zn − µ ) = 0 .
Chebychev, com base na desigualdade que tem o seu nome, provou uma con-
dição suficiente para que uma sucessão de variáveis aleatórias independentes (mas não
necessariamente identicamente distribuídas), obedeça à lei dos grandes números:
Teorema 3.3 (Chebychev)

Considere-se a sucessão de variáveis aleatórias independentes, {z n } . Se E ( z n ) = µ n e
Var( z n ) ≤ k (as variâncias são limitadas por uma certa constante), então a sucessão
{z n } obedece à lei dos grandes números,
 1 n 
plim {zn − E ( zn )} = plim  zn − ∑i =1 µi  = 0 .
 n 
Posteriormente, Markov notou que um raciocínio semelhante permite obter um

resultado ainda mais geral (em que as variáveis aleatórias da sucessão podem ser depen-
dentes, e pode existir heterogeneidade).
Teorema 3.4 (Markov)

Considere-se a sucessão de variáveis aleatórias, {z n } . Se E ( z n ) = µ n e
2
1  n 
lim {zn − E ( zn )} = lim 2  ∑i =1 zi − ∑i =1 µi  = 0 ,
2 n
n → +∞ n
n → +∞
 
então a sucessão {z n } obedece à lei dos grandes números,
 1 n 
plim {zn − E ( zn )} = plim  zn − ∑i =1 µi  = 0 .
 n 
Na secção seguinte vai apresentar-se outro teorema sobre a lei dos grandes nú-
meros (teorema da ergodicidade), em que se supõe dependência (sob certas condições) e
homogeneidade.
Estes teoremas sobre as leis dos grandes números podem ser enunciados para su-
cessões de vectores aleatórios, {z•n } , considerando a convergência em probabilidade de
cada elemento de z•n .
Teoremas do limite central
Os teoremas do limite central (TLC) referem-se às distribuições limite de

zn − E ( zn )
,
Var ( zn )
e obedecem ao seguinte formato:
Teoremas do limite central (formato)

Dadas certas restrições sobre a dependência, a heterogeneidade e os momentos da su-
cessão de variáveis aleatórias {z n } , verifica-se que
zn − E ( zn ) d
→ N (0,1) .
Var ( z n )
O único TLC que vai ser enunciado é o conhecido teorema de Lindeberg-Levy.
Teorema 3.5 (Lindeberg-Levy)

Seja {z n } uma sucessão de variáveis aleatórias iid, tal que E ( z n ) = µ e Var ( zn ) = σ 2 .
Como E ( zn ) = µ e Var ( zn ) = σ 2 / n , tem-se
n{zn − µ} 1  zi − µ  d
∑
n
(3.23) =   → N (0,1) .
σ n i =1
 σ 
Este teorema pode ser enunciado para sucessões de vectores aleatórios.
Teorema 3.6 [Lindeberg-Levy (versão vectorial)]

Seja {z•n } uma sucessão de vectores aleatórios (com m componentes) iid.
Se E ( z•n ) = µ e Cov( z• n ) = V então
1 d
∑i =1 ( z•i − µ ) → N ( m) (0,V ) .
n
(3.24) n{z• n − E ( z• n )} =
n
O teorema de Lindeberg-Levy e o método delta podem combinar-se para obter a

distribuição limite relativa a transformações de zn , g ( zn ) . Assim, considere-se, nas
condições daquele teorema, que
d
n ( zn − µ ) → N (0, σ 2 ) .
Por exemplo, se g ( zn ) = 1 / zn , de acordo com o método delta, obtém-se
 1 1 d  σ 
2
n  −  → N  0, 4  ,

 zn µ   µ 
uma vez que g ( µ ) = 1 / µ e g ′( µ ) = −1 / µ 2 .
Na secção seguinte apresentar-se outro TLC, de grande utilidade para o estudo
do modelo de regressão linear.
3.2 - Alguns conceitos fundamentais sobre processos estocásticos
Nesta secção vão apresentar-se alguns conceitos e resultados básicos sobre pro-
cessos estocásticos (recorde-se que o termo processo estocástico é apenas outro nome
que se pode dar a uma sucessão de variáveis aleatórias). É particularmente importante o
caso em que o índice destas variáveis é interpretado como sendo o tempo, e os termos
da sucessão referem-se a sucessivas datas (períodos ou instantes); diz-se, então, que o
processo estocástico, z1 , z 2 , K , zt , K ou {zt } , é uma série temporal ou sucessão crono-
lógica [note-se que uma série temporal é uma sucessão, e não deve confundir-se com o
conceito matemático de série].
Uma sucessão de valores assumidos pelas variáveis aleatórias zt é uma realiza-
ção da série temporal. Frequentemente usa-se o termo série temporal para designar o
processo estocástico ou qualquer das suas realizações.
Muitas vezes, o processo estocástico a estudar é uma sucessão de vectores alea-
tórios, e não uma sucessão de variáveis aleatórias (escalares). Neste caso, usa-se a no-
tação {z•t } ou z•1 , z•2 , K , z•t , K , onde z•t é um vector aleatório m × 1 . Diz-se, então,
que se tem um processo estocástico vectorial, que não é mais do que um sistema de m
processos estocásticos escalares.
Considerando o processo estocástico {z•t } , admita-se que existe o valor espe-
rado de cada z•t , µ •t = E ( z•t ) , que, em geral, varia com t (cada termo da sucessão tem
o seu valor esperado).
A matriz das autocovariâncias de ordem s na data t é dada por
Γts = Cov( z•t , z•,t − s ) = E{( z•t − µ •t )( z•,t −s − µ •,t − s )T } ( s = 0,1, 2, K) .
Utiliza-se o prefixo “auto” para salientar que os dois vectores aleatórios, z•t e
z•,t −s , pertencem ao mesmo processo estocástico.
Quando o processo estocástico é escalar, {zt } , a autocovariância de ordem s
na data t é
γ ts = Cov( zt , zt −s ) = E{( zt − µ t )( zt −s − µ t −s )} ( s = 0,1, 2, K) .
Estacionaridade
Quando se considera um processo estocástico, {z•t } , a função de distribuição,

F ( z•t ;θ•t ) , depende de t, bem como o vector dos parâmetros, θ•t , que caracteriza a dis-
tribuição. Assim, o processo estocástico é, em geral, heterogéneo. Nestas circunstân-

cias, a modelação do fenómeno em estudo pode apresentar dificuldades incontornáveis,
porque, geralmente, só se dispõe de uma observação para cada t. Assim, na prática, teria
que se “estimar” θ•t apenas com uma observação, o que é impossível. É necessário im-
por restrições à heterogeneidade do processo estocástico.
Neste sentido, vão definir-se classes importantes de processos estocásticos, que
gozam de considerável homogeneidade, e que podem ser utilizados para modelar fenó-
menos que “convergem para um estado de equilíbrio de longo prazo” (steady-state equi-
librium).
Definição 3.7 – Estacionaridade (em sentido restrito)

Considere-se o processo estocástico {z•t } , onde z•t é um vector aleatório m × 1 . O pro-
cesso {z•t } é estacionário em sentido restrito ou fortemente estacionário se e só se, para
qualquer conjunto finito de p índices, {t1 , t 2 , K , t p } , e qualquer que seja r, são iguais as
distribuições conjuntas de
z•t1 , z•t2 , K , z•t p e z•,t1 + r , z•,t2 + r , K , z•,t p + r ,
ou seja,
F ( z•t1 , z•t 2 , K , z•t p ) = F ( z•t1 + r , z•t 2 + r , K , z•t p + r ) .
A definição anterior significa que o comportamento probabilístico de conjuntos

de vectores aleatórios que compõem o processo estocástico depende apenas das suas po-
sições relativas na sucessão (dos desfasamentos entre eles), e não da posição absoluta.
Por exemplo, a distribuição conjunta de z•7 , z•11 , z•14 é a mesma que a distribuição con-
junta de z•13 , z•17 , z•20 ( r = 6 ) ou de z•3 , z•7 , z•10 ( r = −4 ).
Em particular, o mesmo se passa com os momentos (se existirem) destas distri-
buições conjuntas. Por exemplo (ver definição 3.8):
− O valor esperado dos z•t é constante (não varia com t): E ( z•t ) = µ ;
− A matriz das covariâncias dos z•t é constante (não varia com t): Cov( z•t ) = Γ0 ;
− A matriz das autocovariâncias de ordem s na data t, não varia com t, mas varia com
s: Cov( z•t , z•,t − s ) = Γs .
Também se pode concluir que, se {z•t } é estacionário então {h( z•t )} também é
estacionário, onde h é uma função real (escalar ou vectorial). Por exemplo, {z•t z•Tt } ou
{z•Tt z•t } são estacionários, se {z•t } o for.
Um exemplo típico de processo estocástico estacionário é uma sucessão de va-
riáveis aleatórias iid, {ε t } . Outro exemplo é o processo z1 , z1 , K (as variáveis aleató-
rias da sucessão são todas iguais). Note-se que, no primeiro caso, tem-se uma situação
de ausência de autocorrelação; no segundo, a autocorrelação é máxima.
Evidentemente, se o processo estocástico {z•t } é estacionário, os processos for-
mados pelos elementos homólogos dos vectores z•t são também estacionários. Contudo,
a recíproca não é verdadeira. Com efeito, suponha-se que {ε t } é um processo iid e que
se constrói um processo bidimensional, {z•t } , tal que z1t = ε t e z 2t = ε1 . Embora os

processos {z1t } e {z 2t } sejam estacionários, o mesmo não se verifica com {z•t } . De fac-
to, por exemplo, as distribuições de
ε  ε 
z•1 =  1  e z•2 =  2 
ε 1  ε1 
são diferentes.
Muitas séries temporais {zt } de variáveis económicas (sobretudo, macroeconó-
micas) são processos não estacionários porque apresentam uma tendência temporal.
Contudo, em muitos casos, é possível transformá-los em processos estacionários, sub-
traindo a cada zt uma função de t (tempo). Nestas condições, diz-se que o processo
{zt } é estacionário em tendência. Pode, também, acontecer que {zt } não seja estacio-
nário, mas o processo das diferenças, {zt − zt −1} , o seja. Neste caso, o processo {zt } diz-
se estacionário em diferenças (este tópico é retomado em capítulo posterior).
A estacionaridade em sentido restrito é, muitas vezes, de difícil verificação. No
entanto, é possível apresentar outro conceito de estacionaridade. No caso de existirem
os momentos de segunda ordem (variâncias e covariâncias), este conceito é mais fraco
(mais amplo) que o anterior. No entanto, embora seja menos exigente, pode utilizar-se
em muitas situações de interesse.
Definição 3.8 – Estacionaridade em covariância

Considere-se o processo estocástico {z•t } , onde z•t é um vector aleatório m × 1 . O
processo {z•t } é estacionário em covariância, estacionário em sentido amplo ou fraca-
mente estacionário se e só se:
− o valor esperado dos z•t é constante (não varia com t), E ( z•t ) = µ ;
− a matriz das covariâncias entre z•t e z•,t − s existe, não varia com t, e varia com s,
Cov( z•t , z•,t − s ) = Γs ( s = 0,1, 2, K) .
Facilmente se conclui que, se existirem os momentos de 2.ª ordem, a estaciona-

ridade em sentido restrito implica a estacionaridade em covariância, mas a recíproca não
é verdadeira.
Quando o processo é estacionário em covariância, a matriz Γs chama-se matriz
das autocovariâncias de ordem s, que, como se sabe, não depende de t. Utiliza-se o
prefixo “auto” para salientar que os dois vectores aleatórios, z•t e z•,t − s pertencem ao
mesmo processo estocástico.
Fazendo Γ− s = Cov( z•t , z•,t + s ) , e notando que
Cov( z•t , z•,t − s ) = Cov( z•,t + s , z•t ) = {Cov ( z•t , z•,t + s )}T ,
verifica-se imediatamente que Γs = Γ−Ts . A matriz das autocovariâncias de ordem 0, Γ0 ,

é a matriz das covariâncias de qualquer z•t : Γ0 = Cov( z•t ) .
Quando se tem um processo estocástico {zt } , as autocovariâncias são escalares,
γ s = Cov( zt , zt −s ) ( s = 0,1, 2, K) ,
e facilmente se verifica que γ 0 = Var( zt ) , e que γ s = γ −s .
O processo estocástico iid, {ε t } , e o processo z1 , z1 , K , atrás referidos, são dois
exemplos de estacionaridade fraca (em covariância), se existirem as respectivas variân-
cias. No primeiro caso, tem-se γ 0 = Var(ε t ) e γ s = 0 para s = 1, 2, K ; no segundo caso,
γ s = Var( z1 ) para s = 0,1, 2, K
O coeficiente de autocorrelação de ordem s é dado por
γ s Cov( zt , zt −s )
ρs = = ( s = 0,1, 2, K) .
γ0 Var ( zt )
Note-se que ρ 0 = 1 e ρ s = ρ − s . Chama-se correlograma ao gráfico onde se represen-

tam os ρ s em função de s.
Uma classe muito importante de processos estacionários em covariância é a dos
ruídos brancos.
Definição 3.9 – Ruído branco

Considere-se o processo estocástico {ε •t } , onde ε •t é um vector aleatório m × 1 . O pro-
cesso {ε •t } é um ruído branco se e só se:
− E (ε •t ) = 0 ;
− Cov(ε •t ) = Γε (não varia com t);
− Cov(ε •t , ε •,t −s ) = O para s ≠ 0 .
Desta definição facilmente se conclui que um ruído branco é um processo esta-

cionário em covariância. No caso particular em que o ruído branco é uma sucessão de
variáveis aleatórias, os valores esperados são nulos, as variâncias são constantes e as co-
variâncias são nulas.
Um processo iid com valor esperado nulo, em que existem os segundos momen-
tos, é um caso especial de ruído branco, habitualmente chamado ruído branco inde-
pendente. Assim, enquanto um ruído branco, em geral, requer a ausência de auto-
correlação, aquele exige a independência das variáveis aleatórias. No anexo 3A apre-
senta-se um exemplo de um ruído branco que não é independente.
Podem referir-se outros exemplos de processos estocásticos estacionários em co-
variância, que pertencem à família dos processos ARMA. Embora o seu estudo mais
completo seja feito noutro capítulo, vão apresentar-se dois casos particulares:
1) Os processos auto-regressivos de 1.ª ordem.
O processo estocástico {zt } é auto-regressivo de 1.ª ordem se e só se
(3.25) zt = α + ϕ zt −1 + ε t ,
onde {ε t } é um ruído branco. Nestas condições, é habitual escrever, zt ~ AR (1) .

Supondo, para simplificar, que α = 0 , e notando que, zt −1 = ϕ zt −2 + ε t −1 , tem-se
zt = ϕ (ϕ zt −2 + ε t −1 ) + ε t = ϕ 2 zt −2 + ε t + ϕ ε t −1 .
Como zt −2 = ϕ zt −3 + ε t −2 , vem
zt = ϕ 2 (ϕ zt −3 + ε t −2 ) + ε t + ϕ ε t −1 = ϕ 3 zt −3 + ε t + ϕ ε t −1 + ϕ 2ε t −2 .
Procedendo sucessivamente deste modo, obtém-se

zt = ϕ s zt − s + ε t + ϕ ε t −1 + ϕ 2ε t − 2 + L + ϕ s −1ε t − s +1 .
Fazendo s → +∞ , é fácil verificar que a série obtida converge se e só se | ϕ | < 1 .

Neste caso, tem-se
zt = ε t + ϕ ε t −1 + ϕ 2ε t −2 + L ,
donde se conclui imediatamente que E ( zt ) = 0 .

Facilmente se obtém
σ ε2
Var ( zt ) = σ z2 = ,
1−ϕ2
onde σ ε2 = Var (ε t ) . Com efeito, basta considerar a série atrás obtida, e notar que
{ε t } é um ruído branco. Obtém-se
σ ε2
Var ( zt ) = σ ε2 + ϕ 2 σ ε2 + ϕ 4 σ ε2 + L = σ ε2 (1 + ϕ 2 + ϕ 4 + L) = .
1−ϕ 2
De forma semelhante pode calcular-se
ϕs
Cov( zt , zt − s ) = γ s = σ z2 ϕ s = σ ε2 ; ρ s = ϕ s ( s = 0,1, 2, K) .
1−ϕ 2
Pode, então, concluir-se o seguinte:
− O processo AR(1), zt = ϕ zt −1 + ε t , é estacionário em covariância se e só se
| ϕ | < 1.
2) Os processos de médias móveis de 1.ª ordem.
Diz-se que {zt } é um processo de médias móveis de 1.ª ordem se e só se
(3.26) zt = α + ε t + θ ε t −1 ,
onde {ε t } é um ruído branco. Escreve-se então, zt ~ MA(1) [MA é a sigla para mo-
ving average].
Admitindo, para simplificar, que α = 0 , tem E ( zt ) = 0 , e facilmente se conclui que
Var ( zt ) = σ z2 = σ ε2 (1 + θ 2 ) ,
Cov( zt , zt −1 ) = γ 1 = σ ε2θ , Cov( zt , zt − s ) = γ s = 0 ( s = 2, 3,K) ,

θ
ρ1 = , ρ s = 0 ( s = 2, 3,K) .
1+θ 2
− O processo MA(1), zt = ε t + θ ε t −1 , é sempre estacionário em covariância.
Ergodicidade
A estacionaridade é um conceito que tem a ver com distribuições conjuntas de

variáveis aleatórias de um processo estocástico (ou alguns aspectos destas distribui-
ções), quando se fazem translações no tempo. Outro ponto de vista, diz respeito à de-
pendência entre variáveis aleatórias do processo, sobretudo quando estão suficiente-
mente afastadas no tempo. No caso típico de uma série económica temporal, encarada
como uma realização particular do processo estocástico {zt } , é de esperar que a depen-
dência entre zt e zt + s tenda a enfraquecer à medida que s cresce. Por exemplo, a depen-
dência entre o PIB de 1998 e o PIB de 1999 é maior do que a dependência entre o PIB
de 1999 e o PIB de 1910. Assim, para a modelação de certos fenómenos económicos in-
troduzem-se restrições sobre a dependência ou memória dos processos estocásticos.
Em termos vagos, diz-se que o processo estocástico estacionário, {zt } , é fraca-
mente dependente se zt e zt + s são “quase independentes”, para s “suficientemente”
grande (duas variáveis aleatórias “suficientemente” afastadas são “quase” independen-
tes). Pode apresentar-se uma noção semelhante para os processos estocásticos não esta-
cionários, onde se supõe que a “quase” independência não depende da data inicial t.
Esta descrição intuitiva da noção de dependência fraca pode ser esmiuçada para
o caso da estacionaridade em covariância. Neste caso, o processo é fracamente depen-
dente se a correlação entre zt e zt + s tende para 0 quando s → +∞ (quanto mais afasta-
das estiverem as variáveis aleatórias, mais “perto” de 0 está a respectiva correlação), e
se esta convergência é “suficientemente” rápida.
Quando se verifica a condição
lim Corr ( zt , zt + s ) = 0 ,
s→+∞
diz-se que o processo estacionário em covariância é assintoticamente não correlacio-

nado. Intuitivamente, é assim que usualmente se descreve a ideia de dependência fraca.
Tecnicamente, é necessário ainda considerar que Corr ( zt , zt + s ) converge para zero de
modo “suficientemente” rápido.
A descrição feita de dependência fraca é, como se referiu, necessariamente vaga,
uma vez que não se pode apresentar uma definição formal que abranja todos os casos
pertinentes. Existem muitos modos de caracterizar a ideia de dependência fraca, que são
outras tantas maneiras de a definir.
Uma forma específica de dependência fraca é dada por uma propriedade muito
importante dos processos estocásticos, a ergodicidade. A definição rigorosa desta pro-
priedade está fora do âmbito deste livro. Para os propósitos do estudo que se vai efec-
tuar do modelo de regressão linear, basta considerar a noção intuitiva de processo fraca-
mente dependente, identificando-a com a de processo estacionário e ergódico.
Quando um processo é estacionário e ergódico, diz-se que verifica a propriedade
da estacionaridade ergódica. Esta propriedade é essencial para o estudo do modelo de
regressão linear que se vai abordar neste capítulo, sobretudo no que se refere às proprie-
dades assintóticas dos estimadores, e respectivas distribuições limite.
O resultado fundamental para este efeito é o seguinte:
Teorema 3.7 (da ergodicidade)

Considere-se um processo estocástico {z•t } estacionário e ergódico. Se E ( z•t ) = µ , en-
tão o processo obedece à lei dos grandes números,
p
1 n p
z• n − µ → 0 ou z• n = ∑
n t =1
z• t → µ.
Este teorema sobre a lei dos grandes números é uma generalização do teorema
de Kinchine (teorema 3.2). De facto, o teorema da ergodicidade permite a existência de
dependência entre os termos da sucessão, embora ela desapareça a longo prazo.
Também se pode verificar que se {z•t } é estacionário e ergódico, o mesmo acon-
tece com {h( z•t )} , onde h é uma função real (escalar ou vectorial). Por exemplo, os
processos {z•t z•Tt } ou {z•Tt z•t } são estacionários e ergódicos, se {z•t } o for.
Este resultado tem uma importância fundamental, pois permite concluir que um
estimador consistente de qualquer momento (se existir) de um processo estacionário e
ergódico é o respectivo momento amostral. Por exemplo, quando se considera o proces-
so {z•t z•Tt } , um estimador consistente de E ( z•t z•Tt ) é
1 n
n
∑ z zT .
t =1 •t •t
O teorema da ergodicidade garante, em particular, que, se o processo {z•t } é es-

tacionário em covariância, e se ( z•1 , z•2 , K , z•n ) é uma amostra de dimensão n do pro-
cesso estocástico, então a média amostral,
1 n
z•n ≡ ∑ z•t ,
n t =1
converge em probabilidade para µ (que se pode designar por valor esperado do proces-
so). Nestas condições, diz-se que o processo é ergódico em relação à média.
Pode demonstrar-se que um processo é ergódico em relação à média desde que
as autocovariâncias, γ s , convirjam para zero, de forma “suficientemente” rápida. Pode,
também, provar-se que se as autocovariâncias, γ s , de um processo estacionário em co-
variância verificam a condição
∑
+∞
t =1
| γ s | < +∞ ,
então o processo é ergódico em relação à média.

O exemplo mais simples de processo estacionário e ergódico (em relação à mé-
dia) é o dos processos iid (e, em particular, os ruídos brancos independentes).
Outros exemplos importantes são os seguintes:
1) O processo MA(1), zt = ε t + θ ε t −1 .
Com efeito, já se sabe que este processo é estacionário em covariância, e pode veri-
ficar-se que é ergódico (em relação á média). Com efeito, basta notar que γ s = 0 , lo-
go a partir da 2.ª ordem ( s = 2, 3, K ). Obviamente verifica-se que
∑
+∞
t =1
| γ s | = | γ 1 | = σ ε2 | θ | < +∞ .
2) O processo AR(1), zt = ϕ zt −1 + ε t a verificar | ϕ | < 1 .

Com efeito, este processo é estacionário em covariância, como se viu atrás. Para
mostrar que é ergódico (em relação à média) basta notar que
σ z2
∑t =1 | γ s | = σ z2 ∑t =1 | ϕ |s =
+∞ +∞
γ s = σ z2 ϕ s e < +∞ .
1− | ϕ |
Heuristicamente, facilmente se mostra que ρ s = ϕ s tende rapidamente para 0, quan-

do s → +∞ .
No quadro seguinte apresentam-se os valores de alguns coeficientes de autocorrela-
ção para vários valores de ϕ :
ϕ = 0.20 : Corr ( zt , zt + 3 ) = 0.00800

Corr ( zt , zt + 4 ) = 0.00160
ϕ = 0.50 : Corr ( zt , zt + 7 ) = 0.00781
Corr ( zt , zt + 8 ) = 0.00391
ϕ = 0.90 : Corr ( zt , zt + 44 ) = 0.00970
Corr ( zt , zt + 51 ) = 0.00464
Corr ( zt , zt + 200 ) = 0.00000
ϕ = 0.95 : Corr ( zt , zt + 90 ) = 0.00989
Corr ( zt , zt +104 ) = 0.00482
Corr ( zt , zt + 200 ) = 0.00004
ϕ = 0.99 : Corr ( zt , zt + 459 ) = 0.00992
Corr ( zt , zt + 528 ) = 0.00496
Corr ( zt , zt + 600 ) = 0.00241
Martingalas
A seguir vai apresentar-se a definição de martingala.
Definição 3.10 – Martingala

O processo estocástico {z•t } , a verificar E ( | zit | ) < +∞ ( i = 1, 2, K , m ), é uma martinga-
la se e só se, qualquer que seja t, se tem
(3.27) E ( z•t | z•,t −1 , z•,t −2 , K) = z•,t −1 .
O conjunto {z•,t −1 , z•,t −2 , K} chama-se conjunto de informação em t − 1 .
Seja zit uma componente do vector z•t . O processo {zit } é uma martingala em
relação a {z•t } se e só se
E ( zit | z•,t −1 , z•,t −2 , K) = zi ,t −1 .
Nestas condições, facilmente se verifica que {zit } é uma martingala,

E ( zit | zi ,t −1 , zi ,t −2 , K) = zi ,t −1 .
Com efeito,
E ( zit | zi ,t −1 , zi ,t −2 , K) = E{E ( zit | z•,t −1 , z•,t −2 , K) | zi ,t −1 , zi ,t −2 , K} = zi ,t −1 .
Um exemplo muito interessante de martingala retirado da teoria macroeconó-

mica é dado pela hipótese de Hall da teoria do consumo. Seja z•t um vector composto
por várias variáveis macroeconómicas (oferta monetária, PNB, etc.), incluindo o consu-
mo agregado, Ct . A hipótese de Hall estabelece que
E (Ct | z•,t −1 , z•,t −2 , K) = Ct −1 ,
ou seja, o valor esperado do consumo no período t, condicionado pelo conjunto de infor-

mação no período t − 1 , de todas as variáveis macroeconómicas consideradas, é igual ao
consumo no período t − 1 . Esta hipótese é conhecida, na teoria económica, pelo nome
de “alisamento do consumo”.
Uma característica interessante das martingalas é a de que
E ( zi ,t + s +1 − zi ,t + s | z•,t −1 , z•,t − 2 , K) = 0 ( s = 0,1, 2, K) ,
ou seja, o valor esperado das variações futuras, condicionadas pelo passado, é nulo
(as martingalas não conseguem prever variações!). Com efeito, supondo que {zit } é uma
martingala em relação a {z•t } , facilmente se conclui que
E ( zi ,t + s +1 | z•,t −1 , z•,t − 2 , K) = E{E ( zi ,t + s +1 | z•,t + s , z•,t + s −1 , K , z•t , z•,t −1 , K) | z•,t −1 , z•,t − 2 , K}
= E ( zi ,t + s | z•,t −1 , z•,t − 2 , K) ,
o que prova o resultado pretendido.

Do mesmo modo se verifica que
E ( zi ,t + s | z•,t −1 , z•,t − 2 , K) = E ( zi ,t + s −1 | z•,t −1 , z•,t − 2 , K) = L = E ( zit | z•,t −1 , z•,t − 2 , K) = zi ,t −1 .
Uma classe importante de martingalas é a dos passeios aleatórios.
Definição 3.11 – Passeio aleatório

Seja {ε •t } um ruído branco independente. O processo {z•t } é um passeio aleatório se e
só se {z•t } é a sucessão das somas acumuladas,
(3.28) z•1 = ε •1 , z•2 = ε •1 + ε •2 ,K, z•t = ε •1 + ε •2 + L + ε •t , K

ε •1 = z•1 , ε •2 = z•2 − z•1 ,K, ε •t = z•t − z•,t −1 , K ,
ou seja, o processo das diferenças de um passeio aleatório é um ruído branco indepen-

dente.
Pode concluir-se, sem dificuldade, que E ( z•t ) = 0 e Cov( z•t , z•,t − s ) = (t − s )Γε ,
onde Γε = Cov(ε •t ) . Deste modo, o passeio aleatório é um processo não estacionário
em covariância.
No caso do passeio aleatório {zt } (escalar), sabendo que σ ε2 = Var (ε t ) , vem
E ( zt ) = 0 ; Var ( zt ) = tσ ε2 ; Cov( zt , zt −s ) = (t − s )σ ε2 ; Cov( zt , zt + s ) = tσ ε2 ;
t−s t
Corr ( zt , zt − s ) = ; Corr ( zt , zt + s ) = .
t t+s
Como os conjuntos {z•,t −1 , K , z•1} e {ε •,t −1 , K , ε •1} contêm a mesma informação,

pode demonstrar-se que um passeio aleatório é uma martingala. Com efeito,
E ( z•t | z•,t −1 , K , z•1 ) = E ( z•t | ε •,t −1 , K , ε •1 )
= E (ε •1 + ε • 2 + L + ε •t | ε •,t −1 , K , ε •1 )
= ε •1 + ε • 2 + L + ε •,t −1 + E (ε •t | ε •,t −1 , K , ε •1 )
= ε •1 + ε • 2 + L + ε •,t −1
= z•,t −1 ,
uma vez que E (ε •t | ε •,t −1 , K , ε •1 ) = 0 , porque {ε •t } é um ruído branco independente.
Definição 3.12 – Diferença-martingala

O processo estocástico {w•t } , a verificar E ( | wit | ) < +∞ ( i = 1, 2, K , m ), é uma diferen-
ça-martingala se e só se
(3.29) E ( w•t | w•,t −1 , w•,t − 2 , K) = 0 .
Este processo é assim chamado porque o processo das somas acumuladas criado
a partir de {w•t } ,
z•1 = w•1 , z•2 = w•1 + w•2 , K , z•t = w•1 + w•2 + L + w•t , K ,
é uma martingala. Com efeito, basta fazer uma demonstração semelhante àquela em que
se provou que um passeio aleatório é uma martingala.
Inversamente, se {z•t } é uma martingala, então o processo das diferenças,
w•1 = z•1 , w•2 = z•2 − z•1 , K , w•t = z•t − z•,t −1 , K ,
é uma diferença-martingala. Com efeito, como os termos da sucessão {w•1 , w• 2 , K} se

podem calcular a partir dos termos da sucessão {z•1 , z• 2 , K} , e inversamente, os conjun-
tos {w•1 , w• 2 , K} e {z•1 , z• 2 , K} partilham a mesma informação. Então,
E ( w•t | w•,t −1 , w•,t − 2 , K) = E ( w•t | z•,t −1 , z•,t − 2 , K)
= E ( z•t − z•,t −1 | z•,t −1 , z•,t − 2 , K) = z•,t −1 − z•,t −1 = 0.
Logo, {w•t } é uma diferença-martingala.

Facilmente se prova também que (3.29) implica E ( w•t ) = 0 .
Pode provar-se, também, que numa diferença-martingala não existe autocorre-

lação, Cov( w•t , w•,t − s ) = O , para s ≠ t (supondo que existe esta matriz das covariân-
cias). Com efeito, basta demonstrar que E ( w•t w•T,t − s ) = O , porque o valor esperado de
cada w•t é nulo. Então, devido à regra do valor esperado total, e à linearidade do valor
esperado condicionado, tem-se
E ( w•t w•T,t −s ) = E{E ( w•t w•T,t − s | w•,t − s )} = E{E ( w•t | w•,t −s ) w•T,t − s } .
Como s ≥ 1 , ( w•,t −1 , K , w•,t − s , K , w•1 ) inclui w•,t − s . Então, devido à regra do va-
lor esperado iterado, e a (3.29), obtém-se
E ( w•t | w•,t − s ) = E{E ( w•t | w•,t −1 , K , w•,t − s , K , w•1 ) | w•,t − s } = 0 .
Finalmente, vem E ( w•t w•T,t − s ) = O .

Um exemplo óbvio de diferença-martingala é um ruído branco independen-
te. No anexo 3A apresentam-se exemplos das seguintes situações:
− Um ruído branco (não independente) pode não ser uma diferença-martingala;
− Um ruído branco (não independente) pode ser uma diferença-martingala;
− Uma diferença-martingala pode não ser estacionária.
Considere-se o processo { yt } tal que E ( yt | yt −1 , yt − 2 , K) existe. Seja

wt = E ( yt | yt −1 , yt − 2 , K) − E ( yt | yt − 2 , yt − 3 , K) ,
que mede a variação do valor esperado condicionado quando mais uma observação é
incluída no conjunto de informação. Pode provar-se que este processo, {wt } , de revisão
de expectativas é uma diferença-martingala. Com efeito, devido à regra do valor es-
perado iterado, vem
E ( wt | yt − 2 , yt − 3 , K) = E{E ( yt | yt −1 , yt − 2 , K) | yt − 2 , yt − 3 , K}
− E{E ( yt | yt − 2 , yt − 3 , K) | yt − 2 , yt − 3 , K}
= E ( yt | yt − 2 , yt − 3 , K) − E ( yt | yt − 2 , yt − 3 , K) = 0 .
Como {wt −1 , wt − 2 , K} não tem mais informação do que { yt − 2 , yt − 3 , K} , tem-se

E ( wt | wt −1 , wt − 2 , K) = E{E ( wt | yt − 2 , yt − 3 , K) | wt −1 , wt − 2 , K} = 0 ,
o que prova que {wt } é uma diferença-martingala.

Finalmente vai apresentar-se outro teorema do limite central, que estende o
teorema de Lindeberg-Levy ao caso de diferença-martingalas estacionárias e ergódicas.
Teorema 3.8 [do limite central de Billingsley (1961)]

Seja {w•t } uma diferença-martingala, estacionária e ergódica, tal que
Cov( w•t ) = E ( w•t w•Tt ) = Σ .
Então,
d 1 n
n w• n → N ( m ) (0, Σ) , onde w•n = ∑ w•t .
n t =1
Obviamente o teorema de Billingsley é mais geral do que o teorema de Linde-

berg-Levy. Com efeito, fazendo w•t = z•t − µ , onde {z•t } verifica as hipóteses deste teo-
rema, facilmente se verifica que {w•t } , nestas condições, é um ruído branco indepen-
dente, e, portanto, é uma diferença-martingala estacionária e ergódica.
3.3 - Hipóteses do modelo de regressão linear com regressores pré-determinados
Na secção 1.2 (capítulo 1) foi enfatizado que o modelo adoptado é considerado a

fonte geradora dos dados observáveis. Assim, vai utilizar-se a expressão processo gera-
dor dos dados (PGD) para designar o processo estocástico que gerou a amostra finita
(Y , X ) . Portanto, especificando o PGD, a distribuição conjunta de (Y , X ) pode ser
determinada. Pode, então, apurar-se a definição de modelo econométrico (ver definição
1.2).
Definição 3.13 – Modelo econométrico

Um modelo econométrico é uma família de PGDs das observações das variáveis expli-
cadas e das variáveis explicativas, a verificar um conjunto de restrições ou hipóteses.
Nesta secção vai definir-se um modelo de regressão linear, a verificar um con-

junto de hipóteses que o tornam mais adequado para as aplicações à Economia, sobretu-
do quando os dados são temporais.
A primeira hipótese é a mera reprodução de REX.1 (linearidade), agora designa-
da por hipótese RPD.1, por razões a esclarecer mais adiante. Os comentários feitos para
REX.1 continuam válidos para RPD.1.
Hipótese RPD.1 – Linearidade

yt = xt • β + ut (t ∈ T ) , onde: yt é o regressando; xt • = [ xt1 xt 2 L xtk ] é o vector 1 × k
Os conceitos de estacionaridade e de ergodicidade desempenham um papel deci-

sivo no modelo de regressão linear em discussão.
Hipótese RPD.2 – Estacionaridade ergódica

O processo estocástico ( k + 1 )-dimensional {( yt , xt • ) : t ∈ T } é estacionário e ergódico.
Um caso particular muito importante de estacionaridade ergódica tem-se quando

o processo {( yt , xt • )} é iid. Neste caso, os dados são obtidos por amostragem casual,
ou seja, obtém-se a amostra casual
 ( y , x ), ( y , x ), K , ( y , x )  .
 1 1• 2 2• n n•

Pode, portanto, considerar-se nesta análise, os modelos com dados seccionais
obtidos de forma casual, como acontece com muitos dados microeconómicos (sobre fa-
mílias, empresas, etc.), em que as observações formam uma amostra casual de uma de-
terminada população.
Como {( yt , xt • )} é estacionário e ergódico, conclui-se imediatamente que o pro-
cesso {ut } , onde ut = yt − xt • β , é também estacionário e ergódico. Então, a hipótese
RPD.2 implica que E (ut2 ) , se existir, não varia com t, ou seja, existe homocedastici-
dade marginal (não condicionada),
(3.30) E (ut2 ) = σ 2 .
Note-se que: em (3.30) não pode escrever-se Var (ut ) = σ 2 , porque não está ga-
rantido que E (ut ) = 0 [a homocedasticidade marginal estabelece que o segundo mo-
mento de ut em relação à origem, E (ut2 ) , é constante]; pode ter-se heterocedasticidade
condicionada, isto é, E (ut2 | xt • ) pode depender de xt • (esta situação vai ser estudada
mais adiante).
A hipótese que vai apresentar-se a seguir é crucial, na medida em que se afasta
da exogeneidade estrita dos regressores (REX.2). Enquanto esta hipótese garante a orto-
gonalidade entre qualquer observação dos regressores e qualquer variável residual,
E ( xtj u s ) = 0 (para qualquer t e s, e para j = 1, 2, K , k ), a hipótese seguinte postula a or-
togonalidade, mas apenas para a mesma observação t, ou seja,
E ( xtj ut ) = 0 (para qualquer t e para j = 1, 2, K , k ).
Definição 3.14 – Regressor pré-determinado

Diz-se que o regressor x j é pré-determinado (RPD) se e só se E ( xtj ut ) = 0 , qualquer
que seja t.
A terceira hipótese estabelece que todos os regressores são pré-determinados.

Daí o prefixo RPD que se utiliza para designar as hipóteses do modelo.
Hipótese RPD.3 – Regressores pré-determinados

Todos os regressores são pré-determinados,
(3.31) E ( xt •ut ) = E ( gt • ) = 0 (t ∈ T ) ,
onde g t • = xt •ut .
Note-se que
gt • = [ gt1 gt 2 L gtk ] = [ xt1ut xt 2ut L xtk ut ] .
Evidentemente, é imediato verificar que qualquer regressor estritamente exóge-

no é pré-determinado, mas a recíproca não é verdadeira.
No caso em que o modelo tem termo independente ( xt1 = 1 ) – o que acontece

em grande parte das aplicações – verifica-se imediatamente que
E (ut ) = 0 e Cov( xt • , ut ) = 0 .
Quando se consideram modelos com dados temporais, (3.31) significa que há

ortogonalidade contemporânea entre os regressores e as variáveis residuais [ver no
capítulo 2, o comentário 4) à hipótese REX.2]. Quando o modelo tem termo indepen-
dente, também se diz que os regressores não estão contemporaneamente correlacio-
nados com as variáveis residuais.
Ainda considerando modelos com dados temporais, a exogeneidade estrita dos
regressores exclui a possibilidade de a variável residual no período t, ut , estar correla-
cionada com observações futuras dos regressores, xt + s ,• , para s = 1, 2, K . No entanto,
isto pode verificar-se, quando apenas se exige a ausência de correlação contemporânea.
Por exemplo, é o que acontece com o modelo AR(1) [ver no capítulo 2, o comentário 3)
à hipótese REX.2].
Quando se verifica a condição E ( xtj ut ) ≠ 0 , diz-se que o regressor x j é endó-
geno. A hipótese RPD.3 elimina a possibilidade de existirem regressores deste tipo. O
estudo do MRL com regressores endógenos vai ser feito no capítulo 4. No entanto, é
importante desde já fazer uma breve referência a três situações típicas de endogenei-
dade:
a) Omissão de variáveis.
Supondo que os regressores da equação estrutural são xt • (vector 1 × k ) e wt , o valor
esperado condicionado estrutural é da forma E ( yt | xt • , wt ) = xt • β + δ wt . Explicitando
a variável residual vt , vem yt = xt • β + δ wt + vt , onde E (vt | xt • , wt ) = 0 . Fica garanti-
do que os regressores são pré-determinados, ou seja, E ( xtT•vt ) = 0 e E ( wt vt ) = 0 . Se
wt é omisso (por exemplo, não é observável), o regressor x j é endógeno se existir
correlação entre xtj e wt . De facto, incluindo δ wt na componente residual, obtém-se
a equação yt = xt • β + ut , com ut = δ wt + vt ; o regressor x j é endógeno, porque está
correlacionado com a variável residual, ut : E ( xtj ut ) ≠ 0 . Nesta situação, pode sem-
pre estimar-se E ( yt | xt • ) , desde que este valor esperado condicionado não tenha
qualquer relação com E ( yt | xt • , wt ) , quando xt • e wt estão correlacionados.
A correlação entre variáveis observáveis e variáveis não observáveis é, muitas vezes,
devida ao problema da auto-selecção (self-selection): os agentes escolhem xtj , mas
este valor depende de factores que não são observáveis para o analista.
O problema da omissão de variáveis com dados seccionais já foi ilustrado no exem-
plo 2.3 (capítulo 2). No caso de dados temporais, considere-se, por exemplo, o mode-
lo DL(2), yt = α + δ 0 xt + δ1 xt −1 + δ 2 xt − 2 + vt . A omissão de xt −2 , dá lugar à equação
estimável yt = α + δ 0 xt + δ1 xt −1 + ut , sendo natural que se tenha Cov( xt −1 , ut ) ≠ 0 ou
Cov( xt , ut ) ≠ 0 .
b) Erros de medida nas variáveis explicativas.
Suponha-se que pretende medir-se o efeito parcial de xk∗ sobre y, mas a variável exp-
licativa é observada com erro: xtk = xtk∗ + et , onde xtk é o valor observado e et é o
erro de medida. Neste caso, a equação estrutural é
yt = β1 xt1 + β 2 xt 2 + L + β k −1 xt , k −1 + β k xtk∗ + vt ,
e a equação estimável é
yt = β1 xt1 + β 2 xt 2 + L + β k −1 xt , k −1 + β k xtk + ut ,
onde ut = vt − β k et (a variável residual inclui o erro de medida). O regressor xk é en-

dógeno, porque existe correlação entre xtk e et .
Para concretizar, suponha-se que a equação estrutural é yt = β1 + β 2 xt∗ + vt , onde a
variável explicativa é pré-determinada, mas observável com erro. Os valores obser-
váveis são dados por xt = xt∗ + et , onde et é o erro de medida. Fazendo a substituição,
obtém-se yt = β1 + β 2 xt + ut , onde ut = vt − β 2et . Supondo que Cov(vt , et ) = 0 e que
Cov( xt∗ , et ) = 0 , vem
Cov( xt , ut ) = Cov( xt∗ + et , vt − β 2et ) = − β 2 Var(et ) ≠ 0 .
c) Simultaneidade.
Considere-se a equação
yt1 = β1 + β 2 xt1 + β 3 yt 2 + ut1 ,
onde as variáveis explicativas são xt1 e yt 2 . A simultaneidade ocorre quando pelo

menos um dos regressores (por exemplo, yt 2 ) é determinado conjuntamente com o
regressando, yt1 . Implicitamente, está a admitir-se que, por exemplo,
yt 2 = γ 1 + γ 2 xt 2 + γ 3 yt1 + ut 2 .
Facilmente se verifica que tanto yt1 como yt 2 estão correlacionados com ut1 e ut 2 .
Para isso, basta resolver, em relação a yt1 e yt 2 , o sistema formado pelas duas equa-
ções para pôr em evidência aquelas correlações. Tem-se:
 β1 + β 3γ 1 β2 β 3γ 2 1 β3
 yt1 = 1 − β γ + 1 − β γ xt1 + 1 − β γ xt 2 + 1 − β γ ut1 + 1 − β γ ut 2
 3 3 3 3 3 3 3 3 3 3

 y = β1γ 3 + γ 1 + β 2γ 3 x + γ 2 x + γ 3 u + 1
ut 2 .
 t2
1 − β 3γ 3 1 − β 3γ 3
t1
1 − β 3γ 3
t2
1 − β 3γ 3
t1
1 − β 3γ 3
O problema da simultaneidade é aflorado nos exemplos 1.7 a 1.10 (capítulo 1). Esta
questão será retomada noutro capítulo.
A distinção entre estas três formas possíveis de endogeneidade nem sempre é tão
evidente. De facto, numa mesma equação pode coexistir mais do que um tipo de en-
dogeneidade. Por exemplo, se se quisesse analisar o efeito do consumo de bebidas al-
coólicas (CA) sobre o salário das trabalhadores, é bem possível que CA esteja correla-
cionada com factores abrangidos pela variável residual (por exemplo, factores que têm a
ver com os antecedentes familiares), e tinha-se, então, uma situação de omissão de va-
riáveis. É de admitir, também, que a variável CA seja observada com erro. Finalmente,
é razoável supor que CA depende do salário, havendo, portanto, uma situação de simul-
taneidade.
Na hipótese RPD.3, em vez de (3.31), podia ter sido considerada a condição

mais forte,
(3.32) E (ut | xt • ) = 0 ,
que, no caso de modelos com dados temporais, significa que os regressores são contem-
poraneamente exógenos. Note-se que (3.32) implica que E (ut ) = 0 (mesmo que o mo-
delo não tenha termo independente); também se verifica que a condição (3.32) é equiva-
lente a E ( yt | xt • ) = xt • β .
Como (3.32) implica (3.31), pode haver alguma vantagem em utilizar (3.32). Po-
de provar-se que (3.32) implica que qualquer função de xt • , g ( xt • ) , é ortogonal a ut .
Com efeito,
E{g ( xt • ) ut } = E{E ( g ( xt • ) ut | xt • )} = E{g ( xt • ) E (ut | xt • )} = 0 ,
o que significa que, tal como se comentou no capítulo 2, a condição (3.32) garante que
não há associação (linear ou outra) entre xtj e ut . Em consequência, pode afirmar-se
que a hipótese (3.32) é mais natural quando a equação estrutural, yt = xt • β + ut , é direc-
tamente estimável, porque está garantido que outras funções dos regressores não contri-
buem para explicar yt . No entanto, como vai ver-se, basta considerar a condição mais
fraca (3.31), na hipótese RPD.3, para estabelecer os resultados indispensáveis para a in-
ferência estatística.
Note-se, também, o seguinte: se ut e xt • são independentes, e se E (ut ) = 0 , en-
tão E (ut | xt • ) = 0 (a recíproca não é verdadeira). Nestas condições, conclui-se imediata-
mente que Var(ut | xt • ) é constante (existe homocedasticidade condicionada).
A quarta hipótese é a condição de característica já conhecida do MRLC (hipóte-
se REX.5).
Hipótese RPD.4 – Condição de característica

A matriz quadrada de ordem k,
(3.33) Qxx = E ( xtT• xt • ) (t ∈ T )
Nas condições desta hipótese fica garantido, devido ao teorema da ergodicidade,

que o processo {S xx } , onde
1 n T 1
S xx =
n
∑ x x = XTX ,
t =1 t • t •
n
obedece à lei dos grandes números. Assim, verifica-se que
plim(S xx ) = Qxx .
Então, para n suficientemente grande, a matriz dos segundos momentos amos-

trais, S xx , tem inversa, devido às hipóteses RPD.2 e RPD.4. Fica, assim, garantido que
X T X tem inversa, com probabilidade 1, para n suficientemente grande.
Como as condições de ortogonalidade e de característica permitem a identifica-

ção de β [ver (2.18), capítulo 2], o estimador MQ de β pode ser calculado da maneira
habitual. Assim, tem-se b = S xx−1s xy .
Finalmente, apresenta-se a quinta hipótese do modelo.
Hipótese RPD.5 – Diferença-martingala

O processo {g t • } é uma diferença-martingala
(3.34) E ( gt • | gt −1,• , gt − 2,• , K) = 0 ,
tal que existe a matriz quadrada de ordem k,

(3.35) S = E ( g tT• g t • ) = E (ut2 xtT• xt • ) ,
e a correspondente matriz inversa.
Note-se que
 ut2 xt21 ut2 xt1 xt 2 K ut2 xt1 xtk 
 2 
u x x ut2 xt22 L ut2 xt 2 xtk 
ut xt • xt • =  t t1 t 2
2 T
.
 M M M 
 2 
ut xt1 xtk ut2 xt 2 xtk L ut2 xtk2 
Como vai ver-se, esta hipótese é necessária para obter a distribuição assintótica
de b (estimador MQ de β ). Note-se que RPD.5 é mais forte que RPD.3, uma vez que
(3.34) implica E ( gt • ) = 0 , e, portanto, S = Cov( gt • ) . A condição (3.34) implica, tam-
bém, que não existe autocorrelação no processo {g t • } : Cov( g t • , g t −s ,• ) = O .
Como g t • = xt •ut = xt • ( yt − xt • β ) , verifica-se que {g t • } é estacionário e ergódi-
co. Então, fazendo,
1 n 1 n 1
g •n = ∑t =1 g tT• = ∑t =1 xtT•ut = X T U ,
n n n
e atendendo ao teorema do limite central de Bilingsley (teorema 3.8) tem-se
d
n g• n → N ( k ) (0, S ) ,
onde Ea ( g• n ) = 0 e Cov a ( g •n ) = S .
Note-se que:
1 1 1 T
∑ ∑
n n
n g •n = t =1
g tT• = t =1
xtT•ut = X U.
n n n
Quando o modelo tem termo independente ( xt1 = 1 ), o primeiro elemento do
vector g t • é igual a ut , e E (ut | g t −1,• , g t −2,• ,K) = 0 . Então, de acordo com a regra do va-
lor esperado iterado, tem-se
E (ut | ut −1 , ut −2 , K) = E{E (ut | g t −1,• , g t −2,• , K) | ut −1 , ut −2 , K} = 0 ,
ou seja, o processo {ut } das variáveis residuais é também uma diferença-martingala.

Portanto, E (ut ) = 0 e Cov(ut , ut −s ) = 0 (não há autocorrelação).
A condição (3.34) relativa aos vectores gt • = xt •ut é difícil de interpretar. Para
melhor esclarecimento, é possível apresentar a condição suficiente de interpretação
mais fácil,
(3.36) E (ut | ut −1 , ut −2 , K , xt • , xt −1,• , xt −2,• , K) = 0 ,
onde o conjunto de informação inclui as variáveis residuais desfasadas e as observações

correntes e desfasadas dos regressores. Esta condição implica que as variáveis residuais
não estão autocorrelacionadas, e que cada variável residual não está correlacionada com
as observações correntes e desfasadas dos regressores (a demonstração é semelhante
àquela que permitiu provar que numa diferença-martingala não existe autocorrelação).
Para demonstrar que (3.36) implica (3.34), basta atender à regra do valor espera-
do iterado e notar que, comparando os conjuntos de informação
{ut −1 , ut −2 , K , xt • , xt −1,• , xt −2,• , K} e {g t −1,• , g t −2,• , K} ,
o primeiro contém toda a informação do segundo, e a informação adicional dada por
xt • . Assim,
E ( gt • | gt −1,• , gt − 2,• , K) = E{E ( gt • | ut −1 , ut − 2 , K , xt • , xt −1,• , xt − 2,• , K) | gt −1,• , gt − 2,• , K}
= E{xt • E (ut | ut −1 , ut − 2 , K , xt • , xt −1,• , xt − 2,• , K) | gt −1,• , g t − 2,• , K}
= 0.
Considere-se o MRL com dados temporais, yt = xt • β + ut , onde xt • pode conter

desfasamentos da variável y. Como ut = yt − xt • β , facilmente se conclui que (3.36) é
equivalente a
E (ut | yt −1 , yt − 2 , K , xt • , xt −1,• , xt − 2,• , K) = 0 .
Estabelecendo esta condição, tem-se

E ( yt | xt • , yt −1 , xt −1,• , yt −2 , K) = E ( yt | xt • ) ,
o que significa que foram considerados os desfasamentos suficientes (mais desfasamen-

tos nas variáveis nada acrescentam para explicar yt ). Diz-se, então, que o modelo é di-
namicamente completo.
Por exemplo, se yt = β1 + β 2 yt −1 + β 3 xt + β 4 xt −1 + ut , e se
E ( yt | yt −1 , yt − 2 , K , xt , xt −1 , xt − 2 , K) = E ( yt | yt −1 , xt , xt −1 ) ,
o MRL é dinamicamente completo, o que significa que um desfasamento em y e outro

em x traduz adequadamente a estrutura dinâmica do comportamento explicativo de yt .
Pode demonstrar-se que num modelo dinamicamente completo não há autocor-
relação condicionada das variáveis residuais. Com efeito, supondo que s < t , tem-se
Cov(ut , us | xt • , xs • ) = E (ut us | xt • , xs • ) = E{E (ut us | xt • , xs • , us ) | xt • , xs •}
= E{us E (ut | xt • , xs • , us ) | xt • , xs •}.
Como s < t , ( xt • , xs• , u s ) é um subconjunto de ( xt • , ut −1 , xt −1,• , ut −2 , K) , e tem-se

E (ut | xt • , xs• , u s ) = 0 ,
e portanto,
Cov(ut , u s | xt • , xs• ) = 0 .
Os modelos devem ser dinamicamente completos? A resposta é, em princípio,

afirmativa, uma vez que se admite, muitas vezes, que um modelo com autocorrelação
está mal especificado. No entanto, este ponto de vista é demasiado rígido, pois pode
estar-se interessado num modelo estático ou num modelo com desfasamento escalonado
finito.
Finalmente, convém fazer três observações sobre a matriz S:
1. Atendendo a (3.35), facilmente se conclui que S é uma matriz de quartos momentos
[de elemento genérico E (ut2 xti xtj ) ];
2. Devido à hipótese de {g t • } ser uma diferença-martingala, tem-se Cov a ( g •n ) = S
(sem esta hipótese, a matriz das covariâncias assintóticas de g •n é mais complicada,
envolvendo autocovariâncias de g t • );
3. Pode apresentar-se uma expressão alternativa para a matriz S. Com efeito, fazendo
σ 2 ( xt • ) = E (ut2 | xt • ) , tem-se
S = E (ut2 xtT• xt • ) = E{E (ut2 xtT• xt • ) | xt • } = E{E (ut2 | xt • ) xtT• xt • } = E{σ 2 ( xt • ) xtT• xt • } .
4. As hipóteses RPD.1 a RPD.5 não implicam que exista E (ut2 ) , porque um processo
estritamente estacionário pode não ter segundos momentos. No entanto, se o modelo
tem termo independente, o elemento (1,1) da matriz gtT• gt • = ut2 xtT• xt • é ut2 . Logo, de
acordo com a segunda parte de RPD.5, existe E (ut2 ) . Assim, devido a RPD.2, garan-
te-se a homocedasticidade marginal.
O modelo de regressão linear que verifica as cinco hipóteses referidas (RPD.1 a

RPD.5) chama-se modelo de regressão linear com regressores pré-determinados
(MRL-RPD).
3.4 - Propriedades dos estimadores dos mínimos quadrados
As propriedades dos estimadores MQ que vão apresentar-se nesta secção são

propriedades assintóticas ou aproximadas, já que apenas são válidas para grandes
amostras.
No modelo de regressão linear clássico (MRLC) demonstrou-se que b, estimador
MQ de β , é BLUE. Este tipo de caracterização deixa de fazer sentido no modelo de re-
gressão linear com regressores pré-determinados (MRL-RPD) – o teorema de Gauss-
-Markov perde toda a sua importância –, procurando-se antes mostrar que aquele esti-
mador é CAN (consistente e assintoticamente normal).
Notando que b depende da dimensão da amostra, n (para simplificar a notação,
vai continuar a usar-se o símbolo b, e não b•n ), vai demonstrar-se que b é consistente.
Propriedade 3.1 – As hipóteses RPD.1 a RPD.4 implicam que o estimador MQ de β ,

b, é consistente,
(3.37) plim(b) = β .
Dem.: Com efeito, começa-se por escrever o erro de amostragem, b − β , em termos das
médias amostrais. Assim,
−1 −1
1  1  1 n  1 n 
b − β =  X T X   X T U  =  ∑t =1 xtT• xt •   ∑t =1 xtT•ut  = S xx−1 g •n .
n  n  n  n 
Como, devido à hipótese RPD.2, o processo {( yt , xt • )} é estacionário e ergódi-
co, o mesmo acontece com {xtT• xt • } ; o teorema da ergodicidade (teorema 3.7) permite
concluir que plim(S xx ) = Qxx ; da hipótese RPD.4, e da propriedade da preservação do li-
mite em probabilidade, obtém-se
plim(S xx−1 ) = Qxx−1 .
De forma semelhante: o processo {g t • } , onde g t • = xt •ut = xt • ( yt − xt • β ) , é es-

tacionário e ergódico; o teorema da ergodicidade (teorema 3.7) e a hipótese RPD.3 per-
mitem obter plim ( g• n ) = 0 . Então,
plim (b − β ) = plim ( S xx−1 g• n ) = plim(S xx−1 )plim( g• n ) = Qxx−1 0 = 0 ,
ficando assim provado (3.37).

∇∇
As hipóteses RPD.1 a RPD.4 não permitem provar que o estimador b é não en-
viesado. Contudo, supondo amostragem casual (o processo da hipótese RPD.2 é iid) e
(3.32), [hipótese mais forte do que RPD.3], vai verificar-se que E (b | X ) = β . Com efei-
to, sabe-se que E (b | X ) = β + ( X T X ) −1 X T E (U | X ) . A componente genérica do vector
E (U | X ) é
E (ut | X ) = E (ut | x1• , x2• , K , xt −1,• , xt • , xt +1,• , K , xn • ) = E (ut | xt • , wt • ) ,
onde wt • = [ x1• x2• L xt −1,• xt +1,• L xn • ]. Como o vector ( ut , xt • ) é independente

de wt • , pode concluir-se que E (ut | xt • , wt • ) = E (ut | xt • ) = 0 . [ver os comentários às pro-
priedades dos valores esperados condicionados (capítulo 1)].
Propriedade 3.2 – Verificadas as hipóteses RPD.1 a RPD.5, o estimador MQ de β , b,

é assintoticamente normal,
d
(3.38) n (b − β ) → N ( k ) (0, Qxx−1 S Qxx−1 ) .
Dem.: Com efeito, como

d
n (b − β ) = S xx−1 ( n g •n ) , n g• n → N ( k ) (0, S ) e plim(S xx−1 ) = Qxx−1 ,
obtém-se imediatamente (3.38), atendendo às propriedades d) e e) que relacionam a

convergência em probabilidade com a convergência em distribuição.
∇∇
O resultado (3.38) permite explicitar o valor esperado assintótico e a matriz das

covariâncias assintóticas de b. Assim:
(3.39) Ea (b) = β ; Cov a (b) = Qxx−1 S Qxx−1 ,
sendo de notar que esta matriz das covariâncias assintóticas de b reflecte o facto de po-
der existir heterocedasticidade condicionada (ver os comentários subsequentes à hipó-
tese RPD.2). Quando se admite a hipótese da homocedasticidade condicionada, a matriz
Cov a (b) é mais simples (ver secção 3.6).
As considerações anteriores mostram que o estimador MQ é caracterizado por
ter boas propriedades assintóticas no contexto de modelo de regressão linear com re-
gressores pré-determinados, o que mantém intacta a importância do método dos míni-
mos quadrados para a Econometria. Como vai ver-se no capítulo 4, quando existem
regressores endógenos, o estimador MQ tem que ser abandonado.
A propósito da hipótese RPD.2, verificou-se que E (ut2 ) = σ 2 , se existir, não va-
ria com t, ou seja, existe homocedasticidade marginal (não condicionada). Quando, o
modelo tem termo independente vem E (ut ) = 0 , podendo concluir-se que σ 2 é a va-
riância marginal das variáveis residuais.
A seguir vai provar-se que o estimador MQ de σ 2 ,
1 Uˆ T Uˆ
∑t =1 uˆt2 =
n
(3.40) s2 = ,
n−k n−k
onde ût é o resíduo MQ relativo à observação t, é estimador consistente.
Propriedade 3.3 – As hipóteses RPD.1 a RPD.4 implicam que s 2 , estimador MQ de

σ 2 , é consistente,
(3.41) plim(s 2 ) = σ 2 .
Dem.: Ver secção 3B.1.

∇∇
No MRL-RPD, os coeficientes de determinação amostrais, R 2 e R 2 , podem

ser encarados como estimadores consistentes do coeficiente de determinação da po-
pulação,
σ u2
ρ2 = 1− ,
σ y2
onde σ u2 = Var(ut ) [variância não condicionada da variável residual], e σ y2 = Var ( yt )

[variância não condicionada do regressando]. Com efeito, basta notar que: VR / n ou
VR /(n − k ) são estimadores consistentes de σ u2 ; VT / n ou VT /(n − 1) são estimadores

consistentes de σ y2 .
A interpretação das medidas de ajustamento, R 2 e R 2 , não é afectada pela exis-
tência de heterocedasticidade condicionada, uma vez que σ u2 e σ y2 são variâncias da po-
pulação não condicionadas; estas variâncias são estimadas de forma consistente pelos
estimadores atrás referidos, mesmo que Var (ut | xt • ) não seja constante (dependa de
xt • ). Assim, R 2 e R 2 são estimadores consistentes do coeficiente de determinação da
população, com ou sem heterocedasticidade condicionada. Deste modo, é falsa a seguin-
te frase que aparece em alguns manuais de econometria: “na presença de heterocedasti-
cidade, o R 2 da regressão MQ não tem sentido”.
O resultado (3.38) não é operacional para fazer inferência estatística porque a

matriz das covariâncias assintóticas não é conhecida, uma vez que depende das matrizes
Qxx = E ( xtT• xt • ) e S = E (ut2 xtT• xt • ) . Para dispor de um estimador consistente de
Cov a (b) = Qxx−1 S Qxx−1 ,
é necessário conhecer estimadores consistentes para aqueles parâmetros desconhecidos.

Como um estimador consistente de Qxx−1 é S xx−1 [ plim(S xx−1 ) = Qxx−1 ], basta obter um estima-
dor consistente para S, Ŝ . Uma vez conhecido este estimador, vem
^
(3.42) Cov a (b) = S xx−1 Sˆ S xx−1 .
Se as variáveis residuais fossem observáveis, um estimador consistente para S

seria a média amostral dos ut2 xtT• xt • ,
1 n 2 T
∑ ut xt• xt• .
n t =1
Como ut não é observável, propõe-se o estimador
1 n
Sˆ = ∑t =1 uˆt2 xtT• xt • ,
n
onde uˆt = yt − xt • β̂ , e β̂ é um estimador consistente de β (em particular, se β̂ = b , os
ût são os resíduos MQ).
A propriedade seguinte garante, em certas condições, a consistência de Ŝ .
Propriedade 3.4 – Supondo que existe S = E (ut2 xtT• xt • ) , e que existem os momentos
E{( xti xtj ) 2 } ( i, j = 1, 2, K , k ; qualquer que seja t), as hipóteses RPD.1 e RPD.5 impli-
cam que o estimador
1 n
(3.43) Sˆ = ∑t =1 uˆt2 xtT• xt •
n
é consistente para S.
Dem.: Ver secção 3B.2.

∇∇
O cálculo de Ŝ pode ser feito com (3.43). Contudo, fazendo gˆ t • = xt •uˆt e

 gˆ1• 
 
 gˆ 2• 
Gˆ =  ,
 M 
ˆ 
 gn• 
obtém-se
1 n 1 n 1
Sˆ = ∑t =1 uˆt2 xtT• xt • = ∑t =1 gˆ tT• gˆ t • = Gˆ T Gˆ .
n n n
Notando que S xx = (1 / n) X T X , pode escrever-se
^
Cov a (b) = n ( X T X ) −1 Gˆ T Gˆ ( X T X ) −1 ,
que é uma expressão alternativa a (3.42). Fazendo
1 n 1
Sˆ = ∑t =1 uˆt2 xtT• xt• = X T Φ
ˆX ,
n n
onde
uˆ12 L 0 
ˆ = M
Φ

M ,

 0 L uˆn2 
 
também se tem
^
ˆ X ( X T X ) −1 .
Cov a (b) = n ( X T X ) −1 X T Φ
Esta última expressão matricial, embora seja útil nalgumas situações, não deve
ser utilizada nos cálculos, porque a ordem, n, da matriz quadrada Φ̂ é, em geral, muito
elevada (n é a dimensão da amostra).
Fazendo
1 n 2 T 1
n
∑ u x x = X T ΦX ,
t =1 t t • t •
n
onde
u12 L 0 
 
Φ= M M ,
 0 L un2 
 
deve ficar bem claro que Φ̂ não é um estimador de Φ , tratando-se apenas de uma nota-
ção para representar estas matrizes diagonais.
Considerem-se as matrizes
^
Cov a (b) = Qxx−1 S Qxx−1 e Cov a (b) = S xx−1 Sˆ S xx−1 ,
e os elementos de ordem j das respectivas diagonais principais,

^
Vara (b j ) e Vara (b j ) .
A partir de (3.38), facilmente se conclui que

n (b j − β j ) d
→ N (0,1) .
Vara (b j )
Este resultado não permite fazer inferência estatística sobre o parâmetro β j ,

porque Vara (b j ) é desconhecida. Esta dificuldade pode ser contornada, substituindo a
variância assintótica de b j pelo respectivo estimador consistente:
 ^ 
plim  Var a (b j )  = Vara (b j ) .
 
Notando que
n (b j − β j ) n (b j − β j ) Vara (b j )
= ^
^
Vara (b j ) Var a (b j )
Vara (b j )
e que
 
 Vara (b j ) 
plim  ^  =1,
 Var a (b ) 
 j 
atendendo à propriedade b), que relaciona a convergência em probabilidade com a con-

vergência em distribuição, tem-se
n (b j − β j ) bj − β j d
(3.44) = → N (0, 1) ,
^ sb∗ j
Vara (b j )
onde
1 ^
sb∗j = Vara (b j )
n
é o erro padrão heterocedástico-consistente de b j . Este erro padrão também é conhe-
cido pelas designações de erro padrão heterocedástico-robusto ou erro padrão de
White. Esta terminologia justifica-se pelo facto de poder existir heterocedasticidade
condicionada das variáveis residuais.
 1 ^   1  ^ 
plim(sb∗ j ) = plim  Vara (b j )  = plim   plim  Vara (b j )  = 0 ,
  
 n   n  
ou seja, o erro padrão robusto de b j degenera no valor zero (como era de esperar, uma
vez que b j é estimador consistente).
∑
n 2 2
^ rˆ uˆ
t =1 tj t
Var (b ) =
a j 2
,
VT j
onde os r̂tj (t = 1, 2, K , n) são os resíduos MQ da regressão de x j sobre os outros re-

gressores, e VT j = Σtn=1 ( xtj − x ) 2 é a variação total do regressor x j .
No caso particular do MRL simples, yt = β1 + β 2 xt + ut , tem-se
∑
n
^ ( xt − x ) 2 uˆt2
Var (b ) =
a 2
t =1
,
VTx2
onde VTx = Σtn=1 ( xt − x ) 2 .

Quando se pretende fazer o teste da hipótese H 0 : β j = β 0j , contra uma alternati-
va unilateral ou bilateral, a estatística-teste é dada por
b j − β 0j d
(3.45) t =
∗
j → N (0, 1) ,
sb∗ j
designando-se t ∗j por rácio-t robusto, para o distinguir dos rácios-t do MRLCN.

Podem referir-se três diferenças essenciais entre este teste, e o teste correspon-
dente no contexto do MRLCN:
1) O rácio-t robusto é diferente do rácio-t clássico (o erro padrão é diferente);
2) O rácio-t robusto tem distribuição limite normal estandardizada;
3) A dimensão exacta do teste não é igual à dimensão nominal, α , embora se possa
ter uma boa aproximação quando a dimensão da amostra é grande. A diferença entre
as dimensões exacta e nominal do teste chama-se distorção da dimensão. Como t ∗j
tem distribuição limite normal estandardizada, esta distorção tende para 0 quando
n → +∞ .
O resultado (3.44) também permite a construção de intervalos de confiança de

nível 1 − α , aproximados.
Seja δ = Rβ , onde R é uma matriz m × k com característica igual a m ≤ k . Fa-

zendo δˆ = Rb , vai demonstrar-se que
−1
 ^
 d
(3.46) Q = n (δˆ − δ )T  R Cov a (b) R T  (δˆ − δ ) → χ 2 (m) .
 
Com efeito, começa-se por fazer Q = w•TnVn−1w•n , onde
^
w•n = n (δˆ − δ ) e Vn = R Cov a (b) R T .
Atendendo a (3.38), conclui-se facilmente que

d
w• n → w ~ N ( m ) (0, V ) ,
onde
V = R Cov a (b) R T .
Como plim(Vn ) = V , e as matrizes Vn e V têm inversa, utilizando a propriedade

f) que relaciona a convergência em probabilidade com a convergência em distribuição,
obtém-se
d
Q = w•TnVn−1w•n → wT V −1w .
Como w ~ N ( m ) (0, V ) , atendendo à propriedade 2) sobre distribuições de vecto-

res aleatórios (ver capítulo 2), vem wT V −1w ~ χ 2 (m) . Então, a distribuição limite de Q
é uma qui-quadrado com m graus de liberdade. Fica, assim, provado (3.46).
A expressão (3.46) pode escrever-se da seguinte maneira:
−1
Q = (δˆ − δ )T  R ( X T X ) −1 Gˆ T Gˆ ( X T X ) −1 R T  (δˆ − δ ) → χ 2 (m) .
d
 
Quadro 3.1
Teste de hipóteses no MRLCN e MRL-RPD
Hipótese nula MRLCN
H 0 : β j = β 0j bj − β 0
j
tj = ~ t (n − k )
sb j
H 0 : Rβ = δ 0 F=
(
(δˆ − δ 0 )T R ( X T X ) −1 R T )−1
(δˆ − δ 0 )
~ F (m, n − k )
ms 2
ou
Uˆ rT Uˆ r − Uˆ T Uˆ
F= ~ F (m, n − k )
ms 2
Hipótese nula MRL-RPD
H 0 : β j = β 0j bj − β 0
j
d
t ∗j = → N (0, 1)
sb∗ j
−1
H 0 : Rβ = δ 0  ^
 d
Q = n (δˆ − δ 0 )T  R Cov a (b) RT  (δˆ − δ 0 ) → χ 2 (m)
 

H 0 : Rβ = δ 0 contra H1 : Rβ ≠ δ 0 ,
onde δ 0 é um valor assumido pelo vector m × 1 , δ . A estatística-teste é dada por

−1
 ^  d
(3.47) Q = n (δˆ − δ 0 )T  R Cov a (b) RT  (δˆ − δ 0 ) → χ 2 (m) .
 
 
A obtenção da distribuição da estatística Q foi feita de acordo com o princípio
de Wald (ver secção 8.4 do capítulo 8) porque se baseia nos estimadores sem restrições
(não sujeitos à hipótese nula),
^
b e Cov a (b) .
Os resultados (3.45) e (3.47) diferem dos resultados homólogos referentes ao

MRLCN, dados por (2.75) e (2.81) [ou (2.82)], respectivamente. No quadro 3.1 faz-se o
resumo da aplicação destes resultados a testes de hipóteses.
Teste de hipóteses não lineares
O resultado (3.46) pode ser generalizado para testar um conjunto de restrições

não lineares sobre β .
Seja a função g : ℜ k → ℜ m , com primeiras derivadas contínuas, e ∇g ( β ) a ma-
triz Jacobiana, de tipo m × k , calculada em β , com característica igual ao número de
linhas [ r{∇g ( β )} = m ].
Suponha-se que se pretende testar a hipótese
H 0 : g (β ) = 0 .
Atendendo ao método delta [ver (3.11)] e a (3.38), tem-se

d
n{g (b) − g ( β )} → N ( m )  0, ∇g ( β ) Cov a (b) ∇g ( β )T  .
 
Como plim(b) = β ⇒ plim{∇g(b)} = ∇g ( β ) , e
 ^ 
plim  Cov a (b)  = Cov a (b) ,
 
obtém-se
 ^

plim  ∇g (b) Cov a (b) ∇g (b)T  = ∇g ( β ) Cov a (b) ∇g ( β )T .
 
Donde, atendendo à propriedade f) que relaciona a convergência em probabilidade
com a convergência em distribuição, vem
−1
 ^
 d
(3.48) Q = n {g (b) − g ( β )}  ∇g (b) Cov a (b) ∇g (b)T  {g (b) − g ( β )} → χ 2 (m) .
T
 
Este resultado é uma generalização de (3.46), onde g ( β ) = Rβ − δ .
A estatística-teste é, então, dada por
−1
 ^
 d
(3.49) Q = n g (b)  ∇g (b) Cov a (b) ∇g (b)T  g (b) → χ 2 (m) .
T
 
A escolha de g para representar um dado conjunto de restrições sobre β não é

única. Por exemplo, a restrição β1 β 2 = 1 pode ser apresentada na forma β1 β 2 − 1 = 0 ou
β1 − 1 / β 2 = 0 . Embora, (3.48) seja válido para qualquer escolha de g, os resultados nu-
méricos podem ser muito diferentes em pequenas amostras.
Suponha-se, por exemplo, que λ = − ln(β j ) , e que se pretende determinar o erro
padrão robusto de λˆ = − ln(b j ) . Devido ao método delta, tem-se
1
Vara (λˆ ) = 2 Vara (b j ) .
βj
Donde
^ 1 ^
Vara (λˆ ) = 2 Vara (b j ) ,
bj
ou
1 1 ^ sb∗ j
sλ̂ =
∗
Vara (b j ) = .
bj n bj
Pequenas amostras
No caso de pequenas amostras, a potência dos testes referidos pode ser clara-
mente inferior a 1, contra certas alternativas. Além disso, a probabilidade do erro de 1.ª
espécie pode ser muito diferente da dimensão escolhida para o teste.
Davidson e MacKinnon (1963) propõem, baseados em estudos de simulação, al-
gumas correcções da matriz Ŝ que podem atenuar o problema da sobre-rejeição da hi-
pótese nula.
As matrizes Ŝ corrigidas podem ser dadas pela seguinte expressão geral:
1 n
n
∑ c uˆ 2 x T x ,
t =1 t t t • t •
onde ct é o factor de correcção.

Os casos propostos são os seguintes:
n 1
⇒ Sˆ1 = ∑
n
1) ct = uˆ 2 x T x (correcção dos graus de liberdade);
t =1 t t • t •
n−k n−k
1 1 n uˆ 2
2) ct = ⇒ Sˆ2 = ∑t =1 t xtT• xt • ;
1 − ht n 1 − ht
1 ˆ =1 n uˆt2
3) ct =
(1 − ht ) 2
⇒ S 3
n
∑t =1
(1 − ht )
xT x ;
2 t• t•
onde ht = xt • ( X T X ) −1 xtT• é o elemento genérico da diagonal principal da matriz H X

(ver propriedade 2.3 dos resíduos MQ).
Deve, ainda, notar-se o seguinte:
− Como as matrizes H X e I n − H X são semidefinidas positivas, conclui-se imediata-
mente que 0 ≤ ht ≤ 1 ;
− Sabe-se que Var(uˆt | X ) = E (uˆt2 | X ) = σ 2 (1 − ht ) , quando se admite a hipótese de ho-

mocedasticidade condicionada. Então, no caso 2), o factor uˆt2 /(1 − ht ) é um estima-
dor não enviesado de σ 2 ;
− Quando ct = 1 , tem-se a matriz Ŝ (sem correcção);
− Tem-se: plim(Sî ) = S ( i = 1, 2, 3 ). Se se utilizarem os respectivos erros padrão corri-
gidos em (3.44), (3.46) e (3.48), mantêm-se as correspondentes distribuições limite.
3.6 - Implicações da homocedasticidade condicionada
Existe uma situação particular em que as estatísticas-teste referidas no quadro

3.1 são numericamente equivalentes: o cálculo do rácio-t clássico, t j , dá o mesmo re-
sultado que o cálculo do rácio-t robusto, t ∗j ; o cálculo do rácio-F clássico dá o mesmo
resultado que o cálculo de Q / m .
Esta situação particular corresponde à introdução da hipótese da homocedastici-
dade condicionada das variáveis residuais.
Hipótese RPD.6 – Homocedasticidade condicionada

As variáveis residuais são condicionalmente homocedásticas,
(3.50) E (ut2 | xt • ) = σ 2 > 0 (t ∈ T ) .
Evidentemente, a homocedasticidade condicionada implica homocedasticidade

marginal [ E (ut2 ) = σ 2 ], mas a recíproca não é verdadeira.
Quando se verifica a hipótese RPD.6, a matriz S de quartos momentos pode ser
expressa como um produto de segundos momentos,
(3.51) S = σ 2 E ( xtT• xt • ) = σ 2Qxx .
Com efeito,
S = E ( gtT• gt • ) = E (ut2 xtT• xt • ) = E{E (ut2 xtT• xt • | xt • )} = E{E (ut2 | xt • ) xtT• xt • } = σ 2 E ( xtT• xt • ) .
Esta igualdade mostra que ut2 não está correlacionado com qualquer elemento
da matriz xtT• xt • , uma vez que E (ut2 xtT• xt • ) = E (ut2 ) E ( xtT• xt • ) .
Devido a RPD.5, a matriz S tem inversa; então, a matriz Qxx também tem inver-
sa. Assim, as hipóteses RPD.5 e RPD.6 implicam a condição de característica (RPD.4).
De (3.51), resulta que
(3.52) Cov a (b) = σ 2 Qxx−1 .
Como plim(S xx ) = Qxx e plim(s 2 ) = σ 2 , tem-se plim ( s 2 S xx ) = σ 2Qxx = S . Donde

se conclui que
(3.53) Sˆ = s 2 S xx .
Então,
^
(3.54) Cov a (b) = s 2 S xx−1 = n s 2 ( X T X ) −1 .
Nestas condições, o erro padrão robusto coincide com o erro padrão clássi-
co. De facto,
1 ^
sb∗j = Vara (b j ) = s m jj = sb j ,
n
donde se conclui que t ∗j = t j (o rácio-t robusto é igual ao rácio-t clássico).
Assim,
b j − β 0j d
(3.55) t ∗j = t j = → N (0,1) .
sb j
Como
−1
Q = n (δˆ − δ 0 )T  R {n s 2 ( X T X ) −1} RT  (δˆ − δ 0 )
 
ˆ −1 T −1 ˆ
= (δ − δ ) {R ( X X ) R } (δ − δ 0 ) / s 2
0 T T
= (Uˆ TUˆ − Uˆ TUˆ ) / s 2 ,

r r
conclui-se imediatamente que

d
(3.56) Q = mF → χ 2 (m) .
Suponha-se que o MRL tem termo independente, e considere-se a hipótese nula
de que todos os coeficientes são iguais a zero, excepto o termo independente. Vai
provar-se que
d
n R 2 → χ 2 (k − 1) .
Com efeito, sabe-se que
R 2 /(k − 1)
F= ,
(1 − R 2 ) /(n − k )
ou
1
n R2 = (k − 1) F .
n−k 1
+ (k − 1) F
n n
Como
d
(k − 1) F → χ 2 (k − 1) ,
resulta que
1 
plim  (k − 1) F  = 0 ,
n 
e
n−k 1 
plim  + (k − 1) F  = 1 .
 n n 
Então a distribuição limite de n R 2 é a mesma de (k − 1) F .

Existem algumas variantes de (3.55) e de (3.56), respectivamente, que dão re-
sultados assintoticamente equivalentes. Uma variante possível consiste em substituir s 2
por σˆ 2 = Uˆ T Uˆ / n . Assim, as estatísticas-teste respectivas passam a ser
b j − β 0j Uˆ TUˆ − Uˆ TUˆ
t ′j = e Q′ = r r 2 ,
σˆ b j σˆ
onde σˆ b2j = σˆ 2 m jj e m jj é o elemento diagonal de ordem j da matriz ( X T X ) −1 .

Como plim ( s 2 − σˆ 2 ) = 0 , conclui-se imediatamente que
d d
t ′j → N (0,1) e Q′ → χ 2 (m) .
Outra variante de (3.55) consiste em considerar a distribuição t (n − k ) em vez

de N (0,1) . Como t (n − k ) converge em distribuição para N (0,1) ( n → +∞ , com k fi-
xo), tem-se
b j − β 0j d
(3.57) tj = → t (n − k ) .
sb j
Como F (m, n − k ) converge em distribuição para χ 2 (m) / m ( n → +∞ , com k

fixo), pode considerar-se a seguinte variante de (3.56):
d
(3.58) F → F (m, n − k ) .
Os resultados (3.57) e (3.58) mostram que se podem utilizar no MRL-RPD, com
homocedasticidade condicionada, as estatísticas-teste já conhecidas do MRLCN [no
entanto, note-se que se no modelo clássico não se considerar a hipótese REX.6, da nor-
malidade das variáveis residuais, não se conhecem a distribuições exactas do rácio-t e
do rácio-F, e, portanto, tem que se trabalhar com as respectivas distribuições limite:
(3.55) ou (3.57); (3.56) ou (3.58)].
Quando a amostra disponível é pequena, ou não é muito grande, põe-se a
questão de saber qual das variantes é a mais adequada. Como a distribuição exacta de-
pende do PGD, não há uma regra simples que permita escolher entre as distribuições
N (0,1) ou t (n − k ) , ou escolher entre as distribuições χ 2 (m) ou F (m, n − k ) . No en-
tanto, alguns estudos de simulação dão indicações que parecem suportar a escolha das
distribuições t (n − k ) e F (m, n − k ) , respectivamente.
Exemplo 3.1 – Retome-se o exemplo 1.3, e considere-se o modelo

ln(importt ) = β1 + β 2 ln( prmt ) + β 3 ln( pibt ) + ut ,
onde import designa as importações portuguesas a preços constantes; prm, o rácio entre
o índice de preços implícito nas importações e o índice de preços implícito no PIB; e
pib, o produto interno bruto português a preços constantes. Os dados disponíveis são
anuais e referem-se ao período de 1966 a 1984 (ver quadro 3.2).
A função de regressão ajustada é a seguinte:
^
ln(import t ) = 0.1296 − 0.3882 ln( prmt ) + 1.2425 ln( pibt ) ( s = 0.08374) .
Os erros padrão dos b j reportam-se no quadro 3.3. Estes resultados permitem

calcular os rácios-t respectivos. Verifica-se que para efectuar o teste de nulidade do coe-
ficiente de ln(prm), os valores-p são, respectivamente, 0.053, 0.009, 0.015, 0.023 e
0.055. No teste de nulidade do coeficiente de ln(pib), os valores-p respectivos são apro-
ximadamente iguais a zero.
Quadro 3.2
Importações, preços relativos e PIB (Portugal)
Anos import prm pib
1966 4.77 78.10 11.97
1967 4.48 85.30 12.87
1968 5.96 70.20 14.02
1969 6.42 63.70 14.31
1970 6.47 74.90 15.62
1971 7.41 72.40 16.65
1972 8.30 69.30 17.99
1973 9.35 72.00 20.00
1974 9.80 87.20 20.23
1975 7.33 86.60 19.35
1976 7.58 84.10 20.69
1977 8.49 86.00 21.85
1978 8.47 86.80 22.59
1979 9.44 96.40 23.99
1980 10.55 100.00 25.07
1981 11.13 107.30 25.17
1982 11.68 103.10 26.05
1983 10.83 106.90 25.97
1984 10.48 111.80 25.53
Quadro 3.3
Erros padrão
Erros padrão robustos, sb∗j , com a matriz
Regressores sb j Ŝ Ŝ1 Ŝ 2 Ŝ 3
Constante 0.59306 0.35984 0.39212 0.40941 0.47192
ln(prm) 0.18599 0.13010 0.14177 0.15485 0.18761
ln(pib) 0.12298 0.09727 0.10600 0.11865 0.14731
Por mera curiosidade indicam-se as matrizes Ŝ :

0.0059 0.0264 0.0179 0.0070 0.0313 0.0212

Ŝ = 0.0264 0.1180 0.0799 ; S1 =  0.0313 0.1402 0.0949
  ˆ
0.0179 0.0799 0.0542 0.0212 0.0949 0.0644
0.0067 0.0301 0.0203 0.0078 0.0351 0.0234

Sˆ2 =  0.0301 0.1347 0.0907  ; Sˆ3 =  0.0351 0.1567 0.1047 
 
 0.0203 0.0907 0.0612 0.0234 0.1047 0.0703
∇
Quando não se verifica a hipótese RPD.6, sabe-se que Cov a (b) = Qxx−1 S Qxx−1 . Ob-
viamente (3.54) não é estimador consistente desta matriz, uma vez que
plim(s 2 S xx−1 ) = σ 2Qxx−1 .
Além disso, o rácio-t clássico, dado por (3.55), não tem distribuição limite nor-
mal estandardizada; a estatística Q, referente a (3.56), não tem distribuição limite do
qui-quadrado.
Supondo verificada RPD.6, (3.54) é estimador consistente de (3.52). Também se
prova com facilidade que (3.42) estima de forma consistente (3.52). Com efeito, devido
a (3.51),
plim(S xx−1Sˆ S xx−1 ) = Qxx−1S Qxx−1 = σ 2 Qxx−1 = Cov a (b) .
Qual a razão para preferir s 2 S xx−1 a S xx−1 Sˆ S xx−1 para estimar σ 2Qxx−1 ? As proprieda-
des de pequenas amostras de um estimador são, em geral, melhores quanto menor é o
número de parâmetros que é necessário estimar. Para obter s 2 S xx−1 basta estimar um esca-
lar, σ 2 , e uma matriz, Qxx ; para calcular S xx−1 Sˆ S xx−1 é necessário estimar duas matrizes,
Qxx e S; logo, deve preferir-se s 2 S xx−1 .
3.7 - Heterocedasticidade condicionada e amostragem casual
Como se sabe, o MRL-RPD abrange a situação de heterocedasticidade condicio-

nada, isto é, admite-se que E (ut2 | xt • ) = σ t2 seja, em geral, função de xt • Pode conti-
nuar-se a estimar os parâmetros com o método dos mínimos quadrados, e fazer inferên-
cia estatística baseada no estimador MQ (estimador consistente e assintoticamente nor-
mal). Por exemplo, para efectuar testes de hipóteses, podem utilizar-se os rácios-t robus-
tos e a estatística Q, dados, respectivamente por (3.45) e (3.47).
Quando se introduz a hipótese RPD.6 [as variáveis residuais são condicional-
mente homocedásticas, E (ut2 | xt • ) = σ 2 > 0 ], verifica-se uma significativa simplificação
do modelo. Contudo, em muitas situações, sobretudo com dados seccionais, esta hipó-
tese é demasiado restritiva, sendo de admitir que existe heterocedasticidade condiciona-
da. Por exemplo, quando se pretende explicar, com dados seccionais por famílias, a des-
pesa em consumo de certos bens em função do rendimento, é natural supor que a variân-
cia do consumo cresce com o rendimento.
Considere-se um modelo de regressão a verificar as seguintes hipóteses:
− RPD.1 – Linearidade;
− RPD.2’ – O processo {( yt , xt • )} é iid;
− RPD.3’ – E (ut | xt • ) = 0 , qualquer que seja t;
− RPD.4 – A matriz Qxx = E ( xtT• xt • ) existe e tem inversa;
− RPD.5’ – A matriz S = E ( g tT• g t • ) = E (ut2 xtT• xt • ) existe e tem inversa.
As hipóteses novas, em relação às definidoras de um MRL-RPD, são as hipó-
teses RPD.2’ e RPD.3’:
− Em geral, quando se estuda o problema da heterocedasticidade, é natural introduzir a
hipótese simplificadora RPD.2’, porque, na prática, este problema é típico de mo-
delos com dados seccionais onde o processo de amostragem é casual.
− A hipótese RPD.3’, que já foi referida a propósito dos comentários feitos à hipótese
RPD.3, estabelece que os regressores são exógenos para a mesma observação t;
− A hipótese RPD.5’ é parte de RPD.5.
Facilmente se prova que se está em presença de um MRL-RPD, uma vez que se

verificam as hipóteses RPD.1 a RPD.5. Assim:
− A hipótese RPD.2’ implica RPD.2, uma vez que um processo iid é caso particular de
processo estacionário e ergódico.
− A hipótese RPD.3’ é mais forte que RPD.3 (os regressores são pré-determinados),
porque E (ut | xt • ) = 0 ⇒ E ( xt •ut ) = E ( gt • ) = 0 .
− Tem-se: E (ut | xt • ) = 0 ⇒ E (ut ) = 0 .
− A hipótese RPD.2’ implica que o processo {g t • } , onde g t • = xt •ut , é também iid. En-
tão, resulta imediatamente que este processo é uma diferença-martingala, uma vez
que se tem E ( gt • | gt −1,• , gt − 2,• , K) = E ( gt • ) = E ( xt •ut ) = 0 , devido à hipótese RPD.3.
− Obviamente que as hipóteses RPD.2’ e RPD.5’ implicam RPD.5.
Nas condições estabelecidas, pode concluir-se que:

− Não existe autocorrelação, já que o processo {ut } , onde ut = yt − xt • β , é iid.
− Há homocedasticidade marginal, isto é, E (ut2 ) é constante com t.
− Pode haver heterocedasticidade condicionada [em geral, σ t2 = E (ut2 | xt • ) é função de
xt • ].
Como {ut } é iid, pode escrever-se

E (ut | xt • ) = E (ut | XT ) e Var(ut | xt • ) = Var(ut | XT ) ,
o que significa que o modelo tanto pode ser encarado como um MRLC com heteroce-
dasticidade condicionada (verificam-se as hipóteses REX.1, REX.2, REX.4 e REX.5)
ou como um MRL-RPD (verificam-se as hipóteses RPD.1 a RPD.5).
Dispondo de uma amostra, (Y , X ) , pode construir-se a matriz
Var(u1 | x1• ) 0 L 0  σ 12 0 L 0 
   
  0 σ2 L 0 
2
 0 Var(u2 | x2• ) L 0
Σ= = M M ,
M M M M 
   
 0 0 L Var(un | xn • )  0 0 L σ n2 
  
onde σ t2 é, em geral, função de xt • : σ t2 = σ t2 ( xt • ) .
Como E (ut | xt• ) = E (ut | X ) e Var(ut | xt • ) = Var(ut | X ) , pode fazer-se
σ 12 0 L 0 
 
 0 σ 22 L 0 
(3.59) Σ = Cov(U | X ) = .
 M M M 
 
 0 0 L σ n2 
Este resultado pode ser obtido sem admitir que E (ut | xt • ) = 0 (RPD.3’), mas
mantendo a hipótese RPD.3, e supondo que o modelo tem termo independente.
Raramente, nas aplicações práticas, o padrão de heterocedasticidade condi-
cionada é conhecido (ver anexo 3C), já que não se conhece o comportamento da va-
riância σ t2 ( xt• ) . Neste caso, o modelo tem n + k parâmetros desconhecidos (os k coefi-
cientes de regressão, β j , e as n variâncias, σ t2 ) e não é possível estimar tantos parâme-
tros com apenas n observações.
No entanto, no caso de amostragem casual (ver as hipóteses RPD.1, RPD.2’,
RPD.3’, RPD.4 e RPD.5’), o modelo verifica as hipóteses clássicas, excepto REX.3. O
estimador MQ de β , b = ( X T X ) −1 X T Y , é linear e não enviesado, sendo também possí-
vel demonstrar que se trata de um estimador consistente. No entanto, não é BLUE, já
que não é o estimador mais eficiente na classe dos estimadores lineares não enviesados.
Devido à presença de heterocedasticidade condicionada, a matriz das covariân-
cias condicionadas de b já não é σ 2 ( X T X ) −1 , mas sim
Cov(b | X ) = ( X T X ) −1 X T Σ X ( X T X ) −1 = ( X T X ) −1 ∑t =1σ t2 xtT• xt• ( X T X ) −1 .

n
(3.60)

Cov(b | X ) = Cov{( X T X ) −1 X T Y | X } = ( X T X ) −1 X T Cov(Y | X ) X ( X T X ) −1 ,
uma vez que Cov(Y | X ) = Cov(U | X ) = Σ . Além disso, tem-se
σ 12 0 L 0   x1• 
  
[ ]  0 σ 2 L 0   x2•  = n σ 2 xT x ,
2
X T Σ X = x1T• x2T• L xnT•
M M M  M 
∑t =1 t t • t •
  
 0 0 L σ n2   xn • 
onde xtT• xt • é uma matriz quadrada de ordem k.

Como a diagonal da matriz Σ é completamente desconhecida, não é possível es-
timar esta matriz, e não é fácil propor outro estimador dos coeficientes de regressão.
Assim, tem de continuar a utilizar-se o estimador MQ de β , apesar da sua ineficiência,
e de a respectiva matriz das covariâncias condicionadas, dada por (3.60), depender de

Σ.
Quando o modelo é encarado como um MRL-RPD, sabe-se que b é CAN e que
um estimador consistente da matriz das covariâncias assintóticas de b é dado por
−1 −1
^
1  1 n  1 
(3.61) Cov a (b) = S Sˆ S xx−1 =  X T X   ∑t =1 uˆt2 xtT• xt •   X T X  .
−1
xx
n  n  n 
A este propósito, convém notar que
S = E ( gtT• gt • ) = E (ut2 xtT• xt • ) = E{E (ut2 xtT• xt • | xt • )} = E{E (ut2 | xt • ) xtT• xt • } = E (σ t2 xtT• xt • ) ,
uma vez que σ t2 = E (ut2 | xt • ) .
Exemplo 3.2 – Recapitula-se a estimação apresentada nos exemplos 2.6 e 2.9 do mode-
lo explicativo dos salários dos trabalhadores:
^
lsalart = 5.81505 + 0.055383 educt + 0.022988 expert + 0.003953 empct .
( s = 0.3755) .
Os erros padrão dos b j apresentam-se no quadro 3.4. Verifica-se que os erros
padrão robustos pouco diferem dos erros padrão clássicos, o que é sintoma de que a he-
terocedasticidade condicionada, que possivelmente existe, é fraca.
Efectuando os cálculos, conclui-se que, para efectuar os testes de nulidade indi-
vidual dos coeficientes dos três regressores, os valores-p associados a educ e exper são
aproximadamente iguais a zero, e o valor-p correspondente a empc é aproximadamente
0.1.
Quadro 3.4
Erros padrão
Erros padrão robustos, sb∗j , com a matriz
Regressores sb j Ŝ Ŝ1 Ŝ 2 Ŝ 3
Constante 0.07197 0.06600 0.06613 0.06618 0.06636
educ 0.00486 0.00456 0.00457 0.00457 0.00459
exper 0.00245 0.00254 0.00255 0.00255 0.00256
empc 0.00242 0.00239 0.00240 0.00240 0.00240
∇
3.8 - Teste da forma funcional
Nas secções 3.5 (com heterocedasticidade condicionada) e 3.6 (com homocedas-

ticidade condicionada) apresentaram-se os testes habituais relativos aos parâmetros do
MRL-RPD, tendo por base respectiva estimação MQ. Estes testes são válidos apenas no
caso em se supõe verdadeiras as hipóteses respectivas do MRL-RPD (hipótese a man-
ter). Nesta secção e nas secções 3.9 e 3.10 vai estudar-se alguns testes referentes às hi-
póteses do modelo.
Muitas vezes é necessário dispor de um teste para detectar não linearidades. Um

método muito usado consiste em somar ao modelo certas funções não lineares das variá-
veis, tais como quadrados e produtos de duas variáveis, e testar a significância dos no-
vos regressores. Contudo, antes de se apresentar o teste mais utilizado para a finalidade
referida, vão fazer-se algumas considerações gerais sobre a questão da geração de re-
gressores.
Seja o modelo de regressão linear, yt = xt • β + δ wt + ut , onde wt é uma variável
explicativa não observável (admite-se, para simplificar, que existe apenas uma variável
nestas condições). Suponha-se que wt é função de certas variáveis observáveis, isto é,
wt = h( zt • , α ) , onde h é uma função conhecida, zt • é um vector de variáveis observáveis
e α é um vector de parâmetros desconhecidos (este desconhecimento é a razão pela
qual wt é não observável). Em muitos casos, wt é função linear de zt • e de α . Se α̂ é
um estimador consistente de α , pode fazer-se wˆ t = h( zt • , αˆ ) . Pode, então, substituir-se
wt por ŵt no modelo original, obtendo-se yt = xt • β + δ wˆ t + vt (equação estimável). O
regressor ŵt designa-se por regressor gerado.
É razoável conjecturar que a regressão MQ de yt sobre xt • e ŵt fornece estima-
dores consistentes de β e δ . Que hipóteses se devem estabelecer para garantir a con-
sistência? Como plim(αˆ ) = α , é razoável supor, atendendo à lei dos grandes números,
que
1 n p
1 n p
n ∑t =1 t t n ∑t =1 tj t
ˆ
w u → E ( w u
t t ) e x ˆ
w → E ( xtj wt ) .
A partir destas relações, facilmente se demonstra que a ortogonalidade entre ut e

as variáveis explicativas do modelo original, xt • e wt , e a respectiva condição de carac-
terística são suficientes para que os estimadores MQ de β e δ sejam consistentes. Com
efeito, seguindo o mesmo raciocínio da demonstração da propriedade 3.1 considere-se o
respectivo erro de amostragem,
−1
 b   β  (1 / n)∑t =1 xtT• xt • (1 / n)∑t =1 xtT• wˆ t  (1 / n)∑ n xtT•ut 
n n
 ˆ −   =    ,
t =1
δ  δ   (1 / n)∑t =1 xt • wˆ t (1 / n)∑t =1 wˆ t   (1 / n)∑ wˆ t ut 

n n 2 n
 t =1 
onde os estimadores MQ de β e δ são b e δˆ , respectivamente. Então,
−1
 b   β  p  E ( xtT• xt • ) E ( xtT• wt )  E ( xtT•ut )
 ˆ −   →    =0.
δ  δ   E ( x w
t• t ) E ( w 2
t )   E ( w u )
t t 
A questão da inferência estatística é mais complicada. Os erros padrão e as es-

tatísticas-teste habituais obtidas a partir da equação yt = xt • β + δ wˆ t + vt , são, em geral,
inadequados porque não têm em conta a distribuição probabilística de α̂ . Contudo,
assintoticamente há pelo menos um caso em que esta distribuição pode ser ignorada. De
facto, quando E{∇α h( zt • , α ) ut } = 0 e δ = 0 , a distribuição limite de
 n (b − β ) 
 
 n (δˆ − δ )
é a mesma para os dois modelos (quer fosse possível utilizar wt como regressor, quer
substituindo wt por ŵt ). Note-se que E (ut | xt • , zt • ) = 0 (hipótese razoável no contexto
da geração de regressores) implica E{∇α h( zt • , α ) ut } = 0 , porque ut é ortogonal a qual-
quer função de xt • e zt • . Quando δ ≠ 0 , a inferência estatística referida nas secções 3.5
e 3.6 não é válida.
Muitas vezes, pretende-se testar H 0 : δ = 0 , para decidir quanto à inclusão do re-
gressor ŵt na equação estimável. Nas condições enunciadas, o rácio-t habitual tem dis-
tribuição limite normal estandardizada quando E (ut2 | xt • , wt ) = σ 2 (homocedasticidade
condicionada). No caso de heterocedasticidade condicionada, pode fazer-se o teste habi-
tual, mas usando o erro padrão robusto.
Retome-se a questão do teste da forma funcional. Como facilmente se compre-
ende, a inserção de quadrados e produtos de variáveis como regressores pode reduzir
drasticamente o número de graus de liberdade. Ramsey (1969) propôs um teste em que
o número de graus de liberdade não depende de k. Para isso, considere-se o modelo
yt = xt • β + ut , com a hipótese E (ut | xt • ) = 0 [ver (3.32) e os respectivos comentários].
Assim, não basta supor a hipótese RPD.3 [ver (3.31)], uma vez que deve garantir-se a
ortogonalidade entre a variável residual e qualquer função de xt • . Em particular, (3.32)
implica que ( xt • β )i , para qualquer i inteiro e positivo, é ortogonal a ut . O teste a efec-
tuar baseia-se, por exemplo, no modelo
yt = xt • β + δ 2 ( xt • β ) 2 + δ 3 ( xt • β )3 + δ 4 ( xt • β ) 4 + ut ,
em que a hipótese nula é a seguinte:

H 0 : δ 2 = 0 ∧ δ3 = 0 ∧ δ 4 = 0 .
Como ( xt • β )i não é observável, vão gerar-se os regressores yˆt2 , yˆt3 e yˆt4 , e con-
siderar a equação estimável,
yt = xt • β + δ 2 yˆt2 + δ 3 yˆt3 + δ 4 yˆt4 + vt ,
onde yˆt = xt •b e b é o estimador MQ de β que resulta da regressão de yt sobre xt • β .

No caso de homocedasticidade condicionada, pode fazer-se o teste habitual do rácio-F
de nulidade conjunta dos coeficientes das potências de ŷt . A distribuição limite deste
rácio é a distribuição do F-Snedcor com 3 e n − k − 3 graus de liberdade, uma vez que
se supõe que os coeficientes dos regressores gerados são nulos, e existe ortogonalidade
entre as potências de xt • β e ut . Quando existe heterocedasticidade condicionada, pode
recorrer-se a um resultado do tipo (3.47), onde a distribuição limite do qui-quadrado
tem 3 graus de liberdade. Os testes agora descritos são conhecidos pela designação de
testes RESET.
O teste RESET não é um teste geral de especificação, porque não é adequado
para testar outros aspectos importantes de especificação como sejam a omissão de variá-
veis, a heterocedasticidade condicionada ou a autocorrelação. Por exemplo, considere-se
o modelo yt = xt • β + δ wt + ut , onde E (ut | xt • , wt ) = 0 . Suponha-se que a variável expli-
cativa wt é omissa, mas se fosse considerada no modelo seria significativa. Quando wt
é omissa e o modelo utilizado para fazer o teste RESET é yt = xt • β + vt , não há qualquer
possibilidade de o teste concluir que o modelo está bem especificado, uma vez que os
regressores gerados são as potências de yˆt = xt •b (onde: b é o estimador de β quando o
vector dos regressores é xt • ; vˆt = yt − xt •b são os respectivos resíduos MQ), e não as po-
tências de yˆt = xt • βˆ + δˆ wt (onde: βˆ e δˆ são estimadores MQ de β e δ , respectiva-
mente; os resíduos MQ são uˆt = yt − xt • βˆ − δˆ wt ).
Se a variável omitida, wt , está correlacionada com xt • , existem regressores en-
dógenos, e o teste RESET não pode ser utilizado. No entanto, se E ( wt | xt • ) = xt •α (li-
near em xt • ) é imediato verificar que E ( yt | xt • ) é também linear em xt • . Com efeito,
E ( yt | xt • ) = E ( xt • β + δ wt + ut | xt • ) = xt • β + xt • (δ α ) = xt • ( β + δ α ) .
Fazendo wt = xt •α + et , onde E (et | xt • ) = 0 , obtém-se yt = xt • ( β + δ α ) + vt , onde

vt = ut + et e E (vt | xt • ) = 0 . Então, pode fazer-se o teste RESET deste modelo, não sen-
do possível detectar a variável omitida, wt .
A hipótese E ( wt | xt • ) = xt •α permite concluir que wt e xt • estão correlacionados
porque E ( wt xt • ) = E{E ( wt xt • | xt • )} = E{E ( wt | xt • ) xt • } = E{( xt •α ) xt • } ≠ 0 . Contudo, facil-
mente se conclui que a utilização do teste RESET não depende da intensidade (forte ou
fraca) daquela correlação.
Exemplo 3.3 – Retome-se o modelo do exemplo 3.2, onde as variáveis explicativas de

lsalar são educ, exper e empc. Acrescente-se, por exemplo, o quadrado e cubo dos valo-
res ajustados de lsalar. Assim,
^ ^
lsalart = β1 + β 2educt + β 3expert + β 4empct + δ 2 lsalart 2 + δ 3 lsalart3 + vt .
A hipótese nula do teste RESET é H 0 : δ 2 = 0 ∧ δ 3 = 0 . Supondo que existe ho-

mocedasticidade condicionada, o valor observado do rácio-F é 0.4398. Neste caso,
como a distribuição limite é uma F-Snedcor com 2 e 994 graus liberdade, o valor-p é
0.664. Então, não se rejeita a hipótese nula, isto é, a evidência estatística é favorável a
que a forma funcional do modelo original, com as variáveis explicativas consideradas, é
adequada. Se se acrescentasse a potência de expoente 4 dos valores ajustados de lsalar,
a conclusão seria semelhante, porque o valor-p subia para 0.8.
No caso de heterocedasticidade condicionada, o valor observado da estatística Q
[ver (3.47)] é 0.9958, em que a distribuição do qui-quadrado tem 2 graus de liberdade.
Como o respectivo valor-p é 0.608, mantém-se a evidência a favor da adequação do mo-
delo original.
Quando se acrescenta a variável explicativa qi, pode verificar-se que a estimação
MQ do novo modelo mostra que a esta variável é significativa (o rácio-t clássico é 6.6).
É óbvio que os testes RESET atrás efectuados não permitem detectar a omissão da va-
riável qi. Pode apenas testar se a forma funcional adoptada não é rejeitada quando se
consideram as variáveis explicativas educ, exper e empc.
∇
3.9 - Testes de heterocedasticidade condicionada
Como se sabe, os resultados obtidos no contexto do MRL-RPD (embora assintó-

ticos) permitem continuar a fazer inferência estatística sobre os parâmetros do modelo,
mesmo quando há heterocedasticidade condicionada, e é desconhecido o seu padrão.
Nestas circunstâncias, pode afirmar-se que os testes disponíveis para detectar heteroce-
dasticidade condicionada perdem muito da sua importância.
Apesar disso, nalguns casos é razoável testar a presença de heterocedasticidade
condicionada para fundamentar a escolha dos erros padrão do estimador MQ dos coefi-
cientes de regressão: clássicos ou robustos.
Considere-se o modelo yt = xt • β + ut , com termo independente. Vão manter-se
as hipóteses apresentadas no início da secção 3.7 (RPD.1, RPD.2’, RPD.3’, RPD.4 e
RPD.5’). De notar que a hipótese RPD.3’, E (ut | xt • ) = 0 , é particularmente importante
porque a classe de testes que se vai apresentar não é válida se se considerar a hipótese
mais fraca da ortogonalidade: E ( xt •ut ) = 0 . Assim, supõe-se que o modelo está correcta-
mente especificado, isto é, E ( yt | xt • ) = xt • β .
A formalização de qualquer teste de heterocedasticidade condicionada é a se-
guinte:
H 0 : E (ut2 | xt • ) = σ 2 contra H1 : E (ut2 | xt • ) depende de xt • .
Nestes testes, a hipótese nula contempla sempre o caso de homocedasticidade

condicionada, e a hipótese alternativa refere-se à heterocedasticidade condicionada.
Para testar H 0 vai considerar-se as covariâncias, Cov{h( xt • ), ut2 } , onde
h( xt • ) = [ h2 ( xt • ) h3 ( xt • ) L hq ( xt • ) ]
é uma função vectorial de xt • , com q − 1 componentes. Sob H 0 , estas covariâncias são

nulas, qualquer que seja a escolha de h( xt • ) . O teste é efectuado com base no modelo
ut2 = α1 + ht •α + vt ,
onde ht • = h( xt • ) , α = [ α 2 α 3 L α q ] T é um vector de parâmetros de tipo (q − 1) × 1 e

a característica da matriz Cov(ht • ) é igual a q − 1 (não há multicolinearidade exacta).
Sob H 0 , tem-se E (vt | ht • ) = E (vt | xt • ) = 0 , α = 0 e α1 = σ 2 . Deste modo, qual-
quer teste de heterocedasticidade condicionada resume-se a testar
H 0 : α = 0 contra H1 : α ≠ 0 .
Para usar os testes clássicos é necessário que a variável residual vt seja condi-
cionalmente homocedástica, ou seja, E (vt2 | xt • ) = σ v2 (constante). Sob H 0 , esta condição
implica que E (ut4 | xt • ) seja também constante [com efeito, como ut2 = σ 2 + vt e
ut4 = σ 4 + vt2 + 2σ 2vt , vem E (ut4 | xt • ) = σ 4 + σ v2 = κ 2 ]. A condição E (ut4 | xt • ) = κ 2 cha-
ma-se homokurtosis condicionada, e estabelece que o quarto momento de ut condi-
cionado por xt • é constante. A homokurtosis verifica-se sempre que ut é independente
de xt • . Caso contrário, pode acontecer que E (ut | xt • ) = 0 , E (ut2 | xt • ) = σ 2 e E (ut4 | xt • )
depende de xt • .
Na prática, não se pode fazer a regressão de ut2 sobre 1 e ht • porque ut não é

observável. Deve, então, substituir-se ut por ût (resíduos MQ do modelo original), e fa-
zer a regressão auxiliar de uˆt2 sobre 1 e ht • . Para testar H 0 : α = 0 , é imediato que po-
de usar-se, de acordo com o princípio de Wald, o rácio-F clássico que tem distribuição
limite F (q − 1, n − q) .
Alternativamente, baseado no princípio do multiplicador de Lagrange, pode
demonstrar-se que a estatística n R 2 , onde R 2 é o coeficiente de determinação da re-
gressão auxiliar, tem distribuição limite χ 2 (q − 1) (ver secção 3B.3). Em resumo, a me-
cânica deste teste é a seguinte:
1) Calcular os resíduos MQ do modelo proposto, yt = xt • β + ut : ût .
2) Fazer a regressão auxiliar MQ de uˆt2 sobre 1 e ht • .
3) A estatística-teste é
d
(3.62) n R 2 → χ 2 (q − 1) ,
onde R 2 é o coeficiente de determinação da regressão auxiliar.
Para esclarecer a importância da hipótese RPD.3’, deve notar-se o seguinte: co-

mo E ( xt •ut ) = 0 não implica E (ut | xt • ) = 0 , a mera hipótese de ortogonalidade não ga-
rante que xt • β seja a especificação correcta de E ( yt | xt • ) . Quando se faz um teste de
heterocedasticidade condicionada nestas condições, mediante a regressão MQ de uˆt2 so-
bre 1 e ht • , a detecção de “heterocedasticidade” pode apenas significar que a forma fun-
cional de E ( yt | xt • ) não está correcta.
Pode referir-se dois casos particulares, muito utilizados nas aplicações práticas,
de testes de heterocedasticidade condicionada: o teste de Breusch-Pagan e o teste de
White.
No teste de Breusch-Pagan (BP), faz-se h( xt • ) = [ xt 2 xt 3 L xtk ] ( q = k ). O
teste é baseado no modelo:
ut2 = α1 + α 2 xt 2 + α 3 xt 3 + L + α k xtk + vt .
d
(3.63) BP = n R 2 → χ 2 (k − 1) ,
onde R 2 é o coeficiente de determinação da regressão auxiliar MQ de uˆt2 sobre xt • .
Este teste é baseado no princípio do multiplicador de Lagrange, mas também po-
dia utilizar-se o rácio-F (princípio de Wald) para testar a nulidade de todos os coeficien-
tes da regressão auxiliar (excepto o termo independente). Pode provar-se que as estatís-
ticas BP e F são assintoticamente equivalentes.
No teste de White, supõe-se que ht • é formado por todos os elementos únicos e
não constantes da matriz xtT• xt • . Por exemplo, se yt = β1 + β 2 xt 2 + β 3 xt 3 + ut , tem-se
ht • = [ xt 2 xt 3 xt22 xt23 xt 2 xt 3 ] ( q = 6 ).
Neste exemplo, o teste é baseado no modelo:

ut2 = α1 + α 2 xt 2 + α 3 xt 3 + α 4 xt22 + α 5 xt23 + α 6 xt 2 xt 3 + vt .
A estatística-teste é dada por

d
(3.64) W = n R 2 → χ 2 (q − 1) ,
onde R 2 é o coeficiente de determinação da regressão auxiliar MQ de uˆt2 sobre 1 e ht •
(q é o respectivo número de regressores, incluindo o termo independente).
Alternativamente, com base no princípio de Wald, pode utilizar-se o rácio-F pa-
ra testar a nulidade de todos os coeficientes da regressão auxiliar (excepto o termo inde-
pendente), provando-se que as estatísticas W e F são assintoticamente equivalentes.
Os números de graus de liberdade das distribuições do qui-quadrado dos testes
de Breusch-Pagan e de White dependem de k (o número de regressores do modelo origi-
nal). No caso do teste de White, o número de regressores pode tornar-se muito elevado,
o que tende a reduzir a potência do teste. Por exemplo, se no modelo proposto existi-
rem oito regressores (incluindo o termo independente), vem q = 36 . Em geral, tem-se
q = k (k + 1) / 2 . O problema da potência do teste é ilustrado no exemplo 3.4.
Para mitigar este inconveniente, pode propor-se um teste, designado por teste de
White simplificado, que combina aspectos daqueles dois testes, e em que o número de
graus de liberdade não depende de k. Fazendo ht • = [ yˆt yˆt2 ], onde yˆt = xt •b (função li-
near de xt • ), a distribuição do qui-quadrado (distribuição limite da estatística-teste) tem
sempre dois graus de liberdade. Assim, o teste é baseado no modelo
ut2 = α1 + α 2 yˆt + α 3 yˆt2 + vt .
d
Ws = n R 2 → χ 2 (2) ,
onde R 2 é o coeficiente de determinação da regressão auxiliar MQ de uˆt2 sobre 1, ŷt e

yˆ t2 . O facto de se utilizarem os regressores gerados, ŷt e yˆ t2 , não prejudica a validade
do teste porque, sob a hipótese nula, tem-se α 2 = 0 e α 3 = 0 .
Exemplo 3.4 – Retome-se o exemplo 3.2. Pretende-se testar se existe heterocedasticida-

de condicionada. Quando se utiliza o teste de Breusch-Pagan, faz-se a regressão auxiliar
MQ de uˆt2 (quadrados dos resíduos MQ do modelo original) sobre 1, educt , expert e
empct , de forma a obter o respectivo coeficiente de determinação, o único resultado de
interesse para efectuar o teste. Tem-se BP = n R 2 = 1000 × 0.00166176 = 1.66176 . Como
o valor crítico da distribuição do qui-quadrado com 3 graus de liberdade, a 0.05, é 7.81
(o valor-p é 0.64), não se rejeita a hipótese da homocedasticidade condicionada.
No teste de White faz-se a regressão auxiliar MQ de uˆt2 sobre 1, educt , expert ,
empct , educt2 , expert 2 , empct2 , educt × expert , educt × empct e expert × empct . Obtém-
-se W = n R 2 = 1000 × 0.013975 = 13.975 . Como o valor crítico da distribuição do qui-
-quadrado com 9 graus de liberdade (número de coeficientes da regressão auxiliar sem
contar com o termo independente), a 0.05, é igual a 16.92 (o valor-p é aproximadamente
0.12), pode ainda concluir-se que não se rejeita a hipótese da homocedasticidade con-
dicionada.
No caso do teste de White simplificado, faz-se a regressão auxiliar de
^ ^
uˆt2 sobre 1, lsalart e lsalart 2 ,
obtendo-se Ws = n R 2 = 1000 × 0.00920578 = 9.20578 . Como o valor crítico da distribui-

ção do qui-quadrado com 2 graus de liberdade, a 0.05, é igual a 5.99 (o valor-p é aproxi-
madamente 0.01), a evidência aponta para rejeitar a hipótese da homocedasticidade con-
dicionada.
Na dúvida, a inferência estatística deve basear-se nos erros padrão robustos cal-
culados no exemplo 3.2.
∇
3.10 - Autocorrelação
Quando os dados são temporais pode ter-se uma situação de autocorrelação,

isto é, uma situação em que existe alguma covariância não nula entre as variáveis resi-
duais.
A propósito da hipótese RPD.5 foi observado que, se o modelo tem termo inde-
pendente, o processo {ut } das variáveis residuais é uma diferença-martingala, não ha-
vendo autocorrelação. Assim, a existência de autocorrelação implica que {g t • } , onde
g t • = xt •ut , não é uma diferença-martingala, não se verificando uma das hipóteses bási-
cas do MRL-RPD (RPD.5).
Quando se considera o modelo de regressão linear yt = xt • β + ut , se dispõe de n
observações ( t = 1, 2, K , n ), e se estabelece que Cov(ut , ut −s ) ≠ 0 ( s = 1, 2, K , n − 1) , sem
mais restrições, o número de autocovariâncias desconhecidas pode ser muito elevado,
podendo atingir m = n(n − 1) / 2 (se n = 20 , m = 190 ). Como o número de parâmetros
desconhecidos excede o número de observações, é necessário impor algumas condições
sobre as covariâncias entre as variáveis residuais de forma a reduzir o número de parâ-
metros a estimar.
A hipótese da estacionaridade em covariância permite escrever
γ s = Cov(ut , ut −s ) ,
o que introduz uma redução drástica no número de autocovariâncias desconhecidas.
Com efeito, se existirem n observações, o número de autocovariâncias (coeficientes de
autocorrelação) a estimar é de n − 1 . Tem-se, então,
 γ0 γ1 L γ n −1   1 ρ1 L ρ n −1 
γ γ0 L γ n − 2   ρ 1 L ρ n − 2 
(3.65) Cov(U ) = Σ =  1 2 
= σu 1
.
 M M M   M M M 
   
γ n −1 γ n−2 L γ0   ρ n −1 ρn − 2 L 1 
Esta redução do número de autocovariâncias ainda não é suficiente, pois existem

agora n + k parâmetros desconhecidos (os k coeficientes de regressão, β j ; a variância,
σ u2 = γ 0 ; as n − 1 autocovariâncias, γ t , t = 1, K , n − 1 ).
Quando existe autocorrelação, podem adoptar-se três procedimentos:
1) A existência de autocorrelação pode ser um sintoma de inadequada especificação
do modelo. Com efeito, quando se estabelece a relação yt = xt • β + ut , e se admite
que todas as variáveis explicativas relevantes estão incluídas na componente siste-
mática do modelo, xt • β , é razoável esperar que as variáveis residuais não estão
autocorrelacionadas. Contudo, se existirem variáveis explicativas relevantes que
não foram explicitadas naquela componente, estas variáveis omitidas estão abrangi-
das pela variável residual. Se alguma daquelas variáveis omitidas estiver autocorre-
lacionada (como sucede com muitas variáveis económicas), obviamente também
existe autocorrelação nas variáveis residuais. Deste modo, a autocorrelação pode
ser um indicador de uma inadequada especificação do modelo. Nestas condições,
é natural que o investigador procure alterar a especificação do modelo, aprofun-
dando a análise do fenómeno em estudo. Em muitos casos, esta reformulação passa
por alterar a estrutura dinâmica do modelo (por exemplo, introduzindo mais desfa-
samentos nas variáveis de forma a obter um modelo dinamicamente completo).
2) Admitir que a autocorrelação é inerente ao fenómeno em estudo, e introduzir mais
restrições sobre as covariâncias, modelando o comportamento das variáveis resi-
duais. Neste caso, procura estabelecer-se um padrão de autocorrelação.
3) Aceitar a existência de autocorrelação sem conhecer o seu padrão, e estimar os pa-
râmetros com o método MQ, calculando os respectivos erros padrão robustos.
Na prática, provavelmente o procedimento mais utilizado é o primeiro. O segun-

do, vai ser explorado nesta subsecção, embora seja a via menos interessante. O terceiro
procedimento vai ser explorado no final desta secção.
O padrão de autocorrelação mais conhecido estabelece que as variáveis ut se-
guem um processo auto-regressivo de primeira ordem,
(3.66) ut = ϕ ut −1 + ε t ,
onde {ε t } é um ruído branco, isto é, qualquer que seja t, E (ε t ) = 0 , Var(ε t ) = σ ε2 , e

quaisquer que sejam t e s, Cov(ε t , ε s ) = 0 para t ≠ s ; escreve-se ut ~ AR (1) .
Como se sabe (ver secção 3.2), este processo é estacionário em covariância se e
só se | ϕ | < 1 . Tem-se:
− ut = ε t + ϕ ε t −1 + ϕ 2ε t −2 + L ;
− E (ut ) = 0 ;
σ ε2
− Var (ut ) = σ = 2
;
1−ϕ 2
u
ϕs
− Cov(ut , ut −s ) = γ s = σ u2 ϕ s = σ ε2 ;
1−ϕ 2
− ρs = ϕ s ( s = 0,1, 2, K) .
Então,
 1 ϕ L ϕ n −1 
 
1  ϕ 1 L ϕ n−2 
(3.67) Cov(U ) = Σ = σ ε
2
.
1−ϕ2  M M M 
 n −1 n − 2 
ϕ ϕ L 1 

Neste caso, o modelo tem apenas k + 2 parâmetros desconhecidos (os k coefi-
cientes de regressão, β j , a variância de ε t , σ ε2 , e o parâmetro do processo auto-regres-
sivo de primeira ordem, ϕ ).
Outra especificação possível do comportamento das variáveis residuais é dada
pelo processo de médias móveis de primeira ordem,
(3.68) ut = ε t + θ ε t −1 ,
onde {ε t } é um ruído branco. Escreve-se então, ut ~ MA(1) .

Tem-se (ver secção 3.2):
− E (ut ) = 0 ;
− Var(ut ) = σ u2 = σ ε2 (1 + θ 2 ) ;
− Cov(ut , ut −1 ) = γ 1 = σ ε2θ ; Cov(ut , ut − s ) = γ s = 0 ( s = 2, 3,K) ;

θ
− ρ1 = ; ρ s = 0 ( s = 2, 3,K) .
1+θ 2
Então,
1 + θ 2 θ L 0 
 
2 θ 1+θ 2 L 0 
(3.69) Cov(U ) = Σ = σ ε  .
M M M 
 
 0 0 L 1+θ 2

Neste caso, o modelo tem k + 2 parâmetros desconhecidos (os k coeficientes de
regressão, β j , a variância de ε t , σ ε2 , e o parâmetro do processo de médias móveis de
primeira ordem, θ ).
Podem definir-se com facilidade processos AR e MA de ordens superiores à pri-
meira. Assim, tem-se um processo AR(p) quando
ut = ϕ1ut −1 + ϕ 2ut −2 + L + ϕ p ut − p + ε t .
Os processos MA(q) são definidos por

ut = ε t + θ1 ε t −1 + θ 2 ε t −2 + L + θ q ε t −q .
É possível combinar os dois tipos de processos,

ut = ϕ1ut −1 + ϕ 2ut −2 + L + ϕ p ut − p + ε t + θ1 ε t −1 + θ 2 ε t −2 + L + θ q ε t −q ,
obtendo-se os processos ARMA(p,q). Estes processos mais gerais vão ser estudados no
capítulo 9.
Propriedades do estimador MQ na presença de autocorrelação
De acordo com a propriedade 3.1, as hipóteses RPD.1 a RPD.4 bastam para pro-
var que o estimador MQ de β é consistente, mesmo que haja heterocedasticidade con-
dicionada e autocorrelação.
Quando existe autocorrelação, e o modelo tem termo independente, não se veri-
fica a hipótese RPD.5, e o estimador b não verifica (3.38). Em particular, a respectiva
matriz das covariâncias assintóticas não é dada por (3.39). Deste modo, os resultados
para a inferência estatística apresentados nas secções 3.5 e 3.6 deixam de ser válidos.
Apresentam-se a seguir dois exemplos que ajudam a esclarecer as relações entre
a consistência do estimador MQ e a autocorrelação:
− Considere-se que o valor esperado de yt condicionado por yt −1 é linear, isto é, seja o
modelo
E ( yt | yt −1 ) = α + β yt −1 ,
onde se supõe que | β | < 1 .

Fazendo ut = yt − E ( yt | yt −1 ) = yt − (α + β yt −1 ) , facilmente se verifica que
yt = α + β yt −1 + ut
E (ut | yt −1 ) = 0 .
Como, por construção, este modelo satisfaz a hipótese RPD.3, fica garantido que os
estimadores MQ dos coeficientes de regressão são consistentes, haja ou não haja au-
tocorrelação dos ut . A condição E (ut | yt −1 ) = 0 garante a não correlação de ut com
yt −1 , mas ut e yt −2 podem estar correlacionados.
Neste caso, como ut −1 = yt −1 − (α + β yt − 2 ) , tem-se
Cov(ut , ut −1 ) = E (ut ut −1 ) = E{ut ( yt −1 − α − β yt − 2 )}
= − β E (ut yt − 2 ) = − β Cov(ut , yt − 2 ) ≠ 0 ,
se Cov(ut , yt − 2 ) ≠ 0 . Assim, obtém-se um modelo em que o regressor (a variável ex-

plicada desfasada) é pré-determinado, existe autocorrelação das variáveis residuais,
mas os estimadores MQ dos coeficientes de regressão são consistentes.
− Considere-se, agora, o modelo
yt = α + β yt −1 + ut
ut = ϕ ut −1 + ε t ( | ϕ | < 1)
E (ε t | ut −1 , ut − 2 , K) = E (ε t | yt −1 , yt − 2 , K) = 0 .

Cov( yt −1 , ut ) = E ( yt −1ut ) = E{ yt −1 (ϕ ut −1 + ε t )}
= ϕ E ( yt −1ut −1 ) = ϕ Cov( yt −1 , ut −1 ) ≠ 0 ,
isto é, não se verifica a hipótese RPD.3. Neste caso, os estimadores MQ dos coefi-
cientes de regressão não são consistentes.
Mas qual é o interesse em estimar os coeficientes de regressão do modelo anterior,

quando ut ~ AR (1) ? Considerar o regressor yt −2 implica que a autocorrelação desa-
parece? Com efeito, notando que ut −1 = yt −1 − (α + β yt −2 ) , obtém-se
yt = α + β yt −1 + ut = α + β yt −1 + ϕ ut −1 + ε t = α + β yt −1 + ϕ ( yt −1 − α − β yt − 2 ) + ε t ,
ou
yt = δ 0 + δ1 yt −1 + δ 2 yt − 2 + ε t ,
onde: δ 0 = α (1 − ϕ ) ; δ 1 = β + ϕ ; δ 2 = −ϕ β . Verifica-se, portanto, que a variável yt

segue um processo AR(2), e não há autocorrelação nas variáveis residuais. Neste
caso, os estimadores MQ dos δ j são consistentes.
Testes de autocorrelação
A detecção de autocorrelação é feita por meio de testes de hipóteses, onde a

hipótese nula é sempre a da ausência de autocorrelação.
Nesta subsecção vão estudar-se vários métodos para testar a existência de auto-
correlação, supondo, para simplificar, que o modelo de regressão tem termo indepen-
dente.
Começa por apresentar-se um teste do t para o caso particular em que a hipótese
alternativa é a de que as variáveis residuais seguem um processo AR(1) nos moldes
atrás referidos.
A mecânica do teste, conhecido pela designação de teste de Durbin alternati-
vo, é a seguinte:
1) Obter os resíduos MQ, ût , do modelo de regressão proposto.
2) Fazer a regressão de ût sobre uˆt −1 e os regressores originais do modelo de regres-
são, de modo a obter o estimador ϕ̂ do coeficiente de uˆt −1 . O respectivo rácio-t tem
distribuição limite normal estandardizada,
d
tϕˆ → N (0,1) ,
supondo a hipótese nula verdadeira.

3) Utilizar a estatística tϕ̂ para efectuar o teste, reportando o respectivo valor-p.
A apresentação dos testes de detecção de autocorrelação em geral (no MRL

com regressores pré-determinados) necessita que se faça previamente um estudo mais
geral, considerando um processo estocástico {zt } , estacionário em covariância.
Como se sabe, as autocovariâncias e os coeficientes de autocorrelação de ordem
s são, respectivamente,
γ s Cov( zt , zt −s )
γ s = Cov( zt , zt −s ) e ρ s = = ( s = 0,1, 2, K) .
γ0 Var( zt )
Dispondo de uma amostra de dimensão n deste processo, {z1 , z2 ,K, z n } , pode

obter-se as respectivas autocovariâncias amostrais, e os respectivos coeficientes de
autocorrelação amostrais de ordem s ( s = 0,1, 2, K) :
∑
n
1 n γˆ ( zt − z n )( zt −s − z n )
(3.70) γˆs = ∑t =s +1 ( zt − z n )( zt −s − z n ) ; ρˆ s = s = t = s +1
,
γˆ0 ∑t =1 ( zt − zn ) 2
n
n
onde
1 n
zn = ∑ zt .
n t =1
Deve notar-se que embora na expressão de γˆ s haja apenas n − s parcelas, a so-
ma é dividida por n, e não por n − s . Esta diferença não é importante no caso de grandes
amostras, mas pode ser substancial quando se tem uma amostra pequena.
Facilmente se prova que se {zt } é estacionário e ergódico, então γˆ s é consisten-
te para γ s ,
(3.71) plim(γˆs ) = γ s ( s = 0,1, 2, K) .
Com efeito, como

γ s = E ( zt zt −s ) − E ( zt ) E ( zt −s ) = E ( zt zt −s ) − µ z2 ,
onde µ z = E ( zt ) = E ( zt −s ) , e
1 n  1 n 1 n n−s 
γˆs =
n
∑ z z −  z n ∑t =s +1 zt −s + z n ∑t =s +1 zt −
t = s +1 t t − s
 n n n
( zn ) 2  ,

tem-se
1 n 
plim  ∑t =s +1 zt zt −s  = E ( zt zt −s ) ,
n 
 1 n 1 n n−s 
plim  z n ∑t =s+1 zt −s + z n ∑t =s +1 zt − ( zn ) 2  = µ z2 + µ z2 − µ z2 = µ z2 ,
 n n n 
ficando, assim, provado (3.71).
(3.72) plim(ρˆ s ) = ρ s ( s = 0,1, 2, K) .
Em particular, se {zt } é não autocorrelacionado, todos os coeficientes de auto-

correlação convergem em probabilidade para 0. Embora estes resultados sejam impor-
tantes, é necessário conhecer a distribuição assintótica de ρ̂ s . Pode provar-se que:
Teorema 3.9 [Hall e Heyde (1980)]

Suponha-se que zt = µ + ε t , onde o processo {ε t } é uma diferença-martingala estacio-
nária a verificar E (ε t2 | ε t −1 , ε t −2 , K) = σ 2 > 0 (auto-homocedasticidade condicionada).
Seja:
 γˆ1   ρˆ1 
γˆ   ρˆ 
γˆ =   ; ρˆ =   .
2 2
M  M 
   
γˆ p   ρˆ p 
Então,
d d
(3.73) n γˆ → N ( p ) (0, σ 4 I p ) e n ρˆ → N ( p ) (0, I p ) .
Dem.: Ver secção 3D.3

∇∇
O processo {ε t } considerado no teorema anterior é mais geral do que um ruído

branco independente, mas o segundo momento condicionado tem que ser constante.
Para testar isoladamente se existe autocorrelação de ordem s, a hipótese nula é
H 0 : ρ s = 0 . O teorema anterior garante que a respectiva estatística-teste tem distribui-
ção limite normal estandardizada,
d
(3.74) n ρˆ s → N (0,1) ( s = 1, 2, K , p) .
Tem particular interesse o teste de autocorrelação de 1.ª ordem. Neste caso, a hi-
pótese nula é H 0 : ρ1 = 0 .
Também se pode testar se várias autocorrelações (da ordem 1 até à ordem p) são
conjuntamente nulas: H 0 : ρ = 0 , onde
ρ 
 1
ρ
ρ =  2  .
M
 
 ρ p 
Atendendo a (3.73), os elementos do vector

 n ρˆ1 
 
 n ρˆ 2 
n ρˆ =
 M 
 
 n ρˆ p 
são assintoticamente independentes, e cada um deles tem distribuição limite normal es-
tandardizada,
d
n ρˆ s → N (0,1) ( s = 1, 2, K , p) .
Fazendo a soma dos quadrados destas variáveis aleatórias, obtém-se a estatística

Q de Box-Pierce, que tem distribuição limite do qui-quadrado com p graus de liberda-
de,
2 d
QBP = n ∑ s =1 ρˆ s2 = ∑ s =1  n ρˆ s  → χ 2 ( p) .
p p
(3.75)
 
Pode dispor-se de uma estatística alternativa a esta, chamada estatística Q de
Ljung-Box, assintoticamente equivalente. Tem-se
ρˆ s2 n+2 
2 d
QLB = n(n + 2) ∑ s =1 = ∑ s =1
p p
(3.76)  n ρ
ˆ s  → χ ( p) .
2
n−s n−s  
Para provar a equivalência assintótica entre (3.75) e (3.76) basta verificar que a
diferença QBP − QLB converge em probabilidade para 0. Seja
p  n + 2   2
QBP − QLB = ∑ s =1 1 − ρ 
s  = a• n w• n ,
T
ˆ
 n − s  
n
  
onde
 n+2  2
1 −   n ρˆ  
 n −1 
  
1
 
1 − n + 2   
2

n − 2   n ρ2  
ˆ
a• n =   e w = 
 •n 
 .

 M   M 
   
1 − n + 2   n ρˆ  
2
 n − p   
  
p
Como
 w1 
 
d w2
lim a• n = 0 e w• n → w =   ,
n → +∞ M 
 
 wp 
com ws ~ χ 2 (1) ( s = 1, 2, K , p) , então, devido à propriedade c) que relaciona a conver-

gência em probabilidade com a convergência em distribuição, conclui-se imediatamente
que plim (QBP − QLB ) = 0 .
Muitas vezes, com pequenas amostras, (3.76) fornece resultados mais aproxima-
dos do que (3.75). Em qualquer dos casos, não se têm indicações para a escolha de p. Se
p é demasiado pequeno, há o perigo de ignorar autocorrelações de ordem superior; se p
é demasiado grande, os resultados, para pequenas amostras, podem deteriorar-se.
Retome-se o MRL-RPD, a verificar as hipóteses RPD.1 a RPD.5, e o processo
{ut } das variáveis residuais. Como se admite que o modelo tem termo independente,
tem-se E (ut ) = 0 . Então,
γ s E (ut ut −s )
γ 0 = E (ut2 ) = σ 2 ; γ s = E (ut ut −s ) ( s = 1, 2, K) ; ρ s = = .
γ0 σ2
Se as variáveis residuais fossem observáveis, os coeficientes de autocorrelação
amostrais seriam dados por
γ~
(3.77) ρ~s = ~s ( s = 1, 2, K) ,
γ 0
onde
1 n
(3.78) γ~s = ∑ ut ut −s (s = 0,1, 2,K) .
n t = s +1
Como o processo {ut ut − s } é estacionário e ergódico, conclui-se que:
d
− plim(γ~s ) = γ s ; plim( ρ~s ) = ρ s ; n ρ~s → N (0,1) ;
p n+2
2 d 2 d
− QBP = ∑ s =1  n ρ~s  → χ 2 ( p) ; QLB = ∑ s =1  n ρ~s  → χ ( p) .
p 2
  n−s  
Como as variáveis residuais não são observáveis, deve utilizar-se os resíduos
MQ, ût . Assim, tem-se
γˆ s
(3.79) ρˆ s = ( s = 1, 2, K) ,
γˆ0
onde
1 n
(3.80) γˆ s = ∑ uˆt uˆt −s (s = 0,1, 2,K) .
n t = s +1
[Note-se que a soma dos resíduos é nula, pois o modelo tem termo independente].
Quando se utiliza (3.79) em (3.75) e (3.76), põe-se a seguinte questão: as respec-
tivas estatísticas QBP e QLB têm distribuições limite do qui-quadrado, sendo então pos-
sível testar a autocorrelação? A resposta a esta questão é afirmativa no caso em que os
regressores são estritamente exógenos (ver secção 3D.4).
Quando os regressores são pré-determinados, não está garantido que se veri-
fique E ( xt •ut − s ) = 0 e E ( xt − s ,•ut ) = 0 . Logo, as estatísticas Q podem não ter distribuição
limite do qui-quadrado, e, portanto, têm de ser modificadas.
Para este efeito, considerem-se as seguintes condições:
1) E (ut | ut −1 , ut −2 , K , xt • , xt −1,• , K) = 0 ;
2) E (ut2 | ut −1 , ut −2 , K , xt • , xt −1,• , K) = σ 2 > 0 .
A condição 1) é meramente a reprodução de (3.36); é uma hipótese mais forte

de pré-determinação, e implica (3.34) [o processo {g t • } , onde g t • = xt •ut , é uma dife-
rença-martingala]. A condição 2) é uma hipótese mais forte de auto-homocedasticidade
condicionada – comparada com a do teorema de Hall e Heyde –, uma vez que o conjun-
to de variáveis aleatórias condicionantes inclui também as observações correntes e pas-
sadas dos regressores.
O teorema seguinte permite estabelecer uma modificação da estatística QBP ,

apropriada para testar autocorrelação em modelos com regressores pré-determinados.
Teorema 3.10
Considere-se um modelo de regressão a satisfazer as hipóteses RPD.1, RPD.2, RPD.4 e
as condições 1) e 2). Se ρ̂ s é dado por (3.79) então,
d d
(3.81) n γˆ → N ( p ){ 0, σ 4 ( I p − Φ)} e n ρˆ → N ( p ) (0, I p − Φ ) ,
onde o elemento φsr da matriz quadrada de ordem p, Φ , é dado por

E ( xt •ut − s ) E ( xtT• xt • ) −1 E ( xtT•ut − r )
(3.82) φsr = ( s, r = 1, 2, K , p ) ,
σ2
e os vectores γˆ e ρ̂ são definidos tal como em (3.73).
Dem.: Ver secção 3D.5.

∇∇
De acordo com o teorema da ergodicidade, a matriz Φ̂ é um estimador consis-

tente de Φ , onde
1 n  1 n 
 ∑t = s +1 xt •uˆt − s  S xx−1  ∑t = r +1 xtT•uˆt − r 
n n
(3.83) φˆsr =  
2
 ( s, r = 1, 2, K , p ) ,
s
e
1
∑
n
s2 = uˆ 2 .
t =1 t
n−k
Nestas condições, a estatística Q de Box-Pierce modificada é a seguinte:
d
(3.84) QBP ˆ ) −1 ρˆ → χ 2 ( p ) .
′ = n ρˆ T ( I p − Φ
Embora o cálculo desta estatística não seja difícil, é útil conhecer uma estatísti-
ca assintoticamente equivalente, que pode ser calculada mediante duas regressões
MQ:
1) Regressão de yt sobre xt • (regressão correspondente ao modelo proposto), com o
objectivo de calcular os respectivos resíduos MQ, ût .
2) Regressão auxiliar de ût sobre xt • , uˆt −1 , uˆt −2 , K , uˆt − p , com t = p + 1, p + 2, K , n .
Em alternativa, esta regressão auxiliar pode ser feita com n observações, mas
para isso é necessário atribuir valores aos resíduos uˆ0 , uˆ −1 , K , uˆ − p+1 . Pouco importa
quais são estes valores, pois isso não altera os resultados assintóticos, mas é aconselhá-
vel propor valores iguais aos respectivos valores esperados, ou seja, zero.
A regressão auxiliar do passo 2) permite calcular o rácio-F para testar a hipótese
de nulidade conjunta dos coeficientes de uˆt −1 , uˆt −2 , K , uˆt − p . Atendendo a (3.56), é de es-
perar que
d
(3.85) pF → χ 2 ( p) .
Esta conjectura é, de facto, verdadeira. Assim, atendendo a (3.84), basta provar
′ e pF são assintoticamente equivalentes (a diferença entre estas duas estatísticas
que QBP
converge em probabilidade para 0).
Teorema 3.11
ˆ ) −1 ρˆ , dada por (3.84), e pF , referida em (3.85), são
′ = n ρˆ T ( I p − Φ
As estatísticas QBP
assintoticamente equivalentes.
Dem.: Ver secção 3D.6.

∇∇
Além disso, é possível demonstrar que as estatísticas pF e (n − p) R 2 , onde R 2 é

o coeficiente de determinação relativo à regressão auxiliar, são assintoticamente equiva-
lentes.
Com efeito, sabe-se que o rácio-F pode ser calculado com uma fórmula seme-
lhante a (2.80) [ver capítulo 2], utilizando as somas dos quadrados dos resíduos MQ
com restrições e sem restrições. Neste caso, a regressão sem restrições é a regressão au-
xiliar, e seja Vˆ TVˆ a respectiva soma dos quadrados dos resíduos MQ. A regressão com
restrições corresponde a fazer a regressão de ût sobre xt • . Como xt • não tem qualquer
poder explicativo nesta regressão, conclui-se que VˆrTVˆr = Uˆ TUˆ .
Então,
Uˆ TUˆ − Vˆ TVˆ R2
pF = (n − k − p ) = ( n − k − p ) ,
Vˆ TVˆ 1 − R2
notando que, neste caso,
Vˆ TVˆ
R2 = 1 − .
Uˆ TUˆ
Resolvendo aquela igualdade em relação a R 2 e multiplicando por n − p , ob-
tém-se
n− p 1
(n − p) R 2 = × pF ,
n − k − p 1 + n−pF
k− p
ou
 n− p 1 
pF − (n − p ) R 2 = 1 − ×  pF .
 n − k − p 1 + pF 
 n−k − p 
Atendendo a (3.85), e como

n− p  pF 
lim = 1 e plim   = 0,
n→+∞ n−k − p n−k − p
vem imediatamente que
plim{ pF − (n − p) R 2 } = 0 .
Então, tem-se
d
(n− p) R 2 → χ 2 ( p) .
O teste para detectar autocorrelação baseado neste resultado designa-se por teste
de Breusch-Godfrey, e a respectiva estatística-teste é BG = (n − p) R 2 .
Em resumo, o procedimento para efectuar este teste é o seguinte:
1) Calcular os resíduos MQ, ût , do modelo proposto.
2) Fazer a regressão auxiliar dos resíduos MQ sobre os mesmos resíduos desfasados
até à ordem p, uˆt −1 , uˆt −2 , K , uˆt − p , e os regressores considerados no modelo proposto.
d
(3.86) BG = (n − p) R 2 → χ 2 ( p) ,
onde R 2 é o coeficiente de determinação da regressão auxiliar; a região de rejeição
encontra-se na aba direita da distribuição.
Quando se faz a regressão auxiliar com as n observações de todas as variáveis, e

se considera que uˆ0 = uˆ −1 = L = uˆ − p +1 = 0 , a estatística BP passa a ser
d
(3.87) BG = nR 2 → χ 2 ( p) .
Exemplo 3.5 – Considere-se que numa empresa monopolista a função custo total (CT)
permite especificar o modelo de regressão linear dado por
CTt = β1 + β 2Qt + β 3Qt2 + ut ,
onde Q é a quantidade produzida. No quadro 3.5 estão disponíveis 48 obervações tri-

mestrais das variáveis do modelo.
Fazendo a respectiva regressão, obtém-se
^
CTt = 742.923 + 13.4 Qt + 0.1872 Qt2 .
(9.005) (0.0275)
Para verificar se existem problemas de autocorrelação é necessário efectuar o
teste de Breusch-Godfrey, onde a hipótese nula corresponde à ausência de autocorre-
lação, e a hipótese alternativa, à presença de autocorrelação de uma certa ordem, p. Fi-
xando esta ordem, faz-se a regressão auxiliar dos resíduos MQ do modelo dado sobre os
mesmos resíduos desfasados até à ordem p, e os regressores do modelo inicial. Como os
dados são trimestrais, é razoável admitir que p = 4 .
Considerando sucessivamente p = 1, 2, 3, 4 , apresentam-se no quadro 3.6 alguns
resultados relativos às quatro regressões auxiliares:
− Coeficientes de determinação;
− Valores da estatística BG e respectivos valores-p [versão (3.86)];
− Valores críticos da distribuição do qui-quadrado correspondentes α = 0.05 ;
− Valores da estatística pF e respectivos valores-p [versão (3.85)];

− Diferenças entre os respectivos pF e BG.
Quadro 3.5
Observações trimestrais do custo total e da quan-
tidade produzida por uma empresa monopolista
Obs CT Q Obs CT Q
1 11790 206 25 10501 196
2 14503 231 26 6246 138
3 15323 245 27 9419 180
4 3276 96 28 5053 115
5 13523 228 29 8791 173
6 5337 133 30 15690 248
7 8431 178 31 3633 91
8 8960 183 32 9230 177
9 12207 220 33 13459 225
10 14756 244 34 8026 158
11 5923 134 35 7375 151
12 13297 223 36 10517 190
13 8342 161 37 7685 155
14 4593 108 38 5900 129
15 10851 198 39 4393 91
16 5746 138 40 10066 184
17 4925 126 41 3525 73
18 10087 196 42 5580 128
19 13007 226 43 5217 123
20 3449 95 44 6513 141
21 3930 101 45 5638 130
22 9281 183 46 2839 86
23 9463 184 47 8692 187
24 7005 153 48 2151 83
Quadro 3.6
Teste com BG Teste com pF
p R 2
BG Valor-p χ 2
p , 0.05 pF Valor-p pF – BG
1 0.56 26.530 0.00 3.841 55.704 0.00 29.174
2 0.56 25.722 0.00 5.991 51.418 0.00 25.696
3 0.61 27.423 0.00 7.815 59.872 0.00 32.449
4 0.64 28.336 0.00 9.488 65.387 0.00 37.051
No quadro 3.7 apresenta-se o mesmo tipo de resultados quando se consideram as

48 observações para todas as variáveis, e resíduos iniciais nulos.
Quadro 3.7
Teste com BG Teste com pF
p R 2
BG Valor-p χ 2
p , 0.05 pF Valor-p pF – BG
1 0.56 26.714 0.00 3.841 55.218 0.00 28.504
2 0.56 26.813 0.00 5.991 54.416 0.00 27.603
3 0.57 27.187 0.00 7.815 54.861 0.00 27.654
4 0.57 27.293 0.00 9.488 54.040 0.00 26.747
Observando estes quadros, conclui-se sempre que existe autocorrelação. Nestas

circunstâncias, devia propor-se outra especificação da função custo total.
∇
Exemplo 3.6 – Considere-se os seguintes modelos (ver exemplo 3.1):

Modelo A: ln(importt ) = β1 + β 2 ln( prmt ) + β3 ln( pibt ) + ut .
Modelo B: ln(importt ) = β1 + β 2 ln(importt −1 ) + β3 ln( prmt ) + β 4 ln( pibt ) + ut .
A estimação MQ do modelo A já é conhecida (exemplo 3.1):

^
ln(importt ) = 0.1296 − 0.3882 ln( prmt ) + 1.2425 ln( pibt ) ( s = 0.08374) .
Para efectuar o teste de nulidade de cada coeficiente de regressão, os valores-p

são, respectivamente, 0.053 e 0.000. O teste de autocorrelação, para p = 1 e p = 2 , é
apresentado no quadro 3.8. Verifica-se que há evidência empírica que suporta a exis-
tência de autocorrelação de 1.ª ordem, o que pode ser considerado como um sintoma de
incorrecta especificação do modelo A.
Quadro 3.8
Modelo A Modelo B
p pF Valor-p pF Valor-p
1 3.942 0.047 3.571 0.059
2 3.804 0.149 2.273 0.321
Considere-se o modelo B, introduzindo o regressor ln(importt −1 ) . Estimando

este modelo, obtém-se
^
ln(importt ) = 0.6008 + 0.2976 ln(importt −1 ) − 0.4516 ln( prmt ) + 0.9722 ln( pibt ) .
Os valores-p para testar a nulidade dos coeficientes são 0.115, 0.038 e 0.001,
respectivamente.
Os resultados apresentados no quadro 3.8 mostram que, a 5%, não é de rejeitar a
hipótese da ausência de autocorrelação.
∇
Utilização do estimador MQ em presença de autocorrelação e inferência robusta
Suponha-se que se tem um modelo de regressão linear com regressores pré-de-

terminados, yt = xt • β + ut . Admita-se que existe autocorrelação (não se verifica a hi-
pótese RPD.5), mas não se conhece a sua estrutura. Que estimador se propõe para o
vector dos coeficientes de regressão? Uma resposta possível é a de continuar a utilizar o
estimador MQ, b, mas dispondo de um estimador consistente para a respectiva matriz
das covariâncias assintóticas, Cov a (b) . Trata-se de um problema semelhante ao que se
estudou no caso da heterocedasticidade condicionada, tendo-se obtido, neste caso, o es-
timador robusto de White daquela matriz.
Embora continue garantida a consistência do estimador b, o abandono da hipóte-
se RPD.5 invalida todos os resultados de inferência estatística obtidos nas secções
3.4, 3.5 e 3.6. Para construir a análise estatística do MRL-RPD com autocorrelação é
necessário substituir RPD.5 por outra hipótese, que, entre outras comdições, redefina a
matriz S [ver no capítulo 9 a condição de Gordin e (9.120)].
Pode provar-se que a distribuição de b é assintoticamente normal (ver capítulo
9), fazendo
S = ∑s=−∞ Γs = Γ0 + ∑s=1 (Γs + ΓsT )

+∞ +∞
(3.88)
onde
Γs = E (ut ut − s xtT• xt −s ,• ) ( s = 0,±1,±2, K ).
[Quando se admite a hipótese RPD.5, tem-se S = Γ0 = E (ut2 xtT• xt • ) ].

Assim:
d
(3.89) n (b − β ) → N ( k ) (0, Qxx−1S Qxx−1 ) ;
(3.90) Ea (b) = β e Cov a (b) = Qxx−1S Qxx−1 .
Para obter um estimador consistente da matriz S, dada por (3.88), é necessário

começar por estimar individualmente as matrizes Γs . Tem-se:
1 n
(3.91) Γˆ s = ∑t = s +1 uˆt uˆt − s xtT• xt − s ,• ( s = 0,1, 2, K , n − 1 ),
n
onde os ût são os resíduos MQ. Newey e West (1987) mostraram que
Sˆ = Γˆ 0 + ∑s =1ω s (Γˆ s + Γˆ sT ) ,
l
(3.92)
onde ω s = 1 − s /(l + 1) , é um estimador consistente de S.

Fazendo Sˆ = (1 / n)Vˆ , facilmente se verifica que
Vˆ = ∑t =1 uˆt2 xtT• xt • + ∑s =1 ∑t = s +1 ω s uˆt uˆt −s ( xtT• xt −s ,• + xtT− s ,• xt • ) .

n l n
(3.93)
A escolha de l depende do tipo de dados temporais: para dados anuais, toma-se

l = 1 , 2 ou 3; com dados trimestrais escolhe-se l = 4 ou 8; se os dados forem mensais
faz-se l = 12 ou 24. Newey e West recomendam escolher l igual à parte inteira de

4(n / 100) 2 / 9 . Outros autores propõem l igual à parte inteira de n1/ 4 . Por exemplo, para
n = 50 tem-se l = 3 , no primeiro caso, e l = 2 , no segundo.
Note-se que:
1 n
l = 1 ⇒ Vˆ = ∑t =1 uˆt2 xtT• xt • + ∑t = 2 uˆt uˆt −1 ( xtT• xt −1,• + xtT−1,• xt • ) ;
n
2
2 n
l = 2 ⇒ Vˆ = ∑t =1 uˆt2 xtT• xt • + ∑t = 2 uˆt uˆt −1 ( xtT• xt −1,• + xtT−1,• xt • )
n
3
1 n
+ ∑t = 3 uˆt uˆt − 2 ( xtT• xt − 2,• + xtT− 2,• xt • ) ;
3
3 n
n
4
1 n
+ ∑t = 3 uˆt uˆt − 2 ( xtT• xt − 2,• + xtT− 2,• xt • )
2
1 n
+ ∑t = 4 uˆt uˆt − 3 ( xtT• xt − 3,• + xtT−3,• xt • ) ;
4
4 n
n
5
3 n
5
2 n
5
1 n
+ ∑t = 5 uˆt uˆt − 4 ( xtT• xt − 4,• + xtT− 4,• xt • ) .
5
Finalmente, obtém-se o estimador consistente de Newey-West de Cov a (b) ,
^
(3.94) Cov a (b) = S xx−1 Sˆ S xx−1 = n ( X T X ) −1Vˆ ( X T X ) −1 .
Este resultado permite continuar a fazer inferência estatística baseada no estima-

dor MQ, mesmo desconhecendo o processo de autocorrelação das variáveis residuais.
Embora os erros padrão robustos possam ser calculados a partir dos elementos
da diagonal principal de (3.94), fazendo
1 ^
sb∗j = Vara (b j ) ,
n
é possível deduzir uma fórmula que relaciona estes erros padrão com os erros padrão
clássicos, sb j . Pode demonstrar-se que
2
 sb 
s =  j
∗
bj

 vˆ ,
 s 
onde:
− s é o erro padrão clássico da regressão;
− vˆ = ∑t =1 aˆtj2 + 2∑ s =1 ∑t = s +1 ωs aˆtj aˆt − s , j ;

n l n
− aˆtj = rˆtj uˆt ;

− ût são os resíduos MQ da regressão do modelo original;
− r̂tj são os resíduos MQ da regressão auxiliar de xtj sobre os outros regressores do
modelo original;
− ω s = 1 − s /(l + 1) .
Note-se que:
l = 1 ⇒ vˆ = ∑t =1 aˆtj2 + ∑t = 2 aˆtj aˆt −1, j ;

n n
4 n 2 n
l = 2 ⇒ vˆ = ∑t =1 aˆtj2 + ∑ + ∑t = 3 aˆtj aˆt − 2, j ;
n
aˆ aˆ
t = 2 tj t −1, j
3 3
3 n 1 n
l = 3 ⇒ vˆ = ∑t =1 aˆtj2 + ∑ + ∑t = 3 aˆtj aˆt − 2, j + ∑t = 4 aˆtj aˆt − 3, j ;
n n
aˆ aˆ
t = 2 tj t −1, j
2 2
8 n 6 n 4 n 2 n
l = 4 ⇒ vˆ = ∑t =1 aˆtj2 + ∑ + ∑t = 3 aˆtj aˆt − 2, j + ∑t = 4 aˆtj aˆt − 3, j + ∑t = 5 aˆtj aˆt − 4, j .
n
aˆ aˆ
t = 2 tj t −1, j
5 5 5 5
PALAVRAS-CHAVE
Amostragem casual Matriz das covariâncias assintóticas
Ausência de correlação assintótica Matriz das covariâncias limite
Autocorrelação Memória
Autocovariância Método delta
Coeficiente de autocorrelação Modelo de regressão linear com regresso-
res pré-determinados (MRL-RPD)
Coeficiente de determinação Modelo dinâmicamente completo
Condição de característica Modelo econométrico
Conjunto de informação Momentos
Consistência Omissão de variáveis
Convergência estocástica Ortogonalidade (contemporânea)
Convergência em distribuição Padrão de heterocedasticidade condicio-
nada
Convergência em média quadrática Padrão de autocorrelação
Convergência em probabilidade Passeio aleatório
Correlação contemporânea Preservação da convergência em distri-
buição
Correlograma Preservação da convergência em probabi-
lidade
Dependência Princípio de Wald
Dependência fraca Princípio do multiplicador de Lagrange
Diferença-martingala Processo estocástico
Dimensão exacta (nominal) do teste Processo AR(1)
Distorção da dimensão Processo gerador de dados (PGD)
Distribuição limite Processo MA(1)
Distribuição limite degenerada Rácio-t robusto
Enviesamento assintótico Regressor contemporaneamente exógeno
Equivalência assintótica Regressor endógeno
Ergodicidade (em relação à média) Regressor estritamente exógeno
Erro de medida Regressor gerado
Erro padrão de White Regressor pré-determinado
Erro padrão heterocedástico-robusto Ruído branco (independente)
Erro padrão de Newey-West Série temporal
Erro padrão robusto à autocorrelação Simultaneidade
Especificação inadequada Situação de autocorrelação
Estacionaridade em covariância Teorema da ergodicidade
Estacionaridade ergódica Teorema de Chebychev
Estacionaridade (em sentido restrito) Teorema de Khinchine
Estatística Q de Box-Pierce (modificada) Teorema de Hall e Heyde
Estatística Q de Ljung-Box Teorema de Lindeberg-Levy
Estimador assintoticamente normal Teorema de Markov
PALAVRAS-CHAVE
Estimador CAN Teorema de Slutsky
Estimador consistente Teorema do limite central de Billingsley
Geração de regressores Teoremas do limite central (formato)
Heterocedasticidade condicionada Teoremas sobre a lei dos grandes núme-
ros (formato)
Homocedasticidade condicionada Teste da forma funcional
Homokurtosis condicionada Teste de autocorrelação
Heterogeneidade Teste de Breusch-Godfrey
Inferência estatística Teste de Breusch-Pagan
Inferência estatística sobre combinações Teste de Durbin alternativo
Inferência estatística sobre um coeficiente Teste de heterocedasticidade condiciona-
de regressão isolado da
Intervalo de confiança Teste de hipóteses não lineares
Lei dos grandes números Teste de White (simplificado)
Lema da equivalência assintótica Teste pF
Limite em probabilidade Teste RESET
Linearidade Valor esperado assintótico
Martingala Valor esperado limite
Matriz das autocovariâncias Variância limite
1. Enuncie o lema da equivalência assintótica.

2. Considere o processo estocástico {z t } . Enuncie o teorema da ergodicidade.
3. Considere o processo estocástico {z t } (escalar). Enuncie o teorema do limite cen-
tral de Billingsley.
4. Considere o processo {xt : t = 1,2, K} . Apresente as condições que permitem afir-
mar que o processo é estacionário em covariância.
5. Considere o modelo yt = α + ϕ yt −1 + ε t , onde {ε t } é um ruído branco. A variável
yt é estacionária em covariância? Justifique.
6. Seja xt = ε t + θ1ε t −1 + θ 2ε t − 2 , onde {ε t } é um ruído branco. Em que condições se
pode afirmar que a variável xt é estacionária em covariância.
7. Considere o processo estocástico estacionário {xt : t = 1,2, K} . Apresente a condi-
ção que garante que o processo é assintoticamente não correlacionado.
8. Suponha que yt é AR(1), yt = ϕ yt −1 + ε t , a verificar | ϕ | < 1 . Demonstre que
Corr ( yt , yt + s ) → 0 , quando s → +∞ , sabendo que
yt + s = ϕ s yt + ϕ s −1ε t +1 + L + ϕ ε t + s −1 + ε t + s .
9. Considere as seguintes afirmações: a) um passeio aleatório é um processo estocás-

tico não estacionário; b) num modelo de regressão linear com um regressor apenas
contemporaneamente exógeno, o estimador dos mínimos quadrados do respectivo
coeficiente de regressão é não enviesado.
Indique quais destas afirmações são verdadeiras.
10. Considere o passeio aleatório {z t } . Determine a expressão de Corr ( z t , z t + s ) .
11. Considere o passeio aleatório, yt = yt −1 + ε t . Deduza a fórmula do coeficiente de
autocorrelação entre yt e yt − s ( s > 0) .
12. Prove que estimador assintoticamente normal é consistente.
13. Considere o MRL-RPD, yt = β 0 + β1 xt + β 2 xt2 + ut . Indique o processo estocástico
que verifica a hipótese da estacionaridade ergódica.
14. Suponha que num MRL yt = xt • β + ut , com termo independente, todos os regres-
sores são pré-determinados. Prove que E (ut ) = 0 e que Cov( xtj , ut ) = 0 .
15. Considere o MRL, yt = β 0 + β1 xt + β 2 xt2 + ut . Enuncie, para este modelo, a hipóte-
se da condição de característica.
16. Considere o MRL-RPD, yt = β 0 + β1 xt + β 2 xt2 + ut . Construa, para este modelo, a
matriz S indispensável para a inferência estatística.
17. Considere o MRL-RPD, yt = xt • β + ut , com termo independente. Prove que o
processo {ut } é uma diferença-martingala.
18. Considere o MRL-RPD, yt = xt • β + ut , com termo independente. Sabendo que
{ut } é uma diferença-martingala, prove que o valor esperado das variáveis resi-
duais é nulo, e que não há autocorrelação.
19. Considere o modelo de regressão linear, yt = α + β xt + ut , com dados temporais,
e suponha que o regressor é contemporaneamente exógeno, E (ut | xt ) = 0 . Esta
condição significa que ut é independente em média de xt . Demonstre que esta in-

dependência em média implica que a covariância entre ut e xt é nula.
20. Considere o MRL, com dados temporais, yt = α + β yt −1 + ut , onde {ut } é um ruí-
do branco. Classifique o regressor yt −1 .
21. Considere o modelo da pergunta anterior, mas supondo que ut ~ AR (1) (estável).
Neste caso, verifica-se, sem dificuldade, que yt −1 é regressor endógeno. Reformu-
le o modelo de forma a eliminar a endogeneidade.
22. Considere o modelo de regressão linear, yt = xt • β + ut , com dados temporais, on-
de xt • é o vector dos regressores.
Quais das seguintes afirmações são verdadeiras: a) os regressores são contempora-
neamente exógenos se e só se E ( yt | xt • ) = xt • β ; b) os regressores são contempo-
raneamente exógenos se e só se ut = yt − E ( yt | xt• ) .
23. Considere o modelo de regressão linear, yt = xt • β + ut , com regressores pré-deter-
minados. Indique as hipóteses que se devem estabelecer para que o estimador MQ
de β seja consistente.
24. Considere o modelo de regressão linear, yt = β 0 + β1 xt1 + β 2 xt 2 + ut . Suponha
que xt1 é estritamente exógeno e xt 2 é contemporaneamente exógeno. Escreva as
respectivas condições de ortogonalidade.
25. Considere o modelo yt = α + β t + ρ yt −1 + ε t , onde | ρ | < 1 e {ε t : t = 1,2, K} é um
ruído branco. A variável yt é estacionária? Justifique.
26. Seja xt = ε t − (1 / 3) ε t −1 + (1 / 3) ε t − 2 , onde {ε t } é um ruído branco. Determine a co-
variância Cov( xt , xt +1 ) .
27. Seja o processo xt = ε t − (1 / 4) ε t −1 + (1 / 2) ε t − 2 , onde {ε t } é um ruído branco.
Quais das seguintes afirmações são verdadeiras: a) o processo é ergódico; b) o
processo é estacionário em covariância; c) o processo é assintoticamente não cor-
relacionado.
28. Considere o modelo yt = α + yt −1 + ε t , onde {ε t : t = 1,2,K} é um ruído branco.
Determine a variância de yt , supondo que y0 = 0 .
29. Considere o MRL, com dados temporais, yt = α + β1 yt −1 + β 2 yt − 2 + β 3 yt − 3 + ut ,
onde {ut } é um processo MA(2). Classifique os regressores.
30. Considere o modelo yt = xt • β + ut onde xt • é o vector dos regressores. Indique a
condição, utilizando valores esperados condicionados de yt , para que o modelo
seja dinamicamente completo.
31. Considere o modelo yt = α + β 0 xt + β1 xt −1 + γ 1 yt −1 + γ 2 yt − 2 + ut . Apresente a con-
dição que garante que o modelo é dinamicamente completo.
32. Considere o modelo de regressão linear, yt = β 0 + β1 xt + β 2 xt −1 + β 3 xt − 2 + ut , su-
pondo que ut = ε t + θ ε t −1 , onde ε t é um ruído branco. O modelo é dinamicamente
completo? Justifique.
33. Considere o modelo yt = xt • β + ut com regressores pré-determinados, e suponha
que a matriz Qxx = E ( xtT• xt • ) existe e tem inversa. Indique um estimador consis-
tente da variância assintótica de b j , estimador MQ de β j .
34. Considere o MRL-RPD, yt = xt • β + ut . Prove a consistência do estimador MQ do
vector dos coeficientes de regressão.
35. Considere o MRL-RPD, yt = xt • β + ut , e o estimador MQ, b, do vector dos coefi-

cientes de regressão. Demonstre o resultado que permite afirmar que b é assintoti-
camente normal.
36. Considere o MRL-RPD, yt = xt • β + ut , e o estimador MQ, b, do vector dos coefi-
cientes de regressão. Indique um estimador consistente da matriz de covariâncias
assintótica de b.
37. Considere o MRL-RPD, yt = xt • β + ut . Indique um estimador consistente da ma-
triz S = E (ut2 xtT• xt • ) .
38. No caso de pequenas amostras, a matriz Ŝ pode ser corrigida. Indique uma das
propostas possíveis de matriz Ŝ corrigida.
39. Suponha que existe homocedasticidade condicionada. Considere o MRL-RPD,
yt = xt • β + ut . Obtenha a respectiva matriz S a partir de S = E (ut2 xtT• xt • ) .
40. Prove que, no caso de homocedasticidade condicionada, os erros padrão clássico e
robusto são iguais.
41. No caso de homocedasticidade condicionada, prove que Q = mF , onde Q é a esta-
tística para efectuar o teste H 0 : Rβ = δ 0 contra H 1 : Rβ ≠ δ 0 (R é uma matriz
m × k com característica igual a m), e F = (Uˆ rTUˆ r − Uˆ TUˆ ) / ms 2 .
42. Suponha que existe homocedasticidade condicionada. Considere o MRL-RPD,
yt = xt • β + ut , e o estimador MQ, b, do vector dos coeficientes de regressão. Indi-
que um estimador consistente da matriz de covariâncias assintótica de b.
43. Seja ût os resíduos MQ de um modelo de regressão linear com dados temporais.
Considere a regressão de ût sobre uˆt −1 para testar a existência de autocorrelação
de 1.ª ordem. Seja: a) esta regressão permite fazer o teste apenas na condição de
exogeneidade estrita de todos os regressores; b) esta regressão permite fazer o tes-
te apenas na condição de exogeneidade contemporânea de todos os regressores; c)
esta regressão permite fazer o teste apenas quando todos os regressores são esta-
cionários e ergódicos.
44. Considere o modelo yt = α + β xt + γ yt −1 + ut e suponha que pretende testar se a
variável residual segue um processo auto-regressivo de 2.ª ordem. Indique a re-
gressão auxiliar necessária para efectuar este teste, bem como a respectiva estatís-
tica-teste construída a partir do coeficiente de determinação daquela regressão.
45. Considere o modelo yt = α + β xt + γ yt −1 + ut com dados trimestrais. Suponha que
pretende testar se a variável residual segue o processo auto-regressivo sazonal
ut = ρ ut −4 + ε t . Indique a regressão auxiliar necessária para efectuar este teste,
bem como a respectiva estatística-teste.
46. Considere o modelo yt = xt • β + ut onde xt • é o vector dos regressores. Descreva
o teste de Breusch-Godfrey para testar a autocorrelação de 2.ª ordem das variáveis
residuais.
47. Considere o modelo yt = xt • β + ut , com regressores pré-determinados e autocorre-
lação. Sendo b o estimador MQ de β , que estimador deveria utilizar para a matriz
das covariâncias assintóticas de b? [indique apenas o nome do estimador, e não a
sua fórmula]
48. Descreva a mecânica do teste pF para testar a existência de autocorrelação.

49. Descreva a mecânica do teste BG (Breusch-Godfrey) para testar a existência de
autocorrelação.
50. Considere um MRL-RPD com autocorrelação. Indique o estimador consistente de
Newey-West da matriz das covariâncias assintótica do estimador MQ dos coefici-
entes de regressão.
CAPÍTULO 4
O MODELO DE REGRESSÃO LINEAR

COM REGRESSORES ENDÓGENOS
A hipótese crucial do modelo de regressão linear apresentado no capítulo 3 é a

da ortogonalidade entre os regressores e as variáveis residuais, ficando garantido que os
regressores são pré-determinados (hipótese RPD.3). Esta hipótese é decisiva para a
aplicação do método dos mínimos quadrados, uma vez que, sem ela, o estimador MQ
nem sequer é consistente [como resulta claramente da demonstração de (3.37), proprie-
dade 3.1 dos estimadores MQ].
Este capítulo tem por objectivo essencial estudar o modelo de regressão linear
quando existem regressores que não são pré-determinados, ou seja, quando o modelo
tem regressores endógenos. Como na presença deste tipo de regressores não é possível
estimar, de forma consistente, os parâmetros pelo método MQ, é necessário dispor de
um método mais geral de obtenção de estimadores. Este método dá lugar a uma classe
vasta de estimadores, a classe dos estimadores do método generalizado dos momen-
tos (MGM) [em inglês, generalized method of moments; a sigla consagrada é GMM]. O
estimador MQ é um caso particular de estimador MGM, existindo muitos outros estima-
dores importantes que também pertencem a esta classe (é o caso, entre outros, do esti-
mador de variáveis instrumentais e do estimador dos mínimos quadrados em dois pas-
sos; ver adiante).
O estudo desta classe de estimadores, e suas propriedades, é o objectivo essen-
cial do presente capítulo. No entanto, vão abordar-se, previamente, dois tópicos.
O primeiro (secção 4.1), destina-se a resolver o seguinte problema: suponha-se
que no modelo de regressão linear, yt = xt • β + ut , há regressores que não são pré-deter-
minados (não se verificam as hipóteses RPD.3 e RPD.5), não estando, portanto, garanti-
do que o estimador MQ, b = ( X T X ) −1 X T Y , seja consistente para o vector β dos coefi-
cientes de regressão. Se, apesar disso, se continuar a utilizar este estimador, põe-se a
questão de saber se existe algum outro vector de parâmetros que é estimado de forma
consistente.
O segundo tópico, a tratar na secção 4.2, tem a ver com o papel que desempe-
nham os regressores endógenos em Economia. A sua importância vai ser ilustrada por
meio de vários exemplos, onde surgem naturalmente este tipo de regressores.
Capítulo 4 – MRL com Regressores Endógenos 2
Nas secções seguintes apresentam-se e analisam-se as hipóteses básicas do mo-

delo de regressão linear com regressores endógenos, a classe dos estimadores MGM e
suas propriedades, e as respectivas questões de inferência estatística.
4.1 - A projecção linear dos mínimos quadrados
Antes de dar resposta ao problema atrás referido, vai analisar-se uma situação
mais geral. Considere-se uma variável aleatória (escalar), y, e um vector aleatório de ti-
po 1 × k , x = [ x1 x2 K xk ]. Suponha-se que se pretende prever o valor assumido por y,
conhecendo a distribuição do vector (k + 1) -dimensional, ( y, x) , e o valor de x.
Um previsor de y é uma função de x, h(x) , determinada pela distribuição con-
junta de y e de x. Naturalmente, h(x) deve ser escolhida de acordo com algum critério
que deve ter em conta o erro de previsão, η = y − h(x) . O critério que vai ser adoptado
consiste em minimizar o erro quadrático médio da previsão (EQMP),
E (η 2 ) = E { y − h( x)}2  .
 
Habitualmente, este critério é designado por princípio dos mínimos quadra-

dos, e as variáveis aleatórias que compõem o vector x chamam-se regressores.
Nestas condições, obtém-se o seguinte:
Teorema 4.1
O melhor previsor de y, de acordo com o princípio dos mínimos quadrados, é o valor es-
perado de y condicionado por x: µ ( x) = E ( y | x) .
Dem.: Com efeito, seja

y − h( x ) = y − µ ( x ) + µ ( x ) − h( x ) .
Donde
{ y − h( x)}2 = { y − µ ( x)}2 + 2 { y − µ ( x)} {µ ( x) − h( x)} + {µ ( x) − h( x)}2 .
Notando que
E ({ y − µ ( x)} {µ ( x) − h( x)}) = E  E ({ y − µ ( x)} {µ ( x) − h( x)} | x)

 
= E {µ ( x) − h( x)} E ({ y − µ ( x) | x}) = 0,

 
tem-se
E ({ y − h( x)}2 ) = E ({ y − µ ( x)}2 ) + E ( {µ ( x) − h( x)}2 ) ≥ E ({ y − µ ( x)}2 ) .
Assim, o erro quadrático médio da previsão é limitado inferiormente, e o limite
inferior é obtido quando h( x) = µ ( x) .
∇∇
A regressão que corresponde à aplicação do princípio dos mínimos quadrados

designa-se por regressão de tipo I.
Quando a relação entre y e x é linear, y = xβ , é óbvio que o melhor previsor de
y é h( x) = xβ , uma vez que E ( y | x) = xβ .
Vai provar-se que o erro de previsão, η , é ortogonal a qualquer função de x,
φ (x) :
E{ηφ ( x)} = 0 .
Com efeito, começa por notar-se que
E (η | x) = E{ y − µ ( x) | x} = E ( y | x) − E{µ ( x) | x} = µ ( x) − µ ( x) = 0 .
Então,
E{ηφ ( x)} = E ( E{ηφ ( x) | x})= E{φ ( x) E (η | x)} = 0 .
Note-se que é necessário conhecer a distribuição de ( y, x) para calcular o previ-
sor h( x) = E ( y | x) , que, em geral, é essencialmente não linear. Impondo a condição de
~ ~
o previsor ser uma função linear de x, h( x) = xβ , onde β é um vector k × 1 , põe-se a
questão de determinar o previsor que minimiza o respectivo erro quadrático médio. Nes-
~
te caso, o erro de previsão é dado por y − xβ , e o critério designa-se, naturalmente, por
princípio dos mínimos quadrados lineares, a que corresponde a regressão de tipo II
(ou regressão linear).
Seja β ∗ o vector que satisfaz a condição de ortogonalidade
E{xT ( y − xβ∗ )} = 0 ou E ( x T x) β ∗ = E ( x T y ) ,
o que pressupõe que existem os respectivos momentos de 2.ª ordem. Se E ( x T x) tem in-
versa, vem
(4.1) β∗ = E ( xT x) −1 E ( xT y ) .
Pode, então, apresentar-se a seguinte definição:
Definição 4.1 – Projecção linear de mínimos quadrados

A função linear de x,
(4.2) E ∗ ( y | x) = xβ∗ ,
onde β ∗ satisfaz (4.1), chama-se projecção linear de mínimos quadrados (projecção li-
near MQ) de y sobre x. O vector β ∗ é o vector dos coeficientes da projecção linear MQ.
Assim, tem-se
E ∗ ( y | x) = xβ∗ = x E ( xT x) −1 E ( xT y ) .
O teorema que permite justificar a escolha do melhor previsor linear é o seguin-
te:
Teorema 4.2
O melhor previsor linear de y, de acordo com o princípio dos mínimos quadrados linea-
res, é a projecção linear MQ de y sobre x: E ∗ ( y | x) = xβ ∗ .
~
Dem.: Com efeito, considere-se um previsor linear qualquer, xβ , e o respectivo erro
quadrático médio,
~
E{( y − xβ ) 2 } .
Tem-se
~ ~
E{( y − xβ ) 2 } = E ( {( y − xβ∗ ) + x( β∗ − β )}2 )
~ ~
= E {( y − xβ∗ ) 2 } + 2 E{( y − xβ∗ ) x( β∗ − β )} + E ({x( β∗ − β )}2 )
~ ~
= E {( y − xβ∗ ) 2 } + 2 E{( β∗ − β )T xT ( y − xβ∗ )} + E ({x( β∗ − β )}2 )
~ ~
= E {( y − xβ∗ ) 2 } + 2 ( β∗ − β )T E{xT ( y − xβ∗ )} + E ({x( β∗ − β )}2 )
~
= E {( y − xβ∗ ) 2 } + E ({x( β∗ − β )}2 )
≥ E {( y − xβ∗ ) 2 } ,
notando que E{xT ( y − xβ∗ )} = 0 .
Assim, o erro quadrático médio da previsão é limitado inferiormente, e o limite
~
inferior é obtido quando β = β ∗ .
∇∇
Verifica-se, assim, que para calcular o melhor previsor linear, E ∗ ( y | x) = xβ ∗ ,

basta conhecer os segundos momentos, referidos em (4.1), da distribuição de ( y, x) .
A relação E ∗ ( y | x) = xβ ∗ , com o vector β ∗ dado por (4.1), é equivalente a es-
crever y = xβ∗ + u∗ , onde u∗ é o resíduo da projecção linear MQ de y sobre x. Este resí-
duo representa a variável y expurgada da influência de x. Como E ( xT u∗ ) = 0 , a correla-
ção entre x e u∗ é nula, ou seja, a correlação parcial entre x e y (expurgada da influência
de x) é nula. Facilmente se verifica que E ∗ (u∗ | x) = 0 . Com efeito,
E ∗ (u∗ | x) = E ∗ ( y − xβ∗ | x) = x E ( xT x) −1 E{xT ( y − xβ∗ )}
= x E ( xT x) −1 E ( xT y ) − x E ( xT x) −1 E ( xT x) β∗
= x E ( xT x) −1 E ( xT y ) − x β∗ = 0.
Em geral, E ( y | x) ≠ xβ∗ (o previsor obtido que resulta do princípio dos mínimos
quadrados não coincide, em geral, com o previsor que decorre do princípio dos mínimos
quadrados lineares). Então, não é verdade que E (u∗ | x) = 0 , e, muito menos, que u∗ e x
sejam independentes. Em geral, tem-se
E (u∗ | x) = E ( y − xβ∗ | x) = E ( y | x) − xβ∗ ≠ 0 .
Vão apresentar-se algumas propriedades gerais da projecção linear MQ.
Propriedades das projecções lineares MQ

Seja a variável aleatória y, e os vectores aleatórios x, z. Tem-se:

a) Se E ( y | x) = xβ , então E ∗ ( y | x) = xβ .
b) Linearidade da projecção linear MQ:
E * (α1 y1 + α 2 y2 + L + α m ym | x) = α1E * ( y1 | x) + α 2 E * ( y2 | x) + L + α m E * ( ym | x) ,
onde α i são constantes e yi são variáveis aleatórias ( i = 1, 2, K , m ).

c) Regra da projecção linear MQ iterada:
E ∗ ( y | x) = E ∗{E ∗ ( y | x, z ) | x}
d) Tem-se:
E ∗ ( y | x) = E ∗{E ( y | x, z ) | x} .
Em particular, E ∗ ( y | x) = E ∗{E ( y | x) | x} .
e) Seja E ∗ ( y | x, z ) = xβ∗ + zγ ∗ , r = x − E ∗ ( x | z ) [vector dos resíduos da projecção linear
MQ de x sobre z] e v = y − E ∗ ( y | z ) [resíduo da projecção linear MQ de y sobre z].
Então,
E ∗ (v | r ) = rβ∗ e E ∗ ( y | r ) = rβ∗ ,
onde β∗ = E (r T r ) −1 E (r T v) = E (r T r ) −1 E (r T y ) .
Podem fazer-se os seguintes comentários a estas propriedades:

• A demonstração da propriedade a) é fácil. Com efeito,
E ∗ ( y | x) = x E ( xT x) −1 E ( xT y ) = x E ( xT x) −1 E{E ( xT y | x)}
= x E ( xT x) −1 E{xT E ( y | x)} = x E ( xT x) −1 E ( xT x) β = x β .
A propriedade a) pode generalizar-se da seguinte maneira:
− Se E ( y | x) = β1h1 ( x) + β 2 h2 ( x) + L + β k hk ( x) , então
E ∗ ( y | w1 , w2 , K , wk ) = β1w1 + β 2 w2 + L + β k wk ,
onde w j = h j (x) , com j = 1, 2, K , k .
Esta propriedade estabelece que: se o valor esperado de y condicionado por x é uma

função linear de certas funções de x, esta função linear também representa a projec-
ção linear MQ.
• Uma aplicação interessante da linearidade [propriedade b)] é a seguinte: suponha-
-se que y = xβ + zδ , onde os vectores x, β , z e δ são do tipo 1 × k , k × 1 , 1 × m e
m × 1 , respectivamente. Seja w outro vector, de tipo 1× p . Facilmente se verifica que
E ∗ ( y | w) = E ∗ ( x | w) β + E ∗ ( z | w)δ .
Com efeito,
E ∗ ( y | w) = w E ( wT w) −1 E ( wT y ) = w E ( wT w) −1 E{wT ( xβ + zδ )}
= w E ( wT w) −1 E ( wT x) β + w E ( wT w) −1 E ( wT z )δ .
= E ( x | w) β + E ( z | w)δ .
∗ ∗
• Demonstração da propriedade c). Com efeito, sabe-se que

E ∗ ( y | x) = xβ∗ = x E ( xT x) −1 E ( xT y ) .
Para determinar E ∗ ( y | x, z ) , começa-se por notar, de acordo com técnica de inversão
de matrizes por blocos,
−1 −1
 E ( xT x ) E ( x T z )  Qxx Qxz   A11 A12 
 T T  = Q Q  =  A A  ,
 E ( z x) E ( z z )   zx zz   21 22 
onde:
− Qxx = E ( xT x) ; Qxz = E ( xT z ) ; Qzx = E ( z T x) ; Qzz = E ( z T z ) ;
− A22 = (Qzz − QzxQxx−1Qxz ) −1 ;
− A11 = Qxx−1 + Qxx−1Qxz A22QzxQxx−1 ;
− A12 = −Qxx−1Qxz A22 ;
− A21 = − A22QzxQxx−1 .
Então,
−1
 E ( x T x ) E ( xT z )   E ( xT y ) 
E ( y | x, z ) = [ x z ] 
∗
T T   T 
 E ( z x) E ( z z )   E ( z y ) 
 A11 A12   E ( xT y )
= [ x z ]  
 A21 A22   E ( z y ) 
T
 A E ( xT y ) + A12 E ( z T y ) 
= [ x z ]  11 
 A21E ( x y ) + A22 E ( z y )
T T
= x{ A11E ( xT y ) + A12 E ( z T y )} + z{ A21E ( xT y ) + A22 E ( z T y )}

= xδ ∗ + zγ ∗ ,
onde δ ∗ = A11E ( xT y ) + A12 E ( z T y ) e γ ∗ = A21E ( xT y ) + A22 E ( z T y ) .
Logo,
E ∗{E ∗ ( y | x, z ) | x} = E ∗ ( xδ ∗ + zγ ∗ | x) = xδ ∗ + E ∗ ( z | x) γ ∗ = xδ ∗ + xQxx−1Qxz γ ∗
= x{ A11E ( xT y ) + A12 E ( z T y )} + xQxx−1Qxz { A21E ( xT y ) + A22 E ( z T y )}
= x{ A11 + Qxx−1Qxz A21}E ( xT y ) + x{ A12 + Qxx−1Qxz A22 }E ( z T y )
= xβ∗ ,
uma vez que A11 + Qxx−1Qxz A21 = Qxx−1 e A12 + Qxx−1Qxz A22 = O .
A regra da projecção linear MQ iterada permite obter um resultado interessante.
Sabe-se que E ∗ ( y | x) = xβ∗ e E ∗{E ∗ ( y | x, z ) | x} = xδ ∗ + E ∗ ( z | x) γ ∗ . Fazendo
Π = Qxx−1Qxz ,
vem E ∗ ( z | x) = xQxx−1Qxz = x Π , e, portanto, β∗ = δ ∗ + Πγ ∗ [este resultado deve ser

comparado com aquele que permite obter o enviesamento das variáveis omiti-
das num modelo de regressão linear; ver adiante].
• Demonstração da propriedade d). Seja µ ( x, z ) = E ( y | x, z ) e y = µ ( x, z ) + u , onde

E (u | x, z ) = 0 . Então,
E ∗ ( y | x) = E ∗{µ ( x, z ) + u | x} = E ∗{µ ( x, z ) | x} + E ∗ (u | x) = E ∗{µ ( x, z ) | x} ,
porque E ( xT u ) = 0 e E ∗ (u | x) = x E ( xT x) −1 E ( xT u ) = 0 .
• Demonstração da propriedade e). Com efeito, tem-se y = xβ∗ + zγ ∗ + u∗ , a verificar
E ( xT u∗ ) = 0 e E ( z T u∗ ) = 0 . Então, E ∗ ( y | z ) = E ∗ ( x | z ) β∗ + zγ ∗ . Subtraindo ordena-
damente esta igualdade da primeira, tem-se y − E ∗ ( y | z ) = {x − E ∗ ( x | z )}β∗ + u∗ , ou
v = r β∗ + u∗ . Como r é uma combinação linear de x e z, vem E (r T u∗ ) = 0 . Multipli-
cando à esquerda v = r β∗ + u∗ por r T , obtém-se r T v = r T r β∗ + r T u∗ . Portanto,
E (r T v) = E (r T r ) β∗ e β∗ = E (r T r ) −1 E (r T v) ,
supondo que existe E (r T r ) −1 .
Tem-se E (r T v) = E (r T { y − E ∗ ( y | z )}) = E (r T y ) − E{r T E ∗ ( y | z )} . Como r é ortogonal
a z, e como E ∗ ( y | z ) é função linear de z, r também ortogonal a E ∗ ( y | z ) . Então,
E (r T v) = E (r T y ) .
• É importante analisar o significado da propriedade e). Por hipótese, β∗ é o vector
dos coeficientes das variáveis consideradas no vector x, quando se faz a projecção li-
near MQ de y sobre x e z. Como r = x − E ∗ ( x | z ) , o vector dos resíduos r pode ser in-
terpretado como sendo o vector x expurgado da influência de z, em que esta influên-
cia é dada pela projecção linear MQ de x sobre z; da mesma forma, v é considerado o
vector y expurgado da influência de z. A propriedade e) prova que β∗ também pode
obtido fazendo a projecção linear MQ de v sobre r: β∗ é o vector dos coeficientes
desta projecção.
Quando x1 = 1 (um dos regressores é constante), fazendo

x = [ 1 x2 K xk ] = [ 1 x( 2 ) ],
onde x( 2 ) = [ x2 K xk ], obtém-se
 1 x( 2 )   y 
xT x =  T  e x T
y =  T .
 x( 2 ) x(T2) x( 2 )   x( 2 ) y 
 
Considerando
 β 2∗ 
β  ∗
 
β ∗ =   , onde β •∗2 =  M  ,
1
β 
∗
•2  β k∗ 
 
tem-se
E ∗ ( y | x) = E ∗ ( y | 1, x( 2) ) = xβ∗ = β1∗ + x( 2 ) β •∗2 .
Como
 1 E ( x( 2) )   β1∗   E ( y ) 
E ( x T x ) β ∗ = E ( xT y ) ⇔   = ,
 E ( x(T2 ) ) E ( x(T2 ) x( 2 ) )  β ∗   E ( x(T2) y )
   • 2   
vem
 β1∗ + E ( x( 2 ) ) β •∗2 = E ( y )

 E ( x( 2 ) ) β1 + E ( x( 2 ) x( 2 ) ) β •2 = E ( x( 2) y ) .
T ∗ T ∗ T
Resolvendo a primeira equação em ordem a β1∗ , e substituindo na segunda, ob-

tém-se
 E ( x T x ) − E ( xT ) E ( x )  β ∗ = E ( xT y ) − E ( xT ) E ( y ) .
 ( 2) ( 2) ( 2) ( 2)  • 2 ( 2) ( 2)
 
Deste modo,
β •∗2 = Cov( x( 2 ) ) −1 Cov( x(T2 ) , y )
(4.3)  ∗
β1 = E ( y ) − E ( x( 2 ) ) β • 2 .
∗
Como y = xβ∗ + u∗ , com E ( xT u∗ ) = 0 , a existência de um regressor constante

( x1 = 1 ) implica que E (u∗ ) = 0 . Então, Cov( x j , u∗ ) = E ( x j u∗ ) − E ( x j ) E (u∗ ) = 0. Assim, o
resíduo da projecção linear MQ tem valor esperado nulo e não está correlacionado com
qualquer regressor.
Suponha-se que se pretende determinar E ∗ (ε t | ε t −1 , K , ε t − m ) , quando {ε t } é um
ruído branco. Fazendo
y = ε t e x = [ ε t −1 ε t − 2 L ε t − m ] ,
tem-se
 ε2 ε t −1ε t − 2 L ε t −1ε t − m  ε ε 
 t −1  t −1 t 
 ε ε ε t − 2 L ε t − 2ε t − m
2
  ε t − 2ε t 
xT x =  t − 2 t −1  e x y=
T
.
 M M M   M 
ε ε  ε ε 
 t − m t −1 ε t − mε t − 2 L ε t − m 
2
 t − m t 
Donde
E ( xT x) = σ ε2 I m , E ( xT y ) = 0 e β∗ = (σ ε2 I m ) −1 0 = 0 .
Logo,
E ∗ (ε t | ε t −1 , K , ε t − m ) = 0 .
Do mesmo modo, se prova que

E ∗ (ε t | 1, ε t −1 , K , ε t − m ) = 0 .
Contudo, não fica garantido que E (ε t | ε t −1 , K , ε t − m ) = 0 , porque há ruídos bran-

cos que não são diferença-martingalas; é o caso do processo {ε t } , onde ε t = cos(t w) e
w ~ U (0, 2π ) [ver anexo 3A].
O modelo de regressão linear com regressores endógenos
Considere-se, de novo, o modelo de regressão linear, yt = xt • β + ut (equação

estrutural). Quando este modelo verifica as hipóteses RPD.3 (todos os regressores são
pré-determinados) e RPD.4 (condição de característica), conclui-se imediatamente que
xt • β é a projecção linear MQ de yt sobre xt • , e β é o respectivo vector dos coeficien-
tes.
Antes de prosseguir, vai formalizar-se a definição de regressor endógeno.
Definição 4.2 – Regressor endógeno

Diz-se que o regressor x j é endógeno se e só se, qualquer que seja t, E ( xtj ut ) ≠ 0 .
Suponha-se que no modelo de regressão linear há pelo menos um regressor en-

dógeno, não se verificando, portanto, a hipótese RPD.3. Quando se considera o vector
β dos verdadeiros valores dos coeficientes de regressão, a condição de ortogonalidade
(4.4) E{xtT• ( yt − xt • β )} = 0
não é verdadeira.
Continuando a supor que o processo {( yt , xt • )} é estacionário e ergódico (hipó-
tese RPD.2) e que Qxx = E ( xtT• xt • ) existe e tem inversa (RPD.4), pode concluir-se que,
tendo em conta as considerações feitas sobre a regressão de tipo II, existe um vector β ∗
que satisfaz as condições de ortogonalidade,
(4.5) E{xtT• ( yt − xt • β∗ )} = 0 .
Assim, E ∗ ( yt | xt • ) = xt• β ∗ é a respectiva projecção linear MQ, e

(4.6) β∗ = E ( xtT• xt • ) −1 E ( xtT• yt ) = Qxx−1 qxy
é o vector dos coeficientes na projecção linear MQ.

Note-se que
β∗ = E ( xtT• xt • ) −1 E{xtT• ( xt • β + ut )} = β + E ( xtT• xt • ) −1 E ( xtT•ut ) ,
e que
E ∗ ( yt | xt • ) = xt • β∗ = xt • β + xt • E ( xtT• xt • ) −1 E ( xtT•ut ) = xt • β + E ∗ (ut | xt • ) .
~
Nestas condições, tem-se yt = xt • β∗ + ut∗ = yt∗ + ut∗ , onde β (valor hipotético de
β ) é igual a β ∗ , ut∗ é o respectivo resíduo e yt∗ = xt • β∗ . Como E ( xtT•ut∗ ) = 0 , é imediato
verificar que E ( yt∗ut∗ ) = 0 . Além disso, não se verifica E ( yt | xt • ) = xt • β , uma vez que
E (ut | xt • ) ≠ 0 ; apenas é possível escrever E ( yt | xt• ) = xt • β + E (ut | xt • ) .
A presença de regressores endógenos implica que o estimador MQ, b, não é
consistente para estimar β . No entanto, atendendo a (4.6) e ao teorema da ergodicida-
de, é imediato que
−1
1 n  1 n 
b = S s =  ∑t =1 xtT• xt •   ∑t =1 xtT• yt  = ( X T X ) −1 X T Y
−1
xx xy
n  n 
é estimador consistente de β ∗ .
Pode, então, afirmar-se que, existindo regressores endógenos, b não é estimador
consistente de β (vector dos coeficientes de regressão), mas é estimador consistente de
outro vector de parâmetros, o vector β ∗ dos coeficientes na projecção linear MQ. O en-
viesamento assintótico do estimador MQ, quando se pretende estimar β , é dado por
plim(b) − β = β∗ − β = E ( xtT• xt • ) −1 E ( xtT•ut ) ,
que se designa por enviesamento da endogeneidade.

Pode aprofundar-se esta questão, fazendo a separação entre regressores pré-
-determinados e regressores endógenos. Seja o MRL yt = zt • β•1 + xt • β• 2 + ut a verifi-
car: E ( ztT•ut ) = 0 ( zt • é pré-determinado); E ( xtT•ut ) ≠ 0 ( xt • é endógeno); E ( ztT• xt • ) = O
( zt • e xt • não estão correlacionados). Considerando esta partição dos regressores em
endógenos e em pré-determinados, vai demonstrar-se que, na projecção linear MQ de
yt sobre zt • e xt • , o vector dos coeficientes de zt • é β •1 .
Com efeito, fazendo E ∗ ( yt | zt • , xt • ) = zt • β •∗1 + xt • β•∗2 , obtém-se
−1
 β ∗   E ( zT z ) E ( zT x )   E ( z T y )   E ( z T z ) −1 O   E ( zT y )
•1 t• t• t• t• t• t t• t• t• t
β∗ =   =    =  ,
 β•∗2   E ( xt • zt • ) E ( xtT• xt • )
T  E ( xt • yt ) 
T
O E ( xt • xt • ) 1   E ( xtT• yt )
T −
        
ou
 β•∗1   E ( ztT• zt • ) −1 E ( ztT• yt ) 
β∗ =  ∗ 
= .
 β • 2   E ( xt • xt • ) E ( xt • yt )
T −1 T
Como
E ( ztT• yt ) = E{ztT• ( zt • β •1 + xt • β• 2 + ut )} = E ( ztT• zt • ) β •1 ,
E ( xtT• yt ) = E{xtT• ( zt • β •1 + xt • β • 2 + ut )} = E ( xtT• xt • ) β • 2 + E ( xtT•ut ) ,
vem
 β •∗1   β•1 
β∗ =  ∗  =  .
 β • 2   β • 2 + E ( xt • xt • ) E ( xt •ut )
T −1 T
Conclui-se, então, que

E ∗ ( yt | zt • , xt • ) = zt • β•1 + xt • β • 2 + xt • E ( xtT• xt • ) −1 E ( xtT•ut ) .
Pode também calcular-se E ∗ (ut | zt • , xt • ) = zt •δ •∗1 + xt •δ •∗2 .

Tem-se:
δ ∗   E ( z T z ) −1 O   E ( zT u )
 •1
δ∗ = ∗ =   t• t•
 t• t

δ • 2   O E ( xt • xt • )   E ( xtT•ut )
T −1
    
 E ( z T z ) −1 E ( z T u )   0 
=  t• t• t• t
 =  .
 E ( xtT• xt • ) −1 E ( xtT•ut )  E ( xtT• xt • ) −1 E ( xtT•ut )
   
Então,
E ∗ (ut | zt • , xt • ) = xt • E ( xtT• xt • ) −1 E ( xtT•ut ) ,
e, portanto,
E ∗ ( yt | zt • , xt • ) = zt • β •1 + xt • β • 2 + E ∗ (ut | zt • , xt • ) .
Como ut∗ = yt − E ∗ ( yt | zt • , xt • ) , conclui-se que

ut∗ = yt − E ∗ ( yt | zt • , xt • ) = yt − zt • β •1 − xt • β • 2 − xt • E ( xtT• xt • ) −1 E ( xtT•ut )
= ut − E ∗ (ut | zt • , xt • ),
ou ut = ut∗ + E ∗ (ut | zt • , xt • ) .
No capítulo 3, nos comentários à hipótese RPD.3, fez-se uma referência a três
situações típicas de endogeneidade: omissão de variáveis; erros de medida nas variá-
veis; simultaneidade. Nas duas subsecções seguintes vão analisar-se as duas primeiras
situações. A simultaneidade vai ser abordada na próxima secção.
Omissão de variáveis
Começa-se por analisar o enviesamento da endogeneidade no caso de omissão

de variáveis (regressores). Considere-se a equação estrutural,
E ( yt | xt • , wt • ) = xt • β + wt •δ ,
onde: xt • é um vector 1 × k de regressores; β é o vector k × 1 dos respectivos coefici-

entes; wt • é outro vector 1 × m de regressores; δ é o respectivo vector m × 1 dos coefi-
cientes.
Explicitando a variável residual, vem
yt = xt • β + wt •δ + vt ,
onde E (vt | xt • , wt • ) = 0 . Deste modo, todos os regressores são pré-determinados:

E ( xtT•vt ) = 0 ; E ( wtT•vt ) = 0 .
Em particular, o interesse pode incidir sobre cada parâmetro estrutural β j (as

componentes do vector β ), que mede o efeito parcial de x j sobre y (considerando cons-
tante todos os outros regressores).
Admitindo que os regressores wt • são omitidos (porque, por exemplo, não são
observáveis), a equação estimável (MRL subparametrizado) é
yt = xt • β + ut ,
onde ut = wt •δ + vt . Se o modelo tem termo independente ( xt1 = 1 ), pode, sem perda de

generalidade, supor-se que E ( wt • ) = 0 . Neste caso, a variável residual da equação esti-
mável tem valor esperado nulo, E (ut ) = 0 .
Como, em geral, Cov( xt • , wt • ) ≠ O , o modelo disponível tem regressores endó-
genos, e o estimador MQ de β não é consistente. Embora E (ut | xt • ) ≠ E (ut ) , cada β j
continua a ter a interpretação estrutural referida, porque β j aparece em yt = xt • β + ut .
Para calcular a projecção linear MQ de yt sobre xt • , faz-se E ∗ ( yt | xt • ) = xt • β∗ , e
tem-se
E ∗ ( yt | xt • ) = E ∗ ( xt • β + wt •δ + vt | xt • )
= E ∗ ( xt • | xt • ) β + E ∗ ( wt • | xt • )δ + E ∗ (vt | xt • )
= xt • β + xt • E ( xtT• xt • ) −1 E ( xtT• wt • )δ + xt • E ( xtT• xt • ) −1 E ( xtT•vt )
= xt • β + xt • E ( xtT• xt • ) −1 E ( xtT• wt • )δ
= xt •{β + E ( xtT• xt • ) −1 E ( xtT• wt • )δ }
= xt • ( β + Γ∗δ ),
onde Γ∗ = E ( xtT• xt • ) −1 E ( xtT• wt • ) . Neste caso, tem-se

β∗ = β + Γ∗ δ .
O resíduo da projecção linear MQ de yt sobre xt • é
ut∗ = yt − E ∗ ( yt | xt • ) = yt − xt • ( β + Γ∗ δ ) ,
que é ortogonal a xt • : E ( xtT•ut∗ ) = 0 [se o modelo tem termo independente, o resíduo ut∗
tem valor esperado nulo e não está correlacionado com xt • ].
Notando que a projecção linear MQ de wt • sobre xt • é
E ∗ ( wt • | xt • ) = xt • E ( xtT• xt • ) −1 E ( xtT• wt • )= xt •Γ∗ ,
pode escrever-se wt • = xt •Γ∗ + rt • , onde E ( xtT•rt • ) = O [se o modelo tem termo indepen-
dente, E (rt • ) = 0 e Cov( xt • , rt • ) = O ]. Então,
yt = xt • β + wt •δ + vt = xt • β + ( xt •Γ∗ + rt • )δ + vt = xt • ( β + Γ∗δ ) + ut∗ ,
em que ut∗ = rt •δ + vt é o resíduo da projecção linear MQ de yt sobre xt • . Daqui, tam-

bém, se conclui que ut = xt •Γ∗δ + ut∗ . Naturalmente, xt •Γ∗δ é a projecção linear MQ de
ut sobre xt • . O cálculo directo confirma este resultado:
E ∗ (ut | xt • ) = E ∗ ( wt •δ + vt | xt • ) = E ∗ ( wt • | xt • )δ = xt •Γ∗δ .
Quando se utiliza o estimador b para estimar β , tem-se

plim(b) = β + Γ∗ δ .
O respectivo enviesamento da endogeneidade, Γ∗ δ , chama-se enviesamento
das variáveis omitidas.
Pode concluir-se o seguinte: quando há variáveis omitidas, os estimadores
MQ de todos os coeficientes de regressão da equação estimável são assintoticamen-
te enviesados.
Em particular, suponha-se que apenas se tem uma variável omitida, wt , e que a

atenção incide especialmente sobre a correlação entre wt e um dos regressores não omi-
tidos (por exemplo, xtk ). Admitindo que há termo independente, suponha-se que todos
os coeficientes da projecção linear MQ de wt sobre xt • são nulos, excepto o termo inde-
pendente e o coeficiente de xtk , ou seja, wt = γ 1∗ + γ k∗ xtk + rt . Neste caso, plim(b j ) = β j
( j = 2, 3, K , k − 1 ), e
Cov( xtk , wt )
plim(bk ) = β k + δ .
Var ( xtk )
Esta fórmula permite, sem dificuldade, determinar o sinal, e talvez a magnitude,

da inconsistência de bk . Por exemplo, se δ > 0 , e xtk e wt estão positivamente correla-
cionados, o enviesamento assintótico é positivo. Se a variância de xtk (na população) é
grande relativamente à covariância entre xtk e wt , então o enviesamento é pequeno.
Por exemplo, sabe-se que a equação estrutural é
yt = β1 + β 2 xt 2 + β 3 xt 3 + δ wt + vt ,
mas foi omitido wt . A equação estimável é dado por

yt = β1 + β 2 xt 2 + β3 xt 3 + ut .
Tem-se
−1
γ 1∗   1 E ( xt 2 ) E ( xt 3 )   E ( wt ) 
 ∗    
Γ∗ = γ 2  =  E ( xt 2 ) E ( xt22 ) E ( xt 2 xt 3 )  E ( xt 2 wt ) .
 ∗    
γ 3   E ( xt 3 ) E ( xt 2 xt 3 ) E ( xt 3 ) 
2
 E ( xt 3 wt ) 
Então,
E ∗ ( yt | 1, xt 2 , xt 3 ) = β1 + β 2 xt 2 + β 3 xt 3 + δ E ∗ ( wt | 1, xt 2 , xt 3 ) .
Fazendo E ∗ ( wt | 1, xt 2 , xt 3 ) = γ 1∗ + γ 2∗ xt 2 + γ 3∗ xt 3 , obtém-se
E ∗ ( yt | 1, xt 2 , xt 3 ) = β1 + β 2 xt 2 + β3 xt 3 + δ (γ 1∗ + γ 2∗ xt 2 + γ 3∗ xt 3 )
= ( β1 + δ γ 1∗ ) + ( β 2 + δ γ 2∗ ) xt 2 + ( β 3 + δ γ 3∗ ) xt 3 .
Alternativamente, como
wt = γ 1∗ + γ 2∗ xt 2 + γ 3∗ xt 3 + rt ,
onde E (rt ) = 0 , Cov( xt 2 , rt ) = 0 e Cov( xt 2 , rt ) = 0 , tem-se

yt = ( β1 + δ γ 1∗ ) + ( β 2 + δ γ 2∗ ) xt 2 + ( β3 + δ γ 3∗ ) xt 3 + ut∗ ,
onde ut∗ = δ rt + vt é o resíduo da projecção linear de MQ de yt sobre 1, xt 2 e xt 3 . Pode

concluir-se que plim(b1 ) = β1 + δ γ 1∗ , plim(b2 ) = β 2 + δ γ 2∗ e plim(b3 ) = β3 + δ γ 3∗ . Verifi-
ca-se, assim, que os três estimadores sofrem do enviesamento da variável omitida.
Em particular, se, por exemplo, apenas existe uma correlação importante entre
xt 3 e wt , pode fazer-se γ 2∗ = 0 . Então, plim(b2 ) = β 2 e
Cov( xt 3 , wt )
plim(b3 ) = β 3 + δ .
Var ( xt 3 )
O enviesamento das variáveis omitidas pode ser eliminado, ou atenuado, intro-

duzindo variáveis proxy, isto é, variáveis que podem representar razoavelmente as va-
riáveis omitidas não observáveis. Para facilitar a exposição, vai supor-se que wt (esca-
lar) é a única variável omitida (não observável), e que a equação estrutural tem termo
independente:
yt = xt • β + δ wt + vt = β1 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ wt + vt .
Supõe-se que qt é uma variável proxy de wt . Para isso, é necessário que qt ve-
rifique dois requisitos:
1) A variável proxy qt é redundante (ignorável) na equação estrutural:
E ( yt | xt • , wt , qt ) = E ( yt | xt • , wt ) .
Facilmente se interpreta esta condição: qt é redundante para explicar yt , desde que

se controle xt • e wt . A hipótese da redundância é raramente controversa, pois admi-
te-se que a única razão para haver preocupação com qt é porque wt não é observá-
vel. Por exemplo, seja wt a aptidão do indivíduo t, e qt , o QI; supondo que a aptidão
afecta os salários, o QI não teria importância se fosse possível observar a aptidão.
A condição de redundância poderia ser substituída por outra condição mais fraca, que
estabelece a não correlação entre vt e qt . A utilização da condição mais forte permi-
te cobrir os casos em que qt tem interacções com os xtj .
2) A correlação entre wt e xt • , expurgada da influência de qt , é nula.
Este requisito pode ser apresentado usando o operador de projecção linear MQ:
E ∗ ( wt | xt • , qt ) = E ∗ ( wt | 1, qt ) .
Para melhor se compreender esta condição, seja E ∗ ( wt | 1, qt ) = θ0 + θ1 qt , ou

wt = θ 0 + θ1 qt + rt ,
onde, por definição, E (rt ) = 0 e Cov(qt , rt ) = 0 . Se qt é uma proxy razoável de wt ,

tem-se θ1 ≠ 0 (em geral, θ1 > 0 ). Mas, a segunda condição exige muito mais: é equi-
valente a Cov( xtj , rt ) = 0 , para j = 2, 3, K , k . Esta condição requer que qt esteja sufi-
cientemente correlacionado com wt , para que a correlação parcial entre xtj e wt (ex-
purgada da influência de qt ) seja nula.
Substituindo na equação estrutural wt por θ 0 + θ1 qt + rt , obtém-se a equação es-

timável,
yt = β1 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ (θ 0 + θ1 qt + rt ) + vt
= ( β1 + δ θ 0 ) + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ θ1 qt + (δ rt + vt ),
ou
yt = β10 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ 0 qt + ut ,
onde β10 = β1 + δ θ 0 , δ 0 = δ θ1 e ut = δ rt + vt .
Deste modo, os regressores xtj não estão correlacionados com ut ; a proxy qt

também não está correlacionada com ut (devido à redundância, a correlação com vt é
nula; por definição, não está correlacionada com rt ). Desta forma, o método MQ forne-
ce estimadores consistentes de β10 , β 2 , β 3 ,..., β k e δ 0 . Assim, podem estimar-se os coe-
ficientes estruturais β j ( j = 2, 3, K , k ) [que permite medir os efeitos parciais dos xtj so-
bre E ( yt | xt • , wt ) ].
Quando qt é uma proxy imperfeita, rt está correlacionado com um ou mais xtj .
Se não se impuser a segunda condição, a projecção linear MQ de wt sobre xt • e qt é
dada por
wt = θ 0 + α 2 xt 2 + α 3 xt 3 + L + α k xtk + θ1 qt + rt .
Então,
yt = β10 + β 20 xt 2 + β 30 xt 3 + L + β k0 xtk + δ 0 qt + ut ,
onde β10 = β1 + δ θ 0 , β 0j = β1 + δ α j ( j = 2, 3, K , k ), δ 0 = δ θ1 e ut = δ rt + vt . Neste caso,

tem-se plim(b j ) = β 0j = β1 + δ α j ( j = 2, 3, K , k ) [o estimador MQ com proxy imperfeita
não é consistente]. Para qt ser uma proxy razoável é de esperar que α j seja pequeno.
Se a inclusão de qt induz multicolinearidade substancial, é mais aconselhável
fazer a regressão sem a variável proxy. Contudo, a inclusão de qt reduz a variância da
variável residual (se θ1 ≠ 0 ): Var (δ rt + vt ) < Var (δ wt + vt ) [porque Var (rt ) < Var ( wt ) ],
e vt não está correlacionado com rt e com wt ].
Pode utilizar-se mais do que uma variável proxy para wt . Por exemplo, fazen-
do wt = θ 0 + θ1 qt1 + θ 2 qt 2 + rt , com Cov( xtj , rt ) = 0 ( j = 2, 3, K , k ), o problema da omis-
são de variáveis fica resolvido.
Quando existem interacções entre regressores observáveis e variáveis explicati-
vas não observáveis, o problema da omissão de variáveis ainda pode ser resolvido com
variáveis proxy. Suponha-se que a equação estrutural é
yt = β1 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ1wt + δ 2 wt xtk + vt ,
onde E (vt | xt • , wt ) = 0 [para simplificar, considerou-se apenas a interacção entre xtk e

wt ].
Supondo que xtk é quantitativa e contínua, o efeito parcial sobre E ( yt | xt • , wt ) é
dado por
∂ E ( yt | xt • , wt )
= β k + δ 2 wt ,
∂ xtk
verificando-se que este efeito depende do nível de wt , e, portanto, não é estimável. Con-
tudo, supondo que E ( wt ) = 0 , o efeito parcial médio (EPM) é E ( β k + δ 2 wt ) = β k . Se
xtk é quantitativa e discreta, pode fazer-se uma interpretação semelhante. Se xtk é uma
variável artificial, o efeito parcial é
E ( yt | xt 2 , xt 3 , K , xt , k −1 ,1, wt ) − E ( yt | xt 2 , xt 3 , K , xt , k −1 , 0, wt ) = β k + δ 2 wt .
Se E ( wt ) = µ w ≠ 0 , o efeito parcial médio é β k + δ 2 µ w .

A seguir vai analisar-se a questão da estimação da equação estrutural. Começa-

-se por supor que E ( wt | xt • ) = 0 [não há qualquer associação, linear ou não, entre wt e
xt • ]. Neste caso, as parcelas que envolvem a variável não observável vão incluir-se na
componente residual, obtendo-se
yt = β1 + β 2 xt 2 + β3 xt 3 + L + β k xtk + ut ,
onde ut = δ1wt + δ 2 wt xtk + vt . Como E (vt | xt • ) = E{E (vt | xt • , wt ) | xt •} = 0 e

E (ut | xt • ) = δ1 E ( wt | xt • ) + δ 2 xtk E ( wt | xt • ) + E (vt | xt • ) = 0 ,
o estimador MQ de cada β j é consistente [a hipótese E ( wt | xt • ) = 0 é crucial para obter

esta conclusão; não basta exigir que não há correlação entre wt e xt • , pois pode existir
correlação entre wt xtk e xt • ].
Quando wt e xt • estão correlacionados, o estimador MQ de cada β j é consis-
tente, desde que se disponha de uma proxy adequada para wt . Neste caso, os requisitos
a exigir são os seguintes:
1) E ( yt | xt • , wt , qt ) = E ( yt | xt • , wt ) (redundância);
2) E ( wt | xt • , qt ) = E ( wt | qt ) = θ1 qt , com E (qt ) = 0 .
Este segundo requisito é mais forte do que no caso em que não há interacções.
Para obter a equação estimável, começa-se por notar que, devido à redundância,
tem-se E (vt | xt • , wt , qt ) = E (vt | xt • , wt ) = 0 . Então, a regra do valor esperado iterado per-
mite estabelecer que E (vt | xt • , qt ) = 0 . O segundo requisito é equivalente a supor que
E (rt | xt • , qt ) = E (rt | qt ) = 0 , uma vez que wt = θ1 qt + rt . Então, considerando a equação
estrutural, obtém-se
yt = β1 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ1 (θ1 qt + rt ) + δ 2 (θ1 qt + rt ) xtk + vt
= β1 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ1θ1 qt + δ 2θ1 qt xtk + δ1rt + δ 2 rt xtk + vt ,
ou
yt = β1 + β 2 xt 2 + β3 xt 3 + L + β k xtk + δ10 qt + δ 20 qt xtk + ut ,
onde δ10 = δ1θ1 , δ 20 = δ 2θ1 e ut = δ1rt + δ 2 rt xtk + vt .

Facilmente se verifica que E (ut | xt • , qt ) = 0 . Com efeito,
E (ut | xt • , qt ) = E (δ1rt + δ 2 rt xtk + vt | xt • , qt )
= δ1E (rt | xt • , qt ) + δ 2 xtk E (rt | xt • , qt ) + E (vt | xt • , qt ) = 0 .
Se E (qt ) ≠ 0 , faz-se E ( wt | qt ) = θ 0 + θ1 qt , e o coeficiente de xtk na equação esti-

mável é β k + δ 2θ 0 . Neste caso, o estimador MQ de β k não é consistente. Como na prá-
tica não se conhece E (qt ) , deve utilizar-se as observações centradas da proxy, qt − q ,
para fazer a interacção com xtk : o regressor passa a ser (qt − q ) xtk , em vez de qt xtk .
Mesmo que não haja heterocedasticidade condicionada na equação estrutural –
Var ( yt | xt • , wt , qt ) = Var( yt | xt • , wt ) = σ 2 –, existe heterocedasticidade condicionada na
equação estimável. De facto, recorrendo à propriedade i) dos valores esperados condi-
cionados (ver capítulo 1), tem-se
Var ( yt | xt • , qt ) = E{Var ( yt | xt • , wt , qt ) | xt • , qt } + Var{E ( yt | xt • , wt , qt ) | xt • , qt }

= σ 2 + (δ1 + δ 2 xtk ) 2 Var( wt | xt • , qt ).
Assim, existe heterocedasticidade condicionada, mesmo que Var ( wt | xt • , qt ) seja

constante: Var ( yt | xt • , qt ) depende de xtk . Em qualquer caso, devem utilizar-se erros
padrão robustos para fazer inferência estatística.
Suponha-se, agora, que a equação de regressão que se vai estimar tem regresso-
res em excesso. Assim, admita-se que a equação estrutural é dada por
yt = xt • β + vt ,
mas a equação a estimar é (MRL sobreparametrizado)

yt = xt • β + wt •δ + ut .
Considere-se que todas as variáveis são pré-determinadas:

E ( xtT•vt ) = 0 ; E ( wtT•vt ) = 0 .
Notando que ut = vt − wt •δ , verifica-se que wt • é endógeno na especificação dis-

ponível. De facto, tem-se E ( wtT•ut ) = E ( wtT•vt − wtT• wt •δ ) = − E ( wtT• wt • )δ .
Seja
−1
 E ( xtT• xt • ) E ( xtT• wt • )   A11 A12 
A=  = .
 E ( wtT• xt • ) E ( wtT• wt • )  A21 A22 
Para determinar a projecção linear MQ de yt sobre xt • e wt • ,

E ∗ ( yt | xt • , wt • ) = xt • β∗ + wt •δ ∗ ,
tem-se
 A A   E ( xtT• yt ) 
E ∗ ( yt | xt • , wt • ) = [ xt • wt • ]  11 12   
 A21 A22   E ( wt • yt )
T
 A A   E{xtT• ( xt • β + vt )}
= [ xt • wt • ]  11 12   ,
 A21 A22   E{wt • ( xt • β + vt )}
T
ou
 A11 A12   E ( xtT• xt • ) 
E ( y t | xt • , wt • ) = [ xt •
∗
wt • ]   β
 A21 A22   E ( wt • xt • )
T
I 
= [ xt • wt • ]   β = x t • β ,
O 
donde se conclui que β∗ = β e δ * = 0 . Assim,
plim( βˆ ) = β = β
 MQ ∗

plim(δˆMQ ) = δ ∗ = 0,

ou seja, β̂ MQ é assintoticamente não enviesado, e δˆMQ tem enviesamento assintótico

igual a − δ . Pode, então, concluir-se o seguinte: o excesso de regressores não prejudi-
ca a estimação MQ dos coeficientes da equação estrutural.
Erros de medida nas variáveis
Começa-se por analisar o erro de medida no regressando. Suponha-se que a

equação estrutural é
yt∗ = xt • β + vt
onde yt∗ representa qualquer observação de y sem erro. Supondo que E (vt | xt • ) = 0 , to-
dos os regressores são pré-determinados, E ( xtT•vt ) = 0 , e E (vt ) = 0 . Quando y é observá-
vel com erro, os valores observados representam-se com yt ≠ yt∗ . O erro de medida (na
população) é dado por et = yt − yt∗ .
A equação estimável é, então,
yt = xt • β + ut ,
onde ut = et + vt . Em que condições se pode utilizar o método MQ para obter estimado-

res consistentes dos β j ? Vai supor-se que E (et ) = 0 [caso contrário, apenas se altera o
termo independente da equação estimável]. A hipótese crucial para se ter consistência é
a da ortogonalidade entre os regressores e o erro de medida, E ( xtT•et ) = 0 . Nestas condi-
ções, os regressores da equação estimável continuam a ser pré-determinados. Contudo,
se E ( xtT•et ) ≠ 0 (ao contrário do que é habitual) há regressores endógenos, e o estimador
MQ de algum β j não é consistente.
Se et e vt não estão correlacionados, E (et vt ) = 0 , tem-se
Var (et + vt ) = σ e2 + σ v2 > σ v2 ,
e, portanto, a variância da variável residual é maior quando existe erro de medição do

regressando.
Quando a equação estrutural é ln( yt∗ ) = xt • β + vt , tem-se et = ln( yt ) − ln( yt∗ ) ou
yt = yt at , onde et = ln(at ) (erro de medida multiplicativo).
∗
A questão dos erros de medida nos regressores é mais complexa. Suponha-se

que a equação estrutural é
yt = xt • β + zt∗•δ + vt ,
onde: xt • é um vector 1 × k de regressores; β é o vector k × 1 dos respectivos coefi-

cientes; zt∗• é outro vector 1 × m de regressores; δ é o respectivo vector m × 1 dos coefi-
cientes. Supõe-se que E (vt | xt • , zt∗• ) = 0 . Assim, admite-se que todos os regressores são
pré-determinados [ E ( xtT•vt ) = 0 ; E{( zt∗• )T vt } = 0 ] e E (vt ) = 0 .
Quando zt∗• é observável com erro, os valores observados são dados por
zt • = zt∗• + et • ,
onde et • é o erro de medição (na população).

Vai admitir-se a hipótese de redundância de zt • ,

E ( yt | xt • , zt∗• , zt • ) = E ( yt | xt • , zt∗• ) .
Esta hipótese não é controversa, porque é razoável supor que zt • não tem efeito
sobre yt , se se controlar zt∗• . Como E (vt | xt • , zt∗• , zt • ) = E (vt | xt • , zt∗• ) = 0 , facilmente se
verifica que E ( ztT•vt ) = 0 . Com efeito,
E ( ztT•vt ) = E{E ( ztT•vt | zt • )} = E{ztT• E (vt | zt • )} = 0 ,
se se provar que E (vt | zt • ) = 0 . De facto, E (vt | zt • ) = E{E (vt | xt • , zt∗• , zt • ) | zt •} = 0 .

Considerando os valores observados, zt • , a equação estimável é a seguinte:
yt = xt • β + zt •δ + ut ,
onde ut = vt − et •δ . Supõe-se que: E (et • ) = 0 [caso contrário, apenas se altera o termo

independente da equação estimável]; E (et •vt ) = 0 ; E ( xtT•et • ) = O .
E ( ztT•et • ) = E{( zt∗• + et • )T et • } = E{( zt∗• )T et • } + E (etT•et • ) = E{( zt∗• )T et •} + Cov(et • ) .
Considerem-se os seguintes casos:

1) Se E ( ztT•et • ) = O , e como zt • = zt∗• + et • , resulta que E{( zt∗• )T et •} ≠ O . Neste caso, to-
dos os regressores da equação estimável são pré-determinados, ou seja, E ( xtT•ut ) = 0
e E ( ztT•ut ) = 0 . Então, os vectores β e δ podem ser consistentemente estimados pe-
lo método MQ. Neste caso,
Var(ut ) = Var(vt − et •δ ) = σ v2 + Var(et •δ ) = σ v2 + δ T Cov(et • ) δ > σ v2 .
2) Se E{( zt∗• )T et •} = O , então E ( ztT•et • ) = E{( zt∗• + et • )T et •} = Cov(et • ) ≠ O . Como

E ( ztT•ut ) = E{ztT• (vt − et •δ )} = − Cov(et • ) δ ≠ 0 ,
existem regressores em zt • que são endógenos, e o método MQ fornece estimadores

não consistentes de β e δ . A condição E{( zt∗• )T et • } = O é conhecida como a hipóte-
se clássica dos erros nas variáveis (CEV).
Para obter o enviesamento da endogeneidade neste caso, vai determinar-se a

projecção linear MQ de yt sobre xt • e zt • : E ∗ ( yt | xt • , zt • ) = xt • β∗ + zt •δ ∗ .
Começa-se por fazer
−1
 E ( xtT• xt • ) E ( xtT• zt • )  A11 A12 
A= T T  = .
 E ( zt • xt • ) E ( zt • zt • )   A21 A22 
Então,
E ∗ ( yt | xt • , zt • ) = xt • β + zt •δ + E ∗ (ut | xt • , zt • )
= xt • β + zt •δ + E ∗ (vt | xt • , zt • ) − E ∗ (et • | xt • , zt • )δ ,
ou
 A A   E ( xtT•vt )
E ∗ ( yt | xt • , zt • ) = xt • β + zt •δ + [ xt • zt • ]  11 12  
 A21 A22   E ( zt •vt ) 
T
 A A   E ( xtT•et • )
− [ xt • zt • ]  11 12   δ
 A21 A22   E ( zt •et • ) 
T
A A   O 
= xt • β + zt •δ − [ xt • zt • ]  11 12   δ
 A21 A22   E ( zt •et • )
T
 A E ( ztT•et • ) 
= xt • β + zt •δ − [ xt • zt • ]  12 T δ
 A22 E ( zt •et • )
= xt •{β − A12 E ( ztT•et • ) δ } + zt •{δ − A22 E ( ztT•et • ) δ }.
Como E ( ztT•et • ) = Cov(et • ) , vem

E ∗ ( yt | xt • , zt • ) = xt •{β − A12Cov(et • ) δ } + zt •{δ − A22Cov(et • ) δ } .
Donde
β∗ = β − A12Cov(et • ) δ

δ ∗ = δ − A22Cov(et • ) δ .
Assim,
plim( βˆ ) = β = β − A Cov(e ) δ
 MQ ∗ 12 t•

plim(δˆMQ ) = δ ∗ = δ − A22Cov(et • ) δ ,

obtendo-se os enviesamentos de erros nos regressores (variáveis explicativas).
A conclusão é a seguinte: quando existem regressores com erro, os estimado-
res MQ de todos os coeficientes de regressão do modelo disponível são assintotica-
mente enviesados.
O estudo do enviesamento de erros nos regressores pode ser aprofundado tirando
partido da projecção linear MQ de zt∗• sobre xt • , e da projecção linear MQ de zt • sobre
xt • . A primeira projecção é dada por
E ∗ ( zt∗• | xt • ) = xt • E ( xtT• xt • ) −1 E ( xtT• zt∗• ) = xt • ∆ ou zt∗• = xt •∆ + rt∗• ,
onde ∆ = E ( xtT• xt • ) −1 E ( xtT• zt∗• ) e rt∗• é o resíduo da projecção [ E ( xtT•rt∗• ) = O ; se existe ter-
mo independente, E (rt∗• ) = 0 e Cov( xt • , rt∗• ) = O ].
Como E ∗ (et • | xt • ) = xt • E ( xtT• xt • ) −1 E ( xtT•et • ) = 0 , a segunda projecção é
E ∗ ( zt • | xt • ) = E ∗ ( zt∗• + et • | xt • ) = xt •∆ ou zt • = xt •∆ + rt • ,
onde rt • é o resíduo desta projecção [ E ( xtT•rt • ) = O ; se existe termo independente, vem

E (rt • ) = 0 e Cov( xt • , rt • ) = O ].
De rt • = zt • − xt •∆ e zt • = zt∗• + et • , resulta imediatamente que
rt • = rt∗• + et • .
Como E ∗ ( yt | xt • , zt • ) = xt • β∗ + zt •δ ∗ e zt • = xt •∆ + rt • , a propriedade e) das projec-

ções lineares MQ permite concluir que E ∗ ( yt | rt • ) = rt •δ ∗ , onde δ ∗ = E (rtT• rt • ) −1 E (rtT• yt ) .
Para obter uma expressão mais interessante para δ ∗ , começa-se por notar que
E (rtT• yt ) = E{rtT• ( xt • β + zt •δ + vt − et •δ )}
= E (rtT• xt • ) β + E (rtT• zt • )δ + E (rtT• vt ) − E (rtT• et • )δ
= E (rtT• zt • )δ − E (rtT• et • )δ = E{rtT• ( zt • − et • )}δ = E (rtT• zt∗• )δ ,
porque E (rtT• xt • ) = O e E (rtT• vt ) = E{( zt • − xt •∆)T vt } = 0 . Logo, δ ∗ = E (rtT• rt • ) −1 E (rtT• zt∗• )δ .

Como E (rtT• zt∗• ) = E{(rt∗• + et • )T ( xt •∆ + rt∗• )} = E{( rt∗• )T rt∗•} , obtém-se
δ ∗ = E (rtT• rt • ) −1 E{( rt∗• )T rt∗• }δ .
Quando existe termo independente, tem-se
δ ∗ = Cov(rt • ) −1 Cov(rt∗• )δ .
Notando que E{( rt∗• )T et • )} = E{( zt∗• − xt •∆)T et • )} = O , tem-se
E (rtT• rt • ) = E{( rt∗• + et • )T (rt∗• + et • )} = E{( rt∗• )T rt∗•} + Cov(et • ) .
Então,
δ ∗ = {E{( rt∗• )T rt∗•} + Cov(et • )}−1 E{( rt∗• )T rt∗•}δ ,
ou
δ ∗ = E (rtT• rt • ) −1{E (rtT• rt • ) − Cov(et • )}δ .
No caso de existir termo independente, obtém-se
δ ∗ = {Cov(rt∗• ) + Cov(et • )}−1 Cov(rt∗• )δ = Cov(rt • ) −1{Cov(rt • ) − Cov(et • )}δ .
Esta igualdade não é fácil de interpretar para m > 1 . Quando m = 1 [há apenas
uma variável observável com erro; zt = zt∗ + et ], tem-se
Var(rt∗ ) Var(rt ) − Var (et )
plim(δˆMQ ) = δ ∗ = δ= δ.
Var(rt ) + Var (et )
∗
Var(rt )
Como Var(rt∗ ) < Var(rt∗ ) + Var(et ) , conclui-se que | plim(δˆMQ ) | = | δ ∗ | < | δ | . Des-
te modo, em grandes amostras, o efeito parcial de z sobre y (medido por δ ), quando é
estimado pelo método MQ, é atenuado devido à existência de erro de medida no re-
gressor. Se δ > 0 , δˆMQ tende a sub-estimar δ ; se δ < 0 , δˆMQ tende a sobre-estimar δ .
Para ilustrar as considerações anteriores, seja a equação estrutural
yt = β1 + β 2 xt 2 + β3 xt∗3 + vt ,
a verificar E (vt ) = 0 , E ( xt 2vt ) = 0 e E ( xt∗3vt ) = 0 . O regressor xt∗3 é observável com

erro, e, portanto, xt 3 = xt∗3 + et , onde et é o erro de medição (na população). A hipótese
da redundância de xt 3 garante que E ( xt 3vt ) = 0 . A equação estimável é dada por
yt = β1 + β 2 xt 2 + β3 xt 3 + ut ,
onde ut = vt − β3et . Supõe-se que E (et ) = 0 , E (et vt ) = 0 e E ( xt 2et ) = 0 .

Supondo que se verifica a hipótese CEV, E ( xt∗3et ) = 0 , deduz-se que
E ( xt 3et ) = E{( xt∗3 + et ) et } = Var(et ) ≠ 0 ,
e que
E ( xt 3ut ) = E{xt 3 (vt − β 3et )} = − β 3Var(et ) ≠ 0 ,
ou seja, xt 3 é regressor endógeno (na equação estimável).

Facilmente se verifica que: E ∗ ( xt∗3 | 1, xt 2 ) = δ1 + δ 2 xt 2 ou xt∗3 = δ1 + δ 2 xt 2 + rt∗3 , on-
de E (rt 3 ) = 0 e E ( xt 2 rt∗3 ) = 0 ; E ∗ ( xt 3 | 1, xt 2 ) = δ1 + δ 2 xt 2 ou xt 3 = δ1 + δ 2 xt 2 + rt 3 , a verifi-
∗
car E (rt 3 ) = 0 e E ( xt 2 rt 3 ) = 0 . Logo, rt 3 = rt∗3 + et e

Var(rt∗3 ) Var(rt 3 ) − Var(et 3 )
plim(b3 ) = β 3∗ = β3 = β3 .
Var(rt 3 ) + Var (et )
∗
Var(rt 3 )
Suponha-se, agora, que a equação estrutural é um modelo de regressão linear

simples, yt = β1 + β 2 xt∗ + vt , em que a variável explicativa é pré-determinada, mas é ob-
servável com erro. Neste caso, a equação estimável passa a ser yt = β1 + β 2 xt + ut , em
que xt = xt∗ + et e ut = vt − β 2 et . Com as hipóteses atrás referidas, pode calcular-se os
enviesamentos assintóticos. Seja
−1
 a11 a12   1 E ( xt )  1  E ( xt2 ) − E ( xt )
A= = = .
2 
a21 a22   E ( xt ) E ( xt ) Var( xt ) − E ( xt ) 1 
Então,
 E ( xt )Var (et )
plim(b1 ) = β1∗ = β1 + β2
 Var ( xt )

plim(b ) = β ∗ = β − Var (et ) β .
 2 2 2
Var( xt ) 2

Como
Var ( xt ) − Var(et ) Var ( xt∗ )
plim(b2 ) = β 2∗ = β2 = β
Var ( xt ) Var( xt∗ ) + Var(et ) 2
e Var ( xt∗ ) < Var ( xt ) , tem-se | plim(b2 ) | = | β 2∗ | < | β 2 | ; quanto menor for Var (et ) relativa-
mente a Var ( xt∗ ) , menor é o enviesamento assintótico.
Nalguns casos, a hipótese clássica dos erros nas variáveis pode não ser ver-
dadeira [como E ( ztT•et • ) = E{( zt∗• )T et • } + Cov(et • ) , pode acontecer que E{( zt∗• )T et • } ≠ O
e que E ( ztT•et • ) ≠ O ]. Por exemplo, suponha-se que um dos factores que explica o salário
dos trabalhadores é o consumo de marijuana. Seja marijuana∗ o número de dias por
mês que o trabalhador fuma marijuana, e marijuana o número de dias por mês reporta-
dos pelo trabalhador. Postula-se que marijuana = marijuana∗ + e , e pode mesmo supor-
-se que os trabalhadores tentam reportar a verdade. É obvio que marijuana∗ = 0 implica
marijuana = 0 [o erro de medida para os trabalhadores que não fumam marijuana é ze-
ro]. Quando marijuana ∗ > 0 , é mais provável que marijuana < marijuana∗ , do que o
contrário. Deste modo, há correlação entre o erro de medida e marijuana∗ .
Uma situação geral em que a hipótese CEV é necessariamente falsa é aquela em
que Var ( zt ) < Var ( zt∗ ) ; neste caso, como Var ( zt ) = Var ( zt∗ ) + Var (et ) + 2 Cov( zt∗ , et ) , é
óbvio que Cov( zt∗ , et ) < 0 . Por exemplo, se o número de anos de escolaridade é uma va-
riável explicativa dos salários dos trabalhadores, há tendência para que educ (número
de anos reportados) seja arredondado em relação a educ∗ (número de anos verificados).

Portanto, Var(educ) < Var (educ∗ ) .
4.2 - Exemplos de modelos económicos com regressores endógenos
Na presente secção vão apresentar-se alguns exemplos, sendo os dois primeiros

dedicados ao enviesamento da simultaneidade.
Um modelo de procura e oferta num mercado em equilíbrio
Considere-se o seguinte modelo de procura e oferta de um certo produto:

qtd = α 0 + α1 pt + utd (equação da procura)
 s
qt = β 0 + β1 pt + ut
s
(4.7) (equação da oferta )
q d = q s (equilíbrio de mercado),
 t t
onde:
qtd - quantidade do produto procurada no período t;
qts - quantidade do produto oferecida no período t;
pt - preço do produto no período t;
utd - variável residual da equação da procura, relativa ao período t;
uts - variável residual da equação da oferta, relativa ao período t.
A variável residual da equação da procura representa os factores que, para além
do preço, influenciam a quantidade procurada (por exemplo, o rendimento dos consumi-
dores); como as variações desta variável provocam deslocamentos da curva da procura
(gráfico que representa a relação entre a quantidade procurada e o preço), a variável re-
sidual utd chama-se shifter da procura (não observável).
A variável residual da equação da oferta diz respeito aos factores que, para além
do preço, influenciam a quantidade oferecida (por exemplo, a dimensão média das em-
presas do mercado); como as variações desta variável implicam deslocamentos da curva
da oferta, a variável residual uts chama-se shifter da oferta (não observável).
Vai supor-se que: E (utd ) = 0 ; E (uts ) = 0 . Fazendo qt = qtd = qts , o modelo pode
escrever-se da seguinte maneira:
qt = α 0 + α1 pt + utd (equação da procura)
(4.8) 
qt = β 0 + β1 pt + ut
s
(equação da oferta ).
Facilmente se verifica que o preço é função das duas variáveis residuais. Com
efeito, resolvendo o sistema anterior em relação ao preço e à quantidade, tem-se
 β 0 − α 0 uts − utd
p
 t = +
 α 1 − β1 α 1 − β 1
(4.9) 
q = α1 β 0 − α 0 β1 + α1ut − β1ut .
s d
 t α1 − β1 α 1 − β1
Então, como
Cov(utd , uts ) − Var(utd ) Var(uts ) − Cov(utd , uts )
Cov( pt , utd ) = ≠ 0 , Cov( pt , uts ) = ≠ 0,
α1 − β1 α1 − β1
resulta que o preço é endógeno nas duas equações (procura e oferta); a endogeneidade
é consequência do equilíbrio de mercado.
Quando se estabelece que Cov(utd , uts ) = 0 , as covariâncias anteriores simplifi-
cam-se para
Var(utd ) Var(uts )
(4.10) Cov( pt , utd ) = − ≠ 0 , Cov( pt , uts ) = ≠0.
α1 − β1 α 1 − β1
Se, como habitualmente, α1 < 0 (curva da procura decrescente) e β1 > 0 (curva
da oferta crescente) conclui-se que: a correlação entre o preço e o shifter da procura é
positiva; a correlação entre o preço e o shifter da oferta é negativa.
Quando se faz a regressão MQ da quantidade sobre uma constante e o preço, não
se consegue estimar nem a equação da procura nem a equação da oferta, uma vez que o
preço é endógeno nas duas equações.
No entanto, como se viu na secção anterior, o estimador MQ é consistente para o
vector dos coeficientes na projecção linear MQ. Atendendo a (4.3), o coeficiente do pre-
ço, nesta projecção, é dado por
Cov( pt , qt )
(4.11) α1∗ = β1∗ = .
Var( pt )
Considerando a equação da procura, tem-se

Cov( pt , qt ) = α1Var( pt ) + Cov( pt , utd ) ,
e
Cov( pt , utd )
α1∗ = α1 + .
Var( pt )
Representando por α̂1 o estimador MQ de α1 , pode concluir-se que

Cov( pt , utd )
(4.12) plim(αˆ1 ) = α1∗ = α1 + ,
Var( pt )
onde
Cov( pt , utd )
Var( pt )
é o respectivo enviesamento da endogeneidade.

Do mesmo modo, quando se considera a equação da oferta, obtém-se
Cov( pt , uts )
β1∗ = β1 + ,
Var( pt )
e
s
Cov( pt , ut )
(4.13) plim( βˆ1 ) = β1∗ = β1 + .
Var( pt )
Chega-se, então, à conclusão que para estimar o coeficiente do preço, quer na

equação da procura quer na da oferta, o estimador MQ não é consistente. O enviesamen-
to assintótico obtido, em cada caso, costuma designar-se também por enviesamento da
simultaneidade, porque o regressor e a variável residual estão relacionadas entre si
através de um sistema de equações simultâneas.
No caso extremo em que não há shifters da procura ( utd = 0, ∀t ), verifica-se que:
Cov( pt , utd ) = 0 ; plim(αˆ1 ) = α1 ; a curva da procura não se desloca; todos os pares de
observações ( pt , qt ) pertencem a esta curva, correspondendo a deslocações da curva da
oferta. No outro caso extremo, em que não há shifters da oferta ( uts = 0, ∀t ), tem-se:
Cov( pt , uts ) = 0 ; plim( βˆ1 ) = β1 ; a curva da oferta não se desloca; todos os pares de ob-
servações ( pt , qt ) permitem construir esta curva, à medida que se desloca a curva da
procura.
No caso geral (ambas as curvas têm shifters não observáveis), e quando se supõe
que Cov(utd , uts ) = 0 , o estimador MQ do coeficiente do preço é consistente para uma
média ponderada de α1 e de β1 . Com efeito, atendendo a (4.9), tem-se
α1Var(uts ) + β1Var(utd ) Var(uts ) + Var(utd )
Cov( pt , qt ) = e Var ( p ) = .
(α1 − β1 ) 2 (α1 − β1 ) 2
t
Então,
Cov( pt , qt ) α1Var(uts ) + β1Var(utd )
= .
Var( pt ) Var(uts ) + Var(utd )
Embora tenha menos interesse, também se podem calcular os enviesamentos da

simultaneidade para os termos independentes das equações da procura e da oferta. Aten-
dendo a (4.3) e a (4.12), e notando que
E (qt ) = α 0 + α1E ( pt ) ,
obtém-se
α 0∗ = E (qt ) − α1∗ E ( pt )
 Cov( pt , utd ) 
= {α 0 + α1E ( pt )} − α1 + E ( pt )
 Var ( pt ) 
Cov( pt , utd )
= α0 − E ( pt ) .
Var ( pt )

Cov( pt , uts )
β 0∗ = β 0 − E ( pt ) .
Var ( pt )
Como não se pode inferir dos dados se as variações dos preços e das quantidades
provêm de deslocações da procura ou da oferta, não se podem estimar os coeficientes de
forma consistente. Isto sugere que pode ser possível estimar a equação da procura (da
oferta) se houver shifters observáveis, ou seja, se algum ou alguns dos factores que fa-
zem deslocar a curva da oferta (da procura) forem observáveis.
Suponha-se, por exemplo, que o modelo (4.8) passa a ser
(4.14) 
qt = β 0 + β1 pt + β 2 zt + ut
s
(equação da oferta ),
onde zt corresponde a uma variável explicativa da quantidade oferecida, distinta do

preço (por exemplo, um indicador da dimensão média das empresas do mercado respec-
tivo). Neste caso, diz-se que zt é um shifter observável, da oferta.
Supõe-se que zt é um regressor pré-determinado na equação da oferta, isto
é, Cov( zt , uts ) = 0 (por exemplo, a dimensão média das empresas explica o comporta-
mento da oferta, mas não está correlacionada com os outros factores não observáveis
abrangidos pela variável residual uts ).
Também se supõe que zt não está correlacionada com o shifter não observável
da procura: Cov( zt , utd ) = 0 (por exemplo, a dimensão média das empresas, que não é
regressor na equação da procura, não está correlacionada com os factores não observá-
veis que influenciam a procura). Pode mesmo dizer-se que zt é uma variável pré-de-
terminada na equação da procura, embora não seja um regressor nesta equação.
Resolvendo o sistema (4.14) em relação ao preço e à quantidade, obtém-se
 β0 − α0 β2 uts − utd
p
 t = + z +
 α1 − β1 α1 − β1 t α1 − β1
(4.15) 
q = α1 β 0 − α 0 β1 + α1 β 2 z + α1ut − β1ut .
s d
 t α1 − β1 α1 − β1 t α 1 − β1
Como Cov( zt , uts ) = 0 e Cov( zt , utd ) = 0 , tem-se
β2
Cov( pt , zt ) = Var( zt ) ≠ 0 .
α1 − β1
Verifica-se, assim, que zt (o shifter observável da oferta) não está correlaciona-
do com a variável residual da equação da procura, utd (o shifter não observável da
procura), mas está correlacionado com o preço (regressor endógeno da mesma equa-
ção). Nestas condições, diz-se que zt é uma variável instrumental (VI) ou instrumen-
to do preço (ou da equação da procura). A definição, em termos gerais, deste tipo de
variáveis vai ser apresentada mais adiante.
Nestas condições, é possível estimar, de forma consistente, o parâmetro α1 . Para
isso, vai calcular-se Cov(qt , zt ) , utilizando a equação da procura. Assim,
Cov(qt , zt ) = Cov(α 0 + α1 pt + utd , zt ) = α1Cov( pt , zt ) + Cov(utd , zt ) = α1Cov( pt , zt ) ,
uma vez que Cov(utd , zt ) = 0 e Cov( pt , zt ) ≠ 0 .

Então,
Cov(qt , zt )
(4.16) α1 = .
Cov( pt , zt )
A partir de uma amostra de dimensão n das variáveis qt , pt e zt , o estimador

naturalmente sugerido pelo princípio da analogia é a contrapartida amostral de (4.16),
ou seja, o quociente das respectivas covariâncias amostrais,
∑
n
(qt − q )( zt − z )
(4.17) α̂1,VI = t =1
,
∑
n
t =1
( pt − p )( zt − z )
que se chama estimador de variáveis instrumentais (VI), onde o instrumento é zt .

O estudo destes estimadores – e, em geral, dos estimadores MGM – vai ser feito
nas secções seguintes.
A estimação da equação da oferta pode ser feita se a curva da procura apresentar
um shifter observável. Fica ao cuidado do leitor verificar que no modelo
qt = α 0 + α1 pt + α 2 rt + utd (equação da procura)
(4.18) 
 qt = β 0 + β 1 pt + β 2 z t + u t
s
onde rt é o rendimento médio dos consumidores do produto, é possível estimar α1 com

(4.17) – desde que se verifiquem as mesmas hipóteses – e estimar β1 com
∑
n
( qt − q )(rt − r )
(4.19) β̂1,VI = t =1
,
∑
n
t =1
( pt − p )(rt − r )
desde que Cov(rt , utd ) = 0 e Cov(rt , uts ) = 0 .
Um modelo macroeconómico simples
Considere-se o seguinte modelo macroeconómico simples:

Ct = α 0 + α1Yt + ut (função consumo)
(4.20) 
Yt = Ct + I t (identidade do PNB),
onde:
Ct - consumo agregado no ano t;
Yt - PNB (produto nacional bruto) ou rendimento nacional no ano t;
It - investimento agregado no ano t;
ut - variável residual da função consumo, relativa ao ano t.
O parâmetro α1 desempenha um papel fundamental neste modelo, já que repre-
senta a propensão marginal a consumir a partir do rendimento ( 0 < α1 < 1 ).
Facilmente se obtém os valores de equilíbrio do consumo e do PNB,
 α0 α1 1
Ct = 1 − α + 1 − α I t + 1 − α ut
 1 1 1
(4.21) 
Y = α 0 + 1 I + 1 u .
 t 1 − α1 1 − α1 t 1 − α1 t
Supondo que Cov( I t , ut ) = 0 (o investimento é uma variável pré-determinada),

obtém-se
Var (ut ) Var( I t )
Cov(Yt , ut ) = > 0 e Cov(Yt , I t ) = >0.
1 − α1 1 − α1
Conclui-se, então, que Yt é um regressor endógeno na função consumo, e que I t

é um instrumento para este regressor.
Tem-se
Cov(Yt , Ct ) Cov(Yt , ut )
(4.22) α1∗ = = α1 + ,
Var (Yt ) Var (Yt )
onde o enviesamento da endogeneidade (ou da simultaneidade) é dado por

1
Var (ut )
Cov(Yt , ut ) 1 − α1 (1 − α1 )Var (ut ) 1 − α1
= = = > 0.
1 Var ( I t ) + Var (ut ) 1 + Var ( I t )
Var (Yt ) [Var( It ) + Var(ut )]
(1 − α1 ) 2 Var (ut )
Como
Cov(Ct , I t ) = α1Cov(Yt , I t ) + Cov(ut , I t ) = α1Cov(Yt , I t ) ,
obtém-se
Cov(Ct , I t )
(4.23) α1 = .
Cov(Yt , I t )
Então, o estimador VI de α1 é
∑
n
(Ct − C )( I t − I )
(4.24) α̂1,VI = t =1
.
∑
n
t =1
(Yt − Y )( I t − I )
A função de consumo microeconómica sob a hipótese do rendimento permanente
Como se viu na secção anterior, a propósito da questão dos erros nas variáveis,
um regressor pré-determinado torna-se endógeno se for medido com erro.
Este problema é muito frequente, por exemplo, em modelos com micro-dados
seccionais sobre famílias. Para ilustrar esta situação, vai considerar-se a versão micro-
económica, com dados seccionais, da Hipótese do Rendimento Permanente (HRP) de
Milton Friedman (1957).
Esta hipótese estabelece que o “consumo permanente” da família t, Ct∗ , é pro-
porcional ao respectivo “rendimento permanente”, Yt ∗ . Assim,
(4.25) Ct∗ = λ Yt ∗ ( 0 < λ < 1 ),
onde λ é a propensão marginal a consumir.

Como o consumo observado, Ct , difere do consumo permanente, e o rendimento
observado, Yt , não coincide com o rendimento permanente, tem-se
(4.26) Ct = Ct∗ + utc e Yt = Yt ∗ + uty ,
onde utc e uty são os respectivos desvios; estes desvios podem ser interpretados, respec-
tivamente, como os erros de medida do consumo permanente e do rendimento perma-
nente.
Vai supor-se que os erros têm valor esperado nulo e não estão correlacionados
entre si, e com o consumo e rendimento permanentes. Assim,
E (utc ) = 0 , E (uty ) = 0 , E (utc uty ) = 0 ,
E (Ct∗utc ) = 0 , E (Yt ∗uty ) = 0 , E (Ct∗uty ) = 0 , E (Yt ∗utc ) = 0 .
Substituindo (4.26) em (4.25), obtém-se

(4.27) Ct = λ Yt + ut com ut = utc − λ uty .
Como este modelo não possui termo independente, deve calcular-se E (Yt ut ) , e
não Cov(Yt , ut ) , para indagar se Yt é endógeno. Assim,
E (Yt ut ) = E{(Yt ∗ + uty )(utc − λ uty )} = −λ E{(uty ) 2 } < 0 ,
o que permite afirmar que o rendimento observado é endógeno.

Notando que
E (CtYt ) = E{(Ct∗ + utc )(Yt ∗ + uty )} = E (Ct∗Yt ∗ ) = λ E{(Yt ∗ ) 2 } ,
E (Yt 2 ) = E{(Yt ∗ + uty ) 2 } = E{(Yt ∗ ) 2 } + E{(uty ) 2 } ,
facilmente se obtém que

E (CtYt ) λ E{(Yt ∗ ) 2 }
(4.28) λ∗ = = <λ,
E (Yt 2 ) E{(Yt ∗ ) 2 } + E{(uty ) 2 }
o que leva a concluir que o estimador MQ de λ , λ̂MQ , é consistente para λ∗ , e subesti-

ma λ .
Vai supor-se que existe um instrumento, zt , para Yt : E ( zt ut ) = 0 ; E (Yt zt ) ≠ 0 .
Como
E (Ct zt ) = E{(λYt + ut ) zt } = λ E (Yt zt ) + E (ut zt ) = λ E (Yt zt ) ,
vem
E (Ct zt )
(4.29) λ= ,
E (Yt zt )
o que permite obter o respectivo estimador VI.

Neste caso, o instrumento adequado é zt = 1 [em (4.27) não há termo indepen-
dente]. Donde
C
(4.30) λ̂VI = ,
Y
isto é, o estimador VI de λ é o quociente das médias amostrais do consumo e do rendi-
mento [foi assim que Friedman (1957) estimou a propensão marginal a consumir!].
Se, em vez de (4.25), se tivesse

Ct∗ = α + λ Yt ∗ ( 0 < λ < 1 ),
obtinha-se
Ct = α + λ Yt + ut com ut = utc − λ uty .
Facilmente se obtém
Cov(Ct , Yt ) λVar (Yt ∗ )
λ =
∗
= <λ.
Var (Yt ) Var (Yt ∗ ) + Var (uty )
Continua a ter-se (4.29), mas não pode fazer-se zt = 1 , porque a regressão tem
termo independente.
Uma função de produção microeconómica
Em certas circunstâncias, a variável residual inclui factores que são observá-

veis pelo agente económico, mas não são observáveis pelo econometrista. Como vai
ver-se, a endogeneidade tem lugar quando há regressores que correspondem a decisões
tomadas pelo agente com base em tais factores.
Considere-se uma amostra seccional de empresas que procuram o factor de pro-
dução trabalho, e pretendem maximizar o lucro. Suponha-se que a função de produção
da empresa t é dada por
(4.31) Qt = α t Ltθ1 exp{vt } (0 < θ1 < 1) ,
onde:
Qt - quantidade produzida pela empresa t;
Lt - quantidade de trabalho utilizado pela empresa t;
αt - nível de eficiência da empresa t;
vt - choque tecnológico referente à empresa t.
Supõe-se que: α t é observável pela empresa, mas não pelo econometrista; vt
não é observável, nem pela empresa nem pelo econometrista.
Admitindo que vt e α t são independentes, e fazendo
E (exp{vt } | α t ) = E (exp{vt }) = λ ,
o nível de produção esperado por cada empresa, quando escolhe Lt , é λ α t Lθt 1 . Sendo p
e w, respectivamente, o preço unitário da produção e a taxa de salário, a empresa t deter-
mina Lt de forma a maximizar o lucro esperado,
π t = pλα t Ltθ − wLt .
1
Para determinar a quantidade de trabalho que maximiza π t , anula-se a derivada

de π t em relação Lt ,
dπ t
= pλα tθ1Lθt 1 −1 − w = 0 ,
dLt
obtendo-se a função procura de trabalho,

1
1
 w  θ1 −1
(4.32) Lt =   (λθ1α t )1−θ1 .
 p
Seja ut = ln(α t ) − E{ln(α t )} = ln(α t ) − θ 0 (o desvio entre o logaritmo do nível de
eficiência da empresa t e o seu valor esperado), onde θ 0 = E{ln(α t )} ; naturalmente que
E (ut ) = 0 e α t = exp{θ 0 + ut } .
Atendendo a (4.31) e à expressão obtida para α t , a função de produção logaritmi-
zada é dada por
(4.33) ln(Qt ) = θ 0 + θ1 ln( Lt ) + (ut + vt ) .
Logaritmizando (4.32), e utilizando a mesma expressão de α t , obtém-se

1   w  1 1
(4.34) ln( Lt ) = ln   − θ 0 − ln (λθ1 ) + ut = β 0 + u,
θ1 − 1   p   1 − θ1 1 − θ1 t
onde
1   w 
β0 =  ln   − θ 0 − ln (λθ1 )
θ1 − 1   p  
é constante (é a mesma para todas as empresas).
A expressão (4.34) mostra que ln( Lt ) é regressor endógeno em (4.33), correla-
cionado positivamente com a variável residual ut + vt . Neste caso, o estimador MQ do
parâmetro θ1 da função de produção logaritmizada confunde a contribuição de dois fac-
tores explicativos do nível de produção: a variável ut (que para a empresa é observável,
mas para o econometrista faz parte da variável residual) e a quantidade de trabalho.
Da endogeneidade de ln( Lt ) em (4.33) decorre que
plim(θˆ1, MQ ) = θ1∗ = 1 .
Com efeito, de (4.34) resulta que ut = (1 − θ1 ){ln( Lt ) − β 0 } . Então, tendo em con-

ta (4.33), vem
ln(Qt ) = (θ 0 − β 0 + β 0θ1 ) + ln( Lt ) + vt = γ + ln( Lt ) + vt ,
onde γ = θ 0 − β 0 + β 0θ1 . Conclui-se imediatamente que θ1∗ = 1 .

Este exemplo ilustra bem outra fonte de endogeneidade: a existência de uma
variável conhecida pelo agente económico (o nível de eficiência da sua empresa), que
lhe permite tomar uma decisão sobre a quantidade de trabalho procurada; no entanto, es-
ta variável faz parte da variável residual da função de produção (logaritmizada) que o
econometrista pretende estimar.
Em termos gerais, pode afirmar-se que pode existir endogeneidade quando o
agente económico toma decisões baseadas em factores que, para o econometrista, estão
incluídos na variável residual (não observável) da equação a estimar.
Suponha-se agora que, além de ut , a empresa pode observar vt , antes de escolher
Lt . Neste caso, e atendendo a (4.31), o lucro a maximizar é dado por
π t = pQt − wLt = pα t Ltθ exp{vt } − wLt .

1
Então, de
dπ t
= pα tθ1Lθt 1 −1 exp{vt } − w = 0 ,
dLt
obtém-se
1
1 1
 w  θ1 −1  v 
Lt =   (α t )1−θ1 (θ1 )1−θ1 exp  t  ,
 p 1 − θ1 
e
θ1
1 θ
 w  θ1 −1 1−θ1
1
1−θ1  v 
Qt =   (α t ) (θ1 ) exp t  .
 p 1 − θ1 
Donde
Qt w 1
= × ,
Lt p θ1
ou seja, a quantidade produzida por unidade de trabalho não depende de α t e de vt ;

como ln(Qt ) = ln( Lt ) + ln(w / p) − ln(θ1 ) , também se pode concluir que ln(Qt ) e ln( Lt )
estão perfeitamente correlacionados.
4.3 - Hipóteses do modelo de regressão linear com regressores endógenos
Nesta secção vai definir-se um modelo de regressão linear que tem em conta a
existência de regressores endógenos. As hipóteses que vão estabelecer-se passam a ter o
prefixo REN.
Linearidade e estacionaridade ergódica
A primeira hipótese é a mera reprodução de REX.1 ou RPD.1 (linearidade), ago-

ra designada por REN.1. Os comentários feitos para REX.1 continuam válidos.
Hipótese REN.1 – Linearidade

yt = xt • β + ut (t ∈ T ) , onde: yt é o regressando; xt • = [ xt1 xt 2 L xtk ] é o vector 1 × k
Os conceitos de estacionaridade e ergodicidade continuam a desempenhar um

papel decisivo no modelo em análise. Na hipótese REN.2 vai considerar-se um processo
estocástico ( k + p + 1 )-dimensional, {( yt , xt• , zt• )} , onde cada vector aleatório da suces-
são inclui, além de yt e xt • , o vector aleatório, 1 × p ,
zt • = [ zt1 zt 2 L ztp ].
Este vector é, como vai ver-se, um vector de variáveis instrumentais (já se fez
referência a estas variáveis nos exemplos da secção 4.2; ver adiante a definição 4.3).
A hipótese a estabelecer é a seguinte:
Hipótese REN.2 - Estacionaridade ergódica

O processo estocástico ( k + p + 1 )-dimensional {( yt , xt • , zt • ) : t ∈ T } é estacionário e er-
gódico.
Como pode haver elementos comuns nos vectores xt• e zt• , é vantajoso, por ve-
zes, trabalhar com um vector wt• que apenas abrange a união dos elementos daqueles
dois vectores. Assim, a hipótese anterior garante que o processo { yt , wt •} é estacionário
e ergódico.
Tal como aconteceu com a hipótese RPD.2, conclui-se imediatamente que o pro-
cesso {ut } , onde ut = yt − xt • β , é também estacionário e ergódico. Continua a ter-se
homocedasticidade marginal (não condicionada),
(4.35) E (ut2 ) = σ 2 .
Variáveis instrumentais
A hipótese que vai apresentar-se a seguir difere substancialmente da hipótese

RPD.3, na medida em que se refere exclusivamente à ortogonalidade entre as variáveis
ztl (componentes de zt • ) introduzido na hipótese REN.2, e as variáveis residuais, ut .
Hipótese REN.3 – Ortogonalidade

Todas as variáveis ztl ( l = 1, 2, K , p ) são ortogonais às variáveis residuais, ut ,
(4.36) E ( zt •ut ) = E ( gt • ) = 0 (t ∈ T ) ,
onde g t • = zt •ut .
Note-se que
g t• = [ g t1 g t 2 L g tp ] = [ zt1ut zt 2ut L ztp ut ]
é um vector 1× p .
Os elementos comuns dos vectores xt• e zt • são os regressores pré-determina-
dos; os outros elementos de xt• são os regressores endógenos; os outros elementos de
zt • não são regressores, mas são variáveis pré-determinadas relativamente à equação es-
trutural yt = xt • β + ut . Quando xt1 = 1 (o modelo tem termo independente), tem-se, tam-
bém, zt1 = 1 ; neste caso, verifica-se que E (ut ) = 0 e Cov( zt • , ut ) = 0 .
Cada componente do vector zt • deve estar relacionada (linearmente) com com-
ponentes do vector xt• . Para isso, vai estabelecer-se a seguinte hipótese:
Hipótese REN.4 – Condição de característica

A matriz de tipo p × k ,
(4.37) Qzx = E ( ztT• xt • ) ,
existe e verifica r (Qzx ) = k .
Podem fazer-se os seguintes comentários preliminares a esta definição:

a) A hipótese REN.4 implica que k ≤ p , ou seja, o número de regressores não pode ser
superior ao número de variáveis incluídas no vector zt • .
b) Notando que
 zt1 xt1 zt1 xt 2 K zt1 xtk 
z x zt 2 xt 2 L zt 2 xtk 
ztT• xt • = 
t 2 t1
,
 M M M 
 
 ztp xt1 ztp xt 2 L ztp xtk 
as relações lineares entre as componentes de zt • e componentes de xt• traduz-se em
supor que as colunas de Qzx são linearmente independentes. Assim, estabelecendo
que as colunas da matriz dos valores esperados dos produtos de ztl ( l = 1, 2, K , p )
por cada regressor são linearmente independentes, garante-se que cada regressor está
linearmente relacionado com alguma variável ztl e que pelo menos k variáveis ztl
estão linearmente relacionadas com os regressores (esta questão vai ser aprofundada
na subsecção sobre o significado da condição de característica).
c) Suponha-se que, por exemplo, a componente ztp do vector zt • é ortogonal a todos os
regressores, E ( ztp xt • ) = 0 . É imediato concluir que não se verifica (4.37) porque a
última linha da matriz Qzx = E ( ztT• xt • ) é nula. Então, r (Qzx ) < k .
Na secção precedente já foi referida a noção de variável instrumental. Por exem-

plo, no modelo (4.14) verificou-se que zt não está correlacionada com a variável resi-
dual da equação da procura, mas está correlacionado com o preço (regressor endógeno
da mesma equação); disse-se, então, que zt era uma variável instrumental ou instrumen-
to do preço. A definição geral deste tipo de variáveis é apresentada a seguir:
Definição 4.3 – Vector de variáveis instrumentais

Diz-se que zt • é um vector de variáveis instrumentais de yt = xt• β + ut (equação estru-
tural) se e só se verifica as duas condições seguintes:
(4.38) E ( zt •ut ) = 0 e r (Qzx ) = r{E ( ztT• xt • )} = k .
Facilmente se conclui que as hipóteses REN.3 e REN.4 garantem que zt • é um

vector de variáveis instrumentais. Contudo, estas duas hipóteses [as duas condições de
(4.38)] têm, do ponto de vista prático, naturezas essencialmente diferentes: a primei-
ra, não pode ser testada porque ut não é observável; a segunda, uma vez que envolve
apenas variáveis observáveis, pode ser testada. A questão de como se deve proceder pa-
ra fazer este teste é um problema complexo, e vai ser tratado mais adiante (ver a sub-
-secção sobre o significado da condição de característica).
As hipóteses REN.3 e REN.4 permitem identificar o vector β . Como
g tT• = ztT•ut = ztT• ( yt − xt • β ) = ztT• yt − ztT• xt • β ,
torna-se claro que este vector depende das variáveis presentes no modelo (regressando,
regressores e instrumentos) e dos verdadeiros valores dos coeficientes de regressão. En-
tão, as condições de ortogonalidade (REN.3) podem escrever-se do seguinte modo:
(4.39) E ( ztT• xt• ) β = E ( ztT• yt ) ou Qzx β = q zy ,
onde q zy = E ( ztT• yt ) .
~
Seja β um qualquer valor hipotético de β , e considere-se o sistema de p equa-
~
ções lineares a k incógnitas (as componentes de β ),
~
(4.40) Qzx β = q zy .
As condições de ortogonalidade (4.39) significam que β (vector dos verdadei-

ros valores dos coeficientes de regressão) é uma solução do sistema (4.40); fica, garanti-
do que este sistema é possível. No entanto, a existência de soluções não basta para se
poder estimar β ; tem que se exigir que o sistema também é determinado (só tem uma
solução).
Pode, então apresentar-se a seguinte definição:
Definição 4.4 – Identificação

Diz-se que o vector β é identificado (ou que a equação de regressão é identificada) se e
só se o sistema (4.40) é possível e determinado.
Como o sistema (4.40) tem pelo menos tantas equações como incógnitas, a con-
dição r (Qzx ) = k é necessária e suficiente para que o sistema tenha apenas a solução
~
β = β . Assim,
A condição de característica, r (Qzx ) = k , é necessária e suficiente para a identifica-

ção do vector β .
Como r (Qzx ) < k , se p < k , é obvio que p ≥ k é uma condição necessária de

identificação. Esta condição chama-se condição de ordem, e pode ser apresentada, de
modo equivalente, de várias maneiras:
− O número de instrumentos é maior ou igual ao número de regressores;
− O número de variáveis pré-determinadas é maior ou igual ao número de regressores;
− O número de condições de ortogonalidade é maior ou igual ao número de coeficien-
tes de regressão;
− O número de variáveis pré-determinadas não incluídas na equação de regressão é
maior ou igual ao número de regressores endógenos.
Quando se verifica a condição de característica, pode ter-se duas situações pos-

síveis de identificação:
1) Identificação exacta, quando p = k ;
2) Sobre-identificação, quando p > k .
O termo sobre-identificação resulta do facto de existir um excesso de p − k va-
riáveis instrumentais para identificar β . Evidentemente, como a condição de ordem é
necessária, se p < k conclui-se que β não é identificado (ou que a equação não é iden-
tificada). Diz-se, então, que se tem uma situação de sub-identificação.
Exemplo 4.1 – Considere-se o modelo (4.14), e suponha-se que se pretende estimar a

equação da procura. Tem-se:
xt• = [ 1 pt ] (k = 2) ; zt • = [ 1 zt ] ( p = 2) ;
 1 E ( pt ) 
wt • = [ 1 pt zt ]; Qzx =  .
 E ( zt ) E ( zt pt )
A condição r (Qzx ) = 2 significa que
| Qzx | ≠ 0 ⇔ E ( zt pt ) − E ( zt ) E ( pt ) ≠ 0 ⇔ Cov( zt , pt ) ≠ 0 ,
e a equação da procura é exactamente identificada.

Quando se considera o modelo (4.18) e a equação da oferta, tem-se:
xt• = [ 1 pt zt ] (k = 3) ; zt• = [1 zt rt ] ( p = 3) ;
 1 E ( pt ) E ( zt ) 
wt • = [ 1 pt zt rt ] ; Qzx =  E ( zt ) E ( zt pt ) E ( zt2 )  .

 E ( rt ) E ( rt pt ) E ( rt zt )
Neste caso, a equação da oferta é exactamente identificada.

Seja o modelo
qt = α 0 + α1 pt + α 2 rt + α 3 at + utd (equação da procura)
(4.41) 
qt = β 0 + β1 pt + β 2 zt + ut
s
onde, se acrescentou, relativamente ao modelo (4.18), mais um regressor pré-determina-

do na equação da procura: os gastos em publicidade, at . Também se supõe que esta va-
riável é ortogonal à variável residual da equação da oferta.
Supondo que se quer estimar a equação da oferta, facilmente se verifica que:
xt• = [ 1 pt zt ] (k = 3) ; zt • = [ 1 zt rt at ] ( p = 4) ,
ficando ao cuidado do leitor construir o vector wt• e a matriz 4 × 3 , Qzx . A equação da

oferta é sobre-identificada ( p − k = 1 ).
∇
Exemplo 4.2 – Suponha-se que se procura estimar a função consumo do modelo (4.20).
Pode concluir-se que:
xt • = [ 1 Yt ] (k = 2) ; zt• = [ 1 I t ] ( p = 2) ;
 1 E (Yt ) 
wt • = [ 1 Yt I t ]; Qzx =  .
 E ( I t ) E ( I t Yt ) 
A condição r (Qzx ) = 2 significa que Cov( I t , Yt ) ≠ 0 . A função consumo é exac-
tamente identificada.
Considere-se, agora, o modelo macroeconómico,
Ct = α 0 + α1Yt + α 2Ct −1 + ut1 (função consumo)

(4.42)  I t = β 0 + β1 Rt + β 2Yt + β 3Yt −1 + ut 2 (função investimento)
Y = C + I + G (identidade do PNB),
 t t t t
onde:
Ct - consumo agregado no ano t;
Ct −1 - consumo agregado no ano t − 1 ;
Yt - PNB (produto nacional bruto) ou rendimento nacional no ano t;
Yt −1 - PNB (produto nacional bruto) ou rendimento nacional no ano t − 1 ;
It - investimento agregado no ano t;
Rt - taxa de juro no ano t;
Gt - despesa pública no ano t;
ut 1 - variável residual da função consumo, relativa ao ano t;
ut 2 - variável residual da função investimento, relativa ao ano t.
Suponha-se que se pretende estimar a função consumo, e que as variáveis Ct −1 ,
Yt −1 , Rt e Gt são pré-determinadas. Tem-se:
xt• = [1 Yt Ct −1 ] (k = 3) ; zt • = [ 1 Ct −1 Yt −1 Rt Gt ] ( p = 5) ,
wt • = [ 1 Yt Ct −1 Yt −1 Rt Gt ].
Fica ao cuidado do leitor construir a matriz 5 × 3 , Qzx . Neste caso, a função con-
sumo é sobre-identificada ( p − k = 2 ).
Quando se pretende estimar a função investimento, vem
xt • = [ 1 Rt Yt Yt −1 ] (k = 4) ; zt • = [ 1 Ct −1 Yt −1 Rt Gt ] ( p = 5) ,
wt • = [ 1 Yt Ct −1 Yt −1 Rt Gt ].
Fica ao cuidado do leitor construir a matriz Qzx , de tipo 5 × 4 . A função investi-

mento é sobre-identificada ( p − k = 1 ).
∇
Exemplo 4.3 – Considere-se a seguinte equação estrutural:

lsalart = β1 + β 2 educt + β3 expert + β 4 aptidt + vt
onde:
lsalart - logaritmo do salário do indivíduo t;
educt - anos de escolaridade do indivíduo t;
expert - anos de experiência profissional do indivíduo t;
aptid t - aptidão do indivíduo t;
vt - variável residual relativa ao indivíduo t.
Supõe-se que E (vt ) = 0 , e que os regressores educt e expert são pré-determina-
dos. Como a variável aptid não pode ser observada, supõe-se que qit = aptidt + et , onde
qit é o QI do indivíduo t (considerado como uma medida da aptidão do indivíduo) e et
é o erro de medida. Fazendo E (et ) = 0 e E (aptidt et ) = Cov(aptidt , et ) = 0 , vem imedia-
tamente que E (qit et ) = E (et2 ) = Var(et ) ≠ 0 .
A equação estimável é dada por
lsalart = β1 + β 2 educt + β3 expert + β 4 qit + ut ,
onde ut = vt − β 4 et . Nestas condições, o regressor qit é endógeno.

Supõe-se, também, que estão disponíveis observações sobre mais duas variáveis
pré-determinadas:
idade t - idade do indivíduo t;
meduc t - anos de escolaridade da mãe do indivíduo t.
Admitindo que estas duas variáveis estão correlacionadas com qit , elas podem
ser tomadas como variáveis instrumentais do regressor endógeno.
Assim,
xt • = [ 1 educt expert qit ] (k = 4) ;
zt • = [ 1 educt expert idadet meduct ] ( p = 5) ,
wt • = [ 1 educt expert qit idadet meduct ],
 1 E (educt ) E (expert ) E (qit ) 

 2

 E (educt ) E ( educt ) E (educt expert ) E (educt qit ) 
Qzx =  E (expert ) E (expert educt ) E (expert 2 ) E (expert qit )  .
 
 E (idadet ) E (idadet educt ) E (idadet expert ) E (idadet qit ) 
 
 E (meduct ) E (meduct educt ) E (meduct expert ) E (meduct qit )
A equação dos salários é sobre-identificada ( p − k = 1 ).

Supondo que r (Qzx ) = 4 , admita-se que idadet = µ + educt + expert , onde µ é
constante (igual para todos os indivíduos). Esta condição não altera a característica da
matriz r (Qzx ) , uma vez que a 4.ª linha é combinação linear das três primeiras linhas.
Assim, a condição idadet = µ + educt + expert significa que, de facto, não há cinco ins-
trumentos, mas apenas quatro.
A variável residual da equação estimável pode, também, estar correlacionada
com educ devido à omissão de aptid, e de outros factores como a qualidade da educação
e os antecedentes familiares. Neste caso, os regressores endógenos são qit e educt . Vai
supor-se que as variáveis instrumentais são as seguintes:
cmtrabt - score do teste sobre o “conhecimento do mundo do trabalho”
do indivíduo t;
meduc t - anos de escolaridade da mãe do indivíduo t.
peduc t - anos de escolaridade do pai do indivíduo t.
Supõe-se que cmtrabt está correlacionada com qit , e que as variáveis meduc t e
peduc t estão correlacionadas com educt . Neste caso,
zt • = [ 1 expert meduct peduct cmtrabt ] ( p = 5) ,
ficando ao cuidado do leitor determinar a matriz Qzx .

A proposta de meduc (ou peduc) como variável instrumental de educ pode ser
questionada. Facilmente se aceita que meduc e educ estão parcialmente correlacionadas
(esta correlação pode testar-se fazendo a regressão MQ de educ sobre as variáveis pré-
determinadas, e testando se o respectivo coeficiente de meduc é significativo). Contudo,
meduc pode estar correlacionado com os factores omitidos incluídos na variável resi-
dual: aptid (o número de anos de escolaridade da mãe do indivíduo pode estar correla-
cionado com a aptidão do indivíduo) e outras características dos antecedentes familiares
(por exemplo, o número de irmãos).
As propostas de variáveis instrumentais para educ têm proliferado na literatura.
Uma proposta interessante é a de Angrist e Krueger (1991). Estes autores consideram
que, devido às leis de ensino obrigatório, o trimestre de nascimento pode ser tomado co-
mo instrumento de educ. Nos casos mais simples, a variável instrumental proposta é
trim1 (variável artificial igual a 1 quando o indivíduo nasceu no 1.º trimestre do ano).
Os autores referidos defendem que as pessoas que nasceram no 1.º trimestre do ano são
obrigadas, por lei, a frequentar a escola mais tempo. Deste modo, trim1 está correlacio-
nada com educ, mas admite-se, sem dificuldade, que é independente dos factores omiti-
dos incluídos na variável residual.
∇
Fica ao cuidado do leitor escrutinar os modelos da secção 4.2. Vai fazer-se um

comentário relativamente à função de produção microeconómica logaritmizada, dada
por (4.33). Como não se dispõe de qualquer variável instrumental para ln( Lt ) , tem-se
p = 1 (a única variável pré-determinada é zt = 1 ) e k = 2 ; a equação não é identificada;
a única condição de ortogonalidade é
E{zt (ut + vt )} = E (ut + vt ) = E{ln(Qt ) − θ 0 − θ1 ln( Lt )}
= E{ln(Qt )} − θ 0 − θ1 E{ln( Lt )} = 0 ,
existindo uma infinidade de pares (θ 0 , θ1 ) a verificarem esta condição.

O exemplo 4.3 mostra claramente que pode ser muito difícil encontrar uma
boa variável instrumental para um regressor endógeno, uma vez que deve satisfazer
dois critérios diferentes, muitas vezes conflituosos. A preocupação relativamente à va-
riável meduc (ver exemplo 4.3) tem a ver com o primeiro critério: a ortogonalidade en-
tre a variável instrumental proposta e a variável residual da equação estimável. Quanto à

variável trim1, a questão duvidosa não está no critério da ortogonalidade, mas no segun-
do: a correlação parcial entre trim1 e educ pode ser fraca.
Existe uma vasta literatura sobre a questão da escolha das variáveis instrumen-
tais mais adequadas. Instrumentos convincentes podem surgir no contexto de progra-
mas de avaliação (por exemplo, programas de formação profissional), onde as pessoas
são escolhidas aleatoriamente para serem elegíveis para um programa. Como a partici-
pação é quase sempre voluntária, pode ser considerada endógena porque depende de
factores não observáveis que afectam a variável a explicar. Contudo, é muitas vezes ra-
zoável supor que a elegibilidade é exógena. A correlação entre a participação e a elegi-
bilidade permite tomar a segunda como variável instrumental da primeira.
Uma variável instrumental válida pode também resultar de uma experiência na-
tural. Este tipo de experiência ocorre quando alguma característica do fenómeno em es-
tudo (muitas vezes inesperada) produz uma variação exógena numa variável explicativa
que, de outro modo, seria endógena. O exemplo de Angrist e Krueger (1991) pode ser
considerado, pelo menos numa primeira aproximação, um bom exemplo de experiência
natural: o recurso à variável trim1 induz uma variação exógena em educ.
O significado da condição de característica
Para esclarecer cabalmente o significado da condição de característica, vai

relacionar-se esta condição com o conjunto das projecções lineares MQ de xtj sobre zt •
( j = 1, 2, K , k ). Considere-se o modelo de regressão, yt = xt• β + ut , onde podem existir
regressores endógenos, e seja zt • um vector de variáveis pré-determinadas (algumas po-
dem ser regressores pré-determinados, e outras podem ser instrumentos de regressores
endógenos; o número de variáveis instrumentais é maior ou igual do que o número de
regressores). Suponha-se que a matriz Qzz = E ( ztT• zt • ) existe e tem inversa (nestas condi-
ções, não há multicolinearidade exacta, na população, entre as componentes do vector
zt • ).
Seja zt •α = α1 zt1 + α 2 zt 2 + L + α p ztp , onde α é um vector p × 1 de componente
genérica α l (l = 1, 2, K , p) , uma qualquer combinação linear das variáveis instrumen-
tais (componentes de zt • ). Facilmente se verifica que zt •α é uma variável instrumental.
Para cada regressor xtj ( j = 1, 2, K , k ), vai procurar-se a combinação linear das compo-
nentes de zt • que está mais correlacionada com xtj . Verifica-se, sem dificuldade, que
esta combinação linear é a projecção linear MQ de xtj sobre zt • ,
E ∗ ( xtj | zt • ) = zt • E ( ztT• zt • ) −1 E ( ztT• xtj ) = zt •π • j ( j = 1, 2, K , k ),
onde
π 
 1j 
π 2 j 
π • j =   = E ( ztT• zt • ) −1 E ( ztT• xtj ) .
M
 
π pj 
 
Para simplificar a notação, vai fazer-se xtj∗ = E ∗ ( xtj | zt • ) . Assim, tem-se

xtj∗ = zt •π • j = π 1 j zt1 + π 2 j zt 2 + L + π pj ztp ( j = 1, 2, K , k ).
É imediato concluir que xtj∗ é uma variável instrumental, uma vez que é uma
combinação linear das variáveis instrumentais ztl (l = 1, 2, K , p) .
Representando por vtj o resíduo daquela projecção, vem
xtj = xtj∗ + vtj ( j = 1, 2, K , k ) .
Note-se que:
− Quando xtj é pré-determinado, xtj∗ = xtj e vtj = 0 [porque xtj é uma das componentes
de zt• ].
− Quando o regressor xtj é endógeno, as duas parcelas de xtj verificam o seguinte: a
primeira, xtj∗ , é ortogonal a ut [ xtj∗ é a parte de xtj que não é endógena]; a segunda,
vtj , não é ortogonal a ut , E (ut vtj ) ≠ 0 [ vtj é a parte endógena de xtj ; caso contrário,
x j não seria endógeno].
Sabe-se que E ( ztlvtj ) = 0 ou E ( ztT•vtj ) = 0 [quando a equação estrutural tem ter-

mo independente, tem-se E (vtj ) = 0 , porque zt1 = 1 ]. Daqui decorre imediatamente que
xtj∗ é ortogonal vtj : E ( xtj∗ vtj ) = 0 . Este resultado permite afirmar que a correlação entre
xtj e xtj∗ , medida pelo valor esperado do respectivo produto, nunca é menor que a corre-
lação entre xtj e qualquer outra combinação linear das variáveis instrumentais ztl , zt •α .
Com efeito, basta notar que, em geral, a diferença entre xtj e zt •α está correlacionada
com zt •α . Deve notar-se, também, que E ( xtj∗ xtj ) = E{xtj∗ ( xtj∗ + vtj )} = E{( xtj∗ ) 2 } .
As k projecções lineares MQ [de cada xtj sobre zt • ] constituem um sistema de k
equações, que exprime cada regressor do modelo dado em função das variáveis pré-de-
terminadas (instrumentais),
 xt1 = π 11 zt1 + π 21 zt 2 + L + π p1 ztp + vt1 = xt∗1 + vt1

 xt 2 = π 12 zt1 + π 22 zt 2 + L + π p 2 ztp + vt 2 = xt 2 + vt 2
∗

L
 x = π z + π z + L + π z + v = x∗ + v ,
 tk 1k t1 2k t 2 pk tp tk tk tk
Juntando as k equações deste sistema, pode escrever-se

xt • = zt • Π + vt• = xt∗• + vt• ,
onde:
− xt∗• = E ∗ ( xt • | zt • ) = [ xt∗1 xt∗2 L xtk∗ ] = zt •Π ;
− Π = E ( ztT• zt • ) −1 E ( ztT• xt • ) = Qzz−1Qzx é a matriz de tipo p × k , de elemento genérico π lj ,
cujas colunas são π • j ;
− vt • = [ vt1 vt 2 K vtk ] é o vector dos resíduos das projecções lineares MQ.
Verifica-se imediatamente que:

− E{( xt∗• )T ut } = 0 ;
− E{( xt∗• )T vt •} = O ;
− Qx ∗ x ∗ = E{( xt∗• )T xt∗• } = ΠT Qzz Π = QzxT Qzz−1Qzx ;
− Qx ∗ x = E{( xt∗• )T xt •} = E{( xt∗• )T xt∗•} ou Qx ∗ x = Qx ∗ x ∗ .
Como E{( xt∗• )T ut } = 0 , pode identificar-se o vector β . Com efeito, tem-se

E{( xt∗• )T ( yt − xt • β } = 0 ⇔ E{( xt∗• )T xt • }β = E{( xt∗• )T yt } ⇔ Qx ∗ x β = qx ∗ y ,
onde qx ∗ y = E{( xt∗• )T yt } . Então, β = Qx−∗1x qx ∗ y .

O sistema de k equações xt • = zt •Π + vt • pode ser considerado como um sistema
de k equações de regressão onde os respectivos regressandos são os regressores da equa-
ção estrutural e os regressores, comuns a todas as equações, são as variáveis instrumen-
tais. É habitual designá-lo por sistema de equações da forma reduzida relativa aos re-
gressores da equação estrutural.
A equação da forma reduzida relativa ao regressando da equação estrutural,
yt , é dada por
yt = xt • β + ut = ( zt •Π + vt • ) β + ut = zt •Πβ + (vt • β + ut ) = zt •γ + ut∗ ,
onde γ = Πβ , ut∗ = vt • β + ut . Verifica-se imediatamente que E ( ztT•ut∗ ) = 0 .

A terminologia “forma reduzida” tem origem na análise dos sistemas de equa-
ções simultâneas (ver capítulo 6), e é mais adequada neste contexto. Contudo, pode uti-
lizar-se esta linguagem no presente capítulo tendo em conta que é uma forma concisa de
dizer que cada variável endógena foi linearmente projectada nas variáveis pré-determi-
nadas. Deve ainda referir-se de que não há nada de estrutural nas projecções lineares
MQ.
Como Qzx = Qzz Π , é imediato verificar que
r (Qzx ) = k ⇔ r (Π ) = k ,
uma vez que r (Qzz ) = p . Assim, a condição de característica, (4.37), é equivalente a que
a característica da matriz Π (matriz dos coeficientes da forma reduzida referente aos re-
gressores da equação estrutural) seja também k.
É possível testar a condição (4.37) dispondo de uma amostra do par ( xt • , zt • ) e
considerando a média amostral correspondente a Qzx = E ( ztT• xt • ) : S zx = (1 / n)Σtn=1 ztT• xt • .
Embora estes testes sejam complexos [ver Cragg e Donald (1996)], este problema pode,
em muitos casos, ser simplificado, fazendo a estimação das equações da forma reduzida
pelo método MQ e testes de nulidade dos respectivos parâmetros, π lj , de forma a garan-
tir que cada instrumento ztl , que não pertence a xt • , seja significativo. Este procedimen-
to não é suficiente para não rejeitar a condição de característica, mas pode fornece evi-
dência estatística contra a condição.
Para esclarecer e interpretar a equivalência entre a condição de característica e
r (Π) = k , apresentam-se alguns exemplos:
a) Considere-se o modelo yt = β1 + β 2 xt + ut , em que a única variável explicativa, xt , é

um regressor endógeno. Suponha-se que zt é o único instrumento de xt . Sem difi-
culdade se verifica que
 1 E ( xt ) 
Qzx =  .
 E ( zt ) E ( zt xt )
Esta matriz tem característica 2 se e só se o seu determinante é diferente de zero, ou

seja, se e só se | Qzx | = Cov( zt , xt ) ≠ 0 . Esta condição pode ser obtida mediante a pro-
jecção linear MQ de xt sobre 1 e zt , xt = π 1 + π 2 zt + vt , onde vt é o respectivo resí-
duo [ E (vt ) = 0 , E ( zt vt ) = 0 ]. Basta notar que π 2 = Cov( zt , xt ) / Var ( zt ) e supor que
π 2 ≠ 0 . Com efeito, esta condição é equivalente a Cov( zt , xt ) ≠ 0 . Portanto, a condi-
ção de característica é equivalente a estabelecer que zt e xt estão correlacionados.
Este caso é ilustrado, por exemplo, pela equação da procura do modelo de procura e
oferta (4.14).
Como zt • = [ 1 zt ], xt∗• = [ 1 xt∗ ], xt∗ = π 1 + π 2 zt e xt∗• = zt •Π , tem-se
1 π 1 
Π= .
0 π2
 
É óbvio que a característica desta matriz é igual a 2 se e só se π 2 ≠ 0 .
O teste da condição de característica equivale a fazer o teste habitual de H 0 : π 2 = 0
contra H1 : π 2 ≠ 0 . A estimação de π 2 é obtida com o método MQ; a estatística-teste
é o respectivo rácio-t clássico (quando se supõe que existe homocedasticidade condi-
cionada de vt ) ou o rácio-t robusto (no caso de heterocedasticidade condicionada).
b) Suponha-se que em yt = β1 + β 2 xt 2 + β 3 xt 3 + ut o único regressor endógeno é xt 3 , e
que se dispõe apenas de uma variável instrumental, zt . A condição de característica
significa que as três colunas da matriz
 1 E ( xt 2 ) E ( xt 3 ) 
 
Qzx =  E ( xt 2 ) E ( xt 2 ) E ( xt 2 xt 3 ) ,
2
 E ( zt ) E ( zt xt 2 ) E ( zt xt 3 ) 
 
são linearmente independentes. Assim, não basta exigir que zt e xt 3 estão correlacio-
nados, E ( zt xt 3 ) ≠ 0 . Facilmente se conclui que para obter uma condição equivalente
à condição de característica, deve considerar-se a projecção linear MQ de xt 3 sobre
todas as variáveis pré-determinadas, xt 3 = π 1 + π 2 xt 2 + π 3 zt + vt , e supor que π 3 ≠ 0
[ vt é o resíduo da projecção; E (vt ) = 0 ; E ( xt 2vt ) = 0 ; E ( zt vt ) = 0 ]. Com efeito, como
zt • = [ 1 xt 2 zt ], xt∗• = [ 1 xt 2 xt∗3 ] e xt∗3 = π 1 + π 2 xt 2 + π 3 zt , resulta
1 0 π 1 
 
Π = 0 1 π 2  ,
0 0 π 3 
 
A condição π 3 ≠ 0 significa que xt 3 e zt estão parcialmente correlacionados, ou
seja, a correlação está “expurgada da influência de xt 2 ”.
Para testar a condição de característica, considera-se H 0 : π 3 = 0 contra H1 : π 3 ≠ 0 , e

procede-se como em a).
c) Continuando a supor yt = β1 + β 2 xt 2 + β3 xt 3 + ut , em que xt 3 é o único regressor en-
dógeno, admita-se que existem duas variáveis instrumentais, zt1 e zt 2 . Seguindo o
mesma linha de raciocínio de b), tem-se zt • = [ 1 xt 2 zt1 zt 2 ], xt∗• = [ 1 xt 2 xt∗3 ],
onde xt∗3 = π 1 + π 2 xt 2 + π 3 zt1 + π 4 zt 2 , e
1 0 π1 
 
0 1 π2
Π= .
0 0 π3 
 
0 0 π 4 
Esta matriz tem característica 3 se e só se π 3 ≠ 0 ou π 4 ≠ 0 . Considerando a equação

da forma reduzida, xt 3 = π 1 + π 2 xt 2 + π 3 zt1 + π 4 zt 2 + vt , a condição π 3 ≠ 0 ou π 4 ≠ 0
significa que xt 3 está parcialmente correlacionado com pelo menos uma variável
instrumental.
O teste a efectuar é H 0 : π 3 = 0 ∧ π 4 = 0 contra H 0 : π 3 ≠ 0 ∨ π 4 ≠ 0 . No caso de hete-
rocedasticidade condicionada utiliza-se a estatística-teste Q que resulta de (3.47); ad-
mitindo homocedasticidade condicionada, utiliza-se o rácio-F clássico.
d) Seja yt = β1 xt1 + β 2 xt 2 + ut , e suponha-se que os dois regressores são endógenos. Dis-
pondo de duas variáveis instrumentais, zt1 e zt 2 , tem-se
 E ( zt1 xt1 ) E ( zt1 xt 2 ) 
Qzx =  .
E ( zt 2 xt1 ) E ( zt 2 xt 2 )
 
As respectivas projecções lineares MQ são dadas por
 xt1 = π 11 zt1 + π 21 zt 2 + vt1

 xt 2 = π 12 zt1 + π 22 zt 2 + vt 2 .
Suponha-se, por exemplo, que se verifica: π 11 ≠ 0 e π 21 = 0 [existe correlação parcial

entre xt1 e zt1 , mas não entre xt1 e zt 2 ]; π 22 ≠ 0 e π 12 = 0 [existe correlação parcial
entre xt 2 e zt 2 , mas não entre xt 2 e zt1 ]. Neste caso, tem-se zt • = [ zt1 zt 2 ],
xt∗• = [ xt∗1 xt∗2 ], xt∗1 = π 11 zt1 , xt∗2 = π 22 zt 2 e
π 0 
Π =  11 .
0 π 22 
 
Esta matriz tem obviamente característica igual a 2.
A hipótese r (Qzx ) = 2 não é rejeitada se forem efectuados dois testes em que as res-
pectivas hipóteses nulas são H 0 : π 11 = 0 e H 0 : π 22 = 0 , e estas hipóteses forem rejei-
tadas. Os procedimentos para testar estas hipóteses são os mesmos dos da alínea a).
e) Seja yt = β1 + β 2 xt 2 + β 3 xt 3 + β 4 xt 4 + ut , em que xt 3 e xt 4 são regressores endógenos.
Suponha-se que se dispõe de três variáveis instrumentais: zt1 , zt 2 e zt 3 . Neste caso,
tem-se zt • = [ 1 xt 2 zt1 zt 2 zt 3 ], xt∗• = [ 1 xt 2 xt∗3 xt∗4 ], onde
 x∗ = π + π x + π z + π z + π z
t3 13 23 t 2 33 t1 43 t 2 53 t 3
 ∗
 xt 4 = π 14 + π 24 xt 2 + π 34 zt1 + π 44 zt 2 + π 54 zt 3 .
Então,
1 0 π 13 π 14 
 
0 1 π 23 π 24 
Π = 0 0 π 33 π 34  .
 
0 0 π 43 π 44 
0

0 π 53 π 54 
Esta matriz tem característica 4 se e só se pelo menos um coeficiente π l 3 ( l = 3, 4, 5 )

é diferente de zero, e pelo menos um coeficiente π h 4 ( h = 3, 4, 5 ), com l ≠ h .
Para não rejeitar a hipótese r (Qzx ) = 4 não basta fazer os testes
H 0 : π 33 = 0 ∧ π 43 = 0 ∧ π 53 = 0 contra H 0 : π 33 ≠ 0 ∨ π 43 ≠ 0 ∨ π 53 ≠ 0 ,
H 0 : π 34 = 0 ∧ π 44 = 0 ∧ π 54 = 0 contra H 0 : π 34 ≠ 0 ∨ π 44 ≠ 0 ∨ π 54 ≠ 0 ,
e rejeitar as respectivas hipóteses nulas. No entanto, a conjugação destes testes con-

juntos com os testes individuais dos π lj ( l = 3, 4, 5 ; j = 3, 4 ) pode ajudar a decidir so-
bre a rejeição, ou não, da condição de característica.
A estimação dos parâmetros da forma reduzida pode ter algum interesse pa-
ra aprofundar as relações entre as variáveis do modelo. No exemplo 4.3 há razões para
admitir que as variáveis explicativas qit e educt são regressores endógenos no modelo
lsalart = β1 + β 2 educt + β 3 expert + β 4 qit + ut . Supondo que o vector das variáveis instru-
mentais é z t • = [ 1 expert meduct peduct cmtrabt ], equação da forma reduzida do
regressor educt é dada por
educt = π 12 + π 22expert + π 32 meduct + π 42 peduct + π 52cmtrabt + vt 2 .
Por exemplo, pode ser interessante medir o efeito parcial de meduc sobre educ.
Para isso, pode estimar-se o parâmetro π 32 e testar a condição π 32 ≠ 0 .
Indicadores de variáveis omitidas ou de variáveis observadas com erro
Considere-se a equação estrutural yt = xt • β + wt •δ + vt , em que wt • é um vector

de variáveis explicativas não observáveis. Supondo que E (vt | xt • , wt • ) = 0 , as variáveis
explicativas são pré-determinadas: E (vt ) = 0 , E ( xtT•vt ) = 0 e E ( wt •vt ) = 0 . A forma di-
recta para encontrar uma solução para este problema de omissão de variáveis já é co-
nhecida: a variável não observável é incluída na variável residual (faz-se yt = xt • β + ut ,
onde ut = wt •δ + vt ) e procuram-se variáveis instrumentais para os regressores xtj que
estejam correlacionados com wt .
Na secção 4.1 foi apresentada, no contexto da estimação MQ, outra solução do
problema da omissão de variáveis recorrendo a variáveis proxy. É interessante clarificar
as semelhanças e as diferenças entre variáveis proxy e variáveis instrumentais. Estas va-
riáveis, tal como as variáveis proxy, são redundantes na equação estrutural. Assim, tem-
-se E ( yt | xt • , wt • , zt • ) = E ( yt | xt • , wt • ) , onde zt • é o vector das variáveis instrumentais
(se fosse possível controlar wt • , zt • seria dispensável). Contudo, ao contrário das variá-
veis proxy, as variáveis instrumentais não devem estar correlacionadas com as variáveis
omitidas.
Existem propostas de solução daquele problema e do problema dos erros de
medida nos regressores apelando a outro tipo de variáveis. Para facilitar a exposição
admite-se que yt = xt • β + δ wt + vt (existe apenas uma variável explicativa não observá-
vel) e que o modelo tem termo independente.
Chama-se indicador de wt a uma variável wt′ que verifica as seguintes condi-
ções:
1) O indicador wt′ é redundante na equação estrutural:
E ( yt | xt • , wt , wt′) = E ( yt | xt • , wt ) .
2) A relação entre wt′ e wt é dada por

wt′ = α 0 + α1 wt + vt′ ,
onde α1 ≠ 0 , Cov( wt , vt′) = 0 e Cov( xt • , vt′) = 0 .
Confrontando as definições de variável proxy e de indicador, a diferença encon-

tra-se na segunda condição (ver secção 4.1). Note-se ainda que esta condição abrange,
como caso particular, a hipótese clássica dos erros nas variáveis. Com efeito, quando
α 0 = 0 e α1 = 1 , as variáveis da relação wt′ = wt + vt′ podem ser interpretadas da seguinte
maneira: wt é o verdadeiro valor da variável não observável; wt′ é o valor observado
com erro; vt′ é o erro de medida.
A partir da condição wt′ = α 0 + α1 wt + vt′ , tem-se imediatamente
α0 1 1
wt = − + wt′ − vt′ ,
α1 α1 α1
onde o erro está correlacionado com wt′ (ao contrário do que acontece com as variáveis
proxy). Substituindo na equação estrutural, obtém-se a equação estimável,
 αδ  δ  δ 
yt =  − 0 + xt • β  + wt′ +  vt − vt′  = (−α 0δ ∗ + xt • β ) + δ ∗wt′ + (vt − δ ∗vt′) ,
 α 1  α1  α 1 
onde δ ∗ = δ / α1 . O termo independente desta equação é dado por − α 0δ ∗ + β1 , onde β1
é o termo independente da equação estrutural.
Nestas condições, o regressor wt′ da equação estimável é endógeno. O problema
pode ser solucionado quando se dispõe de outro indicador (solução com indicadores
múltiplos),
wt′′ = γ 0 + γ 1 wt + vt′′
onde γ 1 ≠ 0 , Cov( wt , vt′′) = 0 e Cov( xt • , vt′′) = 0 . Introduz-se, também, a seguinte hipó-

tese adicional: Cov(vt′, vt′′) = 0 . Deste modo, a correlação entre wt′ e wt′′ resulta apenas
da dependência comum de wt . Nestas condições, wt′′ não está correlacionado com vt
(porque é redundante na equação estrutural) e não está correlacionado com vt′ (porque
vt′ não está correlacionado com wt e com vt′′ ). Como wt′ e wt′′ estão correlacionados,
wt′′ pode ser utilizado como instrumento de wt′ . Obviamente os papéis de wt′ e wt′′ po-
dem ser trocados.
Esta solução é muito diferente da solução em que a variável não observável é
incluída na variável residual, em que é necessário decidir quais os elementos de xt • que
estão correlacionados com wt , e encontrar variáveis instrumentais para os regressores
endógenos. Na solução com indicadores múltiplos, não é necessário conhecer estes re-
gressores, porque xt • é pré-determinado; basta saber que wt′′ é instrumento de wt′ .
No caso da hipótese clássica dos erros nas variáveis, wt′ e wt′′ são as medidas
de wt , e os respectivos erros de medida não estão correlacionados. A solução do proble-
ma ainda é mais simples. Como α 0 = γ 0 = 0 e α1 = γ 1 = 1 , tem-se − α 0δ ∗ = 0 e δ ∗ = δ .
Então, como wt′ é regressor endógeno da equação estimável e wt′′ é a respectiva variá-
vel instrumental, todos os parâmetros da equação estrutural, β e δ , são estimáveis de
forma consistente.
Existem outras formas de utilizar indicadores de variáveis omitidas. Suponha-se
que se tem apenas um indicador de wt : wt′ = α1 wt + vt′ , onde α1 ≠ 0 . Sem perda de ge-
neralidade admite-se que α 0 = 0 e que E ( wt ) = 0 . Então: E ( wt vt′) = 0 e E ( xt •vt′) = 0 ; co-
mo há termo independente na equação estrutural, tem-se E (vt′) = 0 . Supõe-se também
que E (vt vt′) = 0 . Contudo, como apenas se dispõe de um indicador, vai considerar-se um
vector zt∗• , com m componentes, a verificar as seguintes condições:
1) O vector zt∗• é redundante na equação estrutural:
E ( yt | xt • , wt , zt∗• ) = E ( yt | xt • , wt ) .
Como E (vt | xt • , wt , zt∗• ) = 0 , zt∗• não está correlacionado com vt .

2) O vector zt∗• não está correlacionado com vt′ : E ( zt∗•vt′) = 0 .
3) O vector zt∗• está correlacionado com wt′ : E ( zt∗• wt′) ≠ 0 .
Como wt = (1 / α1 ) wt′ − (1 / α1 )vt′ , a partir da equação estrutural, obtém-se a equa-

ção estimável,
δ  δ 
yt = xt • β + wt′ +  vt − vt′  = xt • β + δ ∗ wt′ + (vt − δ ∗vt′) ,
α1  α1 
onde δ ∗ = δ / α1 . É imediato concluir que wt′ é endógeno e que xt • é pré-determinado.
Por hipótese, zt∗• não está correlacionado com vt e com vt′ , mas está correlacionado
com wt′ . Então, zt∗• é um vector de variáveis instrumentais de wt′ . Dadas as várias hipó-
teses de ortogonalidade, para garantir a identificação é apenas necessário que pelo me-
nos uma das componentes de zt∗• tenha coeficiente não nulo na forma reduzida de wt′ .
Se a forma reduzida é dada por
wt′ = xt •π •1 + zt∗•π • 2 + et ,
basta garantir que π •2 ≠ 0 (pelo menos um elemento deste vector é diferente de zero).
A seguir, vai analisar-se uma situação em que uma variável explicativa não é
observável e em que outra variável explicativa é observável com erro. Considere-se o
modelo,
yt = β1 + β 2 xt 2 + L β k −1 xt , k −1 + β k xtk∗ + wt + vt ,
onde wt é a variável explicativa não observável (sem perda de generalidade, o respecti-

vo coeficiente é igual a 1) e xtk∗ é o verdadeiro valor da variável explicativa observada
com erro. Tem-se xtk = xtk∗ + etk , em que xtk é o valor observado e etk é o erro de medi-
da. Supõe-se que: wt pode estar correlacionada com qualquer uma das outras variáveis
explicativas; está disponível um indicador, wt′ , de wt ( wt′ = α 0 + α1 wt + vt′ ); o erro de
medida, etk , está correlacionado com xtk ; está disponível um vector de variáveis, zt∗•
(com m ≥ 2 componentes), que não está correlacionado com vt , vt′ e etk , mas está cor-
relacionado com xtk e wt′ .
Como
 α0 1 1
wt = − α + α wt′ − α vt′
 1 1 1
 x∗ = x − e ,
 tk tk tk
a equação estimável é dada por

 α  1  1 
yt =  β1 − 0  + β 2 xt 2 + L β k −1 xt , k −1 + β k xtk + wt′ +  vt − β k etk − vt′  .
 α 1  α 1  α 1 
Fica ao cuidado do leitor: verificar que existem dois regressores endógenos, xtk
e wt′ , e que o vector das respectivas variáveis instrumentais é zt∗• , com m ≥ 2 ; escrever
a forma reduzida de cada regressor endógeno e estabelecer as respectivas condições de
identificação.
Exemplo 4.4 – Considere-se a equação estrutural (ver exemplo 4.3)

lsalart = β1 + β 2 educt + β3 expert + β 4 expert 2 + δ aptidt + vt ,
onde aptid t é não observável. Supõe-se que todas as variáveis explicativas são pré-de-
terminadas (são todas ortogonais a vt ). A forma directa para solucionar o problema da
variável não observável é inseri-la na variável residual, obtendo-se a seguinte equação
estimável:
lsalart = β1 + β 2 educt + β 3 expert + β 4 expert 2 + ut ,
onde ut = δ aptid t + vt . Supondo que educt é o único regressor endógeno, porque é o

único que está correlacionado com a variável omitida, aptid t , a tarefa que resta é encon-
trar variáveis instrumentais para educt . Por exemplo, meduct e peduct .
A solução do problema da omissão de variáveis ou do erro de medida de regres-
sores pode também ser feita recorrendo a indicadores:
a) Considerem-se dois indicadores de aptid t (ver exemplo 4.3),
qit = α 0 + α1aptid t + vt′


cmtrabt = γ 0 + γ 1aptid t + vt′′.
Como aptid t = −(α 0 / α1 ) + (1 / α1 )qit − (1 / α1 )vt′ , vem
 αδ δ  δ 
lsalart =  β1 − 0  + β 2 educt + β 3 expert + β 4 expert 2 + qit +  vt − vt′  .
 α1  α 1  α1 
Assim, a equação estimável é dada por
lsalart = β1∗ + β 2 educt + β 3 expert + β 4 expert 2 + δ ∗qit + (vt − δ ∗vt′) ,
onde β1∗ = β1 − (α 0 / α1 )δ e δ ∗ = δ / α1 . Nesta equação, qit é o único regressor endó-

geno ( educt passa a ser um regressor exógeno). O instrumento de qit é cmtrabt .
b) Admita-se que se dispõe apenas de um indicador aptid t : qit . Suponha-se que exis-
tem duas variáveis, meduct e peduct , redundantes na equação estrutural, não corre-
lacionadas com vt′ e correlacionadas com o indicador. Nestas condições, qit conti-
nua a ser o único regressor endógeno da equação estimável referida em a), e os seus
instrumentos são meduct e peduct .
c) Suponha-se que a variável educ é observável com erro. Assim, educt = educt∗ + et 2 ,
onde educt é o valor observado, educt∗ é o verdadeiro valor e et 2 é o erro de medida.
Neste caso, a equação estrutural é dada por
lsalart = β1 + β 2 educt∗ + β 3 expert + β 4 expert 2 + aptid t + vt ,
onde se supõe que todas as variáveis explicativas são pré-determinadas (para simpli-
ficar, fez-se δ = 1 ).
Continua a considerar-se que o único indicador de aptid t é qit . Quanto às variáveis
meduct , peduct e cmtrabt , estabelecem-se as seguintes hipóteses: não estão correla-
cionados com vt , vt′ e et 2 ; estão correlacionados com educt e qit .
A equação estimável é dada por
 α  1  1 
lsalart =  β1 − 0  + β 2 educt + β 3 expert + β 4 expert 2 + qit +  vt − β 2et 2 − vt′  .
 α1  α1  α1 
Os regressores endógenos são educt e qit , e as respectivas variáveis instrumentais
são meduct , peduct e cmtrabt .
∇
Diferença-martingala
Finalmente, vai apresentar-se a hipótese homóloga a RPD.5.
Hipótese REN.5 – Diferença-martingala

O processo {g t • } é uma diferença-martingala,
(4.43) E ( gt • | gt −1,• , gt − 2,• , K) = 0 .
A matriz quadrada de ordem p dos segundos momentos,

(4.44) S = E ( g tT• g t• ) = E (ut2 ztT• zt • ) ,
Note-se que
 ut2 zt21 ut2 zt1 zt 2 K ut2 zt1 ztp 
 2 
u z z ut2 zt22 L ut2 zt 2 ztp 
ut zt • zt • =  t t 1 t 2
2 T
.
 M M M 
 2 
ut zt1 ztp ut2 zt 2 ztp L ut2 ztp2 
Como vai ver-se, esta hipótese é necessária para deduzir a distribuição assintóti-
ca dos estimadores de β a estudar nas secções seguintes.
Os comentários que se podem fazer a propósito de REN.5 são semelhantes aos
que se fizeram relativamente a RPD.5. Assim:
− REN.5 é mais forte que REN.3, já que (4.43) implica E ( gt • ) = 0 .
− Como E ( gt • ) = 0 , tem-se S = Cov( gt • ) .
− Não existe autocorrelação em {g t • } : Cov( g t • , g t −s ,• ) = O .
− Fazendo,
1 n 1 n 1
g• n = ∑t =1 gtT• = ∑t =1 ztT•ut = Z TU ,
n n n
onde Z é a matriz n × p das observações das variáveis instrumentais, tem-se
d
n g• n → N ( p ) (0, S ) ,
onde Ea ( g• n ) = 0 e Cov a ( g •n ) = S .
Note-se que:
1 1 1 T
∑ ∑
n n
n g• n = t =1
gtT• = z u =
T
t =1 t • t
Z U.
n n n
− Quando zt1 = 1 (o que acontece sempre que o modelo tem termo independente), o
processo {ut } das variáveis residuais é também uma diferença-martingala. Portan-
to, E (ut ) = 0 e Cov(ut , ut −s ) = 0 (não há autocorrelação).
− Em vez da (4.43), pode utilizar-se a condição suficiente de interpretação mais fácil,
(4.45) E (ut | ut −1 , ut −2 , K , zt • , zt −1,• , zt −2,• , K) = 0 .
Esta condição implica que as variáveis residuais não estão autocorrelacionadas e que
cada variável residual é ortogonal às observações correntes e desfasadas dos instru-
mentos.
− A matriz S, definida em (4.44), é uma matriz de quartos momentos: o seu elemento
genérico é E (ut2 zth ztl ) .
− Devido a (4.43), conclui-se que Cov a ( g •n ) = S . Sem esta hipótese, a matriz das co-
variâncias assintóticas de g •n é mais complicada, envolvendo autocovariâncias de
g t• .
Exemplo 4.5 – Retome-se o exemplo 4.3. A matriz S é o valor esperado da seguinte ma-
triz:
 u2 ut2educt ut2expert ut2idadet ut2 meduct 
 2 t 
 ut educt ut2educt2 ut2educt expert ut2educt idadet ut2educt meduct 
 u 2exper u 2exper educ ut2expert 2 ut2expert idadet ut2expert meduct  .
 t t t t t
 ut2idadet ut2idadet educt ut2idadet expert ut2idadet2 ut2idadet meduct 

 2 2 2 2 
ut meduct ut meduct educt ut meduct expert ut meduct idadet ut2 meduct2 

Supondo que S é invertível, conclui-se, sem dificuldade, que a condição referida
no exemplo 4.3, idadet = µ + educt + expert , faz com que a matriz S seja singular. Com
efeito, quando se insere esta condição na matriz, a 4.ª linha (coluna) é combinação li-
near das três primeiras linhas (colunas); a característica de S diminui de 5 para 4.
∇
O MRL que verifica as hipóteses REN.1 a REN.5, chama-se modelo de regres-

são linear com regressores endógenos (MRL-REN). Obviamente quando zt • = xt • , es-
te modelo reduz-se ao MRL-RPD.
Continua a ter-se um MRL-REN quando o conjunto das variáveis instrumentais
consideradas é substituído por outro conjunto de variáveis instrumentais, onde estas
são combinações lineares independentes daquelas. Seja zt′• = zt • A o vector, 1 × q , dos
novos instrumentos, onde A é uma matriz p × q , tal que r ( A) = q ≤ p e r ( AT Qzx ) = k .
Sem dificuldade se verificam as hipóteses REN.1 a REN.5.
Com efeito, REN.1 e REN.2 são imediatas. Quanto a REN.3, tem-se
E ( zt′•ut ) = E ( zt • Aut ) = E ( zt •ut ) A = 0 .
Para provar REN.4 basta notar que Qz ′x = E{( zt′• )T xt •} = AT E ( ztT• xt • ) = AT Qzx .
Para demonstrar REN.5, começa-se por notar que gt′• = zt′•ut = zt •ut A = gt • A .
Então,
E ( gt′• | gt′−1,• , gt′− 2,• , K) = E ( gt • A | gt −1,• A, gt − 2,• A, K) = E ( gt • | gt −1,• , gt − 2,• , K) A = 0 .
Também se prova que

S ′ = E{( gt′• )T gt′• } = E ( AT gtT• gt • A) = AT S A
tem inversa, porque r ( A) = q .
4.4 - O método generalizado dos momentos
A ideia básica do método dos momentos (MM) é considerar que os momentos

amostrais estimam os respectivos momentos da população, para, a partir daí, se obterem
estimadores dos parâmetros de interesse.
No caso em estudo, os momentos da população são dados pelas componentes do

vector E ( g t • ) , em que os parâmetros de interesse constituem o vector β , uma vez que
gtT• = ztT•ut = ztT• yt − ztT• xt • β .
Como as condições de ortogonalidade (4.36) anulam aqueles momentos da po-

pulação, o estimador MM de β é obtido, anulando os respectivos momentos amostrais,
~ 1 n ~ 1 n 1 n ~
g• n ( β ) = ∑t =1 gtT• ( β ) = ∑t =1 ztT•u~t = ∑t =1 ( ztT• yt − ztT• xt • β ) ,
n n n
~ ~
avaliados em β (um qualquer valor hipotético de β ), e onde u~t = yt − xt • β .
O estimador MM de β é obtido, resolvendo o sistema de p equações a k incó-
gnitas,
1 n T ~
n ∑ t =1
( zt • yt − ztT• xt • β ) = 0 ,
ou
~
(4.46) S zx β = s zy ,
onde
1 n T 1 1 n 1
S zx =
n
∑ z x = Z T X , szy = ∑t =1 ztT• yt = Z T Y ,
t =1 t • t •
n n n
são os correspondentes momentos amostrais de Qzx e q zy [o sistema (4.46) é a contra-
~
partida amostral do sistema (4.40), Qzx β = q zy ].
Supondo que a equação de regressão é identificada, podem considerar-se dois
casos: 1) p = k (identificação exacta); 2) p > k (sobre-identificação).
Estimador de variáveis instrumentais (VI)
No primeiro caso, a matriz Qzx é quadrada e invertível. Então, devido à hipó-

tese REN.2, S zx converge em probabilidade para Qzx , podendo concluir-se que, para n
grande, existe a inversa de S zx com probabilidade 1. Assim, na prática, admite-se que
esta matriz é invertível, pelo que o sistema (4.46) é possível e determinado. A sua única
solução é dada por
−1
1 n T  1 n T
(4.47) βˆ VI = S zx−1s zy = 
n
∑ z x 
t =1 t • t •
 n
∑ z y = ( Z T X ) −1 Z T Y ,
t =1 t • t
que se chama estimador de variáveis instrumentais (VI) de β (a matriz Z é a matriz

das observações dos instrumentos); o método de estimação designa-se, então, por mé-
todo das variáveis instrumentais. Em rigor, deveria utilizar-se o símbolo βˆ VI ( Z ) , uma
vez que o estimador VI depende da escolha dos instrumentos.
É imediato verificar que este método generaliza o método dos mínimos quadra-
dos. De facto, se todos os regressores forem pré-determinados, tem-se Z = X , e o esti-
mador VI reduz-se ao estimador MQ: βˆ VI ( X ) = b .
Exemplo 4.6 – Facilmente se obtêm os estimadores VI dos coeficientes da equação da

procura de (4.14). Com efeito, como zt • = [ 1 zt ], xt • = [ 1 pt ] e yt = qt , vem
1 p   q 
1 n T 1 n T
S zx = ∑t =1 zt • xt • =   e szy = ∑t =1 zt • yt =  .
∑t =1 t t  ∑t =1 t t 
n n
n z (1 / n ) z p n  (1 / n ) z q
 
Então,
−1
αˆ 0, VI  1 p   q 
  =   
αˆ1, VI   z (1 / n)∑t =1 zt pt  (1 / n)∑t =1 zt qt 
n n
1 (1 / n)∑ n zt pt − p  q 
=  t =1
 ,
(1 / n)∑t =1 zt pt − z p  1  (1 / n)∑t =1 zt qt 
n n
−z
ou
αˆ 0, VI      
 (1 / n)∑t =1 zt pt  q −  (1 / n)∑t =1 zt qt 
n n
  1 p
   
  = (1 / n) n z p − z p  .
αˆ1, VI  ∑t =1 t t  (1 / n)∑t =1 zt qt − z q
n 
 
Donde
(1 / n)∑t =1 zt qt − z q
∑ ∑
n n n
z q − nz q
t =1 t t
( zt − z )(qt − q )
αˆ1, VI = = = t =1
,
(1 / n)∑ z p − z p ∑ z p − nz p ∑
n n n
t =1 t t t =1 t t t =1
( zt − z )( pt − p )
tal como em (4.17). Quanto ao termo independente, tem-se

αˆ 0, VI = q − αˆ1, VI p .
Com efeito,
 (1 / n) n z p  q −  (1 / n) n z q  p  n z p  q −  n z q  p
 ∑t =1 t t   ∑t =1 t t   ∑t =1 t t   ∑t =1 t t 
α̂ 0, VI = =
(1 / n)∑t =1 zt pt − z p ∑t =1 zt pt − n z p
n n
ou
αˆ 0, VI =
(∑ n
)
z pt q − n z p q −
t =1 t
(∑ n
)
z q p + nz p q
t =1 t t
∑
n
z pt − n z p
t =1 t
=
(∑ n
z pt − n z p q −
t =1 t
) (∑ n
z q − nz q p
t =1 t t
) =q−
∑
n
z q − nz q
t =1 t t
p.
∑ ∑
n n
z p − nz p
t =1 t t
z p − nz p
t =1 t t
Este resultado é a contrapartida empírica da condição de ortogonalidade relativa

ao instrumento 1: E (1× utd ) = 0 . Com efeito, E (utd ) = 0 ⇔ α 0 = E (qt ) − α1E ( pt ) .
∇
Uma situação particular interessante de estimador VI é quando uma das variá-

veis instrumentais é binária. Para simplificar, considere-se o modelo de regressão li-
near simples, yt = β1 + β 2 xt + ut , e suponha-se que o instrumento, zt , do regressor endó-
geno, xt , é binário. Sabe-se que
∑ ∑ ∑ z yt − y ∑t =1 zt
n n n n
( zt − z )( yt − y ) z ( yt − y )
β̂ 2, VI = t =1
= t =1 t
= t =1 t
.
∑ − z )( x − x ) ∑ z (x − x) ∑ z x − x ∑t =1 zt
n n n n
t =1
( zt t t =1 t t t =1 t t
Sejam n1 e n0 os números de observações em que zt = 1 e zt = 0 , respectiva-

mente. Então,
∑ z yt − y ∑t =1 zt = n1 ( y1 − y ) ,
n n
t =1 t
onde y1 é a média das observações de yt quando zt = 1 . Como

n0 n
y= y + 1y,
n 0 n 1
onde y0 é a média das observações de yt quando zt = 0 , vem
n0 n n
y1 − y = y1 − 0 y0 = 0 ( y1 − y0 ) .
n n n
Então, o numerador de β̂ 2, VI é dado por
n0 n1
n1 ( y1 − y ) = ( y1 − y0 ) .
n
Procedendo de forma semelhante com o denominador de β̂ 2, VI , obtém-se
y1 − y0
βˆ2, VI = ,
x1 − x0
conhecido pela designação de estimador de grupos (Wald).

Suponha-se que xt também é binário, representando, por exemplo, a participa-
ção ou não num programa de formação profissional. Admita-se que zt é a elegibilidade
( zt = 1 , se a pessoa é elegível para o programa; zt = 0 , no caso contrário). Então, x1 é a
fracção de participantes quando zt = 1 (entre as pessoas elegíveis), e x0 é a fracção de
participantes quando zt = 0 (entre as pessoas não elegíveis). Quando a elegibilidade é
necessária para a participação, tem-se x0 = 0 . Assim, x1 − x0 é a diferença das taxas de
participação para zt = 1 e zt = 0 . O estimador VI de β 2 obtém-se dividindo a diferença
da resposta média dos dois grupos (os elegíveis e os não elegíveis) pela diferença das ta-
xas de participação.
O estimador do método generalizado dos momentos (MGM)
Quando p > k (segundo caso), o sistema (4.46) pode não ter solução, pelo que
~
não é possível, em geral, escolher um vector β que satisfaça as p equações do sistema.
Como não se pode anular
~ ~
g• n ( β ) = szy − S zx β
~
de forma exacta, espera-se que seja possível encontrar um β que minimize a distância
~
entre os vectores s zy e S zx β . A distância, que vai ser considerada, é dada por
~ ~ ~ ~ ~
(4.48) J ( β , Wˆ ) = n {g• n ( β )}T Wˆ { g• n ( β )} = n ( szy − S zx β )T Wˆ ( szy − S zx β ) ,
onde a matriz dos pesos, Ŵ , é simétrica definida positiva. Esta matriz pode ser aleatória
e depender da dimensão da amostra, para cobrir o caso de poder ser estimada a partir da
amostra. Supõe-se, também, que Ŵ é estimador consistente de alguma matriz W (não
aleatória, simétrica definida positiva). Assim, plim(Wˆ ) = W .
Como vai ver-se adiante, é conveniente que n apareça a multiplicar na expressão
(4.48). Pode, então, apresentar-se a seguinte definição:
Definição 4.5 – Estimador MGM

O estimador MGM (do método generalizado dos momentos) de β é aquele que minimi-
za a distância (4.48).
Representando este estimador por βˆ (Wˆ ) , tem-se
~
(4.49) βˆ (Wˆ ) = argmin
~
J ( β , Wˆ ) .
β
Como
~ ~ ~ ~
J ( β , Wˆ ) = n( s Tzy Wˆ s zy − 2 β T S zxT Wˆ s zy + β T S zxT Wˆ S zx β ) ,
~
quando se faz ∇ J ( β , Wˆ ) = 0 , obtém-se
~
S zxT Wˆ S zx β = S zxT Wˆ s zy .
Como para n grande, se tem r ( S zx ) = k com probabilidade 1, e como Ŵ é defi-

nida positiva, conclui-se que S zxT Wˆ S zx também é definida positiva (portanto, invertível)
com probabilidade 1. Então, o estimador MGM de β é dado por
(4.50) βˆ (Wˆ ) = ( S zxT Wˆ S zx ) −1 S zxT Wˆ szy = ( X T Z Wˆ Z T X ) −1 X T Z Wˆ Z T Y .
Em rigor, o símbolo mais adequado para representar este estimador deveria ser
ˆ ˆ
β (W , Z ) , já que ele depende dos instrumentos considerados.
~
Mesmo no caso de sobre-identificação, o sistema Qzx β = q zy é possível, pois
~ ~
existe a solução β = β . No entanto, o sistema S zx β = s zy pode não ser possível, não
obstante plim( S zx ) = Qzx e plim( szy ) = qzy ; mesmo que r ( S zx ) = k , não está garantido
que r ( [ S zx szy ] ) = k .
O estimador MGM, (4.50), continua válido, para n suficientemente grande, mes-
mo que W = plim(Wˆ ) seja singular, desde que QzxT W Qzx tenha inversa.
~
Quando p = k , o modelo é exactamente identificado, e tem-se J ( β , Wˆ ) = 0 ,
porque o sistema (4.46) é possível. É imediato verificar que o estimador VI é um caso
particular de estimador MGM: βˆ (Wˆ ) = ( Z T X ) −1Wˆ −1 ( X T Z ) −1 ( X T Z ) Wˆ ( Z T Y ) = βˆVI .
A fórmula (4.50) mostra que os estimadores MGM constituem uma família de
estimadores indexada pela matriz Ŵ .
Finalmente, vai determinar-se o erro de amostragem do estimador MGM. Con-

sidere-se a equação de regressão yt = xt• β + ut . Multiplicando ambos os membros por
ztT• e calculando as respectivas médias amostrais, obtém-se
1 n T 1 n  1 n
n
∑ z y =  ∑t =1 ztT• xt •  β + ∑t =1 ztT•ut ,
t =1 t • t
n  n
ou
s zy = S zx β + g •n .
Substituindo em (4.50), s zy por esta expressão, obtém-se o erro de amostragem,

(4.51) βˆ (Wˆ ) − β = ( S zxT Wˆ S zx ) −1 S zxT Wˆ g •n .
Como
1 T
g• n = Z U,
n
o erro de amostragem também pode ser apresentado da seguinte maneira:
(4.52) βˆ (Wˆ ) − β = ( X T Z Wˆ Z T X ) −1 X T Z Wˆ Z T U .
No caso particular do estimador VI tem-se
(4.53) βˆ VI − β = S zx−1 g •n = ( Z T X ) −1 Z T U .
4.5 - O estimador dos mínimos quadrados em dois passos
Os estimadores MQ e VI pertencem à família dos estimadores MGM. No entan-

to, existem outros estimadores MGM importantes: é o caso do estimador dos mínimos
quadrados em dois passos (MQ2P; a sigla inglesa consagrada é 2SLS, Two-Stage
Least Squares), que vai apresentar-se a seguir.
Considere-se o modelo de regressão, yt = xt • β + ut , com regressores endógenos,
e seja zt• um vector de variáveis instrumentais. Seja xt∗• = zt •Π , onde Π é a matriz de
tipo p × k dos coeficientes das projecções lineares MQ dos regressores, xt • , sobre os
instrumentos, zt• (matriz dos coeficientes da respectivas formas reduzidas). Sabe-se que
o vector 1 × k , xt∗• , é ainda um vector de variáveis instrumentais. Contudo, não se pode
utilizar este vector para estimar β , porque as variáveis xtj∗ ( j = 1, 2, K , k ) não são ob-
serváveis. Vai, então, recorrer-se a um método de estimação que, ao tirar partido da es-
timação MQ dos coeficientes da forma reduzida, π lj ( l = 1, 2, K , p ; j = 1, 2,K, k ), per-
mite determinar um estimador consistente de β (o vector dos coeficientes da equação
estrutural): o estimador MQ2P.
A partir de uma amostra de dimensão n, tem-se a relação amostral Y = Xβ + U ,
e a matriz Z das observações das variáveis pré-determinadas. O estimador MQ2P é ob-
tido, como o próprio nome indica, mediante dois passos:
1º) Aplicando o método dos mínimos quadrados a cada uma das equações da forma
reduzida, xtj = zt •π • j + vtj , obtém-se o estimador MQ de π • j , πˆ• j = ( Z T Z ) −1 Z T x• j
( x• j é a coluna j da matriz X), os respectivos valores ajustados, xˆtj = zt •πˆ • j , e os re-

síduos MQ, vˆtj = xtj − xˆtj .
Juntando as k equações, tem-se Π ˆ = ( Z T Z ) −1 Z T X , xˆ = z Π ˆ (a matriz Π̂ é de tipo
t• t•
p × k , de elemento genérico πˆ lj , cujas colunas são πˆ • j ) e vˆt • = xt • − xˆt • .
Considerando todas as equações e todas as observações, pode escrever-se
X = Z Π +V = X∗ +V ,
onde: X ∗ = Z Π ; V é a matriz tipo n × k , de elemento genérico vtj .
Tem-se: Xˆ = Z Π ˆ = Z ( Z T Z ) −1 Z T X = H Z X , onde H = Z ( Z T Z ) −1 Z T é uma matriz
Z
simétrica e idempotente; Vˆ = X − Xˆ = PZ X , onde PZ = I n − Z ( Z T Z ) −1 Z T (a matriz
Vˆ é de tipo n × k , de linha genérica v̂t • ).
Estes ajustamentos podem ter a seguinte interpretação: como x̂tj é a versão esti-
mada de xtj∗ , e esta variável não está correlacionada com ut , o primeiro passo tem
por objectivo expurgar xtj da sua correlação com ut . Com efeito, basta notar que
yt = xt • β + ut = ( xt∗• + vt • ) β + ut = xt∗• β + (ut + vt • β ) ,
e que xt∗• não está correlacionado com ut + vt • β . Para os regressores pré-determina-

dos não é necessário fazer o respectivo ajustamento do 1.º passo, já que xˆtj = xtj .
2º) Considere-se a relação Y = Xˆβ + V∗ , onde a matriz das observações dos regressores
passa a ser X̂ . Comparando com a regressão original, Y = Xβ + U , facilmente se
verifica que V∗ = U + ( X − Xˆ ) β . Agora, tem-se
yt = xˆt • β + vt∗ ,
onde vt∗ = ut + ( xt • − xˆt • ) β .

Estimando o vector β pelo método MQ, obtém-se o estimador MQ2P do mesmo
vector,
βˆ MQ2P = ( Xˆ T Xˆ ) −1 Xˆ T Y = ( X T H Z X ) −1 X T H Z Y ,
ou
(4.54) βˆMQ2P = { X T Z ( Z T Z ) −1 Z T X }−1 X T Z ( Z T Z ) −1 Z T Y .
Em rigor, seria mais aconselhado utilizar o símbolo βˆ MQ2P ( Z ) para representar o

estimador dos mínimos quadrados em dois passos.
Evidentemente, na prática, não é necessário fazer os cálculos relativamente aos
dois passos atrás descritos para determinar as estimativas MQ2P; basta aplicar directa-
mente (4.54).
Pode verificar-se, sem dificuldade, que o estimador MQ2P de β pode ser obtido
considerando, no 2.º passo, a relação Y = Xβ + Vˆδ + V∗ , em vez de Y = Xˆβ + V∗ . Com
efeito, de acordo com o anexo 2A, o estimador MQ de β é dado por
βˆMQ = ( X T PVˆ X ) −1 X T PVˆ Y ,
onde
PVˆ = I − Vˆ (Vˆ TVˆ ) −1Vˆ T = I − PZ X ( X T PZ X ) −1 X T PZ .
Então,
−1
βˆMQ =  X T {I − PZ X ( X T PZ X ) −1 X T PZ } X  X T {I − PZ X ( X T PZ X ) −1 X T PZ } Y
 
= ( X T X − X T PZ X ) −1 ( X T Y − X T PZ Y ) = { X T ( I − PZ ) X }−1 X T ( I − PZ )Y
= ( X T H X ) −1 ( X T H Y ) = βˆ
Z Z . MQ2P
Este resultado permite fazer outra interpretação muito interessante do estima-

dor MQ2P: a inclusão dos regressores adicionais, v̂tj , “elimina” a possível endogenei-
dade dos regressores.
Verifica-se facilmente que o estimador MQ2P é MGM. Com efeito, basta fazer
em (4.50), Wˆ = S zz−1 . Assim, tem-se
(4.55) βˆMQ2P = ( S zxT S zz−1 S zx ) −1 S zxT S zz−1 szy = βˆ ( S zz−1 ) .
Notando que Xˆ T Xˆ = Xˆ T X , verifica-se também que o estimador MQ2P pode ser

encarado como um estimador VI, onde a matriz dos instrumentos é X̂ . Assim,
βˆMQ2P ( Z ) = βˆVI ( Xˆ ) = ( Xˆ T X ) −1 Xˆ T Y = ( Xˆ T Xˆ ) −1 Xˆ T Y = βˆMQ ( Xˆ ) .
Além disso, quando p = k , naturalmente que os estimadores MQ2P e VI coinci-

dem, β MQ2P ( Z ) = βˆ VI ( Z ) .
ˆ
No caso do estimador MQ2P, o erro de amostragem é dado por
βˆMQ2P − β = ( S zxT S zz−1 S zx ) −1 S zxT S zz−1 g• n
(4.56) = { X T Z ( Z T Z ) −1 Z T X }−1 X T Z ( Z T Z ) −1 Z TU
= ( X T H Z X ) −1 X T H ZU .
Exemplo 4.7 – Retome-se o modelo (4.14) para estimar, pelo método MQ2P, a equação
da procura. Neste caso, pt é o único regressor endógeno, e zt• = [ 1 zt ].
Atendendo a (4.15), tem-se
β0 − α0 β2 u s − utd
pt = π 1 + π 2 zt + vt = + zt + t .
α1 − β1 α1 − β1 α1 − β1
No primeiro passo faz-se a regressão MQ de pt sobre 1 e zt , de modo a obter
p̂t . O segundo passo permite obter, por exemplo, o estimador MQ2P de α1 , fazendo a
regressão MQ de q t sobre 1 e p̂t ,
∑
n
(qt − q )( pˆ t − pˆ )
α̂1,MQ2P = t =1
∑
n
t =1
( pt − pˆ ) 2
Neste caso, os estimadores MQ2P e VI coincidem, uma vez que p = k = 2 .

Assim, devido a (4.17), tem-se
∑
n
(qt − q )( zt − z )
αˆ1,MQ2P = αˆ1,VI = t =1
.
∑
n
t =1
( pt − p )( zt − z )
Considere-se, agora, o modelo (4.41) e suponha-se que se pretende estimar a

equação da oferta. Neste caso, tem-se p > k ( p = 4 e k = 3 ).
O primeiro passo consiste em fazer a regressão MQ de pt sobre 1, zt , rt e at ,
com o objectivo de obter p̂t . No segundo passo, faz-se a regressão de q t sobre 1, p̂t e
zt , o que permite obter os estimadores MQ2P dos β j ( j = 0,1, 2 ). Evidentemente, estes
estimadores podem ser calculados utilizando directamente o resultado (4.54).
∇
Exemplo 4.8 – Seja o modelo (4.20) com a finalidade de estimar a função consumo pe-
lo método MQ2P. O único regressor endógeno é Yt , e zt• = [ 1 I t ].
Atendendo a (4.21), vem
α0 1 u
Yt = π 1 + π 2 I t + vt = + It + t .
1 − α1 1 − α1 1 − α1
No primeiro passo faz-se a regressão MQ de Yt sobre 1 e I t , obtendo-se Ŷt ; o

segundo passo corresponde à regressão MQ de C t sobre 1 e Ŷt .
O estimador MQ2P de α1 é dado por
∑ (Ct − C )(Yˆt − Yˆ )
n
α̂1,MQ2P = t =1
.
∑t =1 (Yˆt − Yˆ ) 2
n
Como p = k = 2 , os estimadores MQ2P e VI coincidem. Atendendo a (4.24),
∑
n
(Ct − C )( I t − I )
αˆ1,MQ2P = αˆ1,VI = t =1
.
∑
n
t =1
(Yt − Y )( I t − I )
Se se pretender estimar a função investimento do modelo (4.42), o primeiro pas-

so consiste na regressão MQ de Yt sobre 1, Ct −1 , Yt −1 , Rt e Gt , obtendo-se Ŷt . No se-
gundo passo, a regressão MQ é de I t sobre 1, Rt , Ŷt , Yt −1 .
Neste caso, p > k ( p = 5 e k = 3 ). Os estimadores MQ2P dos coeficientes de
regressão β j ( j = 0,1, 2, 3 ), devem ser calculados com (4.54).
∇
Exemplo 4.9 – Retome-se o exemplo 4.3 com o objectivo de estimar a equação dos sa-
lários pelo método MQ2P. No primeiro passo faz-se a regressão MQ de qit (o único re-
gressor endógeno) sobre 1, educt , expert , idadet e meduct , de modo a obter os valores
ajustados de qit . No segundo passo efectua-se a regressão MQ de lsalart sobre 1,
educt , expert e os valores ajustados, no primeiro passo, de qit .
Tem-se p > k ( p = 5 e k = 4 ). Os estimadores MQ2P dos coeficientes de re-
gressão β j ( j = 0,1, 2, 3 ), seriam calculados com (4.54).
No entanto, se o regressor expert fosse também endógeno, o primeiro passo se-
ria constituído por duas regressões MQ: qit sobre 1, educt , idadet e meduct , de modo a
obter os valores ajustados de qit ; expert sobre 1, educt , idadet e meduct , obtendo-se os
valores ajustados de expert . No segundo passo, fazia-se a regressão MQ de lsalart so-

bre 1, educt , os valores ajustados de expert e os valores ajustados de qit .
Como p = k = 4 , os estimadores MQ2P podiam ser calculados com o resultado
(4.47) relativo aos estimadores VI.
∇
4.6 - Propriedades dos estimadores MGM
Nesta secção vão apresentar-se as propriedades assintóticas ou aproximadas

dos estimadores MGM (para qualquer Ŵ nas condições enunciadas), com um desenvol-
vimento semelhante ao que se fez para o estimador MQ no MRL-RPD.
As duas propriedades seguintes estabelecem que os estimadores MGM são con-
sistentes e assintoticamente normais (CAN).
Propriedade 4.1 – As hipóteses REN.1 a REN.4 implicam que os estimadores MGM

de β são consistentes,
(4.57) plim {βˆ (Wˆ )} = β .
Dem.: Com efeito, note-se que:

− A hipótese REN.2 implica que {ztT• xt • } é estacionário e ergódico. Então, o teorema
da ergodicidade garante que plim( S zx ) = Qzx ;
− O processo {g t • } é estacionário e ergódico. Logo, o teorema da ergodicidade e a hi-
pótese REN.3 permitem concluir que plim( g• n ) = 0 ;
− plim(Wˆ ) = W .
Então, a partir do erro de amostragem, βˆ (Wˆ ) − β = ( S zxT Wˆ S zx ) −1 S zxT Wˆ g• n , resulta
(4.57).
∇∇
A propriedade 4.1 assegura que o estimador MGM de β é consistente para qual-

quer matriz Ŵ . Obviamente daqui decorre que os estimadores VI e MQ2P são consis-
tentes. Não obstante esta conclusão, vão fazer-se os seguintes comentários:
a) Sabe-se, a partir do erro de amostragem, que plim{βˆ (Wˆ )} = β + (QzxT W Qzx ) −1 QzxT Wqzu ,
onde qzu = E ( ztT•ut ) = E ( gtT• ) . Então, como plim( g• n ) = qzu , a consistência dos estima-
dores MGM depende crucialmente da nulidade do limite em probabilidade de g• n .
Quando W = Qzz−1 , o estimador MGM é o estimador MQ2P. Neste caso, aquele limite
em probabilidade é dado por plim(βˆMQ2P ) = β + (QzxT Qzz−1 Qzx ) −1 QzxT Qzz−1qzu .
Obtém-se o estimador VI quando p = k ; tem-se plim(βˆVI ) = β + Qzx−1qzu . A utilização
do estimador MQ, quando há regressores endógenos, origina plim(b) = β + Qzx−1qxu ,
onde qxu = E ( xtT•ut ) .
É interessante comparar os possíveis enviesamentos dos estimadores MQ e VI.
Para isso, vai considerar-se uma situação simplificada, recorrendo ao modelo de re-
gressão linear simples, yt = β1 + β 2 xt + ut , onde xt é regressor endógeno.
Considere-se o estimador MQ de β 2 ,
∑
n
( xt − x )( yt − y )
b2 = t =1
.
∑t =1 ( xt − x )2
n
∑ ∑ ∑
n n n
( xt − x )( yi − y ) ( xt − x ) yi ( xt − x )( β1 + β 2 xt + ut )
b2 = t =1
= t =1
= t =1
,
∑t =1 ( xt − x )2 ∑ ∑t =1 ( xt − x )2
n n n
t =1
( xt − x ) 2
ou
∑
n
( xt − x )ut
b2 = β 2 + t =1
.
∑
n
t =1
( xt − x ) 2
Então,
Cov( xt , ut ) σ u
plim(b2 ) − β 2 = = Corr ( xt , ut ) ,
Var ( xt ) σx
onde σ x2 = Var( xt ) e σ u2 = Var (ut ) .
Sendo zt uma variável instrumental de xt , tem-se
∑
n
( zt − z )( yt − y )
βˆ2, VI = t =1
.
∑
n
t =1
( zt − z )( xt − x )
Para obter o enviesamento deste estimador, faz-se
∑ ∑ ∑
n n n
( zt − z )( yt − y ) ( zt − z ) yt ( zt − z )( β1 + β 2 xt + ut )
βˆ = t =1
= t =1
= t =1
,
∑ − z )( x − x ) ∑ ∑t =1 ( zt − z ) xt
2 , VI n n n
t =1
( zt t t =1
( zt − z ) xt
ou
∑ ( z − z )u .
n
βˆ = β2
t t
+ t =1
∑ ( z − z )( x − x )
2 , VI n
t =1 t t
Então,
Cov( zt , ut ) σ u Corr ( zt , ut )
plim(βˆ2, VI ) − β 2 = = .
Cov( zt , xt ) σ x Corr ( zt , xt )
Se as variáveis zt e ut estão correlacionados, a inconsistência do estimador VI cres-

ce quando Corr ( zt , xt ) → 0 . Assim, mesmo que a correlação entre zt e ut seja pe-
quena, pode haver uma severa inconsistência do estimador se zt está fracamente cor-
relacionado com xt .
Comparando as inconsistências, o estimador VI é “melhor” que o estimador MQ se
Corr ( zt , ut )
< Corr ( xt , ut ) .
Corr ( zt , xt )
Esta situação pode não ocorrer quando a correlação entre zt e xt é pequena em rela-
ção à correlação entre zt e ut .
As correlações pequenas entre regressores endógenos e variáveis instrumentais, pode

ser sintoma da fraca qualidade dos instrumentos. As implicações estatísticas desta
situação vão ser analisadas mais adiante.
b) O estimador MQ2P deve ser calculado directamente com a fórmula (4.54). Contudo,
o uso errado dos dois passos é susceptível de originar problemas sérios de inconsis-
tência. Por exemplo, pode descrever-se um método em dois passos, aparentemente
semelhante ao método MQ2P, em que o respectivo estimador é inconsistente. Con-
sidere-se o modelo yt = xt′• β •1 + xt′′• β • 2 + ut , em que xt′• é o vector 1 × k ′ dos regresso-
res pré-determinados, e xt′′• é o vector 1 × k ′′ dos regressores endógenos (k ′′ = k − k ′) .
Seja o vector de variáveis instrumentais, zt • = [ zt′• zt′′• ], onde zt′• é o vector 1 × p′
dos instrumentos que são regressores ( xt′• = zt′• ; k ′ = p′ ); zt′′• é o vector 1× p′′ dos
instrumentos que não são regressores ( p′′ = p − p′) .
Os dois passos são os seguintes:
1.º) Fazer a regressão MQ de cada componente do vector xt′′• sobre zt′′• (omitindo os
regressores pré-determinados), de modo a obter os respectivos valores ajustados,
x̂t′′• .
2.º) Fazer a regressão MQ de yt sobre xt′• e x̂t′′• , de modo a obter os estimadores βˆ•1
e βˆ• 2 .
Vai demonstrar-se que estes estimadores são inconsistentes. Seja xt∗• a projecção li-
near MQ de xt′′• sobre zt′′• :
xt∗• = E ∗ ( xt′′• | zt′′• ) = zt′′• E{( zt′′• )T zt′′•}−1 E{( zt′′• )T xt′′•} = zt′′•Λ 2 ,
onde Λ 2 = E{( zt′′• )T zt′′•}−1 E{( zt′′• )T xt′′• } é uma matriz p′′ × k ′′ . Seja xt′′• = xt∗• + et′′• , onde
et′′• é o vector dos resíduos da projecção. Sabe-se que E{( zt′′• )T et′′•} = O . Para simplifi-
car, suponha-se que Λ 2 é conhecido e, portanto, x̂t′′• = xt∗• . Então (2.º passo),
yt = xt′• β •1 + ( xt∗• + et′′• ) β • 2 + ut = xt′• β •1 + xt∗• β• 2 + (et′′• β• 2 + ut ) .
Para provar a consistência tem que haver ortogonalidade entre os regressores desta
equação e a variável residual, et′′• β •2 + ut . Por hipótese, xt′• é ortogonal a ut , e xt∗• é
ortogonal ut e a et′′• . Contudo, xt′• não é ortogonal a et′′• , porque xt′• não foi incluído
na projecção linear MQ de xt′′• sobre zt′′• . Então, os estimadores MQ obtidos no 2.º
passo são inconsistentes. Esta conclusão mostra que não se deve esquecer os regres-
sores pré-determinados quando se faz o 1.º passo do método MQ2P.
Propriedade 4.2 – Verificadas as hipóteses REN.1 a REN.5, os estimadores MGM de

β são assintoticamente normais,
d
(4.58) n {βˆ (Wˆ ) − β } → N ( k ) 0, Cov a {βˆ (Wˆ )} ,
 
(4.59) Cov a {βˆ (Wˆ )} = (QzxT W Q zx ) −1 QzxT W S W Q zx (QzxT W Q zx ) −1 .
Dem.: Com efeito, como

d
n {βˆ (Wˆ ) − β } = ( S zxT Wˆ S zx ) −1 S zxT Wˆ n g• n , n g• n → N ( p ) (0, S ) ,
plim( S zx ) = Qzx e plim(Wˆ ) = W ,
resulta imediatamente (4.58) e (4.59), atendendo às propriedades d) e e) que relacionam

a convergência em probabilidade com a convergência em distribuição.
∇∇
O resultado (4.58) permite escrever

(4.60) Ea {βˆ (Wˆ )} = β .
A propriedade 4.2 pode ser formalizada para os seguintes casos particulares:

a) Estimador VI:
n {βˆVI − β } → N ( k ) 0, Cov a ( βˆVI ) ;

d
 
Cov a ( βˆVI ) = Qzx−1 S (QzxT ) −1 .
b) Estimador MQ2P:
n {βˆMQ2P − β } → N ( k ) 0, Cov a ( βˆMQ2P ) ;

d
 
Cov a ( βˆMQ2P ) = (QzxT Qzz−1 Q zx ) −1 QzxT Qzz−1 S Qzz−1 Q zx (QzxT Qzz−1 Q zx ) −1 .
Considerem-se duas quaisquer matrizes de pesos, Ŵ1 e Ŵ2 , a verificar

plim (Wˆ1 − Wˆ2 ) = O .
Tem-se, portanto, plim(Wˆ1 ) = plim(Wˆ2 ) = W . Vai provar-se que
p
 n βˆ (Wˆ ) − n βˆ (Wˆ ) →
 1 2  0 .
Com efeito,
n βˆ (Wˆ1 ) − n βˆ (Wˆ2 ) =  n βˆ (Wˆ1 ) − β  −  n βˆ (Wˆ2 ) − β 

   
p
= ( S zxT Wˆ 1S zx ) −1 S zxT Wˆ1 − ( S zxT Wˆ2 S zx ) −1 S zxT Wˆ2  n g• n → 0,
 
porque o primeiro factor (entre parêntesis recto) converge em probabilidade para O, e o
segundo factor tende em distribuição para um vector aleatório.
A hipótese REN.2 implica que E (ut2 ) = σ 2 [ver (4.35)]. Seja β̂ um estimador
consistente de β (por exemplo, um estimador MGM), e considerem-se os respectivos
resíduos, uˆt = yt − xt • β̂ . A propriedade seguinte estabelece que
1 n 2
(4.61) σ̂ 2 = ∑ uˆt
n t =1
é estimador consistente de σ 2 .
Propriedade 4.3 – Considerando as hipóteses REN.1 e REN.2, e supondo que existe

E ( xtT• xt • ) , verifica-se que o estimador σ̂ 2 de σ 2 , dado por (4.61) é consistente,
(4.62) plim(σˆ 2 ) = σ 2 .
Dem.: Ver secção 4A.1.

∇∇
O resultado (4.58) não pode ser utilizado na inferência estatística porque a ma-
triz das covariâncias assintótica, dada por (4.59), depende de parâmetros desconhecidos,
Qzx = E ( ztT• xt• ) , W e S = E (ut2 ztT• zt• ) .
Como plim S zx = Qzx , obviamente que S zx é um estimador consistente de Qzx ;
como plim(Wˆ ) = W , Ŵ é estimador consistente de W; basta, então, conhecer um esti-
mador consistente para S, Ŝ .
Se as variáveis residuais fossem observáveis,
1 n 2 T
∑ ut z t • z t •
n t =1
seria um estimador consistente para S. Como ut não é observável, pode provar-se que,
em certas condições (ver propriedade 4.4), e se se substituir na expressão anterior as va-
riáveis residuais pelos resíduos obtidos à custa de um estimador consistente de β , ob-
tém-se um estimador consistente para S.
A seguir apresenta-se a propriedade que garante, em certas condições, a consis-
tência de Ŝ .
Propriedade 4.4 – Considerem-se os resíduos uˆt = yt − xt • β̂ , onde β̂ é um estimador

consistente de β . Supondo que existe S = E (ut2 ztT• zt• ) , e que existem os momentos
E{( ztl xtj ) 2 } ( l = 1, 2, K , p ; j = 1, 2, K , k ; qualquer que seja t) [hipótese adicional], as hi-
póteses REN.1 e REN.2 implicam que
1 n
(4.63) Sˆ = ∑t =1 uˆt2 ztT• zt •
n
é estimador consistente de S.
Dem.: A demonstração desta propriedade segue exactamente os mesmos passos utiliza-

dos para provar o resultado homólogo do MRL-RPD (ver secção 3B.2, capítulo 3).
∇∇
Assim, um estimador consistente de (4.59) é dado por

^
(4.64) Cov a {βˆ (Wˆ )} = ( S zxT Wˆ S zx) −1 S zxT Wˆ Sˆ Wˆ S zx( S zxT Wˆ S zx) −1 .
O cálculo de Ŝ pode ser feito com (4.63). Contudo, fazendo gˆ t • = zt •uˆt e

 gˆ1• 
 
 gˆ 2• 
Gˆ =  ,
 M 
ˆ 
 gn• 
obtém-se
1 n 1 n 1
Sˆ = ∑t =1 uˆt2 ztT• zt • = ∑t =1 gˆ tT• gˆ t • = Gˆ T Gˆ .
n n n
Notando que S zx = (1 / n) Z T X , pode escrever-se
^
Cov a {βˆ (Wˆ )} = n ( X T Z Wˆ Z T X ) −1 X T Z Wˆ Gˆ T Gˆ Wˆ Z T X ( X T Z Wˆ Z T X ) −1 .
que é uma expressão alternativa a (4.64).

Fazendo Sˆ = (1 / n) Z T Φ
ˆ Z , onde Φ̂ é matriz diagonal de elemento diagonal ge-
2
nérico uˆt , também se tem
^
Cov a {βˆ (Wˆ )} = n ( X T Z Wˆ Z T X ) −1 X T Z Wˆ ( Z T Φ
ˆ Z )Wˆ Z T X ( X T Z Wˆ Z T X ) −1 .
São de assinalar os seguintes casos particulares:

a) Estimador VI:
^
Cov a ( βˆVI ) = S zx−1 Sˆ ( S zxT ) −1
= n ( X T Z ) −1 Gˆ T Gˆ ( X T Z ) −1
ˆ Z )( X T Z ) −1.
= n ( X T Z ) −1 ( Z T Φ
b) Estimador MQ2P:
^
Cov a ( βˆMQ2P ) = ( S zxT S zz−1 S zx) −1 S zxT S zz−1 Sˆ S zz−1 S zx( S zxT S zz−1 S zx) −1
= n { X T Z ( Z T Z ) −1 Z T X }−1 X T Z ( Z T Z ) −1 Gˆ T Gˆ ( Z T Z ) −1 Z T X { X T Z ( Z T Z ) −1 Z T X }−1
ˆ Z ) ( Z T Z ) −1 Z T X { X T Z ( Z T Z ) −1 Z T X }−1
= n { X T Z ( Z T Z ) −1 Z T X }−1 X T Z ( Z T Z ) −1 ( Z T Φ
= n ( X T H Z X ) −1 X T H Z Φ ˆ H Z X ( X T H Z X ) −1.
Considerem-se os elementos de ordem j da diagonal principal da matriz (4.64),

^
Vara {βˆ j (Wˆ )} .
Facilmente se conclui que [ver capítulo 3, (3.44)]:

n {βˆ j (Wˆ ) − β j } βˆ j (Wˆ ) − β j d

(4.65) = → N (0, 1) ,
^ s∗j
Vara {βˆ j (Wˆ )}
onde
1 ^ ˆ ˆ
s∗j = Vara {β j (W )}
n
é o respectivo erro padrão heterocedástico-consistente de βˆ j (Wˆ ) .

Quando se pretende fazer o teste da hipótese H 0 : β j = β 0j , contra uma alternati-
va unilateral ou bilateral, a estatística-teste é dada pelo rácio-t robusto,
βˆ j (Wˆ ) − β 0j d
(4.66) t =
∗
j ∗
→ N (0, 1) .
s j
Quando δ = Rβ , onde R é uma matriz m × k com característica igual a m ≤ k ,

pode obter-se um resultado semelhante a (3.46) do MRL-RPD [ver capítulo 3]. Assim,
−1
 ^
 d
(4.67) Q = n {Rβˆ (Wˆ ) − δ }T  R Cov a {βˆ (Wˆ )} RT  {Rβˆ (Wˆ ) − δ } → χ 2 (m) .
 
H 0 : Rβ = δ 0 contra H 1 : Rβ ≠ δ 0 ,
onde δ 0 é um valor assumido pelo vector m × 1 , δ .

A estatística-teste, obtida com base no princípio de Wald, é dada por
−1
 ^
 d
(4.68) Q = n {Rβˆ (Wˆ ) − δ 0 }T  R Cov a {βˆ (Wˆ )} RT  {Rβˆ (Wˆ ) − δ 0 } → χ 2 (m) .
 
Teste de hipóteses não lineares
Seja a função g : ℜ k → ℜ m a verificar as mesmas condições que permitiram ob-

ter o resultado (3.48) [ver capítulo 3]: as primeiras derivadas de g são contínuas; a ma-
triz Jacobiana, de tipo m × k , ∇g ( β ) , calculada em β , tem característica igual ao nú-
mero de linhas [ r{∇g ( β )} = m ].
Suponha-se que se pretende testar a hipótese
H 0 : g (β ) = 0 .
Pode, então, obter-se

d
(4.69) Q → χ 2 ( m) ,
onde
−1
 ^

Q = n g{βˆ (Wˆ )}T  ∇g{βˆ (Wˆ )} Cov a {βˆ (Wˆ )} ∇g{βˆ (Wˆ )}T  g{βˆ (Wˆ )} .
 
Se W é singular, as propriedades dos estimadores MGM, bem como os resulta-
dos sobre inferência estatística, continuam válidos, desde que QzxT W Qzx tenha inversa.
O estimador MGM eficiente
Um problema que se pode pôr é o da escolha do estimador mais eficiente, na fa-

mília dos estimadores MGM (indexada pela matriz Ŵ ).
O teorema seguinte, embora não dê resposta plena ao problema enunciado, per-
mite escolher uma matriz W = plim(Wˆ ) que “melhora” a eficiência.
Teorema 4.3
Um limite inferior para a matriz das covariâncias assintótica dos estimadores MGM, da-
da por (4.59), é
(4.70) (QzxT S −1 Q zx ) −1 .
O limite inferior é atingido se Ŵ é tal que W = S −1 .

∇∇
A condição W = S −1 é suficiente, mas não necessária, para que se tenha eficiên-

cia. Pode provar-se que uma condição necessária e suficiente de eficiência é que exista
uma matriz C tal que QzxT W = C QzxT S −1 [Newey e McFadden (1994), p. 2165].
Um estimador MGM que satisfaz a condição plim(Wˆ ) = W = S −1 , chama-se esti-
mador MGM eficiente ou óptimo.
Então, este estimador obtém-se substituindo Ŵ por Sˆ −1 em (4.50),
βˆ ( Sˆ −1 ) = ( S zxT Sˆ −1 S zx ) −1 S zxT Sˆ −1 szy
(4.71) = { X T Z (Gˆ T Gˆ ) −1 Z T X }−1 X T Z (Gˆ T Gˆ ) −1 Z T Y
ˆ Z ) −1 Z T X }−1 X T Z ( Z T Φ
= { X T Z (Z T Φ ˆ Z ) −1 Z T Y .
A respectiva matriz das covariâncias assintótica reduz-se a

(4.72) Cov a {βˆ ( Sˆ −1 )} = (QzxT S −1 Q zx ) −1 .
O estimador consistente desta matriz é dado por

^
Cov a {βˆ ( Sˆ −1 )} = ( S zxT Sˆ −1 S zx) −1
(4.73) = n{ X T Z (Gˆ T Gˆ ) −1 Z T X }−1
ˆ Z ) −1 Z T X }−1.
= n{ X T Z ( Z T Φ
Os resultados homólogos a (4.66), (4.68) e (4.69) são, respectivamente:
βˆ j ( Sˆ −1 ) − β 0j d
(4.74) t ∗j = → N (0, 1) ,
s∗j
onde
1 ^ ˆ ˆ −1
s∗j = Vara {β j ( S )} ;
n
d
(4.75) Q = n {Rβˆ ( Sˆ −1 ) − δ 0 }T {R ( S zxT Sˆ −1 S zx) −1 RT }−1{Rβˆ ( Sˆ −1 ) − δ 0 } → χ 2 (m) ;
d
(4.76) Q → χ 2 ( m) ,
onde
−1
Q = n g{βˆ ( Sˆ −1 )}T  ∇g{βˆ ( Sˆ −1 )} ( S zxT Sˆ −1 S zx) −1 ∇g{βˆ ( Sˆ −1 )}T  g{βˆ ( Sˆ −1 )} .
 
Em resumo, o estimador MGM eficiente é calculado com os dois passos seguin-
tes:
1) Escolhe-se a matriz Ŵ , convergente em probabilidade para uma matriz simétrica
definida positiva, e minimiza-se
~ ~ ~
J ( β , Wˆ ) = n( s zy − S zx β )T Wˆ ( s zy − S zx β )
~
em relação a β , a fim de obter βˆ (Wˆ ) .
A escolha de Ŵ não oferece dificuldade; pode fazer-se Wˆ = I , mas a opção mais
usual é Wˆ = S zz−1 . Assim, minimiza-se
~ ~ ~
J ( β , S zz−1 ) = n( szy − S zx β )T S zz−1 ( szy − S zx β ) ,
obtendo-se o estimador MQ2P. Utiliza-se este estimador para calcular os resíduos,

uˆt = yt − xt • βˆ MQ2P , que permitem determinar o estimador consistente, Ŝ , da matriz
S.
2) Minimiza-se
~ ~ ~
J ( β , Sˆ −1 ) = n( szy − S zx β )T Sˆ −1 ( szy − S zx β )
~
em relação a β , para obter o estimador MGM eficiente.
Este procedimento pode ser alterado, introduzindo um terceiro passo, e alte-

rando o segundo. Assim:
1) O mesmo que no caso do método anterior (dois passos).
2) O segundo passo é semelhante ao anterior, mas destina-se a recalcular os resíduos
~
que permitem obter uma nova matriz S . Assim, tem-se
~ 1 n
u~t = yt − xt • βˆ ( Sˆ −1 ) e S = ∑t =1 u~t2 z tT• z t • .
n
3) Minimiza-se
~ ~ ~ ~ ~
J ( β , S −1 ) = n( szy − S zx β )T S −1 ( szy − S zx β )
~
em relação a β , para obter o respectivo estimador MGM.
~
Como o estimador MGM ao fim de dois passos é consistente, a nova matriz S é
ainda estimador consistente de S. Então, devido às propriedades 4.1 e 4.2, o estimador
MGM com três passos é consistente e assintoticamente normal. Atendendo ao teorema
4.3, conclui-se, ainda, que este estimador é assintoticamente eficiente. A escolha de Ŵ ,
tal que W = plim(Wˆ ) , não influencia a distribuição limite do estimador MGM.
Suponha-se que o conjunto dos elementos de xt • é um subconjunto próprio do
conjunto dos elementos de zt • (todos os regressores são pré-determinados, havendo
variáveis pré-determinadas que não são regressores). Neste caso, faz-se
zt• = [ zt1• zt2• ] = [ xt • zt2• ],
onde zt1• = xt • e zt2• têm, respectivamente, k e p − k elementos. Pode verificar-se que o

estimador MGM eficiente de β (em dois passos), βˆ ( Sˆ −1 ) , e o respectivo estimador
MQ, β̂ MQ , não são numericamente iguais.
Fazendo A = E (ut2 xtT• xt • ) , pode provar-se que
Cov a ( βˆMQ ) = Qxx−1 A Qxx−1 .
Este resultado pode ser obtido a partir de (4.59), fazendo

 A−1 O   S11 S12 
W =  e S= ,
 O O  S 21 S 22 
onde S11 = A . Com efeito, seja

 E ( xT x )   Qxx 
Qzx = 
t• t•
= .
 E{( zt2• )T xt •} Qz 2 x 
   
Notando que
 A−1 O   Qxx 
[
QzxT W Q zx = Qxx ]
QzT2 x  −1
 Q  = Qxx A Qxx ,
 O O   z2 x 
 A−1 O   A S12   A−1 O   A−1 O 
W SW =    =  =W ,
 O O   S 21 S22   O O   O O 
vem
(QzxT W Q zx ) −1QzxT W S W Q zx (QzxT W Q zx ) −1 = (Qxx A−1Qxx ) −1 = Qxx−1 A Qxx−1 = Qxx−1 S11 Qxx−1 .
O teorema 4.3 garante que

Cov a ( βˆMQ ) − Cov a {βˆ ( Sˆ −1 )} = Qxx−1 S11 Qxx−1 − (QzxT S −1Q zx ) −1
Volta, agora, a considerar-se o vector de instrumentos zt′• = zt • A , onde A é uma
matriz p × q a verificar r ( A) = q ≤ p . Continua a ter-se gt′• = zt′•ut = zt •ut A = gt • A , e ob-
viamente vem E ( gt′• ) = E ( gt • A) = E ( gt • ) A = 0 . Pode, então, calcular-se o estimador

MGM eficiente que corresponde a estas q combinações lineares das condições de
ortogonalidade. De facto, recordando que S ′ = AT S A , e notando que Sˆ ′ = AT Sˆ A ,
S z ′x = AT S zx e sz ′y = AT szy , obtém-se
βˆ{( Sˆ ′) −1} = {S zT′x ( Sˆ ′) −1 S z ′x }−1 S zT′x ( Sˆ ′) −1 sz ′y
= {S zxT A ( A Sˆ AT ) −1 AT S zx }−1 S zxT A ( A Sˆ AT ) −1 AT szy
= βˆ (Wˆ ) ,
onde Wˆ = A ( A Sˆ AT ) −1 AT . Quando a matriz A é quadrada ( p = q) , verifica-se facilmente
que βˆ{( Sˆ ′) −1} = βˆ ( Sˆ −1 ) .
Teste de hipóteses e princípio da razão de verosimilhanças
Quando se pretende testar H 0 : Rβ = δ 0 , ou, mais geralmente, H 0 : g ( β ) = 0 , as

estatísticas-teste respectivas podem ser obtidas com base no princípio de Wald, tal co-
mo se fez para obter (4.68) ou (4.69), respectivamente; quando se utiliza o estimador
MGM eficiente de β , os resultados homólogos são dados por (4.75) e (4.76). Pode fa-
zer-se o mesmo tipo de análise com o princípio da razão de verosimilhanças.
~
Como se sabe, J ( β , Sˆ −1 ) , onde Ŝ é um estimador consistente de S, é a função
objectivo a minimizar para obter o estimador MGM eficiente de β ; este estimador,
βˆ ( Sˆ −1 ) , é dado por (4.71); o mínimo da função objectivo é, então, J = J {βˆ ( Sˆ −1 ), Sˆ −1} .
Seja βˆ r ( Sˆ −1 ) o estimador MGM eficiente de β a verificar as restrições da hipó-
~ ~
tese nula [ Rβ = δ 0 ou, mais geralmente, g ( β ) = 0 ]. Este estimador obtém-se minimi-
zando aquela função objectivo, e impondo as restrições referidas. Neste caso, o mínimo
da função objectivo é dado por J r = J {βˆr ( Sˆ −1 ), Sˆ −1} .
A estatística-teste proposta, de acordo com aquele princípio, é Q′ = J r − J . O
teorema seguinte garante que esta estatística tem distribuição limite do qui-quadrado.
Teorema 4.4 [estatística-teste segundo o princípio da razão de verosimilhanças]

Suponha-se que se verificam as hipóteses REN.1 a REN.5, e que se conhece um estima-
dor consistente, Ŝ , de S. Considere-se a hipótese H 0 : g ( β ) = 0 , onde g verifica as con-
dições que permitiram obter o resultado (4.76) [em particular, tem-se H 0 : Rβ = δ 0 ,
onde R é uma matriz m × k , tal que r ( R) = m ]. Sejam as estatísticas Q [dada por (4.76)
ou (4.75)] e Q′ = J r − J . Então, verificada a hipótese nula, pode concluir-se:
a) As duas estatísticas são assintoticamente equivalentes. Assim, como Q tem por dis-
tribuição limite a qui-quadrado com m graus de liberdade, tem-se
d
(4.77) Q′ = J r − J → χ 2 (m) .
b) plim (Q′ − Q) = 0 .
c) Se H 0 : Rβ = δ 0 então Q′ = Q .

∇∇
Podem fazer-se os seguintes comentários ao teorema anterior:

a) A vantagem de utilizar Q′ em vez de Q é a invariância: o valor numérico de Q′ não
depende do modo como as restrições são consideradas na função g. Contudo, para
calcular o estimador com restrições é necessário utilizar um algoritmo de optimi-
zação não linear.
b) O teorema exige que plim(Wˆ ) = S −1 , caso contrário não se verifica (4.77). No entan-
to, a estatística Q tem distribuição limite do qui-quadrado, mesmo que não seja sa-
tisfeita a condição de eficiência.
c) O mesmo estimador consistente de S deve ser utilizado para calcular Q′ , para que
fique garantida a sua não negatividade para pequenas amostras.
d) A conclusão b) do teorema significa que, se a dimensão da amostra é suficiente-
mente grande, e a hipótese nula é verdadeira, o resultado do teste baseado no princí-
pio de Wald (na estatística Q) é o mesmo do que o resultado baseado no princípio da
razão de verosimilhanças (na estatística Q′ ).
e) Para se verificar a conclusão c) do teorema (igualdade numérica entre as duas esta-
tísticas, no caso linear), deve utilizar-se o mesmo Ŝ no cálculo de Q′ e Q. Caso
contrário, elas são apenas assintoticamente equivalentes.
f) Se zt • = xt • (todos os regressores são pré-determinados), o estimador MGM (efi-
ciente) de β é o estimador MQ, e J = J ( b, Sˆ −1 ) = 0 . Então,
Q′ = J r = J {βˆr ( Sˆ −1 ), Sˆ −1} .
De acordo com o teorema anterior, esta estatística tem distribuição limite do qui-
quadrado, e é numericamente igual a Q, se a hipótese nula é linear.
Neste caso,
J r = J {βˆr ( Sˆ −1 ), Sˆ −1} = n { szy − S zz βˆr ( Sˆ −1 )}T Sˆ −1{ szy − S zz βˆr ( Sˆ −1 )}

= n sTzy Sˆ −1szy − 2n sTzy Sˆ −1S zz βˆr ( Sˆ −1 ) + n βˆr ( Sˆ −1 )T S zz Sˆ −1S zz βˆr ( Sˆ −1 )
= Y T Z (n Sˆ ) −1 Z T Y − 2Y T Z (n Sˆ ) −1 ( Z T Z ) βˆ ( Sˆ −1 )
r
+ βˆr ( Sˆ ) ( Z Z )(n Sˆ ) ( Z Z ) βˆr ( Sˆ ) .

−1 T T −1 T −1
4.8 - Testes de sobre-identificação e de endogeneidade
Quando a equação de regressão é exactamente identificada, é possível escolher

~ ~ ~
β de tal modo que sejam nulos os momentos amostrais g •n ( β ) = s zy − S zx β , bem como
~
a distância (4.48). Isto consegue-se fazendo β igual ao estimador VI, (4.47).
Quando existe sobre-identificação, a distância (4.48) deve ser minimizada, ob-
tendo-se o estimador MGM, βˆ (Wˆ ) ; se, em particular, plim(Wˆ ) = W = S −1 tem-se o es-
timador MGM eficiente, βˆ ( Sˆ −1 ) , onde Ŝ é estimador consistente de S.
~ ~
Considere-se a distância J ( β , Sˆ −1 ) avaliada em β = β ,
T
J ( β , Sˆ −1 ) = n g•Tn Sˆ −1 g• n =  n g• n  Sˆ −1  n g• n  ,
   
onde
1 n T 1 n T 1 n
g •n =
n
∑ g = ∑t =1 zt•ut = ∑t =1 ztT• ( yt − xt • β ) = s zy − S zx β .
t =1 t •
n n
Para provar
d
(4.78) J ( β , Sˆ −1 ) = n ( s zy − S zx β )T Sˆ −1 ( s zy − S zx β ) → χ 2 ( p ) ,
basta notar que

d
n g• n → N ( p ) (0, S ) , plim( Sˆ ) = S ,
e atender à propriedade f) que relaciona a convergência em probabilidade com a con-

vergência em distribuição (ver capítulo 3).
~ ~
O mínimo da distância J ( β , Sˆ −1 ) corresponde a considerar β = βˆ ( Sˆ −1 ) . Neste
caso, ainda se obtém uma distribuição limite do qui-quadrado, mas onde os graus de li-
berdade diminuem para p − k . Intuitivamente, isto resulta do facto de se terem estima-
do os k coeficientes de regressão.
Pode, então, enunciar-se o seguinte teorema:
Teorema 4.5 [Teste de sobre-identificação de Hansen (1982)]

Seja Ŝ um estimador consistente de S. As hipóteses REN.1 a REN.5 implicam
d
(4.79) J = J {βˆ ( Sˆ −1 ), Sˆ −1} = n {szy − S zx βˆ ( Sˆ −1 )}T Sˆ −1{szy − S zx βˆ ( Sˆ −1 )} → χ 2 ( p − k ) .

∇∇
Fazem-se a seguir alguns comentários ao teorema anterior:

a) A estatística J também pode ser apresentada do seguinte modo:
J = {Y − X βˆ ( Sˆ −1 )}T Z ( Z T Φ
ˆ Z ) −1 Z T {Y − X βˆ ( Sˆ −1 )}
= {Y − X βˆ ( Sˆ −1 )}T Z (Gˆ T Gˆ ) −1 Z T {Y − X βˆ ( Sˆ −1 )}.
b) Atendendo às hipóteses consideradas na propriedade 4.4 (ver secção 4.7), foi possí-
vel obter, em (4.63), um estimador consistente de S. Então, a distância mínima, obti-
da no segundo passo para a determinação do estimador MGM eficiente, tem distri-
buição limite do qui-quadrado com p − k graus de liberdade.
c) O resultado (4.79) pode interpretado como um teste de especificação. Trata-se de
verificar se, conjuntamente, todas as hipóteses do teorema 4.5 (REN.1 a REN.5) são
satisfeitas. Assim, se o valor observado da estatística-teste,
J = J {βˆ ( Sˆ −1 ), Sˆ −1} ,
designada por estatística J (de Hansen), for inesperadamente grande, é indicação de
que alguma das hipóteses do modelo é falsa.
d) Se houver razões para apenas pôr em dúvida a hipótese REN.3, é de admitir que um
valor elevado da estatística J constitua evidência a favor de que algumas das p variá-
veis incluídas em zt • não são instrumentais.
Para melhor esclarecimento, considerem-se as seguintes partições dos vectores xt• e
zt • :
xt • = [ xt′• xt′′• ] e zt • = [ zt′• zt′′• ],
onde:
− xt′• é o vector 1 × k ′ dos regressores supostos pré-determinados: E ( xt′•ut ) = 0 ;
− xt′′• é o vector 1 × k ′′ dos regressores endógenos (k ′′ = k − k ′) ;
− zt′• é o vector 1 × p′ dos instrumentos, que são regressores;
− zt′′• é o vector 1× p′′ de eventuais instrumentos, não regressores ( p′′ = p − p′) ;
− Evidentemente: xt′• = zt′• (k ′ = p′) ; p − k = p′′ − k ′′ ; p > k ⇔ p′′ > k ′′ .
Então, o resultado (4.79) pode escrever-se,

d
J → χ 2 ( p′′ − k ′′) ,
e o teste de Hansen pode ser considerado um teste de sobre-identificação, segundo
o qual se vai testar
H 0 : E ( zt′′•ut ) = 0 contra H1 : E ( zt′′•ut ) ≠ 0 .
O teste não pode ser efectuado quando p = k ou p′′ = k ′′ , porque haveria zero graus
de liberdade (quando muito, a equação de regressão era exactamente identificada).
e) O interesse prático do teste de sobre-identificação pode resumir-se da seguinte ma-
neira: se se rejeita H 0 , então a estratégia de escolha das variáveis instrumentais de-
ve ser reexaminada; se não se rejeita H 0 , então pode ter-se alguma confiança nos
instrumentos escolhidos (note-se, no entanto, que o teste não é adequado para detec-
tar a endogeneidade de alguns instrumentos).
Exemplo 4.10 – Considere-se o modelo de regressão do exemplo 4.3, e suponha-se que

se pretende fazer o teste de sobre-identificação de Hansen. Seja
xt • = [ 1 educt expert qit ] e zt • = [ 1 educt expert idadet meduct ].
Supondo que
xt′• = zt′• = [ 1 educt expert ], xt′′• = qit e zt′′• = [ idadet meduct ],
a hipótese nula é que idadet e meduct são instrumentos. A não rejeição desta hipótese
permite concluir que há sobre-identificação; um valor elevado da estatística J (de Han-
sen) rejeita que idadet ou meduct sejam variáveis instrumentais.
∇
É possível apresentar outro resultado que permite testar um subconjunto de

condições de ortogonalidade. Para isso, considere-se um vector zt∗• ( 1 × q ), dividido
em dois sub-vectores,
zt∗• = [ zt1• zt2• ],
onde zt1• e zt2• têm, respectivamente, q1 e q2 = q − q1 elementos.

Admite-se que os elementos de zt1• são pré-determinados, isto é, satisfazem as
condições de ortogonalidade, E ( zt1•ut ) = 0 (hipótese a manter); põe-se a questão de sa-
ber se os elementos de zt2• são pré-determinados, isto é, procura testar-se a condição
E ( zt2•ut ) = 0 (hipótese a testar). Assim, tem-se
H 0 : E ( zt2•ut ) = 0 contra H1 : E ( zt2•ut ) ≠ 0 .
Deve introduzir-se a condição q1 ≥ k (o número de variáveis pré-determinadas

indiscutíveis não é inferior ao número de regressores), uma vez que aquela condição é
indispensável para poder fazer-se o teste (ver adiante).
A ideia básica do teste é comparar duas estatísticas J resultantes de dois estima-
dores MGM de β : um deles usa zt1• como vector de variáveis instrumentais; o outro
recorre ao vector zt∗• . Se a inclusão das variáveis sob teste aumenta significativamente o
valor da estatística J, então pode haver evidência empírica contra a pré-determinação de
zt2• .
Seja
 ~  1 ~ 
~ ~  sz1 y − S z1 x β   g• n ( β )
g • n ( β ) = s z∗ y − S z∗ x β = = ,
 sz y − S z x β~   g 2 ( β~ )
 2 2
  •n 
onde:
1 n 1 n
sz∗ y = ∑t =1 ( zt∗• )T yt (vector q × 1 ); S z∗ x = ∑t =1 ( zt∗• )T xt • (matriz q × k );
n n
1 n 1 n
s z1 y = ∑t =1 ( zt1• )T yt (vector q1 × 1 ); S z1x = ∑t =1 ( zt1• )T xt • (matriz q1 × k );
n n
1 n 2 T 1 n
s z2 y =
n
∑t =1
( zt • ) yt (vector q2 × 1 ); S z2 x = ∑t =1 ( zt2• )T xt • (matriz q2 × k ).
n
Seja, também,
 E{u 2 ( z1 )T z1 } E{u 2 ( z1 )T z 2 }  S11 S12 
t• t• t• t•
S = E{u ( z ) z } =  =
t t
2
t
∗ T
t•
∗
t•
,
 E{ut ( zt • ) zt • } E{ut ( zt • ) zt2•}  S 21 S 22 
2 2 T 1 2 2 T
   
onde os tipos das submatrizes são os seguintes: S11 , q1 × q1 ; S12 , q1 × q2 ; S 21 , q2 × q1 ;
S 22 , q2 × q2 . Conhecido um estimador consistente de S, Ŝ , o estimador MGM eficiente
de β é dado por β̂ ( Sˆ −1 ) = ( S zT∗ x Sˆ −1 S z∗ x ) −1 S zT∗ x Sˆ −1 sz∗ y [ver (4.71)]. A correspondente esta-
tística J é dado por (4.79), com as necessárias adaptações (nos índices das matrizes das
médias amostrais, substitui-se z por z∗ ).
Seja
 (1 / n)∑t =1 uˆt2 ( zt1• )T zt2•   Sˆ11
1 n 2 ∗ T ∗ (1 / n)∑t =1 uˆt ( zt • ) zt • Sˆ12 
n 2 1 T 1 n
S = ∑t =1 uˆt ( zt • ) zt • =
ˆ = .
(1 / n) n uˆ 2 ( z 2 )T z1 2 T 2 
n
∑t =1 t t • t • (1 / n)∑t =1 ut ( zt • ) zt •  Sˆ S22 
n
ˆ 2 ˆ
   21 
Fazendo gˆ t1• = zt1•uˆt e gˆ t2• = zt2•uˆt , tem-se gˆ t • = zt∗•uˆt = [ gˆ t1• gˆ t2• ].
Então,
Gˆ = Gˆ1 Gˆ 2  ,
 
em que
 gˆ 1   gˆ 2 
 11•   12• 
ˆ
g   gˆ 
Gˆ1 =  2•  e Gˆ 2 =  2•  .
M M
   
 gˆ n • 
1
 gˆ n2• 
   
Assim, pode escrever-se
(1 / n)Gˆ T Gˆ (1 / n)Gˆ T Gˆ 
1
Sˆ = Gˆ T Gˆ =  .
1 1 1 2
n (1 / n)Gˆ T Gˆ (1 / n)Gˆ T Gˆ 

 2 1 2 2 
Considere-se Z∗ = [ Z1 Z 2 ], onde: Z1 é a matriz n × q1 (com linha genérica
1
z ) das observações das variáveis que satisfazem as condições de ortogonalidade; Z 2 é
t•
a matriz de tipo n × q2 (com linha genérica zt2• ), das observações das variáveis em rela-
ção às quais se pretende testar as condições de ortogonalidade. Então,
 Sˆ Sˆ12  (1 / n) Z1T Φ ˆ Z2 
ˆ Z1 (1 / n) Z1T Φ
Sˆ =  = .
11
 Sˆ ˆ
S 22   (1 / n) Z 2 Φ Z1 (1 / n) Z 2 Φ Z 2 
T ˆ T ˆ
 21   
Quando se usam apenas os q1 elementos de zt1• , tem-se, respectivamente,
βˆ ( Sˆ11−1 ) = ( S zT x Sˆ11−1 S z x ) −1 S zT x Sˆ11−1 sz y

1 1 1 1
(4.80) = { X Z1 (Gˆ Gˆ1 ) Z X } X T Z1 (Gˆ1T Gˆ1 ) −1 Z1T Y

T T
1
−1 T
1
−1
ˆ Z1 ) −1 Z1T X }−1 X T Z1 ( Z1T Φ

= { X T Z1 ( Z1T Φ ˆ Z1 ) −1 Z1T Y ,
onde Ŝ11 é um estimador consistente de S11 , e

J1 = n {sz1 y − S z1 x βˆ ( Sˆ11−1 )}T Sˆ11−1{sz1 y − S z1 x βˆ ( Sˆ11−1 )}
(4.81) = {Y − X βˆ ( Sˆ11−1 )}T Z1 (Gˆ1T Gˆ1 ) −1 Z1T {Y − X βˆ ( Sˆ11−1 )}
= {Y − X βˆ ( Sˆ11−1 )}T Z1 ( Z1T Φ
ˆ Z1 ) −1 Z1T {Y − X βˆ ( Sˆ11−1 )}.
O teste baseia-se no seguinte resultado:
Teorema 4.6 [teste de um subconjunto de condições de ortogonalidade]

Considerem-se hipóteses REN.1 a REN.5. Seja zt1• um subvector de zt∗• com q1 ≥ k
elementos. Se r (Qz1x ) = k [condição de característica de zt1• ], onde Qz1x = E{( zt1• )T xt • } ,
então, para quaisquer estimadores consistentes Ŝ , de S, e Ŝ11 , de S11 , obtém-se
d
(4.82) D = J − J1 → χ 2 (q − q1 ) ,
onde J e J 1 são dados, respectivamente, por (4.79) [substituindo z por z∗ nos índices
das matrizes das médias amostrais] e (4.81).

∇∇
Este teorema é passível dos seguintes comentários:

a) Evidentemente, a escolha de Ŝ e de Ŝ11 não influencia o resultado assintótico obtido.
No entanto, em pequenas amostras, a estatística-teste D pode ser negativa. Este prob-
lema é evitado se o mesmo Ŝ for usado, isto é, se Ŝ11 for a correspondente submatriz
de Ŝ . Neste caso, existe a garantia de que D ≥ 0 (ver secção 4A.5 do anexo 4A).
b) A distribuição de D, dada por (4.82), não pode ter um número de graus de liberdade
superior a q − k . De facto, q1 ≥ k [que decorre da condição de característica referen-
te a zt1• : r (Qz1x ) = k ] é incompatível com q − q1 > q − k .
c) Quando q1 = k , o valor de D não depende da partição de zt∗• em zt1• e em zt2• , por-
que, neste caso, J1 = 0 [o estimador (4.80) reduz-se ao estimador VI].
Pode utilizar-se o teorema 4.6 para testar a endogeneidade de um subconjunto

de regressores. Considere-se o modelo de regressão linear, yt = xt• β + ut , com as parti-
ções, já referidas, dos vectores xt • (regressores) e zt • (variáveis instrumentais) [ver co-
mentário d) ao teorema 4.5]. Supondo que se pretende testar a endogeneidade dos re-
gressores inseridos em xt′′• , tem-se
H 0 : E ( xt′′•ut ) = 0 contra H1 : E ( xt′′•ut ) ≠ 0 .
Neste caso, vem

zt∗• = [ zt1• zt2• ] = [ zt • xt′′• ],
onde: zt1• = zt • = [ xt′• zt′′• ]; zt2• = xt′′• ; q1 = p = k ′ + p′′ , q2 = k ′′ e q = p + k ′′ .

As estatísticas J1 e J são obtidas usando, respectivamente, os vectores de variá-
veis instrumentais zt1• = zt • e zt∗• = [ zt • xt′′• ]. Então,
d
D = J − J1 → χ 2 (k ′′) .
Exemplo 4.11 – Suponha-se que na equação de regressão do exemplo 4.3 se pretendia

testar se educt (anos completos de escolaridade do indivíduo t) é um regressor endóge-
no. Assim,
H 0 : E (educt ut ) = 0 contra H1 : E (educt ut ) ≠ 0 .
Neste caso, a partição de

zt∗• = [ 1 educt expert idadet meduct ]
é a seguinte:
z t1• = [ 1 expert idadet meduct ] ( q1 = 4) ; zt2• = educt ( q2 = 1) .
Continua a ter-se
xt • = [ 1 educt expert qit ] (k = 4) .
Em primeiro lugar, calcula-se o estimador MGM eficiente (com os dois passos

já conhecidos) do vector dos coeficientes de regressão, utilizando zt∗• como vector de
instrumentos, o que permite obter J, e a matriz 5 × 5 , Ŝ .
A seguir, extrai-se desta matriz a submatriz 4 × 4 , Ŝ11 , correspondente a zt1• , e
determina-se o estimador MGM eficiente do mesmo vector dos coeficientes de regres-
são, usando o vector de instrumentos zt1• , obtendo-se J 1 .
A diferença D = J − J1 tem distribuição limite do qui-quadrado com um grau de
liberdade.
Suponha-se, agora, que se procura testar a endogeneidade conjunta de educt e
qit :
H1 : E (educt ut ) = 0 ∧ E (qit ut ) = 0 contra H1 : E (educt ut ) ≠ 0 ∨ E (qit ut ) ≠ 0 .
Nestas condições, tem-se:

zt∗• = [ 1 educt expert qit idadet meduct ];
z t1• = [ 1 expert idadet meduct ] (q1 = 4) ; zt2• = [ educt qit ] (q2 = 2) .
A respectiva diferença D = J − J 1 tem distribuição limite do qui-quadrado com

dois graus de liberdade.
∇
No teste baseado na estatística D = J − J 1 , pretende verificar-se a endogenei-

dade de um subconjunto de variáveis, zt2• , supondo que as outras variáveis, zt1• , são pré-
determinados. Um caso especial importante é aquele em que xt• = zt1• . Neste caso, os
regressores são, por hipótese, pré-determinados, e procura-se testar se as variáveis inc-
luídas em zt2• são pré-determinadas ou endógenas.
Nestas condições, o modelo de regressão linear é dado por
(4.83) yt = zt1• β + ut .
Um método para fazer o teste é considerar o modelo aumentado,

(4.84) yt = zt1• β + zt2•δ + ut ,
onde se consideram como regressores adicionais os elementos de zt2• , e testar a hipótese

nula H 0 : δ = 0 . Este teste, conhecido, por vezes, pela designação de teste de adição de
variáveis, pode ser feito de acordo com o princípio da razão de verosimilhanças (utili-
zando a estatística Q′ ) ou com o princípio de Wald (recorrendo à estatística Q); as res-
pectivas estatísticas são, obviamente, numericamente iguais, porque as restrições intro-
duzidas pela hipótese nula são lineares.
Para calcular a estatística Q′ é necessário determinar dois estimadores MGM
eficientes de
β 
γ = ,
δ 
com os mesmos instrumentos, zt∗• : um, sem restrições; o outro, com a restrição δ = 0 .
O estimador MGM eficiente sem restrições é o estimador MQ de γ no modelo
(4.84); a correspondente estatística J é igual a 0.
Seja
1 n
Sˆ = ∑t =1 uˆt2 ( zt∗• )T zt∗• ,
n
onde ût é o resíduo MQ da regressão sem restrições referida em (4.84). Utilizando este
estimador consistente de S, o estimador MGM eficiente de γ , com a restrição δ = 0 , é
obtido, minimizando
J (γ~, Sˆ −1 ) = n ( sz∗ y − S z∗ z∗ γ~ )T Sˆ −1 ( sz∗ y − S z∗ z∗ γ~ ) ,
sujeito a δ = 0 . Assim, vai minimizar-se

~ ~ ~
J ( β , Sˆ −1 ) = n ( sz∗ y − S z∗ z1 β )T Sˆ −1 ( sz∗ y − S z∗ z1 β ) ,
obtendo-se
 βˆ ( Sˆ −1 )
γˆr ( Sˆ −1 ) =  ,
 0 
 
onde
βˆ ( Sˆ −1 ) = ( S zT z Sˆ −1S z z ) −1 S zT z Sˆ −1sz y
∗ 1 ∗ 1 ∗ 1 ∗
é o estimador eficiente MGM de β , considerando o modelo (4.83) e os instrumentos

incluídos em zt • . Assim,
Q′ = J r = n {sz∗ y − S z∗ z∗ γˆr ( Sˆ −1 )}T Sˆ −1{sz∗ y − S z∗ z∗ γˆr ( Sˆ −1 )}

= n {sz∗ y − S z∗ z1 βˆ ( Sˆ −1 )}T Sˆ −1{sz∗ y − S z∗ z1 βˆ ( Sˆ −1 )}.
Facilmente se verifica que Q′ não é mais do que a estatística J de Hansen relati-

va ao modelo (4.83), quando o vector dos instrumentos é zt∗• . Além disso, Q′ é, tam-
bém, igual a D = J − J 1 , pois neste caso J 1 = 0 (o estimador eficiente MGM de β no
modelo (4.83), utilizando o vector dos instrumentos zt1• , é o estimador MQ).
Em conclusão, pode afirmar-se que Q = Q′ = J = D , desde que se considere
sempre a mesma Ŝ . Assim, o teste de adição de variáveis é numericamente equivalente
ao teste de Hansen de sobre-identificação e ao teste de um subconjunto de condições de
ortogonalidade.
Suponha-se que se constrói Ŝ com os resíduos da regressão (4.83), em vez dos
da (4.84). Dispõe-se, portanto, dos resíduos com restrições: ûrt . Tem-se, então,
1 n
Sˆr = ∑t =1 uˆrt2 ( zt∗• )T zt∗• .
n
Se se utilizar esta matriz para calcular Q, Q′ e D, não se obtêm os mesmos re-
sultados numéricos. No entanto, têm-se as mesmas distribuições limite porque Ŝr é con-
sistente.
Tal como se fez no capítulo 3 (secção 3.6), vão estudar-se na presente secção as
implicações da homocedasticidade condicionada no contexto do MRL-REN. Para isso,
começa-se por estabelecer a seguinte hipótese:
Hipótese REN.6 – Homocedasticidade condicionada

(4.85) E (ut2 | zt• ) = σ 2 > 0 .
Evidentemente que (4.85) implica E (ut2 ) = σ 2 (homocedasticidade marginal).

A matriz S simplifica-se para
(4.86) S = σ 2 E ( ztT• zt • ) = σ 2Qzz ,
estando assegurado que existe a inversa de Qzz .

Um estimador consistente de S é
1 
(4.87) Sˆ = σˆ 2 S zz = σˆ 2  Z T Z  ,
n 
onde σ̂ 2 é algum estimador consistente de σ 2 e plim( S zz ) = Qzz .
Considere-se o estimador MGM eficiente de β , dado por (4.71). Então, aten-
dendo a (4.87), obtém-se
βˆ ( Sˆ −1 ) = βˆ{ (σˆ 2 S zz ) −1} = {S zxT (σˆ 2 S zz ) −1 S zx }−1 S zxT (σˆ 2 S zz ) −1 szy = ( S zxT S zz−1 S zx ) −1 S zxT S zz−1 szy ,
que não é mais do que o estimador MQ2P, (4.55); este estimador não depende de σ̂ 2 .
Assim, no caso de homocedasticidade condicionada, o estimador MGM efi-
ciente é o estimador MQ2P,
(4.88) βˆ ( Sˆ −1 ) = βˆ ( S zz−1 ) = βˆ MQ2P .
Utilizando (4.86) em (4.72), obtém-se a matriz das covariâncias assintóticas do

estimador MQ2P,
(4.89) Cov a ( βˆ MQ2P ) = σ 2 (QzxT Qzz−1 Q zx ) −1 .
Um estimador consistente desta matriz é dado por

^
(4.90) Cov a ( βˆ MQ2P ) = σˆ 2 ( S zxT S zz−1 S zx ) −1 .
Alternativamente pode escrever-se

^
Cov a ( βˆ MQ2P ) = nσˆ 2 ( X T Z ( Z T Z ) −1 Z T X ) −1 = nσˆ 2 ( X T H Z X ) −1 ,
onde H Z = Z ( Z T Z ) −1 Z T .
O estimador σ̂ 2 pode ser calculado utilizando os resíduos MQ2P. Assim,
1 n Uˆ T Uˆ
(4.91) ∑
σˆ 2 =
n t =1
( y t − xt •
ˆ
β MQ2P ) 2
=
n
,
onde Uˆ = Y − Xβˆ MQ2P . Obviamente, plim(σˆ 2 ) = σ 2 , atendendo à propriedade 4.3 dos

estimadores MGM.
No contexto da homocedasticidade condicionada, pode fazer-se os seguintes co-

mentários sobre os estimadores MQ2P e VI:
a) Quando se considera a situação mais geral de heterocedasticidade condicionada, o
estimador MGM eficiente ou óptimo não é o estimador MQ2P. Contudo, com a hipó-
tese REN.6, este estimador passa a ser o estimador eficiente.
Como se sabe, o estimador MQ2P é o estimador VI em que o vector dos instrumen-
ˆ (a matriz das combinações lineares, Π̂ , é a matriz das estimativas
tos é xˆt • = zt •Π
dos coeficientes das respectivas projecções lineares MQ). Seja qualquer outro vector
de instrumentos linear em zt • : ~xt = zt • A , onde A é uma qualquer matriz p × k . Facil-
mente se conclui que o estimador MQ2P é eficiente na classe dos estimadores VI
em que vector de instrumentos é linear em zt • . Fica ao cuidado do leitor comentar
o caso em que p = k e o caso em que xt • é pré-determinado.
Uma implicação importante do resultado anterior é que, assintoticamente, é mais efi-
ciente usar mais instrumentos do que menos. Esta conclusão decorre do seguinte:
usar um subconjunto de zt • como vector de instrumentos corresponde a usar um par-
ticular conjunto de combinações lineares dos elementos de zt • . Parece, então, que o
estimador é tanto melhor quanto maior for a diferença ente p e k. Infelizmente, como
vai ver-se, quando p − k é muito grande, o estimador MQ2P pode apresentar sérios
problemas em pequenas amostras.
b) Para simplificar, considere-se o modelo yt = β1 + β 2 xt + ut , onde xt é endógeno e zt
é a respectiva variável instrumental. A partir de (4.89), e notando que p = k = 2 , po-
de concluir-se que
σ2
Var a ( βˆ2, VI ) = 2 2 ,
σ x ρ zx
onde σ x2 = Var( xt ) e ρ zx é o coeficiente de correlação entre zt e xt . Obviamente é
desejável que σ 2 seja pequeno, e que σ x2 e ρ zx sejam grandes; também se verifica
que Var a ( βˆ2, VI ) tende para + ∞ , quando ρ zx → 0 (quanto mais fraco é o instrumen-
to, maior é a variância assintótica do estimador VI de β 2 ).
Um estimador consistente desta variância assintótica é dado por
^ nσˆ 2
Var a ( βˆ2, VI ) = ,
VTx Rzx2
onde:
∑
n
uˆ 2
− σˆ 2
= t =1 t
(os ût são os resíduos VI);
n−2
− VTx = ∑t =1 ( xt − x ) 2 ;
n
− Rzx2 é o coeficiente de determinação da regressão de xt sobre zt .
Obviamente é desejável que VTx e Rzx2 sejam grandes.

É útil comparar a variância assintótica do estimador VI com a variância assintó-
tica do estimador MQ (quando xt e ut não estão correlacionados). Tem-se
σ2
Var a (b2 ) = ,
σ x2
o que mostra que a variância assintótica do estimador VI é sempre maior do que a
variância assintótica do estimador MQ, uma vez que | ρ zx | < 1 .
c) Considere-se a equação estrutural yt = β1 + β 2 xt 2 + β3 xt 3 + L + β k −1 xt , k −1 + β k xtk + ut ,
sendo zt • o vector das variáveis instrumentais (que inclui os possíveis regressores
pré-determinados). Seja x̂tj o valor ajustado de xtj da regressão MQ de xtj sobre zt •
(1.º passo do método MQ2P). Vai focar-se a atenção na variância assintótica do es-
timador MQ2P de β k . Pode demonstrar-se que
σ2
Vara ( βˆk , MQ2P ) ≈ ,
VR *k
onde VR ∗k é a soma dos quadrados dos resíduos da regressão MQ de x̂tk sobre 1,

xˆt 2 ,..., xˆt , k −1 (recorde-se que xˆtj = xtj , se xtj é pré-determinado).
Seja VTk∗ = Σtn=1 ( xˆtk − xˆk ) a variação total de x̂tk e ( Rk∗ ) 2 o coeficiente de determina-
ção da regressão MQ anterior. Da definição de coeficiente de determinação, resulta
VR ∗k = VTk∗{1 − ( Rk∗ ) 2 } . Então,
σ2
Vara ( βˆk , MQ2P ) ≈ .
VTk∗{1 − ( Rk∗ ) 2 }
É desejável que VTk∗ seja grande e que ( Rk∗ ) 2 seja pequeno.

O factor 1 − ( Rk∗ ) 2 é, no contexto da estimação MQ, considerado uma medida de mul-
ticolinearidade. Vai ver-se que a estimação MQ2P dos coeficientes em presença de
multicolinearidade pode ser um problema ainda mais grave do que no caso da esti-
mação MQ habitual. Para isso, vai comparar-se a expressão de Vara ( βˆk , MQ2P ) com a
da variância assintótica do estimador MQ de β k ,
σ2
Vara (bk ) = ,
VTk (1 − Rk2 )
onde é VTk é a variação total de xtk e Rk2 é o coeficiente de determinação da regres-

são MQ de xtk sobre os outros regressores. Conclui-se que aquela variância é, em ge-
ral, superior a esta. De facto, basta notar que, em geral, VTk∗ < VTk e ( Rk∗ ) 2 > Rk2 .
Quando é que se pode afirmar que VTk∗ é pequeno? Como x̂tk é o valor ajustado da
regressão MQ de xtj sobre zt • , VTk∗ é variação explicada desta regressão. Se as va-
riáveis instrumentais são de fraca qualidade ( xtk está fracamente correlacionado
com zt • ), então aquela variação explicada é pequena, e a variância assintótica do
estimador βˆk ,MQ2P é grande. Se, pelo contrário, xtj está fortemente correlacionado
com zt • , então VTk∗ é grande, reduzindo aquela variância. Quando, em particular, xtk
é pré-determinado, tem-se VTk∗ = VTk (porque xˆtk = xtk ): o valor de VTk∗ depende
apenas da variação total de xtk . Este facto, ajuda a explicar porque as estimativas
MQ2P dos coeficientes dos regressores pré-determinados são, em geral, mais preci-
sas do que as estimativas MQ2P dos coeficientes dos regressores endógenos.
Outra consequência da existência de variáveis instrumentais de fraca qualidade é a de
que ( Rk∗ ) 2 pode estar perto de 1. Por exemplo, seja um modelo em que, sem perda de
generalidade, xtk é o único regressor endógeno com apenas um instrumento, zt . Lo-
go, zt • = [ 1 xt 2 L xt , k −1 zt ]. O valor ajustado, x̂tk , continua a resultar da regres-
são MQ de xtj sobre zt • . Como todos os regressores são pré-determinados, excepto
xtk , ( Rk∗ ) 2 provém da regressão MQ de x̂tk sobre 1, xt 2 ,..., xt , k −1 . É imediato concluir
que: se na regressão MQ para obter x̂tk (de xtj sobre zt • ), o coeficiente de zt não é
significativo, então na regressão MQ para obter ( Rk∗ ) 2 (de x̂tk sobre 1, xt 2 ,..., xt , k −1 ),
este coeficiente de determinação pode ser grande (estar muito perto de 1). Assim, a
variância assintótica de βˆk ,MQ2P pode ser grande. Este exemplo mostra bem que não
basta considerar a correlação entre o regressor endógeno, xtk , e a variável instrumen-
tal, zt : é indispensável recorrer à respectiva correlação parcial (controlando com os
regressores pré-determinados).
A fraca correlação entre xtk e zt • pode ser compensado pela dimensão da amostra, de
tal forma que VTk∗ seja suficientemente grande e, consequentemente, Vara ( βˆk , MQ2P )
seja suficientemente pequena (note-se que, desde que a correlação entre xtk e zt • não
seja nula, VTk∗ → +∞ quando n → +∞ ). Contudo, em muitas situações, VTk∗ só é su-
ficientemente grande quando n é muito grande (em muitos casos, 500 000 observa-
ções não é suficiente para compensar a existência de instrumentos de fraca qualida-
de). Além disso, se, na regressão de xtj sobre zt • o coeficiente de zt é diferente de 0,

então ( Rk∗ ) 2 converge em probabilidade para uma constante inferior a 1. Deste modo,
assintoticamente, não existe o problema da multicolinearidade.
Os resultados para a inferência estatística, homólogos ao do caso geral, são os

seguintes:
1) Para fazer o teste de H 0 : β j = β 0j , a estatística-teste é
βˆMQ2P, j − β 0j d
(4.92) t =
∗
j ∗
→ N (0,1) .
s j
Neste caso
1 ^ ˆ
s ∗j = Vara ( β MQ2P, j ) = σˆ m∗jj ,
n
onde m∗jj é o elemento de ordem j da diagonal principal de ( X T H Z X ) −1 .
Fica ao cuidado do leitor verificar com um exemplo que os erros padrão resultantes
do 2.º passo do método MQ2P são diferentes dos erros padrão s∗j .
2) Quando a hipótese nula é H 0 : Rβ = δ 0 , tem-se
n ( RβˆMQ2P − δ 0 )T {R ( S zxT S zz−1 S zx) −1 RT }−1 ( RβˆMQ2P − δ 0 ) d 2
(4.93) Q= → χ ( m) ,
σˆ 2
ou
( RβˆMQ2P − δ 0 )T {R ( X T H Z X ) −1 RT }−1 ( RβˆMQ2P − δ 0 ) d 2
Q= → χ ( m) .
σˆ 2
3) Vai estudar-se um caso particular do teste referido em 2). Considere-se o modelo
yt = xt(•1) β•1 + xt(•2 ) β • 2 + ut , onde xt • = [ xt(•1) xt(•2 ) ], com xt(•1) de tipo 1× k1 e xt(•2 ) de tipo
1 × k2 , e β •1 e β • 2 são de tipo k1 × 1 e k2 × 1 , respectivamente ( k1 + k2 = k ). As com-
ponentes dos vectores xt(•1) e xt(•2 ) podem ser regressores pré-determinados ou regres-
sores endógenos (o vector das variáveis instrumentais é zt • ). O teste a efectuar é o
seguinte: H 0 : β • 2 = 0 contra H1 : β• 2 ≠ 0 . Seja ût o resíduo MQ2P, quando se esti-
ma o modelo sem restrições. A respectiva variação residual é VR1 = Σtn=1uˆt2 . Seja
xˆt(•1) e xˆt(•2) os valores ajustados do 1.º passo do método MQ2P (quando se fazem as
regressões MQ de xt(•1) e de xt(•2 ) sobre zt • , respectivamente). Represente-se por
VR1∗ a soma dos quadrados do resíduos da regressão MQ de yt sobre xˆt(•1) e xˆt(•2 ) (2º
passo do método MQ2P sem restrições), e por VR ∗0 a soma dos quadrados dos resí-
duos da regressão MQ de yt sobre xˆt(•1) (2º passo do método MQ2P com restrições).
Pode demonstrar-se que, sob H 0 ,
(VR ∗0 − VR1∗ ) / k2 d
→ F ( k2 , n − k ) .
VR1 /(n − k )
Note-se que no numerador desta estatística-teste utilizam-se as somas dos quadrados

dos resíduos do 2.º passo do método MQ, e que no denominador recorre-se à soma
dos quadrados dos resíduos da estimação MQ2P directa.
4) Quando H 0 : g ( β ) = 0 , utiliza-se
d
(4.94) Q → χ 2 ( m) ,
onde
−1
n g ( βˆMQ2P )T ∇g ( βˆMQ2P )( S zxT S zz−1 S zx) −1 ∇g ( βˆMQ2P )T  g ( βˆMQ2P )
 
Q= ,
σ ˆ 2
ou
−1
g ( βˆMQ2P )T ∇ g ( βˆMQ2P )( X T H Z X ) −1 ∇ g ( βˆMQ2P )T  g ( βˆMQ2P )
 
Q= .
σˆ 2
5) A distância definida em (4.48) reduz-se a
~ ~ ~ ~
~ 2 n ( szy − S zx β )T S zz−1 ( szy − S zx β ) (Y − Xβ )T H Z (Y − Xβ )
(4.95) J {β , (σˆ S zz ) } =
−1
= .
σˆ 2 σˆ 2
Então, a estatística J (de Hansen) é dada por
n ( szy − S zx βˆMQ2P )T S zz−1 ( szy − S zx βˆMQ2P ) Uˆ T H ZUˆ d 2
(4.96) QS = = → χ ( p − k) ,
σˆ 2 σˆ 2
conhecida pelo nome de estatística de Sargan.
Note-se que
QS = n R∗2 ,
onde R∗2 é o coeficiente de determinação não centrado da regressão de Û sobre Z.

Com efeito, basta notar que, devido à propriedade 2.6 dos resíduos MQ,
Uˆ T H ZUˆ
R∗2 = .
Uˆ TUˆ
Os comentários atrás apresentados para a estatística J (de Hansen) continuam váli-
dos para a estatística de Sargan (no caso de homodecasticidade condicionada), no-
meadamente a possibilidade de poder ser utilizada para fazer um teste de especifica-
ção ou um teste de sobre-identificação. Neste contexto, tem-se
d
QS → χ 2 ( p′′ − k ′′) .
6) A estatística Q′ assume a seguinte forma:

d
(4.97) Q′ = QSr − QS → χ 2 (m) ,
onde QS é dado por (4.96), e QSr obtém-se minimizando (4.95) com as restrições
impostas pela hipótese nula H 0 : g ( β ) = 0 ou H 0 : Rβ = δ 0 ; o respectivo estimador
de β designa-se por estimador MQ2P com restrições, β̂ MQ2P r
. Tem-se
n ( szy − S zx βˆMQ2P
r
)T S zz−1 ( szy − S zx βˆMQ2P
r
) Uˆ rT H ZUˆ r
QSr = = ,
σˆ 2 σˆ 2
onde Uˆ r = Y − XβˆMQ2P
r
.
Desta forma, a estatística Q′ pode escrever-se da seguinte maneira:

( szy − S zx βˆMQ2P
r
)T S zz−1 ( s zy − S zx βˆMQ2P
r
) − ( s zy − S zx βˆMQ2P )T S zz−1 ( s zy − S zx βˆMQ2P )
Q′ = n
σˆ 2
Uˆ T H Uˆ − Uˆ T H ZUˆ
= r Z r 2 .
σˆ
No caso de H 0 : Rβ = δ 0 , esta estatística é numericamente igual a Q .
7) A estatística D [ver (4.82)], para testar um subconjunto de condições de ortogona-
lidade, reduz-se à diferença de duas estatísticas de Sargan:
d
(4.98) D = QS − QS1 → χ 2 (q − q1 ) ,
onde QS e QS1 correspondem a utilizar, respectivamente, os instrumentos considera-

dos em zt∗• e em zt1• .
Considerando a partição de Z∗ já conhecida, Z ∗ = [ Z1 Z 2 ], o estimador MQ2P
usando Z1 é
βˆMQ2P
1
= ( X T H1 X ) −1 X T H1Y ,
onde H 1 = Z1 ( Z1T Z1 ) −1 Z1T . Então,

n ( sz1 y − S z1 x βˆMQ2P
1
)T S z−11z1 ( sz1 y − S z1 x βˆMQ2P
1
) Uˆ1T H1Uˆ1
QS1 = = ,
σˆ 2 σˆ 2
onde Uˆ1 = Y − XβˆMQ2P
1
.
Assim, a estatística D pode apresentar-se da forma seguinte:
n( sz∗ y − S z∗ x βˆMQ2P )T S z−∗1z∗ ( sz∗ y − S z∗ x βˆMQ2P )
D=
σˆ 2
n( s − S βˆ 1 )T S −1 ( s − S βˆ 1 )
z1 y z1 x MQ2P z1 z1 z1 y z1 x MQ2P
−
σˆ 2
ˆ ˆ ˆ
U H Z ∗U − U1 H1U1
T T ˆ
= ,
σˆ 2
onde H Z ∗ = Z ∗ ( Z∗T Z ∗ ) −1 Z∗T .
8) Quando todos os regressores são pré-determinados, mas podendo existir em zt •
variáveis pré-determinadas que não são regressores, há uma relação entre a distância
J para o estimador MGM eficiente e a soma dos quadrados dos resíduos. Com efei-
to, considerando (4.95), e notando que H Z X = X , tem-se
~ ~ ~ ~ ~
~ (Y − Xβ )T H Z (Y − Xβ ) Y T H Z Y − 2Y T H Z Xβ + β T X T H Z Xβ
J {β , (σˆ 2 S zz−1 )} = =
σˆ 2 σˆ 2
~ ~ ~
Y T H zY − 2Y T Xβ + β T X T Xβ
=
σˆ 2
~ ~
(Y − Xβ )T (Y − Xβ ) Y T Y − Y T H Z Y
= − ,
σˆ 2 σˆ 2
ou
~ ~
~ (Y − Xβ )T (Y − Xβ ) (Y − Yˆ )T (Y − Yˆ )
J {β , (σˆ 2 S zz−1 )} = − ,
σˆ 2 σˆ 2
onde Yˆ = H Z Y é o vector dos valores ajustados dados pelo estimador MQ.
~
Como a segunda parcela não depende de β , a minimização de J reduz-se à minimi-
~ ~
zação da soma dos quadrados dos resíduos, (Y − Xβ )T (Y − Xβ ) . Então: o estimador
MGM eficiente de β é o estimador MQ; o estimador MGM eficiente sujeito às res-
trições da hipótese nula é o estimador MQ com as respectivas restrições; obtêm-se
todos os resultados estatísticos já conhecidos do capítulo 3.
Naturalmente, quando não se verifica a hipótese da homocedasticidade condiciona-
da, o estimador MGM eficiente de β não é o estimador MQ.
O teste de sobre-identificação referido em 5) pode ser feito utilizando outra es-

tatística assintoticamente equivalente à estatística de Sargan.
Considere-se o modelo de regressão linear, yt = xt • β + ut , com as partições, já
referidas, dos vectores xt• e zt• [ver comentário d) ao teorema 4.5].
De acordo com a definição 4.3, zt • é um vector de variáveis instrumentais se
preencher as duas condições de (4.38). É evidente que todas as variáveis ztl perten-
centes a zt′• são, por hipótese, variáveis instrumentais. No entanto, uma variável ztl de
zt′′• pode ser, ou não, instrumental. Para estas variáveis existe uma diferença fundamen-
tal entre as duas condições.
A segunda, pode ser testada quando se dispõe de uma amostra. A forma mais
simples de proceder consiste em fazer a regressão MQ de cada xtj de xt′′• sobre zt • , e
testar se o coeficiente de ztl é significativo (utilizando o respectivo rácio-t). Mais geral-
mente, o teste pode ser feito com as mesmas regressões MQ, e testar se os coeficientes
das variáveis incluídas em zt′′• são conjuntamente nulos (neste caso, usa-se o rácio-F
respectivo).
A primeira condição não pode ser testada, porque ut não é observável. No en-
tanto, se existem mais variáveis instrumentais potenciais do que regressores endógenos
( p′′ > k ′′ ), pode testar-se se algumas delas são ortogonais à variável residual.
O teste a efectuar é um teste de sobre-identificação, e tem como pressuposto
que existem k ′′ instrumentos em zt′′• ; o teste refere-se às restantes p′′ − k ′′ variáveis de
zt′′• , procurando saber se há evidência empírica que apoia a conclusão de que estas va-
riáveis são instrumentais. Naturalmente, a hipótese nula estabelece que as variáveis ztl
em questão são conjuntamente ortogonais a ut . Como pode provar-se que a escolha dos
k ′′ instrumentos é arbitrária, o teste é formalizado do seguinte modo:
H 0 : E ( zt′′•ut ) = 0 contra H1 : E ( zt′′•ut ) ≠ 0 .
A mecânica do teste é a seguinte:

1) Fazer a regressão MQ2P de yt sobre xt• , considerando zt • como vector de instru-
mentos, com vista a obter os respectivos resíduos MQ2P, ût .
2) Fazer a regressão MQ auxiliar de ût sobre zt • , de forma a calcular estatística-teste
nR 2 , onde R 2 é o coeficiente de determinação resultante desta regressão.
3) Supondo a hipótese nula verdadeira, tem-se
d
(4.99) n R 2 → χ 2 ( p′′ − k ′′) .
Pode provar-se que a estatística nR 2 e a estatística de Sargan, QS , são assinto-

ticamente equivalentes.

se pretende fazer o teste de sobre-identificação acabado de descrever.
Considere-se
xt • = [ 1 educt expert qit ] e zt • = [ 1 educt expert idadet meduct ].
Suponha-se que
xt′• = zt′• = [ 1 educt expert ], xt′′• = qit e zt′′• = [ idadet meduct ].
A hipótese nula é que idadet e meduct são instrumentos, ou seja,

H 0 : E (idadet ut ) = 0 ∧ E (meduct ut ) = 0 .
A não rejeição desta hipótese permite concluir que há sobre-identificação.

Procede-se da seguinte maneira:
1) Fazer a regressão MQ2P de lsalart sobre 1, educt , expert e qit utilizando como ins-
trumentos 1, educt , expert , idadet e meduct , de modo a obter os resíduos MQ2P,
ût .
2) Fazer a regressão MQ auxiliar de ût sobre 1, educt , expert , idadet e meduct , e de-
terminar o valor da estatística-teste nR 2 , onde R 2 é coeficiente de determinação
desta regressão.
3) Testar a hipótese nula, verificando se nR 2 ≥ χα2 (1) , onde χα2 (1) é o respectivo valor
crítico, para a dimensão α , dado pela respectiva distribuição do qui-quadrado. Se se
verifica a desigualdade anterior, rejeita-se a hipótese nula, podendo concluir-se que
pelo menos uma das variáveis, idadet e meduct , não é instrumental. Caso contrário,
as duas variáveis são instrumentais, e há sobre-identificação.
∇
Para testar a hipótese de um subconjunto de condições de ortogonalidade [referi-

da no resultado 7) da inferência estatística] existe outra via proposta por Hausman e
Taylor (1980), a qual se baseia no princípio MGM de Hausman (ver anexo 4B).
O teste de Hausman considera ainda os dois estimadores MQ2P referidos em
7), β̂ MQ2P e β̂ MQ2P
1
.
O estimador β̂ MQ2P é assintoticamente mais eficiente que β̂ MQ2P
1
, porque explora
mais condições de ortogonalidade. Assim,
Cov a ( βˆMQ2P
1
) − Cov a ( βˆMQ2P ) = σ 2{(QzT1 xQz−11z1 Q z1 x ) −1 − (QzT∗ xQz−∗1z∗ Q z∗ x )}−1
Fazendo (ver anexo 4B)
βˆ•1 (Wˆ1 ) = βˆMQ2P

1
e βˆ•2 ( Sˆ −1 ) = βˆ MQ2P ,
tem-se, devido a (54.1),

Cov a ( βˆMQ2P
1
− βˆMQ2P ) = Cov a ( βˆMQ2P
1
) − Cov a ( βˆMQ2P ) .
Como
^ ^
Cov a ( βˆMQ2P ) = nσˆ 2 ( X T H Z ∗ X ) −1 e Cov a ( βˆMQ2P
1
) = nσˆ 2 ( X T H1 X ) −1 ,
vem
^
(4.100) Cov a ( βˆMQ2P
1
− βˆMQ2P ) = nσˆ 2{( X T H1 X ) −1 − ( X T H Z ∗ X ) −1} .
Hausman e Taylor (1980) demonstraram que:

1) A matriz (4.100), para pequenas amostras, é semidefinida positiva, mas não necessa-
riamente definida positiva (pode não ter inversa).
2) Começa por recordar-se o conceito de inversa generalizada de uma matriz: uma in-
versa generalizada da matriz A é qualquer matriz A+ a verificar A A+ A = A ; se A é
quadrada e não singular, então A+ é única e igual a A−1 .
Para qualquer inversa generalizada de (4.100), considere-se a estatística de Haus-
man,
+
H = n ( βˆMQ2P
1
− βˆMQ2P )T nσˆ 2{( X T H1 X ) −1 − ( X T H Z ∗ X ) −1} n ( βˆMQ2P
1
− βˆMQ2P ) ,
 
que é invariante em relação à inversa generalizada escolhida.
Verifica-se que
+
( βˆMQ2P
1
− βˆMQ2P )T ( X T H1 X ) −1 − ( X T H Z ∗ X ) −1  ( βˆMQ2P
1
− βˆMQ2P ) d
 
H= → χ 2 (r ) ,
σˆ 2
onde r = min{q − q1 , k − s} e s é igual ao número de regressores considerados em zt1•

(número de elementos comuns a xt • e zt1• ).
Newey (1985) estabeleceu a seguinte relação entre as estatísticas H e D:

− Se q − q1 ≤ k − s então H e D têm o mesmo número de graus de liberdade, e são nu-
mericamente iguais ( H = D ); se q − q1 > k − s , as duas estatísticas são numerica-
mente diferentes.
Considere-se o modelo de regressão linear, yt = xt • β + ut , a verificar a hipótese

da homocedasticidade condicionada (REN.6), e suponha-se que se pretende testar a
endogeneidade de regressores. O teste é o seguinte:
H 0 : E ( xt′′•ut ) = 0 contra H1 : E ( xt′′•ut ) ≠ 0 .
Para efectuar este teste, supõe-se que está disponível um vector 1 × p de instru-
mentos, zt• , com p ≥ k . Pode, então, utilizar-se (4.98) com as necessárias adaptações.
Neste caso, tem-se
d
D = QS − QS1 → χ 2 (k ′′) ,
onde QS e QS1 correspondem a recorrer, respectivamente, aos instrumentos inseridos em

zt∗• = [ zt • xt′′• ] e zt1• = zt • .
No caso de a hipótese nula ser verdadeira, todos os regressores são pré-determi-
nados, e pode utilizar-se o estimador MQ. Caso contrário, deve utilizar-se o estimador
MQ2P. Como se viu, Hausman sugeriu que se fizesse uma comparação directa entre os
dois estimadores para determinar se a diferença é estatisticamente significativa (note-se
que ambos os estimadores são consistentes se a hipótese nula for verdadeira). Se os dois
estimadores forem significativamente diferentes, então deve haver pelo menos um re-
gressor endógeno (não se deve aceitar a hipótese nula).
O teste de Hausman pode não ser de fácil aplicação. De facto, a determinação da
estatística H passa pelo cálculo dos dois estimadores referidos (MQ e MQ2P), e respec-
tivas matrizes de covariâncias assintóticas, podendo acontecer que a matriz da forma
quadrática não tenha inversa. Isto sucede quando não existem regressores pré-determi-
nados na equação estrutural.
Na prática, o teste de endogeneidade pode ser feito sem determinar os dois es-
timadores referidos, recorrendo apenas a regressões MQ. Prova-se que este teste é
assintoticamente equivalente ao teste de Hausman original.
Considerem-se as k equações de regressão linear da forma reduzida (projecções
lineares MQ de cada regressor sobre as variáveis instrumentais),
(4.101) xtj = π 1 j zt1 + π 2 j zt 2 + L + π pj ztp + vtj = xtj∗ + vtj ( j = 1, 2, K , k ) ,
onde xtj∗ = π 1 j zt1 + π 2 j zt 2 + L + π pj ztp = zt •π • j . Como se sabe, as k equações de (4.101)

podem apresentar-se na forma xt • = xt∗• + vt • , onde: xt∗• = [ xt∗1 xt∗2 L xtk∗ ] = zt •Π ; Π é a
matriz de tipo p × k , de coluna genérica π • j ; vt • = [ vt1 vt 2 K vtk ]. Sabe-se também que
cada ztl é ortogonal a vtj .
Como cada ztl é também ortogonal a ut , resulta que cada um dos xtj∗ é ortogo-
nal a ut . Então, cada xtj é ortogonal a ut se e só se o respectivo vtj é ortogonal a ut :
E ( xtj ut ) = 0 ⇔ E (vtj ut ) = 0 ( j = 1, 2, K, k ) .
Assim, a questão reduz-se a testar se a variável residual estrutural está correla-

cionada com as variáveis residuais da forma reduzida. Para isso, vai considerar-se a pro-
jecção linear MQ de ut sobre as vtj ,
ut = δ 1vt1 + δ 2 vt 2 + L + δ k vtk + ε t = vt•δ + ε t ,
onde δ = [δ1 δ 2 L δ k ] . Nestas condições, sabe-se que E (vt •ε t ) = 0 e E ( zt •ε t ) = 0

T
(porque cada ztl é ortogonal a ut e a vtj ). Pode supor-se que E (ε t ) = 0 . Então, cada vtj
é ortogonal a ut se e só se δ j = 0 :
E (vtj ut ) = 0 ⇔ δ j = 0 ( j = 1, 2, K , k ) .
Estas considerações sugerem que se deveria considerar a equação de regressão

yt = xt • β + vt •δ + ε t ,
onde ε t é a respectiva variável residual. Nesta equação todos os regressores são pré-de-
terminados, porque E (vt •ε t ) = 0 e E ( xt •ε t ) = E{( xt∗• + vt • )ε t } = 0 . Poderia, então, testar-
-se a hipótese H 0 : δ = 0 , através do respectivo rácio-F. Note-se que, sob H 0 , ut = ε t .
Mas, como os vtj não são observáveis, deve aplicar-se o método dos mínimos
quadrados às equações (4.101) de forma a calcular os respectivos resíduos MQ, v̂tj .
Então, passa a considerar-se a equação de regressão
(4.102) yt = xt • β + vˆt •δ + ε t′ ,
onde vˆt• = [ vˆt1 vˆt 2 L vˆtk ] , que deve ser estimada pelo método MQ [quando um dos
regressores, xtj , é, por hipótese, pré-determinado, da respectiva regressão MQ vem
vˆtj = 0 , e este regressor não aparece em (4.102)]. A introdução dos regressores gera-
dos, v̂tj , não afecta a consistência dos estimadores MQ na regressão (4.102), e não afec-
ta os resultados clássicos da inferência estatística, uma vez que a hipótese nula estabele-
ce que δ = 0 . Assim, O teste de H 0 : δ = 0 é feito usando o respectivo rácio-F [quando
há heterocedasticidade condicionada, o teste é feito calculando, de acordo com o prin-
cípio de Wald, a respectiva estatística Q que resulta de (3.47)]. Se se rejeitar H 0 , con-
clui-se que pelo menos um regressor é endógeno.
O teste referido é conhecido pela designação de teste de Wu-Hausman. Em re-
sumo, a respectiva mecânica é a seguinte:
1) Fazer a regressão MQ de cada regressor xtj , que se presume ser endógeno, sobre zt • ,
com vista a obter os respectivos resíduos MQ, v̂tj .
2) Fazer a regressão MQ de yt sobre xt • e os resíduos v̂tj , obtidos em 1), para testar,
utilizando o rácio-F, a nulidade conjunta dos coeficientes destes resíduos. Se esta hi-
pótese for rejeitada, há pelo menos um regressor endógeno.
Podem fazer-se os seguintes comentários ao teste de Wu-Hausman:

a) Pode provar-se que a estatística k ′′F [onde F é a estatística-teste referida no passo
2)] é assintoticamente equivalente à estatística D = QS − QS1 . Assim,
d
k ′′F → χ 2 (k ′′) .
b) As duas regressões do teste de Wu-Hausman são as duas regressões do método
MQ2P (ver secção 4.5). Esta circunstância permite facilmente comparar as magnitu-
des das estimativas dos coeficientes de regressão, β j , pelos métodos MQ e MQ2P.
c) Quando se rejeita H 0 : δ = 0 , os erros padrão calculados pelo método MQ não são
adequados porque δ ≠ 0 . Para obter os erros padrão apropriados, deve utilizar-se o
método MQ2P.

se pretende testar se qit é endógena. Tem-se
H 0 : E (qit ut ) = Cov(qit , ut ) = 0 contra H1 : Cov(qit , ut ) ≠ 0 .
Como
xt • = [ 1 educt expert qit ] ( k ′ = 3 ; k ′′ = 1 ),
zt • = [ 1 educt expert idadet meduct ] ( p′ = 3 ; p′′ = 2 ),
os dois passos do teste de endogeneidade são os seguintes:

1) Fazer a regressão MQ de qit sobre 1, educt , expert , idadet e meduct , de modo a ob-
ter os resíduos vˆt 4 .
2) Fazer a regressão de lsalart sobre 1, educt , expert , qit e vˆt 4 para a testar, com o rá-
cio-t, a nulidade do coeficiente de vˆt 4 . Se esta hipótese for rejeitada, conclui-se que o
regressor qit é endógeno.
Suponha-se, agora, que o objectivo é testar se qit ou educt são endógenos.

Assim, tem-se
H 0 : Cov(qit , ut ) = 0 ∧ Cov(educt , ut ) = 0
contra H1 : Cov(qit , ut ) ≠ 0 ∨ Cov(educt , ut ) ≠ 0 .

Neste caso,
xt • = [ 1 educt expert qit ] ( k ′ = 2 ; k ′′ = 2 ),
zt • = [ 1 expert idadet meduct ] ( p′ = 2 ; p′′ = 2 ).
Os dois passos do teste são os seguintes:

1) Fazer a regressão MQ de educt sobre 1, expert , idadet e meduct , de modo a obter os
resíduos vˆt 2 ; fazer a regressão MQ de qit sobre 1, expert , idadet e meduct , de modo
a obter os resíduos vˆt 4 .
2) Fazer a regressão de lsalart sobre 1, educt , expert , qit , vˆt 2 e vˆt 4 para a testar, com o
rácio-F, a nulidade conjunta dos coeficientes de vˆt 2 e vˆt 4 . Se esta hipótese for rejeita-
da, conclui-se que há pelo menos um regressor endógeno.
∇
Seja yt = xt • β + ut um modelo de regressão linear com regressores endógenos e

com termo independente. Nalguns casos, pode ser importante detectar a presença de he-
terocedasticidade condicionada, para decidir qual o modo de estimar os parâmetros do
modelo: utilizar o estimador MQ2P, quando se está presença de homocedasticidade con-
dicionada, ou recorrer ao estimador MGM eficiente, na situação mais geral de heteroce-
dasticidade condicionada.
Seja zt • o vector dos instrumentos. Para simplificar, supõe-se que {( yt , xt • , zt • )}
é iid (em vez de REN.2). Admita-se também que E (ut | zt • ) = 0 [em vez de REN.3:
E ( zt •ut ) = 0 ].
O teste de heterocedasticidade condicionada é o seguinte:
H 0 : E (ut2 | zt • ) = σ 2 contra H1 : E (ut2 | zt • ) depende de zt • .
Utilizando os mesmos argumentos da secção 3.9 do capítulo 3, o teste é efectua-

do com a regressão auxiliar de uˆt2 sobre 1 e ht • , onde ût é o resíduo MQ2P do modelo
original e ht • = h( zt • ) é uma qualquer função vectorial de zt • , de tipo 1× (q − 1) .
Supondo que E (ut4 | zt • ) = κ 2 (homokurtosis condicionada) e que o vector das
covariâncias condicionadas, Cov( xt • , ut | zt • ) , é constante, pode demonstrar-se que
d
(4.103) n R 2 → χ 2 (q − 1) ,
Para fazer um teste semelhante ao teste de White simplificado, não se pode con-
siderar ht • = [ yˆt yˆt2 ], onde yˆt = xt • βˆMQ2P , uma vez que ht • só pode depender de variá-
veis pré-determinadas e de estimativas de parâmetros. A função proposta deve ser, en-
tão, ht • = [ xˆt • βˆMQ2P ( xˆt • βˆMQ2P ) 2 ], onde xˆt • = zt •Π
ˆ são os valores ajustados de x obti-
t•
dos no 1.º passo do método MQ2P. Deste modo, a estatística-teste é dada por
d
n R 2 → χ 2 (2) ,
onde R 2 resulta da regressão auxiliar MQ de uˆt2 sobre 1, xˆt • βˆMQ2P e ( xˆt • βˆMQ2P ) 2 .
PALAVRAS-CHAVE
Condição de característica Método dos mínimos quadrados em dois
passos (MQ2P)
Condição de ordem Método generalizado dos momentos
Consistência Modelo de procura e oferta
Diferença-martingala Modelo de regressão linear com regresso-
res endógenos (MRL-REN)
Efeito parcial (médio) Modelo macroeconómico simples
Enviesamento da endogeneidade MRL sobre-parametrizado
Enviesamento da simultaneidade MRL sub-parametrizado
Enviesamento das variáveis omitidas Multicolinearidade
Enviesamento de erros nos regressores Normalidade assintótica
Equação estimável Omissão de variáveis
Equação estrutural Ortogonalidade
Erro de amostragem Previsor
Erro de medida no regressando Princípio da razão de verosimilhanças
Erro de medida num regressor Princípio de Wald
Erro de previsão Princípio MGM de Hausman
Erro padrão heterocedástico-consistente Princípio dos mínimos quadrados (linear)
Erro quadrático médio da previsão Programa de avaliação
Estacionaridade ergódica Projecção linear MQ
Estatística de Hausman Rácio-t robusto
Estatística de Sargan Redundância
Estimador de grupos Regra da projecção linear MQ iterada
Estimador de variáveis instrumentais Regressão de tipo I
Estimador MGM (eficiente) Regressão de tipo II
Estimador MQ2P Regressor endógeno
Experiência natural Regressor gerado
Forma reduzida Regressor pré-determinado
Função de consumo microeconómica Resíduo da projecção linear MQ
Função de produção microeconómica Shifter da oferta (observável)
Heterocedasticidade condicionada Shifter da procura (observável)
Homocedasticidade condicionada Sobre-identificação
Hipótese clássica dos erros nas variáveis Sub-identificação
Hipótese do rendimento permanente Teste de adição de variáveis
Identificação (exacta) Teste de endogeneidade
Indicador Teste de Hausman
Inferência estatística Teste de hipóteses não lineares
Inferência estatística sobre combinações Teste de sobre-identificação (de Hansen)
Inferência estatística sobre um coeficiente Teste de um subconjunto de condições de
de regressão isolado ortogonalidade
PALAVRAS-CHAVE
Interacção Teste de Wu-Hausman
Invariância Variável instrumental
Linearidade Variável proxy (imperfeita)
Método das variáveis instrumentais
1. Considere-se uma variável aleatória (escalar), y, e um vector aleatório de tipo

1 × k , x = [ x1 x2 K xk ]. Segundo o princípio dos mínimos quadrados, indique o
melhor previsor de y.
2. Considere-se uma variável aleatória (escalar), y, e um vector aleatório de tipo
1 × k , x = [ x1 x2 K xk ]. Segundo o princípio dos mínimos quadrados lineares, in-
dique o melhor previsor de y.
3. Considere a relação y = xβ + zδ , onde y é uma variável aleatória, x e z são dois
vectores-linha aleatórios, e β e δ são dois vectores-coluna de parâmetros. Deter-
mine a projecção MQ de y sobre x e z.
4. Considere o MRL, yt = β1 xt1 + β 2 xt 2 + ut , e admita que xt1 é regressor pré-deter-
minado e que xt 2 é regressor endógeno. Suponha que as variáveis instrumentais
deste regressor são z t1 e z t 2 . Escreva a projecção MQ do regressor endógeno so-
bre as variáveis pré-determinadas.
5. Considere o MRL, yt = xt • β + ut . Seja yt = xt • β ∗ + ut∗ , onde β ∗ é vector dos coe-
ficientes da projecção MQ de yt sobre xt • , e ut∗ é o respectivo resíduo. De-
termine a relação entre ut e ut∗ .
6. Considere-se que a especificação correcta do MRL é yt = xt • β + zt •δ + ut , onde:
xt • é um vector 1 × k de regressores pré-determinados; zt • é outro vector 1× m de
regressores pré-determinados. Suponha-se que a especificação disponível é a se-
guinte: yt = xt • β + vt . Indique a expressão do enviesamento das variáveis omitidas
(enviesamento da endogeneidade).
7. Considere o modelo de regressão linear yt = β 0 + β1 xt1 + β 2 xt 2 + ut . Admita que
xt1 é regressor endógeno. Indique a expressão do enviesamento assintótico do
estimador MQ de β1 .
8. Considere a equação y = α + β ~ x + γ z + u , onde as variáveis ~x e z são exógenas.
~ ~
Suponha que x é observável com erro, dispondo-se de x = x + v , onde o erro de
medida, v, não está correlacionado com ~ x e z. Mostre que x é endógena.
9. Considere um modelo de oferta e procura de um mercado em equilíbrio. Seja: a)
devem ter-se pelo menos dois shifters observáveis da curva da procura para identi-
ficar a equação da oferta; b) quando não há shifters observáveis nem para a curva
da oferta nem para a curva da procura, deve aplicar-se o método de estimação
MQ2P; c) quando a equação da oferta é identificada não existe enviesamento da
simultaneidade. Quais destas afirmações são verdadeiras?
10. Dê um exemplo de um modelo com 3 equações em que os estimadores MQ de
dois parâmetros da primeira equação sofrem de enviesamento da simultaneidade.
11. Considere a equação y1 = β1 + β 2 y2 + β 3 z1 + u1 , em que y2 é endógena e z1 é
exógena. Suponha que utilizava o método dos mínimos quadrados (MQ) para esti-
mar os coeficientes de regressão relativos à equação explicativa do comportamen-
to de y1 . Apresente a equação de comportamento de y2 , de forma a poder conc-
luir que a estimação referida sofre de enviesamento da simultaneidade.
12. Considere as seguintes afirmações: a) no caso de um MRL, com erros de observa-

ção nalgumas variáveis explicativas, não pode haver regressores pré-determina-
dos; b) num modelo de procura-oferta num mercado em equilíbrio o preço é re-
gressor endógeno; c) no caso de um MRL com regressores pré-determinados, mas
em que alguns são observados com erro, existe endogeneidade; d) numa equação
da forma reduzida, pode existir um regressor endógeno. Indique quais são verda-
deiras, e quais são falsas.
13. Seja: a) no caso de um MRL com omissão de variáveis existe sempre regressores
endógenos; b) num modelo de procura-oferta num mercado em equilíbrio o preço
é regressor endógeno; c) no caso de um MRL com regressores pré-determinados,
mas em que alguns são observados com erro, existe endogeneidade; d) quando se
considera uma equação da forma reduzida, existe um regressor endógeno. Quais
destas afirmações são verdadeiras?
14. Considere um modelo de procura-oferta num mercado em equilíbrio, sem shifters
observáveis. Seja: a) as duas equações são identificáveis; b) apenas a equação da
procura é identificável; c) apenas a equação da oferta é identificável; d) nenhuma
equação é identificável.
15. Considere o seguinte modelo de procura e oferta num mercado em equilíbrio:

qt = β 0 + β1 pt + ut (equação da oferta ),
s
Supondo que α1 < 0 , β1 > 0 , E (utd ) = 0 , E (uts ) = 0 e Cov(utd , uts ) = 0 , determine

a covariância entre o preço e o shifter da procura, e o respectivo sinal.

s
Determine o enviesamento da endogeneidade relativamente a α1 .


 qt = β 0 + β 1 pt + β 2 z t + u t
s
onde rt é o rendimento médio dos consumidores do produto e zt é um indicador

da dimensão média das empresas do mercado respectivo. Estas variáveis são pré-
determinadas nas duas equações. Determine o sistema de equações que permite
identificar os parâmetros β1 e β 2 .
qt = α 0 + α 1 pt + α 2 rt + utd (equação da procura)

qt = β 0 + β 1 pt + u t
s
onde rt é o rendimento médio dos consumidores do produto. Esta variável é pré-

determinada nas duas equações. Determine a expressão do estimador VI de β1 .
19. Considere-se o seguinte modelo macroeconómico simples


onde Ct é o consumo agregado, Yt é o rendimento nacional, I t é o investimento

agregado (variável pré-determinada). Determine a covariância entre o rendimento
nacional e a variável residual da função consumo, e o respectivo sinal.


agregado (variável pré-determinada). Verifique que o investimento pode ser utili-
zado como variável instrumental do rendimento nacional.


agregado (variável pré-determinada). Determine o enviesamento da endogeneida-
de da propensão marginal a consumir.
22. Considere a equação y1 = β1 + β 2 y2 + β 3 z1 + u1 . Escreva as condições, utilizando
as covariâncias respectivas, que permitem afirmar que y2 é endógena e z1 é exó-
gena.
23. Considere o modelo yt = α + β t + γ yt −1 + ε t , onde | γ | < 1 e {ε t : t = 1,2,K} é um
ruído branco. Classifique os regressores quanto à exogeneidade/endogeneidade.
24. Admita que o modelo yt = β 0 + β1 xt1 + β 2 xt 2 + ut está correctamente especificado,
mas adoptou-se o modelo yt = β 0 + β1 xt1 + vt ; sabe-se, também, que xt1 e xt 2 es-
tão correlacionados. Seja: a) o estimador MQ dos coeficientes do modelo adopta-
do é consistente; b) o regressor do modelo adoptado é pré-determinado; c) para es-
timar os coeficientes do modelo adoptado é indispensável conhecer uma variável
instrumental para o regressor. Quais destas afirmações são verdadeiras?
25. Considere que a especificação correcta de um modelo de regressão linear é a se-
guinte: yt = β 0 + β1 xt1 + β 2 xt 2 + ut , onde os dois regressores são exógenos. Su-
pondo que xt 2 não é observável, optou-se pelo modelo yt = β 0 + β1 xt1 + vt . Em
relação ao modelo adoptado, classifique o regressor xt1 em função da correlação
entre xt1 e xt 2 .
26. Considere o modelo de regressão linear yt = β 0 + β1 xt1 + β 2 xt 2 + ut . Admita que
xt1 é regressor endógeno e que zt é variável instrumental de xt1 . Indique as con-
dições a que deve obedecer zt .
27. Considere a equação yt1 = β1 + β 2 yt 2 + β 3 zt1 + ut1 , com dados temporais. Suponha
que y2 é endógena, que z1 é exógena, e que dispõe de duas variáveis instru-
mentais para y 2 ( z 2 e z3 ). Que condições devem verificar estas variáveis.
28. Considere o modelo yt = xt • β + ut onde os dados são seccionais, xt• é o vector

1 × k dos regressores e z t • é o vector 1× p das variáveis instrumentais. Enuncie a
hipótese que estabelece a condição de característica para a identificação.
29. Considere o modelo yt = xt • β + ut com regressores endógenos, onde zt • é o vec-
tor das variáveis instrumentais. Enuncie a hipótese sobre a amostragem casual.
30. Considere o modelo yt = xt • β + ut onde xt• é o vector 1 × k dos regressores e zt •
é o vector 1× p das variáveis instrumentais. Enuncie a condição de característica.
é o vector 1× p das variáveis instrumentais. Enuncie a hipótese da diferença-mar-
tingala.
32. Considere o modelo de regressão linear, yt = xt• β + ut , com regressores endóge-
nos; seja X a matriz das observações dos regressores e Z a matriz das observações
dos instrumentos. Apresente a fórmula dos estimadores MGM de β , explicitando
as matrizes X e Z.
33. Considere o MRL-REN, yt = xt • β + ut , e qualquer estimador MGM do vector dos
coeficientes de regressão. Seja X a matriz das observações dos regressores e Z a
matriz das observações dos instrumentos. Determine o respectivo erro de amostra-
gem, explicitando as matrizes X e Z.
34. Considere o MRL-REN, yt = xt • β + ut , onde xt• é o vector 1 × k dos regressores
e zt • é o vector 1× p das variáveis instrumentais. Supondo que p = k , determine
o erro de amostragem do estimador VI do vector dos coeficientes de regressão,
explicitando as respectivas médias amostrais.
e zt • é o vector 1× p das variáveis instrumentais. Seja X a matriz das observações
dos regressores e Z a matriz das observações dos instrumentos. Supondo que
p = k , determine o erro de amostragem do estimador VI do vector dos coeficien-
tes de regressão, explicitando as matrizes X e Z.
36. Considere o MRL, yt = xt • β + ut , e a família dos estimadores MGM de β inde-
xada pela matriz de pesos, Ŵ . Supondo que o número de regressores é igual ao
número de instrumentos, demonstre que o estimador MGM reduz-se ao estimador
VI, qualquer que seja a matriz Ŵ .
e zt • é o vector 1× p das variáveis instrumentais. Seja X a matriz das observações
dos regressores e Z a matriz das observações dos instrumentos. Determine o erro
de amostragem do estimador MQ2P do vector dos coeficientes de regressão, exp-
licitando as matrizes X e Z.
38. Considere o modelo de regressão linear yt = β 0 + β1 xt1 + β 2 xt 2 + ut . Suponha
que: xt1 é regressor endógeno; zt1 e zt 2 são variáveis instrumentais de xt1 . Indi-
que as duas regressões MQ do método MQ2P.
tor das variáveis instrumentais. Indique a expressão do estimador MQ2P, utilizan-
do a matriz H Z .
40. Considere um modelo de regressão linear com regressores endógenos. Seja k o nú-
mero de regressores e p o número de instrumentos. Quais as relações que se de-
vem verificar entre k e p para aplicar o método VI e o método MQ2P, respectiva-
mente.
41. Considere a relação amostral, Y = Xβ + U , associado ao modelo de regressão
linear, onde X é a matriz dos regressores de tipo n × k . Supondo que pelo menos
um dos regressores é endógeno, seja Z a matriz das variáveis instrumentais de tipo
n × p . Escreva, com a notação matricial, a relação amostral correspondente ao
segundo passo do método MQ2P, e a relação entre os vectores das variáveis re-
siduais desta relação e da relação original.
42. Considere o modelo yt = xt • β + ut onde os dados são seccionais, xt • é o vector
1 × k dos regressores e zt • é o vector 1× p das variáveis instrumentais. A que
condições deve obedecer a matriz E ( ztT• zt • ) para garantir que o estimador MQ2P
de β seja consistente.
43. Considere o seguinte modelo de equações simultâneas:
 yt1 = α1 yt 2 + α 2 xt1 + α 3 xt 2 + α 4 xt 4 + ut1

 yt 2 = β1 yt1 + β 2 xt 2 + β 3 xt 3 + ut 2 .
Escreva as expressões das variáveis residuais da forma reduzida em função das
variáveis residuais da forma estrutural.
 yt1 = α1 yt 2 + α 2 xt1 + α 3 xt 2 + ut1

 yt 2 = β1 yt1 + β 2 xt 2 + β 3 xt 3 + ut 2 .
Indique as duas regressões que deve efectuar para estimar, pelo método MQ2P, os
coeficientes da primeira equação.
45. Indique um estimador consistente da matriz S = E (ut2 ztT• zt • ) .
46. Considere o MRL-REN, yt = xt • β + ut . Prove a consistência dos estimadores
MGM do vector dos coeficientes de regressão.
47. Considere o MRL-REN, yt = xt • β + ut . Demonstre o resultado que permite afir-
mar que os estimadores MGM do vector dos coeficientes de regressão são assinto-
ticamente normais.
48. Considere o MRL-REN, yt = xt• β + ut . Seja zt • o vector das variáveis instrumen-
tais, e considere os produtos ztT• ut . Indique um estimador consistente da matriz
das covariâncias assintóticas da média amostral daqueles produtos.
49. Considere o MRL-REN yt = xt • β + ut . A família dos estimadores MGM de β é
indexada pela matriz de pesos, Ŵ , simétrica definida positiva. Qual é a matriz Ŵ
no caso do estimador MGM eficiente?
e zt • é o vector 1× p das variáveis instrumentais. Indique um estimador consis-
tente da matriz das covariâncias assintóticas do estimador MGM eficiente do vec-
tor dos coeficientes de regressão.
51. Considere o modelo de regressão linear, yt = xt• β + ut , com regressores endóge-

nos. Como sabe, os estimadores MGM de β são indexados por uma matriz Ŵ si-
métrica e definida positiva. Em que condições se tem um estimador MGM efi-
ciente?
52. Considere o MRL, yt = xt • β + ut . A família dos estimadores MGM de β é inde-
xada pela matriz de pesos, Ŵ , simétrica definida positiva. Qual é a matriz Ŵ no
caso do estimador MQ2P?
53. Considere a equação yt = β 0 + β1 xt1 + β 2 xt 2 + ut , inserida num modelo com mais
equações, onde se verifica que Cov( xt1 , ut ) ≠ 0 e Cov( xt 2 , ut ) = 0 . Sabe-se tam-
bém que existem mais duas variáveis exógenas no modelo, zt1 e zt 2 . Como pro-
cederia para estimar a equação dada pelo método dos mínimos quadrados em dois
passos.
e zt • é o vector 1× p das variáveis instrumentais. Indique a expressão da distância
~ ~
J ( β , Sˆ −1 ) avaliada em β = β , bem como a respectiva distribuição limite.
55. Considere o MRL com regressores endógenos. Seja k o número de regressores e p
o número de instrumentos ( p > k ) . Considere a estatística de J de Hansen para o
teste de sobre-identificação. Complete a seguinte afirmação:
d
J → ________.
56. A estatística J de Hansen pode ser interpretada como a estatística-teste para fazer
um teste de especificação de um modelo de regressão linear com regressores en-
dógenos. Explique.
tor das variáveis instrumentais. Supondo que existem apenas restrições de exclu-
são, indique as condições para se ter sobre-identificação.
58. Considere a equação y1 = β1 + β 2 y2 + β 3 y3 + β 4 z1 + u1 , supondo que y 2 e y3 são
endógenas e z1 é exógena. Suponha, também, que dispõe de duas variáveis instru-
mentais: z 2 e z3 . Pode efectuar o teste de sobre-identificação? Justifique.
 yt1 = α1 yt 2 + α 2 xt1 + α 3 xt 2 + ut1

 yt 2 = β1 yt1 + β 2 xt 2 + β 3 xt 3 + ut 2 .
É possível fazer o teste de sobre-identificação relativamente à primeira equação?
Justifique.
é o vector 1× p das variáveis instrumentais. Enuncie a hipótese da homocedastici-
dade condicionada.
que: xt1 é regressor endógeno; zt1 e zt 2 são variáveis instrumentais de xt1 . Indi-
que a condição de homocedasticidade condicionada.
62. Seja o MRL, yt = xt • β + ut , com regressores endógenos. Considere o vector das

variáveis instrumentais, z t • , e a matriz S = E (ut2 ztT• zt • ) . Deduza a expressão desta
matriz quando se introduz a hipótese da homocedasticidade condicionada.
e zt • é o vector 1× p das variáveis instrumentais. Supondo que existe homocedas-
ticidade condicionada, indique um estimador consistente da matriz das covariân-
cias assintóticas do estimador MQ2P do vector dos coeficientes de regressão.
e zt • é o vector 1× p das variáveis instrumentais. Suponha que existe homocedas-
~
ticidade condicionada. Indique a expressão da distância J ( β , Sˆ −1 ) avaliada em
~ ˆ
β = β MQ2P , bem como a respectiva distribuição limite (note que, no caso de ho-
mocedasticidade condicionada, a matriz Ŝ pode ser simplificada).
65. Considere o modelo yt = xt • β + ut com regressores endógenos e homocedastici-
dade condicionada, onde z t • é o vector das variáveis instrumentais. Descreva a
mecânica do teste de sobre-identificação, utilizando a estatística n R 2 assintoti-
camente equivalente à estatística de Sargan.
 yt1 = α1 yt 2 + α 2 xt1 + α 3 xt 2 + α 4 xt 4 + ut1

 yt 2 = β1 yt1 + β 2 xt 2 + β 3 xt 3 + ut 2 .
Admitindo que existe homocedasticidade condicionada, descreva o mecanismo do
teste de sobre-identificação relativamente à segunda equação, utilizando a estatís-
tica n R 2 assintoticamente equivalente à estatística de Sargan.
 y t 1 = α 1 y t 2 + α 2 xt 1 + α 3 xt 2 + α 4 xt 4 + u t 1

 yt 2 = β1 yt1 + β 2 xt 2 + β 3 xt 3 + β 4 xt 5 + ut 2 .
teste de sobre-identificação relativamente à primeira equação, utilizando a estatís-
tica n R 2 assintoticamente equivalente à estatística de Sargan.
 yt1 = α1 yt 2 + α 2 xt1 + α 3 xt 2 + ut1

 yt 2 = β1 yt1 + β 2 xt 2 + β 3 xt 3 + ut 2 .
teste de endogeneidade da variável yt1 na segunda equação, de forma a utilizar o
rácio-F assintoticamente equivalente à estatística D (diferenças de duas estatísti-
cas de Sargan).
que: xt1 é regressor endógeno; zt1 e z t 2 são variáveis instrumentais de xt1 . Admi-
tindo que existe homocedasticidade condicionada, descreva os dois passos do teste
de endogeneidade, que corresponde a utilizar o rácio-F assintoticamente equiva-
lente à estatística D (diferenças de duas estatísticas de Sargan).

 y t 1 = α 1 y t 2 + α 2 xt 1 + α 3 xt 2 + α 4 xt 4 + u t 1

 yt 2 = β1 yt1 + β 2 xt 2 + β 3 xt 3 + β 4 xt 5 + ut 2 .
teste de endogeneidade de Wu-Hausman relativamente à segunda equação.
CAPÍTULO 5
SISTEMAS DE EQUAÇÕES
DE REGRESSÃO LINEAR
5.1 - Apresentação do modelo
Este capítulo tem por objectivo generalizar o estudo efectuado no capítulo 4 con-
siderando um modelo econométrico constituído por várias equações de regressão li-
near, e onde o método de estimação dos parâmetros ainda é o método generalizado
dos momentos (MGM).
Desta forma, considere-se o modelo da população,
(5.1) yti = β1i xti1 + β 2i xti 2 + L + β kii xtiki + uti (i = 1, 2, K , m ; t ∈ T ) ,
onde:
− yti é a observação t do regressando yi (há uma equação para cada regressando);
− xtij é a observação t do regressor xij ( j = 1, 2, K , ki ) ; a equação i tem ki regressores;
− β ji é o coeficiente de regressão de xij (os coeficientes podem variar de equação
para equação, mas não de observação para observação, dentro da mesma equação);
− uti é a variável residual da observação t da equação i.
Nota: o índice t tanto pode designar uma observação temporal como uma observa-
ção seccional; o índice i refere-se à equação i, ou ao regressando da equação i.
Fazendo
 β1i 
β 
] e β •i =   ,
2i
xti • = [ xti1 xti 2 L xtiki
 M 
 
 β k i i 
o modelo (5.1) pode ser apresentado com a notação seguinte (notação A):
(5.2) yti = xti• β •i + uti (i = 1, 2, K , m ; t ∈ T ) .
Deste modo:
− xti• é o vector 1× ki da observação t dos regressores da equação i; o elemento genéri-
co deste vector é xtij ( j = 1, 2, K , ki ) .
Capítulo 5 – Sistemas de Equações de Regressão Linear 2
− β•i é o vector ki × 1 dos coeficientes de regressão da equação i; o elemento genérico

deste vector é β ji ( j = 1, 2, K , ki ) .
O modelo (5.1) pode, ainda, ser formalizado de outro modo (notação B):
(5.3) ytT• = X t • β + utT• (t ∈ T ) ,
onde
yt • = [ yt1 yt 2 L ytm ], ut • = [ ut1 ut 2 L utm ],
 xt1• 0 L 0   β •1 
0 x 0  β 
t 2• L
X t• =  e β =  •2  .
 M M M   M 
   
0 0 L xtm •  β• m 
Assim:
− yt • é o vector de tipo 1 × m da observação t dos regressandos; o elemento genérico
deste vector é yti ( i = 1, 2, K , m );
− ut • é o vector 1 × m das variáveis residuais relativas observação t; o elemento genéri-
co deste vector é uti ( i = 1, 2, K , m );
− X t • é a matriz m × k ( k = k1 + k2 + L + km ), diagonal por blocos, formada pelos m
blocos xti • ( i = 1, 2, K , m );
− β é o vector k × 1 , formado pelos m subvectores β•i ( i = 1, 2, K , m ).
Facilmente se verifica que as notações (5.2) e (5.3) do modelo da população são

equivalentes.
Suponha-se que se dispõe de uma amostra de dimensão n (t = 1, 2, K , n) . A
relação amostral,
(5.4) Y = Xβ + U ,
pode ser apresentada de duas formas equivalentes, recorrendo a (5.2) ou a (5.3):
a) Notação A. Considerem-se as n relações (5.2), quando t = 1, 2, K , n . Pode, então, es-
crever-se
(5.5) y•i = X •i β •i + u•i (i = 1, 2, K , m) ,
onde:
 y1i   x1i •   x1i1 x1i 2 L x1ik i   u1i 
y  x  x x L x  u 
y•i =  2 i  , X •i =  2 i •  = 
2 ik i 
e u•i =  2i  .
2 i1 2i 2
 M   M   M M M  M
       
 y ni   xni •   xni1 xni 2 L xnik i  uni 
Logo:
− y•i é o vector n × 1 (de elemento genérico yti ) das observações do regressando yi
( i = 1, 2, K , m ).
− X •i é a matriz n × ki (de elemento genérico xtij ) das observações dos regressores

da equação i ( i = 1, 2, K , m ); a linha genérica desta matriz é xti• (t = 1, 2, K , n) .
− u•i é o vector n × 1 (de elemento genérico uti ) das variáveis residuais da equação i
( i = 1, 2, K , m ).
As m equações, dadas por (5.5), podem ser agrupadas numa única expressão matri-
cial da forma (5.4), onde:
 y•1   X •1 O L O   u•1 
y  O X •2 L O   u 
Y=  •2 
, X = e U =  •2  .
 M   M M M   M 
     
 y• m  O O L X •m  u• m 
Assim:
− Y é o vector mn × 1 , formado pelos m subvectores y•i ( i = 1, 2, K , m );
− X é a matriz diagonal por blocos, de tipo mn × k , formada pelos m blocos X •i
( i = 1, 2, K , m );
− U é o vector mn × 1 , formado pelos m subvectores u•i ( i = 1, 2, K , m ).
b) Notação B. Quando se consideram as n relações (5.3), para t = 1, 2, K , n , ainda se
tem uma relação amostral na forma (5.4), onde
 y1T•   X 1•   u1T• 
 T X   T
 y2 •  u
Y= , X=  2• 
e U =  2•  .
 M   M   M 
 T    T
 yn •   X n•  un • 
Assim:
− Y é o vector mn × 1 , formado pelos n subvectores ytT• ( t = 1, 2, K , n );
− X é a matriz de tipo mn × k , formada pelos m blocos X t • ( t = 1, 2, K , n );
− U é o vector mn × 1 , formado pelos m subvectores utT• ( t = 1, 2, K , n ).
Sem dificuldade se verifica que as duas relações amostrais, Y = Xβ + U , postas

em alternativa, são equivalentes porque contêm a mesma informação: apenas difere o
modo como as observações estão ordenadas. Assim:
− Com a notação A, a ordenação das observações das variáveis nas matrizes Y e X é a
seguinte: as n observações das variáveis da primeira equação; as n observações das
variáveis da segunda equação; e, assim, sucessivamente até à última equação.
− Na notação B, a ordenação respectiva é a seguinte: a primeira observação das variá-
veis de todas as equações; a segunda observação das variáveis de todas as equações;
e, assim, sucessivamente até à última observação.
No anexo 5A faz-se uma sistematização dos vários tipos de modelos com várias
equações de regressão, apresentando-se a formalização desses modelos e descrevendo-
-se as estruturas matriciais respectivas, quer para os modelos da população quer para as
relações amostrais correspondentes (ver quadros 5A.1 a 5A.4). A consulta destes qua-
dros deve ser uma preocupação constante ao longo da leitura do presente capítulo, so-
bretudo quando forem introduzidos os casos particulares do modelo (5.2) [ou (5.3)].
Exemplo 5.1 – Retome-se o exemplo 4.3 (ver capítulo 4), onde se considerou a seguinte
equação estimável:
lsalart = β11 + β 21 educt + β 31 expert + β 41 qit + ut1 .
Suponha-se que se acrescenta ao modelo uma equação explicativa do comporta-

mento de uma variável que representa a pontuação de um teste sobre o “conhecimento
do mundo do trabalho” (cmt) [a expressão inglesa é knowledge of the world of work;
kww],
cmtt = β12 + β 22 educt + β 32 qit + ut 2 .
Tem-se: m = 2 (duas equações); k1 = 4 (quatro regressores na primeira equa-

ção); k2 = 3 (três regressores na segunda equação).
Para a notação (5.2), tem-se:
yt1 = lsalart ; yt 2 = cmtt ; xt1• = [ 1 educt expert qit ]; xt 2• = [ 1 educt qit ] ;
 β11 
β   β12 
β •1 =   ; β • 2 =  β 22  .
21
 β 31 
   β32 
 β 41 
Quando se apresenta o modelo na forma (5.3), resulta:
yt • = [ lsalart cmtt ] ; ut • = [ ut1 ut 2 ] ;
1 educt expert qit 0 0 0

X t• =  ;
0 0 0 0 1 educt qit 
β T = [ β11 β 21 β31 β 41 β12 β 22 β32 ] .

Na notação A da relação amostral, Y = Xβ + U , tem-se:
 lsalar1   cmt1  u11   u12 

lsalar  cmt  u  u 
y•1 =  2
; y• 2 =  2  ; u•1 =  21  ; u• 2 =  22  ;
 M   M   M   M 
       
lsalarn  cmtn  un1  un 2 
1 educ1 exper1 qi1  1 educ1 qi1 
1 educ exper qi  1 educ qi 
X •1 =  2 2 2
; X •2 =  2 2
;
M M M M   M M M 
   
1 educn expern qin  1 educn qin 
 lsalar1   u11  1 educ1 exper1 qi1 0 0 0

lsalar  u  1 educ exper qi 0 0 0 
 2  21   2 2 2
 M   M  M M M M M M M 
     
lsalarn  u 1 educn expern qin 0 0 0
Y = ; U =  n1  ; X =  .
 cmt1   u12  0 0 0 0 1 educ1 qi1 
     
 cmt2  u22  0 0 0 0 1 educ2 qi2 
 M   M  M M M M M M M 
     
 cmtn  un 2  0 0 0 0 1 educn qin 
Quanto à notação B da relação amostral, vem:

 lsalar1   u11  1 educ1 exper1 qi1 0 0 0
 cmt  u  0 0 0 0 1 educ1 qi1 
 1   12  
lsalar2   u21  1 educ2 exper2 qi2 0 0 0
     
Y =  cmt2  ; U = u22  ; X = 0 0 0 0 1 educ2 qi2  .
 M   M  M M M M M M M 
     
lsalarn   un1  1 educn expern qin 0 0 0
 cmt  u  0 0 0 0 1 educn qin 
 n   n2  
∇
Exemplo 5.2 – Suponha-se que num painel de dados sobre trabalhadores existem obser-
vações para dois anos (anos 1 e 2) sobre as variáveis salar, educ, qi e exper. Pode, en-
tão, considerar-se o seguinte modelo:
lsalar1t = β11 + β 21 educ1t + β 31 exper1t + β 41qit + ut1

lsalar 2t = β12 + β 22 educ 2t + β 32 exper 2t + β 42 qit + ut 2 ,
onde
lsalar1t - logaritmo do salário do indivíduo t no ano 1;
lsalar 2t - logaritmo do salário do indivíduo t no ano 2;
educ1t - anos completos de escolaridade do indivíduo t no ano 1;
educ 2t - anos completos de escolaridade do indivíduo t no ano 2;
exper1t - anos de experiência profissional do indivíduo t no ano 1;
exper 2t - anos de experiência profissional do indivíduo t no ano 2;
qit - QI do indivíduo t.
Tem-se: m = 2 ; k1 = k2 = 4 .
Para a notação (5.2) do modelo, faz-se:
yt1 = lsalar1t ; yt 2 = lsalar 2t ;
xt1• = [ 1 educ1t exper1t qit ]; xt 2• = [ 1 educ 2t exper 2t qit ] ;
 β11   β12 
β  β 
β •1 =  21 
; β• 2 =  22  .
 β 31   β32 
   
 β 41   β 42 
No caso de (5.3), tem-se:
yt • = [ lsalar1t lsalar 2t ] ; ut • = [ ut1 ut 2 ] ;
1 educ1t exper1t qit 0 0 0 0

X t• =  ;
 0 0 0 0 1 edu 2 t exper 2 t qit
β T = [ β11 β 21 β31 β 41 β12 β 22 β32 β 42 ] .

Fica ao cuidado do leitor reconstituir as notações A e B da relação amostral
Y = Xβ + U . Neste sistema, por exemplo, educ1 e educ2 são consideradas variáveis
diferentes. Naturalmente uma hipótese a testar é a de que os coeficientes de variáveis
homólogas não variam no tempo, ou seja, procura testar-se o seguinte conjunto de
restrições inter-equações: β 21 = β 22 , β 31 = β32 e β 41 = β 42 .
∇
Exemplo 5.3 – Os sistemas de equações de regressão linear podem ter lugar em muitos
modelos da teoria económica. Na teoria do comportamento do consumidor, o decisor
dispõe de um determinado rendimento monetário, rm, e defronta um conjunto de preços
de r bens, p1 , p2 , K , pr . A hipótese da maximização da utilidade permite obter um
conjunto de funções de procura,
qi = f i ( p1 , p2 , K , pr , rm) ,
onde qi é a quantidade óptima de consumo do bem i ( i = 1, 2, K , r ). A escolha da fun-

ção utilidade implica uma determinada forma funcional para fi . Por exemplo, postulan-
do que a função utilidade é
bi
 rm 
∑i =1 ai  pi  ,
r
obtém-se
ai bi rmbi pi− bi −1 exp{ε i }
qi = ( i = 1, 2, K , r ),
∑h =1 ah bh rmbh −1 ph−bh
m
onde se juntou a variável residual multiplicativa, exp{ε i } , indispensável para as aplica-

ções empíricas.
A despesa com o bem i, di = pi qi , é, então,
ai bi (rm / pi )bi exp{ε i }
di = ( i = 1, 2, K , r ),
∑h =1 ah bh rmbh −1 ph−bh
m
que é não linear relativamente aos parâmetros ai e bi .

Contudo, considerando os rácios

di ai bi (rm / pi )bi
= × × exp{ε i − ε j } ( i ≠ j ),
d j a j b j (rm / p j )b j
e logaritmizando, obtêm-se as equações lineares
 rm   rm 
ln di − ln d j = α ij + bi ln   − b j ln   + uij ( i ≠ j ),
 pi   pj 
onde
 ai bi 
α ij = ln   e uij = ε i − ε j .

a b
 j j
Dados r bens, há r (r − 1) / 2 equações desta forma, mas muitas são redundantes.
Para ilustrar tais redundâncias, sejam três bens e as respectivas equações:
 rm   rm 
ln(d1 ) − ln(d3 ) = α13 + b1 ln   − b3 ln   + u13 ;
 p1   p3 
 rm   rm 
ln(d 2 ) − ln(d3 ) = α 23 + b2 ln   − b3 ln   + u23 ;
 p2   p3 
 rm   rm 
ln(d1 ) − ln(d 2 ) = α12 + b1 ln   − b2 ln   + u12 .
 p1   p2 
Facilmente se verifica que, por exemplo, a terceira equação é igual à diferença
das duas primeiras, bastando notar que α12 = α13 − α 23 e que u12 = u13 − u23 .
Considerando r bens, existem apenas r − 1 equações independentes. Como a es-
colha destas equações é arbitrária, vai considerar-se o seguinte sistema:
  rm   rm 
ln(d1 ) − ln(d r ) = α1r + b1 ln  p  − br ln  p  + u1r
  1  r
  rm   rm 
ln(d 2 ) − ln(d r ) = α 2 r + b2 ln  p  − br ln  p  + u2 r
  2  r
L

  rm   rm 
ln(d r −1 ) − ln(d r ) = α r −1, r + br −1 ln  p  − br ln  p  + ur −1, r .
  r −1   r
Introduzindo o índice t das observações, este modelo pode apresentar-se na for-
ma (5.2). Fazendo r −1 = m , tem-se, para i = 1, 2, K , m ,
α ir 
  rmt   rmt   
yti = ln(dti ) − ln(dtr ) , xti • =  1 ln   − ln   ( ki = 3 ), β •i =  bi  , uti = utir .
 p
 ti  p
 tr 
 br 
Note-se que existem restrições inter-equações: o terceiro parâmetro de cada β•i

é sempre br . Como se vai ver, estas restrições podem ser testadas.
Fica ao cuidado do leitor formalizar o modelo de acordo com (5.3), e apresentar

as relações amostrais na forma Y = Xβ + U decorrentes de (5.2) e de (5.3).
∇
5.2 - Hipóteses do modelo
Nesta secção vão estabelecer-se as hipóteses do modelo em estudo, que não são
mais do que a extensão para o caso de m equações, das hipóteses REN.1 a REN.5 apre-
sentadas no capítulo 4; neste caso, as hipóteses têm o prefixo SER (sistema de equações
de regressão linear).
A primeira hipótese é o resumo das considerações feitas na secção anterior.
Hipótese SER.1 – Linearidade

yti = xti• β •i + uti (i = 1, 2, K , m ; t ∈ T ) , onde: yti é a observação t do regressando yi ;
xti• é o vector 1× ki da observação t dos regressores da equação i; β•i é o vector ki × 1
dos coeficientes de regressão da equação i; uti é a variável residual da observação t da
equação i.
Note-se que a hipótese da linearidade foi a apresentada com base em (5.2), mas
podia ser enunciada a partir da notação (5.3).
A segunda hipótese diz respeito à estacionaridade ergódica. Seja
zti• = [ zti1 zti 2 L ztipi ]
o vector 1 × pi da observação t das variáveis instrumentais da equação i; o elemento ge-

nérico deste vector é ztih (h = 1, 2, K , pi ) .
Embora seja pouco frequente, o conjunto de instrumentos pode ser diferente de
equação para equação. Assim, fazendo p = p1 + p2 + L + pm , vem:
Hipótese SER.2 – Estacionaridade ergódica

O processo estocástico ( m + k + p )-dimensional
(5.6) {( yt1 , yt 2 , K , ytm , xt1• , xt 2• , K , xtm • , zt1• , zt 2• , K , ztm • ) : t ∈ T }
é estacionário e ergódico.
O processo (5.6) pode ser escrito da seguinte maneira: {( yt • , xt • , zt • ) : t ∈ T } , on-

de:
yt • = [ yt1 yt 2 L ytm ];
xt • = [ xt1• xt 2• L xtm• ];
zt • = [ zt1• zt 2• L ztm• ].
Esta hipótese é mais forte do que simplesmente supor que a estacionaridade er-
gódica é verificada para cada equação do sistema [cada processo ( 1 + ki + pi )-dimensio-
nal, {( yti , xti • , zti • ) : t ∈ T } , é estacionário e ergódico].
Como pode haver elementos comuns no vector dado por (5.6), é vantajoso utili-
zar o vector wt • , que não considera os elementos repetidos daquele vector.
Na sequência da notação (5.3) do modelo SER, pode considerar-se a matriz Z t •
de tipo m × p , diagonal por blocos, formada pelos m blocos zti • ( i = 1, 2, K , m ),
 zt1• 0 L 0 
0 z 0 
 t 2• L
Zt • = .
 M M M 
 
0 0 L ztm • 
Deste modo, a hipótese da estacionaridade ergódica também pode enunciada

com base no processo {( ytT• , X t • , Z t • ) : t ∈ T } .
Quando se dispõe de uma amostra de dimensão n (t = 1, 2, K , n) , é vantajoso
construir a matriz Z, de tipo mn × p com todas as observações das variáveis instrumen-
tais:
a) Tendo em conta a notação A da relação amostral Y = Xβ + U , a matriz homóloga de
X é dada por
 Z •1 O L O 
O Z L O 
Z = •2 ,
 M M M 
 
 O O L Z•m 
onde cada matriz Z •i , de tipo n × pi ( i = 1, 2, K , m ), é
 z1i •   z1i1 z1i 2 L z1ipi 
z  z 
 2 i1 z 2 i 2 L z2 ip i 
Z •i =  2i • 
= .
 M   M M M 
   
 zni •   zni1 zni 2 L znipi 
A linha genérica desta matriz é zti • (t = 1, 2, K , n) .
b) Se se atender à notação B da relação amostral Y = Xβ + U , tem-se a matriz
 Z1• 
Z 
Z =  2•  ,
 M 
 
Z n• 
formada pelos m blocos Z t • ( t = 1, 2, K , n ).
Sem dificuldade se verifica que as duas matrizes Z contêm a mesma informação:

apenas difere o modo como estão ordenadas as observações das variáveis instrumentais.
Exemplo 5.4 – Retomando o exemplo 5.1, suponha-se que qit é endógeno, em ambas
as equações, e que os restantes regressores são pré-determinados. Admita-se que a va-
riável instrumental de qit é meduct (anos completos de escolaridade da mãe do indiví-

duo t). Então,
zt1• = zt 2• = [ 1 educt expert meduct ],
e p1 = p2 = 4 . De acordo com a hipótese SER.2, supõe-se que {wt • } , onde

wt • = [ lsalart cmtt 1 educt expert qit meduct ] ,
é estacionário e ergódico. Facilmente se conclui que

1 educt expert meduct 0 0 0 0 
Zt • =  .
0 0 0 0 1 educt expert meduct 
Neste caso, tem-se

1 educ1 exper1 meduc1 
1 educ exper meduc 
Z •1 = Z • 2 =  2 2 2
,
M M M M 
 
1 educn expern meducn 
e, portanto,
1 educ1 exper1 meduc1 0 0 0 0 
1 educ exper meduc 0 0 0 0 
 2 2 2
M M M M M M M M 
 
1 educ n expern meduc n 0 0 0 0 
Z = .
0 0 0 0 1 educ1 exper1 meduc1 
 
0 0 0 0 1 educ 2 exper2 meduc 2 
 
0 0 0 0 1 educ n expern meduc n 
Alternativamente, pode fazer-se

1 educ1 exper1 meduc1 0 0 0 0 
0 0 0 0 1 educ1 exper1 meduc1 

1 educ2 exper2 meduc2 0 0 0 0 
 
Z = 0 0 0 0 1 educ2 exper2 meduc2  .
 
1 educn expern meducn 0 0 0 0 
0 0 0 0 1 educn expern meducn 

∇
Exemplo 5.5 – Suponha-se que no exemplo 5.2 o vector dos instrumentos de cada equa-
ção é formado pelo conjunto de todos os regressores considerados nos vectores xt1• e
xt 2• . Assim,
zt1• = zt 2• = [ 1 educ1t exper1t educ2t exper 2t qit ].
Fica ao cuidado do leitor construir as matrizes Z t • , Z •1 , Z • 2 e Z (para as duas si-

tuações estudadas).
∇
Como uti = yti − xti• β •i , conclui-se imediatamente que {ut • } , onde

ut • = [ ut1 ut 2 L utm ],
é estacionário e ergódico. Então, a hipótese SER.2 implica que

(5.7) E (utT•ut • ) = Σ ,
ou seja, a matriz dos segundos momentos (não condicionados) de ut • , se existir, não de-
pende de t. Os elementos da matriz Σ são da forma E (utiutl ) = σ il . Por exemplo, para
m = 2 , vem
 E (ut21 ) E (ut1ut 2 ) σ 11 σ 12 
E (utT•ut • ) = Σ =  = .
 E (ut 1ut 2 ) E (ut
2
2 )  σ 12 σ 22 
Assim, quando i ≠ l , admite-se que podem existir correlações entre variáveis re-
siduais para a mesma observação t, mas para equações diferentes (no caso de dados
temporais, diz-se que estas correlações são contemporâneas).
Exemplo 5.6 – Retome-se o exemplo 5.3. Suponha-se que o vector dos instrumentos de
cada equação é formado pelo conjunto de todos os regressores considerados no sistema.
Assim,
  rm   rm   rmt   rm 
zti • = 1 ln  t  ln  t  L ln   − ln  t  ( i = 1, 2, K , m = r − 1 ).
  pt1   pt 2   pt , r −1   ptr 
Neste caso, tem-se ut • = [ ut1 ut 2 L utm ], onde uti = ε ti − ε tr . Os elementos da
matriz Σ são dados por:
σ ii = E (uti2 ) = E{(ε ti − ε tr ) 2 }
( i = 1, 2, K , m = r − 1 );
= E (ε ti2 ) + E (ε tr2 ) − 2 E (ε tiε tr )
σ il = E (utiutl ) = E{(ε ti − ε tr )(ε tl − ε tr )}
( i, l = 1, 2, K , m = r − 1; i ≠ l ).
= E (ε tiε tl ) − E (ε tiε tr ) − E (ε tlε tr ) + E (ε tr2 )
Quando E (ε ti ) = 0 e E (ε ti2 ) = σ ε2 , para i = 1, 2, K , r , e E (ε tiε tl ) = 0 , para i ≠ l e

i, l = 1, 2, K , r , a matriz Σ reduz-se a
2σ 2 σ ε2 L σ ε2  2 1 L 1 
 ε  
σ2 2σ ε2 L σ ε2  2 1 2 L 1
Σ= ε  = σε  .
 M M M   M M M 
 σ ε2 σ ε2 L 2σ ε2  1 1 L 2 
   
∇
A hipótese sobre as condições de ortogonalidade para o sistema é simplesmen-

te a justaposição das respectivas condições para cada equação considerada individual-
mente.
Hipótese SER.3 – Ortogonalidade

Os vectores zit • são ortogonais às respectivas variáveis residuais,
(5.8) E ( zti •uti ) = E ( gti • ) = 0 (i = 1, 2, K , m) ,
onde g ti• = zti•uti [o elemento genérico deste vector é gtih (h = 1, 2, K , pi ) ].
Facilmente se verifica que o número total de condições de ortogonalidade é p.

Fazendo
gt • = [ g t1• g t 2• L g tm• ],
as m condições (5.8) podem ser escritas da seguinte forma:

E ( gt • ) = E (ut • Z t • ) = 0 ,
onde ut • Z t • = gt • .
A hipótese SER.3 é a hipótese mais fraca de não correlação entre variáveis ins-
trumentais e variáveis residuais; nem sequer exige ortogonalidades “cruzadas” (não es-
tabelece, por exemplo, que zt1• é ortogonal a ut 2 ). Podem estabelecer-se hipóteses mais
fortes do que SER.3:
1) E ( zti •utl ) = 0 (i, l = 1, 2, K , m) . Esta hipótese admite que existam ortogonalidades en-
tre cada variável instrumental e cada variável residual para a mesma equação e para
equações diferentes (intra-equações e inter-equações).
De forma resumida, aquelas mp condições podem escrever-se da seguinte maneira:
E (utT• ⊗ Z t • ) = O ,
onde a matriz utT• ⊗ Z t • é de tipo m 2 × p .

2) E (uti | zti • ) = 0 (i = 1, 2, K , m) , e, portanto, E (uti ) = 0 (i = 1, 2, K , m) . As condições
estabelecidas implicam que não há correlação entre uti e qualquer função de zti • .
Admite-se, portanto, que as formas funcionais das variáveis instrumentais escolhidas
estão bem especificadas.
3) E (ut • | Z t • ) = 0 [logo, E (ut • ) = 0 ]. Estas condições implicam que não existe correla-
ção entre qualquer uti (i = 1, 2, K , m) e qualquer função de todas as variáveis instru-
mentais do modelo. Assim, supõe-se que as formas funcionais dos instrumentos con-
siderados no modelo estão bem especificadas.
É imediato concluir que estas condições são sucessivamente mais fortes. No en-
tanto, a hipótese SER.3 é suficiente para estabelecer as propriedades assintóticas de-
sejáveis dos estimadores MGM dos parâmetros do modelo: consistência e normalidade
assintótica.
A sistematização das estruturas matriciais que envolvem os produtos de variá-

veis instrumentais por variáveis residuais é apresentada no quadro 5A.7.
Exemplo 5.7 – Retomando o exemplo 5.4, tem-se

gt • = [ ut1 educt ut1 expert ut1 meduct ut1 ut 2 educt ut 2 expert ut 2 meduct ut 2 ].
Note-se que, como zt1• e zt 2• têm os mesmos instrumentos, cada um deles é or-
togonal a ut1 e ut 2 (por exemplo, expert é ortogonal a ut1 e ut 2 ).
∇
Exemplo 5.8 – No caso do exemplo 5.5, vem

gt1• = [ ut1 educ1t ut1 exper1t ut1 educ2t ut1 exper 2t ut1 qit ut1 ] ;
gt 2• = [ ut 2 educ1t ut 2 exper1t ut 2 educ2t ut 2 exper 2t ut 2 qit ut 2 ] .
∇
Para estabelecer a condição de característica começa por notar-se que

  ztT1• 0 L 0   ut1    E ( ztT1•ut1 ) 
     
  0 z T
• L 0   ut 2    E ( ztT2•ut 2 ) 
E ( gt • ) = E ( Z t •ut • ) = E 
T T T t 2
=
 M   M   
 M M

M
 0    E ( z T u )

•  utm  
T
 0 L ztm  tm • tm 
 E{ztT1• ( yt1 − xt1• β •1 )}   E ( ztT1• yt1 )   E ( ztT1• xt1• ) β •1 

     
E{ztT2• ( yt 2 − xt 2• β • 2 )}   E ( ztT2• yt 2 )   E ( ztT2• xt 2• ) β • 2 
= = − ,
 M   M   M 
     
 E{ztm • ( ytm − xtm • β • m )}  E ( ztm • ytm )  E ( ztm • xtm • ) β • m 
T T T
ou
 E ( ztT1• yt1 )   E ( ztT1• xt1• ) O L O   β •1 
    
  β•2  .
T T
E ( zt 2• yt 2 )   O E ( zt 2• xt 2• ) L O
E ( gtT• ) =  −
 M   M M M  M 
    
• xtm • )   β • m 
T T
 E ( ztm • ytm )  O O L E ( ztm
Considerem-se as matrizes de tipo p × 1 e p × k , respectivamente,

 E ( ztT1• yt1 ) 
 
 E ( ztT2• yt 2 ) 
qzy = = E ( Z tT• ytT• ) ,
 M 
 
 E ( ztm
T
• tm 
y ) 
 E ( ztT1• xt1• ) O L O 
 
 O E ( ztT2• xt 2• ) L O  = E (Z T X ) ,
Qzx =
 M M M  t• t•
 
 O O T
L E ( ztm • xtm • ) 

onde se pode fazer qzi yi = E ( ztiT• yti ) e Qzi xi = E ( ztiT• xti • ) . As condições de ortogonalidade,
equivalentes a (5.8), são
(5.9) Q zx β = q zy ,
que têm a mesma forma que (4.39) [ver capítulo 4].

~
Seja β um qualquer valor hipotético de β , e o sistema de p equações a k incóg-
~
nitas (as k componentes do vector β )
~
Qzx β = qzy .
A identificação do vector β exige que este sistema de equações seja possível e

determinado. Para isso, é necessário e suficiente que Qzx exista, e que r (Qzx ) = k . No
entanto, como Qzx é diagonal por blocos, esta condição é equivalente às seguintes:
Hipótese SER.4 – Condições de característica

As matrizes de tipo pi × ki ,
(5.10) Qzi xi = E ( ztiT• xti • ) (i = 1, 2, K , m) ,
existem e verificam r (Qzi xi ) = ki .
Esta hipótese corresponde a exigir REN.4 (ver capítulo 4) para cada equação de
regressão do sistema, e é simples de estabelecer porque não se impõem quaisquer restri-
ções inter-equações a priori sobre os coeficientes de regressão.
No quadro 5A.5 sistematizam-se as estruturas matriciais que envolvem segun-
dos momentos com variáveis observáveis, como é o caso das matrizes Qzi xi , Qzx , q zi yi e
q zy .
Finalmente vai apresentar-se a quinta hipótese (hipótese homóloga a REN.5),
que estabelece o comportamento estocástico do processo {gt • } .
Hipótese SER.5 – Diferença-martingala

O processo {gt •} é uma diferença-martingala,
(5.11) E ( gt • | gt −1,• , gt − 2,• , K) = 0 .
A matriz quadrada de ordem p,

(5.12) S = E ( gtT• gt • ) = E ( Z tT•utT•ut • Z t • ) ,

Neste caso, a matriz S tem a seguinte forma:

 E ( gtT1• gt1• ) E ( gtT1• gt 2• ) L E ( gtT1• gtm • ) 
 T T T

 E ( gt 2• gt1• ) E ( gt 2• gt 2• ) L E ( gt 2• gtm • ) 
S= ,
 M M M 
 T T T 
 E ( gtm • gt1• ) E ( gtm• gt 2• ) L E ( gtm • gtm • )
ou
 E (ut21 ztT1• zt1• ) E (ut1ut 2 ztT1• zt 2• ) L E (ut1utm ztT1• ztm • ) 
 T

 E (ut 2ut1 zt 2• zt1• ) E (ut22 ztT2• zt 2• ) L E (ut 2utm ztT2• ztm • )
(5.13) S= ,
 M M M 
 T T 2 T 
 E (utmut1 ztm • zt1• ) E (utmut 2 ztm • zt 2• ) L E (utm ztm • ztm • ) 
onde o bloco genérico é Sil = E ( gtiT• gtl • ) = E (utiutl ztiT• ztl • ) (i, l = 1, 2, K , m) .
O mesmo comentário que se fez atrás a propósito da estacionaridade ergódica é
ainda válido: a hipótese SER.5 é mais forte do que simplesmente impor a hipótese
REN.5 para cada equação de regressão do sistema.
Fazendo
1 n
g• n = ∑t =1 gtT• ,
n
tem-se, tal como no capítulo 4 (secção 4.3),
d
(5.14) n g• n → N ( p ) (0, S ) ,
onde Ea ( g• n ) = 0 e Cov a ( g• n ) = S .
Note-se que
1 n T 1 n T T
n ∑t =1 t • n ∑t =1 t • t •
g• n = g = Z u
  ztT1• 0 L 0   ut1    (1 / n)∑ ztT1•ut1   (1 / n) Z •T1u•1 

n
     t =1
  
  0 z T L 0  ut 2    (1 / n) n z T u   (1 / n) Z T u 
1 n
= ∑t =1  
t 2• ∑t =1 t 2• t 2  =
   = 
•2 •2
n  .
 M M M   M   M   M 
        
 0  (1 / n)
∑t =1 ztmT •utm  (1 / n)Z•Tmu•m 
n
•  utm  
T
 0 L ztm 
Deste modo,
1 T
g• n = Z U,
n
onde Z TU pode ser obtido com as notações A ou B correspondentes a (5.4) e respecti-
vas matrizes Z.
A sistematização das estruturas matriciais relativas aos quartos momentos com
duas variáveis residuais e dois instrumentos é apresentada no quadro 5A.11, como é o
caso das matrizes Sil e S.
Quando zti1 = 1 para i = 1, 2, K , m (o que acontece sempre que todas as equações

do modelo têm termo independente), o processo {ut • } é também uma diferença-martin-
gala. Neste caso, E (ut • ) = 0 e Cov(ut • , ut − s ,• ) = E (utT•ut − s ,• ) = O , isto é, não existe auto-
correlação (intra e inter-equações).
Nesta condições, vai considerar-se o vector U de acordo com a notação A da
relação amostral Y = Xβ + U ,
 u•1 
u 
U =  •2  .
 M 
 
u• m 
Pode verificar-se que
Cov(U ) = E (UU T ) = Σ ⊗ I n .

 u•1   u•1u•T1 u•1u•T2 L u•1u•Tm 
u   
u• 2u•T1 u• 2u•T2 L u• 2u•Tm 
UU =
T  •2 
[ u u L u•m ] = 
T T T  ,
 M  •1 • 2 M M M 
   T 
u• m 
T T
u• mu•1 u• mu• 2 L u• mu• m 
e que
 E (u1iu1l ) E (u1iu2 l ) L E (u1iunl )  σ il 0 L 0 
 E (u u ) E (u u ) L E (u u )  0 σ L 0 
E (u•iu•Tl ) =  2 i 1l 2i 2 l 2 i nl 
= il  =σ I ,
 M M M   M M M 
il n
   
 E (uniu1l ) E (uniu2 l ) L E (uniunl )   0 0 L σ il 
para i, l = 1, 2, K , m , uma vez que E (utiutl ) = σ il e E (utiusl ) = 0 ( t ≠ s ).
Quando se considera o vector U com a notação B de Y = Xβ + U ,
 u1T• 
 T
u
U =  2•  ,
 M 
 T
un • 
tem-se:
 u1T•   u1T•u1• u1T•u2• L u1T•un • 
 T  T 
u2 • u2•u1• u2T•u2• L u2T•un • 
UU =   [u1•
T
u2 • L un • ] = 
 M   M M M 
   
un •  un •u1• unT•u2• L unT•un • 
T T
e
 E (u1T•u1• ) E (u1T•u2• ) L E (u1T•un • )   Σ O L O 

   
 E (u2T•u1• ) E (u2T•u2• ) L E (u2T•un • )  O Σ L O 
E (UU ) =
T
= = In ⊗ Σ .
 M M M  M M M
   
 E (unT•u1• ) E (unT•u2• ) L E (unT•un • ) O O L Σ 
O modelo econométrico que verifica as hipóteses SER.1 a SER.5 designa-se por

sistema de equações de regressão linear (SER), admitindo-se a possibilidade de exis-
tirem regressores endógenos. Quando se compara o modelo SER com o modelo MRL-
-REN, o que essencialmente os distingue são as hipóteses SER.2 e SER.5, já que as ou-
tras são a mera justaposição, m vezes, das hipóteses REN.1, REN.3 e REN.4.
5.3 - O método generalizado dos momentos
O estimador MGM dos parâmetros do modelo SER é obtido de forma semelhan-

te ao que foi feito para o caso do MRL-REN.
~ ~
Seja gti • ( β ) = zti • ( yti − xti • β•i ) , para i = 1, 2, K , m . Então,
 (1 / n)∑ n gtT1• ( β~ )   (1 / n)∑ n ztT1• ( yt1 − xt1• β~•1 ) 
 t =1
  t =1

 (1 / n) ~   ~ 
∑t =1 gt 2• (β )  =  (1 / n)∑t =1 zt 2• ( yt 2 − xt 2• β•2 )  ,
n T n T
~
g• n ( β ) = 
 M   M 
   
(1 / n) n g T ( β~ ) (1 / n) n z T ( y − x β~ )
 ∑t =1 tm•   ∑t =1 tm• tm tm• •m 
~ ~
ou g• n ( β ) = szy − S zx β , onde
1 n T  1 n T 
 n ∑t =1 zt1• yt1   n ∑t =1 zt1• xt1• O L O 
   
 1 ∑ n ztT2• yt 2   O
1 n T
∑t =1 zt 2• xt 2• L O 
szy =  n t =1
 e S zx =  n .
   
 M   M M M 
   
 1 n zT y   1 n T
L ∑t =1 ztm • xtm • 
 n ∑t =1 tm • tm   O O
n 
As matrizes szy e S zx são, respectivamente de tipo p × 1 e p × k ; também po-
dem ser escritas da seguinte maneira:
1 T  1 T 
 n Z •1 y•1   n Z •1 X •1 O L O 
   
 1 Z •T2 y• 2   O 1 T
Z X L O 
szy =  n  = 1 Z TY e S =  n •2 •2  = 1 ZT X ,
  n zx
  n
 M   M M M 
   
1 ZT y   O O L
1 T
Z X 
 n • m • m   n • m • m 
onde X, Y e Z correspondem à notação A de (5.4).

Pode, ainda, utilizar-se a seguinte notação:
1 n T 1 1 n 1
S z i xi =
n ∑ t =1
zti • xti • = Z •Ti X •i e szi yi = ∑t =1 ztiT• yti = Z •Ti y•i .
n n n
Pode obter-se, sem dificuldade, as mesmas matrizes szy e S zx , quando se utiliza
a notação B da relação amostral (5.4) e a correspondente matriz Z. Com efeito, como
~ ~
gtT• ( β ) = Z tT• ( ytT• − X t • β ) , vem
~ 1 n ~ 1 n ~ 1 n  1 n ~
g• n ( β ) = ∑t =1 gtT• ( β ) = ∑t =1 Z tT• ( ytT• − X t • β ) =  ∑t =1 Z tT• ytT•  −  ∑t =1 Z tT• X t •  β .
n n n  n 
Então,
1 n T T 1 T 1 n 1
n ∑t =1 t • t • n
szy = Z y = Z Y e S zx = ∑t =1 Z tT• X t • = Z T X ,
n n
onde X, Y e Z correspondem à notação B de (5.4). Obviamente os produtos matriciais
Z T Y e Z T X são os mesmos para as duas notações, respectivamente.
As várias estruturas matriciais relativas às médias amostrais que envolvem duas
variáveis observáveis, como é o caso das matrizes S zi xi , S zx , s zi yi e s zy , são sistematiza-
das no quadro 5A.6.
De forma análoga a (4.50) do capítulo 4, o estimador MGM de β é dado por
(5.15) βˆ (Wˆ ) = ( S zxT Wˆ S zx ) −1 S zxT Wˆ szy = ( X T Z Wˆ Z T X )−1 X T Z Wˆ Z T Y ,
onde
 βˆ (Wˆ )  Wˆ Wˆ L Wˆ 
 •1   11 12 1m 
 βˆ (Wˆ )  Wˆ Wˆ L Wˆ 
βˆ (Wˆ ) =   e Wˆ =  21 .
•2 22 2m
 M   M M M 
   
 βˆ• m (Wˆ ) Wˆ m1 Wˆ m 2 L Wˆ mm 
   
A matriz Ŵ , quadrada de ordem p, é simétrica definida positiva [cada bloco,
Ŵil , é de tipo pi × pl ; tem-se plim(Wîl ) = Wil ].
Nos quadros 5A.9 e 5A.10 apresenta-se a lista dos estimadores que vão ser es-
tudados no presente capítulo, que são casos particulares do estimador MGM. Nestes
quadros sistematizam-se as hipóteses básicas subjacentes aos vários estimadores e refe-
rem-se os modelos da população respectivos.
No quadro 5A.13 faz-se a lista das referências das fórmulas dos estimadores
contemplados no presente capítulo, apresentando as respectivas matrizes de pesos, Ŵ .
Retomando a estrutura do estimador (5.15), facilmente se verifica que o bloco
genérico de S zxT Wˆ S zx é a matriz ki × kl , dada por
1 n  1 n  1  1 
S zTi xi Wîl S z l xl =  ∑t =1 xtiT• zti •  Wîl  ∑t =1 ztTl • xtl •  =  X •Ti Z •i  Wîl  Z •Tl X •l  ,
 n   n   n   n 
para i, l = 1, 2, K , m . Do mesmo modo, o bloco genérico de S zxT Wˆ szy é
S zTi xi Wî1 sz1 y1 + S zTi xi Wî 2 sz 2 y 2 + L + S zTi xi Wîm sz m y m =

1 n T  1 n  1 n  1 n 
 ∑t =1 xti • zti •  Wî1  ∑t =1 ztT1• yt1  +  ∑t =1 xtiT• zti •  Wî 2  ∑t =1 ztT2• yt 2  + L +
n  n  n  n 
1 n T  1 n T 
 ∑t =1 xti • zti •  Wîm  ∑t =1 ztm • ytm  =
n  n 
1 T  ˆ 1 T  1 T  ˆ 1 T  1  1 
 X •i Z •i  Wi1  Z •1 y•1  +  X •i Z •i  Wi 2  Z • 2 y• 2  + L +  X •Ti Z •i  Wîm  Z •Tm y• m ,
n  n  n  n  n  n 
para i = 1, 2, K , m .
Tal como (4.51) e (4.52), o respectivo erro de amostragem é
(5.16) βˆ (Wˆ ) − β = ( S zxT Wˆ S zx ) −1 S zxT Wˆ g• n = ( X T Z Wˆ Z T X ) −1 X T Z Wˆ Z TU .
5.4 - Propriedades do estimador MGM e inferência estatística
As propriedades assintóticas do estimador MGM apresentadas nas secções 4.6,

4.7 e 4.8 do capítulo 4 podem ser generalizadas, sem dificuldade, para o caso do modelo
SER. Tal como se estabeleceu na propriedade 4.1 [ver (4.57), capítulo 4], o estimador
MGM dado por (5.15) é consistente, ou seja,
(5.17) plim {βˆ (Wˆ )} = β .
O estimador MGM é assintoticamente normal [ver propriedade 4.2 e expres-
sões (4.58) e (4.59) do capítulo 4],
d
(5.18) n{βˆ (Wˆ ) − β } → N ( k ) 0, Cov a {βˆ (Wˆ )} .
 
Tem-se Ea {βˆ (Wˆ )} = β , e
(5.19) Cov a {βˆ (Wˆ )} = (QzxT W Q zx ) −1 QzxT W S W Q zx (QzxT W Q zx ) −1 ,
onde W = plim(Wˆ ) , Qzx é a matriz diagonal por blocos referida em (5.9), e S é dada por
(5.13). A propriedade 4.3 não se pode aplicar directamente ao modelo com várias equa-
ções de regressão linear, mas a sua adaptação é óbvia. Assim, dispondo de um estima-
dor consistente de β•i , β̂•i , e definindo os respectivos resíduos, uˆti = yti − xti• β̂ •i , vem:
Propriedade 5.1 – Seja β̂•i um estimador consistente de β•i . Verificando-se as hipóte-

ses SER.1 e SER.2, e existindo E ( xtiT• xtl• ) , vem
(5.20) plim(σˆ il ) = σ il ,
onde
1 n
n ∑t =1 ti tl
σˆ il = uˆ uˆ e σ il = E (utiutl ) ,
desde que exista este valor esperado.

A demonstração desta propriedade é semelhante à da propriedade 4.3 (ver sec-

ção 4A.1). Pode estabelecer-se uma propriedade semelhante à propriedade 4.4. Neste
caso, a matriz Ŝ é dada por
1 n 1 n
(5.21) Sˆ = ∑t =1 gˆ tT• gˆ t • = ∑t =1 Z tT•uˆtT•uˆt • Z t • ,
n n
onde ûti é o mesmo da propriedade 5.1.
A matriz Ŝ pode apresentar-se com várias notações, tirando partido da estrutura
matricial por blocos. Deste modo, tem-se
1 n T 1 n T 1 n T 
 ∑t =1 gˆ t1• gˆ t1• ∑ gˆ gˆ
t =1 t1• t 2•
L ∑ gˆ gˆ
t =1 t1• tm• 
n n n 
1 n T 1 n T 1 n T 
 ∑t =1 gˆ t 2• gˆ t1• ∑ g ˆ t 2•
ˆ
g t 2• L ∑ g ˆ t 2•
ˆ
g tm • 
n n t =1 n t =1
Sˆ =  .
 
 M M M 
 
1 n T 1 n T 1 n T 
 n ∑t =1 gˆ tm• gˆ t1• n
∑ gˆ gˆ
t =1 tm• t 2•
L
n
∑ gˆ gˆ
t =1 tm• tm• 
 
Como gˆ ti• = zti•uˆti , a matriz Ŝ também se pode apresentar da seguinte maneira:
 1 n 2 T 1 n 1 n 
 ∑t =1 uˆt1 zt1• zt1• ∑ uˆt1uˆt 2 ztT1• zt 2• L ∑ uˆ uˆ z T z
t =1 t1 tm t 1• tm• 
 n n t =1 n 
1 n 1 n 2 T 1 n 
 ∑t =1 uˆt 2uˆt1 zt 2• zt1• ∑ uˆt 2 zt 2• zt 2• ∑
T T
L ˆ
u t 2
ˆ
u tm z t 2• z tm • 
n n t =1 n t =1
Sˆ =  .
 
 M M M 
 
1 n 1 n 1 n 2 T 
 n ∑t =1 uˆtm uˆt1 ztm• zt1• ∑ ∑
T
uˆ uˆ z T z
t =1 tm t 2 tm• t 2•
L uˆ z z
t =1 tm tm• tm• 
 n n 
Ou, ainda,
1 ˆT ˆ 1 ˆT ˆ 1 
 n G1 G1 G1 G2 L Gˆ1T Gˆ m 
n n
 
 1 Gˆ 2T Gˆ1 1 ˆT ˆ 1 ˆT ˆ 
G2 G2 L G2 Gm
Sˆ =  n n n  = 1 Gˆ T Gˆ ,
  n
 M M M 
 
 1 Gˆ T Gˆ 1 ˆT ˆ 1 ˆT ˆ 
G G L GmGm 
 n m 1 n m 2 n 
onde
 gˆ1i• 
 gˆ 
Gi =  2i• 
ˆ
 M 
 
 gˆ ni• 
é uma matriz n × pi (i = 1, 2, K , m) , e
Gˆ =  Gˆ1 Gˆ 2 L Gˆ m 
 
é uma matriz n × p . Assim, cada bloco da matriz Ŝ é dado por:
1 n 1 n 1
Sîl = ∑t =1 uˆtiuˆtl ztiT• ztl • = ∑t =1 gˆ tiT• gˆ tl • = Gˆ iT Gˆ l .
n n n
Pode, então, enunciar-se o seguinte:
Propriedade 5.2 – Considerem-se os resíduos uˆti = yti − xti• β̂ •i (i = 1, 2, K , m) , onde β̂•i

é estimador consistente de β•i , e a seguinte hipótese adicional: existem os momentos
E{( ztlh xtij ) 2 } , para i, l = 1, 2, K , m , j = 1, 2, K , ki e h = 1, 2, K , pi [ xtij é o elemento ge-
nérico do vector xti• (que tem ki componentes); ztlh é o elemento genérico do vector
ztl• (que tem pl componentes)].
Se existir a matriz S, as hipóteses SER.1 e SER.2 implicam que Ŝ , dada por (5.21), é
estimador consistente de S.
Para demonstrar esta propriedade utiliza-se uma técnica semelhante à da proprie-

dade 3.4 (ver secção 3B.2, capítulo 3).
O quadro 5A.8 sistematiza as estruturas matriciais relativas aos produtos de ins-
trumentos por resíduos. No quadro 5A.12 apresenta-se a contrapartida amostral do qua-
dro 5A.11, referindo os quartos momentos amostrais que envolvem dois resíduos e dois
instrumentos.
A expressão (4.64) continua válida para estimar (5.19) de forma consistente.
Assim,
^
Cov a {βˆ (Wˆ )} = ( S zxT Wˆ S zx) −1 S zxT Wˆ Sˆ Wˆ S zx( S zxT Wˆ S zx) −1
(5.22)
= n( X T Z Wˆ Z T X ) −1 X T Z Wˆ Gˆ T Gˆ Wˆ Z T X ( X T Z Wˆ Z T X ) −1.
No quadro 5A.14 faz-se um resumo dos resultados assintóticos relativos aos vá-
rios estimadores: distribuições limite; matrizes das covariâncias assintóticas e respecti-
vos estimadores.
Quando se pretende fazer inferência estatística sobre um coeficiente de re-
gressão isolado, utilizam-se resultados semelhantes a (4.65) e (4.66). Por exemplo, para
testar a hipótese H 0 : β ji = β 0ji , a estatística-teste é o rácio-t robusto,
βˆ ji (Wˆ ) − β 0ji d
(5.23) t ∗ji = → N (0,1) ,
s∗ji
onde
1 ^ ˆ ˆ
s ∗ji = Vara {β ji (W )}
n
é o respectivo erro padrão.

Do mesmo modo se têm resultados similares a (4.67) e (4.68) para efectuar in-
ferência estatística sobre combinações lineares dos coeficientes de regressão. Supo-
nha-se se pretende testar H 0 : Rβ = δ 0 contra H 1 : Rβ ≠ δ 0 , onde R é uma matriz de ti-
po r × k . A estatística-teste, obtida de acordo com o princípio de Wald, é dada por
−1
 ^  d
(5.24) Q = n {Rβˆ (Wˆ ) − δ 0 }T  R Cov a {βˆ (Wˆ )} RT  {Rβˆ (Wˆ ) − δ 0 } → χ 2 (r ) .
 
Deve notar-se que (5.24) permite fazer testes de hipóteses de restrições lineares
inter-equações sobre os coeficientes de regressão.
Quando a hipótese a testar não é linear, a estatística-teste é dada por um resul-
tado semelhante a (4.69).
Quando se utiliza o princípio da razão de verosimilhanças, as estatísticas-teste
baseiam-se em resultados análogos ao teorema 4.4.
O estimador MGM eficiente é ainda obtido substituindo Ŵ por Sˆ −1 em (5.15),
obtendo-se um resultado semelhante a (4.71) [ver teorema 4.3],
(5.25) βˆ ( Sˆ −1 ) = ( S zxT Sˆ −1 S zx )−1 S zxT Sˆ −1 szy = { X T Z (Gˆ T Gˆ ) −1 Z T X }−1 X T Z (Gˆ T Gˆ )−1 Z T Y .
Representando os blocos da matriz Sˆ −1 por Ŝ il (i, l = 1, 2, K , m) , o estimador

MGM eficiente corresponde a fazer Wîl = Sˆ il .
A matriz das covariâncias assintóticas, e respectivo estimador consistente, são
(5.26) Cov a {βˆ ( Sˆ −1 )} = (QzxT S −1 Q zx ) −1 ,
e
^
(5.27) Cov a {βˆ ( Sˆ −1 )} = ( S zxT Sˆ −1 S zx) −1 = n{ X T Z (Gˆ T Gˆ ) −1 Z T X }−1 ,
onde o estimador inicial, β̂•i , necessário para calcular ûti e Ŝ , pode ser obtido, por
exemplo, a partir do estimador MGM eficiente aplicado a cada equação separadamente.
No modelo SER, o teste de sobre-identificação de Hansen baseia-se ainda no
teorema 4.5, aplicando-se o resultado (4.79) com as necessárias adaptações. Assim, vem
d
J = J {βˆ ( Sˆ −1 ), Sˆ −1} = n {szy − S zx βˆ ( Sˆ −1 )}T Sˆ −1{szy − S zx βˆ ( Sˆ −1 )} → χ 2 ( p − k ) ,
onde p = p1 + p2 + L + pm e k = k1 + k2 + L + km .
Do mesmo modo, para fazer o teste de um subconjunto de condições de orto-
gonalidade (ou de endogeneidade), recorre-se ao teorema 4.6, utilizando-se a estatísti-
ca D dada por (4.82); o número de graus de liberdade é igual ao número total de instru-
mentos submetidos a teste (considerando as várias equações).
5.5 - Estimação conjunta versus estimação separada
O estimador MGM de β , dado por (5.15), tira partido de toda a informação dis-
ponível, nomeadamente da estrutura da matriz Ŵ , referida na secção 5.3. Pode, no en-
tanto, comparar-se esta estimação conjunta dos β•i (i = 1, 2, K , m) com a estimação
separada destes vectores, utilizando a informação inerente a cada equação de regressão

(sem ter em conta as relações com as outras equações). Deste modo, apenas se conside-
ra, no que se refere à matriz Ŵ , os respectivos blocos-diagonais, Ŵii (i = 1, 2, K , m) .
Assim, tem-se
(5.28) βˆ•i (Wîi ) = ( S zT x Wîi S z x ) −1 S zT x Wîi sz y = ( X •Ti Z •i Wîi Z •Ti X •i )−1 X •Ti Z •i Wîi Z •Ti y•i .
i i i i i i i i
Fazendo
Wˆ11 O L O 
 
ˆ  O Wˆ22 L O 
WD = ,
 M M M 
 
 O O L Wˆmm 
e tirando partido da estrutura por blocos da matriz S zx , facilmente se conclui que

 βˆ•1 (Wˆ11 )   ( S zT1 x1 Wˆ11 S z1 x1 ) −1 S zT1 x1 Wˆ11 sz1 y1 
   
 βˆ (Wˆ )   ( S zT x Wˆ22 S z x ) −1 S zT x Wˆ22 sz y 
βˆ (Wˆ D ) =  • 2 22
=
2 2 2 2 2 2 2 2

M M
   
 βˆ• m (Wˆmm ) ( S zTm xm Wˆmm S z m xm ) −1 S zTm xm Wˆmm sz m y m 
ou
 ( X •T1Z •1Wˆ11 Z •T1 X •1 ) −1 X •T1Z •1Wˆ11 Z •T1 y•1 
 
 ( X • 2 Z • 2Wˆ22 Z • 2 X • 2 ) X • 2 Z • 2Wˆ22 Z • 2 y• 2 
T T −1 T T
ˆ ˆ
β (WD ) = 
M .
 
( X •Tm Z • m Wˆmm Z •Tm X • m ) −1 X •Tm Z • mWˆmm Z •Tm y• m 
Pode, então, escrever-se

(5.29) βˆ (Wˆ D ) = ( S zxT WˆD S zx )−1 S zxT Wˆ D szy = ( X T Z Wˆ D Z T X )−1 X T Z Wˆ D Z T Y .
Verifica-se, então, que a diferença entre os estimadores (5.15) e (5.29) reside na

escolha da matriz dos pesos ( Ŵ ou ŴD ).
As expressões (5.19) e (5.22) passam a ser, respectivamente,
Cov a {βˆ (Wˆ D )} = (QzxT WD Q zx ) −1 QzxT WD S WD Q zx (QzxT WD Q zx ) −1 ,
e
^
Cov a {βˆ (Wˆ D )} = ( S zxT Wˆ D S zx) −1 S zxT Wˆ D Sˆ Wˆ D S zx( S zxT Wˆ D S zx) −1
.
T ˆ T T ˆ ˆ T ˆ ˆ
= n( X Z WD Z X ) X Z WD G G WD Z X ( X Z WD Z X ) .
−1 T T ˆ T −1
Note-se que as matrizes

(QzxT WD Q zx ) −1 QzxT WD , ( S zxT Wˆ D S zx) −1 S zxT Wˆ D e ( X T Z Wˆ D Z T X ) −1 X T Z Wˆ D
são diagonais por blocos.

Um caso particular importante do estimador MGM separado, (5.29), consiste

em fazer Wîi = Sîi−1 . Assim,
β̂•i ( Sîi−1 ) = ( S zT x Sîi−1S z x ) −1 S zT x Sîi−1sz y = { X •Ti Z •i (Gˆ iT Gˆ i )−1 Z •Ti X •i }−1 X •Ti Z •i (Gˆ iT Gˆ i )−1 Z •Ti y•i ,
i i i i i i i i
para i = 1, 2, K , m . O respectivo estimador “empilhado” de β é dado por

 βˆ•1 ( Sˆ11−1 ) 
 ˆ ˆ −1 
β (S )
βˆ ( SˆD−1 ) =  • 2 22  = ( S zxT SˆD−1S zx ) −1 S zxT SˆD−1szy = { X T Z (Gˆ DT Gˆ D ) −1 Z T X }−1 X T Z (Gˆ DT Gˆ D ) −1 Z T Y ,
 M 
 
ˆ ˆ −1
 β• m ( Smm )
onde
 Sˆ11 O L O  Gˆ1 O L O 
   
O Sˆ22 L O  O Gˆ 2 L O 
SD = 
ˆ ˆ
e GD =  .
 M M M  M M M 
   
 O O L Sˆmm   O O L Gˆ m 
Resulta imediatamente que:

Cov a {βˆ•i ( Sîi−1 )} = (QzTi xi S ii−1Qzi xi ) −1 ;
^
Cov a {βˆ•i ( Sîi−1 )} = ( S zTi xi Sîi−1S zi xi ) −1 = { X •Ti Z •i (Gˆ iT Gˆ i ) −1Z •Ti X •i }−1 .
Então,
^
Cov a {βˆ ( SˆD−1 )} = ( S zxT SˆD−1 S zx) −1 S zxT SˆD−1 Sˆ SˆD−1 S zx( S zxT SˆD−1 S zx) −1
= n{ X T Z (Gˆ T Gˆ ) −1 Z T X }−1 X T Z (Gˆ T Gˆ ) −1 Gˆ T Gˆ
D D D D
× (Gˆ DT Gˆ D ) −1 Z T X { X T Z (Gˆ DT Gˆ D ) −1 Z T X }−1.

Facilmente se confirma que ( S zTi xi Sîi−1S zi xi ) −1 é o bloco (i, i ) da matriz das cova-
riâncias assintóticas de βˆ ( Sˆ D−1 ) . Com efeito, basta notar que a matriz
( S zxT SˆD−1 S zx) −1 S zxT SˆD−1 [ou { X T Z (Gˆ DT Gˆ D ) −1 Z T X }−1 X T Z (Gˆ DT Gˆ D ) −1 ]
é diagonal por blocos.

Prova-se, sem dificuldade, que
^ ^
Cov a {βˆ ( Sˆ D−1 )} − Cov a {βˆ ( Sˆ −1 )} = ( S zxT Sˆ D−1 S zx ) −1 S zxT Sˆ D−1 Sˆ Sˆ D−1 S zx ( S zxT Sˆ D−1 S zx ) −1 − ( S zxT Sˆ −1 S zx ) −1
é semidefinida positiva, admitindo que foram usados os mesmos resíduos para calcular
Ŝ D e Ŝ (no teorema 4.3, capítulo 4, obteve-se um resultado semelhante; a verificação
do presente resultado é meramente algébrica, seguindo os mesmos passos da demonstra-
ção daquele teorema).
A relação anterior entre as duas matrizes estimadoras das covariâncias assintóti-
cas garante que os erros padrão do estimador MGM eficiente conjunto não são maiores
que os respectivos erros padrão do estimador MGM eficiente separado (recorde-se que
os erros padrão são obtidos dividindo por n os elementos da diagonal principal daquelas
matrizes, e calculando a seguir as respectivas raízes quadradas).
Existem duas situações em que os estimadores (5.15) e (5.29) são “equivalen-
tes”. A primeira, corresponde ao caso em que cada equação do modelo é exactamente
identificada ( ki = pi ). Nestas circunstâncias, a matriz S zx é quadrada, e o estimador
MGM reduz-se ao estimador VI, qualquer que seja a matriz dos pesos (ver a subsecção
da secção 5.6 sobre o estimador SVI). Então,
βˆ (Wˆ ) = βˆ (Wˆ D ) .
Se pelo menos uma das equações é sobre-identificada, a escolha da matriz dos
pesos afecta o valor numérico do estimador MGM. No entanto, é possível descrever
uma situação em que a estimação conjunta e a estimação separada dão resultados assin-
toticamente equivalentes. Com efeito, seja βˆ ( Sˆ −1 ) o estimador MGM eficiente de β ,
dado por (5.25), que obviamente é um estimador conjunto. Suponha-se, também, que se
dispunha de um estimador MGM eficiente, separadamente para cada equação do mode-
lo, βˆ•i (Wîi ) , onde
plim(Wîi ) = E (uti2 ztiT• zti • ) −1 .
Juntando estes m estimadores, obtém-se βˆ (Wˆ D ) , onde

 E (u 2 z T z ) −1 O L O 
t1 t1• t1•
 2 T −1

 O E (u z z ) L O 
plim(Wˆ D ) =  t 2 t 2• t 2•
.
M M M
 
 O O 2 T
L E (utm ztm • ztm • ) −1 

Como plim(Wˆ D ) ≠ S −1 , o estimador βˆ (Wˆ D ) é, em princípio, menos eficiente do
que o estimador βˆ ( Sˆ −1 ) . No entanto, se as equações do modelo não estiverem “relacio-
nadas”, isto é, se
(5.30) E (utiutl ztiT• ztl • ) = O (i, l = 1, 2, K , m ; i ≠ l) ,
então S é diagonal por blocos, plim(Wˆ D ) = S −1 e plim (Wˆ D − Sˆ −1 ) = O . Donde

p
n  βˆ (Wˆ D ) − β  − n  βˆ ( Sˆ −1 ) − β  → 0 .
   
Pode, assim, concluir-se que: βˆ (Wˆ D ) e βˆ ( Sˆ −1 ) têm a mesma distribuição assin-
tótica; ambos os estimadores são eficientes.
Em conclusão:
− Se cada equação do modelo SER é exactamente identificada, o estimador MGM con-
junto e o estimador MGM separado são numericamente iguais ao estimador VI.
− Se p elo menos uma das equações é sobre-identificada, mas não existe “relação” entre
elas, com o significado dado por (5.30), pode concluir-se que os estimadores βˆ (Wˆ D )
e βˆ ( Sˆ −1 ) são assintoticamente equivalentes.
Em qualquer dos dois casos atrás referidos, não há vantagem em fazer a estima-
ção conjunta, podendo mesmo afirmar-se que a estimação separada pode dar melhores
resultados em pequenas amostras.
Em geral (excepto nas duas situações referidas), a estimação conjunta é assinto-
ticamente mais eficiente; mesmo no caso em que apenas se está interessado em estimar
uma equação isolada, há ganhos de eficiência na estimação conjunta.
No entanto, esta estimação apresenta alguns inconvenientes práticos. Por um
lado, a qualidade dos estimadores dos coeficientes de uma dada equação, no caso de
amostras pequenas, pode melhorar fazendo-se a estimação separada. Por outro lado, os
resultados assintóticos pressupõem que o modelo está correctamente especificado, isto
é, verificam-se as hipóteses do modelo. Quando há erros de especificação (cuja possibi-
lidade de ocorrência aumenta quando se juntam mais equações ao sistema), nem sequer
a consistência dos estimadores está garantida.
Para ilustrar este aspecto, suponha-se que a hipótese SER.3 não é satisfeita por-
que as condições de ortogonalidade não se verificam para a última equação do modelo:
E ( ztm •utm ) ≠ 0 ; esta situação pode ocorrer quando é omitido um regressor importante.
Nestas circunstâncias, os estimadores de todos os coeficientes do modelo (da equação m
e das outras) podem ser inconsistentes.
Com efeito, considere-se o erro de amostragem (5.16), onde o último bloco de
g •n não é nulo,
 1 n T 
plim ∑t =1 ztm •utm  = E ( ztm •utm ) ≠ 0 .
T
 n 
Como plim(S zx ) = Qzx e plim(Wˆ ) = W , o enviesamento assintótico é dado por
 0 
 
 0 
plim βˆ (Wˆ ) − β = (QzxT W Qzx ) −1 QzxT W  .
M
 T

 E ( ztm •utm )
Como W e (QzxT W Qzx ) −1 QzxT W não são diagonais por blocos, qualquer elemento
de plim{βˆ (Wˆ )} − β pode ser diferente de zero.
Supondo, para facilitar, que m = 2 , tem-se:
 plim βˆ•1 (Wˆ ) − β •1 
plim{βˆ (Wˆ )} − β =  
ˆ ˆ
plim β• 2 (W ) − β • 2 
−1
  E ( xtT1• zt1• ) O  W11 W12   E ( ztT1• xt1• ) O  
=       
 O E ( xt 2• zt 2• ) W21 W22  
T
O T
E ( zt 2• xt 2• ) 
  
 E ( xtT1• zt1• ) O  W11 W12   0 
×     T ,
 O E ( x T
z ) W
t 2 • t 2 •   21 W 22   E ( z u )
t 2• t 2 
ou
−1
  E ( xtT1• z t1• ) W11 E ( z tT1• xt1• ) E ( xtT1• z t1• ) W12 E ( z tT2• xt 2• )  
plim{βˆ (Wˆ )} − β =   
 E ( x T z ) W E ( z T x ) E ( x T z ) W E ( z T x ) 
  t 2 • t 2• 21 t1• t1• t 2• t 2 • 22 t 2 • t 2•  
 E ( xtT1• z t1• ) W12 E ( z tT2• u t 2 ) 
× T T .
 E ( x z
t 2 • t 2• ) W 22 E ( z u )
t 2• t 2 
Assim, mesmo para os coeficientes das equações correctamente especificadas, o

enviesamento assintótico pode não ser nulo; na estimação conjunta, os enviesamentos
devido a erros de especificação numa equação podem contaminar o resto do sistema.
5.6 - Casos particulares do estimador MGM
Nesta secção vão estudar-se alguns casos particulares do estimador MGM dado
por (5.15).
Estimador SMQ
Quando se supõe que todos os regressores de cada equação do modelo (5.2) são
pré-determinados, E ( xti •uti ) = 0 [ou E (ut • X t • ) = 0 ], tem-se: zti • = xti • , p = k , Z = X ,
S zx = S xx (matriz quadrada de ordem k, simétrica) e szy = sxy . Então, (5.15) reduz-se a
βˆ (Wˆ ) = ( S xx Wˆ S xx ) −1 S xx Wˆ sxy = S xx−1Wˆ −1S xx−1S xx Wˆ sxy = S xx−1sxy = ( X T X ) −1 X T Y .
Como a matriz S xx (ou X T X ) é diagonal por blocos, este estimador corresponde

a aplicar o método MQ separadamente a cada equação. Deste modo, obtém-se o estima-
dor “empilhado”,
 βˆ•1, MQ   ( S xT1 x1 S x1 x1 ) −1 S xT1 x1 sx1 y1   ( X •T1 X •1 ) −1 X •T1 y•1 
   T   T 
 βˆ• 2, MQ   ( S x 2 x 2 S x 2 x 2 ) S x2 x2 sx2 y 2   ( X • 2 X • 2 ) X • 2 y• 2 
−1 T −1 T
(5.31) βˆSMQ = = = 
,
M M M
     
 βˆ• m, MQ  ( S xTm xm S xm x m ) −1 S xTm xm sxm y m  ( X •Tm X • m ) −1 X •Tm y• m 
 
onde
1 n T 1 1 n 1
n ∑t =1 ti • ti • n •i •i
S xi xi = x x = X T X e sxi yi = ∑t =1 xtiT• yti = X •Ti y•i ,
n n
para i = 1, 2, K , m .
O estimador (5.31) designa-se por estimador SMQ (estimador MQ do sistema;
utiliza-se a letra S, inicial da palavra sistema, para realçar que o estimador refere-se aos
coeficientes de um sistema de equações de regressão).
Como este estimador não depende da escolha de Ŵ , obviamente conclui-se que
o estimador SMQ é estimador MGM eficiente.
Seja
 E ( xtT1• xt1• ) O L O 
 
 O E ( xtT2• xt 2• ) L O  = E( X T X ) .
Qxx =
 M M M  t• t•
 
 O O T
L E ( xtm • xtm • ) 

Esta matriz é quadrada de ordem k, simétrica e não singular. Como Q zx = Qxx , a
partir de (5.18) e (5.19) resulta imediatamente
d
(5.32) n ( βˆSMQ − β ) → N ( k ) 0, Cov a ( βˆSMQ ) ,
 
onde
(5.33) Cov a ( βˆSMQ ) = Qxx−1 S Qxx−1 ,
S = E ( gtT• gt • ) = E ( X tT•utT•ut • X t • ) e gt • = ut • X t • .
A matriz Ŝ é dada por
1 n 1 1 n
Sˆ = ∑t =1 gˆ tT• gˆ t • = Gˆ T Gˆ = ∑t =1 X tT•uˆtT•uˆt • X t • ,
n n n
onde gˆ t • = uˆt • X t • e ût • é o vector dos resíduos MQ.
Então,
^
(5.34) Cov a ( βˆSMQ ) = S xx−1 Sˆ S xx−1 = n( X T X ) −1 Gˆ T Gˆ ( X T X ) −1 .
Estes resultados permitem fazer inferência estatística robusta sobre os parâme-

tros do modelo, nomeadamente testar hipóteses isoladas ou conjuntas sobre coeficientes
de regressão. Para isso, utilizam-se resultados semelhantes a (5.23) e (5.24), com as ne-
cessárias adaptações.
Estimador SMQGF
Nesta subsecção vai começar-se por estudar um estimador SMQ generalizado

que tem em conta a informação dada pela matriz Σ = E (utT•ut • ) (que decorre da hipótese
SER.2). Admita-se, sem perda de generalidade, que esta matriz é definida positiva. Para
estabelecer a consistência do estimador referido, é necessário estabelecer duas hipóte-
ses adicionais:
1) E ( xti •utl ) = 0 (i, l = 1, 2, K , m) , isto é, cada regressor da equação i é ortogonal à va-
riável residual da equação l , mesmo para i ≠ l . Assim, esta hipótese mais forte su-
bstitui a hipótese mais fraca, E ( xti •uti ) = 0 (i = 1, 2, K , m) . De forma resumida, aque-
las mk condições podem escrever-se da seguinte maneira:
(5.35) E (utT• ⊗ X t • ) = O ,
onde o produto de Kronecker utT• ⊗ X t • é de tipo m 2 × k .

Se existir termo independente, tem-se xti1 = 1 e E (ut • ) = 0 . Então, Σ = Cov(ut • ) .
2) A matriz k × k dada por

 E ( xT Σ −1 x ) O L O 
t 1• t 1•
 
 O E ( x T
t 2• Σ −1
xt 2• ) L O 
(5.36) Qxx∗ =   = E ( X tT•Σ −1 X t • )
 M M M 
 
•Σ xtm • ) 
T −1
 O O L E ( xtm

Supondo que se dispõe de uma amostra de dimensão n, é possível escrever a re-

lação amostral (5.4), Y = Xβ + U . Com uma técnica semelhante àquela que foi utilizada
no anexo 2G, pode transformar-se esta relação noutra em que a matriz das covariâncias
de U é a matriz identidade.
Quando se usa a notação A de (5.4), tem-se Cov(U ) = E (UU T ) = Σ ⊗ I n . Como
esta matriz é simétrica e definida positiva, pode determinar-se uma matriz P, quadrada
de ordem m, não singular, tal que Σ −1 = PT P ou Σ = P −1 ( PT ) −1 . Considerando a matriz
Σ ⊗ I n , tem-se, de acordo com as propriedades g) e e) do produto de Kronecker (ver
anexo 5B),
Σ −1 ⊗ I n = ( PT P) ⊗ I n = ( PT ⊗ I n )( P ⊗ I n ) .
Multiplicando por P ⊗ I n ambos os membros de (5.4), obtém-se

( P ⊗ I n )Y = ( P ⊗ I n ) Xβ + ( P ⊗ I n ) U ,
ou
Y∗ = X ∗ β + U ∗ ,
onde Y∗ = ( P ⊗ I n )Y , X ∗ = ( P ⊗ I n ) X e U ∗ = ( P ⊗ I n )U .
A relação transformada verifica o resultado pretendido:
E (U *U ∗T ) = E{( P ⊗ I n )UU T ( PT ⊗ I n )}= ( P ⊗ I n ) E (UU T )( PT ⊗ I n )
= ( P ⊗ I n )(Σ ⊗ I n )( PT ⊗ I n )
= ( P ⊗ I n ){P −1 ( PT ) −1 ⊗ I n }( PT ⊗ I n ) = I m ⊗ I n = I mn .
Aplicando o método MQ à relação transformada, obtém-se o estimador MQG de

β (ver anexo 2G):
βˆSMQ
∗
= ( X ∗T X ∗ ) −1 X ∗T Y∗ = { X T ( PT ⊗ I n )( P ⊗ I n ) X }−1 X T ( PT ⊗ I n )( P ⊗ I n )Y
= { X T (Σ −1 ⊗ I n ) X }−1 X T (Σ −1 ⊗ I n )Y .
Este estimador é o estimador SMQG de β (estimador MQ generalizado do sis-

tema). Pode, então, escrever-se
(5.37) βˆSMQG = { X T (Σ −1 ⊗ I n ) X }−1 X T (Σ −1 ⊗ I n )Y .
Outra maneira de apresentar (5.37) é a seguinte:

−1
 σ 11 X •T1 X •1 σ 12 X •T1 X • 2 L σ 1m X •T1 X • m 
 12 T 
 σ X • 2 X •1 σ X • 2 X • 2 L σ X • 2 X • m 
22 T 2m T
βˆSMQG = 
 M M M 
 1m T 
σ X • m X •1 σ X • m X • 2 L σ X • m X •1m 
2m T mm T
 σ 11 X •T1 y•1 + σ 12 X •T1 y• 2 + L + σ 1m X •T1 y• m 

 12 T 
 σ X • 2 y•1 + σ X • 2 y• 2 + L + σ X • 2 y• m 
22 T 2m T
× .
 M 
 1m T 
σ X • m y•1 + σ X • m y• 2 + L + σ X • m y•1m 
2m T mm T
onde σ il é o elemento genérico de Σ −1 .

Alternativamente pode recorrer-se à notação B de (5.4). Começa-se por consi-
derar o modelo da população ytT• = X t • β + utT• [ver (5.3)], onde Σ = E (utT•ut • ) . O modelo
(5.3) pode transformar-se noutro modelo em que a matriz das covariâncias das respecti-
vas variáveis residuais é a matriz identidade. Começa-se por recordar que Σ −1 = P T P e
que Σ = P −1 ( PT ) −1 . Multiplicando ambos os membros de (5.3) por P, vem
P ytT• = P X t • β + PutT• ,
ou
( yt∗• )T = X t∗• β + (ut∗• )T ,
onde ( yt∗• )T = P ytT• , X t∗• = P X t • e (ut∗• )T = PutT• .

O modelo transformado verifica o resultado pretendido. Com efeito,
E{(ut∗• )T ut∗• } = E ( PutT•ut • PT ) = P E (utT•ut • ) PT = P Σ PT = P P −1 ( PT ) −1 PT = I m .
Sem dificuldade se verifica que o modelo transformado verifica (5.35). De facto,

atendendo à propriedade e) do produto de Kronecker (anexo 5B),
E{(ut∗• )T ⊗ X t∗• } = E{( PutT• ) ⊗ ( PX t • )} = ( P ⊗ P) E (utT• ⊗ X t • ) = O .
Note-se ainda que
( X t∗• )T X t∗• = X tT• PT P X t • = X tT•Σ −1 X t • ,
( X t∗• )T ( yt∗• )T = X tT• PT P ytT• = X tT•Σ −1 ytT• .
Aplicando o método MQ a ( yt∗• )T = X t∗• β + (ut∗• )T , obtém-se o estimador SMQG

de β ,
−1 −1
β̂SMQG = ∑t =1 ( X t∗• )T X t∗•  ∑t =1 ( X t∗• )T ( yt∗• )T = ∑t =1 X tT•Σ−1 X t •  ∑
n n n n
X tT•Σ −1 ytT• ,
  t =1
ou
(5.38) βˆSMQG = { X T ( I n ⊗ Σ −1 ) X }−1 X T ( I n ⊗ Σ −1 )Y .
Fica ao cuidado do leitor verificar a equivalência numérica entre (5.37) e (5.38).

A expressão (5.38) pode também ser obtida a partir da relação amostral (5.4),
onde de acordo com a respectiva notação B, Cov(U ) = E (UU T ) = I n ⊗ Σ .
O estimador (5.37) pode ser obtido de (5.15), fazendo Z = (Σ −1 ⊗ I n ) X . Com
efeito,
βˆ (Wˆ ) = { X T (Σ −1 ⊗ I n ) X Wˆ X T (Σ −1 ⊗ I n ) X }−1 X T (Σ −1 ⊗ I n ) X Wˆ X T (Σ −1 ⊗ I n )Y
= { X T (Σ −1 ⊗ I n ) X }−1Wˆ −1{ X T (Σ −1 ⊗ I n ) X }−1 X T (Σ −1 ⊗ I n ) X Wˆ X T (Σ −1 ⊗ I n )Y
= { X T (Σ −1 ⊗ I n ) X }−1 X T (Σ −1 ⊗ I n )Y .
Esta resultado permite afirmar que o estimador SMQG é MGM eficiente, por-
que não depende da escolha de Ŵ . Fica ao cuidado do leitor obter a mesma conclusão,
usando (5.38) e Z = ( I n ⊗ Σ −1 ) X ou Z t • = Σ −1 X t • .
Pode, então, concluir-se que o estimador SMQG é consistente e assintoticamente
normal. Assim,
d
(5.39) n ( βˆSMQG − β ) → N ( k ) 0, Cov a ( βˆSMQG ) .
 
Para obter a matriz das covariâncias assintóticas de β̂SMQG , basta substituir, em

(5.26), Q zx por Qxx∗ e S por
S∗ = E{( gt∗• )T gt∗• } = E ( X tT•Σ −1utT•ut •Σ −1 X t • ) ,
onde gt∗• = ut •Σ −1 X t • [fez-se Z t • = Σ −1 X t • em S = E ( Z tT•utT•ut • Z t • ) ]. Então, obtém-se

(5.40) Cov a ( βˆSMQG ) = (Qxx∗ ) −1 S∗ (Qxx∗ ) −1 .
Comentários aos resultados (5.39) e (5.40):

a) O erro de amostragem de β̂SMQG pode ser escrito da seguinte maneira:
−1
 1 n T −1   1 n T −1 T 
βˆSMQG − β =  ∑ X t •Σ X t •   n ∑t =1 X t •Σ ut •  .
 n t =1
1 n 
plim  ∑t =1 X tT•Σ −1 X t •  = E ( X tT•Σ −1 X t • ) = Qxx∗ .
n 
Para provar a consistência do estimador, é necessário verificar que
1 n 
plim  ∑t =1 X tT•Σ −1utT•  = E ( X tT•Σ −1utT• ) = 0 .
 n 
Com efeito, aplicando a propriedade a) da vectorização de matrizes a X tT• Σ −1utT• (ver
anexo 5B), tem-se
Vec{E ( X tT•Σ −1utT• )} = E{Vec( X tT•Σ −1utT• )} = E{(ut • ⊗ X tT• )Vec(Σ −1 )}
= E{(ut • ⊗ X tT• )}Vec(Σ −1 ) = 0.
Esta demonstração mostra que é indispensável estabelecer a hipótese (5.35), e não

apenas E (ut • X t • ) = 0 , como se fez para o estimador SMQ; sem (5.35), não se obtém
E ( X tT•Σ −1utT• ) = 0 .
b) Para realçar a dedução do resultado (5.39), sabe-se que
−1
 1 n T −1   1 
n ( βˆ ∑ X t •Σ X t •   n ∑
n
SMQG − β ) =  X tT•Σ −1utT•  .
 n t =1 t =1

1 d
∑
n
t =1
X tT•Σ −1utT• → N ( m ) (0, S∗ ) .
n
O estimador SMQG só pode ser utilizado para fazer inferência estatística quando
se pressupõe que a matriz Σ = E (utT•ut • ) é conhecida. Como, em geral, esta matriz é des-
conhecida, é necessário dispor de Σ̂ , estimador consistente de Σ : plim(Σ) ˆ =Σ.
Para obter este estimador, basta calcular os resíduos SMQ, uˆtT• = ytT• − X t • βˆSMQ , e
notar que β̂SMQ é estimador consistente de β . Então,
1 n
(5.41) Σˆ = ∑t =1 uˆtT•uˆt • .
n
Para provar a consistência Σ̂ , começa-se por referir que
1 n 
plim  ∑t =1 utT•ut •  = Σ ,
 n 
devido ao teorema da ergodicidade.
Como uˆtT• = utT• − X t • ( βˆSMQ − β ) , tem-se
uˆtT•uˆt • = utT•ut • − utT• ( βˆSMQ − β )T X tT• − X t • ( βˆSMQ − β )ut • + X t • ( βˆSMQ − β )( βˆSMQ − β )T X tT• .
Vai provar-se que a média amostral de Vec{ X t • ( βˆSMQ − β )ut • } [Vec da terceira
parcela] tende em probabilidade para 0 (a demonstração também é válida para a segun-
da parcela, que é a transposta da terceira). Com efeito, atendendo à propriedade a) da
vectorização de matrizes, tem-se
1 n 1 n T  p
n ∑t =1  n ∑t =1 t •
Vec{ X ( ˆ
β − β )u } = (u ⊗ X ) Vec( ˆ
β − β ) → 0,
t• SMQ t• t•  SMQ
 
uma vez que
1 n T p
∑
n t =1
(ut • ⊗ X t • ) → E (utT• ⊗ X t • ) = O e plim(βˆSMQ ) = β .
A média amostral do Vec da quarta parcela também tende em probabilidade para

zero. De facto, recorrendo à propriedade referida, resulta
1 n
n ∑t =1
Vec{ X t • ( βˆSMQ − β )( βˆSMQ − β )T X tT• } =
1 n  p
 n ∑t =1 t •
( X ⊗ X ) Vec{( βˆ − β )( ˆ
β − β )T
} → 0,
t•  SMQ SMQ
 
porque
1 n p
n ∑t =1 t •
( X ⊗ X t• ) → E( X t• ⊗ X t• ) ,
supondo que cada elemento de X t • tem segundo momento, e

p
Vec{( βˆSMQ − β )( βˆSMQ − β )T } → 0 .
Então, como
1 n  1 n 
plim  ∑t =1 uˆtT•uˆt •  = plim  ∑t =1 utT•ut •  ,
n  n 
fica provada a consistência de (5.41).
Nestas condições, propõe-se, baseado em (5.37), o seguinte estimador de β :
(5.42) βˆSMQGF = { X T (Σˆ −1 ⊗ I n ) X }−1 X T (Σˆ −1 ⊗ I n )Y .
Este estimador designa-se por estimador SMQGF (estimador MQG factível).

Quando se recorre a (5.38), tem-se
(5.43) βˆSMQGF = { X T ( I n ⊗ Σˆ −1 ) X }−1 X T ( I n ⊗ Σˆ −1 )Y ,
ou
−1
= ∑t =1 X tT•Σˆ −1 X t •  ∑
n n
β̂SMQGF X tT•Σˆ −1 ytT• .
  t =1
Como plim(Σ) ˆ = Σ , com Σ̂ dado por (5.41), é de esperar que β̂SMQGF seja con-
sistente. Este resultado fica provado, demonstrando a seguinte equivalência assintótica:
a
n ( βˆSMQGF − β ) ~ n ( βˆSMQG − β ) .
Para simplificar, seja

−1
1 n  1
Â =  ∑t =1 X tT•Σˆ −1 X t •  , B̂ = ∑
n
X tT•Σˆ −1utT• ,
n  n t =1
−1
1 n  1
A =  ∑t =1 X tT•Σ −1 X t •  , B = ∑
n
X tT•Σ −1utT• .
n  n t =1
Facilmente se estabelece que

n ( βˆSMQGF − β ) − n ( βˆSMQG − β ) = ÂB̂ − AB = A(B̂ - B) + (Â − A)B̂ .
Assim, para demonstrar a equivalência assintótica, vai verificar-se que:

a) plim(B̂ - B) = 0 ;
b) plim(Â − A) = O ;
c) plim(A) = (Qxx∗ ) −1 ;
d) B e B̂ são assintoticamente equivalentes.
a) Notando que Vec( X tT•Σˆ −1utT• ) = X tT•Σˆ −1utT• , seja

 1   1 
∑ ∑
n n
B̂ - B =  X tT•Σˆ −1utT•  − 
t =1 t =1
X tT•Σ −1utT• 
 n   n 
 1 T  ˆ −1 ) −  1 ∑ n (ut • ⊗ X tT• )  Vec(Σ −1 ),
∑
n
= (ut • ⊗ X t • )  Vec( Σ
 n t =1   n
t =1

ou
 1 
∑
n
B̂ - B =  t =1
(ut • ⊗ X tT• )  Vec(Σˆ −1 − Σ −1 ).
 n 
Como plim(Σˆ ) = Σ , basta verificar que
1 n 
n  ∑t =1 (ut • ⊗ X tT• ) 
 n 
tem uma determinada distribuição limite. Como os blocos não nulos de ut • ⊗ X tT• são
da forma xti •utl , cada bloco não nulo de
1 n 
n  ∑t =1 (ut • ⊗ X tT• ) 
n 
é da forma
1 n 
n  ∑t =1 xtiT•utl 
n 
e, devido a (5.35), tem distribuição limite normal com valor esperado nulo.
b) Com argumentos semelhantes se demonstra que
−1 −1
1 n  1 n 
plim(Â − A) = plim ∑t =1 X tT•Σˆ −1 X t •  − plim ∑t =1 X tT•Σ −1 X t •  = O .
 n   n 
Para provar este resultado, basta invocar o teorema de Slustsky e verificar que
1 n  1 n 
plim ∑t =1 X tT•Σˆ −1 X t •  = plim ∑t =1 X tT•Σ −1 X t •  .
n  n 
Com efeito, tem-se
1 n  1 n 
 ∑t =1 Vec{ X tT•Σˆ −1 X t • } −  ∑t =1 Vec{ X tT•Σ −1 X t • }
 n   n 
1 n  1 n 
=  ∑t =1 ( X tT• ⊗ X tT• )Vec(Σˆ −1 )  −  ∑t =1 ( X tT• ⊗ X tT• )Vec(Σ −1 ) 
 n   n 
1 n  p
=  ∑t =1 ( X tT• ⊗ X tT• ) Vec(Σˆ −1 − Σ −1 ) → 0,
n 
porque plim(Σˆ ) = Σ e
1 n p
n ∑t =1 t •
( X T
⊗ X T
t• ) → E ( X tT• ⊗ X tT• ) .
c) De facto,
1 n 
plim  ∑t =1 X tT•Σ −1 X t •  = E ( X tT•Σ −1 X t • ) = Qxx∗ .
 n 
d) Como plim(B̂ - B) = 0 e
1 d
∑
n
B= t =1
X tT•Σ −1utT• → N ( m ) (0, S∗ ) ,
n
tem-se
1 d
∑
n
B̂ = t =1
X tT•Σˆ −1utT• → N ( m ) (0, S∗ ) ,
n
ou seja, B e B̂ são assintoticamente equivalentes.
A equivalência assintótica entre os estimadores SMQGF e SMQG permite esta-

belecer o seguinte resultado:
d
(5.44) n ( βˆSMQGF − β ) → N ( k ) 0, Cov a ( βˆSMQGF ) ,
 
onde
(5.45) Cov a ( βˆSMQGF ) = (Qxx∗ ) −1 S∗ (Qxx∗ ) −1 .
Para obter um estimador consistente de (5.45), faz-se

^
(5.46) Cov a ( βˆSMQGF ) = ( S xx∗ ) −1 Sˆ∗ ( S xx∗ ) −1 ,
onde
1 n 1 n
Sˆ∗ = ∑t =1 ( gˆ t∗• )T gˆ t∗• = ∑t =1 X tT•Σˆ −1uˆtT•uˆt •Σˆ −1 X t • ,
n n
com gˆ t∗• = uˆt •Σˆ −1 X t • e uˆtT• = ytT• − X t • βˆSMQGF (o vector dos resíduos SMQGF), e
1 T ˆ −1
S xx∗ = X (Σ ⊗ I n ) X ,
n
com a notação A de X, ou
1 n T ˆ −1 1
S xx∗ =
n ∑ t =1
X t •Σ X t • = X T ( I n ⊗ Σˆ −1 ) X ,
n
com a notação B de X.
Estes resultados permitem fazer inferência estatística robusta sobre os parâme-
tros do modelo.
Fica ao cuidado do leitor demonstrar que o estimador (5.42) pode ser obtido de
(5.15), fazendo Z = (Σˆ −1 ⊗ I n ) X . Assim, como (5.42) não depende da escolha de Ŵ ,
pode afirmar-se que o estimador SMQGF é estimador MGM eficiente, na classe dos
estimadores que verificam (5.35). Pode chegar-se à mesma conclusão, mostrando que o
estimador (5.43) resulta de (5.15), quando Z = ( I n ⊗ Σˆ −1 ) X ou Z t • = Σˆ −1 X t • .
Todas considerações anteriores pressupõem que não são impostas restrições so-
bre parâmetros de equações diferentes (restrições inter-equações). Os modelos com es-
te tipo de restrições ainda se podem formalizar da maneira já conhecida, e, portanto, po-
derem ser utilizados os métodos de estimação SMQ e SMQGF.
Por exemplo, considere-se o seguinte modelo SER com duas equações:
 yt1 = β11 + β 21 xt12 + β31 xt13 + β 41 xt14 + ut1

 yt 2 = β12 + β 22 xt 22 + β32 xt 23 + ut 2 ,
impondo-se a restrição β 21 = 2 β 22 . O modelo que verifica esta restrição é dado por
 yt1 = β11 + 2 β 22 xt12 + β31 xt13 + β 41 xt14 + ut1

 yt 2 = β12 + β 22 xt 22 + β32 xt 23 + ut 2 .
Este modelo pode apresentar-se na forma (5.3), fazendo

1 2 xt12 xt13 xt14 0 0 
β T = [ β11 β 22 β31 β 41 β12 β32 ] e X t • =  .
0 xt 22 0 0 1 xt 23 
Pode aplicar-se os métodos SMQ e SMQGF para estimar β . Contudo, o estima-

dor SMQ deixa de ser um estimador MQ “empilhado”.
Estimador SVI
Quando, no modelo SER, o número de variáveis instrumentais é igual ao nú-

mero de regressores ( p = k ) , é imediato verificar que o estimador MGM de β não de-
pende de Ŵ , e, portanto, é um estimador MGM eficiente. Com efeito, basta notar que
a matriz S zx é quadrada, e supor que tem inversa. Então, a partir de (5.15),
(5.47) βˆSVI = S zx−1 s zy = ( Z T X ) −1 Z T Y ,
que não é mais do que o estimador de variáveis instrumentais, já conhecido do capítulo

4 (ver secção 4.4). No contexto do modelo SER, este estimador é designado por estima-
dor SIV (estimador de variáveis instrumentais do sistema).
O erro de amostragem do estimador SIV é dado por
(5.48) βˆSVI − β = S zx−1 g •n = ( Z T X ) −1 Z T U .
Obviamente este estimador é assintoticamente normal,
d
(5.49) n ( βˆSVI − β ) → N ( k ) 0, Cov a ( βˆSVI ) ,
 
onde
(5.50) Cov a ( βˆSVI ) = Qzx−1 S (QzxT ) −1 ,
e
^
(5.51) Cov a ( βˆSVI ) = S zx−1Sˆ ( S zxT ) −1 = n{( Z T X ) −1 Gˆ T Gˆ ( X T Z ) −1} .
Os resíduos utilizados em Ŝ são os resíduos SIV: uˆtT• = ytT• − X t • βˆSIV .

Com os resultados apresentados, pode fazer-se inferência estatística robusta
sobre os parâmetros do modelo.
Estimador SMQ2P
Outro caso particular é o do estimador SMQ2P (estimador MQ2P do sistema).

De forma semelhante ao estimador MQ2P para uma equação (ver secção 4.5), faz-se
Wˆ = S zz−1 , onde
1 n T 
 n ∑t =1 zt1• zt1• O L O 
 1 n T 
 O ∑ z z L O  1 n T 1 T
 = n ∑t =1 Z t • Z t • = n Z Z .
t 2 • t 2 •
S zz =  n t =1
 M M M 
 1 n T 
 O O L ∑t =1 ztm z 
 n • tm •

Cada bloco-diagonal pode escrever-se com a seguinte notação:
1 n T 1
S zi zi =
n ∑ t =1
zti • zti • = Z •Ti Z •i .
n
O estimador é dado por
βˆSMQ2P = ( S zxT S zz−1 S zx ) −1 S zxT S zz−1szy
(5.52)
= { X T Z ( Z T Z ) −1 Z T X }−1 X T Z ( Z T Z ) −1 Z T Y = ( X T H Z X ) −1 X T H Z Y ,
onde H Z = Z ( Z T Z ) −1 Z T .
Verifica-se imediatamente que o estimador SMQ2P é um estimador MQ2P “em-
pilhado”, ou seja, estimam-se separadamente, pelo método MQ2P, os coeficientes de
cada equação. Com efeito, basta atender à estrutura bloco-diagonal das matrizes S zx e
S zz . Assim, tem-se
 βˆ•1, MQ2P 
 
 βˆ• 2, MQ2P 
βˆSMQ2P =  ,
 M 
 
 βˆ 
 • m, MQ2P 
onde
βˆ•i , MQ2P = ( S zT x S z−1z S z x ) −1 S zT x S z−1z sz y ( i = 1, 2, K , m ).
i i i i i i i i i i i i
Facilmente se conclui que o estimador SMQ2P não é MGM eficiente.

O erro de amostragem deste estimador é

(5.53) βˆSMQ2P − β = ( S zxT S zz−1 S zx ) −1 S zxT S zz−1 g• n = ( X T H Z X ) −1 X T H ZU .
Este estimador reduz-se ao estimador SIV quando p = k . Com efeito, basta no-
tar que Z T X é matriz quadrada.
Tem-se
d
(5.54) n ( βˆSMQ2P − β ) → N ( k ) 0, Cov a ( βˆSMQ2P ) ,
 
onde
(5.55) Cov a ( βˆSMQ2P ) = (QzxT Qzz−1Qzx ) −1 QzxT Qzz−1 S Qzz−1Qzx (QzxT Qzz−1Qzx ) −1 ,
e
^
Cov a ( βˆSMQ2P ) = ( S zxT S zz−1S zx ) −1 S zxT S zz−1 Sˆ S zz−1S zx ( S zxT S zz−1S zx ) −1
(5.56)
= n{( X T H Z X ) −1 X T Z ( Z T Z ) −1 Gˆ T Gˆ ( Z T Z ) −1 Z T X ( X T H Z X ) −1}.
Os resíduos utilizados em Ŝ são os resíduos SMQ2P: uˆtT• = ytT• − X t • βˆSMQ2P .

Com estes resultados, pode-se fazer inferência estatística robusta sobre os pa-
râmetros do modelo.
Tal como se fez nos capítulos 3 (secção 3.6) e 4 (secção 4.9), mas agora no âm-
bito do modelo SER, vão analisar-se as implicações da homocedasticidade condiciona-
da, nomeadamente vão estudar-se alguns estimadores importantes, que são casos parti-
culares do estimador MGM. A versão multi-equação da hipótese da homocedasticidade
condicionada é a seguinte:
Hipótese SER.6 – Homocedasticidade condicionada

Tem-se
(5.57) E (uti utl | zti• , ztl• ) = σ il ,
para i, l = 1, 2, K , m .
Evidentemente que (5.57) implica que E (uti utl ) = σ il (homocedasticidade mar-

ginal). Note-se também que os σ il são os elementos da matriz Σ , quadrada de ordem
m, já referida em (5.7). A hipótese SER.6 pode resumir-se da seguinte maneira:
(5.58) E (utT•ut • | Z t • ) = Σ .
Considerando o bloco genérico da matriz S, dado por (5.13), tem-se

E (uti utl ztiT• ztl• ) = E{E (uti utl ztiT• ztl• | zti• , ztl• )}
= E{E (uti utl | zti• , ztl• ) ztiT• ztl• } = σ il E ( ztiT• ztl• ) .
Então, a matriz S, no caso de homocedasticidade condicionada, é

 σ 11E ( ztT1• zt1• ) σ 12 E ( ztT1• zt 2• ) L σ 1m E ( ztT1• ztm • ) 
 
 σ 21E ( zt 2• zt1• ) σ 22 E ( zt 2• zt 2• ) L σ 2 m E ( zt 2• ztm • ) 
T T T
(5.59) S= .
 M M M 
 
σ m1E ( ztm • zt1• ) σ m 2 E ( ztm • zt 2• ) L σ mm E ( ztm • ztm • )
T T T
Note-se que
Sil = σ il E ( ztiT• ztl • ) = σ ilQzi z l ,
onde Qzi z l = E ( ztiT• ztl • ) .

Como S = E ( gtT• gt • ) = E ( Z tT•utT•ut • Z t • ) [ver (5.12)], a matriz S também pode ser
obtida do seguinte modo:
(5.60) S = E ( Z tT•Σ Z t • ) .
Com efeito,
S = E ( Z tT•utT•ut • Z t • ) = E{E ( Z tT•utT•ut • Z t • | Z t • )} = E{Z tT• E (utT•ut • | Z t • ) Z t •} = E ( Z tT•Σ Z t • ) .
Verificou-se, assim, que (5.58) implica (5.60). Sem dificuldade se conclui que a
inversa não é verdadeira. Nalguns casos, em especial em certos modelos de equações
simultâneas (ver capítulo 6) e em alguns modelos com dados de painel (ver capítulo 7),
é mais adequado substituir a hipótese SER.6 pela hipótese mais fraca dada por (5.60),
ou seja, supor que E ( Z tT•utT•ut • Z t • ) = E ( Z tT•Σ Z t • ) . Naturalmente (5.58) é condição sufici-
ente de (5.60).
Um estimador consistente de S é dado por
 1 n T 1 n T 1 n T 
 σˆ11 n ∑t =1 zt1• zt1• σˆ12 n ∑t =1 zt1• zt 2• L σˆ1m n ∑t =1 zt1• ztm • 
 
σˆ 21 1 ∑ n ztT2• zt1• σˆ 22 1 ∑n ztT2• zt 2• L σˆ 2 m 1 ∑ n ztT2• ztm • 
(5.61) Sˆ =  n t =1 n t =1 n t =1 ,
 
 M M M 
 
σˆ 1 n z T z σˆ 1 n z T z 1 n T 
 m1 n ∑t =1 tm• t1• m 2 n ∑t =1 tm • t 2• L σ mm n ∑t =1 ztm • ztm • 
ˆ
com
1 n
σˆ il = ∑ uˆtiuˆtl ,
n t =1
onde uˆti = yti − xti• β̂ •i , e β̂•i é um estimador consistente de β•i (habitualmente, o esti-
mador MQ2P).
Utilizando a notação A da matriz Z, a matriz Ŝ pode ser apresentada da se-
guinte maneira:
 1 T 1 T 1 T 
 σˆ11 n Z •1Z •1 σˆ12 n Z •1Z • 2 L σˆ1m n Z •1Z • m 
 
 σˆ 21 1 Z •T2 Z •1 σˆ 22 1 Z •T2 Z • 2 L σˆ 2 m 1 Z •T2 Z • m 
(5.62) Sˆ =  n n n  = 1 {Z T (Σˆ ⊗ I ) Z } .
  n n
 M M M 
 
σˆ 1 Z T Z σˆ 1 Z T Z L σˆ 1 Z T Z 
 m1 n • m •1 m 2 n • m • 2 mm
n • m • m 
Pode, também, fazer-se
1 n 1
Sîl = σˆ il ∑t =1 ztiT• ztl • = σˆ il Z •Ti Z • l = σˆ il S zi z l ,
n n
onde
1 n T 1
S zi zl =
n
∑ z z = Z •Ti Z •l .
t =1 ti • tl •
n
Recorrendo à notação B da matriz Z, tem-se
1 n 1
(5.63) Sˆ = ∑t =1 Z tT•Σˆ Z t • = {Z T ( I n ⊗ Σˆ ) Z } .
n n
Nestas condições, ou seja, supondo homocedasticidade condicionada, tem-se o
estimador FIVE (Full-information Instrumental Variables Efficient) de β ,
(5.64) βˆFIVE = ( S zxT Sˆ −1 S zx ) −1 S zxT Sˆ −1 szy ,
onde a matriz Ŝ é dada por (5.61) [com as notações alternativas, (5.62) ou (5.63]. Este
estimador também é conhecido pela designação de estimador MGM-MQ3P, para o
distinguir do estimador MQ3P tradicional (ver adiante a subsecção que trata deste esti-
mador).
Quando se utiliza a notação (5.62), tem-se
(5.65) βˆFIVE = ( X T Z {Z T (Σˆ ⊗ I n ) Z }−1 Z T X ) −1 X T Z {Z T (Σˆ ⊗ I n ) Z }−1 Z T Y .
Com (5.63), obtém-se
(5.66) βˆFIVE = ( X T Z {Z T ( I n ⊗ Σˆ ) Z }−1 Z T X ) −1 X T Z {Z T ( I n ⊗ Σˆ ) Z }−1 Z T Y .
O estimador FIVE é consistente e assintoticamente normal (como qualquer
estimador MGM), e é MGM eficiente (porque Wˆ = Sˆ −1 ); a matriz das covariâncias
assintóticas é da forma (5.26) [com a matriz S dada por (5.59) ou (5.60)]; atendendo a
(5.65), o estimador consistente desta matriz é
^
(5.67) Cov a ( βˆFIVE ) = ( S zxT Sˆ −1 S zx) −1 = n( X T Z {Z T (Σˆ ⊗ I n ) Z }−1 Z T X ) −1 .
Se se recorresse à notação (5.66), viria

^
(5.68) Cov a ( βˆFIVE ) = ( S zxT Sˆ −1 S zx) −1 = n( X T Z {Z T ( I n ⊗ Σˆ ) Z }−1 Z T X ) −1 .
A estatística J (Hansen) reduz-se à estatística de Sargan [ver capítulo 4, (4.79)

e (4.96)],
d
(5.69) QS = n ( szy − S zx βˆFIVE )T Sˆ −1 ( szy − S zx βˆFIVE ) → χ 2 ( p − k ) .
Quando não se verifica SER.6, o estimador FIVE não é eficiente [logo, a matriz
(5.67) – ou (5.68) – não serve para fazer inferência estatística, e, em particular, para for-
necer os erros padrão adequados]. O estimador eficiente é dado por (5.25). Note-se que:
no caso do estimador FIVE, faz-se Wˆ = Sˆ −1 , com Ŝ dada por (5.61); no caso do estima-
dor (5.25), tem-se Wˆ = Sˆ −1 , com Ŝ dada por (5.21). Contudo, mesmo supondo que há
homocedasticidade condicionada, o estimador FIVE não é assintoticamente mais efici-
ente que o estimador (5.25): os dois estimadores são assintoticamente equivalentes. En-
tão, porquê não utilizar sempre o estimador mais geral, (5.25)? A resposta é simples: o
estimador FIVE pode ter melhores propriedades em pequenas amostras.
SMQ versus SMQGF
Quando existe homocedasticidade condicionada, e de acordo com as hipóteses

subjacentes ao estimador SMQ, a matriz S reduz-se a S = E ( X tT•Σ X t • ) . Então, a matriz
das covariâncias assintóticas do estimador SMQ de β ainda é dada por (5.33), mas uti-
lizando aquela matriz S. Como
1 1 n 1
Sˆ = { X T (Σˆ ⊗ I n ) X } ou Sˆ = ∑t =1 X tT•Σˆ X t • = { X T ( I n ⊗ Σˆ ) X } ,
n n n
conforme se utilizam as notações A ou B de X, a matriz (5.34) reduz-se
^
(5.70) Cov a ( βˆSMQ ) = S xx−1 Sˆ S xx−1 = n( X T X ) −1 X T (Σˆ ⊗ I n ) X ( X T X ) −1 ,
recorrendo, por exemplo, à notação A.

No que diz respeito ao estimador SMQGF, tem-se S∗ = Qxx∗ = E ( X tT•Σ X t • ) . En-
tão, (5.45) e (5.46) reduzem-se, respectivamente, às suas versões não robustas:
(5.71) Cov a ( βˆSMQGF ) = (Qxx∗ ) −1 ,
e
^
(5.72) Cov a ( βˆSMQGF ) = ( S xx∗ ) −1 .
Com as hipóteses fixadas para obter o estimador SMQGF, este estimador é me-
nos robusto que o estimador SMQ, e computacionalmente mais complicado. Então,
porquê usar SMQGF? Porque, quando se introduz a hipótese da homocedasticidade con-
dicionada, pode demonstrar-se que o estimador SMQGF é assintoticamente mais efi-
ciente que o estimador SMQ.
FIVE versus SMQ2P
A comparação entre os estimadores MGM eficientes conjunto e separado pode

ser repetida para confrontar o estimador FIVE, (5.64), com o estimador SMQ2P, (5.52).
No caso de homocedasticidade condicionada, o estimador MQ2P dos coeficien-
tes de cada equação i (i = 1, 2, K , m) , individualmente considerada, é estimador MGM
eficiente, onde Sîi = σ̂ ii S zi zi (ver capítulo 4). Assim, tem-se
βˆ•i ( S z−1z ) = βˆ•i , MQ2P = ( S zT x S z−1z S z x ) −1 S zT x S z−1z sz y (i = 1, 2, K , m) .
i i i i i i i i i i i i i i
Juntando estes m estimadores, obtém-se uma expressão com a forma (5.29),

 βˆ•1 ( S z−1z )   βˆ•1, MQ2P 
 1 1
  
ˆ
 β• 2 ( S z 2 z 2 )   βˆ• 2, MQ2P 
−1
βˆSMQ2P =  =  = ( S zxT SˆD−1S zx ) −1 S zxT SˆD−1szy ,
 M   M 
 βˆ• m ( S z z )  βˆ• m, MQ2P 
−1
 m m   
onde
σˆ S O L O 
 11 z1 z1 
 O σˆ 22 S z 2 z 2 L O 
Sˆ D =  .
 M M M 
 
 O O L σˆ mm S z m z m 
 
Devido à homocedasticidade condicionada, a matriz das covariâncias assintóti-
cas de βˆ•i , MQ2P e a matriz dos respectivos estimadores são dadas por
^
Cov a ( βˆ•i , MQ2P ) = σ ii (QzTi xi Qz−i1zi Qzi xi ) −1 e Cov a ( βˆ•i , MQ2P ) = σˆ ii ( S zTi xi S z−i1zi S zi xi ) −1 .
Agrupando estas matrizes numa matriz bloco-diagonal, tem-se

σ 11 (QzT1 x1 Qz−11z1 Qz1 x1 ) −1 O L O 
 
 O σ 22 (Qz 2 x2 Qz 2 z 2 Qz 2 x2 ) L
T −1 −1
O 
ˆ
Cov a ( βSMQ2P ) = 
M M M ,
 
 O O L σ mm (QzTm x m Qz−m1z m Qz m x m ) −1 
ou
(5.73) Cov a ( βˆSMQ2P ) = (QzxT S D−1Qzx ) −1 ,
onde
σ 11Qz1 z1 O L O 
 O σ 22Qz 2 z 2 L O 
SD =  .
 M M M 
 
 O O L σ mmQz m z m 
De (5.73) sai imediatamente,

^
(5.74) Cov a ( βˆSMQ2P ) = ( S zxT SˆD−1S zx ) −1 .
Com Ŝ dada por (5.61), pode provar-se que

^ ^
Cov a ( βˆSMQ2P ) − Cov a ( βˆFIVE ) = ( S zxT SˆD−1S zx ) −1 − ( S zxT Sˆ −1S zx ) −1
é semidefinida positiva. Assim, os erros padrão do estimador FIVE não são maiores que
os respectivos erros padrão do estimador SMQ2P.
Ainda se podem fazer os seguintes comentários:
a) Quando não se verifica a hipótese SER.6 (não há homocedasticidade condicionada),
a matriz Ŝ , dada por (5.61), não é estimador consistente de S, dada por (5.12). No
entanto, se existir homocedasticidade condicionada, a matriz Ŝ , correspondente a
(5.21), é estimador consistente de S, dada por (5.59).
b) Supondo que não existe homocedasticidade condicionada, o estimador FIVE ainda é
consistente e assintoticamente normal, pois continua a ser um estimador MGM, para
alguma matriz Ŵ . No entanto, deixa de ser eficiente porque esta matriz Ŵ já não
verifica a condição plim(Wˆ ) = S −1 .
c) No caso de homocedasticidade condicionada, se cada equação do modelo SER é
exactamente identificada, os estimadores FIVE e SMQ2P são numericamente iguais
ao estimador VI [ver a primeira conclusão da secção 5.5, a seguir a (5.30)].
d) No caso de homocedasticidade condicionada, se pelo menos uma das equações é so-
bre-identificada, mas σ il = 0 para todos os pares (i, l) , com i ≠ l , então os estima-
dores FIVE e MQ2P separado são assintoticamente equivalentes.
Com efeito, basta atender à segunda conclusão da secção 5.5, a seguir a (5.30), e no-
tar que, sob homocedasticidade condicionada, o estimador MGM eficiente se reduz
ao estimador FIVE, e o estimador (5.29) se reduz ao estimador MQ2P separado.
e) Note-se, também, que no caso de homocedasticidade condicionada, as equações não
estão “relacionadas” [de acordo com (5.30)], se σ il = 0 , para i, l = 1, 2, K , m , com
i ≠ l . Com efeito, basta verificar que
E (uti utl ztiT• ztl• ) = E{E (uti utl ztiT• ztl• | zti• , ztl• )}
= E{E (uti utl | zti• , ztl• ) ztiT• ztl• } = σ il E ( ztiT• ztl• ).
O estimador dos mínimos quadrados em três passos
Quando cada equação tem as mesmas variáveis instrumentais, diz-se que o mo-
delo tem instrumentos comuns. Neste caso, o estimador FIVE pode ser simplificado.
Considere-se o vector 1 × m , ut • , formado pelas variáveis residuais uti (i = 1, 2, K , m) , e
a matriz de Σ = E (utT•ut • ) [ver (5.7)]. Como o elemento genérico desta matriz é σ il , um
estimador consistente de Σ pode ser obtido com o mesmo procedimento utilizado para
estimar a matriz Ŝ , referido em (5.61), recorrendo, por exemplo, ao estimador MQ2P
de cada β•i , e respectivos resíduos. Assim,
 σˆ11 σˆ12 L σˆ1m 

ˆ ˆ 
ˆΣ = σ 21 σ 22 L σ 2 m  = 1 ∑ n uˆ T uˆ .
ˆ
(5.75) t• t•
 M M M  n t =1
 
σˆ m1 σˆ m 2 L σˆ mm 
Como os instrumentos são comuns a todas as equações, considere-se zt • = zti • ,
para i = 1, 2, K , m , onde zt • = [ zt1 zt 2 L ztq ] é um vector 1 × q . Então,
gt • = [ zt •ut1 zt •ut 2 L zt •utm ] = ut • ⊗ zt • ,
que é um vector de tipo 1× mq ( mq = p ).

A matriz S, a verificar zt • = zti • , facilmente se escreve na seguinte forma:
 σ 11E ( ztT• zt • ) σ 12 E ( ztT• zt • ) L σ 1m E ( ztT• zt • ) 
 
 σ 21E ( ztT• zt • ) σ 22 E ( ztT• zt • ) L σ 2 m E ( ztT• zt • )  ~
(5.76) S= = Σ ⊗ E ( ztT• zt • ) = Σ ⊗ Qzz ,
 M M M 
 
σ m1E ( ztT• zt • ) σ m 2 E ( ztT• zt • ) L σ mm E ( ztT• zt • )
~
onde Qzz = E ( ztT• zt • ) . Nestas condições,
~
Qzz = I m ⊗ Qzz .
~
A matriz (5.76) é quadrada de ordem mq ( Σ é quadrada de ordem m; Qzz é
quadrada de ordem q). Então,
~
S −1 = Σ −1 ⊗ E ( ztT• zt • ) −1 = Σ −1 ⊗ Qzz−1 .
Do mesmo modo,
1 n   1 ~ ~ ~
(5.77) Sˆ = Σˆ ⊗  ∑t =1 ztT• zt •  = Σˆ ⊗  Z T Z  = Σˆ ⊗ S zz ,
n  n 
   
~
onde a matriz Z , de tipo n × q , é
 z1•   z11 z12 L z1q 
   
~  z2•   z21 z22 L z2 q  ~ 1 n 1~ ~
Z= = e S zz = ∑t =1 ztT• zt • = Z T Z .
 M  M M M  n n
   
 zn •   zn1 zn 2 L znq 
Note-se que
~
S zz = I m ⊗ S zz .
Também se tem
−1 −1
1 n   1 ~ ~ ~
Sˆ = Σˆ ⊗  ∑t =1 ztT• zt • 
−1 −1
= Σˆ ⊗  Z T Z 
−1
= Σˆ −1 ⊗ S zz−1 .
n  n 
   
~
Com zt • = zti • , vem Z = I m ⊗ Z (de tipo mn × mq ), de acordo com a notação A
da matriz Z das observações das variáveis instrumentais. Como Z t • = I m ⊗ zt • , a matriz
Z, de acordo com a notação B, é dada por
 I m ⊗ z1• 
 
 I m ⊗ z2 • 
Z= .
 M 
 
 I m ⊗ zn • 
~
Quando se considera o estimador FIVE com esta matriz Sˆ −1 = Σˆ −1 ⊗ S zz−1 , tem-se
o estimador dos mínimos quadrados em três passos (MQ3P; em inglês, Three-Stage
Least Squares, 3SLS),
~ ~
(5.78) βˆMQ3P = {S zxT (Σˆ −1 ⊗ S zz−1 ) S zx }−1 S zxT (Σˆ −1 ⊗ S zz−1 ) szy .
O termo MQ3P resulta do facto do estimador inicial, necessário para calcular os

resíduos que permitem estimar Σ , ser o estimador MQ2P de β •i (neste caso, tem-se
uˆti = yti − xti • βˆ•i , MQ2P ); o terceiro passo consiste na aplicação da fórmula (5.78).
Vai aprofundar-se a estrutura de (5.78), de acordo com a notação A das matrizes
X, Y e Z:
− A matriz S zx é dada por
1 n T 
 n ∑t =1 zt • xt1• O L O 
 
 1 n T 

O
n ∑ t =1
zt • xt 2• L O
 1 ~T
S zx =   = n (Im ⊗ Z ) X ,
 M M M 
 
 1 n T 
 O O L ∑t =1 zt • xtm • 
 n 
onde o bloco genérico desta matriz é dado por
1 n T 1~
S zxi =
n ∑ t =1
zt • xti • = Z T X •i ( i = 1, 2, K , m ).
n
− O vector s zy é
1 n T 
 n ∑t =1 zt • yt1 
 
 1 n zT y 
 ∑t =1 t • t 2  1 ~T
szy =  n  = n ( I m ⊗ Z )Y ,
 M 
 
1 n T 
 n ∑t =1 zt • ytm 
 
onde o bloco genérico é
1 n T 1~
n ∑ t = 1
zt • yti = Z T y•i ( i = 1, 2, K , m ).
szyi =
n
~
− O bloco genérico de S zxT (Σˆ −1 ⊗ S zz−1 ) S zx , de tipo ki × kl , é dado por
~
σˆ il S zxT i S zz−1S zxl ( i, l = 1, 2, K , m ),
onde
−1
~ 1 ~ 1 ~ ~  1 ~  1 
S S zz−1S zxl =  X •Ti Z   Z T Z   Z T X •l  =  X •Ti H Z~ X •l  ,
T
zxi n  n  n  n 
      
~ ~ ~ ~
onde H Z~ = Z ( Z T Z ) −1 Z T .
~
− O bloco genérico de S zxT (Σˆ −1 ⊗ S zz−1 ) szy é
~ ~ ~ ~
∑l =1σˆ il S zxT i S zz−1szyl = σˆ i1S zxT i S zz−1szy1 + σˆ i 2 S zxT i S zz−1szy2 + L + σˆ im S zxT i S zz−1szym ( i = 1, 2,K, m ),
m
onde
−1
~ 1 ~ 1 ~ ~  1 ~T  1 T
S S zz−1szyl =  X •Ti Z   Z T Z 
T  Z y•l  = X •i H ~ y•l .
zxi n  n  n  n Z
    
Sem dificuldade se verifica que (5.78) pode apresentar-se do seguinte modo:
−1
(5.79) βˆMQ3P =  X T {Σˆ −1 ⊗ H Z~ } X  X T {Σˆ −1 ⊗ H Z~ } Y .
 
Atendendo à propriedade e) do produto de Kronecker (ver anexo 5B), vem
−1
1 ~   1 ~ ~  1
−1
~ 
βˆMQ3P =  X T ( I m ⊗ Z ) Σˆ −1 ⊗  Z T Z   ( I m ⊗ Z T ) X 
n  n   n 
 
~   1 ~ ~  1
−1
1 T ~
× X ( I m ⊗ Z ) Σˆ −1 ⊗  Z T Z   ( I m ⊗ Z T ) Y ,
n  n   n
ou
−1
~ ~ ~ ~ ~ ~ ~ ~
βˆMQ3P =  X T {Σˆ −1 ⊗ Z ( Z T Z ) −1 Z T } X  X T {Σˆ −1 ⊗ Z ( Z T Z ) −1 Z T } Y .
 
O estimador (5.79) pode também ser obtido directamente a partir de (5.65) [ex-
~
pressão do estimador FIVE na notação A], fazendo Z = I m ⊗ Z . Com efeito,
−1
~ ~ ~ ~
βˆFIVE =  X T ( I m ⊗ Z ){( I m ⊗ Z T )(Σˆ ⊗ I n )( I m ⊗ Z )}−1 ( I m ⊗ Z T ) X 
 
~ ~ ~ ~
× X T ( I m ⊗ Z ){( I m ⊗ Z T )(Σˆ ⊗ I n )( I m ⊗ Z )}−1 ( I m ⊗ Z T )Y
−1
~ ~ ~ ~
=  X T ( I m ⊗ Z ){Σˆ −1 ⊗ ( Z T Z ) −1}( I m ⊗ Z T ) X 
 
~ ~ ~ ~
× X T ( I m ⊗ Z ){Σˆ −1 ⊗ ( Z T Z ) −1}( I m ⊗ Z T )Y
ou
−1
~ ~ ~ ~ ~ ~ ~ ~
βˆFIVE =  X T {Σˆ −1 ⊗ Z ( Z T Z ) −1 Z T } X  X T {Σˆ −1 ⊗ Z ( Z T Z ) −1 Z T }Y .
 
Chama-se a atenção para as diferenças entre o estimador MQ3P, (5.78), e o esti-

mador FIVE [na versão (5.65)]. A diferença resulta do facto de os instrumentos serem
comuns a todas as equações.
Quando se utiliza a notação B das matrizes X, Y e Z, conclui-se facilmente que
 X 1• 
 
X
Z X = [ I m ⊗ z1T• I m ⊗ z2T• L I m ⊗ zn • ]
1 T 1 T  2•  1 n
 M  n ∑t =1 m
S zx = = ( I ⊗ ztT• ) X t • .
n n
 
 X n • 
Do mesmo modo,
 y1T• 
 T
y
Z Y = [ I m ⊗ z1T• I m ⊗ z2T• L I m ⊗ zn • ]
1 T 1 T  2•  1 n
szy = = ∑t =1 ( I m ⊗ ztT• ) ytT• .
n n  M  n
 
 ynT• 
Fica ao cuidado do leitor obter o estimador (5.79) a partir de (5.66) [expressão

do estimador FIVE na notação B].
~
(5.80) Cov a ( βˆMQ3P ) = {QzxT (Σ −1 ⊗ Qzz−1 ) Qzx }−1 ,
onde
 E ( ztT• xt1• ) O L O 
 
 O E ( ztT• xt 2• ) L O .
Qzx =
 M M M 
 
 O O L E ( ztT• xtm • )
~
Cada bloco de QzxT (Σ −1 ⊗ Qzz−1 ) Qzx , de tipo ki × kl , é dado por
~
σ il E ( xtiT• zt • ) E ( ztT• zt • ) −1 E ( ztT• xtl • ) = σ ilQzxT i Qzz−1Qzxl ,
onde Qzxi = E ( ztT• xti • ) (i = 1, 2, K , m) .

Tem-se
−1
^ ~
(5.81) Cov a ( βˆMQ3P ) = {S zxT (Σˆ −1 ⊗ S zz−1 ) S zx }−1 = n  X T {Σˆ −1 ⊗ H Z~ } X  .
 
A estatística de Sargan é dada por
QS = J ( βˆMQ3P , Sˆ −1 ) = n ( szy − S zx βˆMQ3P )T Sˆ −1 ( szy − S zx βˆMQ3P )
= (Y − XβˆMQ3P )T (Σˆ −1 ⊗ H Z~ )(Y − XβˆMQ3P ).
Neste caso,
d
(5.82) QS = J ( βˆMQ3P , Sˆ −1 ) → χ 2 (mq − k ) .
MQ3P versus SMQ2P
A seguir vão analisar-se algumas relações entre o estimador MQ3P e o estima-

dor SMQ2P. Continuando a supor que os instrumentos são os mesmos para cada equa-
ção, zt • = zti • (vector 1 × q ), admita-se que os regressores também são comuns a todas
~
as equações, xt • = xti • (vector 1 × k ). Neste caso, fazendo Qzx = E ( ztT• xt • ) , de tipo q × k ,
vem
Q~
O L O
 zx 
O Q ~ 
zx L O ~
Qzx =   = Im ⊗ Q zx .
 M M M 
 ~ 
 O O L Qzx 
 
Considerando a matriz
~ 1 n
S zx = ∑t =1 ztT• xt • ,
n
de tipo q × k , tem-se
 S~ O L O
 zx 
O ~
S zx L O 
S zx =   = I m ⊗ S~zx .
 M M M 
 ~ 
O O L S zx 
 
Então,
~ ~
βˆMQ3P = {S zxT (Σˆ −1 ⊗ S zz−1 ) S zx }−1 S zxT (Σˆ −1 ⊗ S zz−1 ) szy
~ ~ ~ ~ ~
= {( I m ⊗ S zxT )(Σˆ −1 ⊗ S zz−1 )( I m ⊗ S zx )}−1 ( I m ⊗ S zxT )(Σˆ −1 ⊗ S zz−1 ) szy
~ ~ ~ ~ ~
= (Σˆ −1 ⊗ S zxT S zz−1S zx ) −1 (Σˆ −1 ⊗ S zxT S zz−1 ) szy
~ ~ ~ ~ ~
= Σˆ ⊗ ( S zxT S zz−1S zx ) −1  (Σˆ −1 ⊗ S zxT S zz−1 ) szy
 
~ ~ ~ ~ ~
=  I m ⊗ ( S zxT S zz−1S zx ) −1 S zxT S zz−1  szy ,
 
ou
( S~T S~ −1S~ ) −1 S~T S~ −1 O L O   szy 
 zx zz zx zx zz
~ ~ ~ ~ ~  1 
 O T −1 −1 T −1
( S zx S zz S zx ) S zx S zz L O   szy 2 
βˆMQ3P =   ,
 M M M  M 
 ~ ~ ~ ~ ~  
O O L ( S zxT S zz−1S zx ) −1 S zxT S zz−1   szy m 
 
ou ainda,
 ( S~T S~ −1S~ ) −1 S~T S~ −1s 
 ~zx ~zz ~zx ~zx ~zz zy1 
 ( S zxT S zz−1S zx ) −1 S zxT S zz−1szy 
βˆMQ3P = 2
,
 M 
 ~T ~ −1 ~ −1 ~T ~ −1 
( S zx S zz S zx ) S zx S zz szy m 
obtendo-se o estimador SMQ2P (vector de estimadores MQ2P “empilhados”). Verifica-

-se, assim, que no caso de instrumentos comuns e de regressores comuns, há equiva-
lência numérica entre o estimador MQ3P e o estimador SMQ2P. Se não houver ho-
mocedasticidade condicionada, este resultado não é verdadeiro porque não é possível
escrever Sˆ −1 como um produto de Kronecker.
Considere-se um sistema de duas equações de regressões, em condições de se
poder aplicar o estimador MQ3P:
 yt1 = xt1• β •1 + ut1

 yt 2 = xt 2• β• 2 + ut 2 ,
onde, como se sabe, xt1• é de tipo 1 × k1 , e xt 2• é de tipo 1 × k2 . Suponha-se que o vector
das variáveis instrumentais, zt • , tem p = k2 componentes (deste modo, a segunda equa-
ção é exactamente identificada). Vai mostrar-se que ter em conta esta equação não au-
menta a eficiência quando se passa do estimador MQ2P de β •1 para o respectivo esti-
mador MQ3P.
Com efeito, sejam os estimadores βˆ•1, MQ2P e βˆ•1, MQ3P . De acordo com (4.89), fa-
cilmente se verifica que
Cov a ( βˆ•1, MQ2P ) = σ 11 A11−1 ,
onde A11 = E ( xtT1• zt • ) E ( ztT• zt • ) −1 E ( ztT• xt1• ) . Note-se, também, que

σ 11 σ 12  σ 11 σ 12 
Σ=  e Σ =
−1
.
σ 21 σ 22  σ 21 σ 22 
 
Recorrendo a (5.80), tem-se
−1
 Cov a ( βˆ•1, MQ3P ) Cov a ( βˆ•1, MQ3P , βˆ• 2, MQ3P ) σ 11 A11 σ 12 A12 
Cov a ( βˆMQ3P ) =  =  ,
Cov a ( βˆ• 2, MQ3P , βˆ•1, MQ3P ) Cov a ( βˆ• 2, MQ3P )  σ 21 A21 σ 22 A22 
onde
A11 = E ( xtT1• zt • ) E ( ztT• zt • ) −1 E ( ztT• xt1• ) , A12 = E ( xtT1• zt • ) E ( ztT• zt • ) −1 E ( ztT• xt 2• ) ,
A21 = E ( xtT2• zt • ) E ( ztT• zt • ) −1 E ( ztT• xt1• ) , A22 = E ( xtT2• zt • ) E ( ztT• zt • ) −1 E ( ztT• xt 2• ) .
Utilizando a técnica de inversão de matrizes por blocos, obtém-se

−1
 σ 12σ 21 
Cov a ( βˆ•1, MQ3P ) =  σ 11 A11 − A12 A22−1 A21  .
 σ 22

Notando que p = k2 , vem

−1
A22 = {E ( xtT2• zt • ) E ( ztT• zt • ) −1 E ( ztT• xt 2• )}−1 = E ( ztT• xt 2• ) −1 E ( ztT• zt • ) E ( xtT2• zt • ) −1 ,
e A12 A22−1 A21 = A11 .

Então,
σ 22
Cov a ( βˆ•1, MQ3P ) = A−1 = σ 11 A11−1 ,
σ σ −σ σ
11 22 12 21 11
uma vez que, calculando a inversa de Σ −1 , se obtém

σ 22
σ 11 = 11 22 .
σ σ − σ 12σ 21
Provou-se, assim, que
Cov a ( βˆ•1, MQ3P ) = Cov a ( βˆ•1, MQ2P ) .
O estimador SUR
O estimador MQ3P pode ser simplificado quando se supõe que o vector 1 × q

dos instrumentos, zt • , é formado pelo conjunto de todos os regressores abrangidos
pelos vectores xti • ( i = 1, 2, K , m ). Assim, representando por {xti • } o conjunto dos re-
gressores da equação i, os elementos do vector zt • são os elementos do conjunto
m
U i =1
{xti • } .
Deste modo, verificam-se as condições,

(5.83) E ( xti •utl ) = 0 ( i, l = 1, 2, K , m ).
Esta hipótese significa que os regressores são pré-determinados relativamente a

cada equação separadamente (ortogonalidade intra-equações), mas também são pré-
-determinados relativamente às outras equações (ortogonalidade inter-equações). As
mk condições (5.83) são as condições subjacentes ao estimador SMQGF, e podem resu-
mir-se na forma E (utT• ⊗ X t • ) = O [ver (5.35)].
xti • = zt • Di ,
onde se supõe, sem perda de generalidade, que os primeiros ki elementos de zt • são os

elementos de xti • e que Di é a matriz de tipo q × ki formada pelas primeiras ki colunas
da matriz I q .
Quando se consideram as condições (5.83), facilmente se verifica que (5.57) [hi-
pótese SER.6] se reduz a
E (utiutl | xt1• , xt 2• , K , xtm • ) = σ il ( i, l = 1, 2, K , m ),
uma vez que o vector zt • é a união de todos os xti • .

Supondo (5.57) e (5.83), prova-se, sem dificuldade, que as hipóteses SER.5 e

~
SER.6 implicam SER.4. Com efeito, como S = Σ ⊗ E ( ztT• zt • ) = Σ ⊗ Qzz , e S tem inversa,
~
resulta que Qzz também é invertível (as suas q colunas são linearmente independentes).
Então, as colunas de Qzxi = E ( ztT• xti • ) – em número ki ≤ q – também são linearmente in-
dependentes, porque xti • está contido em zt • .
Exemplo 5.9 – Retome-se o exemplo 5.1, supondo que se verifica (5.83). Então,
zt • = [ 1 educt expert qit ] .
As condições de ortogonalidade são as seguintes:

 
E ( zt •ut1 ) = E   ut1 educt ut1 expert ut1 qit ut1   = 0 ,
   
 
 
E ( zt •ut 2 ) = E   ut 2 educt ut 2 expert ut 2 qit ut 2   = 0 .
   
 
Estas condições devem ser comparadas com as condições de ortogonalidade que
garantem que os regressores são pré-determinados apenas em cada equação:
 
E ( xt1•ut1 ) = E   ut1 educt ut1 expert ut1 qit ut1   = 0,
   
 
 
E ( xt 2•ut 2 ) = E   ut 2 educt ut 2 qit ut 2   = 0 .
   
 
Então, no caso daquelas condições de ortogonalidade, pode concluir-se que a se-
gunda equação do modelo é sobre-identificada, pois considera-se expert como variável
instrumental.
∇

zt • = [ 1 educ1t exper1t educ 2t exper 2t qit ] .
Todas as variáveis deste vector são ortogonais a ut1 e a ut 2 .

∇
Quando se considera a hipótese (5.83), obtém-se o estimador SUR (Seemingly

Unrelated Regressions), β̂SUR , que pode ser apresentado na forma (5.78). Contudo, a
forma (5.79) pode ser simplificada. Começa-se por recordar que o bloco genérico da
~
matriz S zxT (Σˆ −1 ⊗ S zz−1 ) S zx é
~ 1 
σˆ il ( S zxT S zz−1S zx ) = σˆ il  X •Ti H Z~ X •l  ( i, l = 1, 2, K , m ).
n 
i l
Vai provar-se que

1 T 1
(5.84) X •i H Z~ X •l = X •Ti X • l = S xi xl .
n n
Com efeito, seja
~
X •i = Z Di ,
onde se supõe, sem perda de generalidade, que as colunas de X •i são as primeiras ki

~
colunas de Z . Assim,
1 T 1 ~ ~ 1 ~ ~ 1
X •i H Z~ X • l = DiT Z T H Z~ Z Dl = DiT Z T Z Dl = X •Ti X • l = S xi xl .
n n n n
~
Também se sabe que o bloco genérico de S zxT (Σˆ −1 ⊗ S zz−1 ) szy é
~ ~ ~
σˆ i1S zxT i S zz−1szy1 + σˆ i 2 S zxT i S zz−1szy 2 + L + σˆ im S zxT i S zz−1szy m ( i = 1, 2, K , m ),
onde
~ 1
S zxT i S zz−1szy l = X •Ti H Z~ y•l .
n
Do mesmo modo, se verifica que
1 T 1
(5.85) X •i H Z~ y•l = X •Ti y•l = sxi y l .
n n
Utilizando os resultados (5.84) e (5.85), tem-se
−1
 σˆ 11 X •T1 X •1 σˆ 12 X •T1 X • 2 L σˆ 1m X •T1 X • m 
 21 T 
 σˆ X • 2 X •1 σˆ X • 2 X • 2 L σˆ X • 2 X • m 
22 T 2m T
βˆSUR = 
 M M M 
σˆ m1 X T X σˆ m 2 X T X L σˆ mm X T X 
 • m •1 •m •2 •m •m 
 σˆ 11 X •T1 y•1 + σˆ 12 X •T1 y• 2 + L + σˆ 1m X •T1 y• m 

 21 T 
 σˆ X • 2 y•1 + σˆ X • 2 y• 2 + L + σˆ X • 2 y• m 
22 T 2m T
× ,
 M 
σˆ m1 X T y + σˆ m 2 X T y + L + σˆ mm X T y 
 • m •1 •m •2 •m •m 
ou
(5.86) βˆSUR = { X T (Σˆ −1 ⊗ I n ) X }−1 X T (Σˆ −1 ⊗ I n )Y .
Comparando este estimador com (5.42), conclui-se imediatamente que o estima-
dor SUR coincide com o estimador SMQGF, de acordo com a notação A das matrizes
X e Y. Recorrendo à respectiva notação B, fica ao cuidado do leitor mostrar que o
estimador SUR coincide com o estimador SMQGF dado por (5.43). Assim, quando se
introduz a hipótese da homocedasticidade condicionada, o estimador SMQGF costuma
designar-se por estimador SUR. Pode também concluir-se que o vector das variáveis
instrumentais implícito no cálculo do estimador SMQGF é o mesmo que se considera
no estimador SUR.
~ ~
Sabendo que o bloco genérico de QzxT (Σ −1 ⊗ Qzz−1 ) Qzx é dado por σ ilQzxT i Qzz−1Qzxl ,
pode provar-se que
~
QzxT i Qzz−1Qzxl = Qxi xl = E ( xtiT• xtl • ) ( i, l = 1, 2, K , m ).
Assim,
 σ 11Qx1 x1 σ 12Qx1 x2 L σ 1mQx1 xm 
 12 
 σ Qx 2 x1 σ 22Qx2 x2 L σ 2 mQx2 xm 
(5.87) Cov a ( βˆSUR ) =  ,
 M M M 
σ 1mQ Qxm x2 L σ Qx m x m 
x m x1 σ
2m mm

onde Qxi xl = E ( xtiT• xtl • ) ( i, l = 1, 2, K , m ).
Logo,
 σˆ 11S x1 x1 σˆ 12 S x1 x 2 L σˆ 1m S x1 xm 
 12 
^  σˆ S x2 x1 σˆ 22 S x2 x2 L σˆ 2 m S x2 xm 
(5.88) Cov a ( βˆSUR ) =  ,
 M M M 
σˆ 1m S ˆ S xm x 2 L σˆ S xm xm 
x m x1 σ
2m mm

onde S xi xl = (1 / n)Σtn=1 xtiT• xtl • ( i, l = 1, 2, K , m ). Os estimadores σ̂ il são obtidos a partir
dos resíduos MQ resultantes do ajustamento de cada equação do modelo.
Alternativamente a (5.88), pode fazer-se
^ −1
(5.89) Cov a ( βˆSUR ) = n  X T {Σˆ −1 ⊗ I n } X  .
 
Comparando (5.46) com (5.88) [ou (5.89)], verifica-se que os erros padrão cor-
respondentes a (5.46) são mais robustos que os erros padrão resultantes do estimador
SUR. Pode dizer-se que o estimador SMQGF deduzido na secção 5.6 é o estimador
SUR robusto.
A estatística de Sargan reduz-se a
d
(5.90) QS = J ( βˆSUR , Sˆ −1 ) = n ( szy − S zx βˆSUR )T Sˆ −1 ( szy − S zx βˆSUR ) → χ 2 (mq − k ) ,
~
onde Sˆ = Σˆ ⊗ S zz .
Conclui-se, sem dificuldade, que: se juntar a zt • outras variáveis que não sejam
regressores, o estimador SUR não se altera numericamente, porque este estimador não
considera os instrumentos que não são regressores; no entanto, a estatística de Sargan é
numericamente diferente, porque Ŝ depende do novo zt • (o aumento do número de
graus de liberdade é igual ao produto de m pelo número de novos instrumentos).
Supondo que não há homocedasticidade condicionada, o estimador SUR conti-
nua a ser consistente e assintoticamente normal, pois é um estimador MGM, embora
não seja eficiente.
Segue-se um exemplo que alerta para os perigos da estimação conjunta.
Exemplo 5.11 – Considere-se o modelo com duas equações,

 yt1 = β1 xt1 + ut1

 yt 2 = β 2 xt 2 + β 3 xt 3 + ut 2 ,
a verificar as hipóteses do modelo SUR. Para simplificar, vai admitir-se que são conhe-
cidos os seguintes parâmetros: σ 11 = E (ut21 ) , σ 12 = E (ut1ut 2 ) e σ 22 = E (ut22 ) . Supondo
que se utiliza o estimador SUR, omitindo erroneamente xt 3 da segunda equação, vai
analisar-se a consistência do estimador de β1 . Dispondo de n observações para cada va-
riável, tem-se Y = Xβ + β3 d + U , onde
y  x 0 0 β  u 
Y =  •1  , X =  •1  , d =   , β =  1  e U =  •1  ,
 y• 2   0 x• 2   x•3  β 2  u• 2 
O estimador SUR de β (omitindo xt 3 ) é, de acordo com (5.86),
βˆSUR = { X T (Σ −1 ⊗ I n ) X }−1 X T (Σ −1 ⊗ I n )Y ,
onde
σ σ 
Σ =  11 12  .
σ 12 σ 22 
Então,
−1
 βˆ    xT 0  σ 11I σ 12 I   x 0  
βˆSUR =  1,SUR  =   •1 T   12 n 22 n   •1
  
βˆ 0 x σ I σ I 0 x
 2,SUR    •2   n n  •2  
 x 0  σ I σ I   y 
T 11 12
×  •1 T   12 n 22 n   •1  .
 0 x• 2  σ I n σ I n   y• 2 
−1
σ 11 xT x σ 12 xT x   σ 11 xT y + σ 12 x•T1 y• 2 
=  12 •T1 •1 22 •T1 • 2   12 T•1 •1 .
σ x• 2 x•1 σ x• 2 x• 2  σ x• 2 y•1 + σ x• 2 y• 2 
22 T
Substituindo y•1 por β1 x•1 + u•1 , e y• 2 por β 2 x• 2 + β 3 x•3 + u• 2 , fica ao cuidado do

leitor verificar que
βˆSUR = β + β3 A + B ,
onde
−1
σ 11 x•T1 x•1 σ 12 x•T1 x• 2   σ 12 x•T1 x•3 
A=   22 T  ,
σ x• 2 x•1 σ x• 2 x• 2  σ x• 2 x•3 
12 T 22 T
−1
σ 11 x•T1 x•1 σ 12 x•T1 x• 2   σ 11 x•T1u•1 + σ 12 x•T1u• 2 
B=   12 T .
σ 12 x•T2 x•1 σ 22 x•T2 x• 2  σ x• 2u•1 + σ 22 x•T2u• 2 
Facilmente se verifica que plim(B) = 0 (os regressores são ortogonais às variá-

veis residuais), mas plim(A) ≠ 0 . Assim, o estimador SUR não é consistente para β1 (e
para β 2 ).
∇
SUR versus SMQ
Como os regressores são pré-determinados, também se pode estimar cada equa-

ção do sistema pelo método MQ. Comparando o estimador SUR com o estimador SMQ,
facilmente se conclui que aquele entra em linha de conta com mais condições de ortogo-
nalidade. De facto, o estimador SUR é MGM eficiente (sob a hipótese da homocedasti-
cidade condicionada) com as condições de ortogonalidade dadas por (5.83); o estimador
SMQ é obviamente MGM eficiente (sob a hipótese da homocedasticidade condicio-
nada) quando as condições de ortogonalidade se reduzem a E ( xti •uti ) = 0 , i = 1, 2, K , m
(não se consideram as ortogonalidades cruzadas). Como as condições de ortogonalidade
são diferentes, os estimadores MGM também diferem.
Qual a razão para utilizar o estimador SUR? Para responder a esta questão deve
notar-se que:
− Supondo homocedasticidade condicionada (hipótese SER.6), o estimador MGM efi-
ciente é o estimador FIVE, que é numericamente equivalente ao estimador SUR, sob
a hipótese (5.83).
− No capítulo 4 (modelo com uma equação) verificou-se que, sob a hipótese da homo-
cedasticidade condicionada, o estimador MGM eficiente é o estimador MQ2P, que é
numericamente equivalente ao estimador MQ, se os regressores forem pré-determi-
nados.
Estas relações estão resumidas no quadro seguinte:

Hipóteses Estimação separada Estimação conjunta
SER.1 a SER.5 MGM MGM
SER.1 a SER.6 SMQ2P FIVE
SER.1 a SER.6 e (5.83) SMQ SUR
Assim, a relação que existe entre o estimador SUR (estimação conjunta) e o esti-
mador SMQ (estimação separada) é da mesma natureza daquela que se tem entre os es-
timadores MGM (para os dois tipos de estimação).
De forma semelhante ao que se viu na secção 5.5, há dois casos em que os esti-
madores SUR e SMQ são “equivalentes”:
a) Cada equação é exactamente identificada. Como o vector dos instrumentos é co-
mum a todas as equações, e é formado pela união de todos os regressores, é forçoso
que cada equação tenha os mesmos regressores, isto é, xti • = zt • ( i = 1, 2, K , m ). Nes-
tas condições, o modelo SUR designa-se por modelo de regressão multivariada
(este modelo é um exemplo de modelo com regressores comuns).
Fazendo xti • = xt • (vector 1 × k ), o modelo (5.2) reduz-se a
yti = xt • β•i + uti (i = 1, 2, K , m ; t ∈ T ) .
Alternativamente, a partir de (5.3), o modelo pode ser apresentado da seguinte ma-

neira:
ytT• = X t • β + utT• ,
onde X t • = I m ⊗ xt • .
Dispondo de uma amostra de dimensão n, pode estabelecer-se, de acordo com a
notação A, a respectiva relação amostral. Tem-se
~
y•i = X β•i + u•i ,
~
onde X , matriz n × k , é
 x1• 
 
~  x2• 
X= .
 M 
 
 xn • 
Agrupando as m equações do sistema, vem

~
Y = ( I m ⊗ X )β + U ,
~
com X = I m ⊗ X .
Com a notação B, obtém-se Y = Xβ + U , onde a matriz X, de tipo mn × mk , é dada
por
 I m ⊗ x1• 
 
 I m ⊗ x2• 
X= .
 M 
 
 I m ⊗ xn• 
Em qualquer das notações [a) ou b)], tem-se zt • = xt • (vector 1 × k , pois q = k ), e
Z=X.
Observou-se na secção 5.5 que os estimadores MGM, conjunto e separado, são nu-
mericamente iguais ao estimador VI. Como os regressores são pré-determinados, o
estimador MGM referente à regressão multivariada é simplesmente o estimador MQ.
~
Isto pode ser verificado directamente, fazendo X = I m ⊗ X na expressão do estima-
dor SUR, (5.86). Assim, o estimador MQ (regressão multivariada) é dado por
~ ~ ~
(5.91) βˆMQ = {I m ⊗ ( X T X ) −1 X T }Y ,
~ ~ ~
onde cada subvector é βˆ•i , MQ = ( X T X ) −1 X T y•i .
~ ~ ~ ~
Como xti • = zt • = xt • e Qzz = E ( ztT• zt • ) , pode fazer-se Qzz = Qxx , onde Qxx = E ( xtT• xt • ) .
~
Assim, obtém-se Qzx = QzxT = I m ⊗ E ( xtT• xt • ) = I m ⊗ Qxx . Então, as expressões de
^
Cov a ( βˆSUR ) e de Cov a ( βˆSUR ) ,
na regressão multivariada, podem ser obtidas sem dificuldade.

Com efeito, como
−1
~ ~ ~
Cov a ( βˆMQ ) = ( I m ⊗ Qxx )(Σ −1 ⊗ Qxx−1 )( I m ⊗ Qxx ) ,
 
conclui-se que
~
(5.92) Cov a ( βˆMQ ) = Σ ⊗ Qxx−1 .
Da mesma forma, vem

−1
1 n  ~
[ ~ ~
]
^
(5.93) Cov a ( βˆMQ ) = Σˆ ⊗  ∑t =1 xtT• xt •  = Σˆ ⊗ S xx−1 = n Σˆ ⊗ ( X T X ) −1 ,
n 
onde
~ 1 n 1 ~ ~
S xx = ∑t =1 xtT• xt • = X T X .
n n
O estimador MQ da regressão multivariada, dado por (5.91), é um caso particular do
estimador SMQ. De facto, para obter (5.91), os regressores são comuns às várias
equações, xti • = xt • . No caso do estimador SMQ esta condição não é exigida (no en-
tanto, para ambos os casos, e em cada equação, os regressores são pré-determinados).
b) Quando pelo menos uma equação é sobre-identificada, o estimador SUR é mais
eficiente que o estimador SMQ, a menos que as equações não estejam “relaciona-
das”, no sentido dado por (5.30). No caso de homocedasticidade condicionada, e do
vector dos instrumentos ser comum, (5.30) reduz-se a
~
σ il E ( ztT• zt • ) = σ ilQzz = O (i, l = 1, 2, K, m ; i ≠ l) .
~
Como Qzz = E ( ztT• zt • ) ≠ O , porque não é singular, então as equações não estão “rela-
cionadas” se e só se σ il = 0 (a matriz Σ é diagonal). O estimador SUR é mais efici-
ente que o estimador MQ se σ il ≠ 0 , par algum par (i, l) . Se σ il = 0 para todos os
pares (i, l) , com i ≠ l , os dois estimadores são assintoticamente equivalentes.
Outra forma de constatar a eficiência do estimador SUR é considerar o modelo

SUR como um modelo de regressão multivariada com restrições de exclusão a priori; o
estimador SUR é mais eficiente que o estimador MQ do modelo de regressão multiva-
riada porque tem em conta aquelas restrições. Para ilustrar esta argumentação considere-
-se o exemplo seguinte:
Exemplo 5.12 – Retome-se os exemplos 5.1 e 5.9, mas supondo que

lsalart = β11 + β 21 educt + β31 expert + β 41 qit + ut1

cmtt = β12 + β 22 educt + β32 expert + β 42 qit + ut 2 ,
onde zt • = [ 1 educt expert qit ] .
Este sistema de duas equações é um modelo de regressão multivariada (com os
mesmos regressores nas duas equações). Mas, se se considerar, por exemplo, a restrição
de exclusão a priori, β 32 = 0 , o modelo torna-se um modelo SUR.
∇
Mais alguns comentários sobre os estimadores SUR e SMQ:

a) No caso de cada equação ser exactamente identificada, mesmo que não exista homo-
cedasticidade condicionada, o estimador SUR ainda se reduz ao estimador MQ (re-
gressão multivariada).
b) No caso de regressores comuns, existe uma razão importante para continuar a usar o
estimador SUR: quando se está interessado em fazer testes de hipóteses que envol-
vem coeficientes de regressão de equações diferentes, deve recorrer-se ao estima-
dor da matriz das covariâncias assintóticas de βˆSUR , e não à respectiva matriz de
βˆ•i ,SUR . Estimar cada equação com o método MQ não fornece directamente as esti-
mativas das covariâncias assintóticas dos estimadores de dois coeficientes de regres-
são pertencentes a equações diferentes. O método SUR fornece automaticamente tais
estimativas.
c) Se, em vez de (5.83), se considerar a hipótese E ( xti •uti ) = 0 ( i = 1, 2, K , m ), o estima-
dor SUR não é consistente, o que mostra a importância das ortogonalidades cruzadas.
O estimador MGM eficiente (supondo homocedasticidade condicionada) é o estima-
dor SMQ.
d) Uma questão importante relativa aos estimadores SUR e SMQ tem a ver o trade-off
entre eficiência e robustez. Salvo nos casos de “equivalência” entre os dois estima-
dores, sob homocedasticidade condicionada, o estimador SUR é assintoticamente
mais eficiente que o estimador SMQ; contudo, este estimador é mais robusto do que
aquele. A vantagem do estimador SUR do ponto de vista da eficiência assintótica é
obtida supondo que os regressores de cada equação não estão correlacionados com as
variáveis residuais de cada equação. Se os regressores não são comuns a todas as
equações, é porque intencionalmente alguns deles foram omitidos de algumas equa-
ções. Se se pretender, por exemplo, fazer inferência estatística sobre os coeficientes
da primeira equação, mas a segunda equação está mal especificada, o método SUR
produz, em geral, estimadores inconsistentes dos coeficientes de todas as equações.
Contudo, o estimador MQ dos coeficientes da primeira equação é consistente, desde
que haja ortogonalidade entre os seus regressores e a sua variável residual.
e) Facilmente se verifica que J ( βˆSMQ , Sˆ −1 ) = 0 .
f) Na secção 8A.1 do anexo 8A do capítulo 8 estuda-se a estimação do modelo de re-
gressão multivariada pelo método da máxima verosimilhança.
No contexto do modelo SUR é importante saber se as equações estão, ou não,

“relacionadas”, pois, em caso negativo, pode aplicar-se o método dos mínimos quadra-
dos separadamente a cada equação. O teste a efectuar é o seguinte:
H 0 : ∀σ il = 0 contra H1 : ∃σ il ≠ 0 (i ≠ l) .
A estatística-teste apropriada é a seguinte estatística de Breusch-Pagan:

d
n∑i < l ril2 → χ 2 ( p) ,
m
onde
σˆ i2l
ril2 = ,
σˆ iiσˆ ll
p = m(m − 1) / 2 , e o símbolo Σim< l significa que se faz a soma de todos os ril2 , com i < l
(i, l = 1, 2, K, m) .
5.8 - Coeficientes comuns
Em muitas aplicações, em particular no contexto de dados de painel, trabalha-se

com um caso especial de modelo de equações múltiplas, onde o número de regressores é
o mesmo para todas as equações, e os coeficientes de regressão são os mesmos. Diz-se,
então, que o modelo tem coeficientes comuns.
Exemplo 5.13 – Retomando o exemplo 5.2, o respectivo modelo com coeficientes co-
muns é o seguinte:
lsalar1t = β1 + β 2 educ1t + β3 exper1t + β 4 qit + ut1
lsalar 2t = β1 + β 2 educ 2t + β3 exper 2t + β 4 qit + ut 2 .
∇
O modelo SER com coeficientes comuns
O modelo SER com coeficientes comuns pode ser apresentado da seguinte ma-
neira (notação A):
(5.94) yti = xti • β + uti (i = 1, 2, K , m ; t ∈ T ) ,
onde
 β1 
 
β2
xti• = [ xti1 xti 2 L xtik ] e β =   .
M
 
 β k 
Assim:
− xti• é o vector 1 × k da observação t dos regressores da equação i;
− β é o vector k × 1 dos coeficientes de regressão (comum a todas as equações), de
elemento genérico β j ( j = 1, 2, K , k ) .
Alternativamente tem-se (notação B):

(5.95) ytT• = X t • β + utT• (t ∈ T ) ,
considerando a matriz m × k ,
 xt1• 
x 
X t • =  t 2•  .
 M 
 
 xtm • 
Dispondo de uma amostra de dimensão n (t = 1, 2, K , n) , a relação amostral,

Y = Xβ + U , pode ser formalizada de duas maneiras equivalentes, tendo por base (5.94)
ou (5.95):
a) Agrupando as n relações (5.94), tem-se
(5.96) y•i = X •i β + u•i (i = 1, 2, K , m) ,
onde X •i é a matriz n × k (de elemento genérico xtij ) das observações dos regresso-
res da equação i.
Então, em Y = Xβ + U , a matriz X, de tipo mn × k é dada por
 X •1 
 
 X •2 
X =
M 
 
 X • m 
Devido ao facto de os coeficientes serem comuns, há uma diferença fundamental en-

tre a matriz X anterior e a matriz X em (5.4): esta é diagonal por blocos, onde os blo-
cos são as matrizes X •i ; aquela, “empilha” estas matrizes. Os vectores Y e U não se
alteram.
b) Quando se consideram as n relações (5.95), a matriz X, de tipo mn × k , é
 X 1• 
X 
X =  2•  ,
 M 
 
 X n• 
onde cada bloco X t • ( t = 1, 2, K , n ) é a matriz m × k considerada em (5.95). Os vec-
tores Y e U já são conhecidos.
Como é de esperar, as notações A e B são equivalentes: apenas diferem pela

ordenação das observações.
Nestas condições, a hipótese SER.1 é substituída pela seguinte:
Hipótese SER.1’ – Linearidade com coeficientes comuns

yti = xti • β + uti (i = 1, 2, K , m ; t ∈ T ) , onde: yti é a observação t do regressando yi ; xti•
é o vector 1 × k da observação t dos regressores da equação i; β é o vector k × 1 dos
coeficientes de regressão da equação i; uti é a variável residual da observação t da equa-
ção i.
As hipóteses SER.2 (estacionaridade ergódica). SER.3 (ortogonalidade), SER.5

(diferença-martingala) e a hipótese adicional da propriedade 5.2 (existência de quartos
momentos) mantêm-se inalteradas, apenas a hipótese SER.4 tem que ser adaptada.
Assim, para estabelecer a condição de característica é fácil verificar que
 E ( ztT1•ut1 )   E{ztT1• ( yt1 − xt1• β )}   E ( ztT1• yt1 )   E ( ztT1• xt1• ) 

       
 E ( zt 2•ut 2 )   E{zt 2• ( yt 2 − xt 2• β )}   E ( zt 2• yt 2 )   E ( zt 2• xt 2• ) 
T T T T
E ( gt • ) =  = = − β ,

T
 M   M   M   M 
 E ( z T u )  E{z T ( y − x β )}  E ( z T y )  E ( z T x )
 tm • tm   tm • tm tm •   tm • tm   tm • tm • 
ou E ( gtT• ) = qzy − Qzx β , onde

 qz y   E ( z T y )   Qz x   E ( z T x ) 
t1• t1 t 1• t 1•
 11    11  
q T
 z 2 y 2   E ( zt 2• yt 2 )   Qz x   E ( z T
• x • ) 
qzy =   =  = E ( Z tT• ytT• ) e Qzx =  2 2
 = t 2 t 2
 = E (Zt • X t • ) .
T
M M M M
       
qz m y m   E ( ztm
T
ytm ) Qz m xm   E ( ztm T
xtm • )
   •     • 
Os tipos das matrizes qzy e Qzx são, respectivamente, p × 1 e p × k ; note-se que esta
matriz Qzx , em vez de ser diagonal por blocos, é “empilhada”. A matriz Z t • continua a
ser diagonal por blocos, tal como quando os coeficientes não são comuns.
As condições de ortogonalidade são ainda dadas por
(5.97) Qzx β = qzy .
~
Seja o sistema de p equações a k incógnitas, Qzx β = qzy , onde o vector das incó-
~
gnitas é β (qualquer valor hipotético de β ). A identificação do vector β exige que
este sistema de equações seja possível e determinado. Então, é necessário e suficiente
que Qzx exista e que r (Qzx ) = k . Assim:
Hipótese SER.4’ – Condição de característica com coeficientes comuns

A matriz de tipo p × k , Qzx , existe e verifica r (Qzx ) = k .
Esta hipótese é mais fraca que SER.4 (cada equação do sistema é identificada).
Supondo SER.4’, a existência de uma matriz E ( ztiT• xti • ) com característica k é condição
suficiente de identificação. Com efeito, como E ( ztiT• xti • ) tem k linhas linearmente inde-
pendentes, Qzx tem, pelo menos, k linhas linearmente independentes. O facto de SER.4’
ser mais fraca do que SER.4 resulta da existência de restrições a priori que impõem que
os coeficientes sejam os mesmos em todas as equações; além disso, é possível que o
sistema seja identificado, mesmo que nenhuma equação individual seja identificada.
Exemplo 5.14 – Seja o modelo

lsalar1t = β1 + β 2 educ1t + β3 qit + ut1
lsalar 2t = β1 + β 2 educ 2t + β3 qit + ut 2 ,
onde as variáveis têm o significado dado no exemplo 5.2, e os regressores são endóge-
nos. Considerem-se as seguintes condições de ortogonalidade:
E (ut1 ) = 0 , E (meduct ut1 ) = 0 , E (ut 2 ) = 0 , E (meduct ut 2 ) = 0 ,
onde meduct é o número de anos completos de escolaridade da mãe do indivíduo t.

As variáveis instrumentais da 1.ª equação são 1 e meduct . Como o número de

regressores é três, esta equação, isoladamente, não é identificada. O mesmo acontece
com a 2.ª equação.
Para estudar a identificação do modelo, considere-se o sistema de quatro equa-
~
ções a três incógnitas, Qzx β = qzy , ou
 1 E (educ1t ) E (qit )  ~  E (lsalar1t ) 
 E (meduc ) E (meduc educ1 ) E (meduc qi )  β1   E (meduc lsalar1 ) 
 t t ~ 
t t t
β2 =  t t 
.
 1 E (educ 2t ) E (qit )   ~   E (lsalar 2t ) 
   β3   
 E ( meduct ) E ( meduc t educ 2 t ) E ( meduc qi )
t t   E (meduct lsalar 2t )
A identificação do modelo exige que r (Qzx ) = 3 . Se esta condição se verificar, o
modelo é identificado, embora cada equação individual o não seja. O modelo é identifi-
cado devido às restrições inter-equações (coeficientes comuns).
Suponha-se, agora, que as variáveis qi e meduc não estão correlacionadas,
E (meduct qit ) = E (meduct ) E (qit ) .
Neste caso, o modelo não é identificado, porque a terceira coluna de Qzx é igual
a E ( qit ) a multiplicar pela primeira coluna. A característica de Qzx é inferior a três.
∇
O estimador MGM
O estimador MGM dos parâmetros do modelo SER com coeficientes comuns é

formalmente semelhante a (5.15). Assim, tem-se
~ ~
g• n ( β ) = szy − S zx β ,
onde o vector szy é o mesmo de (5.15), e
 S z1 x1   ∑ ztT1• xt1•   Z •T1 X •1 

1 n 1
   n t =1  n 
     
1 n T 1 T
S
 z 2 x2  
 n ∑t =1 zt 2• xt 2•   n Z•2 X •2  1 T
 
S zx =  = = = Z X,
 M      n
    
M M

     
 1 n T   1 T 
 z m xm   n ∑t =1 ztm • xtm •   n Z • m X • m 
S
onde se utilizou a notação A das matrizes X e Z.

Quando se recorre à notação B de X e Z, tem-se
1 n T 1
n ∑t =1 t • t • n
S zx = Z X = ZT X .
Então, o estimador MGM de β é

(5.98) βˆ ∗ (Wˆ ) = ( S zxT Wˆ S zx ) −1 S zxT Wˆ szy = ( X T Z Wˆ Z T X ) −1 X T Z Wˆ Z T Y ,
onde a matriz dos pesos, Ŵ , apresenta a mesma estrutura que foi referida a propósito do
estimador (5.15): é uma matriz quadrada de ordem p, onde cada bloco, Ŵil , é de tipo
pi × pl . Utiliza-se o símbolo βˆ ∗ (Wˆ ) para representar o estimador MGM para salientar
o facto de o estimador se referir ao modelo SER com coeficientes comuns.
Tal como (5.16), o erro de amostragem é
(5.99) βˆ ∗ (Wˆ ) − β = ( S zxT Wˆ S zx ) −1 S zxT Wˆ g• n = ( X T Z Wˆ Z T X ) −1 X T Z Wˆ Z TU .
As propriedades do estimador MGM apresentadas na secção 5.4 continuam váli-
das para o estimador (5.98), com as necessárias adaptações; dispondo de um estimador
consistente de β , βˆ , os respectivos resíduos são uˆti = yti − xit • β̂ (i = 1, 2, K , m ) .
Quando se pretende relacionar o estimador MGM com os seus casos particulares
mais conhecidos da literatura, é conveniente reformular (5.98). Assim, utilizando szy e
S zx , vem
−1
  S   s 

  z1 x1    z1 y1 
  S z 2 x2    T  sz 2 y 2 
βˆ (Wˆ ) =   S zT1 x1 S zT2 x2 L S zTm xm  Wˆ
∗

T T 
   S z1 x1 S z 2 x 2 L S z m x m  Wˆ  ,
 
  M     M 
 S   s 
  z m xm    z m y m 
 
onde
Wˆ11 Wˆ12 L Wˆ1m 
 ˆ 
ˆ  W21 Wˆ22 L Wˆ2 m 
W= .
 M M M 
 
Wˆm1 Wˆm 2 L Wˆmm 
Fazendo os cálculos, obtém-se

−1
βˆ ∗ (Wˆ ) =  ∑i =1 ∑l=1 ( S zT x Wîl S z x ) ∑ ∑ ( S zTi xi Wîl s zl yl ) .
m m m m
(5.100)
 i i l l
 i =1 l =1
Recorrendo à notação A das matrizes X, Y e Z, este resultado pode ser apresen-

tado da seguinte maneira:
−1
βˆ ∗ (Wˆ ) = ∑i =1 ∑l =1 ( X •Ti Z •iWîl Z •Tl X •l ) ∑i =1 ∑l =1 ( X •Ti Z •iWîl Z •Tl y• l ) .
m m m m
(5.101)
   
No caso m = 2 , tem-se
βˆ ∗ (Wˆ ) = ( X •T1Z •1Wˆ11Z •T1 X •1 + X •T1Z •1Wˆ12 Z •T2 X • 2 + X •T2 Z • 2Wˆ21Z •T1 X •1 + X •T2 Z • 2Wˆ22 Z •T2 X • 2 ) −1
× ( X •T1Z •1Wˆ11Z •T1 y•1 + X •T1Z •1Wˆ12 Z •T2 y• 2 + X •T2 Z • 2Wˆ21Z •T1 y•1 + X •T2 Z • 2Wˆ22 Z •T2 y• 2 ) .
Fica ao cuidado do leitor escrever (5.100) para m = 2 .
Usando a notação B das matrizes X, Y e Z, tem-se
−1
 
βˆ ∗ (Wˆ ) =  ∑t =1 X tT• Z t •  Wˆ  ∑t =1 Z tT• X t •   ∑t =1 X tT• Z t •  Wˆ  ∑t =1 Z tT• ytT•  .
n n n n
(5.102)
       
O estimador MGM eficiente obtém-se quando Ŵ é substituído por Sˆ −1 , onde

Ŝ é dada por (5.21).
Homocedasticidade condicionada
No caso de homocedasticidade condicionada (hipótese SER.6), a matriz Ŝ é da-

da por (5.61), obtendo-se o estimador FIVE [ver (5.64)].
Se também se considerar que o conjunto de instrumentos é o mesmo para to-
das as equações, zti • = zt • , as matrizes S e Ŝ têm a mesma expressão que em (5.76) e
(5.77), respectivamente, ou seja,
~ 1 n   1 ~ ~ ~
S = Σ ⊗ E ( ztT• zt • ) = Σ ⊗ Qzz e Sˆ = Σˆ ⊗  ∑t =1 ztT• zt •  = Σˆ ⊗  Z T Z  = Σˆ ⊗ S zz .
n  n 
Os blocos genéricos das matrizes W = S −1 e Wˆ = Sˆ −1 são, respectivamente,
−1
~ ~  1 ~ ~
Wil = σ ilQzz−1 e Wîl = σˆ il S zz−1 = σˆ il  Z T Z  .
n 
As matrizes Qzx , qzy , S zx e szy podem ser reescritas utilizando produtos de Kro-
necker. Assim, tem-se
 E ( ztT• xt1• )   E ( ztT• yt1 ) 
 T
  T

 E ( zt • xt 2• )   E ( z t • yt 2 ) 
Qzx =   = E{( I m ⊗ zt • ) X t • } e qzy = 
T
 = E{( I m ⊗ zt • ) yt • } .
T T
 M   M 
 T   T 
 E ( zt • xtm • )  E ( zt • ytm )
Também se pode fazer
Qzx = E ( X t • ⊗ ztT• ) e qzy = E ( ytT• ⊗ ztT• ) ,
bastando notar que ztT• xti • = xti • ⊗ ztT• e ztT• yti = ytT• ⊗ ztT• .
Logo,
1 n T   1 ~T 
 n ∑t =1 zt • xt1•   n Z X •1 
   
 1 ∑ n ztT• xt 2•   1 Z~T X • 2 
S zx =  n
t =1
 = n  = 1 ( I ⊗ Z~T ) X ou S = 1 n ( X ⊗ z T ) .
    n m zx
n ∑t =1 t • t•
 M   M 
   
 1 n z T x   1 Z~T X 
 n ∑t =1 t • tm •   n •m 

 1 n T   1 ~T 
 n ∑t =1 zt • yt1   n Z y•1 
   
 1 ∑ n ztT• yt 2   1 Z~T y• 2 
szy =  n
t =1
 = n  = 1 ( I ⊗ Z~T )Y ou s = 1 n ( yT ⊗ z T ) .
    n m zy
n ∑t =1 t • t•
 M   M 
   
 1 n z T y   1 Z~T y 
 n ∑t =1 t • tm   n •m 

O estimador MQ3P com coeficientes comuns é
~ ~
(5.103) βˆMQ3P
∗
= {S zxT (Σˆ −1 ⊗ S zz−1 ) S zx }−1 S zxT (Σˆ −1 ⊗ S zz−1 ) szy ,
ou
−1
~ ~
βˆ ∗ = ∑i =1 ∑l =1 (σˆ il S zxT i S zz−1 S zxl ) ∑ ∑
m m m m
(5.104) MQ3P (σˆ il S zxT i S zz−1szyl ) ,
  i =1 l =1
ou, ainda,
−1
 m 
βˆ ∗ =  ∑i =1 ∑l =1σˆ il X •Ti H Z~ X •l  ∑ ∑
m m m
MQ3P i =1 l =1
σˆ il X •Ti H Z~ y•l
(5.105)  
−1
=  X T (Σˆ −1 ⊗ H Z~ ) X  X T (Σˆ −1 ⊗ H Z~ ) Y.
 
~ ~ ~ ~
onde H Z~ = Z ( Z T Z ) −1 Z T . Para m = 2 , tem-se
βˆMQ3P
∗
= (σˆ 11 X •T1H Z~ X •1 + σˆ 12 X •T1H Z~ X • 2 + σˆ 21 X •T2 H Z~ X •1 + σˆ 22 X •T2 H Z~ X • 2 ) −1
× (σˆ 11 X •T1H Z~ y•1 + σˆ 12 X •T1H Z~ y• 2 + σˆ 21 X •T2 H Z~ y•1 + σˆ 22 X •T2 H Z~ y• 2 ) .
Fica ao cuidado do leitor apresentar (5.104) para m = 2 .

Se, adicionalmente, se impõe a condição (5.83), o estimador (5.103) reduz-se ao
estimador SUR com coeficientes comuns [por razões históricas, este estimador tam-
bém se designa por estimador EA (de efeitos aleatórios; a expressão inglesa é random
effects)]. De acordo com a notação A das matrizes X e Y, tem-se:
−1
βˆSUR
∗
=  X T (Σˆ −1 ⊗ I n ) X  X T (Σˆ −1 ⊗ I n ) Y
 
(5.106) −1
=  ∑i =1 ∑l =1σˆ il X •Ti X •l  ∑ ∑
m m m m
σˆ il X •Ti y•l .
  i =1 l =1
Para provar (5.106), basta notar que X •i = Z Di , como se fez a propósito do es-
timador SUR (sem coeficientes comuns).
Para m = 2 , obtém-se
βˆSUR
∗
= (σˆ 11 X •T1 X •1 + σˆ 12 X •T1 X • 2 + σˆ 21 X •T2 X •1 + σˆ 22 X •T2 X • 2 ) −1
× (σˆ 11 X •T1 y•1 + σˆ 12 X •T1 y• 2 + σˆ 21 X •T2 y•1 + σˆ 22 X •T2 y• 2 ) .
O estimador (5.106) também pode ser apresentado do seguinte modo:

−1
βˆSUR =  ∑i =1 ∑l =1σˆ il S x x  ∑ ∑
m m m m
(5.107) ∗
σˆ il sx y ,
 i l
 i =1 l =1 i l
onde, recorde-se,
1 n T 1 1 n 1
S xi x l =
n
∑ x x = X •Ti X •l e sxi y l = ∑t =1 xtiT• ytl = X •Ti y•l .
t =1 ti • tl •
n n n
As ortogonalidades cruzadas são decisivas para este estimador. De facto, supo-
nha-se que E ( xti •utl ) = 0 , para i = l , mas não necessariamente para i ≠ l . Nestas con-
dições, o estimador não é consistente.
A respectiva matriz das covariâncias assintóticas é dada por
−1 −1
Cov a ( βˆSUR ) = ∑i =1 ∑l=1σ il E ( xtiT• xtl• ) =  ∑i =1 ∑l=1 σ il Qxi xl  ,
∗ m m m m
(5.108)
   
onde Qxi xl = E ( xtiT• xtl • ) .
O respectivo estimador consistente é, então,
−1 −1
) =  ∑i =1 ∑l =1σˆ il S xi xl  = n  ∑i =1 ∑l =1σˆ il X •Ti X • l 
^
Cov a ( βˆSUR
∗ m m m m
(5.109)    
−1
= n  X T (Σˆ −1 ⊗ I n ) X  .
 
A hipótese SER.4’ não é necessária para demonstrar que o estimador SUR é

CAN e eficiente, uma vez que as hipóteses SER.5 e SER.6 implicam SER.4’. Com efei-
to, já se sabe que SER.5 e SER.6 implicam SER.4. Como SER.4 implica SER.4’, ob-
tém-se o resultado pretendido.
O estimador SUR com coeficientes comuns também pode ser obtido tirando par-
tido da notação B das matrizes X e Y.
Começa-se por estabelecer os seguintes resultados:
∑ ∑
m m
T
x x = X tT• X t • ;
i =1 ti • ti •
x y = X tT• ytT• ;
T
i =1 ti • ti
∑ ∑ ∑ ∑
m m m m
i =1
T
c x x
l =1 il ti • tl •
= X tT•C X t • ; i =1
c x y = X tT•C ytT• ,
T
l =1 il ti • tl
onde C é uma matriz quadrada de ordem m, de elemento genérico cil .

Note-se, também, que:
1  1 n  m m il T
∑ ∑
m m
σˆ il  ∑
n
x T
x  = ∑  ∑ ∑ σˆ xti• xtl•  = 1 ∑n X tT• Σˆ −1 X t • ;
i =1 l =1
n t =1 ti • t l •  n t =1  i =1 l=1  n t =1
 
1 n T  1 n  m 1 n
∑ ∑ σˆ il  ∑ xti • ytl  = ∑t =1  ∑i =1 ∑l =1σˆ il xtiT• ytl  = ∑t =1 X tT•Σˆ −1 ytT• ;
m m m
i =1 l =1 n t =1  n   n
 
∑ ∑ σ il E ( xtiT• xtl• ) = E  ∑i =1 ∑l =1 σ il xtiT• xtl•  = E ( X tT• Σ −1 X t • ) .

m m m m
i =1 l =1
 
Deste modo, as expressões relativas ao estimador SUR (coeficientes comuns),

(5.106) [ou (5.107)], (5.108) e (5.109), podem, respectivamente, ser escritas do seguinte
modo:
−1
βˆSUR =  ∑t =1 X tT•Σˆ −1 X t •  ∑
n n
∗
X tT•Σˆ −1 ytT•
(5.110)   t =1
= { X ( I n ⊗ Σˆ ) X }−1 X T ( I n ⊗ Σˆ −1 )Y ;
T −1
(5.111) Cov a ( βˆSUR

∗
) = E ( X tT•Σ −1 X t • ) −1 ;
−1
1 n  −1
) =  ∑t =1 X tT•Σˆ −1 X t •  = n  ∑t =1 X tT•Σˆ −1 X t • 
^
Cov a ( βˆ ∗ n
SUR n   
(5.112)  
−1
= n  X T ( I n ⊗ Σˆ −1 ) X  .
 
Em (5.111), não é difícil provar que E ( X tT•Σ −1 X t • ) é invertível. Com efeito, no-
tando que xti • = zt • Di , obtém-se, sucessivamente,
E ( X tT•Σ −1 X t • ) = ∑i =1 ∑l =1σ il E ( xtiT• xtl • )

m m
= ∑i =1 ∑l =1σ il E ( xtiT• zt • ) E ( ztT• zt • ) −1 E ( ztT• xtl • )

m m
= (Qzx )T {Σ −1 ⊗ E ( ztT• zt • ) −1} Qzx .
Como Qzx tem as colunas linearmente independentes (devido a SER.4’), resulta

que E ( X tT•Σ −1 X t • ) tem inversa.
A estatística de Sargan é a seguinte:
d
QS = J ( βˆSUR
∗
, Sˆ −1 ) = n ( szy − S zx βˆSUR
∗
)T Sˆ −1 ( szy − S zx βˆSUR
∗
) → χ 2 (mq − k ) ,
~
onde Sˆ = Σˆ ⊗ S zz .
Pooled MQ
O estimador Pooled MQ de β não é mais do que um simples estimador MQ,

utilizando a relação Y = X β + U , de acordo com a notação A [a amostra tem dimensão
mn; há n observações para cada variável de cada equação; estas observações são
agrupadas (pooled), considerando todas as equações]. Obtém-se
−1
 m 
βˆ = ( X X ) X Y =  ∑i =1 X •Ti X •i  ∑
T −1 T m
(5.113) PMQ i =1
X •Ti y•i .
 
Este estimador também pode ser apresentado do seguinte modo:
−1
 m 
βˆ = S s =  ∑i =1 S xi xi  ∑
−1 m
(5.114) PMQ xx xy s
i =1 xi y i
,
 
onde
1 T 1 m
X X = ∑i =1 X •Ti X •i = ∑i =1 S xi xi ,
m
S xx =
n n
1 T 1 m
X Y = ∑i =1 X •Ti y•i = ∑i =1 sxi yi .
m
sxy =
n n
O estimador PMQ também pode ser obtido como caso particular do estimador
SUR. Com efeito, basta considerar que, em (5.106) ou (5.107), se tem σˆ il = 1 ( i = l ) e
σˆ il = 0 ( i ≠ l ).
Note-se, também, que no estimador SUR a matriz dos pesos é
−1
~  1 ~ ~
Wˆ = Sˆ −1 = Σˆ −1 ⊗ S zz−1 = Σˆ −1 ⊗  Z T Z  ,
n 
e no estimador PMQ é
−1
~  1 ~ ~
Wˆ = I m ⊗ S zz−1 = I m ⊗  Z T Z  .
n 
Para o estimador Pooled MQ, que é um estimador MGM com uma escolha não
óptima de Ŵ , a fórmula correcta para a matriz das covariâncias assintóticas é da forma
(4.59) [ver capítulo 4],
(QzxT W Qzx ) −1 QzxT W S W Qzx (QzxT W Qzx ) −1 ,
~ ~
onde W = I m ⊗ Qzz−1 = I m ⊗ E ( ztT• zt • ) −1 , S = Σ ⊗ Qzz−1 = Σ ⊗ E ( ztT• zt • ) −1 .
Notando que
~
 Qzx1   Qzz D1 
  ~ 
 Qzx2   Q zz D2 
Qzx =  = ,
M   M 
  ~ 
Qzxm  Qzz Dm 
uma vez que zti • = zt • e que xti • = zt • Di , e fazendo os cálculos, obtém-se

−1 −1
Cov a ( βˆPMQ ) =  ∑i =1 Qxi xi   ∑i =1 ∑l=1σ il Qxi xl   ∑i =1 Qxi xi  ,
m m m m
(5.115)
    
cujo estimador consistente é
−1 −1
Cov a ( βˆPMQ ) =  ∑i =1 S xi xi   ∑i =1 ∑l=1 σˆ il S xi xl   ∑i =1 S xi xi  ,
^ m m m m
(5.116)
    
ou
−1 −1
^
 m   m  m 
Cov a ( βˆPMQ ) = n  ∑i =1 X •Ti X •i   ∑i =1 ∑l =1 σˆ il X •Ti X •l   ∑i =1 X •Ti X •i 
m
(5.117)     
T ˆ
= n ( X X ) { X (Σ ⊗ I ) X } ( X X ) .
T −1
n
T −1
Para m = 2 , vem
^
Cov a ( βˆPMQ ) = n ( X •T1 X •1 + X •T2 X • 2 ) −1 (σˆ11 X •T1 X •1 + σˆ12 X •T1 X • 2 + σˆ 21 X •T2 X •1 + σˆ 22 X •T2 X • 2 )
× ( X •T1 X •1 + X •T2 X • 2 ) −1.
Fica ao cuidado do leitor escrever (5.115) e (5.116) para m = 2 .

Como o estimador βˆPMQ é consistente, os respectivos resíduos podem ser utili-
zados para calcular σ̂ il ; o erro padrão de cada componente do vector βˆPMQ é igual à
raiz quadrada do produto de 1 / n pelo respectivo elemento diagonal de (5.117).
De forma semelhante, com a notação B das matrizes X e Y, têm-se as fórmulas
para o estimador PMQ:
−1
βˆPMQ =  ∑t =1 X tT• X t•  ∑
n n
(5.118) X tT• ytT• = ( X T X ) −1 X T Y ;
  t =1
(5.119) Cov a ( βˆPMQ ) = E ( X tT• X t • ) −1 E ( X tT•Σ X t • ) E ( X tT• X t • ) −1 ;

−1 −1
1 n  1 n T  
 ∑ X t •Σˆ X t •   1 ∑n X tT• X t • 
^
Cov a ( βˆPMQ ) =  ∑t =1 X tT• X t • 
n   n t =1   n t =1 
    
−1 −1
= n  ∑t =1 X tT• X t •   ∑t =1 X tT•Σˆ X t •   ∑t =1 X tT• X t • 
n n n
(5.120)
    
= n ( X T X ) −1  X T ( I n ⊗ Σˆ ) X  ( X T X ) −1.
 
Na expressão (5.119), é fácil mostrar que E ( X tT• X t • ) tem inversa. Basta con-
siderar o raciocínio a que se recorreu para demonstrar que E ( X tT•Σ −1 X t • ) é invertível,
substituindo Σ −1 por I m .
Considere-se a seguinte questão: qual é o estimador MGM eficiente de β (coe-
ficientes comuns) que explora as condições E ( xti •uti ) = 0 (i = 1, 2, K , m ) ? Este estima-
dor é dado por (5.98), com zti • = xti • , onde Ŵil é o bloco (i, l) de Sˆ −1 , com a matriz Ŝ
dada por (5.21) [(5.61), no caso de homocedasticidade condicionada]. Mesmo na hipó-
tese de homocedasticidade condicionada, este estimador não coincide com: o estimador
MQ3P com coeficientes comuns porque os instrumentos não são os mesmos para todas
as equações; o estimador SUR com coeficientes comuns, uma vez que não se utilizam
as mesmas condições de ortogonalidade; o estimador PMQ, a não ser que Σ̂ = I m .
Considere-se o modelo SUR com coeficientes comuns e, em vez de (5.83), a
condição de ortogonalidade seguinte: E ( xt1•ut1 + xt 2•ut 2 + L + xtm •utm ) = 0 .
Como a contrapartida amostral é
~ 1
g• n ( β ) =  ∑t =1 xtT1• yt1 + ∑t =1 xtT2• yt 2 + L + ∑t =1 xtm 
n n n T
• ytm 
n 
1 ~
−  ∑t =1 xtT1• xt1• + ∑t =1 xtT2• xt 2• + L + ∑t =1 xtT1m xtm •  β
n n n
n 
1 1 ~
= ( X •T1 y•1 + X •T2 y• 2 + L + X •Tm y• m ) − ( X •T1 X •1 + X •T2 X • 2 + L + X •Tm X • m ) β = 0,
n n
obtém-se o estimador PMQ, (5.113).
Coeficientes comuns: restrição aparente
Embora pareça que o modelo SER com coeficientes comuns, (5.94), é um caso
particular de (5.2), este pode ser apresentado na forma (5.94) com uma adequada redefi-
nição dos regressores. Considere-se o exemplo seguinte:
Exemplo 5.15 – Retome-se o exemplo 5.1. O formato (5.94) é obtido com

 β11 
β 
 21 
xt1• =  1 educt expert qit 0 0 0 ;  β 31 
   
β =  β 41  .
xt 2• =  0 0 0 0 1 educt qit  ;  β12 
   
 β 22 
β 
 32 
∇
Para apresentar a questão em termos gerais, o modelo (5.94) pode ser escrito na
forma seguinte: yti = xti∗ • β∗ + uti , para não se confundir com o modelo (5.2).
A hipótese SER.1 pode considerar-se um caso especial de SER.1’, se se fizer
 β •1 
 
 M 
 β•,i −1 
 
xti∗• = [ 0 L 0 xti • 0 L 0 ] e β∗ =  β•i  .
β 
 •,i +1 
 M 
β 
 •m 
Com efeito, basta notar que xti∗ • β∗ = xti • β (i = 1, 2, K , m ) .
A hipótese SER.4 é um caso especial de SER.4’, pois basta verificar que
 E( zT x∗ )  E( zT x ) O L O 
 t1• t1•
  t1• t 1•

 E ( z tT2• xt∗2• )   O E ( z T
x
t 2• t 2• ) L O 
Qzx∗ =  =  = Qzx .
 M   M M M 
   
 E ( z tm
T
x ∗
)   O O L E ( z tm • tm • 
T
x )
 • tm •
  
Como, também, se tem
 1 n T ∗  1 n T 
 ∑t =1 zt1• xt1•   ∑t =1 zt1• xt1• O L O 
n  n 
1 n T ∗   1 n T 
 ∑t =1 zt 2• xt 2•   O ∑ zt 2• xt 2• L O 
∗  n   n t =1  =S ,
S zx =  =  zx
 M   M M M 
   
   
 1 ∑n ztm T
x ∗   O O L
1 n T
∑ tm• tm• 
z x
 n t =1 • tm•   n t =1 
o estimador (5.98), βˆ ∗ (Wˆ ) , reduz-se a (5.15), βˆ (Wˆ ) .
PALAVRAS-CHAVE
Coeficientes comuns Identificação (exacta)
Condição de característica Inferência estatística
Consistência Inferência estatística sobre combinações
Correlação contemporânea Inferência estatística sobre um coeficiente
de regressão isolado
Dados de painel Instrumentos comuns
Diferença-martingala Linearidade
Equações não “relacionadas” Método MQ2P
Erro de amostragem Método generalizado dos momentos
Estacionaridade ergódica Modelo regressão multivariada
Estatística de Sargan Modelo SER (com coeficientes comuns)
Estimação conjunta Normalidade assintótica
Estimação separada Ortogonalidade
Estimador FIVE Princípio da razão de verosimilhanças
Estimador MGM (eficiente) Regressor endógeno
Estimador MQ3P Regressor pré-determinado
Estimador Pooled MQ Regressores comuns
Estimador SMQ Sistema de equações de regressão linear
Estimador SMQ2P Sobre-identificação
Estimador SMQG Teste de endogeneidade
Estimador SMQGF Teste de hipóteses não lineares
Estimador SUR Teste de sobre-identificação (de Hansen)
Estimador SVI Teste de um subconjunto de condições de
ortogonalidade
Heterocedasticidade condicionada Variável instrumental
Homocedasticidade condicionada
1. Considere o seguinte sistema de equações de regressão linear:

 yt1 = β11 + β 21 yt 2 + β 31 zt1 + β 41 z t 2 + ut1

 yt 2 = β12 + β 22 yt 3 + β 32 z t 2 + β 42 z t 3 + ut 2 ,
onde as variáveis yti são endógenas ( i = 1, 2, 3 ), e as variáveis zth são pré-determi-
nadas ( h = 1, 2, 3 ). Admita que o vector das variáveis instrumentais de cada equa-
ção é formado por todas as variáveis pré-determinadas. Supondo que dispõe de
uma amostra de dimensão n, apresente a matriz X referida na relação amostral
Y = Xβ + U , e a matriz Z das observações das variáveis instrumentais.
2. Seja o sistema de equações de regressão linear, yti = xti• β •i + uti (i = 1, 2,K, m) ,
em que: yti é a observação t de yi ; xti• é o vector 1× ki da observação t dos re-
gressores da equação i; β•i é o vector ki × 1 dos respectivos coeficientes de re-
gressão; uti é a variável residual da observação t da equação i. Considere, tam-
bém, o vector 1 × pi , zti • , da observação t das variáveis instrumentais da equação
i. Enuncie a hipótese da estacionaridade ergódica.
y = β + β y + β z + β z + u
 t1 11 21 t 2 31 t1 41 t 2 t1
 yt 2 = β12 + β 22 yt 3 + β 32 zt 2 + β 42 zt 3 + ut 2
y = β + β y + β z + β z + u ,
 t 3 13 23 t 4 33 t 3 43 t 4 t3
onde as variáveis yti são endógenas ( i = 1, 2, 3, 4 ), e as variáveis zth são pré-de-

terminadas ( h = 1, 2, 3, 4 ). Suponha que o vector das variáveis instrumentais de ca-
da equação é formado por todas as variáveis pré-determinadas. Enuncie, para este
sistema, a hipótese da estacionaridade ergódica.
i. Enuncie a hipótese da ortogonalidade.
5. Considere o sistema de equações de regressão linear da pergunta 3. Enuncie, para
este sistema, a hipótese da ortogonalidade.
i. Enuncie as condições de característica.
7. Considere o sistema de equações de regressão linear da pergunta 3. Enuncie, para
este sistema, a condição de característica da terceira equação.

 yt1 = β11 + β 21 yt 2 + β 31 zt1 + β 41 z t 2 + ut1

 yt 2 = β12 + β 22 yt 3 + β 32 z t 2 + β 42 z t 3 + ut 2 ,
onde as variáveis yti são endógenas ( i = 1, 2, 3 ), e as variáveis zth são pré-determi-
nadas ( h = 1, 2, 3 ). Admita que o vector das variáveis instrumentais de cada equa-
ção é formado por todas as variáveis pré-determinadas. Enuncie as condições de
característica.
9. Considere um modelo SER com duas equações e coeficientes comuns. Indique a
matriz dos valores esperados dos produtos das variáveis instrumentais pelos re-
gressores, Qzx , e estabeleça a respectiva condição de característica para a identifi-
cação.
i. Enuncie a hipótese da diferença-martingala.
11. Seja o sistema de equações de regressão linear, yti = xti• β •i + uti (i = 1, 2,K, m) , e
gt • = [ g t1• g t 2• L g tm• ], onde g ti • = z ti • uti . Escreva a condição para que o pro-
cesso {gt •} seja uma diferença-martingala.
y = β + β y + β z + β z + u
 t1 11 21 t 2 31 t 1 41 t 2 t1
 yt 2 = β12 + β 22 yt1 + β 32 yt 3 + β 42 zt 2 + β 52 z t 3 + ut 2
y = β + β y + β z + β z + u ,
 t 3 13 23 t 4 33 t 3 43 t 4 t3
onde as variáveis yti são endógenas ( i = 1, 2, 3, 4 ), e as variáveis zth são pré-deter-

minadas ( h = 1, 2, 3, 4 ). Suponha que o vector das variáveis instrumentais de cada
equação é dado por z t • = [ 1 z t1 zt 2 z t 3 z t 4 ]. Apresente, para este sistema, a
matriz por blocos S = E ( g tT• g t • ) , referindo explicitamente a matriz ztT• zt • e as va-
riáveis residuais.
13. Considere o sistema de equações de regressão linear da pergunta 12. Enuncie, pa-
ra este sistema, a hipótese da diferença-martingala.
14. Considere o sistema de equações de regressão linear da pergunta 12. Escreva as
matrizes Qzx1 e S zx1 (matrizes referentes à primeira equação), explicitando todos
os seus elementos.
15. Considere o modelo SER. Indique o resultado assintótico que decorre imediata-
mente da hipótese SER.5 (diferença-martingala).
16. Considere o sistema de equações de regressão linear da pergunta 12. Suponha que
se verifica a hipótese da homocedasticidade condicionada. Escreva a matriz S, uti-
lizando as matrizes Qzz = E ( ztT• zt • ) e Σ [de elemento genérico σ il = E (uti utl ) , pa-
ra i, l = 1, 2, 3 ].
17. Considere um sistema de equações de regressão linear (SER). Em que condições

se pode afirmar que o estimador MGM conjunto e o estimador MGM separado
são numericamente iguais ao estimador VI.
18. Indique as condições para que o estimador SUR seja um caso particular do estima-
dor MGM.
o estimador MGM eficiente dos coeficientes de regressão. Em que condições este
estimador se reduz ao estimador dos mínimos quadrados em três passos (MQ3P)?
o estimador MGM eficiente dos coeficientes de regressão. Enuncie as proprieda-
des que permitem afirmar que este estimador é CAN.
21. Seja o seguinte sistema de equações de regressão linear:
y = β + β y + β z + β z + u
 t1 11 21 t 2 31 t1 41 t 2 t1
 yt 2 = β12 + β 22 yt 3 + β 32 zt 2 + β 42 zt 3 + ut 2
y = β + β y + β z + β z + u ,
 t 3 13 23 t 4 33 t 3 43 t 4 t3

da equação é formado por todas as variáveis pré-determinadas. Considere o esti-
mador MGM eficiente dos coeficientes de regressão. Em que condições este esti-
mador se reduz ao estimador dos mínimos quadrados em três passos (MQ3P)?
i. Enuncie a hipótese da homocedasticidade condicionada.
o estimador MGM eficiente dos coeficientes de regressão. Em que condições este
estimador se reduz ao estimador FIVE (Full-information Instrumental Variable
Efficient)?
y = β + β y + β z + β z + u
 t1 11 21 t 2 31 t 1 41 t 2 t1
y = β + β y + β z + β z + u ,
 t 3 13 23 t 4 33 t 3 43 t 4 t3
onde as variáveis yti são endógenas ( i = 1, 2, 3, 4 ), e as variáveis zth são pré-deter-

minadas ( h = 1, 2, 3, 4 ). Suponha que o vector das variáveis instrumentais não é o
mesmo para todas as equações. Considere o estimador MGM eficiente dos coefi-
cientes de regressão. Se existir homocedasticidade condicionada, como se chama
o respectivo estimador?
25. Seja o sistema de equações de regressão linear, yti = xti• β •i + uti (i = 1, 2,K, m) .
Em que condições este modelo se reduz ao modelo SUR?
26. Considere um sistema de equações de regressão linear. Em que condições este sis-
tema é um modelo de regressão multivariada?
27. Considere o modelo SUR. Em que condições este modelo se reduz ao modelo de
regressão multivariada.
28. Considere o modelo SER no contexto da homocedasticidade condicionada. Em
que condições há equivalência numérica entre o estimador MQ3P e o estimador
MQ2P separado.
29. Considere um modelo SER com coeficientes comuns e com duas equações. Apre-
sente a respectiva condição de característica.
 yt1 = β11 + β 21 yt 2 + β 31 zt1 + β 41 z t 2 + ut1

 yt 2 = β12 + β 22 yt 3 + β 32 z t 2 + ut 2 .
Indique os vectores dos regressores das duas equações ( xt1• e xt 2• , respectivamen-

te), de modo a que o sistema seja um modelo SER com coeficientes comuns.
 y t1 = α 1 + α 2 t + β 1 y t 2 + β 2 z t 1 + β 3 z t 2 + u t 1

 y t 2 = α 1 + α 2 t + γ 1 yt 3 + γ 2 z t 2 + u t 2 .
Indique os vectores dos regressores das duas equações ( xt1• e xt 2• , respectivamen-
te), de modo a que o sistema seja um modelo SER com coeficientes comuns.
32. Considere o modelo SER com coeficientes comuns. Indique a expressão do esti-
mador Pooled MQ.
CAPÍTULO 6
MODELOS DE EQUAÇÕES SIMULTÂNEAS
6.1 - Introdução
Neste capítulo vai considerar-se uma situação particular do modelo SER, em que
pelo menos uma variável explicativa endógena é também variável explicada ou, de for-
ma equivalente, pelo menos uma variável explicada (obviamente endógena) é variável
explicativa de outra variável.
Exemplo 6.1 – Conhecem-se vários exemplos deste tipo:

a) Quando se considera o modelo de procura e oferta de um certo produto, (4.18) [ver a
secção 4.2 do capítulo 4 e o exemplo 1.7], a variável endógena pt (preço) é variável
explicativa de qt (quantidade transaccionada). A variável pt também é variável exp-
licada pelo modelo porque a condição de equilíbrio permite determinar simultanea-
mente o par ( qt , pt ) em função de outros factores: rt (rendimento médio dos consu-
midores), zt (indicador da dimensão média das empresas do mercado respectivo), e
de outros factores não observados.
b) Quando se considera o modelo macroeconómico simples (4.20) [ver secção 4.2 do
capítulo 4], a variável endógena Yt (PNB) é explicativa de Ct (consumo agregado),
mas também é variável explicada, uma vez que, recorrendo à identidade do PNB, o
modelo determina simultaneamente o par ( Ct , Yt ) em função da variável I t (investi-
mento agregado), e de outros factores não observados.
c) Considere-se o modelo do exemplo 1.9 e suponha-se que as únicas variáveis endóge-
nas são crime e pol. Neste modelo, existe interdependência entre as duas variáveis:
pol é variável explicativa de crime, e inversamente.
d) No modelo do exemplo 1.10 tem-se uma situação de interdependência semelhante:
supondo que as duas únicas variáveis endógenas são inf e ga, elas são simultanea-
mente variáveis explicativas e variáveis explicadas.
e) Retome-se o modelo do exemplo 5.1,
lsalart = β11 + β 21 educt + β 31 expert + β 41qit + ut1 (equação do salário)

cmtt = β12 + β 22 educt + β32 qit + ut 2 (equação do cmt )
onde: lsalart é o logaritmo do salário do indivíduo t; educt é o número de anos com-

pletos de escolaridade do indivíduo t; expert é o número de anos de experiência pro-
Capítulo 6 – Modelos de Equações Simultâneas 2
fissional do indivíduo t; qit é o QI do indivíduo t; cmtt é a pontuação de um teste

sobre o “conhecimento do mundo do trabalho” do indivíduo t.
A especificação do modelo garante que as variáveis lsalart e cmtt são endógenas. O
modelo não é um modelo de equações simultâneas porque nenhuma destas variáveis
é explicativa da outra.
Acrescentando cmtt aos regressores da equação do salário, passa a ter-se um modelo
de equações simultâneas: a variável explicada cmtt é variável explicativa de lsalart .
∇
A definição formal do tipo de modelos exemplificados é apresentada a seguir.
Definição 6.1 – Modelo de equações simultâneas

Um modelo SER é um modelo de equações simultâneas (MES) se e só se pelo menos
uma variável explicada é variável explicativa de outra variável.
Quando, para representar o modelo SER, se adopta a notação (5.2),

(6.1) yti = xti• β •i + uti (i = 1, 2, K , m ; t ∈ T ) ,
a condição de simultaneidade obriga a que exista pelo menos um vector de regressores,

xti • , onde pelo menos uma componente é regressando, ytl , de outra equação do sistema
( i ≠ l ). Além disso, em geral, vai supor-se que o vector das variáveis instrumentais é
comum a todas as equações, e é formado por todos os regressores pré-determinados do
modelo.
Resumindo, os aspectos essenciais do modelo de equações simultâneas, com a for-
malização (6.1), são:
− Simultaneidade: há pelo menos uma variável explicada, yti , que é variável explica-
tiva de outra variável, ytl ( i ≠ l ).
− O vector das variáveis residuais, de tipo 1 × m , é ut • = [ ut1 ut 2 L utm ].
− A matriz dos segundos momentos das variáveis residuais é Σ = E (utT•ut • ) , matriz
quadrada de ordem m, definida positiva.
− O vector comum das variáveis instrumentais é zt • = [ zt1 zt 2 L ztq ].
− Ortogonalidade: tem-se E (ut • ⊗ zt • ) = E{ut • ( I m ⊗ zt • )} = 0 , onde 0 é o vector nulo
de tipo 1× mq . A condição de ortogonalidade também pode ser apresentada da se-
guinte forma: E ( ztT•ut • ) = O .
− O conjunto das variáveis instrumentais coincide com o conjunto dos regressores
pré-determinados.
− A matriz dos segundos momentos dos instrumentos, Qzz = E ( ztT• zt • ) , é não singu-
lar. Assim, na população, não existem relações lineares exactas entre as variáveis
pré-determinadas.
− As variáveis endógenas do sistema são aquelas que não estão incluídas em zt • .
− A condição de característica para a identificação é que a matriz Qzxi = E ( ztT• xti • ) , de
tipo q × ki , tem característica igual a ki (i = 1, 2, K , m) . Verificada esta condição, a
equação i é sobre-identificada se ki < q .
De uma maneira geral, os parâmetros do modelo de equações simultâneas, (6.1),

podem ser estimados pelo método MGM estudado no capítulo 5. Em particular, pode
recorrer-se a qualquer estimador analisado neste capítulo, desde que se verifiquem as
respectivas hipóteses. Por exemplo, no caso de homocedasticidade condicionada, pode
utilizar-se o estimador MQ3P. A questão da estimação vai ser retomada mais adiante.
6.2 - Autonomia e causalidade
Quando uma equação de um modelo de equações simultâneas tem, ceteris pari-

bus (isolado das outras equações), um significado próprio, diz-se que a equação é autó-
noma. Por exemplo: no modelo de procura e oferta [ver exemplo 6.1-a)], as equações
da procura e da oferta são autónomas, uma vez que a primeira traduz o comportamento
dos agentes económicos que pretendem comprar o produto, e a segunda modela o com-
portamento dos agentes económicos que desejam vender o produto; no modelo macro-
económico simples [ver exemplo 6.1-b)] as duas equações são autónomas, porque a pri-
meira mostra o comportamento agregado dos consumidores, e a segunda pode ser consi-
derada uma identidade contabilística ou uma relação de equilíbrio. Fica ao cuidado do
leitor analisar a autonomia das equações dos modelos referidos nas alíneas c), d) e e) do
exemplo 6.1.
Como, em muitos casos, as observações correspondem a situações de equilíbrio,
um modo de encarar a autonomia consiste em fazer raciocínios contrafactuais para
especificar os comportamentos, ou seja, deve ter-se em conta não só as observações dis-
poníveis, mas também as observações potenciais que corresponderiam a situações de
não equilíbrio. Por exemplo, num mercado de trabalho da actividade agrícola nos con-
celhos de uma região, as equações da oferta e da procura estabelecem os comportamen-
tos dos respectivos agentes económicos: os trabalhadores agrícolas e os agricultores. As
equações aparecem ligadas no modelo apenas porque, para cada concelho, a quantidade
de trabalho e o salário observados são determinados pela interacção entre a oferta e a
procura, dada pela equação de equilíbrio. Uma vez que apenas se observam situações de
equilíbrio, a especificação das equações exige que se ponham questões contrafactuais,
tais como: qual a quantidade de trabalho oferecida pelos trabalhadores agrícolas, ou pro-
curada pelos agricultores, se o salário fosse diferente do seu valor de equilíbrio?
Outro aspecto muito importante a reter é que as equações que modelam compor-
tamentos de agentes económicos devem representar relações de causalidade. Deve ser
possível fazer variar cada variável explicativa, mesmo que seja endógena, mantendo fi-
xas as outras variáveis explicativas (ceteris paribus). Deste modo, cada equação deve
representar, de alguma maneira, um valor esperado condicionado que corresponda a
uma estrutura causal. Mas, para que a equação possa ser interpretada como um valor es-
perado condicionado estrutural é indispensável fazer raciocínios contrafactuais. Por
exemplo, se no modelo de procura e oferta do mercado de trabalho atrás referido fosse
possível realizar a experiência controlada em que o salário variasse, de forma exógena,
de trabalhador para trabalhador, a equação da oferta podia ser estimada mesmo sem
considerar a equação da procura.
Em geral, é desejável que num MES as equações gozem de autonomia e repre-
sentem relações de causalidade. Por exemplo, nos modelos de procura e oferta de um
mercado em equilíbrio, a autonomia e a causalidade são características inerentes às
equações da procura e da oferta. No entanto, existem muitas situações em que tal não se
verifica. Por exemplo, considere-se que se pretende modelar a escolha individual entre
horas de trabalho em actividades legais (variável trab) e horas gastas em actividades
criminosas (variável crime). Suponha-se que os factores exógenos que explicam esta
escolha são o salário (o rendimento do trabalho legal), o rendimento das actividades cri-
minosas, outros rendimentos, a probabilidade de ser preso, a probabilidade de ser con-
denado, o número esperado de anos de prisão, etc. Além destes factores, está subjacente
à escolha um conjunto de factores demográficos, como o número de anos de escolarida-
de, o número de anos de experiência profissional em actividades legais, o género, a raça,
etc. Nestas condições, podem especificar-se duas equações estruturais: trab em função
dos factores exógenos, dos factores demográficos e dos factores não observados; crime
em função dos mesmos factores:
trab = f1 (factores exógenos, factores demográficos, factores não observáveis)

crime = f 2 (factores exógenos, factores demográficos, factores não observáveis).
É possível que alguns dos factores que explicam trab e crime não possam ser
tratados como exógenos pelo econometrista, pois os factores não observados que afec-
tam a escolha entre trab e crime podem estar correlacionados com alguns factores ob-
servados. Mesmo assim, cada equação do modelo tem uma interpretação causal. Contu-
do, o modelo proposto não é um modelo de equações simultâneas.
Considere-se, no entanto, o seguinte modelo de equações simultâneas:
trab = f1 (crime, factores exógenos, factores demográficos, factores não observáveis)

crime = f 2 (trab, factores exógenos, factores demográficos, factores não observáveis).
Facilmente se conclui que nenhuma das equações é autónoma, pois cada uma
traduz o comportamento dos mesmos agentes económicos (as pessoas que escolhem en-
tre horas de trabalho legal e horas dedicadas a actividades criminosas), não se podendo
fazer uma interpretação causal de qualquer das equações; por exemplo, não tem signifi-
cado estudar o efeito da variação do salário sobre as horas gastas em actividades crimi-
nosas, supondo constante as horas de trabalho legal, porque qualquer pessoa ajusta o
tempo gasto nas duas actividades quando varia o salário.
A confusão entre equações simultâneas e equações estruturais não é invulgar
na literatura da econometria aplicada. De facto, é frequente encontrar aplicações econo-
métricas, como as do exemplo da escolha entre trab e crime, em que as equações do
MES não gozam de autonomia, e, no entanto, fazem-se interpretações causais abusivas.
O exemplo anterior mostra que pode haver modelos com equações estruturais que não
são modelos de equações simultâneas, e modelos de equações simultâneas que não têm
equações estruturais.
Para melhor esclarecimento das considerações anteriores, vai apresentar-se uma

tipologia das equações que fazem parte de um modelo de equações simultâneas:
a) Equações de comportamento. Estas equações formalizam o comportamento de
agentes económicos e sociais. O estudo destes comportamentos levanta os problemas
conceptuais e práticos mais difíceis. Por exemplo, como formalizar os comportamen-
tos dos agentes da administração pública (governo, autarquias locais, autoridades
monetárias, etc.), das empresas e dos seus gestores, dos agentes financeiros (bancos,
seguradoras, etc.), dos consumidores, etc.? Qual o nível de agregação que deve ser
considerado? Em termos gerais, pode afirmar-se que a especificação das equações de
comportamento deve apoiar-se na teoria económica e nos conhecimentos fornecidos
por outras ciências sociais (História, Sociologia, Psicossociologia, Ciência Política,
etc.).
Exemplos: equações macroeconómicas como as funções consumo, investimento, im-
portações, procura de moeda; equações microeconómicas como as equações de pro-
cura e de oferta num mercado de um produto em equilíbrio, ou como as equações da
procura e da oferta de trabalho.
b) Equações técnicas ou tecnológicas. São equações que procuram estabelecer rela-
ções de tipo tecnológico.
Exemplos: funções de produção e de custo.
c) Equações institucionais. Estas equações referem-se a relações de carácter institucio-
nal.
Exemplos: funções sobre os impostos que traduzam a carga fiscal; regras fixadas pe-
los agentes da administração pública.
d) Equações de definição ou identidades. São relações de igualdade ex post entre va-
riáveis do modelo.
Exemplos: a equação de definição macroeconómica da despesa nacional; a equação
de definição do rendimento pessoal disponível.
e) Equações de equilíbrio. São relações de igualdade ex ante entre variáveis do mode-
lo.
Exemplos: num modelo macroeconómico, a poupança é igual ao investimento; num
modelo relativo ao mercado de um produto, a procura é igual à oferta.
As equações de comportamento e as equações técnicas constituem o cerne

dos modelos de equações simultâneas. Estas equações contêm parâmetros desconheci-
dos, que devem ser estimados.
6.3 - Modelos completos
Começa-se por apresentar a definição de MES completo.
Definição 6.2 – Modelo completo de equações simultâneas

Um modelo de equações simultâneas é completo se e só se o número de variáveis endó-
genas é igual ao número de equações.
A condição de completude implica que se yt • = [ yt1 yt 2 L ytm ] é o vector das

variáveis endógenas, então todos os elementos do vector [ yt • xt1• xt 2• L xtm • ] perten-
cem a [ yt • zt • ]. Deste modo, qualquer variável endógena explicativa numa equação é
variável a explicar noutra equação (se uma variável endógena pertence a um vector xti •
também pertence a yt • ). O sistema de m equações (6.1) pode, então escrever-se da se-
guinte maneira:
γ 11 yt1 + γ 21 yt 2 + L + γ m1 ytm + δ11 zt1 + δ 21 zt 2 + L + δ q1 ztq = ut1

γ 12 yt1 + γ 22 yt 2 + L + γ m 2 ytm + δ12 zt1 + δ 22 zt 2 + L + δ q 2 ztq = ut 2

L
γ 1m yt1 + γ 2 m yt 2 + L + γ mm ytm + δ1m zt1 + δ 2 m zt 2 + L + δ qm ztq = utm ,

onde:
− yti é a observação t da variável endógena yi ( i = 1, 2, K , m );
− γ il é o coeficiente da variável endógena yi na equação l ( i, l = 1, 2, K , m );
− zth é a observação t da variável pré-determinada zh ( h = 1, 2, K , q );
− δ hl é o coeficiente da variável pré-determinada zh ( h = 1, 2, K , q ) na equação l
( l = 1, 2, K , m ).
Fazendo
γ γ L γ 1m  δ δ L δ 
 11 12   11 12 1m

 γ 21 γ 22 L γ 2 m  δ 21 δ 22 L δ 2 m 
Γ= , ∆= ,
M M M  M M M 
   
γ m1 γ m 2 L γ mm  δ q1 δ q 2 L δ qm 
   
onde Γ é quadrada de ordem m e ∆ é de tipo q × m , pode escrever-se
(6.2) yt •Γ + zt • ∆ = ut • ,
ou
yt •γ •l + zt •δ • l = utl ( l = 1,2, K , m ),
onde: γ • l é a coluna l da matriz Γ ; β •l é a coluna l da matriz ∆ ; utl é a variável

residual correspondente à observação t e à equação l .
O sistema de equações escrito na forma (6.2) chama-se a forma estrutural do
modelo; os elementos das matrizes Γ , ∆ e Σ são os parâmetros estruturais. Estes
parâmetros são, então, representados pelo terno de matrizes (Γ, ∆, Σ) .
Quando se dispõe de uma amostra de dimensão n, {( yt • , zt • ) : t = 1, 2, K , n} , po-
de escrever-se a relação amostral,
(6.3) ΥΓ + Z ∆ = U ,
onde: Υ é a matriz n × m (de elemento genérico yti ) das observações das variáveis en-
dógenas; Z é a matriz n × q (de elemento genérico zth ) das observações das variáveis
pré-determinadas; U é a matriz n × m (de elemento genérico utl ) das variáveis residuais.

Cada equação de (6.3) pode ser apresentada da seguinte maneira:
Υ γ • l + Z δ •l = u• l ,
onde u•l é a coluna l da matriz U.

Outra forma de apresentar a relação amostral é a seguinte:
( I m ⊗ Υ )Vec(Γ) + ( I m ⊗ Z ) Vec(∆) = Vec(U ) ,
onde se utiliza o operador Vec(⋅) de vectorização de matrizes [por exemplo, Vec(U ) é

o vector mn × 1 formado pelas m colunas da matriz U].
Vai introduzir-se uma hipótese adicional, meramente técnica: a matriz dos coe-
ficientes das variáveis endógenas, Γ , é não singular. Esta condição implica que (6.2)
pode ser resolvido em relação a yt • , obtendo-se a respectiva forma reduzida,
(6.4) yt • = − zt • ∆ Γ −1 + ut •Γ −1 = zt •Π + vt • ,
onde
π π L π 
 11 12 1m

π 21 π 22 L π 2m 
Π = − ∆ Γ −1 = 
M M M 
 
π q1 π q 2 L π qm 
 
é a matriz q × m dos coeficientes da forma reduzida, e
vt • = ut •Γ −1 = [ vt1 vt1 L vtm ]
é o vector das variáveis residuais da forma reduzida. Como E (utT•ut • ) = Σ , verifica-se

que Ω = E (vtT•vt • ) = (Γ −1 )T Σ Γ −1 , ou Σ = ΓT ΩΓ . Assim, os parâmetros da forma reduzida
são representados pelo par de matrizes (Π, Ω) .
Note-se que π hi ( h = 1,2, K , q ; i = 1,2, K , m ) é o coeficiente da variável exógena
h na equação da forma reduzida da variável endógena i. Pode, então, escrever-se
 yt1 = π 11 zt1 + π 21 zt 2 + L + π q1 ztq + vt1

 yt 2 = π 12 zt1 + π 22 zt 2 + L + π q 2 ztq + v´t 2

L
 ytm = π 1m zt1 + π 2 m zt 2 + L + π qm ztq + vtm ,

ou, ainda,
yti = ∑ h =1 π hi zth + vti = zt •π •i + vti ( i = 1,2, K , m ),
q
onde π •i é a coluna i da matriz Π . Assim, na forma reduzida, os regressores, zt • , são

comuns a todas as equações; trata-se de um modelo de regressão multivariada porque
todos os regressores são pré-determinados, isto é, E ( ztT•vt • ) = O .
Quando se dispõe de uma amostra de dimensão n, {( yt • , zt • ) : t = 1, 2, K , n} , a re-
lação amostral correspondente à forma reduzida é dada por
(6.5) Υ= Z Π + V ,
onde V = U Γ −1 é a matriz n × m (de elemento genérico vti ) das variáveis residuais da
forma reduzida. Cada equação de (6.5) pode ser apresentada da seguinte maneira:
y•i = Zπ •i + v•i ,
onde: y•i é a coluna i da matriz Υ ; v•i é a coluna i da matriz V.

Outra forma de apresentar Υ = Z Π + V é a seguinte:
Vec(Υ ) = ( I m ⊗ Z ) Vec(Π ) + Vec(V ) .
Exemplo 6.2 – Considere-se o modelo de procura e oferta de um certo produto (ver sec-
ção 4.2 do capítulo 4),
qtd = α 0 + α1 pt + utd (equação da procura)
 s
s
onde as variáveis qtd (quantidade procurada), qts (quantidade oferecida) e pt (preço)

são endógenas. O modelo apresentado nesta forma não é completo porque existem três
variáveis endógenas e duas equações. O modelo passa a ser completo quando se lhe jun-
ta a condição de equilíbrio de mercado, qtd = qts [ver (4.7), capítulo 4].
Seja, agora, o modelo na versão (4.8),

qt = β 0 + β1 pt + ut (equação da oferta),
s
onde qt = qtd = qts (quantidade transaccionada). Este modelo de duas equações simultâ-
neas (há interdependência entre qt e pt ) é completo porque tem duas variáveis endóge-
nas, qt e pt , e duas equações.
Considere-se o modelo (4.18),

 qt = β 0 + β 1 pt + β 2 z t + u t
s
onde rt é o rendimento médio dos consumidores e zt é um indicador da dimensão

média das empresas do mercado respectivo. Admitindo que as variáveis rt e zt são exó-
genas, facilmente se conclui que este modelo de duas equações simultâneas é completo.
Com a notação (6.1), tem-se
yt1 = yt 2 = qt , xt1• = [ 1 pt rt ] ( k1 = 3 ), xt 2• = [ 1 pt zt ] ( k2 = 3 ),
α  β 
 0  0 β 
β•1 = α1  , β• 2 =  β1  , β =  •1  , ut1 = utd , ut 2 = uts e zt • = [ 1 rt zt ] ( q = 3 ).
α  β   β• 2 
 
2
 
2
Com a notação (6.2), vem

qt − α1 pt − α 0 − α 2 rt = utd (equação da procura)


qt − β1 pt − β 0 − β 2 zt = ut
s
e, portanto,
− α 0 − β0 
 1 1   
yt • = [ qt pt ], zt • = [ 1 rt zt ], Γ =   , ∆ = − α 2 0  e ut • = [ utd uts ].
− α1 − β1   0 −β 
 2
A forma reduzida é dada por

 α β − α 0 β1 α1β 2 αβ α u s − β1utd
qt = 1 0 + zt − 2 1 rt + 1 t
 α1 − β1 α1 − β1 α1 − β1 α1 − β1

 p = β 0 − α 0 + β 2 z − α 2 r + ut − ut .
s d
 t α1 − β1 α1 − β1 t α1 − β1 t α1 − β1

Então,
α β − α β β0 − α 0 
 1 0 0 1

 α1 − β1 α1 − β1 
 αβ β2  α u s − β u d uts − utd 
Π= 1 2
 e vt • =  1 t 1 t
.
 α − β α − β1   α − β α1 − β1 
1 1 1 1 1

 
 − α 2 β1 −
α2 
 α1 − β1 α1 − β1 

∇
Exemplo 6.3 – Considere-se a função consumo macroeconómica, Ct = α 0 + α1Yt + ut ,

onde Ct é o consumo agregado e Yt é o PNB (ver secção 4.2 do capítulo 4). Como Yt é
endógeno, o modelo formado por esta função não é completo, uma vez que existem
duas variáveis endógenas, Ct e Yt , e apenas uma equação. O modelo torna-se completo
quando se considera a identidade do PNB,
Yt = Ct + I t ,
onde I t (investimento agregado) é variável pré-determinada [ver (4.20), capítulo 4].

Com a notação (6.2), obtém-se
Ct − α1Yt − α 0 = ut (função consumo)

− Ct + Yt − I t = 0 (identidade do PNB).
Donde
 1 − 1 − α 0 0 
yt • = [ Ct Yt ], zt • = [ 1 I t ], Γ =  , ∆=  e ut • = [ ut 0 ].
−
 1 α 1   0 − 1
A forma reduzida é
 α0 α1 1
Ct = 1 − α1 + 1 − α1 I t + 1 − α1 ut


Y = α 0 + 1 I + 1 u ,
 t 1 − α1 1 − α1 t 1 − α1 t
onde
 α0 α0 
1 − α 1 − α1   1 1 
Π=  e vt • = 
1
ut u
 α1 1  1 − α1 1 − α1 t 
1 − α1 1 − α1 
∇
Exemplo 6.4 – Retome-se o modelo do exemplo 6.1-e),

lsalart = β11 + β 21 educt + β31 expert + β 41qit + β51cmtt + ut1

cmtt = β12 + β 22 educt + β32 qit + ut 2 .
Supondo que as variáveis expert e qit são exógenas, o modelo não é completo,
porque tem duas equações e três variáveis endógenas [ lsalart , cmtt e educt ]. Para ser
completo falta-lhe uma equação (a equação da escolaridade, explicativa do comporta-
mento de educt ).
Uma prática corrente para completar o modelo consiste em juntar às duas equa-
ções da forma estrutural, a equação da forma reduzida de educ. O modelo completo é,
então, dado por
lsalart = β11 + β 21 educt + β31 expert + β 41qit + β51cmtt + ut1

cmtt = β12 + β 22 educt + β32 qit + ut 2
educ = π + π exper + π qi + v .
 t 13 23 t 33 t t3
No exemplo seguinte dá-se o devido relevo ao modo como o par de matrizes

(Γ, ∆ ) [que agrupa os parâmetros da forma estrutural quando o modelo é apresentado
com a notação (6.2)] depende de β [vector k × 1 que agrupa os subvectores β •l , kl × 1 ,
dos parâmetros da forma estrutural quando se utiliza a notação (6.1)]. São salientados
três aspectos:
1) Cada coluna da matriz Γ tem um elemento igual a 1, traduzindo o facto de que em
cada equação a variável a explicar tem coeficiente unitário. Deste modo, em cada co-
luna de Γ existe uma restrição de normalização.
2) Alguns elementos de Γ e de ∆ são nulos, reflectindo a circunstância de que algumas
das variáveis endógenas ou algumas das variáveis pré-determinadas não estão incluí-
das em certas equações do modelo. Este facto traduz a existência de restrições de
exclusão.
3) Não há restrições inter-equações, pelo que cada elemento de β só aparece uma vez
em (Γ, ∆ ) .
Exemplo 6.5 – Considere-se o seguinte modelo com três equações estruturais:

y = α +α y +α y +α z + u
 t1 1 2 t2 3 t3 4 t1 t1
 yt 2 = β1 + β 2 yt1 + β 3 zt1 + β 4 zt 2 + β5 zt 3 + ut 2
y = γ + γ y + γ z + γ z + γ z + γ z + u .
 t 3 1 2 t 2 3 t1 4 t 2 5 t 3 6 t 4 t 3
De acordo com a notação (6.1), tem-se

yt • = [ yt1 yt 2 yt 3 ] ( m = 3 ), ut • = [ ut1 ut 2 ut 3 ],
xt1• = [ 1 yt 2 yt 3 zt1 ] ( k1 = 4 ), xt 2• = [ 1 yt1 zt1 zt 2 zt 3 ] ( k1 = 5 ),
xt 3• = [ 1 yt 2 zt1 zt 2 zt 3 zt 4 ] ( k1 = 6 ) e zt • = [ 1 zt1 zt 2 zt 3 zt 4 ] ( q = 5 ),
γ 
β   1
α    1
γ 2 
 1 β2  β 
α γ   •1 
 2    
β •1 =   β• 2 β3
, = , β = 3
, β =  β• 2  ( k = 15 ).
α3   •3 γ 4 
  β4  β 
   •3 
α 4    γ 5
  β
 5  γ 6 
 
Fazendo
y −α y −α y −α −α z = u
 t1 2 t2 3 t3 1 4 t1 t1
 yt 2 − β 2 yt1 − β1 − β3 zt1 − β 4 zt 2 − β5 zt 3 = ut 2
y − γ y − γ − γ z − γ z − γ z − γ z = u ,
 t 3 2 t 2 1 3 t1 4 t 2 5 t 3 6 t 4 t3
vem, de acordo com (6.2),

γ γ γ   1 − β 0 
 11 12 13   2

Γ = γ 21 γ 22 γ 23  = − α 2 1 − γ 2 
γ γ γ   − α 0 1 
 31 32 33   3 
e
δ δ12 δ13   − α1 − β1 − γ1 
 11   
δ 21 δ 22 δ 23  − α 4 − β3 −γ3
∆ = δ 31 δ 32 δ 33  =  0 − β4 −γ4 .
   
δ 41 δ 42 δ 43   0 − β5 −γ5

δ 51 δ 52 δ 53   0 0 −γ6

  
Pode concluir-se que existem três restrições de normalidade (uma para cada
equação): γ 11 = γ 22 = γ 33 = 1 . Quanto às restrições de nulidade, tem-se: três, para a pri-
meira equação, δ 31 = δ 41 = δ 51 = 0 ; duas, para segunda equação: γ 32 = δ 52 = 0 ; uma, para
a terceira equação: γ 13 = 0 . Não há restrições inter-equações (um exemplo deste tipo
de restrições seria α 2 + γ 2 = 0 : os coeficientes de yt 2 nas primeira e terceira equações

seriam simétricos).
∇
As considerações anteriores contribuem para esclarecer as relações entre a nota-

ção (6.1), yti = xti• β •i + uti , e a notação (6.2), yt •γ •i + zt •δ •i = uti , de um modelo comple-
to. Para clarificar estas relações é vantajoso introduzir outra notação. Seja
 1 
  − δ ( i ) 
yt • = [ yti yti • yti∗ • ], zt • = [ zti • zti∗ • ] , γ •i = − γ ( i )  , δ •i =   (i = 1, 2, K , m) ,
 0   0 
 
onde:
− yti é a observação t da variável a explicar, yi , pela equação i;
− yti • é o vector 1× mi da observação t das variáveis endógenas explicativas incluídas
na equação i;
− yti∗ • é o vector 1 × mi∗ da observação t das variáveis endógenas não incluídas na equa-
ção i;
− zti • é o vector 1 × qi da observação t das variáveis pré-determinadas (explicativas) in-
cluídas na equação i;
− zti∗ • é o vector 1 × qi∗ da observação t das variáveis pré-determinadas não incluídas na
equação i;
− γ (i ) é o vector mi × 1 dos coeficientes das variáveis endógenas explicativas incluídas
na equação i;
− δ (i ) é o vector qi × 1 dos coeficientes das variáveis pré-determinadas (explicativas)
incluídas na equação i;
− Tem-se: m = 1 + mi + mi∗ ; q = qi + qi∗ .
A partir de yt •γ •i + zt •δ •i = uti , obtém-se

(6.6) yti = yti •γ ( i ) + zti •δ ( i ) + uti (i = 1, 2, K , m ; t ∈ T ) .
Confrontando com (6.1), conclui-se que

γ 
xti • = [ yti • zti • ] , β•i =  ( i )  e ki = mi + qi .
δ ( i ) 
Os vectores yti • e zti • podem ser obtidos por meio de matrizes de selecção.
Assim, tem-se
yti • = yt • Siy e zti • = zt • Siz ,
onde:
− Siy é a matriz m × mi de selecção das variáveis endógenas explicativas incluídas na
equação i [em cada coluna desta matriz existe um e só elemento igual a 1 (os outros
elementos são nulos), que corresponde a cada variável endógena explicativa incluída
na equação i];
− Siz é a matriz q × qi de selecção das variáveis pré-determinadas (explicativas) incluí-

das na equação i [em cada coluna desta matriz existe um e só elemento igual a 1 (os
outros elementos são nulos), que corresponde a cada variável pré-determinada incluí-
da na equação i].
Confrontando (6.2) com (6.6), conclui-se imediatamente que em (6.6) já estão
inseridas as restrições de exclusão (a nulidade dos coeficientes que correspondem às
variáveis consideradas nos vectores yti∗ • e zti∗ • ). Se não existir um número razoável de
restrições de exclusão, a autonomia das equações pode ser prejudicada.
Exemplo 6.6 – Retomando o exemplo anterior, tem-se:

Equação 1
yt1• = [ yt 2 yt 3 ] , yt∗1• não existe, zt1• = [ 1 zt1 ] , zt∗1• = [ zt 2 zt 3 zt 4 ] ,
α  α 
γ (1) =  2  , δ (1) =  1  , m1 = 2 , m1∗ = 0 , q1 = 2 , q1∗ = 3 ,
α 3  α 4 
1 0
0 0 0 1
 
S1y = 1 0 e S1z = 0 0 .
 
0 1 0 0
 
0 0
Equação 2
yt 2• = [ yt1 ] , yt∗2• = [ yt 3 ] , zt 2• = [ 1 zt1 zt 2 zt 3 ] , zt∗2• = [zt 4 ] ,
 β1 
β 
γ ( 2 ) = [β 2 ] , δ ( 2) =  3  , m2 = 1 , m2∗ = 1 , q2 = 4 , q2∗ = 1 ,
β4 
β 
 5
1 0 0 0
1  0 1 0 0
 
S2y = 0 e S 2z = 0 0 1 0 .
 
0 0 0 0 1
 
0 0 0 0
Equação 3
yt 3• = [ yt 2 ] , yt∗3• = [ yt1 ] , zt 3• = [ 1 zt1 zt 2 zt 3 zt 4 ] , zt∗3• não existe,
γ 1 
γ 
 3
γ (3) = [γ 2 ], δ (3) = γ 4  , m3 = 1 , m3∗ = 1 , q3 = 5 , q3∗ = 0 ,
γ 
 5
γ 6 
1 0 0 0 0
0  0 1 0 0 0
 
S3y = 1 e S3z = 0 0 1 0 0 .
 
0 0 0 0 1 0
 
0 0 0 0 1
∇
Suponha-se que no exemplo 6.5 a variável zt 4 , embora fazendo parte da lista de

variáveis instrumentais (representada pelo vector zt • ) não figura na terceira equação do
modelo. Em termos gerais, trata-se de uma situação em que pelo menos uma variável
pré-determinada não aparece em qualquer equação do modelo. Para fixar ideias, su-
ponha-se que no sistema (6.2), yt •Γ + zt • ∆ = ut • , a variável ztq não figura no sistema, e,
no entanto, faz parte de zt • . Neste caso, a última linha da matriz ∆ é nula. Vai provar-
-se que a projecção linear MQ de yti sobre zt • , E ∗ ( yti | zt • ) , é igual a projecção linear
MQ de yti sobre zt∗• , E ∗ ( yti | zt∗• ) , onde zt∗• = [ zt1 zt 2 L zt , q −1 ] (note-se que zt • =
[ zt∗• ztq ]). Como | Γ | ≠ 0 , pode obter-se a forma reduzida, yt • = zt •Π + vt • , onde a últi-
ma linha de Π = ∆ Γ −1 é nula. Então, facilmente se conclui que
E ∗ ( yti | zt • ) = zt •π •i = zt∗•π •∗i = E ∗ ( yti | zt∗• ) ,
onde π •i é a coluna i da matriz Π , e π •i∗ é o subvector de π •i , retirando-lhe o último

elemento (que é nulo).
6.4 - Identificação
Considere-se a equação i de um modelo completo de equações simultâneas,

yti = yti •γ ( i ) + zti •δ ( i ) + uti = xti • β •i + uti .
Sabe-se que a condição de característica para a identificação desta equação (dos

seus coeficientes) – que apenas admite restrições de exclusão – é que a matriz de tipo
q × ki , Qzxi = E ( ztT• xti • ) , exista e verifique r (Qzxi ) = ki .
Sabe-se que a forma reduzida correspondente às variáveis endógenas incluídas
em yti • (variáveis endógenas explicativas consideradas na equação i) é yti • = zt •Π i + vti • ,
onde Π i = Π Siy é a matriz q × mi dos respectivos coeficientes da forma reduzida, vti • é
o vector 1× mi das correspondentes variáveis residuais, e E ( ztT•vti • ) = O .
Notando que zti • = zt • Siz e que xti • = [ yti • zti • ] , resulta que
 
Qzxi = E ( ztT• xti • ) = E  ztT•  yti • zti •   =  E ( ztT• yti • ) E ( ztT• zti • )
    


=  E{ztT• ( zt •Π i + vti • )} E ( ztT• zt • Siz )

 
= E ( ztT• zt • ) Π i Siz  .
 
Pode, então, concluir-se que a condição de característica r (Qzxi ) = ki (condi-

ção necessária e suficiente de identificação dos coeficientes da equação i) é equivalen-
te a que a característica de [ Π i Siz ], matriz de tipo q × (mi + qi ) , seja igual a mi + qi
( ki = mi + qi ). Daqui decorre a condição necessária q ≥ mi + qi , que se chama condição
de ordem. Como q − qi ≥ mi , a condição de ordem significa que o número de variáveis
endógenas explicativas incluídas na equação i não pode ser superior ao número de va-
riáveis pré-determinadas não incluídas na equação i.
Suponha-se que num modelo completo de equações simultâneas, uma das va-
riáveis pré-determinadas, ztq , não aparece em qualquer equação do modelo. Seja
zt • = [ zt∗• ztq ].
A eliminação de ztq da lista dos instrumentos não altera a condição de caracte-

rística para a identificação. Com efeito, notando que
Qzxi = E ( ztT• xti • ) = E ( ztT• zt • ) Π i Siz  ,

 
e que ztq não aparece no modelo, a última linha de Π i é nula, bem como a de Siz . Lo-
go, a última linha de [ Π i Siz ] é nula. Então, eliminar ztq do vector zt • corresponde a
eliminar a última linha de [ Π i Siz ], o que não altera a sua característica.
O estudo da identificação pode ser generalizado de forma a incorporar quais-
quer restrições sobre os parâmetros da forma estrutural. Para isso, vai considerar-se a
forma reduzida, yt • = zt •Π + vt • , onde Ω = E (vtT•vt • ) . Pode concluir-se imediatamente
que Π e Ω são identificados, uma vez que E ( ztT•vt • ) = O e Qzz = E ( ztT• zt • ) é não singu-
lar [notar, também, que os parâmetros da forma reduzida podem ser estimados, de forma
consistente, pelo método MQ]. Põe-se, então, a questão de saber se a partir dos parâme-
tros da forma reduzida, (Π, Ω) , se podem determinar, de forma unívoca, os parâmetros
estruturais, (Γ, ∆, Σ) , usando as relações entre os dois tipos de parâmetros: Π Γ + ∆ = O
e Σ = ΓT Ω Γ .
Como o número de parâmetros estruturais é m 2 + qm + m(m + 1) / 2 [ m2 parâme-
tros em Γ ; qm parâmetros em ∆ ; m(m + 1) / 2 parâmetros em Σ ], e o número de igual-
dades é qm + m(m + 1) / 2 [ qm igualdades em Π Γ + ∆ = O ; m(m + 1) / 2 igualdades em
Σ = ΓT ΩΓ ], são necessárias, pelo menos, m 2 restrições adicionais sobre os parâmetros
estruturais para que estes sejam identificados, isto é, sejam determinados de forma uní-
voca. Quando não se dispõe deste número de restrições não se podem identificar os pa-
râmetros estruturais.
Os tipos de restrições sobre os parâmetros estruturais são os seguintes:
a) Restrições de normalização (cada coluna da matriz Γ tem um elemento igual a 1,
ou seja, em cada equação há uma variável endógena que tem coeficiente unitário).
b) Restrições de exclusão (alguns elementos das matrizes Γ e ∆ são nulos, ou seja,
algumas variáveis endógenas ou pré-determinadas não estão incluídas em certas
equações).
c) Restrições lineares intra-equações (restrições lineares sobre os coeficientes de uma
dada equação estrutural).
d) Restrições lineares inter-equações (restrições lineares que envolvem coeficientes

de várias equações estruturais).
e) Restrições sobre variâncias e covariâncias (restrições sobre os elementos de Σ ).
Como, quase sempre, existem m restrições de normalização, o número mínimo

de restrições adicionais necessárias passa a ser m 2 − m = m(m − 1) . As restrições de tipo
b) são um caso particular das restrições de tipo c). De momento, não vão considerar-se
restrições dos tipos d) e e). Deste modo, basta ter m − 1 restrições de tipo c) sobre os
coeficientes de uma certa equação para se poder identificar os respectivos coeficientes.
Se for possível identificar os parâmetros da matriz Γ , ficam imediatamente identifica-
dos os parâmetros da matriz Σ por meio da relação Σ = ΓT ΩΓ .
A partir de
ΠΓ + ∆ = O ,
e fazendo
Γ 
Α = Π I q  e Φ =   ,
  ∆ 
obtém-se ΑΦ = O , onde Α e Φ são de tipo q × (m + q) e (m + q) × m , respectivamen-
te. Para identificar a equação estrutural i (ou os seus coeficientes), yt •γ •i + zt •δ •i = uti ,
vai considerar-se a relação
γ •i 
[ ]
Αφ•i = 0 ⇔ Π I q   = 0 ,
δ •i 
onde
γ •i 
φ•i =  
δ •i 
é a i-ésima coluna da matriz Φ . Trata-se de um sistema de q equações lineares inde-
pendentes [pois r ( Α) = q ] com m + q − 1 incógnitas (considerando a respectiva restrição
de normalização). É um sistema com grau de indeterminação m − 1 , sendo necessárias
m − 1 restrições adicionais independentes para identificar os coeficientes.
Considere-se um conjunto de ri restrições lineares sobre os elementos de φ•i ,
Ri φ•i = 0 ,
onde Ri é uma matriz ri × (m + q) , com característica igual a ri < m + q .

Juntando as duas relações,
Α
 R  φ•i = 0 ,
 i
obtém-se um sistema de q + ri equações com m + q − 1 incógnitas. A identificação de
φ•i exige que este sistema seja possível e determinado. Pode, então, enunciar-se a con-
dição de característica para a identificação:
A condição necessária e suficiente de identificação da equação estrutural i (dos elemen-

tos do vector φ•i ) é que
 Α 
(6.7) r     = m + q − 1.
 R 
 i
A respectiva condição de ordem (condição necessária de identificação de φ•i ) é

q + ri ≥ m + q − 1 ou ri ≥ m − 1 , isto é, o número de restrições independentes é maior ou
igual ao número de equações menos uma.
Infelizmente, o cálculo daquela característica não é, em geral, tarefa fácil, uma
vez que os elementos de Π são funções complicadas dos parâmetros estruturais. Contu-
do, demonstra-se, sem dificuldade, que
 Α 
(6.8) r     = m + q − 1 ⇔ r ( Ri Φ) = m − 1 .
 R 
 i
Com efeito,
 Α   Π I q     Π I q  Γ O    O Iq  
r   = r    = r      = r   ,
 R   R′ R′′   R′ R′′ ∆ I   R Φ R′′  
 i  i i   i i   q   i i 
onde
Γ O 
Ri =  Ri′ Ri′′  e   é não singular.
 
∆ I q 
Como
− Ri′′ I ri 
 
 Iq O 
é não singular, vem
 Α   − Ri′′ I r1   O I q    R Φ O  
r   = r      = r  i   = r ( Ri Φ ) + q .
 R   I O R Φ R′′   O I
 i  q  i i   q 
Donde, r ( Ri Φ ) + q = m + q − 1 ou r ( Ri Φ ) = m − 1 [esta condição só pode ser sa-
tisfeita se r ( Ri ) ≥ m − 1 , que é a condição de ordem já conhecida].
Em resumo:
1) A equação i não é identificável se e só se r ( Ri Φ ) < m − 1 . Pode, então, dizer-se que a
equação i é sub-identificada. A sub-identificação surge, evidentemente, quando se
tem r ( Ri ) < m − 1 . Nenhum método de estimação fornece estimadores consistentes
dos coeficientes da equação i.
2) A equação i é exactamente identificada se e só se r ( Ri Φ ) = m − 1 e r ( Ri ) = m − 1 .
Neste caso, os coeficientes estruturais podem ser expressos, de forma única, em fun-
ção dos coeficientes da forma reduzida.
3) A equação i é sobre-identificada se e só se r ( Ri Φ ) = m − 1 e r ( Ri ) > m − 1 . Neste ca-

so, existem vários modos de exprimir os coeficientes estruturais em função dos coefi-
cientes da forma reduzida.
No caso particular em que todas as restrições lineares intra-equações são restri-

ções de exclusão, tem-se ri = mi∗ + qi∗ = (m − 1 − mi ) + (q − qi ) . Assim, a condição de or-
dem é (m − 1 − mi ) + (q − qi ) ≥ m − 1 ou q − qi ≥ mi (o número de variáveis pré-determi-
nadas excluídas da equação i é maior ou igual ao número de variáveis endógenas incluí-
das menos uma). Como ki = mi + qi a condição de ordem pode ser apresentada da se-
guinte maneira: q ≥ ki (o número de variáveis pré-determinadas do sistema é maior ou
igual ao número de regressores da equação i).
Exemplo 6.7 – No exemplo 6.5, a matriz dos parâmetros estruturais é dada por
 1 − β2 0 
 
− α 2 1 −γ2
− α3 0 1 
 
 − α1 − β1 − γ1 
Φ= .
− α 4 − β3 − γ3
 0 − β4 −γ4
 
 0 − β5 − γ5
 
 0 0 −γ6
O estudo da identificação é o seguinte:

Equação 1
0 0 0 0 0 1 0 0  0 − β 4 − γ 4 
   
R1 = 0 0 0 0 0 0 1 0 ; R1Φ = 0 − β5 − γ 5  .
0 0 0 0 0 0 0 1  0 0 − γ 6 
   
Como r ( R1Φ ) = 2 e r1 = r ( R1 ) = 3 , a equação 1 é sobre-identificada.
Equação 2
0 0 1 0 0 0 0 0  − α 3 0 1 
R2 =   ; R2Φ =  .
 0 0 0 0 0 0 0 1   0 0 − γ 6
Como r ( R2Φ ) = 2 e r2 = r ( R2 ) = 2 , a equação 2 é exactamente identificada.

Equação 3
R3 = [ 1 0 0 0 0 0 0 0 ]; R3Φ = [ 1 − β 2 0 ].
Como r ( R3Φ ) = 1 , a equação 3 não é identificada.

∇
Exemplo 6.8 – Considere-se o modelo

 y t 1 = α 1 y t 2 + α 2 ( z t 1 − z t 2 ) + α 3 z t 3 + α 4 z t 4 + ut 1

 y t 2 = β1 y t 1 + β 2 z t 2 + β 3 z t 3 + β 4 z t 4 + ut 2 ,
com a restrição 2 β 2 + β 3 = 0.5 (não homogénea). Tem-se:
 1 − β1 
 
 − α1 1 
− α 0 
Φ= .
2
 α2 − β2 
 
− α3 − β3 
− α − β 4 
 4
Equação 1:
R1= [ 0 0 1 1 0 0] ; R1Φ = [ 0 − β 2 ] .
Como r ( R1Φ ) = 1 e r1 = r ( R1 ) = 1 , a equação 1 é exactamente identificada.
Equação 2:
0 0 1 0 0 0   − α2 0
R2 =   ; R Φ =  .
− 0.5α1 + 2α 2 − α 3 0
2
 0 0 .5 0 2 1 0 
Como r ( R2Φ ) = 1 e r2 = r ( R2 ) = 2 , a equação 2 é sobre-identificada.

∇
O estudo da identificação pode ser aprofundada de modo a poder integrar

restrições de tipo d) e e). Para isso, convém apresentar algumas definições no contexto
dos modelos de equações simultâneas (MES):
− Estrutura. Dado um MES, qualquer terno de matrizes (Γ, ∆, Σ) conhecido é uma
estrutura.
− Estrutura admissível. Dado um MES, uma estrutura (Γ, ∆, Σ) que satisfaz as restri-
ções é uma estrutura admissível.
− Modelo. O conjunto das estruturas chama-se modelo.
− Estruturas equivalentes. Duas estruturas são equivalentes se e só se conduzem à
mesma forma reduzida. Neste caso, existem dois ou mais conjuntos de valores dos
parâmetros compatíveis com os dados. Diz-se, então, que aqueles conjuntos de valo-
res são observacionalmente equivalentes.
Pode apresentar-se a seguinte propriedade:

− Duas estruturas, (Γ, ∆, Σ) e (Γ∗ , ∆∗ , Σ∗ ) , são equivalentes se e só se existe uma trans-
formação linear dada por uma matriz F, quadrada de ordem m e não singular, tal que
Γ* = ΓF , ∆* = ∆ F e Σ* = F T Σ F .
Com efeito, multiplicando à direita ambos os membros de yt •Γ + zt • ∆ = ut • por

F, obtém-se yt •ΓF + zt •∆ F = ut • F , ou yt •Γ∗ + zt • ∆∗ = ut∗• , onde ut∗• = ut • F . A forma re-
duzida correspondente é dada por
yt • = − zt • ∆∗Γ∗−1 + ut∗•Γ∗−1 = − zt • ∆ F F −1Γ −1 + ut • F F −1Γ −1 = − zt • ∆ Γ −1 + ut •Γ −1 = zt •Π + vt • ,
que é a mesma forma reduzida de yt •Γ + zt • ∆ = ut • .

Um caso especial obtém-se com F = Γ −1 , o que mostra que, evidentemente, a
forma estrutural e a forma reduzida correspondem a estruturas equivalentes.
A propriedade precedente significa que, sem restrições sobre os parâmetros es-
truturais, há muitas estruturas equivalentes; existe uma estrutura equivalente associada
com cada matriz F não singular.
Suponha-se que (Γ, ∆, Σ) é uma estrutura admissível. A matriz F representa uma
transformação linear admissível se e só se (Γ∗ , ∆∗ , Σ∗ ) é também uma estrutura admis-
sível.
Para identificar o modelo, são necessárias restrições sobre os parâmetros estrutu-
rais (Γ, ∆, Σ) [informação a priori] de modo que F = I m represente a única transfor-
mação linear admissível.
Começa-se por considerar apenas restrições de normalização [de tipo a)] e res-
trições lineares intra-equações [de tipo c), e, em particular, de tipo b)] para identificar a
equação estrutural i, yt •γ •i + zt •δ •i = uti . Como
Γ 
Γ* = ΓF , ∆* = ∆ F , Φ =   ,
∆ 
tem-se Φ∗ = ΦF e φ•∗i = Φ f •i , onde
γ ∗  Γ f •i 
φ•∗i =  •∗i  =  
δ •i  ∆ f •i 
e f •i é a coluna i da matriz F.
Suponha-se que Ri φ•i = 0 (restrições lineares sobre os elementos de φ•i ), onde
Ri é uma matriz ri × (m + q ) , tal que ri = r ( Ri ) < m + q . A condição que garante a identi-
ficação de φ•i deve ser tal que permita distinguir φ•i de qualquer outro vector da forma
φ•∗i = Φ f•i . O vector φ•i∗ satisfaz as restrições lineares se e só se
Ri φ•∗i = R1 (Φ f•i ) = ( R1Φ ) f •i = 0 .
Obviamente, a igualdade ( R1Φ ) f•i = 0 é verdadeira para

0 
M
 
f•i = e•i = 1 ,
M
0 
 
com 1 na posição i, já que φ•∗i = Φ e•i = φ•i . Como ( R1Φ ) f•i = 0 se verifica para f•i = e•i ,
também se verifica para qualquer múltiplo de e•i , ci e•i . A chave do problema da identi-
ficação está em considerar que vectores f•i da forma ci e•i são os únicos que satisfazem
a condição ( R1Φ ) f•i = 0 . Se esta condição é verdadeira para vectores f•i ≠ ci e•i , não há
possibilidade de identificar φ•i .
Afirmar que ( R1Φ ) f•i = 0 se verifica apenas para f•i = ci e•i , significa que o grau
de indeterminação do sistema homogéneo ( R1Φ ) f•i = 0 é igual a 1 (o respectivo espaço
das soluções tem dimensão 1), ou seja, a matriz do sistema, R1Φ , tem característica
igual a m − 1 . A indeterminação é levantada quando se considera a restrição de normali-
zação (pelo menos um dos coeficientes é igual a 1). Reencontra-se a condição de ca-
racterística para a identificação, r ( Ri Φ ) = m − 1 .
Seguidamente vai utilizar-se a metodologia anterior para estudar a identificação
quando existem restrições inter-equações. Considere-se o seguinte modelo:
 yt1 = α1 yt 2 + α 2 zt1 + ut1
(6.9) 
 yt 2 = β1 yt1 + β 2 zt1 + β3 zt 2 + ut 2 .
Facilmente se verifica que a equação 1 é identificada, e que a equação 2 é sub-
-identificada. Contudo, com a informação adicional, α 2 + β 2 = 0 , fica garantido que a
equação 2 passa a ser identificada.
Fazendo
f f 
F =  11 12  ,
 f 21 f 22 
vem
 1 − β1   f11 f12   f11 − β1 f 21 f12 − β1 f 22 
ΓF =     = ,
− α1 1   f 21 f 22  − α1 f11 + f 21 − α1 f12 + f 22 
− α 2 − β 2   f11 f12  − α 2 f11 − β 2 f 21 − α 2 f12 − β 2 f 22 
∆F =   = .
 0 − β3   f 21 f 22   − β 3 f 21 − β3 f 22 
Se a estrutura transformada (Γ∗ , ∆∗ , Σ∗ ) é admissível, verifica as mesmas restri-
ções de que a estrutura (Γ, ∆, Σ) . Então,
 f11 − β1 f 21 = 1

− α1 f12 + f 22 = 1

− β3 f 21 = 0
(α f + β f ) + (α f + β f ) = 0.
 2 11 2 21 2 12 2 22
Resolvendo este sistema de quatro equações lineares para determinar os elemen-

tos da matriz F, obtém-se F = I 2 (matriz identidade de segunda ordem), ficando garan-
tida a identificação da equação 2.
Um procedimento para abordar o problema da identificação, nestes casos, con-
siste em considerar a forma reduzida,
 yt1 = π 11 zt1 + π 21 zt 2 + vt1

 yt 2 = π 12 zt1 + π 22 zt 2 + vt 2 ,
e substituir estas expressões de yt1 e de yt 2 nas equações da forma estrutural. Assim,

π 11 zt1 + π 21 zt 2 + vt1 = α1 (π 12 zt1 + π 22 zt 2 + vt 2 ) + α 2 zt1 + ut1

π 12 zt1 + π 22 zt 2 + vt 2 = β1 (π 11 zt1 + π 21 zt 2 + vt1 ) + β 2 zt1 + β3 zt 2 + ut 2 ,
ou
(π 11 − π 12α1 − α 2 ) zt1 + (π 21 − π 22α1 ) zt 2 = ut1 − vt1 + α1vt 2

(π 12 − π 11β1 − β 2 ) zt1 + (π 22 − π 21β1 − β 3 ) zt 2 = ut 2 + β1vt1 − vt 2 .
Como ut1 − vt1 + α1vt 2 = 0 e ut 2 + β1vt1 − vt 2 = 0 , vem
(π 11 − π 12α1 − α 2 ) zt1 + (π 21 − π 22α1 ) zt 2 = 0

(π 12 − π 11β1 − β 2 ) zt1 + (π 22 − π 21β1 − β 3 ) zt 2 = 0.
Considerando a equação 1 de (6.9), tem-se
π 11 − π 12α1 − α 2 = 0
(6.10) 
π 21 − π 22α1 = 0,
e , portanto,
 π 21
α1 = π 22
(6.11) 
α = π − π π 21 ,
 2 11 12
π 22
concluindo-se que a equação 1 é exactamente identificada.
Quanto à equação 2 de (6.9), tem-se
π 12 − π 11β1 − β 2 = 0
(6.12) 
π 22 − π 21β1 − β3 = 0.
Como
π 21
β 2 = −α 2 = −π 11 + π 12 ,
π 22
vem
 π 21
π 12 − π 11β1 + π 11 − π 12 π = 0
 22
π − π β − β = 0 ,
 22 21 1 3
ou
 π 12  π 21 
β1 = 1 + π 1 − π 
 11  22 
(6.13) 
β = π − π 1 + π 12 1 − π 21  ,
21  
 3  π 11  π 22 
22
donde resulta que a equação 2 é exactamente identificada.

Fica ao cuidado do leitor verificar que as igualdades que relacionam os parâme-

tros da forma estrutural com os parâmetros da forma reduzida podem ser deduzidas da
relação Π Γ + ∆ = O . Neste caso, tem-se:
π 11 π 12   1 − β1  − α 2 − β 2  0 0
  + = .
π π
 21 22   1 − α 1   0 − β 3  0 0 
Facilmente se verifica que se pode considerar o modelo de equações simultâneas
que verifica a restrição α 2 + β 2 = 0 : basta substituir β 2 por − α 2 , ou seja,
 yt1 = α1 yt 2 + α 2 zt1 + ut1
(6.14) 
 yt 2 = β1 yt1 − α 2 zt1 + β3 zt 2 + ut 2 .
Este modelo pode formalizar-se de acordo com a notação (5.3) [ver capítulo 5]:
y = X t • β + utT• . Com efeito, vem
T
t•
 α1 
 yt1   yt 2 zt1 0 0  α 2   ut1 
(6.15) y  =  0 − z +
yt1 zt 2   β1  ut 2 
,
 t2   t1
 
 β3 
onde
 α1 
α 
y  y zt1 0 0 u 
ytT• =  t1  , X t • =  t 2  , β =  2  e utT• =  t1  .
 yt 2   0 − zt 1 yt1 zt 2   β1  ut 2 
 
 β3 
Como o vector dos instrumentos comuns é zt • = [ zt1 zt 2 ] , tem-se
z z 0 0 
Z t • = I 2 ⊗ zt • =  t1 t 2 
 0 0 zt1 zt 2 
e
 E ( zt1 yt 2 ) E ( zt21 ) 0 0 
 
 E ( zt 2 yt 2 ) E ( zt1 zt 2 ) 0 0 
= T
Qzx E ( Z t • X t • ) = .
 0 − E ( zt21 ) E ( zt1 yt1 ) E ( zt1 zt 2 )
 
 0 − E ( zt1 zt 2 ) E ( zt 2 yt1 ) E ( zt22 ) 
Obviamente as equações do modelo são identificadas porque se verifica a con-

dição de característica: r (Qzx ) = 4 . Então, modelo com restrições pode ser estimado pe-
lo método MGM.
Pode, também, estudar-se a identificação introduzindo restrições sobre a matriz
Σ (variâncias e covariâncias das variáveis residuais da forma estrutural). Considere-se
o modelo que serviu para exemplificar a identificação com restrições lineares inter-
-equações, mas suponha-se que, em vez de α 2 + β 2 = 0 , a covariância entre ut1 e ut 2 é
nula, σ 12 = 0 . Dado que se tem uma restrição sobre Σ , importa, para além de ΓF e de
∆ F , considerar a matriz das covariâncias da estrutura transformada,
 f11 f 21  σ 11 0   f11 f12   f112σ 11 + f 212σ 22 f11 f12σ 11 + f 21 f 22σ 22 
F ΣF = 
T
     = .
f f
 12 22   0 σ f
22   21 f 22  f f σ + f f σ
 11 12 11 21 22 22 f 2
σ
12 11 + f 2
σ
22 22 
Então,
 f11 − β1 f 21 = 1
− α f + f = 1
 1 12 22

− β
 3 21 f = 0
 f11 f12σ 11 + f 21 f 22σ 22 = 0.
Verifica-se imediatamente que F = I 2 , e, portanto, a equação é identificada.

Considerando a relação Σ = ΓT ΩΓ , é possível determinar os parâmetros estrutu-
rais em função dos parâmetros da forma reduzida. Tem-se:
 1 − α1  ω11 ω12   1 − β1 
Σ=   
− β1 1  ω12 ω22  − α1 1 
 ω11 − 2α1ω12 + α12ω22 − β1ω11 + α1β1ω12 + ω12 − α1ω22 
= .
− β
 1 11ω + α β ω
1 1 12 + ω12 − α ω
1 22 β 2
ω
1 11 − 2 β ω
1 12 + ω 22 
A condição σ 12 = − β1ω11 + α1β1ω12 + ω12 − α1ω22 = 0 permite obter
α1ω22 − ω12
β1 = .
α1ω12 − ω11
Como já se conhecem as expressões de α1 e α 2 [ver (6.11)], e de β 2 e β 3 em
função de β1 [ver (6.12)], é fácil de verificar que há apenas uma forma de escrever os
parâmetros estruturais ( α1 , α 2 , β1 , β 2 , β 3 , σ 11 e σ 22 ) em função dos parâmetros da
forma reduzida ( π 11 , π 12 , π 21 , π 22 , ω11 , ω12 e ω22 ). Pode, também, concluir-se que a
equação 2 é exactamente identificada.
A forma mais eficiente de utilizar as restrições sobre os elementos da matriz Σ é
escrever o conjunto completo de condições de ortogonalidade, E ( ztT•uti ) ( i = 1,2, K, m ),
e das restrições referidas, fazendo uti = yti − ( yti •γ (i ) + zti •δ (i ) ) . No caso do modelo que
serve de exemplo, tem-se
E ( zt1ut1 ) = E{zt1 ( yt1 − α1 yt 2 − α 2 zt1 )} = 0 ,
E ( zt 2ut1 ) = E{zt 2 ( yt1 − α1 yt 2 − α 2 zt1 )} = 0 ,
E ( zt1ut 2 ) = E{zt1 ( yt 2 − β1 yt1 − β 2 zt1 − β 3 zt 2 )} = 0 ,
E ( zt 2ut 2 ) = E{zt 2 ( yt 2 − β1 yt1 − β 2 zt1 − β3 zt 2 )} = 0 ,
E (ut1ut 2 ) = E{( yt1 − α1 yt 2 − α 2 zt1 )( yt 2 − β1 yt1 − β 2 zt1 − β3 zt 2 )} = 0 .
As condições de ortogonalidade fornecem um sistema de quatro equações linea-

res envolvendo os cinco coeficientes ( α1 , α 2 , β1 , β 2 , β 3 ):
 E ( zt1 yt 2 ) α1 + E ( zt21 ) α 2 = E ( zt1 yt1 )


 E ( zt 2 yt 2 ) α1 + E ( zt1 zt 2 ) α 2 = E ( zt 2 yt1 )

 E ( zt1 yt1 ) β1 + E ( zt1 ) β 2 + E ( zt1 zt 2 ) β3 = E ( zt1 yt 2 )
2
 E ( z y ) β + E ( z z ) β + E ( z 2 ) β = E ( z y ).
 t 2 t1 1 t1 t 2 2 t2 3 t2 t2
A quinta equação, que resulta de σ 12 = E (ut1ut 2 ) = 0 , é manifestamente não li-

near nos parâmetros:
E ( yt1 yt 2 ) = E ( yt21 ) β1 + E ( yt22 ) α1 − E ( yt1 yt 2 ) α1β1 + E ( zt1 yt1 )( β 2 − α 2 β1 )
+ E ( zt1 yt 2 )(α 2 − α1β 2 ) + E ( zt 2 yt1 ) β3 − E ( zt 2 yt 2 ) α1β3
− E ( zt21 ) α 2 β 2 − E ( zt1 zt 2 ) α 2 β3 .
Como o sistema formado pelas cinco equações é não linear nos parâmetros, as
condições sobre os momentos são não lineares. Nestas circunstâncias, o estimador ade-
quado é o estimador MGM não linear, que vai ser estudado no capítulo 8.
6.5 - Estimação e inferência estatística
Em geral, a estimação dos parâmetros de um modelo de equações simultâneas e

respectiva inferência estatística não põem questões adicionais em relação ao que já se
conhece dos modelos SER estudados no capítulo 5. Contudo, podem fazer-se os seguin-
tes comentários:
a) Quando a identificação dos parâmetros do modelo é feita exclusivamente à custa das
restrições de normalização e de restrições de exclusão, a estimação dos parâmetros
do modelo (6.6) pode ser feita com o estimador MGM eficiente com instrumentos
comuns. Quando se admite a hipótese da homocedasticidade condicionada, pode re-
correr-se ao estimador MQ3P.
b) Quando a identificação recorre a restrições lineares intra ou inter-equações, não
há dificuldades adicionais.
c) Os testes de hipóteses sobre os parâmetros (individuais ou conjuntos), bem como os
testes de sobre-identificação e de endogeneidade, podem efectuar-se nos moldes já
conhecidos do capítulo 5.
d) A opção entre a estimação conjunta e a estimação separada obviamente tem a ver
com o trade-off entre a eficiência da primeira e a robustez da segunda. Este comentá-
rio é obviamente válido quando, no caso de homocedasticidade condicionada, se faz
o confronto entre os estimadores MQ3P e SMQ2P.
e) Como se sabe, existem dois casos em que o estimador MGM conjunto e o estimador
MGM separado são equivalentes: a) cada equação do MES é exactamente identifica-
da; b) pelo menos uma equação é sobre-identificada, mas as equações não estão “re-
lacionadas” [para i ≠ l : E (utiutl ztiT• ztl • ) = O ; σ il = 0 (no caso de homocedasticidade
condicionada)].
f) No anexo 8A do capítulo 8 estudam-se as respectivas contrapartidas no âmbito da

máxima verosimilhança: os estimadores de máxima verosimilhança com informa-
ção completa (secção 8A.2) e com informação limitada (secção 8A.3).
g) Como a forma reduzida de um MES é um modelo de regressão multivariada, os res-
pectivos parâmetros podem ser estimados, de forma consistente, pelo método MQ
(estimação separada). Contudo, admitindo que a forma estrutural está bem especifi-
cada, é possível estimar os parâmetros da forma reduzida com base nos estimadores
dos parâmetros da forma estrutural (estimação conjunta). Assim, a partir de Γ̂ , ∆ˆ e
Σ̂ , podem calcular-se Π ˆ = − ∆ˆ Γˆ −1 e Ω
ˆ = (Γˆ −1 )T Σˆ Γˆ −1 . Pode provar-se que os estima-
dores dos coeficientes da forma reduzida, agrupados na matriz Π̂ , são consistentes e
assintoticamente normais, embora as respectivas variâncias e covariâncias assintóti-
cas sejam complicadas de obter. A questão do trade-off entre a eficiência e a robustez
ainda é pertinente, devendo optar-se entre a estimação separada (dada pelo método
MQ) e a estimação conjunta (baseada nos estimadores dos parâmetros da forma es-
trutural).
h) Quando a identificação envolve restrições sobre a matriz dos segundos momentos
das variáveis residuais, Σ , deve recorrer-se ao estimador MGM não linear (ver ca-
pítulo 8).
i) Uma das hipóteses cruciais dos MES considerados neste capítulo é dada pelas condi-
ções de ortogonalidade, E ( zt •uti ) = 0 ( i = 1,2, K, m ), ou seja, apenas se admite que as
variáveis residuais não estão correlacionadas com as variáveis instrumentais. Em al-
ternativa, poder-se-ia introduzir a hipótese mais forte dada por E (uti | zt • ) = 0 , que
implica que cada variável residual não está correlacionada com qualquer função dos
instrumentos.
É relativamente fácil encontrar situações em que a escolha entre as duas hipóteses
tem que recair forçosamente na primeira. De facto, na prática, há muitos casos de
modelos completos de equações simultâneas que não são plenamente estruturais,
porque o número de equações estruturais disponíveis é menor do que o número de
variáveis endógenas. A completude é obtida juntando ao modelo equações da forma
reduzida de algumas variáveis endógenas (ver exemplo 6.4). Nestas situações, é ine-
vitável escolher a hipótese da ortogonalidade.
Quando o modelo completo é plenamente estrutural pode ser recomendável supor
que E (uti | zt • ) = 0 . Haveria, então, a vantagem de as variáveis residuais não estarem
correlacionadas com quaisquer funções dos instrumentos. Ilustrando com o exemplo
6.4, as variáveis expert 2 , qit2 , expert × qit , ln(expert ) (e muitas outras) não estariam
correlacionadas com ut1 e ut 2 . Devem utilizar-se algumas funções não lineares de
zt • como instrumentos adicionais para efectuar a estimação dos parâmetros? A res-
posta a esta pergunta tem consequências em dois aspectos: a identificação dos parâ-
metros e a eficiência assintótica dos estimadores. No que diz respeito ao primeiro as-
pecto, os possíveis instrumentos adicionais não tem qualquer interesse porque, como
se referiu na secção 6.4, a introdução de variáveis instrumentais que não são regres-
sores não altera a condição de característica para a identificação.
Vai analisar-se a seguir a questão da eficiência assintótica dos estimadores. Supondo

que E (uti | zt • ) = 0 e que Cov(ut • | zt • ) = Σ (homocedasticidade condicionada), pode
provar-se que o estimador MQ3P, com o vector de instrumentos zt • para cada equa-
ção, é assintoticamente eficiente. Deste modo, não vale a pena expandir a lista dos
instrumentos para além das funções das variáveis pré-determinadas que já figuram no
modelo.
Mantendo a hipótese E (uti | zt • ) = 0 , mas admitindo que Cov(ut • | zt • ) não é constan-
te (heterocedasticidade condicionada), pode melhorar-se o desiderato da eficiência
assintótica dos estimadores. Seja o vector 1× g , h( zt • ) , de funções de zt • que não
são regressores pré-determinados. Pode demonstrar-se que o estimador MGM que
recorre aos instrumentos zt • e h( zt • ) é assintoticamente mais eficiente que o estima-
dor MGM que apenas utiliza zt • .
Esta expansão do vector de variáveis instrumentais não é muito usada na prática, por
duas razões: pode não haver um critério claro para seleccionar h( zt • ) ; a qualidade
dos estimadores em pequenas amostras pode ser prejudicada se o número de instru-
mentos adicionais é grande.
6.6 - Modelos de equações simultâneas não lineares nas variáveis endógenas
Os modelos de equações simultâneas que vão ser considerados nesta secção são
modelos não lineares nas variáveis endógenas, embora sejam lineares nos parâmetros.
Estes modelos podem ser formalizados da seguinte maneira:
(6.16) yti = hi ( yt(•i ) , zt • ) β •i + uti ( i = 1,2, K , m ),
onde:
− yt(i•) = [ yt1 yt 2 L yt ,1−1 yt ,i +1 L ytm ] é vector 1× (m − 1) das variáveis endógenas
originais, excluindo a variável explicada da equação i, yti .
− zt • é vector de tipo 1× q de todas as variáveis pré-determinadas originais.
− hi ( yt(•i ) , zt • ) é uma função vectorial, de tipo 1× ki , de yt(i•) e de zt • .
− E (uti | zt • ) = 0 .
As questões da identificação e da estimação destes modelos não vão ser estuda-

das com generalidade, mas por meio de alguns exemplos elucidativos.
Considere-se o seguinte modelo de equações simultâneas:
 yt1 = α1 yt 2 + α 2 yt22 + α 3 zt1 + ut1
(6.17) 
 yt 2 = β1 yt1 + β 2 zt 2 + ut 2 ,
onde:
− zt • = [ zt1 zt 2 ];
− h1 ( yt 2 , zt • ) =[ yt 2 yt22 zt1 ], h2 ( yt1 , zt • ) =[ yt1 zt 2 ];
− E (ut1 | zt1 , zt 2 ) = 0 e E (ut 2 | zt1 , zt 2 ) = 0 .
Este sistema é linear nos parâmetros, o que é importante para permitir aplicar os
métodos já conhecidos de estimação com variáveis instrumentais. No entanto, a presen-
ça do regressor endógeno yt22 na primeira equação torna o modelo não linear nas va-
riáveis endógenas.
Facilmente se conclui que a forma reduzida correspondente ao modelo (6.17)
mostra que yt 2 é uma função não linear de zt1 , zt 2 , ut1 e ut 2 . Com efeito, considerando
a segunda equação, tem-se yt1 = ( yt 2 − β 2 zt 2 − ut 2 ) / β1 ; substituindo na primeira equação,
resulta a seguinte equação do segundo grau em yt 2 :
α1β1 − 1 β 1
α 2 yt22 + yt 2 + α 3 zt1 + 2 zt 2 + ut1 + ut 2 = 0 ,
β1 β1 β1
cuja fórmula resolvente é bem conhecida. Resolvendo esta equação, é possível obter de
forma explícita a forma reduzida, embora não valha a pena fazer os cálculos. Supondo
que α 2 ≠ 0 , deduz-se imediatamente que E ( yt1 | zt1 , zt 2 ) , E ( yt22 | zt1 , zt 2 ) e E ( yt 2 | zt1 , zt 2 )
não são lineares em zt1 e zt 2 . Estes factos têm importantes implicações na identificação
da primeira equação de (6.17) e na escolha dos instrumentos.
Outro exemplo de modelo não linear nas variáveis endógenas, em que nem se-
quer é possível obter explicitamente a forma reduzida, é dado por
 yt1 = α1 ln( yt 2 ) + α 2 zt1 + ut1
(6.18) 
 yt 2 = β1 yt1 + β 2 yt1 + β3 zt 2 + ut 2 ,
2
onde:
− zt • = [ zt1 zt 2 ];
− h1 ( yt 2 , zt • ) =[ ln( yt 2 ) z t1 ], h2 ( yt1 , zt • ) =[ yt1 yt21 zt 2 ];
− E (ut1 | zt1 , zt 2 ) = 0 e E (ut 2 | zt1 , zt 2 ) = 0 .
Neste caso, E ( yt1 | zt1 , zt 2 ) , E ( yt21 | zt1 , zt 2 ) , E ( yt 2 | zt1 , zt 2 ) e E{ln( yt 2 ) | zt1 , zt 2 }

não são lineares em zt1 e zt 2 .
Uma forma possível de tratar o problema da identificação de (6.17) poderia con-
sistir em fazer yt 3 = yt22 , e considerar esta variável como se fosse uma terceira variável
endógena. Deste modo, obtinha-se o modelo
 yt1 = α1 yt 2 + α 2 yt 3 + α 3 zt1 + ut1
(6.19) 
 yt 2 = β1 yt1 + β 2 zt 2 + ut 2 ,
que é manifestamente não completo.
De forma semelhante, fazendo yt 3 = ln( yt 2 ) e yt 4 = yt21 em (6.18), resultava o
modelo não completo,
 yt1 = α1 yt 3 + α 2 zt1 + ut1
(6.20) 
 yt 2 = β1 yt1 + β 2 yt 4 + β 3 zt 2 + ut 2 .
Aparentemente a forma mais simples de completar estes modelos seria acrescen-

tar as equações da forma reduzida das novas variáveis endógenas. Assim, tinha-se a par-
tir de (6.19),
 yt1 = α1 yt 2 + α 2 yt 3 + α 3 zt1 + ut1

(6.21)  yt 2 = β1 yt1 + β 2 zt 2 + ut 2
y = π z + π z + v ,
 t3 13 t1 23 t 2 t3
onde E ( zt1vt 3 ) = 0 e E ( zt 2vt 3 ) = 0 . Do mesmo modo, na sequência de (6.20),

 yt1 = α1 yt 3 + α 2 zt1 + ut1

 yt 2 = β1 yt1 + β 2 yt 4 + β3 zt 2 + ut 2
(6.22) 
 yt 3 = π 13 zt1 + π 23 zt 2 + vt 3
y = π z + π z + v ,
 t4 14 t 1 24 t 2 t4
onde E ( zt1vt 3 ) = 0 , E ( zt 2vt 3 ) = 0 , E ( zt1vt 4 ) = 0 e E ( zt 2vt 4 ) = 0 .

Verifica-se imediatamente que a primeira equação de (6.21) e a segunda equação
de (6.22) não são identificadas (o número de variáveis instrumentais não é suficiente).
Contudo, quando em (6.17) se faz α 2 = 0 , o modelo resultante é linear nas variáveis en-
dógenas e as duas equações são identificadas. O mesmo acontece em (6.18) quando se
faz α1 = 0 e β 2 = 0 .
No que se segue vai apenas retomar-se o primeiro exemplo [ver (6.17), (6.19) e
(6.21)], ficando o segundo exemplo ao cuidado do leitor [ver (6.18), (6.20) e (6.22)]. A
conclusão de que a primeira equação de (6.21) não é identificada pode ser torneada
procurando-se outros instrumentos para a variável yt 3 = yt22 . Como E ( yt22 | zt1 , zt 2 ) não é
linear em zt1 e zt 2 , outras funções destas variáveis podem aparecer na equação da for-
ma reduzida de yt22 . De facto, supondo que α 2 = 0 [o modelo (6.17) é linear nas variá-
veis endógenas], vai considerar-se a forma reduzida de yt 2 : yt 2 = π 12 zt1 + π 22 zt 2 + vt 2 .
Elevando ao quadrado esta equação, e sabendo que E (vt 2 | zt1 , zt 2 ) = 0 , vem
(6.23) E ( yt22 | zt1 , zt 2 ) = π 122 zt21 + π 22
2 2
zt 2 + 2π 12π 22 zt1 zt 2 + E (vt22 | zt1 , zt 2 ) .
Se E (vt22 | zt1 , zt 2 ) é constante (hipótese que se verifica se existe homocedastici-

dade condicionada em relação às variáveis residuais estruturais), então (6.23) mostra
que zt21 , zt22 e zt1 zt 2 estão correlacionados com yt22 (desde que π 12 ≠ 0 ou π 22 ≠ 0 ), e,
portanto, podem ser instrumentos de yt22 . Nestas condições, pode substituir-se (6.21)
por
 yt1 = α1 yt 2 + α 2 yt 3 + α 3 zt1 + ut1

(6.24)  yt 2 = β1 yt1 + β 2 zt 2 + ut 2

 yt 3 = π 13 zt1 + π 23 zt 2 + π 33 zt1 + π 43 zt 2 + π 53 zt1 zt 2 + vt 3 ,
2 2
onde a terceira equação é a projecção linear MQ de yt22 sobre zt1 , zt 2 , zt21 , zt22 e zt1 zt 2
(forma reduzida de yt 3 ). A identificação da primeira equação do modelo (6.24) pode ser
feita com a condição de característica habitual. Deve notar-se que o estudo da identifica-
ção pode ser feito considerando o modelo incompleto formado apenas pelas duas pri-
meiras equações ( m = 2 ), desde que considere que as variáveis instrumentais são zt1 ,
zt 2 , zt21 , zt22 e zt1 zt 2 . Este procedimento é equivalente àquele que se podia fazer com as
três equações ( m = 3 ). Assim, tem-se
 1 − β1 
− α 
 1 1 
− α 2 0  0 0 0 0 1 0 0 0 0 − β 2 
  0  0 0 
 − α3 0  0 0 0 0 1 0 0
Φ= , R = e R1Φ =  .
 0 − β 2  1 0 0 0 0 0 0 1 0 0 0 
     
 0 0  0 0 0 0 0 0 0 1 0 0 
 0 0 
 
 0 0 
Como r ( R1Φ ) = m − 1 = 1 , a primeira equação de (6.24) é identificada.

Um método geral de identificação de modelos em que as funções não lineares
das variáveis endógenas dependem apenas de uma das variáveis originais [como aconte-
ce no modelos (6.17) e (6.18)] foi proposto por Fisher (1965). O método de Fisher
pode ser resumido da seguinte maneira:
a) Considerar as funções não lineares das variáveis endógenas como novas variáveis
endógenas.
b) Juntar à lista dos instrumentos as variáveis instrumentais que resultam das funções
referidas em a).
c) Condição suficiente: considere-se o modelo linear que se obtém anulando os coefi-
cientes das funções não lineares das variáveis endógenas originais. Se as equações
deste modelo linear são identificadas (com a lista inicial de instrumentos), então as
equações do modelo não linear também são identificadas (com a nova lista de instru-
mentos).
Em geral, pode provar-se a condição suficiente do método de Fisher, mesmo que

2
E (v | zt1 , zt 2 ) dependa de zt1 e zt 2 ; apenas não se verifica no caso patológico em que
t2
esta função de zt1 e zt 2 , E (vt22 | zt1 , zt 2 ) , anula as outras parcelas de E ( yt22 | zt1 , zt 2 ) [ver
(6.23)].
Aplicando o método de Fisher a (6.17), tem-se:
a) Faz-se yt 3 = yt22 .
b) A lista original de instrumentos é ( zt1 , z t 2 ) [instrumentos do modelo linear correspon-
dente a α 2 = 0 ]. A nova lista de instrumentos é dada por ( zt1 , zt 2 , zt21 , zt22 , zt1 zt 2 ) [ins-
trumentos do modelo (6.24)].
c) O modelo linear referido em b) é identificado, utilizando ( zt1 , z t 2 ). O modelo (6.24) é
identificado recorrendo à nova lista de instrumentos, ( zt1 , zt 2 , zt21 , zt22 , zt1 zt 2 ) [podendo
fazer-se a identificação usando apenas as duas equações estruturais de (6.24)] Deve
notar-se que é inútil utilizar a nova lista de instrumentos para identificar o modelo
linear porque a projecção linear de yt 2 sobre zt1 , zt 2 e qualquer função de ( zt1 , zt 2 )
depende apenas de zt1 e zt 2 .
Sem dificuldade se mostra que a condição de Fisher é suficiente, mas não é ne-
cessária. Com efeito, considere-se o seguinte modelo:
 yt1 = α1 yt 2 + α 2 yt22 + α 3 zt1 + α 4 zt 2 + ut1
(6.25) 
 yt 2 = β1 yt1 + β 2 zt 2 + ut 2 .
Se α 2 = 0 , a primeira equação deste modelo não é identificada, mesmo que se
pretenda acrescentar à lista das variáveis instrumentais iniciais, ( zt1 , zt 2 ), os instrumen-
tos zt21 , zt22 e zt1 zt 2 . A primeira equação só é identificada se α 2 ≠ 0 , uma vez que neste
caso é possível considerar zt1 , zt 2 , zt21 , zt22 e zt1 zt 2 como instrumentos de yt 2 e yt22 .
Numa situação destas (em que a equação só é identificada com a introdução, tal-
vez artificial, de variáveis endógenas não lineares, que são funções das variáveis endó-
genas originais), diz-se que se tem uma situação de identificação deficiente. Também
se diz que a respectiva equação do modelo é deficientemente identificada. Se no modelo
(6.24) não figura originalmente yt22 , a primeira equação não é identificada; a introdução
desta variável, que porventura foi introduzida apenas para permitir a identificação, é,
muitas vezes, uma solução insatisfatória do problema porque pode não haver fundamen-
to teórico para justificar que yt22 é variável explicativa de yt1 . De salientar também que
a identificação feita nos moldes descritos não permite testar H 0 : α 2 = 0 , uma vez que
não há identificação quando a hipótese nula é verdadeira.
Existem muitos outros modelos em que a identificação pode ser verificada medi-
ante um raciocínio semelhante ao do método de Fisher. É o caso dos modelos com in-
teracções entre uma variável endógena e uma variável pré-determinada ou dos modelos
com interacções entre duas variáveis endógenas. Em qualquer dos casos, o modelo com
interacções é identificado se o modelo sem interacções o for.
Genericamente, uma boa prática consiste em verificar se é identificada a versão
mais geral de modelo linear que se pode obter a partir do modelo não linear. Em caso
afirmativo, a versão não linear é provavelmente identificada. Se a versão linear não é
identificada, há que tomar as precauções devidas porque a identificação depende da pre-
sença de não linearidades, que normalmente não pode ser testada.
A partir do momento em que o modelo está identificado, o que pressupõe que os
instrumentos estão razoavelmente escolhidos, pode-se estimar os parâmetros pelo mé-
todo MGM ou por um dos seus casos particulares mais adequados. Mais uma vez se de-
ve pesar a conveniência de utilizar um estimador conjunto ou um estimador separado,
atendendo ao trade-off entre eficiência assintótica e robustez. No caso de homocedasti-
cidade condicionada, o método de estimação conjunta preconizado é o método MQ3P;
optando, por um método separado, deve utilizar-se o estimador MQ2P.
É importante notar que estes métodos de estimação devem aplicar-se directa-
mente às equações estruturais do modelo. Para ilustrar esta preocupação, suponha-se
que, por exemplo, se pretende estimar, pelo método MQ2P, a primeira equação do mo-
delo (6.24). Para estimar de forma correcta esta equação deve utilizar-se a fórmula do
estimador MQ2P [ver, por exemplo, (5.52)]. Poderia supor-se que também seria admis-
sível estimar a equação fazendo os dois passos seguintes:
1º) Fazer a regressão MQ de yt 2 sobre zt1 , zt 2 , zt21 , zt22 e zt1 zt 2 , de forma a obter os
respectivos valores ajustados, yˆt 2 .
2º) Fazer a regressão MQ de yt1 sobre yˆt 2 , yˆt22 e zt1 .
Facilmente se conclui que as estimativas fornecidas por este método em dois

passos e pelo método MQ2P não coincidem, com a agravante de que o estimador obtido
por aquele método não é consistente. Muitas vezes, usa-se a expressão regressão proi-
bida para designar uma regressão como a que fez no segundo passo daquele método.
Assim, tem-se uma regressão proibida quando se substitui uma função não linear das
variáveis endógenas pela mesma função não linear dos valores ajustados obtidos no
primeiro passo de um método de estimação em dois passos. No exemplo referido, ao su-
bstituir yt22 por yˆt22 , o erro que se comete consiste em confundir a projecção linear MQ
do quadrado (projecção linear MQ de yt22 sobre zt1 , zt 2 , zt21 , zt22 e zt1 zt 2 ) com o qua-
drado da projecção linear MQ (quadrado da projecção linear de yt 2 sobre zt1 , zt 2 , zt21 ,
zt22 e zt1 zt 2 ). Note-se que no primeiro passo do método MQ2P deve também fazer-se a
projecção linear MQ de yt 3 = yt22 sobre zt1 , zt 2 , zt21 , zt22 e zt1 zt 2 , de forma a obter yˆt 3 . O
respectivo segundo passo consiste em fazer a regressão MQ de yt1 sobre yˆt 2 , yˆt 3 e zt1 .
6.7 - Instrumentos não comuns
Existem muitos modelos de equações simultâneas em que os instrumentos não

são comuns a todas as equações. Considere-se, por exemplo, o seguinte modelo:
htrabt = α1 + α 2lsalart + α 3educt + α 4idadet + α 5rendt + ut1
(6.26) 
lsalart = β1 + β 2 htrabt + β3educt + β 4expert + β5empct + ut 2 ,
onde: htrab é o número de horas de trabalho; lsalar é o logaritmo do salário; educ é o
número de anos de escolaridade; idade é a idade do trabalhador; rend é o rendimento
além do salário; exper é o número de anos de experiência profissional; empc é o número
de anos de trabalho na empresa corrente. A primeira equação é a da oferta de trabalho; a
segunda, é a equação de oferta de salário.
Supõe-se que na primeira equação os regressores educ, idade e rend são pré-de-
terminados: E (educt ut1 ) = 0 , E (idadet ut1 ) = 0 e E (rendt ut1 ) = 0 . Admite-se, ainda, que
as variáveis exper e empc são pré-determinadas: E (expert ut1 ) = 0 e E (empct ut1 ) = 0 .
Como aptid (aptidão do trabalhador) faz parte da variável residual da segunda
equação, supõe-se que educ é um regressor endógeno: E (educt ut 2 ) ≠ 0 . Os regressores
exper e empc são pré-determinados: E (expert ut 2 ) = 0 e E (empct ut 2 ) = 0 . As outras va-
riáveis pré-determinadas são idade e rend: E (idadet ut 2 ) = 0 e E (rendt ut 2 ) = 0 .
O modelo (6.26) é incompleto. Para o tornar completo, vai acrescentar-se uma
terceira equação: a equação da forma reduzida de educ. O modelo completo é dado por
htrabt = α1 + α 2lsalart + α 3educt + α 4idadet + α 5rendt + ut1

(6.27) lsalart = β1 + β 2 htrabt + β3educt + β 4expert + β 5empct + ut 2
educ = π + π idade + π rend + π exper + π empc + v ,
 t 13 23 t 33 t 43 t 53 t t3
onde E (idadet vt 3 ) = 0 , E (rendt vt 3 ) = 0 , E (expert vt 3 ) = 0 e E (empct vt 3 ) = 0 .

Os vectores das variáveis instrumentais são:
− Primeira equação: zt1• = [ 1 educt idadet rendt expert empct ];
− Segunda equação: zt 2• = [ 1 idadet rendt expert empct ].
Como
xt1• = [ 1 lsalart educt idadet rendt ] e xt 2• = [ 1 htrabt educt expert empct ],
as duas equações são identificadas. De facto, tem-se: a matriz Qz1 x1 = E ( ztT1• xt1• ) é de ti-
po 6 × 5 , e r (Qz1 x1 ) = 5 ; a matriz Qz 2 x2 = E ( ztT2• xt 2• ) é de tipo 5 × 5 , e r (Qz 2 x 2 ) = 5 .
Os métodos de estimação separada podem ser aplicados sem dificuldade, no-
meadamente o método MQ2P (no caso de homocedasticidade condicionada). Contudo,
no que diz respeito aos métodos de estimação conjunta, não é possível utilizar os mé-
todos de estimação que pressupõem instrumentos comuns, como é o caso do método
MQ3P. Neste método, exige-se que todos os instrumentos do modelo sejam ortogonais
a todas as variáveis residuais. No exemplo em estudo, educ não é ortogonal à variável
residual da segunda equação: E (educt ut 2 ) ≠ 0 . O método recomendado é obviamente o
método MGM eficiente (com Wˆ = Sˆ −1 ), onde a matriz Z t • é dada por
z 0  1 educt idadet rendt expert empct 0 0 0 0 0 
Z t • =  t1•  = .
 0 zt 2 •   0 0 0 0 0 0 1 idadet rendt expert empct 
Continuando com o exemplo, vai analisar-se a estrutura da matriz S:

 E (ut21 ztT1• zt1• ) E (ut1ut 2 ztT1• zt 2• )
S= T 2 T ,
 E (ut 2ut1 zt 2• zt1• ) E (ut1 zt 2• zt 2• ) 
ficando ao cuidado do leitor verificar que se trata de uma matriz quadrada de ordem 11,
e escrever explicitamente cada um dos seus elementos.
Vai seguidamente explorar-se a hipótese SER.6 (homocedasticidade condiciona-
da), que, no caso de ser verdadeira, permitiria simplificar a matriz S da seguinte forma:
σ E ( z T z ) σ 12 E ( ztT1• zt 2• ) 
S =  11 tT1• t1• .
σ 12 E ( zt 2• zt1• ) σ 22 E ( zt 2• zt 2• )
T
As igualdades E (ut21 ztT1• zt1• ) = σ 11E ( ztT1• zt1• ) e E (ut22 ztT2• zt 2• ) = σ 22 E ( ztT2• zt 2• ) pres-
supõem que E (ut21 | zt1• ) = σ 11 e que E (ut22 | zt 2• ) = σ 22 , respectivamente. Estas condições
são razoáveis, uma vez que dizem respeito a cada uma das equações individualmente
consideradas. Também se sabe que a igualdade E (ut1ut 2 ztT1• zt 2• ) = σ 12 E ( ztT1• zt 2• ) é impli-
cada por E (ut1ut 2 | zt1• , zt 2• ) = σ 12 . Contudo, esta hipótese é pouco credível porque a va-
riável residual ut 2 está correlacionada com educt , um dos elementos de zt1• . Nestas
condições, há razões fortes para supor que E (ut1ut 2 | zt1• , zt 2• ) não é constante.
Um caso em que se verifica E (ut1ut 2 ztT1• zt 2• ) = σ 12 E ( ztT1• zt 2• ) é quando
E (ut1 | ut 2 , zt1• , zt 2• ) = 0 .

E (ut1ut 2 ztT1• zt 2• ) = E{E (ut1ut 2 ztT1• zt 2• | ut 2 , zt1• , zt 2• )} = E{E (ut1 | ut 2 , zt1• , zt 2• ) ut 2 ztT1• zt 2• } = 0 ,
e que E (ut1 | ut 2 , zt1• , zt 2• ) = 0 implica σ 12 = E (ut1ut 2 ) = 0 . Neste caso particular, σ 12 = 0 ,

o estimador MQ3P reduz-se, como se sabe do capítulo 5, ao estimador SMQ2P.
PALAVRAS-CHAVE
Autonomia Método generalizado dos momentos
Causalidade Modelo completo
Completude Modelo de equações simultâneas
Condição de característica Modelo não linear nas variáveis endógenas
Condição de ordem Modelo de regressão multivariada
Equação de comportamento Modelo SER
Equação de definição Ortogonalidade
Equação de equilíbrio Parâmetro da forma reduzida
Equação estrutural Parâmetro estrutural
Equação institucional Raciocínio contrafactual
Equação técnica Regressão proibida
Equivalência observacional Regressor endógeno
Estimação conjunta Regressor pré-determinado
Estimação separada Relação de causalidade
Estimador MGM (eficiente) Restrição de exclusão
Estimador MQ3P Restrição (linear) inter-equações
Estimador SMQ2P Restrição (linear) intra-equações
Estrutura (admissível) Restrição de normalização
Estruturas equivalentes Restrição de nulidade
Forma estrutural Restrição sobre variâncias e covariâncias
Forma reduzida Simultaneidade
Heterocedasticidade condicionada Sobre-identificação
Homocedasticidade condicionada Sub-identificação
Identificação deficiente Teste de endogeneidade
Identificação (exacta) Teste de hipóteses
Inferência estatística Teste de sobre-identificação
Instrumentos não comuns Valor esperado condicionado estrutural
Interacções Variável instrumental
Matriz de selecção Variável residual
Máxima verosimilhança Transformação linear admissível
Método de Fisher
1. A que condição deve obedecer um modelo de equações simultâneas para ser com-
pleto?
2. Considere um sistema de equações de regressão com instrumentos comuns e ho-
mocedasticidade condicionada. Em que condições este sistema é um modelo de
equações simultâneas completo?
3. Considere o modelo de equações simultâneas, yt • Γ + z t • ∆ = ui • (com dados sec-
cionais), onde: yt • é o vector 1× m das variáveis endógenas; Γ é a matriz dos res-
pectivos coeficientes; zt • é o vector 1× q das variáveis exógenas; ∆ é a matriz
dos respectivos coeficientes. Enuncie a hipótese que permite obter a respectiva
forma reduzida.
4. Considere o seguinte modelo de equações simultâneas (forma estrutural):
 yt1 = β11 + β 21 yt 2 + β 31 zt1 + β 41 zt 2 + ut1

 yt 2 = β12 + β 22 yt1 + β 32 zt 2 + β 42 zt 3 + ut 2 .
Determine as expressões das variáveis residuais da forma reduzida.

5. Considere o modelo de equações simultâneas da pergunta anterior. Determine a
matriz Π dos coeficientes da forma reduzida.
6. Considere o modelo de equações simultâneas, yt • Γ + zt • ∆ = ut • (com dados sec-
cionais), onde: yt • é o vector 1× m das variáveis endógenas; Γ é a matriz dos res-
dos respectivos coeficientes; ut • é o vector 1× m das variáveis residuais. Utilizan-
do a notação matricial, enuncie a hipótese da homocedasticidade condicionada.
7. Considere o modelo de equações simultâneas, yt • Γ + zt • ∆ = ut • (com dados tem-
porais), onde: yt • é o vector 1× m das variáveis endógenas; Γ é a matriz dos res-
dos respectivos coeficientes; ut • é o vector 1× m das variáveis residuais. Enuncie
a hipótese da ausência de autocorrelação.
8. Considere o seguinte modelo de equações simultâneas,
 y t 1 = α 1 yt 2 + α 2 z t 1 + α 3 z t 2 + u t 1

 yt 2 = β1 yt 1 + β 2 z t 2 + β 3 z t 3 + u t 2 ,
onde a matriz das covariâncias das variáveis residuais é a seguinte:
 Var (ut1 ) Cov(ut1 , ut 2 ) σ 11 σ 12 
Σ= = .
Cov(ut1 , ut 2 ) Var (ut 2 )  σ 12 σ 22 
Determine a variância de vt1 (variável residual da primeira equação da forma re-

duzida).
9. Considere o seguinte modelo de equações simultâneas,
 y t 1 = α 1 yt 2 + α 2 z t 1 + α 3 z t 2 + u t 1

 yt 2 = β1 yt 1 + β 2 z t 2 + β 3 z t 3 + u t 2 ,
onde a matriz das covariâncias das variáveis residuais é a seguinte:

 Var (ut1 ) Cov(ut1 , ut 2 ) σ 11 σ 12 
Σ=  = σ .
 Cov (u t1 , u t2 ) Var (u t2 )   12 σ 22 
Determine a covariância entre vt1 e vt 2 (variáveis residuais das equações da forma

reduzida).
10. Diz-se que um sistema de equações de regressão linear é completo se e só se o
número de equações é igual ao número de variáveis endógenas. Suponha que
 yt1 = β11 + β 21 xt1 + β 31 xt 2 + β 41 xt 3 + ut1

 yt 2 = β12 + β 22 xt1 + β 32 xt 3 + ut 2 ,
e que zt1• = zt 2• = [ 1 xt1 xt 2 xt 3 ]. Este modelo é completo? Justifique.
y = β + β y + β z + β z + u
 t1 11 21 t 2 31 t 1 41 t 2 t1
y = β + β y + β z + β z + u ,
 t 3 13 23 t 4 33 t 3 43 t 4 t3

da equação é dado por z t • = [ 1 z t1 zt 2 z t 3 z t 4 ]. Acrescente-lhe a equação
yt 4 = β14 + β 24 yt1 + β 34 z t 2 + β 44 z t 4 + ut 4 ,
de modo a torná-lo completo. Suponha que existe homocedasticidade condiciona-

da, e que pretende estimar os coeficientes desta equação pelo método MQ2P (mí-
nimos quadrados em dois passos). Neste caso, descreva os dois passos deste méto-
do.
y = β + β y + β z + β z + u

t1 11 21 t 2 31 t1 41 t 2 t1
 yt 2 = β12 + β 22 yt 3 + β 32 zt 2 + β 42 zt 3 + ut 2
y = β + β y + β z + β z + u ,
 t 3 13 23 t 4 33 t 3 43 t 4 t3

da equação é formado por todas as variáveis pré-determinadas.
Acrescente-lhe a equação
yt 4 = β14 + β 24 yt1 + β 34 z t 2 + β 44 z t 4 + ut 4 ,
de modo a torná-lo completo. Suponha que existe homocedasticidade condiciona-

da, e que pretende fazer a estimação conjunta das equações do modelo. Diga qual
é o método de estimação que deve utilizar (nota: este método é um caso particular
do método MGM).
13. Considere o modelo completo referente à pergunta anterior. Construa a respectiva

matriz dos coeficientes das variáveis endógenas. Indique a hipótese que deve veri-
ficar esta matriz para ser possível obter a forma reduzida.
14. Considere um modelo de equações simultâneas na forma estrutural e a respectiva
forma reduzida. Pode afirmar-se que a forma reduzida é um modelo de regressão
multivariada? Porquê?
 yt1 = β11 + β 21 yt 2 + β 31 zt1 + β 41 z t 2 + β 51 z t 3 + ut1

 yt 2 = β12 + β 22 yt1 + β 32 zt1 + β 42 zt 2 + β 52 z t 3 + ut 2 .
Nestas condições, as equações do modelo não são identificadas. Sem recorrer à
construção de Φ (matriz dos coeficientes do modelo) e de Ri ( i = 1, 2 ; matrizes
das restrições), estude a identificação das equações do modelo, separadamente,
para os seguintes casos: a) β 32 = 0 e β 42 = 0 ; b) β 21 = 0 ; c) β 42 + β 52 = 1 .
 yt1 = β11 + β 21 yt 2 + β 31 ( z t1 − zt 2 ) + β 41 z t 5 + ut1

 yt 2 = β12 + β 22 yt1 + β 32 zt 2 + β 42 zt 3 + β 52 zt 4 + u t 2 ,
onde β 21 + β 41 = 1 . Para o estudo da identificação, determine a matriz R1 das res-
trições relativas aos parâmetros da primeira equação.
17. Considere o seguinte modelo de equações simultâneas completo:
 yt1 = β11 + β 21 yt 2 + β 31 ( z t1 − zt 2 ) + β 41 z t 5 + ut1

 yt 2 = β12 + β 22 yt1 + β 32 ( z t 2 + z t 3 ) + β 42 ( z t 4 − z t 3 ) + β 52 zt 5 + ut 2 ,
onde β 22 + β 52 = −1 . Para o estudo da identificação, determine a matriz R2 das
restrições relativas aos parâmetros da segunda equação.
y = β + β y + β z + β z + u
 t1 11 21 t 2 31 t1 41 t 2 t1
 yt 2 = β12 + β 22 yt 3 + β 32 zt 2 + β 42 zt 3 + ut 2
y = β + β y + β z + β z + u ,
 t 3 13 23 t 4 33 t 3 43 t 4 t3

da equação é formado por todas as variáveis pré-determinadas. Este modelo é
completo? Se a resposta é não, reformule o modelo de maneira a torná-lo comple-
to.
CAPÍTULO 7
DADOS DE PAINEL
7.1 - Apresentação do modelo
No capítulo 1 (secção 1.8) já se referiu que um conjunto de dados de painel ou

longitudinais é um conjunto de observações para um certo número de entidades desig-
nadas por unidades seccionais (por vezes, quando for conveniente, as unidades seccio-
nais também se chamam grupos). Deste modo, um painel de dados tem duas dimen-
sões: as unidades seccionais (por exemplo, pessoas, famílias, empresas, cidades, países,
regiões, etc.), e as respectivas observações (ver quadro 1.4 do capítulo 1). Esta segunda
dimensão é, em geral, o tempo, mas existem excepções. Por exemplo, pode existir pai-
néis em que as unidades seccionais são pares de gémeos idênticos, e as observações di-
zem respeito a cada um dos irmãos.
A distinção entre as duas dimensões não é indiferente porque tem a ver com o
modo como se encara o processo de geração de dados (PGD). O ponto de vista que se
vai adoptar neste capítulo é o dos micro-painéis: considera-se uma população forma-
da por todas as unidades seccionais que podem ser observadas em determinadas datas
(períodos ou momentos); o processo de amostragem refere-se a esta população. Esta
concepção do PGD corresponde a muito painéis de dados disponíveis, em que se obser-
vam muitas unidades seccionais em algumas datas.
Outro ponto de vista possível seria o seguinte: fixa-se um determinado conjun-
to de unidades seccionais (por exemplo, os países da União Europeia), e o processo de
geração de dados é o processo estocástico que origina as observações temporais (a di-
mensão deste processo estocástico é igual ao produto do número de unidades seccionais
consideradas pelo número das variáveis observadas). Neste caso, o número destas uni-
dades pode ser relativamente pequeno, com séries temporais para cada uma delas.
Adoptando o primeiro ponto de vista, suponha-se que o modelo econométrico
pretende explicar o comportamento de uma variável y em função de k variáveis explica-
tivas, x j ( j = 1, 2, K , k ) : o painel de dados é composto por p observações temporais (em
datas pré-fixadas) de uma amostra de unidades seccionais, de tal modo que cada unida-
de é observada para as mesmas datas.
Considere-se o modelo da população,
(7.1) yti = β1 xti1 + β 2 xti 2 + L + β k xtik + uti (t = 1, 2, K , p ; i = 1, 2, K) ,
Capítulo 7 – Dados de painel 2
onde:
− yti é a observação t da variável explicada y para a unidade seccional i;
− xtij é a observação t da variável explicativa x j ( j = 1, 2, K , k ) para a unidade sec-
cional i;
− β j ( j = 1, 2, K , k ) é o coeficiente de regressão de x j (estes coeficientes são os mes-
mos para todas as unidades seccionais);
− uti é a variável residual correspondente à observação t da unidade seccional i.
Fazendo
 β1 
β 
xti • = [ xti1 xti 2 L xtik ] e β =  2  ,
M
 
βk 
o modelo (7.1) pode ser apresentado da seguinte maneira:
(7.2) yti = xti • β + uti (t = 1, 2, K , p ; i = 1, 2, K) .
Deste modo,
− xti• é o vector 1 × k da observação t das variáveis explicativas da unidade seccional i;
− β é o vector k × 1 dos coeficientes de regressão das variáveis explicativas.
Quando o modelo tem termo independente, como acontece muitas vezes, o pri-
meiro elemento de cada vector xti• é igual a 1: xti1 = 1 .
Outra forma de apresentar o modelo é a seguinte:
(7.3) y•i = X •i β + u•i (i = 1, 2, K) ,
onde:
 y1i   x1i •   u1i 
y  x  u 
y•i =   , X •i =  2i •  = [ x•i1 x•i 2 L x•ik ] e u•i =  2i  ,
2i
 M   M   M 
y  x  u 
 pi   pi •   pi 
com
 x1ij 
x 
x•ij =   ( j = 1, 2, K , k ) .
2 ij
 M 
x 
 pij 
Assim:
− y•i é o vector p × 1 (elemento genérico, yti ) das observações da variável explicada y
da unidade seccional i;
− X •i é a matriz p × k (elemento genérico, xtij ; linha genérica, xti • ; coluna genérica,
x•ij ) das observações das variáveis explicativas da unidade seccional i;
− u•i é o vector p × 1 (elemento genérico, uti ) das variáveis residuais relativas à unida-
de seccional i.
Dispondo de uma amostra de dimensão m, podem agrupar-se as m relações

(7.3) numa única expressão matricial,
(7.4) Y = Xβ + U ,
onde:
 y•1   X •1   u•1 
y  X  u 
Y=  •2 
, X=  •2 
, U =  •2  .
 M   M   M 
     
 y• m   X •m  u• m 
Assim:
− Y é o vector mp × 1 , formado pelos m subvectores y•i ;
− X é a matriz de tipo mp × k , formada pelos m blocos X •i .
− U é o vector mp × 1 , formado pelos m subvectores u•i .
Exemplo 7.1 – Considere-se a função de produção [do tipo (4.33); ver capítulo 4, sec-
ção 4.2],
ln(Qti ) = θ 0 + θ1 ln( Lti ) + uti (t = 1, 2, K , p ; i = 1, 2, K) ,
onde: Qti é a quantidade produzida pela empresa i no ano t; Lti é a quantidade de traba-
lho utilizado pela empresa i no ano t.
Tem-se:
 ln(Q1i )  1 ln( L1i ) 
   
θ 0   ln(Q2i )  1 ln( L2i ) 
yti = ln(Qti ) ; xti • = [ 1 ln( Lti )] ; β =   ; y•i =  ; X •i =  .
θ1  M  M M 
   
ln(Q pi ) 1 ln( Lpi )
   
∇
Comparando as notações apresentadas com as do capítulo 5, podem fazer-se al-

guns comentários:
1) O modelo com as notações (7.2) ou (7.3) é formalmente semelhante a um sistema de
equações de regressão com as notações (5.94) [notação A] ou (5.95) [notação B], res-
pectivamente. Portanto, o ponto de partida para estudar os modelos com dados de
painel é o modelo SER com coeficientes comuns.
2) Todos os resultados apresentados na secção 5.8 são válidos para os modelos com da-
dos de painel. No presente capítulo, vão estudar-se algumas particularidades relati-
vas a estes modelos.
3) Os papéis dos índices t e i estão trocados. Assim, em (5.94) ou (5.95) o índice i de-
signa as equações, e o número destas é fixo (i = 1, 2, K , m) ; em (7.2) ou (7.3), o índi-
ce i refere-se às unidades seccionais, cujo número depende da dimensão da amostra
que se vai colher; em (5.94) ou (5.95), o índice t designa as observações (que podem
ser seccionais ou temporais), em que o número respectivo depende da dimensão da
amostra a seleccionar; em (7.2) ou (7.3), o índice t diz respeito ao número de obser-
vações temporais, que é fixo (t = 1, 2, K , p ) .
4) Pode, então, concluir-se que o modelo com dados de painel [(7.2) ou (7.3)] é formal-
mente um sistema de p equações de regressão lineares.
5) A notação privilegiada para estudar os modelos com dados de painel é a notação B
dos modelos SER.
Exemplo 7.2 – Considere-se o exemplo 5.14, mas supondo, agora, que se dispõe de um
painel de dados de trabalhadores com observações em três anos (anos 1, 2 e 3) das va-
riáveis salar, educ e qi. Os anos podem não ser consecutivos e terem uma frequência
variável [por exemplo, 1995, 1999 e 2001. Assim: 1995 é o ano 1; o ano 2 de observa-
ção tem lugar 4 anos depois, em 1999; o ano 3 corresponde a 2001, dois anos depois do
ano 2]. Supõe-se que: os coeficientes de educ e qi não variam com o tempo; o termo in-
dependente depende de t (devido, por exemplo, ao efeito do ciclo económico sobre os
salários).
O modelo pode ser formalizado do seguinte modo:
lsalar1i = θ1 + β1 educ1i + β 2 qii + u1i
lsalar2i = θ 2 + β1 educ2i + β 2 qii + u2i
lsalar3i = θ3 + β1 educ3i + β 2 qii + u3i ,
onde: lsalarti é o logaritmo do salário do indivíduo i no ano t; educti é o número de

anos completos de escolaridade do indivíduo i no ano t; qii é o QI do indivíduo i.
Este modelo pode ser formalizado como um modelo com coeficientes comuns,
introduzindo três variáveis artificiais, uma para cada ano. Estas variáveis são definidas
do seguinte modo:
1 (t = 1) 1 (t = 2) 1 (t = 3)
d t1 =  ; dt 2 =  ; dt 3 =  .
0 (t ≠ 1) 0 (t ≠ 2) 0 (t ≠ 3)
O modelo é, então,
lsalar1i = δ1 + δ 2 dt 2 + δ 3dt 3 + β1 educ1i + β 2 qii + u1i
lsalar2i = δ1 + δ 2 dt 2 + δ 3dt 3 + β1 educ2i + β 2 qii + u2i
lsalar3i = δ1 + δ 2 dt 2 + δ 3dt 3 + β1 educ3i + β 2 qii + u3i ,
onde θ1 = δ1 , θ 2 = δ1 + δ 2 e θ3 = δ1 + δ 3 .
Fazendo
 δ1 
δ 
 lsalar1i   x1i •  1 0 0 educ1i qii   2
y•i = lsalar2i  ; X •i =  x2i •  = 1 1 0 educ2i
  
qii  ; β =  δ 3  ,
 
lsalar3i   x3i •  1 0 1 educ3i qii   β1 
 β 2 
o modelo pode escrever-se na forma (7.3). Tem-se p = 3 e k = 5 .

∇
7.2 - Hipóteses básicas
Nesta secção vão estabelecer-se as hipóteses básicas dos modelos com dados de
painel, que vão ser designadas com o prefixo MCDP (modelo clássico de dados de pai-
nel). A primeira hipótese é o resumo das considerações feitas na secção anterior.
Hipótese MCDP.1 – Linearidade

y•i = X •i β + u•i (i = 1, 2, K) , onde: y•i é o vector p × 1 das observações da variável exp-
licada y da unidade seccional i; X •i é a matriz p × k das observações das variáveis exp-
licativas da unidade seccional i; β é o vector k × 1 dos coeficientes de regressão; u•i é
o vector p × 1 das variáveis residuais relativas à unidade seccional i.
A segunda hipótese diz respeito às relações entre as variáveis explicativas (re-

gressores) e as variáveis residuais.
Hipótese MCDP.2 – Ortogonalidade

Para a mesma unidade seccional i, cada vector xti • (t = 1, 2, K , p) é ortogonal a qual-
quer variável residual usi ( s = 1, 2, K , p) ,
(7.5) E ( xti •usi ) = 0 (t , s = 1, 2, K , p) .

a) A condição (7.5) pode ser apresentada de forma semelhante à hipótese (5.35) referi-
da a propósito do estimador SMQGF. Com efeito, recordando que os índices têm os
“papéis trocados”, (7.5) é equivalente a
(7.6) E (u•i ⊗ X •i ) = O ,
onde o produto de Kronecker é do tipo p 2 × k .

b) A condição (7.5) é também formalmente semelhante à hipótese (5.83) referida a pro-
pósito do estimador SUR (com coeficientes comuns). Com efeito, seja z•i o vector
q × 1 formado pela união dos elementos dos vectores xti• (t = 1, 2, K , p ) . Explorando
a analogia entre (5.83) e (7.5), considere-se vector pq × 1 ,
 z•iu1i 
z u 
g•i = 
•i 2i 
= u ⊗ z•i .
 M  •i
 
 z•iu pi 
Verifica-se, sem dificuldade, que (7.5) é equivalente a
(7.7) E ( g•i ) = E (u•i ⊗ z•i ) = 0 .
Note-se que a equivalência entre (7.6) e (7.7) está intimamente ligada ao facto de o
vector z•i e a matriz X •i conterem a mesma informação.
c) A hipótese da ortogonalidade, (7.5), pode ser substituída pela hipótese mais forte da
exogeneidade estrita:
(7.8) E (uti | x1i • , x2i • , K , x pi • ) = E (uti | X •i ) = 0 (t = 1, 2, K , p) .
É fácil verificar que (7.8) implica (7.5). Deste modo, a exogeneidade estrita dos re-
gressores implica que a variável residual correspondente à data t não está correlacio-
nada com os regressores referentes a qualquer data s (t , s = 1, 2, K , p) .
A condição (7.8) é equivalente a fazer
(7.9) E ( yti | X •i ) = E ( yti | xti • ) = xti • β .
d) Uma hipótese mais fraca que a da exogeneidade estrita é a exogeneidade contempo-

rânea de xti • :
(7.10) E (uti | xti • ) = 0 (t = 1, 2, K , p) .
Neste caso, resulta que não há correlação entre uti e xti • (para a mesma data). Por-
tanto, existe apenas ortogonalidade contemporânea entre as variáveis residuais e os
regressores:
(7.11) E ( xti •uti ) = 0 (t = 1, 2, K , p) .
É imediato verificar que a condição (7.10) é equivalente a E ( yti | xti • ) = xti • β .

e) Para ilustrar a diferença entre (7.8) e (7.10), considere-se que yti = β1 + β 2 yt −1,i + uti ,
onde xti • = [ 1 yt −1,i ]. Suponha-se que
E ( yti | yt −1,i , yt − 2,i , K , y0i ) = E ( yti | yt −1,i ) = β1 + β 2 yt −1,i ,
o que significa que basta considerar o primeiro desfasamento da variável explicada,

yt −1,i , como regressor para que a estrutura dinâmica do modelo esteja bem especifica-
da. Conclui-se imediatamente que se verifica (7.10): E (uti | yt −1,i ) = 0 . Contudo, não
se verifica (7.8). Com efeito, como xt +1,i • = [ 1 yti ], vem, para t = 1, 2, K , p − 1 ,
E (uti | x1i • , x2i • , K , x pi • ) = E (uti | y0i , y1i , K , y p −1,i )
= E ( yti − β1 − β 2 yt −1,i | y0i , y1i , K , y p −1,i )
= yti − β1 − β 2 yt −1,i = uti .
f) A condição (7.10) pode falhar mesmo que xti • não inclua a variável explicada des-
fasada. Seja, por exemplo, o modelo que relaciona a produção agrícola (pa) com a
quantidade de trabalho utilizada (trab), para um conjunto de explorações agrícolas.
Assim, tem-se pati = β1 + β 2trabti + uti , para alguns anos. Como os valores de trab
podem ser escolhidos pelos agricultores, é razoável admitir que estes podem ajustar a
quantidade de trabalho no futuro, em função da produção agrícola no presente e no
passado. De forma simplificada, pode fazer-se trabti = α1 + α 2 pat −1,i + vti . Se α 2 ≠ 0 ,
não se verifica a hipótese (7.10) porque trabt +1.i depende de uti , e xt +1,i • inclui
trabt +1.i .
Exemplo 7.3 – Retomando o exemplo 7.1, e supondo p = 2 , tem-se E (u•i ⊗ X •i ) = O ,

onde
 u  1 ln( L1i ) 
u•i ⊗ X •i =  1i  ⊗  
u2i  1 ln( L2i )
é uma matriz 4 × 2 .
Alternativamente, fazendo
 1   1 
 u1i  
z•i =  ln( L1i )  e g•i = u•i ⊗ z•i =   ⊗  ln( L1i )  ,
 
ln( L2i ) u2i  ln( L )
 2i 
resulta E ( g•i ) = 0 , onde g•Ti = [ u1i u1i ln( L1i ) u1i ln( L2i ) u2i u2i ln( L1i ) u2i ln( L2i )] .
∇

 u1i  1 0 0 educ1i qii 
u•i ⊗ X •i = u2i  ⊗ 1 1 0 educ2i qii  ,
u3i  1 0 1 educ3i qii 
verificando-se E (u•i ⊗ X •i ) = O .
De forma alternativa, obtém-se E ( g•i ) = 0 , onde o vector g •i é de tipo 15 × 1 .
Tem-se
 1   1 
   
 educ1i   u1i   educ1i 
z•i = educ2i  e g•i = u•i ⊗ z•i = u2i  ⊗ educ2i  .
   
educ3i  u3i  educ3i 
 qi   qii 
 i 
∇
A terceira hipótese refere-se ao processo de amostragem.
Hipótese MCDP.3 – Amostragem casual

O processo estocástico p(1 + k ) -dimensional, {( y•i , X •i ) : i = 1, 2, K} , é iid.
Como u•i = y•i − X •i β , o processo p-dimensional {u•i } também é iid. Então, se

existir E (u•iu•Ti ) , está garantida a existência de homocedasticidade marginal, ou seja,
(7.12) E (u•iu•Ti ) = Σ ,
onde Σ é uma matriz quadrada de ordem p, com elemento genérico é σ ts = E (utiusi ) . No

entanto, não está excluída a possibilidade de haver heterocedasticidade condicionada.
Com efeito, nada garante que E (u•iu•Ti | X •i ) possa depender de X •i .
A quarta hipótese estabelece a condição característica para a identificação de

β . Esta condição vai ser apresentada recorrendo ao vector z•i . Assim, começa-se por
notar que a matriz Qzx , de tipo pq × k , é dada por
 E ( z•i x1i • ) 
 E( z x )
Qzx = 
•i 2i • 
= E ( X • i ⊗ z• i ) .
 M 
 
 E ( z•i x pi • )
Fica ao cuidado do leitor construir as matrizes Qzx referentes aos exemplos 7.1 e
7.2.
Hipótese MCDP.4 – Condição de característica

A matriz de tipo pq × k ,
(7.13) Qzx = E ( X •i ⊗ z•i ) ,
existe e verifica r (Qzx ) = k .
Facilmente se mostra que as hipóteses MCDP.2 e MCDP.4 permitem identificar

o vector β . Com efeito, substituindo u•i por y•i − X •i β em E (u•i ⊗ z•i ) = 0 , obtém-se
E{( y•i − X •i β ) ⊗ z•i } = E ( y•i ⊗ z•i ) − E ( X •i ⊗ z•i ) β = qzy − Qzx β = 0 ,
~
em que qzy = E ( y•i ⊗ z•i ) . Então, atendendo àquelas hipóteses, o sistema Qzx β = qzy , de
~
pq equações a k incógnitas, é possível e determinado; a solução única é β = β .
Para estabelecer a quinta hipótese vai construir-se a matriz S, ainda com base
no vector z•i . Assim,
 E (u12i z•i z•Ti ) E (u1iu2i z•i z•Ti ) L E (u1iu pi z•i z•Ti ) 
 T 2 T T 
 E (u2iu1i z•i z•i ) E (u2i z•i z•i ) L E (u2iu pi z•i z•i ) .
(7.14) S = E ( g •i g •i ) = 
T

M M M
 
 E (u piu1i z•i z•Ti ) E (u piu2i z•i z•Ti ) L E (u 2pi z•i z•Ti ) 
Trata-se, portanto, de uma matriz quadrada de ordem pq , que pode ser escrita
com a forma seguinte: S = E ( g•i g•Ti ) = E{(u•i ⊗ z•i )(u•Ti ⊗ z•Ti )} = E{(u•iu•Ti ) ⊗ ( z•i z•Ti )} . Fi-
ca ao cuidado do leitor construir as matrizes S para os exemplos 7.1 e 7.2.
Hipótese MCDP.5 – Existência e não singularidade da matriz S

A matriz quadrada de ordem pq ,
(7.15) S = E ( g•i g•Ti ) = E{(u•iu•Ti ) ⊗ ( z•i z•Ti )} ,
A sexta hipótese postula a existência de homocedasticidade condicionada.

Hipótese MCDP.6 – Homocedasticidade condicionada

Tem-se
(7.16) E (u•iu•Ti | X •i ) = Σ .
É importante fazer os seguintes comentários:

a) Pelas razões já conhecidas, a condição (7.16) é equivalente a
(7.17) E (u•iu•Ti | z•i ) = Σ .
b) Obviamente (7.16) [ou (7.17)] implica E (u•iu•Ti ) = Σ . Assim, como se admite a possi-
bilidade de σ ts ≠ 0 , pode existir autocorrelação (temporal) para a mesma unidade
seccional.
c) Quando há homocedasticidade condicionada, a matriz S pode simplificar-se. Com
efeito,
S = E ( g •i g•Ti ) = E{E ( g•i g•Ti | z•i )} = E ( E{(u•iu•Ti ) ⊗ ( z•i z•Ti ) | z•i })
= E{E (u•iu•Ti | z•i ) ⊗ ( z•i z•Ti )} = E{Σ ⊗ ( z•i z•Ti )}
= Σ ⊗ E ( z•i z•Ti ) = Σ ⊗ Qzz ,
onde Qzz = E ( z•i z•Ti ) . Assim [ver (5.76)],

σ 11Qzz σ 12Qzz L σ 1 pQzz 
σ Q σ 22Qzz L σ 2 pQzz 
(7.18) S = Σ ⊗ Qzz =  21 zz
.
 M M M 
 
σ p1Qzz σ p 2Qzz L σ ppQzz 
Então, a hipótese MCDP.5 é equivalente a exigir que as matrizes Σ e Qzz existem e
têm inversa.
d) Confrontando (7.14) com (7.18), resulta imediatamente que
E (uti2 z•i z•Ti ) = σ tt E ( z•i z•Ti ) e E (utiusi z•i z•Ti ) = σ ts E ( z•i z•Ti ) ( t ≠ s ),
onde σ ts = E (utiuts | z•i ) (t , s = 1, 2, K , p) . Vai provar-se que

(7.19) E (uti2 xtiT• xti • ) = σ tt E ( xtiT• xti • ) (t = 1, 2, K , p ) .
Com efeito, começa-se por notar que xtiT• = Dt z•i , onde a matriz Dt , de tipo k × q , é
formada pelas primeiras k colunas da matriz identidade de ordem q. Tem-se:
E (uti2 xtiT• xti • ) = E (uti2 Dt z•i z•Ti DtT ) = E{E (uti2 Dt z•i z•Ti DtT | z•i )} = E{E (uti2 | z•i ) Dt z•i z•Ti DtT }
= E{σ tt Dt z•i z•Ti DtT } = σ tt E ( Dt z•i z•Ti DtT ) = σ tt E ( xtiT• xti • ).
Da mesma forma, se demonstra que

(7.20) E (utiusi xtiT• xts • ) = σ ts E ( xtiT• xts • ) ( t ≠ s ).
Como E (uti2 | xti • ) = E (uti2 | z•Ti DtT ) = E (uti2 | z•i ) = σ tt , pode concluir-se que
(7.21) σ tt = E (uti2 | xti • ) (t = 1, 2, K , p ) .

e) Suponha-se que
(7.22) E (u•iu•Ti | X •i ) = Σ = σ u2 I p ,
condição conhecida pela designação de esfericidade das variáveis residuais.

A hipótese (7.22) significa que:
− Existe homocedasticidade condicionada temporal, σ tt = σ u2 ;
− Não há autocorrelação, σ ts = 0 ( t ≠ s ).
Então,
(7.23) E (uti2 xtiT• xti • ) = σ u2 E ( xtiT• xti • ) e E (utiusi xtiT• xts • ) = O ( t ≠ s ).
f) Admita-se que o vector das variáveis explicativas, xti • , é tal que

(7.24) E ( yti | xti • , yt −1,i , xt −1,i • , K , y1i , x1i • ) = E ( yti | xti • ) .
Esta condição significa que xti • inclui os desfasamentos suficientes de todas as variá-
veis de tal modo que o efeito parcial de eventuais desfasamentos adicionais é nulo.
Quando se verifica (7.24), diz-se que o modelo é dinamicamente completo. É ime-
diato constatar que a completude dinâmica é equivalente a
(7.25) E (uti | xti • , ut −1,i , xt −1,i • , K , u1i , x1i • ) = 0 .
Fica ao cuidado do leitor concluir que (7.25) [que é equivalente a (7.24)] implica
E (utiusi | xti • , xts • ) = 0 . Portanto, a completude dinâmica implica E (utiusi xtiT• xts • ) = O
[ver (7.23)] e E ( xti •uti ) = 0 .
Quando o modelo verifica MCDP.6 (homocedasticidade condicionada), o esti-

mador MGM eficiente é o estimador SUR com coeficientes comuns [que coincide com
o estimador SMQGF (ver capítulo 5)]. No contexto dos modelos com dados de painel, é
habitual designá-lo por estimador EA (de efeitos aleatórios; em inglês, random effects).
A justificação desta designação vai ser feita mais adiante. As expressões relativas a este
estimador são dadas por (5.110), (5.111) e (5.112), com as necessárias adaptações:
−1
βÊA =  ∑i =1 X •Ti Σˆ −1 X •i  ∑
m m
X •Ti Σˆ −1 y•i
(7.26)   i =1
= { X T ( I m ⊗ Σˆ −1 ) X }−1 X T ( I m ⊗ Σˆ −1 )Y ;
(7.27) Cov a ( βÊA ) = E ( X •Ti Σ −1 X •i ) −1 ;

−1
1 m  −1
Cov a ( βÊA ) =  ∑i =1 X •Ti Σˆ −1 X •i  = m  ∑i =1 X •Ti Σˆ −1 X •i 
^ m
(7.28) m   
 
= m{ X T ( I ⊗ Σˆ −1 ) X }−1.
m
Para obter a matriz Σ̂ , faz-se

1 m
σ̂ ts = ∑ uˆtiuˆsi (t , s = 1, 2,K, p) ,
m i =1
onde uˆti = yti − xti • β̂ (i = 1, 2, K , m) , e β̂ é um estimador consistente de β (por exem-
plo, o estimador PMQ). Assim, tem-se:
1 m
Σˆ = ∑i =1 uˆ•iuˆ•Ti .
m
O estimador (7.26) também pode ser apresentado com o formato de (5.25). Com
efeito, tem-se
βÊA = ( S zxT Sˆ −1 S zx ) −1 S zxT Sˆ −1 s zy ,
onde:
1 m 1 m
− S zx =
m ∑ i =1
( X •i ⊗ z•i ) = ∑i =1 ( I p ⊗ z•i ) X •i
m
[matriz pq × k , contrapartida amostral de Qzx ];
1 m 1 m
− szy =
m ∑ i =1
( y•i ⊗ z•i ) = ∑i =1 ( I p ⊗ z•i ) y•i
m
[vector pq × 1 , contrapartida amostral de qzy ];
− Sˆ = Σˆ ⊗ S zz [matriz pq × pq , contrapartida amostral de S];
1 m
− S zz =
m ∑ i =1
z•i z•Ti [matriz q × q , contrapartida amostral de Qzz ].
Muitas vezes, usa-se o estimador PMQ para estimar β , desprezando as corre-

lações temporais entre as variáveis residuais (para a mesma unidade seccional i). Trata-
-se de um simples estimador MQ de β na relação (7.4), Y = Xβ + U (a amostra tem di-
mensão mp ; para cada variável, e para cada unidade seccional, há p observações tem-
porais). Com as necessárias adaptações, tem-se [ver (5.118), (5.119) e (5.120)]:
−1
βˆ =  ∑i =1 X •Ti X •i  ∑
m m
(7.29) PMQ X •Ti y•i = ( X T X ) −1 X T Y ;
  i =1
(7.30) Cov a ( βˆPMQ ) = E ( X •Ti X •i ) −1 E ( X •Ti Σ X •i ) E ( X •Ti X •i ) −1 ;

−1 −1
^
1 m  1 m  1 m 
Cov a ( βˆPMQ ) =  ∑i =1 X •Ti X •i   ∑i =1 X •Ti Σˆ X •i   ∑i =1 X •Ti X •i 
(7.31) m  m m 
= m ( X X ) { X ( I m ⊗ Σˆ ) X }( X X ) .
T −1 T T − 1
O estimador PMQ ainda é consistente e assintoticamente normal, bastando exi-

gir a ortogonalidade contemporânea, E ( xti •uti ) = 0 (t = 1, 2, K , p ) [hipótese mais fraca
do que (7.5)], e a condição r{E ( X •Ti X •i )} = k [hipótese mais fraca do que a condição de
característica MCDP.4]. Esta condição garante que não há dependências lineares entre
os regressores.
Supondo a esfericidade das variáveis residuais, E (u•iu•Ti | X •i ) = Σ = σ u2 I p , vem
−1
βÊA = βˆPMQ =  ∑i =1 X •Ti X •i  ∑
m m
X •Ti y•i = ( X T X ) −1 X T Y ,
  i =1
Cov a ( βÊA ) = σ u2 E ( X •Ti X •i ) −1 ,

−1
^
1 m 
Cov a ( βÊA ) = σˆ u2  ∑i =1 X •Ti X •i  = mσˆ u2 ( X T X ) −1 .
m 
Quando o modelo não verifica a hipótese MCDP.6 (admite-se que pode existir
heterocedasticidade condicionada), o vector dos coeficientes, β , pode ser estimado
com o estimador MGM eficiente em que os coeficientes são comuns e o vector dos
instrumentos (comuns) é a união de todos os regressores (como acontece nos exemplos
7.3 e 7.4). Continua a utilizar-se o estimador EA, mas a inferência estatística baseia-se
no estimador da matriz robusta das covariâncias assintóticas de β̂ EA dado por
−1 −1
Cov a ( βÊA ) = m  ∑i =1 X •Ti Σˆ −1 X •i   ∑i =1 X •Ti Σˆ −1uˆ•iuˆ•Ti Σˆ −1 X •i   ∑i =1 X •Ti Σˆ −1 X •i  .
^ m m m
    
Os resultados obtidos são semelhantes ao do estimador SMQGF estudado no ca-
pítulo 5 [ver (5.43), (5.45) e (5.46)].
Suponha-se que o vector β foi estimado pelo método PMQ. Muitas vezes, é útil
testar a existência de autocorrelação por duas razões: a autocorrelação não tem lugar
num modelo dinamicamente completo; a presença de autocorrelação obriga a utilizar
uma matriz robusta das covariâncias de β̂ PMQ .
Admita-se que a hipótese alternativa do teste de autocorrelação pressupõe que o
processo das variáveis residuais é AR(1):
(7.32) uti = ϕ ut −1,i + ε ti (t = 2, 3, K , p ; i = 1, 2, K) ,
onde E (ε ti | xti • , ut −1,i , xt −1,i • , K , u1i , x1i • ) = 0 . A hipótese nula é H 0 : ϕ = 0 .

A mecânica do teste é semelhante à do teste de Durbin alternativo (ver secção
3.10):
1) Fazer a regressão PMQ de yti sobre xti • , para obter os respectivos resíduos ûti .
2) Fazer a regressão PMQ de ûti sobre xti • e uˆt −1,i (t = 2, 3, K , p ; i = 1, 2, K , m) , de mo-
do a obter o estimador ϕ̂ do coeficiente de uˆt −1,i [numa situação de exogeneidade es-
trita, basta fazer a regressão PMQ de ûti sobre uˆt −1,i ].
3) No caso de homocedasticidade condicionada, a estatística-teste é o respectivo rácio-t
clássico; caso contrário, usa-se o rácio-t robusto.
Uma forma alternativa de proceder baseia-se no modelo

(7.33) yti = xti • β + ϕ ut −1,i + ε ti (t = 2, 3, K , p ; i = 1, 2, K) .
Como a variável residual não é observável, calculam-se os resíduos PMQ, ûti , e

faz-se a regressão PMQ de yti sobre xti • e uˆt −1,i (t = 2, 3, K , p ; i = 1, 2, K , m) . A estatís-
tica-teste é o rácio-t clássico ou robusto relativo ao coeficiente de uˆt −1,i , conforme existe
ou não homocedasticidade condicionada. A presença do regressor gerado, uˆt −1,i , não
afecta a distribuição limite de ϕ̂ porque ϕ = 0 , sob a hipótese nula. No caso de exoge-

neidade estrita, basta fazer a regressão PMQ de ûti sobre uˆt −1,i .
Para efectuar qualquer teste de heterocedasticidade condicionada, vai supor-se

que E (uti | xti • ) = 0 (t = 1, 2, K, p) . A formalização do teste é a seguinte:
H 0 : E (uti2 | xti • ) = σ u2 contra H1 : E (uti2 | xti • ) a depender de xti • .
Note-se que a hipótese nula é uma das hipóteses básicas para se poder utilizar o
estimador PMQ sem recorrer à respectiva matriz robusta das covariâncias.
Tal como na secção 3.9 (capítulo 3), vai considerar-se uma função vectorial de
xt • , com r − 1 componentes: h( xti • ) = [ h2 ( xti • ) h3 ( xti • ) L hr ( xti • ) ]. Sob H 0 , esta fun-
ção não está correlacionada com uti2 : Cov{h( xti • ), uti2 } = 0 . O teste baseia-se no modelo
uti2 = α1 + hti •α + vti (t = 1, 2, K, p) , onde hti • = h( xti • ) e α = [ α 2 α 3 L α r ] T . Sob H 0 ,
tem-se E (vti | hti • ) = E (vti | xti • ) = 0 , α = 0 e α1 = σ 2 . Assim, o teste de heterocedastici-
dade condicionada consiste em testar H 0 : α = 0 contra H1 : α ≠ 0 .
A mecânica deste teste é a seguinte:
1) Calcular os resíduos PMQ do modelo proposto, yti = xti • β + uti : ûti .
2) Fazer a regressão auxiliar PMQ de uˆti2 sobre 1 e hti • .
d
(7.34) mpR 2 → χ 2 (r − 1) ,
A justificação da validade deste teste baseia-se nos mesmos argumentos apresen-

tados na secção 3.9.
Tal como nos testes de Breusch-Pagan e de White, a função hti • pode incluir, as
k − 1 variáveis explicativas, assumindo a forma [ xti 2 xti 3 L xtik ], ou, adicionalmente,
abranger os quadrados e os produtos de pares destas variáveis. Também se pode fazer
hti • = [ yˆti yˆti2 ], onde yˆti = xti • βˆPMQ (valor ajustado de yti obtido com o método PMQ).
Como a hipótese nula implica que E (uti2 ) = σ u2 (t = 1, 2, K, p) , esta condição pode ser
testada directamente incluindo em hti • as p − 1 variáveis artificiais temporais, que são
definidas da seguinte maneira: dt = 1 quando a observação do painel se refere à data t
(t = 2, 3, K , p) [a data de referência é a primeira].
Se a heterocedasticidade condicionada for detectada, mas não a autocorrelação,
os métodos de inferência estatística devem utilizar um estimador da matriz robusta das
covariâncias de βˆPMQ .
7.3 - Motivação: o problema da omissão de variáveis revisitado
No modelo clássico com dados de painel estudado na secção anterior, a hipótese

mais fraca que relaciona as variáveis explicativas com as variáveis residuais é a da orto-
gonalidade para a mesma data: E ( xti •uti ) = 0 (t = 1, 2, K, p) [ver (7.11)]. Contudo, este
modelo não contempla uma situação presente em muitas aplicações com dados de pai-
nel: a equação estrutural subjacente ao modelo pode incluir factores explicativos não
observáveis constantes no tempo que estão correlacionados com algumas variáveis ex-
plicativas. Nestas circunstâncias, a hipótese (7.11) pode ser demasiado forte.
Nas secções seguintes vão estudar-se modelos com dados de painel que explici-
tamente incluem um efeito não observado constante no tempo, encarado como uma va-
riável aleatória. Nesta secção vai mostrar-se que uma motivação importante para estudar
este tipo de modelos é resolver o problema da omissão de variáveis (ver a subsecção so-
bre omissão de variáveis da secção 4.1 do capítulo 4). De forma mais precisa, vai ver-se
que, em certas condições, os modelos com dados de painel podem ser usados para obter
estimadores consistentes de parâmetros na presença de variáveis omitidas.
Em termos gerais, considere-se uma variável aleatória (escalar), y, e um vector
aleatório de tipo 1 × k , x = [ x1 x2 L xk ]. Supõe-se que estas k + 1 variáveis aleatórias
são observáveis. A população de interesse é representada pelo vector formado por k + 2
variáveis aleatórias, [ y x1 x2 L xk α ], onde α é não observável (de acordo com a
tradição dos modelos com dados de painel, a notação da variável aleatória não observá-
vel é uma letra grega; recorde-se que as letras gregas são geralmente usadas para repre-
sentar os parâmetros).
Admita-se que o modelo da população é E ( y | x, α ) (valor esperado condiciona-
do estrutural), e que se pretende analisar os efeitos parciais de cada x j ( j = 1, 2, K , k )
sobre este valor esperado condicionado (naturalmente nesta análise ceteris paribus, α é
encarado como uma constante). Suponha-se que E ( y | x, α ) = xβ + α (modelo linear em
x e α ), onde β é o vector k × 1 dos parâmetros, e α entra no modelo de forma aditiva.
É razoável supor que o coeficiente de α é igual a 1, uma vez que não faz sentido esti-
mar o respectivo efeito parcial (como α não é observável, não tem uma unidade de me-
dida natural). Introduzindo uma variável residual, v, o modelo pode formalizar-se do se-
guinte modo: y = xβ + α + v , onde E (v | x, α ) = 0 .
Obviamente, há duas possibilidades sobre o comportamento de α : se α não está
correlacionado com cada x j , Cov( x, α ) = 0 , então α é apenas mais um factor não ob-
servado que influencia y; se Cov( x, α ) ≠ 0 , isto é, se algum x j está correlacionado com
α , incluir α na variável residual pode causar problemas sérios (sem mais informação
não é possível estimar β de forma consistente).
Recorde-se que se conhecem três maneiras de contribuir para a resolução deste
problema:
a) Recorrer a variáveis proxy para α (ver secção 4.1). Neste caso, pode utilizar-se o
método MQ.
b) Encontrar instrumentos para os x j que estão correlacionados com α . Nestas condi-
ções deve recorrer-se a um método de estimação MGM (MGM eficiente, VI, MQ2P).
c) Utilizar indicadores de α (ver secção 4.3). Numa situação de indicadores múltiplos,
usam-se os métodos de estimação MGM.
Dispondo apenas de um conjunto de dados seccionais (referente a uma só data),

as três soluções preconizadas esgotam praticamente os procedimentos para resolver o
problema da omissão de variáveis. Contudo, se for possível recorrer a um painel de da-
dos (observações das mesmas unidades seccionais em várias datas), existem outras pos-
sibilidades.
A hipótese crucial para a análise subsequente é que α seja constante no tempo
(o efeito sobre a resposta média é o mesmo nas várias datas). Na terminologia dos mo-
delos com dados de painel, uma variável não observável e constante no tempo é de-
signada por efeito não observado. Este efeito é passível de várias interpretações: se as
unidades seccionais são indivíduos, α i captura as respectivas características individuais
como sejam a aptidão cognitiva, a motivação, os antecedentes familiares, etc.; no caso
de empresas, o efeito não observado captura aspectos não observáveis como a qualidade
da gestão, a estrutura da empresa, etc.
Para simplificar, supõe-se que y e x são observados em duas datas ( t = 1, 2 ). In-
troduzindo o índice i para designar as unidades seccionais, o modelo da população pode
escrever-se da seguinte maneira:
E ( yti | xti • , α i ) = xti • β + α i ( t = 1, 2 ; i = 1, 2, K ),
ou
yti = xti • β + α i + vti ( t = 1, 2 ; i = 1, 2, K ),
onde E (vti | xti • , α i ) = 0 . Esta condição implica E ( xti •vti ) = 0 e E (vtiα i ) = 0 .

Supondo que E ( xti •α i ) = 0 , o vector β pode ser estimado pelo método PMQ. Se
E ( xti •α i ) ≠ 0 , o estimador PMQ é inconsistente.
Um procedimento para eliminar o efeito não observado consiste em considerar o
modelo com os acréscimos temporais das variáveis observáveis, ∆yi = ∆xi • β + ∆vi , onde
∆yi = y2i − y1i , ∆xi • = x2i • − x1i • e ∆vi = v2i − v1i . Trata-se de um modelo de regressão li-
near em que o regressando e os regressores são as diferenças das variáveis originais. Pa-
ra os elementos de xti • constantes no tempo (nomeadamente o termo independente), a
respectiva diferença é nula. Deste modo, apenas é possível estimar os coeficientes β j
que não correspondem a regressores originais constantes no tempo. Naturalmente as hi-
póteses para que o estimador MQ seja consistente são as seguintes:
1) Ortogonalidade: E (∆xi •∆vi ) = 0 ;
2) Condição de característica: r{E (∆xiT•∆xi • )} = k1 , onde k1 é o número de regressores
do modelo com diferenças (número de elementos de xti • que variam no tempo).
Podem-se fazer os seguintes comentários a estas hipóteses:

1) A hipótese da ortogonalidade é equivalente a E{( x2i • − x1i • )(v2i − v1i )} = 0 , ou
E ( x2i •v2i ) + E ( x1i •v1i ) − E ( x1i •v2i ) − E ( x2i •v1i ) = 0 .
As primeiras duas parcelas da igualdade anterior são nulas (os regressores são orto-
gonais às variáveis residuais en cada data). Contudo, a hipótese fundamental do mo-
delo, E (vti | xti • , α i ) = 0 , não garante a nulidade das outras duas parcelas. Como a hi-
pótese da ortogonalidade do modelo com diferenças não decorre da hipótese funda-
mental do modelo, é necessário exigir que E ( xti •vsi ) = 0 ( t , s = 1, 2 ). Note-se que não
se impõe qualquer restrição relativamente à correlação entre xti • e α i .
2) Se a condição característica fosse substituída pela hipóptese r{E (∆xiT• ∆xi • )} = k , bas-
tava que existisse um elemento de xti • constante no tempo para falhar esta hipótese.
Esta conclusão pode ser apreciada da seguinte maneira: como α i pode estar correla-
cionado com elementos de xti • , o efeito de qualquer variável explicativa que é cons-
tante no tempo não se distingue do efeito de α i . Então, apenas pode estimar-se β j de
forma consistente quando a componente j de xti • varia no tempo.
Nas secções seguintes abordam-se várias formas de lidar com a presença de efei-
tos não observados, no contexto de vários conjuntos de hipóteses.
7.4 - O modelo com efeitos não observados
Retome-se o modelo (7.2) e suponha-se que a variável residual ou erro, uti , tem
duas componentes,
(7.35) uti = α i + vti ,
onde a primeira componente, α i , não varia com t. Esta componente – que pode variar
com i (unidade seccional), mas não com t (tempo) –, chama-se efeito não observado,
heterogeneidade não observada ou variável latente. Se as unidades seccionais são
indivíduos (pessoas), o efeito não observado pode também chamar-se o efeito individual
ou heterogeneidade individual. O mesmo tipo de terminologia pode estender-se a famí-
lias, empresas, cidades, etc. Por exemplo, no caso de empresas, tem-se o efeito empresa-
rial ou a heterogeneidade empresarial. A outra componente, vti , representa o choque a
que está submetida a unidade seccional i na data t (esta componente também se chama
erro idiossincrático). Assim, o modelo (7.2) apresenta-se do seguinte modo:
(7.36) yti = xti • β + α i + vti ( t = 1, 2, K , p ; i = 1, 2, K ),
onde uti = α i + vti . O vector xti • pode incluir regressores que: variam com t e i; só va-
riam com t; só variam com i.
Fazendo
 v1i  1
v  1
v•i =   , e p =   ,
2i
M M 
  
v pi  1
o sistema (7.3) pode apresentar-se do seguinte modo:
(7.37) y•i = X •i β + e pα i + v•i (i = 1, 2, K) ,
onde u•i = e pα i + v•i .

É habitual designar o modelo com dados de painel, dado pelas notações (7.36)
ou (7.37), por modelo com efeitos não observados (MENO), que decorre da decompo-
sição do erro nas duas componentes referidas.
Quando se dispõe de uma amostra de dimensão m, na relação amostral (7.4),

Y = Xβ + U , tem-se U = α ⊗ e p + V , onde:
 α1   v•1 
α  v 
α =  2  e V =  •2  .
 M   M 
α m  v• m 
Assim:
− α é o vector m × 1 , de elemento genérico α i (i = 1, 2, K , m) .
− V é o vector mp × 1 , formado pelos m subvectores v•i .
A primeira hipótese deste modelo é o resumo das considerações anteriores:
Hipótese MENO.1 – Linearidade com efeitos não observados

y•i = X •i β + e pα i + v•i (i = 1, 2, K) , onde: y•i é o vector p × 1 das observações da variá-
vel explicada y da unidade seccional i; X •i é a matriz p × k das observações das variá-
veis explicativas da unidade seccional i; β é o vector k × 1 dos coeficientes de regres-
são; α i é o efeito não observado da unidade seccional i; v•i é o vector p × 1 dos cho-
ques ou erros idiossincráticos relativos à unidade seccional i.
Na abordagem tradicional dos modelos com dados painel era habitual encarar os
efeitos não observados, α i , de duas formas distintas: considerá-los como variáveis alea-
tórias, e dizia-se, então que os α i eram os efeitos aleatórios; supor que os α i eram pa-
râmetros a estimar, um por cada unidade seccional da amostra, dizendo-se, então, que os
α i eram efeitos fixos. Esta distinção foi abandonada na abordagem moderna: os efeitos
não observados são sempre considerados variáveis aleatórias, e a questão está em saber
se estão correlacionados, ou não, com os regressores. Embora seja aconselhável adoptar
o nome geral (ou seja, efeitos não observados), na gíria dos modelos com dados de pai-
nel é corrente usar o termo efeito aleatório quando α i não está correlacionado com xti • ,
E ( xti •α i ) = 0 , e o termo efeito fixo quando α i está correlacionado com algum elemento
de xti • , E ( xti •α i ) ≠ 0 .
Facilmente se conclui que E ( xti •usi ) = 0 (t , s = 1, 2, K , p) [hipótese MCDP.2]
não implica a ortogonalidade entre os regressores e cada uma das componentes do erro.
Pode, então, estabelecer-se a seguinte hipótese mais forte:
Hipótese MENO.2 – Ortogonalidade entre os regressores e as componentes do erro

Para a mesma unidade seccional i, cada vector xit • (t = 1, 2, K , p ) é ortogonal a α i (os
efeitos são aleatórios),
(7.38) E ( xti •α i ) = 0 (t = 1, 2, K , p ) ,
e a qualquer choque vsi ,

(7.39) E ( xti •vsi ) = 0 (t , s = 1, 2, K , p) .
Obviamente a hipótese MENO.2 implica MCDP.2. Contudo, em muitas aplica-

ções que utilizam dados de painel, a condição (7.38) é contestada, uma vez que o efeito
não observado pode abranger algumas características permanentes da unidade seccio-
nal que estão correlacionadas com alguma variável explicativa. Note-se que não se esta-
belece qualquer hipótese de ortogonalidade entre α i e vsi (como se vai ver, uma hipó-
tese deste tipo não é necessária para estabelecer as propriedades assintóticas dos estima-
dores a estudar adiante).
Exemplo 7.5 – A função de produção referida no exemplo 7.1, na sequência das consi-
derações que permitiram escrever (4.33) [ver capítulo 4, secção 4.2], pode ser escrita na
forma
ln(Qti ) = θ 0 + θ1 ln( Lti ) + α i + vti , (t = 1, 2, K , p ; i = 1, 2, K)
onde α i é um indicador do nível de eficiência relativo da empresa i.

No caso de concorrência perfeita, o efeito individual α i pode ter correlação po-
sitiva com a quantidade de trabalho utilizado, porque as empresas mais eficientes ten-
dem a expandir-se, e, portanto, a contratar mais trabalhadores [ver (4.34)].
Se vti representa os choques ou erros idiossincráticos não previstos pela empresa
quando são tomadas as decisões de contratação de trabalhadores, é razoável admitir que
vti não está correlacionado com ln( Lti ) .
∇
Exemplo 7.6 – Retomando o exemplo 7.2, suponha-se que a variável residual uti (erro)
se decompõe em duas parcelas: α i , que representa as características permanentes do tra-
balhador i, que podem afectar as suas escolhas individuais de escolaridade; os outros
factores, vti , não correlacionados com os regressores, como sejam o erro de medida do
logarítmo da taxa de salário.
∇
Podem fazer-se os seguintes comentários à hipótese MENO.2:

a) A condição (7.38) pode ser substituída pela seguinte hipótese mais forte:
(7.40) E (α i | X •i ) = E (α i ) = 0 .
Sem perda de generalidade, pode fazer-se E (α i ) = 0 . É imediato concluir que (7.40)

implica (7.38).
b) A hipótese da exogeneidade estrita dos regressores e do efeito não observado é for-
malizada da seguinte maneira:
(7.41) E (vti | X •i , α i ) = 0 (t = 1, 2, K , p ) .
Obviamente esta condição implica (7.39) e E (vtiα i ) = 0 , e é equivalente a

(7.42) E ( yti | X •i , α i ) = E ( yti | xti • , α i ) = xti • β + α i (t = 1, 2, K , p ) .
Deste modo, controlando xti • e α i , não existe efeito parcial de xsi • ( s ≠ t ) sobre yti .
c) A condição (7.42) é essencialmente diferente da exogeneidade estrita dada por (7.9),

E ( yti | X •i ) = E ( yti | xti • ) = xti • β : no valor esperado condicionado de yti daquela con-
dição, o efeito não observado é variável condicionante. Deve também notar-se que a
condição (7.9) é menos plausível do que (7.42). Por exemplo, seja yti a quantidade
produzida de um certo produto agrícola na herdade i no ano t, e xti • o vector das
quantidades utilizadas dos respectivos factores de produção (capital, trabalho, fertili-
zantes, etc.).O efeito não observado, α i , captura a qualidade dos solos, a capacidade
de gestão e outros factores constantes no tempo. A hipótese (7.42) significa que as
quantidades de factores de produção utilizadas nos outros anos não influenciam a
produção no ano corrente. Contudo, como a escolha óptima das quantidades de facto-
res geralmente depende, em cada ano, de α i , é admissível que exista alguma correla-
ção parcial entre a quantidade produzida no ano t e as quantidades utilizadas dos fac-
tores noutros anos, se α i não for controlado. Assim, a condição (7.42) é mais plausí-
vel do (7.9).
Em termos gerais, facilmente se mostra que condição (7.9) falha quando se verifica
(7.42) e se E (α i | X •i ) depende de X •i (em particular, se α i está correlacionado com
algum elemento de xti • ). Com efeito,
E ( yti | X •i ) = E{E ( yti | X •i , α i ) | X •i } = E ( xti • β + α i | X •i )
= xti • β + E (α i | X •i ) ≠ xti • β .
d) Uma hipótese mais fraca que a da exogeneidade estrita é a exogeneidade contempo-
rânea de xti • e de α i :
(7.43) E (vti | xti • , α i ) = 0 (t = 1, 2, K , p) .
Neste caso, resulta que não há correlação entre uti e xti • (para a mesma data). Por-
tanto, existe apenas ortogonalidade contemporânea entre os erros idiossincráticos e
os regressores:
(7.44) E ( xti •vti ) = 0 (t = 1, 2, K , p ) .
Quando as hipóteses MCDP.1 e MCDP.2 são substituídas, respectivamente, pe-

las hipóteses MENO.1 e MENO.2 é possível continuar a estimar o vector β pelo méto-
do PMQ [ver (7.29)]. Sabe-se que, entre as condições de ortogonalidade propostas, bas-
ta exigir a condição de ortogonalidade contemporânea entre os regressores e as variáveis
residuais para garantir a consistência e a normalidade assintótica do estimador PMQ.
Deste modo, a condição (7.39) pode ser substituída por (7.44). A hipótese de ortogonali-
dade crucial é a condição (7.38), E ( xti •α i ) = 0 , porque, supondo que se verifica (7.43) [o
modelo está bem especificado], (7.44) decorre imediatamente de (7.43).
Admitindo que E ( xti •α i ) = 0 , os erros compostos, uti = α i + vti , podem estar au-
tocorrelacionados devido à presença de α i em cada data. De facto, como uti depende de
α i para todas as datas, em geral, a correlação entre uti e usi ( t ≠ s ) não diminui quando
a distância | t − s | aumenta [na próxima secção vai fazer-se a demonstração deste resul-
tado quando os erros idiossincráticos, vti (t = 1, 2, K , p ) , são homocedásticos e não au-
tocorrelacionados]. A presença de autocorrelação exige que a inferência estatística re-
corra ao estimador da matriz robusta das covariâncias assintóticas do estimador PMQ

[ver (7.31)].
7.5 - O estimador de efeitos aleatórios
Na análise com efeitos aleatórios supõe-se que o efeito não observado, α i , faz
parte da variável residual ou erro composto, e que se verifica a hipótese MENO.2. Desta
forma, as condições de ortogonalidade são mais fortes do que aquelas que são exigidas
para o método PMQ. As condições (7.38) e (7.39) podem ser substituídas, respectiva-
mente, pelas hipóteses mais fortes, (7.40) e (7.41).
O modelo que verifica as hipóteses MENO.1, MENO.2, MCDP.3, MCDP.4 e
MCDP.5 (e, eventualmente, MCDP.6) é o modelo de dados painel com efeitos aleató-
rios (MDP-EA). Assim, substituindo as hipóteses MCDP.1 e MCDP.2 por MENO.1 e
MENO.2, respectivamente, pode estimar-se β pelo método SUR com coeficientes co-
muns [que coincide com o estimador SMQGF]: trata-se do estimador EA já conhecido
[ver (7.26), (7.27) e (7.28)].
Note-se ainda que, tal como se faz no contexto do estimador SMQGF, a hipótese
da condição de característica MCDP.4 pode ser substituída pela seguinte:
(7.45) r ( X •Ti Σ −1 X •i ) = k ,
onde Σ = E (u•iu•Ti ) .
A estrutura geral da matriz Σ admite a existência de autocorrelação das variá-
veis residuais, uti . A seguir vai explicitar-se a estrutura dessa matriz, supondo a esferi-
cidade dos erros idiossincráticos:
(7.46) E (v•i v•Ti ) = σ v2 I p ,
onde σ v2 = E (vti2 ) (t = 1, 2, K, p) . A condição (7.46) garante que os erros idiossincráticos

verificam as seguintes hipóteses: a variância é constante no tempo; não há autocorrela-
ção [ E (vti vsi ) = 0 , para t ≠ s ]. Deste modo, tem-se
E (uti2 ) = E{(α i + vti ) 2 } = E (α i2 ) + E (vti2 ) + 2 E (α i vti ) = σ α2 + σ v2 ,
onde σ α2 = E (α i2 ) , σ v2 = E (vti2 ) e E (α i vti ) = 0 . Fazendo σ u2 = E (uti2 ) , resulta

(7.47) σ u2 = σ α2 + σ v2 .
Facilmente se prova que
(7.48) E (utiusi ) = E{(α i + vti )(α i + vsi )} = σ α2 ( t ≠ s ).
Então,
σ α2 + σ v2 σ α2 L σ α2 
 
 σ α2 σ α2 + σ v2 L σ α2 
Σ = E (u•iu•i ) =
T
,
 M M M 
 
 σα σ α2 L σ α2 + σ v2 
2
ou
(7.49) Σ = σ α2 e p eTp + σ v2 I p .
Nestas circunstâncias, é habitual dizer que a matriz Σ tem a estrutura de efei-

tos aleatórios. Com esta estrutura, Σ não depende de p( p + 1) / 2 variâncias e cova-
riâncias, mas apenas de dois parâmetros: σ α2 e σ v2 . O coeficiente de correlação entre
entre uti e usi é dado por
σ α2
Corr (uti , usi ) = ≥ 0 ( t ≠ s ),
σ α2 + σ v2
ou seja, é o quociente entre a variância de α i e a variância do erro composto. Trata-se
de uma medida da importância relativa do efeito não observado.
Para obter o estimador EA de β é necessário dispor de estimadores consistentes
de σ α e σ v2 . Representando estes estimadores por σˆα2 e σˆ v2 , vem Σˆ = σˆα2 e p eTp + σˆ v2 I p .
2
Para isso, começa-se por determinar σˆ u2 . Como σ u2 = E (uti2 ) , tem-se

1 p
p ∑t =1
σ u2 = E (uti2 ) ,
e, portanto, sem dificuldade se conclui que

1 p ~2
∑ ∑
m
σ̂ u2 = u ,
mp − k i =1 t =1 ti
onde u~ti = yti − xti • βˆPMQ (resíduos PMQ).

A determinação de um estimador consistente de σ α2 baseia-se em σ α2 = E (utiusi )
( t ≠ s ). Como para cada i há p( p − 1) / 2 produtos utiusi diferentes, tem-se
E  ∑t =1 ∑ u u  = ∑t =1 ∑ s = t +1 E (utiusi ) = σ α2 ∑t =1 ( p − t )
p −1 p p −1 p p −1
s = t +1 ti si
  ,
p ( p − 1)
= σ α2 {( p − 1) + ( p − 2) + L + 2 + 1} = σ α2 .
2
Então, um estimador consistente de σ α2 é dado por
1
∑ ∑ ∑ u~ u~ .
m p −1 p
σˆα2 =
mp( p − 1) / 2 − k i =1 t =1 s = t +1 ti si
Logo, σˆ v2 = σˆ u2 − σˆα2 . Na secção seguinte apresentam-se outros métodos de esti-

mar os parâmetros σ u2 e σ α2 (e, portanto, σ v2 ).
Quando não se verifica a hipótese MCDP.6 (homocedasticidade condicionada),
continua a usar-se o estimador EA de β , mas para fazer inferência estatística deve re-
correr-se ao estimador da matriz robusta das covariâncias assintóticas de β̂ EA [ver sec-
ção 7.2 e (5.46)].
7.6 - O estimador de efeitos fixos
Seja o modelo (7.36). O método EA para estimar β considera que α i é ortogo-

nal a xti • e tem em conta a autocorrelação do erro composto ( uti = α i + vti ). Contudo, em
muitas aplicações, a questão fulcral para usar dados de painel é permitir que α i esteja
correlacionado com algum elemento de xti • . Felizmente, existe um estimador – o esti-
mador de efeitos fixos (EF) –, que é consistente mesmo quando os regressores não são
ortogonais ao efeito não observado, α i .
Começa-se por fazer a seguinte partição do vector xti• :
xti • = [ fti • hi • ],
onde:
− f ti• é o vector 1 × k1 da observação t dos regressores que variam com o tempo (re-
gressores não constantes) para a unidade seccional i (na secção 7A.1 do anexo 7A
apresenta-se a construção deste vector a partir do vector z•i );
− hi• é o vector 1 × k 2 da observação t dos regressores que não variam com o tempo
(regressores constantes) para a unidade seccional i.
Esta partição induz a respectiva partição no vector dos coeficientes,

φ 
β = ,
η 
onde:
− φ é o vector k1 × 1 dos coeficientes dos regressores não constantes;
− η é o vector k 2 × 1 dos coeficientes dos regressores constantes.
Nestas condições, tem-se

X •i = [ F•i H •i ] = [ F•i e p hi • ],
onde:
− F•i é a matriz p × k1 (de elemento genérico f tij ) das observações dos regressores não
contantes da unidade seccional i. A linha e a coluna genérica de F•i são, respectiva-
mente, f ti• e f•ij .
− H •i = e p hi• é a matriz p × k 2 das observações dos regressores contantes da unidade
seccional i.
Considerando a distinção entre regressores constantes e não constantes, e a de-

composição do erro, o modelo (7.36) pode escrever-se da seguinte maneira:
(7.50) yti = xti• β + uti = f ti•φ + hi•η + α i + vti (t = 1, 2, K , p ; i = 1, 2, K) .
Da mesma forma, a partir de (7.37), tem-se

(7.51) y•i = X •i β + u•i = F•iφ + e p hi•η + e pα i + v•i (i = 1, 2, K) .
Pode, então, enunciar-se a seguinte hipótese:
Hipótese MENO.1′ – Linearidade com regressores constantes e não constantes, e

efeitos não observados
y•i = F•iφ + e p hi•η + e pα i + v•i (i = 1, 2, K) , onde: y•i é o vector p × 1 (de elemento ge-
nérico yti ) das observações da variável explicada y da unidade seccional i; F•i é a ma-
triz p × k1 (de elemento genérico f tij ) das observações dos regressores não constantes
da unidade seccional i; φ é o vector k1 × 1 dos coeficientes dos regressores não constan-
tes; hi• é o vector 1 × k 2 da observação t dos regressores contantes da unidade seccional
i; η é o vector k 2 × 1 dos coeficientes dos regressores constantes; α i é o efeito não ob-
servado da unidade seccional i; v•i é o vector p × 1 (de elemento genérico vti ) dos cho-
ques relativos à unidade seccional i.
Como vai ver-se, o estimador EF obriga a fazer uma transformação do sistema

(7.51). Esta transformação é a passagem a variáveis (temporalmente) centradas,
utilizando, para cada variável do sistema, a média das observações relativas a cada uni-
dade seccional i (demeaned data). Por exemplo, a média de y para as observações da
unidade seccional i e a média dos erros idiossincráticos são, respectivamente, dadas por
1 p 1 1 p 1
yi =
p
∑ y = eTp y•i e vi = ∑t =1 vti = eTp v•i
t =1 ti
p p p
Da mesma forma, se têm as médias para os regressores,

1 p 1 T
xij = ∑
p t =1
xtij =
p
e p x•ij (i = 1, 2, K; j = 1, 2, K , k ) .
Em particular,
1 p 1
fij =
p ∑ t =1
ftij = eTp f •ij (i = 1, 2, K; j = 1, 2, K , k1 ) .
p
Como se sabe, a matriz utilizada para a transformação é a matriz de centragem

[ver anexo 2B, (2B.4)],
 1 1 1 
1 − p − p L − p 
 
 1 1 1 
 − p 1− p L − p 
1
Pe = I p − e p (e p e p ) e p = I p − e p e p = 
T −1 T T .
p  
 M M M 
 
 1 1 1
− − L 1− 
 p p p
Então,
 y1i − yi 
y − y 
y•i = Pe y•i = 
2i i
c
= y•i − e p yi , X •ci = Pe X •i , F•ci = Pe F•i e v•ci = Pe v•i .
 M 
 
 y pi − yi 
O elemento genérico do vector y•ci é ytic = yti − yi ; o elemento genérico e a linha
genérica da matriz X •ci são xtijc = xtij − xij e xtic • , respectivamente; o elemento genérico e
a linha genérica da matriz F•ci são ftijc = ftij − fij e ftic• , respectivamente; o elemento ge-
nérico do vector v•ci é vtic = vti − vi .
O modelo transformado, que se obtém multiplicando por Pe ambos os membros
do y•i = X •i β + u•i , é dado por
(7.52) Pe y•i = Pe X •i β + Peu•i ⇔ y•ci = X •ci β + u•ci ,
ou, ainda,
ytic = xtic • β + utic (t = 1, 2, K , p ) .
Quando se faz esta transformação pode haver um inconveniente importante: al-

guns parâmetros do modelo podem não ser identificados. No exemplo seguinte ilustram-
-se duas situações deste tipo.
Exemplo 7.7 – Considerando de novo o exemplo 7.2, a matriz X •ci é dada por
 2 / 3 − 1 / 3 − 1 / 3 1 0 0 educ1i qii 
X •ci = Pe X •i = − 1 / 3 2 / 3 − 1 / 3 1 1 0 educ2i qii 
− 1 / 3 − 1 / 3 2 / 3  1 0 1 educ3i qii 
0 − 1 / 3 − 1 / 3 educ1i − educi 0
 
= 0 2 / 3 − 1 / 3 educ2i − educi 0 .
0 − 1 / 3 2 / 3 educ − educ 0
 3i i 
Facilmente se conclui que δ1 e β 2 não são identificados.
Fica ao cuidado do leitor verificar que, mesmo eliminando de X •ci a 5.ª coluna, a
matriz 15 × 4 , X •ci ⊗ z•i , tem característica igual a 3, e, portanto, não se verifica a
hipótese MCDP.4 para o modelo transformado (note-se que X •ci seria uma matriz 3× 4 ,
e que z•i , de acordo com o exemplo 7.4, é 5× 1 ).
∇
A transformação de y•i = F•iφ + e p hi •η + e pα i + v•i é a seguinte [ver (7.51)]:

(7.53) Pe y•i = Pe F•iφ + Pe (e p hi•η + e pα i ) + Pe v•i ⇔ y•ci = F•ciφ + v•ci (i = 1, 2, K) ,
uma vez que Pe (e p hi •η + e pα i ) = 0 . Pode também escrever-se

ytic = f tic• φ + vtic (t = 1, 2, K , p) .
Verifica-se, sem dificuldade, que no sistema (7.53) as p equações são linearmen-

te dependentes (há uma equação que é combinação linear das outras).
Tendo em conta a distinção entre regressores não constantes e regressores cons-

tantes (no tempo), as condições (7.38) e (7.39) da hipótese MENO.2 (ortogonalidade
entre as componentes de erro e os regressores) podem ser desdobradas em quatro con-
dições de ortogonalidade:
a) E ( f ti •α i ) = 0 ou E ( F•iα i ) = O (ortogonalidade entre os regressores não constantes e
o efeito não observado).
b) E (hi •α i ) = 0 (ortogonalidade entre os regressores constantes e o efeito não observa-
do).
c) E ( f ti •vsi ) = 0 (ortogonalidade entre os regressores não constantes e os erros idiossin-
cráticos).
d) E (hi •vti ) = 0 (ortogonalidade entre os regressores constantes e os erros idiossincrá-
ticos).
Se z•i é o vector q × 1 formado pela união dos elementos dos vectores fti • e hi • ,
as condições c) e d) podem resumir-se com E (v•i ⊗ z•i ) = 0 .
Destas quatro condições, a hipótese de ortogonalidade a reter para o método EF
é a seguinte:
Hipótese MENO.2′ – Ortogonalidade entre os regressores não constantes e os cho-

ques ou erros idiossincráticos
Para a mesma unidade seccional i, cada vector fti • (t = 1, 2, K , p) é ortogonal a qual-
quer erro idiossincrático ou choque, vsi ,
(7.54) E ( f ti •vsi ) = 0 (t , s = 1, 2, K , p) .
Tirando partido do sistema (7.51), a hipótese MCDP.3 (amostragem casual) po-

de ser enunciada da seguinte maneira:
Hipótese MENO.3 – Amostragem casual

O processo estocástico p (1 + k1 + k2 ) -dimensional, {( y•i , F•i , hiT• ) : i = 1, 2, K} , é iid.
A condição de característica MCDP.4 vai ser substituída por outra de forma a

ter em conta os efeitos fixos. Assim, fazendo
 E(z f c ) 
•i 1i •
 c

 E ( z• i f 2 i • ) 
Qzfc =   = E ( F•i ⊗ z•i ) ,
c
M
 
 E ( z•i f pic • )
 
pode escrever-se a hipótese seguinte:
Hipótese MENO.4 – Condição de característica com efeitos fixos

A matriz de tipo pq × k1 ,
(7.55) Qzfc = E ( F•ci ⊗ z•i ) ,
existe e verifica r (Qzfc ) = k1 .
A partir da hipótese MCDP.4, também se tem: a matriz Qzf = E ( F•i ⊗ z•i ) , de ti-
po pq × k1 , , existe e verifica r (Qzf ) = k1 .
Exemplo 7.8 – Na sequência do exemplo 7.7, tem-se
0 0 educ1i  δ 2  − 1 / 3 − 1 / 3 educ1ci 
δ   
F•i = 1 0 educ2i  ; hi • = [ 1 qii ] ; φ = δ 3  ; η =  1  ; F•ci =  2 / 3 − 1 / 3 educ2ci  ,
0 1 educ3i   β1  β2  − 1 / 3 2 / 3 educ3ci 
concluindo-se que k1 = 3 e k2 = 2 .
Para verificar a hipótese MENO.4, vai construir-se a matriz
(−1 / 3) z•i (−1 / 3) z•i educ1ci z•i 
 
F•ci ⊗ z•i =  (2 / 3) z•i (−1 / 3) z•i educ2ci z•i 
(−1 / 3) z•i (2 / 3) z•i educ3ci z•i 
 −1/ 3 −1/ 3 educ1ci 
 
 (−1 / 3)educ1i (−1 / 3)educ1i educ1i educ1i 
c
(−1 / 3)educ2i (−1 / 3)educ2i educ1ci educ2i 

 
(−1 / 3)educ3i (−1 / 3)educ3i educ1i educ3i 
c
 (−1 / 3)qi (−1 / 3)qii educ1ci qii 

 i

 2/3 −1/ 3 educ2ci 
 (2 / 3)educ (−1 / 3)educ educc educ 
 1i 1i 2i 1i

=  (2 / 3)educ2i (−1 / 3)educ2i educ2i educ2i .
c
 
 (2 / 3)educ3i (−1 / 3)educ3i educ2i educ3i 
c
 (2 / 3)qii (−1 / 3)qii educ2ci qii 

 
 −1/ 3 2/3 educ3ci 
 (−1 / 3)educ1i (2 / 3)educ1i educ3ci educ1i 
 
(−1 / 3)educ2i (2 / 3)educ2i educ3i educ2i 
c
(−1 / 3)educ (2 / 3)educ educc educ 

 3i 3i 3i 3i

 (−1 / 3)qii (2 / 3)qii educ3ci qii 
Facilmente se verifica que a característica desta matriz é igual a 3: r (Q cfz ) = 3 .

∇
O modelo que verifica as hipóteses MENO.1′ , MENO.2′ , MENO.3, MENO.4 e

MCDP.5 (e, eventualmente, MCDP.6) é o modelo de dados painel com efeitos fixos
(MDP-EF).
Em muitas situações é vantajoso definir um modelo mais amplo, adoptando as
hipóteses MENO.1′ , MENO.2, MENO.3, MCDP.4, MENO.4 e MCDP.5 (e, eventual-
mente, MCDP.6). Este modelo, que se designa por modelo de dados de painel com
componentes do erro (modelo MDP-CE), considera as duas condições de característica
e permite, ou não, a existência de ortogonalidade entre o efeito não observado e os re-
gressores. Como vai ver-se, este modelo tem a vantagem de permitir aplicar, para o
mesmo modelo, os métodos EA e EF.
O estimador EF é definido para o sistema (7.53), y•ci = F•ciφ + v•ci , donde foi eli-
minado o efeito fixo, α i , e os regressores constantes, hi• .
Dispondo de uma amostra de dimensão m, e fazendo
 y•c1   F•c1   v•c1 
 c   c  c 
 y• 2   F• 2  v
Yc = , Fc = , Vc =  • 2  ,
 M   M   M 
 c   c  c 
 y• m   F• m  v• m 
tem-se
(7.56) Yc = Fc φ + Vc .
Notanto que (7.54), E ( f ti •vsi ) = 0 , implica que E ( ftic•vsic ) = 0 , o estimador EF de

φ é o respectivo estimador PMQ. Assim,
−1
φÊF = ( FcT Fc ) −1 FcT Yc =  ∑i =1 F•Ti Pe F•i  ∑
m m
(7.57) F•Ti Pe y•i .
  i =1
O erro de amostragem é dado por

−1
φÊF − φ = ( FcT Fc ) −1 FcTVc =  ∑i =1 F•Ti Pe F•i  ∑
m m
(7.58) F•Ti Pev•i .
  i =1
Como este estimador é baseado nos desvios em relação às médias intra-grupos,

também é conhecido pelos nomes de estimador within ou de estimador em covariân-
cia (covariance estimator; designação inspirada na literatura da análise da covariância).
Não se deve confundir o estimador within com outro estimador muito referido na
literatura de modelos de dados de painel, o estimador between. Para obter este estima-
dor, considera-se o modelo com as médias temporais dado por
yi = fi •φ + α i + vi ,
onde, para facilitar a exposição, α i engloba a parcela hi •η , e

fi • = [ ft1 ft 2 L f tk1 ]
é o vector das médias temporais dos regressores não constantes no tempo. A condição
(7.54), por si só, não garante a consistência do estimador between porque pode aconte-
cer que E ( fi •α i ) ≠ 0 . Contudo, se E ( f ti •α i ) = 0 , o estimador é consistente, mas não é ti-

da em conta a informação temporal que está patente no conjunto de dados. Nestas cir-
cunstâncias, é mais eficiente usar o estimador EA.
Sabe-se que nos métodos EA pode aplicar-se o método dos mínimos quadrados
(sob a forma do estimador PMQ) ao modelo com todos os regressores previstos (não
constantes e constantes no tempo), desde que se suponha a ortogonalidade entre todos
os regressores e o efeito não observado. O método EF continua a recorrer ao estimador
PMQ, mas agora aplicado ao modelo (7.53), pagando-se o preço de excluir do modelo
os regressores constantes (no tempo) porque há regressores correlacionados com o efei-
to não observado. De facto, na presença destas correlações não há possibilidade de dis-
tinguir entre dois tipos de efeitos parciais sobre a variável explicada: os efeitos relati-
vos aos regressores constantes (variáveis observáveis); o efeito referente a α i (variável
não observável). Contudo, é possível contemplar a influência que podem ter as variáveis
explicativas constantes no tempo (aquelas que estão incluídas no vector hi • ), conside-
rando variáveis artificiais referentes às datas (chamadas variáveis artificiais tempo-
rais) e introduzindo interacções entre estas variáveis e os regressores constantes.
Começa-se por definir as p − 1 variáveis artificiais temporais, dt 2 , dt 3 , K , dtp , do
seguinte modo:
1 (se t = s )
dts =  ( s = 2, 3, K, p ).
0 (se t ≠ s )
A inclusão das interacções entre as variáveis dts ( s = 2, 3, K , p ) e as variáveis
incluídas em hi • dá origem ao seguinte modelo:
(7.59) yti = fti •φ + hi •η•1 + dt 2 hi •η• 2 + L + dtp hi •η• p + α i + vti .
Neste caso, a partição do vector xti• é a seguinte:

xti • = [ fti • hi • dt 2 hi • L dtp hi • ].
Os efeitos parciais de hi • sobre yti , nas sucessivas datas, são medidos por:
− η•1 (na data 1);
− η•1 + η• 2 (na data 2);
− ...;
− η•1 + η• p (na data p).
Facilmente se conclui que não é possível identificar o vector η•1 porque a parce-
la hi•η•1 é constante no tempo e, portanto, não se distingue de α i . Contudo, podem-se
identificar os vectores η• 2 ,η•3 , K ,η• p , uma vez que as respectivas parcelas variam com
o tempo. Deste modo, apenas se podem estimar as diferenças dos efeitos parciais dos re-
gressores constantes (no tempo) em relação à data de referência (data 1).
O modelo (7.59) pode apresentar-se com a seguinte notação alternativa:
(7.60) y•i = F•iφ + e p hi •η•1 + d• 2 hi •η• 2 + L + d• p hi •η• p + e pα i + v•i ,
onde d•Ts = [ 0 L 1 L 0 ] ( s = 2, 3, K, p ), onde 1 se encontra na posição s (para t = s ).

Existe outra maneira, muito conhecida, de obter o estimador EF, considerando o

modelo em variáveis originais – (7.50) ou (7.51) –, e introduzindo m variáveis artifi-
ciais, uma para cada unidade seccional da amostra.
Para facilitar a exposição, pode continuar a definir-se o parâmetro α i como sen-
do igual à soma do antigo α i com hi •η . Assim, (7.50) reduz-se a
(7.61) yti = α i + fti •φ + vti (t = 1, 2, K , p ; i = 1, 2, K) ,
e (7.51) passa a ser

(7.62) y•i = e pα i + F•iφ + v•i (i = 1, 2, K) .
Dispondo de uma amostra de dimensão m, e definindo as variáveis artificiais

1 (i = l)
d tl =  (para l = 1, 2, K , m ),
0 (i ≠ l )
obtém-se, a partir de (7.61),

yti = α1dt1 + α 2 dt 2 + L + α m dtm + fti •φ + vti (t = 1, 2, K , p ; i = 1, 2, K, m) ,
ou
y•i = α1d•1 + α 2 d• 2 + L + α m d• m + F•iφ + v•i (i = 1, 2, K , m) ,
onde
e p (i = l)
d• l =  (para l = 1, 2, K , m ).
 0 (i ≠ l)
Podem agrupar-se as m relações precedentes numa única expressão matricial,
(7.63) Y = Dα + Fφ + V ,
onde:
 y•1  e p 0 L 0 
y   
 0 ep L 0 
Y =   , D = [D•1 D• 2 L D• m ] = 
• 2
= I m ⊗ ep ,
 M  M M M
   
 y• m   0 0 L ep 
 
 α1   F•1   v•1 
α     
 F• 2   v• 2 
α =   , F =  , V =   .
2
 M  M M
     
α m   F• m  v• m 
Assim:
− Y é o vector mp × 1 , formado pelos m subvectores y•i ;
− D é a matriz mp × m das variáveis artificiais (a coluna i desta matriz, D•i , é formada
por m blocos, cada um com p elementos; o bloco i de D•i é e p , os outros blocos são
nulos);
− α é o vector m × 1 dos efeitos não observados (mais, eventualmente, a componente

referente aos regressores constantes);
− F é a matriz de tipo mp × k1 , formada pelos m blocos F•i .
− V é o vector mp × 1 , formado pelos m subvectores v•i .
Aplicando o método MQ a (7.63), obtém-se o estimador PMQ de α e de φ ,

−1
αˆ PMQ   DT D DT F   DT Y 
(7.64)  φˆ  =  T T   T .
 PMQ   F D F F   F Y 
Não é difícil demonstrar, com base no teorema de FWL (ver parte final da sec-
ção 2.5) – ou recorrendo à técnica de inversão de matrizes por blocos (ver anexo 2A) –,
que φˆPMQ , obtido em (7.64), coincide com φÊF , dado por (7.57). Por este motivo, o esti-
mador EF também é conhecido pelo nome de estimador MQ com variáveis artificiais ou
estimador LSDV (least squares dummy variables).
Para provar a igualdade φˆPMQ = φÊF , a partir do teorema de FWL, consideram-se
as seguintes regressões: a regressão MQ de Y sobre D de forma a obter os respectivos
resíduos, PDY ; as k1 regressões de cada coluna de F sobre D, obtendo-se os resíduos
PD F . A matriz PD , simétrica e idempotente, é dada por PD = I pm − D( DT D) −1 DT .
Aquele teorema permite concluir que se obtém o estimador φˆPMQ quando se faz a
regressão MQ de PDY sobre PD F . Assim,
φˆPMQ = ( F T PD F ) −1 F T PDY .
Como D = I m ⊗ e p , vem
PD = I pm − ( I m ⊗ e p ){( I m ⊗ e p )T ( I m ⊗ e p )}−1 ( I m ⊗ e p )T
= I pm − ( I m ⊗ e p )( I m ⊗ eTp e p ) −1 ( I m ⊗ eTp )
= I pm − ( I m ⊗ e p ){I m ⊗ (1 / p)}( I m ⊗ eTp )
= ( I m ⊗ I p ) − {I m ⊗ (1 / p)e p eTp }
= I m ⊗ {I p − (1 / p)e p eTp }
= I m ⊗ Pe .
Então,
 Pe O L O   y•1   y•c1 
    
O Pe L O   y•2   y•c2 
PDY = ( I m ⊗ Pe )Y =  = = Yc .
M M M  M   M 
    
 O O L Pe   y•m   y•cm 
   
Do mesmo modo, tem-se PD F = Fc . Daqui resulta que
φˆPMQ = ( F T PD F ) −1 F T PDY = ( FcT Fc ) −1 FcT Yc = φÊF .
Alternativamente, pode provar-se esta igualdade com a técnica de inversão de

matrizes por blocos (ver anexo 2A), considerando o sistema de equações normais:
 DT D DT F  αˆ PMQ   DT Y   DT Dαˆ PMQ + DT FφˆPMQ = DT Y

 T   φˆ  =  T  ou  T
 F Dαˆ PMQ + F FφˆPMQ = F Y .
T
 F D F F   PMQ   F Y  T T
Resolvendo a primeira equação em relação a α̂ PMQ ,

αˆ PMQ = ( DT D)−1 ( DT Y − DT FφˆPMQ ) ,
e substituindo na segunda, tem-se

F T D( DT D) −1 ( DT Y − DT FφˆPMQ ) + F T FφˆPMQ = F T Y ,
ou
{F T F − F T D( DT D) −1 DT F }φˆPMQ = F T Y − F T D( DT D) −1 DT Y ,
ou ainda, ( F T PD F )φˆPMQ = F T PDY , o que permite demonstrar a igualdade entre os dois

estimadores.
Retomando, agora, a expressão de α̂ PMQ em função de φˆPMQ , e notando que
D T D = ( I m ⊗ e p )T ( I m ⊗ e p ) = I m ⊗ eTp e p = I m ⊗ p = p I m ,
e T O L O   y•1   eTp y•1   ∑t =1 yt1 

p
 p      
O eTp L O   y•2   eTp y•2   ∑t =1 yt 2 
p
D T Y = ( I m ⊗ e p )T Y =    =  = ,
M M M  M   M   M 
       
O L eTp   y•m  eTp y•m  ∑t =1 ytm 
p
O
      
eT O L O   F•1   eTp F•1   ∑t =1 f t1• 

p
 p      
 f 
 =  ∑t =1 t 2•  ,
O 
e p L O  F•2 
T  T
e p F•2  p
D T F = ( I m ⊗ e p )T F =    = 
M M M  M   M   M 
       p 
O O L eTp   F•m  eTp F•m  ∑t =1 f tm• 
      
obtém-se
 αˆ1,PMQ   ∑ p yt1 − ∑ p f t1•φˆPMQ   y1 − (1 / p )∑ p ft1• φˆPMQ 
αˆ   pt =1 t =1
  t =1

∑t =1 t 2 ∑t =1 t 2• PMQ = 2
ˆ
∑t =1 t 2• PMQ .
ˆ 
p p
1  y − f φ   y − (1 / p ) f φ
= =
2 ,PMQ
αˆ PMQ
 M  p M
 
M

     
αˆ m,PMQ  ∑ ytm − ∑ f tm •φˆPMQ   ym − (1 / p )∑ f tm • φˆPMQ 
p p p
 t =1 t =1   t =1 
Deste modo, vem
1 p 
αˆ i,EF = yi − 
 p ∑ f  φÊF (i = 1, 2, K , m) .
t =1 ti •

Quando se admite a hipótese MCDP.6 (homocedasticidade condicionada), o

estimador EF verifica as seguintes propriedades:
Propriedades assintóticas do estimador EF com homocedasticidade condicionada

a) O estimador φÊF é consistente (quando m → +∞ ),
(7.65) plim(φÊF ) = φ ;
b) O estimador φÊF é assintoticamente normal,
(7.66)
d
[
m (φÊF − φ ) → N ( k1 ) 0, Cov a (φÊF ) , ]
onde
(7.67) Cov a (φÊF ) = E{( F•ci )T F•ci }−1 E ( F•ci )T E{v•ci (v•ci )T }F•ci  E{( F•ci )T F•ci }−1 ;
 
c) Um estimador consistente de (7.35) é dado por

−1 −1
^
1 m  1 m  1 m 
(7.68) Cov a (φÊF ) =  ∑i =1 ( F•ci )T F•ci   ∑i =1 ( F•ci )T Vˆ F•ci   ∑i =1 ( F•ci )T F•ci  ,
 m   m  m 
em que Vˆ se obtém a partir dos resíduos associados com o estimador EF, ou seja,
1 m 1 m
(7.69) Vˆ = ∑i =1 ( y•ci − F•ci φÊF )( y•ci − F•ci φÊF )T = ∑i =1 vˆ•ci (vˆ•ci )T ,
m m
onde vˆ•ci = y•ci − F•ci φÊF .
Estas propriedades estão demonstradas na secção 7A.3 do anexo 7A.

Quando não se verifica MCDP.6, o estimador EF verifica as seguintes proprie-
dades (a demonstração também se encontra na secção referida):
Propriedades assintóticas do estimador EF com heterocedasticidade condicionada

a) O estimador φÊF é consistente (quando m → +∞ );
b) O estimador φÊF é assintoticamente normal, com
(7.70) Cov a (φÊF ) = E{( F•ci )T F•ci }−1 E{( F•ci )T v•ci (v•ci )T F•ci } E{( F•ci )T F•ci }−1
c) Um estimador consistente de (7.47) é dado por

−1
^
1 m  1 m 
Cov a (φÊF ) =  ∑i =1 ( F•ci )T F•ci   ∑i =1 ( F•ci )T vˆ•ci (vˆ•ci )T F•ci 
m  m 
(7.71) −1
,
1 m 
×  ∑i =1 ( F•ci )T F•ci  ,
m 
onde vˆ•ci = y•ci − F•ci φÊF .
No anexo 7A são ainda abordados os seguintes tópicos:

− Na secção 7A.2 apresentam-se as hipóteses para que o estimador EF seja BLUE.

− Na secção 7A.4 analisa-se uma situação em que o estimador EF não é consistente.
Trata-se do caso em que o modelo de dados de painel é dinâmico.
− O estudo da esfericidade dos choques no contexto do estimador EF é feito na secção
7A.5.
7.7 - Métodos com primeiras diferenças
Na secção 7.3 fez-se referência, no caso de duas datas ( p = 2 ), a um procedi-

mento alternativo para eliminar o efeito não observado, considerando o modelo com as
primeiras diferenças temporais das variáveis. Na presente secção vai estudar-se esta
questão relativamente ao modelo (7.36), com qualquer p. Vai admitir-se a hipótese exo-
geneidade estrita, (7.41), cujas consequências são não existir correlação entre os regres-
sores e os erros idiossincráticos, E ( xti •vsi ) = 0 [ver (7.39)], e não existir correlação entre
o efeito não observado e os erros idiossincráticos, E (vtiα i ) = 0 .
Passando de (7.36) para as respectivas primeiras diferenças temporais, o efeito
não observado é eliminado, obtendo-se o seguinte modelo:
(7.72) ∆yti = ∆xti • β + ∆vti ( t = 2, 3, K , p ; i = 1, 2, K ),
onde ∆yti = yti − yt −1,i , ∆xti • = xti • − xt −1,i • e ∆vti = vti − vt −1,i . Quando p = 2 , (7.72) reduz-
-se a ∆y2i = ∆x2i • β + ∆v2i ( i = 1, 2, K ).
O modelo (7.72) pode apresentar-se da seguinte maneira:
(7.73) ∆y•i = ∆X •i β + ∆v•i ( i = 1, 2, K ),
onde:
− ∆y•i é o vector ( p − 1) × 1 (elemento genérico, ∆yti ) das primeiras diferenças das ob-
servações da variável explicada y da unidade seccional i;
− ∆X •i é a matriz ( p − 1) × k (elemento genérico, ∆xtij ; linha genérica, ∆xti • ; coluna
genérica, ∆x•ij ) das primeiras diferenças das observações das variáveis explicativas
da unidade seccional i;
− ∆v•i é o vector ( p − 1) × 1 (elemento genérico, ∆vti ) dos erros idiossincráticos re-
lativos à unidade seccional i.
No modelo (7.72) admite-se que os regressores incluídos em xti • variam com o

tempo (para pelo menos uma unidade seccional); caso contrário, alguns elementos de
∆ xti• seriam identicamente nulos, quaisquer que sejam t e i. Se o modelo original,
(7.36), tem termo independente, esta parcela não aparece em (7.72). Contudo, se xti •
inclui variáveis artificiais temporais, o modelo (7.72) inclui as variações destas va-
riáveis.
Suponha-se que o vector xti • se decompõe, tal como no modelo (7.50), em
regressores não constantes e regressores constantes (no tempo). Além disso, admite-se
que o modelo inclui p − 1 variáveis artificiais temporais e respectivas interacções com
os regressores constantes (incluindo eventualmente o termo independente) [ver (7.59)].

O respectivo modelo com primeiras diferenças é dado por
(7.74) ∆yti = ∆f ti •φ + (∆dt 2 )hi •η• 2 + L + (∆dtp )hi •η• p + ∆vti ( t = 2, 3, K , p ; i = 1, 2, K ),
onde ∆dts = dts − dt −1, s , para s = 2, 3, K , p . Verifica-se, assim, que em (7.74) não se po-
de identificar o vector η•1 (dos coeficientes dos regressores constantes). Note-se que as
variáveis ∆dts apenas podem assumir os valores 1 (quando s = t ), –1 (quando s = t − 1 )
e 0 (nos outros casos).
Naturalmente que o modelo (7.74) se pode apresentar do seguinte modo:
(7.75) ∆y•i = ∆F•iφ + (∆d• 2 )hi •η• 2 + L + (∆d• p )hi •η• p + ∆v•i ,
onde:
− ∆F•i é a matriz ( p − 1) × k1 (elemento genérico, ∆f tij ; linha genérica, ∆fti • ; coluna
genérica, ∆f•ij ) das primeiras diferenças das observações das variáveis explicativas
não constantes (no tempo) da unidade seccional i;
− ∆d• s é o vector ( p − 1) × 1 ( s = 2, 3, K , p ) de elemento genérico ∆dts .
Para melhor esclarecimento, vai comparar-se os modelos (7.59) e (7.74) para

p = 3 e p = 2 , quando há termo independente em (7.59) e não há outros regressores
constantes. Quando p = 3 , (7.59) é dado por
 y1i = η1 + η 2 d12 + η3d13 + f1i •φ + α i + v1i

 y2i = η1 + η2 d 22 + η3d 23 + f 2i •φ + α i + v2i
y =η +η d +η d + f φ + α + v ,
 3i 1 2 32 3 33 3i • i 3i
ou
 y1i = η1 + f1i •φ + α i + v1i

 y2i = (η1 + η 2 ) + f 2i •φ + α i + v2i
 y = (η + η ) + f φ + α + v .
 3i 1 3 3i • i 3i
O respectivo modelo (7.74) é o seguinte:

∆y2i = η 2 ∆d 22 + η3∆d 23 + ∆f 2i •φ + ∆v2i

∆y3i = η 2 ∆d32 + η3∆d33 + ∆f3i •φ + ∆v3i ,
onde ∆d 22 = d 22 − d12 = 1 − 0 = 1 , ∆d 23 = d 23 − d13 = 0 − 0 = 0 ∆d32 = d32 − d 22 = 0 − 1 = −1
e ∆d33 = d33 − d 23 = 1 − 0 = 1 . Então,
∆y2i = η 2 + ∆f 2i •φ + ∆v2i

∆y3i = (−η 2 + η3 ) + ∆f3i •φ + ∆v3i .
Verifica-se, assim, que o termo independente varia com a data: η2 , para t = 2 ;

− η 2 + η3 , para t = 3 .
No caso p = 2 , o modelo (7.59) é
 y1i = η1 + η 2 d12 + f1i •φ + α i + v1i


 y2i = η1 + η2 d 22 + f 2i •φ + α i + v2i ,
ou
 y1i = η1 + f1i •φ + α i + v1i

 y2i = (η1 + η 2 ) + f 2i •φ + α i + v2i .
O correspondente modelo (7.74) é dado por

∆y2i = η2 ∆d 22 + ∆f 2i •φ + ∆v2i ,
ou ∆y2i = η2 + ∆f 2i •φ + ∆v2i . Deste modo, o modelo tem termo independente (constante),

que é coeficiente da variável artificial, dt 2 , do modelo original.
Retome-se o modelo (7.72). Como E ( xti •vsi ) = 0 implica E (∆xti • ∆vti ) = 0 , o esti-
mador consistente de β é o respectivo estimador pooled MQ, que neste contexto se re-
presenta com β̂ PD , e se designa por estimador de primeiras diferenças (PD). Note-se
também que, se se admitir a hipótese mais forte da exogeneidade estrita, (7.41), o mode-
lo (7.72) também verifica a exogeneidade estrita,
E (∆vti | ∆x2i • , ∆x3i • , K , ∆x pi • ) = 0 (t = 2, 3, K , p) ,
o que significa que o estimador PD, condicionado por X, é não enviesado.

Note-se ainda que, neste caso, a condição de característica é dada por
r  ∑t = 2 ∆xtiT• ∆xti •  = r (∆X •Ti ∆X •i ) = k .

p
 
Esta condição garante que não há regressores constantes (no tempo) e que não
há multicolinearidade perfeita entre os regressores não constantes.
Sem perda de generalidade, considere-se o seguinte caso particular de (7.59):
yti = δ1 + δ 2 dt 2 + δ 3dt 3 + δ 4 dt 4 + δ 5dt 5
(7.76)
+ η1hi + η2 dt 2 hi + η3dt 3hi + η4 dt 4 hi + η5dt 5hi + fti •φ + α i + vti .
Comparando (7.76) com (7.59), verifica-se que p = 5 , hi • = [ 1 hi ] e

δ 
η•t =  t  ( p = 1, 2, K ,5 ).
ηt 
O respectivo modelo com primeiras diferenças é dado por
∆yti = δ 2 ∆dt 2 + δ 3∆dt 3 + δ 4 ∆dt 4 + δ 5∆dt 5
(7.77)
+ η2 (∆dt 2 )hi + η3 (∆dt 3 )hi + η 4 (∆dt 4 )hi + η5 (∆dt 5 )hi + ∆f ti •φ + ∆vti ,
onde
t=2 t =3 t=4 t =5
∆dt 2 = dt 2 − dt −1, 2 = 1− 0 =1 0 − 1 = −1 0−0=0 0−0=0
∆dt 3 = dt 3 − dt −1,3 = 0−0=0 1− 0 =1 0 − 1 = −1 0−0=0
∆dt 4 = dt 4 − dt −1, 4 = 0−0=0 0−0=0 1− 0 =1 0 − 1 = −1
∆dt 5 = dt 5 − dt −1,5 = 0−0=0 0−0=0 0−0=0 1− 0 =1
Então,
∆y2i = δ 2 + η2 hi + ∆f 2i •φ + ∆v2i

∆y3i = (−δ 2 + δ 3 ) + (−η2 + η3 )hi + ∆f3i •φ + ∆v3i

∆y4i = (−δ 3 + δ 4 ) + (−η3 + η4 )hi + ∆f 4i •φ + ∆v4i
∆y5i = (−δ 4 + δ 5 ) + (−η4 + η5 )hi + ∆f 5i •φ + ∆v5i .
A especificação (7.77) é equivalente à seguinte:

(7.78) ∆yti = θ1 + θ3dt 3 + θ 4 dt 4 + θ5dt 5 + γ 1hi + γ 3dt 3hi + γ 4 dt 4 hi + γ 5dt 5hi + ∆fti •φ + ∆vti .
Com efeito, tem-se

∆y2i = θ1 + γ 1hi + ∆f 2i •φ + ∆v2i

∆y3i = (θ1 + θ3 ) + (γ 1 + γ 3 )hi + ∆f3i •φ + ∆v3i

∆y4i = (θ1 + θ 4 ) + (γ 1 + γ 4 )hi + ∆f 4i •φ + ∆v4i
∆y5i = (θ1 + θ5 ) + (γ 1 + γ 5 )hi + ∆f 5i •φ + ∆v5i .
Logo,
δ 2 = θ1 η2 = γ 1
 
− δ 2 + δ 3 = θ1 + θ3 − η2 + η3 = γ 1 + γ 3
 e 
− δ 3 + δ 4 = θ1 + θ 4 − η3 + η4 = γ 1 + γ 4
− δ 4 + δ 5 = θ1 + θ5 − η4 + η5 = γ 1 + γ 5 .
Então,
θ1 = δ 2 γ 1 = η2
 
θ 3 = −2δ 2 + δ 3 γ = −2η 2 + η3
 e  3
θ 4 = −δ 2 − δ 3 + δ 4 γ 4 = −η 2 − η3 + η 4
θ 5 = −δ 2 − δ 4 + δ 5 γ 5 = −η 2 − η4 + η5 .
Vai provar-se que o estimador de efeitos fixos e o estimador de primeiras dife-

renças são numericamente iguais quando p = 2 . Com efeito, considere-se (7.53) para
dois períodos:
 y − y = ( f − f )φ + (v − v ) ( p = 1)
1i i 1i • i• 1i i

y
 2i − y i = ( f 2i • − f i• )φ + ( v2i − v i ) ( p = 2),
onde
y1i + y2i 1 v +v
yi = , fi • = ( f1i • + f 2i • ) e vi = 1i 2i .
2 2 2
Então,
 y − y = ( f − f )φ + (v − v ) ( p = 1)
1i 2i 1i • 2i • 1i 2i

 y2i − y1i = ( f 2i • − f1i • )φ + (v2i − v1i ) ( p = 2),
o que mostra que uma das equações é redundante (cada equação obtém-se da outra mul-
tiplicando-a por –1). Retendo apenas a segunda equação, tem-se o modelo com primei-
ras diferenças: y2i − y1i = ( f 2i• − f1i• )φ + (v2i − v1i ) .
7.8 - Efeitos aleatórios versus efeitos fixos
Vai admitir-se que o vector v•i pode ter autocorrelação, ou seja, passa a ter-se
E (v v ) = Σ v , e não E (v•i v•Ti ) = σ v2 I p .
T
•i •i
Comparando (7.54), E ( f ti •vsi ) = 0 , com a hipótese MENO.2, verifica-se que as
condições de ortogonalidade não consideradas no estimador EF são
(7.79) E ( f ti •α i ) = 0 , E (hi •α i ) = 0 e E (hi •vti ) = 0 (t = 1, 2, K , p ) .
Sabe-se que o estimador EF é consistente mesmo quando não se verifica (7.79).

O estimador βÊA , dado por (7.26), pode dividir-se em dois subvectores,
φˆ 
βÊA =  EA  ,
ηÊA 
onde φÊA é o subvector de β̂ EA que corresponde a φ (vector dos coeficientes dos re-
gressores não constantes), e η̂ EA é o subvector de β̂ EA relativo a η (vector dos coefi-
cientes dos regressores constantes).
Em conformidade, a matriz das covariâncias assintóticas, dada por (7.27), pode
partir-se em quatro blocos,
 Cov a (φÊA ) Cov a (φÊA ,ηÊA )
Cov a ( βÊA ) =  .
ηˆ φˆ ηˆ
 Cov a ( EA , EA ) Cov a ( EA ) 
Quando se verifica (7.79), o estimador EA é eficiente e consistente; em contra-
partida, o estimador EF é consistente, mas não é eficiente. Se a hipótese (7.79) é viola-
da, não se pode garantir a consistência de φÊA ; no entanto, φÊF mantém-se consistente.
Para efectuar o teste relativamente à hipótese nula (7.79) é natural considerar a
diferença dos dois estimadores, δˆ = φÊF − φÊA .
Atendendo ao princípio MGM de Hausman (ver anexo 4B do capítulo 4), facil-
mente se verifica que δˆ é assintoticamente normal,
d
m δˆ → N ( k1 ) 0, Cov a (δˆ ) ,
 
onde
(7.80) Cov a (δˆ ) = Cov a (φÊF ) − Cov a (φÊA ) ,
uma vez que não é necessário incluir a matriz das covariâncias assintóticas entre φÊF e
φÊA . Um estimador consistente de (7.80) é
^ ^ ^
(7.81) Cov a (δˆ ) = Cov a (φÊF ) − Cov a (φÊA ) ,
^ ^
onde Cov a (φÊF ) é dada por (7.68), e Cov a (φÊA ) resulta da partição de (7.28),
 ^
ˆ )
^
ˆ ˆ 
^ Cov (φ Cov a (φEA ,η EA ) 
Cov a ( βÊA ) =  ^ a EA .
 ˆ
^

Cov a (ηÊA , φEA ) Cov a (ηÊA ) 
Pode, então, enunciar-se o seguinte teorema:
Teorema 7.1 – Teste de especificação de Hausman

Suponha-se que se verificam as hipóteses MENO.1′ , MENO.2, MENO.3, MCDP.4,
MENO.4, MCDP.5 e MCDP.6 (modelo com componentes do erro). Então,
−1
 ^  d
(7.82) H = m δˆT Cov a (δˆ ) δˆ → χ 2 (k1 ) ,
 
onde H é a estatística-teste de Hausman.
Além disso: Cov a (δˆ) é não singular (e, portanto, definida positiva); H ≥ 0 , qualquer
que seja a amostra ( y•i , X •i ) .
Dem.: ver secção 7A.6 do anexo 7A.

∇∇
7.9 - Painéis não balanceados
Nos modelos com dados de painel estudados nas secções precedentes está implí-
cita a importante hipótese de que as variáveis são observáveis para todas as unidades
seccionais e para todas as datas (o número de observações para cada i é p). Neste caso, o
painel de dados é balanceado.
Em geral, os painéis disponíveis não são balanceados devido às saídas e às entra-
das de unidades seccionais na amostra. Por exemplo, num painel sobre empresas, algu-
mas delas desaparecem da amostra devido a falências ou fusões antes do final do ano p;
ou são incluídas na amostra a partir de certa altura, porque são empresas novas.
Diz-se que se tem um painel não balanceado quando o número de observações
não é o mesmo para todas as unidades seccionais, isto é, quando para pelo menos uma
unidade seccional há observações omissas (missing observations).
Em determinadas condições, do ponto de vista formal, os estimadores atrás refe-
ridos podem ser calculados de forma semelhante, com as necessárias adaptações. Por
exemplo, as unidades seccionais com apenas uma observação não podem ser conside-
radas no estimador de efeitos fixos.
A questão crucial da análise com painéis não balanceados é a de saber se o fac-
to de algumas observações da unidade seccional i figurarem ou não na amostra depende
dos choques. Quando existe esta dependência, há um problema de selecção da amostra
(sample selection), e, como vai ver-se, o estimador EF não é consistente. Neste caso,
diz-se que se tem uma situação de enviesamento da selectividade (selectivity bias).
Considere-se, por exemplo, um painel sobre países ou cidades em que alguns

dados estão omissos para certos anos. Em muitas situações, pode admitir-se que a razão
pela qual esses dados não constam da amostra não está correlacionada com os choques,
pelo que não existe um problema de selecção da amostra.
Quando se dispõe de um painel sobre pessoas, famílias ou empresas, as coisas
podem ser mais complicadas. Por exemplo, suponha-se que se tem uma amostra casual
de empresas industriais no ano 2000, e que se procura analisar o efeito da sindicalização
sobre os lucros das empresas. Idealmente, pode fazer-se um estudo com dados de painel
para controlar as características não observáveis dos trabalhadores e dos gestores que
afectam os lucros, mas que podem estar correlacionadas com a percentagem de traba-
lhadores sindicalizados. Quando se procura obter dados para os anos seguintes, pode
acontecer que algumas empresas deixem de figurar na amostra. Nesta situação, prova-
velmente tem-se uma amostra não aleatória nesses anos. Se a razão pela qual as em-
presas saem da amostra não é puramente casual, mas está correlacionada com os cho-
ques (factores não observáveis que afectam os lucros, e variam no tempo), então o prob-
lema de selecção da amostra resultante pode conduzir a estimadores EF inconsistentes.
Para lidar com observações omissas, é conveniente definir p variáveis artificiais
para cada unidade seccional i,
 1 (se a observação t da unidade seccional i está na amostra )
dti = 
 0 (no caso contrário),
onde t = 1, 2, K, p . Seja
d 
 1i 
 d 2i 
d•i =   e pi = ∑t =1 dti (número de observações da unidade seccional i).
p
M
 
d pi 
 
Se a observação t é omissa para i, os t-ésimos elementos de y•i e de v•i , e a li-
nha t de F•i , supõem-se nulos. Então, passa a considerar-se
d y  d f  d v 
 1i 1i   1i 1i •   1i 1i 
 d 2 i y2 i   d 2i f 2i •   d 2i v2i 
y•i =   , F•i =   e v•i =  .
M M M 
     
d pi y pi  d pi f pi •  d pi v pi 
     
Deste modo, para cada i e para cada t, todos os elementos de ( yti , f ti • ) são obser-
váveis, ou nenhum elemento é observável [não se admite a possibilidade de alguns ele-
mentos de ( yti , f ti • ) serem observáveis, e os outros não].
O modelo homólogo a (7.51) é, então, o seguinte:
(7.83) y•i = F•iφ + d•i hi •η + d•i α i + v•i (i = 1, 2, K) .
Hipótese MENO.1′′ – Linearidade com painéis não balanceados

y•i = F•iφ + d•i hi •η + d•i α i + v•i (i = 1, 2, K) , onde: y•i é o vector p × 1 (de elemento ge-
nérico yti ) das observações da variável explicada y da unidade seccional i (no caso de
observação omitida, o respectivo elemento de y•i é nulo); F•i é a matriz p × k1 (de ele-
mento genérico f tij ) das observações dos regressores não constantes da unidade seccio-
nal i (no caso de observação omitida, a respectiva linha de F•i é nula); φ é o vector
k1 × 1 dos coeficientes dos regressores não constantes; d•i é o vector p × 1 (de elemento
genérico dti ) das variáveis artificiais associadas com as observações da unidade seccio-
nal i; hi• é o vector 1 × k 2 da observação t dos regressores contantes da unidade seccio-
nal i; η é o vector k 2 × 1 dos coeficientes dos regressores constantes; α i é o efeito não
observado da unidade seccional i; v•i é o vector p × 1 (de elemento genérico vti ) dos
choques relativos à unidade seccional i (no caso de observação omitida, o respectivo
elemento de v•i é nulo).
Nos casos dos painéis balanceados tem-se d•i = e p e Pe = I p − (1 / p ) e p eTp . Quan-

do o painel é não balanceado, a matriz de transformação é
1
Pd i = I p − d•i (d•Ti d •i ) −1 d•Ti = I p − d•i d•Ti ,
pi
em que pi = d•Ti d•i (obviamente, a matriz Pd i depende de i).

O modelo transformado pode, ainda, apresentar-se com a notação
(7.84) y•ci = F•ciφ + v•ci ,
em que y•ci = Pd i y•i , F•ci = Pd i F•i e v•ci = Pd i v•i [note-se que Pd i (d•i hi •η + d•iα i ) = 0 , uma
vez que Pd i d•i = 0 ].
Por exemplo, se
1 
 
0 
d•i =   ( p = 4 ; pi = 2 ),
1
 
0 
 
tem-se
y  f  v 
 1i   1i •   1i 
0  0  0
y•i =   , F•i =   e v•i =   .
y f v
 3i   3i •   3i 
0  0  0
     
Como
1 − (1 / 2) 0 0
−1/ 2
 
 0 1 0 0
Pd i =  ,
−1/ 2 0 1 − (1 / 2) 0
 
 0 0 0 1
 
tem-se, por exemplo,
 y c  1 − (1 / 2) 0 −1/ 2 0  y1i   y1i − yi 
 1ci      
 y2 i   0 1 0 0  0   0 
 yc  =  − 1 / 2 0 1 − (1 / 2)
=
0  y3i   y3i − yi 
,
 3i      
 y4ci   0 0 0 1  0   0 
      
onde yi = ( y1i + y3i ) / 2 .
O estimador EF é dado por
−1 −1
 m   m 
φÊF =  ∑i =1 ( F•ci )T F•ci  ∑i =1 ( F ) y =  ∑i =1 F•Ti Pd i F•i  ∑
m c T c m
(7.85) •i •i i =1
F•Ti Pd i y•i .
 
O respectivo erro de amostragem é
−1
 m 
φÊF − φ =  ∑i =1 F•Ti Pd i F•i  ∑
m
(7.86) i =1
F•Ti Pd i v•i .
 
O estimador EF é consistente e assintoticamente normal, desde que a hipótese
MENO.2′ seja substituída pela seguinte:
Hipótese MENO.2′′ – Ausência de enviesamento da selectividade

Para a mesma unidade seccional i, cada vector fit • (t = 1, 2, K , p ) , condicionado por
d•i , é ortogonal a qualquer choque vsi ,
(7.87) E ( fti •vsi | d•i ) = 0 (t , s = 1, 2, K , p) .
Quando não se verifica (7.87), o padrão de selecção da amostra, d•i , depende

dos choques, v•i . Note-se, também, que a hipótese MENO.2′′ não envolve o efeito não
observado, α i . Deste modo, se a dependência da selecção da amostra em relação às va-
riáveis residuais se verifica através apenas de α i , o problema do enviesamento da selec-
tividade não ocorre.
No contexto dos painéis não balanceados, considere-se o modelo com compo-
nentes do erro a verificar as hipóteses MENO.1′′ , MENO.2′′ , MENO.3, MCDP.4,
MENO.4 e MCDP.5 (pode existir heterocedasticidade condicionada). Conclui-se, sem
dificuldade, que o estimador φÊF é consistente e assintoticamente normal, continuan-
do válidos os resultados (7.68) e (7.69), com as adaptações óbvias (ver secção 7A.7 do
anexo 7A).
PALAVRAS CHAVE
Amostragem casual Heterocedasticidade condicionada
Choque Homocedasticidade condicionada
Componentes do erro Heterogeneidade individual
Condição de característica Linearidade
Consistência Modelo com componentes do erro
Dados de painel Modelo SER (com coeficientes comuns)
Efeito aleatório Normalidade assintótica
Efeito fixo Observações omissas
Enviesamento da selectividade Ortogonalidade
Erro idiossincrático Painel não balanceado
Erro de amostragem Processo de amostragem
Esfericidade dos choques Processo de geração de dados
Estimador de efeitos aleatórios (EA) Regressor (não) constante
Estimador de efeitos fixos (EF) Selecção da amostra
Estimador de primeiras diferenças Teste de especificação de Hausman
Estimador LSDV Unidade seccional
Estimador MGM Variáveis centradas
Estimador within
1. Considere o modelo com dados de painel, y•i = X •i β + u•i ( i = 1, 2,K ). Enuncie a

hipótese da amostragem casual.
2. Considere um modelo de dados de painel com p = 2 (número de datas), com ter-
mo independente e mais dois regressores. Supondo que dispõe de uma amostra de
dimensão m, apresente a matriz X referida em Y = Xβ + U (relação amostral).
3. Considere um modelo de dados de painel com p = 3 (número de datas). Enuncie a
hipótese da ortogonalidade do modelo com efeitos aleatórios.
4. Considere o modelo com dados de painel, y•i = F•iφ + e p hi•η + e pα i + v•i , em que:
y•i é o vector p × 1 das observações da variável explicada y da unidade seccional
i; F•i é a matriz p × k1 das observações dos regressores não constantes da unidade
seccional i; φ é o vector k1 × 1 dos coeficientes dos regressores não constantes;
e p é o vector p × 1 formado por uns; hi• é o vector 1 × k 2 dos regressores con-
tantes da unidade seccional i; η é o vector k 2 × 1 dos coeficientes dos regressores
constantes; α i é o efeito não observado da unidade seccional i; v•i é o vector
p × 1 dos choques relativos à unidade seccional i. Supondo que pretende obter o
estimador de efeitos fixos (EF) de φ , apresente o modelo transformado que lhe
permitiria determinar aquele estimador.
5. Considere o modelo com dados de painel
y = β + β x + β z + β w + u
 1i 1 2 1i 3 1i 4 i 1i
 y 2i = β1 + β 2 x2i + β 3 z 2i + β 4 wi + u 2i
y = β + β x + β z + β w + u ,
 3i 1 2 3i 3 3i 4 i 3i
para três datas (1, 2 e 3), onde i é o índice que designa a unidade seccional.
Supondo que pretende obter o estimador de efeitos fixos (EF), apresente o modelo
transformado que lhe permitiria determinar aquele estimador.
6. Considere o modelo com dados de painel, y•i = F•iφ + e p hi•η + e pα i + v•i , em que:
y•i é o vector p × 1 das observações da variável explicada y da unidade seccional
i; F•i é a matriz p × k1 das observações dos regressores não constantes da unidade
seccional i; φ é o vector k1 × 1 dos coeficientes dos regressores não constantes;
e p é o vector p × 1 formado por uns; hi• é o vector 1 × k 2 dos regressores con-
tantes da unidade seccional i; η é o vector k 2 × 1 dos coeficientes dos regressores
constantes; α i é o efeito não observado da unidade seccional i; v•i é o vector
p × 1 dos choques relativos à unidade seccional i. Considere, também, as condi-
ções de ortogonalidade: E ( fti •vsi ) = 0 , E ( f ti •α i ) = 0 , E (hi •α i ) = 0 e E (hi •vti ) = 0
[note que: f ti • é a linha genérica da matriz F•i ; vti é o elemento genérico do
vector v•i ]. Das quatro condições de ortogonalidade referidas, indique aquela que
é considerada na estimação EF.
7. Considere o modelo com dados de painel, y•i = X •i β + e pα i + v•i , em que: y•i é o
vector p × 1 das observações da variável explicada y da unidade seccional i; X •i
(com linha genérica xti • ) é a matriz p × k das observações dos regressores da uni-
dade seccional i; β é o vector k × 1 dos coeficientes dos regressores; e p é o vec-

tor p × 1 formado por uns; α i é o efeito não observado da unidade seccional i; v•i
(com elemento genérico vti ) é o vector p × 1 dos choques relativos à unidade sec-
cional i. Supondo que pretende obter o estimador de efeitos aleatórios (EA) de β ,
enuncie as respectivas hipóteses de ortogonalidade.
8. Considere o modelo com dados de painel, y•i = X •i β + u•i ( i = 1, 2,K ), onde o
número de datas é 4. Determine a matriz de centragem para obter o modelo trans-
formado em variáveis centradas.
9. Seja o modelo com dados de painel, yti = xti• β + uti = f ti•φ + hi•η + α i + vti em que
uti = α i + vti . Defina a ortogonalidade entre os regressores constantes (no tempo) e
os efeitos não observados.
y = β + β x + β z + β w +α + v
 1i 1 2 1i 3 1i 4 i i 1i
 y 2i = β1 + β 2 x2i + β 3 z 2i + β 4 wi + α i + v2i
y = β + β x + β z + β w +α + v ,
 3i 1 2 3i 3 3i 4 i i 3i
para três datas (1, 2 e 3), onde i é o índice que designa a unidade seccional. Apre-
sente as condições de ortogonalidade entre os efeitos não observados e os regres-
sores constantes.
y = β + β x + β z + β w +α + v
 1i 1 2 1i 3 i 4 i i 1i
 y 2i = β1 + β 2 x2i + β 3 z i + β 4 wi + α i + v2i
 y3i = β1 + β 2 x3i + β 3 zi + β 4 wi + α i + v3i ,

sente as condições de ortogonalidade entre os regressores não constantes e as
componentes do erro.
12. Seja o modelo com dados de painel, yti = xti • β + uti . Defina as duas componentes
em que habitualmente se decompõe o erro uti .
13. Seja o modelo com dados de painel, yti = xti• β + uti = f ti•φ + hi•η + α i + vti . Defina
a ortogonalidade entre os regressores não constantes (no tempo) e os choques.
y = β + β x + β z + β w +α + v
 1i 1 2 1i 3 1i 4 i i 1i
 y 2i = β1 + β 2 x2i + β 3 z 2i + β 4 wi + α i + v2i
y = β + β x + β z + β w +α + v ,
 3i 1 2 3i 3 3i 4 i i 3i
sente as condições de ortogonalidade entre os regressores não constantes e os
choques.
15. Considere o modelo com dados de painel, y•i = X •i β + e pα i + v•i , em que: y•i é o
vector p × 1 das observações da variável explicada y da unidade seccional i; X •i
(com linha genérica xti • ) é a matriz p × k das observações dos regressores da uni-
dade seccional i; β é o vector k × 1 dos coeficientes dos regressores; e p é o vec-
tor p × 1 formado por uns; α i é o efeito não observado da unidade seccional i; v•i
(com elemento genérico vti ) é o vector p × 1 dos choques relativos à unidade sec-
cional i. Apresente a condição que permite afirmar que os choques são esféricos.
16. Considere um modelo com dados de painel. Descreva a mecânica do teste de
Hausman para optar entre efeitos fixos e efeitos aleatórios.
CAPÍTULO 9
MODELOS DINÂMICOS E AUTOCORRELAÇÃO
Neste capítulo, continua-se o estudo do modelo de regressão linear com regres-

sores endógenos, mas permitindo a existência de autocorrelação no processo estocásti-
co {g t • } = {zt•ut } , onde, como se sabe, zt• é o vector 1 × p dos instrumentos e ut é a va-
riável residual.
Para atingir este objectivo fundamental é indispensável generalizar os teoremas
do limite central (já conhecidos do capítulo 3) de modo a abranger processos autocor-
relacionados a verificar determinadas condições. O estudo destas condições torna neces-
sário analisar algumas questões prévias.
O roteiro deste capítulo é o seguinte:
− Na secção 9.1 faz-se o estudo dos operadores sobre séries temporais, dando particu-
lar atenção ao operador diferença e ao operador de desfasamento. Ainda nesta
secção, recorre-se à análise das equações lineares com diferenças e coeficientes cons-
tantes para estudar os respectivos multiplicadores dinâmicos.
− Nas secções 9.2, 9.3 e 9.4 analisa-se uma classe muito importante de processos esto-
cásticos – os processos lineares –, com particular destaque para os processos
ARMA.
− Na secção 9.5 estuda-se a estimação dos processos auto-regressivos.
− A secção 9.6 incide sobre o estudo dos modelos ARMAX, e respectiva estimação.
− Na secção 9.7 generalizam-se os teoremas do limite central de Lindeberg-Lévy e de
Billingsley para o caso de processos autocorrelacionados.
− As secções 9.8 e 9.9 são dedicadas a estudar o modelo de regressão linear com re-
gressores endógenos no caso de autocorrelação. Evidentemente, este modelo é par-
ticularmente adequado para o estudo de relações entre variáveis cujas observações
são temporais.
9.1 - Operadores sobre séries temporais. Multiplicadores dinâmicos
No capítulo 1 (secções 1.6 e 1.7) foi amplamente justificado o carácter aleatório

das observações de uma variável económica, yt , e, em particular, quando são tempo-
rais. Neste caso, as observações podem considerar-se como uma sucessão de variáveis
aleatórias, ou seja, como um processo estocástico. Há vantagem em supor que t (va-
riável tempo) pode assumir qualquer número inteiro, − ∞ < t < +∞ , para permitir que
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 2
qualquer observação da variável considerada possa depender de outras observações da

mesma variável ou de outras variáveis (eventualmente, estas observações podem mesmo
constituir uma infinidade numerável). Assim, do ponto de vista teórico, admite-se que o
processo pode ter início numa data (período ou instante) suficientemente longínqua.
Nestas condições, o processo estocástico passa a representar-se com o símbolo
{ yt : t = 0, ± 1, ± 2, K} , embora se utilize muitas vezes a notação mais simples, { yt } ,
sobretudo quando, pelo contexto, se depreende sem dificuldade quais são os valores que
t pode assumir.
Generalidades sobre operadores
Diz-se que T é um operador sobre séries temporais, se transforma um input, for-

mado por uma ou mais séries temporais, numa série temporal output. Para fixar ideias,
suponha-se que o input é constituído por duas séries temporais, {xt } e {wt } , e o output
pela série temporal { yt } . Então, escreve-se
(9.1) yt = T ( xt , wt ) .
Dois exemplos muito importantes são o operador constante, T = α , e o ope-

rador adição (de séries de temporais). Tem-se, respectivamente,
yt = T ( xt ) = α e yt = T ( xt , wt ) = xt + wt .
Em particular, quando α = 1 , obtém-se o operador identidade.

Quando wt = δ (constante) e T é o operador adição, tem-se
yt = T ( xt , δ ) = xt + δ .
O operador T é linear se e só se
T (α xt + β wt ) = α T ( xt ) + β T ( wt ) .
Dados dois operadores, T1 e T2 , o operador soma dos dois operadores, T1 + T2 ,

é definido como
(T1 + T2 ) xt = T1 ( xt ) + T2 ( xt ) .
Em particular, (T + δ ) xt = T ( xt ) + δ xt .
O operador produto de dois operadores (ou operador composto), T1T2 , é dado
por
(T1T2 ) xt = T1{ T2 ( xt )} .
Facilmente se conclui que o produto de operadores não é comutativo (em geral,

T1T2 ≠ T2T1 ). Quando T1 = T2 = T , tem-se o quadrado de T, T 2 :
T 2 xt = T { T ( xt )} .
Mais geralmente, pode definir-se qualquer potência inteira não negativa de T.

Por convenção, T 0 = 1 (operador identidade).
O inverso de T é o operador T −1 que verifica a condição T T −1 = T −1T = 1 .
Apresentam-se a seguir dois operadores muito importantes: o operador diferença

e o operador de desfasamento.
O operador diferença
Recorde-se que o operador diferença, ∆ , é dado por

∆ ( xt ) = xt − xt −1 .
Se se aplicar o mesmo operador a ∆ ( xt ) , obtém-se a segunda diferença,

∆2 ( xt ) = ∆{∆ ( xt )} = ∆ ( xt − xt −1 ) = xt − 2 xt −1 + xt − 2 .
Note-se que: não se deve confundir ∆2 ( xt ) com ∆ 2 ( xt ) = xt − xt − 2 ; a ∆ ( xt ) pode

chamar-se primeira diferença [ ∆1 ( xt ) = ∆ ( xt ) ].
Em geral, tem-se
∆s ( xt ) = ∆{∆s −1 ( xt )} .
Por exemplo, com s = 3 , obtém-se a terceira diferença,

∆3 ( xt ) = ∆{∆2 ( xt )} = ∆ ( yt − 2 yt −1 + yt − 2 ) = yt − 3 yt −1 + 3 yt − 2 − yt − 3 .
Facilmente se estabelecem as seguintes propriedades:

a) O operador ∆ é linear: ∆ (α xt + β wt ) = α ∆ ( xt ) + β ∆ ( wt ) ;
b) ∆ ( α ) = 0 ( α constante).
Quando não houver ambiguidade sobre qual a variável a que se está a aplicar o
operador ∆ , pode utilizar-se o símbolo ∆ xt em vez de ∆ ( xt ) .
O operador de desfasamento
Outro operador muito importante é o operador de desfasamento, L, que é defi-

nido da seguinte maneira:
(9.2) L( xt ) = xt −1 .
Facilmente se estabelecem as seguintes propriedades:

a) O operador L é linear: L (α xt + β wt ) = α L( xt ) + β L( wt ) = α xt −1 + β wt −1 ;
b) L (α ) = α ( α constante);
c) Ls ( xt ) = xt − s ( s = 1,2,3, K ).
d) ∆ = 1 − L ; ∆2 = (1 − L) 2 = 1 − 2 L + L2 . Em geral, ∆s = (1 − L) s ( s = 1,2,3, K ).
e) Quando se considera o polinómio em L,
(9.3) α ( L) = α 0 + α1 L + α 2 L2 + L + α p Lp ,
tem-se
α ( L) xt = α 0 xt + α1 xt −1 + α 2 xt − 2 + L + α p xt − p .
f) Os polinómios em L são operadores permutáveis: α ( L) β ( L) = β ( L)α ( L) .

Estas propriedades permitem efectuar as operações algébricas habituais sobre

polinómios em L. Por exemplo, (1 + 2 L)( L + 3L2 ) = L + 5 L2 + 6 L3 .
Quando, pelo contexto, é óbvio qual é a variável a que se está a aplicar o opera-
dor L, pode utilizar-se o símbolo L xt em vez de L( xt ) .
Equações lineares com diferenças
A análise das equações com diferenças constitui o fundamento para estudar o

comportamento das variáveis em modelos econométricos dinâmicos. O tipo de equações
que se vai considerar é o das equações lineares de ordem p, com coeficientes constantes
(este estudo é aprofundado no anexo 9A).
Definição 9.1 – Equação linear com diferenças de ordem p, com coeficientes cons-
tantes
Considere-se uma variável yt que depende de t, desconhecida, bem como os sucessivos
desfasamentos até à ordem p, yt −1 , yt − 2 ,…, yt − p , e uma variável, wt , conhecida.
Uma equação da forma
(9.4) yt = ϕ 1 yt −1 + ϕ 2 yt −2 + L + ϕ p yt − p + wt ,
onde os ϕ s são constantes ( s = 1, 2, K , p ) e ϕ p ≠ 0 , é uma equação linear com diferen-

ças de ordem p, com coeficientes constantes.
Podem fazer-se os seguintes comentários a esta definição:

a) A variável wt (conhecida) pode assumir várias formas: ser uma função de t (por
exemplo, wt = α + β t ); ser um choque aleatório (por exemplo, um ruído branco);
ser uma função de valores correntes e desfasados de certas variáveis; etc.
b) Uma solução da equação é uma qualquer relação funcional,
yt = f (t , wt , wt −1 , wt −2 , K) ,
que transforma a equação numa identidade; resolver a equação é determinar todas

as suas soluções; a solução geral da equação é o conjunto de todas as suas soluções
(ditas particulares); geralmente, a solução geral depende de constantes arbitrá-
rias.
c) Por vezes, em vez de se obterem as soluções particulares atribuindo quaisquer valo-
res às constantes arbitrárias, podem-se determinar os valores das constantes introdu-
zindo condições subsidiárias; estas, muitas vezes, são condições iniciais que con-
sistem em fixar valores para a variável output em determinada data e respectivos
desfasamentos até uma certa ordem; uma solução com condições subsidiárias, cha-
ma-se solução definida.
d) Quando em (9.4) se faz wt = 0 , obtém-se a respectiva equação homogénea. Dis-
pondo de p soluções particulares independentes, y1t0 , y2t0 ,…, y 0pt , a solução geral
desta equação é o conjunto de todas as combinações lineares daquelas soluções par-

ticulares,
yth = c1 y10t + c2 y20t + L + c p y 0pt ,
onde c1 , c2 ,…, c p são constantes arbitrárias. Qualquer solução definida é obtida

atribuindo valores às constantes arbitrárias, nomeadamente impondo p condições
subsidiárias. Vai supor-se que estas condições são condições iniciais, onde se su-
põe que y0 , y1 ,…, y p −1 são conhecidos.
e) A solução geral da equação (não homogénea), yt , é igual à soma da solução geral
da correspondente equação homogénea, yth , com uma solução particular da equa-
ção (não homogénea), ytp : yt = yth + ytp . As soluções definidas obtêm-se tal como
em d).
f) Como uma solução da equação depende de wt , wt −1 , wt −2 ,… (sendo wt conhecida),
pode afirmar-se que wt é a variável input da equação; obviamente, a variável out-
put é yt .
g) Esta definição mostra claramente que, embora haja uma variável input, wt , e uma
variável output, yt , uma equação com diferenças estabelece uma relação dinâmica
entre o valor da variável de output em t, e os seus sucessivos desfasamentos até à or-
dem p.
Equações de 1.ª ordem
Vai começar-se por analisar o caso das equações lineares de 1.ª ordem ( p = 1 ),
(9.5) yt = ϕ yt −1 + wt ,
onde ϕ é uma constante.
Exemplo 9.1 – Considere-se a equação

lcgat = 11.5 + 0.29 lcgat −1 + 0.68 lpart − 0.43 lpgat + 0.23 lpgot ,
com observações trimestrais das seguintes variáveis:

lcga - logaritmo natural do consumo de gasolina;
lpar - logaritmo natural do parque automóvel;
lpga - logaritmo natural do preço médio real da gasolina;
lpgo - logaritmo natural do preço médio real do gasóleo.
Neste caso, tem-se
yt = lcgat ; ϕ = 0.29 ; wt = 11.5 + 0.68 lpart − 0.43 lpgat + 0.23 lpgot .
∇
A resolução da equação (9.5) pode ser feita pelo método da substituição re-
cursiva, que se passa a descrever.
Suponha-se que se estabelece a seguinte condição inicial: o valor da variável

output para t = 0 , y0 , é conhecido (a data desta condição é arbitrária; podia ser qual-
quer t entre − ∞ e + ∞ ). Suponha-se também que se conhecem os valores da variável
input, w1 , w2 , w3 ,….
Nestas condições, tem-se:
Data Equação
1 y1 = ϕ y0 + w1
2 y2 = ϕ y1 + w2
M M
t yt = ϕ yt −1 + wt
M M
Então, por substituição sucessiva, obtém-se
y2 = ϕ y1 + w2 = ϕ (ϕ y0 + w1 ) + w2 = ϕ 2 y0 + ϕ w1 + w2
y3 = ϕ y2 + w3 = ϕ (ϕ 2 y0 + ϕ w1 + w2 ) + w3 = ϕ 3 y0 + ϕ 2 w1 + ϕ w2 + w3
…
Facilmente se conclui que a respectiva solução definida da equação é dada por
(9.6) yt = ϕ t y0 + ϕ t −1w1 + ϕ t −2 w2 + L + ϕ wt −1 + wt .
Verifica-se, assim, que esta solução é uma função linear do valor inicial, y0 , e
dos valores históricos da variável input, w1 , w2 ,…, wt .
Note-se que a solução definida (9.6) poderia ser obtida tendo em conta os co-
mentários d) e e) da definição 9.1. Com efeito, facilmente se conclui que:
− yt0 = ϕ t é uma solução particular da equação homogénea, yt = ϕ yt −1 ;
− yth = cϕ t é a solução geral da equação homogénea;
− ytp = ϕ t −1w1 + ϕ t −2 w2 + L + ϕ wt −1 + wt é uma solução particular da equação (não ho-
mogénea);
− yt = cϕ t + ϕ t −1w1 + ϕ t − 2 w2 + L + ϕ wt −1 + wt é a solução geral da equação (não homo-
génea);
− Fazendo c = y0 , obtém-se a a solução definida (9.6).
Como, independentemente da forma de wt , a solução geral da equação homogé-

nea, yt = ϕ yt −1 , é sempre yth = cϕ t , o comportamento da solução da equação (não ho-
mogénea) depende crucialmente do valor do parâmetro ϕ : se | ϕ | < 1 , a solução é está-
vel; se | ϕ | ≥ 1 , a solução é instável (ver o quadro 9.1 a propósito do multiplicador dinâ-
mico e respectivas conclusões).
A solução definida (9.6) também pode ser deduzida tirando partido do operador
L e escrevendo a equação (9.5) da seguinte maneira:
(9.7) (1 − ϕ L) yt = wt .
Com efeito, multiplicando ambos os membros pelo polinómio,

1 + ϕ L + ϕ 2 L2 + L + ϕ t −1 Lt −1 ,
obtém-se
(1 + ϕ L + ϕ 2 L2 + L + ϕ t −1Lt −1 )(1 − ϕ L) yt = (1 + ϕ L + ϕ 2 L2 + L + ϕ t −1Lt −1 ) wt ,
ou,
(1 − ϕ t Lt ) yt = (1 + ϕ L + ϕ 2 L2 + L + ϕ t −1Lt −1 ) wt ,
o que permite obter a solução definida (9.6). Pode, portanto, concluir-se que, aplicando
o operador 1 + ϕ L + ϕ 2 L2 + L + ϕ t −1Lt −1 a (9.7), se dispõe do mesmo resultado que foi
obtido pelo método da substituição recursiva.
É interessante analisar a natureza deste operador. Notando que
yt − (1 + ϕ L + ϕ 2 L2 + L + ϕ t −1Lt −1 )(1 − ϕ L) yt = ϕ t y0 ,
é fácil concluir que, se | ϕ | < 1 e a sucessão { yt } é limitada, esta diferença tende para 0,
quando t → +∞ . Pode, então, escrever-se
lim (1 + ϕ L + ϕ 2 L2 + L + ϕ s Ls ) = 1 + ϕ L + ϕ 2 L2 + ϕ 3 L3 + L ,
s → +∞
(1 + ϕ L + ϕ 2 L2 + ϕ 3 L3 + L)(1 − ϕ L) = 1 ,
e, portanto,
(9.8) (1 − ϕ L) −1 = 1 + ϕ L + ϕ 2 L2 + ϕ 3 L3 + L ,
onde (1 − ϕ L) −1 é o operador inverso de 1 − ϕ L .
Nestas condições, vem
(9.9) yt = (1 − ϕ L) −1 wt = wt + ϕ wt −1 + ϕ 2 wt −2 + ϕ 3 wt −3 + L .
Retome-se a solução definida (9.6). Conclui-se sem dificuldade que

(9.10) yt + s = ϕ s +1 yt −1 + ϕ s wt + ϕ s −1wt +1 + ϕ s −2 wt +2 + L + ϕ wt + s −1 + wt +s .
Com efeito, basta considerar yt −1 como valor inicial, e obter yt + s com a técnica
de substituição recursiva. Outro modo de obter (9.10) consiste em considerar a relação
(9.7) em t + s , (1 − ϕ L) yt + s = wt + s , e multiplicar ambos os membros desta igualdade por
1 + ϕ L + ϕ 2 L2 + L + ϕ s Ls .
Considerando (9.10), o efeito, ceteris paribus, de wt sobre yt + s , é medido pelo
multiplicador dinâmico,
∂ yt + s
(9.11) =ϕs .
∂ wt
Esta resposta dinâmica apenas depende de s (o desfasamento entre o input em t e

o output em t + s ); não depende das datas das observações; como se vai ver, esta conc-
lusão é verdadeira para qualquer equação linear com diferenças.
As respostas dinâmicas do input sobre o output dependem do valor do parâmetro
ϕ . No quadro 9.1 apresentam-se os vários casos de comportamento do multiplicador
dinâmico.
Quadro 9.1
Comportamento do multiplicador dinâmico
Casos Valores de ϕ Comportamento de (9.11) quando s → +∞
1 0 <ϕ <1 Tende em progressão geométrica para 0, decrescendo.
2 −1 < ϕ < 0 Tende em progressão geométrica para 0, oscilando.
3 ϕ >1 Tende exponencialmente para + ∞ , crescendo.
4 ϕ < −1 Diverge exponencialmente, oscilando.
5 ϕ =1 Mantém-se igual 1.
6 ϕ = −1 Oscila entre 1 e − 1 .
Pode, então, concluir-se que:

a) Se | ϕ | < 1 , a solução é estável; as consequências de uma variação da variável input
vão sendo gradualmente amortecidas, tendendo para a situação que existia antes do
impulso.
b) Se | ϕ | > 1 , a equação tem um comportamento explosivo; o efeito de uma variação
do input afasta-se, cada vez mais, da situação que existia antes do impulso.
c) Se | ϕ | = 1 , o efeito é limitado, mas não converge para a situação pré-existente ao
impulso.
d) Os casos b) e c) correspondem à situação de solução instável.
O quadro 9.2 ilustra estes comportamentos para vários valores de ϕ .

Pode, também, estar-se interessado no efeito da variável input sobre o valor
actual do fluxo de valores futuros do output, yt , yt +1 , yt + 2 ,…, dada uma taxa de juro, r,
constante. O valor actual em t do fluxo é dado por
yt +1 yt + 2 yt + 3
VA t = yt + + 2
+ + L.
1 + r (1 + r ) (1 + r ) 3
Designando o factor de actualização por
1
γ = ,
1+ r
tem-se a série
VA t = ∑s =0 γ s yt + s .
+∞
(9.12)
A variação do valor actual quando wt varia de uma unidade é dada por

∂ VA t ∂y 1
= ∑s =0 γ s t + s = ∑s =0 (γ ϕ ) s =
+∞ +∞
(9.13) ,
∂ wt ∂ wt 1−γϕ
desde que | γ ϕ | < 1 .

No cálculo dos multiplicadores (9.11) e (9.13), procura saber-se o que acontece
se wt varia de uma unidade, mantendo constante os valores seguintes da variável input
( wt +1 , wt + 2 ,…, wt + s ); trata-se, portanto, de um efeito puramente transitório. Os multipli-
cadores obtidos podem, então, designar-se como funções impulso-resposta.
Quadro 9.2
Comportamento de ϕ s para vários valores de ϕ
Valores de ϕ
s 0.8 –0.8 1.1 –1.1 1 –1
0 1.000 1.000 1.000 1.000 1.000 1.000
1 0.800 –0.800 1.100 –1.100 1.000 –1.000
2 0.640 0.640 1.210 1.210 1.000 1.000
3 0.512 –0.512 1.331 –1.331 1.000 –1.000
4 0.410 0.410 1.464 1.464 1.000 1.000
5 0.328 –0.328 1.611 –1.611 1.000 –1.000
6 0.262 0.262 1.772 1.772 1.000 1.000
7 0.210 –0.210 1.949 –1.949 1.000 –1.000
8 0.168 0.168 2.144 2.144 1.000 1.000
9 0.134 –0.134 2.358 –2.358 1.000 –1.000
10 0.107 0.107 2.594 2.594 1.000 1.000
11 0.086 –0.086 2.853 –2.853 1.000 –1.000
12 0.069 0.069 3.138 3.138 1.000 1.000
13 0.055 –0.055 3.452 –3.452 1.000 –1.000
14 0.044 0.044 3.797 3.797 1.000 1.000
15 0.035 –0.035 4.177 –4.177 1.000 –1.000
16 0.028 0.028 4.595 4.595 1.000 1.000
17 0.023 –0.023 5.054 –5.054 1.000 –1.000
18 0.018 0.018 5.560 5.560 1.000 1.000
19 0.014 –0.014 6.116 –6.116 1.000 –1.000
20 0.012 0.012 6.727 6.727 1.000 1.000
Quando se está interessado no impacto das variações permanentes da variável

input, tem que se considerar que wt , wt +1 , wt + 2 ,…, wt + s variam de uma unidade. Neste
caso, vem
∂ y t + s ∂ yt + s ∂ yt + s ∂y 1 − ϕ s +1
+ + + L + t + s = ϕ s + ϕ s −1 + ϕ s −2 + L + ϕ + 1 = .
∂ wt ∂ wt +1 ∂ wt + 2 ∂ wt + s 1−ϕ
Quando | ϕ | < 1 e s → +∞ , tem-se o efeito de longo prazo,

1
.
1−ϕ
Outra questão é a de saber qual é o efeito acumulado para o output, quando wt
varia de uma unidade. Trata-se de determinar a soma dos impactos para todos os valores
futuros da variável output. Este valor pode calcular-se facilmente, utilizando (9.13) com
γ = 1,
∂ yt + s 1
∑
+∞
(9.14) = ,
s =0
∂ wt 1 −ϕ
supondo que | ϕ | < 1 .
Exemplo 9.2 – Retomando a equação do exemplo 9.1, suponha-se que quer conhecer-se
o efeito sobre lcga, daqui a dois trimestres, quando lpga varia de uma unidade no tri-
mestre corrente (mantendo lpga constante nos próximos dois trimestres).
Tem-se
∂ lcgat + 2 ∂ lcgat + 2 ∂ wt ∂ wt
= × = ϕ2 × = 0.292 × (−0.43) ≈ −0.036 .
∂ lpgat ∂ wt ∂ lpgat ∂ lpgat
Assim, a elasticidade do consumo de gasolina daqui a dois trimestres em relação

ao preço médio real da gasolina no trimestre corrente é de − 0.036 (quando este preço
varia de 1% em t, o consumo de gasolina baixa de 0.036% em t + 2 ).
A elasticidade de longo prazo do consumo de gasolina em relação ao preço mé-
dio real da gasolina é
− 0.43
≈ −0.61
1 − 0.29
∇
Como yt = ϕ yt −1 + wt , também se tem ∆yt = ϕ ∆yt −1 + ∆wt . Para exemplificar a

evolução ao longo do tempo dos efeitos transitórios (acumulados) e dos efeitos perma-
nentes das variações de y, em função das variações de w, suponha-se que ϕ = 0.8 .
Admite-se que ∆y0 = 0 . Considerem-se dois casos de variação unitária de w.
No primeiro, supõe-se que no período 2 ( t = 2 ) há uma variação transitória,
∆w1 = 0 , ∆w2 = 1 , ∆w3 = 0 , ∆w4 = 0 ,...
No segundo caso, a variação a partir do período 2 é permanente, isto é,

∆w1 = 0 , ∆w2 = 1 , ∆w3 = 1 , ∆w4 = 1 ,...
Apresentam-se os resultados no quadro 9.3, ao longo de 30 períodos.

Quando a variação é transitória, vem
∆y2 = 1 , ∆y3 = 0.8 , ∆y4 = 0.82 = 0.64 , ∆y5 = 0.83 = 0.512 ,…,
verificando-se que
lim ∆ys = 0 .
s → +∞
Quando a variação é permanente, tem-se

∆y2 = 1 , ∆y3 = 1 + 0.8 = 1.8 , ∆y4 = 1.8 + 0.82 = 2.44 , ∆y5 = 2.44 + 0.83 = 2.952 ,…,
e
1 1
lim ∆ys = = = 5.
s → +∞ 1 − ϕ 1 − 0 .8
Quadro 9.3
Efeitos transitórios e permanentes
Efeitos Efeitos
Transitórios permanentes
s t ∆wt ∆yt ∑ ∆y t ∆wt ∆yt
0 0.0000 0.0000 0.0000
1 0 0.0000 0.0000 0 0.0000
0 2 1 1.0000 1.0000 1 1.0000
1 3 0 0.8000 1.8000 1 1.8000
2 4 0 0.6400 2.4400 1 2.4400
3 5 0 0.5120 2.9520 1 2.9520
4 6 0 0.4096 3.3616 1 3.3616
5 7 0 0.3277 3.6893 1 3.6893
6 8 0 0.2621 3.9514 1 3.9514
7 9 0 0.2097 4.1611 1 4.1611
8 10 0 0.1678 4.3289 1 4.3289
9 11 0 0.1342 4.4631 1 4.4631
10 12 0 0.1074 4.5705 1 4.5705
11 13 0 0.0859 4.6564 1 4.6564
12 14 0 0.0687 4.7251 1 4.7251
13 15 0 0.0550 4.7801 1 4.7801
14 16 0 0.0440 4.8241 1 4.8241
15 17 0 0.0352 4.8593 1 4.8593
16 18 0 0.0281 4.8874 1 4.8874
17 19 0 0.0225 4.9099 1 4.9099
18 20 0 0.0180 4.9279 1 4.9279
19 21 0 0.0144 4.9424 1 4.9424
20 22 0 0.0115 4.9539 1 4.9539
21 23 0 0.0092 4.9631 1 4.9631
22 24 0 0.0074 4.9705 1 4.9705
23 25 0 0.0059 4.9764 1 4.9764
24 26 0 0.0047 4.9811 1 4.9811
25 27 0 0.0038 4.9849 1 4.9849
26 28 0 0.0030 4.9879 1 4.9879
27 29 0 0.0024 4.9903 1 4.9903
28 30 0 0.0004 4.9984 1 4.9984
Equações de 2.ª ordem
Seguidamente, vai estudar-se a resolução das equações lineares de 2.ª ordem

( p = 2 ),
(9.15) yt = ϕ 1 yt −1 + ϕ 2 yt −2 + wt .
Considere-se a respectiva equação homogénea, e propõe-se λt como solução

particular da equação. Tem-se
λt = ϕ1λt −1 + ϕ 2 λt −2 ⇔ λt −2 (λ2 − ϕ1λ − ϕ 2 ) = 0 .
Quando λ ≠ 0 , obtém-se a equação característica,
λ2 − ϕ1λ − ϕ 2 = 0 ,
cujas raízes são
ϕ1 + ϕ12 + 4ϕ 2 ϕ1 − ϕ12 + 4ϕ 2
λ1 = , λ2 = ,
2 2
a verificar λ1 + λ2 = ϕ1 e λ1λ2 = −ϕ 2 .
Podem-se verificar três casos:
a) As raízes são reais e distintas: ϕ12 + 4ϕ 2 > 0 .
Como as duas soluções particulares independentes são y10t = λ1t e y20t = λt2 , a solu-
ção geral é dada por
yt = c1λ1t + c2 λt2 .
Se y0 e y1 forem conhecidos, pode determinar-se a respectiva solução definida,

conhecendo os valores das constantes. Tem-se
 y0 = c1 + c2

 y1 = c1λ1 + c2 λ2
ou,
y1 − λ2 y0 λ y − y1
c1 = e c2 = 1 0 .
λ1 − λ2 λ1 − λ2
b) As raízes são reais e iguais: ϕ12 + 4ϕ 2 = 0 .
Neste caso, tem-se 2λ = ϕ1 e λ2 = −ϕ 2 . Uma das soluções particulares é, obvia-
mente, y10t = λt . A outra solução particular é dada por y20t = tλt . Com efeito, vem
tλt − ϕ1 (t − 1)λt −1 − ϕ 2 (t − 2)λt −2 = (λ2 − ϕ1λ − ϕ 2 )tλt −2 + (ϕ1λ + 2ϕ 2 )λt −2 = 0 ,
atendendo a que λ2 − ϕ1λ − ϕ 2 = 0 e ϕ1λ + 2ϕ 2 = 0 .
Como estas duas soluções particulares são independentes, a solução geral é a se-
guinte:
yt = c1λt + c2tλt .
Quando se conhecem y0 e y1 , podem determinar-se os valores das constantes cor-

respondentes à solução definida. Vem
 y0 = c1

 y1 = c1λ + c2 λ
ou,
y1 − λ y0
c1 = y0 e c2 = .
λ
c) As raízes são complexas (conjugadas): ϕ12 + 4ϕ 2 < 0 .

As raízes são,
ϕ1 + i − (ϕ12 + 4ϕ 2 ) ϕ1 − i − (ϕ12 + 4ϕ 2 )
λ1 = = a + i b e λ2 = = a − ib ,
2 2
onde
ϕ1 − (ϕ12 + 4ϕ 2 )
a= e b= .
2 2
A solução geral da equação é dada por
yt = c1λ1t + c2 λt2 = c1 (a + i b) t + c2 (a − ib) t .
As raízes também se podem apresentar na forma trigonométrica ou utilizando as re-

lações de Euler. Assim,
λ1 = r {cos(θ ) + i sen(θ )} = r exp{iθ } e λ2 = r{cos(θ ) − i sen(θ )} = r exp{−iθ } ,
onde r 2 = a 2 +b 2 = −ϕ 2 > 0 e θ é tal que
a ϕ1 b
cos(θ ) = = e sen(θ ) = .
r 2 − ϕ2 r
Utilizando o teorema de De Moivre, tem-se

(a ± ib)t = r t {cos(θ t ) ± i sen (θ t )} ,
Então,
yt = c1r t exp{iθ t} + c2r t exp{−iθ t}
= c1r t {cos(θ t ) + i sen (θ t )} + c2r t {cos(θ t ) − i sen (θ t )}
= r t {(c1 + c2 ) cos(θ t ) + i (c1 − c2 ) sen (θ t )} ,
ou
yt = r t {d1 cos(θ t ) + d 2 sen (θ t )} ,
onde d1 = c1 + c2 e d 2 = i (c1 − c2 ) .
Dados y0 e y1 , é fácil fazer os cálculos para determinar as constantes que dão a so-
lução definida. Assim,
d1 = y0
 y0 = d1 
 ou  y1 − y0r cos(θ )
 y1 = r{d1 cos(θ ) + d 2 sen(θ )} d 2 = r sen(θ )
.

A discussão do comportamento da solução geral da equação homogénea vai

depender dos valores das raízes da equação característica. Assim:
− A classificação das raízes (segundo os três casos referidos) depende crucialmente do
sinal de ϕ12 + 4ϕ 2 ou da posição, no respectivo plano, do ponto (ϕ1 , ϕ 2 ) em relação à
parábola ϕ 2 = −ϕ12 / 4 . Assim: (a) se o ponto se encontra acima da parábola, as
raízes são reais e distintas; (b) sobre a parábola, as raízes são reais e iguais; (c) abai-
xo da parábola, complexas conjugadas. Note-se também que o comportamento da

solução depende sempre da raiz dominante, isto é, da raiz cujo módulo é maior [nas
equações de 2.ª ordem, esta questão só tem interesse prático para o caso (a)].
− No caso (a), a estabilidade da solução depende dos valores assumidos pela duas raí-
zes da equação característica, uma vez que as soluções particulares são da forma λtj
( j = 1, 2 ). Se as duas raízes são, em valor absoluto ou em módulo, menores que 1, a
solução é estável; caso contrário, a solução é instável.
− Para aprofundar esta conclusão, vai supor-se que λ1 > λ2 . Tem-se
ϕ1 + ϕ12 + 4ϕ 2
λ1 > 1 ⇔ > 1 ⇔ ϕ12 + 4ϕ 2 > 2 − ϕ1 .
2
Como ϕ12 + 4ϕ 2 > 0 , a desigualdade verifica-se para ϕ1 ≥ 2 . Se ϕ1 < 2 , elevando ao
quadrado ambos os membros da desigualdade, obtém-se
ϕ12 + 4ϕ 2 > 4 − 4ϕ1 + ϕ12 ⇔ ϕ 2 > 1 − ϕ1 .
Em conclusão, λ1 > 1 se ϕ1 ≥ 2 ou se o ponto (ϕ1 , ϕ 2 ) se encontra à direita da recta
ϕ 2 = 1 − ϕ1 . A intersecção da parábola com esta recta dá-se no ponto (2,−1) , pelo
que λ1 = 1 em todos os pontos da recta à esquerda de (2,−1) .
Com um raciocínio semelhante, verifica-se que λ2 < −1 se ϕ1 ≤ −2 ou se o ponto
(ϕ1 , ϕ 2 ) se encontra à esquerda da recta ϕ 2 = 1 + ϕ1 . Como em (−2,−1) se verifica a
intersecção desta recta com a parábola, λ2 = −1 em todos os pontos da recta à es-
querda de (−2,−1) .
Finalmente, a solução é estável [ | λ j | < 1 ( j = 1,2 )], nas condições seguintes:
ϕ1
− se 0 ≤ ϕ1 < 2 então − < ϕ 2 < 1 − ϕ1 ;
4
ϕ1
− se − 2 < ϕ1 ≤ 0 então − < ϕ 2 < 1 + ϕ1 .
4
− No caso (b), todos os pontos (ϕ1 , ϕ 2 ) pertencem à parábola. A solução é estável se e
só se | λ | < 1 . Facilmente se conclui que: λ = 1 , no ponto (2,−1) ; λ = −1 , no ponto
(−2,−1) ; λ > 1 , nos pontos da parábola a verificar ϕ1 > 2 ; λ < −1 , nos pontos da
parábola, tais que ϕ1 < −2 ; | λ | < 1 , em todos os pontos da parábola que correspon-
dem a − 2 < ϕ1 < 2 .
− No caso (c), a solução é estável se r < 1 . Como
r = − ϕ2 > 0 ,
tem-se ϕ 2 < 0 . Pode concluir-se que:

r > 1 ⇔ ϕ 2 < −1 ; r = 1 ⇔ ϕ 2 = −1 ; r < 1 ⇔ −1 < ϕ 2 < 0 .
− Em resumo: a solução é estável no interior do triângulo de vértices (2,−1) , (0,1) e
(−2,−1) ; a solução é explosiva no exterior deste triângulo; na fronteira, verifica-se
que o módulo da raiz dominante é igual a 1. Fica ao cuidado do leitor cotejar a dis-
cussão anterior sobre o comportamento da solução geral com a figura 9.1.
6
ϕ2
5
1
ϕ1
0
-6 -4 -2 0 2 4 6
-1
ϕ 2 = 1 + ϕ1 -2
ϕ 2 = 1 − ϕ1
-3
-4
ϕ 2 = −ϕ12 / 4
-5
Fig. 9.1 – Comportamento da solução geral da equação yt = ϕ 1 yt −1 + ϕ 2 yt −2
Utilizando o operador L, a equação (9.15) pode escrever-se da seguinte maneira:

(9.16) (1 − ϕ1L − ϕ 2 L2 ) yt = wt .
A partir de (9.16), podem-se obter resultados equivalentes para a discussão da

estabilidade das suas soluções. Com efeito, suponha-se que é possível determinar dois
números, λ1 e λ 2 , de tal maneira que o polinómio do 2.º grau em L, 1 − ϕ 1 L − ϕ 2 L2 ,
pode ser factorizado da seguinte maneira:
1 − ϕ 1 L − ϕ 2 L2 = (1 − λ1 L)(1 − λ2 L) = 1 − (λ1 + λ2 ) L + λ1λ2 L2 ,
onde λ1 + λ2 = ϕ1 e λ1λ2 = −ϕ 2 .
Em geral, λ1 e λ 2 são determinados de modo a garantir que os operadores
1 − ϕ 1 L − ϕ 2 L2 e (1 − λ1 L)(1 − λ2 L)
sejam idênticos. Para isso, considera-se a equação
1 − ϕ 1 z − ϕ 2 z 2 = (1 − λ1 z )(1 − λ2 z ) ,
onde se substitui o operador L pelo escalar z, a incógnita da equação. Tem agora sentido
fazer a seguinte pergunta: em que condições se anula o segundo membro da equação? A
resposta, imediata, é a seguinte: quando z = λ1−1 ou z = λ−21 . Como os valores que anu-
lam o segundo membro também devem anular o primeiro, tem-se a equação
1 − ϕ 1z − ϕ 2 z 2 = 0 ,
cujas raízes são
ϕ1 − ϕ12 + 4ϕ 2 ϕ + ϕ12 + 4ϕ 2
z1 = e z2 = 1 ,
− 2ϕ 2 − 2ϕ 2
onde z1 + z2 = −ϕ1 / ϕ2 e z1 z2 = −1 / ϕ 2 .
Multiplicando por
ϕ1 + ϕ12 + 4ϕ 2
ambos os termos do quociente referente à raiz z1 , e por
ϕ1 − ϕ12 + 4ϕ 2
ambos os termos do quociente respeitante à raiz z 2 , obtém-se, respectivamente,
2 2
z1 = e z2 = .
ϕ1 + ϕ12 + 4ϕ 2 ϕ1 − ϕ12 + 4ϕ 2
Assim,
2 2
1 ϕ1 + ϕ1 + 4ϕ 2 1 ϕ1 − ϕ1 + 4ϕ 2
λ1 = = e λ2 = = ,
z1 2 z2 2
ou seja, obtêm-se as raízes da equação característica de (9.15).

Quando as raízes z1 e z 2 são complexas conjugadas, tem-se ( i = 1,2 ):
λi = r exp{±iθ } = r{cos(θ ) ± i sen(θ )} ; zi = r −1 exp{miθ } = r −1{cos(θ ) m i sen(θ )} .
É possível determinar λ1 e λ 2 por um método mais directo. Com efeito, dividin-
do ambos os membros de 1 − ϕ 1 z − ϕ 2 z 2 = (1 − λ1 z )(1 − λ2 z ) por z 2 , vem
z −2 − ϕ 1 z −1 − ϕ 2 = ( z −1 − λ1 )( z −1 − λ2 ) .
Fazendo λ = z −1 , obtém-se
λ2 − ϕ 1λ − ϕ 2 = (λ − λ1 )(λ − λ2 ) .
Como λ = λ1 ou λ = λ2 anulam o segundo membro desta igualdade, os mesmos
valores devem anular o primeiro membro, obtendo-se, de novo, as raízes da equação ca-
racterística de (9.15).
A coincidência destes resultados é instrutiva. No entanto, deve chamar-se a aten-
ção para a possível confusão entre as respectivas condições de estabilidade das soluções
de (9.15). Assim, quando se utiliza a equação característica, a estabilidade é garantida
quando as raízes são, em módulo, menores do que 1 (as raízes estão no interior do cír-
culo unitário); quando se resolve a equação 1 − ϕ 1 z − ϕ 2 z 2 = 0 , a estabilidade verifica-se
quando as suas raízes são, em módulo, maiores do que 1 (as raízes estão no exterior do
círculo unitário). Evidentemente, | λi | < 1 ⇔| zi | > 1 para i = 1, 2 .
Supondo estabilidade, pode fazer-se
λ1 ( L) = (1 − λ1 L) −1 = 1 + λ1 L + λ12 L2 + λ13 L3 + L
λ2 ( L) = (1 − λ2 L) −1 = 1 + λ2 L + λ22 L2 + λ32 L3 + L ,
desde que as sucessões, a que estes operadores vão ser aplicados, sejam limitadas.
Como
(1 − ϕ1L − ϕ 2 L2 ) yt = wt ⇔ (1 − λ1 L)(1 − λ2 L) yt = wt ,
tem-se
yt = (1 − λ1 L) −1 (1 − λ2 L) −1 wt .
Suponha-se que as raízes são distintas. Notando que

1
{λ (1 − λ1L) −1 − λ2 (1 − λ2 L) −1}
λ1 − λ2 1
1
= (1 − λ1L)−1 (1 − λ2 L) −1{λ1 (1 − λ2 L) − λ2 (1 − λ1L)} = (1 − λ1L) −1 (1 − λ2 L) −1 ,
λ1 − λ2
vem
1
yt = {λ1 (1 − λ1L) −1 − λ2 (1 − λ2 L) −1} wt
λ1 − λ2
 λ1 λ2 
=  (1 + λ1L + λ12 L2 + L) − (1 + λ2 L + λ22 L2 + L)  wt ,
 λ1 − λ2 λ1 − λ2 
ou
(9.17) yt = (h1 + h2 ) wt + (h1λ1 + h2λ2 ) wt −1 + (h1λ12 + h2λ22 ) wt − 2 + L ,
onde
λ1 λ2
h1 = , h2 = e h1 + h2 = 1 .
λ1 − λ2 λ2 − λ1
Como
yt + s = (h1 + h2 ) wt + s + (h1λ1 + h2λ2 ) wt + s −1 + (h1λ12 + h2λ22 ) wt + s − 2 + L + (h1λ1s + h2λs2 ) wt + L ,
o multiplicador dinâmico é dado por

∂ yt + s
(9.18) = h1λ1s + h2 λs2 .
∂ wt
Fica ao cuidado do leitor verificar que

∂ yt +1 ∂ yt + 2
= ϕ1 e = ϕ12 + ϕ2 .
∂ wt ∂ w t
Quando as raízes são complexas conjugadas, ( λ1 = a + ib ; λ2 = a − ib ), verifica-

-se facilmente que (ver a respectiva solução geral da equação homogénea):
∂ yt + s
= h1λ1s + h2λs2 = r s {( h1 + h2 ) cos(θ s ) + i (h1 − h2 ) sen (θ s )} .
∂ wt
Notando que
λ1 1 ia λ2 1 ia
h1 = = − e h2 = = + ,
λ1 − λ2 2 2b λ2 − λ1 2 2b
vem h1 + h2 = 1 (resultado já conhecido) e i (h1 − h2 ) = a / b = cos(θ ) / sen(θ ) .
Então, o multiplicador dinâmico é dado por
∂ yt + s  a 
= h1λ1s + h2 λs2 = r s  cos(θ s ) + sen (θ s )  .
∂ wt  b 
A discussão do comportamento do multiplicador dinâmico (9.18) é semelhan-
te à que foi feita a propósito da solução geral da respectiva equação homogénea: o
multiplicador dinâmico é estável se os módulos das raízes são menores do que 1. Em
particular, se as raízes são complexas conjugadas, a condição de estabilidade é dada por
r <1.
Exemplo 9.3 – Considere-se a equação de 2.ª ordem, yt = 0.5 yt −1 + 0.3 yt −2 + wt , a que

corresponde a equação característica λ2 − 0.5λ − 0.3 = 0 , cujas raízes são λ1 = 0.852 e
λ2 = −0.352 . Pode, também, fazer-se
1 − 0.5 L − 0.3 L2 = (1 − 0.852 L)(1 + 0.352 L) .
As raízes de 1 − 0.5 z − 0.3 z 2 são z1 = 1.174 = 1 / λ1 e z2 = −2.840 = 1 / λ2 .
Tem-se h1 = 0.708 , h2 = 0.292 e
∂ yt + s
= h1λ1s + h2 λs2 = 0.708 × 0.852 s + 0.292 × (−0.352) s .
∂ wt
Pode concluir-se que o multiplicador é estável (tende para 0 quando s → +∞ ),

embora com oscilações porque uma das raízes é negativa. Por exemplo, para s = 1 , o
multiplicador é ϕ1 = 0.5 ; para s = 2 , obtém-se ϕ12 + ϕ2 = 0.55 ; para s = 20 , vem 0.029.
Considerando a equação yt = 0.4 yt −1 + 0.6 yt −2 + wt , tem-se λ1 = 1 e λ2 = −0.6
(ou z1 = 1 e z2 = −1 / 0.6 = −1.667 ). Como h1 = 0.625 e h2 = 0.375 , vem
∂ yt + s
= h1λ1s + h2 λs2 = 0.625 + 0.375 × (−0.6) s .
∂ wt
Neste caso, o sistema não é estável, porque uma das raízes é igual a 1; o multip-
licador tende para 0.625 quando s → +∞ .
∇
Exemplo 9.4 – Se yt = 0.4 yt −1 − 0.5 yt −2 + wt , obtém-se:

1 46 1 46
λ1 = + i ≈ 0.2 + i × 0.678 ; λ2 = − i ≈ 0.2 − i × 0.678 ;
5 10 5 10
1 1 1 1
h1 = − i ≈ 0.5 − i × 0.147 ; h2 = + i ≈ 0.5 + i × 0.147 .
2 46 2 46
Então,
s s
∂ yt + s 1 1  1 46   1 1  1 46 
= h1λ1s + h2λs2 =  − i   + i  + +i
   −i



∂ wt  2 46  5 10   2 46  5 10 
≈ (0.5 − i × 0.147)(0.2 + i × 0.678) s + (0.5 + i × 0.147)(0.2 − i × 0.678) s .
Evidentemente que esta expressão é pouco elucidativa do efeito que wt tem so-
bre yt + s . No entanto, notando que
 0 .4   2
r = 0.5 ≈ 0.707 , θ = Arc cos   = Arc cos   ≈ 1.284 , a = 2 ≈ 0.295 ,

 2 0 .5   5  b 46
tem-se
∂ yt + s
≈ 0.707 s {cos(1.284 s ) + 0.295 sen (1.284 s )} ,
∂ wt
concluindo-se que o multiplicador é estável (tende para 0 quando s → +∞ , embora de

forma sinuzoidal, porque as raízes são complexas).
Com a equação yt = 0.5 yt −1 − yt −2 + wt , tem-se:
1 15 1 15
λ1 = +i ≈ 0.25 + i × 0.968 ; λ2 = − i ≈ 0.25 − i × 0.968 ;
4 4 4 4
1 1 1 1
h1 = − i ≈ 0.5 − i × 0.129 ; h2 = + i ≈ 0.5 + i × 0.129 ;
2 2 15 2 2 15
a 1
r = 1 ; θ = Arc cos(0.25) ≈ 1.318 ; = ≈ 0.258 .
b 15
Então,
∂ yt + s
≈ cos(1.318 s ) + 0.258 sen (1.318 s ) .
∂ wt
Neste caso, o sistema não é estável, porque r = 1 .

∇
Equações de ordem p
Chegou a altura de, em termos gerais, resolver as equações lineares de qual-

quer ordem p.
Considere-se a equação homogénea, yt = ϕ 1 yt −1 + ϕ 2 yt −2 + L + ϕ p yt − p , e seja λt
uma solução particular, λ ≠ 0 . Substituindo na equação, obtém-se a equação caracte-
rística,
(9.19) λ p − ϕ1λ p−1 − ϕ 2 λ p−2 − L − ϕ p −1λ − ϕ p = 0 ,
a qual tem p raízes, λ1 , λ2 , K , λ p .

Os tipos de soluções gerais da equação homogénea dependem da natureza des-
tas raízes, uma vez que deve dispor-se de p soluções particulares independentes.
Se as raízes forem distintas (reais ou complexas), a solução geral é
yt = c1λ1t + c2 λt2 + L + c p λtp = ∑ j =1 c j λtj ,

p
onde c1 , c2 , K , c p são constantes arbitrárias. Note-se que, por cada par de raízes com-
plexas conjugadas (por exemplo, as raízes λ j e λ j +1 ), se pode escrever
c j λtj + c j +1λtj +1 = rjt {d j cos(θ j t ) + d j +1 sen (θ j t )} ,
onde d j = c j + c j +1 e d j +1 = i (c j − c j +1 ) .
No caso de haver raízes iguais, não existem p soluções particulares indepen-
dentes da forma λtj . Sejam λi ( i = 1, 2, K , q ) as raízes distintas, onde cada λi tem mul-
tiplicidade algébrica (número de vezes que a raiz se repete) igual a pi ; naturalmente,
tem-se p1 + p1 + L + pq = p .
Então, por cada raiz λ j de multiplicidade algébrica pi , é óbvio que não se pode
considerar, na solução geral,
yt = L + ci λti + ci +1λti + L + ci+ pi −1λti + L ,
mas sim,
yt = L + ci 0 λti + ci1t λti + ci 2 t 2 λti + L + ci , pi −1 t pi −1λti + L = L + ∑l=i 0 cil t l λti + L .

p −1
Em geral, tem-se
yt = ∑i=1 ∑l=i 0 cil t l λti .

q p −1
Quando há pares de raízes complexas conjugadas iguais, esta forma da solução

geral da equação homogénea pode ser apresentada de outro modo. De facto, admita-se
que há um par de raízes complexas conjugadas,
λh = rh (cosθ h + i sen θ h ) = rh exp{iθ h } e λh+1 = rh (cosθ h − i sen θ h ) = rh exp{−iθ h } ,
de multiplicidade algébrica ph . Então,
yt = L + ∑l =h 0 chlt l λth + ∑l =h 0 ch +1,lt lλth +1 + L

p −1 p −1
= L + ∑l =h 0 t l (chl λth +ch +1,lt lλth +1 ) + L

p −1
= L + ∑l =h 0 t l rht [ chl {cos(θ h t ) + i sen (θ h t )} + ch +1, l{cos(θ h t ) − i sen (θ h t )}] + L

p −1
= L + ∑l =h 0 t l rht [ (chl + ch +1, l ) cos(θ h t ) + i (chl − ch +1, l ) sen (θ h t )] + L

p −1
= L + ∑l =h 0 t l rht [ d hl cos(θ h t ) + d h +1, l sen (θ h t )] + L ,

p −1
onde d hl = chl + ch+1,l e d h+1,l = i (chl − ch+1,l ) .

Qualquer que seja a situação, pode concluir-se que a solução é estável se e só se
todas as raízes da equação característica têm módulo inferior a 1.
A equação (9.4) pode apresentar-se da seguinte maneira:
(9.20) (1 − ϕ1 L − ϕ 2 L2 − L − ϕ p Lp ) yt = wt .
Os resultados obtidos para a equação de 2.ª ordem são imediatamente generali-

záveis para a equação de ordem p. Agora, tem-se
1 − ϕ 1 L − ϕ 2 L2 − L − ϕ p Lp = (1 − λ1 L)(1 − λ2 L) L (1 − λ p L) .
Conclui-se também que é indiferente calcular as raízes, zi ( i = 1, 2, K , p ), da

equação
(9.21) 1 − ϕ1 z − ϕ 2 z 2 − L − ϕ p z p = 0 ,
ou as raízes, λi ( i = 1, 2, K , p ), da equação característica

(9.22) λ p − ϕ 1λ p −1 − ϕ 2 λ p −2 − L − ϕ p−1λ − ϕ p = 0 ,
uma vez que zi = λ−i 1 ( i = 1, 2, K , p ).

Como | λi | < 1 ⇔| zi | > 1 ( i = 1, 2, K , p ), verifica-se que há estabilidade se e só
se, as raízes λi estão no interior do círculo unitário ou as raízes zi estão no exterior do
círculo unitário.
Supondo que existe estabilidade e que as sucessões envolvidas na equação de di-
ferenças são limitadas, existem os operadores
λ1 ( L) = (1 − λ1 L) −1 = 1 + λ1 L + λ12 L2 + λ13 L3 + L
λ2 ( L) = (1 − λ2 L) −1 = 1 + λ2 L + λ22 L2 + λ32 L3 + L
...
λ p ( L) = (1 − λ p L) −1 = 1 + λ p L + λ2p L2 + λ3p L3 + L .
Então,
yt = (1 − λ1 L) −1 (1 − λ2 L) −1 L (1 − λ p L) −1 wt .
Quando as raízes da equação característica são distintas, é possível determinar

constantes hi ( i = 1, 2, K , p ) de forma que
(1 − λ1 L) −1 (1 − λ2 L) −1 L (1 − λ p L) −1 = h1 (1 − λ1 L) −1 + h2 (1 − λ2 L) −1 + L + h p (1 − λ p L) −1 .
Para isso, considera-se a respectiva equação em z,

1 h1 h2 hp
= + +L+ .
(1 − λ1 z )(1 − λ2 z ) L (1 − λ p z ) 1 − λ1 z 1 − λ2 z 1− λpz
Multiplicando ambos os membros por (1 − λ1 z )(1 − λ2 z ) L (1 − λ p z ) , obtém-se

1 = h1 (1 − λ2 z )(1 − λ3 z ) L (1 − λ p z )
+ h2 (1 − λ1 z )(1 − λ3 z ) L (1 − λ p z ) + L
+ h p (1 − λ1 z )(1 − λ2 z ) L (1 − λ p−1 z ) .
Como o segundo membro desta equação é um polinómio em z de grau p − 1 e a

equação tem que se verificar para todos os valores de z, a escolha dos hi vai ser feita
para p valores particulares de z.
Fazendo z = λ1−1 , obtém-se
1 = h1 (1 − λ2 λ1−1 )(1 − λ3λ1−1 ) L (1 − λ p λ1−1 ) ,
ou
λ1p −1
h1 = .
(λ1 − λ2 )(λ1 − λ3 ) L (λ1 − λ p )
Do mesmo modo se prova que:

λ2p −1
h2 = ;
(λ2 − λ1 )(λ2 − λ3 ) L (λ2 − λ p )
...
λ pp −1
hp = .
(λ p − λ1 )(λ p − λ2 ) L (λ p − λ p −1 )
Note-se que as expressões dos hi já tinham sido apresentadas para o caso p = 2 ,

continuando a ter-se h1 + h2 + L + h p = 1 .
Então,
yt = {h1 (1 − λ1L) −1 + h2 (1 − λ2 L) −1 + L + hp (1 − λ p L) −1} wt
= {h1λ1 ( L) + h2λ2 ( L) + L + hp λ p ( L)} wt ,
ou
yt = (h1 + h2 + L + hp ) wt
(9.23) + (h1λ1 + h2λ2 + L + hp λ p ) wt −1
+ (h1λ12 + h2λ22 + L + hp λ2p ) wt − 2 + L.
Continua a ter-se
∂ yt + s
(9.24) = h1λ1s + h2 λs2 + L + h p λsp .
∂ wt
Tirando partido de (9.23), torna-se fácil calcular a variação do valor actual de

um fluxo de valores futuros do output ( yt , yt +1 , yt +2 ,…), quando wt varia de uma uni-
dade. Com efeito, se em (9.23) se fizer
ψ s = h1λ1s + h2 λs2 + L + h p λsp
ψ ( L) = ψ 0 + ψ 1 L + ψ 2 L2 + L
tem-se yt = ψ ( L) wt , sendo fácil verificar que
∂ VA t ∂y
= ∑s =0 γ s t + s = ∑s =0 γ sψ s = ψ (γ ) .
+∞ +∞
∂ wt ∂ wt
Como
yt = (1 − λ1 L) −1 (1 − λ2 L) −1 L (1 − λ p L) −1 wt ,
yt = ψ ( L) wt ,
1 − ϕ 1 L − ϕ 2 L2 − L − ϕ p Lp = (1 − λ1 L)(1 − λ2 L) L (1 − λ p L) ,
conclui-se que
ψ ( L) = (1 − ϕ 1 L − ϕ 2 L2 − L − ϕ p Lp ) −1 ,
e, portanto,
ψ (γ ) = (1 − ϕ 1γ − ϕ 2γ 2 − L − ϕ pγ p ) −1 .
Logo,
∂ VA t ∂y 1
= ∑s =0 γ s t + s =
+∞
(9.25) .
∂ wt ∂ wt 1 − ϕ1γ − ϕ 2γ 2 − L − ϕ pγ p
O efeito acumulado para o output, quando wt varia de uma unidade, é obtido,

fazendo γ = 1 em (9.25). Assim,
∂ yt + s 1
∑
+∞
(9.26) = .
s =0
∂ wt 1 − ϕ1 − ϕ 2 − L − ϕ p
Este valor é também é igual ao efeito de longo prazo sobre o output, quando o
input varia de uma unidade, de forma permanente. Tem-se:
∂y ∂y ∂y ∂y  1
(9.27) lim  t + s + t + s + t + s + L + t + s  = .
s → +∞
 ∂ wt ∂ wt +1 ∂ wt + 2 ∂ wt + s  1 − ϕ1 − ϕ2 − L − ϕ p
No exemplo seguinte apresentam-se duas situações que envolvem equações de

3.ª ordem. Neste caso:
λ12 λ22 λ23
h1 = ; h2 = ; h3 = .
(λ1 − λ2 )(λ1 − λ3 ) (λ2 − λ1 )(λ2 − λ3 ) (λ3 − λ1 )(λ3 − λ2 )
Exemplo 9.5 – Seja yt = 0.5 yt −1 + 0.3 yt −2 − 0.1yt −3 + wt . Fazendo os cálculos, vem:

λ1 ≈ 0.724 ; λ2 = −0.5 ; λ3 ≈ 0.274 ;
h1 ≈ 0.951 ; h2 ≈ 0.264 ; h3 ≈ −0.215 .
Donde
∂ yt + s
= h1λ1s + h2 λs2 + h3λ3s ≈ 0.951 × 0.724 s + 0.264 × (−0.5) s − 0.215 × 0.274 s ,
∂ wt
concluindo-se que o multiplicador é estável (tende para 0 quando s → +∞ ).

Considerando a equação yt = −0.5 yt −1 + 0.5 yt −2 − 0.1 yt −3 + wt , obtém-se:
λ1 ≈ −1.06 ; λ2 ≈ 0.28 + i × 0.125 ; λ3 ≈ 0.28 − i × 0.125 ;
h1 ≈ 0.62 ; h2 ≈ 0.19 − i × 0.204 ; h3 ≈ 0.19 + i × 0.204 .
Relativamente ao par de raízes complexas conjugadas, tem-se

r ≈ 0.279 e θ ≈ 0.821 .
Assim,
∂ yt + s
= h1λ1s + h2λs2 + h3λ3s = h1λ1s + r2s {(h2 + h3 ) cos(θ s ) + i (h2 − h3 ) sen (θ s )}
∂ wt
≈ 0.62 × (−1.06) s + 0.279 s {0.38 cos(0.821 s ) + 0.408 sen (0.821 s )}.
Pode, então, concluir-se que o multiplicador é instável porque λ1 < −1 .

∇
9.2 - Filtros e processos lineares

Vai aprofundar-se um pouco mais o estudo do operador de desfasamento, L, in-

troduzindo o conceito de filtro de uma série temporal.
Definição 9.2 - Filtro

Dada uma sucessão de números reais, α 0 , α1 , α 2 , K , um filtro de uma série temporal é
dado por
(9.28) α ( L) = α 0 + α1 L + α 2 L2 + L .
A operação de filtragem de uma série temporal, {xt } , permite obter outra série
temporal, { yt } , aplicando o filtro α (L) à primeira. Assim,
yt = α ( L) xt = α 0 xt + α1 xt −1 + α 2 xt − 2 + L = ∑ s = 0 α s xt − s .
+∞
(9.29)
Se α p ≠ 0 e α s = 0 , ( s > p ), o filtro reduz-se a um polinómio de grau p em L.

Como se sabe, é possível multiplicar polinómios em L. Esta operação pode ser
generalizada para os filtros. Assim, o produto dos filtros
α ( L) = α 0 + α1 L + α 2 L2 + L e β ( L) = β 0 + β1L + β 2 L2 + L
é o filtro
δ ( L) = α ( L) β ( L) = δ 0 + δ 1 L + δ 2 L2 + L ,
onde a sucessão δ 0 , δ 1 , δ 2 , K é dada pelas relações de convolução
δ 0 = α0β0 ,
δ 1 = α 0 β1 + α 1 β 0 ,
δ 2 = α 0 β 2 + α 1 β1 + α 2 β 0 ,
…
δ s = α 0 β s + α1 β s −1 + α 2 β s −2 + L + α s −1 β1 + α s β 0 ,
….
Facilmente se verifica que o produto de filtros é comutativo,
δ ( L) = α ( L) β ( L) = β ( L)α ( L) .
Quando δ ( L) = 1 (operador identidade), tem-se uma situação de particular inte-
resse. Neste caso, tem-se α ( L) β ( L) = β ( L)α ( L) = 1 , e diz-se que β (L) é o filtro inver-
so de α (L) , e escreve-se β ( L) = α ( L) −1 . Evidentemente, α ( L) = β ( L) −1 .
Por meio das relações de convolução, facilmente se obtêm a sucessão {β s } a
partir da sucessão {α s } , desde que α 0 ≠ 0 . Com efeito, notando que δ 0 = 1 e δ s = 0 ,
para s = 1, 2, K , vem
1 αβ α
β0 = , β1 = − 1 0 = − 12 , … .
α0 α0 α0
Por exemplo, no estudo das equações de diferenças, já se consideraram filtros da
forma 1 − α L . Neste caso, tem-se (1 − α L) −1 = 1 + α L + α 2 L2 + L . Quando α = 1 , vem
(1 − L) −1 = 1 + L + L2 + L .
Facilmente se verifica que (desde que α 0 ≠ 0 e β 0 ≠ 0 )

α ( L) β ( L) = δ ( L) ⇔ β ( L) = α ( L) −1δ ( L) ⇔ α ( L) = δ ( L) β ( L) −1 .
Em muitas situações [ver (9.20)], é necessário calcular o inverso do polinómio
ϕ ( L) = 1 − ϕ1 L − ϕ 2 L2 − L − ϕ p Lp .
Como ϕ 0 = 1 ≠ 0 , o filtro inverso existe, e pode ser calculado com as relações de

convolução. Assim, seja
ψ ( L) = ϕ ( L) −1 = ψ 0 + ψ 1 L + ψ 2 L2 + L ,
e ϕ ( L)ψ ( L) = 1 . Então,
ψ0 =1
ψ 1 − ϕ1ψ 0 = 0
ψ 2 − ϕ1ψ 1 − ϕ 2ψ 0 = 0
…
ψ p−1 − ϕ1ψ p−2 − ϕ 2ψ p−3 − L − ϕ p −1ψ 0 = 0
ψ p − ϕ1ψ p−1 − ϕ 2ψ p−2 − L − ϕ p−1ψ 1 − ϕ pψ 0 = 0
ψ p+1 − ϕ1ψ p − ϕ 2ψ p−1 − L − ϕ p−1ψ 2 − ϕ pψ 1 = 0
ψ p+2 − ϕ1ψ p+1 − ϕ 2ψ p − L − ϕ p−1ψ 3 − ϕ pψ 2 = 0
….
Estas equações são facilmente resolúveis, obtendo-se
ψ 0 = 1 , ψ 1 = ϕ1 , ψ 2 = ϕ 2 + ϕ12 , … .
Note-se que, para s ≥ p , tem-se a equação homogénea de diferenças de ordem
p, com coeficientes ϕ1 , ϕ 2 , K , ϕ p ,
(9.30) ψ s − ϕ1ψ s −1 − ϕ 2ψ s −2 − L − ϕ p −1ψ s − p +1 − ϕ pψ s − p = 0 .
Assim, uma vez calculados os coeficientes ψ 0 ,ψ 1 ,ψ 2 , K ,ψ p−1 , pode resolver-se

esta equação para determinar os restantes ψ s , usando aqueles p coeficientes como con-
dições iniciais.
No capítulo 3 (secção 3.2), foram introduzidos os processos estacionários [de-
finição 3.7 (estacionaridade em sentido restrito); definição 3.8 (estacionaridade em sen-
tido amplo ou em covariância)], dando-se particular relevo às respectivas autocovariân-
cias e coeficientes de autocorrelação.
Um exemplo fundamental de processo estacionário em covariância é o ruído
branco. Recorde-se que, no caso univariado, {ε t } é um ruído branco se e só se
E (ε t ) = 0 , Var (ε t ) = σ ε2 e Cov(ε t , ε t −s ) = 0 ( s ≠ 0 ).
O objectivo desta secção é apresentar uma família particular de processos esto-

cásticos, chamados processos lineares. Mas, para isso, é indispensável introduzir previa-
mente a definição de processo de médias móveis de ordem q (recorde-se que, no capítu-
lo 3, já foi referido o processo de médias móveis de 1.ª ordem, (3.6), como um exemplo
de processo estacionário em covariância; no mesmo capítulo, na secção 3.10, a propó-

sito do comportamento das variáveis residuais no modelo de regressão linear, também
se fez uma referência a estes processos).
Definição 9.3 – Processo de médias móveis de ordem q

O processo estocástico { yt } é um processo de médias móveis de ordem q se e só se
(9.31) yt = µ + θ 0ε t + θ1ε t −1 + θ 2ε t −2 + L + θ qε t −q ,
onde {ε t } é um ruído branco, θ 0 = 1 e θ q ≠ 0 . Escreve-se, yt ~ MA(q ) .
A expressão (9.31) pode apresentar-se utilizando o polinómio em L,

θ ( L) = 1 + θ1 L + θ 2 L2 + L + θ q Lq ,
obtendo-se
(9.32) yt = µ + θ ( L)ε t .
Este processo é estacionário em covariância. Com efeito, tem-se:

E ( yt ) = µ ;
γ s = (θ sθ 0 + θ s +1θ1 + L + θ qθ q−s )σ ε2 = σ ε2 ∑i =0 θ s +iθ i ( s = 0,1, K , q );
q −s
γ s = 0 ( s = q + 1, q + 2, K ),
onde γ s = Cov( yt , yt − s ) é a autocovariância de ordem s (note-se que γ s = γ − s ).
Facilmente se obtêm os coeficientes de autocorrelação:
θ s + θ s+1θ1 + L + θ qθ q−s
ρs = ( s = 0,1, K , q ); ρ s = 0 ( s = q + 1, q + 2, K ).
1 + θ12 + L + θ q2
Para q = 1, vem:
γ 0 = (1 + θ12 )σ ε2 ; γ 1 = θ1σ ε2 ; γ s = 0 ( s = 2, 3, 4, K );
θ1
ρ 0 = 1 ; ρ1 = ; ρ s = 0 ( s = 2, 3, 4, K ).
1 + θ12
Para q = 2 , resulta:
γ 0 = (1 + θ12 + θ 22 )σ ε2 ; γ 1 = (θ1 + θ 2θ1 )σ ε2 ; γ 2 = θ 2σ ε2 ; γ s = 0 ( s = 3, 4, K );
θ1 + θ 2θ1 θ2
ρ 0 = 1 ; ρ1 = 2 2
; ρ2 = ; ρ s = 0 ( s = 3, 4, K ).
1 + θ1 + θ 2 1 + θ12 + θ 22
Assim, todo o perfil de autocovariâncias, {γ s } , é descrito por apenas q + 1 parâ-

metros, (θ1 , θ 2 , K ,θ q , σ ε2 ) , e o correlograma, {ρ s } , por (θ1 ,θ 2 , K,θ q ) .
A análise anterior mostra que, nos processos MA(q ) , as autocorrelações desapa-
recem ao fim de q desfasamentos. Embora algumas séries temporais se possam compor-
tar desta maneira, é desejável poder modelar séries temporais que não tenham esta pro-
priedade. A ideia natural que surge é, então, a de substituir a soma de q + 1 parcelas
θ 0ε t + θ1ε t −1 + θ 2ε t −2 + L + θ qε t −q , pela série estocástica (série cujos termos são variáveis

aleatórias)
ψ 0ε t + ψ 1ε t −1 + ψ 2ε t −2 + L = ∑s =0ψ s ε t −s ,
+∞
(9.33)
onde {ψ s } é uma sucessão de números reais.

yt = µ + ψ 0ε t + ψ 1ε t −1 + ψ 2ε t −2 + L = µ + ∑s=0ψ sε t −s = µ + ψ ( L)ε t ,
+∞
(9.34)
onde
ψ ( L) = ψ 0 + ψ 1 L + ψ 2 L2 + L ,
é um filtro.
Este filtro é absolutamente somável se e só se
∑
+∞
(9.35) s =0
| ψ s | < +∞ .
Nestas condições, diz-se também que a sucessão de números reais {ψ s } é ab-

solutamente somável. Deste modo, a série de números reais
∑
+∞
s =0
ψs
é absolutamente convergente (e, portanto, convergente). Note-se também que uma con-
dição necessária de convergência de uma série é que o seu termo geral, ψ s , tenda para
0, quando s → +∞ . Assim, a somabilidade absoluta implica que os choques passados,
representados pelos ψ s , vão-se atenuando.
Como se vai ver no teorema seguinte, a sucessão das somas parciais
∑
n
(9.36) s =0
ψ sε t − s
converge em média quadrática para uma dada variável aleatória, desde que se verifique
(9.35). Neste caso, diz-se que a série estocástica (9.33) é convergente em média qua-
drática. Como a diferença entre (9.34) e (9.33) se resume à constante µ , também se
pode dizer que
yt = µ + ∑s =0ψ s ε t − s
+∞
converge em média quadrática.
Teorema 9.1
Seja {ε t } um ruído branco e {ψ s } uma sucessão de números reais absolutamente so-
mável. Então:
a) Para cada t, yt , dado por (9.34), é convergente em média quadrática.

b) E ( yt ) = µ .
c) As autocovariâncias são dadas por
γ s = (ψ sψ 0 + ψ s +1ψ 1 + ψ s + 2ψ 2 + L)σ ε2 = σ ε2 ∑i=0ψ s +iψ i .

+∞
(9.37)
d) O processo { yt } é estacionário em covariância.

e) As autocovariâncias são absolutamente somáveis,
∑
+∞
(9.38) s =0
| γ s | < +∞ .
f) Se {ε t } é iid (ruído branco independente), então o processo { yt } é estritamente es-

tacionário e ergódico.
Dem.: Para demonstrar a alínea a), é necessário provar que

mq
ytn = µ + ∑s =0ψ sε t − s → yt ,
n
ou seja, atendendo à propriedade a) da convergência em média quadrática para uma va-

riável aleatória (ver capítulo 3) basta provar que
lim E{( ytm − ytn ) 2 } = 0 ,
m→+∞
n→+∞
supondo, sem perda de generalidade, que m > n .

Notando que
ytm − ytn = ∑s =n+1ψ sε t −s ,
m
vem
 2
E{( ytm − ytn ) 2 } = E  ∑ s = n +1ψ sε t − s   = σ ε2 ∑ s = n +1ψ s2 .
m m
  
Como se verifica (9.35), uma vez que a sucessão {ψ s } é absolutamente somável,

também se verifica
∑
+∞
s =0
ψ s2 < +∞ ,
ou seja, {ψ s } é somável em quadrado [ver o comentário 1) a este teorema].

Como a série de termo geral ψ s2 é convergente, tem-se
∑ ψ s2 = ∑s =0ψ s2 .
n +∞
lim s =0
n→+∞
Então, de acordo com o critério de Cauchy,
∑ ψ s2 − ∑s =0ψ s2 = lim ∑
m n m
lim s =0 s = n +1
ψ s2 = 0 ,
m→+∞ m→+∞
n→+∞ n →+∞
ficando provada a alínea a) do teorema.

Para provar a alínea b), basta aplicar a propriedade b) da convergência em mé-
dia quadrática para uma variável aleatória (ver capítulo 3). Assim,
lim E ( ytn ) = E ( yt ) = µ .
n→+∞
Utilizando a propriedade c) da convergência em média quadrática para uma va-

riável aleatória (ver capítulo 3), demonstra-se a alínea c) deste teorema. Com efeito, es-
ta propriedade garante que
lim E{( ytn − µ )( yt − s ,n − µ )} = E{( yt − µ )( yt − s − µ )} .
n→+∞
Como
E{( ytn − µ )( yt − s ,n − µ )} = (ψ sψ 0 + ψ s +1ψ 1 + ψ s + 2ψ 2 + L + ψ s + nψ n )σ ε2 ,
vem imediatamente (9.37).

Os resultados das alíneas b) e c) permitem concluir que { yt } é estacionário em
covariância, ficando demonstrada a alínea d).
Para provar a alínea e), começa-se por notar que, a partir de (9.37), tem-se
∑ ψ s +iψ i ≤ σ ε2 ∑i=0 ( | ψ s +i | | ψ i | ) .
+∞ +∞
| γ s | = σ ε2 i =0
Então,
∑ | γ s | ≤ σ ε2 ∑ s = 0  ∑i = 0 ( | ψ s + i | | ψ i | ) 
+∞ +∞ +∞
s =0
 
= σ ε2 ∑i = 0  ∑ s = 0 ( |ψ s + i | |ψ i | ) 
+∞ +∞
 
= σ ε2 ∑i = 0  | ψ i | ∑ s = 0 ( | ψ s + i | )  .
+∞ +∞
 
Como {ψ s } é absolutamente somável, existe um K < +∞ tal que
∑
+∞
s =0
|ψ s | < K ,
e, portanto,
∑
+∞
s =0
| ψ s +i | < K ( i = 0, 1, 2, K ).
Finalmente,
∑ | γ s | < σ ε2 K ∑i=0 | ψ i | < σ ε2 K 2 < +∞ .
+∞ +∞
s =0
Para provar a alínea f), ver Hannan (1970).

∇∇
Comentários ao teorema 9.1:

1) Vai provar-se que:
∑ | ψ s | < +∞ ⇒ ∑s=0ψ s2 < +∞ .
+∞ +∞
s =0
Com efeito, como

∑
+∞
s =0
| ψ s | < +∞ ⇒ lim | ψ s | = 0 ,
s →+∞
existe uma ordem n, a partir da qual | ψ s | < 1 , o que implica ψ s2 < | ψ s | , qualquer que
seja s ≥ n . Então,
∑ ψ s2 = ∑s =0ψ s2 + ∑s =nψ s2 < ∑s =0ψ s2 + ∑s =n | ψ s | < +∞ .

+∞ n −1 +∞ n −1 +∞
s =0
É possível mostrar que a recíproca não é verdadeira. De facto, a série
∑
+∞
s =1
(1 / s)
é divergente (a sucessão {1 / s} não é absolutamente somável), a série
∑
+∞
s =1
(1 / s 2 )
é convergente (a sucessão {1 / s 2 } é absolutamente somável).

2) O teorema 9.1 abrange o processo MA(q). Com efeito, basta fazer ψ s = θ s , para
s = 0,1, K , q , e ψ s = 0 , para s = q + 1, q + 2, K .
3) A hipótese da somabilidade absoluta de {ψ s } implica, como se sabe, que os choques
passados, representados pelos ψ s , vão-se atenuando. O teorema garante que esta so-
mabilidade absoluta implica outra somabilidade absoluta, a da sucessão das autoco-
variâncias, {γ s } . Como as autocorrelações também se vão atenuando, à medida que
s cresce, estas conclusões vão desempenhar um papel fundamental na análise do
modelo que se vai abordar neste capítulo, o MRL-REN com autocorrelação.
Pode, agora, apresentar-se a seguinte definição:
Definição 9.4 – Processo de médias móveis infinito

O processo estocástico { yt } é um processo de médias móveis infinito se e só se
(9.39) yt = µ + ψ 0ε t + ψ 1ε t −1 + ψ 2ε t −2 + L ,
onde {ε t } é um ruído branco e a sucessão {ψ s } é absolutamente somável. Escreve-se,

yt ~ MA(∞) .
O processo MA(∞) , a que se refere a definição anterior, é unilateral porque não

inclui valores futuros do ruído branco. No entanto, é possível definir um processo MA
bilateral da forma
yt = µ + ∑−∞ ψ sε t −s , com ∑
+∞ +∞
−∞
| ψ s | < +∞ .
Embora, o teorema 9.1 se possa generalizar para este caso, apenas se vão consi-
derar os processos unilaterais, uma vez que os processos bilaterais são pouco usuais em
Economia.
Definição 9.5 – Processo linear

Diz-se que o processo estocástico { yt } é linear se e só se pode representar-se por meio
de um processo MA(∞) .
Evidentemente, um processo MA(∞) é linear. No entanto, como vai ver-se na

próxima secção, há processos estocásticos lineares, que não são MA(∞) , mas podem
ser representados por meio deste processo.
O teorema 9.1 pode ser generalizado para o caso em que o processo { yt } é
dado por
yt = α 0 xt + α1xt −1 + α 2 xt − 2 + L = ∑ s = 0 α s xt − s = α ( L) xt ,
+∞
(9.40)
onde {xt } é estacionário em covariância, e

α ( L) = α 0 + α1L + α 2 L2 + L
é o filtro respectivo.
Teorema 9.2
Seja {xt } um processo estacionário em covariância e {α s } uma sucessão de números
reais absolutamente somável. Então:
a) Para cada t, yt , dado por (9.40), é convergente em média quadrática.
b) Se E ( xt ) = µ x , então
µ = E ( yt ) = µ x ∑ s = 0 α s .
+∞
(9.41)
c) Se γ sx é a autocovariância de ordem s do processo {xt } , a respectiva autocovariância

de { yt } é dada por
γ s = ∑i = 0 ∑l = 0 α iα l γ sx− i + l .
+∞ +∞
(9.42)
d) O processo { yt } é estacionário em covariância.

e) Se as autocovariâncias de {xt } são absolutamente somáveis, o mesmo acontece com
as autocovariâncias de { yt } .
Dem.: A demonstração da alínea a) segue uma técnica semelhante à do teorema 9.1.

Para provar a alínea b), seja
ytn = α 0 xt + α1 xt −1 + α 2 xt − 2 + L + α n xt − n = ∑ s = 0 α s xt − s .
n
Como E ( xt ) = µ x , tem-se
µ = E ( yt ) = lim E ( ytn ) = lim µ x ∑ s = 0 α s = µ x ∑ s = 0 α s .

n +∞
n → +∞ n → +∞
Para demonstrar a alínea c), utiliza-se a propriedade,

lim E{( ytn − µ )( yt − s ,n − µ )} = E{( yt − µ )( yt − s − µ )} .
n→+∞
Como
E{( ytn − µ )( yt − s , n − µ )} = E  ∑i = 0 α i ( xt − i − µ x ) ∑l = 0 α l ( xt − s − l − µ x ) 
n n
 
= ∑i = 0 ∑l = 0 α iα lγ sx− i + l ,
n n
obtém-se imediatamente (9.42), fazendo n → +∞ .

Os resultados das alíneas b) e c) permitem concluir que { yt } é estacionário em
covariância, ficando demonstrada a alínea d).
Fica ao cuidado do leitor verificar, com uma técnica semelhante à do teorema
9.1, a veracidade da alínea e).
∇∇
Dispondo de dois filtros, α ( L) e β ( L) , absolutamente somáveis, o seu produ-

to, δ ( L) = α ( L) β ( L) = β ( L)α ( L) , também é absolutamente somável. Supondo que o
processo {xt } é estacionário em covariância, o teorema anterior permite concluir que o
processo resultante de δ ( L) xt = α ( L) β ( L) xt = β ( L)α ( L) xt , também é estacionário em
covariância.
Facilmente se verifica que o inverso de um filtro pode não ser absolutamente
somável. Com efeito, basta considerar o filtro (1 − L) −1 = 1 + L + L2 + L .
Quando, a propósito do cálculo do filtro inverso do polinómio
ϕ ( L) = 1 − ϕ1 L − ϕ 2 L2 − L − ϕ p Lp ,
se considerou a equação de diferenças (9.30) para obter

ψ ( L) = ϕ ( L) −1 = ψ 0 + ψ 1 L + ψ 2 L2 + L ,
não fica garantido que este filtro é absolutamente somável. No entanto, pode demons-
trar-se que a estabilidade da solução da equação (9.30) implica que o filtro ψ ( L) seja
absolutamente somável. Assim:
Teorema 9.3
Seja ϕ ( L) = 1 − ϕ1 L − ϕ 2 L2 − L − ϕ p Lp e ψ ( L) = ϕ ( L) −1 = ψ 0 + ψ 1 L + ψ 2 L2 + L . Se a so-
lução geral da equação (9.30) é estável, então a sucessão {ψ s } , dos coeficientes de
ψ ( L) , é absolutamente somável.
Dem.: Começa-se por estabelecer o seguinte resultado auxiliar:

− Considere-se que 0 ≤ ξ < 1 e que l é um número inteiro não negativo. Então, exis-
tem dois números reais, a e b, tais que ξ < b < 1 e s lξ s < a b s , para s = 0,1, 2, K .
Seja
ψ s = ∑i=1 ∑l=0 cil s l λsi ,
q pi −1
a solução geral de (9.30), onde as raízes distintas λi ( i = 1, 2, K , q ) da respectiva equa-

ção característica têm, respectivamente, multiplicidade algébrica pi .
Então,
| ψ s | ≤ ∑i=1 ∑l=i 0 | cil | s l | λi |s ≤ c∑i=1 ∑l=i 0 s l | λi |s ,

q p −1 q p −1
onde c = max{| cil |} . Como , por hipótese, | λi | < 1 , seja ξ = | λi | , obtendo-se, devido
ao resultado auxiliar,
s l | λi | s < ai bis ( s = 0,1, 2, K ),
para algum ai > 0 e | λi | < bi < 1 . Sendo a ∗ = max{ai } e b = max{bi } , tem-se, para
qualquer i, ai bis < a ∗b s . Então,
| ψ s | ≤ c∑i =1 ∑l=i 0 a ∗b s = cp a ∗b s = ab s ( s = 0,1, 2, K ),

q p −1
onde a = cpa ∗ .
Finalmente, tem-se
a
∑ | ψ s | < ∑s =0 a b s =
+∞ +∞
< +∞ ,
s =0
1− b
ou seja, {ψ s } é absolutamente somável.
∇∇
9.3 - Processos ARMA
Processos auto-regressivos
No capítulo 3 foi introduzido o conceito de processo auto-regressivo de 1.ª or-

dem, (3.25), que, em certas condições, é um processo estacionário em covariância; no
mesmo capítulo, secção 3.10, também se referiu este tipo de processos, para modelar o
comportamento das variáveis residuais no modelo de regressão linear.
O objectivo desta secção é o de generalizar este conceito. Primeiro, vão ser estu-
dados os processos auto-regressivos de qualquer ordem; depois, analisam-se os proces-
sos mistos auto-regressivos e de médias móveis (processos ARMA).
Definição 9.6 – Processo auto-regressivo de ordem p

O processo estocástico { yt } é um processo auto-regressivo de ordem p se e só se
(9.43) yt = α + ϕ1 yt −1 + ϕ 2 yt −2 + L + ϕ p yt − p + ε t ,
onde {ε t } é um ruído branco e ϕ p ≠ 0 . Escreve-se, yt ~ AR ( p ) .
A expressão (9.43) pode apresentar-se utilizando o polinómio em L,

ϕ ( L) = 1 − ϕ1 L − ϕ 2 L2 − L − ϕ p Lp ,
obtendo-se
(9.44) ϕ ( L ) yt = α + ε t .
Quando se compara (9.43) com (9.4), conclui-se que se tem ainda uma equação
de diferenças linear de ordem p com coeficientes constantes, onde wt = α + ε t .
Vai começar-se por aprofundar o estudo dos processos auto-regressivos de 1.ª
ordem, ou seja,
(9.45) yt = α + ϕ yt −1 + ε t ⇔ (1 − ϕ L) yt = α + ε t ⇔ ϕ ( L) yt = α + ε t ,
onde ϕ ( L) = 1 − ϕ L .
Quando ϕ ≠ 1 , (9.45) pode escrever-se na forma
(1 − ϕ L)( yt − µ ) = ε t ⇔ yt − µ = ϕ ( yt −1 − µ ) + ε t ,
onde µ = α /(1 − ϕ ) .
Pretende-se encontrar uma solução estacionária em covariância, { yt } , para a
equação (9.45). Para isso, vão analisar-se três casos:
1) | ϕ | < 1 .
Como esta condição implica que o filtro
(1 − ϕ L) −1 = 1 + ϕ L + ϕ 2 L2 + L
é absolutamente somável [a sucessão {ϕ s } , para s = 0,1,2, K , é absolutamente so-
mável, com soma igual a 1 /(1 − ϕ ) ], pode fazer-se
(1 − ϕ L) −1 (1 − ϕ L)( yt − µ ) = (1 − ϕ L) −1 ε t ,
ou
yt = µ + (1 − ϕ L) −1 ε t = µ + (1 + ϕ L + ϕ 2 L2 + L)ε t = µ + ∑s =0 ϕ sε t −s .
+∞
(9.46)
Então, de acordo com o teorema 9.1, o processo { yt } , dado por (9.46), é conver-
gente em média quadrática e estacionário em covariância. Pode, ainda, concluir-se
que o processo AR(1), (9.45), é um processo linear, pois pode representar-se por
um processo MA(∞) . Naturalmente, (9.46) define o único processo estacionário em
covariância, solução da equação de diferenças estocástica, (9.45). Como a condição
de estabilidade | ϕ | < 1 garante que o processo { yt } é estacionário em covariância,
pode também chamar-se condição de estacionaridade.
Os momentos do processo AR(1) [valor esperado, autocovariâncias e coeficientes
de autocorrelação] podem ser determinados a partir dos resultados obtidos no teore-
ma 9.1. De acordo com a alínea b) deste teorema, tem-se E ( yt ) = µ .
Atendendo a (9.37) [teorema 9.1c)], obtém-se
ϕs γ
(9.47) γ s = (ϕ s + ϕ s +2 + ϕ s +4 + L)σ ε2 = σ ε2 2
e ρs = s = ϕ s ,
1−ϕ γ0
para s = 0, 1, 2, K . Em particular,
σ ε2
γ0 = .
1−ϕ 2
Estes momentos foram calculados baseados no facto do processo AR(1), a verificar
a condição de estacionaridade, se poder representar por um processo MA(∞) . Con-
tudo, supondo que { yt } é estacionário em covariância, é possível obter os mesmos
resultados directamente a partir de (9.45). Com efeito, tomando o valor esperado de
ambos os membros de (9.45),
E ( yt ) = α + ϕ E ( yt −1 ) + E (ε t ) ,
e fazendo E ( yt ) = E ( yt −1 ) = µ , obtém-se µ = α + ϕ µ + 0 , ou µ = α /(1 − ϕ ) .

Calculando o quadrado de ambos os membros de yt − µ = ϕ ( yt −1 − µ ) + ε t , vem
( yt − µ )2 = ϕ 2 ( yt −1 − µ ) 2 + 2ϕ ( yt −1 − µ )ε t + ε t2 .
Como yt −1 − µ = ε t −1 + ϕ ε t −2 + ϕ 2ε t −3 + L , tem-se
E{( yt − µ ) 2 } = ϕ 2 E{( yt −1 − µ ) 2 } + σ ε2 .
Fazendo γ 0 = ϕ 2γ 0 + σ ε2 , obtém-se γ 0 = σ ε2 /(1 − ϕ 2 ) .

Da mesma forma, para s = 1, 2, K , tem-se
( yt − µ )( yt − s − µ ) = ϕ ( yt −1 − µ )( yt − s − µ ) + ε t ( yt − s − µ ) .
Donde
E{( yt − µ )( yt − s − µ )} = ϕ E{( yt −1 − µ )( yt −s − µ )} .
Obtém-se, então, γ s = ϕ γ s −1 , e, portanto, γ s = ϕ s γ 0 .

Para s = 0, 1, 2, K , também se tem ρ s = ϕ s .
Considerando (9.45), facilmente se verifica que a projecção linear MQ de yt sobre
1 e yt −1 é dada por
E ∗ ( yt | 1, yt −1 ) = α + ϕ yt −1 .
Com efeito,
E ∗ ( yt | 1, yt −1 ) = α + ϕ yt −1 + E ∗ (ε t | 1, yt −1 )
−1
 1 E ( yt −1 )  E (ε t ) 
= α + ϕ yt −1 + [ 1 yt −1 ]  2   
 E ( yt −1 ) E ( yt −1 )  E ( yt −1ε t )
= α + ϕ yt −1 ,
uma vez que E (ε t ) = 0 e que E ( yt −1ε t ) = 0 [devido à solução (9.46)].

Note-se que não se tem necessariamente E ∗ ( yt | 1, yt −1 ) = E ( yt | yt −1 ) . De facto,
E ( yt | yt −1 ) = α + ϕ yt −1 + E (ε t | yt −1 ) .
No entanto, E ( yt −1ε t ) = 0 não implica E (ε t | yt −1 ) = 0 .

Fica ao cuidado do leitor verificar que E ∗ ( yt | 1, yt −1, yt − 2 ) = α + ϕ yt −1 .
2) | ϕ | > 1 .
Substituindo t por t + 1 em yt − µ = ϕ ( yt −1 − µ ) + ε t , e multiplicando ambos os
membros por ϕ −1 , obtém-se
yt − µ = ϕ −1 ( yt +1 − µ ) − ϕ −1ε t +1 ,
ou
(1 − ϕ −1L−1 )( yt − µ ) = −ϕ −1ε t +1 ,
atendendo a que L−1 yt = yt +1 . Como o filtro

(1 − ϕ −1L−1 ) −1 = 1 + ϕ −1 L−1 + ϕ −2 L−2 + L
é absolutamente somável [a sucessão {ϕ − s } , para s = 0, 1, 2, K , é absolutamente so-

mável, com soma igual a ϕ /(ϕ − 1) ], pode fazer-se
yt − µ = −(1 − ϕ −1 L−1 ) −1ϕ −1ε t +1 ,
ou
yt = µ − (1 + ϕ −1 L−1 + ϕ −2 L−2 + L) ϕ −1ε t +1 = µ − ∑s =1ϕ − sε t + s .

+∞
(9.48)
Então, o processo AR(1), { yt } , é estacionário em covariância, e representa-se por

um processo MA(∞) dos valores futuros do ruído branco, o qual não é muito útil
em Economia. Facilmente se verifica que E ( yt ) = µ (fica ao cuidado do leitor deter-
minar as autocovariâncias, γ s ).
Neste caso, não se verifica que E ∗ ( yt | 1, yt −1 ) = α + ϕ yt −1 , pois, de acordo com a so-
lução (9.48), não é verdade que E ( yt −1ε t ) = 0 .
3) | ϕ | = 1 .
Quando ϕ = 1 , tem-se yt = α + yt −1 + ε t . Note-se que, quando o ruído branco é
independente, este processo é um passeio aleatório com deriva ou constante, que é
um exemplo já conhecido de processo não estacionário (ver definição 3.11).
O processo { yt } não é estacionário em covariância. Com efeito, por substituição re-
cursiva, obtém-se
yt − yt −s = sα + (ε t + ε t −1 + L + ε t − s +1 ) .
Se o processo fosse estacionário em covariância, calculando a variância de ambos os

membros desta igualdade, obtinha-se 2(γ 0 − γ s ) = sσ ε2 , ou
γs sσ 2
ρs = = 1 − ε < −1 ,
γ0 2γ 0
para s suficientemente grande. Esta contradição mostra que { yt } não pode ser esta-
cionário em covariância.
Outra maneira de verificar a não estacionaridade do processo consiste em fixar a
condição inicial y0 , e notar que
yt = y0 + α t + (ε t + ε t −1 + L + ε1 ) .
Então, Var ( yt ) = σ ε2 t (para y0 fixo) cresce com t.

Note-se, também, que yt = α + yt −1 + ε t ⇔ (1 − L) yt = α + ε t e que o filtro
(1 − L) −1 = 1 + L + L2 + L
não é absolutamente somável.
Quando ϕ = −1 , vem yt = α − yt −1 + ε t . Fazendo, para simplificar, α = 0 , obtém-se
por substituição recursiva,
yt − (−1) s yt − s = ε t − ε t −1 + L + (−1) s −1ε t − s +1 .
Supondo que o processo é estacionário em covariância, o cálculo da variância de

ambos os membros desta igualdade daria 2γ 0 − 2(−1) s γ s = sσ ε2 , ou
sσ ε2
(−1) ρ s = 1 −
s
< −1 ,
2γ 0
para s suficientemente grande. Assim, tinha-se | ρ s | > 1 , o que leva a concluir que
{ yt } não pode ser estacionário em covariância.
No seguimento, salvo referência em contrário, a expressão “processo AR(1)” re-

fere-se à única solução estacionária em covariância da equação yt = α + ϕ yt −1 + ε t ,
quando | ϕ | < 1 (condição de estacionaridade).
Retome-se o estudo geral dos processos auto-regressivos de ordem p, consi-
derando, de novo, o polinómio em L, ϕ ( L) = 1 − ϕ1 L − ϕ 2 L2 − L − ϕ p Lp .
Se ϕ (1) = 1 − ϕ1 − ϕ 2 − L − ϕ p ≠ 0 , seja
α α
µ= = .
1 − ϕ1 − ϕ 2 − L − ϕ p ϕ (1)
Então, o processo AR ( p ) , (9.43), pode ser dado por

yt − µ = ϕ1 ( yt −1 − µ ) + ϕ 2 ( yt −2 − µ ) + L + ϕ p ( yt − p − µ ) + ε t ⇔ ϕ ( L)( yt − µ ) = ε t .
Supondo que as raízes de

ϕ ( z ) = 1 − ϕ1 z − ϕ2 z 2 − L − ϕ p z p
são, em módulo, superiores a 1 (verifica-se a condição de estabilidade ou de estacionari-

dade), sabe-se que o filtro
ψ ( L) = ϕ ( L) −1 = ψ 0 + ψ 1 L + ψ 2 L2 + L
é absolutamente somável [a sucessão {ψ s } , para s = 0, 1, 2, K , é absolutamente somá-
vel]. Então, tem-se
yt = µ + ψ ( L) ε t = µ + (ψ 0 + ψ 1 L + ψ 2 L2 + L)ε t = µ + ∑s =0ψ s ε t −s .
+∞
(9.49)
Tendo em atenção o teorema 9.1, pode concluir-se que:

− O processo AR ( p ) , { yt } , pode representar-se por um processo MA(∞) , ou seja, é
um processo linear.
− A solução (9.49) é a única solução estacionária em covariância da equação de dife-
renças estocástica (9.43).
− Tem-se
α
(9.50) E ( yt ) = µ = .
1 − ϕ1 − ϕ 2 − L − ϕ p
− As autocovariâncias, γ s , dadas por (9.37), são absolutamente somáveis.
Note-se que a estacionaridade em covariância exige ϕ (1) ≠ 0 , pois, caso contrá-

rio, ϕ ( z ) teria uma raíz igual a 1 (raíz unitária).
Salvo referência em contrário, a expressão “processo AR ( p ) ” refere-se à única

solução estacionária em covariância da equação (9.43), quando se verifica a condição de
estacionaridade.
Tal como se fez para o processo AR(1), os momentos, µ e γ s , podem ser calcu-
lados directamente de (9.43), tirando partido da estacionaridade em covariância.
Assim, fazendo E ( yt ) = E ( yt −1 ) = L = E ( yt − p ) = µ , obtém-se (9.50).
Para determinar as autocovariâncias e os coeficientes de autocorrelação, vai
começar-se pelo caso p = 2 , para facilitar a exposição.
Multiplicando ambos os membros de yt − µ = ϕ1 ( yt −1 − µ ) + ϕ 2 ( yt −2 − µ ) + ε t
por yt −s − µ , e calculando os respectivos valores esperados, obtém-se
(9.51) γ s = ϕ1γ s −1 + ϕ 2γ s −2 ( s = 1, 2,K ),
que constitui uma equação homogénea de diferenças linear de 2.ª ordem, com os mes-
mos coeficientes do processo AR(2) (as autocovariâncias seguem um “padrão dinâmi-
co” formalmente igual ao do próprio processo auto-regressivo).
Notando que γ 1 = ϕ1γ 0 + ϕ 2γ −1 = ϕ1γ 0 + ϕ 2γ 1 , uma vez que γ −1 = γ 1 , tem-se
ϕ1
γ1 = γ0,
1− ϕ2
bastando conhecer γ 0 para se ter a respectiva solução definida de (9.51).

Quando se dividem ambos os membros de (9.51) por γ 0 , obtém-se uma equação
semelhante relativa às autocorrelações
(9.52) ρ s = ϕ1ρ s −1 + ϕ2 ρ s − 2 ( s = 1, 2,K ).
Agora, tem-se ρ 0 = 1 e
ϕ1
ρ1 = .
1 − ϕ2
Os outros coeficientes de autocorrelação obtêm-se, por recorrência, utilizando

(9.52). Por exemplo,
ϕ12
ρ 2 = ϕ1 ρ1 + ϕ 2 ρ 0 = + ϕ2 .
1− ϕ2
Falta calcular a variância, γ 0 . Multiplicando por yt − µ ambos os membros de

yt − µ = ϕ1 ( yt −1 − µ ) + ϕ 2 ( yt −2 − µ ) + ε t , e calculando os respectivos valores esperados,
vem γ 0 = ϕ1γ 1 + ϕ 2γ 2 + σ ε2 ou γ 0 = ϕ1 ρ1γ 0 + ϕ 2 ρ 2γ 0 + σ ε2 . Então,
σ ε2 (1 − ϕ 2 )σ ε2
γ0 = = .
1 − ϕ1 ρ1 − ϕ 2 ρ 2 (1 + ϕ 2 ){(1 − ϕ 2 ) 2 − ϕ12 }
Considerando qualquer p, multiplica-se ambos os membros de

yt − µ = ϕ1 ( yt −1 − µ ) + ϕ 2 ( yt −2 − µ ) + L + ϕ p ( yt − p − µ ) + ε t
por yt −s − µ . Calculando os respectivos valores esperados, obtém-se

γ 0 = ϕ1γ 1 + ϕ2γ 2 + L + ϕ pγ p + σ ε2

(9.53) 
γ s = ϕ1γ s −1 + ϕ2γ s − 2 + L + ϕ pγ s − p ( s = 1, 2, K) .
Para s = 0,1, 2, K , p , e sabendo que γ − s = γ s , (9.53) é um sistema de p + 1 equa-

ções algébricas lineares nas incógnitas, γ 0 , γ 1 , γ 2 , K , γ p , em função dos parâmetros do
processo, ϕ1 , ϕ 2 , K , ϕ p , σ ε2 . As outras autocovariâncias obtêm-se, por recorrência, usan-
do a equação de diferenças dada pela segunda expressão de (9.53).
Dividindo esta expressão por γ 0 , tem-se
(9.54) ρ s = ϕ1 ρ s−1 + ϕ 2 ρ s−2 + L + ϕ p ρ s − p ( s = 1, 2,K ).
Verifica-se, assim, que as autocovariâncias e os coeficientes de autocorrelação

seguem a mesma equação de diferenças que a do próprio processo AR ( p ) . As relações
(9.53), para s = 1, 2, K , ou (9.54) são conhecidas pela designação de equações de Yule-
-Walker.
Processos ARMA
Os processos ARMA têm duas componentes dinâmicas:

− a componente auto-regressiva, ϕ1 yt −1 + ϕ 2 yt −2 + L + ϕ p yt − p ;
− a componente de médias móveis, θ 0ε t + θ1ε t −1 + θ 2ε t −2 + θ qε t −q .
Definição 9.7 – Processo ARMA

O processo estocástico { yt } é um processo ARMA( p, q ) se e só se
(9.55) yt = α + ϕ1 yt −1 + ϕ 2 yt −2 + L + ϕ p yt − p + θ 0ε t + θ1ε t −1 + θ 2ε t −2 + L + θ qε t −q ,
onde {ε t } é um ruído branco, ϕ p ≠ 0 , θ 0 = 1 e θ q ≠ 0 . Escreve-se, yt ~ ARMA( p, q ) .
O processo definido em (9.55) pode apresentar-se usando os polinómios em L,

ϕ ( L) = 1 − ϕ1 L − ϕ 2 L2 − L − ϕ p Lp ,
θ ( L) = 1 + θ1 L + θ 2 L2 + L + θ q Lq ,
obtendo-se
(9.56) ϕ ( L ) yt = α + θ ( L ) ε t .
Neste caso, tem-se a equação estocástica de diferenças linear de ordem p com
coeficientes constantes, onde wt = α + ε t + θ1ε t −1 + θ 2ε t −2 + L + θ qε t −q .
Seja
α α
µ= = ,
1 − ϕ1 − ϕ 2 − L − ϕ p ϕ (1)
supondo que ϕ (1) = 1 − ϕ1 − ϕ 2 − L − ϕ p ≠ 0 . Então,

yt − µ = ϕ1 ( yt −1 − µ ) + L + ϕ p ( yt − p − µ ) + ε t + θ1ε t −1 + L + θ qε t −q ,
ou
ϕ ( L)( yt − µ ) = θ ( L)ε t .
Se as raízes de ϕ (z ) são, em módulo, superiores a 1 (condição de estacionarida-

de), o filtro
ψ ( L) = ϕ ( L) −1θ ( L) = ψ 0 + ψ 1 L + ψ 2 L2 + L
é absolutamente somável [a sucessão {ψ s } , para s = 0,1, 2, K , é absolutamente somá-
vel]. Então,
yt = µ + ψ ( L) ε t = µ + (ψ 0 + ψ 1 L + ψ 2 L2 + L)ε t = µ + ∑s =0ψ s ε t − s .
+∞
(9.57)
Atendendo ao teorema 9.1, conclui-se que:

− O processo ARMA( p, q ) , { yt } , pode representar-se por um processo MA(∞) , sen-
do, portanto, um processo linear.
− A solução (9.57) é a única solução estacionária em covariância da equação de dife-
renças estocástica (9.55).
− E ( yt ) = µ , tal como em (9.50).
− Como ψ ( L) = ϕ ( L) −1θ ( L) é equivalente a ϕ ( L)ψ ( L) = θ ( L) , os termos da sucessão
{ψ s } são obtidos a partir das respectivas relações de convolução. Supondo, por
exemplo, que p < q + 1 , vem:
ψ0 =1
ψ 1 − ϕ1ψ 0 = θ1
ψ 2 − ϕ1ψ 1 − ϕ 2ψ 0 = θ 2
…
ψ p−1 − ϕ1ψ p−2 − ϕ 2ψ p −3 − L − ϕ p −1ψ 0 = θ p −1
ψ p − ϕ1ψ p −1 − ϕ 2ψ p−2 − L − ϕ p−1ψ 1 − ϕ pψ 0 = θ p
ψ p+1 − ϕ1ψ p − ϕ 2ψ p−1 − L − ϕ p−1ψ 2 − ϕ pψ 1 = θ p+1
…
ψ q − ϕ1ψ q−1 − ϕ 2ψ q−2 − L − ϕ p−1ψ q− p+1 − ϕ pψ q− p = θ q
ψ q+1 − ϕ1ψ q − ϕ 2ψ q −1 − L − ϕ p−1ψ q− p+ 2 − ϕ pψ q− p +1 = 0
….
Fica ao cuidado do leitor reconstituir as relações de convolução para q + 1 ≤ p .
Estas equações são facilmente resolúveis, obtendo-se
ψ 0 = 1 , ψ 1 = θ1 + ϕ1 , ψ 2 = θ 2 + ϕ 2 + θ1ϕ1 + ϕ12 ,….
Note-se que, para s ≥ s ∗ = max{ p, q + 1} , tem-se a equação homogénea de diferenças
linear de ordem p, com coeficientes ϕ1 , ϕ 2 , K , ϕ p ,
(9.58) ψ s − ϕ1ψ s −1 − ϕ 2ψ s −2 − L − ϕ p −1ψ s − p +1 − ϕ pψ s − p = 0 ,
isto é, a partir de s ∗ , a dinâmica dos coeficientes do processo ARMA( p, q ) é inteira-

mente governada pelos parâmetros da componente auto-regressiva.
− As autocovariâncias, γ s , dadas por (9.37), são absolutamente somáveis.
Quando se utilizar a expressão “processo ARMA( p, q ) ” está a referir-se, salvo

indicação em contrário, a única solução estacionária em covariância da equação (9.55),
quando se verifica a condição de estacionaridade. Note-se também que a estacionari-
dade do processo ARMA( p, q ) depende apenas dos parâmetros do processo auto-re-
gressivo, ϕ1 , ϕ 2 , K , ϕ p .
Vão apresentar-se as relações de convolução para três exemplos:
1) Processo ARMA(1,1): yt = α + ϕ yt −1 + ε t + θ ε t −1 .
Tem-se: ϕ ( L) = 1 − ϕ L ; θ ( L) = 1 + θ L .
Como ϕ ( L)ψ ( L) = θ ( L) , vem
(1 − ϕ L)(ψ 0 + ψ 1L + ψ 2 L2 + L) = 1 + θ L ,
ou
ψ 0 + (ψ 1 − ϕψ 0 ) L + (ψ 2 − ϕψ 1 ) L2 + L = 1 + θ L .
Donde
ψ 0 = 1

ψ 1 = ϕ + θ
ψ − ϕψ = 0 ( s = 2, 3, K) .
 s s −1
Neste caso, s∗ = 2 .
2) Processo ARMA(3,1): yt = α + ϕ1 yt −1 + ϕ2 yt − 2 + ϕ3 yt − 3 + ε t + θ ε t −1 .
Tem-se: ϕ ( L) = 1 − ϕ1L − ϕ2 L2 − ϕ3 L3 ; θ ( L) = 1 + θ L .
Então,
(1 − ϕ1L − ϕ2 L2 − ϕ3 L3 )(ψ 0 + ψ 1L + ψ 2 L2 + L) = 1 + θ L ,
ou
ψ 0 + (ψ 1 − ϕ1ψ 0 ) L + (ψ 2 − ϕ1ψ 1 − ϕ2ψ 0 ) L2 + (ψ 3 − ϕ1ψ 2 − ϕ2ψ 1 − ϕ3ψ 0 ) L3 + L = 1 + θ L .
Donde
ψ 0 = 1

ψ 1 = ϕ1 + θ
 2
ψ 2 = ϕ1 + ϕ1θ + ϕ2
ψ s − ϕ1ψ s −1 − ϕ 2ψ s − 2 − ϕ3ψ s − 3 = 0 ( s = 3, 4, K) .

3) Processo ARMA(1,2): yt = α + ϕ yt −1 + ε t + θ1ε t −1 + θ 2 ε t − 2 .
Tem-se: ϕ ( L) = 1 − ϕ L ; θ ( L) = 1 + θ1 L + θ 2 L2 .
Obtém-se
(1 − ϕ L)(ψ 0 + ψ 1L + ψ 2 L2 + L) = 1 + θ1 L + θ 2 L2 ,
ou
ψ 0 + (ψ 1 − ϕψ 0 ) L + (ψ 2 − ϕψ 1 ) L2 + (ψ 3 − ϕψ 2 ) L3 + L = 1 + θ1 L + θ 2 L2 .
Donde
ψ 0 = 1

ψ 1 = ϕ + θ1
 2
ψ 2 = ϕ + ϕθ1 + θ 2
ψ s − ϕψ s −1 = 0 ( s = 3, 4, K) .

Os momentos, µ e γ s , podem ser calculadas directamente a partir de (9.55), ti-

rando partido da estacionaridade em covariância. Continua a ter-se (9.50), considerando
a condição E ( yt ) = E ( yt −1 ) = L = E ( yt − p ) = µ .
Para determinar as autocovariâncias e os coeficientes de autocorrelação, co-
meça-se por multiplicar ambos os membros de
yt − µ = ϕ1 ( yt −1 − µ ) + L + ϕ p ( yt − p − µ ) + ε t + θ1ε t −1 + L + θ qε t −q ,
por yt −s − µ , e calcular os valores esperados. Para s > q , obtêm-se as equações de

Yule-Walker,
(9.59) γ s = ϕ1γ s −1 + ϕ 2γ s−2 + L + ϕ pγ s − p ( s = q + 1, q + 2, K ),
e
(9.60) ρ s = ϕ1 ρ s −1 + ϕ 2 ρ s −2 + L + ϕ p ρ s − p ( s = q + 1, q + 2, K ).
Assim, depois de q desfasamentos, as autocovariâncias (e os coeficientes de au-

tocorrelação) verificam uma equação de diferenças linear de ordem p, que apenas de-
pende dos parâmetros da componente auto-regressiva do processo ARMA.
Note-se que as relações (9.59) e (9.60) não se verificam para s ≤ q , devido à
correlação entre θ s ε t − s e yt − s . Assim, as autocovariâncias de ordem 1 a q no processo
ARMA( p, q ) são mais complicadas do que as correspondentes no processo AR ( p ) .
Por exemplo, considere-se o processo ARMA(1,1) [ p = q = 1 ]:
yt − µ = ϕ ( yt −1 − µ ) + ε t + θ ε t −1 .
Se se multiplicarem ambos os membros desta igualdade por yt − µ , por um la-

do, e por yt −1 − µ , por outro lado, obtém-se
( yt − µ ) 2 = ϕ ( yt −1 − µ )( yt − µ ) + (ε t + θ ε t −1 )( yt − µ )

( yt − µ )( yt −1 − µ ) = ϕ ( yt −1 − µ ) 2 + (ε t + θ ε t −1 )( yt −1 − µ ) .
Calculando os respectivos valores esperados, tem-se

γ 0 = ϕ γ 1 + E{(ε t + θ ε t −1 )( yt − µ )}

γ 1 = ϕ γ 0 + E{(ε t + θ ε t −1 )( yt −1 − µ )}.
A partir do processo ARMA(1,1), tem-se
yt −1 − µ = ϕ ( yt − 2 − µ ) + ε t −1 + θ ε t − 2 ,
yt − µ = ϕ 2 ( yt − 2 − µ ) + ε t + (ϕ +θ )ε t −1 + ϕ θ ε t − 2 .
Então,
E {ε t + θ ε t −1}{ϕ 2 ( yt − 2 − µ ) + ε t + (ϕ +θ )ε t −1 + ϕ θ ε t − 2 } = (1 + ϕθ + θ 2 )σ ε2 ,

 
e
E {ε t + θ ε t −1}{ϕ ( yt − 2 − µ ) + ε t −1 + θ ε t − 2} = θ σ ε2 .
 
Logo,
γ = ϕ γ + (1 + ϕθ + θ 2 )σ 2
 0 1 ε
 2
γ 1 = ϕ γ 0 + θ σ ε .
Resolvendo este sistema em relação a γ 0 e γ 1 , obtém-se

 1 + 2ϕθ + θ 2 2
γ
 0 = σε
 1−ϕ 2

γ = (1 + ϕθ )(ϕ + θ ) σ 2 .
 1 1−ϕ 2
ε
Se se multiplicarem ambos os membros de yt − µ = ϕ ( yt −1 − µ ) + ε t + θ ε t −1 por

yt −s − µ , para s = 2, 3, K , e se calcularem os respectivos valores esperados, facilmente
se obtém a relação de recorrência γ s = ϕ γ s −1 .
Fica ao cuidado do leitor obter as fórmulas das autocovariâncias referentes aos
processos ARMA(3,1) e ARMA(1,2).
Considere-se um processo ARMA( p, q ) estável, ϕ ( L)( yt − µ ) = θ ( L)ε t , e supo-
nha-se que os polinómios ϕ (z ) e θ (z ) têm r raízes comuns. Então, podem fazer-se as
factorizações ϕ ( z ) = η ( z ) ϕ ∗ ( z ) e θ ( z ) = η ( z ) θ ∗ ( z ) , onde η (z ) é um polinómio de grau
r, e os polinómios ϕ ∗ (z ) e θ ∗ (z ) têm, respectivamente, graus p − r e q − r .
Por exemplo, se há apenas uma raiz comum, z1 , tem-se
1
η ( z) = 1 − z.
z1
Se existem apenas duas raízes comuns, complexas conjugadas, z1 = a + ib e

z2 = a − ib , vem
 1  1  1 1 1 1 2a 1
η ( z ) = 1 − z  1 − z  = 1 −  +  z +  ×  z 2 = 1 − 2 2
z+ 2 2
z2 .
 z1   z2   z1 z2   z1 z2  a +b a +b
Como ϕ ( L) = η ( L) ϕ ∗ ( L) e θ ( L) = η ( L) θ ∗ ( L) , pode escrever-se

η ( L) ϕ ∗ ( L)( yt − µ ) = η ( L) θ ∗ ( L)ε t .
Como existe η ( L) −1 , tem-se

ϕ ∗ ( L)( yt − µ ) = θ ∗ ( L)ε t ,
ou seja, obtém-se outro processo ARMA( p − r , q − r ) .

Atendendo a que
ψ ( L) = ϕ ( L)−1θ ( L) = ϕ ∗ ( L)−1η ( L) −1η ( L) θ ∗ ( L) = ϕ ∗ ( L) −1θ ∗ ( L) ,

pode concluir-se que os dois processos ARMA são equivalentes, pois têm a mesma so-
lução estacionária em covariância, yt = µ + ψ ( L) ε t . Assim, por razões de parcimónia,
processos ARMA com raízes comuns são raramente usados para modelar processos
estacionários em covariância.
Função geradora das autocovariâncias
Um modo particularmente útil de sumarizar todo o perfil de autocovariâncias de

um processo estocástico estacionário em covariância é através da função geradora das
autocovariâncias.
Definição 9.8 – Função geradora das autocovariâncias

Considere-se um processo estocástico, { yt } , estacionário em covariância. Suponha-se
que a respectiva sucessão de autocovariâncias, {γ s } , é absolutamente somável. A fun-
ção geradora das autocovariâncias é dada por
g y ( z ) = ∑ s = −∞ γ s z s = γ 0 + ∑ s =1 γ s ( z s + z − s ) ,
+∞ +∞
(9.61)
notando que γ s = γ − s e z é uma variável complexa (escalar).
Tem particular interesse o caso em que o argumento desta função, z, pertence ao

círculo unitário, definido por | z | = 1 . Assim,
z = cos ω − i sen ω = exp{−iω} .
Se a função (9.61) tem por argumento estes valores de z e for dividida por 2π ,
tem-se uma função de ω , que se chama o espectro ou função densidade espectral de
{ yt } ,
1 1
s y (ω ) = g y (cos ω − i sen ω ) = g y (exp{−iω}) ,
2π 2π
onde ω se designa por frequência.
Pode verificar-se que o espectro é uma função com contradomínio em ℜ . Com
efeito, basta notar que
g y (cos ω − i sen ω ) = γ 0 + ∑s =1 γ s {(cos ω − i sen ω ) s + (cos ω − i sen ω )− s } ,

+∞
e que
(cos ω − i sen ω ) s + (cos ω − i sen ω )− s = cos( sω ) − i sen ( sω ) + cos(− sω ) − i sen (− sω )
= cos( sω ) − i sen ( sω ) + cos( sω ) + i sen ( sω )
= 2 cos( sω ) .
Então,
1 γ + 2 + ∞ γ cos( sω ) .
s y (ω ) =
2π  0 ∑s =1 s 
Pode demonstrar-se que para sucessões de autocovariâncias absolutamente so-

máveis, todas as autocovariâncias se podem calcular a partir do espectro, existindo uma
correspondência biunívoca entre a sucessão {γ s } e as funções g y (z ) ou s y (ω ) . Há,
portanto, equivalência entre a análise de domínio-tempo (que se concentra directamen-
te em {γ s } , tal como se fez até agora) e a análise de domínio-frequência (baseada na
interpretação do espectro). A escolha do tipo de análise depende da facilidade com que
se obtêm os resultados pretendidos. Para aprofundar esta questão, ver Hamilton (1994).
Se o processo é um ruído branco, {ε t } , é imediato verificar que g y ( z ) = σ ε2 .
No caso de um processo MA(1), dado por yt = µ + ε t + θ ε t −1 = µ + (1 + θ L)ε t ,
tem-se γ 0 = (1 + θ 2 )σ ε2 , γ 1 = γ −1 = θ σ ε2 e γ s = γ −s = 0 ( s = 2, 3, K ). Então,
g y ( z ) = γ −1 z −1 + γ 0 + γ 1 z = σ ε2 (θ z −1 + 1 + θ 2 + θ z ) = σ ε2 (1 + θ z )(1 + θ z −1 ) ,
ou
(9.62) g y ( z ) = σ ε2 θ ( z )θ ( z −1 ) ,
onde θ ( z ) = 1 + θ z .
O resultado (9.62) é imediatamente generalizável para os processos de médias
móveis de ordem q. Assim, considerando
yt = µ + θ ( L) ε t = µ + (1 + θ1 L + θ 2 L2 + L + θ q Lq ) ε t ,
tem-se
g y ( z ) = σ ε2 θ ( z )θ ( z −1 )
(9.63)
= σ ε2 (1 + θ1 z + θ 2 z 2 + L + θ q z q )(1 + θ1 z −1 + θ 2 z −2 + L + θ q z −q ) .
Basta fazer o produto indicado em (9.63), para obter as expressões de γ s do pro-

cesso MA(q ) .
Este resultado pode generalizar-se para os processos de médias móveis infini-
tos [Fuller (1996)]:
− Seja {ε t } um ruído branco e ψ ( L) = ψ 0 + ψ 1 L + ψ 2 L2 + L um filtro absolutamente
somável. Então, a função geradora das autocovariâncias do processo estocástico
MA(∞) , { yt } , onde yt = µ + ψ ( L) ε t , é dada por
g y ( z ) = σ ε2 ψ ( z )ψ ( z −1 )
(9.64)
= σ ε2 (ψ 0 + ψ 1 z + ψ 2 z 2 + L)(ψ 0 + ψ 1 z −1 + ψ 2 z −2 + L) .
Mais geralmente:
− Seja {xt } um processo estacionário em covariância, onde a sucessão das autocova-
riâncias é absolutamente somável, e g x (z ) a respectiva função geradora das autoco-
variâncias. Considere-se o processo estocástico { yt } , dado por yt = h( L) xt , onde o
filtro h( L) = h0 + h1 L + h2 L2 + L é absolutamente somável. Então, a função geradora
das autocovariâncias de { yt } é dada por
(9.65) g y ( z ) = h( z ) g x ( z ) h( z −1 ) .
− Considerando z = e − iω , e atendendo a (9.65), tem-se

g y (e− iω ) = h(e− iω ) g x (e − iω ) h(eiω ) .
Dividindo ambos os membros por 2π , obtém-se o espectro de { yt } que resulta da

filtragem com h(L) :
s y (ω ) = h(e− iω ) sx (ω ) h(eiω ) .
Considere-se o processo auto-regressivo de ordem p, estacionário em cova-

riância, { yt } , dado por ϕ ( L)( yt − µ ) = ε t . Como este processo se pode representar por
um MA(∞) , a função geradora das autocovariâncias é
σ ε2
(9.66) g y ( z) = .
ϕ ( z )ϕ ( z −1 )
Por exemplo, no caso AR(1), tem-se
σ ε2
g y ( z) = .
(1 − ϕ z )(1 − ϕ z −1 )
Pode verificar-se que se tem, de facto, a respectiva função geradora. Assim, no-
tando que
σ ε2
= σ ε2 (1 + ϕ z + ϕ 2 z 2 + L)(1 + ϕ z −1 + ϕ 2 z −2 + L) ,
(1 − ϕ z )(1 − ϕ z −1 )
o coeficiente de z s é
ϕs
σ ε2 (ϕ s + ϕ s +1ϕ + ϕ s +2ϕ 2 + L) = σ ε2 =γs.
1−ϕ 2
No caso de um processo ARMA( p, q ) , estacionário em covariância, dado por
ϕ ( L)( yt − µ ) = θ ( L)ε t , vem a seguinte função geradora das autocovariâncias:
σ ε2θ ( z ) θ ( z −1 )
(9.67) g y ( z) = .
ϕ ( z )ϕ ( z −1 )
Por exemplo, no caso ARMA(1,1), yt − µ = ϕ ( yt −1 − µ ) + ε t + θ ε t −1 , tem-se
σ ε2 (1 + θ z )(1 + θ z −1 )
g y ( z) = .
(1 − ϕ z )(1 − ϕ z −1 )
Invertibilidade
Considere-se o processo MA(1) dado por yt − µ = (1 + θ L)ε t . Supondo que

| θ | < 1 , o filtro
(1 + θ L) −1 = 1 − θ L + θ 2 L2 − θ 3 L3 + L
é absolutamente somável. Então,
(1 + θ L) −1 ( yt − µ ) = ε t ,
ou
µ
(9.68) yt = + θ yt −1 − θ 2 yt − 2 + θ 3 yt − 3 − L + ε t .
1+θ
Verifica-se, assim, que o processo MA(1) se pode representar por um processo
AR (∞) , desde que se verifique a condição | θ | < 1 . Diz-se, então, que o processo
MA(1) é invertível e | θ | < 1 é a condição de invertibilidade.
Quando se tem um processo MA(q ) , yt − µ = θ ( L)ε t , onde
θ ( L) = 1 + θ L + θ 2 L2 + L + θ q Lq ,
a condição de invertibilidade é que todas as raízes da equação
θ ( z) = 1 + θ z + θ 2 z 2 + L + θ q z q = 0 ,
se encontrem no exterior do círculo unitário. Nestas condições, o filtro
θ ( L) −1 = 1 + η1 L + η 2 L2 + η3 L3 + L
é absolutamente somável, e diz-se que o processo MA(q ) é invertível. A sua represen-
tação como AR (∞) é dada por θ ( L) −1 ( yt − µ ) = ε t , ou
µ
(9.69) yt + η1 yt −1 + η 2 yt − 2 + η3 yt − 3 + L = + εt ,
θ (1)
onde θ (1) = 1 + θ + θ 2 + L + θ q .
Em geral, quando se considera um processo ARMA( p, q ) ,
ϕ ( L)( yt − µ ) = θ ( L)ε t ,
onde ϕ ( L) = 1 − ϕ1 L − ϕ 2 L2 − L − ϕ p Lp , vai continuar a supor-se que θ (L) verifica a
condição de invertibilidade. Então, a respectiva representação como AR (∞) é
θ ( L) −1ϕ ( L)( yt − µ ) = ε t ,
ou
ϕ (1) µ
θ ( L) −1ϕ ( L) yt = + εt ,
θ (1)
onde ϕ (1) = 1 − ϕ1 − ϕ 2 − L − ϕ p .
Esta representação não exige que ϕ (L) verifique a condição de estabilidade. No
entanto, quando ambos os polinómios, ϕ (L) e θ (L) , verificam as respectivas condições
de invertibilidade, o processo ARMA( p, q ) , tanto pode ser representado por um
AR (∞) , como por um MA(∞) .
9.4 - Processos vectoriais
Os conceitos e os resultados apresentados nas duas secções anteriores podem es-

tender-se, sem dificuldade, ao caso dos processos vectoriais.
Antes de mais recorde-se a definição de ruído branco vectorial (ver capítulo 3,

definição 3.9). Diz-se que o processo estocástico vectorial, {ε •t } , onde ε •t é um vector
aleatório m × 1 , é um ruído branco se e só se:
E (ε •t ) = 0 ; Cov(ε •t ) = Σε ; Cov(ε •t , ε •,t − s ) = O ( s ≠ 0 ).
Naturalmente, a matriz Σε é definida positiva e, como não é diagonal, pode ha-

ver correlação (contemporânea) entre os elementos do ε •t .
A definição de processo vectorial de médias móveis de ordem q é a seguinte:
Definição 9.9 – Processo vectorial de médias móveis de ordem q

O processo estocástico vectorial, { y•t } , onde y•t é um vector aleatório m × 1 , é um pro-
cesso de médias móveis de ordem q se e só se
(9.70) y•t = µ + Θ 0 ε •t + Θ1 ε •,t −1 + Θ 2 ε •,t −2 + L + Θ q ε •,t −q ,
onde {ε •t } é um ruído branco, Θ s ( s = 0,1, 2, K , q ) é uma matriz quadrada de ordem m,

Θ 0 = I m e µ é um vector m × 1 de constantes. Escreve-se, y•t ~ VMA(q ) .
Fazendo
Θ( L) = I m + Θ1 L + Θ 2 L2 + L + Θ q Lq ,
(9.70) pode escrever-se da seguinte maneira:

(9.71) y•t = µ + Θ( L) ε •t .
Este processo é estacionário em covariância. Tem-se:

E ( y•t ) = µ ;
Γs = ∑i = 0 Θ s + i Σε ΘTi ( s = 0, 1, 2, K , q );
q −s
Γs = O ( s = q + 1, q + 2, K ),
onde Γs = Cov( y•t , y•,t − s ) é a matriz das autocovariâncias de ordem s. As fórmulas ante-
riores cobrem os casos em que s = −1,−2, K , porquanto Γ− s = ΓsT .
Por exemplo, para o processo VMA(1), y•t = µ + Θ 0 ε •t + Θ1ε •,t −1 , tem-se:
Γ0 = Cov( y•t ) = E (Θ0 ε •t + Θ1ε •,t −1 )(Θ0 ε •t + Θ1ε •,t −1 )T  = Θ0 Σε ΘT0 + Θ1 Σε Θ1T ;
 
Γ1 = Cov( y•t , y•,t −1 ) = E (Θ0 ε •t + Θ1ε •,t −1 )(Θ0 ε •,t −1 + Θ1ε •,t − 2 )T  = Θ1 Σε ΘT0 ;
 
Γs = O ( s = 2, 3, K) .
Antes de introduzir a definição de processo vectorial de médias móveis infinito,

convém apresentar o conceito de filtro matricial absolutamente somável.
Definição 9.10 – Filtro matricial absolutamente somável.

Considere-se o filtro,
(9.72) A( L) = A0 + A1L + A2 L2 + L ,
onde As ( s = 0, 1, 2, K ) é uma matriz de tipo m × n . Se α ijs é o elemento genérico da

matriz As , então o elemento genérico do filtro A(L) é dado pelo filtro (escalar)
α ij ( L) = α ij0 + α ij1 L + α ij2 L2 + L .
O filtro A(L) [a sucessão { As } ] é absolutamente somável se e só se cada filtro α ij (L)

[cada sucessão {α ijs } ] é absolutamente somável.
Definição 9.11 – Processo vectorial de médias móveis infinito

cesso de médias móveis infinito se e só se
(9.73) y•t = µ + Ψ0 ε •t + Ψ1 ε •,t −1 + Ψ2 ε •,t −2 + L ,
onde {ε •t } é um ruído branco, Ψs ( s = 0,1, 2, K ) é uma matriz quadrada de ordem m,

Ψ0 = I m , a sucessão {Ψs } é absolutamente somável e µ é um vector m × 1 de constan-
tes. Escreve-se, y•t ~ VMA(∞) .
A expressão (9.73) pode escrever-se como

(9.74) y•t = µ + Ψ ( L) ε •t ,
onde o filtro absolutamente somável, Ψ (L) , é dado por

Ψ ( L) = Ψ0 + Ψ1 L + Ψ2 L2 + L .
O teorema 9.1 pode ser generalizado para o caso dos processos VMA(∞) .
Com efeito, tem-se:
− Para cada t, y•t , dado por (9.73), é convergente em média quadrática.
− E ( y•t ) = µ .
− As matrizes das autocovariâncias são
Γs = ∑i = 0 Ψs + i Σε ΨiT ( s = 0,1,2, K ).
+∞
(9.75)
Esta fórmula abrange s = −1,−2, K , pois Γ− s = ΓsT .

− O processo { y•t } é estacionário em covariância.
− A sucessão das matrizes das autocovariâncias, {Γs } , é absolutamente somável.
Do mesmo modo, os resultados do teorema 9.2 podem ser generalizados aos

processos vectoriais. Assim:
− Seja {x•t } , onde x•t é um vector aleatório n × 1 , um processo estacionário em co-
variância, e A(L) , dado por (9.72), absolutamente somável. Para cada t,
y•t = A( L) x•t
é convergente em média quadrática.

− Se E ( x•t ) = µ x , então
µ = E ( y•t ) = µ x ∑ s = 0 As .
+∞
(9.76)
− Se Γsx é a matriz das autocovariâncias de ordem s do processo {x•t } , a matriz das

autocovariâncias respectiva do processo { y•t } é
Γs = ∑i = 0 ∑l = 0 Ai Γsx− i + l AlT .
+∞ +∞
(9.77)
− O processo { y•t } é estacionário em covariância.

− Se a sucessão das matrizes das autocovariâncias do processo {x•t } , {Γsx } , é absolu-
tamente somável, então também o é a sucessão das matrizes das autocovariâncias do
processo { y•t } , {Γs } .
Também se podem generalizar os conceitos de produto de filtros e de filtro in-

verso.
Sejam A(L) e B(L) dois filtros, em que as matrizes As do primeiro filtro são
de tipo m × r , e as matrizes Bs do segundo, são de tipo r × n . O filtro produto é dado
por D( L) = A( L) B( L) , onde as respectivas matrizes Ds , de tipo m × n , são obtidas a
partir das seguintes relações de convolução:
D0 = A0 B0
D1 = A0 B1 + A1 B0
D2 = A0 B2 + A1 B1 + A2 B0
…
Ds = A0 Bs + A1 Bs −1 + L + As −1 B1 + As B0
….
Facilmente se verifica que: o produto de filtros matriciais não é comutativo. Por
exemplo, considerando os filtros A( L) = I m + A1 L e B( L) = I m + B1 L , tem-se
A( L) B( L) = ( I m + A1 L)( I m + B1 L) = I m + ( A1 + B1 ) L + A1B1 L2 ,
B( L) A( L) = ( I m + B1 L)( I m + A1 L) = I m + ( B1 + A1 ) L + B1 A1 L2 ,
pelo que basta notar que, em geral, A1B1 ≠ B1 A1 .

Também se pode verificar que: se os filtros A(L) e B(L) são absolutamente so-
máveis, então D(L) é absolutamente somável.
Sejam A(L) e B(L) dois filtros, cujos coeficientes são matrizes quadradas de
ordem m. O filtro B(L) é inverso de A(L) se A( L) B( L) = I m . Escreve-se, então,
B( L) = A( L) −1 .
Para qualquer sucessão de matrizes quadradas, { As : s = 0, 1, 2, K} , o inverso do
filtro A(L) existe se A0 é não singular. Com efeito, basta considerar nas relações de
convolução, D0 = I m e Ds = O ( s = 1, 2, K) . Obtém-se:
B0 = A0−1 ; B1 = − A0−1 A1B0 ; B2 = − A0−1 A1B1 − A0−1 A2 B0 ; ...
Prova-se, sem dificuldade, que:

1) A(L) e A( L) −1 são permutáveis: A( L) A( L) −1 = A( L) −1 A( L) ;
2) A( L) B( L) = D( L) ⇔ B( L) = A( L) −1 D( L) ⇔ A( L) = D( L) B( L) −1 , desde que A0 e B0
tenham inversa;
3) { A( L) B( L)} −1 = B( L) −1 A( L) −1 , se existirem as inversas de A0 e B0 ;
4) O inverso de um filtro pode não ser absolutamente somável.
Considere-se o polinómio em L com coeficientes matriciais,

(9.78) Φ( L) = I m − Φ1 L − Φ 2 L2 − L − Φ p Lp ,
onde cada matriz Φ s , s = 1, 2, K , p , é quadrada de ordem m, e Φ p ≠ O .

O filtro inverso de Φ(L) existe, e pode ser determinado com as relações de con-
volução, embora não fique garantido que Ψ ( L) = Φ ( L) −1 seja absolutamente somável.
Pode, no entanto, generalizar-se o teorema 9.3:
• Se se verificar que todas as raízes da equação
(9.79) | I m − Φ1z − Φ 2 z 2 − L − Φ p z p | = 0
são, em módulo, maiores do que 1 (estão no exterior do círculo unitário), então o

filtro
Φ( L) −1 = Ψ ( L) = Ψ0 + Ψ1 L + Ψ2 L2 + L
é absolutamente somável.
A condição enunciada é a condição de estabilidade, que pode ser apresentada de
forma equivalente da seguinte maneira: as raízes da equação
(9.80) | I m z p − Φ1 z p −1 − L − Φ p −1z − Φ p | = 0
são, em módulo, menores do que 1 (estão no interior do círculo unitário).
Por exemplo, se m = 2 e p = 1 , tem-se Φ( L) = I 2 − ΦL , onde

ϕ ϕ12 
Φ =  11 .
ϕ 21 ϕ 22 
A equação (9.79) é a seguinte:
1 − ϕ11 z − ϕ12 z
= 1 − (ϕ11 + ϕ 22 ) z + (ϕ11ϕ 22 − ϕ 21ϕ12 ) z 2 = 0 .
− ϕ 21 z 1 − ϕ 22 z
Pode, agora, apresentar-se as definições de processo vectorial auto-regressivo e

de processo vectorial ARMA.
Definição 9.12 – Processo vectorial auto-regressivo ordem p

cesso auto-regressivo de ordem p se e só se
(9.81) y•t = α + Φ1 y•,t −1 + Φ 2 y•,t −2 + L + Φ p y•,t − p + ε •t ,
onde {ε •t } é um ruído branco, Φ s ( s = 1, 2, K , p ) é uma matriz quadrada de ordem m,

Φ p ≠ O e α é um vector m × 1 de constantes. Escreve-se, y•t ~ VAR ( p ) .
Se se utilizar (9.78), a expressão (9.81) pode apresentar-se do seguinte modo:

(9.82) Φ( L) y•t = α + ε •t .
Se existir a inversa da matriz Φ(1) = I m − Φ1 − Φ 2 − L − Φ p , pode fazer-se

(9.83) Φ( L)( y•t − µ ) = ε •t ,
onde µ = Φ(1) −1α .

Por exemplo, o processo VAR(1) bivariado ( m = 2 ) é um sistema de 2 equações
com três regressores comuns,
 y1t = α1 + ϕ11 y1,t −1 + ϕ12 y 2,t −1 + ε 1t

 y2t = α 2 + ϕ 21 y1,t −1 + ϕ 22 y 2,t −1 + ε 2t .
Em termos gerais, um processo VAR ( p ) m-variado é um sistema de m equa-
ções com m p + 1 regressores comuns.
Pode concluir-se que:
− Verificada a condição de estabilidade, o processo VAR ( p ) , { y•t } , pode representar-
-se por um processo VMA(∞) ,
y•t = µ + Φ ( L) −1ε •t = µ + Ψ ( L)ε •t = µ + ∑ s = 0 Ψsε •,t − s ,

+∞
(9.84)
onde Ψ ( L) = Φ ( L) −1 .
− Tem-se: E ( y•t ) = µ = Φ (1) −1α .
− A sucessão das matrizes das autocovariâncias, (9.75), é absolutamente somável.
Definição 9.13 – Processo VARMA

O processo estocástico, { y•t } , onde y•t é um vector aleatório m × 1 , é um processo
VARMA( p, q ) se e só se
(9.85) y•t = α + Φ1 y•,t −1 + L + Φ p y•,t − p + Θ 0ε •t + Θ1ε •,t −1 + L + Θ qε •,t −q ,
onde {ε •t } é um ruído branco, Φ s ( s = 1, 2, K , p ) é uma matriz quadrada de ordem m,

Φ p ≠ O , Θ r ( r = 0,1, 2, K , q ) é uma matriz quadrada de ordem m, Θ 0 = I m , Θ q ≠ O e
α é um vector m × 1 de constantes. Escreve-se, y•t ~ VARMA( p, q) .
Utilizando os polinómios Φ(L) e Θ(L) , tem-se

(9.86) Φ( L) y•t = α + Θ( L) ε •t ,
ou
(9.87) Φ( L)( y•t − µ ) = Θ( L) ε •t ,
onde µ = Φ(1) −1α .

Pode chegar-se às seguintes conclusões:
− Verificada a condição de estabilidade relativamente ao polinómio Φ(L) , o processo
VARMA( p, q ) , { y•t } , pode representar-se por um processo VMA(∞) ,
y•t = µ + Φ ( L) −1 Θ( L)ε •t = µ + Ψ ( L)ε •t = µ + ∑s =0 Ψs ε •,t − s ,

+∞
(9.88)
onde Ψ ( L) = Φ( L) −1 Θ( L) .
− Tem-se: E ( y•t ) = µ = Φ (1) −1α .
− A sucessão das matrizes das autocovariâncias, dadas por (9.75), é absolutamente
somável.
Finalmente, vai apresentar-se a definição de função geradora das matrizes das

autocovariâncias.
Definição 9.14 – Função geradora das matrizes das autocovariâncias

Seja { y•t } um processo estocástico vectorial estacionário em covariância. Supondo que
a sucessão das matrizes das autocovariâncias, {Γs } , é absolutamente somável, a função
geradora destas matrizes é
G y ( z ) = ∑s = −∞ Γs z s = Γ0 + ∑s =1 (Γs z s + ΓsT z − s ) ,
+∞ +∞
(9.89)
onde Γ− s = ΓsT e z é uma variável complexa (escalar).
Neste caso, o espectro do processo é dado por

1
S y ( z) = G y (exp{−iω}) .
2π
Facilmente se conclui que:
− Considere-se o processo estocástico estacionário em covariância, {x•t } , onde x•t é
um vector aleatório n × 1 e a sucessão das matrizes das autocovariâncias é absolu-
tamente somável. Seja Gx (z ) a respectiva função geradora destas matrizes. Suponha-
se que o processo estocástico { y•t } , onde y•t é um vector aleatório m × 1 , é definido
por y•t = A( L) x•t , onde A(L) é um filtro m × n absolutamente somável. Então, a
função geradora das matrizes das autocovariâncias de { y•t } é
(9.90) G y ( z ) = A( z ) Gx ( z ) A( z −1 )T .
Apresentam-se a seguir as funções geradoras das matrizes das autocovariâncias

para os vários processos estudados. Assim:
− Ruído branco vectorial: Gy (z ) = Σε ;
− VMA(q ) : G y ( z ) = Θ( z ) Σε Θ( z −1 )T ;
− VMA(∞) : G y ( z ) = Ψ ( z ) Σε Ψ ( z −1 )T ;
− VAR ( p ) : G y ( z ) = {Φ ( z ) −1}Σε {Φ ( z −1 )−1}T ;
− VARMA( p, q ) : G y ( z ) = {Φ ( z ) −1}{Θ( z )}Σε {Θ( z −1 )}T {Φ ( z −1 ) −1}T .
O estudo mais aprofundado dos processos estocásticos vectoriais pode ser feito
em Hamilton (1994), capítulos 10 e 11.
9.5 - Estimação de modelos auto-regressivos
Considere-se o processo AR(1), yt = α + ϕ yt −1 + ε t , onde {ε t } é um ruído bran-

co independente, a verificar a condição de estabilidade, | ϕ | < 1 . Nestas condições, como
se sabe, este processo é estritamente estacionário e ergódico [ver teorema 9.1, alínea f)]
e pode representar-se por um MA(∞) [ver (9.46)].
Fazendo
α 
xt • = [ 1 yt −1 ] e β =   ,
ϕ 
tem-se o modelo de regressão linear yt = xt • β + ε t .
Pode provar-se, sem dificuldade, que este modelo é MRL-RPD com homoce-
dasticidade condicionada. Com efeito, basta demonstrar que se verificam as hipóteses
RPD.1 a RPD.6:
− A linearidade (RPD.1) é óbvia.
− Como { yt } é estacionário e ergódico, vem imediatamente que {( yt , xt• )} é também
estacionário e ergódico (RPD.2).
− Como, devido a (9.46), yt −1 só depende de {ε t −1 , ε t −2 , K} , conclui-se que o regressor
yt −1 é pré-determimado (RPD.3): E ( yt −1ε t ) = 0 .
− Para verificar RPD.4 basta notar que
 1 yt −1  1 µ 
xtT• xt • =  2 
, Qxx = E ( xtT• xt• ) =  2
e | Qxx | = γ 0 > 0 .
 yt −1 yt −1  µ γ 0 + µ 
− Como yt −1 só depende de {ε t −1 , ε t −2 , K} , está garantida a homocedasticidade con-
dicionada (RPD.6): E (ε t2 | yt −1 ) = σ ε2 .
− A hipótese RPD.5 também se verifica. Seja,
g t • = xt•ε t = [ ε t yt −1ε t ] .
Para o primeiro elemento de g t• , tem-se:

E (ε t | g t −1,• , g t −2,• , K) = E (ε t | ε t −1 , ε t −2 , K , yt − 2ε t −1 , yt −3ε t −2 , K) = 0 ,
uma vez que {ε t } é iid e yt − s só depende de {ε t − s , ε t −s −1 , K}

Quanto ao segundo elemento de g t• , vem:
E ( yt −1ε t | g t −1,• , g t −2,• , K) = E{E ( yt −1ε t | yt −1 , g t −1,• , g t −2,• , K) | g t −1,• , g t −2,• , K}
= E{ yt −1 E (ε t | yt −1 , g t −1,• , g t −2,• , K) | g t −1,• , g t −2,• , K} = 0 ,
porque E (ε t | yt −1 , ε t −1 , ε t −2 , K , yt −2ε t −1 , yt −3ε t −2 , K) = 0 .

Fica, assim, provado que {g t • } = {(ε t , yt −1ε t )} é uma diferença-martingala.
No caso de homocedasticidade condicionada, tem-se que S = σ ε2Qxx , pelo que fica

garantido que a matriz S é não singular.
Então, as conclusões da secção 3.6 são aplicáveis a este modelo. Em particular:

− Para t = 1 , supõe-se que y0 faz parte da amostra. Fazendo
αˆ 
b= ,
ϕˆ 
e notando que γ 0 = σ ε2 /(1 − ϕ 2 ) , vem
γ + µ 2 − µ
Cov a (b) = σ ε2 Qxx−1 = (1 − ϕ 2 )  0 .
 −µ 1 
Donde
(9.91) Vara (ϕˆ ) = 1 − ϕ 2 .
− O estimador b é consistente e assintoticamente normal.

− Como
^
Vara (ϕˆ ) = 1 − ϕˆ 2 ,
o respectivo erro padrão é dado por
1 − ϕˆ 2
sϕˆ = .
n
Então, relativamente ao rácio-t, tem-se
n (ϕˆ − ϕ ) d
(9.92) tϕˆ = → N (0,1) .
1 − ϕˆ 2
− Um estimador consistente de σ ε2 é
1
∑
n
s2 = εˆ 2 ,
t =1 t
n−2
onde εˆt = yt − (αˆ + ϕˆ yt −1 ) .
Podem-se obter resultados semelhantes para os processos auto-regressivos de

ordem p, yt = α + ϕ1 yt −1 + ϕ 2 yt −2 + L + ϕ p yt − p + ε t , quando {ε t } é um ruído branco
independente e se verifica a respectiva condição estabilidade (todas as raízes de ϕ (z )
são, em módulo, superiores a 1). Neste caso, vem yt = xt • β + ε t , onde
α 
ϕ 
 1
xt• = [ 1 yt −1 yt −2 L yt − p ] e β = ϕ 2  .
 
M 
ϕ p 
 
Com um procedimento semelhante ao utilizado para o processo AR(1), pode

provar-se que o modelo de regressão linear precedente é também um MRL-RPD. As
hipóteses RPD.1, RPD.2, RPD.3 (todos os regressores são pré-determinados), RPD.5 e
RPD.6 são de fácil verificação.
Para verificar RPD.4, começa-se por notar que
 1 yt −1 yt − 2 L yt − p 
y yt2−1 yt −1 yt −2 L yt −1 yt − p 
 t −1
xt• xt• =  yt −2
T
yt −1 yt −2 yt2−2 L yt − 2 y t − p  .
 
 M M M M 
 yt − p yt −1 yt − p yt − 2 yt − p L yt2− p 

Então,
1 µ µ L µ 
µ γ + µ 2 γ1 + µ2 L γ p−1 + µ 2
 0
Qxx = E ( xtT• xt • ) =  µ γ 1 + µ L γ p −2 + µ 2  ,
2
γ0 + µ2
 
M M M M 
 µ γ p −1 + µ γ p −2 + µ 2
2
L γ0 + µ  2 

ou
1 µ eT 
Qxx =  2 T
,
 µ e V + µ ee 
onde
 γ0 γ1 γ2 L γ p−1 
1 γ
1  1 γ0 γ1 L γ p−2 
e =   e V = Cov( yt −1 , yt −2 , K , yt − p ) =  γ 2 γ1 γ0 L γ p−3  .
M   
  M M M M 
1 γ p−1 γ p −2 γ p−3 L γ 0 

Como
1 + µ 2 eT V −1e − µ eT V −1 
Qxx−1 =  −1 ,
 − µV e V −1 
facilmente se conclui que Qxx tem inversa, se e só se V é não singular. Como se pode
provar que V tem inversa, para qualquer p, se γ 0 > 0 e γ s → 0 , quando s → +∞ (situa-
ção que se verifica neste modelo, porque a sucessão {γ s } é absolutamente somável), ve-
rifica-se a hipótese RPD.4.
Pode, então, concluir-se que todos os resultados da secção 3.6 são válidos para
este modelo. Assim:
− O estimador MQ de β ,
 αˆ 
 ϕˆ 
 1
b = ϕˆ 2  ,
 
M 
ϕˆ p 
 
é consistente e assintoticamente normal.
− Tem-se
−1
^ 1 n 
2
Cov a (b) = σ ε Q −1
xx e Cov a (b) = s  ∑t =1 xtT• xt •  ,
2
n 
onde
1
∑
n
s2 = εˆ 2 e εˆt = yt − (αˆ + ϕˆ1 yt −1 + ϕˆ 2 yt −2 + L + +ϕˆ p yt − p ) .
t =1 t
n − p −1
− Nestes resultados parte-se do princípio que é possível observar y− p+1 , y− p+2 , K , y0 ,
quando t = 1, 2, K , p .
Os resultados anteriores supõem que a ordem da auto-regressão (o comprimen-

to do desfasamento) é conhecida. Como se deve proceder se a ordem p é desconheci-
da?
Antes de responder a esta questão, convém esclarecer que os resultados obtidos
para o processo auto-regressivo de ordem p, com coeficientes ( ϕ1 , ϕ 2 , K , ϕ p ) e estacio-
nário em covariância, são igualmente válidos para o processo auto-regressivo de ordem
r < p , com os mesmos coeficientes, ( ϕ1 , ϕ 2 , K , ϕ r ), desde que se verifique a condição
de estabilidade. Como se supõe que ϕ r ≠ 0 , e ϕ r +1 = ϕ r +2 = K = ϕ p = 0 , pode demons-
trar-se que os estimadores MQ destes coeficientes tendem em probabilidade para 0.
Suponha-se que o verdadeiro comprimento do desfasamento é p ( ϕ p ≠ 0 ), des-
conhecido, e apenas se sabe que p é menor ou igual a p ∗ , conhecido. Então, podem-se
propor critérios para estimar a verdadeira ordem de auto-regressão, a partir das estima-
tivas MQ dos coeficientes ( ϕ1 , ϕ 2 , K , ϕ p∗ ). Vão apresentar-se duas classes de critérios
para propor um estimador p̂ para p. Assim:
1) A regra sequencial, “do geral para o particular”, baseada em rácios-t.
Considera-se a auto-regressão com p ∗ desfasamentos, estimam-se os respectivos
coeficientes pelo método MQ e efectua-se o teste de nulidade do coeficiente relativo
ao desfasamento de ordem p ∗ , para um dado nível de significância (por exemplo,
0.10), utilizando o respectivo rácio-t; se a hipótese nula é rejeitada, o processo pára e
faz-se p̂ = p ∗ ; caso contrário, elimina-se o último desfasamento, e faz-se um teste
semelhante sobre o coeficiente do desfasamento de ordem p ∗ − 1 ; se a respectiva hi-
pótese nula é rejeitada, vem pˆ = p ∗ − 1 ; caso contrário, considera-se a auto-regressão
com p ∗ − 2 ; o procedimento pára quando a hipótese de nulidade do coeficiente do
desfasamento de ordem mais elevada for, pela primeira vez, rejeitada.
Como o teste do rácio-t é consistente, o comprimento estimado do desfasamento, p̂ ,

nunca pode ser inferior a p (o verdadeiro comprimento do desfasamento), para gran-
des amostras. Contudo, a probabilidade de sobre-ajustamento ( pˆ > p ) não é nula,
mesmo para grandes amostras. Assim,
lim P( pˆ < p ) = 0 e lim P( pˆ > p ) > 0 .
n→+∞ n→+∞
Para ilustrar estas propriedades, suponha-se que p = 2 e p ∗ = 3 . O procedimento se-

quencial inicia-se com a auto-regressão, yt = α + ϕ1 yt −1 + ϕ 2 yt −2 + ϕ 3 yt −3 + ε t , e testa-
-se hipótese ϕ 3 = 0 , supondo um nível de significância de 0.1. Em grandes amostras,
a hipótese (verdadeira) é rejeitada com probabilidade 0.1, e faz-se pˆ = 3 , ou ela é
aceite com probabilidade igual a 0.9. Neste caso, faz-se ϕ 3 = 0 , considera-se a auto-
regressão, yt = α + ϕ1 yt −1 + ϕ 2 yt −2 + ε t , e testa-se a hipótese ϕ 2 = 0 . Como p = 2
( ϕ 2 ≠ 0 é verdadeiro), o valor absoluto do rácio-t relativo à estimativa MQ de ϕ 2 é
muito elevado para grandes amostras, pelo que nunca se não rejeita esta hipótese
(falsa). Assim, P( pˆ = 2) = 0.9 e P( pˆ = 3) = 0.1 , para grandes amostras.
Existem duas variantes para a escolha do período da amostra, quando os dados dis-
poníveis são ( y1 , y 2 , K , yn ) . A primeira, consiste em estabelecer um período fixo pa-
ra t = p ∗ + 1, p ∗ + 2, K , n . A segunda variante, permite que o período amostral cresça
de uma observação à medida que se vão eliminando desfasamentos. Assim, quando a
auto-regressão tem s desfasamentos, toma-se t = s + 1, s + 2, K , n .
2) Os critérios de informação baseados em somas de quadrados de resíduos e na di-
mensão da amostra.
Estes critérios de informação escolhem o comprimento do desfasamento, s, que mi-
nimiza, para s = 0,1, 2, K , p ∗ ,
 SQR s  C ( n)
(9.93) ln   + ( s + 1) ,
 n  n
onde SQR s é a soma dos quadrados dos resíduos MQ para a auto-regressão com s
desfasamentos e C (n) é igual a 2 quando se considera o critério de informação de
Akaike (AIC), e é igual a ln(n) , para o critério de informação Bayesiano (BIC),
também conhecido por critério de informação de Schwartz (SIC).
Podem-se fazer os seguintes comentários:
a) Quando s cresce, a primeira parcela de (9.93) diminui e a segunda parcela au-
menta. Assim, os critérios de informação estabelecem um compromisso entre
um bom ajustamento e a parcimónia de coeficientes.
b) Se não se fixasse um limite superior p ∗ , o valor de s que minimiza (9.93) poderia
ser absurdamente elevado (note-se que para s = n − 1 , SQR s = 0 ).
c) Tal como no critério sequencial, o período amostral pode corresponder às duas
variantes referidas. Na primeira, tem-se a soma de n − p ∗ quadrados de resí-
duos; na segunda, cada SQR s é uma soma de n − s quadrados de resíduos. Em
qualquer das variantes, pode-se também substituir, em (9.93), n pela respectiva
dimensão da amostra (por exemplo, esta dimensão é n − p ∗ , na primeira varian-
te). Alguns autores recomendam, com base em estudos de simulação, a utilização

da primeira variante, tomando n − p ∗ para dimensão da amostra.
Designando por p̂AIC e p̂BIC os comprimentos do desfasamento obtidos pelos

critérios AIC e BIC, respectivamente, podem-se provar as seguintes propriedades:
a) Para amostras suficientemente grandes, pˆ BIC ≤ pˆ AIC (no caso da variante atrás re-
comendada, esta desigualdade é verdadeira para n ≥ p ∗ + 8 ).
b) Supondo que { yt } é um AR ( p ) estacionário e {ε t } é um ruído branco indepen-
dente, em que existe o quarto momento, então
plim( pˆ BIC ) = p , lim P( pˆ AIC < p ) = 0 e lim P( pˆ AIC > p ) > 0 .
n→+∞ n→+∞
Deste modo: p̂AIC verifica as mesmas propriedades que o estimador de p dado

pela regra sequencial; p̂BIC é consistente. Além disso, pode demonstrar-se que a
consistência de p̂BIC se mantém quando p ∗ cresce à taxa de ln(n) [isto é, quando
p ∗ é igual à parte inteira de c ln(n) , para qualquer c > 0 ].
Quando se considera um processo ARMA, definido por (9.55), estável, o mode-

lo de regressão linear respectivo é dado por
(9.94) yt = xt • β + ut ,
onde
α 
ϕ 
 1
xt• = [ 1 yt −1 yt −2 L yt − p ], β = ϕ 2 
 
M 
ϕ p 
 
e
ut = ε t + θ1ε t −1 + θ 2ε t −2 + L + θ qε t −q .
A variável residual ut , deste modelo, envolve dois problemas. O primeiro, diz

respeito ao facto de {ut } ser autocorrelacionado: ut ~ MA(q ) . O segundo problema tem
a ver com o facto de haver regressores que não são ortogonais às variáveis residuais. Es-
ta questão pode ser resolvida, utilizando variáveis instrumentais adequadas, que, neste
caso, são: ( yt − q −1 , yt − q − 2 , K ), para p ≤ q ; ( yt − p −1 , yt − p − 2 , K ), para p > q . No que se refe-
re ao primeiro, vai ver-se, nas secções 9.8 e 9.9, um método que permite obter um esti-
mador consistente do vector β ; conhecido este estimador, os parâmetros θ i podem ser
estimados, ainda que de forma não eficiente, a partir dos respectivos resíduos.
No caso de um processo vectorial auto-regressivo, a estimação dos respectivos
coeficientes é semelhante à dos processos (escalares) auto-regressivos. Por exemplo, no
caso de um processo VAR(2), onde y•t tem três elementos ( m = 3 , p = 2 ), tem-se
y•t = α + Φ1 y•,t −1 + Φ 2 y•,t −2 + ε •t ,
onde:
 y1t  α1  ϕ11(1) ϕ12(1) ϕ13(1)  ϕ11( 2) ϕ12( 2) ϕ13( 2 )   ε1t 
   
y•t =  y2t  ; α = α 2  ; Φ1 = ϕ 21
(1) (1)
ϕ 22 (1)
ϕ 23 ( 2) ( 2) (2)  
 ; Φ 2 = ϕ 21 ϕ 22 ϕ 23  ; ε •t = ε 2t  .
 y3t  α 3  ϕ 31
(1)
ϕ 32(1) ϕ 33(1)  ϕ 31
( 2)
ϕ 32( 2) ϕ 33( 2 )  ε 3t 
 
Pode, então, contruir-se um sistema de três equações de regressão com sete re-
gressores comuns,
 y1t = α1 + ϕ11(1) y1,t −1 + ϕ12(1) y2,t −1 + ϕ13(1) y3,t −1 + ϕ11( 2) y1,t −2 + ϕ12( 2 ) y2,t −2 + ϕ13( 2) y3,t −2 + ε 1t
 (1) (1) (1) (2) ( 2) ( 2)
 y2t = α 2 + ϕ 21 y1,t −1 + ϕ 22 y2,t −1 + ϕ 23 y3,t −1 + ϕ 21 y1,t −2 + ϕ 22 y2,t −2 + ϕ 23 y3,t −2 + ε 2t
 (1) (1) (1) ( 2) (2) ( 2)
 y3t = α 3 + ϕ 31 y1,t −1 + ϕ 32 y2,t −1 + ϕ 33 y3,t −1 + ϕ 31 y1,t −2 + ϕ 32 y2,t −2 + ϕ 33 y3,t −2 + ε 3t ,
ou
 y1t = δ 1• x•t + ε1t

 y2t = δ 2• x•t + ε 2t
y = δ x + ε ,
 3t 3• •t 3t
onde, para i = 1, 2, 3 ,
δ i• = [ α i ϕ i(•1) ϕ i(•2) ] é um vector 1× 7 ,
ϕ i(•1) é a linha i da matriz Φ1 ,
ϕ i(•2 ) é a linha i da matriz Φ 2 ,
e
 1 
x•t =  y•,t −1  .
 
 y•,t − 2 
Estes regressores (comuns às três equações) são ortogonais às respectivas variá-

veis residuais, ε it ( i = 1, 2, 3 ). Como se viu no capítulo 5, tem-se um modelo de regres-
são multivariada, o que permite obter δî• , aplicando a cada equação, separadamente, o
método MQ.
Considere-se, agora, p = 1 , com m qualquer, mas supondo que não há termos
independentes. O processo VAR(1) respectivo, y•t = Φ y•,t −1 + ε •t , pode ser apresentado
da seguinte maneira:
 y1t   ϕ11 ϕ12 L ϕ1m   y1,t −1   ε1t 

 y  ϕ ϕ22 L ϕ2 m   y2,t −1  ε 2t 
 =
2t  21
 + ,
 M   M M M  M   M 
 ymt  ϕm1 ϕ m 2    
   L ϕmm   ym,t −1  ε mt 
ou
yit = ϕi • y•,t −1 + ε it ( i = 1, 2, K , m ),
onde ϕi • é a linha i da matriz Φ . Trata-se de um sistema de m equações de regressão,

todas com os mesmos regressores, ortogonais às variáveis residuais (regressão multiva-
riada). Dispondo da amostra ( y•1 , y• 2 , K , y• n ) , o estimador MQ de ϕi • é dado por
−1
ϕî • =  ∑t = 2 yit y•T,t −1   ∑t = 2 y•,t −1 y•T,t −1 
n n
( i = 1, 2, K , m ),
  
e, portanto,
−1
ˆ =  ∑ n y yT   ∑ n y yT  .
Φ
 t = 2 •t •,t −1   t = 2 •,t −1 •,t −1 
Os raciocínios anteriores podem ser generalizados para qualquer m e qualquer
p. Passa, então, a ter-se
(9.95) yit = δ i• x•t + ε it ( i = 1, 2, K , m ),
onde δ i• = [ α i ϕ i(•1) ϕ i(•2) L ϕ i(•p ) ] é um vector 1 × (mp + 1) ,

e
 1 
y 
 •,t −1 
x•t =  y•,t −2  .
 
 M 
 y•,t − p 
 
Considerando o vector 1 × m(mp + 1) ,
δˆ = [ δˆ1• δˆ2• L δˆm• ],
e notando que Cov(ε •t ) = Vε , pode verificar-se que
.−1
^
1 n 
Cov a (δˆ ) = Vˆε ⊗  ∑t =1 x•t x•Tt  ,
n 
onde ⊗ é o símbolo do produto de Kronecker e
1
Vˆε = ∑ ˆ y +L+ Φ ˆ y ).
n
εˆ εˆ T e εˆ•t = y•t − (αˆ + Φ
t =1 •t •t 1 • ,t −1 p • ,t − p
n − mp − 1
Se não se conhece o comprimento do desfasamento, p, pode ser utilizado um
critério de informação para o estimar. Procura-se, então, minimizar, em relação a s, a
expressão
 1 n  C ( n)
ln  ∑t =1 εˆ•t εˆ•Tt  + ( sm 2 + m) ,
 n  n
com s = 0,1, 2, K , p ∗ ; C (n) tem o significado já conhecido.

9.6 - Modelos ARMAX
Nesta secção vão analisar-se mais alguns modelos econométricos dinâmicos.
Modelos com desfasamentos escalonados
Nos comentários feitos no capítulo 2 relativamente à hipótese REX.2 (exogenei-

dade estrita), foi referido o modelo de regressão linear com desfasamento escalonado
finito de ordem r, ou DL(r ) [DL significa Distributed Lags],
(9.96) yt = α + δ 0 xt + δ1 xt −1 + δ 2 xt − 2 + L + δ r xt − r + ut ,
que procura especificar uma relação que põe em destaque o facto das variações corren-
tes da variável explicativa se repercutirem contemporânea e diferidamente nos valores
da variável a explicar.
Um exemplo interessante consiste em considerar que o stock de capital no mo-
mento t (no final do período t), K t , depende dos investimentos correntes e desfasados
nos últimos r períodos, I t − s ( s = 0,1, 2, K , r ),
K t = K 0 + ∑ s =0 δ s I t − s + ut ,
r
onde K 0 é o stock inicial.

Utilizando o operador L, (9.96) pode apresentar-se do seguinte modo:
 yt = α + δ ( L) xt + ut
(9.97)  2
δ ( L) = δ 0 + δ1L + δ 2 L + L + δ r L .
r
Uma das hipóteses básicas do modelo DL(r ) é a exogeneidade estrita,

E (ut | x1 , x2 , K) = 0 (t = r + 1, r + 2, K) ,
ou seja, o valor esperado de ut não depende de x, para qualquer período. Esta condição
implica que ut não está correlacionado com x em qualquer período (passado, presente e
futuro).
Pode, no entanto, estabelecer-se uma hipótese mais fraca em que o valor de ut
não depende de x no presente e no passado (exogeneidade contemporânea e passada),
E (ut | xt , xt −1 , xt − 2 , K) = 0 .
Deste modo, ut não está correlacionado com x no presente e no passado, mas

pode estar correlacionado com x no futuro (por exemplo, x pode ser uma variável que
segue determinadas regras de política económica que depende de valores passados de
y).
Se o modelo não é dinamicamente completo, existe autocorrelação das variá-
veis residuais. Se o for, verifica-se a condição
E (ut | xt , xt −1 , yt −1, xt − 2 , yt − 2 , K) = 0 ,
ou
E ( yt | xt , xt −1, yt −1 , xt − 2 , yt − 2 , K) = E ( yt | xt , xt −1 , xt − 2 , K , xt − r ) .
Fazendo
α 
δ 
 0
 δ1 
xt• = [ 1 xt xt −1 xt − 2 xt − r ], β =   ,
δ 2 
M
 
δ r 
obtém-se o MRL yt = xt • β + ut .
Pode fazer-se a interpretação dos coeficientes, δ s ( s = 0,1, 2, K , r ), em termos
semelhantes ao que se fez na secção 9.1, isto é, medindo os efeitos dos desfasamentos
por meio de multiplicadores.
Assim, considerando o aumento temporário de x, de uma unidade no período t,
o efeito ceteris paribus de xt sobre yt + h ( h = 0,1, 2, K ) é medido pelo multiplicador
∂ yt + h
= δ h ( h = 0,1, 2, K ).
∂ xt
Em particular, δ 0 é o multiplicador de impacto.

Para uma correcta compreensão destes multiplicadores, considere-se que r = 2 ,
yt = α + δ 0 xt + δ1 xt −1 + δ 2 xt − 2 + ut .
Suponha-se também que, até ao período t − 1 , x é igual a c, no período t passa

para c + 1 , mas regressa ao valor c a partir do período t + 1 . Deste modo,
K , xt −1 = c, xt = c + 1, xt +1 = c, K .
Admitindo que ut = 0 , tem-se:

...
yt −1 = α + δ 0c + δ1c + δ 2c
yt = α + δ 0 (c + 1) + δ1c + δ 2c
yt +1 = α + δ 0c + δ1 (c + 1) + δ 2c
yt + 2 = α + δ 0c + δ1c + δ 2 (c + 1)
yt + 3 = α + δ 0c + δ1c + δ 2c
...
Assim, δ 0 (multiplicador de impacto) mede a variação imediata de y devido ao
aumento de uma unidade em x, no período t: δ 0 = yt − yt −1 . O mesmo aumento de x pro-
voca uma variação de y no período t + 1 (em relação ao valor no período t − 1 ) igual a
δ1 = yt +1 − yt −1 . De modo semelhante, para o período t + 2 , vem δ 2 = yt + 2 − yt −1 . No pe-
ríodo t + 3 , tem-se yt + 3 − yt −1 = 0 , uma vez que se admitiu que r = 2 .
Para sumarizar o efeito dinâmico de um aumento temporário de x é importante o
conceito de distribuição dos desfasamentos. Na prática, conhecendo estimativas dos
δ s , δˆs , pode apresentar-se a distribuição estimada dos desfasamentos representando

graficamente os pares ( s, δˆs ) , para s = 0, 1, 2, K , r .
Quando se verifica um aumento permanente de x, de uma unidade a partir do
período t, tem-se
∂ yt + h ∂ yt + h ∂ yt + h ∂y
+ + + L + t + h = δ 0 + δ1 + δ 2 + L + δ h ( h = 0,1, 2, K ).
∂ xt + h ∂ xt + h −1 ∂ xt + h − 2 ∂ xt
O multiplicador de longo prazo é dado por
MLP = δ 0 + δ1 + δ 2 + L + δ r = ∑s =1 δ s = δ (1) .
r
Considerando, de novo, r = 2 , e
K , xt −1 = c, xt = c + 1, xt +1 = c + 1, K
obtém-se:
...
yt −1 = α + δ 0c + δ1c + δ 2c
yt = α + δ 0 (c + 1) + δ1c + δ 2c
yt +1 = α + δ 0 (c + 1) + δ1 (c + 1) + δ 2c
yt + 2 = α + δ 0 (c + 1) + δ1 (c + 1) + δ 2 (c + 1)
yt + 3 = α + δ 0 (c + 1) + δ1 (c + 1) + δ 2 (c + 1)
...
Então,
yt − yt −1 = δ 0 , yt +1 − yt −1 = δ 0 + δ1 , yt + 2 − yt −1 = δ 0 + δ1 + δ 2 = MLP , yt + 3 − yt −1 = MLP , ...
Quando se faz a estandardização dos coeficientes δ s ,

δs
ωs = ( s = 0, 1, 2, K , r ),
δ (1)
o modelo pode ser apresentado da seguinte maneira:
 yt = α + δ (1)ω ( L) xt + ut
 2
ω ( L) = ω0 + ω1 L + ω 2 L + L + ω r L .
r
Pode, então, calcular-se o desfasamento médio,

δss
Dm = ∑s =0 = ∑s =0 ω s s .
r r
δ (1)
Como δ ′( L) = δ1 + 2δ 2 L + 3δ 3 L2 + L + rδ r Lr −1 , obtém-se
δ ′(1)
(9.98) Dm = .
δ (1)
O desfasamento mediano é dado por
0.50 − ∑s =0 ω s 0.50 − ∑s =0 ω s
l l
(9.99) D0.50 = l + =l+ ,

∑ ω − ∑s =0 ω s
l +1 l
ωl+1
s =0 s
supondo que
∑ ∑
l l+1
s =0
ω s ≤ 0.50 e s =0
ω s > 0.50 .
Facilmente se generaliza esta expressão para qualquer quantil.

Por exemplo, suponha-se que δ ( L) = 0.1 + 0.25L + 0.35L2 + 0.15 L3 + 0.05 L4 . En-
tão: MLP = δ (1) = 0.9 ; como δ ′( L) = 0.25 + 0.70 L + 0.45L2 + 0.20 L3 e δ ′(1) = 1.6 , o
desfasamento médio é Dm = 1.6 / 0.9 = 1.78 períodos.
Para obter o desfasamento mediano, considere-se o seguinte quadro:
s 0 1 2 3 4
ωs 0.11 0.28 0.39 0.17 0.05
∑
s
h =1
ωh 0.11 0.39 0.78 0.95 1.00
Então,
0.50 − 0.39
D0.50 = 1 + = 1.28 períodos.
0.39
Do mesmo modo, obtém-se, por exemplo,
0.90 − 0.78
D0.90 = 2 + = 2.71 períodos.
0.17
No modelo DL(r ) existem r + 2 coeficientes de regressão (o termo indepen-
dente, α , e os δ s , com s = 0, 1, 2, K , r ), que podem ser estimados pelo método MQ.
Contudo, existem duas dificuldades:
1) Em geral, há correlações substanciais entre os regressores ( xt , xt −1 , xt − 2 ,..., xt − r ). Esta
presença da multicolinearidade proporciona, em geral, estimativas individuais pou-
co precisas dos δ s . No entanto, deve notar-se que, mesmo nestas condições, pode ob-
ter-se, em muitos casos, uma estimativa razoável de MLP.
2) Muitas vezes, o comprimento do desfasamento, r, é desconhecido. O erro de espe-
cificação de r pode ter sérias consequências. Contudo, pode estimar-se r com os pro-
cedimentos indicados atrás para a estimação da ordem de auto-regressão nos modelos
AR ( p ) .
Um método que tem sido proposto para reduzir os efeitos da multicolinearidade

(conhecido pela designação de método do desfasamento escalonado polinomial de Al-
mon), consiste em reduzir o número de parâmetros, admitindo que δ s se pode exprimir
como uma função polinomial de s de grau conveniente l < r . Assim,
δ s = γ 0 + γ 1s + γ 2 s 2 + L + γ l s l ( s = 0,1, 2, K , r ).
Deste modo,
δ0 = γ 0
δ1 = γ 0 + γ 1 + γ 2 + L + γ l
δ 2 = γ 0 + 2γ 1 + 2 2 γ 2 + L + 2l γ l
...
δ r = γ 0 + rγ 1 + r 2 γ 2 + L + r l γ l ,
ou
δ = Hγ ,
onde
δ 0  1 0 0 L 0 γ 0 
δ  1 1 1 L 1  γ 
 1   1
δ = δ 2  , H = 1 2 22 L 2  e γ = γ 2  .
l
     
M M M M M M
δ r  1 r r2 l
L r  γ l 
Note-se que a matriz H é de tipo (r + 1) × (l + 1) .

Dispondo de uma amostra de dimensão n, tem-se
Y = α en − r + X 2 δ + U = X β + U ,
onde
α 
δ 
 yr +1  1 xr +1 xr L x1   0  ur +1 
y  1 x  u 
xr +1 L x2  α  δ1 
Y =  r + 2  , X = [ en − r X2]=  r +2
, β =  = , U =
r +2 
.
 M  M M M M δ  δ 2   M 
    M  
 yn  1 xn xń −1 L xr   un 
 
δ r 
Substituindo δ por Hγ , obtém-se o modelo transformado,

Y = α en − r + X 2 Hγ + U = α en − r + X 2∗ γ + U = X ∗ β∗ + U ,
onde
α 
γ 
 0
α   γ 1 
X 2∗ = X 2 H , X ∗ =  en − r X 2∗  e β∗ =   =   .
   γ  γ 2 
M
 
γ l 
Aplicando o método dos mínimos quadrados ao modelo transformado, obtém-se
γˆ , e, portanto, δˆ = Hγˆ .
Note-se que a reparametrização de δ para γ reduz o número de parâmetros de
r + 2 para l + 2 , o que implica a introdução de r − l restrições lineares. Como determi-
nar estas restrições? Como δ s é um polinómio em s de grau l , as diferenças de ordem

l + 1 são nulas, as quais definem as r − l restrições referidas.
Por exemplo, se δ s = γ 0 + γ 1s + γ 2 s 2 , facilmente se verifica que as terceiras dife-
renças são nulas. Assim,
∆3δ s = (1 − L) 3 δ s = (1 − 3L + 3L2 − L3 )δ s = δ s − 3 δ s −1 + 3 δ s −2 − δ s −3 = 0 ( s = 3, K , r ).
Então, as r − 2 restrições são as seguintes:

δ 3 − 3 δ 2 + 3 δ1 − δ 0 = 0
δ 4 − 3 δ 3 + 3 δ 2 − δ1 = 0
...
δ r − 3 δ r −1 + 3 δ r −2 − δ r −3 = 0 .
A matriz R, de tipo (r − 2) × r , das restrições é
− 1 3 − 3 1 0 L 0 0 0 0
 0 −1 3 −3 1 L 0 0 0 0
R= .
 M M M M M M M M M
 
 0 0 0 0 0 L −1 3 − 3 1
Muitas vezes, a estimação livre dos δ s fornece resultados muito diferentes dos
da estimação com restrições. Este é, sem dúvida, um inconveniente grave do método de
Almon.
Existem outras reparametrizações mais interessantes de (9.96) ou de (9.97).
Para isso, começa-se por considerar dois resultados preliminares sobre decomposições
de polinómios no operador de desfasamento:
1) Considere-se o polinómio de grau r em L,
δ ( L) = δ 0 + δ1 L + δ 2 L2 + L + δ r Lr = ∑s =0 δ s Ls .
r
Este polinómio pode ser decomposto da seguinte maneira:

δ ( L) = δ (1) + γ ( L)(1 − L) ,
onde
γ ( L) = γ 0 + γ 1 L + γ 2 L2 + L + γ r −1 Lr −1 = ∑i =0 γ i Li ,
r −1
e
γ i = −∑ r δ s = −(δ i +1 + δ i + 2 + L + δ r ) (i = 0,1, 2, K, r − 1)
s = i +1

γ r = 0 .
2) O polinómio de grau r em L,
δ ( L) = δ 0 + δ1 L + δ 2 L2 + L + δ r Lr = ∑s =0 δ s Ls ,
r
pode ser decomposto da seguinte maneira:

δ ( L) = δ (1) L + γ ( L)(1 − L) ,
onde
γ ( L) = γ 0 + γ 1 L + γ 2 L2 + L + γ r −1 Lr −1 = ∑i =0 γ i Li ,
r −1
e
γ 0 = δ 0

γ i = −∑s =i+1 δ s = −(δ i +1 + δ i+2 + L + δ r ) (i = 1, 2, K , r − 1)
r

γ r = 0 .
Fica ao cuidado do leitor verificar estas duas decomposições. No entanto, vão fa-
zer-se as deduções directas para r = 1 e r = 2 .
Quando r = 1 , tem-se δ ( L) = δ 0 + δ1 L . Para efectuar a primeira decomposição,
faz-se
δ ( L) = δ 0 + δ1 − δ1 + δ1 L = (δ 0 + δ1 ) − δ1 (1 − L) = δ (1) + γ 0 (1 − L) ,
onde γ 0 = −δ1 .
Quanto à segunda decomposição, tem-se
δ ( L) = δ 0 + δ 1 L + δ 0 L − δ 0 L = (δ 0 + δ1 ) L + δ 0 (1 − L) = δ (1) L + γ 0 (1 − L) ,
onde γ 0 = δ 0 .
Quando r = 2 , o polinómio é δ ( L) = δ 0 + δ1 L + δ 2 L2 . Para a primeira decompo-
sição, obtém-se
δ ( L) = δ 0 + δ1 + δ 2 − δ1 − δ 2 + δ 1 L + δ 2 L − δ 2 L + δ 2 L2
= (δ 0 + δ1 + δ 2 ) − (δ1 + δ 2 )(1 − L) − δ 2 L(1 − L)
= δ (1) + (γ 0 + γ 1 L)(1 − L) ,
onde γ 0 = −(δ1 + δ 2 ) e γ 1 = −δ 2 .
Para a segunda decomposição, vem
δ ( L) = δ 0 + δ 0 L + δ1 L + δ 2 L − δ 0 L − δ 2 L + δ 2 L2
= (δ 0 + δ1 + δ 2 ) L + δ 0 (1 − L) − δ 2 L(1 − L)
= δ (1) L + (γ 0 + γ 1 L)(1 − L) ,
onde γ 0 = δ 0 e γ 1 = −δ 2 .
Quando se considera o modelo DL(r ) , yt = α + δ ( L) xt + ut , e se utiliza a pri-
meira decomposição, obtém-se
yt = α + {δ (1) + γ ( L)(1 − L)} xt + ut
= α + δ (1) xt + γ ( L)(1 − L) xt + ut
= α + δ (1) xt + γ ( L) ∆xt + ut
= α + δ (1) xt + ∑i = 0 γ i ∆xt −i + ut
r −1
= α + δ (1) xt + γ 0 ∆xt + γ 1∆xt −1 + γ 2∆xt − 2 + L + γ r −1∆xt − r +1 + ut .
Para r = 1 , vem
yt = α + {(δ 0 + δ1 ) − δ1 (1 − L)}xt + ut = α + (δ 0 + δ1 ) xt − δ1 ∆xt + ut .
Para r = 2 , tem-se
yt = α + {(δ 0 + δ1 + δ 2 ) − (δ1 + δ 2 )(1 − L) − δ 2 L(1 − L)}xt + ut
= α + (δ 0 + δ1 + δ 2 ) xt − (δ1 + δ 2 ) ∆xt − δ 2 ∆xt −1 + ut .
Fica ao cuidado do leitor verificar directamente estas duas igualdades.

Usando a segunda decomposição, o modelo DL(r ) pode escrever-se da seguin-
te maneira:
yt = α + {δ (1) L + γ ( L)(1 − L)}xt + ut
= α + δ (1) xt −1 + γ ( L)(1 − L) xt + ut
= α + δ (1) xt −1 + γ ( L) ∆xt + ut
= α + δ (1) xt −1 + ∑i = 0 γ i ∆xt −i + ut
r −1
= α + δ (1) xt −1 + γ 0 ∆xt + γ 1∆xt −1 + γ 2∆xt − 2 + L + γ r −1∆xt − r +1 + ut .
Para r = 1 , tem-se
yt = α + {(δ 0 + δ1 ) L + δ 0 (1 − L)}xt + ut = α + (δ 0 + δ1 ) xt −1 + δ 0∆xt + ut .
Para r = 2 , resulta
yt = α + {(δ 0 + δ1 + δ 2 ) L + δ 0 (1 − L) − δ 2 L(1 − L)}xt + ut
= α + (δ 0 + δ1 + δ 2 ) xt −1 + δ 0 ∆xt − δ 2 ∆xt −1 + ut .
Fica ao cuidado do leitor verificar directamente estas duas igualdades.

Em qualquer dos casos, o modelo reparametrizado tem algumas vantagens:
1) Permite obter imediatamente uma estimativa do multiplicador de longo prazo, e da
variância do seu estimador.
2) A possível multicolinearidade do modelo original poderá ser substancialmente re-
duzida, uma vez que as correlações entre os regressores do modelo transformado
tendem a ser menores do que as correlações entre os regressores do modelo origi-
nal.
No modelo (9.96) ou (9.97) foi considerada apenas uma variável explicativa,

mas pode estender-se, sem dificuldade, para k variáveis explicativas:
yt = α + ∑ s1= 0 δ1s xt − s ,1 + ∑ s2= 0 δ 2 s xt − s , 2 + L + ∑ sk= 0 δ ks xt − s , k + ut .

r r r
Todas as considerações feitas para o modelo com uma variável, podem ser adap-
tadas imediatamente para o modelo com várias variáveis explicativas. A notação utiliza-
da passa a ser DL(r1 , r2 , K , rk ) . Outra notação muito usada continua a ser DL(r ) , onde
r = max{r1, r2 , K , rk } .
Este modelo também pode ser apresentado da seguinte maneira:
 yt = α + δ1 ( L) xt1 + δ 2 ( L) xt 2 + L + δ k ( L) xtk + ut
 2
δ1 ( L) = δ10 + δ11L + δ12 L + L + δ1r1 L
r1
 2
δ 2 ( L) = δ 20 + δ 21L + δ 22 L + L + δ 2 r2 L 2
r

L
δ ( L) = δ + δ L + δ L2 + L + δ Lrk .
 k k0 k1 k2 krk
O modelo com desfasamento escalonado infinito, DL(∞) , com uma variável

explicativa, pode ser formalizado da seguinte maneira:
(9.100) yt = α + δ 0 xt + δ1 xt −1 + δ 2 xt −2 + L + ut ,
onde δ h → 0 , quando h → +∞ (note-se que a sucessão {δ h } não é necessariamente de-

crescente).
Alternativamente, pode escrever-se
 yt = α + δ ( L) xt + ut
(9.101)  2
δ ( L) = δ 0 + δ1 L + δ 2 L + L ,
onde δ (L) é, agora, um filtro (série de potências de L).
Como este modelo tem uma infinidade de parâmetros, não pode ser estimado
sem introduzir restrições sobre os coeficientes δ h .
Os coeficientes δ h têm a mesma interpretação que no modelo DL(r ) . Assim,
quando se verifica o aumento temporário de uma unidade de x no período t, δ 0 é o
efeito de impacto, e qualquer δ h ( h = 1, 2, K ) é o efeito desfasado de h períodos. Se se
considerar um aumento permanente de uma unidade de x a partir do período t, δ 0 é o
multiplicador de impacto, e δ 0 + δ1 + L + δ h é o multiplicador ao fim de h períodos; o
multiplicador de longo prazo é dado por
MLP = δ 0 + δ1 + δ 2 + L = ∑h=0 δ h = δ (1) ,

+∞
a verificar
∑
+∞
h =0
| δ h | < +∞ .
Os desfasamentos médio e mediano são calculados de forma semelhante à do

modelo DL(r ) .
No modelo DL(∞) existe um número infinito de coeficientes, que não podem
ser estimados com um número finito de observações. Podem considerar-se dois tipos de
soluções para este problema:
1) Supor que δ h = 0 para h superior a uma certa ordem r. Neste caso, tem-se o modelo
DL(r ) .
2) Supor que os δ h são função de um número finito (em geral, reduzido) de parâme-
tros. Este tipo de solução vai ser explorado nas subsecções seguintes.
O modelo DL(∞) é, também, facilmente generalizado para várias variáveis ex-

plicativas.
Modelos ARMAX
Uma classe importante de modelos dinâmicos é a dos ARMAX( p, r , q ) ,

 yt = ϕ0 + ϕ1 yt −1 + ϕ2 yt − 2 + L + ϕ p yt − p + β 0 xt + β1xt −1 + β 2 xt − 2 + L + β r xt − r + ut
(9.102) 
ut = ε t + θ1ε t −1 + θ 2ε t − 2 + L + θ qε t − q ,
onde {ε t } é um ruído branco. Trata-se de um modelo auto-regressivo de ordem p, em

que as variáveis residuais seguem um processo de médias móveis de ordem q – modelo
ARMA( p, q ) –, a que se junta uma variável explicativa com desfasamento escalonado
de ordem r.
Fazendo
ϕ ( L) = 1 − ϕ1L − ϕ2 L2 − L − ϕ p Lp
 2
β ( L) = β 0 + β1L + β 2 L + L + β r L
r
 2
θ ( L) = 1 + θ1L + θ 2 L + L + θ q L ,
q
o modelo ARMAX( p, r , q ) pode escrever-se da seguinte forma:

(9.103) ϕ ( L) yt = ϕ0 + β ( L) xt + θ ( L) ε t .
Quando q = 0 , ou seja, ut = ε t , tem-se um modelo auto-regressivo com desfa-
samento escalonado finito, ou ARDL( p, r ) .
Muitos dos modelos dinâmicos já conhecidos são casos particulares de modelos
ARMAX. Assim, por exemplo:
− DL(r ) = ARMAX(0, r ,0) , desde que {ut } seja um ruído branco;
− AR ( p ) = ARMAX( p,0, 0) , com a restrição β 0 = 0 ;
− ARMA( p, q) = ARMAX( p,0, q ) , com a restrição β 0 = 0 ;
− ARDL( p, r ) = ARMAX( p, r ,0) .
Esta generalidade dos modelos ARMAX torna-os particularmente importantes

para a análise empírica que resulta da modelação de vários fenómenos económicos (em
particular, macroeconómicos) observados ao longo do tempo. Como muitos destes mo-
delos são casos particulares de um modelo geral, ARMAX( p, r , q ) , o procedimento que
parece ser o mais correcto é o de iniciar a análise com este modelo – em vez de tomar
como ponto de partida o modelo particular em questão –, e deixar que os dados “es-
colham” o modelo mais adequado (por meio de testes de certas restrições relativas aos
parâmetros do modelo). Esta análise “do geral para o particular” é retomada no final
desta secção.
No entanto, vai ilustrar-se as potencialidades deste procedimento considerando,
por exemplo, que o modelo geral é um ARDL(1,1) [ou ARMAX(1,1,0)],
yt = ϕ 0 +ϕ1 yt −1 + β 0 xt + β1 xt −1 + ε t ( | ϕ1 | ≤ 1 ),
onde {ε t } é um ruído branco.

Vão apresentar-se oito casos particulares deste modelo, impondo restrições sobre
os seus parâmetros [ver Hendry (1995), capítulo 7]:
1) O modelo de regressão linear simples estático, yt = ϕ 0 + β 0 xt + ε t , obtém-se com
as restrições ϕ1 = 0 e β1 = 0 .
2) O modelo auto-regressivo de 1.ª ordem, yt = ϕ 0 +ϕ1 yt −1 + ε t , decorre das restrições
β 0 = 0 e β1 = 0 .
3) O modelo nas primeiras diferenças das variáveis, ∆ yt = ϕ 0 + β 0 ∆ xt + ε t , resulta de
fazer ϕ1 = 1 e β 0 + β1 = 0 . Note-se que, neste caso, o modelo inicial não é estável.
4) O modelo de indicador avançado (leading indicator), yt = ϕ 0 + β1 xt −1 + ε t , corres-
ponde às restrições ϕ1 = 0 e β 0 = 0 .
5) O modelo de ajustamento parcial (ver adiante), yt = ϕ0 +ϕ1 yt −1 + β 0 xt + ε t , obtém-
-se com a restrição β1 = 0 .
6) Considere-se o modelo yt = α + β 0 xt + ut , onde ut =ϕ1 ut −1 + ε t ( | ϕ1 | < 1 ). Atendendo
a que ut =(1 − ϕ1 L ) −1 ε t , vem yt = α + β 0 xt + (1 − ϕ1 L) −1 ε t . Então,
(1 − ϕ1 L) yt = (1 − ϕ1 )α + β 0 (1 − ϕ1 L ) xt + ε t .
Como o mesmo polinómio 1 − ϕ1 L é aplicado a yt e a xt , este modelo é conhecido

pela designação de modelo de factores comuns.
Obtém-se, assim, o modelo ARDL(1,1),
yt = (1 − ϕ1 )α +ϕ1 yt −1 + β 0 xt + (1 − ϕ1 ) β 0 xt −1 + ε t ,
onde ϕ 0 = (1 − ϕ1 )α e β1 = (1 − ϕ1 ) β 0 .
7) O modelo DL(1), yt = ϕ0 + β 0 xt + β1 xt −1 + ε t , obtém-se fazendo ϕ1 = 0 .
8) O modelo dead start, yt = ϕ0 +ϕ1 yt −1 + β1 xt −1 + ε t , resulta de β 0 = 0 .
Facilmente se conclui que um processo ARMAX( p, r , q ) é estável se e só se o

polinómio ϕ (L) é invertível [as raízes da equação característica, ϕ ( z ) = 0 , estão no ex-
terior do círculo unitário (são, em módulo, superiores a 1)].
Um modelo ARMAX estável pode ser considerado um modelo de regressão li-
near, yt = xt • β + ut , onde
xt• = [ 1 yt −1 yt − 2 L yt − p xt xt −1 xt − 2 L xt − r ],
β T = [ ϕ 0 ϕ1 ϕ 2 L ϕ p β 0 β1 β 2 L β r ],
ut = ε t + θ1ε t −1 + θ 2ε t −2 + L + θ qε t −q .
Tal como nos modelos ARMA, a variável residual ut apresenta dois problemas,
mesmo que o regressor xt − s ( s = 0, 1, 2, K , r ) seja pré-determinado. O primeiro, diz res-
peito à autocorrelação de {ut } : ut ~ MA(q ) [ver secções 9.8 e 9.9]. O outro, tem a ver
com a existência de regressores endógenos. O problema é resolvido com a introdução de
variáveis instrumentais pertencentes às listas ( xt − r −1 , xt − r − 2 , K) ou ( yt − q−1 , yt −q−2 , K) .
Em (9.102) ou (9.103) considerou-se apenas uma variável explicativa, x, mas a
generalização é imediata quando há várias variáveis explicativas. Tem-se:
yt = α + ∑i =1ϕi yt − i + ∑ s1= 0 β1s xt − s ,1 + ∑ s2= 0 β 2 s xt − s , 2 + L + ∑ sk= 0 β ks xt − s , k + ut ,

p r r r
ou
ϕ ( L) yt = α + β1 ( L) xt1 + β 2 ( L) xt 2 + L + β k ( L) xtk + ut ,
onde
β1 ( L) = β10 + β11L + β12 L2 + L + β1r1 Lr1
 2
β 2 ( L) = β 20 + β 21L + β 22 L + L + β 2 r2 L 2
r

L
β ( L) = β + β L + β L2 + L + β Lrk .
 k k0 k1 k2 krk
Utilizam-se as notações ARMAX( p, r1 , r2 , K , rk , q ) ou ARMAX( p, r , q ) , onde

r = max{r1, r2 , K , rk } .
Relações entre modelos com desfasamento escalonado infinito e modelos ARMAX.
Começa-se por analisar um modelo simples. Considere-se um DL(∞) , (9.100)

ou (9.101), e a seguinte hipótese sobre os coeficientes:
(9.104) δ s = γ ϕ s , | ϕ | < 1 ( s = 0,1, 2,K ).
Verifica-se imediatamente que δ s → 0 , quando s → +∞ .
O modelo DL(∞) a verificar (9.104) designa-se por modelo com desfasamento
geométrico (Koyck) [Geometric Distributed Lag, GDL].
Substituindo (9.104) em (9.100), vem
yt = α + γ xt + γ ϕ xt −1 + γ ϕ 2 xt −2 + L + ut .
Como
ϕ yt −1 = αϕ + γ ϕ xt −1 + γ ϕ 2 xt − 2 + L + ϕ ut −1 ,
subtraindo ordenadamente as duas igualdades, obtém-se
(9.105) yt = α 0 + γ xt +ϕ yt −1 + vt ,
onde α 0 = α (1 − ϕ ) e vt = ut − ϕ ut −1 (os coeficientes de yt −1 e de ut −1 são simétricos). A

introdução das restrições (9.104) sobre os δ s transforma o modelo DL(∞) [com uma
infinidade de coeficientes] num modelo mais parcimonioso, com apenas três coeficien-
tes, (α , ϕ , γ ) .
Esta expressão pode ser obtida de outra forma, utilizando δ (L) . Com efeito, co-
mo
δ ( L) = γ + γ ϕ L + γ ϕ 2 L2 + L = γ (1 +ϕ L +ϕ 2 L2 + L) = γ ϕ ( L) ,
onde ϕ ( L) = 1 +ϕ L +ϕ 2 L2 + L , vem
yt = α + γ ϕ ( L) xt + ut .
Notando que ϕ ( L) = (1 − ϕ L) −1 , tem-se

(1 − ϕ L) yt = (1 − ϕ )α + γ xt + (1 − ϕ L)ut ,
ou
yt = α (1 − ϕ ) + γ xt + ϕ yt −1 + (ut − ϕ ut −1 ) ,
obtendo-se, assim, (9.105). Facilmente se conclui que

γ
MLP = δ (1) = ∑s =0 δ s = γ ∑
+∞ +∞
ϕs = .
s =0
1−ϕ
Admitindo exogeneidade contemporânea e passada de x, pode verificar-se que
yt −1 é um regressor endógeno. De facto,
Cov(vt , yt −1 ) = E (vt yt −1 ) = E{(ut − ϕ ut −1 )(α + γ xt −1 + γ ϕ xt −2 + L + ut −1 )}
= −ϕ Var (ut −1 ) = −ϕ σ u2 ≠ 0 .
Se ut = ε t (ruído branco), verifica-se, sem dificuldade, que o modelo com GDL

é um ARMAX(1,0,1). Neste caso, vt ~ MA(1) , com parâmetro igual ao simétrico do
coeficiente da componente auto-regressiva do processo. A variável instrumental de yt −1
é xt −1 .
O modelo com GDL pode ser formalizado com várias variáveis explicativas.
Exemplo 9.6 – Numa versão simplificada da função consumo de Friedman (1957) pro-
põe-se que o consumo, Ct , depende do rendimento permanente, Yt ∗ , definido como a
quantidade máxima de consumo que se pode fazer fixada uma determinada quantidade
de riqueza. Tem-se, então, Ct = β Yt ∗ + ut .
A consequência mais interessante desta concepção da função consumo resulta da
relação dinâmica existente entre a riqueza e os valores ao longo do tempo do rendimen-
to permanente. Assim, pode admitir-se que esta variável não observável se relaciona
com os valores observados do rendimento, Y, presente e passados, do seguinte modo:
Yt ∗ = δ 0Yt + δ1Yt −1 + δ 2Yt − 2 + L .
Assim, o rendimento permanente depende do rendimento observado segundo um

processo DL(∞) , sem termo independente e sem variável residual.
Admitindo que o desfasamento escalonado é geométrico, δ s = γ ϕ s , vem
Yt ∗ = γ Yt + γ ϕ Yt −1 + γ ϕ 2Yt − 2 + L = γ (1 +ϕ L +ϕ 2 L2 + L)Yt = γ (1 −ϕ L) −1Yt .
Note-se, também, que Yt ∗ = γ Yt +ϕ Yt ∗−1 .

Como Ct = β Yt ∗ + ut , obtém-se
Ct = β γ (1 −ϕ L)−1Yt + ut .
Multiplicando ambos os membros por 1 −ϕ L , resulta

Ct = β γ Yt + ϕ Ct −1 + (ut − ϕ ut −1 ) ,
o que mostra que o regressor Ct −1 é endógeno.

∇
Os resultados anteriores podem ser generalizados. Pode verificar-se que qual-

quer ARMAX( p, r , q ) estável, ϕ ( L) yt = ϕ 0 + β ( L) xt + vt , onde vt = θ ( L)ε t , é equiva-
lente a um modelo DL(∞) , yt = α + δ ( L) xt + ε t , onde {ε t } é um ruído branco, estabe-
lecendo determinadas restrições sobre os δ s .
Como existe ϕ ( L) −1 , tem-se
yt = ϕ ( L) −1ϕ 0 + ϕ ( L) −1 β ( L) xt + ϕ ( L) −1 vt .
Confrontando esta expressão com a do modelo DL(∞) , conclui-se que:

ϕ0 ϕ0
α = ϕ ( L) −1ϕ0 = = ;
ϕ (1) 1 − ϕ1 − ϕ 2 − L − ϕ p
δ ( L) = ϕ ( L) −1 β ( L) ou ϕ ( L)δ ( L) = β ( L) ;
ε t = ϕ ( L) −1 vt ou vt = ϕ ( L)ε t = ε t − ϕ1ε t −1 − ϕ 2ε t −2 − L − ϕ pε t − p .
Conclui-se, então, que θ ( L) = ϕ ( L) [e, portanto, p = q ]. Assim, tem-se um pro-

cesso ARMAX( p, r , p ) , onde os parâmetros do processo de médias móveis, {vt } , são,
respectivamente, os simétricos dos coeficientes da componente auto-regressiva do pro-
cesso.
A partir do modelo ARMAX( p, r , p ) , pode concluir-se que
β (1)
MLP = δ (1) = .
ϕ (1)
Notando que
β ( L) ϕ ( L) β ′( L) − ϕ ′( L) β ( L)
δ ( L) = e δ ′( L) = ,
ϕ ( L) ϕ ( L) 2
obtém-se
δ ′( L) ϕ ( L) β ′( L) − ϕ ′( L) β ( L) ϕ ( L) β ′( L) ϕ ′( L)
= × = − .
δ ( L) ϕ ( L) 2 β ( L ) β ( L) ϕ ( L)
Então, o desfasamento médio é dado por
δ ′(1) β ′(1) ϕ ′(1)
Dm = = − .
δ (1) β (1) ϕ (1)
Para exemplificar estes resultados, seja
yt = ϕ0 + ϕ1 yt −1 + β 0 xt + β1 xt −1 + vt ,
onde | ϕ1 | < 1 , ϕ ( L) = 1 − ϕ1 L e β ( L) = β 0 + β1 L , e o DL(∞) , yt = α + δ ( L) xt + ε t , on-

de {ε t } é um ruído branco.
Como
(1 − ϕ1 L) yt = ϕ 0 + ( β 0 + β1 L) xt + vt ,
obtém-se
yt = (1 − ϕ1 L) −1ϕ 0 + (1 − ϕ1 L) −1 ( β 0 + β1 L) xt + (1 − ϕ1 L) −1 vt ,
ou
ϕ0
yt = + (1 +ϕ1 L + ϕ12 L2 + L)( β 0 + β1 L) xt + (1 + ϕ1 L + ϕ12 L2 + L) vt
1 − ϕ1
ϕ
= 0 + β 0 ( xt +ϕ1 xt −1 + ϕ12 xt −2 + L) + β1 ( xt −1 + ϕ1 xt −2 + ϕ12 xt −3 + L)
1 − ϕ1
+ (vt + ϕ1vt −1 + ϕ12 vt −2 + L) .
Neste caso, tem-se

α = ϕ 0 /(1 − ϕ1 ) ;
vt + ϕ1 vt −1 + ϕ12 vt −2 + L = ε t ⇔ vt = ε t − ϕ1ε t −1 ~ MA(1) ;
ϕ ( L)δ ( L) = β ( L) ⇔ (1 − ϕ1 L)(δ 0 + δ1 L + δ 2 L2 + L) = β 0 + β1 L ,
concluindo-se que o modelo dado é um ARMAX(1,1,1).
Então,
yt = α + β 0 xt + ( β 0ϕ1 + β1 ) xt −1 + ϕ1 ( β 0ϕ1 + β1 ) xt −2 + ϕ12 ( β 0ϕ1 + β1 ) xt −3 + L + ε t .
Assim,
δ 0 = β0
δ1 = β 0ϕ1 + β1
δ 2 = ϕ1 ( β 0ϕ1 + β1 )
δ 3 = ϕ12 ( β 0ϕ1 + β1 )
L
As restrições sobre os δ s são, portanto,
δ s = ϕ1s −1 ( β 0ϕ1 + β1 ) ( s = 1, 2, 3, K ).
Fica ao cuidado do leitor mostrar que estas relações podiam ser obtidas a partir
da igualdade
(1 − ϕ1 L)(δ 0 + δ1 L + δ 2 L2 + L) = β 0 + β1 L .

β (1) β 0 + β1
MLP = = .
ϕ (1) 1 − ϕ1
Como ϕ ′( L) = −ϕ1 e β ′( L) = β1 , o desfasamento médio é
δ ′(1) β ′(1) ϕ ′(1) β1 ϕ β 0ϕ1 + β1
Dm = = − = + 1 = .
δ (1) β (1) ϕ (1) β 0 + β1 1 − ϕ1 (1 − ϕ1 )( β 0 + β1 )
Considere-se, agora, o modelo ARMAX estável
yt = ϕ 0 + ϕ1 yt −1 + ϕ 2 yt −2 + β 0 xt + β1 xt −1 + vt ,
onde
ϕ ( L) = 1 − ϕ1 L − ϕ 2 L2

 β ( L ) = β 0 + β1 L ,
que vai ser confrontado com um DL(∞) , yt = α + δ ( L) xt + ε t , onde {ε t } é um ruído
branco.
Utilizando a igualdade ϕ ( L)δ ( L) = β ( L) , tem-se
(1 − ϕ1 L − ϕ 2 L2 )(δ 0 + δ1 L + δ 2 L2 + L) = β 0 + β1 L .
Donde,
δ 0 + (δ1 − ϕ1δ 0 ) L + (δ 2 − ϕ1δ 1 − ϕ 2δ 0 ) L2 + (δ 3 − ϕ1δ 2 − ϕ 2δ1 ) L3 + L = β 0 + β1 L .
Então,
δ 0 = β 0 δ 0 = β 0
δ − ϕ δ = β δ = ϕ β + β
 1 1 0 1  1 1 0 1
δ 2 − ϕ1δ1 − ϕ 2δ 0 = 0 ou δ 2 = ϕ1δ1 + ϕ 2δ 0
δ − ϕ δ − ϕ δ = 0 δ = ϕ δ + ϕ δ
 3 1 2 2 1
 3 1 2 2 1
L L
Obtém-se, assim, um δ ( L) com restrições sobre os δ j :

− δ 0 e δ 1 são livres;
− δ s = ϕ1δ s −1 + ϕ 2δ s −2 ( s = 2, 3, K ).
Neste caso, tem-se

β (1) β 0 + β1
MLP = = .
ϕ (1) 1 − ϕ1 − ϕ 2
Como ϕ ′( L) = −ϕ1 − 2ϕ 2 L e β ′( L) = β1 , o desfasamento médio é dado por
δ ′(1) β ′(1) ϕ ′(1) β1 ϕ + 2ϕ 2 (ϕ + 2ϕ 2 ) β 0 + (1 + ϕ 2 ) β1
Dm = = − = + 1 = 1 .
δ (1) β (1) ϕ (1) β 0 + β1 1 − ϕ1 − ϕ 2 (1 − ϕ1 − ϕ 2 )( β 0 + β1 )
Expectativas adaptativas
Na literatura encontram-se muitos modelos dinâmicos em que algumas variáveis

não são observáveis. Por exemplo, o rendimento permanente na função consumo, a ex-
pectativa de inflação na função procura de moeda, o stock de capital desejado na função
investimento, o nível de produção óptimo na função de produção. Estas variáveis repre-
sentam valores de expectativa, níveis planeados ou desejados, ou montantes óptimos. A
impossibilidade (ou grande dificuldade) em dispor de observações para estas variáveis
impõe a necessidade de introduzir hipóteses complementares sobre os seus comporta-
mentos. As hipóteses estabelecidas pretendem relacionar os valores não observados com
a informação disponível.
A incorporação de variáveis explicativas sob a forma de valores de expectativa

não observados (ou não observáveis) é um procedimento frequente. Considere-se, por
exemplo, o seguinte modelo:
yt = α + β xt∗+1 + ut ,
onde xt∗+1 é valor expectativa em t + 1 da variável x. Por exemplo: a produção de uma

certa exploração agrícola em determinado ano depende do preço esperado no ano se-
guinte; a oferta de moeda em determinado período pode depender da taxa esperada de
inflação no período seguinte.
Existem vários modos simples de postular o comportamento de xt∗+1 . Por exem-
plo:
− Expectativas ingénuas: xt∗+1 = xt ;
− Expectativas com variação constante: xt∗+1 − xt = xt − xt −1 ;
− Expectativas extrapolativas: xt∗+1 = ω0 xt + ω1xt −1 + ω2 xt − 2 + L , ou xt∗+1 = ω ( L) xt ,
onde ω ( L) = ω0 + ω1L + ω2 L2 + L é um filtro.
No entanto, vai adoptar-se a hipótese das expectativas adaptativas,

(9.106) xt∗+1 − xt∗ = η ( xt − xt∗ ) , onde 0 < η < 1 .
O parâmetro η pode ser interpretado como um coeficiente de adaptação, uma

vez que a especificação das expectativas adaptativas traduz um processo de aprendiza-
gem com os erros anteriores.
Notando que
xt∗+1 = η xt + (1 − η ) xt∗ ,
verifica-se que xt∗+1 é uma média ponderada de xt e de xt∗ . Quando η → 1 , xt∗+1 → xt

(expectativas ingénuas); quando η → 0 , vem xt∗+1 → xt∗ (a expectativa não se modifica)
Assim, quanto maior for η , maior é a capacidade de adaptação.
Como
{1 − (1 − η ) L}xt∗+1 = η xt ,
obtém-se
xt∗+1 = η {1 − (1 − η ) L}−1 xt = η {1 + (1 − η ) L + (1 − η ) 2 L2 + L}xt
= η h( L) xt = η xt + η (1 − η ) xt −1 + η (1 − η )2 xt − 2 + L ,
onde
h( L) = {1 − (1 − η ) L}−1 = 1 + (1 − η ) L + (1 − η )2 L2 + L .
Então,
yt = α + β η h( L) xt + ut ,
verificando-se, assim, que as expectativas adaptativas conduzem a um modelo DL(∞) .

Multiplicando ambos os membros por h( L) −1 = 1 − (1 − η ) L , tem-se
yt = αη + β η xt + (1 − η ) yt −1 + ut − (1 − η ) ut −1 = α 0 + γ xt + (1 − η ) yt −1 + vt ,
onde α 0 = αη , γ = β η e vt = ut − (1 − η ) ut −1 .
Conclui-se imediatamente que se obtém um processo ARMAX(1,0,1), quando
ut = ε t (ruído branco). Note-se que se trata de um modelo com desfasamento escalona-
do geométrico com ϕ = 1 − η e γ = β η , ou seja, δ s = βη (1 − η ) s .
Para estimar os parâmetros deste modelo deve utilizar-se o método das variáveis
instrumentais, utilizando xt −1 como instrumento de yt −1 .
Exemplo 9.7 – Retome-se o exemplo 9.6. Suponha-se que o desfasamento escalonado

geométrico é dado por δ s = η (1 −η ) s [tem-se γ = η e ϕ = 1 −η ]. Então,
Yt ∗ = η Yt + η (1 − η )Yt −1 + η (1 − η ) 2 Yt − 2 + L = η{1 −(1 − η ) L}−1Yt ,
que é equivalente à hipótese das expectativas adaptativas,

Yt ∗ = η Yt + (1 −η )Yt ∗−1 ⇔ Yt ∗ − Yt ∗−1 = η (Yt − Yt ∗−1 ) .
Como Ct = β Yt ∗ + ut , obtém-se
Ct = β η{1 −(1 − η ) L}−1Yt + ut ,
ou
Ct = β η Yt + (1 − η )Ct −1 + {ut − (1 − η )ut −1} ,
onde Ct −1 continua a ser um regressor endógeno.

∇
Ajustamento parcial
Suponha-se, agora, que os valores de expectativa dizem respeito à variável a ex-

plicar. Para ilustrar esta situação, considere-se o modelo
yt∗ = α + β xt + ut ,
onde yt∗ é valor expectativa em t da variável y. Por exemplo: pretende-se modelar os ní-
veis desejados de investimento num modelo de acelerador flexível; procura-se explicar
os níveis desejados de stocks em função do volume de vendas.
Em muitos destes casos, introduz-se uma hipótese (do ajustamento parcial) que
visa representar a situação segundo a qual, período a período, existe convergência entre
os níveis desejados da variável a explicar e os níveis efectivamente observados. As cau-
sas do desajustamento podem atribuir-se às demoras na efectivação dos planos de inves-
timento, aos custos associados à realização dos processos produtivos, às falhas da gestão
empresarial, etc.
A hipótese do ajustamento parcial estabelece que
(9.107) yt − yt −1 = γ ( yt∗ − yt −1 ) , onde 0 < γ < 1 .
O parâmetro γ pode ser interpretado como um coeficiente de ajustamento en-

tre os valores desejados, yt∗ , e os valores observados, yt .
Notando que
yt = γ yt∗ + (1 − γ ) yt −1 ,
conclui-se que yt é uma média ponderada de yt∗ e de yt −1 . Quando γ → 1 , yt → yt∗

(ajustamento rápido); quando γ → 0 , vem yt → yt −1 (ajustamento lento) Assim, quanto
maior for γ , maior é a velocidade de ajustamento.
Note-se que (9.107) pode apresentar-se na forma
{1 − (1 − γ ) L} yt = γ yt∗ ,
ou
yt = γ {1 − (1 − γ ) L}−1 yt∗ = γ yt∗ + γ (1 − γ ) yt∗−1 + γ (1 − γ ) 2 yt∗− 2 + L .
Assim, por exemplo, o stock actual resulta da combinação dos stocks desejados
no presente e no passado.
yt = γ (α + β xt + ut ) + (1 − γ ) yt −1 ,
ou
yt = α γ + βγ xt + (1 − γ ) yt −1 + γ ut = α 0 + β 0 xt + (1 − γ ) yt −1 + vt ,
onde α 0 = α γ , β 0 = β γ e vt = γ ut .
Quando ut = ε t (ruído branco), o modelo obtido é um ARMAX(1,0,0). Os parâ-
metros podem ser estimados com o método MQ.
Pode também mostrar-se que a hipótese do ajustamento parcial também dá lugar
a um modelo DL(∞) . Com efeito, como
{1 − (1 − γ ) L} yt = α γ + βγ xt + vt ,
obtém-se
yt = α + βγ {1 − (1 − γ ) L}−1 xt + {1 − (1 − γ ) L}−1 vt
= α + βγ {1 + (1 − γ ) L + (1 − γ ) 2 L2 + L}xt + vt′
= α + βγ xt + βγ (1 − γ ) xt −1 + βγ (1 − γ ) 2 xt − 2 + L + vt′,
onde vt′ = {1 − (1 − γ ) L}−1 vt .
Exemplo 9.8 – A análise da procura de bens duradouros fornece um exemplo interes-

sante de utilização da hipótese do ajustamento parcial, conhecida pela designação de
modelo de ajustamento de stocks.
Suponha-se que
S t∗ = β 0 + β1 Pt + β 2 Gt + ut ,
onde: S t∗ é o nível desejado de stocks de um determinado bem duradouro (por exemplo,

capital fixo); Pt é o preço relativo do bem; Gt é a despesa real total.
A hipótese de ajustamento de stocks é a seguinte:
S t − S t −1 = γ ( S t∗ − S t −1 ) , onde 0 < γ < 1 .
Adicionalmente, introduza-se uma equação que traduz a depreciação do bem,

Dt . Supõe-se que a depreciação se faz a uma taxa d, constante e proporcional ao valor
do stock, Dt = d S t −1 .
Representando com Ct as compras no período t, tem-se
Ct = St − St −1 + Dt = St − St −1 + d St −1 = γ ( St∗ − St −1 ) + d St −1 ,
ou
Ct = β 0γ + β1γ Pt + β 2γ Gt + (d − γ ) St −1 + γ ut .
Como St −1 é o stock existente no princípio do período t, esta variável implica a

presença, como elemento explicativo das compras, de um factor representativo de inér-
cias passadas. Admitindo que o ajustamento (parcial) é relativamente rápido, é de espe-
rar que d < γ , ou seja, que o coeficiente de St −1 na equação das compras é negativo.
Segundo Houthakker e Taylor, a análise feita também é válida para bens não du-
radouros (bens de consumo) e para serviços. Neste caso, a variável S é interpretada
como um “stock psicológico” resultante da persistência dos hábitos de consumo; a taxa
de depreciação representa a taxa de diminuição dos hábitos, que são determinados fun-
damentalmente pelos gastos e pelas preferências. Como esta adaptação dos hábitos é,
em geral, lenta, pode esperar-se que d − γ > 0 .
Esta equação apresenta um problema de identificação, porque tem quatro coe-
ficientes para estimar cinco parâmetros ( β 0 , β1 , β 2 , γ , d ) . Este problema pode ser evita-
do, fixando um deles (em geral a taxa de depreciação), e estimando os outros.
Mesmo assim, não fica resolvido o problema principal da estimação, ou seja, o
da disponibilidade de informação sobre o nível de stocks. Alguns autores [Stone e Rowe
(1958, 1960); Nerlove (1958); Houthaker e Taylor (1970)] propõem a utilização da rela-
ção Ct = S t − S t −1 + d S t −1 para obter S t em função dos desfasamentos escalonados das
compras. Com efeito, como Ct = {1 − (1 − d ) L}S t , vem
S t = {1 − (1 − d ) L}−1 Ct = Ct + (1 − d )Ct −1 + (1 − d ) 2 Ct −2 + L .
Assim, o stock de capital é determinado pelas aquisições actuais e passadas, e

pela taxa de depreciação.
Substituindo esta expressão na equação das compras, obtém-se
Ct = β 0γ + β1γ Pt + β 2γ Gt + (d − γ ){1 − (1 − d ) L}−1 Ct −1 + γ ut .
Multiplicando ambos os membros por 1 − (1 − d ) L , vem

Ct = β 0γ d + β1γ Pt − β1γ (1 − d ) Pt −1 + β 2γ Gt − β 2γ (1 − d ) Gt −1 + (1 − γ ) Ct −1 + vt ,
onde vt = γ ut − γ (1 − d ) ut −1 . Se ut é um ruído branco, tem-se um ARMAX(1, 1, 1) .

Esta proposta não está isenta de dificuldades para a estimação dos parâmetros:
há um problema de sobre-identificação (seis coeficientes e cinco parâmetros estrutu-
rais); o regressor Ct −1 é endógeno, devido à existência de autocorrelação (as respectivas
variáveis instrumentais são Pt −2 e ou Gt −2 ).
Facilmente se verifica que a equação das compras se pode apresentar da seguinte
maneira:
∆ Ct = β 0γ d + β1γ ∆Pt + β1γ d Pt −1 + β 2γ ∆Gt + β 2γ d Gt −1 − γ Ct −1 + vt .

∇
A hipótese do ajustamento parcial pode ser deduzida a partir de um critério de

ajustamento óptimo, em que a penalização de comportamentos afastados do nível dese-
jado é caracterizada por uma função com duas componentes: a primeira, reflecte, para
cada período, o custo de divergência em relação ao valor desejado; a segunda, represen-
ta o custo associado com o esforço exigido nos sucessivos processos de ajustamento.
Formalmente, o problema consiste na minimização de uma função custo do tipo
a ( yt∗ − yt ) 2 + ( yt − yt −1 ) 2
C = ∑t =1
+∞
( a > 0 ),
(1 + i )t
onde i é a taxa de actualização (taxa de juro).

Fazendo i = 0 , para simplificar, para cada período t tem-se o seguinte custo de
ajustamento:
Ct = a ( yt∗ − yt ) 2 + ( yt − yt −1 ) 2 .
Para minimizar Ct em relação a yt , faz-se

∂Ct
= −2a ( yt∗ − yt ) + 2( yt − yt −1 ) = 0 .
∂ yt
Donde
a ∗ 1
yt = yt + yt −1 ,
a +1 a +1
isto é, obtém-se a equação do ajustamento parcial fazendo γ = a /(a + 1) .
Mecanismo de correcção do erro
Considere-se outro critério definidor do custo de ajustamento entre valores ob-

servados e valores desejados:
2
Ct = a ( yt∗ − yt ) 2 +  yt − { yt −1 + c ( yt∗ − yt∗−1 )} ( a > 0 ).
 
Esta função custo tem duas componentes: o custo associado com o desvio entre
o valor desejado e o valor observado; o custo associado com o desvio entre o valor ob-
servado corrente e desfasado, sendo este último corrigido por uma fracção da variação
dos níveis desejados da variável.
A minimização de Ct em relação a yt resulta do anulamento da respectiva deri-
vada parcial,
∂Ct
= −2a ( yt∗ − yt ) + 2  yt − { yt −1 + c ( yt∗ − yt∗−1 )} = 0 ,
∂ yt  
obtendo-se
(a + 1) yt = a yt∗ + yt −1 + c ( yt∗ − yt∗−1 ) = a yt∗ + yt −1 + c ∆yt∗ ,
ou
(9.108) yt = γ yt∗ + (1 − γ ) yt −1 + c(1 − γ )∆yt∗ ,
onde γ = a /(a + 1) .
Como yt∗ = α + β xt + ut e ∆yt∗ = β ∆ xt + (ut − ut −1 ) , vem
yt = γ (α + β xt + ut ) + (1 − γ ) yt −1 + c(1 − γ )( β ∆ xt + ut − ut −1 ) ,
ou
yt = α γ + β γ xt + β c(1 − γ )∆ xt + (1 − γ ) yt −1 + {γ + c(1 − γ )}ut − c(1 − γ ) ut −1 

 
= α 0 + β 0 xt + γ 0 ∆ xt + (1 − γ ) yt −1 + vt ,
onde α 0 = α γ , β 0 = β γ , γ 0 = β c (1 − γ ) e vt = {γ + c(1 − γ )}ut − c(1 − γ ) ut −1 .

Este modelo é um ARMAX(1,1,1) quando ut = ε t (ruído branco). Para estimar
os parâmetros deste modelo deve utilizar-se o método das variáveis instrumentais, utili-
zando xt − 2 como instrumento de yt −1 .
A condição (9.108) pode ser reformalizada. Assim, a partir de (9.108), tem-se
yt = γ yt∗ + yt −1 − γ yt −1 + c(1 − γ ) yt∗ − c(1 − γ ) yt∗−1 ,
ou
∆yt = γ yt∗ + γ yt∗−1 − γ yt∗−1 − γ yt −1 + c(1 − γ ) yt∗ − c(1 − γ ) yt∗−1
= { γ + c(1 − γ )} yt∗ − { γ + c(1 − γ )} yt∗−1 + γ ( yt∗−1 − yt −1 )
= { γ + c(1 − γ )}∆yt∗ + γ ( yt∗−1 − yt −1 ) .
Fazendo δ = γ + c(1 − γ ) = (a + c) /(a + 1) , obtém-se

(9.109) ∆yt = δ ∆yt∗ + γ ( yt∗−1 − yt −1 ) .
Verifica-se, assim, que a variação de y se decompõe em duas parcelas: a primei-

ra, é uma proporção da variação desejada; a segunda, corresponde à correcção do erro
observado. A condição (9.109) é a hipótese do mecanismo de correcção do erro
(MCE).
Como ∆yt∗ = β ∆ xt + (ut − ut −1 ) e yt∗−1 = α + β xt −1 + ut −1 , resulta que
∆yt = δ {β ∆ xt + (ut − ut −1 )} + γ (α + β xt −1 + ut −1 − yt −1 )
= α γ + β δ ∆ xt + γ ( β xt −1 − yt −1 ) + {δ ut + (γ − δ )ut −1},
ou
∆yt = β 0 ∆ xt + γ (α + β xt −1 − yt −1 ) + {δ ut + (γ − δ )ut −1} ,
onde β 0 = β δ .
Pode, então, concluir-se que a variação de y depende da variação de x (com peso
β 0 ), e de (α + β xt −1 ) − yt −1 , desvio entre o valor desejado no período t − 1 (eliminando
a respectiva variável residual: yt∗−1 − ut −1 ), e o valor observado de y no mesmo período,
yt −1 (com peso γ > 0 ). Este desvio mede até que ponto o valor desejado não é obtido. O
parâmetro γ pode ser interpretado como a parte do desvio que se reflecte na variação de
y no período seguinte. Assim, a segunda parcela, γ (α + β xt −1 − yt −1 ) , é habitualmente

designada por termo de correcção do erro. Por exemplo, se α + β xt −1 < yt −1 (o valor
observado é superior ao valor desejado), então, ceteris paribus, y decresce no período
seguinte, aproximando-se yt do valor desejado.
Quando c = 0 , tem-se δ = γ , e a hipótese MCE reduz-se à do ajustamento par-
cial; c = 1 implica δ = 1 , e a hipótese MCE pode apresentar-se do seguinte modo:
∆yt = ∆yt∗ + γ ( yt∗−1 − yt −1 ) ⇔ yt − yt∗ = γ ( yt −1 − yt∗−1 ) .
Neste caso, obtém-se

∆yt = β ∆ xt + γ (α + β xt −1 − yt −1 ) + { ut − (1 − γ )ut −1} .
Um modelo com mecanismo de correcção do erro pode, também, ser obtido me-
diante uma reparametrização de um modelo ARMAX estável, em que o valor deseja-
do é o equilíbrio estático de longo prazo, yte .
Por exemplo, começa-se por considerar o modelo ARMAX(1,1,0),
yt = ϕ0 +ϕ1 yt −1 + β 0 xt + β1 xt −1 + ε t ( | ϕ1 | < 1 ).
Note-se, antes de mais, que o equilíbrio estático de longo prazo verifica as con-
dições yte = yt = yt −1 , xt = xt −1 e ε t = 0 . Então, obtém-se
ϕ0 β + β1
yte = + 0 xt = λ0 + λ1 xt ,
1 − ϕ1 1 − ϕ1
onde λ0 = ϕ0 /(1 − ϕ1 ) e λ1 = ( β 0 + β1 ) /(1 − ϕ1 ) (note-se que λ1 é o multiplicador de lon-

go prazo).
São possíveis várias parametrizações equivalentes do modelo ARMAX(1,1,0),
mas a mais interessante é aquela que tem um mecanismo de correcção do erro.
Começa-se por subtrair a ambos os membros yt −1 ,
∆ yt = ϕ0 + (ϕ1 − 1) yt −1 + β 0 xt + β1 xt −1 + ε t ,
obtendo-se uma parametrização que não oferece qualquer vantagem especial.

Somando e subtraindo β 0 xt −1 ao segundo membro da igualdade anterior, tem-se
a forma de Barsden,
∆ yt = ϕ0 + (ϕ1 − 1) yt −1 + β 0 xt + β 0 xt −1 − β 0 xt −1 + β1 xt −1 + ε t
= ϕ0 + (ϕ1 − 1) yt −1 + ( β 0 + β1 ) xt −1 + β 0∆ xt + ε t ,
que permite determinar o MLP dividindo o coeficiente de xt −1 pelo simétrico do coefi-

ciente de yt −1 .
Se, alternativamente, for somado e subtraído β1xt ao segundo membro daquela
igualdade, vem
∆ yt = ϕ0 + (ϕ1 − 1) yt −1 + β 0 xt + β1 xt − β1 xt + β1 xt −1 + ε t
= ϕ0 + (ϕ1 − 1) yt −1 + ( β 0 + β1 ) xt − β1∆ xt + ε t ,
que possibilita a obtenção do MLP dividindo o quociente de xt pelo simétrico do coefi-

ciente de yt −1 .
O modelo com mecanismo de correcção do erro é imediatamente obtido a par-

tir da forma de Barsden, pondo em evidência ϕ1 − 1 nas três primeiras parcelas,
∆ yt = ϕ0 + (ϕ1 − 1) yt −1 + ( β 0 + β1 ) xt −1 + β 0 ∆ xt + ε t
 ϕ β + β1 
= (ϕ1 − 1)  yt −1 + 0 + 0 x  + β ∆x + ε
 ϕ1 − 1 ϕ1 − 1 t −1  0 t t
= (ϕ1 − 1)( yt −1 − λ0 − λ1 xt −1 ) + β 0 ∆ xt + ε t
= (ϕ1 − 1)( yt −1 − yte−1 ) + β 0 ∆ xt + ε t .
Deste modo, ∆yt depende de yt −1 − yte−1 (com coeficiente ϕ1 − 1 ) e de ∆ xt (com

coeficiente β 0 ). A diferença entre yt −1 e yte−1 mede até que ponto o equilíbrio de longo
prazo entre y e x não é satisfeito, e, por isso, designa-se por erro de equilíbrio.
O coeficiente ϕ1 − 1 é negativo devido à condição de estabilidade, e pode ser in-
terpretado como a proporção do desequilíbrio que se repercute na variação de y no pe-
ríodo seguinte. Em consequência, (ϕ1 − 1)( yt −1 − yte−1 ) é o termo de correcção do erro.
Por exemplo, se yt −1 < yte−1 (o valor corrente é menor de que o valor de equilíbrio), en-
tão, ceteris paribus, ∆yt > 0 ou yt > yt −1 (y cresce no período seguinte, aproximando-se
do valor de equilíbrio). Estas considerações permitem afirmar que o modelo incorpora
um feedback negativo que visa corrigir desequilíbrios passados para alcançar o equilí-
brio de longo prazo (mesmo que ∆ xt = 0 e ε t = 0 , ∆yt só se anula quando a solução de
equilíbrio é satisfeita, ou seja, quando yte = λ0 + λ1xt ). Pode concluir-se que a equação
com mecanismo de correcção do erro é essencialmente uma relação de ajustamento di-
nâmico de curto prazo, mas em que o ajustamento é comandado pela relação de equilí-
brio de longo prazo.
É interessante notar que o processo AR(1) estacionário, yt = ϕ0 + ϕ1 yt −1 + ε t , com
| ϕ1 | < 1 , é um modelo simples com MCE. Com efeito, tem-se
∆yt = (ϕ1 − 1)( yt −1 − ye ) + ε t ,
onde ye = ϕ0 /(1 − ϕ1 ) é o valor de equilíbrio de longo prazo. Então, como ϕ1 − 1 < 0 , e

se, por exemplo, yt −1 > yte−1 , então y decresce no período seguinte, aproximando-se do
valor de equilíbrio.
Voltando ao modelo ARMAX(1,1,0), pode, ainda, considerar-se mais duas for-
mas de o parametrizar. A primeira, é a forma homogénea, que é aparentada com a do
mecanismo de correcção do erro. Esta forma obtém-se a partir da forma de Barsden, so-
mando e subtraindo, ao segundo membro, (ϕ1 − 1) xt −1 ,
∆ yt = ϕ0 + (ϕ1 − 1) yt −1 + ( β 0 + β1 ) xt −1 + β 0 ∆ xt + ε t
= ϕ0 + (ϕ1 − 1) yt −1 + (ϕ1 − 1) xt −1 − (ϕ1 − 1) xt −1 + ( β 0 + β1 ) xt −1 + β 0 ∆ xt + ε t
= ϕ0 + (ϕ1 − 1)( yt −1 − xt −1 ) + ( β 0 + β1 + ϕ1 − 1) xt −1 + β 0∆ xt + ε t .
Comparando esta expressão com a do MCE, parece que o multiplicador de longo

prazo é igual a 1 (daí a designação forma homogénea); como, de facto, isto não sucede,
diz-se que a parcela ( β 0 + β1 + ϕ1 − 1) xt −1 “quebra a homogeneidade”.
A segunda, conhecida pela designação de forma de Bewley, obtém-se a partir

do modelo ARMAX(1,1,0), subtraindo ϕ1 yt a ambos os membros, e somando e sub-
traindo, ao segundo membro, β1xt . Assim,
yt − ϕ1 yt = ϕ0 − ϕ1 yt +ϕ1 yt −1 + β 0 xt + β1 xt − β1 xt + β1 xt −1 + ε t ,
ou
(1 − ϕ1 ) yt = ϕ0 − ϕ1∆ yt + ( β 0 + β1 ) xt − β1∆ xt + ε t ,
ou, ainda,
yt = γ ϕ0 − γ ϕ1∆ yt + γ ( β 0 + β1 ) xt − γ β1∆ xt + γ ε t ,
onde γ = 1 /(1 − ϕ1 ) . Neste caso, o MLP é o coeficiente de xt . Note-se, no entanto, que o

regressor ∆yt é endógeno.
Qualquer uma das formas referidas (Barsden, MCE, homogénea, Bewley, etc.)
para parametrizar o modelo ARMAX(1,1,0) pode fornecer estimativas dos parâmetros
estruturais deste modelo. A forma privilegiada é, contudo, a de Barsden pelas seguintes
razões:
1) Fornece imediatamente uma estimativa para o coeficiente de ajustamento de curto
prazo, ϕ1 − 1 .
2) Permite obter facilmente uma estimativa do MLP, conforme já descrito.
3) É preferível ao próprio modelo ARMAX(1,1,0) porque pode atenuar os problemas de
multicolinearidade.
Em geral, pode provar-se que qualquer modelo ARMAX( p, r , q ) estável,

ϕ ( L) yt = ϕ0 + β ( L) xt + ut ,
pode ser reparametrizado de forma a obter um modelo com MCE.
Como se sabe, o polinómio de grau r em L,
β ( L) = β 0 + β1L + β 2 L2 + L + β r Lr = ∑s = 0 β s Ls ,
r
pode ser decomposto da seguinte maneira:

β ( L) = β (1) L + γ ( L)(1 − L) ,
onde
γ ( L) = γ 0 + γ 1L + γ 2 L2 + L + γ r −1Lr −1 = ∑i = 0 γ i Li ,
r −1
e
γ = β
 0 0

γ i = −∑ s = i +1 β s = −( β i +1 + β i + 2 + L + β r ) (i = 1, 2, K , r − 1)
r

γ r = 0 .

De forma semelhante pode decompor-se o polinómio de grau p em L,
ϕ ( L) = 1 − ϕ1L − ϕ2 L2 − L − ϕ p Lp = 1 − ∑h =1ϕh Lh .
p
Assim, tem-se
ϕ ( L) = ϕ (1) L + α ( L)(1 − L) ,
onde
α ( L) = 1 − α1L − α 2 L2 − L − α p −1Lp −1 = 1 − ∑ g =1α g Lg ,
p −1
e

α g = −∑ h = g +1ϕh = −(ϕ g +1 + ϕ g + 2 + L + ϕ p ) ( g = 1, 2, K , p − 1)
p

α p = 0 .

Começa-se por notar que
ϕ0 β (1)
yte = + xt = λ0 + λ1xt ,
ϕ (1) ϕ (1)
onde λ0 = ϕ0 / ϕ (1) e λ1 = β (1) / ϕ (1) (multiplicador de longo prazo).
Substituindo, no modelo ARMAX, as decomposições referidas de ϕ (L) e de
β (L) , obtém-se
{ϕ (1) L + α ( L)(1 − L)} yt = ϕ0 + {β (1) L + γ ( L)(1 − L)}xt + ut ,
ou
ϕ (1) yt −1 + α ( L)∆yt = ϕ0 + β (1) xt −1 + γ ( L)∆xt + ut ,
ou, ainda,
   
ϕ (1) yt −1 + 1 − ∑ g =1α g Lg  ∆yt = ϕ0 + β (1) xt −1 +  ∑i = 0 γ i Li  ∆xt + ut .
p −1 r −1
   
Então, a forma de Barsden é dado por
 p −1   r −1 
∆yt = ϕ0 − ϕ (1) yt −1 +  ∑ g =1α g Lg  ∆yt + β (1) xt −1 +  ∑i = 0 γ i Li  ∆xt + ut ,
   
ou
∆yt = ϕ0 − ϕ (1) yt −1 + α1∆yt −1 + α 2∆yt − 2 + L + α p −1∆yt − p +1
+ β (1) xt −1 + γ 0 ∆xt + γ 1∆xt −1 + γ 2∆xt − 2 + L + γ r −1∆xt − r +1 + ut .
Verifica-se, assim, que se obtém um ARMAX( p − 1, r − 1, q ) nas primeiras dife-
renças de y e de x, aumentado com os seus níveis desfasados de um período.
A representação MCE resulta de pôr em evidência η = −ϕ (1) na forma de Bars-
den, considerando o termo independente e os termos em yt −1 e em xt −1 . Tem-se
 p −1   r −1 
∆yt = η ( yt −1 − λ0 − λ1 xt −1 ) +  ∑ g =1α g Lg  ∆yt +  ∑i = 0 γ i Li  ∆xt + ut
   
= η ( yt −1 − yt −1 ) + α1∆yt −1 + α 2∆yt − 2 + L + α p −1∆yt − p +1
e
,
+ γ 0 ∆xt + γ 1∆xt −1 + γ 2∆xt − 2 + L + γ r −1∆xt − r +1 + ut .
Deste modo, ∆yt depende do erro de equilíbrio yt −1 − yte−1 (com coeficiente η ),

dos ∆ xt −i (com coeficientes γ i ; i = 0,1, 2, K , r − 1 ), e dos ∆ yt − g (com coeficientes α g ;
g = 1, 2, K , p − 1 ). A condição de estabilidade garante que η < 0 , e, portanto, a primeira
parcela, η ( yt −1 − yte−1 ) , é o termo de correcção do erro, que tem a interpretação já co-
nhecida.
Fica ao cuidado do leitor determinar as formas de Barsden e MCE para o modelo
ARMAX(1,1,0) com tendência linear,
yt = ϕ 0 + δ t +ϕ1 yt −1 + β 0 xt + β1 xt −1 + ε t ( | ϕ1 | < 1 ),
e para o modelo ARMAX(2,2,0) estável,

yt = ϕ 0 +ϕ1 yt −1 +ϕ 2 yt −2 + β 0 xt + β1 xt −1 + β 2 xt −2 + ε t .
Finalmente, note-se que: do ponto de vista da estimação é preferível utilizar a

forma de Barsden pelos mesmos motivos já mencionados para o caso ARMAX(1,1,0);
facilmente se estende esta análise para modelos com várias variáveis explicativas; os
modelos MCE têm, como se vai ver no capítulo 10, uma importância decisiva para o es-
tudo da cointegração.
A modelação do geral para o particular
Muitos autores (entre eles, Hendry e Mizon) defendem que a melhor estratégia
para obter um modelo dinâmico adequado consiste em começar por especificar um mo-
delo suficientemente geral – um ARMAX com ordens de desfasamento elevadas, de
preferência com as formas reparametrizadas atrás analisadas –, e, testando “para baixo”,
caminhar para um modelo mais simples, mas que seja satisfatório.
As principais características desta metodologia “do geral para o particular”
são as seguintes:
1) Não se adopta o princípio da parcimónia. Assim, não há intenção, a priori, de
identificar um modelo parcimonioso, ou seja, não se atribui importância à sobrepara-
metrização. Esta concepção é, porventura, a mais criticada.
2) Desde a primeira especificação, e em cada fase do processo de simplificação, os mo-
delos passam pelo crivo de uma bateria de testes para detecção de erros de especifi-
cação (testes de heterocedasticidade, de autocorrelação, RESET, de alteração da es-
trutura, etc.).
3) A teoria económica é utilizada apenas para indicar as variáveis a considerar, e a for-
ma geral da relação de equilíbrio de longo prazo. Em contrapartida, a escolha da es-
trutura dinâmica de curto prazo é feita a partir dos dados, recorrendo aos testes mais
adequados para as restrições propostas.
Para ilustrar estas considerações, suponha-se, por exemplo, que o modelo inicial é
um ARMAX(1,1,0). Pergunta-se: porquê iniciar o trabalho de especificação com um ca-
so particular [por exemplo, um dos seguintes modelos: regressão linear simples; auto-re-
gressivo de 1.ª ordem; com as primeiras diferenças das variáveis; de indicador avança-
do; de ajustamento parcial; com factores comuns; DL(1); dead start], sem ter testado
previamente as restrições impostas? Parece ter mais sentido iniciar o estudo pelo mo-
delo mais geral, e considerar um modelo particular apenas quando as restrições que ele
implica não forem rejeitadas pelos dados (e se não apresentar sintomas de má especifi-
cação). Deste modo, vai deixar-se que os dados “falem livremente”, impondo as restri-
ções que eles não rejeitem ou, até, que eles próprios sugiram (por exemplo, excluindo
regressores com coeficientes não significativos).
A estratégia do “geral para o particular” pode envolver as seguintes fases:
1) Especificação inicial de um modelo dinâmico com ordens de desfasamento elevadas
(um ARMAX, de preferência reparametrizado sob a forma de Barsden), que seja
compatível com a relação de equilíbrio de longo prazo (dada pela teoria económica),
e que não imponha restrições sobre a dinâmica de curto prazo.
2) Simplificação do modelo excluindo regressores não significativos, ou impondo res-
trições que sejam suportadas pelos dados, e que não provoquem o aparecimento de
sintomas de erros de especificação. Em geral, são os coeficientes de desfasamento de
ordens mais elevadas que tenderão a ser os mais pequenos, pelo que se começa por
testar a sua significância, “descendo” em seguida para os desfasamentos de ordem
mais baixa.
3) Avaliação final do modelo seleccionado com base na teoria económica, e nos testes
de má especificação (misspecification tests).
A estratégia de modelação “do particular para o geral” é a abordagem tradi-

cional predominante até finais da década de 1970. Para esta estratégia, o modelo econo-
métrico deve reflectir o princípio da parcimónia, e deve basear-se numa teoria económi-
ca. O modelo que daqui resulta é considerado o modelo “verdadeiro”, ou seja, não há
problemas de especificação. O papel do econometrista resume-se à estimação eficiente
dos parâmetros, procurando “remediar” os “problemas” que surgem (heterocedasticida-
de, autocorrelação, sinais trocados, coeficiente de determinação baixo, etc.). Outro in-
vestigador, usando outra teoria, com o mesmo conjunto de dados, e aplicando a mesma
metodologia, pode chegar a uma especificação radicalmente diferente, considerada por
ele correcta. Assim, a Econometria seria apenas um instrumento para validar teorias
económicas, e não para as pôr em causa.
As principais críticas usualmente apontadas a este metodologia são as seguintes:
1) Iniciando a análise empírica pelo modelo simples, cada teste de hipóteses está condi-
cionado por pressupostos iniciais arbitrários que, se não forem válidos, contaminam
todo o processo de especificação. Em cada passo do processo de generalizção, as
conclusões são potencialmente erradas, pois em fases posteriores podem descobrir-se
novos problemas.
2) Os testes estatísticos usuais não são válidos em modelos com variáveis omitidas (co-
mo tenderão a ser os modelos iniciais).
3) Não é possível controlar o nível ou dimensão global real da sequência de testes.
4) Pode haver ocultação da descoberta de um modelo adequado. Um exemplo simples é
o da estimação de um modelo estático com autocorrelação do tipo AR(1), quando o
modelo mais adequado seria um ARDL(1,1). De facto, como a estimação daquele

modelo estático é equivalente à estimação de um modelo ARDL(1,1) com certas res-
trições, há o perigo de adoptar este modelo sem testar tais restrições. Se estas não fo-
rem válidas, não só se escolhe um modelo mal especificado, mas também o estima-
dor utilizado não é consistente.
9.7 - Teoremas limite para processos autocorrelacionados
Nesta secção retoma-se o estudo, já iniciado na secção 3.1, das propriedades

assintóticas da média da amostra, y , para processos estocásticos autocorrelacionados,
{ yt } . Recorde-se, em primeiro lugar, o enunciado do teorema da ergodicidade (ver ca-
pítulo 3, teorema 3.7) para processos escalares:
− Se { yt } é estacionário e ergódico, e se existe µ = E ( yt ) , então y converge em pro-
babilidade para µ (o processo { yt } obedece à lei dos grandes números).
Verifica-se, assim, que este teorema estabelece uma condição suficiente para que
y seja consistente para estimar o parâmetro µ .
A seguir, vai apresentar-se outra condição suficiente de consistência, sob a for-
ma de restrições relativas a um processo estacionário em covariância.
Teorema 9.4 [Lei dos grandes números para processos estacionários em covariân-
cia com autocovariâncias a tender para zero]
Seja { yt } um processo estacionário em covariância, com valor esperado µ , e {γ s } a
respectiva sucessão de autocovariâncias. Tem-se:
mq
a) Se lim γ s = 0 então y → µ .
s →+∞
b) Se {γ s } é somável então lim Var n y  = ∑ s = −∞ γ s < +∞ .

+∞
n → +∞  
Dem.: Para demonstrar a alínea a), basta provar que

lim Var ( y ) = 0 .
n→+∞
Com efeito, de
Var ( y1 + y2 + L + yn −1 + yn )
= Var ( y1 ) + 2 Cov( y1, y2 ) + L + 2 Cov( y1 , yn −1 ) + 2 Cov( y1, yn )
+ Var ( y2 ) + 2 Cov( y2 , y3 ) + L + 2 Cov( y2 , yn −1 ) + 2 Cov( y2 , yn )
+L
+ Var ( yn −1 ) + 2 Cov( yn −1 , yn )
+ Var ( yn )
= nγ 0 + 2(n − 1)γ 1 + L + 2(n − s )γ s + L + 2 γ n −1 = nγ 0 + 2∑ s =1 (n − s )γ s ,
n −1
vem
1 γ 2 n−1 s 
Var ( y ) = 2
Var ( y1 + y2 + L + y n ) = 0 + ∑s =1 1 −  γ s .
n n n  n
Então, notando que 1 − s / n = 0 para s = n ,
γ0 2 n  s
Var ( y ) =
n
+ ∑ 1 −  γ s
n s =1  n 
2 n  s
γ0
≤ ∑ 1 −  | γ s |
+
n n s =1  n 
γ 2 n
≤ 0 + ∑s =1 | γ s | .
n n
Se se demonstrar que
1 n
lim γ s = 0 ⇒ lim
s →+∞ s →+∞
∑ |γs | = 0,
n s =1
fica provada a alínea a).
Como, por hipótese, {γ s } converge para 0, pode concluir-se que:
− ∀s , | γ s | < c ;
ε
− ∀ε > 0, ∃ nε : s > nε ⇒ | γ s | < .
2
Então,
1 n 1 n 1 n
n
∑ s =1
| γ s | = ∑sε=1 | γ s | + ∑s = n +1 | γ s |
n n ε
1 n 1 n ε n c (n − nε ) ε nε c ε
< ∑s =ε 1 c + ∑s =n +1 = ε + < + <ε,
n n ε 2 n n 2 n 2
uma vez que, para n suficientemente grande, (nε c / n) < (ε / 2) . Pode, finalmente con-
cluir-se que Var ( y ) tende para 0, quando n → +∞ .
Para provar a alínea b), começa-se por notar que
n  s 2 n
Var  n y  = γ 0 + 2 ∑ s =1 1 −  γ s = γ 0 + 2 ∑ s =1 γ s − ∑ s =1 sγ s .
n
   n  n
 
A seguir vai demonstrar-se que
1 n
∑ ∑ sγ s = 0 .
+∞
s =1
γ s < +∞ ⇒ lim
s→+∞ n s=1
Com efeito, como
∑
n
s =1
sγ s = γ 1 + 2 γ 2 + 3 γ 3 + L + n γ n
= (γ 1 + γ 2 + L + γ n ) + ( γ 2 + L + γ n ) + L + ( γ n−1 + γ n ) + γ n
= ∑s =1 ∑i= s γ i ,
n n
vem
1 n 1 n 1 n
∑ sγ s = ∑s =1 ∑i = s γ i ≤ ∑s =1 ∑
n n
s =1 i=s
γi .
n n n
Como {γ s } é somável, tem-se:
∑
n
− ∀s, n , i=s
γi < c;
ε
∑
n
− ∀ε > 0, ∃ nε : s, n > nε ⇒ γi < .
i=s
2
Donde
1 n 1 n 1 nε 1 n
∑ ∑ ∑ ∑ ∑ ∑ ∑
n n n
sγ s ≤ γ i = γ i + γi
n s =1 n s =1 i=s n s =1 i=s n s =nε +1 i=s
n c (n − nε ) ε nε c ε
< ε + < + <ε.
n n 2 n 2
Então, porque {γ s } é somável,
lim Var( n y ) = γ 0 + 2 ∑s=1 γ s = ∑s =−∞ γ s < +∞ .

+∞ +∞
n→+∞
∇∇
Como a convergência em média quadrática implica a convergência em probabi-

lidade, a alínea a) deste teorema mostra que basta admitir a condição
lim γ s = 0 ,
s →+∞
para que, num processo estacionário em covariância, { yt } , a média amostral y seja um

estimador consistente de µ = E ( yt ) . É o que acontece, por exemplo, com o processo
AR(1) estável ( yt = α + ϕ yt −1 + ε t ; | ϕ | < 1 ). De facto, como γ s = γ 0ϕ s → 0 , quando s
tende para + ∞ , verifica-se a alínea a) do teorema 9.4, e, portanto, y tende em probabi-
lidade para µ .
Dado um processo estacionário em covariância, { yt } , chama-se variância de
longo prazo do processo ao limite seguinte (se existir):
VLP( yt ) = lim Var  n y  .

n → +∞  
A alínea b) do teorema anterior garante que a variância de longo prazo é igual a
VLP( yt ) = ∑s = −∞ γ s = g y (1) = 2π s y (0) ,

+∞
onde g y (1) é o valor da função geradora das autocovariâncias para z = 1 , e s y (0) é o

espectro de frequência nula [ver (9.61)].
Apresentam-se a seguir dois teoremas do limite central. O primeiro, é uma ge-
neralização do teorema de Lindeberg-Levy para o caso de um processo MA(∞) .
Teorema 9.5 [Teorema do limite central para um processo de médias móveis in-
finito]
Seja { yt } um processo MA(∞) ,
yt = µ + ∑s =0ψ s ε t − s ,
+∞
onde {ε t } é um ruído branco independente e {ψ s } é absolutamente somável.

Então,
n ( y − µ ) → N  0, ∑ s = −∞ γ s  .
d +∞
(9.110)
 
Embora não se apresente a demonstração deste teorema, não é surpreendente que

a variância assintótica de y seja a respectiva variância de longo prazo,
Vara ( y ) = VLP( yt ) = ∑s = −∞ γ s .
+∞
(9.111)
Atendendo a (9.61) e a (9.111), conclui-se que Vara ( y ) = g y (1) . Então, a partir

de (9.64), obtém-se
2
Vara ( y ) = σ ε2  ∑s =0ψ s  .
+∞
 
Supondo, por exemplo, que yt = ε t − ε t −1 , conclui-se imediatamente que
lim Var  n y  = Vara ( y ) = 0 ,

n → +∞  
pois basta notar que ψ 0 = 1 , ψ 1 = −1 e ψ s = 0 ( s = 2, 3, K ). Esta verificação pode ser
feita directamente. Com efeito, notando que y = (1 / n)(ε n − ε 0 ) , vem
2
2σ ε
lim Var  n y  = lim =0.
n → +∞   n → +∞ n
O processo MA(∞) , { yt } , considerado no teorema 9.5, é, como se sabe, esta-
cionário e ergódico. Também se sabe que a ergodicidade “atenua” consideravelmente a
autocorrelação, uma vez que duas variáveis aleatórias do processo, suficientemente
afastadas no tempo, são “quase” independentes. No entanto, para qualquer processo
estacionário e ergódico, { yt } , não está garantido, sem mais, que y é assintoticamente
normal. De facto, é indispensável introduzir algumas condições suficientes para se obter
este resultado relativamente a y .
As condições que se vão considerar são três restrições relativamente ao compor-
tamento do processo estacionário e ergódico, que globalmente constituem a chamada
condição de Gordin.
A primeira restrição estabelece que E ( yt2 ) existe. De facto, trata-se de uma
restrição sobre o processo, porque este pode ser estritamente estacionário e não existi-
rem os segundos momentos.
A segunda restrição garante que
mq
(9.112) E ( yt | yt −s , yt −s −1 , K) → 0 ,
quando s → +∞ . Assim,
lim E {E ( yt | yt − s , yt − s −1 , K)}2  = 0 .

s → +∞  
Pode demonstrar-se que esta restrição implica E ( yt ) = 0 . A interpretação deste
resultado é muito sugestiva: seja I t = { yt , yt −1 , yt −2 , K} o conjunto de informação dado
pelo processo até à data t, e considere-se que E ( yt | yt −s , yt −s −1 , K) = E ( yt | I t −s ) é um
previsor de yt , quando se dispõe da informação I t −s ; como aquela convergência em
média quadrática faz com que a informação que condiciona o previsor seja cada vez me-
nor (à medida que s cresce), no limite a previsão baseia-se em nenhuma informação, isto
é, utiliza-se como previsor o valor esperado marginal (não condicionado) de yt .
Note-se que, pelo facto de { yt } ser estacionário, a restrição enunciada é equiva-
lente a
mq
E ( y0 | y−s , y−s −1 , K) → 0 ( s → +∞ ).
Para preparar o enunciado da terceira restrição, escreva-se yt como

yt = { yt − E ( yt | I t −1 )}
+ {E ( yt | I t −1 ) − E ( yt | I t −2 )}
+ {E ( yt | I t −2 ) − E ( yt | I t −3 )} + L
+ {E ( yt | I t − s+1 ) − E ( yt | I t − s )} + E ( yt | I t −s )
= (rt 0 + rt1 + L + rt ,s−1 ) + E ( yt | yt − s , yt −s −1 , K) ,
onde
rtj = E ( yt | I t − j ) − E ( yt | I t − j −1 ) ( j = 0,1, 2, K , s − 1 ),
e notando que E ( yt | I t ) = yt .
A diferença rtj pode ser interpretada como a revisão da previsão de yt , quando a
informação aumenta de I t − j −1 para I t − j .
Devido à segunda restrição,
yt − (rt 0 + rt1 + L + rt ,s −1 ) = E ( yt | yt − s , yt −s −1 , K)
converge em média quadrática para 0, quando s → +∞ (para cada t). Então, pode es-
crever-se
yt = ∑s =0 rts ,
+∞
(9.113)
que se designa por soma telescópica de yt .

A terceira restrição é a seguinte:
∑
+∞
(9.114) s =0
E (rts2 ) < +∞ .
Assim, enquanto a soma telescópica indica como os “choques”, representados

por (rt 0 , rt1 , rt 2 , K) , influenciam yt , a restrição (9.114) estabelece que os “choques” re-
motos não são muito importantes, ou seja, a influência da autocorrelação fica atenuada.
Em resumo, a condição de Gordin impõe a existência de E ( yt2 ) , e as restrições
(9.112) e (9.114).
Para compreender o significado desta condição, considere-se, por exemplo, o
processo AR(1), yt = ϕ yt −1 + ε t , onde | ϕ | < 1 , {ε t } é um ruído branco independente e
Var (ε t ) = σ ε2 .
Evidentemente, a primeira restrição é verificada, porque E ( yt2 ) = σ ε2 /(1 − ϕ 2 ) .
Como
yt = ϕ s yt − s + ε t + ϕ ε t −1 + ϕ 2ε t −2 + L + ϕ s −1ε t − s+1 ,
tem-se
E ( yt | yt −s , yt − s −1 , K) = ϕ s yt −s .
Então, verifica-se (9.112), porque
2 σ ε2 2s
lim E{(ϕ yt − s ) } = lim ϕ
s
=0.
s → +∞ s → +∞ 1−ϕ2
Como as revisões das previsões são dadas por
rts = ϕ s yt − s − ϕ s +1 yt − s −1 = ϕ s ( yt − s − ϕ yt − s −1 ) = ϕ sε t − s ,
a soma telescóspica é dada pela respectiva representação MA(∞) :
yt = ∑s = 0 ϕ sε t − s .
+∞
A restrição (9.114) é satisfeita, porque

σε
∑
+∞
E (rts2 ) = ϕ 2 s E (ε t2− s ) = | ϕ |sσ ε e | ϕ |sσ ε = < +∞ .
s =0
1− | ϕ |
Pode, então, enunciar-se o segundo teorema do limite central.
Teorema 9.6 [Teorema do limite central para um processo estacionário e ergódico]

Seja { yt } um processo estacionário e ergódico a verificar a condição de Gordin. Então,
E ( yt ) = 0 , a sucessão das autocovariâncias, {γ s } , é absolutamente somável e
n y → N  0, ∑ s = −∞ γ s  .
d +∞
(9.115)
 
De (9.115) conclui-se imediatamente que a variância assintótica de y é igual à

variância de longo prazo do processo.
Como a condição de Gordin é satisfeita quando o processo { yt } é uma diferen-
ça-martingala (processo sem autocorrelação), o teorema 9.6 é uma generalização do teo-
rema do limite central de Billingsley (ver capítulo 3, teorema 3.9).
Pode apresentar-se um exemplo ilustrativo do teorema 9.6. Assim, considere-se

o processo AR(1) estável ( yt = α + ϕ yt −1 + ε t ; | ϕ | < 1 ), supondo que {ε t } é um ruído
branco independente. Neste caso, atendendo a (9.66), vem
σ ε2 1+ ϕ
Vara ( y ) = ∑ s = −∞ γ s = g y (1) =
+∞
2
= γ0 ,
(1 − ϕ ) 1 − ϕ
uma vez que σ ε2 = γ 0 (1 − ϕ 2 ) .

Todos os resultados desta secção podem ser imediatamente generalizados para
processos estocásticos vectoriais.
Considere-se o processo { y•t } , onde y•t é um vector 1 × m , e
1 n
y= ∑ y•t .
n t =1
Tem-se:
− Lei dos grandes números para processos estacionários
Se { y•t } é estacionário em covariância, com valor esperado µ , então:
mq
a) Se cada elemento diagonal da matriz Γs tende para 0 então y → µ ;
b) Se {Γs } é somável então lim Cov n y  = ∑ s = −∞ Γs .

+∞
n → +∞  
− A matriz das covariâncias de longo prazo é dada por
CLP( y•t ) = lim Cov n y  = ∑ s = −∞ Γs = Γ0 + ∑ s =1 (Γs + ΓsT ) = Gy (1) = 2π S y (0) .

+∞ +∞
n → +∞  
− Teorema do limite central para um processo de médias móveis infinito
Se { y•t } é um processo MA(∞) ,
y•t = µ + ∑s =0 Ψsε •,t − s ,

+∞
onde {ε •t } é um ruído branco independente e {Ψs } é absolutamente somável, então,
n ( y − µ ) → N ( m )  0, ∑ s = −∞ Γs  .
d +∞
(9.116)
 
− Condição de Gordin
a) Existe E ( y•t y•Tt ) .
mq
b) E ( y•t | y•,t − s , y•,t − s −1 , K) → 0 , quando s → +∞ .
∑
+∞
c) s =0
E (rtsT rts ) existe, onde rts = E ( y•t | I t − s ) − E ( y•t | I t − s−1 ) .
− Teorema do limite central para um processo estacionário e ergódico

Se { y•t } é um processo estacionário e ergódico a verificar a condição de Gordin, en-
tão, E ( y•t ) = 0 , a sucessão das matrizes das autocovariâncias, {Γs } , é absolutamente
somável e
n y → N ( m)  0, ∑ s = −∞ Γs  .
d +∞
(9.117)
 
Assim, a matriz das covariâncias assintóticas de y coincide com a matriz das cova-
riâncias de longo prazo do processo.
Para ilustrar a obtenção de uma matriz de covariâncias de longo prazo vai consi-
derar-se y•t = H ( L) x•t + ε •t , onde H ( L) = H 0 + H1L e {x•t } é um processo estacionário
em covariância com autocovariâncias absolutamente somáveis. Sabe-se que
Gx (1) = ∑ s = −∞ Γs = Γ0 + ∑ s =1 (Γs + ΓsT )

+∞ +∞
é a matriz das covariâncias de longo prazo de {x•t } . Para esta matriz para o processo
{ y•t } , faz-se z = 1 em (9.90), obtendo-se
G y (1) = H (1) Gx (1) H (1)T .
Como H (1) = H 0 + H1 , tem-se

G y (1) = ( H 0 + H1 ) Gx (1)( H 0 + H1 )T .
9.8 - Autocorrelação e regressores endógenos
Considere-se o modelo de regressão linear, yt = xt • β + ut , onde se admite a pos-

sibilidade de existirem regressores endógenos, e seja zt• , o vector 1 × p das variáveis
instrumentais. Supõe-se que se verificam as hipóteses REN.1 a REN.4 (em particular,
tem-se E ( gt • ) = 0 , onde g t • = zt•ut ). Para introduzir autocorrelação neste modelo, não
pode supor-se que o processo {g t• } é uma diferença-martingala, isto é, tem de abando-
nar-se a hipótese REN.5.
Hipótese REN.5’ – Condição de Gordin
O processo {g t• } verifica a condição de Gordin:
a) Existe E ( g tT• g t• ) .
mq
b) E ( gt • | gt − s ,• , gt − s −1,• , K) → 0 , quando s → +∞ .
∑
+∞
c) Existe s =0
E (rts rtsT ) , onde
rts = E ( g t• | g t − s ,• , g t − s −1,• , K) − E ( g t • | g t − s −1,• , g t − s −2,• , K) .
Além disso, a matriz das covariâncias de longo prazo
lim Cov n g• n  = ∑ s = −∞ Γs ,
+∞
n → +∞  
onde
1 n T
g •n =
n
∑ g e Γs = E ( g tT• g t − s ,• ) ( s = 0, ± 1, ± 2, K ),
t =1 t •
é não singular.
Como {g t• } é estacionário e ergódico (devido à hipótese REN.2), verifica-se o

respectivo teorema do limite central. Assim,
d
(9.118) n g• n → N ( p ) (0, S ) ,
onde Cov a ( g •n ) = S .
Neste caso, a matriz S é dada por
S = ∑s=−∞ Γs = Γ0 + ∑s=1 (Γs + ΓsT ) .

+∞ +∞
(9.119)
Como a sucessão {Γs } é absolutamente somável, S é a matriz das covariâncias

de longo prazo do processo {g t• } (suposta não singular).
Deve notar-se que: quando se admite a hipótese REN.5 (ausência de autocor-
relação), tem-se S = Γ0 ; havendo autocorrelação (hipótese REN.5’), a matriz S é dada
por (9.119). É esta a única diferença entre os dois modelos com regressores endóge-
nos.
Em particular:
− Verificam-se as propriedades 4.1 e 4.2 do estimador MGM, βˆ (Wˆ ) , ou seja, este esti-
mador é consistente e assintoticamente normal [ver capítulo 4, (4.57) a (4.59)].
− A estimação consistente da matriz das covariâncias assintótica de βˆ (Wˆ ) é feita de
acordo com (4.64), desde que se proponha um estimador consistente, Ŝ , para a ma-
triz S referida em (9.119). A matriz Ŝ designa-se, por vezes, por matriz HAC (da
sigla inglesa, heteroskedasticity and autocorrelation consistent).
− O estimador MGM eficiente continua a verificar a condição plim(Wˆ ) = W = S −1 , com
S dada por (9.119); o procedimento em dois passos respectivo ainda continua a ser
válido.
− Todos os resultados de inferência estatística estudados nas secções 4.7e 4.8 (capítulo
4) continuam válidos, com as necessárias adaptações.
− Quando se utiliza o estimador MGM com S = Γ0 e Wˆ = Sˆ −1 – o que presume que se
verifica a hipótese REN.5 –, mas apenas se verifica REN.5’, aquele estimador ainda
é consistente, mas não é eficiente.
Todos estes resultados pressupõem que se conhece um estimador consistente,

Ŝ , da matriz das covariâncias de longo prazo, S.
Começa-se por analisar o caso mais simples, em que se sabe que as autocova-
riâncias se anulam após um número finito de desfasamentos.
Considerem-se, em primeiro lugar, os estimadores individuais das matrizes das
autocovariâncias,
1 n 1 n
(9.120) Γˆ s = ∑t =s +1 gˆ tT• gˆ t −s ,• = ∑t =s +1 uˆt uˆt −s ztT• zt −s ,• ( s = 0,1, 2, K , n − 1 ),
n n
onde gˆ t • = zt •uˆt , uˆt = yt − xt • β̂ e β̂ é um estimador consistente de β . Pode demons-
trar-se, com uma técnica semelhante à da propriedade 4.4 [resultado (4.63)] do capítulo
4, que (9.120) é estimador consistente de Γs .
Se for conhecido, a priori, que Γs = O para s > q , com q conhecido e finito, a

matriz S é estimada, de maneira consistente, por
Sˆ = ∑s =− q Γˆ s = Γˆ 0 + ∑s =1 (Γˆ s + Γˆ sT ) .
q q
(9.121)
Quando não se conhece q (finito ou infinito), a estimação de S é mais compli-

cada. Um dos procedimentos para estimar S, propõe uma classe de estimadores da for-
ma
 s ˆ n −1  s  ˆ ˆT
Sˆ = ∑ s = − n +1 k   Γs = k (0) Γˆ 0 + ∑ s =1 k 
n −1
(9.122)  (Γs + Γs ) ,
 q ( n )   q ( n ) 
onde: a função k (⋅) , que pondera as matrizes das autocovariâncias, é o núcleo (kernel)
do estimador; q (n) designa-se por comprimento da banda (bandwidth), a qual pode
depender da dimensão da amostra, n. É habitual chamar aos estimadores da classe
(9.122), estimadores baseados em núcleos (kernel-based estimators) ou estimadores
não paramétricos.
O estimador (9.121) é um caso particular de (9.122), com q (n) = q e
 1 ( | x | ≤ 1) ,
k ( x) = 
 0 ( | x | > 1) ,
que se designa por núcleo truncado.
Quando q é desconhecido, pode usar-se este núcleo com um comprimento da
banda que cresce com n; à medida que n cresce, cada vez mais matrizes Γ̂s são utiliza-
das para calcular Ŝ . No entanto, nada garante que a matriz Ŝ obtida seja semidefinida
positiva.
Newey-West (1987) demonstraram que o estimador de S baseado no núcleo de
Bartlett,
1− | x | ( | x | < 1) ,
k ( x) = 
0 ( | x | ≥ 1) ,
é uma matriz semidefinida positiva (ou definida positiva). Este estimador é conhecido
pelo nome de estimador de Newey-West. Por exemplo, para q (n) = 3 , incluem-se os
estimadores das matrizes das autocovariâncias até dois desfasamentos, obtendo-se
2 1
Sˆ = Γˆ 0 + (Γˆ1 + Γˆ1T ) + (Γˆ 2 + Γˆ 2T ) .
3 3
Para q (n) = 4 , vem
3 1 1
Sˆ = Γˆ 0 + (Γˆ1 + Γˆ1T ) + (Γˆ 2 + Γˆ 2T ) + (Γˆ 3 + Γˆ 3T ) .
4 2 4
Em geral, tem-se
q ( n ) −1  s  ˆ
(9.123) Sˆ = Γˆ 0 + ∑s =1 1 −  (Γs + Γˆ sT ) .
 q ( n) 
A escolha de q (n) depende do tipo de dados temporais (ver capítulo 3, secção

3.10).
Fica ao cuidado do leitor analisar a situação em que todos os regressores são pré-
determinados: xt • = zt • (ver secção 3.9 do capítulo 3).
Esta questão pode ser aprofundada em Andrews (1991). Existem outros procedi-
mentos para estimar S, como é o caso do estimador VARHAC (VAR heteroskedasticity
and autocorrelation consistent). Ver, por exemplo, Den Hann e Levin (1996) e Hayashi
(2000), pp. 410-412.
Na secção 4.9, onde se introduziu a hipótese REN.6 (homocedasticidade condi-

cionada), viu-se que o estimador MGM se reduz ao estimador MQ2P. Na presente sec-
ção vai mostrar-se como este estimador pode ser generalizado de forma a incorporar au-
tocorrelação.
A relação entre as autocorrelações nos processos {g t• } e {ut } é fácil de estabele-
cer, quando existe homocedasticidade condicionada. Seja
ω s = E (ut ut −s ) ( s = 0, ± 1, ± 2, K ),
onde ω s não depende de t, porque {ut } é estacionário (devido a REN.1 e REN.2). Se
E (ut ) = 0 (o que acontece se o modelo tiver termo independente), ω s é a autocova-
riância de ordem s do processo {ut } .
A hipótese REN.6 vai ser substituída pela seguinte:
Hipótese REN.6’ – Homocedasticidade condicionada

(9.124) E (ut ut −s | zt • , zt −s ,• ) = ω s ( s = 0,±1,±2, K ).
Note-se que esta hipótese abrange REN.6, quando s = 0 .

Considerando (9.124), obtém-se
Γs = E ( gtT• g t − s ,• ) = E (ut ut − s ztT• zt − s ,• ) = E{E (ut ut − s ztT• zt − s ,• | zt • , zt − s ,• )}
= E{E (ut ut − s | zt • , zt − s ,• ) ztT• zt − s ,• } = ωs E ( ztT• zt − s ,• ) .
Fica, assim, verificado que o processo {g t• } tem autocorrelação se e só se o

mesmo acontece com o processo {ut } , desde que E ( ztT• zt −s ,• ) ≠ O .
Para estimar Γs vai explorar-se a circunstância de se ter o produto de dois se-
gundos momentos, ω s = E (ut ut −s ) e E ( ztT• zt −s ,• ) . Um estimador natural deste valor espe-
rado é, obviamente,
1 n
n
∑ zT z
t = s +1 t • t − s , •
.
Facilmente se prova (seguindo uma demonstração semelhante a da propriedade

4.3 dos estimadores MGM; ver capítulo 4) que um estimador consistente de ω s é dado
por
1 n
∑ uˆt uˆt −s ,
n t =s +1
onde uˆt = yt − xt • β̂ e β̂ é um estimador consistente de β .
Assim, quando se verifica (9.124), um estimador consistente de Γs é
1 n  1 n 
(9.125) Γˆ s =  ∑t = s +1 uˆt uˆt − s   ∑t = s +1 ztT• zt − s ,•  .
n  n 
Utilizando (9.125), os estimadores da matriz S são ainda obtidos, conforme as
situações, com as expressões (9.121) a (9.123), apresentadas no final da secção anterior.
A matriz Ŝ pode escrever-se na forma
1
(9.126) Sˆ = Z T Ω
ˆZ,
n
onde Z é matriz n × p das observações das variáveis instrumentais e Ω̂ tem uma forma
semelhante à matriz das autocovariâncias de {ut } ,
 ωˆ 0 ωˆ1 ωˆ 2 L ωˆ n − 2 ωˆ n −1 
 ωˆ ωˆ 0 ωˆ1 L ωˆ n −3 ωˆ n − 2 
 1
 ˆ ωˆ1 ωˆ 0 L ωˆ n − 4 ωˆ n − 3 
ˆ =  ω2
Ω .
 M M M M M 
ωˆ n − 2 ωˆ n −3 ωˆ n − 4 L ωˆ 0 ωˆ1 
 
ωˆ n −1 ωˆ n − 2 ωˆ n −3 L ωˆ1 ωˆ 0 
Quando se sabe, a priori, que Cov(ut , ut −s ) = 0 (ou, de forma equivalente, que

Γs = O ) para s > q , os elementos de Ω̂ são da forma
1 n
ωˆ s =  n ∑t = s +1 uˆt uˆt − s
 ( s = 0, 1, 2, K , q ) ,
 0 ( s = q + 1, q + 2, K) .
Neste caso, a matriz Ŝ , dada por (9.126), é igual a (9.121). Com efeito, notando
que Z Ω̂ Z é igual a
T
 ωˆ 0 ωˆ1 ωˆ 2 L ωˆ n − 2 ωˆ n −1   z1• 
 ωˆ ωˆ 0 ωˆ1 L ωˆ n − 3 ωˆ n − 2   z2• 
 1
 ωˆ 2 ωˆ1 ωˆ 0 L ωˆ n − 4 ωˆ n − 3   z3• 
[z T
1• z2T• z3T• L znT−1,• z1Tn• ]   ,
 M M M M M  
ωˆ n − 2 ωˆ n − 3 ωˆ n − 4 L ωˆ 0 ωˆ1   zn −1,• 
  
ωˆ n −1 ωˆ n − 2 ωˆ n − 3 L ωˆ1 ωˆ 0   zn • 
ou
ωˆ 0 z1T• z1• + ωˆ 1 z 2T• z1• + ωˆ 2 z3T• z1• + L + ωˆ n−2 z nT−1,• z1• + ωˆ n−1 z nT• z1• +
ωˆ 1 z1T• z2• + ωˆ 0 z 2T• z 2• + ωˆ 1 z3T• z 2• + L + ωˆ n−3 z nT−1,• z 2• + ωˆ n−2 z nT• z 2• +
ωˆ 2 z1T• z3• + ωˆ 1 z2T• z3• + ωˆ 0 z3T• z3• + L + ωˆ n−4 z nT−1,• z3• + ωˆ n−3 z nT• z3• +
L+
ωˆ n−2 z1T• z n−1,• + ωˆ n−3 z 2T• z n−1,• + ωˆ n−4 z3T• zn−1,• + L + ωˆ 0 znT−1,• z n−1,• + ωˆ 1 znT• zn−1,• +
ωˆ n−1 z1T• z n• + ωˆ n−2 z2T• zn• + ωˆ n−3 z3T• zn• + L + ωˆ 1 znT−1,• z n• + ωˆ 0 z nT• z n• ,
obtém-se
1 ˆ Z = ωˆ  1 n z T z  + q ωˆ  1 n ( z T z 
Sˆ = Z T Ω 0 ∑ t =1 t • t • ∑ s =1 s ∑ t =1 t • t − s , • + zt − s , • zt • ) 
T
n n  n 
= Γˆ 0 + ∑ s =1 (Γˆ s + Γˆ sT ) .
q
Fica ao cuidado fazer estes cálculos de verificação de (9.126), por exemplo, para
n = 3 e q =1.
Quando q não é conhecido, e considerando o estimador de S baseado no núcleo
de Bartlett, faz-se
 
1 − s  1 ∑ n uˆt uˆt − s ( s = 0,1, 2, K , q(n) − 1) ,
ωˆ s =  q(n)  n t = s +1
 
 0 ( s = q(n), q(n) + 1, K) .

Com a mesma técnica utilizada para o caso anterior, pode provar-se que
1 ˆ Z = Γˆ + ∑ q ( n ) −1 1 − s  (Γˆ + Γˆ T ) .
Sˆ = Z T Ω 0 s =1  q( n)  s s
n  
Estes resultados permitem obter o estimador MGM eficiente que verifica a con-
dição (9.124). Assim, a partir de βˆ ( Sˆ −1 ) = ( S zxT Sˆ −1S zx ) −1 S zxT Sˆ −1s zy [ver (4.71)], vem
(9.127) βˆ ( Sˆ −1 ) = { X T Z ( Z T Ω
ˆ Z ) −1 Z T X }−1 X T Z ( Z T Ω
ˆ Z ) −1 Z T Y ,
que constitui uma generalização do estimador MQ2P, dado por (4.54).

O estimador consistente da respectiva matriz das covariâncias assintóticas é, en-
tão,
^
(9.128) Cov a {βˆ ( Sˆ −1 )} = ( S zxT Sˆ −1S zx )−1 = n{ X T Z ( Z T Ω
ˆ Z ) −1 Z T X }−1 .
Recorde-se que a estatística de Sargan, com homocedasticidade condicionada e

ausência de autocorrelação, é dada por (4.96). Quando se admite a existência de auto-
correlação, este resultado pode ser generalizado. Neste caso, como Sˆ = (1 / n) Z T Ω
ˆZ,
tem-se
−1
~ ~ 1 ˆ Z  ( s − S β~ ) = (Y − Xβ~ )T Z ( Z T Ω
ˆ Z )−1 Z T (Y − Xβ~ ) .
J ( β , Sˆ −1 ) = n( szy − S zx β )T  Z T Ω zy zx
n 
~
Quando se substitui β por βˆ ( Sˆ −1 ) dado por (9.127), obtém-se a respectiva esta-
tística de Sargan,
QS = Uˆ T Z ( Z T Ωˆ Z ) −1 Z TUˆ ,
onde Uˆ = Y − X βˆ ( Sˆ −1 ) .
Quando todos os regressores são pré-determinados, mas existem variáveis
instrumentais que não são regressores ( xt • é subconjunto próprio de zt • ), sabe-se
que, no caso de homocedasticidade condicionada e de ausência de autocorrelação, o
estimador MQ2P reduz-se ao estimador MQ. Quando há autocorrelação (e homocedasti-
cidade condicionada) tal já não acontece: o estimador (9.127) é diferente do estimador
MQ.
PALAVRAS-CHAVE
Ajustamento parcial Multiplicador de longo prazo
Autocovariância Multiplicador dinâmico
Círculo unitário Núcleo (truncado)
Coeficiente de autocorrelação Núcleo de Bartlett
Comportamento da solução Operador de desfasamento
Comprimento da banda Operador diferença
Condição de Gordin Operador inverso
Condição de invertibilidade Operador linear
Condições iniciais Operador produto
Critério de informação Bayesiano Operador soma
Critério de informação de Akaike Operadores permutáveis
Decomposição do polinómio em L Passeio aleatório
Desfasamento mediano Polinómio em L
Desfasamento médio Processo ARMA
Desfasamento polinomial (Almon) Processo auto-regressivo
Efeito acumulado Processo de médias móveis
Efeito de longo prazo Processo de médias móveis infinito
Efeito permanente Processo estacionário
Efeito transitório Processo invertível
Equação característica Processo linear
Equação homogénea Processo VAR
Equação linear de 1.ª ordem Processo VARMA
Equação linear de 2.ª ordem Processo vectorial
Equações de Yule-Walker Processo VMA
Equações (lineares) com diferenças Produto de filtros
Erro de equilíbrio Quadrado de um operador
Estimação de modelos auto-regressivos Relação dinâmica
Estimador de Newey-West Relações de convolução
Estimadores baseados em núcleos Ruído branco
Expectativas adaptativas Solução definida
Filtro Solução estável
Filtro absolutamente somável Solução instável
Filtro inverso Solução geral
Forma de Barsden Solução particular
Forma de Bewley Soma telescópica
Função geradora de autocovariâncias Teorema do limite central para processo
de médias móveis infinito
Lei dos grandes números para processos Teorema do limite central para processo
estacionários em covariância estacionário e ergódico
Matriz das covariâncias de longo prazo Termo de correcção do erro
Mecanismo de correcção do erro Valor actual
Método da substituição recursiva Variância de longo prazo

Modelo ARMAX Variável input
Modelo com desfasamentos escalonados Variável output
Multiplicador de impacto
1. Considere a seguinte relação entre as variáveis y e w: yt = ϕ yt −1 + wt . Discuta o

comportamento do respectivo multiplicador dinâmico, quando ϕ ∈ [ − 1,1 ].
2. Considere a seguinte relação entre as variáveis y e w: yt = ϕ yt −1 + wt . Sendo r a
taxa de juro, indique o efeito de w (variável input) sobre o valor actual do fluxo de
valores futuros de y (variável output), yt , yt +1 , yt +2 ,….
3. Considere a seguinte relação entre as variáveis y e w: yt = ϕ 1 yt −1 + ϕ 2 yt −2 + wt .
Supondo que as raízes da equação 1 − ϕ 1 z − ϕ 2 z 2 = 0 , são diferentes ( z1 ≠ z 2 ),
indique o efeito ceteris paribus de wt sobre yt + s (multiplicador dinâmico).
4. Considere a seguinte relação entre as variáveis y e w:
yt = ϕ 1 yt −1 + ϕ 2 yt − 2 + ϕ 3 yt −3 + wt .
Supondo que as raízes da equação característica, λ3 − ϕ1λ2 − ϕ 2 λ − ϕ 3 = 0 , são

diferentes, indique o efeito ceteris paribus de wt sobre yt + s (multiplicador dinâ-
mico).
5. Considere a seguinte relação entre as variáveis y e w:
yt = ϕ 1 yt −1 + ϕ 2 yt − 2 + ϕ 3 yt −3 + wt .
Sendo r a taxa de juro, indique o efeito de w (variável input) sobre o valor actual
do fluxo de valores futuros de y (variável output), yt , yt +1 , yt +2 ,….
6. Considere os filtros
α ( L) = α 0 + α1 L + α 2 L2 + L e β ( L) = β 0 + β1L + β 2 L2 + L .
Fazendo δ ( L) = α ( L) β ( L) = δ 0 + δ 1 L + δ 2 L2 + L , indique as expressões de δ 0 ,
δ 1 e δ 2 a partir dos coeficientes dos filtros α (L) e β (L) .
7. Apresente um exemplo de filtro que não é absolutamente somável.
8. Suponha que yt ~ MA(2) : yt = ε t +θ1ε t −1 + θ 2ε t − 2 , onde {ε t } é um ruído branco.
Deduza a expressão de Corr ( yt , yt − 2 ) [coeficiente de autocorrelação de segunda
ordem].
9. Suponha que yt ~ MA(3) : yt = ε t +θ1ε t −1 + θ 2ε t − 2 + θ 3ε t −3 , onde {ε t } é um ruído
branco. Deduza as expressões das autocovariâncias de ordem s ( s = 2, 3, 4 ).
10. Considere o filtro α (L) . Indique a condição para que este filtro seja absolutamen-
te somável.
11. Seja o modelo de regressão yt = α + β xt + ut , onde u t = ρ1u t −1 + ρ 2u t − 2 + ε t e ε t
é um ruído branco. Utilizando o operador L, construa um modelo equivalente ao
modelo dado, mas em que a variável residual é o ruído branco.
12. Suponha que yt ~ AR (2) : yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ε t , onde {ε t } é um ruído
branco. Admitindo que o processo é estacionário, indique a relação entre os coefi-
cientes de autocorrelação de ordem s ( s = 1, 2, 3 ).
13. Considere um processo ARMA(2,3),
yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ε t + θ1ε t −1 + θ 2ε t − 2 + θ 3ε t −3 ,
onde {ε t } é um ruído branco. Em que condições se pode afirmar que este proces-
so é estacionário em covariância?
14. Considere um processo ARMA(2,3),
yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ε t + θ1ε t −1 + θ 2ε t − 2 + θ 3ε t −3 ,
onde {ε t } é um ruído branco. Fazendo µ = α ϕ (1) , reformule o processo de for-

ma que { yt − µ} seja ainda ARMA(2,3), mas sem termo independente.
15. Considere um processo ARMA(3,1) estacionário,
yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ϕ 3 yt −3 + ε t + θ ε t −1 .
Como sabe, este processo pode ser representado por um processo MA(∞) , com
filtro ψ (L) . Determine ψ s ( s = 0,1, 2,3 ).
yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ϕ 3 yt −3 + ε t + θ ε t −1 .
Que condições deve impôr aos parâmetros para garantir que o processo se possa
representar por um processo MA(∞) ?
yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ϕ 3 yt −3 + ε t + θ1 ε t −1 + θ 2 ε t − 2 .
Que condições deve impôr aos parâmetros para garantir que o processo se possa
representar por um processo AR (∞) ?
18. Considere-se o processo AR(1) estacionário, yt = α + ϕ yt −1 + ε t , onde {ε t } é um
ruído branco independente. Considerando este modelo como um MRL, verifique a
hipótese RPD.4 [a matriz Qxx = E ( xtT• xt • ) existe e tem inversa].
19. Considere um processo MA(3), yt = α + ε t + θ1ε t −1 + θ 2ε t − 2 + θ 3ε t −3 , onde {ε t } é
um ruído branco. Que condições deve impôr aos parâmetros para garantir que o
processo é invertível?
ruído branco independente. Considerando este modelo como um MRL, verifique
que g t • = xt •ε t é uma diferença-martingala.
ruído branco independente. Considerando este modelo como um MRL, e supondo
que a hipótese da homocedasticidade condicionada é verdadeira, verifique que a
matriz S = E (ε t2 xtT• xt • ) existe e tem inversa.
22. Considere-se o processo AR(2) estacionário, yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ε t , onde
{ε t } é um ruído branco independente. Considerando este modelo como um MRL,
determine a matriz E ( xtT• xt • ) . Suponha que a hipótese da homocedasticidade
condicionada é verdadeira, e que E ( xtT• xt • ) existe e tem inversa. Verifique que a
matriz S = E (ε t2 xtT• xt • ) existe e tem inversa.
23. Considere um modelo DL(r ) , yt = δ ( L) xt + u t . Indique a fórmula para calcular o
desfasamento que corresponde a 80% do efeito.
24. Seja o modelo yt = α + δ ( L) xt + u t , onde δ ( L) = 2.2 + 0.8 L + 0.3L2 + 0.1L3 . Deter-
mine o desfasamento médio.
25. Considere um modelo de regressão linear explicativo do comportamento de y em

função de x e de z. Indique a equação de regressão do respectivo modelo
ARMAX(1,2,1), supondo que os regressores que envolvem as variáveis x e z são
estritamente exógenos.
26. Considere o operador δ ( L) = δ 0 + δ1 L + δ 2 L2 + L + δ r Lr . Pode provar-se a seguin-
te decomposição deste operador: δ ( L) = δ (1) L + γ ( L)(1 − L) , onde γ (L) é um po-
linómio em L, mas de grau r − 1 . Supondo r = 2 , e aplicando a decomposição re-
ferida, aplique o operador δ (L) a xt de forma a obter uma expressão em xt −1 ,
∆xt e ∆xt −1 .
27. Considere o operador δ ( L) = δ 0 + δ1 L + δ 2 L2 + L + δ r Lr . Pode provar-se a seguin-
te decomposição deste operador: δ ( L) = δ (1) L + γ ( L)(1 − L) , onde γ (L) é um po-
linómio em L, mas de grau r − 1 . Supondo r = 3 , aplique o operador δ (L) a xt
de forma a obter uma expressão em xt −1 , ∆xt , ∆xt −1 e ∆xt − 2 .
28. Suponha que δ (L) e γ (L) são polinómios em L de grau 3 e de grau 2, respectiva-
mente. Determine as expressões dos coeficientes do segundo polinómio em fun-
ção dos coeficientes do primeiro, sabendo que δ ( L) = δ (1) + γ ( L)(1 − L) .
29. Suponha que δ (L) e γ (L) são polinómios em L de grau 4 e de grau 3, respectiva-
mente. Determine as expressões dos coeficientes do segundo polinómio em fun-
ção dos coeficientes do primeiro, sabendo que δ ( L) = δ (1) L + γ ( L)(1 − L) .
30. Considere o processo ARMAX(2,1, 2) estável,
yt = ϕ 0 +ϕ1 yt −1 +ϕ 2 yt − 2 + β 0 xt + β1 xt −1 + ε t + θ1 ε t −1 + θ 2 ε t − 2 .
Conside este modelo como um MRL, e suponha que os regressores que envolvem
a variável x são pré-determinados. Indique a ordem de autocorrelação (se existir) e
os eventuais regressores endógenos.
31. Seja o processo ARMAX estável,
yt = ϕ 0 +ϕ1 yt −1 +ϕ 2 yt − 2 + β 0 xt + β1 xt −1 + vt .
Considere processo DL(∞) associado. Determine as restrições sobre os respecti-

vos δ j .
yt = ϕ 0 +ϕ1 yt −1 +ϕ 2 yt − 2 + β 0 xt + β1 xt −1 + β 2 xt − 2 + vt .
Considere o aumento temporário de x, de uma unidade no período t. Determine,

em função dos parâmetros do processo ARMAX, o efeito ceteris paribus de xt
sobre yt + 3 .
33. Considere-se um processo DL(∞) , yt = α + δ 0 xt + δ1 xt −1 + δ 2 xt −2 + L + ut , onde
δ s = γ ϕ s , | ϕ | < 1 ( s = 0,1, 2,K ). Deduza o respectivo modelo ARMAX.
34. Considere o modelo yt∗ = α + β xt + ut , onde yt∗ é valor expectativa em t da variá-
vel y. Suponha que ∆yt = δ ∆yt∗ + γ ( yt∗−1 − yt −1 ) , onde 0 < γ < 1 e δ > 0 [hipótese
do mecanismo de correcção do erro]. Determine o modelo ARMAX respectivo.
35. Seja a hipótese do mecanismo de correcção do erro, ∆yt = δ ∆yt∗ + γ ( yt∗−1 − yt −1 ) ,

onde 0 < γ < 1 e δ > 0 . Indique as condições em que esta hipótese se reduz à hi-
pótese do ajustamento parcial.
36. Considere o modelo yt = α + θ t + ϕ yt −1 + ε t , onde | ϕ | < 1 e ε t é um ruído branco.
Indique o termo de correcção do erro.
37. Considere o modelo yt = α + ϕ yt −1 + ε t , onde | ϕ |< 1 e {ε t : t = 1,2,K} é um ruído
branco. Apresente a relação de equilíbrio de longo prazo (RELP) e reescreva o
modelo explicitando o termo de correcção de erro (TCE).
38. Suponha que o modelo yt = ϕ 0 +ϕ1 yt −1 +ϕ 2 yt −2 + β 0 xt + β1 xt −1 + β 2 xt −2 + ε t é está-
vel. Reparametrize-o de forma a explicitar ∆yt em função de yt −1 , ∆ yt −1 , xt −1 ,
∆ xt , ∆ xt −1 e ε t (forma de Barsden).
yt = ϕ 0 +ϕ1 yt −1 +ϕ 2 yt − 2 + β 0 xt + β1 xt −1 + β 2 xt − 2 + ε t .
Apresente a relação de equilíbrio de longo prazo (RELP) e reescreva o modelo de

forma a explicitar a forma de Barsden.
40. Seja o processo ARMAX estacionário em torno da tendência,
yt = ϕ 0 +δ t + ϕ1 yt −1 +ϕ 2 yt − 2 + β 0 xt + β1 xt −1 + β 2 xt − 2 + ε t .
Apresente a relação de equilíbrio de longo prazo (RELP) e reescreva o modelo de

forma a pôr em evidência o termo de correcção de erro (TCE).
CAPÍTULO 10
RAÍZES UNITÁRIAS E COINTEGRAÇÃO
Nos modelos econométricos com dados temporais estudados nos capítulos ante-
riores desempenhou um papel fundamental a hipótese da estacionaridade dos respecti-
vos processos estocásticos.
A constatação de que muitas variáveis económicas são não estacionárias tem
como consequência que os resultados assintóticos anteriormente obtidos, necessários
para efectuar inferência estatística sobre os parâmetros desconhecidos dos modelos es-
pecificados, têm que ser modificados.
A questão da não estacionaridade está intimamente relacionada com a existência
de tendências. Em economia, não faltam exemplos de variáveis que apresentam algum
tipo de tendência temporal. Nalguns casos, como o PIB a preços constantes (ou o seu lo-
garitmo), a variável apresenta tendência temporal média crescente, ou seja, o seu valor
médio, em vez de se manter constante, cresce de forma consistente ao longo do tempo.
Este tipo de tendência (linear ou não) é designada por tendência determinística. Na fi-
gura 10.1 apresenta-se uma série longa do logaritmo do PIB anual de Portugal, de 1865
a 2001, em milhões de dólares 1990 (International Geary-Khamis).
13
12
11
10
6
1865 1873 1881 1889 1897 1905 1913 1921 1929 1937 1945 1953 1961 1969 1977 1985 1993 2001
Fig. 10.1 – Logaritmo do PIB português (1865-2001), em milhões de dólares 1990.

Fonte: Angus Maddison (2003), The World Economy: Historical Statistics, OECD Development Centre.
Capítulo 10 – Raízes unitárias e cointegração 2
Noutros casos, como as taxas de câmbio (por exemplo, o rácio euro/dólar), a va-
riável não apresenta tendência em média, mas qualquer variação no seu valor parece ter
um efeito permanente nos valores futuros de tal forma que o melhor previsor destes va-
lores é o seu valor corrente. Na figura 10.2 apresenta-se uma série da taxa mensal de
câmbio de referência do Euro em relação ao Dólar dos Estados Unidos (USD), de Janei-
ro de 1999 a Dezembro de 2005.
1.5
1.25
0.75
0.5
1999 1999 1999 2000 2000 2000 2001 2001 2001 2002 2002 2002 2003 2003 2003 2004 2004 2004 2005 2005 2005
Jan M ai Set Jan M ai Set Jan M ai Set Jan M ai Set Jan M ai Set Jan M ai Set Jan M ai Set
Fig. 10.2 – Taxa mensal de câmbio de referência Euro/USD (Jan-1999 a Dez-2005).

Fonte: Banco de Portugal.
Um processo com esta propriedade, que não é verdadeira para os processos esta-
cionários, tem a designação de tendência estocástica. Recordando a definição de mar-
tingala (ver definição 3.10 do capítulo 3), facilmente se verifica que martingala e ten-
dência estocástica são sinónimos. Com efeito, se o processo { yt } é uma martingala tem-
-se E ( yt +1 | yt , yt −1 , K) = yt , e conclui-se (utilizando a propriedade do valor esperado ite-
rado) que E ( yt + s | yt , yt −1, K) = yt , para s = 2, 3, K . Como vai ver-se, as tendências esto-
cásticas gozam de uma propriedade muito importante: revelam um comportamento claro
de não gravitarem em torno de um valor constante ou de uma tendência temporal deter-
minística.
Note-se, contudo, que podem existir processos não estacionários sem apresenta-
rem tendência. Por exemplo, seja o processo iid, {ε t } , tal que Var (ε t ) = 1 , e suponha-se
que d t = 1 , quando t é ímpar, e que d t = 2 , quando t é par. O processo {ut } , tal que
ut = dtε t , não é estacionário porque Var (ut ) = 1 , quando t é ímpar, e Var (ut ) = 4 , quan-
do t é par. No entanto, {ut } é um processo sem tendência.
A premissa básica deste capítulo é a de que as variáveis económicas podem ser
representadas pela soma de três parcelas: uma componente determinística (em muitos
casos, uma tendência linear), uma tendência estocástica, e um processo estacionário.
As duas últimas parcelas constituem a componente estocástica.
10.1 - Processos integrados
Nesta secção vai introduzir-se uma classe importante de processos com tendência
estocástica, a classe dos processos integrados.
Para definir processo integrado de ordem d (inteiro e positivo), vai começar-se
por apresentar a definição de processo de ordem 0.
Definição 10.1 – Processo integrado de ordem 0

Considere-se o processo estocástico { yt } , supondo que
(10.1) yt = ct + wt ,
onde ct é a componente determinística e wt é a componente estocástica. O processo

{ yt } é integrado de ordem 0, yt ~ I (0) , se e só se {wt } é estritamente estacionário com
valor esperado nulo, e a respectiva variância de longo prazo é positiva.
Podem-se fazer os seguintes comentários:

1) Facilmente se verifica que E ( yt ) = ct .
2) Obviamente, o processo {wt } também é I (0) .
3) A componente determinística pode ser, por exemplo, apenas uma constante ( ct = α ),
pode ser composta por uma tendência linear ( ct = α + δ t ) ou pode ser mais complexa
(incluir dummies sazonais ou outras variáveis não estocásticas).
4) Os ruídos brancos (independentes), os processos iid e os processos ARMA estacio-
nários são exemplos de processos I (0) .
5) A variância de longo prazo de {wt } é igual à variância de longo prazo de { yt } , que,
recorde-se (ver secção 9.7 do capítulo 9), é dada por
VLP( yt ) = lim Var  n y  .

n → +∞  
A exigência de que este deve ser positivo é esclarecida mais adiante.
Definição 10.2 – Processo integrado de ordem d (inteiro e positivo)

O processo estocástico { yt } é integrado de ordem d, yt ~ I (d ) ( d = 1, 2, K ), se e só se o
processo das diferenças de ordem d, {∆ d yt } , é I (0) . Em particular, { yt } é integrado de
ordem 1, yt ~ I (1) , se e só se {∆yt } é I (0) .
O processo I (d ) , { yt } , pode ser apresentado da seguinte maneira:

∆d yt = ct + wt ,
onde {wt } é o processo I (0) , com valor esperado nulo. Diz-se, então, que { yt } é o pro-
cesso I (d ) associado ao processo {wt } .
Em particular, para d = 1 , tem-se
∆yt = ct + wt .
Fazem-se a seguir mais alguns comentários sobre os processos I (1) :

1) Quando o processo { yt } é integrado de ordem 1, tem-se yt = yt −1 + ct + wt . Admitin-
do que o processo teve início em determinada data, suponha-se, sem perda de genera-
lidade, que a data inicial é t = 0 . Deste modo, obtém-se (por substituição sucessiva)
yt = y0 + ct + ct −1 + L + c1 + wt + wt −1 + L + w1 = y0 + ∑s =1 cs + ∑ s =1 ws = y0 + Ct + Wt ,
t t
onde
Ct = ∑ s =1 cs e Wt = ∑ s =1 ws .
t t
Assim, a variável yt decompõe-se em três parcelas: o valor inicial, y0 [supõe-se que

Var ( y0 ) < +∞ ]; a componente determinística, Ct ; a tendência estocástica, Wt . Tem-
-se
E ( yt ) = E ( y0 ) + E (Ct ) = E ( y0 ) + Ct .
Sem dificuldade se verifica que a variância de yt , condicionada pelo valor inicial

y0 , depende de t, e é finita para cada t. Com efeito, obtém-se
Var ( yt | y0 ) = Var (Wt | y0 ) = Var ( w1 + w2 + L + wt −1 + wt | y0 )
= t γ 0 + 2{(t − 1) γ 1 + (t − 2) γ 2 + L + 2 γ t − 2 + γ t −1} < +∞,
onde:
γ 0 = Var ( ws | y0 ) , para s = 1, 2, K , t ;
γ 1 = Cov( ws , ws −1 | y0 ) , para s = 2, 3, K , t ;
γ 2 = Cov( ws , ws − 2 | y0 ) , para s = 3, 4, K , t ;
...
γ t − 2 = Cov( ws , ws −t + 2 | y0 ) , para s = t − 1, t ;
γ t −1 = Cov( wt , w1 | y0 ) .
Se o processo “não teve início” (isto é, se “começou” em − ∞ ), verifica-se sem difi-
culdade que a variância de yt é infinita.
2) Quando ct = α , tem-se ∆ yt = α + wt , e, portanto,
yt = y0 + Ct + Wt = y0 + α t + wt + wt −1 + L + w1 ,
onde Ct = α t . Tem-se
E ( yt ) = E ( y0 ) + α t .
Deduz-se imediatamente que este processo I (1) pode ter uma tendência linear deter-
minística. Se α = 0 , o processo I (1) não tem tendência, e pode designar-se por pro-
cesso I (1) sem deriva. Se α ≠ 0 , o processo tem deriva. Obviamente, um processo
I (1) com deriva é igual à soma de uma tendência linear determinística com um pro-
cesso I (1) sem deriva (com uma tendência estocástica). Em suma, pode afirmar-se
que “a média do processo I (0) corresponde à tendência linear do processo I (1) ”.
3) Quando ct = α + δ t , e, portanto, ∆ yt = α + δ t + wt , vem
 δ δ
yt = y0 + Ct + Wt = y0 +  α +  t + t 2 + wt + wt −1 + L + w1 ,
 2 2
onde
 δ δ
Ct =  α +  t + t 2 .
 2 2
Tem-se
 δ δ
E ( yt ) = E ( y0 ) +  α +  t + t 2 .
 2 2
Verifica-se imediatamente que este processo I (1) pode ter uma tendência quadrática
determinística. Se δ = 0 , o processo I (1) tem tendência linear. Se δ ≠ 0 , o proces-
so tem tendência quadrática. Neste caso, o processo I (1) é igual à soma de uma
tendência quadrática determinística com um processo I (1) sem deriva (com uma ten-
dência estocástica). Em suma, pode afirmar-se que “a tendência linear do processo
I (0) corresponde à tendência quadrática do processo I (1) ”.
4) Um processo I (1) também se pode chamar processo diferença-estacionário (diffe-
rence-stationary), uma vez que o respectivo processo das primeiras diferenças é esta-
cionário.
5) Na definição 10.1 foi imposta a condição de a variância de longo prazo ser positiva.
Esta condição tem por objectivo evitar a situação contraditória que se passa a expor.
Considere-se o processo { yt } tal que yt = ε t − ε t −1 , onde {ε t } é um ruído branco in-
dependente. No capítulo 9 (secção 9.7) verificou-se que a variância de longo prazo
de { yt } é nula. Se não se exigisse, na definição 10.1, que a variância de longo prazo
deve ser positiva, este processo { yt } seria I (0) . Mas, como yt = ∆ε t , então {ε t } se-
ria também I (1) ! Para clarificar esta situação contraditória, vai definir-se que o pro-
cesso das primeiras diferenças de um processo I (0) é um processo I (−1) . É o que
acontece com { yt } , porque yt = ∆ε t e {ε t } é I (0) .
Vai demonstrar-se que a variância de longo prazo de um processo I (−1) é nula. Com
efeito, seja ut ~ I (0) , com Cov(ut , ut − s ) = γ s < +∞ , qualquer que seja s (inteiro). Co-
meça por verificar-se que o processo {vt } , onde vt = ut − ut −1 , é estacionário em
covariância, uma vez que E (vt ) = 0 , Var (vt ) = Var (ut − ut −1 ) = 2 (γ 0 − γ 1 ) e
Cov(vt , vt − s ) = E (vt vt − s ) = E{(ut − ut −1 )(ut − s − ut − s −1 )} = 2 γ s − γ s +1 − γ s −1 .
Como
v1 + v2 + L + vn = un − u0 e Var (un − u0 ) = 2 (γ 0 − γ n ) = 2 γ 0 (1 − ρ n ) ,
onde ρ n é o coeficiente de autocorrelação de ordem n, conclui-se imediatamente que

a variância de longo prazo é nula. De facto, tem-se
u −u  1 
lim Var ( )
n v = lim Var  n 0  = lim  {2 γ 0 (1 − ρ n )} = 0 ,
n → +∞ n → +∞
 n  n → +∞
n 
uma vez que 2 γ 0 (1 − ρ n ) é finito (basta notar que | ρ n | ≤ 1 ).
6) Em Economia, a grande maioria das variáveis económicas correspondem a pro-
cessos I (0) ou I (1) ; raramente são I (2) .
Vão apresentar-se alguns exemplos de processos I (1) :

1) Suponha-se que yt = yt −1 + wt , onde {wt } é um processo auto-regressivo de 1.ª or-
dem com valor esperado nulo: wt = ϕ wt −1 + ε t , onde | ϕ | < 1 e {ε t } é um ruído bran-
co. O processo { yt } é I (1) porque ∆ yt = wt ~ I (0) . Tem-se ct = 0 .
Neste caso, vem
yt = y0 + wt + wt −1 + L + w1 = y0 + Wt ,
com E ( yt ) = E ( y0 ) , para qualquer t.

Quando se considera y0 = 0 (para simplificar), vem:
Var ( yt ) = E{( w1 + w2 + L + wt −1 + wt ) 2}
=γ 0 (t + 2{(t − 1) ϕ + (t − 2) ϕ 2 + L + 2ϕ t − 2 + ϕ t −1}),
uma vez que γ s = γ 0 ϕ s ( s = 1, 2, K , t ). Não é difícil verificar que as autocovariâncias

Cov( yt , yt + s ) e Cov( yt , yt − s ) são diferentes, e dependem de t e de s.
2) Passeio aleatório sem deriva: yt = yt −1 + ε t , em que {ε t } é um ruído branco inde-
pendente. O processo { yt } é I (1) porque ∆ yt = ε t ~ I (0) .
Neste caso, ct = 0 e wt = ε t . Então,
yt = y0 + ε t + ε t −1 + L + ε1 = y0 + ∑ s =1 ε s .
t
Então, E ( yt ) = E ( y0 ) , para qualquer t.

Quando se considera y0 = 0 (para simplificar), vem:
Var ( yt ) = σ ε2t ; Cov( yt , yt + s ) = σ ε2 t ; Cov( yt , yt − s ) = σ ε2 (t − s ) ,
o que mostra claramente que o processo { yt } não é estacionário.

Daqui resulta que as correlações (ver capítulo 3)
t t−s
Corr ( yt , yt + s ) = e Corr ( yt , yt − s ) = ,
t+s t
dependem de t. Para t fixo, a correlação entre yt e yt + s , por exemplo, tende para ze-
ro (em geral, lentamente) quando s → +∞ . De facto, quanto maior é t, mais lenta-
mente a correlação tende para zero, quando s cresce. Se se escolher um s grande, po-
de sempre escolher-se um t suficientemente grande, tal que a correlação entre yt e
yt + s esteja próxima de 1. Deste modo, o passeio aleatório é assintoticamente correla-
cionado.
3) Passeio aleatório com deriva: yt = α + yt −1 + ε t , em que {ε t } é um ruído branco in-
dependente. O processo { yt } é I (1) porque ∆ yt = α + ε t ~ I (0) .
Tem-se ct = α , wt = ε t e
yt = y0 + α t + ε t + ε t −1 + L + ε1 = y0 + α t + ∑ s =1 ε s .
t
Então, E ( yt ) = E ( y0 ) + α t , para qualquer t. As expressões das variâncias, das autoco-

variâncias e dos coeficientes de autocorrelação são iguais às do exemplo anterior.
4) Passeio aleatório com tendência linear: yt = α + δ t + yt −1 + ε t , em que {ε t } é um
ruído branco independente. O processo { yt } é I (1) porque ∆ yt = α + δ t + ε t ~ I (0) .
Então, ct = α + δ t , wt = ε t e
 δ δ  δ δ
yt = y0 +  α +  t + t 2 + ε t + ε t −1 + L + ε1 = y0 +  α +  t + t 2 + ∑ s =1 ε s ,
t
 2 2  2 2
e, portanto, E ( yt ) = E ( y0 ) + (α + δ / 2) t + (δ / 2) t 2 . As expressões das variâncias, das

autocovariâncias e dos coeficientes de autocorrelação ainda são iguais às do exemplo
anterior.
Um processo I (1) mostra um comportamento altamente persistente, ou seja,

o valor de y hoje é importante para determinar o valor de y num futuro distante. Com
efeito, no caso de o processo não ter deriva, tem-se
yt + s = yt + wt + s + wt + s −1 + L + wt +1 = yt + ∑i =1 wt + i ,
s
e E ( yt + s | yt ) = yt , ∀s ≥ 1 . Isto significa que, por mais distante que seja o futuro, a me-
lhor previsão de yt + s é yt . No caso de o processo I (1) ter deriva, ct = α , facilmente se
conclui que
yt + s = yt + α s + wt + s + wt + s −1 + L + wt +1 = yt + α s + ∑i =1 wt + i ,
s
e E ( yt + s | yt ) = α s + yt , ∀s ≥ 1 .
Por exemplo, a este propósito vai confrontar-se um passeio aleatório sem deriva,
yt = yt −1 + ε t , com um processo AR(1) estável, yt = ϕ yt −1 + ε t ( | ϕ | < 1 ). Para o primeiro
processo, tem-se
yt + s = yt + ε t + s +ε t + s −1 + L + ε t +1 = yt + ∑i =1 ε t + i ,
s
e E ( yt + s | yt ) = yt , para qualquer s. No caso do segundo processo, vem
yt + s = ϕ s yt + ε t + s + ϕ ε t + s −1 + ϕ 2ε t + s − 2 + L + ϕ s − 2ε t + 2 + ϕ s −1ε t +1 = ϕ s yt + ∑i =1ϕ s − iε t + i ,
s
e portanto, E ( yt + s | yt ) = ϕ s yt , ∀s ≥ 1 , que tende para zero quando s → +∞ .

Deve, ainda, notar-se que existem processos não estacionários que não são
integráveis. Por exemplo, o processo dado por yt = α + ϕ yt −1 + ε t , com | ϕ | > 1 .
Como já se afirmou, muitas variáveis económicas apresentam tendência (cres-
cente) ao longo do tempo. Em muitos casos, variáveis com este comportamento são ca-
racterizadas por processos estacionários em tendência (trend-stationary), e podem es-
crever-se como a soma de uma tendência (linear) determinística (se existir) e de um pro-
cesso estacionário. Noutras situações, aquelas variáveis comportam-se como processos
diferença-estacionários (difference-stationary), e podem ser decompostos em três par-
celas: uma tendência (linear) determinística (se existir); uma tendência estocástica; um
processo estacionário. Desta forma, a diferença entre os dois tipos de processos reside
na existência da tendência estocástica.
Para ilustrar a diferença entre os dois processos, considere-se o seguinte modelo:
 yt = α + δ t + ut

ut = ρ ut −1 + ε t ,
onde {ε t } é um ruído branco independente.

A previsão de y para a data t + s , condicionada por ( yt , yt −1 , K) pode ser dada
por
E ( yt + s | yt , yt −1, K) = α + δ (t + s ) + E (ut + s | yt , yt −1 , K)
= α + δ (t + s ) + E (ut + s | ut , ut −1 , K),
atendendo a que ( yt , yt −1 , K) e (ut , ut −1, K) contêm a mesma informação.

Como
ut + s = ρ sut + ε t + s + ρ ε t + s −1 + ρ 2ε t + s − 2 + L + ρ s − 2ε t + 2 + ρ s −1ε t +1 ,
tem-se
E ( yt + s | yt , yt −1 , K) = α + δ (t + s ) + ρ sut
= α + δ (t + s ) + ρ s ( yt − α − δ t ).
Vão considerar-se duas situações:

a) | ρ | < 1 .
Neste caso, {ut } é um processo AR(1) estacionário [é um processo I (0) com média
nula]. Então, { yt } é estacionário em tendência. Como E (ut2 ) < +∞ , vem
E{( ρ sut )2 } = ρ 2 s E (ut2 ) → 0 quando s → +∞ .
Deste modo, E ( yt + s | yt , yt −1, K) converge em média quadrática para a tendência li-

near, α + δ (t + s ) . Mais precisamente,
E [{E ( yt + s | yt , yt −1 , K) − α − δ (t + s )}2 ] → 0 ,
quando s → +∞ . Assim, o valor corrente e os valores passados de y não afectam a

previsão se o respectivo horizonte temporal está suficientemente afastado.
Em particular, se δ = 0 , então
mq
E ( yt + s | yt , yt −1 , K) → E ( yt ) = α ,
ou seja, a previsão de longo prazo é o valor esperado não condicionado. Esta proprie-
dade, que se designa por reversão para a média (mean reversion), caracteriza o pro-
cesso em causa (mais geralmente, é uma propriedade dos processos estacionários li-
neares). Por esta razão, um processo estacionário linear também se pode designar por
componente transitória.
b) ρ = 1 .
Neste caso, {ut } é um passeio aleatório sem deriva (um caso particular de tendência
estocástica), podendo escrever-se
yt = (α + u0 ) + δ t + ε t + ε t −1 + L + ε1 .
Assim, { yt } é um passeio aleatório com deriva δ , e valor inicial α + u0 [um caso

particular de processo I (1) ou processo diferença-estacionário].
Fazendo ρ = 1 na expressão de E ( yt + s | yt , yt −1, K) , obtém-se
E ( yt + s | yt , yt −1, K) = δ s + yt .
Assim, espera-se que um passeio aleatório com deriva δ cresça a uma taxa constante
δ , qualquer que seja o valor corrente de y. Devido à existência de uma tendência es-
tocástica, o valor corrente de y tem um efeito permanente na previsão, qualquer que
seja o respectivo horizonte temporal. Por esta razão, uma tendência estocástica tam-
bém tem o nome de componente permanente.
Numa primeira abordagem, sobretudo gráfica, pode ser difícil distinguir os dois
comportamentos referidos. Contudo, os dois modelos especificam comportamentos mui-
to diferentes para { yt } , exactamente os mesmos que distinguem um processo I (0) de
um processo I (1) . Além disso, os dois modelos contêm recomendações implícitas dife-
rentes sobre a forma de proceder. Com efeito, a eliminação da tendência no primeiro dá
origem a um processo estacionário sem tendência; em contrapartida, no segundo, para
obter um processo estacionário, devem considerar-se as primeiras diferenças, ∆yt .
10.2 - Os instrumentos básicos da econometria das raízes unitárias
O instrumento básico da econometria das raízes unitárias é o chamado teorema

do limite central funcional (TLCF). Para que o TLCF seja aplicável, é necessário parti-
cularizar os processos I (1) , impondo restrições aos processos I (0) associados. A restri-
ção que se vai estabelecer sobre os processos I (0) é que sejam lineares.
Definição 10.3 – Processo I (0) linear

O processo I (0) , { yt } , é linear se e só se yt = ct + wt , e o processo {wt } verifica as se-
guintes condições:
a) wt = ψ ( L)ε t , onde ψ ( L) = ψ 0 + ψ 1L + ψ 2 L2 + L (para t = 0,± 1,± 2, K ), e {ε t } é um
ruído branco independente [com E (ε t2 ) = σ ε2 > 0 ];
∑
+∞
b) s =0
s |ψ s | < +∞ ;
c) ψ (1) = ψ 0 + ψ 1 + ψ 2 + L ≠ 0 .

1) A condição b) da definição anterior (por vezes, conhecida pela designação de soma-
bilidade de 1.ª ordem ou somabilidade-um) é mais forte que a condição habitual de
somabilidade absoluta, permitindo provar mais facilmente alguns resultados teóricos.
2) Para compreender o alcance da condição c), recorde-se que, devido ao teorema 9.4 e
à relação (9.64), a variância de longo prazo (que se vai representar por λ2 ) é dada
por
λ2 = ∑ s = −∞ γ s = γ 0 + 2 ∑ s =1 γ s = g w (1) = σ ε2{ψ (1)}2 > 0 ,

+∞ +∞
(10.2)
onde g w (1) é o valor, no ponto 1, da função geradora das autocovariâncias do pro-

cesso {wt } . Deste modo, fica garantido que a variância de longo prazo é positiva.
3) Facilmente se conclui que o processo {wt } da definição 10.3 é: um processo MA(∞)

com valor esperado nulo; é um processo I (0) .
4) Na definição 10.3 pode substituir-se o ruído branco independente, {ε t } , por um pro-
cesso de inovação mais geral; por exemplo, uma diferença-martingala estacionária.
A escolha do ruído branco independente destina-se a simplificar a exposição.
5) Doravante, quando se utilizar a expressão “processo I (0) ”, está a referir-se um pro-
cesso I (0) linear.
6) Considere-se que { yt } é um processo I (1) , ∆yt = ct + wt , onde wt = ψ ( L)ε t está nas
condições da definição 10.3. Então, diz-se que o processo I (1) é linear [trata-se de
um processo I (1) associado ao processo I (0) linear {wt } , que tem valor esperado
nulo].
A série de potências de L, ψ ( L) = ψ 0 + ψ 1L + ψ 2 L2 + L , verifica a seguinte iden-

tidade (ver na secção 9.6 do capítulo 9 um resultado semelhante relativo aos polinómios
em L):
(10.3) ψ ( L) = ψ (1) + δ ( L)(1 − L) ,
onde
δ ( L) = ∑i = 0 δ i Li = δ 0 + δ1L + δ 2 L2 + L
+∞
e
δ i = −(ψ i +1 + ψ i + 2 + L) (i = 0,1, 2, K) .
Por exemplo, vai verificar-se (10.3) para ψ ( L) = (1 − ϕ L)−1 , com | ϕ | < 1 . Com
efeito, como ψ ( L) = 1 + ϕ L + ϕ 2 L2 + L , obtém-se ψ (1) = 1 + ϕ + ϕ 2 + L = 1 (1 − ϕ ) , e
ϕ
δ 0 = −(ϕ + ϕ 2 + L) = −
1−ϕ
2 3 ϕ2
δ1 = −(ϕ + ϕ + L) = −
1−ϕ
ϕ3
δ 2 = −(ϕ 3 + ϕ 4 + L) = −
1−ϕ
L
Então,
1  ϕ ϕ2 ϕ3 2 
ψ (1) + δ ( L)(1 − L) = − + L+ L + L (1 − L) ,
1 − ϕ  1 − ϕ 1 − ϕ 1−ϕ 
sendo fácil verificar que
1  ϕ ϕ2 ϕ3 2 
− + L+ L + L (1 − L) = 1 + ϕ L + ϕ 2 L2 + L.
1 − ϕ  1 − ϕ 1 − ϕ 1−ϕ 
Utilizando a identidade (10.3), tem-se
wt = ψ ( L)ε t = {ψ (1) + δ ( L)(1 − L)}ε t = ψ (1)ε t + δ ( L)ε t − δ ( L)ε t −1 = ψ (1)ε t + ηt − ηt −1 ,
onde ηt = δ ( L)ε t .
Pode demonstrar-se que δ ( L) é absolutamente somável. Com efeito, fica ao cui-
dado do leitor verificar todos os passos da seguinte sequência de igualdades e desigual-
dades:
∑ | δ i | = ∑i = 0 − ∑ j = i +1ψ j ≤ ∑i = 0 ∑ j = i +1 |ψ j | = ∑ j = 0 j |ψ j | < +∞ .
+∞ +∞ +∞ +∞ +∞ +∞
i =0
Então, devido ao teorema 9.1, {ηt } é um processo estacionário em covariância

com valor esperado nulo (é, também, um processo estritamente estacionário e ergódico).
A partir de ∆yt = ct + wt , tem-se
yt = y0 + ∑s =1 cs + ∑s =1 ws = y0 + Ct + ∑ s =1 ws .
t t t
Fazendo wt = ψ (1)ε t + ηt − ηt −1 , e notando que
∑
t
s =1
(ηs − ηs −1 ) = ηt − η0 ,
obtém-se a decomposição de Beveridge-Nelson:
yt = Ct + ∑ s =1{ψ (1)ε s + ηs − ηs −1} + y0 = Ct + ψ (1) ωt + ηt + ( y0 − η0 ) ,

t
(10.4)
onde
ωt = ∑s =1 ε s .
t
Assim, qualquer processo I (1) linear pode ser escrito como soma de: uma com-
ponente determinística, Ct ; uma tendência estocástica, que é um passeio aleatório sem
deriva, ψ (1) ωt ; um processo estacionário, ηt ; uma condição inicial, y0 − η0 . Note-se
que a componente estacionária, ηt , pode não ser um processo I (0) . Por exemplo, se
wt = ψ 0 ε t − 2ε t −1 + ε t − 2 , tem-se δ 0 = 1 , δ1 = −1 e δ ( L) = 1 − L . Portanto, ηt = ε t − ε t −1 .
Este processo, embora estacionário, não é I (0) , porque a sua variância de longo prazo é
nula.
Resumindo, tem-se:
Teorema 10.1 – Decomposição de Beveridge-Nelson

Seja {wt } um processo I (0) linear (satisfaz as condições da definição 10.3). Então,
w1 + w2 + L + wt = ψ (1)(ε1 + ε 2 + L + ε t ) + ηt − η0 ,
onde ηt = δ ( L)ε t , δ i = −(ψ i +1 + ψ i + 2 + L) (i = 0,1, 2, K) . O processo {ηt } é estritamente

estacionário e ergódico, e tem valor esperado nulo.
Suponha-se que ct = 0 em (10.4), pelo que { yt } é um processo I (1) sem com-

ponente determinística. Uma implicação importante da decomposição (10.4) é que qual-
quer processo I (1) sem componente determinística é “dominado” pela tendência esto-
cástica, ψ (1) ωt . Assim, dividindo ambos os membros de (10.4) por t , obtém-se
yt 1 y η η 
= ψ (1) ωt +  0 + t − 0  .
t t  t t t
Como, por hipótese, E ( y02 ) < +∞ , tem-se E{( y0 t ) 2 } → 0 , quando t → +∞ .
Logo, y0 t converge em probabilidade para zero. O mesmo se passa com ηt t e
com η0 t . Então, assintoticamente, a parcela entre parêntesis recto pode ser ignorada.
Além disso, devido ao TLC de Lindeberg-Levy,
ωt d
ψ (1) → N (0, σ ε2{ψ (1)}2 ) ,
t
e, portanto, a tendência estocástica cresce à taxa t .
Utilizando (10.2), a tendência estocástica pode ser escrita da seguinte maneira:
ωt
ψ (1) ωt = λ ,
σε
o que mostra que as variações da tendência estocástica de { yt } têm variância igual a λ2
(a variância de longo prazo de {∆ yt } ).
Considere-se, agora, ct = α ≠ 0 (com deriva). Dividindo ambos os membros de
(10.4) por t, vem
yt ω y η η 
= α + ψ (1) t +  0 + t − 0  .
t t  t t t 
Facilmente se conclui que yt t tende em probabilidade para α , uma vez que as

outras parcelas convergem em probabilidade para zero. Assim, a componente estocásti-
ca e a componente estacionária podem, assintoticamente, serem ignoradas. Deste modo,
a tendência linear determinística domina o processo I (1) , em grandes amostras.
As considerações precedentes, feitas na sequência do teorema 10.1, e quando se
supõe que ct = 0 , podem ser utilizadas para demonstrar o teorema 9.5 [TLC para os
processos MA(∞) ], desde que substitua a hipótese da somabilidade absoluta de {ψ s }
pela hipótese da somabilidade de 1.ª ordem [condição b) da definição 10.3]. Com efeito,
considerando o processo I (0) linear, yt − µ = ψ ( L)ε t (ver enunciado do teorema 9.5) e
a decomposição (10.3), obtém-se yt − µ = ψ (1)ε t + ηt − ηt −1 , onde ηt = δ ( L)ε t . Então,
∑
n
t =1
( yt − µ ) = ψ (1) ωt + ηn − η0 .
Dividindo ambos os membros por n, vem

ωt η n η0
y − µ = ψ (1) + − .
n n n
Donde,
ωt ηn η0
n ( y − µ ) = ψ (1) + − .
n n n
Como ηn n e η0 n tendem em probabilidade para zero, e
ωt d
ψ (1) → N (0, λ2 ) ,
n
o que prova (9.110).
É possível relacionar os processos I (d ) com os processos ARMA. Com efei-
to, considere-se a equação com diferenças ϕ ( L) wt = θ ( L)ε t , onde
ϕ ( L) = 1 − ϕ1L − ϕ 2 L2 − L − ϕ p Lp , θ ( L) = 1 + θ1 L + θ 2 L2 + L + θ q Lq ,
{ε t } é um ruído branco independente e ϕ (1) ≠ 0 . Se ϕ ( L) satisfaz a condição de esta-

cionaridade [as raízes da equação polinomial ϕ ( z ) = 0 estão no exterior do círculo uni-
tário], então o processo {wt } é ARMA( p, q) , e é a única solução estacionária em cova-
riância daquela equação com diferenças (ver secção 9.3). Conclui-se imediatamente que
{wt } é I (0) com valor esperado nulo.
O processo I (1) , { yt } , associado àquele processo ARMA( p, q) , é definido pela
relação ∆ yt = α 0 + wt (para simplificar supõe-se que ct = α 0 ). Nestas condições, diz-se
que { yt } segue um processo ARMA integrado de ordem 1. Pode, então, escrever-se:
yt ~ ARIMA( p, 1, q ) .
Como ∆yt = (1 − L) yt , tem-se wt = (1 − L) yt − α 0 . Substituindo na equação com
diferenças, obtém-se
ϕ ( L){(1 − L) yt − α 0 } = θ ( L)ε t ⇔ ϕ ∗ ( L) yt = α + θ ( L)ε t ,
onde ϕ ∗ ( L) = ϕ ( L)(1 − L) e α = ϕ ( L)α 0 = (1 − ϕ1 − ϕ2 − L − ϕ p )α 0 . Verifica-se imediata-
mente que uma das raízes de ϕ ∗ ( z ) = 0 é igual a um, e as restantes p são, em módulo,
superiores a 1. Assim, existe uma raiz unitária.
Mais geralmente, o processo I (d ) , { yt } , associado a {wt } , é definido pela rela-
ção ∆ yt = wt . Diz-se, então, que { yt } segue um processo ARMA integrado de ordem
d
d: yt ~ ARIMA( p, d , q ) .
Esta classe de processos I (d ) satisfaz a equação
ϕ ∗ ( L) yt = α + θ ( L)ε t ,
em que ϕ ∗ ( L) = ϕ ( L)(1 − L) d é um polinómio de grau p + d , com p raízes com módulo
superior a 1 e d raízes unitárias. Assim, na classe do processos ARIMA( p, d , q ) , o
problema da ordem de integração é equivalente ao problema da determinação do
número de raízes unitárias do polinómio que opera sobre yt . Nestas condições, pode
dizer-se que o processo { yt } é integrado de ordem d ou tem d raízes unitárias.
Para ilustrar as considerações precedentes, considere-se o processo AR(3)
ϕ ∗ ( L) yt = α + ε t
 ∗ ∗ 2 ∗ 3
ϕ ( L) = 1 − ϕ1 L − ϕ2 L − ϕ3 L .
∗
Suponha-se que uma das raízes do polinómio do 3.º grau, ϕ ∗ ( z ) = 0 , é unitária, e

as outras duas estão no exterior do círculo unitário. Nestas condições, ϕ ∗ (L) pode facto-
rizar-se da seguinte maneira:
ϕ ∗ ( L) = 1 − ϕ1∗ L − ϕ2∗ L2 − ϕ3∗ L3 = (1 − ϕ1L − ϕ2 L2 )(1 − L) = ϕ ( L)(1 − L) ,
onde ϕ ( L) = 1 − ϕ1L − ϕ2 L2 . Então,

(1 − ϕ1L − ϕ2 L2 )(1 − L) yt = α + ε t ⇔ (1 − ϕ1L − ϕ 2 L2 )∆ yt = α + ε t ,
o que mostra que yt ~ I (1) .

Se o polinómio ϕ ∗ ( z ) = 0 tem duas raízes unitárias, e a outra tem módulo maior
do que 1, tem-se
ϕ ∗ ( L) = 1 − ϕ1∗ L − ϕ2∗ L2 − ϕ3∗ L3 = (1 − ϕ L)(1 − L) 2 = ϕ ( L)(1 − L) 2 ,
onde ϕ ( L) = (1 − ϕ L) , e
(1 − ϕ L)(1 − L) 2 yt = α + ε t ⇔ (1 − ϕ L)∆2 yt = α + ε t ,
ou seja, yt ~ I (2) .
Na secção seguinte vai estudar-se os testes de raízes unitárias. As distribuições
limite das respectivas estatísticas-teste são apresentadas com base em processos de
Wiener (ou processos de movimento Browniano).
Definição 10.4 – Processo de Wiener estandardizado

Um processo de Wiener estandardizado (ou processo de movimento Browniano), W (⋅) ,
é um processo estocástico em tempo contínuo, fazendo corresponder a cada momento t
pertencente ao intervalo [0, 1] uma variável aleatória W (t ) , a verificar:
a) W (0) = 0 ;
b) Para quaisquer momentos 0 ≤ t1 < t2 < L < tm ≤ 1 , as variações
W (t2 ) − W (t1 ) , W (t3 ) − W (t2 ) ,..., W (tm ) − W (tm −1 )
são independentes, e têm distribuição normal.

Tem-se W ( s ) − W (t ) ~ N (0, s − t ) [em particular, W (1) ~ N (0, 1) ];
c) Para qualquer realização do processo estocástico, W (t ) é contínua em t com probabi-
lidade 1.
Em termos aproximados, o TLCF (teorema do limite central funcional; também

chamado princípio da invariância) estabelece que o processo de Wiener é a versão em
tempo contínuo do passeio aleatório sem deriva (que é um processo aleatório em tempo
discreto). Para ilustrar esta afirmação, suponha-se que se gera uma realização de com-
primento n ( t = 1, 2, K , n ) de um passeio aleatório em que as primeiras diferenças têm
variância igual a 1 (passeio aleatório estandardizado): ∆ yt = ε t , com E (ε t2 ) = 1 . Con-
siderem-se os casos em que n é igual a 10, a 100 e a 1000. Os gráficos respectivos en-
contram-se na figura 10.3, onde as ordenadas são obtidas dividindo cada valor gerado
por n , e a escala horizontal é comprimida de forma a ajustar-se ao intervalo [0, 1]. A
figura mostra que o gráfico é cada vez mais denso, à medida que n cresce. Quando
n → +∞ , o TLCF assegura que o processo limite é o processo de Wiener W (r ) , com
r ∈ [0, 1]. A condição b) da definição 10.4 é uma formulação matemática de que a
sequência de variações instantâneas de um processo de Wiener é iid. A versão em tem-
po contínuo de um passeio aleatório sem deriva cujas variações têm variância igual a
σ ε2 é dado por σ ε W (r ) .
Amostra de dimensão 10
0.5
0
1
-0.5
-1
-1.5
-2
-2.5
0.5
0
1
-0.5
-1
-1.5
-2
1.5
0.5
0
1
-0.5
Fig. 10.3 – Ilustração do teorema do limite central funcional (TLCF).
Para prosseguir a analogia entre um passeio aleatório sem deriva é um processo

de Wiener, considere-se um passeio aleatório estandardizado centrado (demeaned).
Este processo é construído a partir de ∆ yt = ε t , com E (ε t2 ) = 1 , subtraindo a média dos
valores y0 , y1 ,..., yn −1 (média amostral):
y0 + y1 + L + yn −1
ytc = yt − ( t = 0,1, K , n − 1 ).
n
A versão em tempo contínuo deste processo é o processo de Wiener estandar-
dizado centrado,
1
W c (r ) = W (r ) − ∫ W ( s ) ds .
0
[A série centrada foi definida para t = 0,1, K , n − 1 para coincidir com a convenção se-
guida no teorema 10.2 (ver adiante); se a série centrada for definida para t = 1, 2, K , n ,
então a versão em tempo contínuo correspondente continua a ser W c (r ) ].
Note-se o seguinte: seja { yt } um processo I (1) sem componente determinística,

ou seja, ∆ yt = wt , onde {wt } é um processo I (0) . Logo, yt = y0 + w1 + w2 + L + wt . Fa-
cilmente se verifica que o valor inicial y0 não afecta ytc . Com efeito,
y0 + y1 + y2 + L + yn −1
ytc = yt −
n
y + ( y0 + w1 ) + ( y0 + w1 + w2 ) + L + ( y0 + w1 + w2 + L + wt )
= y0 + w1 + w2 + L + wt − 0
n
w + ( w1 + w2 ) + L + ( w1 + w2 + L + wt )
= y0 + w1 + w2 + L + wt − y0 − 1
n
w + ( w1 + w2 ) + L + ( w1 + w2 + L + wt )
= w1 + w2 + L + wt − 1 .
n
Pode, também, construir-se a partir do passeio aleatório { yt } , uma série sem ten-
dência:
ytnt = yt − βˆ0 − βˆ1 t ( t = 0,1, K , n − 1 ),
onde β̂ 0 e β̂1 são as estimativas MQ dos coeficientes da regressão de yt sobre 1 e t. A

versão em tempo contínuo análoga é o processo de Wiener estandardizado sem ten-
dência,
W nt (r ) = W (r ) − d 0 − d1 r ,
onde
1 1
d 0 = ∫ (4 − 6 s) W ( s ) ds e d1 = ∫ (−6 + 12 s ) W ( s ) ds
0 0
são, respectivamente, as variáveis aleatórias limite de β̂ 0 e β̂1 [a demonstração pode

encontrar-se em Phillips e Durlauf (1986)]. Assim, se uma tendência linear determinísti-
ca é ajustada pelo método MQ a um passeio aleatório sem deriva, a estimativa do res-
pectivo coeficiente, β̂1 , converge em distribuição para a variável aleatória d1 . Mesmo
no caso de grandes amostras β̂1 é, em geral, diferente de zero. Nalguma literatura, este
fenómeno é conhecido pela designação de eliminação espúria da tendência (spurious
detrending).
Note-se o seguinte: seja { yt } um processo I (1) com deriva, ∆ yt = α + wt , onde
{wt } é um processo I (0) . Logo, yt = y0 + α t + w1 + w2 + L + wt . Pode verificar-se que o
valor inicial y0 e o valor de α não afectam ytnt .
Os testes de raízes unitárias envolvem processos I (0) e I (1) (ver secção seguin-
te). Os resultados fundamentais coleccionados no teorema seguinte vão ser utilizados
para obter as distribuições limite das respectivas estatísticas-teste.
Teorema 10.2 – Distribuições limite de estatísticas que envolvem variáveis I (0) e

I (1)
Seja { yt } um processo I (1) sem componente determinística, pelo que {∆ yt } é um pro-
cesso I (0) com valor esperado nulo a verificar as condições da definição 10.3. Seja λ2
a variância de longo de prazo de {∆ yt } e γ 0 = Var (∆ yt ) . Então:
1 d 1
∑ y 2 → λ2 ∫ W (r ) 2 dr ;
n
a) t =1 t −1
n2 0
1 n d λ2 γ
b)
n ∑ t =1
( ∆yt ) yt −1 →
2
W (1) 2 − 0 ;
2
1 d 1
∑ ( ytc−1 ) 2 → λ2 ∫ {W c (r )}2 dr ;
n
c)
n2 t =1 0
1 n d λ2
{W c (1)}2 − {W c (0)}2  − γ 0 ;
n ∑t =1 t t −1
d) ( ∆y ) y c
→
2   2
1 d 1
∑ ( ytnt−1 ) 2 → λ2 ∫ {W nt (r )}2 dr ;
n
e)
n2 t =1 0
1 n d λ2
{W nt (1)}2 − {W nt (0)}2  − γ 0 .
n ∑t =1 t t −1
f) ( ∆y ) y nt
→
2   2
A convergência considerada nas alíneas anteriores é conjunta, isto é, o vector formado

pelas estatísticas indicadas em a)-f) converge para um vector aleatório cujas componen-
tes são as correspondentes variáveis aleatórias também indicadas em a)-f).
Por exemplo, o resultado a) lê-se da seguinte maneira: a sucessão de variáveis

aleatórias
1 2 
 2 ∑t =1 yt −1  ,
n
n 
indexadas por n, converge em distribuição para a variável aleatória
1
λ2 ∫ W (r ) 2 dr .
0
Note-se que todas as variáveis aleatórias limite são escritas em termos de proces-
sos de Wiener estandardizados. O mesmo processo de Wiener, W (⋅) , aparece em a) e
em b); os processos de Wiener centrado e sem tendência, referidos em c)-f) são obtidos
a partir do processo W (⋅) ; assim, as variáveis aleatórias limite consideradas em a)-f) po-
dem estar correlacionadas.
Para aprofundar, por exemplo, a compreensão da conclusão a) do teorema 10.2,
suponha-se temporariamente que o processo { yt } é um passeio aleatório sem deriva, tal
que σ 2 = Var (∆ yt ) , e com y0 fixo. Dado que o processo de Wiener é a respectiva ver-
são em tempo contínuo, não é surpreende que
∑
n
t =1
yt2−1 ,
devidamente normalizado por uma potência de n, tenda para

1
λ2 ∫ W (r ) 2 dr .
0
Talvez não seja evidente que a normalização adequada consista em dividir por
n . Contudo, como E ( yt2 ) = Var ( yt ) = σ 2 t , uma forma de ver que esta normalização é a
2
indicada, passa por notar que

 n  (n − 1)n
E  ∑t =1 yt2−1  = σ 2 ∑t =1 (t − 1) = σ 2
n
,
  2
e que a média de
∑
n
t =1
yt2−1
cresce à taxa n 2 . Para se obter uma variável aleatória com distribuição limite, esta soma
tem de ser dividida por n 2 .
Suponha-se, agora, que { yt } está nas condições gerais do teorema 10.2. O prob-
lema da autocorrelação em {∆ yt } pode ser resolvido substituindo γ 0 = Var (∆ yt ) por λ2
(a variância de longo de prazo de {∆ yt } ). Isto pode fazer-se porque, como se viu, devi-
do às implicações da decomposição de Beveridge-Nelson, um processo I (1) sem com-
ponente determinística é dominado, em grandes amostras, por um passeio aleatório cu-
jas primeiras diferenças têm variância igual a λ2 . Dito de outro modo, a distribuição li-
mite de
1
2 ∑t =1 t −1
n
y2 ,
n
em vez de ser um processo I (1) com primeiras diferenças autocorrelacionadas, é um
passeio aleatório cujas primeiras diferenças têm variância λ2 .
O mesmo tipo de raciocínio se pode fazer para as outras alíneas do teorema 10.2.
A demonstração do teorema 10.2 encontra-se, por exemplo, em Stock (1994).
Trata-se de uma aplicação do TLCF e de um teorema chamado “teorema da aplicação
contínua”. Como W (1) ~ N (0, 1) , a variável aleatória limite em b) é
λ2 γ0
v− ,
2 2
onde v ~ χ 2 (1) . A demonstração de b) pode fazer-se sem o aparato sofisticado do TLCF
e do teorema da aplicação contínua. Como yt = yt −1 + ∆ yt , obtém-se yt2 = ( yt −1 + ∆ yt ) 2
ou yt2 = yt2−1 + 2 yt −1 (∆ yt ) + (∆ yt ) 2 . Então,
1
(∆ yt ) yt −1 = { yt2 − yt2−1 − (∆ yt ) 2} .
2
Donde
1 1 n
∑ (∆ yt ) yt −1 = ( yn2 − y02 ) − ∑t =1 (∆ yt ) 2 .
n
t =1 2 2
Dividindo ambos os membros desta igualdade por n, obtém-se
2 2
1 n 1 y  1 y  1
n ∑t =1
(∆ yt ) yt −1 =  n  −  0  − ∑t =1 (∆ yt ) 2 .
n
2  n  2  n  2n
Como E ( y0 n ) → 0 e Var ( y0 n ) → 0 , y0 n tende em probabilidade para

zero. Assim, a segunda parcela do segundo membro da igualdade anterior converge em
probabilidade para zero.
Quanto à primeira parcela, tem-se
yn 1 y 1 n
= ( y0 + ∆y1 + ∆y2 + L + ∆yn ) = 0 + n ∑t =1 ∆yt .
n n n n
Como já se viu, y0 n tende em probabilidade para zero. Como ∆ yt ~ I (0) , e

satisfaz as condições da definição 10.3, verificam-se as hipóteses do teorema 9.5 [TLC
para um processo MA(∞) ]. Então,
1 n d 1 n d
n ∑t =1 t n ∑t =1 t
n ∆y → N (0, λ2 ) ou n ∆y → λ x , onde x ~ N (0,1) .
Assim,
2
1  y n  d λ2 2
  → x , onde x 2 ~ χ 2 (1) .
2  n  2
Como ∆ yt é estacionário e ergódico,

1 p
γ0
∑
n 2
( ∆ y ) → .
2n t =1 t
2
Pode, então, concluir-se que
1 n d λ2 γ
n ∑ t =1
( ∆ yt ) yt −1 →
2
x2 − 0 .
2
10.3 - Testes de raízes unitárias
Dickey e Fuller estudaram vários testes estatísticos para saber se um determina-

do processo, { yt } , é I (1) (hipótese nula) ou I (0) (hipótese alternativa) [Fuller (1976),
Dickey e Fuller (1979) e (1981)].
Para isso, começaram por analisar o caso simples de um processo AR(1) [sem
constante],
yt = ϕ yt −1 + ε t ,
onde y0 é o respectivo valor inicial e o processo {ε t } verifica a condição

E (ε t | yt −1 , yt − 2 , K , y0 ) = 0 .
Em particular, pode supor-se que {ε t } é iid e E (ε t ) = 0 (ruído branco indepen-

dente), e ε t e y0 são independentes.
Se { yt } é um processo AR(1) nas condições indicadas, tem uma raiz unitária
se e só se ϕ = 1 . Neste caso, o processo { yt } é um passeio aleatório sem deriva [proces-
so I (1) ] Quando | ϕ | < 1 , o processo { yt } é um AR(1) estacionário com valor esperado
nulo [processo I (0) ]. Vai impor-se a restrição − 1 < ϕ ≤ 1 ou 0 < ϕ ≤ 1 [em economia,
em geral, tem-se ϕ > 0 , pois é raro admitir-se que ϕ < 0 para um processo que se sus-
peita ter uma raiz unitária; A possibilidade de | ϕ | > 1 não é habitualmente considerada,
uma vez que implicaria que { yt } fosse explosivo].
Impondo uma das restrições referidas, o teste de existência de raiz unitária é o
seguinte:
H 0 : ϕ = 1 contra H1 : ϕ < 1 .
[a hipótese nula diz respeito ao processo I (1) ; a hipótese alternativa refere-se processo
I (0) ]. Trata-se, portanto, de um teste unilateral (à esquerda).
Estes testes baseiam-se no estimador MQ de ϕ , ϕ̂ , quando se faz a regressão de
yt sobre yt −1 , e fazendo a convenção de que a amostra é formada por n + 1 observa-
ções, ( y0 , y1, y2 , K , yn ) . Sob a hipótese nula, o erro de amostragem é dado por
∑ ∑ (∆y ) y
n n
t =1
yt yt −1 t =1 t t −1
ϕ̂ − 1 = −1 = .
∑ ∑ y
n 2 n 2
t =1
y t −1 t =1 t −1
Multiplicando ambos os membros por n, pode escrever-se
∑ (∆y ) y (1 / n)∑t =1 (∆yt ) yt −1

n n
t −1
n(ϕˆ − 1) = n t =1 t
= .
∑ y (1 / n 2 )∑t =1 yt2−1
n 2 n
t =1 t −1
Vai obter-se a distribuição limite de n(ϕˆ − 1) , sob a hipótese nula. Assim: podem
aplicar-se os resultados a) e b) do teorema 10.2, uma vez que { yt } é um processo I (1)
sem deriva; como {∆ yt } é um ruído branco independente, tem-se γ 0 = λ2 (a variância
do processo {∆ yt } é igual à respectiva variância de longo prazo). Logo,
1 n d γ γ
ω1n =
n ∑ t =1
( ∆yt ) yt −1 → ω1 = 0 W (1)2 − 0 ,
2 2
1 d 1
2 ∑t =1 t −1
y 2 → ω2 = γ 0 ∫ W (r ) 2 dr .
n
ω2 n =
n 0
Como esta convergência é conjunta, vem

ω  d
ω•n =  1n  → ω =  1  .
ω
ω2 n  ω2 
Como n(ϕˆ − 1) é função contínua de ω• n , resulta que
ω1n d ω1 (1 / 2)γ 0{W (1)2 − 1} (1 / 2){W (1) 2 − 1}
n(ϕˆ − 1) = → = 1
= 1
= DFϕ ,
ω2 n ω2 γ 0 ∫
W (r )2 dr
0
W (r ) 2 dr ∫ 0
ou
d
(10.5) n(ϕˆ − 1) → DFϕ .
A estatística-teste n(ϕˆ − 1) chama-se estatística de Dickey-Fuller- ϕ ou estatísti-

ca DF- ϕ . O teste em questão designa-se, então, por teste DF- ϕ .
1) Estima-se o parâmetro ϕ pelo método MQ e calcula-se o valor observado da esta-
tística DF- ϕ dada por (10.5). Este valor é comparado com o valor crítico fornecido
pela tabela resultante da distribuição de DFϕ (ver tabela 10A.1 do anexo 10A) [ou
o respectivo valor-p é comparado com o nível de significância do teste];
2) A hipótese nula é rejeitada quando o valor observado da estatística DF- ϕ é inferior
ao valor crítico [ou o respectivo valor-p é inferior ao nível de significância].
Note-se o seguinte:
− No teste DF- ϕ não se pode utilizar a estatística n (ϕˆ − 1) , porque tem distribuição
limite degenerada. Usando n(ϕˆ − 1) , tem-se uma distribuição limite não degenerada.
Neste caso, diz-se que o estimador ϕ̂ é superconsistente, uma vez que converge à
taxa n (mais rápida).
− Facilmente se verifica que n1−ν (ϕˆ − 1) tende em probabilidade para zero, para qual-
quer 0 < ν < 1 , e supondo que ϕ = 1 . Com efeito, basta notar que
1
n1−ν (ϕˆ − 1) = n(ϕˆ − 1) ,
nν
onde o primeiro factor do segundo membro tende para 0, e o segundo, de acordo com
(10.5), tende em distribuição para uma variável aleatória. Assim, n1−ν (ϕˆ − 1) tem dis-
tribuição limite degenerada [a estatística n (ϕˆ − 1) corresponde ao caso ν = 0.5 ].
− A hipótese nula não especifica os valores de y0 (valor inicial) e de γ 0 (variância do
ruído branco), pois não afectam a distribuição limite (a distribuição da variável alea-
tória DFϕ ). Assim, no teste DF- ϕ , a distribuição limite não envolve aqueles parâ-
metros perturbadores.
− O numerador e o denominador da variável aleatória DFϕ envolve o mesmo processo
de Wiener, pelo que estão correlacionados. Como W (1) ~ N (0, 1) , o numerador po-
de ser escrito da seguinte maneira: ( w − 1) / 2 , onde w = W (1) 2 ~ χ 2 (1) .
− Suponha-se que no modelo yt = ϕ yt −1 + ε t , onde {ε t } é um ruído branco independen-
te, se substitui ε t por ut , em que {ut } é um processo I (0) com valor esperado nulo,
a verificar as condições da definição 10.3. Sob a hipótese nula, H 0 : ϕ = 1 , tem-se
yt = yt −1 + ut , e, portanto, { yt } é um processo I (1) sem deriva. Aplicando directa-
mente os resultados a) e b) do teorema 10.2, obtém-se
λ2 γ0 1 γ 
W (1) 2 − 02 
(1 / n)∑t =1 (∆yt ) yt −1 W (1) 2 − 2 
n
d λ 
n(ϕˆ − 1) = → 2 2 = ,
(1 / n )∑t =1 y
2 n 2 1 1
∫ ∫
2 2 2
t −1 λ W (r ) dr W (r ) dr
0 0
onde λ2 é a variância de longo de prazo de {∆ yt } e γ 0 = Var (∆ yt ) .

− Recorde-se que um teste é consistente contra um conjunto de alternativas se e só se

a probabilidade de rejeitar a hipótese nula, quando ela é falsa, e quando o verdadeiro
PGD é qualquer uma das alternativas, tende para 1, quando n → +∞ . Vai provar-se
que o teste DF- ϕ é consistente contra qualquer processo I (0) com valor esperado
nulo. Com efeito, suponha-se que { yt } é I (0) com valor esperado nulo, e que o coe-
ficiente de autocorrelação de 1.ª ordem é menor do que um. Como
E ( yt yt −1 ) γ 1
ϕ= = < 1,
E ( yt2−1 ) γ 0
e { yt } é estacionário e ergódico, vem
(1 / n)∑t =1 yt yt −1
n
p
γ1
ϕˆ = → < 1.
(1 / n)∑t =1 y γ0
n 2
t −1
Então, plim {n(ϕˆ − 1)} = −∞ . Assim, a probabilidade de rejeitar a hipótese nula nas
condições enunciadas tende para 1, quando n → +∞ .
O rácio-t habitual (que corresponde à hipótese nula) tem, também, uma distribui-
ção limite não degenerada, que não é a distribuição normal estandardizada. Para distin-
guir este teste de Dickey-Fuller do teste clássico, vai utilizar-se a expressão “rácio- τ ”,
em vez de “rácio-t”. Assim, tem-se
∑
n
yt2−1
∑t =1 (∆yt ) yt −1 ∑ (1 / n)∑t =1 (∆yt ) yt −1
n n n
ϕˆ − 1 t =1
t =1
(∆yt ) yt −1
τ= = = = ,
∑t =1 yt2−1
n
sϕˆ s
∑ s (1 / n )∑t =1 y
n 2 2 n 2
s t =1
y
t −1 t −1
onde:
s
sϕ̂ = é o erro padrão de ϕ̂ ;
∑t =1 yt2−1
n
∑
n
t =1
( yt − ϕˆ yt −1 )2
s= é o erro padrão da regressão.
n −1
Facilmente de prova que s 2 é estimador consistente de γ 0 , mesmo no caso em
que ϕ = 1 (quando ϕ < 1 , sabe-se, do capítulo 9, que s 2 é estimador consistente da va-
riância de ε t ). Com efeito, seja
1 1
∑ ∑
n n
s2 = ( y − ϕˆ y 1 ) 2
= {∆yt − (ϕˆ − 1) yt −1}2
n − 1 t =1 t t −
n − 1 t =1
1 2 1 n
∑ {n(ϕˆ − 1)} ∑t =1 (∆yt ) yt −1
n
= (∆yt ) 2 −
n −1 t =1 n −1 n
1 1
{n(ϕˆ − 1)}2 2 ∑t =1 yt2−1.
n
+
n −1 n
As três parcelas obtidas têm o seguinte comportamento assintótico: quanto à pri-
meira, tende em probabilidade para E{(∆yt ) 2 } = γ 0 , uma vez que o processo {∆yt } é iid
(estacionário e ergódico); como n(ϕˆ − 1) converge em distribuição para uma variável

aleatória, e o mesmo acontece com
1 n
n ∑t =1 t t −1
(∆y ) y ,
a segunda parcela converge em probabilidade para 0; o mesmo argumento se aplica à

terceira parcela. Então, s 2 converge em probabilidade para γ 0 .
Pode, agora, concluir-se que
d (1 / 2)γ 0{W (1)2 − 1} (1 / 2){W (1)2 − 1}
τ→ = = DFτ ,
1 1
γ 0 γ 0 ∫ W (r ) dr
2
∫
2
W (r ) dr
0 0
ou
ϕˆ − 1 d
(10.6) τ= → DFτ .
sϕˆ
Esta distribuição limite também não envolve os parâmetros perturbadores atrás

referidos. O teste que corresponde a utilizar o rácio- τ chama-se teste DF- τ . Este teste
segue os mesmos passos do teste clássico do rácio-t. Contudo, a distribuição do rácio- τ
não é assintoticamente normal estandardizada; os valores críticos e os valores-p são ob-
tidos em tabelas próprias (ver anexo 10A).
1) Estima-se o parâmetro ϕ pelo método MQ e determina-se o valor observado do rá-
cio- τ dado por (10.6). Este valor é comparado com o valor crítico fornecido pela ta-
bela resultante da distribuição de DFτ (ver tabelas 10A.2 ou 10A.4 do anexo 10A)
[ou o respectivo valor-p é comparado com o nível de significância do teste];
2) A hipótese nula é rejeitada quando o valor observado do rácio- τ é inferior ao valor
crítico [ou respectivo valor-p é inferior ao nível de significância].
Facilmente se verifica que o teste DF- τ é consistente contra qualquer processo a

verificar yt = ϕ yt −1 + ε t , 0 < ϕ < 1 e {ε t } é um ruído branco independente. Como se trata
de um MRL-RPD, o rácio-t é dado por
n (ϕˆ − 1)
tϕˆ = .
^
Var (ϕˆ )
Como o denominador converge em probabilidade para a respectiva variância

assintótica, e como o numerador tende para − ∞ (porque ϕ̂ tende em probabilidade pa-
ra ϕ < 1 ). Então, a probabilidade de rejeitar a hipótese nula, H 0 : ϕ = 1 , tende para 1,
quando n cresce.
O teste DF- τ pode ser apresentado de outra maneira. De facto, subtraindo yt −1 a
ambos os membros de yt = ϕ yt −1 + ε t , obtém-se o modelo reparametrizado
∆yt = θ yt −1 + ε t ,
onde θ = ϕ − 1 . Então, o teste pode ser reformulado da seguinte maneira:

H 0 : θ = 0 contra H1 : θ < 0 .
Com esta formalização, tem-se

θˆ d
(10.7) τ= → DFτ ,
sθˆ
onde θˆ é o estimador MQ de θ = ϕ − 1 , e sθˆ é o respectivo erro padrão. Obviamente, os

rácios- τ dados por (10.6) e (10.7) são numericamente iguais.
Com esta forma, a mecânica do teste é a seguinte:
1) Estima-se o parâmetro θ pelo método MQ e determina-se o valor observado do
rácio- τ dado por (10.7). Este valor é comparado com o valor crítico fornecido pela
tabela resultante da distribuição de DFτ (ver tabelas 10A.2 e 10A.4 do anexo 10A)
[ou o respectivo valor-p é comparado com o nível de significância do teste];
2) A hipótese nula é rejeitada quando o valor observado do rácio- τ é inferior ao valor
crítico [ou respectivo valor-p é inferior ao nível de significância].
Basear a estatística-teste no estimador MQ de ϕ não é a única forma de obter

um teste de raízes unitárias. Para a amostra ( y0 , y1 , y2 , K , yn ) , pode propor-se
(1 / n2 )∑t = 0 yt2
n
SB = ,
(1 / n)∑t =1 (∆yt ) 2
n
conhecida pela designação de estatística de Sargan-Bhargava. Verifica-se imediata-

mente que SB é igual ao inverso da estatística de Durbin-Watson multiplicada por n,
n
SB = .
DW
Se { yt } é um passeio aleatório sem deriva, vai provar-se que
d 1
SB → ∫ W (r )2 dr .
0
Com efeito, notando que

1 1 yn2
∑t =0 yt2 = n 2 ∑t =1 t −1 n 2
n n 2
y +
n2
e que yn2 n 2 tende em probabilidade para 0, verifica-se que [propriedade a) do teorema
10.2]
1 d 1
2 ∑t = 0 t
γ 0 ∫ W (r ) 2 dr ,
n 2
y →
n 0
uma vez que γ 0 = λ2 . Como E{(∆yt ) 2} = γ 0 é o limite em probabilidade do denomina-

dor de SB, obtém-se o resultado pretendido.
Pode, também, verificar-se que SB tende em probabilidade para 0, sob a hipó-
tese alternativa de o processo { yt } ser I (0) com E{(∆yt ) 2 } ≠ 0 . Com efeito, basta notar
que
p
E ( yt2 )
n SB → .
E{(∆yt ) 2}
Um inconveniente dos testes baseados num processo AR(1) sem termo indepen-
dente ou constante é a ausência de invariância em relação à adição de uma constan-
te à série de observações. Se o teste é feito para uma série em logaritmos, uma modifi-
cação da unidade de medida (por exemplo, passar de euros para milhares de euros) re-
sulta numa adição de uma constante a cada observação, o que altera o valor da estatísti-
ca-teste. Para evitar o inconveniente referido, considere-se o modelo
(10.8) yt = α 0 + zt , com zt = ϕ zt −1 + ε t ,
de modo que {ε t } seja um ruído branco independente. Sob a hipótese nula, H 0 : ϕ = 1 ,

{zt } é um passeio aleatório sem deriva [processo I (1) ].
Como yt = α 0 + z0 + ε1 + ε 2 + L + ε t , também { yt } é um processo I (1) sem deri-
va, em que o valor inicial é y0 = α 0 + z0 . Sob a hipótese alternativa, H1 : ϕ < 1 , { yt } é
um processo AR(1) estacionário com valor esperado igual a α 0 . Assim, a classe de pro-
cessos I (0) abrangidos por (10.8) é mais ampla do que aquele que corresponde ao mo-
delo yt = ϕ yt −1 + ε t .
A variável zt pode ser eliminada de (10.8). Com efeito, subtraindo ordenada-
mente yt = α 0 + zt de ϕ yt −1 = α 0ϕ + ϕ zt −1 , obtém-se
(10.9) yt = α + ϕ yt −1 + ε t ,
onde α = α 0 (1 − ϕ ) .
Como α = 0 , quando ϕ = 1 , a hipótese nula de que o processo é um passeio
aleatório sem deriva [processo I (1) ] corresponde a considerar que a hipótese nula con-
junta seja H 0 : ϕ = 1 ∧ α = 0 , em termos dos coeficientes de regressão de (10.9). Sem a
restrição α = 0 , { yt } pode ser um passeio aleatório com deriva. Mais adiante vão estu-
dar-se testes para este caso. Por enquanto, vai continuar-se com a situação em que a hi-
pótese nula diz respeito a um passeio aleatório sem deriva.
Seja ϕ̂c o estimador MQ de ϕ em (10.9), e τ c é o rácio- τ para a hipótese nula,
ϕ = 1 [o teste da hipótese nula conjunta é raramente feito em econometria]. Deve ficar
claro que o valor de α 0 não afecta o valor de ϕ̂c , ou o seu erro padrão, pois adicionar
uma constante às observações apenas altera a estimativa do termo independente. Assim,
as distribuições (exacta ou limite) da estatística n(ϕˆc − 1) do teste DF- ϕc , e do rácio- τ
respectivo, τ c , do teste DF- τ c , não dependem do valor de α 0 , qualquer que seja ϕ .
d
(10.10) n(ϕˆc − 1) → DFϕc ,
onde
(1 / 2) {W c (1)}2 − {W c (0)}2 − 1

 
c
DFϕ = 1
,
∫
2
{W c
( r )} dr
0
e que
ϕˆc − 1 d
(10.11) τc = → DFτc ,
sϕˆc
onde sϕ̂ c é o erro padrão associado a ϕ̂ c , e
(1 / 2) {W c (1)}2 − {W c (0)}2 − 1

 
c
DFτ = .
1
∫ {W (r )} dr
c 2
0
Facilmente se verifica que o valor inicial, y0 , não afecta ϕ̂c e τ c , quando ϕ = 1 .

Com efeito, basta notar ytc não depende de y0 . O mesmo não se verifica quando ϕ < 1 ,
porque o efeito da variação de y0 sobre yt depende de t.
Neste caso, também pode fazer-se a reparametrização ∆yt = α + θ yt −1 + ε t , onde
θ = ϕ − 1 , e testar H 0 : θ = 0 contra H1 : θ < 0 .
Os testes DF- ϕc e DF- τ c seguem a mesma mecânica dos testes DF- ϕ e DF- τ ,
respectivamente (as tabelas encontram-se no anexo 10A: para o primeiro, ver a tabela
10A.1; para o segundo, ver as tabelas 10A.1 e 10A.4).
Os resultados (10.10) e (10.11) permitem fazer testes DF de um passeio aleató-
rio sem deriva, no caso de existir termo independente [em (10.9)].
A demonstração destes resultados é a seguinte:
a) Começa-se por provar que
∑
n
t =1
(∆yt ) ytc−1
ϕ̂c −1 = ,
∑
n
t =1
( ytc−1 ) 2
onde ytc−1 = yt −1 − y e y = ( y0 + y1 + y2 + L + yn −1 ) / n , para t = 1, 2, K , n .

Com efeito, notando que ytc−1 é o resíduo MQ da regressão de yt −1 sobre 1 (cons-
tante), e que ϕ̂c é numericamente igual ao estimador MQ do coeficiente da regressão
de yt sobre ytc−1 (sem constante) [ver anexo 2A, subsecção “Regressão por blocos”,
alínea c)], vem
∑ ∑
n n
t =1
yt ytc−1 t =1
( yt − ytc−1 ) ytc−1
ϕ̂c = ou ϕ̂c −1 = .
∑ ∑t =1 ( ytc−1 )2
n n
t =1
( ytc−1 )2
Como
∑
n
t =1
ytc−1 = 0 ,
prova-se o resultando pretendido, notando que
∑ ( yt − ytc−1 ) ytc−1 = ∑t =1 ( yt − yt −1 + y ) ytc−1

n n
t =1
= ∑t =1 ( yt − yt −1 ) ytc−1 + y ∑t =1 ytc−1
n n
= ∑t =1 ( yt − yt −1 ) ytc−1
n
= ∑t =1 (∆yt ) ytc−1.
n
b) Suponha-se que { yt } é um processo I (1) sem deriva. Então, verifica-se imediata-

mente, atendendo aos resultados d) e c) do teorema 10.2, que
λ2  c 2 γ
{W (1)} − {W c (0)}2  − 0
d
2    2
n(ϕˆc − 1) → 1
.
∫
2 2
λ {W (r )} dr
c
0
c) Quando { yt } é um passeio aleatório sem deriva, tem-se γ 0 = λ2 , e, portanto,

1 c
{W (1)}2 − {W c (0)}2 − 1
d
2  
n(ϕˆc − 1) → 1
,
∫
2
{W (r )} dr
c
0
o que prova o resultado (10.10).

d) Seja s o erro padrão da equação de regressão (10.9). Vai provar-se que s 2 é estima-
dor consistente de γ 0 = Var(∆yt ) , sob a hipótese nula de que { yt } é um processo
I (1) sem deriva [ {∆yt } é um processo I (0) com valor esperado nulo a verificar as
condições da definição 10.3].
Seja (αˆ , ϕˆc ) o estimador MQ de (α , ϕ ) . Começa-se por provar que α̂ tende em pro-
babilidade para 0. Com efeito,
1 n 1 n
αˆ =
n ∑ t =1
( yt − ϕˆc yt −1 ) = ∑t =1{∆yt − (ϕˆc − 1) yt −1}
n
1 n 1 n
= ∑t =1 ∆yt − (ϕˆc − 1) ∑t =1 yt −1
n n
1 n 1  1 1 n 
= ∑t =1 ∆yt − {n(ϕˆc − 1)} ∑ 1
yt −1  .
n n  n n
t =

A primeira parcela do segundo membro da última igualdade converge em probabili-
dade para 0, porque {∆yt } é estacionário e ergódico, e E (∆yt ) = 0 .
Sabendo que
1 1 n d 1
n n
∑ t =1
yt −1 → λ ∫ W (r )dr ,
0
e como n(ϕˆc − 1) tende em distribuição para uma variável aleatória, a segunda parce-
la do segundo membro da mesma igualdade tembém converge em probabilidade para
0. Fica, assim, provado que plim(αˆ ) = 0 .
Seja
1 1
n − 2 ∑t =1 t n − 2 ∑t =1
n n
s2 = ( y − αˆ − ϕˆc yt −1 )2 = {(∆yt − αˆ ) − (ϕˆc − 1) yt −1}2
1 2 1 n
∑ {n(ϕˆc − 1)} ∑t =1 (∆yt − αˆ ) yt −1
n
= (∆yt − αˆ ) 2 −
n−2 t =1 n−2 n
1 1
{n(ϕˆc − 1)}2 2 ∑t =1 yt2−1.
n
+
n−2 n
Como plim(αˆ ) = 0 , a primeira parcela do segundo membro da última igualdade ten-

de em probabilidade para γ 0 = Var(∆yt ) . Quanto à segunda parcela, tem-se
2 1 n 2 1 n
{n(ϕˆc − 1)} ∑t =1 (∆yt − αˆ ) yt −1 = {n(ϕˆc − 1)} ∑t =1 (∆yt ) yt −1
n−2 n n−2 n
2 n  1 1 n 
−
n−2
{n(ϕˆc − 1)}αˆ 
 n n
∑ t =1
yt −1  ,

o que permite concluir, sem dificuldade, que tende em probabilidade para 0.
A terceira parcela também converge em probabilidade para 0.
e) Finalmente, vai demonstrar-se o resultado (10.11). Começa-se por notar que
ϕˆc − 1 ϕˆc − 1
τc = = ,
sϕˆ c s m 22
onde m 22 é o elemento (2,2) da matriz ( X T X )−1 . Neste caso, tem-se
1
m 22 = .
∑
n
t =1
( ytc−1 ) 2
Assim, atendendo à expressão de ϕˆc − 1 [obtida em a)], vem
∑
n
( ytc−1 ) 2
∑t =1 (∆yt ) ytc−1 (1 / n)∑t =1 (∆yt ) ytc−1
n n
t =1
τc = = .
∑t =1 ( ytc−1 )2
n
s
s (1 / n )∑t =1 ( y )
2 n c 2
t −1
Como { yt } é um passeio aleatório sem deriva, tem-se γ 0 = λ2 = σ ε2 . Então, recorren-

do mais uma vez às propriedades d) e c) do teorema 10.2, obtém-se
γ0  c 2 γ 1 c
{W (1)} − {W c (0)}2  − 0 {W (1)}2 − {W c (0)}2 − 1
  2  
τc → 2   2
d
= ,
1 1
γ 0 γ 0 ∫ {W (r )} dr
c 2
∫
c 2
{W (r )} dr
0 0
ficando provado (10.11).
Exemplo 10.1 – Seja ltced o logaritmo da taxa mensal de câmbio de referência Eu-
ro/USD. Como se mostra na figura 10.2, com dados mensais de Janeiro de 1999 a De-
zembro de 2005, esta variável evidencia uma tendência estocástica. Contudo, o crono-
grama das respectivas primeiras diferenças (ver figura 10.4) aponta para que ∆ltced se-
ja estacionária.
Para suportar empiricamente que ltced é I (1) , vai fazer-se o teste de Dickey-
-Fuller. Para tornar este teste invariante em relação à escolha das unidades, vai conside-
rar-se a equação de regressão na forma (10.9), ou seja,
ltcedt = α + ϕ ltcedt −1 + ε t .
Estimando esta equação pelo método MQ, obtém-se

ltcedt = 0.00139 + 0.981184 ltcedt −1 + εˆt .
Assim, tem-se ϕˆc = 0.981184 . O respectivo erro padrão é igual a 0.022682.
0.08
0.06
0.04
0.02
-0.02
-0.04
-0.06
Fev-99 Ago-99 Fev-00 Ago-00 Fev-01 Ago-01 Fev-02 Ago-02 Fev-03 Ago-03 Fev-04 Ago-04 Fev-05 Ago-05
Variação do logaritmo da taxa de câmbio de referência Euro/USD
Fig. 10.4 – Cronograma da variação da logaritmo da taxa de

câmbio de referência Euro/USD.
Os valores observados das estatísticas-teste são, respectivamente, os seguintes:

0.981184 − 1
n(ϕˆc − 1) = 83 × (0.981184 − 1) = −1.56171 ; τ c = = −0.82954 .
0.022682
O valor crítico (assintótico) a 5%, dado pela tabela 10A.1, é –14.1, isto é,
P( DFϕc < −14.1) = 0.05 .
Como se dispõe de 83 observações, o valor crítico está entre –13.3 e –13.7. Co-
mo o valor observado da estatística-teste é –1.56171, a evidência é claramente favorável
à hipótese nula: a variável ltced é I (1) .
P( DFτc < −2.86) = 0.05 .
Como se dispõe de 83 observações, o cálculo directo permite obter –2.89, para o

valor crítico, e 0.886, para o valor-p. De novo, a evidência é favorável a que a variável
ltced seja I (1) .
∇
Em Economia, muitas séries temporais têm tendência determinística linear.

Para fazer testes DF aplicáveis a estas séries, deve generalizar-se, mais uma vez, o mo-
delo, fazendo
(10.12) yt = α 0 + δ 0 t + zt , com zt = ϕ zt −1 + ε t ,
em que {ε t } seja um ruído branco independente. Sob a hipótese nula, H 0 : ϕ = 1 , {zt } é,

obviamente, um passeio aleatório sem deriva [processo I (1) ]. Pode escrever-se
yt = α 0 + δ 0 t + z0 + ε1 + ε 2 + L + ε t
= y0 + δ 0 t + (ε1 + ε 2 + L + ε t ),
onde y0 = α 0 + z0 . Então, { yt } é um passeio aleatório com deriva, se δ 0 ≠ 0 , e sem deri-

va, se δ 0 = 0 . Sob a hipótese alternativa, H1 : ϕ < 1 , como { yt } é a soma de uma tendên-
cia linear com um processo AR(1) estacionário com valor esperado nulo, conclui-se que
o processo { yt } é estacionário em tendência. Tem-se E ( yt ) = α 0 + δ 0 t .
A variável zt pode ser eliminada de (10.12). Com efeito, subtraindo ordenada-
mente yt = α 0 + δ 0 t + zt de ϕ yt −1 = α 0ϕ + δ 0ϕ (t − 1) + ϕ zt −1 , obtém-se
(10.13) yt = α + δ t + ϕ yt −1 + ε t ,
onde α = α 0 (1 − ϕ ) + δ 0 ϕ e δ = δ 0 (1 − ϕ ) . O cálculo directo de E ( yt ) a partir de (10.13)

permite obter
α (1 − ϕ ) − δ ϕ δ
E ( yt ) = + t.
(1 − ϕ ) 2
1−ϕ
Como δ = 0 , quando ϕ = 1 , a hipótese nula de que o processo é um passeio

aleatório com ou sem deriva é equivalente à hipótese nula conjunta H 0 : ϕ = 1 ∧ δ = 0 ,
em termos dos coeficientes de regressão de (10.13). Na prática, estes testes de raízes
apenas consideram o caso H 0 : ϕ = 1 .
Seja ϕ̂ct o estimador MQ de ϕ em (10.13), e τ ct é o rácio- τ para a hipótese
nula, ϕ = 1 .
Para fazer o teste DF- ϕct , a estatística é n(ϕˆct − 1) . Pode demonstrar-se que
d
(10.14) n(ϕˆct − 1) → DFϕct ,
onde
(1 / 2) {W nt (1)}2 − {W nt (0)}2 − 1

 
ct
DFϕ = 1
.
∫ {W (r )} dr
nt 2
0
Quanto ao teste DF- τ ct , tem-se

ϕˆct − 1 d
(10.15) τ ct = → DFτct ,
sϕˆ ct
onde sϕ̂ ct é o erro padrão de ϕ̂ct , e
(1 / 2) {W nt (1)}2 − {W nt (0)}2 − 1

 
ct
DFτ = .
1
∫ {W (r )} dr
nt 2
0
Pode fazer-se a reparametrização ∆yt = α + δ t + θ yt −1 + ε t , onde θ = ϕ − 1 , e tes-

tar H 0 : θ = 0 contra H1 : θ < 0 .
Os testes DF- ϕct e DF- τ ct seguem a mesma mecânica dos testes DF- ϕ e DF- τ ,
respectivamente (as tabelas encontram-se no anexo 10A: para o primeiro, ver a tabela
10A.1; para o segundo, ver as tabelas 10A.1 e 10A.4).
Os resultados (10.14) e (10.15) permitem fazer testes DF de um passeio aleató-
rio com ou sem deriva, no caso de existir termo independente e tendência linear
[em (10.13)]. A demonstração de (10.14) é a seguinte [fica ao cuidado do leitor provar
(10.15), seguindo os passos d) e e) da demonstração de (10.11) ]:
a) Vai provar-se que
∑
n
t =1
(∆yt ) ytnt−1
ϕ̂ct −1 = ,
∑
n
t =1
( ytnt−1 )2
onde ytnt−1 = yt −1 − αˆ 0 − δˆ0 t e (αˆ 0 , δˆ0 ) é o estimador MQ dos coeficientes da regressão

de yt −1 sobre 1 e t, para t = 1, 2, K , n .
Com efeito, notando que ϕ̂ct é numericamente igual ao estimador MQ do coeficiente
da regressão de yt sobre ytct−1 (sem constante e sem tendência) [ver anexo 2A, sub-
secção “Regressão por blocos”, alínea c)], vem
∑ ∑
n n
t =1
yt ytnt−1 t =1
( yt − ytnt−1 ) ytnt−1
ϕ̂ct = ou ϕ̂ct −1 = .
∑ ∑t =1 ( ytnt−1 )2
n n
t =1
( ytnt−1 ) 2
Como (devido às equações normais)
∑ ∑
n n
t =1
ytnt−1 = 0 e t =1
t ytnt−1 = 0 ,
obtém-se
∑ ( yt − ytnt−1 ) ytnt−1 = ∑t =1 ( yt − yt −1 + αˆ 0 + δˆ0 t ) ytnt−1

n n
t =1
= ∑t =1 ( yt − yt −1 ) ytnt−1 + αˆ 0 ∑t =1 ytnt−1 + δˆ0 ∑t =1 t ytnt−1

n n n
= ∑t =1 ( yt − yt −1 ) ytnt−1
n
= ∑t =1 (∆yt ) ytnt−1 ,
n
o que prova o resultado pretendido.

b) Fazendo yt = α 0 + δ 0 t + zt , e supondo que {zt } é um processo I (1) sem deriva, vai
verificar-se que
λ2  nt γ
{W (1)}2 − {W nt (0)}2  − 0
d

2    2
n(ϕˆct − 1) → 1
.
λ2 ∫ {W nt (r )}2 dr
0
Com efeito, seja
(1 / n) ∑t =1 (∆yt ) ytnt−1
n
n(ϕˆct − 1) = .
(1 / n 2 ) ∑t =1 ( ytnt−1 )2
n
A partir de yt = α 0 + δ 0 t + zt , tem-se ∆yt = δ 0 + ∆ zt .

Seja ztnt−1 o resíduo MQ da hipotética regressão de zt −1 (não observável) sobre 1 e t
( t = 1, 2, K , n ). Como zt = yt − α 0 − δ 0 t , vem ztnt−1 = ytnt−1 , uma vez que a diferença en-
tre yt e zt é a tendência linear. Por construção, tem-se
∑
n
znt
t =1 t −1
=0.
Então,
(1 / n) ∑t =1 (δ 0 + ∆zt ) ztnt−1 (1 / n) ∑t =1 (∆zt ) ztnt−1

n n
n(ϕˆct − 1) = = .
(1 / n 2 ) ∑t =1 ( ztnt−1 )2 (1 / n 2 ) ∑t =1 ( ztnt−1 ) 2
n n
O resultado pretendido vem directamente das alíneas f) e e) do teorema 10.2.

c) Quando { yt } é um passeio aleatório, com ou sem deriva, obtém-se imediatamente o
resultado (10.14), porque γ 0 = λ2 .

1) Os valores de ϕ̂ct e de τ ct são invariantes em relação a (α 0 , δ 0 ) , qualquer que seja o
valor ϕ ; adicionar α 0 + δ 0 t à série temporal modifica apenas as estimativas de α e
de δ . As distribuições (exacta ou limite) das estatísticas n(ϕˆct − 1) e τ ct não depen-
dem do valor de (α 0 , δ 0 ) , para qualquer ϕ .
2) Como as estatísticas-teste são invariantes com os valcores de δ 0 , os resultados
(10.14) e (10.15) são aplicáveis, mesmo que δ 0 = 0 . Assim, ϕ̂ct e τ ct podem ser
utilizados quando a hipótese nula diz respeito a um passeio aleatório sem deriva.
Contudo, se houver razões para não considerar uma tendência linear, deve usar-se
ϕ̂c e τ c , porque, geralmente, a potência dos testes contra alternativas de processos
estacionários é maior. No caso de ser credível a existência de tendência linear, deve
recorrer-se a ϕ̂ct e τ ct .
O teste DF pode ser generalizado para dinâmicas mais complicadas, e, em par-

ticular, quando o modelo é um processo é AR ( p ) ,
(10.16) yt = ϕ1 yt −1 + ϕ 2 yt − 2 + L + ϕ p yt − p + ε t ⇔ ϕ ( L) yt = ε t ,
onde {ε t } seja um ruído branco independente, a verificar E (ε t2 ) = σ ε2 , e

ϕ ( L) = 1 − ϕ1L − ϕ 2 L2 − L − ϕ p Lp .
A inclusão de mais desfasamentos no processo tem por objectivo eliminar a au-

tocorrelação que possa existir na variável residual; quanto maior for o comprimento do
desfasamento, mais observações iniciais se perdem, o que pode ter sérias consequências
na potência do teste; mas se o comprimento do desfasamento é insuficente, a dimensão
do teste será incorrecta, mesmo assintoticamente, porque a validade dos valores críticos
baseia-se no facto do modelo ser considerado dinamicamente completo.
Qualquer processo AR ( p ) pode ser reparametrizado, obtendo-se o seguinte mo-

delo equivalente, utilizando a decomposição já conhecida ϕ ( L) = ϕ (1) L + ξ ( L)(1 − L) ,
onde:
− ϕ (1) = 1 − φ com φ = ϕ1 + ϕ2 + L + ϕ p ;
− ξ ( L) = 1 − ξ1L − ξ 2 L2 − L − ξ p −1Lp −1 ;
− ξ s = −(ϕ s +1 + ϕ s + 2 + L + ϕ p ) , para s = 1, 2, K , p − 1 .
Com efeito, a partir de ϕ ( L) yt = ε t tem-se {(1 − φ ) L + ξ ( L)∆} yt = ε t ou

yt −1 − φ yt −1 + (1 − ξ1L − ξ 2 L2 − L − ξ p −1Lp −1 )∆yt = ε t .
Então,
yt −1 − φ yt −1 + ∆yt − ξ1∆yt −1 − ξ 2∆yt − 2 − L − ξ p −1∆yt − p +1 = ε t ,
e, portanto,
yt = φ yt −1 + ξ1∆yt −1 + ξ 2 ∆yt − 2 + L + ξ p −1∆yt − p +1 + ε t
(10.17)
= φ yt −1 + ∑ s =1 ξ s ∆yt − s + ε t .
p −1
O modelo, na forma (10.17), chama-se auto-regressão aumentada porque se

adiciona ao processo yt = φ yt −1 + ε t , as primeiras diferenças de y com desfasamentos até
à ordem p − 1 .
∆yt = θ yt −1 + ξ1∆yt −1 + ξ 2∆yt − 2 + L + ξ p −1∆yt − p +1 + ε t
(10.18)
= θ yt −1 + ∑ s =1 ξ s ∆yt − s + ε t ,
p −1
em que θ = φ − 1 = ϕ1 + ϕ2 + L + ϕ p − 1 .
Por exemplo, para p = 2 é fácil verificar a equivalência entre
yt = ϕ1 yt −1 + ϕ2 yt − 2 + ε t e yt = φ yt −1 + ξ1∆yt −1 + ε t ,
onde φ = ϕ1 + ϕ2 e ξ1 = −ϕ2 . Com efeito, tem-se

yt = ϕ1 yt −1 + ϕ 2 yt − 2 + ϕ 2 yt −1 − ϕ2 yt −1 + ε t = (ϕ1 + ϕ2 ) yt −1 − ϕ2 ∆yt −1 + ε t .
Quando p = 3 , estabelece-se a equivalência entre

yt = ϕ1 yt −1 + ϕ2 yt − 2 + ϕ3 yt − 3 + ε t e yt = φ yt −1 + ξ1∆yt −1 + ξ 2 ∆yt − 2 + ε t ,
onde φ = ϕ1 + ϕ2 + ϕ3 , ξ1 = −(ϕ2 + ϕ3 ) e ξ 2 = −ϕ3 . De facto,

yt = ϕ1 yt −1 + ϕ2 yt − 2 + ϕ3 yt − 3
+ (ϕ2 yt −1 − ϕ2 yt −1 ) + (ϕ3 yt −1 − ϕ3 yt −1 ) + (ϕ3 yt − 2 − ϕ3 yt − 2 ) + ε t
= (ϕ1 + ϕ2 + ϕ3 ) yt −1 − (ϕ2 + ϕ3 )∆yt −1 − ϕ3∆ yt − 2 + ε t .
Retome-se o modelo (10.17). Quando φ = 1 , tem-se

(10.19) ∆yt = ξ1∆yt −1 + ξ 2 ∆yt − 2 + L + ξ p −1∆yt − p +1 + ε t ⇔ ξ ( L)∆yt = ε t .
Suponha-se que {∆yt } , dado por (10.19), é um processo AR ( p − 1) estacionário

com valor esperado nulo, ou seja, as p − 1 raízes da equação ξ ( z ) = 0 estão no exterior
do círculo unitário. Fazendo ψ ( L) = ξ ( L) −1 , tem-se ∆yt = ξ ( L)−1ε t = ψ ( L)ε t . Nestas
condições, no processo { yt } , dado por (10.16), uma das raízes da equação ϕ ( z ) = 0 é
unitária, e as restantes p − 1 estão no exterior do círculo unitário. Assim, { yt } é um
processo ARIMA( p − 1,1, 0) .
Se φ > 1 , uma das raízes de ϕ ( z ) = 0 encontra-se no interior do círculo unitário.
Com efeito, basta notar que ϕ (z ) é uma função contínua, ϕ (0) = 1 > 0 e ϕ (1) = 1 − φ < 0 .
Logo, há uma raiz entre 0 e 1. Se o PGD é I (1) ou I (0) , então φ não pode ser superior
a 1 [se { yt } é I (1) , φ = 1 ; se { yt } é I (0) , φ < 1 ].
No teste de raízes unitárias, a hipótese nula corresponde ao processo { yt } quan-
do é I (1) , sendo, portanto, um processo AR ( p ) com uma raiz unitária ou um processo
ARIMA( p − 1,1, 0) [ {∆yt } é um processo AR ( p − 1) estacionário com valor esperado
nulo]. A hipótese alternativa diz respeito ao processo { yt } quando é I (0) , ou seja, um
processo AR ( p ) estacionário com valor esperado nulo.
Em resumo, tem-se
H 0 : φ = 1 contra H1 : φ < 1 ,
que se designa por teste ADF (augmented Dickey-Fuller).

Se se utilizar (10.18), o teste continua a ser
H 0 : θ = 0 contra H1 : θ < 0 .
A seguir, vai determinar-se a distribuição limite do estimador MQ do parâ-

metro φ do modelo (10.17), supondo que a hipótese nula é verdadeira. Numericamente,
o estimador MQ pode ser obtido a partir de (10.16), somando os estimadores MQ de ϕ1 ,
ϕ2 ,..., ϕ p . Comparando as duas formas do modelo, sob a hipótese nula, constata-se o se-
guinte: em (10.16), os p regressores, ( yt −1 , yt − 2 , K , yt − p ) , são variáveis I (1) sem deriva;
com (10.17), o regressor yt −1 é I (1) , e os restantes, (∆yt −1 , ∆yt − 2 , K , ∆yt − ( p −1) ) , são I (0)
com valor esperado nulo. A formulação (10.16) encobre um facto importante, a ser exp-
lorado mais adiante, que é posto em evidência por (10.17): cada um dos p − 1 regresso-
res I (0) da auto-regressão aumentada é uma combinação linear de yt −1 , yt − 2 ,..., yt − p .
Para simplificar os cálculos, vai considerar-se o caso p = 2 , ou seja,
(10.20) yt = φ yt −1 + ξ1∆yt −1 + ε t .
Este modelo pode ser apresentado da seguinte maneira:

yt = xt • β + ε t ,
onde
φ 
xt • = [ yt −1 ∆yt −1 ] e β =   .
ξ1 
Supondo que a amostra é ( y−1 , y0 , y1 , K , yn ) , a estimação é feita com n observa-
ções ( t = 1, 2, K , n ). Se
 φˆ 
βˆ =  
ˆ
ξ1 
é o estimador MQ de β , o erro de amostragem é
−1
βˆ − β =  ∑t =1 xtT• xt •  ∑
n n
x ε ,
T
t =1 t • t
 
em que
 yt −1 (∆yt −1 )
∑ ∑  ∑ n yt −1ε t 
n n
y2
 =1 t −1  e
∑t =1 xt • xt • = X X =  n ∑t =1 xtT•ε t =  n .
n T T t t =1 n t =1
2  
∑t =1 (∆yt −1 ) yt −1 ∑ ∑t =1 (∆yt −1 )ε t 
n
(∆yt −1 ) 
t =1 
Tal como se fez anexo 3E, procura-se uma matriz não singular, Γn , quadrada de
ordem 2, de tal modo que Γn ( βˆ − β ) tenha, sob a hipótese nula ( φ = 1 ), distribuição li-
mite não degenerada. Tem-se
−1
−1
 
Γn ( βˆ − β ) = Γn  ∑t =1 xtT• xt •  ∑t =1 xtT•ε t = Γn−1 ∑t =1 xtT• xt •  Γn−1   Γn−1 ∑t =1 xtT•ε t  = Qn−1V•n ,
n n n n
   
onde
Qn = Γn−1  ∑t =1 xtT• xt •  Γn−1 e V• n = Γn−1 ∑t =1 xtT•ε t .
n n
 
Como vai ver-se, a distribuição limite não degenerada obtém-se quando
n 0 
Γn =  ,
0 n 
e, portanto,
 n(φˆ − 1) 
Γn ( βˆ − β ) =  .
 n (ξˆ − ξ )
 1 1

Logo,
 1 1 1 n   1 n 
2 ∑ t =1 t −1 ∑ ∑
n
 y2 yt −1 ( ∆ y t −1 )   yt −1 ε t 
n n n t =1 n t =1
Qn =   eV = .
 1 1 n 1 n  •n  1 
∑t =1 (∆yt −1 ) yt −1 ∑ ∑
2 n
 ( ∆ y t −1 )   ( ∆ y t −1 )ε t 
 n n n t =1   n
t =1

Vai examinar-se os elementos destas duas matrizes, e determinar as respectivas

distribuições limite (para φ = 1 ):
− Elemento (1,1) de Qn . Como { yt } é I (1) sem deriva, tem-se
1 d 1
∑t =1 yt2−1 → λ2 ∫ W (r )2 dr ,
n
n2 0
devido à propriedade a) do teorema 10.2.

− Elemento (2,2) de Qn . Como {∆yt } é um processo AR(1) estacionário com valor es-
perado nulo, verifica a estacionaridade ergódica, e, portanto,
1 n p
∑
n t =1
( ∆yt −1 ) 2
→ γ 0 = Var (∆yt ) .
− Elementos não diagonais de Qn . Estes elementos são iguais ao produto de 1 n

por
1 n
n ∑t =1 t −1 t −1
(∆y ) y ,
que é a média amostral do produto de uma variável I (0) com valor esperado nulo
por uma variável I (1) sem deriva. Vai provar-se que
1 n d λ2 γ
n ∑ t =1
( ∆yt −1 ) yt −1 →
2
W (1) 2 + 0 .
2
Com efeito, esta distribuição limite é a mesma de
1 n
n ∑t =1 t t
(∆y ) y .
Como (∆yt ) yt = (∆yt ) yt −1 + (∆yt )2 , vem

1 n 1 n 1 n
n ∑ t =1
(∆yt ) yt = ∑t =1 (∆yt ) yt −1 + ∑t =1 (∆yt ) 2
n n
d  λ2 γ  λ2 γ
→  W (1)2 − 0  + γ 0 = W (1) 2 + 0 ,
2 2 2 2
atendendo à propriedade b) do teorema 10.2, e notando que

1 n p
∑
n t =1
( ∆yt ) 2
→ γ0 .
Então,
1 1 n p
∑
n n t =1
( ∆yt −1 ) yt −1 → 0.
− Conclusão:
λ2 1 W (r )2 dr 0 
Qn → Q =  ∫ 0
d
.
 0 γ 0 

− Primeiro elemento de V• n . Usando a decomposição de Beveridge-Nelson, pode de-
monstrar-se que
1 n d 1
∑
n t =1
yt −1ε t → v1 = σ ε2ψ (1){W (1) 2 − 1} ,
2
supondo que { yt } é um processo I (1) sem deriva, pelo que {∆yt } é um processo
I (0) , com valor esperado nulo (a satisfazer as condições da definição 10.3). Tem-se:
∆yt = ψ ( L)ε t [representação MA(∞) de {∆yt } ].
No caso presente, tem-se ∆yt = ξ1∆yt −1 + ε t , sob a hipótese nula, pelo que
1
ψ ( L) = (1 − ξ1L) −1 e ψ (1) = .
1 − ξ1
Com efeito, de acordo com (10.3), ψ ( L) = ψ (1) + δ ( L)(1 − L) . Então,

∆yt = ψ ( L)ε t = {ψ (1) + δ ( L)(1 − L)}ε t = ψ (1)ε t + ηt − ηt −1
ou yt = yt −1 + ψ (1)ε t + ηt − ηt −1 , onde ηt = δ ( L)ε t . Daqui decorre que

yt = ψ (1)(ε1 + ε 2 + L + ε t ) + ηt + ( y0 − η0 ) = ψ (1) ωt + ηt + ( y0 − η0 ) ,
onde ωt = ε1 + ε 2 + L + ε t . Donde
1 n 1 n 1 n 1 n
n ∑ t =1
yt −1ε t = ψ (1) ∑t =1 ωt −1ε t + ∑t =1 ηt −1ε t + ( y0 − η0 ) ∑t =1 ε t .
n n n
Quanto à primeira parcela do segundo membro desta igualdade pode concluir-se o
seguinte: como {ωt } é um passeio aleatório e ε t = ∆ωt , e como λ2 = γ 0 = σ ε2 , devido
à propriedade b) do teorema 10.2, tem-se
1 n d σ2
n ∑t =1 t −1 t
ω ∆ω → ε
{W (1)2 − 1} .
2
O resultado pretendido fica provado se se verificar que as outras duas parcelas con-
vergem em probabilidade para 0. De facto, como ηt −1 é função de (ε t −1 , ε t − 2 , K) , é
independente de ε t ; logo, E (ηt −1ε t ) = 0 ; pelo teorema da ergodicidade, vem
1 n p
∑
n t =1
η t −1ε t → 0.
Quanto à terceira parcela, conclui-se imediatamente que

1 n p
∑
n t =1
ε t → 0.
− Segundo elemento de V• n . Começa-se por demonstrar que {(∆yt −1 )ε t } é uma dife-

rença-martingala estacionária e ergódica, supondo que {∆yt } é um processo I (0) ,
com valor esperado nulo, a satisfazer as condições da definição 10.3 [o processo
{∆yt } dado por (10.19) é um caso particular]. Com efeito, como {ε t } e {∆yt −1} são
conjuntamente estacionários e ergódicos, o mesmo acontece com {(∆yt −1 )ε t } . Para
provar que este processo é uma diferença-martingala, deve verificar-se que
E{(∆yt −1 )ε t | (∆yt − 2 )ε t −1 , (∆yt − 3 )ε t − 2 , K} = 0 .
Como (ε t −1 , ε t − 2 , K) tem mais informação do que {(∆yt − 2 )ε t −1 , (∆yt − 3 )ε t − 2 , K} , vem

E{(∆yt −1 )ε t | (∆yt − 2 )ε t −1 , (∆yt − 3 )ε t − 2 , K}
= E [E{(∆yt −1 )ε t | ε t −1 , ε t − 2 , K} | (∆yt − 2 )ε t −1 , (∆yt − 3 )ε t − 2 , K]
.
= E [∆yt −1 E{ε t | ε t −1, ε t − 2 , K} | (∆yt − 2 )ε t −1, (∆yt − 3 )ε t − 2 , K]
= 0,
Uma vez que ∆yt −1 é função de (ε t −1 , ε t − 2 , K) .

Como ∆yt −1 e ε t são independentes, tem-se

E{(∆yt − 2 )2 ε t2 } = E{(∆yt − 2 )2 }E (ε t2 ) = γ 0 σ ε2 .
Então, aplicando o TLC de Billingsley, obtém-se

1 d
∑
n
t =1
(∆yt −1 )ε t → v2 ~ N (0, γ 0 σ ε2 ) .
n
− Conclusão:
d  v1   1 σ 2ψ (1){W (1) 2 − 1}
V• n → V =   =  2 ε .
v2   v ~ N (0, γ σ 2 ) 
 2 0 ε 
Utilizando os resultados anteriores, tem-se
 n(φˆ − 1)  d  2 1 
−1

ˆ   λ ∫ W ( r ) 2
dr 0   v1 
Γn ( β − β ) =   1
→Q V = 
−
0   
 n (ξˆ1 − ξ1 )  
−1 v 
 0 γ 0   2 
 2 1  v 
−1
=  ∫ 0
2
 λ W ( r ) dr
 1 .
 
 γ 0−1v2 
Portanto,
d σ ε2ψ (1) (1 / 2){W (1)2 − 1}
n(φˆ − 1) → ,
λ2 1
∫
2
W (r ) dr
0
ou
λ2 2
ˆ − 1) → (1 / 2){W (1) − 1} = DF ,
d
(10.21) n (φ φ
σ ε2ψ (1) 1
∫ W (r ) 2 dr
0
onde DFφ é a mesma variável aleatória obtida em (10.5) [por razões óbvias de notação,
escreve-se, agora, DFφ , em vez de DFϕ ].
Conclui-se, também, que
d  σ2 
(10.22) n (ξˆ1 − ξ1 ) → N  0, ε  ,
 γ0 
ou seja, obtém-se a distribuição assintótica clássica do estimador MQ do coeficiente da
variável I (0) com valor esperado nulo, ∆yt −1 .
A estatística-teste (10.21) envolve parâmetros perturbadores, devido ao factor
λ2
.
σ ε2ψ (1)
Contudo, como λ2 = σ ε2ψ (1) 2 [a variância de longo prazo de {∆yt } ], tem-se, sob
a hipótese nula,
λ2 1
= ψ (1) = .
2
σ ε ψ (1) 1 − ξ1
Substituindo ξ1 pelo respectivo estimador MQ, vem
n(φˆ − 1) d
(10.23) → DFφ .
1 − ξˆ1
Assim, a correcção de n(φˆ − 1) é feita por meio do estimador MQ do coeficiente

de ∆yt −1 , na auto-regressão aumentada. Deste modo, a estatística-teste (10.23), que já
não depende dos parâmetros perturbadores, chama-se estatística ADF- φ . O teste respec-
tivo designa-se por teste ADF- φ .
O rácio- τ , para φ = 1 , é dado por
φˆ − 1 φˆ − 1 n(φˆ − 1)
τ= = = ,
sφˆ s m11 s q11
n
onde m11 é o elemento (1,1) de ( X T X )−1 , q11 −1

n é o elemento (1,1) de Qn , s é o erro pa-
drão da regressão, e
q11
sφˆ = s m11 = s n
é o erro padrão de φˆ .
n2
Atendendo à expressão de Q −1 , a (10.21), a que s 2 é um estimador consistente
de σ ε2 , e às propriedades a) e b) do teorema 10.2, pode verificar-se que
φˆ − 1 d
(10.24) τ= → DFτ .
sφˆ
Com efeito,
1
σ ε ψ (1) (1 / 2){W (1) − 1} λ ∫ 0 W (r ) dr

2 2
n(φˆ − 1) d 2 2
τ= →
s q11 λ2 1
σε
n ∫
W (r )2 dr
0
σ ε ψ (1) (1 / 2){W (1) 2 − 1} (1 / 2){W (1) 2 − 1}

= = ,
λ 1 1
∫ ∫
2 2
W (r ) dr W (r ) dr
0 0
uma vez que σ ε ψ (1) = λ .

Assim, não é necessário corrigir o rácio- τ , em consequência do facto de ∆yt −1
ser incluído na auto-regressão aumentada. A estatística-teste (10.24) chama-se estatísti-
ca ADF- τ . O teste respectivo designa-se por teste ADF- τ .
Os resultados (10.23) e (10.24) podem ser generalizados para qualquer processo
na forma (10.19). Assim:
Teorema 10.3 – Testes ADF de uma raiz unitária (sem termo independente)
Suponha-se que { yt } é um processo ARIMA( p − 1,1, 0) , pelo que {∆yt } é um processo
AR ( p − 1) estacionário com valor esperado nulo. Seja (φˆ, ξˆ1 , ξˆ2 , K , ξˆp −1 ) o estimador
MQ dos coeficientes da auto-regressão aumentada, (10.17). Tem-se
n(φˆ − 1) d
(10.25) → DFφ (estatística ADF- φ ),
1 − ξˆ1 − ξˆ2 − L − ξˆp −1
φˆ − 1 d
(10.26) τ= → DFτ (estatística ADF- τ ),
sφˆ
onde sφˆ é o erro padrão de φˆ .
A generalização óbvia de (10.22) é a seguinte:

d
(10.27) n (ξˆ − ξ ) → N ( p −1) (0, σ ε2 Ω −1 ) ,
onde
 ξ1   ξˆ1   γ0 γ 1 L γ p−2 
     
 ξ 2  ˆ  ξˆ2   γ 1 γ 0 L γ p −3 
ξ = , ξ = , Ω= 
 M   M   M M M 
  ˆ   
ξ p −1  ξ p −1  γ p − 2 γ p − 3 L γ 0 
e γ s ( s = 0,1, 2, K , p − 2 ) é a autocovariância de ordem s de {∆yt } .
Atendendo aos resultados obtidos na secção 9.5 relativamente à estimação MQ
de processos auto-regressivos estacionários,verifica-se facilmente que esta distribuição
assintótica referida em (10.27) é a mesma que se obteria se se estimasse (10.19) pelo
método MQ. As hipóteses que envolvem apenas coeficientes dos regressores I (0) com
valor esperado nulo, (ξ1 , ξ 2 , K , ξ p −1 ) , podem ser testadas com os habituais rácios t e F
(assintoticamente válidos).
O teorema 10.3 pressupõe que a ordem de auto-regressão para ∆yt , p − 1 , é
conhecida. Quando esta é desconhecida, deve propor-se um valor para p. Em muitas si-
tuações, quando os dados são anuais, é razoável admitir que bastam dois ou três desfasa-
mentos; para dados mensais, sugere-se a utilização de 12 desfasamentos. No entanto,
não existem regras absolutas para esta escolha.
Numa primeira aproximação, pode utilizar-se o teste de Breusch-Godfrey para
verificar se no modelo (10.19), ∆yt = ξ1∆yt −1 + ξ 2 ∆yt − 2 + L + ξ p −1∆yt − ( p −1) + ε t (supondo
φ = 1 ), sucessivamente com p = 1, 2, 3, K , se detecta autocorrelação.
O problema da estimação de p também pode ser abordado de uma forma seme-
lhante à que foi estudada na secção na 9.6. As diferenças são as seguintes: no presente
caso, o PGD é um processo estacionário nas primeiras diferenças, e não em níveis; o
modelo é uma auto-regressão aumentada em que φ é livremente estimado.
Vão apresentar-se três resultados para grandes amostras sobre a escolha da

estimativa de p, p̂ , que permitem manter conclusões do teorema 10.3. Estes resultados
são aplicáveis a uma classe mais geral de processos do que aquela que corresponde a
este teorema: {∆yt } pode ser um processo ARMA( p, q ) estacionário e invertível, com
valor esperado nulo (com a hipótese adicional de que existem os quartos momentos de
ε t ). Assim, se q > 0 , a ordem da auto-regressão de ∆yt é infinita; se q = 0 , é finita.
O primeiro resultado é que o teorema 10.3 continua a verificar-se quando p̂
cresce com a dimensão da amostra a uma taxa apropriada:
(1) [Said e Dickey (1984)] Suponha-se que p̂ satisfaz
pˆ
(10.28) p̂ → +∞ , mas 1/ 3
→ 0 (quando n → +∞ ).
n
[isto é, p̂ tende para infinito, mas a uma taxa mais lenta do que n1 / 3 ] Então, as
duas estatísticas, ADF- φ e ADF- τ , baseadas na auto-regressão aumentada com
desfasamentos até à ordem p̂ nas primeiras diferenças, têm as mesmas distribui-
ções limite referidas no teorema 10.3.
Contudo, este resultado não fornece uma regra prática para seleccionar o com-
primento do desfasamento, p̂ , já que existe uma infinidade de regras que satisfazem as
condições (10.28). É, então, natural adoptar uma das regras indicadas na secção 9.5: a
regra sequencial “do geral para o particular” baseada em rácios-t; os critérios de infor-
mação obtidos a partir de somas de quadrados de resíduos e na dimensão da amostra.
Recapitulando, os critérios de informação fazem p̂ igual a valor de s que mi-
nimiza
 SQR s  C ( n)
ln   + ( s + 1) ,
 n  n
onde SQR s é a soma dos quadrados dos resíduos MQ da auto-regressão aumentada,

yt = φ yt −1 + ξ1∆yt −1 + ξ 2 ∆yt − 2 + L + ξ s ∆yt − s + ε t .
Para o critério de informação de Akaike (AIC) tem-se C (n) = 2 ; no caso do cri-

tério de informação Bayesiano (BIC), faz-se C (n) = ln(n) . Em qualquer dos casos, p̂ é
seleccionado a partir dos valores de s = 0,1, 2, K , p ∗ , onde p ∗ é fixado num valor que a
priori se sabe ser maior ou igual que o verdadeiro p. O valor de p̂ escolhido é função
das observações (não apenas da dimensão da amostra), e, portanto, é uma variável alea-
tória. Note-se que: quando q > 0 , o valor de p ∗ não pode ser igual ou superior à verda-
deira ordem de auto-regressão (que é infinita); mas, pode fazer-se com que cresça com a
dimensão da amostra; escreve-se p∗ (n) .
Os outros dois resultados são os seguintes:
(2) [Ng e Perron (1995)] Suponha-se que p̂ é seleccionado pela regra sequencial “do
geral para o particular” baseada em rácios-t, em que p∗ (n) satisfaz as condições
(10.28) e p ∗ (n) > c n g , para algum c > 0 e 0 < g < 1 / 3 . Então, as duas estatísticas,
ADF- φ e ADF- τ , têm as mesmas distribuições limite do teorema 10.3.
(3) [Ng e Perron (1995)] Suponha-se que p̂ é seleccionado pelo critério AIC ou pelo
critério BIC, em que p ∗ (n) satisfaz as condições (10.28). Então, as duas estatísti-
cas, ADF- φ e ADF- τ , têm as mesmas distribuições limite do teorema 10.3.
As distribuições para pequenas amostras dependem da regra escolhida e da es-

colha do limite superior p∗ (n) [existe uma infinidade de escolhas válidas desta função].
Por exemplo, p ∗ (n) = int(n1 / 4 ) [a parte inteira de n1 / 4 ] satisfaz as condições do resulta-
do (2). O mesmo acontece com p∗ (n) = int(100 n3 / 10 ) . Note-se que é importante que se
utilize o mesmo p ∗ (n) para decidir qual a ordem da auto-regressão aumentada.
Estudos de simulação [Schwert (1989)] sugerem que a escolha de p ∗ (n) , para
qualquer das regras referidas nos resultados (2) e (3), seja
  n 1 / 4 
p (n) = int 12 
∗
 .
  100  
O período amostral para seleccionar p̂ é t = p∗ (n) + 2, p ∗ (n) + 3, K , n . O pri-

meiro t é p∗ (n) + 2 porque p ∗ (n) + 1 observações são necessárias para calcular p ∗ (n)
primeiras diferenças na auto-regressão aumentada. Como apenas n − p∗ (n) − 1 são uti-
lizadas para estimar a auto-regressão yt = φ yt −1 + ξ1∆yt −1 + ξ 2 ∆yt − 2 + L + ξ s ∆yt − s + ε t , pa-
ra s = 1, 2, K , p∗ (n) , a função objectivo dos critérios de informação passa a ser
 SQR s  C{n − p∗ (n) − 1}
ln   + ( s + 1) .
 n − p (n) − 1  n − p∗ ( n) − 1
∗
Tal como nos testes DF, podem modificar-se os testes ADF quando se soma
uma constante à série das observações. Considere-se o modelo
(10.29) yt = α 0 + zt , com zt = ϕ1 zt −1 + ϕ2 zt − 2 + L + ϕ p zt − p + ε t ⇔ ϕ ( L) zt = ε t ,

Multiplicando ambos os membros da igualdade yt = α 0 + zt por ϕ ( L) , obtém-se
ϕ ( L) yt = ϕ (1)α 0 + ϕ ( L) zt ⇔ ϕ ( L) yt = α 0 (1 − φ ) + ε t , onde φ = ϕ1 + ϕ2 + L + ϕ p . Utilizan-
do a decomposição ϕ ( L) = (1 − φ ) L + ξ ( L)∆ , obtém-se, sem dificuldade,
(10.30) yt = α + φ yt −1 + ξ1∆yt −1 + ξ 2∆yt − 2 + L + ξ p −1∆yt − p +1 + ε t ,
em que α = α 0 (1 − φ ) . Fica ao cuidado do leitor, obter (10.30) a partir de (10.17), substi-

tuindo yt por yt − α 0 .
Embora a hipótese nula seja H 0 : φ = 1 ∧ α = 0 [que corresponde a que o proces-
so { yt } seja I (1) ], os testes de raízes unitárias consideram apenas a restrição φ = 1 . Lo-
go, continua a ter-se o teste ADF
H 0 : φ = 1 contra H1 : φ < 1 .
Em vez de (10.30), pode fazer-se

(10.31) ∆yt = α + θ yt −1 + ξ1∆yt −1 + ξ 2 ∆yt − 2 + L + ξ p −1∆yt − p +1 + ε t ,
onde θ = φ − 1 . Se se utilizar (10.31), o teste ADF passa a ser

H 0 : θ = 0 contra H1 : θ < 0 .
Para simplificar os cálculos, vai considerar-se p = 2 :

(10.32) yt = α + φ yt −1 + ξ1∆yt −1 + ε t .
Este modelo pode assumir a forma

yt = xt • β + ε t ,
onde
α 
xt • = [ 1 yt −1 ∆yt −1 ] e β =  φ  .
ξ1 
Com a amostra ( y−1 , y0 , y1 , K , yn ) , a estimação MQ é feita para t = 1, 2, K , n (n

observações), obtendo-se
αˆ 
 
βˆ = φˆc  .
ξˆ 
 1
Sem dificuldade se conclui que (φˆc , ξˆ1 ) é numericamente igual à estimação MQ
dos coeficientes da regressão de yt sobre ytc−1 e (∆yt −1 )c , onde
ytc−1 = yt −1 − y [com y = ( y0 + y1 + y2 + L + yn −1 ) / n ]
é o resíduo MQ da regressão de yt −1 sobre 1, e

(∆yt −1 )c = ∆yt −1 − ∆y [com ∆y = (∆y0 + ∆y1 + ∆y2 + L + ∆yn −1 ) / n ]
é o resíduo MQ da regressão de ∆yt −1 sobre 1.

Fazendo
φ  φˆ 
β c =   , βˆc =  c  e xtc• = [ ytc−1 (∆yt −1 )c ],
ξ1  ξˆ1 
o erro de amostragem é
−1
βˆc − β c =  ∑t =1 ( xtc• )T xtc•  ∑
n n
( xtc• )T ε t ,
  t =1
onde

∑ ∑ y (∆y )  e 
∑ yc ε 
n n n
( ytc−1 ) 2 c
∑t =1 ( x ) x =  n (∆y ) y c
 t =1 t −1
∑  .
n t −1 c n t =1 t −1 t
c T c t =1
(x ) εt =
c T
∑t =1 t −1 c t −1 ∑ (∆y ) 
t• t• n 2 t =1 t•
∑ n (∆yt −1 )c ε t 
t =1 t −1 c
 t =1 
Então,
 n(φˆ − 1)   −1
c T c  −1   −1
ˆ  = Γn  ∑t =1 ( xt • ) xt •  Γn   Γn ∑t =1 ( xtc• )T ε t  = Qn−1V• n ,
−1  n n
Γn ( β c − β c ) =  c
ˆ
 n (ξ1 − ξ1 )      
onde
Qn = Γn−1  ∑t =1 ( xtc• )T xtc•  Γn−1 e V• n = Γn−1 ∑t =1 ( xtc• )T ε t ,
n n
 
ou
 1 1 1 n c   1 n c 
2 ∑t =1 ∑ ∑
n
 ( ytc−1 )2 y (∆yt −1 )c  yt −1ε t 
n n n t =1 t −1  n t =1
Qn =   e V• n =  1 .
 1 1 ∑ n (∆yt −1 )c ytc−1 1 n
∑t =1 t −1 c t 
n
n ∑t =1 t −1 c
(∆y ) 2   ( ∆y ) ε
 n n t =1   n
Assim (para φ = 1 ):
− Elemento (1,1) de Qn . Como { yt } é I (1) sem deriva, tem-se
1 d 1
∑t =1 ( ytc−1 )2 → λ2 ∫ {W c (r )}2 dr ,
n
n2 0
devido à propriedade c) do teorema 10.2.

− Elemento (2,2) de Qn . Como (∆yt −1 )c = ∆yt −1 − ∆y , vem
(∆yt −1 )c2 = (∆yt −1 ) 2 − 2 ∆y (∆yt −1 ) + (∆y )2 ,
e
1 n 1 n 1 n
n ∑ t =1
(∆yt −1 )c2 = ∑t =1 (∆yt −1 ) 2 − 2 ∆y ∑t =1 ∆yt −1 + (∆y )2
n n
2
1 n 1 n 
= ∑
n t =1
( ∆yt −1 ) 2
−  ∑t =1 ∆yt −1  .
 n 
Como E (∆yt ) = 0 , E{(∆yt ) 2} = γ 0 e {∆yt } é um processo AR(1) estacionário (verifi-
ca-se a estacionaridade ergódica), tem-se
1 n p
∑
n t =1
( ∆yt −1 ) 2
c → γ0 .
− Elementos não diagonais de Qn . Facilmente se verifica que

1 1 n 1 1 n   1 1 n 1 n 
n n ∑ t =1
(∆yt −1 )c ytc−1 =  ∑t =1 (∆yt −1 ) yt −1  − 
n n   n n ∑ y   ∑t =1 ∆yt −1  .
t =1 t −1
 n 
Como se sabe,
1 n d λ2 γ0
∑
n t =1
( ∆yt −1 ) yt −1 →
2
W (1) 2
+
2
,
1 1 n d 1
n n
∑ t =1
yt −1 → λ ∫ W (r )dr ,
0
1 n p
∑
n t =1
∆yt −1 → 0.
Então,
1 1 n p
∑
n n t =1
( ∆y ) y c
t −1 c t −1 → 0.
− Conclusão:
λ2 1{W c (r )}2 dr 0 
Qn → Q =  ∫ 0
d
.
 0 γ 0 

− Primeiro elemento de V• n . Como ytc−1 = yt −1 − y , a decomposição de Beveridge-Nel-
son permite escrever yt −1 = ψ (1) ωt −1 + ηt −1 + ( y0 − η0 ) , onde ωt −1 = ε1 + ε 2 + L + ε t −1 , e
como
1 n 1 n
y=
n ∑ t =1
yt −1 = ∑t =1{ψ (1) ωt −1 + ηt −1 + ( y0 − η0 )}
n
1 n 1 n
= ψ (1) ∑t =1 ωt −1 + ∑t =1ηt −1 + ( y0 − η0 )
n n
= ψ (1) ω + η + ( y0 − η0 ) ,
onde
1 n 1 n
ω=
n ∑ t =1
ωt −1 e η = ∑t =1ηt −1 .
n
Então,
ytc−1 = yt −1 − y = ψ (1) (ωt −1 − ω ) + (ηt −1 − η ) = ψ (1) ωtc−1 + ηtc−1 .
Logo,
1 n c 1 n 1 n
n ∑ t =1
yt −1ε t = ψ (1) ∑t =1 ωtc−1ε t + ∑t =1ηtc−1ε t .
n n
Como ηt −1 é independente de ε t , a segunda parcela do segundo termo tende em pro-
babilidade para 0. Notando que ε t = ∆ωt e que λ2 = γ 0 = σ ε2 , a propriedade d) do teo-
rema 10.2 permite concluir que
1 n c d σ2
n ∑t =1 t −1 t
ω ε →
2
ε
[{W c (1)}2 − {W c (0)}2 − 1 ].
Então,
1 n c d 1
∑ y 1ε → v1 = σ ε2ψ (1) [ {W c (1)}2 − {W c (0)}2 − 1 ] .
n t =1 t − t
2
− Segundo elemento de V• n . Fica ao cuidado do leitor verificar que
1 d
∑
n
t =1
(∆yt −1 )c ε t → v2 ~ N (0, γ 0 σ ε2 ) .
n
− Conclusão:
d  v1  σ ε2ψ (1) 1 [{W c (1)}2 − {W c (0)}2 − 1 ]
V• n → V =   =  2 .
v2   2 
 v2 ~ N (0, γ 0 σ ε ) 
Utilizando os resultados anteriores, tem-se
 n(φˆc − 1)  d  2 1 c 
−1

ˆ   λ ∫ {W ( r )}2
dr 0   v1 
Γn ( β c − β c ) =   1
→Q V = 
−
0   
 n (ξˆ1 − ξ1 )  
−1 v 
 0 γ 0   2 
 2 1 c  v 
−1
=  ∫ 0
2
 λ {W ( r )} dr
 1 .
 
 γ 0−1v2 
Portanto,
d σ ε2ψ (1) (1 / 2) [{W c (1)}2 − {W c (0)}2 − 1 ]
n(φˆc − 1) → ,
λ2 1
∫
2 2
λ {W (r )} dr
c
0
ou
λ2 ˆ − 1) → (1 / 2) [ {W (1)} − {W (0)} − 1 ] = DF c ,
d c 2 c 2
(10.33) n (φ φ
σ ε2ψ (1) c 1
∫
λ2 {W c (r )}2 dr
0
onde DFφc é a mesma variável aleatória obtida em (10.10) [por razões óbvias de nota-
ção, escreve-se DFφc em vez de DFϕc ]. Eliminando os parâmetros perturbadores, vem
n(φˆc − 1) d
(10.34) → DFφc ,
ˆ
1 − ξ1
em que a estatística-teste chama-se estatística ADF- φc .

Quanto ao rácio- τ c , para φ = 1 , tem-se
φˆc − 1 d
(10.35) τc = → DFτc ,
sφˆ
c
onde sφˆ é o erro padrão de φˆc e DFτc é a mesma variável aleatória indicada em (10.11).
c
Os resultados (10.34) e (10.35) podem ser generalizados para qualquer p.
Teorema 10.4 – Testes ADF de uma raiz unitária (com termo independente)
Suponha-se que { yt } é um processo ARIMA( p − 1,1, 0) , pelo que {∆yt } é um processo
AR ( p − 1) estacionário com valor esperado nulo. Seja (αˆ , φˆc , ξˆ1 , ξˆ2 , K , ξˆp −1 ) o estimador
MQ dos coeficientes da auto-regressão aumentada com termo independente, (10.30).
Então:
n(φˆc − 1) d
(10.36) → DFφc (estatística ADF- φc ),
1 − ξˆ1 − ξˆ2 − L − ξˆp −1
φˆc − 1 d
(10.37) τc = → DFτc (estatística ADF- τ c ),
sφˆ
c
onde sφˆ é o erro padrão de φˆc .

c
Comentários:
1) Os testes estatísticos são invariantes com a adição de uma constante à série de ob-
servações.
2) A extensão de Said-Dickey-Ng-Perron continua aplicável: se {∆yt } é um processo
ARMA( p, q ) estacionário e invertível (pelo que ∆yt pode ser escrito como um pos-
sível processo auto-regressivo infinito), então as estatísticas ADF- φc e ADF- τ c têm
as distribuições limite indicadas no teorema 10.4, desde que p̂ seja escolhido com as
regras atrás referidas.
Podem desenvolver-se os testes ADF na presença de uma tendência linear:

(10.38) yt = α 0 + δ 0t + zt , com zt = ϕ1 zt −1 + ϕ2 zt − 2 + L + ϕ p zt − p + ε t ⇔ ϕ ( L) zt = ε t ,

Multiplicando ambos os membros da igualdade yt = α 0 + δ 0t + zt por ϕ (L) ,
obtém-se ϕ ( L) yt = ϕ (1)α 0 + δ 0ϕ ( L) t + ϕ ( L) zt ⇔ ϕ ( L) yt = α 0 (1 − φ ) + δ 0ϕ ( L) t + ε t , onde
φ = ϕ1 + ϕ2 + L + ϕ p . Utilizando a decomposição ϕ ( L) = (1 − φ ) L + ξ ( L)∆ , resulta, sem
dificuldade, que
(10.39) yt = α + δ t + φ yt −1 + ξ1∆yt −1 + ξ 2 ∆yt − 2 + L + ξ p −1∆yt − p +1 + ε t ,
onde α = α 0 (1 − φ ) + δ 0 (φ − ξ1 − ξ 2 − L − ξ p −1 ) e δ = δ 0 (1 − φ ) . Fica ao cuidado do leitor

verificar que (10.39) reulta directamente de (10.17), substituindo yt por yt − α 0 − δ 0 t .
Como δ = 0 , quando φ = 1 , a hipótese nula de o processo { yt } ser I (1) , com ou
sem deriva, implica φ = 1 e δ = 0 em (10.39). Contudo, os testes de raízes unitárias in-
cidem apenas na restrição φ = 1 . Assim, o teste ADF é
H 0 : φ = 1 contra H1 : φ < 1 .
Em vez de (10.39), pode ter-se

(10.40) ∆yt = α + δ t + θ yt −1 + ξ1∆yt −1 + ξ 2 ∆yt − 2 + L + ξ p −1∆yt − p +1 + ε t ,
onde θ = φ − 1 . Se se utilizar (10.40), o teste ADF passa a ser

H 0 : θ = 0 contra H1 : θ < 0 .
Os resultados gerais para efectuar estes testes ADF são dados pelo teorema se-
guinte:
Teorema 10.5 – Testes ADF de uma raiz unitária (com tendência linear)
Seja { yt } a soma de uma tendência linear com um processo ARIMA( p − 1,1, 0) , pelo
que {∆yt } é um processo AR ( p − 1) estacionário cujo valor esperado pode, ou não, ser
nulo. Seja (αˆ , δˆ, φˆct , ξˆ1 , ξˆ2 , K , ξˆp −1 ) o estimador MQ dos coeficientes da auto-regressão
aumentada com tendência linear, (10.39). Então:
n(φˆct − 1) d
(10.41) → DFφct (estatística ADF- φct ),
1 − ξˆ1 − ξˆ2 − L − ξˆp −1
onde DFφct é a mesma variável aleatória obtida em (10.14) [por razões óbvias de nota-
ção, escreve-se DFφct em vez de DFϕct ];
φˆct − 1 d
(10.42) τ ct = → DFτct (estatística ADF- τ ct ),
sφˆ
ct
onde sφˆ é o erro padrão de φˆct e DFτct é a variável aleatória indicada em (10.15).
ct
Comentários:
1) Os testes estatísticos são invariantes com os parâmetros da tendência, (α 0 , δ 0 ) .
2) A extensão de Said-Dickey-Ng-Perron continua aplicável: se {∆yt } é um processo
ARMA( p, q ) estacionário e invertível com valor esperado possivelmente não nulo,
então as estatísticas ADF- φct e ADF- τ ct têm as distribuições limite indicadas no
teorema 10.5, desde que p̂ seja escolhido com as regras já conhecidas.
3) O mesmo comentário que se fez a propósito da escolha do teste DF com ou sem ten-
dência linear é aplicável ao testes ADF. Se houver razões para não considerar uma
tendência linear, devem usar-se as estatísticas ADF- φc e ADF- τ c , porque, geral-
mente, a potência dos testes é maior se se não incluir a tendência na auto-regressão
aumentada. No caso de ser razoável admitir a existência de uma tendência linear,
deve recorrer-se às estatísticas ADF- φct e ADF- τ ct , incluindo a tendência na auto-re-
gressão aumentada.
4) As tabelas dos valores críticos para efectuar os testes ADF são, de acordo com os
teoremas 10.3, 10.4 e 10.5, as mesmas que se utilizam os testes DF, respectivamente
(ver anexo 10.A).
Exemplo 10.2 – Seja lpib o logaritmo do PIB português. Como se mostra na figura
10.1, com dados anuais de 1865 a 2001, o logaritmo do PIB evidencia uma tendência
determinística linear e, eventualmente, uma tendência estocástica. O cronograma da ta-
xa de variação do PIB parece confirmar esta possibilidade, uma vez que ∆lpib é, apa-
rentemente, estacionário (ver figura 10.5).
Para fazer o teste ADF vai considerar-se a seguinte auto-regressão aumentada:
lpibt = α + δ t + φ lpibt −1 + ξ1 ∆lpibt −1 + ε t .
Estimando esta equação pelo método MQ, obtém-se

lpibt = 0.116619 + 0.0006775 t + 0.986205 lpibt −1 − 0.150456 ∆lpibt −1 + εˆt .
Assim, tem-se φˆct = 0.986205 , e o respectivo erro padrão é igual a 0.012235. Os

valores observados das estatísticas-teste são, respectivamente, os seguintes:
n(φˆct − 1) 135 × (0.986205 − 1) 0.986205 − 1
= = −1.61879 ; τ c = = −1.1275 .
1 − ξ1ˆ 1 − (−0.150456) 0.012235
P( DFφct < −21.7) = 0.05 .
0.2
0.15
0.1
0.05
-0.05
-0.1
-0.15
1865 1875 1885 1895 1905 1915 1925 1935 1945 1955 1965 1975 1985 1995
Taxa de variação do PIB
Fig. 10.5 – Cronograma da taxa de variação do PIB português
Como se dispõe de 135 observações, o valor crítico está entre –20.6 e –21.3. Co-
mo o valor observado da estatística-teste é –1.61879, a evidência aponta claramente pa-
ra a hipótese nula: a variável lpib é I (1) .
O valor crítico (assintótico) a 5%, dado pela tabela 10.2, é –3.41, isto é,
P( DFτct < −3.41) = 0.05 .
Como se dispõe de 135 observações, o cálculo directo permite obter –3.438, pa-
ra o valor crítico, e 0.949, para o valor-p. A evidência, ainda, é favorável para a hipótese
nula.
∇
Os vários processos I (1) considerados nesta secção são casos particulares do se-
guinte modelo (conjunto de PGDs):
(10.43) yt = ct + zt , zt = φ zt −1 + ut ,
onde ct é a componente determinística, zt é a componente estocástica e {ut } é um pro-

cesso I (0) com valor esperado nulo. Sob a hipótese nula, o processo {zt } é uma ten-
dência estocástica ( φ = 1 ). Os casos particulares são os seguintes:
1) No modelo yt = ϕ yt −1 + ε t , tem-se ct = 0 , yt = zt , φ = ϕ e ut = ε t [o processo I (0)
é um ruído branco independente].
2) O modelo (10.8) corresponde a ct = α 0 , φ = ϕ e ut = ε t [o processo I (0) é um ruí-
do branco independente]. Daqui resulta (10.9).
3) No modelo (10.12), tem-se ct = α 0 + δ 0 t , φ = ϕ e ut = ε t [o processo I (0) é um
ruído branco independente], obtendo-se (10.13).
4) Com (10.16) obtém-se ct = 0 , yt = zt e ut = ξ1∆yt −1 + ξ 2 ∆yt − 2 + L + ξ p −1∆yt − ( p −1) + ε t
[o processo I (0) é um processo AR ( p − 1) estacionário com valor esperado nulo].
Daqui resulta (10.17).
5) No modelo (10.29), tem-se ct = α 0 e ut = ξ1∆zt −1 + ξ 2 ∆zt − 2 + L + ξ p −1∆zt − ( p −1) + ε t [o

processo I (0) é um processo AR ( p − 1) estacionário com valor esperado nulo].
Obtém-se, então, (10.30).
6) Para obter o modelo dado por (10.39), faz-se ct = α 0 + δ 0 t e deve considerar-se o
mesmo processo I (0) referido em 5): ut = ξ1∆zt −1 + ξ 2 ∆zt − 2 + L + ξ p −1∆zt − ( p −1) + ε t .
7) Nos casos 4), 5) e 6), {ut } pode ser um processo ARMA( p, q ) estacionário e inver-
tível, com valor esperado nulo [ver as extensões de Said-Dickey-Ng-Perron].
No caso de pequenas amostras, os testes DF e ADF mostram tendência para

não rejeitar facilmente a hipótese nula, o que é sintoma de que estes testes são pouco
potentes.
Na literatura, estão disponíveis outros testes de raízes unitárias [ver Maddala e
Kim (1998)]. São de destacar o teste de Phillips (1987) – que se aplica ao caso 4) com
a extensão prevista em 7) –, e o teste de Phillips-Perron (1988), que é uma generaliza-
ção do teste anterior de modo a cobrir os casos 5) e 6) com as extensões referidas em 7).
Estes testes baseiam-se na estimação MQ do coeficiente de yt −1 de uma equação
AR(1), e não de uma auto-regressão aumentada, em que a variância de longo prazo de
{∆yt } é estimada com os respectivos resíduos. Suponha-se que { yt } é um processo
I (1) , pelo que pode existir autocorrelação em ∆yt . Não obstante, vai estimar-se a equa-
ção AR(1) sem termo independente, yt = φ yt −1 + ε t . As estatísticas de Perron-Phillips
são as seguintes:
2 2
ˆ 1 n sφˆ ˆ2
Ζφ = n(φ − 1) − (λ − γˆ0 ) ,
2 s2
s 1 nsφˆ ˆ2
Ζτ = τ− (λ − γˆ0 ) ,
λˆ 2 sλˆ
onde φˆ é o estimador MQ de φ , sφˆ é o erro padrão de φˆ , s é o erro padrão da regres-

são, λ̂ 2 é um estimador consistende de λ 2 , γˆ0 é um estimador consistente de γ 0 , e τ é
o rácio- τ para a hipótese nula φ = 1 .
Como
∑ (∆y ) y
n
s
φˆ − 1 = t =1 t t −1
e sφˆ = ,
∑ y
n
∑t =1 yt2−1
2 n
t =1 t −1
vem
∑ (∆y ) y (1 / n)∑t =1 (∆yt ) yt −1 − (1 / 2)(λˆ2 − γˆ0 )

n n
1 n2
(λˆ2 − γˆ0 ) =
t =1 t t −1
Ζφ = n − .
2
∑ y ∑ (1 / n 2 )∑t =1 yt2−1
n 2 n 2 n
t =1 t −1 t =1
y t −1
Atendendo às propriedades a) e b) do teorema 10.2, tem-se

λ2 2 γ0 λ2 γ
W (1) − − + 0 2
2 2 2 = (1 / 2){W (1) − 1} = DF .
d
Ζφ → 2 1 1 φ
λ2 ∫ W (r ) 2 dr ∫ W ( r ) 2
dr
0 0
Verifica-se facilmente que

s 1 nsφˆ ˆ2 s 1 n s (1 / 2)(λˆ2 − γˆ0 )
Ζτ = τ− (λ − γˆ0 ) = τ − (λˆ2 − γˆ0 ) = τ− .
ˆ 2 ˆ ˆ 2 ˆ λˆ ˆ
λ sλ λ ∑ λ (1 / n )∑t =1 yt −1
n n
λ t =1
yt2−1 2 2
Como λ2 = γ 0 = σ ε2 , e atendendo à propriedade a) do teorema 10.2, obtém-se

d σε (1 / 2)(λ2 − γ 0 )
Ζτ → DFτ − = DFτ .
λ 1
λ λ ∫ W (r ) dr
2 2
0
Os testes de Phillips não gozam de boas propriedades em pequenas amostras. No

entanto, existe uma nova geração de testes de raízes unitárias com distorsões de di-
mensão razoavelmente reduzidas e potência aceitável. São de referir o teste ADF-GLS
de Elliott, Rothenberg e Stock (1996), e os testes-M de Perron e Ng (1996).
10.4 - Cointegração: estudo preliminar
A utilização de variáveis não estacionárias [e, em particular, I (1) ] em modelos

de regressão pode ter consequências absurdas, porque, em geral, elas tendem afastar-se
quando n → +∞ (esta questão vai se aprofundada na secção 10.7, quando se estudar o
problema das regressões espúrias). Contudo, a teoria económica sugere que, em certos
casos, um determinado conjunto de variáveis (duas ou mais) podem estar ligadas por
meio de uma relação de equilíbrio de longo prazo, isto é, por uma relação que se man-
tém, em média, durante um longo período. Mesmo que no curto prazo se verifiquem de-
sequilíbrios, no longo prazo, as variáveis tenderão a mover-se para uma situação de
equilíbrio, ou seja, existem forças que actuam de forma a restabelecer o equilíbrio.
Uma via que tem permitido estudar este tipo de situações é a análise da cointe-
gração. Nos casos mais simples, a noção de cointegração corresponde a considerar duas
ou mais variáveis I (1) , e procurar uma combinação linear delas que seja I (0) . Cada va-
riável, considerada individualmente, é I (1) , mas existe uma relação equilíbrio de longo
prazo que associa as variáveis, e que é representado pela combinação linear. A cointe-
gração garante que as variáveis I (1) , que aparentemente estariam dispersas, estão asso-
ciadas numa combinação linear. A questão fundamental da análise da cointegração é
que, embora as variáveis em questão tendam a crescer ou a decrescer no tempo de uma
forma não estacionária, elas podem “andar ou seguir em conjunto”.
Na figura 10.6 apresenta-se o cronograma das observações anuais para o perío-
do de 1960 a 2005, para Portugal, do logaritmo do PIB e do logaritmo da despesa de
consumo privado final, a preços de 2000. Ambas as séries têm tendência linear determi-
nística e tendência estocástica. Estas variáveis I (1) são cointegradas? A mera aprecia-
ção da figura sugere que sim, uma vez que, aparentemente, as duas trajectórias são “pa-
ralelas”. Esta questão vai ser esclarecida na secção 10.7.
5.0
4.5
4.0
3.5
3.0
2.5
2.0
1960 1965 1970 1975 1980 1985 1990 1995 2000 2005
Log Consum o Privado Log PIB
Fig. 10.6 – Logaritmo do consumo privado e logaritmo do PIB em Portugal.

Fonte: Annual macro-economic (AMECO) database.
Exemplo 10.3 – Admita-se que

 yt = λ xt + ε t1

 xt = xt −1 + ε t 2 ,
onde ε t1 e ε t 2 são ruídos brancos não correlacionados. Conclui-se imediatamente que
xt ~ I (1) , uma vez que ∆xt = ε t 2 . Como
∆yt = λ ∆ xt + ∆ε t1 = λ ε t 2 + ∆ε t1 ,
verifica-se, também, que yt ~ I (1) . Contudo, existe uma combinação linear das variá-
veis yt e xt que é I (0) . Com efeito, tem-se ε t1 = yt − λ xt ~ I (0) .
∇
Exemplo 10.4 – Seja r 6 t a taxa de juro dos títulos do tesouro a 6 meses (no final do tri-
mestre t, anualizada), e r 3t a respectiva taxa de juro a 3 meses. Sabe-se que cada uma
destas variáveis é I (1) , e que o spread entre as duas taxas de juro, sprt = r 6 t − r 3t , é
I (0) . Então, as duas variáveis são cointegradas porque sprt ~ I (0) é combinação linear
de r 6 t e r 3t .
Esta cointegração tem uma interpretação económica simples. Se r 6 t e r 3t não
fossem cointegradas, a diferença entre as duas taxas de juro tenderia a ser muito grande,
e a não se aproximarem. Por exemplo, suponha-se que o spread crescia durante muitos
períodos, o que tornava o investimento em títulos do tesouro a 6 meses muito mais atra-
ente do que a 3 meses. Então, os investidores renunciavam aos títulos a 3 meses a favor
dos títulos a 6 meses, fazendo subir o preço destes, e baixando o preço daqueles. Como
as taxas de juro têm uma relação inversa com o preço dos títulos, diminuía r6 e aumen-
tava r3, até que o spread fosse reduzido. Deste modo, não é de esperar que se mante-
nham grandes diferenças entre r6 e r3: o spread tem tendência para regressar ao seu va-
lor médio (em princípio ligeiramente positivo, porque o retorno dos investidores a mais
longo prazo é superior ao dos investidores a mais curto prazo).
Pode, também, argumentar-se que existe uma relação de longo prazo entre as
duas taxas de juro. Com efeito, seja µ = E ( sprt ) . Então, pode escrever-se
r 6t = r 3t + µ + ε t ,
onde {ε t } é um ruído branco. A relação de equilíbrio é dada por r 6e = r 3e + µ , que

ocorre quando ε t = 0 ; pode haver erros de equilíbrio temporários, mas existem forças
no sistema que “puxam” r6 e r3 para a situação de equilíbrio.
∇
Podem referir-se muitas outras situações de cointegração de variáveis econó-

micas:
a) Davidson, Hendry, Sbra e Yeo (1978) sugerem que as variáveis macroeconómicas
consumo e rendimento são I (1) . Contudo, a longo prazo, o consumo tende a ser,
aproximadamente, uma proporção constante do rendimento, pelo que é razoável ad-
mitir que a diferença entre o logaritmo do consumo e o logaritmo do rendimento é
um processo estacionário.
b) A teoria da paridade dos poderes de compra (PPP) permite interpretações que condu-
zem a processos cointegrados. Um caso interessante refere-se aos preços dos bens em
dois países diferentes. Sejam Pt1 e Pt 2 os níveis gerais de preços nos países 1 e 2,
respectivamente; Pt1 é contabilizado em unidades monetárias do país 1, e Pt 2 , em
unidades monetárias do país 2. Abstraindo dos custos de transporte, a teoria PPP su-
gere que os preços efectivos devem ser semelhantes nos dois países: Pt1 = St Pt 2 , onde
St é a taxa de câmbio. Fazendo pt1 = log( Pt1 ) , pt 2 = log( Pt 2 ) e st = log( St ) , resulta
pt1 = st + pt 2 . Na prática, existem erros que impedem a PPP de ser verificar exacta-
mente. Pode, então, escrever-se ut = pt1 − st − pt 2 . A teoria PPP sugere que a variável
ut é estacionária, embora pt1 , pt 2 e st possam ser I (1) .
c) Sejam f t e st os logaritmos dos preços forward e spot de uma moeda estrangeira,
respectivamente. A hipótese da eficiência dos mercados sugere que f t = E ( st +1 ) , ou
seja, o preço forward é o valor de expectativa, no período t, do preço spot no período
t + 1 . A hipótese das expectivas racionais estabelece que os erros das expectivas são
estacionários com valor esperado nulo: ut +1 = st +1 − E ( st +1 ) ~ I (0) e E (ut +1 ) = 0 . En-
tão, resulta que ut +1 = st +1 − f t ~ I (0) . Se st +1 e f t são I (1) , existe uma combinação
linear destas variáveis que é I (0) .
d) Sabendo que as variávies PNB, dívida pública e défice orçamental são I (1) , e que os
governos tendem a garantir que a dívida pública e o défice orçamental sejam aproxi-
madamente proporcionais ao PNB, é de esperar que os logaritmos destas três variá-
veis sejam cointegrados.
e) A existência de uma função procura de moeda estável implica que o logaritmo do
stock real de moeda, o logaritmo do rendimento real e taxa de juro nominal são coin-
tegradas.
f) Podem, ainda, referir-se os seguintes pares de variáveis cointegradas: salários e pre-
ços; taxas de juro de curto e longo prazo; taxa de juro nominal e taxa de inflação;
cotações da acções e dividendos; produção e vendas; existências e vendas.
Nesta secção vai fazer-se um estudo preliminar da cointegração, considerando

apenas dois processos I (1) .
Considere-se um processo { yt } , e suponha-se que yt = ct + zt , onde ct é a com-
ponente determinística, e zt é a componente estocástica. Por exemplo, a componente
determinística pode ser apenas uma constante ( ct = α 0 ), ser composta por uma tendên-
cia linear ( ct = α 0 + δ 0 t ) ou ser mais complexa (incluir “dummies” sazonais ou outras
variáveis não estocásticas). Quando yt ~ I (1) , {zt } é uma tendência estocástica; quando
yt ~ I (0) , {zt } é um processo estacionário com valor esperado nulo.
Podem estabelecer-se algumas propriedades sobre combinações lineares de
processos I (0) e I (1) . Sendo a e b constantes diferentes de zero, tem-se:
1) xt ~ I (d ) ⇒ a + b xt ~ I (d ) , onde d = 0,1 ;
2) yt ~ I (0) ∧ xt ~ I (0) ⇒ a yt + b xt ~ I (0) ;
3) yt ~ I (1) ∧ xt ~ I (0) ⇒ a yt + b xt ~ I (1) [o processo I (1) é dominante];
4) Em geral, yt ~ I (1) ∧ xt ~ I (1) ⇒ a yt + b xt ~ I (1) .
A excepção a esta última regra é o caso especial de cointegração:
Definição 10.5 – Cointegração de dois processos I (1)

Considerem-se dois processos I (1) , { yt } e {xt } . Se existir um vector
 a1 
a= ≠0
a2 
tal que
(10.44) ut = a1 yt + a2 xt ~ I (0)
então { yt } e {xt } dizem-se cointegrados, escrevendo-se ( yt , xt ) ~ CI , e o vector a cha-

ma-se vector de cointegração.
Se, por exemplo, a1 = 1 e a2 = −λ , tem-se

 1 
u t = y t − λ xt e a =   .
− λ 
Alternativamente, podia-se fazer a1 = −γ e a2 = 1 , e obtinha-se
− γ 
ut = −γ yt + xt e a =   .
1 
Conclui-se, assim, que o vector a não é único; contudo, se se fixar em 1 uma das
suas componentes, o vector de cointegração é único.
No que se segue, vai supor-se que a1 = 1 , e, portanto, ut = yt − λ xt . Nestas con-
dições, pode dizer-se que λ ≠ 0 é o parâmetro de cointegração.
Vai analisar-se a questão da existência de uma componente determinística na ex-

pressão de ut . Como yt ~ I (1) , pode escrever-se yt = ct1 + zt1 , onde ct1 é a componente
determinística e zt1 é a tendência estocástica; do mesmo modo, xt ~ I (1) permite fazer
xt = ct 2 + zt 2 , onde ct 2 é a componente determinística e zt 2 é a tendência estocástica.
Facilmente se verifica que zt1 − λ zt 2 ~ I (0) . Como
ut = yt − λ xt = (ct1 + zt1 ) − λ (ct 2 + zt 2 ) = zt1 − λ zt 2 + ct ,
onde ct = ct1 − λ ct 2 , verifica-se que a cointegração das tendências estocásticas não eli-
mina a componente determinística.
No caso particular em que ct1 = α1 + δ1 t e ct 2 = α 2 + δ 2 t , conclui-se que δ1 é a
deriva de yt [ δ1 = E (∆yt ) ] e que δ 2 é a deriva de xt [ δ 2 = E (∆ xt ) ]. Neste caso,
ut = yt − λ xt = (α1 + δ1 t + zt1 ) − λ (α 2 + δ 2 t + zt 2 )
,
= {(α1 − λα 2 ) + (δ1 − λδ 2 ) t } + ( zt1 − λ zt 2 )
verifica-se que a cointegração das tendências estocásticas não elimina a tendência li-
near.
Por exemplo, admita-se que { yt } e {xt } são passeios aleatórios com deriva,
yt = α1 + yt −1 + ε t1 e xt = α 2 + xt −1 + ε t 2 ,
ou
yt = y0 + α1 t + ∑ s =1 ε s1 e xt = x0 + α 2 t + ∑ s =1 ε s 2 .
t t
Então,
ut = yt − λ xt =  y0 + α1 t + ∑ s =1 ε s1  − λ  x0 + α 2 t + ∑ s =1 ε s 2 
t t
   
=  ∑ s =1 ε s1 − λ ∑ s =1 ε s 2  + {( y0 − λ x0 ) + (α1 − λ α 2 ) t }.
t t
 
A cointegração tenta revelar a existência de um equilíbrio de longo prazo para o
qual converge o sistema económico em estudo. Se, por exemplo, a teoria económica su-
gere a relação de equilíbrio entre yt e xt , yt = λ xt , então ut pode ser interpretado como
o erro de equilíbrio (o desvio relativamente ao equilíbrio). O ideal seria ter-se ut = 0 .
Uma relação (equação) de cointegração traduz estatisticamente uma relação de
equilíbrio de longo prazo. Com efeito, se ut ~ I (0) , o erro de equilíbrio tem as seguin-
tes características:
a) Não apresenta qualquer comportamento sistemático, ao longo do tempo, para se
desviar da sua componente determinística;
b) Mantém-se sempre dentro de certos limites (porque a sua variância é constante);
c) É assintoticamente não correlacionado (porque é estacionário e ergódico);
d) Tem tendência para regressar, com regularidade, à sua média, isto é, tem um com-
portamento mean reversing.
Por exemplo, suponha-se que os processos { yt } e {xt } são passeios aleatórios

sem deriva: yt = yt −1 + ε t1 e xt = xt −1 + ε t 2 . Admitindo, para simplificar, que os valores
iniciais são nulos ( y0 = x0 = 0 ), tem-se que E ( yt ) = 0 e E ( xt ) = 0 . Nestas condições, o

modo de evolução destes processos não é mean reversing (não regressam com regulari-
dade aos seus valores médios que, neste caso, são os valores iniciais nulos). Se, no en-
tanto, ut = yt − xt ~ I (0) ( λ = 1 e ct = 0 ), o processo {ut } tem valor esperado nulo e
evolui de tal modo que regressa, com alguma regularidade, ao valor nulo.
10.5 - Sistemas cointegrados
Os processos (escalares) I (0) lineares definidos na secção 10.2 (ver definição

10.3) podem ser generalizados para processos vectoriais.
Definição 10.6 – Processo m-dimensional I (0) linear

Seja { y•t } um processo estocástico vectorial, onde y•t é um vector aleatório m × 1 . O
processo { y•t } é um processo I (0) linear, y•t ~ I (0) , se e só se y•t = c•t + w•t , em que
c•t é a componente vectorial determinística, e o processo {w•t } verifica as seguintes
condições:
a) w•t = Ψ ( L)ε •t , onde Ψ ( L) = I m + Ψ1L + Ψ2 L2 + L , Ψs ( s = 1, 2, K ) é uma matriz de
tipo m × m , e {ε •t } é um ruído branco independente [com E (ε •t ) = 0 e Cov(ε •t ) = Σε
(matriz definida positiva)];
b) {Ψs } é somável de 1.ª ordem [cada sucessão {ψ ijs } , onde ψ ijs é o elemento genérico
de Ψs , é somável de 1.ª ordem, isto é, verifica-se a condição Σ +∞ s = 0 s | ψ ij | < +∞ ];
s
c) Ψ (1) = I m + Ψ1 + Ψ2 + L ≠ O (matriz nula m × m ): pelo menos um dos elementos da

matriz Ψ (1) não é nulo.
Como {Ψs } é somável de 1.ª ordem, também é absolutamente somável. Pode,

então, concluir-se que {w•t } é um processo VMA (∞) , com valor esperado nulo, esta-
cionário e ergódico.
Facilmente se conclui (ver secções 9.4 e 9.7) que a matriz das covariâncias de
longo prazo de {w•t } é dada por
(10.45) Ψ (1) Σε Ψ (1)T .
A definição 10.6 garante que qualquer componente do vector w•t é integrada de

ordem inferior a 1. Contudo, como Σ ε é definida positiva e Ψ (1) ≠ O , pelo menos um
dos elementos diagonais da matriz das covariâncias de longo prazo é positivo, o que
implica que pelo menos uma das componentes do vector w•t é, individualmente, I (0) .
Não se exige que Ψ (1) seja não singular. Com efeito, é mesmo desejável, para a
teoria da cointegração, haver a possibilidade de Ψ (1) ser singular. Assim, (10.45) pode,
também, ser singular.
Exemplo 10.5 – Considere-se o seguinte processo VMA(1) bivariado:

w1t = ε1t − ε1,t −1 + λ ε 2,t −1

w2t = ε 2t ,
ou
w•t = ε •t + Ψ1ε •,t −1 ,
onde
w  ε  − 1 λ 
w•t =  1t  , ε •t =  1t  e Ψ1 =  .
 w2t  ε 2t   0 0 
A condição b) da definição 10.6 é obviamente verificada, porque o processo é de

1.ª ordem. Como
0 λ 
Ψ (1) = I 2 + Ψ1 =   ≠O,
0 1 
fica garantida a condição c).

Se λ ≠ 0 , w1t ~ I (0) e w2t ~ I (0) ; se λ = 0 , w1t ~ I (−1) e w2t ~ I (0) .
∇
Definição 10.7 - Processo m-dimensional I (d ) linear

O processo m-dimensional { y•t } é um processo linear integrado de ordem d (inteiro e
positivo) se e só se {∆d y•t } é um processo I (0) linear. Escreve-se y•t ~ I (d ) . Em parti-
cular, y•t ~ I (1) se e só se ∆y•t ~ I (0) .
Seja {w•t } um processo I (0) linear, com valor esperado nulo. O processo { y•t }
é um processo m-dimensional I (1) linear associado com {w•t } se e só se
(10.46) ∆y•t = c•t + w•t ,
onde c•t é a componente determinística. Assim, E (∆y•t ) = c•t .

Esta associação entre os processos I (0) e I (1) , pode ser generalizada para qual-
quer processo I (d ) . De facto, se {w•t } é um processo I (0) linear, com valor esperado
nulo, o processo { y•t } é um processo m-dimensional I (d ) linear associado com {w•t }
se e só se ∆ d y•t = c•t + w•t . No que se segue vai explorar-se o caso d = 1 .
Como nem todas as componentes de w•t são, individualmente, I (0) , algumas
componentes de y•t podem não ser I (1) . Contudo, está garantido que nenhuma com-
ponente de y•t tem ordem de integração superior a 1, e pelo menos uma é I (1) .
Atendendo a que w•t = Ψ ( L)ε •t , vem
(10.47) ∆ y•t = c•t + Ψ ( L)ε •t ,
que é a representação VMA de um processo vectorial I (1) .

Fazendo
C•t = ∑ s =1 c• s e W•t = ∑ s =1 w• s ,
t t
em níveis, pode escrever-se

(10.48) y•t = y•0 + C•t + W•t ,
onde y•0 é um vector de constantes, ou é um vector aleatório independente de ε •t , qual-

quer que seja t. Por exemplo, se c•t = α , tem-se
y•t = y• 0 + α t + W•t
Exemplo 10.6 – Um processo I (1) associado ao processo I (0) , com valor esperado nu-
lo, considerado no exemplo 10.5, é o seguinte:
∆y1t = α1 + ε1t − ε1,t −1 + λ ε 2,t −1

∆y2t = α 2 + ε 2t .
Fazendo
∆y•t = α + ε •t + Ψ1ε •,t −1 = α + Ψ ( L)ε •t ,
onde
 ∆y  α  1 0 − 1 λ  1 − L λ L 
∆y•t =  1t  , α =  1  e Ψ ( L) =  + L= ,
∆y2t  α 2  0 1   0 0   0 1 
tem-se a respectiva representação VMA.

Em níveis, tem-se
 y1t = y10 + α1t + (ε1t − ε10 ) + λ (ε 20 + ε 21 + L + ε 2,t −1 )

 y2t = y20 + α 2t + (ε 21 + ε 22 + L + ε 2t ).
Conclui-se imediatamente que y2t ~ I (1) . Quando λ ≠ 0 , y1t ~ I (1) . Se λ = 0 , o

processo { y1t } é estacionário em tendência porque y1t = ( y10 − ε10 ) + α1t + ε1t , ou seja,
y1t ~ I (0) .
Para λ = 0 , facilmente se verifica que y1t + y2t ~ I (1) , provando que a variância
de longo prazo de { y1t + y2t } é positiva. Com efeito, notando que
∆y1t + ∆y2t = α1 + α 2 + ε1t − ε1,t −1 + ε 2t ,
e que as variâncias de longo prazo de ε1t − ε1,t −1 e de ε 2t são, respectivamente, 0 e σ ε22 ,

obtém-se a conclusão pretendida.
∇
Vai fazer-se a decomposição de Beveridge-Nelson de (10.48). Com efeito, a

versão multivariada de (10.3) é
(10.49) Ψ ( L) = Ψ (1) + (1 − L) D ( L) ,
onde
D( L) = ∑i = 0 Di Li = D0 + D1L + D2 L2 + L
+∞
e
Di = −(Ψi +1 + Ψi + 2 + L) (i = 0,1, 2, K)
é uma matriz quadrada de ordem m.

Então,
w•t = Ψ ( L)ε •t = {Ψ (1) + (1 − L) D( L)}ε •t
= Ψ (1)ε •t + D( L)ε •t − D( L)ε •,t −1
= Ψ (1)ε •t + η•t − η•,t −1 ,
onde η•t = D ( L)ε •t . Como Ψ (L) é somável de 1.ª ordem, D (L) é absolutamente somá-
vel, e {η•t } é estacionário em covariância. Substituindo a expressão de w•t em (10.48),
obtém-se a respectiva decomposição de Beveridge-Nelson:
(10.50) y•t = C•t + Ψ (1) ω•t + η•t + ( y• 0 − η• 0 ) ,
onde ω•t = ε •1 + ε • 2 + L + ε •t .
Assim, o processo { y•t } decompõe-se em quatro parcelas: a componente deter-
minística, C•t ; a tendência estocástica, Ψ (1) ω•t ; o processo estacionário, η•t ; a condi-
ção inicial, y•0 − η• 0 . Por construção, η• 0 é um vector aleatório, pelo que o valor inicial
também é aleatório.
Exemplo 10.7 – Retomando o exemplo 10.6, tem-se D( L) = −Ψ1 , e, portanto,

1 − λ  ε1t  ε1t − λ ε 2t 
η•t = −Ψ1ε •t =   = .
0 0  ε 2t   0 
A tendência estocástica bidimensional é dada por
0 λ   ∑ s =1 ε1s  λ ∑ s =1 ε 2 s 
t t
Ψ (1) ω•t =   t = t ,

0 1  ∑ s =1 ε 2 s   ∑ s =1 ε 2 s 
verificando-se que as suas duas componentes são geradas pela mesma tendência esto-
cástica, Σts =1ε 2 s .
∇
Para preparar a definição de cointegração, seja { y•t } é um processo I (1) linear.

Este processo não é I (0) porque possui uma tendência estocástica, Ψ (1) ω•t . Esta ten-
dência pode desaparecer, considerando uma adequada combinação linear dos elementos
de y•t .
Pré-multiplicando ambos os membros de (10.50) por aT , onde a é um vector
m × 1 de constantes ai ( i = 1, 2, K , m ), tem-se
aT y•t = aT C•t + aT Ψ (1) ω•t + aTη•t + aT ( y• 0 − η• 0 ) .
Se a satisfaz a condição
(10.51) aT Ψ (1) = 0 ,
onde 0 é o vector nulo 1 × m , a tendência estocástica é eliminada, obtendo-se
(10.52) aT y•t = aT C•t + aTη•t + aT ( y• 0 − η• 0 ) .
Em rigor, não está garantido que o processo {aT y•t } é I (0) [é estacionário em
torno da componente determinística], porque a condição inicial, aT ( y•0 − η• 0 ) , pode es-
tar correlacionada com os valores subsequentes de aTη•t . O processo {aT y•t } será I (0)
se, por exemplo, o valor inicial, y•0 , for tal que aT ( y•0 − η•0 ) = 0 .
Para mostrar que o processo {aT y•t } pode não ser I (0) , considere-se, por exem-
plo, a seguinte situação simples: η•t = ε •t − ε •,t −1 , c•t = 0 (para qualquer t) e y•0 = 0 .
Em primeiro lugar, vai verificar-se que
 2Σ ε (t = 0)

Cov(η•t ,η• 0 ) = − Σε (t = 1)
 O (t > 1).

Cov(η•t ,η• 0 ) = E (η•tη•T0 ) = E{(ε •t − ε •,t −1 )(ε •0 − ε •, −1 )T } ,
tem-se:
− Para t = 0 : E{(ε • 0 − ε •, −1 )(ε • 0 − ε •, −1 )T } = E (ε • 0ε •T0 ) + E (ε •, −1ε •T, −1 ) = 2Σε ;
− Para t = 1 : E{(ε •1 − ε • 0 )(ε • 0 − ε •, −1 )T } = − E (ε •0ε •T0 ) = −Σε ;
− Para t > 1 : E{(ε •t − ε •,t −1 )(ε • 0 − ε •, −1 )T } = O .
A seguir, vai provar-se que

 0 (t = 0)
 T
Var (a y•t ) = 6a Σε a (t = 1)
T
4aT Σ a (t > 1).

 ε
De facto, como aT y•t = aT (ε •t − ε •,t −1 − ε • 0 + ε •, −1 ) , e

Var (aT y•t ) = aT E{(ε •t − ε •,t −1 − ε •0 + ε •, −1 )(ε •t − ε •,t −1 − ε • 0 + ε •, −1 )T } a ,
vem:
− Para t = 0 :
ε • 0 − ε •, −1 − ε • 0 + ε •, −1 = 0 ⇒ Var (aT y•t ) = 0 ;
− Para t = 1 :
E{(ε •1 − 2ε •0 + ε •, −1 )(ε •1 − 2ε • 0 + ε •, −1 )T } = 6Σε ⇒ Var (aT y•t ) = 6aT Σε a ;
− Para t > 1 :
E{(ε •t − ε •,t −1 − ε • 0 + ε •, −1 )(ε •t − ε •,t −1 − ε •0 + ε •, −1 )T } = 4Σε ⇒ Var (aT y•t ) = 4aT Σε a .
Contudo, verifica-se que {a T y•t } é I (0) para t = 2, 3, K .

Definição 10.8 – Cointegração de um processo m-dimensional I (1) linear

Seja { y•t } um processo I (1) linear. O processo { y•t } é cointegrado se e só se existe
um vector m × 1 , a ≠ 0 , tal que {aT y•t } é I (0) , para uma escolha adequada do valor ini-
cial, y•0 . Escreve-se y•t ~ CI . O vector a chama-se vector de cointegração.
Esta definição não implica, necessariamente, que a teoria da cointegração exija

que y•0 seja escolhido da forma indicada. Como se viu, η•t e η• 0 podem estar correla-
cionados, o que implica que {aT y•t } não é I (0) . Contudo, como η•t = D( L)ε •t , e D( L)
é absolutamente somável, η•t e η• 0 tornam-se assintoticamente independentes (quando t
cresce). Neste sentido, o processo {aT y•t } é assintoticamente I (0) (assintoticamente es-
tacionário em torno da componente determinística). Esta estacionaridade assintótica é
tudo o que é preciso para a estimação e inferência com processos I (1) cointegrados.
É possível generalizar a definição de cointegração para qualquer processo I (d )
linear: o processo I (d ) linear, { y•t } , é cointegrado de ordem (d , b) , com d ≥ b e
b > 0 , se e só se existe um vector m × 1 , a ≠ 0 , tal que {aT y•t } é I (d − b) , para uma es-
colha adequada do valor inicial, y•0 . Escreve-se y•t ~ CI(d , b) . O vector a chama-se
vector de cointegração. Verifica-se, assim, que se um processo I (d ) linear dá lugar a
uma combinação linear com ordem de integração menor, então aquelas variáveis dizem-
-se cointegradas. O caso mais interessante é aquele em que d = b = 1 (ver definição
10.8): escreve-se yt • ~ CI(1,1) .
Retomando o caso CI(1,1), vão apresentar-se alguns conceitos relacionados com
o de cointegração:
− A característica da cointegração (rank cointegration) é o número de vectores de
cointegração linearmente independentes. O espaço da cointegração é o espaço gera-
do pelos vectores de cointegração (conjunto de todas as combinações lineares dos
vectores de cointegração linearmente independentes). Como se sabe, o vector m × 1 ,
a ≠ 0 , é vector de cointegração se e só se aT Ψ (1) = 0 . Então, a característica da coin-
tegração é h se e só se
(10.53) r{Ψ (1)} = m − h .
Assim, a característica da cointegração, h, é igual a m − r{Ψ (1)} .
− Suponha-se, sem perda de generalidade, que o primeiro elemento de a é diferente de
0. Diz-se, então, que y1t (o primeiro elemento de y•t ) é cointegrado com y•( t2 ) (os
restantes m − 1 elementos de y•t ), ou que y1t é parte de uma relação de cointegra-
ção. Facilmente se verifica que as m − 1 variáveis que compõem y•( t2 ) não são cointe-
gradas quando não existe um vector b ≠ 0 , (m − 1) × 1 , tal que aT Ψ (1) = 0 , com
aT = [ 0 bT ] T . Assim, y•( t2 ) não é cointegrado se e só se as últimas m − 1 linhas de
Ψ (1) são linearmente independentes.
− As considerações anteriores podem ser generalizadas para o caso de um subvector de
y•t . Assim, seja
 y (1) 
y•t =  •( 2t )  ,
 y•t 
onde os subvectores y•(1t ) e y•(t2) têm, respectivamente, m1 e m2 elementos. Os sub-

vectores respectivos de a são a•1 (com m1 elementos) e a• 2 (com m2 elementos).
Supondo que a•1 ≠ 0 , diz-se que y•(1t ) é cointegrado com y•(t2) . Então, pode concluir-
-se que o vector y•(t2) não é cointegrado quando não existe um vector b ≠ 0 , com m2
elementos, tal que aT Ψ (1) = 0 , com aT = [ 0 bT ] T . Logo, y•(t2) não é cointegrado se
e só se as últimas m2 linhas de Ψ (1) são linearmente independentes.
− A componente determinística não é eliminada de (10.52), a menos que se verifique
(10.54) aT C•t = 0 .
Neste caso,
(10.55) aT y•t = aTη•t + aT ( y• 0 − η• 0 ) .
é estacionário [e não apenas I (0) ], para uma escolha adequada de y•0 .

Como em muitas aplicações há um vector de cointegração que elimina a tendência
estocástica e a componente determinística, pode, em geral, supor-se que se verificam
as condições (10.51) e (10.54).
A condição (10.54) implica que a componente determinística é combinação linear
das colunas de Ψ (1) , pelo que
(10.56) r ( [ C•t Ψ (1)] ) = m − h .
Deste modo, pode supor-se, em geral, que se verifica (10.53) e (10.56) quando a ca-
racterística de cointegração é igual a h.
Por exemplo, quando c•t = α , tem-se C•t = α t , e a condição (10.54) reduz-se a
aT α = 0 . Neste caso, α é combinação linear das colunas de Ψ (1) , pelo que a ca-
racterística da matriz m × (m + 1) , [ α Ψ (1) ], é igual a m − h .
Quando um vector de cointegração elimina a tendência estocástica, mas não elimina
a componente determinística, diz-se que se tem cointegração estocástica.
Exemplo 10.8 – Retome-se o exemplo 10.5. Como

0 λ 
Ψ (1) =  ,
0 1 
verifica-se que r{Ψ (1)} = 1 , pelo que a característica da cointegração é h = 1 . Para deter-
minar os vectores de cointegração utiliza-se (10.51), ou seja,
0 λ 
[ a1 a2 ]   = [ 0 0 ].
0 1 
Como a1 λ + a2 = 0 , resulta que
 a  1
a =  1  = a1   ,
− a1 λ  − λ 
qualquer que seja a1 ≠ 0 .
Tem-se
α 0 λ 
[α Ψ (1) ] =  1 .
α 2 0 1 
A hipótese de que o vector de cointegração também elimina a tendência determi-
nística é dada por a1α1 − a1 λ α 2 = 0 ou α1 = λ α 2 , o implica que a característica da ma-
triz [ α Ψ (1) ] é igual a 1.
∇
A seguir, analisam-se algumas implicações da definição de cointegração (de-

finição 10.8):
− Supondo que a característica da cointegração é h, seja A a matriz m × h que agrupa
os h vectores de cointegração linearmente independentes. Se B é uma matriz quadra-
da de ordem h, não singular, conclui-se que as h colunas de AB são, ainda, vectores
de cointegração linearmente independentes. Basta notar que multiplicar A por uma
matriz não singular, B, o produto tem a mesma característica do que A.
− Num processo I (1) m-dimensional, a característica da cointegração é sempre inferior
a m. Se fosse igual a m, ter-se-ía r{Ψ (1)} = 0 , e Ψ (1) seria a matriz nula, o que con-
tradizia a condição c) da definição 10.6.
− A matriz das covariâncias de longo prazo de ∆y•t é dada por Ψ (1) Σε Ψ (1)T [ver
(10.45)], que é definida positiva se e só se Ψ (1) é não singular. Então, atendendo a
(10.53), y•t não é cointegrado se e só se a matriz das covariâncias de longo prazo de
∆y•t é definida positiva. Como a variância de longo prazo de cada elemento de ∆y•t
é positiva se a matriz das covariâncias de longo prazo de ∆y•t é definida positiva, se-
gue-se que cada elemento de y•t é, individualmente, I (1) , se y•t não é cointegrado.
O mesmo acontece com qualquer subvector de y•t . Por exemplo, seja y•( t2 ) o subvec-
tor formado pelos últimos m − 1 elementos de y•t . A matriz das covariâncias de lon-
go prazo de y•( t2 ) é dada por Ψ2 (1) Σε Ψ2 (1)T , onde Ψ2 (1) é formado pelas últimas
m − 1 linhas de Ψ (1) . Tal matriz é definida positiva se e só se as linhas de Ψ2 (1) são
linearmente independentes [ y•( t2 ) não é cointegrado]. Em particular, cada elemento de
y•( t2 ) é, individualmente, I (1) se y•( t2 ) não é cointegrado.
− Se y•t é I (1) , e se o seu primeiro elemento, y1t , é I (0) , então a característica da co-
integração é, pelo menos, igual a 1. Com efeito, basta notar que
 y1t 
y 
[ 1 0 L 0 ]  2t  = y1t ~ I (0)
 M 
 
 ymt 
− Suponha-se que y1t é cointegrado com y•( t2 ) . Vai provar-se que: se h = 1 , y•( t2 ) não é
cointegrado; se h > 1 , y•( t2 ) é cointegrado. Com efeito, a cointegração de y1t com y•( t2 )
implica que existe um vector de cointegração, a, cujo primeiro elemento não é 0. Se
h = 1 , então não existe vector (m − 1) × 1 , b ≠ 0 , tal que a∗ = [ 0 bT ] T é um vector
de cointegração, porque a e a∗ são linearmente independentes. Se h > 1 , pode
encontrar-se um vector a∗ com a forma referida.
− Se ∆y•t é estacionário (sem deriva) [ y•t é diferença-estacionário], pode pensar-se

que se pode modelar o seu comportamento por meio de um processo VAR ( p ) esta-
cionário, Φ( L)∆y•t = ε •t , onde Φ( L) é um polinómio em L, de grau p, com coefi-
cientes matriciais (ver secção 9.4), tal que as raízes de | Φ( z ) |= 0 estão no exterior do
círculo unitário. Nestas condições, y•t não pode ser cointegrado. Com efeito, se
Φ( L) satisfaz a condição de estacionaridade, vem
Ψ ( L) = Φ ( L) −1 = I m + Ψ1L + Ψ2 L2 + L ,
e a sucessão de matrizes {Ψs } é somável de 1.ª ordem. Então, ∆y•t = Φ ( L)−1ε •t é um

processo VMA(∞) a satisfazer as condições a) e b) da definição 10.6. Além disso,
| Ψ (1) | = | Φ (1)−1 | = | Φ(1) |−1 ≠ 0 .
Então, Ψ (1) é não singular, e a matriz das covariâncias de longo prazo de ∆y•t é de-
finida positiva.
No exemplo 10.7 apresentou-se um processo I (1) bidimensional em que as duas

componentes da tendência estocástica são geradas pela mesma tendência estocástica.
Este resultado pode ser generalizado para qualquer processo I (1) m-dimensional linear
cointegrado. Retome-se a decomposição de Beveridge-Nelson (10.50),
y•t = C•t + Ψ (1) ω•t + η•t + ( y• 0 − η• 0 ) ,
onde ω•t = ε •1 + ε •2 + L + ε •t .
Considere-se o seguinte resultado algébrico:
− Se C é uma matriz quadrada de ordem m, com característica m − h , então existe uma
matriz G, quadrada de ordem m e não singular, e uma matriz F, de tipo m × (m − h)
com r ( F ) = m − h , tais que C G = [ F O ], onde O é a matriz nula m × h .
Vai provar-se que a tendência estocástica, Ψ (1) ω•t , pode escrever-se na forma
F v•t , onde F é uma matriz m × (m − h) tal que r ( F ) = m − h , e v•t é um passeio aleató-
rio ( m − h )-dimensional com Cov(∆v•t ) definida positiva.
Com efeito, seja Ψ (1) ω•t = Ψ (1) GG −1ω•t e v•t o subvector de G −1ω•t correspon-
dente aos seus primeiros m − h elementos. Então,
v 
Ψ (1) ω•t = Ψ (1) G  •∗t  ,
v•t 
onde v•∗t abrange os últimos h elementos de G −1ω•t . Invocando o resultado algébrico re-
ferido, e fazendo C = Ψ (1) , tem-se
v 
Ψ (1) ω•t = [ F O ]  •∗t  = F v•t .
v•t 
Portanto, tem-se
(10.57) y•t = C•t + F v•t + η•t + ( y•0 − η•0 ) ,
o que mostra que { y•t } , processo I (1) , onde a característica da cointegração é igual a h,
tem m − h tendências estocásticas comuns. Trata-se da representação com tendências
comuns de um processo I (1) [Stock e Watson (1988)].
10.6 - Representações alternativas de sistemas cointegrados
Além da representação com tendências comuns, existem outras representações

úteis dos processos vectoriais I (1) cointegrados: a representação triangular de Phillips
(1991); a representação VAR; a representação VMCE [mecanismo de correcção do erro
vectorial; Davidson, Hendry, Sbra e Yeo (1978)].
Representação triangular de Phillips
Esta representação é adequada para estimar os vectores de cointegração. Embora

seja válida para qualquer h (característica da cointegração), começa-se por supor que
h = 1 . Seja a um vector de cointegração, e suponha-se, sem perda de generalidade, que o
primeiro elemento de a é diferente de 0. Fazendo
 y1t 
y•t =  ( 2)  ,
 y•t 
onde y•( t2 ) é o subvector de y•t com m − 1 elementos, conclui-se que y1t é cointegrado
com y•( t2 ) . Quando se multiplica um vector de cointegração por um escalar obtém-se ou-
tro vector de cointegração. Normalizando a de modo que o primeiro elemento seja igual
a 1, vem
 a1 
a   1 
a =  2 =  ,
 M  − λ 
am 
onde λ é um vector (m − 1) × 1 .
A partir de (10.52), tem-se
y1t − λT y•( t2 ) = [1 − λT ] C•t + [1 − λT ]η•t + [1 − λT ]( y• 0 − η• 0 ) ,
ou
(10.58) y1t = β 0 + β T z•t + λT y•(t2) + ut ,
onde:
− β 0 = [1 − λT ]( y•0 − η•0 ) = ( y10 − η10 ) − λT ( y•( 02 ) − η•(02) ) [termo independente];
− β T z•t = [1 − λT ] C•t [componente determinística];
− ut = [1 − λT ]η•t = η1t − λTη•(t2) [variável residual; ut é estacionário, porque η•t é esta-

cionário];
− Nestas expressões distingue-se o primeiro elemento dos vectores y•0 , η• 0 e η•t , dos
respectivos m − 1 elementos;
− z•t é o vector dos regressores correspondentes à componente determinística;
− β é o vector dos respectivos coeficientes de regressão;
− Os m − 1 coeficientes de regressão das variáveis incluídas no vector y•( t2 ) constituem
o vector λ .
A equação (10.58) chama-se regressão de cointegração (ou relação de cointe-

gração). A relação entre y1t e a componente sistemática de (10.58), β 0 + β T z•t + λT y•(t2 ) ,
pode ser interpretada como a relação de equilíbrio de longo prazo entre y1t e y•( t2 ) (es-
ta relação corresponde a fazer ut = 0 ). Pode escrever-se
y1et = β 0 + β T z•t + λT y•(t2) ,
e notar que a variável residual ut é o erro de equilíbrio.

Pode analisar-se com mais pormenor a componente determinística. Por exemplo,
se c•t = α , e, portanto, C•t = α t , tem-se
β T z•t = [1 − λT ]α t = (α1 − λTα • 2 ) t = β1 t ,
onde β1 = α1 − λTα • 2 e zt = t . Neste caso, a regressão de cointegração é a seguinte:
y1t = β 0 + β1 t + λT y•(t2 ) + ut .
Se c•t = α + δ t , vem
 δ δ
C•t =  α +  t + t 2 ,
 2 2
e, portanto,
 δ δ 
β T z•t = [1 − λT ]  α +  t + t 2 
2 2  
 δ  δ   δ δ 
= α1 + 1 − λT  α • 2 + • 2  t +  1 − λT • 2  t 2 = β1 t + β 2 t 2 ,
 2  2   2 2 
onde
δ1  δ  δ δ
β1 = α1 + − λT  α • 2 + • 2  , β 2 = 1 − λT • 2 , z1t = t e z2t = t 2 .
2  2  2 2
Neste caso, a regressão de cointegração é dada por

yt1 = β 0 + β1 t + β 2 t 2 + λT y•( t2 ) + ut .
Se o vector de cointegração elimina a tendência estocástica e a componente de-

terminística, (10.58) reduz-se a
(10.59) y1t = β 0 + λT y•( t2) + ut .
A representação triangular de Phillips do processo { y•t } cointegrado é o sis-

tema de m equações formado pela equação (10.58) e pelas últimas m − 1 equações de
(10.46) [considerando (10.47)],
(10.60) ∆y•(t2) = c•(t2 ) + w•(t2) = c•( t2 ) + Ψ2 ( L)ε •t ,
Ψ2 ( L) é formada pelas últimas m − 1 linhas de Ψ (L) . Por exemplo, quando c•t = α ,

vem
∆y•(t2) = α • 2 + w•(t2) = α • 2 + Ψ2 ( L)ε •t .
Como h = 1 , o vector y•( t2 ) não é cointegrado. Em particular, cada elemento de

y•( t2 ) é, individualmente, I (1) .
Quando h > 1 , é possível seleccionar h vectores de cointegração linearmente in-
dependentes, a•1 , a• 2 ,..., a• h , tais que
 Ih 
A = [ a•1 a• 2 L a• h ] =   ,
− Λ 
onde Λ é uma matriz (m − h) × h . A partição respectiva de y•t é dada por
 y•(1t ) 
y•t =  ( 2)  ,
 y•t 
onde y•(1t ) é um vector h × 1 , e y•( t2 ) , (m − h) × 1 .
Como AT Ψ (1) = O , pré-multiplicando ambos os membros de (10.50) por AT ,
obtém-se um sistema de h regressões de cointegração,
y•(1t ) = AT ( y• 0 − η• 0 ) + AT C•t + ΛT y•(t2) + ATη•t ,
ou
(10.61) y•(1t ) = β • 0 + ΒT z•t + ΛT y•(t2) + u•t ,
onde:
− β •0 = AT ( y• 0 − η• 0 ) [vector dos termos independentes];
− ΒT z•t = AT C•t [vector das componentes determinísticas];
− u•t = ATη•t [vector das variáveis residuais; u•t é estacionário, porque η•t é estacioná-
rio].
Quando a matriz A dos vectores de cointegração elimina também a componente

determinística, obtém-se
(10.62) y•(1t ) = β • 0 + ΛT y•(t2) + u•t .
Para obter a representação triangular do processo { y•t } cointegrado, junta-se

ao sistema de h equações (10.61) [ou (10.62)] as últimas m − h equações de (10.46)
[considerando (10.47)],
(10.63) ∆y•(t2) = c•(t2 ) + w•(t2) = c•( t2 ) + Ψ2 ( L)ε •t ,
onde Ψ2 ( L) é formada pelas últimas m − h linhas de Ψ (L) .

Deve notar-se que o vector das variáveis residuais da representação triangular é
dado por
 u•t  Ψ1∗ ( L)
( )  ε •t ,
∗
 ( 2)  = Ψ L ε •t = 
w
 •t   Ψ (
 2 L )
uma vez que

u•t = ATη•t = AT D( L) ε •t = Ψ1∗ ( L) ε •t e w•(t2) = Ψ2 ( L)ε •t ,
fazendo AT D( L) = [ I h − ΛT ] D( L) = Ψ1∗ ( L) .
Facilmente se prova que y•( t2 ) não é cointegrado. Com efeito, basta verificar que
a matriz Ψ2 (1) , de tipo (m − h) × m , tem característica igual a m − h (as linhas são li-
nearmente independentes). Suponha-se que as linhas são linearmente dependentes, isto
é, existe um vector b ≠ 0 , com m − h componentes, tal que bT Ψ2 (1) = 0 . A característi-
ca da cointegração seria pelo menos h + 1 , uma vez que o vector m-dimensional
0
a= 
b 
seria um vector de cointegração. De facto, ter-se-ía aT y•t = bT y•( t2) .
Exemplo 10.9 – No processo bivariado considerado nos exemplos 10.6, 10.7 e 10.8 a
característica da cointegração é igual a 1. O vector de cointegração, cuja primeira com-
ponente é igual a 1, é dado por [ 1 − λ ] T .
Tem-se
ε1t − λ ε 2t 
ut = [ 1 − λ ]η•t = [ 1 − λ ]   = ε1t − λ ε 2t ,
 0 
 y10 − (ε10 − λ ε 20 )
β 0 = [ 1 − λ ]( y•0 − η•0 ) = [ 1 − λ ]   = ( y10 − λ y20 ) − (ε10 − λ ε 20 ) ,
 y20 − 0 
e
α 
β T z•t = [ 1 − λ ]  1  t = (α1 − λα 2 ) t = β1 t ,
α 2 
onde β1 = α1 − λα 2 .
A representação triangular é a seguinte:
 y1t = β 0 + β1 t + λ y2t + (ε1t − λ ε 2t )

∆y2t = α 2 + ε 2t .
Como
 ut  ε1t − λ ε 2t  1 − λ   ε1t 
w  =  ε  = 0 1  ε  ,
 2t   2t     2t 
verifica-se que, mesmo que as componentes do vector ε •t não estejam correlacionados,

ut = ε1t − λ ε 2t está correlacionado com w2t = ε 2t .
Facilmente se obtém a representação VMA (ver exemplo 10.6) a partir da repre-
sentação triangular. Com efeito, calculando as primeiras diferenças da primeira equação
desta representação (a regressão de cointegração), tem-se
∆y1t = β1 + λ ∆y2t + ε1t − λ ε 2t − ε1,t −1 + λ ε 2,t −1
= β1 + λ (∆y2t −ε 2t ) + ε1t − ε1,t −1 + λ ε 2,t −1
= β1 + λα 2 + ε1t − ε1,t −1 + λ ε 2,t −1
= α1 + ε1t − ε1,t −1 + λ ε 2,t −1.
Daqui resulta
∆y1t = α1 + ε1t − ε1,t −1 + λ ε 2,t −1

 ∆y 2 t = α 2 + ε 2 t ,
obtendo-se a representação VMA do processo.
∇
VAR e cointegração
Quando se considerou o caso estacionário, concluiu-se que, em muitas situa-

ções, é conveniente modelar um processo vectorial por meio de um VAR finito (ver sec-
ção 9.4 do capítulo 9). Sabe-se, também, que nenhum processo vectorial I (1) cointegra-
do pode ser representado por um VAR finito nas primeiras diferenças. Contudo, al-
guns processos cointegrados podem admitir uma representação VAR finita em níveis.
Com efeito, considere-se que o processo m-dimensional { y•t } é I (1) . Utilizando a de-
composição de Beveridge-Nelson (10.50), tem-se
(10.64) y•t = d •t + v•t ,
onde
d •t = ( y•0 − η• 0 ) + C•t e v•t = Ψ (1) ω•t + η•t ,
onde se separa a componente estocástica da componente determinística (e da condição

inicial). Obviamente, o processo {v•t } é I (1) .
Suponha-se que o processo {v•t } se pode representar por um VAR ( p ) , ou seja,
Φ( L)v•t = ε •t , onde Φ( L) = I m − Φ1L − Φ 2 L2 − L − Φ p Lp e {ε •t } é um ruído branco. Fa-
zendo Φ( L) y•t = Φ ( L)d•t + ε •t , pode eliminar-se v•t de (10.64), obtendo-se
(10.65) y•t = d•∗t + Φ1 y•,t −1 + Φ 2 y•,t − 2 + L + Φ p y•,t − p + ε •t ,
onde d •∗t = Φ( L)d •t .

Por exemplo, se c•t = α , tem-se d •t = ( y• 0 − η• 0 ) + α t , e
d •∗t = Φ ( L){( y• 0 − η• 0 ) + α t} = Φ(1)( y•0 − η•0 ) + ( I m − Φ1L − Φ 2 L2 − L − Φ p Lp )α t
= Φ(1)( y•0 − η•0 ) + (Φ1 + 2Φ 2 + L + pΦ p )α + Φ (1)α t ,
e (10.65) assume a forma

y•t = θ• 0 + θ•1 t + Φ1 y•,t −1 + Φ 2 y•,t − 2 + L + Φ p y•,t − p + ε •t ,
onde θ• 0 = Φ(1)( y• 0 − η• 0 ) + (Φ1 + 2Φ 2 + L + pΦ p )α e θ•1 = Φ(1)α .

Em que condições se pode garantir que o processo VAR ( p ) em níveis, dado por
(10.65), é um processo I (1) cointegrado? Para isso, vai obter-se a representação VMA,
∆v•t = Ψ ( L)ε •t (em primeiras diferenças), a partir da representação VAR, Φ( L)v•t = ε •t
(em níveis), e verificar se o filtro Ψ ( L) satisfaz a definição de processo cointegrado.
Com efeito, pré-multiplicando ambos os membros da igualdade Φ( L)v•t = ε •t por 1 − L ,
vem (1 − L)Φ( L)v•t = (1 − L)ε •t . Notando que 1 − L = ∆ e que (1 − L)Φ ( L) = Φ ( L)(1 − L) ,
obtém-se Φ( L)∆v•t = (1 − L)ε •t . Como Φ 0 = I m , existe Φ( L)−1 , e, portanto,
∆v•t = Φ ( L) −1 (1 − L)ε •t = Ψ ( L)ε •t ,
onde Ψ ( L) = Φ ( L) −1 (1 − L) . Que condições deve verificar Φ( L) para que Ψ ( L) seja

somável de 1.ª ordem e para que a característica de Ψ (1) seja m − h ?
É fácil obter uma condição necessária. Considerando Φ( L)Ψ ( L) = (1 − L) I m , e
fazendo L = 1 , obtém-se Φ(1)Ψ (1) = O . Como a característica de Ψ (1) é m − h quando
a característica da cointegração de v•t é h, a característica de Φ(1) é pelo menos h.
Para estabelecer uma condição necessária e suficiente, sejam U ( L) e V ( L)
dois polinómios matriciais em L com todas as raízes no exterior do círculo unitário, e
seja
1 − L L 0
0 L 0
 
 M M M M
(1 − L) I m − h O  0 L 1 − L 0 L 0
M ( L) =   .
=
 O Ih  0 L 0 1 L 0
 
 M M M M
 
 0 L 0 0 L 1
Pode demonstrar-se que: uma condição necessária e suficiente para que {v•t } , a
verificar Φ( L)v•t = ε •t , seja um processo I (1) cointegrado com característica h é que
Φ( L) possa ser factorizado da seguinte maneira: Φ( L) = U ( L) M ( L)V ( L) .
Deste modo, todas as raízes de | Φ( z ) | = 0 encontram-se na fronteira ou no exte-
rior do círculo unitário, e aquelas que estão na fronteira são raízes unitárias ( z = 1 ). Não
é suficiente que Φ( L) tenha m − h raízes unitárias (e as restantes no exterior do círculo
unitário) [ver exemplo 10.10; neste exemplo, Φ( z ) tem duas raízes unitárias e uma raiz
no exterior do círculo unitário, mas o processo não é I (1) ]; as m − h raízes unitárias
têm que obedecer à forma como é feita a factorização, ou seja, Φ( z ) = U ( z ) M ( z )V ( z ) .
Fazendo z = 1 nesta factorização, obtém-se Φ(1) = U (1) M (1)V (1) . Como as raí-
zes de U ( z ) e de V ( z ) se encontram no exterior do círculo unitário, U (1) e V (1) são
não singulares, e a característica de Φ(1) é igual à característica de M (1) (ou seja, h).
Assim,
r{Φ(1)} = h .
Nestas condições, sabe-se da álgebra das matrizes que existem duas matrizes de
tipo m × h , A e G, a verificar r ( A) = r (G ) = h , e tais que
Φ(1) = GAT .
A escolha das matrizes A e G não é única; se F é uma matriz quadrada de ordem
h, não singular, então G ( F T )−1 e AF também verificam a igualdade anterior.
Substituindo Φ(1) por GAT em Φ(1)Ψ (1) = O , obtém-se GAT Ψ (1) = O . Como
r (G ) = h , vem AT Ψ (1) = O . Então, as h colunas de A são vectores de cointegração.
Como se viu, Ψ ( L) = Φ ( L) −1 (1 − L) . Contudo, é possível obter Ψ ( L) exploran-
do a factorização anterior de Φ( L) . De facto, como U ( L) M ( L)V ( L)v•t = ε •t , e notando
que U ( L)−1 é absolutamente somável, vem M ( L)V ( L)v•t = U ( L) −1ε •t . Fazendo
 I m−h O 
M ( L) =  ,
 O (1 − L ) I h
tem-se M ( L) M ( L)V ( L)v•t = M ( L)U ( L)−1ε •t . Notando que M ( L) M ( L) = (1 − L) I m e

que (1 − L)V ( L) = V ( L)(1 − L) , resulta V ( L)∆v•t = M ( L)U ( L) −1ε •t . Como V ( L) −1 é ab-
solutamente somável, obtém-se ∆v•t = Ψ ( L)ε •t , onde Ψ ( L) = V ( L) −1 M ( L)U ( L)−1 .
Note-se, ainda, que:
− A condição de factorização Φ( L) = U ( L) M ( L)V ( L) garante que o filtro Ψ ( L) é ab-
solutamente somável, e que o {∆v•t } é I (0) . Assim, como Φ( L)∆v•t = (1 − L)ε •t , o
processo {∆v•t } pode, também, representar-se por um VAR ( p ) ;
− A definição de v•t , dada em (10.64), permite concluir que
∆v•t = Ψ (1)ε •t + η•t − η•,t −1 = {Ψ (1) + D( L)(1 − L)}ε •t ,
e que Ψ ( L) = Ψ (1) + D( L)(1 − L) .
Exemplo 10.10 – Considere-se o seguinte processo VAR(2) trivariado:

 y1t = 2 y1,t −1 − y1,t − 2 + ε1t

 y2t = ϕ y2,t −1 + ε 2t

 y3t = ε 3t .
Notando que a primeira equação é equivalente a ∆2 y1t = ε t1 , facilmente se verifi-
ca que o processo é I (2) . Com efeito, basta obter a representação VMA de ∆2 y•t , onde
 y1t 
y•t =  y2t  .
 y3t 
Assim,
∆2 y1t = ε1t
 2 −1 2
∆ y2t = (1 − ϕ L) ∆ ε 2t
∆2 y = ∆2ε ,
 3t 3t
ou
∆2 y1t = ε1t
 2 2
∆ y2t = ε 2t + (ϕ − 2)ε 2,t −1 + (ϕ − 2ϕ + 1)ε 2,t − 2 + L
 2
∆ y3t = ε 3t − 2ε 3,t −1 + ε 3,t − 2 .
Então,
 ∆2 y1t 
 
∆2 y•t = ∆2 y2t  = ε •t + Ψ1ε •,t −1 + Ψ2ε •,t − 2 + L ,
 2 
 ∆ y3t 
onde
ε1t  0 0 0 0 0 0
     
ε •t = ε 2t  , Ψ1 = 0 ϕ − 2 0  , Ψ2 = 0 ϕ 2 − 2ϕ + 1 0 ,...
ε  0 0 − 2 0 0 1
 3t   
Como
 y1t − 2 y1,t −1 + y1,t − 2 = ε1t

 y2t − ϕ y2,t −1 = ε 2t
y = ε ,
 3t 3t
tem-se
1 0 0 2 0 0 − 1 0 0
     
Φ( L) = 0 1 0 − 0 ϕ 0 L −  0 0 0 L2 .
0 0 1   0 0 0   0 0 0
     
Considerando
1 − 2 z + z 2 0 0
 
Φ( z ) =  0 1 − ϕ z 0 ,
 
 0 0 1
podem obter-se as raízes da equação | Φ( z ) | = 0 . Como

| Φ( z ) | = (1 − 2 z + z 2 )(1 − ϕ z ) = 0 ,
vem z1 = z2 = 1 (duas raízes unitárias) e z3 = 1 ϕ (uma raiz no exterior do círculo uni-
tário).
∇
O modelo com mecanismo de correcção do erro vectorial (VMCE)
O procedimento utilizado no caso unidimensional para obter a auto-regressão

aumentada (10.17) pode ser aplicado ao processo VAR. Com efeito, seja Φ( L)v•t = ε •t e
a decomposição Φ(1) L + H ( L)(1 − L) , onde Η ( L) = I m − Η1L − Η 2 L2 − L − Η p −1Lp −1 e

Η s = −(Φ s +1 + Φ s + 2 + L + Φ p ) , para s = 1, 2, K , p − 1 . Facilmente se obtém
(10.66) v•t = Θv•,t −1 + Η1∆v•,t −1 + Η 2∆v•,t − 2 + L + Η p −1∆v•,t − p +1 + ε •t ,
onde Θ = Φ1 + Φ 2 + L + Φ p .
Como Θ − I m = −Φ (1) , e subtraindo v•,t −1 a ambos os membros de (10.66), vem
∆v•t = −Φ (1)v•,t −1 + Η1∆v•,t −1 + Η 2∆v•,t − 2 + L + Η p −1∆v•,t − p +1 + ε •t
(10.67)
= −GAT v•,t −1 + Η1∆v•,t −1 + Η 2 ∆v•,t − 2 + L + Η p −1∆v•,t − p +1 + ε •t .
Como y•t = d•t + v•t , e atendendo a (10.67), vem

∆y•t − ∆d •t = −GAT ( y•,t −1 − d•,t −1 ) + Η1 (∆y•,t −1 − ∆d •,t −1 ) + Η 2 (∆y•,t − 2 − ∆d •,t − 2 )
+ L + Η p −1 (∆y•,t − p +1 − ∆d •,t − p +1 ) + ε •t ,
ou
∆y•t = d•∗t − GAT y•,t −1 + Η1∆y•,t −1 + Η 2 ∆y•,t − 2 + L + Η p −1∆y•,t − p +1 + ε •t ,
onde
d •∗t = GAT d•,t −1 + ∆d •t − Η1∆d •,t −1 − Η 2∆d •,t − 2 − L − Η p −1∆d •,t − p +1
= Φ (1)d•,t −1 + Η ( L)∆d •t = Φ ( L)d•t .
Como
 y•(1,t)−1 
AT y•,t −1 = [ I h − ΛT ]  ( 2)  = y•(1,t)−1 − ΛT y•( ,2t)−1 ,
 y•,t −1 
obtém-se
∆y•t = d •∗t − G{ y•(1,t)−1 − ΛT y•(,2t)−1}
(10.68)
+ Η1∆y•,t −1 + Η 2 ∆y•,t − 2 + L + Η p −1∆y•,t − p +1 + ε •t ,
onde AT y•,t −1 = y•(1,t)−1 − ΛT y•( ,2t)−1 é estacionário em torno da componente determinística

(com uma escolha adequada do valor inicial y• 0 ), uma vez que as colunas da matriz A
são vectores de cointegração.
A representação vectorial (10.68) constitui o modelo com mecanismo de cor-
recção do erro (VMCE). É a presença do termo de correcção do erro,
− G{ y•(1,t)−1 − ΛT y•(,2t)−1} ,
que garante a cointegração do processo (o processo VAR nas primeiras diferenças não é
cointegrado). O modelo VMCE envolve h relações de cointegração, pois inclui h combi-
nações lineares das variáveis em níveis.
Quando c•t = α , (10.68) reduz-se a
∆y•t = θ• 0 + θ•1 t − G{ y•(1,t)−1 − ΛT y•(,2t)−1}
(10.69)
+ Η1∆y•,t −1 + Η 2 ∆y•,t − 2 + L + Η p −1∆y•,t − p +1 + ε •t ,
onde θ• 0 = Φ(1)( y• 0 − η• 0 ) + (Φ1 + 2Φ 2 + L + pΦ p )α e θ•1 = Φ(1)α . Se não existem ten-

dências temporais lineares determinísticas nas relações de cointegração ( AT α = 0 ), en-
tão θ•1 = Φ (1)α = GAT α = 0 . Neste caso, as representações VAR e VMCE não envol-
vem tendências temporais determinísticas, apesar da sua possível existência nos elemen-
tos de y•t .
A representação (10.68) pode apresentar-se de outro modo. Com efeito, atenden-
do à definição de d •t [ver (10.64)], tem-se
d•∗t = GAT d•,t −1 + Η ( L)c•t ,
onde
AT d•,t −1 = AT ( y• 0 − η• 0 ) + AT C•,t −1 = β • 0 + ΒT z•,t −1 .
Então,
∆y•t = Η ( L)c•t − G{ y•(1,t)−1 − ( β • 0 + ΒT z•,t −1 + ΛT y•(,2t)−1 )}
(10.70)
+ Η1∆y•,t −1 + Η 2 ∆y•,t − 2 + L + Η p −1∆y•,t − p +1 + ε •t .
Nesta representação, o termo de correcção do erro é dado por

− G{ y•(1,t)−1 − ( β •0 + ΒT z•,t −1 + ΛT y•( ,2t)−1 )} .
Quando c•t = α , (10.70) reduz-se a
∆y•t = Η (1)α − G  y•(1,t)−1 − {β• 0 + β•1 (t − 1) + ΛT y•( ,2t)−1}

(10.71)  
+ Η1∆y•,t −1 + Η 2 ∆y•,t − 2 + L + Η p −1∆y•,t − p +1 + ε •t .
onde
α •1 
ΒT z•,t −1 = AT C•,t −1 = [ I h − ΛT ]   (t − 1) = (α •1 − ΛTα • 2 )(t − 1) = β •1 (t − 1) ,
α • 2 
com β•1 = α •1 − ΛT α • 2 .
As considerações feitas nesta subsecção e na subsecção precedente permitem
concluir que o mesmo processo I (0) pode ter representações VAR, VMA e VMCE. Es-
te resultado é conhecido pela designação de teorema da representação de Granger.
Exemplo 10.11 – Retome-se o exemplo 10.9, onde se apresentou a representação trian-

gular do processo do exemplo 10.6. Agora, vão deduzir-se as representações VAR e
VMCE a partir da mesma representação VMA (ver exemplos 10.5 e 10.6). Com o filtro
Ψ (L) obtido no exemplo 10.6 é fácil verificar que Ψ ( L) = Φ ( L) −1 (1 − L) , para
1 0  0 λ  1 ´−λ L 
Φ( L) = I 2 − Φ1L =   −  L= .
0 1  0 1  0 1 − L 
Com efeito, basta fazer o produto Φ( L)Ψ ( L) , e obter (1 − L) I 2 .
A representação VAR é dada por
y•t = θ • 0 + θ •1 t + Φ1 y•,t −1 + ε •t ,
ou
 y1t  θ10  θ11  0 λ   y1,t −1   ε1t 
 y  = θ  + θ  t + 0 1   y  + ε  ,
 2t   20   21     2,t −1   2t 
onde
θ 
θ•0 =  10  = Φ(1)( y• 0 − η• 0 ) + Φ1α
θ 20 
1 − λ   y10 − η10  0 λ  α1  ( y10 − η10 ) − ( y20 − η20 )λ + α 2λ 
=  +  = ,
0 0   y20 − η 20  0 1  α 2   α2 
e
θ  1 − λ  α  α − α λ 
θ•1 =  11  = Φ (1)α =    1 =  1 2
.
θ
 21   0 0 α
  2   0 

 y1t = {( y10 − η10 ) − ( y20 − η20 )λ + α 2λ} + (α1 − α 2λ ) t + λ y2,t −1 + ε1t

 y2t = α 2 + y2,t −1 + ε 2t .
Para obter a representação VMCE (10.69), seja, por exemplo, Φ(1) = GAT , com
1   1 
G =   e A=  .
0 − λ 
Neste caso, tem-se

∆y•t = θ•0 + θ•1 t − G ( y1,t −1 − λ y2,t −1 ) + ε •t ,
ou
 ∆y1t  θ10  θ11  1 ε1t 
= +
∆y  θ  θ  0 t − ( y1, t −1 − λ y 2 , t −1 ) + ε  .
 2t   20   21     2t 
∆y1t = {( y10 − η10 ) − ( y20 − η20 )λ + α 2λ} + (α1 − α 2λ ) t − ( y1,t −1 − λ y2,t −1 ) + ε1t

∆y2t = α 2 + ε 2t .
A tendência determinística desaparece se α1 = α 2 λ , isto é, se o vector de cointe-
gração também elimina aquela tendência.
Notando que Η (1) = I m , a representação VMCE (10.71) é dada por
∆y•t = α − G  y1,t −1 − {β 0 + β1 (t − 1) + λ y2,t −1} + ε •t ,

 
ou
 ∆y  α  1 ε 
 1t  =  1  −    y1,t −1 − {β 0 + β1 (t − 1) + λ y2,t −1} +  1t  .
∆y2t  α 2  0   ε 2t 
 
Logo,
  
∆y1t = α1 −  y1,t −1 − {β 0 + β1 (t − 1) + λ y2,t −1} + ε1t

∆y2t = α 2 + ε 2t .

Quando se escolhe
λ  1 λ 
G =  e A= ,
0  − 1
tem-se, respectivamente,
∆y1t = {( y10 − η10 ) − ( y20 − η 20 )λ + α 2λ} + (α1 − α 2λ ) t − λ{(1 λ ) y1,t −1 − y2,t −1} + ε1t

∆y2t = α 2 + ε 2t .
e
  
∆y1t = α1 − λ (1 λ ) y1,t −1 − {β 0 + β1 (t − 1) + y2,t −1} + ε1t

∆y2t = α 2 + ε 2t .

∇
Para ilustrar a importância do teorema da representação de Granger, consi-

dere-se que o vector y•t bidimensional, formado pelas variáveis y1t e y2t , é I (1) e co-
integrado. Suponha-se que a relação de cointegração é y1t = η0 + η1 t + λ y2t + ut , e, por-
tanto, o erro de equilíbrio é dado por ut = y1t − λ y2t − (η0 + η1t ) ~ I (0) .
Admita-se que o modelo de curto prazo que relaciona as duas variáveis é, por
exemplo, um modelo ARMAX(2,2,0), estável em torno de uma tendência linear,
y1t = ϕ0 + δ t + ϕ1 y1,t −1 + ϕ2 y1,t − 2 + β 0 y2t + β1 y2,t −1 + β 2 y2,t − 2 + ε t ,
onde {ε t } é um ruído branco independente, e o polinómio ϕ ( L) = 1 − ϕ1L − ϕ2 L2 é inver-

tível (em particular, tem-se ϕ1 + ϕ2 < 1 ).
Facilmente se conclui que este modelo é equivalente a um modelo MCE. Com
efeito, fazendo y1et = y1t = y1,t −1 = y1,t − 2 , y2t = y2,t −1 = y2,t − 2 e ε t = 0 , obtém-se a relação
de equilíbrio de longo prazo,
y1et = η0 + η1 t + λ y2t ,
onde
ϕ0 δ β + β1 + β 2
η0 = , η1 = e λ= 0 .
1 − ϕ1 − ϕ2 1 − ϕ1 − ϕ2 1 − ϕ1 − ϕ2
Utilizando a técnica apresentada no capítulo 9 sobre a reparamatrização de um

modelo ARMAX estável de forma a explicitar o termo de correcção do erro, obtém-se
∆y1t = δ − ϕ (1)( y1,t −1 − y1e,t −1 ) − ϕ2∆y1,t −1 + β 0 ∆y2t − β 2∆y2,t −1 + ε t ,
em que ϕ (1) = 1 − ϕ1 − ϕ 2 . Então, pode concluir-se que este modelo reparametrizado, on-
de se explicita o termo de correcção do erro, − ϕ (1)( y1,t −1 − y1e,t −1 ) , é equivalente ao mo-
delo ARMAX(2,2,0) inicial.
Inversamente, como um modelo ARMAX(2,2,0), estável em torno de uma ten-
dência linear, é um modelo MCE, então, as variáveis envolvidas no modelo são cointe-
gradas [admitindo que estas variáveis são I (1) ].
Como no modelo MCE o regressando e os regressores são I (0) (em particular, o
erro de equilíbrio, y1,t −1 − y1e,t −1 = ut −1 ), os métodos de inferência usuais são válidos, não
obstante a variável ut não ser observável (ver adiante, como fazer a estimação deste
modelo).
O modelo envolvendo apenas primeiras diferenças das variáveis está mal especi-
ficado, pois, omitindo incorrectamente o termo de correcção do erro, é removida qual-
quer informação sobre a relação de longo prazo.
No caso em que o vector y•t bidimensional, formado pelas variáveis y1t e y2t , é
I (1) , mas não é cointegrado, é importante fazer o seguinte comentário: não é lícito esti-
mar uma relação do tipo y1t = η0 + η1 t + λ y2t + ut , uma vez que se trata de uma regres-
são absurda ou espúria (ver adiante). Contudo, pode considerar-se outro modelo, um
modelo dinâmico com as primeiras diferenças. Este modelo poderia ser, por exemplo,
∆y1t = α 0 + α1 ∆y1,t −1 + γ 0 ∆y2t + γ 1∆y2,t −1 + ut ,
onde E (ut | ∆y1,t −1, ∆y2t , ∆y2,t −1 , K) = 0 . A este modelo podem aplicar-se os resultados es-
tatísticos assintóticos habituais. O inconveniente deste procedimento é que se perde a
possibilidade de obter relações, em níveis, entre as variáveis.
10.7 - Testes de cointegração
Nesta secção vai abordar-se a questão da determinação da característica da coin-

tegração. Dos vários métodos conhecidos da literatura [ver Maddala e Kim (1998)],
apenas vai estudar-se o teste de Engle-Granger (1987), com extensões feitas por Phillips
e Ouliaris (1990). Neste teste, a hipótese nula é que h = 0 (não há cointegração) e a
hipótese alternativa é que h ≥ 1 (há cointegração).
Regressões espúrias
O teste de Engle-Granger baseia-se, como vai ver-se, na estimação MQ da equa-

ção de regressão (10.58), y1t = β 0 + β T z•t + λT y•(t2 ) + ut , se existe componente determinís-
tica, ou na estimação MQ da equação de regressão (10.59), y1t = β 0 + λT y•(t2 ) + ut , se não
existe componente determinística. Estas equações são as regressões de cointegração se
h = 1 e se y1t é cointegrado com y•(t2 ) (se y1t é parte de uma relação de cointegração).
Sob a hipótese nula, as equações (10.58) ou (10.59) não representam uma rela-
ção de cointegração. Considerando, por exemplo, (10.58), seja ( βˆ0 , βˆ , λˆ ) o estimador
MQ de ( β 0 , β , λ ) . Facilmente se conclui que λ̂ não é estimador consistente de qualquer
parâmetro da população (do processo). Por exemplo, mesmo que y1t não esteja correla-
cionado com y•(t2 ) [ ∆y1t e ∆y•( 2s ) são independentes, quaisquer que sejam t e s], as estatís-
ticas t e F associadas com o estimador MQ crescem com a dimensão da amostra, dando
a falsa impressão de que existe uma relação estreita entre y1t e y•(t2 ) .
Este fenómeno, conhecido pela designação de regressão espúria (spurious re-
gression) ou regressão absurda (nonsense regression), foi estudado pela primeira vez
por Granger e Newbold (1974), a partir de experiências de simulação de Monte Carlo.
Phillips (1986) deduziu alguns resultados teóricos sobre as distribuições assintóticas das
estatísticas-teste no caso de regressões espúrias.
Para ilustrar uma situação de regressão espúria, considere-se que {xt } e { yt } são
dois passeios aleatórios,
 xt = xt −1 + ε 1t

 yt = yt −1 + ε 2t ,
onde {ε1t } e {ε 2t } são ruídos brancos independentes. Suponha-se também que os dois
passeios aleatórios, {xt } e { yt } , são independentes. Que acontece se os parâmetros da
equação de regressão, yt = β 0 + β1 xt + ut , forem estimados pelo método MQ?
Em situações deste tipo espera-se que plim(βˆ1 ) = 0 e, ainda mais importante,
quando se testa H 0 : β1 = 0 contra H1 : β1 ≠ 0 , a 5%, espera-se que o rácio-t para β̂1 se-
ja não significativo 95% das vezes. No entanto, Granger e Newbold (1974) mostraram,
por meio de métodos de simulação, que a hipótese nula é rejeitada mais vezes do que se
espera e, regra geral, o coeficiente de determinação é elevado [deve referir-se também a
experiência de Davidson e McKinnon (1993)].
Note-se que, sob H 0 , o modelo yt = β 0 + β1 xt + ut se reduz a yt = β 0 + ut . En-
tão, como { yt } é um passeio aleatório sem deriva, tem-se
yt = y0 + ∑ s =1 ε 2 s ,
t
e, portanto, tem-se β 0 = 0 (se y0 = 0 ) e
ut = ∑ s =1 ε 2 s .
t
Deste modo, conclui-se que {ut } é também um passeio aleatório, o que viola
claramente as hipóteses habituais do modelo de regressão.
Em consequência disto, Phillips (1986) provou que a probabilidade de rejeição
da hipótese H 0 : β1 = 0 , utilizando o respectivo rácio-t, tende para 1 quando n tende pa-
ra + ∞ . Assim, no limite, existe sempre uma relação “significativa” entre yt e xt . Além
disso, mostrou que o rácio-t dividido por n converge para uma distribuição não dege-
nerada e que a estatística de Durbin-Watson tende para zero.
A possibilidade de regressões espúrias com variáveis I (1) é muito importante, o
que tem levado muitos economistas a reexaminar várias regressões nas quais os rácios-t
são muito grandes e os coeficientes de determinação estão muito próximo de 1. Assim,
devem ter-se cuidados especiais com os dados económicos temporais, nomeadamente
testar previamente a existência de raízes unitárias.
O teste de Engle-Granger
No exemplo 10.4 (das taxas de juro) a equação de regressão é da forma (10.59),

em que o vector y•t tem apenas duas variáveis. Neste caso, tem-se y1t = β 0 + λ y2t + ut ,
onde y1t = r 6t (taxa de juro a 6 meses dos títulos de tesouro), y2t = r 3t (taxa de juro a 3
meses dos títulos de tesouro) e β 0 = µ (valor esperado do spread). Neste exemplo, em
vez de estimar o valor de λ , recorre-se ao raciocínio económico para conhecer aquele
valor (que, neste caso, é igual a 1). Quando se conhece o valor do parâmetro λ é muito
simples fazer o teste de cointegração das variáveis y1t e y2t ; basta aplicar um teste de
raízes unitárias à variável y1t − λ y2t (para simplificar, supõe-se que β 0 = 0 ).
Testar a cointegração é mais complicado quando se desconhece o potencial pa-
râmetro de cointegração (ou, mais geralmente, quando se desconhecem os potenciais
vectores de cointegração). O teste mais popular, que está intimamente relacionado com
os testes de Dickey-Fuller, foi proposto por Engle e Granger (1987).
No caso em que a característica da cointegração pode ser, quando muito, igual a
1, o teste a efectuar é o seguinte:
H 0 : h = 0 (não há cointegração) contra H1 : h = 1 (há cointegração).
O teste, também, pode ser apresentado da seguinte maneira:

H 0 : ut ~ I (1) (não há cointegração) contra H1 : ut ~ I (0) (há cointegração).
Se ut fosse observável, o teste de cointegração reduzir-se-ía a um simples teste

de raízes unitárias sobre a variável ut . Contudo, ut não é observável porque λ é desco-
nhecido.
Embora, sob a hipótese nula, as equações (10.58) ou (10.59) correspondam a re-
gressões espúrias, estas equações fornecem um instrumento útil para testar H 0 , porque
os respectivos resíduos MQ podem ter uma tendência estocástica, se y•t não é cointe-
grado, ou serem estacionários, no caso contrário.
Para fixar ideias, suponha-se que a equação de regressão é (10.58). Neste caso,
os resíduos MQ são dados por , uˆt = y1t − βˆ0 − βˆ T z•t − λˆT y•(t2) , e o teste de cointegração é
um teste de raízes unitárias da variável ût . Se as variáveis y jt não são cointegradas,
tem-se uma regressão espúria (não há relação de equilíbrio a longo prazo), e a variável
ût deve ter uma raiz unitária. Uma vez que os resíduos ût dependem de ( βˆ0 , βˆ , λˆ ) ,
estimador dos parâmetros de uma regressão espúria sob a hipótese nula, as distribuições
assintóticas dependem da dimensão m do processo, e não são as mesmas dos testes de
raízes unitárias. Assim, o teste de cointegração de Engle-Granger (teste EG) é adapta-
do dos testes ADF, utilizando valores críticos mais exigentes [ver anexo 10A], uma vez
que se utiliza ût em vez de ut .
Em resumo, a mecânica do teste EG é a seguinte:
1) Considerar a equação de regressão y1t = β 0 + β T z•t + λT y•(t2 ) + ut , e estimar os res-
pectivos coeficientes pelo método MQ.
2) Fazer o teste ADF relativamente à variável ût , utilizando a equação de regressão
[ver (10.31)]
(10.72) ∆uˆt = θ uˆt −1 + ξ1 ∆uˆt −1 + ξ 2 ∆uˆt − 2 + L + ξ p ∆uˆt − p + vt .
Comentários:
a) Não há necessidade de considerar uma constante em (10.72) porque, se (10.58) já in-
clui uma constante, a média amostral dos resíduos é nula.
b) Não há necessidade de incluir a componente determinística considerada em (10.58)
[em particular, a tendência linear], porque as variáveis y jt envolvidas em (10.58)
incluem, implícita ou explicitamente, aquela componente determinística.
c) O valor de p em (10.72) cresce com a dimensão n da amostra, mas a uma taxa mais
lenta do que n1 / 3 . Assim, quando n → +∞ , tem-se p → +∞ , mas p n1 / 3 → 0 (em
probabilidade, porque p pode ser considerado uma variável aleatória).
d) O caso em que a característica da cointegração é superior a 1 não vai ser tratado.
Para dispor dos valores críticos para fazer o teste EG, há considerar os três casos
seguintes:
1) E (∆y•( t2 ) ) = 0 e E (∆y1t ) = 0 : nenhuma componente do processo I (1) tem componente
determinística. Considera-se a equação de regressão (10.59), y1t = β 0 + λT y•(t2 ) + ut , e
os valores críticos encontram-se na tabela 10A.3(a) [Phillips e Ouliaris (1990)].
Designando por g o número de regressores excluindo o termo independente, tem-se
g = m − 1.
2) E (∆y•(t2) ) ≠ 0 , mas E (∆y1t ) pode ser nulo ou não: alguns dos m − 1 regressores I (1)
incluídos em y•( t2 ) têm deriva. Neste caso, continua a ter-se a equação de regressão
(10.59), y1t = β 0 + λT y•(t2 ) + ut .
Começa-se por notar que a tendência linear de vários regressores pode ser consi-
derada apenas num deles. Com efeito, suponha-se que, por exemplo, (10.59) se resu-
me a
y1t = β 0 + λ2 y2t + λ3 y3t + ut ,
e que as variáveis y2t e y3t têm deriva. Como E (∆y2t ) = δ 2 e E (∆y3t ) = δ 3 , tem-se
y2t = δ 2t + vt 2 e y3t = δ 3t + vt 3 , onde v2t e v3t são variáveis I (1) sem deriva. Então,
y1t = β 0 + λ2 (δ 2 t + vt 2 ) + λ3 (δ 3 t + vt 3 ) + ut = β 0 + {(λ2δ 2 + λ3δ 3 ) t + λ2vt 2 } + λ3vt 3 + ut .
Em geral, (10.59) pode ser concebida como tendo m − 2 regressores I (1) sem deriva
e um regressor I (1) com deriva. Como as tendências lineares dominam as tendências
estocásticas, o regressor I (1) com tendência comporta-se, no caso de grandes amos-
tras, como se fosse uma tendência linear determinística. Então, os resíduos MQ da
equação de regressão (10.59) e os resíduos MQ da regressão de y1t sobre 1, t e m − 2
regressores I (1) sem deriva são “assintoticamente os mesmos”: a distribuição limite
de uma estatística baseada naqueles resíduos é igual à distribuição da mesma estatís-
tica baseada nestes resíduos.
Para efectuar o teste EG, determinam-se os resíduos MQ da regressão (10.59). Os va-
lores críticos encontram-se na tabela 10A.3(b), onde o número de regressores, ex-
cluindo o termo independente, é g = m − 1 . Por exemplo, para m − 1 = 3 , o valor crí-
tico a 5% é –4.16.
3) E (∆y•( t2 ) ) = 0 e E (∆y1t ) ≠ 0 . Como y1t tem deriva, e y•( t2 ) não tem, é necessário inc-
luir o tempo como regressor para remover a tendência linear dos resíduos MQ. Neste
caso, considera-se a equação de regressão (10.58) com β T z•t = β1 t , ou seja,
y1t = β 0 + β1 t + λT y•( t2) + ut .
Para efectuar o teste, determinam-se os resíduos MQ desta regressão. A discussão do

caso 2) permite concluir que os valores críticos são, também, os da tabela 10A.3(b),
mas onde o número de regressores, sem o termo independente, é g = m : m − 1 re-
gressores I (1) e o tempo. Por exemplo, para m − 1 = 3 , o valor crítico a 5% é –4.49.

a) Se se utiliza a equação y1t = β 0 + β1 t + λT y•( t2) + ut , então a deriva de y1t , dada por
E (∆y1t ) , afecta apenas o coeficiente de t, fazendo com que os valores numéricos dos
resíduos MQ sejam invariantes em relação a E (∆y1t ) . Isto significa que o procedi-
mento do caso 3 (incluir o tempo como regressor) pode ser aplicado ao caso 1 [onde
E (∆y1t ) = 0 ]. Deste modo, com a inclusão do regressor t, o valor crítico apropriado
para o caso 1 é dado pela tabela 10A.3(b), com g = m .
b) O procedimento referido em a) é válido para o caso 2, porque, se o tempo é incluído
como regressor, a equação de regressão pode ser considerada como se estivesse a
fazer a regressão de y1t sobre 1, m − 1 regressores I (1) sem deriva, e o tempo [que
combina as derivas dos regressores I (1) ]. Esta regressão é abrangida pelo caso 3).
Assim, o valor crítico apropriado, ainda, é dado pela tabela 10A.3(b), com g = m .
c) As considerações feitas em a) e b) permitem concluir o seguinte: quando o tempo é
considerado como regressor, podem ser usados os mesmos valores críticos, indepen-
dentemente da localização das derivas. A possível desvantagem está na reduzida po-
tência do teste com pequenas amostras.
d) Para efectuar os testes EG, pode, em alternativa, utilizar-se os valores referidos na
tabela 10A.4 [MacKinnon (1991)].
Exemplo 10.12 – Como se afirmou a propósito da figura 10.6, parece que o logaritmo
do consumo privado e o logaritmo do PIB em Portugal, a preços de 2000, são cointe-
grados. Pode, por exemplo, conjecturar-se que a diferença entre o logaritmo do PIB e o
logaritmo do consumo privado é estacionário, o equivale a dizer que o vector de cointe-
gração seria ( 1, − 1 ). Contudo, o cronograma desta diferença está longe de ter o compor-
tamento sugerido (ver figura 10.7).
Para fazer o teste de cointegração, começa-se por testar se as variáveis lpibt
(logaritmo do PIB) e lconst (logaritmo do consumo privado) são I (1) . Em relação à
primeira variável, faz-se a regressão de lpibt sobre 1, t, lpibt −1 e ∆lpibt , obtendo-se
φˆ = 0.915877 (estimativa do coeficiente de lpibt −1 ), com erro padrão igual a 0.045414.
O respectivo rácio- τ é –1.85238, a que corresponde um valor-p (corrigido para pe-
quenas amostras) igual 0.705. A evidência obtida é favorável a que lpibt seja I (1) . No
que respeita à outra variável, a conclusão é semelhante. Com efeito, fazendo a regressão
de lconst sobre 1, t, lconst −1 e ∆lconst , obtendo-se φˆ = 0.899966 (estimativa do coefi-
ciente de lconst −1 ), com erro padrão igual a 0.049098. O rácio- τ é –2.03743, com va-
lor-p (corrigido para pequenas amostras) igual 0.609.
0.55
0.50
0.45
0.40
0.35
0.30
0.25
0.20
1960 1965 1970 1975 1980 1985 1990 1995 2000 2005
Log PIB menos Log Consumo Privado
Fig. 10.7 – Cronograma da diferença ente logaritmo do PIB

e o logaritmo do consumo privado.
A equação de regressão que permite obter os resíduos MQ para fazer o teste EG

é a seguinte:
lconst = β 0 + β1 t + λ lpibt + ut .
A respectiva estimação MQ fornece os seguintes resultados:

lconst = 0.23399 + 0.00205756 t + 0.836615 lpibt + uˆt .
O teste ADF sobre os resíduos MQ vai basear-se na seguinte regressão:

∆uˆt = θ uˆt −1 + ξ1 ∆uˆt −1 + vt .
Obtém-se
∆uˆt = −0.259757 uˆt −1 + 0.261273 ∆uˆt −1 + vˆt ,
em que o erro padrão associado à estimativa do coeficiente de uˆt −1 é 0.097838. O rácio-

τ é –2.65497, a que corresponde o valor-p (corrigido para pequenas amostras) igual
0.502. Note-se que o valor crítico fornecido pela tabela 10A.3(b) é –3.80 (o valor crítico
corrigido para pequenas amostras é –4.002792). Desta forma, não se pode rejeitar
hipótese de que a equação de regressão lconst = β 0 + β1 t + λ lpibt + ut é espúria.
∇
10.8 - Inferência sobre os vectores de cointegração
Na secção anterior, foi examinada a questão que consiste em saber se um pro-

cesso I (1) é cointegrado. Na presente secção, supõe-se que o processo é cointegrado,
que a característica da cointegração é conhecida e que se dispõe da respectiva represen-
tação triangular. O objectivo é estimar os vectores de cointegração a partir desta repre-

sentação, e fazer inferência sobre estes vectores.
O estudo vai incidir sobre o caso em que a característica da cointegração é
igual a 1 ( h = 1 ). Neste caso, a representação triangular é a seguinte:
 y1t = β 0 + β T z•t + λT y•(t2) + ut  ut 
(10.73)  ( 2) (2) ( 2)
com  ( 2 )  = Ψ ( L) ε • t ,
∗
∆
 •ty = c•t + w•t , w
 •t 
onde y•(t2 ) não é cointegrado. A primeira equação de (10.73) é a regressão de cointegra-
ção.
Nestas condições, existe um único vector λ , (m − 1) -dimensional, tal que:
~ ~
a) Quando λ = λ , y1t − λ T y•(t2) é igual à soma de um processo estacionário, ut , com
uma variável aleatória invariante com o tempo, β 0 , e com uma componente determi-
nística que varia no tempo, β T z•t ;
~ ~
b) Quando λ ≠ λ , y1t − λ T y•(t2) tem uma tendência estocástica.
Usando o método MQ para estimar os coeficientes da regressão de cointegração,

obtém-se o estimador ( βˆ0 , βˆ , λˆ ) . Como este estimador minimiza a respectiva soma dos
quadrados dos resíduos é de esperar que se tem um estimador consistente. Com efeito,
pode provar-se que λ̂ é estimador superconsistente de λ , em que o erro de amostra-
gem converge para 0 a uma taxa mais rápida do que n (a taxa conhecida do caso esta-
cionário). Este resultado foi provado por Phillips e Durlauf (1986) e Stock (1987), quan-
do E ( y•(t2) ) = c•(t2 ) = 0 , e por Hansen (1992), quando E ( y•(t2) ) = c•( t2 ) ≠ 0 . A velocidade de
convergência é n, para E ( y•(t2) ) = 0 , e n3 / 2 , para E ( y•(t2) ) ≠ 0 . Estes resultados foram
provados supondo que β 0 é constante. É de esperar a mesma conclusão, quando β 0 é
uma variável aleatória. De facto, apesar de β 0 + ut não ser estacionário, mesmo que ut
o seja, β 0 e ut são assintoticamente independentes (quando t → +∞ ), e, portanto,
β0 + ut é assintoticamente estacionário. Basta esta conclusão para obter os resultados
assintóticos necessários para a inferência estatística sobre λ . Também pode demons-
trar-se que R 2 converge para 1.
O estimador MQ de λ obtido a partir da regressão de cointegração [a primeira
equação de (10.73)] designa-se por estimador MQ “estático” (MQE). Como este esti-
mador é consistente, os resíduos MQ convergem para um processo estacionário com va-
lor esperado nulo. Portanto, se um teste univariado de raízes unitárias, como o teste
ADF, é aplicado aos resíduos, o teste rejeita, para grandes amostras, a hipótese nula de
que o processo é I (1) . É esta a razão pela qual o teste EG, estudado na secção anterior,
é consistente contra a cointegração.
As considerações anteriores permitem estabelecer um facto notável: apesar de
haver regressores I (1) , não cointegrados, na relação de cointegração, os estimadores
MQ dos respectivos coeficientes são consistentes. Este facto está em claro contraste
com o caso de regressores estacionários. Para apreciar este contraste, recorde-se que,
se os regressores em y•(t2 ) são estacionários, a consistência do estimador MQ de λ exige
que não haja regressores endógenos ( ut e y•(t2 ) não estão correlacionados); caso contrá-
rio, são necessárias variáveis instrumentais para y•(t2 ) . Se y1t é cointegrado com y•(t2 ) ,
mas y•(t2 ) não é cointegrado, o estimador MQ de λ é sempre consistente, mesmo que

existam regressores endógenos (não existe o problema do enviesamento da endogenei-
dade ou da simultaneidade). Note-se que: se y•(t2 ) é cointegrado, h ≥ 2 , a primeira equa-
ção de (10.73) – que tem m − 1 regressores em y•(t2 ) – não é uma relação de cointegra-
ção; neste caso, a relação de cointegração deve ter m − h regressores em y•(t2 ) [para mais
promenores, ver Hamilton (1994) e Watson (1994)].
Para ilustrar que, no caso da estimação MQ dos coeficentes de uma relação de
cointegração, a endogeneidade dos regressores não põe em causa a consistência dos es-
timadores, considere-se o seguinte modelo:
λ1 yt − xt = u1t , (1 − ρ1 L) u1t = ε1t ,
yt − λ2 xt = u2t , (1 − ρ 2 L) u2t = ε 2t ,
onde {ε1t } e {ε 2t } são ruídos brancos e, por exemplo, ρ1 = 1 e 0 < ρ 2 < 1 .

Facilmente se verifica que as variáveis yt e xt são ambas I (1) . Com efeito, bas-
ta notar que u1t ~ I (1) e u2t ~ I (0) , e que
 1
 yt = λ1λ2 − 1 (λ2u1t − u2t )

 x = 1 (u − λ u ) .
 t λ1λ2 − 1 1t 1 2t
Contudo, as variáveis yt e xt são cointegradas (o parâmetro de cointegração é

λ2 ); a relação de cointegração é yt = λ2 xt + u2t ; o erro de equilíbrio é u2t = yt − λ2 xt .
Como u2t = ρ 2 u2,t −1 + ε 2t e u2,t −1 = yt −1 − λ2 xt −1 , tem-se
u2t = ρ 2 ( yt −1 − λ2 xt −1 ) + ε 2t .
Assim, na regressão de cointegração, yt = λ2 xt + u2t , o regressor xt é endógeno

porque está correlacionado com a variável residual, ρ 2 ( yt −1 − λ2 xt −1 ) + ε 2t (facilmente se
verifica que xt está correlacionado com as duas parcelas da variável residual). Contudo,
como xt é I (1) e as duas parcelas de ρ 2 ( yt −1 − λ2 xt −1 ) + ε 2t são I (0) [a primeira parcela
é I (0) porque as variáveis são cointegradas], a variável residual é assintoticamente neg-
ligenciável em relação a xt .
Em pequenas amostras o enviesamento do estimador MQE pode ser grande
[ver Banerjee et al. (1986) e Stock (1987)]. Outro inconveniente do estimador MQE é
que a distribuição assintótica das estatísticas t depende dos parâmetros perturbadores
[os coeficientes do filtro Ψ ∗ ( L) ], pelo que é difícil fazer inferência estatística.
Para esclarecer qual é origem da correlação entre a variável residual, ut , e os
regressores I (1) , y•(t2 ) , vai considerar-se a versão bivariada de (10.73), supondo, para
simplificar que c•t = 0 , β 0 = 0 e Ψ ∗ ( L) = Ψ0∗ [ (ut , w2t ) não tem autocorrelação]:
 y1t = λ y2t + ut  ut 
(10.74)  com   = Ψ0∗ ε •t .
∆y2t = w2t ,  w2t 
Neste modelo, pode existir correlação entre y2t e ut . Com efeito, seja
Cov( y2t , ut ) = Cov( y20 + ∆y21 + ∆y22 + L + ∆y2t , ut ) .
Atendendo a que Cov( y20 , ut ) = 0 , ∆y2t = w2t e (ut , w2t ) é iid, vem
Cov( y2t , ut ) = Cov( w21 + w22 + L + w2t , ut ) = Cov( w2t , ut ) .
Como as matrizes Ψ0∗ e Σε não são necessariamente diagonais, w2t e ut podem

estar contemporaneamente correlacionados.
Para isolar esta possível correlação, considere-se a projecção linear MQ de ut
sobre 1 e w2t ,
 Cov( w2t , ut )  Cov( w2t , ut )
E ∗ (ut | 1, w2t ) =  E (ut ) − E ( w2t ) + w .
 Var ( w2t )  Var ( w2t ) 2t
Notando que E (ut ) = 0 e E ( w2t ) = 0 , tem-se

Cov( w2t , ut ) E ( w2t ut )
E ∗ (ut | 1, w2t ) = w2t = w = γ w2t ,
Var ( w2t ) E ( w22t ) 2t
onde
E ( w2t ut )
γ= .
E ( w22t )
O erro da projecção linear MQ é, então,

vt = ut − E ∗ (ut | 1, w2t ) = ut − γ w2t .
Facilmente se verifica que E (vt ) = 0 e que Cov(vt , w2t ) = Cov(vt , ∆y2t ) = 0 .

Fazendo ut = γ w2t + vt = γ ∆y2t + vt na relação de cointegração, obtém-se
(10.75) y1t = λ y2t + γ ∆y2t + vt ,
que se designa por regressão de cointegração aumentada (ou relação de cointegração

aumentada).
Vai demonstrar-se que os regressores desta equação são estritamente exóge-
nos. Começa-se por ∆y2t . Por construção, Cov(vt , ∆y2t ) = 0 . Falta provar que, para
quaisquer t ≠ s , Cov(vt , ∆y2 s ) = 0 . De facto,
Cov(vt , ∆y2 s ) = Cov(vt , w2 s ) = Cov(ut − γ w2t , w2 s ) = Cov(ut , w2 s ) − γ Cov( w2t , w2 s ) = 0 ,
porque (ut , w2t ) é iid. Assim, ∆y2t é estritamente exógeno.

Seja
Cov(vt , y2 s ) = Cov(vt , y20 + ∆y21 + ∆y22 + L + ∆y2 s ) .
Como Cov(vt , y20 ) = 0 e Cov(vt , ∆y2 s ) = 0 (para qualquer s), vem

Cov(vt , y2 s ) = Cov(vt , ∆y21 + ∆y22 + L + ∆y2 s ) = 0 ,
concluindo-se que y2t também é estritamente exógeno.

A exogeneidade estrita dos regressores em (10.75) depende crucialmente da con-
dição Ψ ∗ ( L) = Ψ0∗ , porque garante que (ut , w2t ) não tem autocorrelação. Seja (λˆ, γˆ ) o
estimador MQ de (λ , γ ) [note-se que λ̂ não é o mesmo do que no caso MQE]. A
equação (10.75) é muito semelhante à auto-regressão aumentada (10.20): em cada uma
das equações, um dos regressores é I (0) com valor esperado nulo, e o outro é I (1) sem
componente determinística. Na auto-regressão aumentada, a matriz “ X T X ”, adequada-
mente normalizada por n e por n , é assintoticamente diagonal, pelo que a existência
de regressores I (0) pode ser ignorada para determinar a distribuição limite do estima-
dor MQ do coeficiente do regressor I (1) . O mesmo se passa com a regressão de cointe-
gração aumentada, e o mesmo argumento que explora a diagonalidade assintótica de
“ X T X ” (devidamente normalizada) mostra que o rácio-t clássico para testar a hipótese
λ = λ0 é assintoticamente equivalente a
1 n
∑t =1 y2t vt
(10.76) t∗ = n ,
σ v2
∑
n
2 t =1
y22t
n
onde σ v2 = Var (vt ) . Assim, a diferença entre o rácio-t clássico e t ∗ converge em proba-
bilidade para 0, pelo que têm a mesma distribuição limite.
Na auto-regressão aumentada utilizada no teste ADF, a distribuição limite da
estatística ADF- τ é a respectiva distribuição de Dickey-Fuller (a distribuição DFτ ). No
entanto, a distribuição assintótica de t ∗ (e, portanto, do rácio-t clássico) é N (0,1) .
Como vai ver-se, este resultado decorre de o regressor I (1) , y2t , ser estritamente exó-
geno. Suponha-se, de momento, que (ut , w2t ) seguem uma distribuição normal bidimen-
sional ( y2 s e ut , além de não estarem correlacionados, são independentes). Então, a
distribuição de vt condicionada por ( y21, y22 , K , y2 n ) é igual à respectiva distribuição
não condicionada, que é N (0, σ v2 ) . Logo, a distribuição do numerador de t ∗ , condicio-
nada por ( y21, y22 , K , y2 n ) , é
 σ2 n 
N  0, 2v ∑t =1 y22t  .
 n 
Como o desvio padrão desta distribuição normal é igual ao denominador de t ∗ ,
tem-se
(t ∗ | y21 , y22 , K , y2 n ) ~ N (0,1) ,
e, portanto,
t ∗ ~ N (0,1) .
Quando (ut , w2t ) não é normal bidimensional, pode provar-se [Hamilton (1994),
Watson (1994) e Park e Phillips (1988)] que a distribuição limite de t ∗ ainda é normal
estandardizada,
d
t ∗ → N (0, 1) .
Note-se que o processo I (1) bivariado considerado para obter este resultado é
especial sob vários aspectos: a) não há autocorrelação em (ut , w2t ) ; b) o regressor I (1) ,
y2t , é um escalar; c) y2t não tem componente determinística; d) β 0 = 0 .
Quando não se verifica Ψ ∗ (L) = Ψ0∗ , existe autocorrelação em (ut , w2t ) [a con-
dição a) é relaxada]. O regressor I (1) , y2t , deixa de ser estritamente exógeno [embora
se tenha Cov(vt , ∆y2t ) = 0 , já não se verifica Cov(vt , ∆y2 s ) = 0 , para t ≠ s ]. Para remo-
ver esta correlação, considere-se a projecção linear MQ de ut sobre os valores presente,

passados e futuros de w2 . Como ∆y2t = w2t , tem-se
ut = γ ( L)∆y2t + vt e γ ( L) = ∑ j = −∞ γ j L j ,
+∞
(10.77)
onde, por construção, E (vt ) = 0 e Cov(vt , ∆y2 s ) = 0 , para quaisquer t e s [obviamente,

vt não é o mesmo que em (10.75)].
O filtro bilateral γ (L) pode ser de ordem infinita, mas suponha-se – por agora –
que γ j = 0 para | j | > p . Assim,
(10.78) ut = γ 0 ∆y2t + γ −1 ∆y2,t +1 + L + γ − p ∆y2,t + p + γ 1 ∆y2,t −1 + L + γ p ∆y2,t − p + vt .
A regressão de cointegração aumentada é, então,

y1t = λ y2t + γ 0 ∆y2t + γ −1 ∆y2,t +1 + L + γ − p ∆y2,t + p
(10.79)
+ γ 1 ∆y2,t −1 + L + γ p ∆y2,t − p + vt ,
onde se consideram não só os regressores de (10.75), mas os leads and lags de ∆y2t .
Como Cov(vt , ∆y2 s ) = 0 , quaisquer que sejam t e s, os regressores ∆y2 s são es-
tritamente exógenos, o mesmo acontecendo com y2t . Considerando (10.79), o estima-
dor MQ de λ designa-se por estimador MQ “dinâmico” (MQD), para o distinguir do
estimador MQE. O estimador MQD também se chama estimador leads and lags.
Em (10.79) existem 2 + 2 p regressores: o primeiro é I (1) sem componente de-
terminística; os outros são I (0) com valor esperado nulo. Com a normalização adequa-
da da matriz “ X T X ” (por n e por n ), esta matriz é assintoticamente diagonal por blo-
cos, e o regressor I (1) é assintoticamente não correlacionado com os regressores com
os 2 p + 1 regressores I (0) ; estes regressores podem ser ignorados na determinação da
distribuição limite do estimador MQD de λ ; continua a considerar-se a estatística t ∗ ,
(10.76), para testar a hipótese λ = λ0 ( t ∗ é assintoticamente equivalente ao rácio-t
clássico).
Neste caso, contudo, a distribuição assintótica de (10.76) não se obtém da mes-
ma maneira que no caso de não autocorrelação de (ut , w2t ) , porque vt pode ser autocor-
relacionado; a projecção linear MQ atrás referida, embora eliminando a correlação entre
∆y2 s e vt , quaisquer que sejam t e s, não remove a autocorrelação de vt . Este dificulda-
de (e a possível existência de heterocedasticidade condicionada) pode ser ultrapassada
calculando o respectivo erro padrão robusto de Newey-West.
Para obter a distribuição assintótica, seja V a matriz das autocovariâncias de n
sucessivos valores vt , ωv2 a variância de longo prazo de vt e
 y21 
y 
Y2 =  22  .
 M 
 
 y2 n 
Suponha-se, de momento, que (ut , w2t ) tem distribuição normal bidimensional.
Como y2t é estritamente exógeno, a distribuição do numerador de t ∗ , condicionada por
Y2 , é normal com valor esperado nulo e variância condicionada (1 n 2 )Y2TV Y2 . A raiz

quadrada desta expressão deveria substituir o denominador de (10.76) para se obter a
distribuição normal estandardizada.
Contudo, no caso de grandes amostras, é possível obter a distribuição limite pre-
tendida, substituindo em (10.76) a variância de vt , σ v2 , pela sua variância de longo pra-
zo, ωv2 . Assim, seja
1 n 1 n
∑ 1
y2t vt ∑t =1 y2t vt
t′ = n =n
t =
(10.80) .
ωv2 ωv2
∑t =1 y22t
n
Y2T Y2
n2 n2
Pode provar-se que a distribuição limite do denominador de (10.80) é normal
com valor esperado nulo e desvio padrão igual ao denominador [Phillips (1988)]. Então,
σv ∗ d
(10.81) t′ = t → N (0,1) .
ωv
Como o rácio-t clássico, tλ̂ , e t ∗ são assintoticamente equivalentes, vem
s d
(10.82) tλˆ → N (0, 1) ,
ωˆ v
onde s é o erro padrão clássico da regressão (10.79) [s é estimador consistente de σ v ] e
ω̂v é estimador consistente de ωv . A expressão (10.82) corresponde a modificar o erro
padrão clássico de λ̂ , sλ̂ , substituindo-o por
ωˆ v
sλ′ˆ = sλˆ .
s
Assim, (10.82) pode escrever-se da seguinte maneira:
λˆ d
(10.83) → N (0, 1) .
sλ′ˆ
Os argumentos anteriores são apenas válidos para λ , o coeficiente do regressor

I (1) . Os rácios-t correspondentes aos estimadores dos outros coeficientes de (10.79)
não são necessariamente N (0,1) , para grandes amostras.
Facilmente se obtém um estimador consistente de ωv2 . Os passos são os seguin-
tes:
a) Calcular os resíduos MQ da regressão (10.79): v̂t ;
b) Considerar o processo AR (l) de v̂t : vˆt = ω1vˆt −1 + ω2 vˆt − 2 + L + ωl vˆt −l + et ;
c) Calcular os estimadores MQ dos ωi ( i = 1, 2, K , l ), ω̂i , e os respectivos resíduos, êt ;
d) O estimador de ωv2 é dado por
σˆ e2 1
∑
n
ωˆ v2 = 2
onde σˆ e2 = eˆ 2 .
(1 − ωˆ1 − ωˆ 2 − L − ωˆ l ) n−l t = l +1 t
Considere-se o caso geral de um processo m-dimensional cointegrado com com-

ponente determinística, supondo que h = 1 . Facilmente se estende a análise para h > 1 .
A representação triangular é (10.73), e a regressão de cointegração aumentada é
y1t = β 0 + β T z•t + λT y•(t2) + γ •T0 ∆y•(t2 ) + γ •T, −1∆y•(,2t)+1 + L + γ •T, − p ∆y•(,2t)+ p
(10.84)
+ γ •T1∆y•( ,2t)−1 + L + γ •Tp ∆y•(,2t)− p + vt ,
onde γ • j ( j = 0,1, 2, K , p,−1,−2, K ,− p ) são os coeficientes da projecção linear MQ de

ut sobre os valores presentes, passados e futuros de ∆y•(t2 ) . O estimador MQD do vector
λ é o respectivo estimador MQ em (10.84).
Os resultados obtidos para o caso bivariado ainda continuam válidos para o caso
geral. Em particular: o estimador MQD de λ é superconsistente; as estatísticas t e de
Wald, com as normalizações adequadas, seguem as distribuições limite clássicas; as
normalizações obtêm-se multiplicado o rácio-t por s ω̂v , e multiplicando a estatística de
Wald pelo quadrado de s ω̂v ; estes procedimentos não são válidos para testar hipóteses
que envolvem β 0 , β ou γ • j [ver Saikkonen (1991) e Stock e Watson (1993)].
Se o filtro bilateral γ (L) é infinito, vt inclui o resto da truncagem,
∑ ∆y•(,2t)+ j + ∑ j = p +1 γ •T j ∆y•(,2t)− j .
+∞ +∞
γT
j = p +1 • , − j
Todos os resultados se mantêm, desde que p em (10.84) cresça com n a uma taxa
mais lenta do que n1 / 3 [ver Saikkonen (1991)].
Finalmente, vão apresentar-se alguns métodos de estimação do modelo com
MCE. Para facilitar a exposição, vai retomar-se o exemplo utilizado para ilustrar a im-
portância do teorema da representação de Granger (ver final da secção 10.6), ou seja,
∆y1t = δ − ϕ (1)( y1,t −1 − y1e,t −1 ) − ϕ2∆y1,t −1 + β 0 ∆y2t − β 2∆y2,t −1 + ε t .
Um método de estimação – o método num só passo – resulta imediatamente

desta equação, utilizando a respectiva forma de Barsden (ver capítulo 9),
∆y1t = ϕ0 + δ t − ϕ (1) y1,t −1 + β (1) y2,t −1 − ϕ2∆y1,t −1 + β 0∆y2t − β 2 ∆y2,t −1 + ε t ,
em que β (1) = β 0 + β1 + β 2 . Deduz-se imediatamente que o parâmetro de cointegração,

λ , pode ser estimado facilmente a partir da relação λ = β (1) / ϕ (1) . Assim, para estimar
os multiplicadores de longo prazo (os parâmetros do vector de cointegração), as variá-
veis em níveis têm que ser incluídas na equação de regressão desfasadas de um período.
Contudo, o método de estimação mais popular é o método em dois passos de
Engle-Granger, que separa a estimação do vector de cointegração da estimação do mo-
delo MCE. Os dois passos são os seguintes:
1) Estimar pelo método MQE ou MQD a equação de regressão y1t = η0 + η1 t + λ y2t + ut ,
de modo a obter os resíduos: uˆt = y1t − (ηˆ0 + ηˆ1t + λˆ y2t ) .
2) Substituir, no termo de correcção do erro, y1,t −1 − y1e,t −1 por uˆt −1 , e estimar os restantes
parâmetros pelo método MQ. Esta substituição não levanta problemas dada a super-
consistência do estimador MQ de λ no primeiro passo. O modelo MCE a estimar é
∆y1t = δ − ϕ (1) uˆt −1 − ϕ2∆y1,t −1 + β 0 ∆y2t − β 2∆y2,t −1 + ε t .
PALAVRAS-CHAVE
Auto-regressão aumentada Regressão de cointegração aumentada
Característica de cointegração Regressão espúria
Cointegração Relação de equilíbrio de longo prazo
Componente determinística Representação triangular de Phillips
Componente estocástica Representação VAR
Comportamento altamente persistente Tendência determinística
Decomposição de Beveridge-Nelson Tendência estocástica
Deriva Tendência linear
Erro de equilíbrio Tendência quadrática
Espaço de cointegração Teorema da representação de Granger
Estimador leads and lags Teorema do limite central funcional
Estimador MQ “dinâmico” Teste ADF
Estimador MQ “estático” Teste ADF- φ
Estimador superconsistente Teste ADF- φc
Inferência sobre vectores de cointegração Teste ADF- φct
Mecanismo de correcção do erro Teste ADF- τ
Método em dois passos de Engle-Granger Teste ADF- τ c
Movimento Browniano Teste ADF- τ ct
Parâmetro de cointegração Teste de Breusch-Godfrey
Parâmetro perturbador Teste de cointegração
Passeio aleatório Teste de Engle-Granger
Processo ARMA integrado Teste de raízes unitárias
Processo auto-regressivo Teste DF- ϕ
Processo de inovação Teste DF- ϕc
Processo de Wiener Teste DF- ϕct
Processo diferença-estacionário Teste DF- τ
Processo estacionário em tendência Teste DF- τ c
Processo integrado Teste DF- τ ct
Processo integrado linear Teste de Phillips
Processos cointegrados Teste de Phillips-Perron
Raiz unitária Vector de cointegração
1. Considere o modelo yt = α + β t + ϕ yt −1 + ε t , onde | ϕ | < 1 e {ε t } é um ruído bran-

co. A variável yt é estacionária? A variável yt é I (0) ? Justifique.
2. Considere o processo estocástico { yt } , supondo que yt = ct + wt , onde ct é a com-
ponente determinística e wt é a componente estocástica. Indique as condições
para { yt } ser um processo integrado de ordem 0.
3. Seja ∆2 yt = ct + wt , onde ct é a componente determinística e wt é a componente
estocástica. Suponha que {wt } é estritamente estacionário com valor esperado nu-
lo, e a respectiva variância de longo prazo é positiva. Como classifica o processo
{ yt } ?
4. Suponha que { yt } é um passeio aleatório sem deriva. Determine a variância de
longo prazo de ∆yt .
5. Seja ∆2 yt = ct + wt , onde ct é a componente determinística e wt é a componente
estocástica. Que condições deve impôr ao processo {wt } para que o processo { yt }
seja I (2) ?
6. Considere o passeio aleatório yt = yt −1 + ε t , onde ε t é um ruído branco. Supondo
que ε t ~ N (0, σ 2 ) , determine a distribuição de yt .
7. Considere o passeio aleatório yt = α + yt −1 + ε t onde ε t é um ruído branco. Su-
pondo que y0 = 0 e ε t ~ N (0, σ 2 ) , determine a distribuição de yt .
8. Considere um passeio aleatório sem deriva: yt = yt −1 + ε t , onde ε t é um ruído
branco. Calcule o valor esperado de yt + h condicionado por yt .
9. Considere que a variável yt é um passeio aleatório. Considere os seguintes casos:
sem constante; com constante; com constante e tendência. Qual a relação que po-
de estabelecer entre Var ( yt ) e Var ( yt −1 ) ?
10. Considere o modelo yt = α + β t + ϕ yt −1 + u t , onde | ϕ |< 1 e {ut : t = 1,2, K} é pro-
cesso de médias móveis de 2.ª ordem. Classifique o processo { yt } do ponto de
vista da ordem de integração.
11. Considere o modelo yt = α + β t + ϕ yt −1 + u t , onde | ϕ |< 1 , u t = ρ ut −1 + ε t e ε t é
um ruído branco. Supondo que a autocorrelação é positiva, classifique, em função
de ρ , o processo { yt } do ponto de vista da ordem de integração.
12. Considere o modelo yt = α + ϕ yt −1 + ε t , onde ϕ > 0 e ε t é um ruído branco. In-
dique a condição a que deve obedecer o parâmetro ϕ para que a variável yt não
seja integrada.
13. Considere a decomposição de Beveridge-Nelson do processo { yt } :
yt = Ct + ψ (1) ωt + η t + ( y0 − η 0 ) ,
onde
ωt = ∑s =1 ε s .
t
Descreva as componentes desta decomposição.

14. Suponha que yt ~ I (1) linear e que ∆yt = ct + wt , onde ct é a componente deter-
minística e wt = ψ ( L)ε t é a componente estocástica. Prove que
wt = ψ (1)ε t + η t − η t −1 ,
em que η t = δ ( L)ε t .
15. Suponha que yt ~ I (1) e xt ~ I (1) , e considere o modelo yt = α + β xt + ut . Quais
das seguintes afirmações são verdadeiras: a) este modelo corresponde a uma re-
gressão espúria, excepto se ut ~ I (0) ; b) este modelo traduz uma relação de equi-
líbrio de longo prazo se ut ~ I (0) .
16. Quais das seguintes afirmações são verdadeiras: a) um ruído branco e um passeio
aleatório são I (0) ; b) um passeio aleatório necessita de ter tendência determi-
nística para ser I (1) ; c) um processo MA(q) é I (1) para valores de q a partir de
certa ordem.
17. Quais das seguintes afirmações são verdadeiras: a) um passeio aleatório, qualquer
que seja a sua componente determinística, é sempre I (1) ; b) qualquer processo
AR(1) é I (0) ou I (1) ; c) um processo MA(2) nunca pode ser I (1) .
18. Considere o processo yt = xt + ut , onde {xt } é ARMA( p, q ) estacionário. Indi-
que uma situação em que { yt } é I (1) .
19. Considere o processo yt = α + δ t + ϕ1 yt −1 + ϕ2 yt − 2 + ϕ3 yt − 3 + ϕ4 yt − 4 + ε t . Escreva a
respectiva equação de auto-regressão aumentada, e indique a estatística-teste para
fazer o respectivo teste ADF- φ .
20. Suponha que o processo m-dimensional { y•t } é I (1) linear. Indique a representa-
ção VMA do processo {∆y•t } .
21. Considere que cada uma das variáveis xt , yt e zt é I (1) . Apresente a definição
de cointegração destas três variáveis.
22. Considere as seguintes variáveis: yt , xt e zt . Apresente a respectiva definição de
cointegração, supondo que normalizava o coeficiente de yt e que a componente
determinística é formada por uma constante e uma tendência linear.
23. Suponha que yt ~ I (1) e que xt ~ I (1) . Seja a combinação linear a yt + b xt . Que
pode concluir?
24. Suponha que as variáveis yt e xt são I (1) e cointegradas. Prove que as variáveis
yt e xt −1 também são cointegradas.
25. Suponha que as variáveis yt , xt e zt são I (1) e cointegradas. Admita que o mo-
delo de curto prazo que relaciona as três variáveis é o seguinte:
yt = ϕ 0 + ϕ1 yt −1 + δ t + β 0 xt + β1 xt −1 + γ 0 z t + γ 1 z t −1 + ε t ,
onde ε t é um ruído branco. Determine um vector de cointegração.

26. Suponha que as variáveis yt , xt e zt são I (1) e cointegradas. Admita também
que o modelo de curto prazo que relaciona as três variáveis é o seguinte:
yt = ϕ 0 + ϕ1 yt −1 + ϕ 2 yt − 2 + δ 1 t + δ 2t 2 + β 0 xt + β1 xt −1 + γ 0 z t + γ 1 zt −1 + γ 2 z t − 2 + ε t ,
onde ε t é um ruído branco. Determine um vector de cointegração.

27. Considere que cada uma das variáveis xt , yt e zt é I (1) . Indique as condições
para que o vector φ de tipo 3×1 , com componentes φ1 , φ2 e φ3 , seja um vector
de cointegração.
28. Considere três variáveis, xt , yt e zt . Apresente as condições que permitem afir-

mar que estas variáveis são cointegradas, do tipo CI(1,1).
31. Sejam as variáveis pt (logaritmo do nível de preços interno), pt∗ (logaritmo do
nível de preços externo) e et (logaritmo da taxa de câmbio). De acordo com a teo-
ria da paridade dos poderes de compra (PPP) existe uma combinação linear destas
variáveis que é estacionária. Como se poderia testar esta afirmação?
32. Seja { y•t } um processo estocástico vectorial, onde y•t é um vector aleatório
m × 1 . Suponha que y•t = α + w•t , onde {w•t } é um processo I (0) linear com
valor esperado nulo.
Sabe-se que w•t = Ψ ( L)ε •t , onde Ψ ( L) = I m + Ψ1L + Ψ2 L2 + L , Ψs ( s = 1, 2, K ) é
matriz m × m , e {ε •t } é um ruído branco independente. Defina característica da
cointegração e relacione-a com a característica da matriz Ψ (1) .
33. Considere o modelo ARMAX(2,1,0),
yt = ϕ 0 + ϕ1 yt −1 + ϕ 2 yt − 2 + β 0 xt + β1 xt −1 + ε t ,
em que {ε t } é um ruído branco independente, e o polinómio ϕ (L) é invertível.

Supondo que o modelo especifica de forma adequada a dinâmica de curto prazo
entre as variáveis y e x, pode afirmar-se que o modelo incorpora a respectiva in-
formação de longo prazo. Porquê?
34. Considere o seguinte modelo:
λ1 yt − xt = ut1 , (1 − ρ1 L) ut1 = ε t1 ,
yt − λ2 xt = ut 2 , (1 − ρ 2 L) ut 2 = ε t 2 ,
onde {ε t1} e {ε t 2 } são ruídos brancos, ρ1 = 1 e 0 < ρ 2 ≤ 1 . Discuta, em função dos

valores que pode assumir ρ 2 , a cointegração entre yt e xt .
35. Suponha que as variáveis yt , xt e zt são cointegradas. Admita que a relação de
equilíbrio de longo prazo é yt = β1 + λ2 xt + λ3 z t + ut . Proponha uma regressão de
cointegração aumentada que permita estimar os parâmetros de cointegração de
modo a ser possível fazer inferência estatística com as distribuições habituais
(normal, χ 2 , F).
36. No teste de cointegração AEG os resíduos do respectivo teste ADF referem-se a
que equação de regressão?
37. Descreva a mecânica do teste AEG.
38. Suponha que y•t ~ I (1) linear e cointegrado, em que o vector y•t tem duas com-
ponentes e c•t = α . Admita que a relação de curto prazo é dada por
y1t = ϕ 0 + ϕ1 y1,t −1 + ϕ 2 y1,t − 2 + β 0 y2t + β1 y 2,t −1 + vt .
Apresente a respectiva representação triangular de Phillips.

39. Suponha que y•t ~ I (1) linear e cointegrado, em que o vector y•t tem quatro com-
ponentes e c•t = α + δ t . Admita que a característica da cointegração é igual a
dois. Apresente a respectiva representação triangular de Phillips.
40. Enuncie o teorema da representação de Granger.
Anexos
[2A]
Álgebra e geometria
dos mínimos quadrados
2A.1 Álgebra dos mínimos quadrados
Nas secções 2.3 (estimação dos coeficientes de regressão pelo método dos mínimos qua-
drados), 2.4 (propriedades dos resíduos dos mínimos quadrados), 2.5 (propriedades do
estimador dos mínimos quadrados dos coeficientes de regressão), 2.6 (estimador não
enviesado da variância das variáveis residuais), 2.7 (coeficiente de determinação) e 2.8
(estimação com restrições lineares sobre os coeficientes de regressão) estudaram-se os
aspectos essenciais da álgebra dos mínimos quadrados.
Na presente secção vão abordar-se alguns tópicos adicionais desta álgebra.
Obtenção do estimador MQ com a técnica «soma e subtrai»
Considerando a expressão de 𝑈̃ 𝑇 𝑈̃ dada por (2.14), tem-se
𝑈̃ 𝑇 𝑈̃ = (𝑌 − 𝑋 𝛽)̃ 𝑇 (𝑌 − 𝑋 𝛽)̃
= 𝑌 𝑇 𝑌 − 𝛽̃𝑇 𝑋 𝑇 𝑌 − 𝑌 𝑇 𝑋 𝛽̃ + 𝛽̃𝑇 𝑋 𝑇 𝑋 𝛽̃
= 𝑌 𝑇 𝑌 − 2𝛽̃𝑇 𝑋 𝑇 𝑌 + 𝛽̃𝑇 𝑋 𝑇 𝑋 𝛽̃ ,
atendendo a que 𝛽̃𝑇 𝑋 𝑇 𝑌 = 𝑌 𝑇 𝑋 𝛽̃.
877
878 Anexo 2A Álgebra e geometria dos mínimos quadrados
Subtraindo e somando 𝑌 𝑇 𝑋(𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 𝑌 , e notando que 𝑋 𝑇 𝑋(𝑋 𝑇 𝑋)−􏷠 = 𝐼𝑘 , obtém-

-se
𝑈̃ 𝑇 𝑈̃ = 𝑌 𝑇 𝑌 − 𝑌 𝑇 𝑋(𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 𝑌 + 𝛽̃𝑇 𝑋 𝑇 𝑋 𝛽̃ + 𝑌 𝑇 𝑋(𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 𝑌 − 2𝛽̃𝑇 𝑋 𝑇 𝑌

= 𝑌 𝑇 {𝐼𝑛 − 𝑋(𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 } 𝑌 + 𝛽̃𝑇 𝑋 𝑇 𝑋 𝛽̃ + 𝑌 𝑇 𝑋(𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 𝑋(𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 𝑌−
− 2𝛽̃𝑇 𝑋 𝑇 𝑋(𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 𝑌 ,
uma vez que 𝑌 𝑇 𝑌 − 𝑌 𝑇 𝑋(𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 𝑌 = 𝑌 𝑇 {𝐼 − 𝑋(𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 }𝑌 .

Finalmente, vem
𝑈̃ 𝑇 𝑈̃ = 𝑌 𝑇 {𝐼𝑛 − 𝑋(𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 } 𝑌 + {𝛽̃ − (𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 𝑌}𝑇 𝑋 𝑇 𝑋{𝛽̃ − (𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 𝑌}.
A expressão a minimizar, em relação a 𝛽̃, é, portanto, a soma de duas parcelas, a pri-

meira das quais não depende de 𝛽̃. Basta, então, minimizar a segunda parcela, que é
uma forma quadrática definida positiva com matriz 𝑋 𝑇 𝑋 . Consequentemente, o valor
de 𝛽̃ que minimiza a forma quadrática é aquele que a anula, o que acontece apenas se
𝛽̃ − (𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 𝑌 = 𝟎; ou seja, o minimizante é 𝑏 = (𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 𝑌 .
Facilmente se mostra que 𝑈̂ 𝑇 𝑈̂ = (𝑌 − 𝑋𝑏)𝑇 (𝑌 − 𝑋𝑏) [a soma dos quadrados dos
resíduos MQ] é o mínimo absoluto de 𝜑(𝛽)̃ = (𝑌 − 𝑋 𝛽)̃ 𝑇 (𝑌 − 𝑋 𝛽)̃ , ou seja,
∀𝛽̃ ∶ (𝑌 − 𝑋 𝛽)̃ 𝑇 (𝑌 − 𝑋 𝛽)̃ ≥ (𝑌 − 𝑋𝑏)𝑇 (𝑌 − 𝑋𝑏).
Com efeito,
̃ 𝑇 {(𝑌 − 𝑋𝑏) + 𝑋(𝑏 − 𝛽)}
{(𝑌 − 𝑋𝑏)+𝑋(𝑏 − 𝛽)} ̃
= (𝑌 − 𝑋𝑏)𝑇 (𝑌 − 𝑋𝑏) + 2(𝑏 − 𝛽)̃ 𝑇 𝑋 𝑇 (𝑌 − 𝑋𝑏) + (𝑏 − 𝛽)̃ 𝑇 𝑋 𝑇 𝑋(𝑏 − 𝛽)̃
= (𝑌 − 𝑋𝑏)𝑇 (𝑌 − 𝑋𝑏) + (𝑏 − 𝛽)̃ 𝑇 𝑋 𝑇 𝑋(𝑏 − 𝛽)̃
≥ (𝑌 − 𝑋𝑏)𝑇 (𝑌 − 𝑋𝑏) ,
uma vez que 𝑋 𝑇 (𝑌 − 𝑋𝑏) = 𝟎 (equações normais), e que (𝑏 − 𝛽)̃ 𝑇 𝑋 𝑇 𝑋(𝑏 − 𝛽)̃ é definida
positiva.
Regressão por blocos

Tal como se fez no final da secção 2.5, a relação 𝑌 = 𝑋𝛽 + 𝑈 pode apresentar-se na forma
𝑌 = 𝑋􏷠 𝛽•􏷠 + 𝑋􏷡 𝛽•􏷡 + 𝑈 , onde
𝑋􏷠 é a matriz 𝑛 × 𝑘􏷠 dos primeiros 𝑘􏷠 regressores;
𝑋􏷡 é a matriz 𝑛 × 𝑘􏷡 dos últimos 𝑘􏷡 regressores;
𝑘􏷠 + 𝑘􏷡 = 𝑘;
Álgebra dos mínimos quadrados 879
𝛽•􏷠 e 𝛽•􏷡 são os respectivos vectores dos coeficientes de regressão.
Assim, tem-se
⎡ 𝛽•􏷠 ⎤
𝑋 = 􏿮 𝑋􏷠 𝑋􏷡 􏿱 e 𝛽=⎢ ⎥,
⎣ 𝛽•􏷡 ⎦
Como 𝑏 = (𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 𝑌 , para estimar 𝛽•􏷠 e 𝛽•􏷡 pelo método MQ faz-se
⎡ 𝑋􏷠𝑇 𝑋􏷠 𝑋􏷠𝑇 𝑋􏷡 ⎤ ⎡ 𝑀􏷠􏷠 𝑀􏷠􏷡 ⎤ ⎡ 𝑋􏷠𝑇 𝑌 ⎤

𝑇
𝑋 𝑋=⎢ ⎥=⎢ ⎥ e 𝑇
𝑋 𝑌=⎢ ⎥,
𝑇 𝑇 𝑇
⎣ 𝑋􏷡 𝑋􏷠 𝑋􏷡 𝑋􏷡 ⎦ ⎣ 𝑀􏷡􏷠 𝑀􏷡􏷡 ⎦ ⎣ 𝑋􏷡 𝑌 ⎦
onde:
𝑀􏷠􏷠 = 𝑋􏷠𝑇 𝑋􏷠 é uma matriz quadrada de ordem 𝑘􏷠 ;
𝑀􏷠􏷡 = 𝑋􏷠𝑇 𝑋􏷡 é uma matriz de tipo 𝑘􏷠 × 𝑘􏷡 ;
𝑀􏷡􏷠 = 𝑋􏷡𝑇 𝑋􏷠 é uma matriz de tipo 𝑘􏷡 × 𝑘􏷠 ;
𝑀􏷡􏷡 = 𝑋􏷡𝑇 𝑋􏷡 é uma matriz quadrada de ordem 𝑘􏷡 .
Para inverter a matriz 𝑋 𝑇 𝑋 por blocos, convém recordar a respectiva técnica de cálculo.
Inversão de matrizes por blocos

Se
⎡ 𝐴􏷠􏷠 𝐴􏷠􏷡 ⎤
𝐴=⎢ ⎥,
⎣ 𝐴􏷡􏷠 𝐴􏷡􏷡 ⎦
tem-se
⎡ 𝐺􏷠 −𝐺􏷠 𝐴􏷠􏷡 𝐴−􏷠
􏷡􏷡 ⎤
−􏷠
𝐴 =⎢ ⎥
−􏷠 −􏷠 −􏷠 −􏷠
⎣ −𝐴􏷡􏷡 𝐴􏷡􏷠 𝐺􏷠 𝐴􏷡􏷡 + 𝐴􏷡􏷡 𝐴􏷡􏷠 𝐺􏷠 𝐴􏷠􏷡 𝐴􏷡􏷡 ⎦
(2A.1)
⎡ 𝐴−􏷠 −􏷠 −􏷠
􏷠􏷠 + 𝐴􏷠􏷠 𝐴􏷠􏷡 𝐺􏷡 𝐴􏷡􏷠 𝐴􏷠􏷠 −𝐴−􏷠􏷠􏷠 𝐴􏷠􏷡 𝐺􏷡 ⎤
=⎢ ⎥,
−􏷠
⎣ −𝐺􏷡 𝐴􏷡􏷠 𝐴􏷠􏷠 𝐺􏷡 ⎦
onde 𝐺􏷠 = (𝐴􏷠􏷠 − 𝐴􏷠􏷡 𝐴−􏷠
􏷡􏷡 𝐴􏷡􏷠 )
−􏷠
e 𝐺􏷡 = (𝐴􏷡􏷡 − 𝐴􏷡􏷠 𝐴−􏷠
􏷠􏷠 𝐴􏷠􏷡 ) .
−􏷠
Aplicando este resultado, tem-se

−􏷠
𝑇 −􏷠
⎡ 𝑀􏷠􏷠 𝑀􏷠􏷡 ⎤ ⎡ 𝑀􏷠􏷠 𝑀􏷠􏷡 ⎤
(𝑋 𝑋) =⎢ ⎥ =⎢ ⎥,
􏷡􏷠
⎣ 𝑀􏷡􏷠 𝑀􏷡􏷡 ⎦ ⎣ 𝑀 𝑀􏷡􏷡 ⎦
onde:
􏷡􏷡 𝑀􏷡􏷠 ) ;
𝑀􏷠􏷠 = (𝑀􏷠􏷠 − 𝑀􏷠􏷡 𝑀−􏷠 −􏷠
􏷡􏷡 𝑀􏷡􏷠 𝑀 ou 𝑀 = −𝑀 𝑀􏷡􏷠 𝑀􏷠􏷠 ;

𝑀􏷡􏷠 = −𝑀−􏷠 􏷠􏷠 􏷡􏷠 􏷡􏷡 −􏷠
􏷠􏷠 𝑀􏷠􏷡 ) ;
𝑀􏷡􏷡 = (𝑀􏷡􏷡 − 𝑀􏷡􏷠 𝑀−􏷠 −􏷠
􏷠􏷠 𝑀􏷠􏷡 𝑀 ou 𝑀 = −𝑀 𝑀􏷠􏷡 𝑀􏷡􏷡 .

𝑀􏷠􏷡 = −𝑀−􏷠 􏷡􏷡 􏷠􏷡 􏷠􏷠 −􏷠
Facilmente se verifica que:

𝑀􏷠􏷠 = (𝑋􏷠𝑇 𝑃􏷡 𝑋􏷠 )−􏷠 , onde 𝑃􏷡 = 𝐼 − 𝐻􏷡 e 𝐻􏷡 = 𝑋􏷡 (𝑋􏷡𝑇 𝑋􏷡 )−􏷠 𝑋􏷡𝑇 ;
𝑀􏷡􏷠 = −(𝑋􏷡𝑇 𝑋􏷡 )−􏷠 𝑋􏷡𝑇 𝑋􏷠 𝑀􏷠􏷠 ou 𝑀􏷡􏷠 = −𝑀􏷡􏷡 𝑋􏷡𝑇 𝑋􏷠 (𝑋􏷠𝑇 𝑋􏷠 )−􏷠 ;
𝑀􏷡􏷡 = (𝑋􏷡𝑇 𝑃􏷠 𝑋􏷡 )−􏷠 , onde 𝑃􏷠 = 𝐼 − 𝐻􏷠 e 𝐻􏷠 = 𝑋􏷠 (𝑋􏷠𝑇 𝑋􏷠 )−􏷠 𝑋􏷠𝑇 ;
𝑀􏷠􏷡 = −(𝑋􏷠𝑇 𝑋􏷠 )−􏷠 𝑋􏷠𝑇 𝑋􏷡 𝑀􏷡􏷡 ou 𝑀􏷠􏷡 = −𝑀􏷠􏷠 𝑋􏷠𝑇 𝑋􏷡 (𝑋􏷡𝑇 𝑋􏷡 )−􏷠 .
Tem-se, então,
⎡ 𝑏•􏷠 ⎤ ⎡ 𝑀􏷠􏷠 −𝑀􏷠􏷠 𝑋􏷠𝑇 𝑋􏷡 (𝑋􏷡𝑇 𝑋􏷡 )−􏷠 ⎤ ⎡ 𝑋􏷠𝑇 𝑌 ⎤
𝑏=⎢ ⎥=⎢ ⎥ ⎢ 𝑇 ⎥.
􏷡􏷡 𝑇 𝑇 −􏷠
⎣ 𝑏•􏷡 ⎦ ⎣ −𝑀 𝑋􏷡 𝑋􏷠 (𝑋􏷠 𝑋􏷠 ) 𝑀􏷡􏷡 ⎦ ⎣ 𝑋􏷡 𝑌 ⎦
Donde
⎡ 𝑏•􏷠 ⎤ ⎡ (𝑀􏷠􏷠 𝑋􏷠𝑇 − 𝑀􏷠􏷠 𝑋􏷠𝑇 𝑋􏷡 (𝑋􏷡𝑇 𝑋􏷡 )−􏷠 𝑋􏷡𝑇 )𝑌 ⎤ ⎡ 𝑀􏷠􏷠 𝑋􏷠𝑇 𝑃􏷡 𝑌 ⎤
𝑏=⎢ ⎥= ⎢ ⎥ = ⎢ 􏷡􏷡 𝑇 ⎥.
􏷡􏷡 𝑇 􏷡􏷡 𝑇 𝑇 −􏷠 𝑇
⎣ 𝑏•􏷡 ⎦ ⎣ (𝑀 𝑋􏷡 − 𝑀 𝑋􏷡 𝑋􏷠 (𝑋􏷠 𝑋􏷠 ) 𝑋􏷠 )𝑌 ⎦ ⎣ 𝑀 𝑋􏷡 𝑃􏷠 𝑌 ⎦
Portanto,
⎧ 𝑏•􏷠 = (𝑋􏷠𝑇 𝑃􏷡 𝑋􏷠 )−􏷠 𝑋􏷠𝑇 𝑃􏷡 𝑌,
⎪
⎨ (2A.2)
⎪ 𝑏•􏷡 = (𝑋 𝑇 𝑃􏷠 𝑋􏷡 )−􏷠 𝑋 𝑇 𝑃􏷠 𝑌.
⎩ 􏷡 􏷡
Notando que 𝑃􏷠 𝑋􏷠 = 𝑂 e 𝑃􏷡 𝑋􏷡 = 𝑂, os respectivos erros de amostragem são
⎧ 𝑏•􏷠 − 𝛽•􏷠 = (𝑋􏷠𝑇 𝑃􏷡 𝑋􏷠 )−􏷠 𝑋􏷠𝑇 𝑃􏷡 𝑈,
⎪
⎨
⎪ 𝑏•􏷡 − 𝛽•􏷡 = (𝑋 𝑇 𝑃􏷠 𝑋􏷡 )−􏷠 𝑋 𝑇 𝑃􏷠 𝑈.
⎩ 􏷡 􏷡
As equações normais, 𝑋 𝑇 𝑋 𝑏 = 𝑋 𝑇 𝑌 , podem escrever-se do seguinte modo:

⎧ 𝑋􏷠𝑇 𝑋􏷠 𝑏•􏷠 + 𝑋􏷠𝑇 𝑋􏷡 𝑏•􏷡 = 𝑋􏷠𝑇 𝑌
⎪
⎨
⎪ 𝑋 𝑇 𝑋􏷠 𝑏•􏷠 + 𝑋 𝑇 𝑋􏷡 𝑏•􏷡 = 𝑋 𝑇 𝑌 .
⎩ 􏷡 􏷡 􏷡
Além da regressão referida,

̂ onde 𝑈̂ = 𝑃𝑋 𝑌, 𝑃𝑋 = 𝐼 − 𝐻𝑋 e 𝐻𝑋 = 𝑋(𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 ,
𝑌 = 𝑋􏷠 𝑏•􏷠 + 𝑋􏷡 𝑏•􏷡 + 𝑈,
considerem-se mais as seguintes:
Álgebra dos mínimos quadrados 881
(1) 𝑌 = 𝑋􏷠 𝑏′•􏷠 + 𝑌̃ 􏷠 , onde 𝑌̃ 􏷠 = 𝑃􏷠 𝑌 é o vector dos resíduos;
(2) 𝑌 = 𝑋􏷡 𝑏′•􏷡 + 𝑌̃ 􏷡 , onde 𝑌̃ 􏷡 = 𝑃􏷡 𝑌 é o vector dos resíduos;
(3) 𝑋􏷡 = 𝑋􏷠 𝐵􏷠 + 𝑋̃ 􏷡 , onde 𝑋̃ 􏷡 = 𝑃􏷠 𝑋􏷡 é a matriz dos resíduos destas 𝑘􏷡 regressões;
(4) 𝑋􏷠 = 𝑋􏷡 𝐵􏷡 + 𝑋̃ 􏷠 , onde 𝑋̃ 􏷠 = 𝑃􏷡 𝑋􏷠 é a matriz dos resíduos destas 𝑘􏷠 regressões;
(5) 𝑌̃ 􏷠 = 𝑋̃ 􏷡 𝑏∗•􏷡 + 𝑈̂ 􏷠 ;
(6) 𝑌̃ 􏷡 = 𝑋̃ 􏷠 𝑏∗•􏷠 + 𝑈̂ 􏷡 .
A regressão (1) permite obter as observações do regressando expurgadas da in-

fluência de 𝑋􏷠 (estes valores são os respectivos resíduos, 𝑌̃ 􏷠 ). Tem-se
𝑏′•􏷠 = (𝑋􏷠𝑇 𝑋􏷠 )−􏷠 𝑋􏷠𝑇 𝑌.
A regressão (2) tem o mesmo objectivo, mas eliminando o efeito de 𝑋􏷡 (os resíduos
respectivos são 𝑌̃ 􏷡 ). Vem
𝑏′•􏷡 = (𝑋􏷡𝑇 𝑋􏷡 )−􏷠 𝑋􏷡𝑇 𝑌.
As regressões (3) visam determinar 𝑋􏷡 «purificado» da influência de 𝑋􏷠 , isto é, 𝑋̃ 􏷡

(𝐵􏷠 é uma matriz 𝑘􏷠 × 𝑘􏷡 ). Obtém-se
𝐵􏷠 = (𝑋􏷠𝑇 𝑋􏷠 )−􏷠 𝑋􏷠𝑇 𝑋􏷡 .
As regressões (4) permitem calcular 𝑋􏷠 corrigido do efeito de 𝑋􏷡 , ou seja, 𝑋̃ 􏷠 (𝐵􏷡 é

uma matriz 𝑘􏷡 × 𝑘􏷠 ). Tem-se
𝐵􏷡 = (𝑋􏷡𝑇 𝑋􏷡 )−􏷠 𝑋􏷡𝑇 𝑋􏷠 .
Em (5) faz-se a regressão com os resíduos obtidos em (1) e (3). Obtém-se
𝑏∗•􏷡 = (𝑋̃ 𝑇􏷡 𝑋̃ 􏷡 )−􏷠 𝑋̃ 𝑇􏷡 𝑌̃ 􏷠 .
O mesmo se passa na regressão (6) com os resíduos calculados em (2) e (4):
𝑏∗•􏷠 = (𝑋̃ 𝑇􏷠 𝑋̃ 􏷠 )−􏷠 𝑋̃ 𝑇􏷠 𝑌̃ 􏷡 .

Podem provar-se os seguintes resultados:
a) 𝑏∗•􏷡 = 𝑏•􏷡 e 𝑏∗•􏷠 = 𝑏•􏷠 .

Com efeito,
𝑏∗•􏷡 = (𝑋̃ 𝑇􏷡 𝑋̃ 􏷡 )−􏷠 𝑋̃ 𝑇􏷡 𝑌̃ 􏷠 = (𝑋􏷡𝑇 𝑃􏷠 𝑋􏷡 )−􏷠 𝑋􏷡𝑇 𝑃􏷠 𝑌 = 𝑏•􏷡 .
Da mesma forma se demonstra que 𝑏∗•􏷠 = 𝑏•􏷠 .
b) 𝑈̂ 􏷠 = 𝑈̂ e 𝑈̂ 􏷡 = 𝑈̂ .
Com efeito, sabe-se que 𝑈̂ 􏷠 = 𝑌̃ 􏷠 − 𝑋̃ 􏷡 𝑏∗•􏷡 . Como 𝑏•􏷠 = (𝑋􏷠𝑇 𝑋􏷠 )−􏷠 (𝑋􏷠𝑇 𝑌 − 𝑋􏷠𝑇 𝑋􏷡 𝑏•􏷡 )
[devido às equações normais], vem
𝑈̂ = 𝑌 − 𝑋􏷠 𝑏•􏷠 − 𝑋􏷡 𝑏•􏷡 = 𝑌 − 𝑋􏷠 (𝑋􏷠𝑇 𝑋􏷠 )−􏷠 (𝑋􏷠𝑇 𝑌 − 𝑋􏷠𝑇 𝑋􏷡 𝑏•􏷡 ) − 𝑋􏷡 𝑏•􏷡

= 𝑃􏷠 𝑌 − 𝑃􏷠 𝑋􏷡 𝑏•􏷡 = 𝑌̃ 􏷠 − 𝑋̃ 􏷡 𝑏∗•􏷡 = 𝑈̂ 􏷠 ,
uma vez que 𝑏∗•􏷡 = 𝑏•􏷡 . Da mesma forma se demonstra que 𝑈̂ 􏷡 = 𝑈̂ .
c) 𝑏•􏷡 = (𝑋̃ 𝑇􏷡 𝑋̃ 􏷡 )−􏷠 𝑋̃ 𝑇􏷡 𝑌 e 𝑏•􏷠 = (𝑋̃ 𝑇􏷠 𝑋̃ 􏷠 )−􏷠 𝑋̃ 𝑇􏷠 𝑌 .

Com efeito,
𝑏•􏷡 = (𝑋̃ 𝑇􏷡 𝑋̃ 􏷡 )−􏷠 𝑋̃ 𝑇􏷡 𝑌̃ 􏷠 = (𝑋̃ 𝑇􏷡 𝑋̃ 􏷡 )−􏷠 𝑋􏷡𝑇 𝑃􏷠 𝑌 = (𝑋̃ 𝑇􏷡 𝑋̃ 􏷡 )−􏷠 𝑋̃ 𝑇􏷡 𝑌.
Pode, então, concluir-se que 𝑏•􏷡 resulta, também, da regressão de 𝑌 sobre 𝑋̃ 􏷡 .

Do mesmo modo se prova a segunda igualdade.
Na secção 2.10, a propósito da dedução do resultado (2.80), demonstrou-se que
𝑈̂ 𝑇𝑟 𝑈̂ 𝑟 − 𝑈̂ 𝑇 𝑈̂ = (𝛿 − 𝑅𝑏)𝑇 {𝑅(𝑋 𝑇 𝑋)−􏷠 𝑅𝑇 }−􏷠 (𝛿 − 𝑅𝑏),
onde 𝛿 = 𝑅𝛽.
Como 𝑈̂ 𝑟 = 𝑌 − 𝑋 𝑏𝑟 = (𝑌 − 𝑋 𝑏) + 𝑋(𝑏 − 𝑏𝑟 ) = 𝑈̂ + 𝑋(𝑏 − 𝑏𝑟 ) [ver (2.63)], resulta que
𝑈̂ 𝑇𝑟 𝑈̂ 𝑟 − 𝑈̂ 𝑇 𝑈̂ = (𝑏 − 𝑏𝑟 )𝑇 𝑋 𝑇 𝑋(𝑏 − 𝑏𝑟 ),
uma vez que 𝑋 𝑇 𝑈̂ = 𝟎.

Pode provar-se que
𝑈̂ 𝑇𝑟 𝑈̂ 𝑟 − 𝑈̂ 𝑇 𝑈̂ = 𝑈̂ 𝑇𝑟 𝐻𝑋 𝑈̂ 𝑟 . (2A.3)
Com efeito, seja
(𝛿 − 𝑅𝑏)𝑇 {𝑅(𝑋 𝑇 𝑋)−􏷠 𝑅𝑇 }−􏷠 (𝛿 − 𝑅𝑏)

= (𝛿 − 𝑅𝑏)𝑇 {𝑅(𝑋 𝑇 𝑋)−􏷠 𝑅𝑇 }−􏷠 𝑅(𝑋 𝑇 𝑋)−􏷠 𝑅𝑇 {𝑅(𝑋 𝑇 𝑋)−􏷠 𝑅𝑇 }−􏷠 (𝛿 − 𝑅𝑏)
= 𝜆 𝑇 𝑅(𝑋 𝑇 𝑋)−􏷠 𝑅𝑇 𝜆,
Interpretações geométricas do método dos mínimos quadrados 883
onde 𝜆 = {𝑅(𝑋 𝑇 𝑋)−􏷠 𝑅𝑇 }−􏷠 (𝛿 − 𝑅𝑏) é o vector dos multiplicadores de Lagrange relativo
a (2.60).
Como 𝑋 𝑇 𝑌 − 𝑋 𝑇 𝑋 𝑏𝑟 + 𝑅𝑇 𝜆 = 𝟎 [condições de 1.ª ordem de (2.60)], vem
𝑋 𝑇 (𝑌 − 𝑋 𝑏𝑟 ) = −𝑅𝑇 𝜆 ou 𝑋 𝑇 𝑈̂ 𝑟 = −𝑅𝑇 𝜆.
Então,
𝑈̂ 𝑇𝑟 𝑈̂ 𝑟 − 𝑈̂ 𝑇 𝑈̂ = 𝑈̂ 𝑇𝑟 𝑋(𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 𝑈̂ 𝑟 = 𝑈̂ 𝑇𝑟 𝐻𝑋 𝑈̂ 𝑟 .
2A.2 Interpretações geométricas do método dos mínimos

quadrados
Na secção 2.3 foi apresentada uma interpretação do método dos mínimos quadrados
para o MRL simples com termo independente, 𝑦𝑡 = 𝛽􏷠 + 𝛽􏷡 𝑥𝑡 + 𝑢𝑡 . Esta interpretação
é feita no espaço ℜ􏷡 das variáveis, considerando a «nuvem» de pontos (𝑥𝑡 , 𝑦𝑡 ), para
𝑡 = 1, 2, … , 𝑛 (ver figuras 2.2 e 2.3). Esta abordagem do método MQ poderia ser fa-
cilmente generalizada para qualquer MRL com termo independente, considerando os
vectores (𝑦𝑡 , 𝑥𝑡􏷡 , … , 𝑥𝑡𝑘 ) do espaço ℜ𝑘 das variáveis (𝑡 = 1, 2, … , 𝑛).
A estimação pelo método dos mínimos quadrados é passível de outra interpretação
geométrica muito sugestiva. Esta interpretação é feita no espaço ℜ𝑛 das observações,
considera o vector 𝑌 e as colunas da matriz 𝑋 (𝑥•􏷠 , 𝑥•􏷡 , … , 𝑥•𝑘 ) como vectores daquele
espaço.
Interpretação geométrica no espaço das observações

Considerando as 𝑘 colunas da matriz 𝑋 como vectores do espaço ℜ𝑛 , todas as combina-
ções lineares destas colunas geram um subespaço 𝐶𝑋 , de dimensão 𝑘, chamado espaço
das colunas da matriz 𝑋 . Como 𝑌 = 𝑋𝛽+𝑈 , o vector 𝑌 das observações do regressando
não pertence a 𝐶𝑋 , isto é, não é combinação linear das colunas da matriz 𝑋 ,
𝑌 ≠ 𝛽􏷠 𝑥•􏷠 + 𝛽􏷡 𝑥•􏷡 + ⋯ + 𝛽𝑘 𝑥•𝑘 .
Na figura 2A.1 supõe-se 𝑘 = 2, e, portanto, o subespaço 𝐶𝑋 é um plano (trata-se do

plano gerado pelos vectores 𝑥•􏷠 e 𝑥•􏷡 , ou seja, é o conjunto de todas as combinações
lineares destes vectores).
A estimação pelo método dos mínimos quadrados implica a determinação de um
vector 𝑌̂ = 𝑋𝑏 pertencente ao subespaço 𝐶𝑋 , que se aproxime «o mais possível» do
vector 𝑌 . A cada vector 𝑌̂ assim obtido corresponde um vector de resíduos 𝑈̂ , tal que
𝑌 = 𝑌̂ + 𝑈̂ . Assim, 𝑌 é a soma de dois vectores, um dos quais, 𝑌̂ = 𝑋𝑏, pertence a 𝐶𝑋 .
Pretende escolher-se 𝑏 de modo que o «erro» cometido seja mínimo, isto é, de forma
que o vector 𝑌̂ esteja o mais «perto» possível do vector 𝑌 . Tal acontece escolhendo 𝑏
Xb
Figura 2A.1 — Interpretação geométrica no espaço das observações.
de forma que o vector 𝑈̂ seja ortogonal ao subespaço 𝐶𝑋 (na situação representada na

figura 2A.1 o vector 𝑈̂ é perpendicular ao plano atrás referido).
Verifica-se, então, que 𝑌̂ é a projecção ortogonal de 𝑌 no espaço 𝐶𝑋 das colunas de
𝑋 . Como 𝑌̂ = 𝐻𝑋 𝑌 , a matriz da projecção (simétrica, idempotente) é 𝐻𝑋 . Obviamente,
𝐻𝑋 𝑋 = 𝑋 e 𝐻𝑋 𝑌̂ = 𝑌̂ , porquanto as colunas de 𝑋 e o vector 𝑌̂ pertencem a 𝐶𝑋 .
Como 𝑈̂ = 𝑃𝑋 𝑌 , 𝑃𝑋 = 𝐼𝑛 − 𝐻𝑋 , 𝑃𝑋 𝐻𝑋 = 𝑂 e 𝑈̂ 𝑇 𝑌̂ = 0, a matriz 𝑃𝑋 (simétrica,
idempotente) é a matriz de projecção de 𝑌 no complemento ortogonal, 𝐶⊥ 𝑋 , do espaço
𝐶𝑋 . Manifestamente tem-se 𝑃𝑋 𝑈̂ = 𝑈̂ , pois 𝑈̂ pertence a 𝐶⊥ 𝑋 .
Pode, então, concluir-se que o espaço ℜ𝑛 é a soma directa dos subespaços 𝐶𝑋 e 𝐶⊥ 𝑋:
ℜ𝑛 = 𝐶𝑋 ⊕ 𝐶⊥ 𝑋 . Deste modo, qualquer vector 𝑌 ∈ ℜ 𝑛
é igual à soma de dois vectores
ortogonais, um pertencente a 𝐶𝑋 , e o outro a 𝐶⊥ 𝑋:
𝑌 = 𝑌̂ + 𝑈,
̂ 𝑈̂ 𝑇 𝑌̂ = 0.
Diz-se, então, que cada um daqueles dois subespaços é o complemento ortogonal do
outro.
Notando que 𝐻𝑋 𝑈̂ = 𝟎, facilmente se conclui que 𝐶⊥
𝑋 é o núcleo da projecção dada
por 𝐻𝑋 . Assim, também se pode interpretar aquela soma directa da seguinte maneira:
A projecção dada por 𝐻𝑋 divide o espaço ℜ𝑛 em dois subespaços ortogonais:
— O contradomínio da projecção, 𝐶𝑋 = { 𝑌̂ ∶ 𝑌̂ = 𝐻𝑋 𝑌, 𝑌 ∈ ℜ𝑛 };
̂ ̂ ̂
𝑋 = { 𝑈 ∶ 𝐻𝑋 𝑈 = 𝟎, 𝑈 ∈ ℜ }.
— O núcleo da projecção, 𝐶⊥ 𝑛
Do mesmo modo, pode deduzir-se sem dificuldade que 𝐶𝑋 é o núcleo da projecção

dada por 𝑃𝑋 (basta notar que 𝑃𝑋 𝑌̂ = 𝟎). Então, ℜ𝑛 = 𝐶𝑋 ⊕ 𝐶⊥
𝑋 pode, ainda, interpretar-
-se da seguinte maneira:
Interpretações geométricas do método dos mínimos quadrados 885
A projecção dada por 𝑃𝑋 divide o espaço ℜ𝑛 em dois subespaços ortogonais:
— O contradomínio da projecção, 𝐶⊥ ̂ ̂
𝑋 = { 𝑈 ∶ 𝑈 = 𝑃𝑋 𝑌, 𝑌 ∈ ℜ };
𝑛
— O núcleo da projecção, 𝐶𝑋 = { 𝑌̂ ∶ 𝑃𝑋 𝑌̂ = 𝟎, 𝑌̂ ∈ ℜ𝑛 }.
[2B]
Variáveis centradas
Considere-se o MRLC com termo independente. Dada uma amostra de dimensão 𝑛,

{(𝑦𝑡 , 𝑥𝑡􏷠 , 𝑥𝑡􏷡 , … , 𝑥𝑡𝑘 ) ∶ 𝑡 = 1, 2, … , 𝑛}, tem-se
𝑦𝑡 = 𝛽􏷠 + 𝛽􏷡 𝑥𝑡􏷡 + ⋯ + 𝛽𝑘 𝑥𝑡𝑘 + 𝑢𝑡 (𝑡 = 1, 2, … , 𝑛). (2B.1)
Neste caso, a matriz dos regressores é
𝑋 = 􏿮 𝑒 𝑋􏷡 􏿱 ,
onde 𝑒 = [ 1 1 ⋯ 1 ]𝑇 e 𝑋􏷡 = 􏿮 𝑥•􏷡 ⋯ 𝑥•𝑘 􏿱 é a matriz de tipo 𝑛 × (𝑘 − 1) das

observações dos regressores (genuínos).
Somando ordenadamente as 𝑛 igualdades (2B.1), e dividindo por 𝑛, tem-se
𝑦 = 𝛽􏷠 + 𝛽􏷡 𝑥􏷡 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝑢, (2B.2)
onde 𝑛 𝑛 𝑛
􏾜 𝑦𝑡 􏾜 𝑥𝑡􏷡 􏾜 𝑥𝑡𝑘
𝑡=􏷠 𝑡=􏷠 𝑡=􏷠
𝑦= , 𝑥􏷡 = ,, … , 𝑥𝑘 =
𝑛 𝑛 𝑛
são, respectivamente, a média das observações do regressando, as médias das observa-
ções dos regressores, e a média das variáveis residuais.
Subtraindo ordenadamente cada uma das 𝑛 igualdades (2B.1), de (2B.2), obtém-se
𝑦𝑡 − 𝑦 = 𝛽􏷡 (𝑥𝑡􏷡 − 𝑥􏷡 ) + ⋯ + 𝛽𝑘 (𝑥𝑡𝑘 − 𝑥𝑘 ) + (𝑢𝑡 − 𝑢) (𝑡 = 1, 2, … , 𝑛).
Fazendo
𝑦𝑐𝑡 = 𝑦𝑡 − 𝑦, 𝑥𝑐𝑡􏷡 = 𝑥𝑡􏷡 − 𝑥􏷡 , … , 𝑥𝑐𝑡𝑘 = 𝑥𝑡𝑘 − 𝑥𝑘 , 𝑢𝑐𝑡 = 𝑢𝑡 − 𝑢 (𝑡 = 1, 2, … , 𝑛),
887
888 Anexo 2B Variáveis centradas
tem-se
𝑦𝑐𝑡 = 𝛽􏷡 𝑥𝑐𝑡􏷡 + ⋯ + 𝛽𝑘 𝑥𝑐𝑡𝑘 + 𝑢𝑐𝑡 (𝑡 = 1, 2, … , 𝑛),
ou, com a notação matricial,
𝑌𝑐 = 𝑋𝑐 𝛽𝑐 + 𝑈𝑐 , (2B.3)
onde:
𝑌𝑐 é o vector 𝑛 × 1 das observações centradas do regressando, 𝑦𝑐𝑡 ;
𝑋𝑐 é a matriz de tipo 𝑛 × (𝑘 − 1) das observações centradas dos regressores, 𝑥𝑐𝑡𝑗 , para

𝑗 = 2, … , 𝑘;
𝛽𝑐 é o vector (𝑘 − 1) × 1 dos coeficientes de regressão, 𝛽𝑗 (𝑗 = 2, … , 𝑘);
𝑈𝑐 é o vector 𝑛 × 1 das variáveis residuais centradas, 𝑢𝑐𝑡 .
Obteve-se, assim, um conjunto de 𝑛 igualdades em variáveis centradas, pois «centraram-

-se» as observações das variáveis em torno das respectivas médias.
A relação 𝑌𝑐 = 𝑋𝑐 𝛽𝑐 +𝑈𝑐 pode ser obtido da respectiva relação em variáveis originais,
𝑌 = 𝑋𝛽 + 𝑈 , pré-multiplicando ambos os membros desta igualdade pela matriz de
centragem,
1
𝑃𝑒 = 𝐼𝑛 − 𝑒 𝑒𝑇 , (2B.4)
𝑛
ou
⎡ 1 1 1 ⎤
⎢ 1− 𝑛 −
𝑛
⋯ −
𝑛 ⎥
⎢ ⎥
⎢ −1 1−
1
⋯ −
1 ⎥
𝑃𝑒 = ⎢ 𝑛 𝑛 𝑛 ⎥.
⎢ ⋮ ⋮ ⋮ ⎥
⎢ ⎥
⎢ 1 1 1 ⎥
⎢ − − ⋯ 1− ⎥
⎣ 𝑛 𝑛 𝑛 ⎦
Assim, notando que
𝑃 𝑒 𝑌 = 𝑌𝑐 , 𝑃 𝑒 𝑋 = 𝑃𝑒 [ 𝑒 𝑋 􏷡 ] = [ 𝟎 𝑋 𝑐 ] , 𝑃 𝑒 𝑈 = 𝑈 𝑐 ,
conclui-se facilmente que
𝑃𝑒 𝑌 = 𝑃𝑒 𝑋𝛽 + 𝑃𝑒 𝑈 ⇔ 𝑌𝑐 = 𝑋𝑐 𝛽𝑐 + 𝑈𝑐 .
Verifica-se sem dificuldade que a matriz 𝑃𝑒 é simétrica, idempotente e semidefinida po-

sitiva [a característica é 𝑛 − 1: 𝑟(𝑃𝑒 ) = tr(𝑃𝑒 ) = 𝑛 − 1]. Assim, 𝑃𝑒 representa uma projecção
Variáveis centradas 889
ortogonal que permite projectar qualquer vector de ℜ𝑛 no complemento ortogonal do

subespaço gerado pelo vector 𝑒.
Facilmente se conclui que Cov(𝑈𝑐 | 𝑋𝑐 ) = Cov(𝑈𝑐 ) = 𝜎􏷡 𝑃𝑒 ≠ 𝜎􏷡 𝐼𝑛 . Então, o vector
aleatório 𝑈𝑐 é degenerado, e existe uma relação linear entre as variáveis residuais 𝑢𝑐𝑡 :
𝑢𝑐􏷠 + ⋯ + 𝑢𝑐𝑛 = 0.
Apesar disso, propõe-se
⎡ 𝑏𝑐􏷡 ⎤
⎢ ⎥
𝑏𝑐 = ⎢ ⋮ ⎥ = (𝑋𝑐𝑇 𝑋𝑐 )−􏷠 𝑋𝑐𝑇 𝑌𝑐 = (𝑋􏷡𝑇 𝑃𝑒 𝑋􏷡 )−􏷠 𝑋􏷡𝑇 𝑃𝑒 𝑌 (2B.5)
⎢ 𝑏𝑐 ⎥
⎣ 𝑘 ⎦
como estimador de 𝛽𝑐 . O estimador a propor para 𝛽􏷠 é
𝑏𝑐􏷠 = 𝑦 − (𝑏𝑐􏷡 𝑥􏷡 + ⋯ + 𝑏𝑐𝑘 𝑥𝑘 ), (2B.6)
motivado pela igualdade referente às médias, (2B.2).

Vai demonstrar-se que
𝑏𝑐
𝑏 = 􏿰 􏷠 􏿳,
𝑏𝑐
isto é, os estimadores (2B.5) e (2B.6), no contexto das variáveis centradas, fornecem os
mesmos resultados que o estimador 𝑏 de 𝛽, já conhecido do MRLC (variáveis originais).
Com efeito, considere-se a matriz 𝑋 𝑇 𝑋 em variáveis originais,
𝑇
⎡ 𝑒𝑇 ⎤ ⎡ 𝑛 𝑒𝑇 𝑋􏷡 ⎤
𝑋 𝑋=⎢ 􏿮 𝑒 𝑋􏷡 􏿱 = ⎢ ⎥.
𝑇 ⎥ 𝑇 𝑇
⎣ 𝑋􏷡 ⎦ ⎣ 𝑋􏷡 𝑒 𝑋􏷡 𝑋􏷡 ⎦
Fazendo
⎡ 𝑥􏷡 ⎤
1
𝑋 􏷡 = ⎢ ⋮ ⎥ = 𝑋􏷡𝑇 𝑒,
⎢ 𝑥 ⎥ 𝑛
⎣ 𝑘 ⎦
obtém-se
⎡ 𝑇⎤
𝑛 𝑛𝑋 􏷡
𝑋 𝑋=⎢ 𝑇 ⎥.
⎢ 𝑛𝑋 􏷡 𝑋􏷡 𝑋􏷡 ⎥
𝑇
⎣ ⎦
Invertendo esta matriz por blocos, obtém-se
⎡ (1/𝑛) + 𝑋 𝑇 (𝑋 𝑇 𝑋 − 𝑛𝑋 𝑋 𝑇 )−􏷠 𝑋 𝑇 𝑇
−𝑋 􏷡 (𝑋􏷡𝑇 𝑋􏷡 − 𝑛𝑋 􏷡 𝑋 􏷡 )−􏷠 ⎤
􏷡 􏷡 􏷡 􏷡 􏷡 􏷡
(𝑋 𝑇 𝑋)−􏷠 =⎢ 𝑇 𝑇
⎥.
⎢ −(𝑋􏷡𝑇 𝑋􏷡 − 𝑛𝑋 􏷡 𝑋 􏷡 )−􏷠 𝑋 􏷡 𝑇
(𝑋􏷡 𝑋􏷡 − 𝑛𝑋 􏷡 𝑋 􏷡 )−􏷠 ⎥
⎣ ⎦
Notando que
𝑇
𝑋𝑐𝑇 𝑋𝑐 = 𝑋􏷡𝑇 𝑃𝑒 𝑋􏷡 = 𝑋􏷡𝑇 𝑋􏷡 − (1/𝑛)𝑋􏷡𝑇 𝑒 𝑒𝑇 𝑋􏷡 = 𝑋􏷡𝑇 𝑋􏷡 − 𝑛𝑋 􏷡 𝑋 􏷡 ,
obtém-se
⎡ 𝑇 𝑇 ⎤
(1/𝑛) + 𝑋 􏷡 (𝑋𝑐𝑇 𝑋𝑐 )−􏷠 𝑋 􏷡 −𝑋 􏷡 (𝑋𝑐𝑇 𝑋𝑐 )−􏷠
𝑇
(𝑋 𝑋) −􏷠
= ⎢ ⎥,
⎢ −(𝑋𝑐𝑇 𝑋𝑐 )−􏷠 𝑋 􏷡 (𝑋𝑐𝑇 𝑋𝑐 )−􏷠 ⎥
⎣ ⎦
o que mostra que (𝑋𝑐𝑇 𝑋𝑐 )−􏷠 pode ser calculado a partir de (𝑋 𝑇 𝑋)−􏷠 , eliminando a pri-
meira linha e a primeira coluna.
Seja
⎡ 𝑒𝑇 𝑌 ⎤ ⎡ 𝑛𝑦 ⎤
𝑋𝑇 𝑌 = ⎢ ⎥ = ⎢ 𝑇 ⎥.
𝑇
⎣ 𝑋􏷡 𝑌 ⎦ ⎣ 𝑋􏷡 𝑌 ⎦
Como
𝑋𝑐𝑇 𝑌𝑐 = 𝑋􏷡𝑇 𝑃𝑒 𝑌 = 𝑋􏷡𝑇 𝑌 − (1/𝑛)𝑋􏷡𝑇 𝑒 𝑒𝑇 𝑌 = 𝑋􏷡𝑇 𝑌 − 𝑛𝑋 􏷡 𝑦,
obtém-se
⎡ 𝑛𝑦 ⎤
𝑋 𝑌=⎢
𝑇 ⎥.
⎢ 𝑋𝑐𝑇 𝑌𝑐 + 𝑛𝑋 􏷡 𝑦 ⎥
⎣ ⎦
Então,
⎡ 𝑇 𝑇 ⎤ ⎡ 𝑛𝑦 ⎤
(1/𝑛) + 𝑋 􏷡 (𝑋𝑐𝑇 𝑋𝑐 )−􏷠 𝑋 􏷡 −𝑋 􏷡 (𝑋𝑐𝑇 𝑋𝑐 )−􏷠
𝑏 = (𝑋 𝑋) 𝑋 𝑌 = ⎢
𝑇 −􏷠 𝑇 ⎥ ⎢ ⎥,
⎢ −(𝑋𝑐𝑇 𝑋𝑐 )−􏷠 𝑋 􏷡 (𝑋𝑐𝑇 𝑋𝑐 )−􏷠 ⎥ ⎢ 𝑋𝑐𝑇 𝑌𝑐 + 𝑛𝑋 􏷡 𝑦 ⎥
⎣ ⎦ ⎣ ⎦
ou
⎡ 𝑇 ⎤ ⎡ 𝑇 ⎤
𝑦 − 𝑋 􏷡 (𝑋𝑐𝑇 𝑋𝑐 )−􏷠 𝑋𝑐𝑇 𝑌𝑐 𝑦 − 𝑋 􏷡 𝑏𝑐 ⎡ 𝑏𝑐􏷠 ⎤
𝑏= ⎢ ⎥ = ⎢ ⎥=
⎢ ⎥.
⎢ (𝑋𝑐𝑇 𝑋𝑐 )−􏷠 𝑋𝑐𝑇 𝑌𝑐 ⎥ ⎢ 𝑏𝑐 ⎥ ⎣ 𝑏𝑐 ⎦
⎣ ⎦ ⎣ ⎦
Assim, fica provado que se podem obter os estimadores 𝑏􏷡 , … , 𝑏𝑘 utilizando variáveis
centradas, com uma fórmula semelhante à que se havia deduzido com variáveis origi-
nais, passando-se depois ao cálculo de 𝑏􏷠 , por diferença.
Pode, também, verificar-se que os resíduos MQ são os mesmos, quer se trabalhe
com variáveis originais, quer com variáveis centradas. Com efeito, a partir de
𝑦𝑡 = 𝑏􏷠 + 𝑏􏷡 𝑥𝑡􏷡 + ⋯ + 𝑏𝑘 𝑥𝑡𝑘 + 𝑢̂ 𝑡 (𝑡 = 1, 2, … , 𝑛),
obtém-se
𝑦 = 𝑏􏷠 + 𝑏􏷡 𝑥􏷡 + ⋯ + 𝑏𝑘 𝑥𝑘 , (2B.7)
uma vez que a média dos resíduos MQ é nula. Donde,
𝑦𝑐𝑡 = 𝑏􏷡 𝑥𝑐𝑡􏷡 + ⋯ + 𝑏𝑘 𝑥𝑐𝑡𝑘 + 𝑢̂ 𝑡 (𝑡 = 1, 2, … , 𝑛). (2B.8)
Como Cov(𝑏|𝑋) = 𝜎􏷡 (𝑋 𝑇 𝑋)−􏷠 , facilmente se obtém

𝑇
Var(𝑏􏷠 | 𝑋) = 𝜎􏷡 {(1/𝑛) + 𝑋 􏷡 (𝑋𝑐𝑇 𝑋𝑐 )−􏷠 𝑋 􏷡 }, (2B.9)
Cov(𝑏𝑐 | 𝑋) = 𝜎􏷡 (𝑋𝑐𝑇 𝑋𝑐 )−􏷠 , (2B.10)
Cov(𝑏𝑐 , 𝑏􏷠 | 𝑋) = −𝜎􏷡 (𝑋𝑐𝑇 𝑋𝑐 )−􏷠 𝑋 􏷡 . (2B.11)

Evidentemente, o estimador não enviesado de 𝜎􏷡 continua a ser 𝑠􏷡 .
Antes de prosseguir, convém considerar as matrizes que permitem o cálculo de 𝑏 e
𝑏𝑐 . Como se sabe, estas são, respectivamente,
𝑛
𝑋 𝑇 𝑋 , de elemento genérico 𝑚𝑖𝑗 = ∑𝑡=􏷠 𝑥𝑡𝑖 𝑥𝑡𝑗 (𝑖, 𝑗 = 1, 2, … , 𝑘);
𝑛
𝑋 𝑇 𝑌 , de elemento genérico 𝑚𝑗𝑦 = ∑𝑡=􏷠 𝑥𝑡𝑗 𝑦𝑡 (𝑗 = 1, 2, … , 𝑘);
𝑛
𝑋𝑐𝑇 𝑋𝑐 , de elemento genérico 𝑚𝑐𝑖𝑗 = ∑𝑡=􏷠 𝑥𝑐𝑡𝑖 𝑥𝑐𝑡𝑗 (𝑖, 𝑗 = 2, … , 𝑘);
𝑛
𝑋𝑐𝑇 𝑌𝑐 , de elemento genérico 𝑚𝑐𝑗𝑦 = ∑𝑡=􏷠 𝑥𝑐𝑡𝑗 𝑦𝑐𝑡 (𝑗 = 2, … , 𝑘).
Não é difícil estabelecer as relações entre os elementos destas matrizes em variáveis

centradas e em variáveis originais. Tem-se:
􏷡
𝑚𝑐𝑗𝑗 = 𝑚𝑗𝑗 − 𝑛 𝑥𝑗 (𝑗 = 2, … , 𝑘);
𝑚𝑐𝑖𝑗 = 𝑚𝑖𝑗 − 𝑛 𝑥𝑖 𝑥𝑗 (𝑖, 𝑗 = 2, … , 𝑘; 𝑖 ≠ 𝑗);
𝑚𝑐𝑗𝑦 = 𝑚𝑗𝑦 − 𝑛 𝑥𝑗 𝑦 (𝑗 = 2, … , 𝑘).
Fazendo 𝑚𝑦𝑦 = Σ𝑛𝑡=􏷠 𝑦􏷡𝑡 e 𝑚𝑐𝑦𝑦 = Σ𝑛𝑡=􏷠 (𝑦𝑐𝑡 )􏷡 , também se tem

􏷡
𝑚𝑐𝑦𝑦 = 𝑚𝑦𝑦 − 𝑛 𝑦 .
Seja o modelo de regressão linear simples, 𝑦𝑡 = 𝛽􏷠 + 𝛽􏷡 𝑥𝑡 + 𝑢𝑡 . Tem-se:

∑𝑛 𝑥𝑐𝑡 𝑦𝑐𝑡 𝑚𝑐𝑥𝑦
𝑏􏷡 = 𝑛𝑡=􏷠 𝑐 􏷡 = 𝑐 ,
∑ (𝑥𝑡 ) 𝑚𝑥𝑥
𝑡=􏷠
𝑏􏷠 = 𝑦 − 𝑏􏷡 𝑥,
𝜎􏷡
Var(𝑏􏷡 | 𝑋) = ,
𝑚𝑐𝑥𝑥
􏷡
⎛1 𝑥 ⎞
Var(𝑏􏷠 | 𝑋) = 𝜎 ⎜ + 𝑐 ⎟,􏷡
⎝𝑛 𝑚𝑥𝑥 ⎠
𝑥
Cov(𝑏􏷠 , 𝑏􏷡 | 𝑋) = −𝜎􏷡 ,
𝑚𝑐𝑥𝑥
∑𝑛 𝑢̂ 􏷡𝑡
􏷡
𝑠 = 𝑡=􏷠
.
𝑛−2
Estes resultados devem ser interpretados de forma conveniente. Por exemplo, a fór-
mula da variância (condicionada) do estimador MQ de 𝛽􏷡 mostra que a precisão da
estimação é tanto maior quanto maior for a precisão das variáveis residuais (medida
por 𝜎􏷡 ), e quanto maior for a dispersão das observações do regressor (medida por 𝑚𝑐𝑥𝑥 ).
Pode relacionar-se o coeficiente de correlação amostral entre as observações do re-
gressando e do regressor com a estimativa MQ de 𝛽􏷡 . Tem-se
(𝑚𝑐𝑥𝑦 )􏷡 𝑚𝑐𝑥𝑦
𝑟􏷡𝑥𝑦 = = 𝑏􏷡 . (2B.12)
𝑚𝑐𝑥𝑥 𝑚𝑐𝑦𝑦 𝑚𝑐𝑦𝑦
Prova-se, também, que

𝑛
􏾜 𝑢̂ 􏷡𝑡 = 𝑚𝑐𝑦𝑦 (1 − 𝑟􏷡𝑥𝑦 ), (2B.13)
𝑡=􏷠
ou seja, a soma dos quadrados dos resíduos MQ é tanto menor quanto maior for o
coeficiente de correlação, em valor absoluto, entre os 𝑦𝑡 e os 𝑥𝑡 .
Com efeito, notando que 𝑦̂ 𝑐𝑡 = 𝑏􏷡 𝑥𝑐𝑡 , e atendendo à propriedade 2.10 dos resíduos
MQ e a (2B.12), obtém-se
𝑛 𝑛 𝑛
􏾜 𝑢̂ 􏷡𝑡 = 􏾜 (𝑦𝑐𝑡 )􏷡 − 􏾜 (𝑦̂ 𝑐𝑡 )􏷡 = 𝑚𝑐𝑦𝑦 − 𝑏􏷡􏷡 𝑚𝑐𝑥𝑥 = 𝑚𝑐𝑦𝑦 − 𝑏􏷡 𝑚𝑐𝑥𝑦 = 𝑚𝑐𝑦𝑦 (1 − 𝑟􏷡𝑥𝑦 ).
𝑡=􏷠 𝑡=􏷠 𝑡=􏷠
No caso do modelo 𝑦𝑡 = 𝛽􏷠 + 𝛽􏷡 𝑥𝑡􏷡 + 𝛽􏷢 𝑥𝑡􏷢 + 𝑢𝑡 (MRLC com termo independente e dois

regressores), têm-se os seguintes resultados:
𝑚𝑐􏷢􏷢 𝑚𝑐􏷡𝑦 − 𝑚𝑐􏷡􏷢 𝑚𝑐􏷢𝑦
𝑏􏷡 = ;
𝑚𝑐􏷡􏷡 𝑚𝑐􏷢􏷢 − (𝑚𝑐􏷡􏷢 )􏷡
𝑚𝑐􏷡􏷡 𝑚𝑐􏷢𝑦 − 𝑚𝑐􏷡􏷢 𝑚𝑐􏷡𝑦
𝑏􏷢 = ;
𝑚𝑐􏷡􏷡 𝑚𝑐􏷢􏷢 − (𝑚𝑐􏷡􏷢 )􏷡
𝑏􏷠 = 𝑦 − 𝑏􏷡 𝑥􏷡 − 𝑏􏷢 𝑥􏷢 ;
𝜎􏷡 𝑚𝑐􏷢􏷢 𝜎􏷡
Var(𝑏􏷡 | 𝑋) = 𝑐 􏷡 = ;
𝑚𝑐􏷡􏷡 𝑚𝑐􏷢􏷢 − (𝑚􏷡􏷢 ) 𝑚𝑐􏷡􏷡 (1 − 𝑟􏷡􏷡􏷢 )
𝜎􏷡 𝑚𝑐􏷡􏷡 𝜎􏷡
Var(𝑏􏷢 | 𝑋) = 𝑐 􏷡 = ;
𝑚𝑐􏷡􏷡 𝑚𝑐􏷢􏷢 − (𝑚􏷡􏷢 ) 𝑐
𝑚􏷢􏷢 (1 − 𝑟􏷡􏷡􏷢 )
−𝜎􏷡 𝑚𝑐􏷡􏷢 −𝜎􏷡 𝑟􏷡􏷡􏷢

Cov(𝑏􏷡 , 𝑏􏷢 | 𝑋) = = ;
𝑚𝑐􏷡􏷡 𝑚𝑐􏷢􏷢 − (𝑚𝑐􏷡􏷢 )􏷡 𝑚𝑐􏷡􏷢 (1 − 𝑟􏷡􏷡􏷢 )
1 𝑥􏷡 𝑚𝑐􏷢􏷢 − 2𝑥􏷡 𝑥􏷢 𝑚𝑐􏷡􏷢 + 𝑥􏷢 𝑚𝑐􏷡􏷡
Var(𝑏􏷠 | 𝑋) = 𝜎􏷡 􏿰 + 􏿳=
𝑛 𝑚𝑐􏷡􏷡 𝑚𝑐􏷢􏷢 − (𝑚𝑐􏷡􏷢 )􏷡
𝜎􏷡 􏷡 􏷡
= + 𝑥􏷡 Var(𝑏􏷡 | 𝑋) + 2𝑥􏷡 𝑥􏷢 Cov(𝑏􏷡 , 𝑏􏷢 | 𝑋) + 𝑥􏷢 Var(𝑏􏷢 | 𝑋);
𝑛
−𝜎􏷡 (𝑥􏷡 𝑚𝑐􏷢􏷢 − 𝑥􏷢 𝑚𝑐􏷡􏷢 )
Cov(𝑏􏷠 , 𝑏􏷡 | 𝑋) = = −{𝑥􏷡 Var(𝑏􏷡 | 𝑋) + 𝑥􏷢 Cov(𝑏􏷡 , 𝑏􏷢 | 𝑋)};
𝑚𝑐􏷡􏷡 𝑚𝑐􏷢􏷢 − (𝑚𝑐􏷡􏷢 )􏷡
−𝜎􏷡 (𝑥􏷢 𝑚𝑐􏷡􏷡 − 𝑥􏷢 𝑚𝑐􏷡􏷢 )
Cov(𝑏􏷠 , 𝑏􏷢 | 𝑋) = = −{𝑥􏷡 Cov(𝑏􏷡 , 𝑏􏷢 | 𝑋) + 𝑥􏷢 Var(𝑏􏷢 | 𝑋)};
𝑚𝑐􏷡􏷡 𝑚𝑐􏷢􏷢 − (𝑚𝑐􏷡􏷢 )􏷡
𝑛
􏾜 𝑢̂ 􏷡𝑡
􏷡
𝑠 = 𝑡=􏷠
,
𝑛−3
onde 𝑟􏷡􏷢 é o coeficiente de correlação (amostral) entre as observações dos dois regres-
sores.
É possível apresentar interpretações muito sugestivas das fórmulas anteriores. Por
exemplo, a fórmula da variância condicionada de 𝑏􏷡 põe em evidência que a precisão
da estimação de 𝛽􏷡 é tanto maior quanto maior for a precisão das variáveis residuais
(medida por 𝜎􏷡 ), quanto maior for a dispersão das observações do respectivo regressor
(medida por 𝑚𝑐􏷡􏷡 ), e quanto menor for o grau de associação linear entre os dois regres-
sores (medido por 𝑟􏷡􏷡􏷢 ).
Fica ao cuidado do leitor verificar que
𝑛 𝑛 𝑛
􏾜 𝑢̂ 􏷡𝑡 = 􏾜 (𝑦𝑐𝑡 )􏷡 − 􏾜 (𝑦̂ 𝑐𝑡 )􏷡 = 𝑚𝑐𝑦𝑦 − (𝑏􏷡 𝑚𝑐􏷡𝑦 + 𝑏􏷢 𝑚𝑐􏷢𝑦 ). (2B.14)
𝑡=􏷠 𝑡=􏷠 𝑡=􏷠
[2C]
Coeficientes de correlação
Considere-se o MRLC com termo independente. Dada uma amostra de dimensão 𝑛,

{(𝑦𝑡 , 𝑥𝑡􏷠 , 𝑥𝑡􏷡 , … , 𝑥𝑡𝑘 ) ∶ 𝑡 = 1, 2, … , 𝑛}, pode construir-se a matriz das correlações amos-
trais (simples) entre as observações dos regressores, e o vector das correlações amos-
trais (simples) entre as observações de cada regressor e as observações do regressando.
Assim,
⎡ 1 𝑟􏷡􏷢 𝑟􏷡􏷣 ⋯ 𝑟􏷡𝑘 ⎤ ⎡ 𝑟􏷡𝑦 ⎤
⎢ 𝑟􏷡􏷢 1 𝑟􏷢􏷣 ⋯ 𝑟􏷢𝑘 ⎥ ⎢ 𝑟􏷢𝑦 ⎥
𝑅𝑥𝑥 = ⎢ 𝑟􏷡􏷣 𝑟􏷢􏷣 1 ⋯ 𝑟􏷣𝑘 ⎥ ; 𝑟𝑥𝑦 = ⎢ 𝑟􏷣𝑦 ⎥ , (2C.1)
⎢ ⋮ ⋮ ⋮ ⋮ ⎥ ⎢ ⋮ ⎥
⎢ ⎥ ⎢ ⎥
𝑟 𝑟
⎣ 􏷡𝑘 􏷢𝑘 􏷣𝑘 𝑟 ⋯ 1 ⎦ 𝑟
⎣ 𝑘𝑦 ⎦
onde:
𝑛
􏾜 (𝑥𝑡𝑖 − 𝑥𝑖 )(𝑥𝑡𝑗 − 𝑥𝑗 ) 𝑚𝑐𝑖𝑗 𝑚𝑐𝑖𝑗
𝑡=􏷠
𝑟𝑖𝑗 = 𝑛 𝑛
= = (𝑖, 𝑗 = 2, … , 𝑘; 𝑖 ≠ 𝑗);
(𝑥𝑡𝑖 − 𝑥𝑖 )􏷡 􏾜 (𝑥𝑡𝑗 − 𝑥𝑗 )􏷡 𝑐 𝑐 𝑛 𝑠𝑖 𝑠𝑗
􏾜 √𝑚𝑖𝑖 𝑚𝑗𝑗
􏽯 𝑡=􏷠 􏽯 𝑡=􏷠 􏽯
𝑛
􏾜 (𝑥𝑡𝑗 − 𝑥𝑗 )(𝑦𝑡 − 𝑦) 𝑚𝑐𝑗𝑦 𝑚𝑐𝑗𝑦
𝑡=􏷠
𝑟𝑗𝑦 = 𝑛 𝑛
= = (𝑗 = 2, … , 𝑘);
􏾜 (𝑥𝑡𝑗 − 𝑥𝑗 )􏷡 􏾜 (𝑦𝑡 − 𝑦)􏷡 𝑚𝑐𝑗𝑗 􏽮𝑚𝑐𝑦𝑦 𝑛 𝑠 𝑗 𝑠𝑦
􏽯 𝑡=􏷠 􏽯 𝑡=􏷠 􏽯
1 𝑛 𝑚𝑐𝑗𝑗 1 𝑛 𝑚𝑐𝑦𝑦
𝑠􏷡𝑗 = 􏾜 (𝑥𝑡𝑗 − 𝑥𝑗 )􏷡 = (𝑗 = 2, … , 𝑘); 𝑠􏷡𝑦 = 􏾜 (𝑦𝑡 − 𝑦)􏷡 = .
𝑛 𝑡=􏷠 𝑛 𝑛 𝑡=􏷠 𝑛
Considere-se também a matriz diagonal dos desvios padrão das observações dos re-
gressores, 𝐷𝑥 = diag{𝑠􏷡 , … , 𝑠𝑘 }.
895
896 Anexo 2C Coeficientes de correlação
É possível apresentar o vector 𝑏𝑐 dos estimadores MQ com variáveis centradas (ver

anexo 2B), em função dos desvios padrão amostrais, 𝑠𝑗 e 𝑠𝑦 , e dos coeficientes de corre-
lação amostrais, 𝑟𝑖𝑗 e 𝑟𝑗𝑦 . Com efeito, notando que 𝑚𝑐𝑖𝑗 = 𝑛𝑠𝑖 𝑠𝑗 𝑟𝑖𝑗 e 𝑚𝑐𝑗𝑦 = 𝑛𝑠𝑗 𝑠𝑦 𝑟𝑗𝑦 , tem-se,
respectivamente,
𝑋𝑐𝑇 𝑋𝑐 = 𝑛 𝐷𝑥 𝑅𝑥𝑥 𝐷𝑥 e 𝑋𝑐𝑇 𝑌𝑐 = 𝑛𝑠𝑦 𝐷𝑥 𝑟𝑥𝑦 .
Então,
𝑏𝑐 = 𝑠𝑦 𝐷−􏷠 −􏷠
𝑥 𝑅𝑥𝑥 𝑟𝑥𝑦 . (2C.2)
Vejam-se dois casos particulares:
1) No caso do MRLC simples, 𝑦𝑡 = 𝛽􏷠 + 𝛽􏷡 𝑥𝑡 + 𝑢𝑡 , tem-se [ver (2.22)]
𝑠𝑦
𝑏􏷡 = 𝑟𝑥𝑦 .
𝑠𝑥
2) Considerando o MRLC, 𝑦𝑡 = 𝛽􏷠 + 𝛽􏷡 𝑥𝑡􏷡 + 𝛽􏷢 𝑥𝑡􏷢 + 𝑢𝑡 , vem

𝑠𝑦 𝑟􏷡𝑦 − 𝑟􏷡􏷢 𝑟􏷢𝑦 𝑠𝑦 𝑟􏷢𝑦 − 𝑟􏷡􏷢 𝑟􏷡𝑦
𝑏􏷡 = , 𝑏􏷢 = .
𝑠􏷡 1− 𝑟􏷡􏷡􏷢 𝑠􏷢 1 − 𝑟􏷡􏷡􏷢
Estas fórmulas mostram bem que, por exemplo, o estimador 𝑏􏷡 depende não só
da dispersão dos 𝑦𝑡 e dos 𝑥𝑡􏷡 , e da respectiva correlação, mas também de todas as
outras correlações amostrais que se podem estabelecer entre as observações das
variáveis do modelo.
Os estimadores MQ dos coeficientes de regressão são passíveis de uma outra interpre-
tação muito sugestiva. Para facilitar a exposição considere-se ainda o MRLC,
𝑦𝑡 = 𝛽􏷠 + 𝛽􏷡 𝑥𝑡􏷡 + 𝛽􏷢 𝑥𝑡􏷢 + 𝑢𝑡 ,
e os seguintes ajustamentos (em variáveis centradas):

1) 𝑦𝑐𝑡 = 𝑏􏷡 𝑥𝑐𝑡􏷡 + 𝑏􏷢 𝑥𝑐𝑡􏷢 + 𝑢̂ 𝑡 ;
2) 𝑦𝑐𝑡 = 𝑏􏷡𝑦 𝑥𝑐𝑡􏷡 + 𝑦̃ 𝑐𝑡􏷡 ;
3) 𝑦𝑐𝑡 = 𝑏􏷢𝑦 𝑥𝑐𝑡􏷢 + 𝑦̃ 𝑐𝑡􏷢 ;
4) 𝑥𝑐𝑡􏷢 = 𝑏􏷡􏷢 𝑥𝑐𝑡􏷡 + 𝑥̃ 𝑐𝑡􏷢 ;
5) 𝑥𝑐𝑡􏷡 = 𝑏􏷢􏷡 𝑥𝑐𝑡􏷢 + 𝑥̃ 𝑐𝑡􏷡 .

O ajustamento (1) corresponde ao modelo dado, e os estimadores MQ dos coeficientes
de regressão são (ver anexo 2B):
𝑚𝑐􏷢􏷢 𝑚𝑐􏷡𝑦 − 𝑚𝑐􏷡􏷢 𝑚𝑐􏷢𝑦 𝑚𝑐􏷡􏷡 𝑚𝑐􏷢𝑦 − 𝑚𝑐􏷡􏷢 𝑚𝑐􏷡𝑦
𝑏􏷡 = , 𝑏􏷢 = .
𝑚𝑐􏷡􏷡 𝑚𝑐􏷢􏷢 − (𝑚𝑐􏷡􏷢 )􏷡 𝑚𝑐􏷡􏷡 𝑚𝑐􏷢􏷢 − (𝑚𝑐􏷡􏷢 )􏷡
Coeficientes de correlação 897
Os ajustamentos (2) e (3) dizem respeito às regressões simples, e tem-se (ver anexo 2B):
𝑚𝑐􏷡𝑦 𝑠𝑦 𝑚𝑐􏷢𝑦 𝑠𝑦
𝑏􏷡𝑦 = = 𝑟􏷡𝑦 , 𝑏􏷢𝑦 = = 𝑟􏷢𝑦 .
𝑚𝑐􏷡􏷡 𝑠􏷡 𝑚𝑐􏷢􏷢 𝑠􏷢
Os resíduos MQ são, respectivamente, 𝑦̃ 𝑐𝑡􏷡 e 𝑦̃ 𝑐𝑡􏷢 . Por exemplo, 𝑦̃ 𝑐𝑡􏷡 pode ser interpretado
como o valor de 𝑦𝑡 depois de eliminada a influência de 𝑥𝑡􏷡 .
Os ajustamentos (4) e (5) referem-se a duas regressões auxiliares simples (de cada
regressor sobre o outro), obtendo-se:
𝑚𝑐􏷡􏷢 𝑠􏷢 𝑚𝑐􏷢􏷡 𝑠􏷡
𝑏􏷡􏷢 = = 𝑟 􏷡􏷢 , 𝑏 􏷢􏷡 = 𝑐 = 𝑟 .
𝑐
𝑚􏷡􏷡 𝑠􏷡 𝑚􏷢􏷢 𝑠􏷢 􏷡􏷢
Os resíduos MQ são, respectivamente, 𝑥̃ 𝑐𝑡􏷢 e 𝑥̃ 𝑐𝑡􏷡 . Por exemplo, 𝑥̃ 𝑐𝑡􏷢 pode ser interpretado
como o valor de 𝑥𝑡􏷢 depois de eliminada a influência de 𝑥𝑡􏷡 .
Sem dificuldade se estabelecem as seguintes relações:
𝑏􏷡𝑦 − 𝑏􏷡􏷢 𝑏􏷢𝑦 𝑏􏷢𝑦 − 𝑏􏷢􏷡 𝑏􏷡𝑦

𝑏􏷡 = e 𝑏􏷢 = .
1 − 𝑏􏷡􏷢 𝑏􏷢􏷡 1 − 𝑏􏷢􏷡 𝑏􏷡􏷢
Por exemplo, a interpretação da fórmula de 𝑏􏷡 pode ser feita do seguinte modo: o esti-
mador do coeficiente de 𝑥𝑡􏷡 no modelo dado é baseado no estimador do coeficiente da
regressão simples sobre 𝑥𝑡􏷡 , corrigido da presença de 𝑥𝑡􏷢 . Se 𝑥𝑡􏷡 e 𝑥𝑡􏷢 não estão correlacio-
nados tem-se 𝑟􏷡􏷢 = 0 (𝑏􏷡􏷢 = 𝑏􏷢􏷡 = 0) e 𝑏􏷡 = 𝑏􏷡𝑦 . Interpretação semelhante se pode fazer
para 𝑏􏷢 .
De forma sugestiva pode escrever-se 𝑏􏷡 = 𝑏􏷡𝑦⋅􏷢 para significar que este estimador
é expurgado da influência de 𝑥𝑡􏷢 . Da mesma forma, se tem 𝑏􏷢 = 𝑏􏷢𝑦⋅􏷡 . Chamando a
𝑏􏷡𝑦⋅􏷢 e 𝑏􏷢𝑦⋅􏷡 estimadores de ordem 1, e a 𝑏􏷡𝑦 e 𝑏􏷢𝑦 , estimadores de ordem 0, as fórmulas
anteriores estabelecem as relações entre estes dois tipos de estimadores.
A hierarquia entre estimadores MQ, agora estabelecida, pode ser estendida aos co-
eficientes de correlação entre as observações de cada regressor, e as observações do
regressando.
Para facilitar a exposição, considere-se inicialmente o mesmo MRLC com dois re-
gressores (genuínos), 𝑦𝑡 = 𝛽􏷠 + 𝛽􏷡 𝑥𝑡􏷡 + 𝛽􏷢 𝑥𝑡􏷢 + 𝑢𝑡 . Neste caso, têm-se dois coeficientes de
correlação simples, 𝑟􏷡𝑦 e 𝑟􏷢𝑦 . Por exemplo, 𝑟􏷡𝑦 mede o grau de associação linear entre
𝑥𝑡􏷡 e 𝑦𝑡 . Contudo, devido à presença de 𝑥𝑡􏷢 (que está correlacionado com 𝑥𝑡􏷡 e com 𝑦𝑡 ),
𝑟􏷡𝑦 não mede correctamente a correlação pretendida. Então, para se ter a correlação
correcta entre 𝑥𝑡􏷡 e 𝑦𝑡 é necessário remover a associação linear existente entre 𝑥𝑡􏷢 e 𝑥𝑡􏷡 , e
entre 𝑥𝑡􏷢 e 𝑦𝑡 . Assim, deve considerar-se o coeficiente de correlação entre os resíduos 𝑥̃ 𝑐𝑡􏷡
e 𝑦̃ 𝑐𝑡􏷢 , ou coeficiente de correlação parcial entre 𝑥𝑡􏷡 e 𝑦𝑡 . Este coeficiente de correlação
vai representar-se da seguinte maneira:
􏾜 𝑥̃ 𝑐𝑡􏷡 𝑦̃ 𝑐𝑡􏷢
𝑟􏷡𝑦⋅􏷢 = .
􏾜 (𝑥̃ 𝑐𝑡􏷡 )􏷡 􏾜 (𝑦̃ 𝑐𝑡􏷢 )􏷡
􏽯 􏽯
Assim, enquanto o coeficiente de correlação simples, 𝑟􏷡𝑦 , mede o grau de associação
linear entre 𝑥𝑡􏷡 e 𝑦𝑡 , sob a influência de 𝑥𝑡􏷢 , o coeficiente de correlação parcial, 𝑟􏷡𝑦⋅􏷢 ,
mede a correlação entre as mesmas variáveis, expurgada daquela influência.
Atendendo às relações já estabelecidas, sem dificuldade obtêm-se as seguintes igual-
dades: 𝑛 𝑛
􏾜 𝑥̃ 𝑐𝑡􏷡 𝑦̃ 𝑐𝑡􏷢 = 􏾜 (𝑥𝑐𝑡􏷡 − 𝑏􏷢􏷡 𝑥𝑐𝑡􏷢 )(𝑦𝑐𝑡 − 𝑏􏷢𝑦 𝑥𝑐𝑡􏷢 )
𝑡=􏷠 𝑡=􏷠
= 𝑚𝑐􏷡𝑦 − 𝑏􏷢𝑦 𝑚𝑐􏷡􏷢 − 𝑏􏷢􏷡 𝑚𝑐􏷢𝑦 + 𝑏􏷢􏷡 𝑏􏷢𝑦 𝑚𝑐􏷢􏷢
= 𝑛𝑠􏷡 𝑠𝑦 (𝑟􏷡𝑦 − 𝑟􏷢𝑦 𝑟􏷡􏷢 ),
𝑛
􏾜 (𝑥̃ 𝑐𝑡􏷡 )􏷡 = 𝑛𝑠􏷡􏷡 (1 − 𝑟􏷡􏷡􏷢 ) = 𝑚𝑐􏷡􏷡 (1 − 𝑟􏷡􏷡􏷢 ),
𝑡=􏷠
𝑛
􏾜 (𝑦̃ 𝑐𝑡􏷢 )􏷡 = 𝑛𝑠􏷡𝑦 (1 − 𝑟􏷡􏷢𝑦 ) = 𝑚𝑐𝑦𝑦 (1 − 𝑟􏷡􏷢𝑦 ).
𝑡=􏷠
Então,
𝑟􏷡𝑦 − 𝑟􏷢𝑦 𝑟􏷡􏷢
𝑟􏷡𝑦⋅􏷢 = .
􏷡 􏷡
􏽮1 − 𝑟􏷡􏷢 􏽯1 − 𝑟􏷢𝑦
De forma semelhante, tem-se
𝑟􏷢𝑦 − 𝑟􏷡𝑦 𝑟􏷡􏷢
𝑟􏷢𝑦⋅􏷡 = .
􏷡 􏷡
􏽮1 − 𝑟􏷡􏷢 􏽯1 − 𝑟􏷡𝑦
Também se pode demonstrar que
𝑡􏷡􏷡 𝑡􏷡􏷢
𝑟􏷡􏷡𝑦⋅􏷢 = , 𝑟 􏷡
􏷢𝑦⋅􏷡 = ,
𝑡􏷡􏷡 + (𝑛 − 3) 𝑡􏷡􏷢 + (𝑛 − 3)
onde 𝑡􏷡 = 𝑏􏷡 /𝑠𝑏􏷫 e 𝑡􏷢 = 𝑏􏷢 /𝑠𝑏􏷬 são os rácios-𝑡 de 𝑏􏷡 e 𝑏􏷢 , respectivamente, e 𝑛 − 3 é o número

de graus de liberdade.
É vantajoso designar os coeficientes de correlação simples por coeficientes de corre-
lação parciais de ordem 0, e os coeficientes de correlação parciais propriamente ditos
por coeficientes de correlação parciais de ordem 1.
As considerações precedentes podem generalizar-se para situações em que existem
três ou mais regressores genuínos. Por exemplo, no caso do MRLC,
𝑦𝑡 = 𝛽􏷠 + 𝛽􏷡 𝑥𝑡􏷡 + 𝛽􏷢 𝑥𝑡􏷢 + 𝛽􏷣 𝑥𝑡􏷣 + 𝑢𝑡 ,

têm-se os seguintes coeficientes de correlação parciais:

𝑟􏷡𝑦 , 𝑟􏷢𝑦 , 𝑟􏷣𝑦 (3 de ordem 0);
𝑟􏷡𝑦⋅􏷢 , 𝑟􏷡𝑦⋅􏷣 , 𝑟􏷢𝑦⋅􏷡 , 𝑟􏷢𝑦⋅􏷣 , 𝑟􏷣𝑦⋅􏷡 , 𝑟􏷣𝑦⋅􏷢 (6 de ordem 1);
𝑟􏷡𝑦⋅􏷢􏷣 , 𝑟􏷢𝑦⋅􏷡􏷣 , 𝑟􏷣𝑦⋅􏷡􏷢 (3 de ordem 2).
Por exemplo: 𝑟􏷡𝑦⋅􏷣 mede o grau de associação linear entre 𝑥𝑡􏷡 e 𝑦𝑡 , depois de eliminado o
efeito de 𝑥𝑡􏷣 ; 𝑟􏷢𝑦⋅􏷡􏷣 mede a correlação entre 𝑥𝑡􏷢 e 𝑦𝑡 , corrigida a influência de 𝑥𝑡􏷡 e 𝑥𝑡􏷣 . Por
convenção, o coeficiente de determinação, 𝑅􏷡 , pode ser considerado como o quadrado
do coeficiente de correlação parcial de ordem 3. Pode, então, escrever-se 𝑅􏷡 = 𝑟􏷡𝑦⋅􏷡􏷢􏷣 .
Se o modelo tiver 𝑘 − 1 regressores (genuínos), têm-se as seguintes contagens:
Ordem Número
0 𝑘−1
1 𝐶𝑘−􏷠
􏷠 (𝑘 − 2)
2 𝐶𝑘−􏷠
􏷡 (𝑘 − 3)
3 𝐶𝑘−􏷠
􏷢 (𝑘 − 4)
⋮ ⋮
𝑗 𝐶𝑘−􏷠
𝑗 (𝑘 − 𝑗 − 1)
⋮ ⋮
𝑘−2 𝑘−1
𝑘−1 1
onde
(𝑘 − 1)!
𝐶𝑘−􏷠
𝑗 =
𝑗 ! (𝑘 − 1 − 𝑗)!
é o número respectivo de combinações. O coeficiente de correlação parcial de ordem
𝑘 − 1 é a raiz quadrada do coeficiente de determinação, 𝑅􏷡 = 𝑟􏷡𝑦⋅􏷡􏷢…𝑘 .
A ordem de um coeficiente de correlação parcial é facilmente determinada contando
o número de índices depois do ponto. Assim, por exemplo, 𝑟􏷢𝑦⋅􏷡􏷤􏷦 é de ordem 3. O seu
cálculo pode ainda ser feito utilizando a seguinte fórmula:
𝑡􏷡􏷢
𝑟􏷡􏷢𝑦⋅􏷡􏷤􏷦 = ,
𝑡􏷡􏷢 + (𝑛 − 5)
onde: 𝑡􏷢 é o rácio-𝑡 de 𝑏􏷢 na regressão com termo independente, de 𝑦𝑡 sobre 𝑥𝑡􏷡 , 𝑥𝑡􏷢 , 𝑥𝑡􏷤
e 𝑥𝑡􏷦 ; 𝑛 − 5 é o número de graus de liberdade correspondente a esta regressão.
Em geral, tem-se
𝑡􏷡𝑗
𝑟􏷡𝑗𝑦⋅… = 􏷡 , (2C.3)
𝑡𝑗 + gl
onde 𝑡𝑗 é rácio-𝑡 respectivo e gl é o correspondente número de graus de liberdade.

O cálculo dos coeficientes de correlação parciais pode fazer-se utilizando directa-
mente os resíduos MQ. Com efeito, suponha-se, sem perda de generalidade, que pre-
tende determinar-se o coeficiente de correlação parcial de ordem 𝑗 − 2 entre 𝑥𝑡𝑗 e 𝑦𝑡 ,
eliminando o efeito de 𝑥𝑡􏷡 , … , 𝑥𝑡,𝑗−􏷠 . Os ajustamentos a fazer são os seguintes (comparar
com o anexo 2A):
(1) 𝑌 = 𝑋􏷠 𝑏•􏷠 + 𝑏𝑗 𝑥•𝑗 + 𝑈̂ ,
(2) 𝑌 = 𝑋􏷠 𝑏′•􏷠 + 𝑌̃ 􏷠 ,
(3) 𝑥•𝑗 = 𝑋􏷠 𝑏𝑗(􏷠) + 𝑥̃ •𝑗 ,
(4) 𝑌̃ 􏷠 = 𝑏∗𝑗 𝑥̃ •𝑗 + 𝑈̃ 􏷠 ,
onde:
O ajustamento (1) considera todos os regressores até à ordem 𝑗, separando o re-
gressor 𝑥𝑡𝑗 dos primeiros 𝑗 − 1 regressores [as observações do regressor 𝑥𝑡𝑗 formam
o vector 𝑥•𝑗 ; as observações dos primeiros 𝑗 − 1 regressores estão agrupadas na
matriz 𝑋􏷠 , de tipo 𝑛 × (𝑗 − 1); 𝑏•􏷠 e 𝑏𝑗 são os estimadores MQ dos coeficientes de
regressão respectivos].
O ajustamento (2) permite obter as observações do regressando expurgadas da

influência de 𝑋􏷠 (estes valores são os respectivos resíduos, 𝑌̃ 􏷠 ).
No ajustamento (3) determinam-se as observações do regressor 𝑥𝑡𝑗 «purificadas»

da influência de 𝑋􏷠 (estas observações são os resíduos 𝑥̃ •𝑗 ).
No ajustamento (4) faz-se a regressão dos resíduos obtidos no ajustamento (2)

sobre os resíduos obtidos no ajustamento (3).
Tem-se:
𝑥̃ 𝑇•𝑗 𝑌̃ 􏷠 𝑥𝑇•𝑗 𝑃𝑋􏷪 𝑌
𝑟􏷡𝑗𝑦⋅􏷡􏷢…,𝑗−􏷠 = = , (2C.4)
𝑥̃ 𝑇•𝑗 𝑥̃ •𝑗 􏽮(𝑌̃ 􏷠 )𝑇 𝑌̃ 􏷠 𝑥𝑇•𝑗 𝑃𝑋􏷪 𝑥•𝑗 􏽮𝑌 𝑇 𝑃𝑋􏷪 𝑌
􏽯 􏽯
onde 𝑃𝑋􏷪 = 𝐼𝑛 − 𝑋􏷠 (𝑋􏷠𝑇 𝑋􏷠 )𝑋􏷠𝑇 .
O teorema de Frisch-Waugh-Lovell (apresentado no final da secção 2.5) permite in-
terpretar, de outra maneira, os coeficientes de correlação parciais. Considere-se, para
simplificar a exposição, o MRLC com três regressores (genuínos),
𝑦𝑡 = 𝛽􏷠 + 𝛽􏷡 𝑥𝑡􏷡 + 𝛽􏷢 𝑥𝑡􏷢 + 𝛽􏷣 𝑥𝑡􏷣 + 𝑢𝑡 .
Facilmente se conclui que 𝑟􏷡􏷡𝑦 , 𝑟􏷡􏷢𝑦 e 𝑟􏷡􏷣𝑦 (os quadrados dos coeficientes de correlação sim-
ples) medem, respectivamente, a proporção da variação de 𝑦𝑡 explicada por cada 𝑥𝑡𝑗
isoladamente (𝑗 = 2, 3, 4); o coeficiente de determinação, 𝑅􏷡 = 𝑟􏷡𝑦⋅􏷡􏷢􏷣 , permite conhecer

a proporção da variação de 𝑦𝑡 explicada, conjuntamente, por todos os 𝑥𝑡𝑗 (𝑗 = 2, 3, 4).
Os outros coeficientes de correlação parciais (de ordem 1 e 2) também podem ser in-
terpretados de forma semelhante. Por exemplo: 𝑟􏷡􏷡𝑦⋅􏷣 mede a proporção da variação
de 𝑦𝑡 explicada por 𝑥𝑡􏷡 , supondo que 𝑥𝑡􏷣 já tinha sido incluído no modelo; 𝑟􏷡􏷢𝑦⋅􏷡􏷣 calcula
a proporção da variação de 𝑦𝑡 explicada por 𝑥𝑡􏷢 , supondo que 𝑥𝑡􏷡 e 𝑥𝑡􏷣 já tinham sido
incluídos no modelo.
Verifica-se assim que as correlações parciais podem dar um contributo para a de-
cisão de inclusão, ou não, no modelo de mais regressores. Por exemplo, suponha-se
que 𝑟􏷡􏷢𝑦 = 0.95 e 𝑟􏷡􏷢𝑦⋅􏷡 = 0.02. Nesta situação, 𝑥𝑡􏷢 isolado apresenta uma forte correlação
com 𝑦𝑡 , mas a inclusão de 𝑥𝑡􏷢 , depois de 𝑥𝑡􏷡 , pouca ajuda na explicação da variação de
𝑦𝑡 . Deste modo, 𝑥𝑡􏷡 pode desempenhar o papel que isoladamente poderia desempe-
nhar 𝑥𝑡􏷢 .
Uma situação típica ocorre quando os coeficientes de correlação simples (de ordem
0) são grandes, mas os coeficientes de correlação parciais (de ordem 1) são pequenos.
Por exemplo, 𝑟􏷡􏷡𝑦 = 0.97, 𝑟􏷡􏷢𝑦 = 0.95, 𝑟􏷡􏷡𝑦⋅􏷢 = 0.02 e 𝑟􏷡􏷢𝑦⋅􏷡 = 0.01. Neste caso, cada regressor
pode desempenhar o papel do outro.
Os dois exemplos anteriores podem, eventualmente, sugerir a ideia de que os co-
eficientes de correlação simples (de ordem 0) nunca são inferiores aos coeficientes de
correlação parciais (de ordem 1). Contudo, observando, por exemplo, as fórmulas que
relacionam estes coeficientes no modelo 𝑦𝑡 = 𝛽􏷠 + 𝛽􏷡 𝑥𝑡􏷡 + 𝛽􏷢 𝑥𝑡􏷢 + 𝑢𝑡 , facilmente se verifica
que não é verdade. Com efeito, é bem possível ter-se 𝑟􏷡􏷡𝑦 = 0.25 e 𝑟􏷡􏷡𝑦⋅􏷢 = 0.45. Deste
modo, 𝑥𝑡􏷡 explica isoladamente 25% da variação de 𝑦𝑡 , mas 𝑥𝑡􏷡 passa a explicar 45% da
mesma variação, quando 𝑥𝑡􏷢 já tinha sido previamente considerado.
O coeficiente de determinação, 𝑅􏷡 = 𝑟􏷡𝑦⋅􏷡􏷢…𝑘 , pode obter-se exclusivamente a partir
dos coeficientes de correlação simples.
Com efeito, notando que 𝑏𝑐 = 𝑠𝑦 𝐷−􏷠 𝑥 𝑅𝑥𝑥 𝑟𝑥𝑦 e 𝑌𝑐 𝑌𝑐 = 𝑛𝑠𝑦 , tem-se
−􏷠 𝑇 􏷡
𝑌̂ 𝑇𝑐 𝑌̂ 𝑐 𝑏𝑇𝑐 𝑋𝑐𝑇 𝑌𝑐 𝑟𝑇𝑥𝑦 𝑅−􏷠 −􏷠 𝑇

𝑥𝑥 𝐷𝑥 𝑋𝑐 𝑌𝑐
𝑅􏷡 = = = .
𝑌𝑐𝑇 𝑌𝑐 𝑌𝑐𝑇 𝑌𝑐 𝑛𝑠𝑦
Como
⎡ 1/𝑠 0 ⋯ 0 ⎤ ⎡ 𝑚𝑐 ⎤
􏷡 􏷡𝑦
⎢ ⎥ ⎢ ⎥
𝑐
1 −􏷠 𝑇 1 ⎢ 0 1/𝑠􏷢 ⋯ 0 ⎥ ⎢ 𝑚􏷢𝑦 ⎥
𝐷 𝑋 𝑌 = ⎥ = 𝑟𝑥𝑦 ,
𝑛𝑠𝑦 𝑥 𝑐 𝑐 𝑛𝑠𝑦 ⎢ ⋮ ⋮
⎥
⋮ ⎥
⎢
⋮
⎢ ⎢ ⎥
⎢ 0 0 ⋯ 1/𝑠𝑘 ⎥ ⎢ 𝑚𝑐𝑘𝑦 ⎥
⎣ ⎦ ⎣ ⎦
conclui-se, então, que
𝑅􏷡 = 𝑟𝑇𝑥𝑦 𝑅−􏷠
𝑥𝑥 𝑟𝑥𝑦 . (2C.5)
Por exemplo, no caso do modelo 𝑦𝑡 = 𝛽􏷠 + 𝛽􏷡 𝑥𝑡􏷡 + 𝛽􏷢 𝑥𝑡􏷢 + 𝑢𝑡 , tem-se
𝑟􏷡􏷡𝑦 + 𝑟􏷡􏷢𝑦 − 2 𝑟􏷡􏷢 𝑟􏷡𝑦 𝑟􏷢𝑦

􏷡
𝑅 = .
1 − 𝑟􏷡􏷡􏷢
O coeficiente de determinação, 𝑅􏷡 = 𝑟􏷡𝑦⋅􏷡􏷢…𝑘 , pode também relacionar-se com os coe-

ficientes de correlação parciais. Vai começar-se por considerar novamente o modelo
𝑦𝑡 = 𝛽􏷠 + 𝛽􏷡 𝑥𝑡􏷡 + 𝛽􏷢 𝑥𝑡􏷢 + 𝑢𝑡 .
Seja:
(1 − 𝑟􏷡𝑦⋅􏷡􏷢 )𝑚𝑐𝑦𝑦 [VR considerando 𝑥𝑡􏷡 e 𝑥𝑡􏷢 ];
(1 − 𝑟􏷡􏷡𝑦 )𝑚𝑐𝑦𝑦 [VR considerando 𝑥𝑡􏷡 ];
(1 − 𝑟􏷡􏷢𝑦⋅􏷡 )(1 − 𝑟􏷡􏷡𝑦 )𝑚𝑐𝑦𝑦 [VR considerando 𝑥𝑡􏷢 , depois da inclusão de 𝑥𝑡􏷡 ].
(1 − 𝑟􏷡𝑦⋅􏷡􏷢 )𝑚𝑐𝑦𝑦 = (1 − 𝑟􏷡􏷢𝑦⋅􏷡 )(1 − 𝑟􏷡􏷡𝑦 )𝑚𝑐𝑦𝑦 ,
ou
1 − 𝑟􏷡𝑦⋅􏷡􏷢 = (1 − 𝑟􏷡􏷡𝑦 )(1 − 𝑟􏷡􏷢𝑦⋅􏷡 ).
Então,
𝑟􏷡𝑦⋅􏷡􏷢 = 𝑟􏷡􏷡𝑦 + 𝑟􏷡􏷢𝑦⋅􏷡 (1 − 𝑟􏷡􏷡𝑦 ).
Em geral, tem-se
1 − 𝑟􏷡𝑦⋅􏷡􏷢…𝑘 = (1 − 𝑟􏷡􏷡𝑦 )(1 − 𝑟􏷡􏷢𝑦⋅􏷡 )(1 − 𝑟􏷡􏷣𝑦⋅􏷡􏷢 ) ⋯ (1 − 𝑟􏷡𝑘𝑦⋅􏷡􏷢…,𝑘−􏷠 ). (2C.6)
As fórmulas apresentadas permitem também concluir que o quadrado de qualquer co-

eficiente de correlação parcial é inferior ou igual a 𝑅􏷡 .
[2D]
Estimadores de máxima verosimilhança
Seja 𝑤𝑡• um vector 1×𝑚 de variáveis aleatórias cuja função densidade pertence à família
P𝜃̃ = 􏿺 𝑓(𝑤𝑡• | 𝜃)̃ ∶ 𝜃̃ ∈ Θ􏿽 ,
indexada pelo vector 𝜃̃ ∈ Θ ⊂ ℜ𝑝 ; Θ é o respectivo espaço-parâmetro. Considere-se o

modelo formado pelo conjunto de processos estocásticos 𝑖𝑖𝑑, {𝑤𝑡• } (processo estocástico
para cada 𝜃̃ ∈ Θ).
A forma funcional de 𝑓 é conhecida, e é a mesma qualquer que seja 𝑡, uma vez que
se trata de um processo identicamente distribuído. O modelo é paramétrico porque
o vector 𝜃̃ tem um número finito de componentes. Para o verdadeiro valor do vector
dos parâmetros, 𝜃, a densidade 𝑓(𝑤𝑡• | 𝜃) corresponde ao PGD que gerou os dados (o
verdadeiro PGD). Diz-se que o modelo está correctamente especificado se 𝜃 ∈ Θ.
Suponha-se que se tem uma amostra, {𝑤􏷠• , 𝑤􏷡• , … , 𝑤𝑛• }, de dimensão 𝑛, onde 𝑤𝑡• é a
𝑡-ésima observação. Como o processo é independente, a função densidade da amostra
é dada por
𝑛
􏾟 𝑓(𝑤𝑡• | 𝜃). ̃
𝑡=􏷠
Como esta distribuição está completamente especificada, a estimação dos parâmetros
pode ser feita com o método da máxima verosimilhança. A ideia básica deste método
de estimação é a de escolher estimativas para os parâmetros que maximizam a proba-
bilidade de obter a amostra concretamente observada.
Considerando a densidade da amostra como função de 𝜃̃ (e não como função da
amostra), obtém-se a função de verosimilhança,
𝑛
𝐿(𝜃̃ | 𝑤􏷠• , 𝑤􏷡• , … , 𝑤𝑛• ) = 􏾟 ̃
𝑓(𝑤𝑡• | 𝜃). (2D.1)
𝑡=􏷠
903
904 Anexo 2D Estimadores de máxima verosimilhança
Para simplificar a escrita, podem utilizar-se os símbolos 𝐿(𝜃̃ | ⋅) ou 𝐿 para representar a

função de verosimilhança.
O método da máxima verosimilhança consiste em escolher um valor de 𝜃̃ que ma-
ximiza (2D.1).
Definição 2D.1 (Estimador de máxima verosimilhança (MV))

Diz-se que 𝜃̂ é estimador MV de 𝜃 se e só se 𝜃̂ é o valor de 𝜃̃ que maximiza a função de
verosimilhança.
Suponha-se que 𝐿(𝜃̃ | ⋅) > 0. Como a transformação logarítmica é monótona, maximizar

a função de verosimilhança é equivalente a maximizar o respectivo logaritmo,
𝑛
ln{𝐿(𝜃̃ | 𝑤􏷠• , 𝑤􏷡• , … , 𝑤𝑛• )} = 􏾜 ln{𝑓(𝑤𝑡• | 𝜃)}.
̃ (2D.2)
𝑡=􏷠
Em muitos casos, a maximização de (2D.2) implica a resolução das equações de vero-

similhança
∇ ln{𝐿(𝜃̃ | ⋅)} = 𝟎. (2D.3)
Exemplo 2D.1 Seja o processo escalar 𝑖𝑖𝑑, {𝑤𝑡 }, onde 𝑤𝑡 ∼ 𝑁(𝜇,̃ 𝜎̃ 􏷡 ). Então,
𝜇̃
𝜃̃ = 􏿰 􏷡 􏿳 ,
𝜎̃
e
1 (𝑤𝑡 − 𝜇)̃ 􏷡
𝑓(𝑤𝑡 | 𝜇,̃ 𝜎̃ 􏷡 ) = exp 􏿼− �.
√2𝜋 𝜎̃ 􏷡 2 𝜎̃ 􏷡
O logaritmo da função de verosimilhança é
𝑛 𝑛 1 𝑛
ln{𝐿(𝜇,̃ 𝜎̃ 􏷡 | 𝑤􏷠 , 𝑤􏷡 , … , 𝑤𝑛 )} = − ln(2𝜋) − ln(𝜎̃ 􏷡 ) − 􏷡 􏾜 (𝑤𝑡 − 𝜇)̃ 􏷡 .
2 2 2𝜎̃ 𝑡=􏷠
Construindo as respectivas equações de verosimilhança, verifica-se sem dificuldade

que o estimador MV de (𝜇, 𝜎􏷡 ) é (𝜇,̂ 𝜎̂ 􏷡 ), onde
1 𝑛 1 𝑛
𝜇̂ = 𝑤 = 􏾜 𝑤𝑡 e 𝜎̂ 􏷡 = 􏾜 (𝑤𝑡 − 𝜇)̂ 􏷡 .
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
Em muitas aplicações, nomeadamente no caso do MRLCN, o vector 𝑤𝑡• é decomposto

em dois blocos,
𝑤𝑡• = 􏿮 𝑦𝑡 𝑥𝑡• 􏿱 ,
pretendendo examinar-se como 𝑥𝑡• influencia a distribuição de 𝑦𝑡 condicionada por 𝑥𝑡• .
É habitual chamar a 𝑦𝑡 regressando, e a 𝑥𝑡• , vector dos regressores.
Estimadores de máxima verosimilhança 905
Seja 𝑓(𝑦𝑡 | 𝑥𝑡• ; 𝜃) a densidade de 𝑦𝑡 condicionada por 𝑥𝑡• , e 𝑓(𝑥𝑡• | 𝜓) a densidade mar-
ginal de 𝑥𝑡• . Então,
𝑓(𝑦𝑡 , 𝑥𝑡• | 𝜃, 𝜓) = 𝑓(𝑦𝑡 | 𝑥𝑡• ; 𝜃)𝑓(𝑥𝑡• | 𝜓)
é a distribuição conjunta de 𝑤𝑡• = 􏿮 𝑦𝑡 𝑥𝑡• 􏿱 (para simplificar, as três densidades
representaram-se com o mesmo símbolo 𝑓 ). Supondo que 𝜃 e 𝜓 não estão funcional-
mente relacionados, o logaritmo da função de verosimilhança é
𝑛
ln{𝐿(𝜃,̃ 𝜓̃ | ⋅)} = 􏾜 ln{𝑓(𝑦𝑡 , 𝑥𝑡• | 𝜃,̃ 𝜓)}
̃
𝑡=􏷠
(2D.4)
𝑛 𝑛
=􏾜 ̃ +􏾜
ln{𝑓(𝑦𝑡 | 𝑥𝑡• ; 𝜃)} ̃ .
ln{𝑓(𝑥𝑡• | 𝜓)}
𝑡=􏷠 𝑡=􏷠
A primeira parcela é o logaritmo da função de verosimilhança condicionada. O esti-

mador MV condicionado de 𝜃 corresponde à maximização desta parcela, ignorando a
segunda.
A segunda parcela de (2D.4) é o logaritmo da função de verosimilhança marginal.
Como não depende de 𝜃̃ , o estimador MV condicionado de 𝜃 é numericamente igual
ao respectivo estimador MV conjunto.
Suponha-se, agora, que 𝜃 e 𝜓 estão funcionalmente relacionados. Por exemplo,
𝛼 𝛽
𝜃=􏿰 􏿳 e 𝜓=􏿰 􏿳.
𝛽 𝛾
Neste caso, os estimadores MV de 𝜃, conjunto e condicionado, não são numericamente

iguais, uma vez que o segundo não considera a informação incluída na verosimilhança
marginal. Pode demonstrar-se que o estimador condicionado de 𝜃 é menos eficiente do
que o estimador de 𝜃 quando se estima conjuntamente 𝜃 e 𝜓. Em muitas aplicações, a
perda de eficiência é inevitável porque não se conhece a forma paramétrica de 𝑓(𝑥𝑡• | 𝜓)̃ .
Recordam-se algumas propriedades dos estimadores MV:
a) Invariância. Se 𝜃̂ é estimador MV de 𝜃, e se 𝜆 = 𝜏(𝜃), onde 𝜏 é uma aplicação

biunívoca, então 𝜆̂ = 𝜏(𝜃)̂ é estimador MV de 𝜆 = 𝜏(𝜃).
b) Eficiência. Se 𝜃̂ é estimador eficiente de 𝜃, então: 𝜃̂ é solução única das equações

de verosimilhança, ∇ ln{𝐿(𝜃̃ | ⋅)} = 𝟎; 𝜃̂ é estimador MV.
c) Consistência. Verificadas certas condições de regularidade, os estimadores MV

são consistentes.
d) Normalidade assintótica. Verificadas certas condições de regularidade, os esti-

madores MV são assintoticamente normais.
906 Anexo 2D Estimadores de máxima verosimilhança
1) As demonstrações das propriedades a), c) e d) vão ser apresentadas, num contexto

mais geral, no capítulo 8.
2) A invariância dos estimadores MV implica, em geral, que estes estimadores são

enviesados.
3) A propriedade b) ensina que qualquer estimador eficiente (na óptica do teorema

de Fréchet-Cramér-Rao; ver anexo 2E) é necessariamente estimador MV. Contudo,
há estimadores MV que não são eficientes (basta considerar um estimador MV
enviesado).
4) As propriedades c) e d) podem ser enunciadas de uma forma mais rigorosa:
Verificadas certas condições de regularidade, existe solução, 𝜃̂ , das equações

de verosimilhança, ∇ ln{𝐿(𝜃̃ | ⋅)} = 𝟎. Esta solução é estimador consistente de
𝜃, e tal que
𝑑
√𝑛(𝜃̂ − 𝜃) → 𝑁 􏿴𝟎, 𝐼(𝜃) 􏿷 ,
(𝑝) −􏷠
onde 𝐼(𝜃) é a matriz de informação de Fisher (ver anexo 2E).
5) As propriedades c) e d) garantem que, em certas condições, os estimadores MV

são CAN (consistentes e assintoticamente normais; ver, no capítulo 3, a subsecção
«Estimadores consistentes e assintoticamente normais» da secção 3.1).
6) O enunciado referido em 4) corresponde a afirmar que, nas condições de regu-

laridade aludidas, os estimadores MV são assintoticamente eficientes. Trata-se,
portanto, de estimadores BAN (best asymptotically normal).
[2E]
Estatísticas suficientes.
Estimadores UMVU. Desigualdade
de Fréchet-Crámer-Rao
Considerem-se os estimadores MQ, 𝑏 e 𝑠􏷡 , de 𝛽 e 𝜎􏷡 , respectivamente. É possível pro-

var que estes estimadores são (conjuntamente) estatísticas suficientes para 𝛽 e 𝜎􏷡 . Co-
meça por recordar-se o conceito de estatística suficiente, e o critério de factorização de
Neyman-Pearson.
Definição 2E.1 (Estatística suficiente)

Seja 𝑧 = (𝑧􏷠 , … , 𝑧𝑛 ) um vector aleatório com função densidade dada por 𝑓(𝑧 | 𝜃), onde 𝜃
é o vector 𝑚 × 1 dos parâmetros da distribuição. O vector aleatório 𝑝 × 1, 𝜏(𝑧), é uma
estatística suficiente para 𝜃 se e só se a distribuição de 𝑧, condicionada por 𝜏(𝑧), não
depende de 𝜃.
Pode, então, enunciar-se o critério de factorização.
Teorema 2E.1 (Critério de factorização)

A estatística 𝜏(𝑧) é suficiente para 𝜃 se e só se a função de verosimilhança 𝐿(𝜃̃ | 𝑧) se pode
factorizar-se como
𝐿(𝜃̃ | 𝑧) = 𝐿􏷠 (𝑧)𝐿􏷡 {𝜃̃ | 𝜏(𝑧)}, (2E.1)
onde 𝐿􏷠 não depende de 𝜃̃ , e 𝐿􏷡 só depende de 𝑧 através de 𝜏(𝑧).
907
908 Anexo 2E Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
No caso do MRLCN, considera-se o vector 𝑌 formado pelas 𝑛 observações do regres-

sando, e a respectiva função densidade condicionada por 𝑋 ,
1
𝑓(𝑌 | 𝑋; 𝛽, 𝜎􏷡 ) = (2𝜋𝜎􏷡 )−𝑛/􏷡 exp 􏿼− (𝑌 − 𝑋𝛽)𝑇 (𝑌 − 𝑋𝛽)� .
2𝜎􏷡
Pode provar-se que 𝜏(𝑌 | 𝑋) = (𝑏, 𝑠􏷡 ) é estatística suficiente para 𝜃 = (𝛽, 𝜎􏷡 ) [tem-se
𝑚 = 𝑝 = 𝑘 + 1].
(𝑌 − 𝑋 𝛽)̃ 𝑇 (𝑌 − 𝑋 𝛽)̃ = (𝑌 − 𝑋𝑏 + 𝑋𝑏 − 𝑋 𝛽)̃ 𝑇 (𝑌 − 𝑋𝑏 + 𝑋𝑏 − 𝑋 𝛽)̃

= {𝑈̂ + 𝑋(𝑏 − 𝛽)}
̃ 𝑇 {𝑈̂ + 𝑋(𝑏 − 𝛽)}
̃
= 𝑈̂ 𝑇 𝑈̂ + 2𝑈̂ 𝑇 𝑋(𝑏 − 𝛽)̃ + (𝑏 − 𝛽)̃ 𝑇 𝑋 𝑇 𝑋(𝑏 − 𝛽),

̃
ou
(𝑌 − 𝑋 𝛽)̃ 𝑇 (𝑌 − 𝑋 𝛽)̃ = (𝑛 − 𝑘)𝑠􏷡 + (𝑏 − 𝛽)̃ 𝑇 𝑋 𝑇 𝑋(𝑏 − 𝛽)̃ ,
a função de verosimilhança pode escrever-se da seguinte maneira:
1
𝐿(𝛽,̃ 𝜎̃ 􏷡 | 𝑌, 𝑋) = (2𝜋)−𝑛/􏷡 (𝜎̃ 􏷡 )−𝑛/􏷡 exp 􏿼− {(𝑛 − 𝑘)𝑠􏷡 + (𝑏 − 𝛽)̃ 𝑇 𝑋 𝑇 𝑋(𝑏 − 𝛽)}
̃ �.
2𝜎̃ 􏷡
Verifica-se, assim, que se tem a factorização,
𝐿(𝛽,̃ 𝜎̃ 􏷡 | 𝑌, 𝑋) = 𝐿􏷠 (𝑌 | 𝑋) 𝐿􏷡 (𝛽,̃ 𝜎̃ 􏷡 | 𝑏, 𝑠􏷡 , 𝑋),
onde
𝐿􏷠 (𝑌 | 𝑋) = (2𝜋)−𝑛/􏷡 ,
e
1
𝐿􏷡 (𝛽,̃ 𝜎̃ 􏷡 | 𝑏, 𝑠􏷡 , 𝑋) = (𝜎̃ 􏷡 )−𝑛/􏷡 exp 􏿼− {(𝑛 − 𝑘)𝑠􏷡 + (𝑏 − 𝛽)̃ 𝑇 𝑋 𝑇 𝑋(𝑏 − 𝛽)}
̃ �.
2𝜎̃ 􏷡
Deste modo, 𝐿􏷠 não depende dos parâmetros, e 𝐿􏷡 depende de 𝑌 através de 𝑏 e 𝑠􏷡 .
Como se sabe, uma das vantagens em dispor de uma estatística suficiente conjunta
para 𝜃 = (𝛽, 𝜎􏷡 ), como é o caso de 𝜏(𝑌 | 𝑋) = (𝑏, 𝑠􏷡 ), é que ela retira dos dados, fixada a
matriz 𝑋 , toda a informação relevante sobre os parâmetros.
Outra vantagem resulta da circunstância de 𝑏 e 𝑠􏷡 serem também estimadores não
enviesados de 𝛽 e 𝜎􏷡 , respectivamente. Nestas condições, pode verificar-se que (𝑏, 𝑠􏷡 )
é o estimador de 𝜃 = (𝛽, 𝜎􏷡 ) mais eficiente na classe dos estimadores não enviesados.
Começa por apresentar-se, em termos gerais, a definição de estimador UMVU e o enun-
ciado do teorema de Rao-Blackwell.
Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR 909
Definição 2E.2 (Estimador não enviesado com variância uniformemente mínima)

Considere-se o vector aleatório 𝑧 = (𝑧􏷠 , … , 𝑧𝑛 ) com função densidade dada por 𝑓(𝑧 | 𝜃),
onde 𝜃 é o vector 𝑚×1 dos parâmetros da distribuição. Seja U𝜃 a classe dos estimadores
não enviesados de 𝜃. O estimador
𝜃̂ ∈ U𝜃
é não enviesado com variância uniformemente mínima [sigla em inglês: UMVU (Uni-
formly Minimum-Variance Unbiased)] se e só se
Cov(𝜃)̂ − Cov(𝜃∗ ) é semidefinida negativa, ∀𝜃∗ ∈ U𝜃 .
Esta condição significa que o estimador 𝜃̂ é o mais eficiente na classe dos estimadores
não enviesados de 𝜃 (Θ é o espaço-parâmetro).
Recorde-se, a seguir, o enunciado do teorema de Rao-Blackwell.
Teorema 2E.2 (Rao-Blackwell)

Seja 𝜏(𝑧) uma estatística suficiente para 𝜃, e 𝜃∗ um estimador não enviesado de 𝜃. Então,
o estimador baseado em 𝜏(𝑧),
𝜃̂ = 𝜃{𝜏(𝑧)}
̂ = 𝐸{𝜃∗ | 𝜏(𝑧)},
é ainda um estimador não enviesado de 𝜃, e tal que
Cov(𝜃)̂ − Cov(𝜃∗ ) é semidefinida negativa.
Esta condição significa que o estimador não enviesado 𝜃̂ é mais eficiente do que o esti-
mador não enviesado 𝜃∗ . Assim, se se tomar um estimador de 𝜃, não enviesado, o te-
orema de Rao-Blackwell permite obter um estimador «melhor» (mais eficiente), desde
que seja baseado naquela estatística suficiente. Diz-se, então, que 𝜃̂ se obtém por Rao-
-Blackwellização de 𝜃∗ .
Deve ficar claro que este teorema não resolve inteiramente a questão da obtenção
de um estimador UMVU para 𝜃, mas aponta o caminho. Com efeito, estabelece, de
forma clara, que se existir um estimador UMVU, ele tem de procurar-se na classe dos
estimadores não enviesados baseados numa estatística suficiente. Se esta classe tem
um único elemento, trata-se evidentemente do estimador UMVU. De facto, é isso que
acontece quando o estimador se baseia numa estatística suficiente completa.
Antes de prosseguir, vai apresentar-se este conceito, e o enunciado do teorema que
permite obter o estimador UMVU.
Para definir estatística suficiente completa é indispensável definir previamente o

conceito de família de distribuições completa.
Definição 2E.3 (Família de distribuições completa)

Seja 𝑧 = (𝑧􏷠 , … , 𝑧𝑛 ) um vector aleatório com função densidade dada por 𝑓(𝑧 | 𝜃), onde
𝜃 é o vector 𝑚 × 1 dos parâmetros da distribuição. A família F𝜃̃ = {𝑓(𝑧 | 𝜃)̃ ∶ 𝜃̃ ∈ Θ} é
completa se e só se, qualquer que seja 𝜓(𝑧), se verifica a condição
∀𝜃̃ ∈ Θ ∶ 𝐸{𝜓(𝑧)} = 𝟎 ⇒ 𝑃{𝜓(𝑧) = 𝟎} = 1.
A condição 𝑃{𝜓(𝑧) = 𝟎} = 1, ∀𝜃̃ ∈ Θ, significa que 𝜓(𝑧) = 𝟎 excepto, quando muito,

para valores de 𝑧 pertencentes a um conjunto com probabilidade zero, e para qualquer
𝜃̃ ∈ Θ.
Definição 2E.4 (Estatística suficiente completa)

Considere-se a estatística suficiente 𝜏(𝑧) (vector aleatório 𝑝 × 1) com função densidade
dada por 𝑔{𝜏(𝑧) | 𝜃}, onde 𝜃 é o vector 𝑚×1 dos parâmetros da distribuição. A estatística
𝜏(𝑧) é completa se e só se a família
G𝜃̃ = 􏿺𝑔{𝜏(𝑧) | 𝜃}̃ ∶ 𝜃̃ ∈ Θ􏿽
é completa, isto é, qualquer que seja 𝜓{𝜏(𝑧)}, verifica-se a condição
∀𝜃̃ ∈ Θ ∶ 𝐸( 𝜓{𝜏(𝑧)}) = 𝟎 ⇒ 𝑃(𝜓{𝜏(𝑧)} = 𝟎) = 1.
A importância deste conceito para a determinação do estimador UMVU é de fácil com-

preensão. Se a estatística 𝜏(𝑧) é suficiente completa, e se 𝜃∗ é um qualquer estimador
não enviesado de 𝜃, seja 𝜃̂ o estimador obtido por Rao-Blackwellização de 𝜃∗ ,
𝜃̂ = 𝜃{𝜏(𝑧)}
̂ = 𝐸{𝜃∗ | 𝜏(𝑧)}.
⌢ ⌢
Se houver outro estimador não enviesado baseado em 𝜏(𝑧), 𝜃 = 𝜃{𝜏(𝑧)}, conclui-se que
⌢
̂
𝐸 􏿺𝜃{𝜏(𝑧)}􏿽 = 𝐸 {𝜃{𝜏(𝑧)}} = 𝜃,
ou
⌢
̂
𝐸 􏿺𝜃{𝜏(𝑧)} − 𝜃{𝜏(𝑧)}􏿽 = 𝟎, ∀𝜃̃ ∈ Θ.
Então, por 𝜏(𝑧) ser uma estatística suficiente completa, tem-se
⌢
̂
𝑃 􏿺𝜃{𝜏(𝑧)} = 𝜃{𝜏(𝑧)}􏿽 = 1, ∀𝜃̃ ∈ Θ,
isto é,
⌢
̂
𝜃{𝜏(𝑧)} = 𝜃{𝜏(𝑧)},
excepto, quando muito, num conjunto com probabilidade zero, e para qualquer 𝜃̃ ∈ Θ.
⌢
Neste caso, os estimadores 𝜃̂ e 𝜃 não se distinguem.
Se não se conhece uma estatística suficiente completa, e se se opera com uma estatís-
tica suficiente não completa, podem existir vários estimadores não enviesados baseados
nessa estatística, e não há procedimento geral que permita conhecer o estimador mais
eficiente.
Das considerações precedentes, pode enunciar-se o seguinte teorema:
Teorema 2E.3 (Lehmann-Scheffé)

Se existir uma estatística suficiente completa para 𝜃, 𝜏(𝑧), e pelo menos um estimador
não enviesado, 𝜃∗ , então existe um e um só estimador UMVU,
𝜃̂ = 𝜃{𝜏(𝑧)}
̂ = 𝐸{𝜃∗ | 𝜏(𝑧)}.
Este estimador é o único estimador não enviesado que é função de 𝜏(𝑧).
No caso do MRLCN, pode provar-se que (𝑏, 𝑠􏷡 ) é uma estatística suficiente completa
para 𝜃 = (𝛽, 𝜎􏷡 ). Como 𝑏 e 𝑠􏷡 são, respectivamente, estimadores não enviesados de 𝛽 e
𝜎􏷡 , pode facilmente concluir-se que (𝑏, 𝑠􏷡 ) é também estimador UMVU de 𝜃 = (𝛽, 𝜎􏷡 ).
Este resultado é de natureza diferente da do teorema de Gauss-Markov. De facto,
este teorema não exige a hipótese REX.6, mas, por outro lado, garante que 𝑏 é o esti-
mador mais eficiente na classe dos estimadores lineares e não enviesados (estimador
BLUE). Se se considerar a hipótese REX.6, o resultado que se baseia no teorema de
Lehmann-Scheffé garante que 𝑏 é o estimador mais eficiente na classe dos estimadores
não enviesados (dispensa a linearidade dos estimadores).
A eficiência dos estimadores 𝑏 e 𝑠􏷡 também pode ser investigada considerando a
conhecida desigualdade de Fréchet-Cramér-Rao. Começa-se por apresentar o teorema
respectivo, e os seus pressupostos.
Seja 𝑧 = (𝑧􏷠 , … , 𝑧𝑛 ) um vector aleatório com função densidade definida por 𝑓(𝑧 | 𝜃),
onde 𝜃 é o vector 𝑚 × 1 dos parâmetros da distribuição. Designa-se por vector score, ou
simplesmente score, o gradiente do logaritmo da função de verosimilhança,
𝑠(𝜃̃ | 𝑧) = ∇ ln{𝐿(𝜃̃ | 𝑧)}. (2E.2)
Assim, o score é o vector das derivadas parciais do logaritmo da função de verosimi-
lhança,
𝜕 ln{𝐿(𝜃̃ | 𝑧)}
𝑠𝑗 (𝜃̃ | 𝑧) = (𝑗 = 1, 2, … , 𝑚),
𝜕 𝜃̃ 𝑗
para qualquer valor hipotético de 𝜃.

Como
1
𝑠(𝜃̃ | 𝑧) = ∇ ln{𝐿(𝜃̃ | 𝑧)} = ∇𝐿(𝜃̃ | 𝑧),
𝐿(𝜃̃ | 𝑧)
cada componente do score pode ser interpretado como a taxa de variação da função
verosimilhança em relação a 𝜃̃ 𝑗 :
𝜕 𝐿(𝜃̃ | 𝑧) 1
𝑠𝑗 (𝜃̃ | 𝑧) = .
𝜕 𝜃̃ 𝑗 𝐿(𝜃̃ | 𝑧)
Considerando o score como um vector aleatório (em 𝑧), pode calcular-se o respectivo
valor esperado de cada componente (se existir),
𝐸{𝑠𝑗 (𝜃̃ | 𝑧)} = 􏾙 𝑠𝑗 (𝜃̃ | 𝑧)𝑓(𝑧 | 𝜃)̃ 𝑑𝑧 (𝑗 = 1, 2, … , 𝑚).

ℜ𝑛
Como 𝑓(𝑧 | 𝜃)̃ ≡ 𝐿(𝜃̃ | 𝑧), tem-se ∇𝑓(𝑧 | 𝜃)̃ = 𝑠(𝜃̃ | 𝑧)𝑓(𝑧 | 𝜃)̃ , ou seja,
𝜕 𝑓(𝑧 | 𝜃)̃
= 𝑠𝑗 (𝜃̃ | 𝑧)𝑓(𝑧 | 𝜃).
̃
𝜕 𝜃̃ 𝑗
Como
􏾙 𝑓(𝑧 | 𝜃)̃ 𝑑𝑧 = 1,
ℜ𝑛
qualquer que seja 𝜃̃ , e admitindo a condição de regularidade segundo a qual se podem

permutar as operações de derivação e de integração, obtém-se
𝜕 𝑓(𝑧 | 𝜃)̃ 𝜕
􏾙 𝑑𝑧 = 􏾙 𝑓(𝑧 | 𝜃)̃ 𝑑𝑧 = 0.
ℜ𝑛 𝜕 𝜃̃ 𝑗 𝜕 𝜃̃ 𝑗 ℜ𝑛
Então,
𝐸{𝑠(𝜃̃ | 𝑧)} = 𝟎.
Diz-se que a função de verosimilhança, 𝐿(𝜃̃ | 𝑧), é regular se e só se o valor esperado do

score, calculado em 𝜃 (verdadeiro valor do parâmetro), é nulo. Assim, vem
𝐸{𝑠(𝜃 | 𝑧)} = 𝟎.
Pode, então, enunciar-se o teorema de Fréchet-Cramér-Rao.

Teorema 2E.4 (Fréchet-Cramér-Rao)

Seja 𝑧 = (𝑧􏷠 , … , 𝑧𝑛 ) um vector aleatório com função densidade dada por 𝑓(𝑧 | 𝜃), onde 𝜃
é o vector 𝑚 × 1 dos parâmetros da distribuição. Suponha-se que a respectiva função
de verosimilhança, 𝐿(𝜃̃ | 𝑧), é regular. Considere-se a matriz de informação (de Fisher),
𝐼(𝜃) = 𝐸{𝑠(𝜃 | 𝑧)𝑠(𝜃 | 𝑧)𝑇 } = −𝐸{∇𝑠(𝜃 | 𝑧)}, (2E.3)
onde o score é calculado em 𝜃 (verdadeiro valor do parâmetro). Seja 𝜃̂ um estimador

não enviesado de 𝜃 tal que Cov(𝜃)̂ é a respectiva matriz das covariâncias.
Então, a matriz
Cov(𝜃)̂ − 𝐼(𝜃)−􏷠
é semidefinida positiva. Se Cov(𝜃)̂ = 𝐼(𝜃)−􏷠 , então 𝜃̂ é UMVU.
Note-se que o elemento genérico da matriz de informação é
⎡ 𝜕 ln{𝐿(𝜃 | 𝑧)} ⎛ 𝜕 ln{𝐿(𝜃 | 𝑧)} ⎞⎤ ⎛ 𝜕 􏷡 ln{𝐿(𝜃 | 𝑧)} ⎞

𝐸 ⎢􏿶 􏿹 ⎜ ⎟⎥ = −𝐸 ⎜ ⎟ (𝑖, 𝑗 = 1, 2, … , 𝑚),
⎣ 𝜕 𝜃̃ 𝑖 ⎝ 𝜕 𝜃̃ 𝑗 ⎠⎦
̃
⎝ 𝜕 𝜃𝑖 𝜕 𝜃𝑗 ⎠
̃
não sendo difícil concluir que a matriz de informação é a matriz das covariâncias do
score.
O teorema de Fréchet-Crámer-Rao estabelece que a inversa desta matriz é o «limite
inferior» do conjunto das matrizes das covariâncias dos estimadores não enviesados
de 𝜃. Quando uma destas matrizes atinge aquele «limite inferior», fica garantido que
o respectivo estimador é UMVU. Por estas razões, é habitual chamar desigualdade de
Fréchet-Crámer-Rao à seguinte propriedade:
Cov(𝜃)̂ − 𝐼(𝜃)−􏷠 é semidefinida positiva. (2E.4)
A matriz 𝐼(𝜃)−􏷠 chama-se limite inferior de Fréchet-Crámer-Rao (LIFCR).

Estas considerações são mais fáceis de entender quando 𝜃 é um escalar. Com efeito,
neste caso, a desigualdade de Fréchet-Crámer-Rao resume-se a estabelecer que
1
Var(𝜃)̂ ≥ ,
𝐼(𝜃)
onde
𝑑 ln{𝐿(𝜃 | 𝑧)} 𝑑􏷡 ln{𝐿(𝜃 | 𝑧)}
𝐼(𝜃) = Var 􏿶 􏿹 = −𝐸 􏿶 􏿹.
𝑑𝜃̃ 𝑑𝜃̃ 􏷡
Como Cov(𝜃)̂ = 𝐼(𝜃)−􏷠 é uma condição suficiente para que 𝜃̂ seja UMVU, um estimador
pode ser UMVU sem que a respectiva matriz das covariâncias atinja o limite inferior de
Fréchet-Crámer-Rao. Neste caso, aquela propriedade do estimador deve ser provada

com outros argumentos, nomeadamente mostrando que o estimador é baseado numa
estatística suficiente completa (ver teorema de Rao-Blackwell).
Considerando o MRLCN, vai provar-se um resultado indispensável para se poder
aplicar o teorema de Fréchet-Cramér-Rao aos estimadores MQ: dado 𝑋 , os estimadores
MQ, 𝑏 e 𝑠􏷡 , são independentes.
Com efeito, condicionados por 𝑋 , 𝑏 − 𝛽 = (𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 𝑈 é uma forma linear em 𝑈 ,
e 𝑈̂ 𝑇 𝑈̂ = 𝑈 𝑇 𝑃𝑋 𝑈 (propriedade 2.4 dos resíduos MQ) é uma forma quadrática em 𝑈 ,
em que 𝑃𝑋 é simétrica e idempotente. Então, como 𝑈 | 𝑋 ∼ 𝑁 (𝑛) (𝟎, 𝜎􏷡 𝐼), e atendendo à
propriedade 5) das distribuições de vectores aleatórios (ver secção 2.10), 𝑏−𝛽 e 𝑈̂ 𝑇 𝑈̂ são
independentes (dado 𝑋 ). Daqui resulta que, dado 𝑋 , 𝑏 e 𝑠􏷡 são, também, independentes.
Notando que (ver demonstração na secção 2.10)
2𝜎􏷣
Var(𝑠􏷡 | 𝑋) = ,
𝑛−𝑘
e que 𝑏 e 𝑠􏷡 são independentes (dado 𝑋 ), a matriz das covariâncias condicionadas por
𝑋 do vector (𝑘 + 1) × 1, 𝜃̂ = (𝑏, 𝑠􏷡 ), é
⎡ 𝜎􏷡 (𝑋 𝑇 𝑋)−􏷠 𝟎 ⎤
Cov(𝜃̂ | 𝑋) = ⎢ 2𝜎
⎥.
􏷣 (2E.5)
⎢ 𝟎 ⎥
⎣ 𝑛−𝑘 ⎦
Vai verificar-se que a função de verosimilhança é regular, ou seja, que o valor esperado
do score, calculado em 𝜃 = (𝛽, 𝜎􏷡 ), é nulo. Com efeito, como
𝑛 𝑛 1
ln{𝐿(𝛽,̃ 𝜎̃ 􏷡 | 𝑌, 𝑋)} = − ln (2𝜋) − ln (𝜎̃ 􏷡 ) − 􏷡 (𝑌 − 𝑋 𝛽)̃ 𝑇 (𝑌 − 𝑋 𝛽),
̃
2 2 2𝜎̃
vem
1 𝑇
𝐸(∇𝛽̃ ln{𝐿(𝛽, 𝜎􏷡 | 𝑌, 𝑋)}| 𝑋) = 𝐸 􏿰 𝑋 (𝑌 − 𝑋𝛽) 􏿙 𝑋 􏿳 = 𝟎,
𝜎􏷡
𝑛 1
𝐸 (∇𝜎̃ 􏷫 ln{𝐿(𝛽, 𝜎􏷡 | 𝑌, 𝑋)}| 𝑋) = 𝐸 􏿰 − 􏷡
+ 􏷣 (𝑌 − 𝑋𝛽)𝑇 (𝑌 − 𝑋𝛽) 􏿙 𝑋 􏿳 = 0,
2𝜎 2𝜎
uma vez que 𝑈 = 𝑌 − 𝑋𝛽, 𝐸(𝑈 | 𝑋) = 𝟎 e 𝐸(𝑈 𝑇 𝑈 | 𝑋) = 𝑛𝜎􏷡 .

O caminho mais simples para obter a matriz de informação consiste em utilizar a
igualdade 𝐼(𝜃) = −𝐸{∇𝑠(𝜃 | 𝑌, 𝑋)}, ou seja, recorrendo ao cálculo das segundas derivadas
de ln{𝐿(𝛽,̃ 𝜎̃ 􏷡 | 𝑌, 𝑋)}, fazendo 𝛽̃ = 𝛽 e 𝜎̃ 􏷡 = 𝜎􏷡 . Assim, tem-se:
1 𝑇
∇􏷡𝛽̃ ln{𝐿(𝛽, 𝜎􏷡 | 𝑌, 𝑋)} = − 𝑋 𝑋;
𝜎􏷡
𝑛 1
∇􏷡𝜎̃ 􏷫 ln{𝐿(𝛽, 𝜎􏷡 | 𝑌, 𝑋)} = 􏷣
− 􏷥 (𝑌 − 𝑋𝛽)𝑇 (𝑌 − 𝑋𝛽);
2𝜎 𝜎
1
∇􏷡𝛽̃𝜎̃ 􏷫 ln 𝐿(𝛽, 𝜎􏷡 | 𝑌, 𝑋) = − 􏷣 𝑋 𝑇 (𝑌 − 𝑋𝛽).
𝜎
Donde,
⎧ ⎫
⎪⎡ 1 𝑇 1 𝑇 ⎤􏿙 ⎪
⎪⎢ 𝑋 𝑋 𝑋 (𝑌 − 𝑋𝛽) ⎪
􏷡 ⎪ 𝜎􏷡 𝜎􏷣 ⎥ ⎪
𝐼(𝛽, 𝜎 ) = 𝐸 ⎨ ⎢ ⎥ 􏿙 𝑋⎬ ,
⎪ 1 𝑛 1 ⎪
⎪ ⎢ 􏷣 (𝑌 − 𝑋𝛽)𝑇 𝑋 − 􏷣 + 􏷥 (𝑌 − 𝑋𝛽)𝑇 (𝑌 − 𝑋𝛽) ⎥􏿙 ⎪
⎪⎣ 𝜎 2𝜎 𝜎 ⎦ ⎪
⎩ ⎭
ou
⎡ 1 𝑇 ⎤
⎢ 􏷡
𝑋 𝑋 𝟎 ⎥
𝜎
𝐼(𝛽, 𝜎􏷡 ) = ⎢ .
𝑛 ⎥
⎢ 𝟎 ⎥
⎣ 2𝜎􏷣 ⎦
Então, o limite inferior de Fréchet-Cramér-Rao é dado por
⎡ 𝜎􏷡 (𝑋 𝑇 𝑋)−􏷠 𝟎 ⎤
⎢ ⎥
𝐼(𝛽, 𝜎􏷡 )−􏷠 = ⎢ 􏷣 ⎥. (2E.6)
2𝜎
⎢ 𝟎 ⎥
⎣ 𝑛 ⎦
Verifica-se, assim, que a matriz das covariâncias condicionadas de 𝑏 atinge o LIFCR, o
que mostra, por outra via, que 𝑏 é UMVU para 𝛽. Contudo, a variância condicionada de
𝑠􏷡 é superior ao respectivo LIFCR. No entanto, como se sabe, este estimador é UMVU
para 𝜎􏷡 , devido ao teorema de Lehmann-Scheffé (não há outro estimador não enviesado
de 𝜎􏷡 com variância menor).
Alternativamente, a matriz de informação pode ser obtida utilizando a igualdade
𝐼(𝜃) = 𝐸{𝑠(𝜃 | 𝑌, 𝑋)𝑠(𝜃 | 𝑌, 𝑋)𝑇 }, embora os cálculos sejam mais laboriosos.
⎡ 1 𝑇 ⎤
𝑋 𝑈
⎢ 𝜎􏷡 ⎥
𝑠(𝜃 | 𝑌, 𝑋) = ⎢ ⎥.
𝑛 1
⎢ − 􏷡 + 􏷣 𝑈𝑇 𝑈 ⎥
⎣ 2𝜎 2𝜎 ⎦
Então, 𝑠(𝜃 | 𝑌, 𝑋)𝑠(𝜃 | 𝑌, 𝑋)𝑇 é igual a
⎡ 1 𝑇 𝑛 𝑇 1 ⎤
⎢ 𝑋 𝑈𝑈 𝑇 𝑋 − 𝑋 𝑈 + 􏷥 𝑋 𝑇 𝑈(𝑈 𝑇 𝑈) ⎥
𝜎􏷣 2𝜎 􏷣 2𝜎
⎢ 􏷡
⎥.
⎢ 𝑛 𝑇 1 𝑇 𝑇
𝑛 1 𝑇 ⎥
⎢ − 2𝜎􏷣 𝑈 𝑋 + 2𝜎􏷥 (𝑈 𝑈)𝑈 𝑋 􏿶− 􏷡 + 􏷣 𝑈 𝑈 􏿹
2𝜎 2𝜎 ⎥
⎣ ⎦
Pode, então, calcular-se o valor esperado condicionado de cada bloco desta matriz.
Verifica-se, sem dificuldade, que
1 𝑇 1 1
𝐸􏿶 􏷣
𝑋 𝑈𝑈 𝑇 𝑋 􏿙 𝑋 􏿹 = 􏷣 𝑋 𝑇 𝐸 􏿴 𝑈𝑈 𝑇 􏿖 𝑋􏿷 𝑋 = 􏷡 𝑋 𝑇 𝑋.
𝜎 𝜎 𝜎
Relativamente ao bloco (1,2), tem-se
𝑛 𝑇 1 𝑛 1
𝐸 􏿶− 􏷣
𝑋 𝑈 + 􏷥 𝑋 𝑇 𝑈(𝑈 𝑇 𝑈) 􏿙 𝑋 􏿹 = − 􏷣 𝑋 𝑇 𝐸(𝑈 | 𝑋) + 􏷥 𝑋 𝑇 𝐸 􏿴𝑈(𝑈 𝑇 𝑈) | 𝑋􏿷
2𝜎 2𝜎 2𝜎 2𝜎
1
= 􏷥 𝑋 𝑇 𝐸{𝑈(𝑈 𝑇 𝑈) | 𝑋} ,
2𝜎
uma vez que 𝐸(𝑈 | 𝑋) = 𝟎. Seja
⎡ 𝑢􏷠 ⎤ ⎡ 𝑢􏷢􏷠 + 𝑢􏷠 𝑢􏷡􏷡 + ⋯ + 𝑢􏷠 𝑢􏷡𝑛 ⎤

⎢ ⎥ ⎢ ⎥
⎢ 𝑢􏷡 ⎥ ⎢ 𝑢􏷡 𝑢􏷡􏷠 + 𝑢􏷢􏷡 + ⋯ + 𝑢􏷡 𝑢􏷡𝑛 ⎥
𝑈(𝑈 𝑇 𝑈) = (𝑢􏷡􏷠 + 𝑢􏷡􏷡 + ⋯ + 𝑢􏷡𝑛 ) ⎢ ⎥=⎢ ⎥.
⋮ ⋮
⎢ ⎥ ⎢ ⎥
⎢ 𝑢𝑛 ⎥ ⎢ 𝑢𝑛 𝑢􏷡􏷠 + 𝑢𝑛 𝑢􏷡􏷡 + ⋯ + 𝑢􏷢𝑛 ⎥
⎣ ⎦ ⎣ ⎦
Como as variáveis residuais são 𝑖𝑖𝑑 a verificar 𝑢𝑡 | 𝑋 ∼ 𝑁(0, 𝜎􏷡 ), tem-se
𝐸(𝑢􏷢𝑡 | 𝑋) = 0 e 𝐸(𝑢𝑡 𝑢􏷡𝑠 | 𝑋) = 𝐸(𝑢𝑡 | 𝑋)𝐸(𝑢􏷡𝑠 | 𝑋) = 0 × 𝜎􏷡 = 0 (𝑡 ≠ 𝑠)
Então, 𝐸{ 𝑈(𝑈 𝑇 𝑈) | 𝑋} = 𝟎, podendo concluir-se que
𝑛 𝑇 1
𝐸 􏿶− 􏷣
𝑋 𝑈 + 􏷥 𝑋 𝑇 𝑈(𝑈 𝑇 𝑈) 􏿙 𝑋 􏿹 = 𝟎.
2𝜎 2𝜎
Quanto ao bloco (2,2), começa-se por notar que

􏷡
𝑛 1 𝑛􏷡 𝑛 1
􏿶− 􏷡
+ 􏷣 𝑈 𝑇 𝑈 􏿹 = 􏷣 − 􏷥 𝑈 𝑇 𝑈 + 􏷧 (𝑈 𝑇 𝑈)􏷡 ,
2𝜎 2𝜎 4𝜎 2𝜎 4𝜎
e que
(𝑈 𝑇 𝑈)􏷡 = (𝑢􏷡􏷠 + 𝑢􏷡􏷡 + ⋯ + 𝑢􏷡𝑛 )􏷡

= 𝑢􏷣􏷠 + 𝑢􏷡􏷠 𝑢􏷡􏷡 + ⋯ + 𝑢􏷡􏷠 𝑢􏷡𝑛
+ 𝑢􏷡􏷡 𝑢􏷡􏷠 + 𝑢􏷣􏷡 + ⋯ + 𝑢􏷡􏷡 𝑢􏷡𝑛
+ ⋯ + 𝑢􏷡𝑛 𝑢􏷡􏷠 + 𝑢􏷡𝑛 𝑢􏷡􏷡 + ⋯ + 𝑢􏷣𝑛 .
Como
𝐸(𝑢􏷣𝑡 | 𝑋) = 3 𝜎􏷣 e 𝐸(𝑢􏷡𝑡 𝑢􏷡𝑠 | 𝑋) = 𝜎􏷣 (𝑡 ≠ 𝑠),
vem
􏷡
𝑛􏷡 𝑛 1 𝑛􏷡 2𝑛􏷡 3𝑛𝜎􏷣 + 𝑛(𝑛 − 1)𝜎􏷣 𝑛
𝐸 􏿶 􏷣 − 􏷥 𝑈 𝑇 𝑈 + 􏷧 (𝑈 𝑇 𝑈)􏷡 􏵶 𝑋 􏿹 = 􏷣 − 􏷣 + 􏷧
= 􏷣.
4𝜎 2𝜎 4𝜎 4𝜎 4𝜎 4𝜎 2𝜎
Pode, então, obter-se a matriz 𝐼(𝛽, 𝜎􏷡 ).

Considere-se a distribuição conjunta de 𝑌 e de 𝑋 . Seja
𝑓(𝑌, 𝑋 | 𝜙) = 𝑓(𝑌 | 𝑋; 𝜃)𝑓(𝑋 | 𝜓),
onde se utilizou o símbolo 𝑓 para representar as funções densidade conjunta, condici-

onada e marginal. Fazendo 𝜃 = (𝛽, 𝜎􏷡 ), tem-se
𝐿(𝜙̃ | 𝑌, 𝑋) = 𝐿􏷠 (𝜃̃ | 𝑌, 𝑋)𝐿􏷡 (𝜓̃ | 𝑋),
onde 𝐿(𝜙̃ | 𝑌, 𝑋) é a função de verosimilhança conjunta de 𝑌 e 𝑋 , 𝐿􏷠 (𝜃̃ | 𝑌, 𝑋) é a função

de verosimilhança de 𝑌 condicionada por 𝑋 , e 𝐿􏷡 (𝜓̃ | 𝑋) é a função de verosimilhança
marginal de 𝑋 .
Então,
ln{𝐿(𝜙̃ | 𝑌, 𝑋)} = ln{𝐿􏷠 (𝜃̃ | 𝑌, 𝑋)} + ln{𝐿􏷡 (𝜓̃ | 𝑋)}.
Admitindo que 𝜃 não é função de 𝜓 (e, inversamente), facilmente se conclui que maxi-
mizar ln{𝐿(𝜙̃ | 𝑌, 𝑋)} em relação a 𝜙̃ dá o mesmo resultado que maximizar ln{𝐿􏷠 (𝜃̃ | 𝑌, 𝑋)}
em relação a 𝜃̃ .
Tem-se
⎡ 1 𝑇 ⎤
⎢ 𝜎􏷡 𝑋 𝑋 𝟎 𝑂 ⎥
⎢ 𝑛 ⎥
𝐼(𝛽, 𝜎􏷡 , 𝜓) = ⎢ 𝟎 𝑂 ⎥.
⎢ 2𝜎􏷣 ⎥
⎢ 𝑂 𝑂 −𝐸(∇􏷡𝜓̃ ln{𝐿(𝜓 | 𝑋)}) ⎥
⎣ ⎦
[2F]
Considerações gerais sobre teste
de hipóteses paramétricas
Como o próprio nome sugere, o teste de uma hipótese paramétrica serve para decidir,
com base na informação fornecida pelos dados, se se rejeita, ou não, a hipótese.
Seja 𝑧 = (𝑧􏷠 , … , 𝑧𝑛 ) um vector aleatório com distribuição na família
F𝜃̃ = {𝑓(𝑧 | 𝜃)̃ ∶ 𝜃̃ ∈ Θ},
em que 𝜃̃ é o vector 𝑚 × 1 que percorre o espaço-parâmetro, Θ ⊂ ℜ𝑚 : 𝜃̃ ∈ Θ.
Supondo que 𝜃 é o vector 𝑚 × 1 dos parâmetros desconhecidos, qualquer hipótese
paramétrica — conjectura sobre 𝜃 — estabelece no espaço-parâmetro Θ uma partição
Θ􏷟 ∪ Θ􏷠 = Θ, Θ􏷟 ∩ Θ􏷠 = ∅,
onde 𝐻􏷟 ∶ 𝜃 ∈ Θ􏷟 é a hipótese a testar e 𝐻􏷠 ∶ 𝜃 ∈ Θ􏷠 é a hipótese que corresponde ao
conjunto das alternativas. A hipótese 𝐻􏷟 chama-se hipótese nula, designação tradicio-
nal, que corresponde, geralmente, ao satus quo; a hipótese 𝐻􏷠 é designada por hipótese
alternativa. Quando numa das hipóteses (nula ou alternativa) o respectivo subcon-
junto de Θ (Θ􏷟 ou Θ􏷠 ) só tem um elemento, diz-se que a respectiva hipótese é simples;
caso contrário, é composta.
O teste de hipóteses pode, então, ser apresentado da seguinte maneira:
𝐻􏷟 ∶ 𝜃 ∈ Θ􏷟 contra 𝐻􏷠 ∶ 𝜃 ∈ Θ􏷠 . (2F.1)
O resultado do teste consiste na rejeição, ou não, de 𝐻􏷟 , sendo esta decisão tomada com
base numa amostra. Naturalmente, a não rejeição (a rejeição) de 𝐻􏷟 implica a rejeição
(a não rejeição) de 𝐻􏷠 .
919
920 Anexo 2F Considerações gerais sobre teste de hipóteses paramétricas
Seja Z ⊂ ℜ𝑛 o espaço-amostra, isto é, o conjunto de todos os vectores particulares

𝑧 retirados da população. Um teste de hipóteses deve basear-se no comportamento
probabilístico de 𝑧 no espaço-amostra, e estabelecer um critério para determinar quais
os valores concretos de 𝑧 que levam à rejeição da hipótese nula (e, consequentemente,
à não rejeição da hipótese alternativa).
Definição 2F.1 (Teste de hipóteses)

Um teste de hipóteses é uma regra que permite especificar um subconjunto do espaço-
-amostra, 𝑊 ⊂ Z, tal que:
se 𝑧 ∈ 𝑊 rejeita-se 𝐻􏷟 (não se rejeita 𝐻􏷠 );
se 𝑧 ∉ 𝑊 não se rejeita 𝐻􏷟 (rejeita-se 𝐻􏷠 ).
O conjunto 𝑊 chama-se região crítica ou região de rejeição.
É habitual designar o complementar do conjunto 𝑊 , 𝑊 , por região de não rejeição.

Pode, então, afirmar-se que um teste é uma regra que permite introduzir uma partição
do espaço-amostra nas duas regiões referidas, ou seja,
𝑊 ∪ 𝑊 = Z, 𝑊 ∩ 𝑊 = ∅.
Como a região crítica é um subconjunto de ℜ𝑛 , pode ser complicado concluir se uma

determinada amostra particular pertence, ou não, à região crítica. No entanto, em mui-
tos casos de interesse prático, consegue evitar-se esta dificuldade recorrendo a uma
estatística 𝑇(𝑧), designada por estatística-teste. Trabalha-se, então, no espaço-amostra
T ⊂ ℜ, relativo à estatística 𝑇(𝑧), ou seja, com o conjunto de todos os seus valores parti-
culares. Nestas circunstâncias, um teste de hipóteses estabelece uma regra que permite
determinar um conjunto 𝑊𝑇 ⊂ T tal que: se 𝑇(𝑧) ∈ 𝑊𝑇 , rejeita-se 𝐻􏷟 (não se rejeita
𝐻􏷠 ); se 𝑇(𝑧) ∉ 𝑊𝑇 , não se rejeita 𝐻􏷟 (rejeita-se 𝐻􏷠 ). Os conjuntos 𝑊𝑇 e 𝑊 𝑇 continuam a
chamar-se, respectivamente, região de rejeição e região de não rejeição.
Em resumo, os ingredientes de um teste de hipóteses são:
A hipótese nula, 𝐻􏷟 , que é defendida até a evidência estatística mostrar o contrá-

rio.
A hipótese alternativa, 𝐻􏷠 , que é adoptada se a hipótese nula for rejeitada.
Uma estatística-teste, 𝑇(𝑧).
Uma região crítica, 𝑊𝑇 .

Considerações gerais sobre teste de hipóteses paramétricas 921
Sendo o teste de hipóteses uma modalidade da inferência estatística, ou inferência in-

certa, não é demais recordar que todo o caminho que vai do particular (amostra) para
o geral (população) pode conduzir a erros. No teste de hipóteses, devem considerar-se
dois tipos de erros.
Definição 2F.2 (Erros de 1.ª e de 2.ª espécies)

Ao proceder ao teste de 𝐻􏷟 contra 𝐻􏷠 podem cometer-se dois tipos de erros:
O erro de 1.ª espécie ou de rejeição, que consiste em rejeitar 𝐻􏷟 , quando 𝐻􏷟 é

verdadeira;
O erro de 2.ª espécie ou de não rejeição, que consiste em não rejeitar 𝐻􏷟 , quando
𝐻􏷟 é falsa.
Os erros de 1.ª e de 2.ª espécies estão esquematizados no quadro seguinte:
Teste de hipóteses — erros de 1.ª e 2.ª espécies
Decisão tomada 𝐻􏷟 verdadeira 𝐻􏷟 falsa
Rejeitar 𝐻􏷟 Erro de 1.ª espécie Decisão correcta
Não rejeitar 𝐻􏷟 Decisão correcta Erro de 2.ª espécie
O aspecto fundamental da teoria do teste de hipóteses prende-se com a possibilidade

de controlar cada um dos tipos de erro. Tenha-se, no entanto, presente que, depois de
tomada uma decisão, apenas se pode cometer um dos tipos de erro (se se rejeitar 𝐻􏷟 ,
nunca ocorre o erro de 2.ª espécie; se não se rejeitar 𝐻􏷟 , nunca acontece o erro de 1.ª
espécie).
Na impossibilidade de «minimizar» simultaneamente os dois tipos de erros, torna-
se necessário definir uma abordagem que permita considerá-los de alguma forma. Das
várias alternativas possíveis, assume particular relevância a abordagem de Neyman-
-Pearson que consiste no seguinte: em primeiro lugar, fixar um limite superior para a
possibilidade de ocorrer o erro de 1.ª espécie; em segundo lugar, dado aquele limite
superior, reduzir o mais possível o erro de 2.ª espécie.
A abordagem de Neyman-Pearson pode ser formalizada em termos mais rigorosos,
introduzindo os conceitos de dimensão do teste, e de função potência do teste. Estes
dois conceitos baseiam-se nas probabilidades de cometer os dois tipos de erros referi-
dos, mas deve notar-se que tais probabilidades dependem do particular 𝜃̃ considerado
em Θ􏷟 e Θ􏷠 , respectivamente.
Definição 2F.3 (Dimensão do teste)

O teste associado com a região crítica 𝑊𝑇 tem dimensão 𝛼 (0 < 𝛼 < 1) se e só se
𝑃{ 𝑇(𝑧) ∈ 𝑊𝑇 |𝜃̃ } ≤ 𝛼 (∀𝜃̃ ∈ Θ􏷟 )

sup 𝑃{ 𝑇(𝑧) ∈ 𝑊𝑇 |𝜃̃ } = 𝛼. (2F.2)
̃ 􏷩
𝜃∈􏸸
espaco
Deste modo, a dimensão do teste é o valor máximo (mais geralmente, o supremo) as-
sumido pela probabilidade de cometer o erro de 1.ª espécie, quando 𝜃̃ percorre o sub-
conjunto do espaço-parâmetro associado à hipótese nula. É habitual chamar nível de
significância à dimensão do teste.
Definição 2F.4 (Função potência do teste)

A função potência do teste associado com a região crítica 𝑊𝑇 é dada por
𝜋(𝜃)̃ = 𝑃{ 𝑇(𝑧) ∈ 𝑊𝑇 | 𝜃̃ } , 𝜃̃ ∈ Θ. (2F.3)
espaco
Para qualquer 𝜃 fixado em Θ􏷠 , 𝜋(𝜃) é a potência do teste contra a particular hipótese

alternativa 𝐻􏷠 ∶ 𝜃 = 𝜃. Verifica-se facilmente que a probabilidade de cometer o erro
de 2.ª espécie é igual a 1 − 𝜋(𝜃). Assim, a potência do teste é a probabilidade de não
cometer o erro de 2.ª espécie. Note-se que a função potência costuma definir-se em todo
o espaço-parâmetro, Θ, embora tenha especial interesse quando 𝜃̃ ∈ Θ􏷠 (para 𝜃̃ ∈ Θ􏷟 , a
função potência dá as probabilidades de cometer os erros de 1.ª espécie; uma vez fixada
a dimensão do teste, estas probabilidades não podem exceder o valor 𝛼).
Dispondo destes dois conceitos — dimensão e potência do teste — a abordagem de
Neyman-Pearson resume-se ao seguinte: fixar a dimensão do teste e maximizar a sua
potência.
Assinale-se que esta forma de proceder atribui mais importância ao erro de 1.ª es-
pécie, uma vez que é fixado um valor máximo para a probabilidade da sua ocorrência,
enquanto a potência deve ser a maior possível dentro dos condicionantes existentes.
Consequentemente, quando se rejeita 𝐻􏷟 , tem-se sempre presente a probabilidade má-
xima associada ao erro que se pode estar a cometer, situação que nem sempre acontece
quando não se rejeita 𝐻􏷟 .
O teste ideal seria aquele em que
⎧ 0 (𝜃̃ ∈ Θ )
̃ ⎪ 􏷟
𝜋(𝜃) = ⎨ ,
⎪ 1 (𝜃̃ ∈ Θ􏷠 )
⎩
o que implicaria que o teste conduziria sempre à decisão correcta. Infelizmente este
teste ideal raramente existe.
Em geral, tem-se 𝛼 > 0 e 𝜋(𝜃)̃ < 1, sendo desejável que a probabilidade do erro de 1.ª
espécie seja pequena, uma vez que se adopta o seguinte ponto de vista: a possibilidade
de rejeitar incorrectamente a hipótese nula é considerada grave, pois esta hipótese cor-
responde à posição que deve ser defendida, salvo se evidência estatística convincente
apontar no sentido contrário (a favor da hipótese alternativa).
Na grande maioria das aplicações práticas, os valores habituais fixados para 𝛼 são
0.1, 0.05 ou 0.01. Evidentemente que o valor fixado para 𝛼 depende da importância que
se dá ao facto de rejeitar a hipótese nula, quando esta é verdadeira.
Uma ilustração deste ponto de vista pode ser feita com o seguinte princípio da Jus-
tiça: «uma pessoa é inocente até se provar que é culpada». Este princípio dá lugar ao
seguinte teste: 𝐻􏷟 : «a pessoa é inocente» contra 𝐻􏷠 : «a pessoa é culpada». Os erros que
podem ocorrer são os seguintes: erro de 1.ª espécie, «a pessoa é condenada, mas está
inocente»; erro de 2.ª espécie, «a pessoa é absolvida, mas é culpada». Naturalmente, de
acordo com o princípio enunciado, a aplicação da Justiça deve procurar reduzir a pos-
sibilidade de ocorrer o erro de 1.ª espécie, pois entende-se que é mais grave condenar
inocentes do que absolver criminosos. Para certos sistemas judiciais pode considerar-se
que 𝛼 = 0.1 é demasiado elevado, optando-se por 𝛼 = 0.01; noutros sistemas judiciais
pode admitir-se que 𝛼 = 0.05 é um valor razoável.
Facilmente se conclui que existe uma infinidade de testes de dimensão 𝛼, ou seja, há
uma infinidade de testes cujas regiões críticas são compatíveis com aquela dimensão.
Estando controlada a probabilidade do erro de 1.ª espécie, é precisamente a existência
de erros de 2.ª espécie que serve de guia na escolha da região crítica óptima (se existir).
De facto, afigura-se natural que seja considerada região crítica óptima, aquela que mi-
nimiza de algum modo a probabilidade de cometer o erro de 2.ª espécie, isto é, aquela
que tem maior potência ou capacidade para rejeitar a hipótese nula, quando falsa, em
favor da hipótese alternativa.
Para formalizar esta ideia vai apresentar-se a seguinte definição:
Definição 2F.5 (Teste uniformemente mais potente (UMP))

Ao testar a hipótese nula 𝐻􏷟 ∶ 𝜃 ∈ Θ􏷟 contra a hipótese alternativa 𝐻􏷠 ∶ 𝜃 ∈ Θ􏷠 , consi-
deram-se dois testes com a mesma dimensão 𝛼, mas com regiões críticas 𝑊𝑇 e 𝑊𝑇∗ ,
respectivamente. As correspondentes funções potências são
𝜋(𝜃)̃ = 𝑃{ 𝑇(𝑧) ∈ 𝑊𝑇 | 𝜃}̃ para 𝜃̃ ∈ Θ􏷠 ,

𝜋∗ (𝜃)̃ = 𝑃{ 𝑇(𝑧) ∈ 𝑊𝑇∗ | 𝜃̃ } para 𝜃̃ ∈ Θ􏷠 .
Diz-se que o teste com a região crítica 𝑊𝑇 é uniformemente mais potente do que o teste
com região crítica 𝑊𝑇∗ se e só se
𝜋(𝜃)̃ ≥ 𝜋∗ (𝜃),
̃ ∀𝜃̃ ∈ Θ􏷠 . (2F.4)
Se o teste com região crítica 𝑊𝑇 é uniformemente mais potente do que qualquer outro
teste de dimensão 𝛼, diz-se que é o teste uniformemente mais potente.
Em geral, quando não existem testes UMP — ou a sua determinação é muito difícil —,
utiliza-se um procedimento que faz largo apelo à intuição, permitindo obter, muitas
vezes, resultados interessantes. Trata-se do critério ou princípio da razão de verosimi-
lhanças (RV) [ver capítulo 8].
Este princípio compara o máximo da função de verosimilhança restringido à hipó-
tese nula,
max 𝐿(𝜃̃ | 𝑧) = 𝐿(Θ
̂ 􏷟 ),
̃ 􏷩
𝜃∈􏸸
com o máximo da função de verosimilhança sem restrições,
max 𝐿(𝜃̃ | 𝑧) = 𝐿(Θ).

̂
̃
𝜃∈􏸸
Seja
̂
𝐿(Θ)
𝜆(𝑧) = ≥ 1.
̂ 􏷟)
𝐿(Θ
Note-se que 𝜆 é função de 𝑧, uma vez que ao minimizar a função de verosimilhança,
quer em Θ quer em Θ􏷟 , os parâmetros são substituídos pelos respectivos estimadores
de máxima verosimilhança (que são funções de 𝑧).
O teste RV baseia-se na seguinte ideia: se 𝐻􏷟 ∶ 𝜃 ∈ Θ􏷟 é verdadeira, então 𝜆(𝑧)
deve ser «pequeno»; a hipótese nula é rejeitada se 𝜆(𝑧) ≥ 𝜆􏷟 , onde 𝜆􏷟 é uma constante
convenientemente escolhida. A questão resume-se, então, a determinar esta constante.
Em alguns casos, dá-se a feliz circunstância de existir uma correspondência entre
a estatística 𝜆(𝑧) e uma estatística 𝑇(𝑧), com distribuição conhecida, facto que permite
obter, no domínio desta estatística, uma região crítica equivalente,
𝜆(𝑧) ≥ 𝜆􏷟 ⇔ 𝑇(𝑧) ∈ 𝑊𝑇 .
Então, fixada a dimensão do teste, 𝛼, a igualdade
𝑃{𝜆(𝑧) ≥ 𝜆􏷟 | 𝜃̃ ∈ Θ􏷟 } = 𝛼,
possibilita a determinação do valor de 𝜆􏷟 .

Em Econometria, quando 𝜃 é um escalar, é habitual fazer testes em que a hipótese
nula é simples, 𝐻􏷟 ∶ 𝜃 = 𝜃􏷟 , e a hipótese alternativa é composta, podendo o teste
assumir uma das seguintes três formas:
a) 𝐻􏷟 ∶ 𝜃 = 𝜃􏷟 contra 𝐻􏷠 ∶ 𝜃 > 𝜃􏷟 ;
b) 𝐻􏷟 ∶ 𝜃 = 𝜃􏷟 contra 𝐻􏷠 ∶ 𝜃 < 𝜃􏷟 ;
c) 𝐻􏷟 ∶ 𝜃 = 𝜃􏷟 contra 𝐻􏷠 ∶ 𝜃 ≠ 𝜃􏷟 .
Em a), diz-se a que a hipótese alternativa é unilateral à direita; em b), unilateral à

esquerda; em c), bilateral.
Quando 𝜃 é um vector de ℜ𝑚 , é usual o teste assumir a seguinte forma:
d) 𝐻􏷟 ∶ 𝜃 = 𝜃􏷟 contra 𝐻􏷠 ∶ 𝜃 ≠ 𝜃􏷟 .
Neste caso, a hipótese nula é simples, e a hipótese alternativa é composta (tal como nos
três casos anteriores).
As partições do espaço-parâmetro são, respectivamente, as seguintes:
a) Θ􏷟 = {𝜃􏷟 } e Θ􏷠 = (𝜃􏷟 , +∞);
b) Θ􏷟 = {𝜃􏷟 } e Θ􏷠 = (−∞, 𝜃􏷟 );
c) Θ􏷟 = {𝜃􏷟 } e Θ􏷠 = (−∞, 𝜃􏷟 ) ∪ (𝜃􏷟 , +∞);
d) Θ􏷟 = {𝜃􏷟 } e Θ􏷠 = {𝜃 ∶ 𝜃 ≠ 𝜃􏷟 } ⊂ ℜ𝑚 .
Em qualquer destes quatro tipos de teste, a estatística-teste, 𝑇(𝑧), é uma variável ale-
atória, cuja distribuição é conhecida, pelo menos assintoticamente. Muitas vezes, as
regiões de rejeição escolhidas para aqueles quatro tipos são, respectivamente, as se-
guintes:
a) Região de rejeição na cauda direita da distribuição de 𝑇(𝑧): 𝑊𝑇 = (𝑇 ∗ , +∞);
b) Região de rejeição na cauda esquerda da distribuição de 𝑇(𝑧): 𝑊𝑇 = (−∞, 𝑇 ∗ );
c) Região de rejeição nas duas caudas (esquerda e direita) da distribuição de 𝑇(𝑧):

𝑊𝑇 = (−∞, 𝑇􏷠∗ ) ∪ (𝑇􏷡∗ , +∞);
d) Região de rejeição na cauda direita da distribuição de 𝑇(𝑧): 𝑊𝑇 = (𝑇 ∗ , +∞).

Em algumas situações, os valores 𝑇􏷠∗ e 𝑇􏷡∗ , referidos em c), são simétricos.

Evidentemente, tem-se 𝑃{𝑇(𝑧) ∈ 𝑊𝑇 | 𝐻􏷟 } = 𝛼, uma vez que o conjunto Θ􏷟 tem apenas
tem um elemento. É habitual designar por valores críticos as extremidades finitas dos
intervalos que definem as regiões críticas.
Quando se faz um teste de hipóteses, fixada a respectiva dimensão, o resultado con-
siste em rejeitar, ou não, a hipótese nula conforme a amostra observada pertence, ou
não, à região crítica (ou, quando se dispõe de uma estatística-teste, conforme o valor
observado dessa estatística pertence, ou não, à respectiva região crítica). Deste modo,
quando se reporta a conclusão de um teste, tudo se resume a afirmar se a hipótese nula
é rejeitada ou não. Quando assim se procede, não se tem em conta se a amostra obser-
vada está muito ou pouco distante da fronteira da região crítica, ou se o valor observado
da estatística-teste se situa longe ou perto dos limiares de rejeição.
Para se obter mais informação, é lícito fazer a seguinte pergunta: dado o valor ob-
servado da estatística-teste, 𝑇obs , qual é o valor máximo da dimensão do teste que per-
mite fazer o teste sem rejeitar a hipótese nula?
Para responder a esta pergunta, começa por considerar-se, por facilidade de expo-
sição, o teste 𝐻􏷟 ∶ 𝜃 = 𝜃􏷟 contra 𝐻􏷠 ∶ 𝜃 > 𝜃􏷟 , com 𝑊𝑇 = (𝑇 ∗ , +∞) [teste de tipo a)].
Verifica--se, sem dificuldade, que o valor máximo da dimensão do teste a que corres-
ponde a não rejeição da hipótese nula é dado pela seguinte probabilidade:
𝑝obs = 𝑃{ 𝑇(𝑧) > 𝑇obs | 𝐻􏷟 }.
Com efeito, considerar esta probabilidade para dimensão do teste equivale a dizer que o
valor crítico que define o limiar da região de rejeição é o valor observado da estatística-
teste.
Daqui, decorre que:
A hipótese nula não é rejeitada para esta dimensão do teste, ou para qualquer
outra inferior;
A hipótese nula é rejeitada quando a dimensão do teste considerada é superior

àquela probabilidade.
Valores pequenos de 𝑝obs constituem evidência estatística contra a hipótese nula.

Por exemplo, se 𝑝obs = 0.001, só com testes de dimensão igual ou inferior a 0.001
é que não se rejeita 𝐻􏷟 .
Valores grandes de 𝑝obs fornecem evidência estatística a favor de 𝐻􏷟 . Por exemplo,

quando 𝑝obs = 0.7, todos os testes de dimensão igual ou inferior a 0.7 não rejeitam
a hipótese nula.
De uma maneira geral, pode afirmar-se que quanto menor for 𝑝obs menor é a com-
patibilidade dos dados com 𝐻􏷟 .
Reportar o valor de 𝑝obs é mais informativo do que apresentar a mera conclusão

de rejeição, ou não, da hipótese nula.
O teste pode ser feito escolhendo um qualquer valor adequado para a dimen-
são do teste, seja 𝛼, e proceder do seguinte modo: a hipótese nula é rejeitada se
𝑝obs < 𝛼; caso contrário, 𝐻􏷟 não é rejeitada.
As conclusões para os outros três tipos de teste são semelhantes, variando apenas o
modo de calcular 𝑝obs . Assim, tem-se:
a) 𝐻􏷟 ∶ 𝜃 = 𝜃􏷟 contra 𝐻􏷠 ∶ 𝜃 < 𝜃􏷟 , com 𝑊𝑇 = (−∞, 𝑇 ∗ ):
𝑝obs = 𝑃{ 𝑇(𝑧) < 𝑇obs | 𝐻􏷟 }.
b) 𝐻􏷟 ∶ 𝜃 = 𝜃􏷟 contra 𝐻􏷠 ∶ 𝜃 ≠ 𝜃􏷟 , com 𝑊𝑇 = (−∞, 𝑇􏷠∗ ) ∪ (𝑇􏷡∗ , +∞): Para determinar

𝑝obs é necessário considerar as probabilidades
𝑃{ 𝑇(𝑧) > 𝑇obs | 𝐻􏷟 } e 𝑃{ 𝑇(𝑧) < 𝑇obs | 𝐻􏷟 },
e fazer 𝑝obs igual ao dobro da menor destas probabilidades.

No caso particular em que a distribuição de 𝑠(𝑧) é simétrica tem-se
𝑝obs = 2 𝑃 { 𝑇(𝑧) > | 𝑇obs | | 𝐻􏷟 } .
d) Θ􏷟 = {𝜃􏷟 } e Θ􏷠 = {𝜃 ∶ 𝜃 ≠ 𝜃􏷟 } ⊂ ℜ𝑚 , com 𝑊𝑇 = (𝑇 ∗ , +∞):
𝑝obs = 𝑃{𝑇(𝑧) > 𝑇obs | 𝐻􏷟 }.
As considerações anteriores permitem apresentar a seguinte definição:
Definição 2F.6 (Valor-p)

Suponha-se que se pretende fazer um teste de hipóteses em que o valor observado da
estatística-teste, 𝑇(𝑧), é 𝑇obs . Seja 𝑊𝑇 (𝛼) a região crítica associada a cada dimensão do
teste, 𝛼 ∈ (0, 1). Admitindo que a hipótese nula, 𝐻􏷟 , é verdadeira, o valor-𝑝 é dado por
𝑝obs = inf{𝛼 ∶ 𝑇obs ∈ 𝑊𝑇 (𝛼)}, (2F.5)
ou seja, o valor-𝑝 é a menor dimensão do teste para a qual se pode rejeitar 𝐻􏷟 .

Em termos informais, pode então afirmar-se o seguinte: fixada uma estatística-teste,

𝑇(𝑧), o valor-𝑝, 𝑝obs , mede a probabilidade de obter qualquer valor tão ou mais desfa-
vorável para 𝐻􏷟 do que 𝑇obs . Deste modo, o valor-𝑝 mede a evidência contra a hipótese
nula: quanto menor é o valor-𝑝, mais forte é a evidência contra 𝐻􏷟 .
Como se viu, a propósito dos testes de tipo a), b) e c), em que 𝜃 é um escalar, os
valores assumidos pela estatística-teste que são tão ou mais desfavoráveis para a hipó-
tese nula, dependem da forma da hipótese alternativa (unilateral à direita, unilateral
à esquerda ou bilateral). Por exemplo, quando se calcula o valor-𝑝, no caso em que a
hipótese alternativa é composta e bilateral é necessário ter presente que, nesta situação,
o conjunto dos valores assumidos pela estatística-teste, tão ou mais desfavoráveis para
a hipótese nula, são os que se situam nas duas caudas da sua distribuição.
Pode apenas reportar-se o valor-𝑝 sem fixar limiares de rejeição de 𝐻􏷟 , e deixar ao
cuidado do investigador decidir se há muita ou pouca evidência contra a hipótese. Con-
tudo, muitas vezes, é conveniente comparar o valor-𝑝 com certos limiares ou níveis de
significância habituais (0.1, 0.05, 0.01). Por exemplo, podem estabelecer-se as seguintes
regras práticas:
valor-p evidência contra H0

𝑝obs ≤ 0.01 muito forte
0.01 ≤ 𝑝obs ≤ 0.05 forte
0.05 ≤ 𝑝obs ≤ 0.10 fraca
𝑝obs > 0.10 pouca ou nenhuma
Note-se que:
Um valor-𝑝 grande não pode ser interpretado como evidência forte a favor de 𝐻􏷟 .
De facto, um valor-𝑝 elevado pode ocorrer por duas razões: a) 𝐻􏷟 é verdadeira; b)
𝐻􏷟 é falsa, mas o teste tem potência fraca.
Quando, por exemplo, 0.01 < 𝑝obs ≤ 0.05, há autores que dizem que a evidência
contra 𝐻􏷟 não é significativa ao nível de 0.01, mas é significativa ao nível de 0.05.
Outros autores optam por dizer que a hipótese é de rejeitar ao nível de 0.05 mas
não é de rejeitar ao nível de 0.01; muitas vezes, fixa-se antecipadamente o nível 𝛼
(0 < 𝛼 < 1) e rejeita-se 𝐻􏷟 quando sai 𝑝obs < 𝛼.
[2G]
O modelo de regressão linear clássico
generalizado (Aitken)
O modelo de regressão linear clássico pode ser generalizado, abandonando as hipóteses

REX.3 (homocedasticidade condicionada) e REX.4 (ausência de autocorrelação). Assim,
admite-se que:
Var(𝑢𝑡 | X𝑇 ) = 𝜎􏷡𝑡 (heterocedasticidade condicionada);
Cov(𝑢𝑡 , 𝑢𝑠 | X𝑇 ) ≠ 0 (autocorrelação).
Quando se dispõe de uma amostra, {(𝑦𝑡 , 𝑥𝑡􏷠 , 𝑥𝑡􏷡 , … , 𝑥𝑡𝑘 ) ∶ 𝑡 = 1, 2, … , 𝑛}, a matriz das
covariâncias condicionadas, Cov(𝑈 | 𝑋) = 𝐸(𝑈𝑈 𝑇 | 𝑋), deixa de ser 𝜎􏷡 𝐼𝑛 .
O abandono daquelas hipóteses (REX.3 e REX.4) significa que cada elemento de
Cov(𝑈 | 𝑋) é, em geral, função de 𝑋 . Se existir heterocedasticidade condicionada, os
elementos da diagonal principal não são todos iguais; se existir autocorrelação, existem
elementos não diagonais diferentes de zero. Tem-se, então,
Cov(𝑈 | 𝑋) = Σ(𝑋), (2G.1)
que se supõe definida positiva.

Para simplificar a notação, utiliza-se o símbolo
⎡ 𝜎􏷠􏷠 𝜎􏷠􏷡 ⋯ 𝜎􏷠𝑛 ⎤

⎢ 𝜎 𝜎􏷡􏷡 ⋯ 𝜎􏷡𝑛 ⎥
Σ = ⎢ 􏷠􏷡 ⎥.
⋮ ⋮ ⋮
⎢ ⎥
𝜎
⎣ 􏷠𝑛 𝜎􏷡𝑛 ⋯ 𝜎𝑛𝑛 ⎦
929
930 Anexo 2G O modelo de regressão linear clássico generalizado (Aitken)
Usando-se Σ em vez de Σ(𝑋), deve estar sempre presente que cada 𝜎𝑡𝑠 é, em geral,
função de 𝑋 : 𝜎𝑡𝑠 = 𝜎𝑡𝑠 (𝑋). Note-se que
⎧ 𝜎 = Var(𝑢 | 𝑋) = 𝜎􏷡 (𝑡 = 1, 2, … , 𝑛)
⎪ 𝑡𝑡 𝑡 𝑡
⎨
⎪ 𝜎𝑡𝑠 = Cov(𝑢𝑡 , 𝑢𝑠 | 𝑋) (𝑡, 𝑠 = 1, 2, … , 𝑛 ; 𝑡 ≠ 𝑠).
⎩
Muitas vezes, supõe-se que Σ é conhecida a menos de uma constante multiplicativa.
Assim, faz-se Σ = 𝜆 Ω, onde 𝜆 > 0 (que pode ser desconhecido) e Ω é uma matriz
conhecida e definida positiva. Neste caso, tem-se
⎧ 𝜎 = 𝜎􏷡 = Var(𝑢 | 𝑋) = 𝜆 𝜔 (𝑡 = 1, 2, … , 𝑛)
⎪ 𝑡𝑡 𝑡 𝑡 𝑡𝑡
⎨
⎪ 𝜎𝑡𝑠 = Cov(𝑢𝑡 , 𝑢𝑠 | 𝑋) = 𝜆 𝜔𝑡𝑠 (𝑡, 𝑠 = 1, 2, … , 𝑛 ; 𝑡 ≠ 𝑠),
⎩
onde 𝜔𝑡𝑠 é o elemento genérico da matriz Ω. Os parâmetros desconhecidos do modelo
são os 𝛽𝑗 (𝑗 = 1, 2, … , 𝑘) e 𝜆. Note-se, também, que
Cov(𝑌 | 𝑋) = Σ(𝑋).
Como Σ é definida positiva, não existem relações lineares entre as variáveis residuais.
Se, pelo contrário, algum 𝑢𝑡 fosse combinação linear dos outros, a matriz Σ seria sin-
gular e, portanto, semidefinida positiva. Por exemplo, seja 𝑛 = 2, e suponha-se que
𝑢􏷡 = 𝛼 𝑢􏷠 . Então,
⎡ 𝜎􏷡􏷠 𝜎􏷠􏷡 ⎤ ⎡ 𝐸(𝑢􏷡􏷠 | 𝑋) 𝐸(𝑢􏷠 𝑢􏷡 | 𝑋) ⎤

􏷡
⎡ 1 𝛼 ⎤
Σ=⎢ =⎢ ⎥ = 𝜎􏷠 ⎢ ,
􏷡 ⎥ 􏷡 􏷡 ⎥
⎣ 𝜎􏷠􏷡 𝜎􏷡 ⎦ ⎣ 𝐸(𝑢􏷠 𝑢􏷡 | 𝑋) 𝐸(𝑢􏷡 | 𝑋) ⎦ ⎣ 𝛼 𝛼 ⎦
e a matriz Σ é semidefinida positiva, pois
1 𝛼
􏵶 􏵶 = 0.
𝛼 𝛼􏷡
O modelo de regressão, a verificar as hipóteses REX.1, REX.2, REX.5 e Ω conhecida

e definida positiva, designa-se por modelo de regressão linear clássico generalizado
(MRLCG) ou modelo de Aitken.
Considere-se o estimador MQ de 𝛽, no contexto deste modelo,
𝑏 = (𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 𝑌,
e analisem-se as suas propriedades exactas.

O estimador 𝑏, condicionado por 𝑋 , é linear em 𝑌 .

O modelo de regressão linear clássico generalizado (Aitken) 931
O estimador 𝑏 é não enviesado, 𝐸(𝑏 | 𝑋) = 𝐸(𝑏) = 𝛽.
O erro de amostragem continua a ser 𝑏 − 𝛽 = (𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 𝑈 .
A matriz das covariâncias de 𝑏, condicionada por 𝑋 , é dada por
Cov(𝑏 | 𝑋) = (𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 Σ 𝑋(𝑋 𝑇 𝑋)−􏷠 . (2G.2)
Com efeito, basta notar que Cov(𝑌 | 𝑋) = Σ.
Como vai ver-se, o estimador 𝑏 não é BLUE (não é o estimador mais eficiente
na classe dos estimadores lineares não enviesados; não se verifica o teorema de
Gauss-Markov).
Mesmo que se considere a hipótese REX.6 (normalidade das variáveis residuais),

os resultados (2.69), (2.73), (2.76), (2.79) e (2.80) não são verdadeiros. Em parti-
cular: o rácio-𝐭 não segue uma distribuição 𝑡-𝑆𝑡𝑢𝑑𝑒𝑛𝑡; o rácio-𝐅 não segue uma
distribuição 𝐹 -𝑆𝑛𝑒𝑑𝑐𝑜𝑟.
Para obter um estimador BLUE para 𝛽, vai começar-se por demonstrar que é possível
transformar a relação 𝑌 = 𝑋𝛽 + 𝑈 [onde Cov(𝑈 | 𝑋) = Σ] em 𝑌∗ = 𝑋∗ 𝛽 + 𝑈∗ , onde
Cov(𝑈∗ | 𝑋∗ ) = 𝐼𝑛 .
Como Σ é simétrica e definida positiva, pode determinar-se uma matriz 𝑃, quadrada
de ordem 𝑛, não singular, tal que Σ−􏷠 = 𝑃𝑇 𝑃. Existem muitas matrizes 𝑃 que permi-
tem esta decomposição, pouco importando qual delas é que vai ser escolhida. Uma via
possível consiste em calcular os valores próprios de Σ e a matriz ortonormal dos respec-
tivos vectores próprios. Representando por 𝛿𝑡 > 0 (𝑡 = 1, 2, … , 𝑛) cada valor próprio, a
respectiva matriz diagonal é dada por
⎡ 𝛿􏷠 0 ⋯ 0 ⎤
⎢ 0 𝛿􏷡 ⋯ 0 ⎥
𝐷=⎢ ⎥ ou 𝐷 = Diag{𝛿􏷠 , 𝛿􏷡 , … , 𝛿𝑛 }.
⋮ ⋮ ⋮
⎢ ⎥
⎣ 0 0 ⋯ 𝛿𝑛 ⎦
A correspondente matriz ortonormal dos vectores próprios é, então,
𝐶 = 􏿮 𝑐•􏷠 𝑐•􏷡 ⋯ 𝑐•𝑛 􏿱 ,
onde, como se sabe, 𝐶𝑇 𝐶 = 𝐶 𝐶𝑇 = 𝐼𝑛 [logo, 𝐶𝑇 = 𝐶−􏷠 ].

Como a matriz 𝐶 diagonaliza Σ, obtém-se
𝐶𝑇 Σ 𝐶 = 𝐷 ou Σ = 𝐶𝐷𝐶𝑇 .
Atendendo a que 𝐷 = 𝐷􏷠/􏷡 𝐷􏷠/􏷡 , onde 𝐷􏷠/􏷡 = Diag{ 𝛿1/2 1/2 1/2
1 ,𝛿2 , … , 𝛿𝑛 } , vem
Σ = 𝐶𝐷􏷠/􏷡 𝐷􏷠/􏷡 𝐶𝑇 .
Então,
Σ−􏷠 = 𝐶𝐷−􏷠/􏷡 𝐷−􏷠/􏷡 𝐶𝑇 = 𝑃𝑇 𝑃 ⇔ Σ = 𝑃−􏷠 (𝑃𝑇 )−􏷠 ,
onde 𝑃 = 𝐷−􏷠/􏷡 𝐶𝑇 , com |𝑃| ≠ 0, e 𝐷−􏷠/􏷡 = Diag{ 𝛿−1 1/2 ,𝛿−2 1/2 , … , 𝛿−𝑛 1/2 } .
Considere-se a transformação de 𝑌 = 𝑋𝛽 + 𝑈 dada por
𝑃𝑌 = 𝑃𝑋𝛽 + 𝑃𝑈, ou 𝑌∗ = 𝑋∗ 𝛽 + 𝑈∗ ,
onde 𝑌∗ = 𝑃𝑌 , 𝑋∗ = 𝑃𝑋 e 𝑈∗ = 𝑃𝑈 (a matriz 𝑃 depende de 𝑋 ).
Vai verificar-se que a nova relação verifica as seguintes propriedades do MRLC:
𝐸(𝑈∗ | 𝑋∗ ) = 𝟎.
𝐸(𝑈∗ | 𝑋∗ ) = 𝐸(𝑈∗ | 𝑋) = 𝐸(𝑃𝑈 | 𝑋) = 𝑃𝐸(𝑈 | 𝑋) = 𝟎,
uma vez que não há mais informação em 𝑋∗ do que em 𝑋 .
Cov(𝑈∗ | 𝑋∗ ) = 𝐼𝑛 .
De facto, tem-se
Cov(𝑈∗ | 𝑋∗ ) = Cov(𝑈∗ | 𝑋) = Cov(𝑃𝑈 | 𝑋)
= 𝑃 Cov(𝑈 | 𝑋)𝑃𝑇 = 𝑃Σ𝑃𝑇 = 𝑃𝑃−􏷠 (𝑃𝑇 )−􏷠 𝑃𝑇 = 𝐼𝑛 ,
porque não há mais informação em 𝑋∗ do que em 𝑋 , e Σ = 𝑃−􏷠 (𝑃𝑇 )−􏷠 .
Quando Σ = 𝜆 Ω, tem-se Cov(𝑈∗ | 𝑋∗ ) = 𝜆𝐼𝑛 .
𝑟(𝑋∗ ) = 𝑘.
Com efeito, basta notar que 𝑟(𝑋) = 𝑘 e 𝑃 é não singular.
Nestas condições, utilizando a transformação 𝑌∗ = 𝑋∗ 𝛽 + 𝑈∗ pode determinar-se o esti-
mador MQ de 𝛽, obtendo-se
𝑏∗ = (𝑋∗𝑇 𝑋∗ )−􏷠 𝑋∗𝑇 𝑌∗ = (𝑋 𝑇 𝑃𝑇 𝑃𝑋)−􏷠 𝑋 𝑇 𝑃𝑇 𝑃𝑌 = (𝑋 𝑇 Σ−􏷠 𝑋)−􏷠 𝑋 𝑇 Σ−􏷠 𝑌.
Então, pode definir-se o seguinte estimador:
Definição 2G.1 (Estimador MQ generalizado de 𝛽)

O estimador MQ generalizado de 𝛽 (estimador MQG) é dado por
𝑏𝑔 = (𝑋 𝑇 Σ−􏷠 𝑋)−􏷠 𝑋 𝑇 Σ−􏷠 𝑌. (2G.3)
espaco
Note-se que 𝑏∗ = 𝑏𝑔 , isto é, o estimador MQ de 𝛽, considerando 𝑌∗ = 𝑋∗ 𝛽 + 𝑈∗ , é igual

ao estimador MQG de 𝛽, quando se considera 𝑌 = 𝑋𝛽 + 𝑈 . Portanto, minimizar 𝜑(𝛽)̃ =
(𝑌∗ − 𝑋∗ 𝛽)̃ 𝑇 (𝑌∗ − 𝑋∗ 𝛽)̃ equivale a minimizar
𝜑(𝛽)̃ = (𝑌 − 𝑋 𝛽)̃ 𝑇 Σ−􏷠 (𝑌 − 𝑋 𝛽).

̃
O erro de amostragem do estimador 𝑏𝑔 é dado por
𝑏𝑔 − 𝛽 = (𝑋 𝑇 Σ−􏷠 𝑋)−􏷠 𝑋 𝑇 Σ−􏷠 𝑈.
Quando Σ = 𝜆 Ω, facilmente se verifica que
𝑏𝑔 = (𝑋 𝑇 Ω−􏷠 𝑋)−􏷠 𝑋 𝑇 Ω−􏷠 𝑌.
Sem dificuldade se conclui que 𝑏𝑔 , estimador MQG de 𝛽, é BLUE. A respectiva matriz

das covariâncias, condicionada por 𝑋 , é dada por
Cov(𝑏𝑔 | 𝑋) = (𝑋 𝑇 Σ−􏷠 𝑋)−􏷠 = 𝜆(𝑋 𝑇 Ω−􏷠 𝑋)−􏷠 . (2G.4)
Cov(𝑏𝑔 | 𝑋) = (𝑋 𝑇 Σ−􏷠 𝑋)−􏷠 𝑋 𝑇 Σ−􏷠 Cov(𝑌 | 𝑋)Σ−􏷠 𝑋(𝑋 𝑇 Σ−􏷠 𝑋)−􏷠 ,
onde Cov(𝑌 | 𝑋) = Σ.
Também se demonstra, sem dificuldade, que 𝛿̂𝑔 = 𝑅𝑏𝑔 é BLUE para 𝛿 = 𝑅𝛽 e
Cov(𝛿̂𝑔 | 𝑋) = 𝑅 Cov(𝑏𝑔 | 𝑋)𝑅𝑇 = 𝑅 (𝑋 𝑇 Σ−􏷠 𝑋)−􏷠 𝑅𝑇 .
Como 𝑏𝑔 é BLUE para 𝛽, é imediato concluir que
Cov(𝑏 | 𝑋) − Cov(𝑏𝑔 | 𝑋) = (𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 Σ𝑋(𝑋 𝑇 𝑋)−􏷠 − (𝑋 𝑇 Σ−􏷠 𝑋)−􏷠
é semidefinida positiva.
Quando se considera Σ = 𝜆 Ω, facilmente se conclui que o estimador não enviesado
de 𝜆, utilizando a relação transformada, é 𝑠􏷡∗ = 𝑈̂ 𝑇∗ 𝑈̂ ∗ /(𝑛−𝑘) onde 𝑈̂ ∗ é o respectivo vector
dos resíduos MQ, 𝑈̂ ∗ = 𝑌∗ − 𝑋∗ 𝑏∗ . Como 𝑈̂ ∗ = 𝑃(𝑌 − 𝑋 𝑏𝑔 ) = 𝑃 𝑈̂ , onde 𝑈̂ = 𝑌 − 𝑋 𝑏𝑔 [não
confundir com 𝑌 − 𝑋 𝑏], o estimador não enviesado de 𝜆 pode escrever-se da seguinte
maneira:
𝑈̂ 𝑇 Ω−􏷠 𝑈̂
𝑠􏷡𝑔 = .
𝑛−𝑘
Donde,
􏾨 (𝑏𝑔 | 𝑋) = 𝑠􏷡𝑔 (𝑋 𝑇 Ω−􏷠 𝑋)−􏷠 .
Cov
Sabe-se que no MRLC sem termo independente a soma dos resíduos MQ é, em geral,
diferente de zero. Supondo que o MRLCG tem termo independente facilmente se veri-
fica que a matriz 𝑋∗ não tem uma coluna com todos os elementos iguais a 1. Com efeito,
se 𝑥•􏷠 = 𝑒 então 𝑥∗•􏷠 = 𝑃𝑒 ≠ 𝑒. Não se pode, portanto, concluir que
Σ𝑛𝑡=􏷠 𝑢̂ ∗𝑡 = 𝑒𝑇 𝑈̂ ∗ = 0.
No entanto, como 𝑋∗𝑇 𝑈̂ ∗ = 𝟎, tem-se (𝑥∗•􏷠 )𝑇 𝑈̂ ∗ = 𝑒𝑇 𝑃𝑇 𝑃 𝑈̂ = 𝑒𝑇 Σ−􏷠 𝑈̂ = 0.

Apresenta-se a seguir uma lista de resultados sobre o modelo em estudo:
Da propriedade 1.10 dos resíduos MQ decorre 𝑌∗𝑇 𝑌∗ = 𝑌̂ 𝑇∗ 𝑌̂ ∗ + 𝑈̂ 𝑇∗ 𝑈̂ ∗ , pelo que
𝑌 𝑇 Σ−􏷠 𝑌 = 𝑌̂ 𝑇 Σ−􏷠 𝑌̂ + 𝑈̂ 𝑇 Σ−􏷠 𝑈.

̂
Então, pode definir-se
𝑈̂ 𝑇 Σ−􏷠 𝑈̂ 𝑌̂ 𝑇 Σ−􏷠 𝑌̂
𝑅􏷡𝑔 = 1 − = .
𝑌 𝑇 Σ−􏷠 𝑌 𝑌 𝑇 Σ−􏷠 𝑌
A hipótese semelhante a REX.6 para o MRLCG é a seguinte:
𝑈 | 𝑋 ∼ 𝑁 (𝑛) (𝟎, Σ),
A função de verosimilhança é, então,

1
𝐿(𝛽̃ | 𝑌, 𝑋) = (2𝜋)−𝑛/􏷡 |Σ|−􏷠/􏷡 exp 􏿼− (𝑌 − 𝑋 𝛽)̃ 𝑇 Σ−􏷠 (𝑌 − 𝑋 𝛽)̃ � .
2
Quando Σ = 𝜆 Ω, vem
−􏷠/􏷡 1
𝐿(𝛽,̃ 𝜆̃ 􏷡 | 𝑌, 𝑋) = (2𝜋 𝜆̃ 􏷡 )−𝑛/􏷡 |Ω| exp 􏿼− 􏷡 (𝑌 − 𝑋 𝛽)̃ 𝑇 Ω−􏷠 (𝑌 − 𝑋 𝛽)̃ � .
2𝜆̃
Os respectivos estimadores MV são
𝑈̂ 𝑇 Ω−􏷠 𝑈̂
𝛽̂𝑔 = 𝑏𝑔 e 𝜆̂ 𝑔 = .
𝑛
O resultado homólogo a (2.69) é dado por
𝑈̂ 𝑇 Ω−􏷠 𝑈̂ (𝑛 − 𝑘)𝑠􏷡𝑔
= ∼ 𝜒􏷡 (𝑛 − 𝑘).
𝜆 𝜆
O resultado homólogo a (2.73) é
𝑏𝑔𝑗 − 𝛽𝑗
∼ 𝑡(𝑛 − 𝑘),
𝑗𝑗
􏽯𝑚∗
𝑗𝑗
onde 𝑚∗ é o 𝑗-ésimo elemento da diagonal principal da matriz 𝑋 𝑇 Σ−􏷠 𝑋 .
Quando Σ = 𝜆 Ω, vem
𝑏𝑔𝑗 − 𝛽𝑗
∼ 𝑡(𝑛 − 𝑘),
𝑗𝑗
𝑠 𝑔 􏽯𝑚 ∗
𝑗𝑗
onde, agora, 𝑚∗ é o 𝑗-ésimo elemento da diagonal principal da matriz 𝑋 𝑇 Ω−􏷠 𝑋 .
Como o estimador BLUE de 𝛿 = 𝑅𝛽 é 𝛿̂𝑔 = 𝑅𝑏𝑔 , o resultado homólogo a (2.79) é o

seguinte:
(𝛿̂𝑔 − 𝛿)𝑇 {𝑅(𝑋 𝑇 Σ−􏷠 𝑋)−􏷠 𝑅𝑇 }−􏷠 (𝛿̂𝑔 − 𝛿) ∼ 𝜒􏷡 (𝑚).
Quando Σ = 𝜆 Ω, tem-se
(𝛿̂𝑔 − 𝛿)𝑇 {𝑅(𝑋 𝑇 Σ−􏷠 𝑋)−􏷠 𝑅𝑇 }−􏷠 (𝛿̂𝑔 − 𝛿)

∼ 𝐹(𝑚, 𝑛 − 𝑘).
𝑚𝑠􏷡𝑔
Considere-se 𝑌 = 𝑋𝛽 + 𝑈 , e suponha-se que se dispõe de 𝑟 observações adicionais

dos regressores, agrupadas na matriz 𝑋􏷟 de tipo 𝑟 × 𝑘. Tem-se:
⎧ 𝑌 􏷟 = 𝑋􏷟 𝛽 + 𝑈 􏷟 ,
⎪
⎪
⎪ 𝐸(𝑈􏷟 | 𝑋, 𝑋􏷟 ) = 𝟎,
⎪
⎪
⎨ Cov(𝑈􏷟 | 𝑋, 𝑋􏷟 ) = Σ􏷟 ,
⎪
⎪ 𝑈 | 𝑋, 𝑋 ∼ 𝑁 (𝑟) (𝟎, Σ ),
⎪ 􏷟 􏷟 􏷟
⎪
⎪ Cov(𝑈, 𝑈 | 𝑋, 𝑋 ) = Σ .
⎩ 􏷟 􏷟 ∗
Assim,
𝑈 ⎡ Σ Σ∗ ⎤
Cov 􏿰 􏿳=⎢ 𝑇 ⎥.
𝑈􏷟
⎣ Σ∗ Σ􏷟 ⎦
Seja 𝑌̃ 􏷟 um qualquer previsor de 𝑌􏷟 a verificar as duas condições seguintes:
— 𝑌̃ 􏷟 = 𝐶𝑌 (linearidade em 𝑌 , condicionado por 𝑋 e 𝑋􏷟 ).

— 𝐸(𝐷̃ | 𝑋, 𝑋􏷟 ) = 𝟎, onde 𝐷̃ = 𝑌􏷟 − 𝑌̃ 􏷟 (não enviesamento).
É possível demonstrar que
𝑌̂ 􏷟 = 𝑋􏷟 𝑏𝑔 + Σ𝑇∗ Σ−􏷠 𝑈,
̂
onde 𝑈̂ = 𝑌 − 𝑋 𝑏𝑔 é BLUP para 𝑌􏷟 .

Fazendo 𝐷 = 𝑌􏷟 − 𝑌̂ 􏷟 , tem-se 𝐸(𝐷 | 𝑋, 𝑋􏷟 ) = 𝟎 e Cov(𝐷 | 𝑋, 𝑋􏷟 ) = Ψ, onde
Ψ = Σ􏷟 − Σ𝑇∗ Σ−􏷠 Σ∗ + (𝑋􏷟 − Σ𝑇∗ Σ−􏷠 𝑋)(𝑋 𝑇 Σ−􏷠 𝑋)−􏷠 (𝑋􏷟 − Σ𝑇∗ Σ−􏷠 𝑋)𝑇 .
O resultado homólogo a (2.118) é, então,
(𝑌􏷟 − 𝑌̂ 􏷟 )𝑇 Ψ−􏷠 (𝑌􏷟 − 𝑌̂ 􏷟 ) ∼ 𝜒􏷡 (𝑟).
Quando
𝑈 ⎡ Ω Ω∗ ⎤
Cov 􏿰 􏿳=𝜆⎢ 𝑇 ⎥,
𝑈􏷟
⎣ Ω∗ Ω􏷟 ⎦
tem-se Cov(𝐷 | 𝑋, 𝑋􏷟 ) = 𝜆Ψ, e
Ψ = Ω􏷟 − Ω𝑇∗ Ω−􏷠 Ω∗ + (𝑋􏷟 − Ω𝑇∗ Ω−􏷠 𝑋)(𝑋 𝑇 Ω−􏷠 𝑋)−􏷠 (𝑋􏷟 − Ω𝑇∗ Ω−􏷠 𝑋)𝑇 .
Donde,
(𝑌􏷟 − 𝑌̂ 􏷟 )𝑇 Ψ−􏷠 (𝑌􏷟 − 𝑌̂ 􏷟 )
∼ 𝐹(𝑟, 𝑛 − 𝑘).
𝑟𝑠􏷡𝑔
Quando 𝑟 = 1, obtém-se
𝑦𝑛+􏷠 − 𝑦̂ 𝑛+􏷠
∼ 𝑡(𝑛 − 𝑘).
𝑠𝑔 √Ψ
[3A]
Exemplos sobre ruídos brancos e
diferença-martingalas
Exemplo de ruído branco que não é independente

Seja 𝑤 uma variável aleatória com distribuição uniforme no intervalo (0 , 2𝜋),
⎧ 1/2𝜋 (0 < 𝑤 < 2𝜋)

⎪
𝑤 ∼ 𝑈(0 , 2𝜋) ⇔ ⎨
⎪ 0 (outros 𝑤) .
⎩
Considere-se o processo estocástico {𝑧𝑡 = cos(𝑡𝑤) ∶ 𝑡 = 1, 2, …}. Facilmente se verifica

que se trata de um ruído branco. Com efeito,
􏷡𝜋
􏷡𝜋 1 1 sen(𝑡𝑤)
𝐸(𝑧𝑡 ) = 􏾙 cos(𝑡𝑤) 𝑑𝑤 = 􏿰 􏿳 = 0;
􏷟 2𝜋 2𝜋 𝑡
􏷟
􏷡𝜋
􏷡𝜋 1 1 sen(𝑡𝑤) cos(𝑡𝑤) 𝑤 1
Var(𝑧𝑡 ) = 􏾙 cos􏷡 (𝑡𝑤) 𝑑𝑤 = 􏿰 + 􏿳 = ;
􏷟 2𝜋 2𝜋 2𝑡 2 2
􏷟
􏷡𝜋
􏷡𝜋 1 1 sen{(𝑠 − 𝑡)𝑤} sen{(𝑠 + 𝑡)𝑤}
Cov(𝑧𝑡 , 𝑧𝑠 ) = 􏾙 cos(𝑡𝑤) cos(𝑠𝑤) 𝑑𝑤 = 􏿰 + 􏿳 = 0.
􏷟 2𝜋 2𝜋 2(𝑠 − 𝑡) 2(𝑠 + 𝑡)
􏷟
Contudo, {𝑧𝑡 } não é um ruído branco independente, uma vez que 𝑧𝑡 = cos(𝑡𝑤) e 𝑧𝑠 =
= cos(𝑠𝑤) não são independentes; nem sequer é estritamente estacionário.
937
938 Anexo 3A Exemplos sobre ruídos brancos e diferença-martingalas
Exemplo de ruído branco que não é uma diferença-martingala

Considere-se o ruído branco não independente atrás referido,
{𝑧𝑡 = cos(𝑡𝑤) ∶ 𝑡 = 1, 2, …},
onde 𝑤 tem distribuição uniforme no intervalo (0 , 2𝜋).

Em primeiro lugar, vai mostrar-se que 𝐸(𝑧𝑡 | 𝑧􏷠 ) = 𝑧𝑡 (𝑡 = 2, 3, …). Com efeito, basta
notar que 𝑧𝑡 = cos(𝑡𝑤) apenas depende de 𝑧􏷠 = cos(𝑤). Por exemplo,
𝑧􏷡 = cos(2𝑤) = 2 cos􏷡 (𝑤) − 1 = 2𝑧􏷡􏷠 − 1;

𝑧􏷢 = cos(3𝑤) = 4 cos􏷢 (𝑤) − 3 cos(𝑤) = 4𝑧􏷢􏷠 − 3𝑧􏷠 ;
𝑧􏷣 = cos(4𝑤) = 8 cos􏷣 (𝑤) − 8 cos􏷡 (𝑤) + 1 = 8𝑧􏷣􏷠 − 8𝑧􏷡􏷠 + 1;
𝑧􏷤 = cos(5𝑤) = 16 cos􏷤 (𝑤) − 20 cos􏷢 (𝑤) + 5 cos(𝑤) = 16𝑧􏷤􏷠 − 20𝑧􏷢􏷠 + 5𝑧􏷠 ;
…
Assim, se se conhecer 𝑧􏷠 = cos(𝑤), a previsão de qualquer 𝑧𝑡 futuro coincide com 𝑧𝑡 . O

processo {𝑧𝑡 = cos(𝑡𝑤) ∶ 𝑡 = 1, 2, …} não é uma diferença-martingala, já que
𝐸(𝑧𝑡 | 𝑧𝑡−􏷠 , 𝑧𝑡−􏷡 , … , 𝑧􏷠 ) = 𝐸 [cos(𝑡𝑤) | cos{(𝑡 − 1)𝑤}, cos{(𝑡 − 2)𝑤}, … , cos(𝑤)]

= cos(𝑡𝑤) = 𝑧𝑡 .
Exemplo de diferença-martingala, que é um ruído branco não independente

Seja 𝑤𝑡 = 𝜀𝑡 𝜀𝑡−􏷠 , onde {𝜀𝑡 } é um ruído branco independente. Obviamente {𝑤𝑡 } não é 𝑖𝑖𝑑,
uma vez que 𝑤𝑡 = 𝜀𝑡 𝜀𝑡−􏷠 e 𝑤𝑡−􏷠 = 𝜀𝑡−􏷠 𝜀𝑡−􏷡 não são variáveis aleatórias independentes.
No entanto, {𝑤𝑡 } é um ruído branco, porque
𝐸(𝑤𝑡 ) = 𝐸(𝜀𝑡 𝜀𝑡−􏷠 ) = 𝐸(𝜀𝑡 )𝐸(𝜀𝑡−􏷠 ) = 0,

𝐸(𝑤􏷡𝑡 ) = 𝐸(𝜀􏷡𝑡 𝜀􏷡𝑡−􏷠 ) = 𝐸(𝜀􏷡𝑡 )𝐸(𝜀􏷡𝑡−􏷠 ) = 𝜎􏷣𝜀 ,
𝐸(𝑤𝑡 𝑤𝑡−􏷠 ) = 𝐸(𝜀𝑡 𝜀􏷡𝑡−􏷠 𝜀𝑡−􏷡 ) = 𝐸(𝜀𝑡 )𝐸(𝜀􏷡𝑡−􏷠 )𝐸(𝜀𝑡−􏷡 ) = 0,
𝐸(𝑤𝑡 𝑤𝑡−𝑠 ) = 0 (𝑠 = 2, 3, …).
Falta verificar que {𝑤𝑡 } é uma diferença-martingala. Com efeito, vem
𝐸(𝑤𝑡 | 𝑤𝑡−􏷠 , 𝑤𝑡−􏷡 , …) = 𝐸(𝜀𝑡 𝜀𝑡−􏷠 | 𝜀𝑡−􏷠 𝜀𝑡−􏷡 , 𝜀𝑡−􏷡 𝜀𝑡−􏷢 , …)

= 𝐸{𝐸(𝜀𝑡 𝜀𝑡−􏷠 | 𝜀𝑡−􏷠 , 𝜀𝑡−􏷡 , …) | 𝜀𝑡−􏷠 𝜀𝑡−􏷡 , 𝜀𝑡−􏷡 𝜀𝑡−􏷢 , …}
= 𝐸{𝜀𝑡−􏷠 𝐸(𝜀𝑡 | 𝜀𝑡−􏷠 , 𝜀𝑡−􏷡 , …) | 𝜀𝑡−􏷠 𝜀𝑡−􏷡 , 𝜀𝑡−􏷡 𝜀𝑡−􏷢 , …} = 0.
Exemplos sobre ruídos brancos e diferença-martingalas 939
Exemplo de diferença-martingala que não é um processo estacionário

Suponha-se que o processo {𝜀𝑡 } é 𝑖𝑖𝑑 a verificar 𝐸(𝜀𝑡 ) = 0 e Var(𝜀𝑡 ) = 𝜎􏷡𝜀 , e que {𝑥𝑡 } é uma
sucessão de números reais não constante. Verifica-se imediatamente que 𝐸(𝑥𝑡 𝜀𝑡 ) = 0, e
que {𝑥𝑡 𝜀𝑡 } é independente.
Contudo, não é identicamente distribuído porque Var(𝑥𝑡 𝜀𝑡 ) = 𝑥􏷡𝑡 𝜎􏷡𝜀 . Contudo, como
𝐸(𝑥𝑡 𝜀𝑡 |𝑥𝑡−􏷠 𝜀𝑡−􏷠 , 𝑥𝑡−􏷡 𝜀𝑡−􏷡 , …) = 𝐸(𝑥𝑡 𝜀𝑡 ) = 0, {𝑥𝑡 𝜀𝑡 } é uma diferença--martingala.
[3B]
Demonstração de algumas
propriedades
3B.1 Propriedade 3.3
Demonstração. Com efeito, se as variáveis residuais fossem observáveis, o estimador

consistente óbvio de 𝐸(𝑢􏷡𝑡 ) = 𝜎􏷡 seria a média amostral dos 𝑢􏷡𝑡 , uma vez que
1 𝑛 𝑈𝑇 𝑈
plim 􏿶 􏾜 𝑢􏷡𝑡 􏿹 = plim 􏿶 􏷡 􏷡
􏿹 = 𝐸(𝑢𝑡 ) = 𝜎 .
𝑛 𝑡=􏷠 𝑛
Como assim não acontece, esta média é substituída pela média amostral dos quadrados
dos resíduos MQ,
1 𝑛 𝑈̂ 𝑇 𝑈̂
􏾜 𝑢̂ 􏷡𝑡 = .
𝑛 𝑡=􏷠 𝑛
Como
𝑛 𝑈̂ 𝑇 𝑈̂
𝑠􏷡 = ,
𝑛−𝑘 𝑛
basta provar que
𝑈𝑇 𝑈 𝑈̂ 𝑇 𝑈̂
plim 􏿶 􏿹 = plim 􏿶 􏿹,
𝑛 𝑛
para se ter (3.41). Atendendo à propriedade 2.4 dos resíduos MQ, tem-se
𝑈̂ 𝑇 𝑈̂ = 𝑈 𝑇 𝑃𝑋 𝑈 = 𝑈 𝑇 (𝐼𝑘 − 𝑋(𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 ) 𝑈 = 𝑈 𝑇 𝑈 − 𝑈 𝑇 𝑋(𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 𝑈,
941
942 Anexo 3B Demonstração de algumas propriedades
ou
−􏷠
𝑈̂ 𝑇 𝑈̂ 𝑈𝑇 𝑈 1 1 1
= − 􏿶 𝑈𝑇 𝑋􏿹 􏿶 𝑋𝑇 𝑋􏿹 􏿶 𝑋𝑇 𝑈􏿹 ,
𝑛 𝑛 𝑛 𝑛 𝑛
ou, ainda,
𝑈̂ 𝑇 𝑈̂ 𝑈𝑇 𝑈 𝑇
= − 𝑔•𝑛 𝑆−􏷠
𝑥𝑥 𝑔•𝑛 .
𝑛 𝑛
Como plim(𝑔 ) = 𝟎 e plim(𝑆−􏷠
𝑥𝑥 ) = 𝑄𝑥𝑥 , fica provado (3.41).
−􏷠
•𝑛
Deve observar-se que o resultado anterior continua válido se, em vez do estimador 𝑏,
se tivesse utilizado outro estimador consistente de 𝛽, e os respectivos resíduos. Com
efeito, seja 𝑢̂ 𝑡 = 𝑦𝑡 − 𝑥𝑡• 𝛽̂, onde 𝛽̂ é um estimador consistente de 𝛽. Suponha-se que
se verificam as hipóteses RPD.1, RPD.2, RPD.4, e que existe 𝐸(𝑥𝑇𝑡• 𝑢𝑡 ) (não é necessário
exigir a condição de ortogonalidade, tal como se faz em RPD.3). Como a relação entre
𝑢̂ 𝑡 e 𝑢𝑡 é
𝑢̂ 𝑡 = 𝑦𝑡 − 𝑥𝑡• 𝛽̂ = 𝑦𝑡 − 𝑥𝑡• 𝛽 − 𝑥𝑡• (𝛽̂ − 𝛽) = 𝑢𝑡 − 𝑥𝑡• (𝛽̂ − 𝛽),
vem
𝑢̂ 􏷡𝑡 = 𝑢􏷡𝑡 − 2(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑢𝑡 + (𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽).
Donde
1 𝑛 1 𝑛 1 𝑛 1 𝑛
􏾜 𝑢̂ 􏷡𝑡 = 􏾜 𝑢􏷡𝑡 − 2(𝛽̂ − 𝛽)𝑇 􏿶 􏾜 𝑥𝑇𝑡• 𝑢𝑡 􏿹 + (𝛽̂ − 𝛽)𝑇 􏿶 􏾜 𝑥𝑇𝑡• 𝑥𝑡• 􏿹 (𝛽̂ − 𝛽)
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠 𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
1 𝑛
= 􏾜 𝑢􏷡𝑡 − 2(𝛽̂ − 𝛽)𝑇 𝑔•𝑛 + (𝛽̂ − 𝛽)𝑇 𝑆𝑥𝑥 (𝛽̂ − 𝛽) .
𝑛 𝑡=􏷠
Então,
1 𝑛 1 𝑛
plim 􏿶 􏾜 𝑢̂ 􏷡𝑡 􏿹 = plim 􏿶 􏾜 𝑢􏷡𝑡 􏿹 − 2 plim{ (𝛽̂ − 𝛽)𝑇 } plim (𝑔•𝑛 )
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
+ plim{ (𝛽̂ − 𝛽)𝑇 } plim (𝑆𝑥𝑥 ) plim{ (𝛽̂ − 𝛽)}
1 𝑛
= plim 􏿶 􏾜 𝑢􏷡𝑡 􏿹 − 2 × 𝟎 × 𝐸(𝑥𝑇𝑡• 𝑢𝑡 ) + 𝟎 × 𝑄𝑥𝑥 × 𝟎
𝑛 𝑡=􏷠
1 𝑛
= plim 􏿶 􏾜 𝑢􏷡𝑡 􏿹 = 𝐸(𝑢􏷡𝑡 ) = 𝜎􏷡 .
𝑛 𝑡=􏷠
Como 𝑏 é um estimador consistente de 𝛽, a demonstração da propriedade 3.3 pode

seguir estes passos, e, portanto, prescindir da condição de ortogonalidade considerada
em RPD.3.
Propriedade 3.4 943
3B.2 Propriedade 3.4

A demontração desta propriedade necessita da seguinte hipótese adicional:
Hipótese — Existência dos quartos momentos para os regressores

Existem os momentos 𝐸{(𝑥𝑡𝑖 𝑥𝑡𝑗 )􏷡 } para 𝑖, 𝑗 = 1, 2, … , 𝑘, e qualquer que seja 𝑡.
Demonstração. Basta demonstrar que

1 𝑛 1 𝑛
plim 􏿶 􏾜 𝑢􏷡𝑡 𝑥𝑇𝑡• 𝑥𝑡• 􏿹 = plim 􏿶 􏾜 𝑢̂ 􏷡𝑡 𝑥𝑇𝑡• 𝑥𝑡• 􏿹 .
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
Com efeito, como 𝑢̂ 𝑡 = 𝑢𝑡 − 𝑥𝑡• (𝛽̂ − 𝛽), e
𝑢̂ 􏷡𝑡 = 𝑢􏷡𝑡 − 2(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑢𝑡 + (𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽),
resulta
1 𝑛 1 𝑛
𝑆̂ = 􏾜 𝑢̂ 􏷡𝑡 𝑥𝑇𝑡• 𝑥𝑡• = 􏾜 {𝑢􏷡𝑡 − 2(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑢𝑡 + (𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽)} 𝑥𝑇𝑡• 𝑥𝑡•
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
1 𝑛 1 𝑛
= 􏾜 𝑢􏷡𝑡 𝑥𝑇𝑡• 𝑥𝑡• − 􏾜 {2(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑢𝑡 } 𝑥𝑇𝑡• 𝑥𝑡•
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
1 𝑛
+ 􏾜 {(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽)} 𝑥𝑇𝑡• 𝑥𝑡• .
𝑛 𝑡=􏷠
Resta, então, provar que

1 𝑛 1 𝑛
plim 􏿶− 􏾜 {2(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑢𝑡 } 𝑥𝑇𝑡• 𝑥𝑡• + 􏾜 {(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽)} 𝑥𝑇𝑡• 𝑥𝑡• 􏿹 = 𝑂,
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
ou seja,
1 𝑛
plim 􏿰 􏾜 {2(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑢𝑡 } 𝑥𝑇𝑡• 𝑥𝑡• 􏿳 = 𝑂,
𝑛 𝑡=􏷠
(3B.1)
1 𝑛
plim 􏿰 􏾜 {(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽)} 𝑥𝑇𝑡• 𝑥𝑡• 􏿳 = 𝑂.
𝑛 𝑡=􏷠
Cada parcela de
𝑛
􏾜 {2(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑢𝑡 } 𝑥𝑇𝑡• 𝑥𝑡•
𝑡=􏷠
é uma matriz da forma
⎡ 𝑥􏷡𝑡􏷠 ⋯ 𝑥𝑡􏷠 𝑥𝑡𝑘 ⎤
̂ 𝑇 𝑇
2(𝛽 − 𝛽) 𝑥𝑡• 𝑢𝑡 ⎢ ⋮ ⋮ ⎥,
⎢ 𝑥 𝑥 ⋯ 𝑥 􏷡 ⎥
⎣ 𝑡􏷠 𝑡𝑘 𝑡𝑘 ⎦
onde
(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑢𝑡 = (𝛽̂􏷠 − 𝛽􏷠 )𝑥𝑡􏷠 𝑢𝑡 + ⋯ + (𝛽̂𝑘 − 𝛽𝑘 )𝑥𝑡𝑘 𝑢𝑡 .
Assim, cada elemento daquela matriz é uma soma, onde cada parcela é da forma
2(𝛽̂𝑗 − 𝛽𝑗 )𝑥𝑡𝑗 𝑢𝑡 𝑥𝑡𝑖 𝑥𝑡ℓ .
Então, cada elemento da matriz

1 𝑛
􏾜 {2(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑢𝑡 } 𝑥𝑇𝑡• 𝑥𝑡•
𝑛 𝑡=􏷠
é uma soma, onde cada parcela é da forma

1 𝑛
2(𝛽̂𝑗 − 𝛽𝑗 ) 􏾜 (𝑥𝑡𝑗 𝑢𝑡 𝑥𝑡𝑖 𝑥𝑡ℓ ),
𝑛 𝑡=􏷠
ou seja, é o produto de 2(𝛽̂𝑗 − 𝛽𝑗 ) pela média amostral de 𝑥𝑡𝑗 𝑢𝑡 𝑥𝑡𝑖 𝑥𝑡ℓ .

Como plim(𝛽̂𝑗 ) = 𝛽𝑗 , o limite em probabilidade destes produtos é nulo se se provar
que existe o valor esperado de 𝑥𝑡𝑗 𝑢𝑡 𝑥𝑡𝑖 𝑥𝑡ℓ , pois neste caso,
1 𝑛
plim 􏿰 􏾜 (𝑥𝑡𝑗 𝑢𝑡 𝑥𝑡𝑖 𝑥𝑡ℓ )􏿳 = 𝐸(𝑥𝑡𝑗 𝑢𝑡 𝑥𝑡𝑖 𝑥𝑡ℓ ).
𝑛 𝑡=􏷠
Com efeito, fazendo 𝑓 = 𝑥𝑡𝑗 𝑢𝑡 e ℎ = 𝑥𝑡𝑖 𝑥𝑡ℓ , e atendendo à desigualdade de Cauchy-

-Schwarz, tem-se
𝐸( |𝑓 ℎ| ) ≤ 𝐸(𝑓 􏷡 )𝐸(ℎ􏷡 ),
􏽯
ou
𝐸{(𝑥𝑡𝑗 𝑢𝑡 )􏷡 }𝐸{(𝑥𝑡𝑖 𝑥𝑡ℓ )􏷡 }.
𝐸( |𝑥𝑡𝑗 𝑢𝑡 𝑥𝑡𝑖 𝑥𝑡ℓ | ) ≤
􏽯
Como existem os valores esperados 𝐸{(𝑥𝑡𝑗 𝑢𝑡 )􏷡 } = 𝐸(𝑔􏷡𝑡𝑗 ) (devido a RPD.5) e 𝐸{(𝑥𝑡𝑖 𝑥𝑡ℓ )􏷡 }
(hipótese adicional), conclui-se que existe 𝐸(𝑥𝑡𝑗 𝑢𝑡 𝑥𝑡𝑖 𝑥𝑡ℓ ). Fica, assim, provada a primeira
igualdade de (3B.1).
Do mesmo modo, cada parcela de
𝑛
􏾜 {(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽)} 𝑥𝑇𝑡• 𝑥𝑡•
𝑡=􏷠
é da forma
⎡ 𝑥􏷡𝑡􏷠 ⋯ 𝑥𝑡􏷠 𝑥𝑡𝑘 ⎤
(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽) ⎢ ⋮ ⋮ ⎥,
⎢ 𝑥 𝑥 ⋯ 𝑥􏷡𝑡𝑘 ⎥
⎣ 𝑡􏷠 𝑡𝑘 ⎦
onde
(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽) = (𝛽̂􏷠 − 𝛽􏷠 )􏷡 𝑥􏷡𝑡􏷠 + ⋯ + (𝛽̂􏷠 − 𝛽􏷠 )(𝛽̂𝑘 − 𝛽𝑘 )𝑥𝑡􏷠 𝑥𝑡𝑘
+ ⋯
+ (𝛽̂𝑘 − 𝛽𝑘 )(𝛽̂􏷠 − 𝛽􏷠 )𝑥𝑡𝑘 𝑥𝑡􏷠 + ⋯ + (𝛽̂𝑘 − 𝛽𝑘 )􏷡 𝑥􏷡𝑡𝑘 .
Distribuição da estatística nR2 do teste de heterocedasticidade condicionada 945
Assim, cada elemento daquela matriz é uma soma, onde cada parcela é da forma
(𝛽̂𝑖 − 𝛽𝑖 )(𝛽̂𝑗 − 𝛽𝑗 )𝑥𝑡𝑖 𝑥𝑡𝑗 𝑥𝑡ℓ 𝑥𝑡𝑝 .
Então, cada elemento da matriz
1 𝑛
􏾜 {(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽)} 𝑥𝑇𝑡• 𝑥𝑡•
𝑛 𝑡=􏷠
1 𝑛
(𝛽̂𝑖 − 𝛽𝑖 )(𝛽̂𝑗 − 𝛽𝑗 ) 􏾜 (𝑥𝑡𝑖 𝑥𝑡𝑗 𝑥𝑡ℓ 𝑥𝑡𝑝 ),
𝑛 𝑡=􏷠
ou seja, é o produto de (𝛽̂𝑖 − 𝛽𝑖 )(𝛽̂𝑗 − 𝛽𝑗 ) pela média amostral de 𝑥𝑡𝑖 𝑥𝑡𝑗 𝑥𝑡ℓ 𝑥𝑡𝑝 .
Como plim(𝛽̂𝑗 ) = 𝛽𝑗 , o limite em probabilidade destes produtos é nulo se se provar
que existe o valor esperado de 𝑥𝑡𝑖 𝑥𝑡𝑗 𝑥𝑡ℓ 𝑥𝑡𝑝 , pois neste caso,
1 𝑛
plim 􏿰 􏾜 (𝑥𝑡𝑖 𝑥𝑡𝑗 𝑥𝑡ℓ 𝑥𝑡𝑝 )􏿳 = 𝐸(𝑥𝑡𝑖 𝑥𝑡𝑗 𝑥𝑡ℓ 𝑥𝑡𝑝 ).
𝑛 𝑡=􏷠
Com efeito, fazendo 𝑓 = 𝑥𝑡𝑖 𝑥𝑡𝑗 e ℎ = 𝑥𝑡ℓ 𝑥𝑡𝑝 , e devido à desigualdade de Cauchy -Schwarz,
tem-se
𝐸( | 𝑓 ℎ | ) ≤ 𝐸(𝑓 􏷡 )𝐸(ℎ􏷡 ),
􏽯
ou
𝐸( | 𝑥𝑡𝑖 𝑥𝑡𝑗 𝑥𝑡ℓ 𝑥𝑡𝑝 | ) ≤ 𝐸{(𝑥𝑡𝑖 𝑥𝑡𝑗 )􏷡 }𝐸{(𝑥𝑡ℓ 𝑥𝑡𝑝 )􏷡 }.

􏽯
Como existem os valores esperados 𝐸{(𝑥𝑡𝑖 𝑥𝑡𝑗 )􏷡 } e 𝐸{(𝑥𝑡ℓ 𝑥𝑡𝑝 )􏷡 } (hipótese adicional), conclui-
-se que existe 𝐸(𝑥𝑡𝑖 𝑥𝑡𝑗 𝑥𝑡ℓ 𝑥𝑡𝑝 ). Fica, assim, demonstrada a segunda igualdade de (3B.1).
3B.3 Distribuição da estatística nR2 do teste de heterocedastici-

dade condicionada
Considere-se o modelo 𝑦𝑡 = 𝑥𝑡• 𝛽 + 𝑢𝑡 , com termo independente, a verificar as hopóteses

RPD.1, RPD.2’ (o processo {(𝑦𝑡 , 𝑥𝑡• )} é 𝑖𝑖𝑑), RPD.3’ [𝐸(𝑢𝑡 | 𝑥𝑡• ) = 0], RPD.4 e RPD.5’.
Recorde-se que (ver secção 3.9):
Qualquer teste de heterocedasticidade condicionada é formalizado da seguinte

maneira: 𝐻􏷟 ∶ 𝐸(𝑢􏷡𝑡 | 𝑥𝑡• ) = 𝜎􏷡 contra 𝐻􏷠 ∶ 𝐸(𝑢􏷡𝑡 | 𝑥𝑡• ) depende de 𝑥𝑡• .
Este teste é baseado no modelo 𝑢􏷡𝑡 = 𝛼􏷠 + ℎ𝑡• 𝛼 + 𝑣𝑡 , onde ℎ𝑡• = ℎ(𝑥𝑡• ) é uma função
vectorial de 𝑥𝑡• , com 𝑞 − 1 componentes, e 𝛼 = [ 𝛼􏷡 𝛼􏷢 ⋯ 𝛼𝑞 ]𝑇 é um vector
de parâmetros de tipo (𝑞 − 1) × 1.
Sob 𝐻􏷟 , tem-se 𝐸(𝑣𝑡 | ℎ𝑡• ) = 𝐸(𝑣𝑡 | 𝑥𝑡• ) = 0, 𝛼 = 𝟎, 𝛼􏷠 = 𝜎􏷡 e, portanto, 𝑣𝑡 = 𝑢􏷡𝑡 − 𝜎􏷡 .

Deste modo, deve testar-se 𝐻􏷟 ∶ 𝛼 = 𝟎 contra 𝐻􏷠 ∶ 𝛼 ≠ 𝟎.
Supondo que 𝐸(𝑣􏷡𝑡 | 𝑥𝑡• ) = 𝜎􏷡𝑣 , resulta que 𝐸(𝑢􏷣𝑡 | 𝑥𝑡• ) = 𝜅􏷡 (homokurtosis condicio-
nada), onde 𝜅􏷡 = 𝜎􏷣 + 𝜎􏷡𝑣 .
O teste é feito com a equação de regressão auxiliar 𝑢̂ 􏷡𝑡 = 𝛼􏷠 + ℎ𝑡• 𝛼 + 𝑒𝑡 , onde se

substituiu 𝑢𝑡 por 𝑢̂ 𝑡 (resíduo MQ do modelo original).
A estatística-teste é dada por (3.62),
𝑑
𝑛𝑅􏷡 → 𝜒􏷡 (𝑞 − 1),
onde 𝑅􏷡 é o coeficiente de determinação da regressão auxiliar.
Demonstração de (3.62)
a) Retome-se o modelo 𝑢􏷡𝑡 = 𝛼􏷠 + ℎ𝑡• 𝛼 + 𝑣𝑡 . Calculando o valor esperado de cada
membro desta igualdade, tem-se 𝜎􏷡 = 𝛼􏷠 + 𝜇ℎ 𝛼, onde 𝜇ℎ = 𝐸(ℎ𝑡• ). Subtraindo
ordenadamente as duas igualdades, obtém-se o modelo
𝑢􏷡𝑡 − 𝜎􏷡 = (ℎ𝑡• − 𝜇ℎ )𝛼 + 𝑣𝑡 .
Se fosse possível aplicar o método MQ a este modelo, ter-se-ia

−􏷠
1 𝑛 1 𝑛
∗
√𝑛 𝛼MQ = 􏿰 􏾜 (ℎ𝑡• − 𝜇ℎ )𝑇 (ℎ𝑡• − 𝜇ℎ )􏿳 􏿰 􏾜 (ℎ𝑡• − 𝜇ℎ )𝑇 (𝑢􏷡𝑡 − 𝜎􏷡 )􏿳 ,
𝑛 𝑡=􏷠
√𝑛 𝑡=􏷠
onde 𝛼∗MQ seria o estimador MQ de 𝛼.

Atendendo ao teorema do limite central de Lindeberg-Levy (versão vectorial),
tem-se
1 𝑛 𝑑
􏾜 (ℎ𝑡• − 𝜇ℎ )𝑇 (𝑢􏷡𝑡 − 𝜎􏷡 ) → 𝑁 (𝑞−􏷠) 􏿮𝟎, 𝐸{(𝑢􏷡𝑡 − 𝜎􏷡 )􏷡 (ℎ𝑡• − 𝜇ℎ )𝑇 (ℎ𝑡• − 𝜇ℎ )}􏿱 .
√𝑛 𝑡=􏷠
Fazendo
𝜂􏷡 = 𝐸{(𝑢􏷡𝑡 − 𝜎􏷡 )􏷡 |𝑥𝑡• } = 𝐸(𝑢􏷣𝑡 − 2𝜎􏷡 𝑢􏷡𝑡 + 𝜎􏷣 | 𝑥𝑡• ) = 𝜅􏷡 − 2𝜎􏷣 + 𝜎􏷣 = 𝜅􏷡 − 𝜎􏷣 ,
vem
𝐸{(𝑢􏷡𝑡 −𝜎􏷡 )􏷡 (ℎ𝑡• − 𝜇ℎ )𝑇 (ℎ𝑡• − 𝜇ℎ )} = 𝐸 􏿮𝐸{(𝑢􏷡𝑡 − 𝜎􏷡 )􏷡 (ℎ𝑡• − 𝜇ℎ )𝑇 (ℎ𝑡• − 𝜇ℎ )|𝑥𝑡• }􏿱

= 𝐸 􏿮𝐸{(𝑢􏷡𝑡 − 𝜎􏷡 )􏷡 |𝑥𝑡• }(ℎ𝑡• − 𝜇ℎ )𝑇 (ℎ𝑡• − 𝜇ℎ )􏿱 = 𝜂􏷡 𝐸{(ℎ𝑡• − 𝜇ℎ )𝑇 (ℎ𝑡• − 𝜇ℎ )}.
Logo,
1 𝑛 𝑑
􏾜 (ℎ𝑡• − 𝜇ℎ )𝑇 (𝑢􏷡𝑡 − 𝜎􏷡 ) → 𝑁 (𝑞−􏷠) 􏿮𝟎, 𝜂􏷡 𝐸{(ℎ𝑡• − 𝜇ℎ )𝑇 (ℎ𝑡• − 𝜇ℎ )}􏿱 , (3B.2)
√𝑛 𝑡=􏷠
o que permite concluir que [ver propriedade g) que relaciona a convergência em

probabilidade com a convergência em distribuição]:
1 𝑛 𝐸{(ℎ𝑡• − 𝜇ℎ )𝑇 (ℎ𝑡• − 𝜇ℎ )}−􏷠

􏿶 􏾜 (𝑢􏷡𝑡 − 𝜎􏷡 )(ℎ𝑡• − 𝜇ℎ )􏿹 ×
√𝑛 𝑡=􏷠 𝜂􏷡
(3B.3)
1 𝑛 𝑑
× 􏿶 􏾜 (ℎ𝑡• − 𝜇ℎ )𝑇 (𝑢􏷡𝑡 − 𝜎􏷡 )􏿹 → 𝜒􏷡 (𝑞 − 1).
√𝑛 𝑡=􏷠
∗ 𝑑
(𝑞−􏷠) 􏿮𝟎, 􏷡
√𝑛 𝛼MQ → 𝑁 𝜂 𝐸{(ℎ𝑡• − 𝜇ℎ )𝑇 (ℎ𝑡• − 𝜇ℎ )}−􏷠 􏿱 .
b) Considere-se a equação de regressão auxiliar, 𝑢̂ 􏷡𝑡 = 𝛼􏷠 + ℎ𝑡• 𝛼 + 𝑒𝑡 . Calculando as

respectivas médias amostrais, obtém-se a igualdade 𝜎̂ 􏷡 = 𝛼􏷠 + ℎ𝛼 + 𝑒, onde
1 𝑛 1 𝑛 1 𝑛
𝜎̂ 􏷡 = 􏾜 𝑢̂ 􏷡𝑡 (estimador consistente de 𝜎􏷡 ), ℎ = 􏾜 ℎ𝑡• e 𝑒= 􏾜 𝑒𝑡 .
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
Subtraindo ordenadamente as duas igualdades, vem
𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 = (ℎ𝑡• − ℎ)𝛼 + (𝑒𝑡 − 𝑒).
Aplicando o método MQ, vem

−􏷠
1 𝑛 1 𝑛
𝑇
√𝑛 𝛼̂ MQ = 􏿰 􏾜𝑡=􏷠 (ℎ𝑡• − ℎ) (ℎ𝑡• − ℎ)􏿳 􏿰 􏾜 (ℎ𝑡• − ℎ)𝑇 (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )􏿳 ,
𝑛 √𝑛 𝑡=􏷠
onde 𝛼̂ MQ é o estimador MQ de 𝛼.
Um estimador consistente de 𝜂􏷡 é dado por
1 𝑛
𝜂̂􏷡 = 􏾜 (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )􏷡 ,
𝑛 𝑡=􏷠
onde Σ𝑛𝑡=􏷠 (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )􏷡 é a variação total do regressando da equação de regressão

auxiliar.
Sem dificuldade se reconhece que
−􏷠
𝑛 𝑛 𝑛
􏿯􏾜 (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )(ℎ𝑡• − ℎ)􏿲 􏿯􏾜 (ℎ𝑡• − ℎ)𝑇 (ℎ𝑡• − ℎ)􏿲 􏿯􏾜 (ℎ𝑡• − ℎ)𝑇 (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )􏿲
𝑡=􏷠 𝑡=􏷠 𝑡=􏷠
é a respectiva variação explicada [ver propriedade 2.6 dos resíduos MQ].

Então,
−􏷠
􏿮∑𝑛𝑡=􏷠 (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )(ℎ𝑡• − ℎ)􏿱 􏿮∑𝑛𝑡=􏷠 (ℎ𝑡• − ℎ)𝑇 (ℎ𝑡• − ℎ)􏿱 􏿮∑𝑛𝑡=􏷠 (ℎ𝑡• − ℎ)𝑇 (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )􏿱
𝑅􏷡 = ,
∑𝑛 (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )􏷡
𝑡=􏷠
e
−􏷠
𝑛 􏿮∑𝑛𝑡=􏷠 (ℎ𝑡• − ℎ)𝑇 (ℎ𝑡• − ℎ)􏿱
􏷡
𝑛𝑅 = 􏿯􏾜 (𝑢̂ 􏷡𝑡 􏷡
− 𝜎̂ )(ℎ𝑡• − ℎ)􏿲
𝑡=􏷠 𝜂̂􏷡 (3B.4)
𝑛
× 􏿯􏾜 (ℎ𝑡• − ℎ) 𝑇
(𝑢̂ 􏷡𝑡 􏷡
− 𝜎̂ )􏿲 .
𝑡=􏷠
Nas alíneas seguintes vai provar-se (3.62): a distribuição limite de 𝑛𝑅􏷡 é 𝜒􏷡 (𝑞 − 1).
c) Começa-se por demonstrar que
1 𝑛 1 𝑛 𝑝
􏾜 ℎ𝑇𝑡• (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 ) − 􏾜 (ℎ𝑡• − 𝜇ℎ )𝑇 (𝑢􏷡𝑡 − 𝜎􏷡 ) → 𝟎, (3B.5)
√𝑛 𝑡=􏷠
√𝑛 𝑡=􏷠
notando que
𝑛 𝑛
􏾜 ℎ𝑇𝑡• (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 ) = 􏾜 (ℎ𝑇𝑡• − ℎ)(𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 ).
𝑡=􏷠 𝑡=􏷠
Também resulta que

𝑛 𝑛
􏾜 ℎ𝑇𝑡• (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 ) = 􏾜 (ℎ𝑇𝑡• − 𝜇ℎ )(𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 ).
𝑡=􏷠 𝑡=􏷠
Facilmente se verifica que
1 𝑛 𝑝
􏾜 (ℎ𝑡• − 𝜇ℎ )𝑇 (𝜎̂ 􏷡 − 𝜎􏷡 ) → 𝟎.
√𝑛 𝑡=􏷠
Com efeito, basta notar que, de acordo com o teorema do limite central de Lindeberg-
-Levy (versão vectorial), se tem
1 𝑛 𝑑
􏾜 (ℎ𝑡• − 𝜇ℎ )𝑇 → 𝑁 (𝑞−􏷠) 􏿮𝟎, 𝐸{(ℎ𝑡• − 𝜇ℎ )(ℎ𝑡• − 𝜇ℎ )𝑇 }􏿱 ,
√𝑛 𝑡=􏷠
e que plim(𝜎̂ 􏷡 − 𝜎􏷡 ) = 0.
Portanto,
1 𝑛 1 𝑛 𝑝
􏾜 ℎ𝑇𝑡• (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 ) − 􏾜 (ℎ𝑡• − 𝜇ℎ )𝑇 (𝑢̂ 􏷡𝑡 − 𝜎􏷡 ) → 𝟎, (3B.6)
√𝑛 𝑡=􏷠
√𝑛 𝑡=􏷠
porque
1 𝑛 1 𝑛
􏾜 ℎ𝑇𝑡• (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 ) − 􏾜 (ℎ𝑡• − 𝜇ℎ )𝑇 (𝑢̂ 􏷡𝑡 − 𝜎􏷡 ) =
√𝑛 𝑡=􏷠
√𝑛 𝑡=􏷠
1 𝑛
= 􏾜 (ℎ𝑡• − 𝜇ℎ )𝑇 (𝜎􏷡 − 𝜎̂ 􏷡 ).
√𝑛 𝑡=􏷠
Observando as expressões (3B.5) e (3B.6), constata-se imediatamente que se se

substituir em (3B.5) 𝑢􏷡𝑡 por 𝑢̂ 􏷡𝑡 obtém-se (3B.6). Então, para provar (3B.5), basta
verificar que
1 𝑛 1 𝑛 𝑝
􏾜 (ℎ𝑡• − 𝜇ℎ )𝑇 𝑢̂ 􏷡𝑡 − 􏾜 (ℎ𝑡• − 𝜇ℎ )𝑇 𝑢􏷡𝑡 → 𝟎. (3B.7)
√𝑛 𝑡=􏷠
√𝑛 𝑡=􏷠
Como 𝑢̂ 􏷡𝑡 = 𝑢􏷡𝑡 − 2𝑢𝑡 𝑥𝑡• (𝑏 − 𝛽) + {𝑥𝑡• (𝑏 − 𝛽)}􏷡 , vem

1 𝑛 1 𝑛
􏾜 (ℎ𝑡• − 𝜇ℎ )𝑇 𝑢̂ 􏷡𝑡 = 􏾜 (ℎ𝑡• − 𝜇ℎ )𝑇 𝑢􏷡𝑡
√𝑛 𝑡=􏷠
√𝑛 𝑡=􏷠
1 𝑛
−2 􏿰 􏾜 𝑢𝑡 (ℎ𝑡• − 𝜇ℎ )𝑇 𝑥𝑡• 􏿳 (𝑏 − 𝛽) (3B.8)
√𝑛 𝑡=􏷠
1 𝑛
+􏿰 􏾜 (ℎ𝑡• − 𝜇ℎ )𝑇 (𝑥𝑡• ⊗ 𝑥𝑡• )􏿳 Vec{ (𝑏 − 𝛽)(𝑏 − 𝛽)𝑇 },
√𝑛 𝑡=􏷠
onde:
𝑥𝑡• ⊗ 𝑥𝑡• é produto de Kronecker de 𝑥𝑡• por 𝑥𝑡• (vector 1 × 𝑘􏷡 que se obtém
multiplicando cada elemento de 𝑥𝑡• por todos os elementos de 𝑥𝑡• ):
𝑥𝑡• ⊗ 𝑥𝑡• = [ 𝑥𝑡• 𝑥𝑡􏷡 𝑥𝑡• 𝑥𝑡􏷢 𝑥𝑡• ⋯ 𝑥𝑡𝑘 𝑥𝑡• ].
Pertence a este vector todos os quadrados dos elementos de 𝑥𝑡• e todos os

produtos de pares de elementos de 𝑥𝑡• , obviamente com repetições.
O vector Vec{ (𝑏 − 𝛽)(𝑏 − 𝛽)𝑇 } é resulta da vectorização de (𝑏 − 𝛽)(𝑏 − 𝛽)𝑇 (matriz

quadrada de ordem 𝑘), ou seja, é o vector 𝑘􏷡 × 1 dispondo numa coluna as
sucessivas colunas de (𝑏 − 𝛽)(𝑏 − 𝛽)𝑇 .
Fica ao cuidado do leitor verificar que
{𝑥𝑡• (𝑏 − 𝛽)}􏷡 = 𝑥𝑡• (𝑏 − 𝛽)(𝑏 − 𝛽)𝑇 𝑥𝑇𝑡• = (𝑥𝑡• ⊗ 𝑥𝑡• )Vec{ (𝑏 − 𝛽)(𝑏 − 𝛽)𝑇 }
Vai demonstrar-se que as segunda e terceira parcelas do segundo membro de

(3B.8) tendem em probabilidade para zero.
Quanto à segunda parcela, tem-se
1 𝑛 1 𝑛
􏿰 􏾜 𝑢𝑡 (ℎ𝑡• − 𝜇ℎ )𝑇 𝑥𝑡• 􏿳 (𝑏 − 𝛽) = 􏿰 􏾜 𝑢𝑡 (ℎ𝑡• − 𝜇ℎ )𝑇 𝑥𝑡• 􏿳 √𝑛(𝑏 − 𝛽).
√𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
Sabe-se que a distribuição limite de √𝑛(𝑏 − 𝛽) é normal. Atendendo à lei dos gran-
des números e a que
𝐸{𝑢𝑡 (ℎ𝑡• − 𝜇ℎ )𝑇 𝑥𝑡• } = 𝐸(𝐸{𝑢𝑡 (ℎ𝑡• − 𝜇ℎ )𝑇 𝑥𝑡• | 𝑥𝑡• }) = 𝐸{𝐸(𝑢𝑡 | 𝑥𝑡• )(ℎ𝑡• − 𝜇ℎ )𝑇 𝑥𝑡• } = 𝑂,
vem
1 𝑛 𝑝
􏾜 𝑢𝑡 (ℎ𝑡• − 𝜇ℎ )𝑇 𝑥𝑡• → 𝑂.
𝑛 𝑡=􏷠
Então, o limite em probabilidade da segunda parcela do segundo membro de

(3B.8) é zero.
Facilmente se verifica que a terceira parcela é dada por
1 1 𝑛
􏿰 􏾜𝑡=􏷠 (ℎ𝑡• − 𝜇ℎ ) (𝑥𝑡• ⊗ 𝑥𝑡• )􏿳 Vec{ √𝑛(𝑏 − 𝛽)√𝑛(𝑏 − 𝛽) }.
𝑇 𝑇
√𝑛 𝑛
Como:
Vec{ √𝑛(𝑏−𝛽)√𝑛(𝑏−𝛽)𝑇 } converge em distribuição para uma variável aleatória

(basta notar que a distribuição limite de √𝑛(𝑏 − 𝛽) é normal),
1 𝑛 𝑝
􏾜 (ℎ𝑡• − 𝜇ℎ )𝑇 (𝑥𝑡• ⊗ 𝑥𝑡• ) → 𝐸{(ℎ𝑡• − 𝜇ℎ )𝑇 (𝑥𝑡• ⊗ 𝑥𝑡• )} (devido à LGN),
𝑛 𝑡=􏷠
1
→ 0,
√𝑛
conclui-se imediatamente que a terceira parcela do segundo membro de (3B.8)
converge em probabilidade para zero. Fica, assim, demonstrado (3B.5).
d) Atendendo a (3B.2) e (3B.5), o lema da equivalência assintótica permite concluir

que
1 𝑛 𝑑
􏾜 ℎ𝑇𝑡• (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 ) → 𝑁 (𝑞−􏷠) 􏿮𝟎, 𝜂􏷡 𝐸{(ℎ𝑡• − 𝜇ℎ )𝑇 (ℎ𝑡• − 𝜇ℎ )}􏿱 . (3B.9)
√𝑛 𝑡=􏷠
Então, pelas razões já conhecidas, tem-se

1 𝑛 𝐸{(ℎ𝑡• − 𝜇ℎ )𝑇 (ℎ𝑡• − 𝜇ℎ )}−􏷠 1 𝑛 𝑑
􏿰 􏾜 (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )ℎ𝑡• 􏿳 􏷡 􏿰 􏾜 ℎ𝑇𝑡• (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )􏿳 → 𝜒􏷡 (𝑞 − 1).
√𝑛 𝑡=􏷠 𝜂 √𝑛 𝑡=􏷠
Sabendo que
1 𝑛 1 𝑛
􏾜 (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )ℎ𝑡• = 􏾜 (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )(ℎ𝑡• − ℎ),
√𝑛 𝑡=􏷠
√𝑛 𝑡=􏷠
e que um estimador consistente de 𝜂􏷡 𝐸{(ℎ𝑡• − 𝜇ℎ )𝑇 (ℎ𝑡• − 𝜇ℎ )} é

1 𝑛
𝜂̂􏷡 􏾜 (ℎ𝑡• − 𝜇ℎ )𝑇 (ℎ𝑡• − 𝜇ℎ ),
𝑛 𝑡=􏷠
tem-se
−􏷠
1 𝑛 􏿮 𝑛􏷠 ∑𝑛𝑡=􏷠 (ℎ𝑡• − ℎ)𝑇 (ℎ𝑡• − ℎ)􏿱
􏿰 􏾜 (𝑢̂ 􏷡𝑡 􏷡
− 𝜎̂ )(ℎ𝑡• − ℎ)􏿳 ×
√𝑛 𝑡=􏷠 𝜂̂􏷡
(3B.10)
1 𝑛 𝑑
× 􏿰 􏾜 (ℎ𝑡• − ℎ)𝑇 (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )􏿳 → 𝜒􏷡 (𝑞 − 1).
√𝑛 𝑡=􏷠
Confrontando com (3B.4), está demonstrado que 𝑛𝑅􏷡 converge em distribuição

para 𝜒􏷡 (𝑞 − 1).
Teste de heterocedasticidade condicionada robusto à heterokurtosis

Quando se abandona a hipótese da homokurtosis condicionada, pode demonstrar-se
que
𝑑
𝑛 − VR∗ → 𝜒􏷡 (𝑞 − 1), (3B.11)
∗
onde VR é a soma dos quadrados dos resíduos MQ da regressão auxiliar sem termo
independente de 1 sobre (ℎ𝑡• − ℎ)(𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 ). É habitual designar este teste por teste de
heterocedasticidade condicionada robusto à heterokurtosis.
Vai demonstrar-se (3B.11). Como a hipótese da homokurtosis condicionada não é
verdadeira, é necessário estimar directamente 𝐸{(𝑢􏷡𝑡 − 𝜎􏷡 )􏷡 (ℎ𝑡• − 𝜇ℎ )𝑇 (ℎ𝑡• − 𝜇ℎ )}. Um es-
timador desta matriz é
1 𝑛
􏾜 (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )􏷡 (ℎ𝑡• − ℎ)𝑇 (ℎ𝑡• − ℎ).
𝑛 𝑡=􏷠
Então, a estatística-teste é dada por

−􏷠
1 𝑛 1 𝑛
􏿰 􏾜 (𝑢̂ 􏷡𝑡 − 𝜎̂ )(ℎ𝑡• − ℎ)􏿳 􏿰 􏾜 (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )􏷡 (ℎ𝑡• − ℎ)𝑇 (ℎ𝑡• − ℎ)􏿳 ×
􏷡
√𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
1 𝑛
× 􏿰 􏾜 (ℎ𝑡• − ℎ)𝑇 (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )􏿳 .
√𝑛 𝑡=􏷠
Portanto,
−􏷠
𝑛 𝑛
􏿯􏾜 (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )(ℎ𝑡• − ℎ)􏿲 􏿯􏾜 (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )􏷡 (ℎ𝑡• − ℎ)𝑇 (ℎ𝑡• − ℎ)􏿲 ×
𝑡=􏷠 𝑡=􏷠
(3B.12)
𝑛 𝑑
× 􏿯􏾜 (ℎ𝑡• − ℎ)𝑇 (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )􏿲 → 𝜒􏷡 (𝑞 − 1).
𝑡=􏷠
Sem dificuldade se verifica que esta estatística-teste é a soma dos quadrados explicada
pela regressão de 1 sobre (𝑢̂ 􏷡𝑡 − 𝜎̂ 􏷡 )(ℎ𝑡• − ℎ) (sem termo independente). Como a soma
total dos quadrados é 𝑛, a estatística (3B.12) é igual a 𝑛 − VR∗ .
[3C]
Heterocedasticidade condicionada
com padrão conhecido
Quando se considera o modelo de regressão linear a verificar as hipóteses RPD.1, RPD.2’,

RPD.3’, RPD.4 e RPD.5’ (ver secção 3.7), sabe-se que o modelo tanto pode ser encarado
como um MRLC com heterocedasticidade condicionada (ver capítulo 2), ou como um
MRL-RPD.
Considere-se a matriz Σ dada por (3.59). Vai começar-se por analisar o caso (pouco
provável) desta matriz ser conhecida (ou ser conhecida a menos de uma constante mul-
tiplicativa). Facilmente se conclui que os coeficientes de regressão podem ser estimados
com o método dos mínimos quadrados generalizados (ver anexo 2G), obtendo-se
𝑏𝑔 = (𝑋 𝑇 Σ−􏷠 𝑋)−􏷠 𝑋 𝑇 Σ−􏷠 𝑌. (3C.1)
O modelo transformado obtém-se ponderando cada observação com o inverso do des-

vio padrão da respectiva variável residual. Assim, fazendo
𝑦𝑡 ∗ 𝑥𝑡𝑗 𝑢𝑡
𝑦∗𝑡 = ; 𝑥𝑡𝑗 = ; 𝑢∗𝑡 = ,
𝜎𝑡 𝜎𝑡 𝜎𝑡
passa-se do modelo 𝑦𝑡 = 𝑥𝑡• 𝛽 + 𝑢𝑡 para o modelo transformado 𝑦∗𝑡 = 𝑥∗𝑡• 𝛽 + 𝑢∗𝑡 .
953
954 Anexo 3C Heterocedasticidade condicionada com padrão conhecido
Continua a ter-se Σ−􏷠 = 𝑃𝑇 𝑃, mas como Σ é diagonal, vem
⎡ 1 ⎤
0 ⋯ 0
⎢ 𝜎􏷠 ⎥
⎢ 1 ⎥
0 ⋯ 0 ⎥
𝑃=⎢ 𝜎􏷡 .
⎢ ⋮ ⋮ ⋮ ⎥
⎢ 1 ⎥
⎢ 0 0 ⋯ ⎥
⎣ 𝜎𝑛 ⎦
O estimador (3C.1) pode então apresentar-se da seguinte maneira:

−􏷠
𝑛 1 𝑇 𝑛 1 𝑇
𝑏𝑔 = 􏿶􏾜 𝑥 𝑥
􏷡 𝑡• 𝑡• 􏿹
􏾜 𝑥𝑡• 𝑦𝑡 , (3C.2)
𝑡=􏷠 𝜎𝑡 𝑡=􏷠 𝜎􏷡𝑡
que se designa por estimador dos mínimos quadrados ponderados (MQP).

Evidentemente que
−􏷠
𝑛 1 𝑇
Cov(𝑏𝑔 | 𝑋) = (𝑋 Σ 𝑋)𝑇 −􏷠 −􏷠
= 􏿶􏾜 𝑥𝑡• 𝑥𝑡• 􏿹 , (3C.3)
𝑡=􏷠 𝜎􏷡𝑡
concluindo-se imediatamente que o estimador 𝑏𝑔 é BLUE.

Como não foi mantida a hipótese REX.6 (normalidade condicionada das variáveis
residuais), interessa conhecer as propriedades assintóticas deste estimador.
Facilmente se verifica que o modelo transformado, 𝑦∗𝑡 = 𝑥∗𝑡• 𝛽 + 𝑢∗𝑡 , é ainda um MRL-
-RPD (a verificar as hipóteses RPD.1 a RPD.5 e RPD.6), desde que a matriz
1
𝑄∗𝑥𝑥 = 𝐸{𝑥∗𝑡• 𝑇 𝑥∗𝑡• } = 𝐸 􏿶 􏷡
𝑥𝑇𝑡• 𝑥𝑡• 􏿹
𝜎𝑡 (𝑥𝑡• )
exista e tenha inversa. Assim:
O modelo transformado é linear (RPD.1).
Como
𝑦𝑡 1
{(𝑦∗𝑡 , 𝑥∗𝑡• )} = 􏿼􏿶 , 𝑥 􏿹� ,
𝜎𝑡 (𝑥𝑡• ) 𝜎𝑡 (𝑥𝑡• ) 𝑡•
e {(𝑦𝑡 , 𝑥𝑡• )} é 𝑖𝑖𝑑, então o processo {(𝑦∗𝑡 , 𝑥∗𝑡• )} é 𝑖𝑖𝑑, verificando-se RPD.2.
Conclui-se imediatamente que 𝐸(𝑢𝑡 | 𝑥𝑡• ) = 0 implica 𝐸(𝑢∗𝑡 | 𝑥∗𝑡• ) = 0. Como
𝐸(𝑢∗𝑡 | 𝑥∗𝑡• ) = 0 ⇒ 𝐸(𝑥∗𝑡• 𝑢∗𝑡 ) = 𝐸(𝑔∗𝑡• ) = 𝟎,

Heterocedasticidade condicionada com padrão conhecido 955
onde
1 1
𝑔∗𝑡• = 𝑥∗𝑡• 𝑢∗𝑡 = 𝑥𝑡• 𝑢𝑡 = 𝑔𝑡• ,
𝜎􏷡𝑡 (𝑥𝑡• ) 𝜎􏷡𝑡 (𝑥𝑡• )
verifica-se RPD.3.
Como, por hipótese, a matriz 𝑄∗𝑥𝑥 existe e tem inversa, tem-se RPD.4.
Como Var(𝑢∗𝑡 |𝑥𝑡• ) = 1, também se tem Var(𝑢∗𝑡 | 𝑥∗𝑡• ) = 1 (RPD.6).
Como se verifica a hipótese RPD.6, a condição (3.35), relativa ao modelo transfor-

mado, reduz-se a 𝑆∗ = 𝑄∗𝑥𝑥 . Obtém-se, portanto, RPD.5.
Então, pode concluir-se que o estimador 𝑏𝑔 (estimador MQ dos coeficientes de regressão

do modelo transformado) é CAN (consistente e assintoticamente normal). Assim,
plim(𝑏𝑔 ) = 𝛽, (3C.4)
e
𝑑
(𝑘) ∗ −􏷠
√𝑛(𝑏𝑔 − 𝛽) → 𝑁 􏿴0, (𝑄𝑥𝑥 ) 􏿷 , (3C.5)
atendendo a (3.38) e (3.51). Tem-se, portanto,
𝐸𝑎 (𝑏𝑔 ) = 𝛽 e Cov𝑎 (𝑏𝑔 ) = (𝑄∗𝑥𝑥 )−􏷠 . (3C.6)
Então,
−􏷠 −􏷠
􏾩𝑎 (𝑏𝑔 ) = 􏿶 1 􏾜𝑛 1 𝑥𝑇𝑡• 𝑥𝑡• 􏿹
Cov
1
= 􏿶 𝑋 𝑇 Σ−􏷠 𝑋 􏿹 . (3C.7)
𝑛 𝑡=􏷠 𝜎􏷡𝑡 𝑛
Quando 𝛿 = 𝑅𝛽, onde 𝑅 é uma matriz 𝑚 × 𝑘 com característica igual a 𝑚 ≤ 𝑘, facilmente
se verifica que [ver (3.46)]
𝑑
𝑄 = (𝛿̂𝑔 − 𝛿)𝑇 {𝑅 (𝑋 𝑇 Σ−􏷠 𝑋)−􏷠 𝑅𝑇 }−􏷠 (𝛿̂𝑔 − 𝛿) → 𝜒􏷡 (𝑚), (3C.8)
onde 𝛿̂𝑔 = 𝑅𝑏𝑔 .
Exemplo 3C.1 Suponha-se que se observaram 𝑛 famílias em determinado período,

para estudar o comportamento das despesas em consumo de certos bens, 𝑦𝑡 , em função
do rendimento, 𝑥𝑡 . O modelo respectivo é, então, 𝑦𝑡 = 𝛼 + 𝛽 𝑥𝑡 + 𝑢𝑡 .
Admitindo que a dispersão do consumo é proporcional ao quadrado do rendimento,
tem-se
Var(𝑢𝑡 | 𝑥𝑡 ) = 𝜎􏷡𝑡 = 𝜆 𝑥􏷡𝑡 (𝜆 > 0).
Então,
⎡ 𝑥􏷡􏷠 0 ⋯ 0 ⎤
⎢ ⎥
0 𝑥􏷡􏷡 ⋯ 0
Cov(𝑈 | 𝑋) = 𝜆 Ω = 𝜆 ⎢ ⎥.
⎢ ⋮ ⋮ ⋱ ⋮ ⎥
⎢ 0 0 ⋯ 𝑥􏷡 ⎥
⎣ 𝑛 ⎦
Neste caso, existem três parâmetros desconhecidos: os coeficientes de regressão, 𝛼 e 𝛽,

e o parâmetro 𝜆 > 0.
Tirando partido desta situação particular, é possível obter um modelo homocedás-
tico, dividindo ambos os membros por 𝑥𝑡 ,
𝑦𝑡 1 𝑢𝑡
=𝛽+𝛼 + .
𝑥𝑡 𝑥𝑡 𝑥𝑡
𝑢𝑡
Var 􏿶 􏿙 𝑥 􏿹 = 𝜆.
𝑥𝑡 𝑡
Pode, então, utilizar-se o método MQ para estimar os coeficientes 𝛼 e 𝛽, fazendo a re-
gressão MQ de 𝑦𝑡 /𝑥𝑡 sobre 1 e 1/𝑥𝑡 .
A hipótese estabelecida sobre as variâncias condicionadas das variáveis residuais é
muito forte, e nada garante que seja razoável. Com efeito, Cov(𝑈 | 𝑋) = 𝜆 Ω é conhecida
a menos de uma constante multiplicativa (Ω é matriz diagonal em que os elementos da
diagonal principal são os quadrados das observações da variável explicativa).
Afirmar que se conhece a matriz Σ (a menos de uma constante multiplicativa) pres-

supõe que se conhece o padrão de heterocedasticidade condicionada (a forma como
𝜎􏷡𝑡 depende de 𝑥𝑡• ), e que se conhecem os valores de eventuais parâmetros envolvidos
naquele padrão.
Por exemplo, se
𝜎􏷡𝑡 = 𝑧𝑡• 𝛼, (3C.9)
onde 𝑧𝑡• é um vector 1 × 𝑝, função de 𝑥𝑡• , e 𝛼 é um vector 𝑝 × 1 de parâmetros, a matriz
Σ é dada por
⎡ 𝑧􏷠• 𝛼 0 ⋯ 0 ⎤
⎢ 0 𝑧􏷡• 𝛼 ⋯ 0 ⎥
Σ = Cov(𝑈 | 𝑋) = ⎢ .
⋮ ⋮ ⋮ ⎥
⎢ ⎥
⎣ 0 0 ⋯ 𝑧𝑛• 𝛼 ⎦
Esta matriz é conhecida quando se conhece o padrão de heterocedasticidade condicio-
nada (dado pela relação funcional 𝜎􏷡𝑡 = 𝑧𝑡• 𝛼), e se conhece o vector 𝛼. Nestas condições,
pode-se utilizar o estimador MQP dado por (3C.2), sendo válidos todos os resultados
obtidos até agora.
Para ilustrar esta situação suponha-se que 𝑦𝑡 = 𝛽􏷠 + 𝛽􏷡 𝑥𝑡􏷡 + 𝛽􏷢 𝑥𝑡􏷢 + 𝑢𝑡 , e que 𝜎􏷡𝑡 =
= 𝛼􏷠 + 𝛼􏷡 ln(𝑥𝑡􏷡 ) + 𝛼􏷢 ln(𝑥𝑡􏷢 ). Tem-se: 𝑝 = 3; 𝑧𝑡􏷠 = 1; 𝑧𝑡􏷡 = ln(𝑥𝑡􏷡 ); 𝑧𝑡􏷢 = ln(𝑥𝑡􏷢 ).
Quando 𝛼 é desconhecido (embora seja conhecido o padrão de heterocedasticidade
condicionada), obviamente que a matriz Σ também é desconhecida. Neste caso, não se
pode utilizar (3C.2) para estimar os coeficientes de regressão 𝛽𝑗 ; é necessário determinar,
previamente, um estimador consistente do vector 𝛼.
Como 𝐸(𝑢􏷡𝑡 | 𝑥𝑡• ) = 𝑧𝑡• 𝛼, considere-se 𝜀𝑡 = 𝑢􏷡𝑡 − 𝐸(𝑢􏷡𝑡 | 𝑥𝑡• ), ou seja, a equação de regres-
são
𝑢􏷡𝑡 = 𝑧𝑡• 𝛼 + 𝜀𝑡 .
Naturalmente que 𝐸(𝜀𝑡 | 𝑥𝑡• ) = 0, e como 𝑧𝑡• é função de 𝑥𝑡• , conclui-se que 𝑧𝑡• e 𝜀𝑡 são or-
togonais, 𝐸(𝑧𝑡• 𝜀𝑡 ) = 𝟎. Então, supondo que a matriz 𝑄𝑧𝑧 = 𝐸(𝑧𝑇𝑡• 𝑧𝑡• ) existe e tem inversa,
o estimador MQ de 𝛼 seria um estimador CAN, se 𝑢􏷡𝑡 fosse observável. Contudo, como
tal não é possível, não pode ser esta a via para estimar 𝛼.
Contudo, considerando os resíduos MQ, 𝑢̂ 𝑡 = 𝑦𝑡 − 𝑥𝑡• 𝑏, relativos ao modelo original,
𝑦𝑡 = 𝑥𝑡• 𝛽 + 𝑢𝑡 (𝑏 é estimador consistente de 𝛽, com ou sem heterocedasticidade condicio-
nada), pode provar-se que um estimador consistente de 𝛼, 𝛼̂ , utilizando a regressão
𝑢̂ 􏷡𝑡 = 𝑧𝑡• 𝛼 + 𝜀′𝑡 ,
é o respectivo estimador MQ, desde que se estabeleçam as seguintes hipóteses:

1) A matriz 𝑄𝑧𝑧 = 𝐸(𝑧𝑇𝑡• 𝑧𝑡• ) existe e tem inversa;
2) Existem os momentos 𝐸(𝑧𝑡ℓ 𝑥𝑡𝑖 𝑥𝑡𝑗 ).
Com efeito, seja
−􏷠
1 𝑛 1 𝑛
𝛼̃ = 􏿶 􏾜 𝑧𝑇𝑡• 𝑧𝑡• 􏿹 􏿶 􏾜 𝑧𝑇𝑡• 𝑢􏷡𝑡 􏿹 ,
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
o estimador MQ de 𝛼, quando se considera 𝑢􏷡𝑡 = 𝑧𝑡• 𝛼 + 𝜀𝑡 .

Como este estimador não é operacional, porque 𝑢􏷡𝑡 não é observável, seja
−􏷠
1 𝑛 1 𝑛
𝛼̂ = 􏿶 􏾜 𝑧𝑇𝑡• 𝑧𝑡• 􏿹 􏿶 􏾜 𝑧𝑇𝑡• 𝑢̂ 􏷡𝑡 􏿹 ,
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
o estimador MQ de 𝛼, quando se toma a regressão 𝑢̂ 􏷡𝑡 = 𝑧𝑡• 𝛼 + 𝜀′𝑡 .

−􏷠
1 𝑛 1 𝑛
𝛼̂ − 𝛼̃ = 􏿶 􏾜 𝑧𝑇𝑡• 𝑧𝑡• 􏿹 􏿶 􏾜 𝑧𝑇𝑡• (𝑢̂ 􏷡𝑡 − 𝑢􏷡𝑡 )􏿹 ,
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
e que
1 𝑛
plim (𝛼̂ − 𝛼)̃ = 𝑄−􏷠
𝑧𝑧 plim 􏿶 􏾜 𝑧𝑇𝑡• (𝑢̂ 􏷡𝑡 − 𝑢􏷡𝑡 )􏿹 .
𝑛 𝑡=􏷠
Como 𝑢̂ 𝑡 = 𝑢𝑡 − 𝑥𝑡• (𝑏 − 𝛽) e 𝑢̂ 􏷡𝑡 = 𝑢􏷡𝑡 − 2 𝑢𝑡 𝑥𝑡• (𝑏 − 𝛽) + (𝑏 − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝑏 − 𝛽), vem

1 𝑛 1 𝑛
􏾜 𝑧𝑇𝑡• (𝑢̂ 􏷡𝑡 − 𝑢􏷡𝑡 ) = 􏾜 𝑧𝑇𝑡• 􏿮−2 𝑢𝑡 𝑥𝑡• (𝑏 − 𝛽) + (𝑏 − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝑏 − 𝛽)􏿱
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
1 𝑛 1 𝑛
= −2 􏿶 􏾜 𝑢𝑡 𝑧𝑇𝑡• 𝑥𝑡• 􏿹 (𝑏 − 𝛽) + 􏾜 𝑧𝑇𝑡• (𝑏 − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝑏 − 𝛽) .
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
Vai provar-se que as duas somas do segundo membro desta igualdade convergem em
probabilidade para zero. Quanto à primeira soma, tem-se
1 𝑛
plim 􏿶 􏾜 𝑢𝑡 𝑧𝑇𝑡• 𝑥𝑡• 􏿹 plim (𝑏 − 𝛽) = 𝟎,
𝑛 𝑡=􏷠
uma vez que
𝐸(𝑢𝑡 𝑧𝑇𝑡• 𝑥𝑡• ) = 𝐸{𝐸(𝑢𝑡 𝑧𝑇𝑡• 𝑥𝑡• | 𝑥𝑡• )} = 𝐸{𝑧𝑇𝑡• 𝑥𝑡• 𝐸(𝑢𝑡 | 𝑥𝑡• )} = 𝑂,
e plim (𝑏 − 𝛽) = 𝟎. Cada parcela de

𝑛
􏾜 𝑧𝑇𝑡• (𝑏 − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝑏 − 𝛽)
𝑡=􏷠
é um vector da forma
⎡ 𝑧𝑡􏷠 ⎤
⎢ 𝑧𝑡􏷡 ⎥ 𝑇 𝑇
⎢ ⋮ ⎥ (𝑏 − 𝛽) 𝑥𝑡• 𝑥𝑡• (𝑏 − 𝛽),
⎢ ⎥
⎣ 𝑧𝑡𝑝 ⎦
onde
(𝑏 − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝑏 − 𝛽) = (𝑏􏷠 − 𝛽􏷠 )􏷡 𝑥􏷡𝑡􏷠 + ⋯ + (𝑏􏷠 − 𝛽􏷠 )(𝑏𝑘 − 𝛽𝑘 )𝑥𝑡􏷠 𝑥𝑡𝑘
+ ⋯
+ (𝑏𝑘 − 𝛽𝑘 )(𝑏􏷠 − 𝛽􏷠 )𝑥𝑡𝑘 𝑥𝑡􏷠 + ⋯ + (𝑏𝑘 − 𝛽𝑘 )􏷡 𝑥􏷡𝑡𝑘 .
Assim, cada elemento daquele vector é uma soma, onde cada parcela é da forma
(𝑏𝑖 − 𝛽𝑖 )(𝑏𝑗 − 𝛽𝑗 ) 𝑧𝑡ℓ 𝑥𝑡𝑖 𝑥𝑡𝑗 .
Então, cada elemento do vector

1 𝑛
􏾜 𝑧𝑇𝑡• (𝑏 − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝑏 − 𝛽)
𝑛 𝑡=􏷠

1 𝑛
(𝑏𝑖 − 𝛽𝑖 )(𝑏𝑗 − 𝛽𝑗 ) 􏾜 (𝑧𝑡ℓ 𝑥𝑡𝑖 𝑥𝑡𝑗 ),
𝑛 𝑡=􏷠
ou seja, é o produto de (𝑏𝑖 − 𝛽𝑖 )(𝑏𝑗 − 𝛽𝑗 ) pela média amostral de 𝑧𝑡ℓ 𝑥𝑡𝑖 𝑥𝑡𝑗 .
Como plim(𝑏𝑗 ) = 𝛽𝑗 e, por hipótese, existem os momentos 𝐸(𝑧𝑡ℓ 𝑥𝑡𝑖 𝑥𝑡𝑗 ), o limite em
probabilidade daqueles produtos é nulo. Fica, assim, demonstrado que
plim(𝛼)̂ = plim(𝛼)̃ = 𝛼.
Note-se que na regressão 𝑢̂ 􏷡𝑡 = 𝑧𝑡• 𝛼 + 𝜀′𝑡 , a respectiva variável residual, 𝜀′𝑡 , pode ser con-
dicionalmente heterocedástica, o que não tem inconveniente (assintoticamente), pois
apenas é necessário dispor de um estimador consistente de 𝛼.
O estimador dos mínimos quadrados ponderados (MQP), uma vez estimado 𝛼 da
maneira indicada, é dado por
𝑏̂ 𝑔 = (𝑋 𝑇 Σ̂ −􏷠 𝑋)−􏷠 𝑋 𝑇 Σ̂ −􏷠 𝑌, (3C.10)
onde
⎡ 𝑧􏷠• 𝛼̂ 0 ⋯ 0 ⎤
⎢ ⎥
0 𝑧􏷡• 𝛼̂ ⋯ 0
Σ̂ = ⎢ ⎥,
⎢ ⋮ ⋮ ⋮ ⎥
⎢ 0 0 ⋯ 𝑧𝑛• 𝛼̂ ⎥
⎣ ⎦
ou, ainda,
−􏷠
𝑛 1 𝑇 𝑛 1 𝑇
𝑏̂ 𝑔 = 􏿶􏾜 𝑥 𝑥
􏷡 𝑡• 𝑡• 􏿹
􏾜 𝑥𝑡• 𝑦𝑡 , (3C.11)
𝑡=􏷠 𝜎̂ 𝑡 𝑡=􏷠 𝜎̂ 􏷡𝑡
em que 𝜎̂ 􏷡𝑡 = 𝑧𝑡• 𝛼̂ .
Pode, então, concluir-se que este estimador é consistente:
plim(𝑏̂ 𝑔 ) = 𝛽. (3C.12)
Verificadas certas condições, pode demonstrar-se que:
a) Os vectores aleatórios √𝑛(𝑏𝑔 − 𝛽) e √𝑛(𝑏̂ 𝑔 − 𝛽) são assintoticamente equivalentes.

Então,
𝑑
√𝑛(𝑏̂ 𝑔 − 𝛽) → 𝑁 􏿴0, (𝑄𝑥𝑥 ) 􏿷 , (3C.13)
(𝑘) ∗ −􏷠
isto é, 𝑏𝑔 e 𝑏̂ 𝑔 têm a mesma distribuição assintótica.

Assim,
−􏷠
1 𝑇
Cov𝑎 (𝑏̂ 𝑔 ) = (𝑄∗𝑥𝑥 )−􏷠 = 􏿰𝐸 􏿶 𝑥 𝑥 􏿹􏿳 . (3C.14)
𝑧𝑡• 𝛼 𝑡• 𝑡•
b) Tem-se
1 1
plim 􏿶 𝑋 𝑇 Σ̂ −􏷠 𝑋 􏿹 = plim 􏿶 𝑋 𝑇 Σ−􏷠 𝑋 􏿹 .
𝑛 𝑛
Então, um estimador consistente de (3C.14) é dado por

−􏷠 −􏷠
􏾨 𝑎 (𝑏̂ 𝑔 ) = 􏿶 1 𝑋 𝑇 Σ̂ −􏷠 𝑋 􏿹
Cov
1
=􏿶 􏾜
𝑛 1 𝑇
𝑥𝑡• 𝑥𝑡• 􏿹 . (3C.15)
𝑛 𝑛 𝑡=􏷠 𝜎̂ 􏷡𝑡
Em resumo, dado o modelo 𝑦𝑡 = 𝑥𝑡• 𝛽 + 𝑢𝑡 , onde 𝐸(𝑢􏷡𝑡 | 𝑥𝑡• ) = 𝑧𝑡• 𝛼, a estimação dos
respectivos coeficientes de regressão é feita do seguinte modo:
1) Estimar 𝛽 com o método dos mínimos quadrados de modo a obter os respectivos

resíduos MQ, 𝑢̂ 𝑡 = 𝑦𝑡 − 𝑥𝑡• 𝑏.
2) Fazer a regressão MQ de 𝑢̂ 􏷡𝑡 sobre 𝑧𝑡• , de modo a obter o estimador 𝛼̂ .
3) Reestimar 𝛽 com o método dos mínimos quadrados ponderados, utilizando o peso

(𝑧𝑡• 𝛼)̂ −􏷠/􏷡 para a observação 𝑡.
Diz-se que um estimador CAN é assintoticamente mais eficiente que outro estimador
(para o mesmo parâmetro) se a diferença entre as matrizes das covariâncias assintóticas
do segundo e do primeiro é semidefinida positiva.
Nas condições descritas, dispõe-se de dois estimadores consistentes e assintotica-
mente normais: o estimador MQP (𝑏̂ 𝑔 ou 𝑏𝑔 ) e o estimador MQ (b). Pode verificar-se,
sem dificuldade, que 𝑏̂ 𝑔 é assintoticamente mais eficiente que 𝑏, ou seja,
−􏷠
1 𝑇
Cov𝑎 (𝑏) − Cov𝑎 (𝑏̂ 𝑔 ) = 𝑄−􏷠 −􏷠
𝑥𝑥 𝑆 𝑄𝑥𝑥 − 𝐸 􏿶 𝑥 𝑥 􏿹
𝑧𝑡• 𝛼 𝑡• 𝑡•
Com efeito, de acordo com (3C.14), sabe-se
−􏷠 −􏷠
1 𝑇 1
Cov𝑎 (𝑏̂ 𝑔 ) = 􏿰𝐸 􏿶 𝑥 𝑥 􏿹􏿳 = plim 􏿶 𝑋 𝑇 Σ−􏷠 𝑋 􏿹 ,
𝑧𝑡• 𝛼 𝑡• 𝑡• 𝑛
onde Σ = diag{𝜎􏷡𝑡 } e 𝜎􏷡𝑡 = 𝐸(𝑢􏷡𝑡 |𝑥𝑡• ) = 𝑧𝑡• 𝛼.

Notando que, qualquer que seja Σ, (𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 Σ𝑋(𝑋 𝑇 𝑋)−􏷠 − (𝑋 𝑇 Σ−􏷠 𝑋)−􏷠 é semidefi-
nida positiva (ver anexo 2G), conclui-se que
−􏷠 −􏷠 −􏷠
1 1 1 1
plim 􏿶 𝑋 𝑇 𝑋 􏿹 plim 􏿶 𝑋 𝑇 Σ𝑋 􏿹 plim 􏿶 𝑋 𝑇 𝑋 􏿹 − plim 􏿶 𝑋 𝑇 Σ−􏷠 𝑋 􏿹 ,
𝑛 𝑛 𝑛 𝑛
ou
−􏷠 −􏷠
1 1 1
plim 􏿶 𝑋 𝑇 𝑋 􏿹 plim 􏿶 𝑋 𝑇 Σ𝑋 􏿹 plim 􏿶 𝑋 𝑇 𝑋 􏿹 − Cov𝑎 (𝑏̂ 𝑔 ),
𝑛 𝑛 𝑛
também é semidefinida positiva. Assim, basta provar que

−􏷠 −􏷠
1 1 1
plim 􏿶 𝑋 𝑇 𝑋 􏿹 plim 􏿶 𝑋 𝑇 Σ𝑋 􏿹 plim 􏿶 𝑋 𝑇 𝑋 􏿹 = Cov𝑎 (𝑏),
𝑛 𝑛 𝑛
o que se reduz a demonstrar que
1
plim 􏿶 𝑋 𝑇 Σ𝑋 􏿹 = 𝑆.
𝑛
Com efeito, seja
𝑆 = 𝐸(𝑢􏷡𝑡 𝑥𝑇𝑡• 𝑥𝑡• ) = 𝐸{𝐸(𝑢􏷡𝑡 𝑥𝑇𝑡• 𝑥𝑡• |𝑥𝑡• )} = 𝐸{𝐸(𝑢􏷡𝑡 |𝑥𝑡• )𝑥𝑇𝑡• 𝑥𝑡• } = 𝐸(𝑧𝑡• 𝛼𝑥𝑇𝑡• 𝑥𝑡• ).
Como {𝑥𝑡• } é 𝑖𝑖𝑑, e como 𝑧𝑡• é função de 𝑥𝑡• , tem-se que {𝑧𝑡• 𝛼𝑥𝑇𝑡• 𝑥𝑡• } também é 𝑖𝑖𝑑. Então,
a respectiva média amostral,
1 𝑛 1
􏾜 (𝑧𝑡• 𝛼𝑥𝑇𝑡• 𝑥𝑡• ) = 𝑋 𝑇 Σ𝑋,
𝑛 𝑡=􏷠 𝑛
converge em probabilidade para 𝑆. Fica, assim, provado que Cov𝑎 (𝑏) − Cov𝑎 (𝑏̂ 𝑔 ) é semi-
definida positiva.
A superioridade assintótica de 𝑏̂ 𝑔 , relativamente a 𝑏, baseia-se na pressuposto de que
a dimensão da amostra é suficientemente grande, e que a forma funcional de 𝜎􏷡𝑡 (𝑥𝑡• ) está
correctamente especificada. Caso contrário, não fica garantido que o estimador MQP
dê melhores resultados que o estimador MQ.
Como os elementos de 𝑧𝑡• podem ser funções não lineares de 𝑥𝑡• , a forma linear em
𝛼, definida em (3C.9), abrange uma grande variedade de situações. No entanto, pode
ser interessante considerar outras formas funcionais, como
𝜎􏷡𝑡 = exp{𝑧𝑡• 𝛼}, (3C.16)
que tem a vantagem de garantir que exp{𝑧𝑡• 𝛼} > 0. Neste caso, a heterocedasticidade
condicionada designa-se por heterocedasticidade multiplicativa, uma vez que
exp{𝑧𝑡• 𝛼} = exp{𝑧𝑡􏷠 𝛼􏷠 } × exp{𝑧𝑡􏷡 𝛼􏷡 } × ⋯ × exp{𝑧𝑡𝑝 𝛼𝑝 }.
Continua a utilizar-se o estimador (3C.11), com 𝜎̂ 􏷡𝑡 = exp{𝑧𝑡• 𝛼}̂ , mas prevalece a questão
de determinar um estimador consistente de 𝛼.
Pode demonstrar-se que os passos para estimar 𝛽 no modelo 𝑦𝑡 = 𝑥𝑡• 𝛽 + 𝑢𝑡 , onde
𝐸(𝑢􏷡𝑡 | 𝑥𝑡• ) = exp{𝑧𝑡• 𝛼}, são os seguintes:
1) Estimar 𝛽 com o método dos mínimos quadrados de modo a obter os respectivos

resíduos MQ, 𝑢̂ 𝑡 = 𝑦𝑡 − 𝑥𝑡• 𝑏.
2) Como ln (𝜎􏷡𝑡 ) = 𝑧𝑡• 𝛼, considere-se a equação de regressão 𝑞𝑡 = 𝑧𝑡• 𝛼 + 𝑣𝑡 , onde
𝑞𝑡 = ln (𝑢̂ 􏷡𝑡 ) e 𝑣𝑡 = ln (𝑢̂ 􏷡𝑡 ) − ln (𝜎􏷡𝑡 ) = ln (𝑢̂ 􏷡𝑡 /𝜎􏷡𝑡 ),
de modo a obter o estimador 𝛼̂ .

Pode provar-se que:
a) As variáveis residuais 𝑣𝑡 têm valor esperado não nulo, são heterocedásticas

e estão autocorrelacionadas;
b) 𝑣𝑡 e 𝑣∗𝑡 = ln (𝑢􏷡𝑡 /𝜎􏷡𝑡 ) são assintoticamente equivalentes;
c) 𝐸(𝑣∗𝑡 ) = −1.2704; Var(𝑣∗𝑡 ) = 4.9348; Cov(𝑣∗𝑡 , 𝑣∗𝑠 ) = 0 (𝑡 ≠ 𝑠);
d) plim(𝛼̂ 􏷠 ) = 𝛼􏷠 − 1.2704; plim(𝛼̂ ℓ ) = 𝛼ℓ (ℓ = 2, 3, … , 𝑝).
3) Reestimar 𝛽 com o método dos mínimos quadrados ponderados, utilizando o peso

̂ −􏷠/􏷡 para a observação 𝑡.
(exp{𝑧𝑡• 𝛼})
[3D]
Complementos sobre autocorrelação
3D.1 Propriedades do estimador MQ na presença de autocorrela-

ção, no caso de regressores estritamente exógenos
Quando se está na presença de um MRLC, provou-se que as hipóteses REX.1, REX.2
e REX.5 implicam que o estimador MQ de 𝛽, 𝑏, é não enviesado (propriedade 2.11),
mesmo que exista heterocedasticidade condicionada e autocorrelação. No entanto,
como o teorema de Gauss-Markov exige homocedasticidade condicionada e ausência
de autocorrelação, o estimador 𝑏 não é BLUE. Além disso, os erros padrão e os testes
estatísticos clássicos deixam de ser válidos, mesmo assintoticamente.
Por exemplo, considere-se o modelo
𝑦𝑡 = 𝛽􏷠 + 𝛽􏷡 𝑥𝑡 + 𝑢𝑡 ,
a verificar REX.1, REX.2, REX.3 e REX.5 (mas não REX.4; pode haver autocorrelação).
Notando que
𝑛 𝑛 𝑛
􏾜 (𝑥𝑡 − 𝑥)(𝑦𝑡 − 𝑦) 􏾜 (𝑥𝑡 − 𝑥)𝑦𝑡 􏾜 (𝑥𝑡 − 𝑥)(𝛽􏷠 + 𝛽􏷡 𝑥𝑡 + 𝑢𝑡 )
𝑡=􏷠 𝑡=􏷠 𝑡=􏷠
𝑏􏷡 = 𝑛 = =
􏾜 (𝑥𝑡 − 𝑥)􏷡 VT𝑥 VT𝑥
𝑡=􏷠
𝑛 𝑛 𝑛
𝛽􏷡 􏾜 (𝑥𝑡 − 𝑥)𝑥𝑡 + 􏾜 (𝑥𝑡 − 𝑥)𝑢𝑡 􏾜 (𝑥𝑡 − 𝑥)𝑢𝑡
𝑡=􏷠 𝑡=􏷠 𝑡=􏷠
= = 𝛽􏷡 + ,
VT𝑥 VT𝑥
963
964 Anexo 3D Complementos sobre autocorrelação
onde VT𝑥 = Σ𝑛𝑡=􏷠 (𝑥𝑡 − 𝑥)􏷡 , facilmente se verifica que

1 𝑛
Var(𝑏􏷡 | 𝑋) = Var 􏿯􏾜 (𝑥𝑡 − 𝑥)𝑢𝑡 | 𝑋 􏿲
VT􏷡𝑥 𝑡=􏷠
1 𝑛 𝑛 𝑡−􏷠
= 􏿯􏾜 (𝑥𝑡 − 𝑥)􏷡 Var(𝑢𝑡 | 𝑋) + 2 􏾜 􏾜 (𝑥𝑡 − 𝑥)(𝑥𝑡−𝑠 − 𝑥) Cov(𝑢𝑡 , 𝑢𝑡−𝑠 | 𝑋)􏿲
VT􏷡𝑥 𝑡=􏷠 𝑡=􏷡 𝑠=􏷠
𝜎􏷡𝑢 2 𝑛 𝑡−􏷠
= + 􏾜 􏾜 (𝑥𝑡 − 𝑥)(𝑥𝑡−𝑠 − 𝑥) Cov(𝑢𝑡 , 𝑢𝑡−𝑠 | 𝑋) .
VT𝑥 VT𝑥􏷡 𝑡=􏷡 𝑠=􏷠
A primeira parcela desta expressão é a variância habitual de 𝑏􏷡 , isto é, quando não há

autocorrelação.
Quando {𝑢𝑡 } segue um processo AR(1), 𝑢𝑡 = 𝜑 𝑢𝑡−􏷠 + 𝑒𝑡 ( | 𝜑 | < 1), é imediato que
𝜎􏷡𝑢 2𝜎􏷡𝑢 𝑛 𝑡−􏷠
Var(𝑏􏷡 | 𝑋) = + 􏾜 􏾜 𝜑𝑠 (𝑥𝑡 − 𝑥)(𝑥𝑡−𝑠 − 𝑥),
VT𝑥 VT􏷡𝑥 𝑡=􏷡 𝑠=􏷠
porque 𝑢𝑡 não depende de 𝑋 , e Cov(𝑢𝑡 , 𝑢𝑡−𝑠 ) = 𝜎􏷡𝑢 𝜑𝑠 .

Quando se utiliza a variância habitual, ignorando a autocorrelação, o estimador des-
ta variância é claramente enviesado porque não se considera a segunda parcela. Como
no caso mais comum esta parcela é positiva (𝜑 > 0 e a série temporal {𝑥𝑡 } é positiva-
mente autocorrelacionada), as estimativas da variância habitual subestimam a verda-
deira variância de 𝑏􏷡 . O enviesamento é tanto maior quanto maior for 𝜑 > 0 ou quanto
mais acentuada for a autocorrelação de {𝑥𝑡 }.
Suponha-se, agora, que {𝑢𝑡 } segue um processo MA(1), 𝑢𝑡 = 𝜀𝑡 + 𝜃 𝜀𝑡−􏷠 . Notando
que Var(𝑢𝑡 ) = 𝜎􏷡𝜀 (1 + 𝜃􏷡 ), Cov(𝑢𝑡 , 𝑢𝑡−􏷠 ) = 𝜎􏷡𝜀 𝜃, Cov(𝑢𝑡 , 𝑢𝑡−𝑠 ) = 0 (𝑠 = 2, 3, …), e que 𝑢𝑡 não
depende de 𝑋 , vem
𝜎􏷡𝜀 (1 + 𝜃􏷡 ) 2 𝜃𝜎􏷡𝜀 𝑛
Var(𝑏􏷡 | 𝑋) = + 􏾜 (𝑥𝑡 − 𝑥)(𝑥𝑡−􏷠 − 𝑥).
VT𝑥 􏷡
VT𝑥 𝑡=􏷡
Em termos gerais, no modelo de regressão linear com regressores estritamente exóge-

nos e autocorrelação tem-se,
Cov(𝑏 | 𝑋) = (𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 Σ𝑋(𝑋 𝑇 𝑋)−􏷠 ,
e não Cov(𝑏 | 𝑋) = 𝜎􏷡 (𝑋 𝑇 𝑋)−􏷠 .
3D.2 Testes de autocorrelação no caso de regressores estritamente

exógenos
Suponha-se que se pretende testar se as variáveis residuais seguem um processo AR(1):
𝑢𝑡 = 𝜑 𝑢𝑡−􏷠 + 𝜀𝑡 , onde 𝜀𝑡 é um ruído branco. O teste a efectuar é o seguinte:
𝐻􏷟 ∶ 𝜑 = 0 contra 𝐻􏷠 ∶ 𝜑 > 0 (caso habitual).
Testes de autocorrelação no caso de regressores estritamente exógenos 965
A mecânica do teste, conhecido pela designação de teste do 𝐭, é a seguinte:
1) Obter os resíduos MQ, 𝑢̂ 𝑡 , do modelo de regressão proposto.
2) Fazer a regressão de 𝑢̂ 𝑡 sobre 𝑢̂ 𝑡−􏷠 , de modo a obter 𝜑̂ . O respectivo rácio-𝑡 tem

distribuição limite normal estandardizada,
𝑑
𝑡𝜑̂ → 𝑁(0, 1),
supondo a hipótese nula verdadeira.
3) Utilizar a estatística 𝑡𝜑̂ para efectuar o teste, reportando o respectivo valor-𝑝.
Este tipo de procedimento pode ser utilizado para testar outros tipos de autocorrelação,
nomeadamente para os processos auto-regressivos de ordem dois ou superior, usando-
-se um teste do 𝐅.
Outra forma de detectar autocorrelação do tipo AR(1) é dada pelo teste de Durbin-
-Watson, que é talvez o teste mais conhecido, e, historicamente, o mais utilizado.
A estatística-teste 𝑛
􏾜 (𝑢̂ 𝑡 − 𝑢̂ 𝑡−􏷠 )􏷡
𝑑= 𝑡=􏷡
𝑛 , (3D.1)
􏾜 𝑢̂ 􏷡𝑡−􏷠
𝑡=􏷠
onde se consideram os resíduos MQ do modelo proposto.
Pode fazer-se uma interpretação intuitiva dos valores assumidos por esta estatís-
tica, notando que a média dos resíduos MQ é nula. Se os resíduos estão positivamente
autocorrelacionados, verifica-se que cada resíduo tende a manter o sinal do resíduo an-
terior. Há vários resíduos seguidos com sinal positivo, e vários resíduos seguidos com
valor negativo, e, portanto, as diferenças entre dois valores sucessivos tendem a ser
pequenas e significativamente menores que os valores dos próprios resíduos. Então, 𝑑
tende, também, a assumir um valor pequeno.
Se a autocorrelação dos resíduos é negativa, então cada resíduo tende a ter o sinal
contrário do resíduo anterior. As diferenças sucessivas tendem a ser grandes, e maiores
que os valores dos próprios resíduos. O valor 𝑑 tende, também, a ser grande.
plim(𝑑) = 2(1 − 𝜑), (3D.2)
e, portanto, 0 < plim(𝑑) < 4. Pode afirmar-se que: 𝑑 varia aproximadamente entre 0 e
4; quando não há autocorrelação, 𝑑 é aproximadamente igual a 2.
Heuristicamente pode estabelecer-se o seguinte:
𝑑 < 2 indica que existe autocorrelação positiva;
𝑑 > 2 indica que existe autocorrelação negativa;

𝑑 ≈ 2 indica que não há autocorrelação.
Como se pode demonstrar que a distribuição de 𝑑 depende da matriz 𝑋 dos regressores,

não se pode construir uma tabela para os valores críticos de 𝑑. No entanto, Durbin e
Watson consideraram duas outras estatísticas, 𝑑𝐿 e 𝑑𝑈 , que enquadram 𝑑, 𝑑𝐿 ≤ 𝑑 ≤ 𝑑𝑈 ,
e cujas distribuições não dependem de 𝑋 . Existem tabelas [ver Johnston e DiNardo
(1997)] para os respectivos valores críticos, 𝑑∗𝐿 e 𝑑∗𝑈 , que dependem apenas de 𝑛 (número
de observações) e de 𝑘 (número de regressores).
A mecânica do teste para o caso 𝐻􏷠 ∶ 𝜑 > 0 (autocorrelação positiva) é a seguinte:
1) Se 𝑑 < 𝑑∗𝐿 , rejeita-se a hipótese nula de ausência de autocorrelação a favor da

hipótese alternativa.
2) Se 𝑑 > 𝑑∗𝑈 , não se rejeita a hipótese nula.
3) Se 𝑑∗𝐿 < 𝑑 < 𝑑∗𝑈 , o teste é inconclusivo.
Quando a hipótese alternativa é 𝐻􏷠 ∶ 𝜑 < 0 (autocorrelação negativa), o teste é feito

calculando 4 − 𝑑, e procedendo como se se estivesse a testar autocorrelação positiva.
Note-se, no entanto, que para variáveis económicas é pouco habitual encontrar auto-
correlação negativa.
O teste de Durbin-Watson apresenta vários inconvenientes:
a) Só pode ser utilizado no caso em que a autocorrelação é do tipo AR(1).
b) É necessário que o modelo proposto tenha termo independente.
c) A solução parcial apresentada para evitar o problema da dependência da distri-

buição da estatística 𝑑 da matriz 𝑋 conduz a uma região inconclusiva. Neste caso,
é prática corrente adoptar uma posição cautelosa e considerar esta região como
fazendo parte da região de rejeição, isto é, a hipótese nula é rejeitada se 𝑑 < 𝑑∗𝑈 . No
entanto, existe software que permite calcular o valor crítico exacto da distribuição
da estatística 𝑑 de Durbin-Watson.
d) Só tem validade se se verificarem as hipóteses da exogeneidade estrita dos regres-

sores (hipótese REX.2) e da normalidade das variáveis residuais (hipótese REX.6).
Como a hipótese REX.2 tem pouco interesse para os modelos com dados tempo-
rais e a autocorrelação é tipicamente um problema dos mesmos modelos, o teste
de Durbin-Watson tem pouca (ou nenhuma) utilidade em Econometria.
Distribuições limite de QBP e QLP 967
3D.3 Demonstração do teorema 3.9

Demonstração. Este teorema pode demonstrar-se para o enunciado apresentado. No
entanto, vai fazer-se a demonstração para o caso em que {𝜀𝑡 } é ergódico e 𝑝 = 1.
Com efeito, seja 𝛾􏷟 = Var(𝜀𝑡 ) e 𝛾􏷠 = Cov(𝜀𝑡 , 𝜀𝑡−􏷠 ). Como 𝐸(𝜀𝑡 ) = 0 (uma vez que {𝜀𝑡 }
é uma diferença-martingala) e 𝐸(𝜀􏷡𝑡 ) = 𝜎􏷡 (devido à auto-homocedasticidade condicio-
nada), tem-se: 𝛾􏷟 = 𝐸(𝜀􏷡𝑡 ) = 𝜎􏷡 ; 𝛾􏷠 = 𝐸(𝜀𝑡 𝜀𝑡−􏷠 ); 𝜌􏷠 = 𝛾􏷠 /𝛾􏷟 .
Seja,
1 𝑛 1 𝑛 𝛾̂ 􏷠
𝛾̂ 􏷟 = 􏾜 𝜀􏷡𝑡 , 𝛾̂ 􏷠 = 􏾜 𝜀𝑡 𝜀𝑡−􏷠 e 𝜌̂ 􏷠 = .
𝑛 𝑡=􏷠 𝑛 𝑡=􏷡 𝛾̂ 􏷟
Facilmente se verifica que o processo {𝑔𝑡 }, onde 𝑔𝑡 = 𝜀𝑡 𝜀𝑡−􏷠 , é uma diferença-martingala.
Basta notar que
𝐸(𝑔𝑡 | 𝑔𝑡−􏷠 , 𝑔𝑡−􏷡 , …) = 𝐸(𝜀𝑡 𝜀𝑡−􏷠 | 𝜀𝑡−􏷠 𝜀𝑡−􏷡 , 𝜀𝑡−􏷡 𝜀𝑡−􏷢 , …) = 𝜀𝑡−􏷠 𝐸(𝜀𝑡 | 𝜀𝑡−􏷠 , 𝜀𝑡−􏷡 , …) = 0.
Pode, então, concluir-se que: 𝛾􏷠 = 𝐸(𝜀𝑡 𝜀𝑡−􏷠 ) = 0; 𝜌􏷠 = 𝛾􏷠 /𝛾􏷟 = 0.

Devido à ergodicidade, tem-se:
plim(𝛾̂ 􏷟 ) = 𝛾􏷟 = 𝜎􏷡 ; plim(𝛾̂ 􏷠 ) = 𝛾􏷠 = 0; plim(𝜌̂ 􏷠 ) = 𝜌􏷠 = 0.
A seguir vai mostrar-se que
𝐸(𝑔􏷡𝑡 ) = 𝐸(𝜀􏷡𝑡 𝜀􏷡𝑡−􏷠 ) = 𝜎􏷣 .
De facto, devido à auto-homocedasticidade condicionada, obtém-se
𝐸(𝑔􏷡𝑡 ) = 𝐸(𝜀􏷡𝑡 𝜀􏷡𝑡−􏷠 ) = 𝐸{𝐸(𝜀􏷡𝑡 𝜀􏷡𝑡−􏷠 | 𝜀𝑡−􏷠 , 𝜀𝑡−􏷡 . …)}

= 𝐸{𝜀􏷡𝑡−􏷠 𝐸(𝜀􏷡𝑡 | 𝜀𝑡−􏷠 , 𝜀𝑡−􏷡 . …)}
= 𝜎􏷡 𝐸(𝜀􏷡𝑡−􏷠 ) = 𝜎􏷣 .
Então, atendendo ao teorema de limite central de Billingsley (teorema 3.8), vem
𝑑 􏷣
√𝑛 𝛾̂ 􏷠 → 𝑁(0, 𝜎 ).
Como plim(𝛾̂ 􏷟 ) = 𝜎􏷡 , atendendo à propriedade e) que relaciona a convergência em

probabilidade com a convergência em distribuição, obtém-se
𝑑
√𝑛 𝜌̂ 􏷠 → 𝑁(0, 1).
3D.4 Distribuições limite de QBP e QLP no caso de regressores es-

tritamente exógenos
Vai demonstrar-se que, no caso de regressores estritamente exógenos, as distribuições

limite de 𝑄BP e 𝑄LB são do qui-quadrado, quando se utilizam os resíduos MQ, em vez
das respectivas variáveis residuais.
Com efeito, como 𝑢̂ 𝑡 = 𝑢𝑡 − 𝑥𝑡• (𝑏 − 𝛽), obtém-se
1 𝑛 1 𝑛
𝛾̂ 𝑠 = 􏾜 𝑢̂ 𝑡 𝑢̂ 𝑡−𝑠 = 􏾜 {𝑢𝑡 − 𝑥𝑡• (𝑏 − 𝛽)}{𝑢𝑡−𝑠 − 𝑥𝑡−𝑠,• (𝑏 − 𝛽)}
𝑛 𝑡=𝑠+􏷠 𝑛 𝑡=𝑠+􏷠
1 𝑛 1 𝑛
= 𝛾̃ 𝑠 − 􏾜 (𝑥𝑡• 𝑢𝑡−𝑠 + 𝑥𝑡−𝑠,• 𝑢𝑡 )(𝑏 − 𝛽) + (𝑏 − 𝛽)𝑇 􏿶 􏾜 𝑥𝑇𝑡• 𝑥𝑡−𝑠,• 􏿹 (𝑏 − 𝛽) .
Supondo que existem os momentos 𝐸(𝑥𝑡• 𝑢𝑡−𝑠 ), 𝐸(𝑥𝑡−𝑠,• 𝑢𝑡 ) e 𝐸(𝑥𝑇𝑡• 𝑥𝑡−𝑠,• ), vem imediata-
mente que: plim (𝛾̂ 𝑠 − 𝛾̃ 𝑠 ) = 0 e plim (𝜌̂ 𝑠 − 𝜌̃ 𝑠 ) = 0.
Então,
plim(𝛾̂ 𝑠 ) = 𝛾𝑠 e plim(𝜌̂ 𝑠 ) = 𝜌𝑠 .
Para provar que

√𝑛 𝜌̂ 𝑠 e √𝑛 𝜌̃ 𝑠
são assintoticamente equivalentes, começa por demonstrar-se que
√𝑛 𝛾̂ 𝑠 e √𝑛 𝛾̃ 𝑠
são assintoticamente equivalentes, ou seja,
plim 􏿴√𝑛 𝛾̂ 𝑠 − √𝑛 𝛾̃ 𝑠 􏿷 = 0.
Com efeito,
1 𝑛
√𝑛 𝛾̂ 𝑠 = √𝑛 𝛾̃ 𝑠 − 􏿶 􏾜𝑡=𝑠+􏷠 (𝑥𝑡• 𝑢𝑡−𝑠 + 𝑥𝑡−𝑠,• 𝑢𝑡 )􏿹 √𝑛(𝑏 − 𝛽)
𝑛
1 𝑛
+ 􏿰(𝑏 − 𝛽)𝑇 􏿶 􏾜 𝑥𝑇𝑡• 𝑥𝑡−𝑠,• 􏿹􏿳 √𝑛(𝑏 − 𝛽) .
𝑛 𝑡=𝑠+􏷠
Sabendo que √𝑛(𝑏−𝛽) converge em distribuição para um vector aleatório com distribui-
ção normal 𝑘-dimensional, em que condições as terceira e segunda parcelas do segundo
membro daquela igualdade convergem em probabilidade para 0?
Distribuições limite de QBP e QLP 969
Como
1 𝑛
plim(𝑏) = 𝛽 e plim 􏿶 􏾜 𝑥𝑇𝑡• 𝑥𝑡−𝑠,• 􏿹 = 𝐸(𝑥𝑇𝑡• 𝑥𝑡−𝑠,• ),
𝑛 𝑡=𝑠+􏷠
verifica-se imediatamente que o limite em probabilidade da terceira parcela é nulo.

Como
1 𝑛
plim 􏿶 􏾜 (𝑥𝑡• 𝑢𝑡−𝑠 + 𝑥𝑡−𝑠,• 𝑢𝑡 )􏿹 = 𝐸(𝑥𝑡• 𝑢𝑡−𝑠 ) + 𝐸(𝑥𝑡−𝑠,• 𝑢𝑡 ),
𝑛 𝑡=𝑠+􏷠
a segunda parcela só converge em probabilidade para 0 se os regressores são estrita-

mente exógenos, pois só neste caso se tem 𝐸(𝑥𝑡• 𝑢𝑡−𝑠 ) = 𝟎 e 𝐸(𝑥𝑡−𝑠,• 𝑢𝑡 ) = 𝟎.
Como, devido ao teorema 3.9,
𝑑
plim 􏿴√𝑛 𝛾̂ 𝑠 − √𝑛 𝛾̃ 𝑠 􏿷 = 0 e 􏷣
√𝑛 𝛾̃ 𝑠 → 𝑁(0, 𝜎 ),
também se tem
𝑑 􏷣
√𝑛 𝛾̂ 𝑠 → 𝑁(0, 𝜎 ),
devido à propriedade a) que relaciona a convergência em probabilidade com a conver-

gência em distribuição.
Notando que
𝛾̃ 𝑠 𝛾̂ 𝑠 1 1 1 1 1
− = 𝛾̃ 𝑠 􏿶 − 􏷡 􏿹 − 𝛾̂ 𝑠 􏿶 − 􏷡 􏿹 + 􏷡 (𝛾̃ 𝑠 − 𝛾̂ 𝑠 ),
𝛾̃ 􏷟 𝛾̂ 􏷟 𝛾̃ 􏷟 𝜎 𝛾̂ 􏷟 𝜎 𝜎
vem
𝛾̃ 𝑠 𝛾̂ 𝑠 1 1 1 1 1
√𝑛 𝜌̃ 𝑠 − √𝑛 𝜌̂ 𝑠 = √𝑛 􏿶 − 􏿹 = √𝑛 𝛾̃ 𝑠 􏿶 − 􏷡 􏿹 − √𝑛 𝛾̂ 𝑠 􏿶 − 􏷡 􏿹 + 􏷡 (√𝑛 𝛾̃ 𝑠 − √𝑛 𝛾̂ 𝑠 ).
̃𝛾􏷟 𝛾̂ 􏷟 ̃𝛾􏷟 𝜎 ̂𝛾􏷟 𝜎 𝜎
Como plim(𝛾̂ 􏷟 ) = plim(𝛾̃ 􏷟 ) = 𝜎􏷡 , e atendendo à propriedade c) que relaciona a conver-

gência em probabilidade com a convergência em distribuição, obtém-se
plim 􏿴√𝑛 𝜌̃ 𝑠 − √𝑛 𝜌̂ 𝑠 􏿷 = 0.
Nestas condições, conclui-se

𝑑
√𝑛 𝜌̂ 𝑠 → 𝑁(0, 1). (3D.3)
Deste modo, as estatísticas 𝑄BP e 𝑄LB , onde 𝜌̂ 𝑠 é calculado com os resíduos MQ, conti-
nuam a ter distribuições limite do qui-quadrado.

Demonstração. Retomando a relação estabelecida entre √𝑛 𝛾̂ 𝑠 e √𝑛 𝛾̃ 𝑠 , obtém-se
1 𝑛
√𝑛 𝛾̂ 𝑠 = √𝑛 𝛾̃ 𝑠 − 􏿶 􏾜𝑡=𝑠+􏷠 (𝑥𝑡• 𝑢𝑡−𝑠 + 𝑥𝑡−𝑠,• 𝑢𝑡 )􏿹 √𝑛 (𝑏 − 𝛽)
𝑛
1 𝑛
+ 􏿰(𝑏 − 𝛽)𝑇 􏿶 􏾜 𝑥𝑇𝑡• 𝑥𝑡−𝑠,• 􏿹􏿳 √𝑛 (𝑏 − 𝛽)
𝑛 𝑡=𝑠+􏷠
𝑎 1 𝑛
∼ √𝑛 𝛾̃ 𝑠 − 􏿶 􏾜 (𝑥𝑡• 𝑢𝑡−𝑠 + 𝑥𝑡−𝑠,• 𝑢𝑡 )􏿹 √𝑛 (𝑏 − 𝛽) ,
𝑛 𝑡=𝑠+􏷠
uma vez que a terceira parcela tende em probabilidade para zero.

Como
1 𝑛
plim 􏿶 􏾜 (𝑥𝑡• 𝑢𝑡−𝑠 + 𝑥𝑡−𝑠,• 𝑢𝑡 )􏿹 = 𝐸(𝑥𝑡• 𝑢𝑡−𝑠 + 𝑥𝑡−𝑠,• 𝑢𝑡 ),
𝑛 𝑡=𝑠+􏷠
vem
𝑎
√𝑛 𝛾̂ 𝑠 ∼ √𝑛 𝛾̃ 𝑠 − 𝐸(𝑥𝑡• 𝑢𝑡−𝑠 + 𝑥𝑡−𝑠,• 𝑢𝑡 )√𝑛 (𝑏 − 𝛽).
A condição 1) [do teorema 3.10] permite concluir que 𝐸(𝑥𝑡−𝑠,• 𝑢𝑡 ) = 0. Então,
𝑎
√𝑛 𝛾̂ 𝑠 ∼ √𝑛 𝛾̃ 𝑠 − 𝐸(𝑥𝑡• 𝑢𝑡−𝑠 )√𝑛 (𝑏 − 𝛽).
Como 𝑏 − 𝛽 = 𝑆−􏷠
𝑥𝑥 𝑔•𝑛 , e atendendo a (3.78), tem-se
𝑎 1 𝑛 −􏷠
√𝑛 𝛾̂ 𝑠 ∼ √𝑛 􏿶 􏾜𝑡=𝑠+􏷠 𝑢𝑡 𝑢𝑡−𝑠 − 𝐸(𝑥𝑡• 𝑢𝑡−𝑠 ) 𝑆𝑥𝑥 𝑔•𝑛 􏿹 .
𝑛
Como, para cada 𝑠,
1 𝑛 1 𝑛 1 𝑠 𝑝
􏾜 𝑢𝑡 𝑢𝑡−𝑠 − 􏾜 𝑢𝑡 𝑢𝑡−𝑠 = 􏾜 𝑢𝑡 𝑢𝑡−𝑠 → 0,
𝑛 𝑡=􏷠 𝑛 𝑡=𝑠+􏷠 𝑛 𝑡=􏷠
e plim 𝑆𝑥𝑥 = 𝑄𝑥𝑥 , obtém-se
𝑎 1 𝑛 −􏷠
√𝑛 𝛾̂ 𝑠 ∼ √𝑛 􏿶 􏾜𝑡=􏷠 𝑢𝑡 𝑢𝑡−𝑠 − 𝐸(𝑥𝑡• 𝑢𝑡−𝑠 ) 𝑄𝑥𝑥 𝑔•𝑛 􏿹 .
𝑛
Fazendo
⎡ 𝑢𝑡 𝑢𝑡−𝑠 ⎤ ⎡ 𝑢𝑡 𝑢𝑡−𝑠 ⎤
𝑐𝑠• = 􏿯 1 −𝐸(𝑥 𝑢
𝑡• 𝑡−𝑠 ) 𝑄 −􏷠
𝑥𝑥 􏿲, ℎ•𝑠𝑡 =
⎢ ⎥=⎢ ⎥ e ℎ•𝑠 = 1 􏾜𝑛 ℎ•𝑠𝑡 ,
⎢ 𝑔𝑇 ⎥ ⎢ 𝑥𝑇 𝑢 ⎥ 𝑛 𝑡=􏷠
⎣ 𝑡• ⎦ ⎣ 𝑡• 𝑡 ⎦
Demonstração do teorema 3.10 971
vem
𝑎
√𝑛 𝛾̂ 𝑠 ∼ 𝑐𝑠• √𝑛 ℎ•𝑠 .
Note-se que 𝑐𝑠• é um vector 1 × (𝑘 + 1), e ℎ•𝑠 é um vector (𝑘 + 1) × 1.

Considerando
⎡ 𝛾̂ 􏷠 ⎤
⎢ ⎥
𝛾̂ 􏷡
𝛾̂ = ⎢ ⎥,
⎢ ⋮ ⎥
⎢ 𝛾̂ ⎥
⎣ 𝑝 ⎦
provou-se que
𝑎
√𝑛 𝛾̂ ∼ 𝐶√𝑛 ℎ,
onde:
⎡ 𝑐􏷠• 𝟎 ⋯ 𝟎 ⎤
⎢ ⎥
⎢ 𝟎 𝑐􏷡• ⋯ 𝟎 ⎥
𝐶=⎢ ⎥ é uma matriz 𝑝 × 𝑝(𝑘 + 1);
⋮ ⋮ ⋮
⎢ ⎥
⎢ 𝟎 𝟎 ⋯ 𝑐𝑝• ⎥
⎣ ⎦
⎡ ℎ•􏷠𝑡 ⎤
⎢ ⎥
1 𝑛 ℎ•􏷡𝑡
ℎ = 􏾜 ℎ•𝑡 onde ℎ•𝑡 = ⎢ ⎥ é um vector 𝑝(𝑘 + 1) × 1
𝑛 𝑡=􏷠 ⎢ ⋮ ⎥
⎢ ℎ ⎥
⎣ •𝑝𝑡 ⎦
Prova-se a seguir que {ℎ•𝑡 } é uma diferença-martingala, ou seja,
𝐸(ℎ•𝑠𝑡 | ℎ•,𝑡−􏷠 , ℎ•,𝑡−􏷡 , …) = 𝟎 (𝑠 = 1, 2, … , 𝑝).
Como {ℎ•,𝑡−􏷠 , ℎ•,𝑡−􏷡 , …} tem menos informação do que {𝑥𝑡• , 𝑥𝑡−􏷠,• , … , 𝑢𝑡−􏷠 , 𝑢𝑡−􏷡 , …}, tem--se
𝐸(ℎ•𝑠𝑡 | ℎ•,𝑡−􏷠 , ℎ•,𝑡−􏷡 , …) = 𝐸{𝐸(ℎ•𝑠𝑡 | 𝑥𝑡• , 𝑥𝑡−􏷠,• , … , 𝑢𝑡−􏷠 , 𝑢𝑡−􏷡 , …)|ℎ•,𝑡−􏷠 , ℎ•,𝑡−􏷡 , …} = 𝟎,
uma vez que, recorrendo à condição 1), 𝐸(ℎ•𝑠𝑡 | 𝑥𝑡• , 𝑥𝑡−􏷠,• , … , 𝑢𝑡−􏷠 , 𝑢𝑡−􏷡 , …) = 𝟎.
Como {ℎ•𝑡 } é estacionário e ergódico, o teorema do limite central de Billingsley per-
mite concluir que
𝑑
√𝑛 ℎ → 𝑁
{𝑝(𝑘+􏷠)} 􏿺𝟎,
𝐸(ℎ•𝑡 ℎ𝑇•𝑡 )􏿽 .
Para calcular 𝐸(ℎ•𝑡 ℎ𝑇•𝑡 ) começa por notar-se que
⎡ ℎ
•􏷠𝑡
⎤ ⎡ ℎ ℎ𝑇 𝑇
•􏷠𝑡 •􏷠𝑡 ℎ•􏷠𝑡 ℎ•􏷡𝑡 ⋯ ℎ•􏷠𝑡 ℎ𝑇•𝑝𝑡 ⎤
⎢ ⎥ ⎢ ⎥
⎢ ℎ•􏷡𝑡 ⎥ 𝑇
⎢ ℎ•􏷡𝑡 ℎ𝑇•􏷠𝑡 ℎ•􏷡𝑡 ℎ𝑇•􏷡𝑡 ⋯ ℎ•􏷡𝑡 ℎ𝑇•𝑝𝑡 ⎥
ℎ•𝑡 ℎ𝑇•𝑡 = ⎢ ⎥ 􏿮 ℎ•􏷠𝑡 ℎ𝑇•􏷡𝑡 ⋯ ℎ𝑇•𝑝𝑡 􏿱=⎢ ⎥.
⋮ ⋮ ⋮ ⋮
⎢ ⎥ ⎢ ⎥
⎢ ℎ•𝑝𝑡 ⎥ ⎢ ℎ•𝑝𝑡 ℎ𝑇•􏷠𝑡 ℎ•𝑝𝑡 ℎ𝑇•􏷡𝑡 ⋯ ℎ•𝑝𝑡 ℎ𝑇•𝑝𝑡 ⎥
⎣ ⎦ ⎣ ⎦
Para o bloco (𝑠, 𝑟), tem-se
⎛⎡ 𝑢𝑡 𝑢𝑡−𝑠 ⎤ ⎞ ⎡ 𝐸(𝑢􏷡𝑡 𝑢𝑡−𝑠 𝑢𝑡−𝑟 ) 𝐸(𝑥𝑡• 𝑢􏷡𝑡 𝑢𝑡−𝑠 ) ⎤

𝐸(ℎ•𝑠𝑡 ℎ𝑇•𝑟𝑡 ) = 𝐸 ⎜⎢ 𝑢 𝑢 𝑥 𝑢 􏿲⎟ = ⎢
𝑇 ⎥􏿯 𝑡 𝑡−𝑟 𝑡• 𝑡
𝑇 􏷡 􏷡 𝑇 ⎥.
⎝⎣ 𝑥𝑡• 𝑢𝑡 ⎦ ⎠ ⎣ 𝐸(𝑥𝑡• 𝑢𝑡 𝑢𝑡−𝑟 ) 𝐸(𝑢𝑡 𝑥𝑡• 𝑥𝑡• ) ⎦
Então,
𝐸(𝑢􏷡𝑡 𝑢𝑡−𝑠 𝑢𝑡−𝑟 ) = 𝐸{𝐸(𝑢􏷡𝑡 𝑢𝑡−𝑠 𝑢𝑡−𝑟 |𝑢𝑡−􏷠 , 𝑢𝑡−􏷡 , … , 𝑥𝑡• , 𝑥𝑡−􏷠,• , …)}
= 𝐸{𝑢𝑡−𝑠 𝑢𝑡−𝑟 𝐸(𝑢􏷡𝑡 |𝑢𝑡−􏷠 , 𝑢𝑡−􏷡 , … , 𝑥𝑡• , 𝑥𝑡−􏷠,• , …)}
⎧ 𝜎􏷣 (𝑠 = 𝑟)
⎪
= 𝜎􏷡 𝐸(𝑢𝑡−𝑠 𝑢𝑡−𝑟 ) = ⎨
⎪ 0 (𝑠 ≠ 𝑟) ,
⎩
uma vez que 𝐸(𝑢𝑡 | 𝑢𝑡−􏷠 , 𝑢𝑡−􏷡 , … , 𝑥𝑡• , 𝑥𝑡−􏷠,• , …) = 𝜎􏷡 , devido à condição 2) [do teorema
􏷡
3.10]. Do mesmo modo:
𝐸(𝑥𝑡• 𝑢􏷡𝑡 𝑢𝑡−𝑠 ) = 𝜎􏷡 𝐸(𝑥𝑡• 𝑢𝑡−𝑠 );
𝐸(𝑥𝑇𝑡• 𝑢􏷡𝑡 𝑢𝑡−𝑟 ) = 𝜎􏷡 𝐸(𝑥𝑇𝑡• 𝑢𝑡−𝑟 );
𝐸(𝑢􏷡𝑡 𝑥𝑇𝑡• 𝑥𝑡• ) = 𝜎􏷡 𝐸(𝑥𝑇𝑡• 𝑥𝑡• ) = 𝜎􏷡 𝑄𝑥𝑥 .
Então,
⎡ 𝜎􏷣 𝛿𝑠𝑟 𝜎􏷡 𝐸(𝑥𝑡• 𝑢𝑡−𝑠 ) ⎤
𝐸(ℎ•𝑠𝑡 ℎ𝑇•𝑟𝑡 ) =⎢ ⎥,
􏷡 𝑇
⎣ 𝜎 𝐸(𝑥𝑡• 𝑢𝑡−𝑟 ) 𝜎􏷡 𝑄𝑥𝑥 ⎦
onde 𝛿𝑠𝑟 é o delta de Kronecker,
⎧ 1 (𝑠 = 𝑟)
⎪
𝛿𝑠𝑟 = ⎨
⎪ 0 (𝑠 ≠ 𝑟) .
⎩
Como
𝑎 𝑑
√𝑛 𝛾̂ ∼ 𝐶√𝑛 ℎ e √𝑛 ℎ → 𝑁
{𝑝(𝑘+􏷠)} 􏿺𝟎,
𝐸(ℎ•𝑡 ℎ𝑇•𝑡 )􏿽 ,
vem
𝑑
(𝑝) 𝑇 𝑇
√𝑛 𝛾̂ → 𝑁 􏿺𝟎, 𝐶 𝐸(ℎ•𝑡 ℎ•𝑡 ) 𝐶 􏿽 ,
onde Cov𝑎 (𝛾)̂ = 𝐶 𝐸(ℎ•𝑡 ℎ𝑇•𝑡 ) 𝐶𝑇 . O elemento (𝑠, 𝑟) desta matriz é dado por
⎡ 𝜎􏷣 𝛿𝑠𝑟 𝜎􏷡 𝐸(𝑥𝑡• 𝑢𝑡−𝑠 ) ⎤ ⎡ 1 ⎤

𝑐𝑠• 𝐸(ℎ•𝑠𝑡 ℎ𝑇•𝑟𝑡 ) 𝑐𝑇𝑟• = 􏿮 1 −𝐸(𝑥𝑡• 𝑢𝑡−𝑠 ) 𝑄−􏷠 􏿱 ⎢ ⎥
𝑥𝑥 ⎢ 􏷡 𝑇 ⎥
⎣ 𝜎 𝐸(𝑥𝑡• 𝑢𝑡−𝑟 ) 𝜎􏷡 𝑄𝑥𝑥 ⎦ ⎢ −𝑄−􏷠 𝑇 ⎥
⎣ 𝑥𝑥 𝐸(𝑥𝑡• 𝑢𝑡−𝑟 ) ⎦
𝑇
= 𝜎􏷣 𝛿𝑠𝑟 − 𝜎􏷡 𝐸(𝑥𝑡• 𝑢𝑡−𝑠 ) 𝑄−􏷠
𝑥𝑥 𝐸(𝑥𝑡• 𝑢𝑡−𝑟 )
𝑇
𝐸(𝑥𝑡• 𝑢𝑡−𝑠 ) 𝑄−􏷠
𝑥𝑥 𝐸(𝑥𝑡• 𝑢𝑡−𝑟 )
= 𝜎􏷣 􏿶𝛿𝑠𝑟 − 􏷣
􏿹 = 𝜎 (𝛿𝑠𝑟 − 𝜙𝑠𝑟 ) .
𝜎􏷡
Então,
𝑑(𝑝) 􏷣
√𝑛 𝛾̂ → 𝑁 􏿺𝟎, 𝜎 (𝐼𝑝 − Φ)􏿽 .
Como
𝑎 √𝑛 𝛾̂
√𝑛 𝜌̂ ∼ ,
𝜎􏷡
resulta que √𝑛 𝜌̂ e √𝑛 𝛾/𝜎
̂ 􏷡 têm a mesma distribuição limite. Então,
𝑑
(𝑝)
√𝑛 𝜌̂ → 𝑁 􏿺𝟎, 𝐼𝑝 − Φ􏿽 .

Demonstração. Considere-se a regressão auxiliar de 𝑢̂ 𝑡 sobre 𝑥𝑡• , 𝑢̂ 𝑡−􏷠 , 𝑢̂ 𝑡−􏷡 , … , 𝑢̂ 𝑡−𝑝 ,
que permite obter a estatística 𝑝𝐹 , supondo que se utilizam as 𝑛 observações.
Seja
⎡ 0 0 0 ⋯ 0 ⎤ ⎡ 𝑢̂ 􏷠 ⎤
⎢ 𝑢̂ 0 0 ⋯ 0 ⎥ ⎢ 𝑢̂ ⎥
􏷠 􏷡
⎢ ⎥ ⎢ ⎥
⎢ 𝑢̂ 􏷡 𝑢̂ 􏷠 0 ⋯ 0 ⎥ ⎢ 𝑢̂ 􏷢 ⎥
⎢ 𝑢̂ 𝑢̂ 􏷡 𝑢̂ 􏷠 ⋯ 0 ⎥ ⎢ 𝑢̂ ⎥
􏷢 􏷣
⎢ ⎥ ⎢ ⎥
𝐸=⎢ ⋮ ⋮ ⋮ ̂
⋮ ⎥, 𝑈 = ⎢ ⋮ ⎥,
⎢ 𝑢̂ 𝑝−􏷠 𝑢̂ 𝑝−􏷡 𝑢̂ 𝑝−􏷢 ⋯ 0 ⎥ ⎢ 𝑢̂ 𝑝 ⎥
⎢ ⎥ ⎢ ⎥
⎢ 𝑢̂ 𝑝 𝑢̂ 𝑝−􏷠 𝑢̂ 𝑝−􏷡 ⋯ 𝑢̂ 􏷠 ⎥ ⎢ 𝑢̂ 𝑝+􏷠 ⎥
⎢ ⋮ ⋮ ⋮ ⋮ ⎥ ⎢ ⋮ ⎥
⎢ ⎥ ⎢ ⎥
⎣ 𝑢̂ 𝑛−􏷠 𝑢̂ 𝑛−􏷡 𝑢̂ 𝑛−􏷢 ⋯ 𝑢̂ 𝑛−𝑝 ⎦ ⎣ 𝑢̂ 𝑛 ⎦
onde a matriz 𝐸 é de tipo 𝑛 × 𝑝.
Notando que 𝑊 = 􏿮 𝑋 𝐸 􏿱 é a matriz dos regressores da regressão auxiliar, consi-

dere-se
1 𝑇 ⎡ (1/𝑛)𝑋 𝑇 𝑋 (1/𝑛)𝑋 𝑇 𝐸 ⎤ ⎡ 𝑆􏷠􏷠 􏷠􏷡

𝑤𝑤 𝑆𝑤𝑤 ⎤
𝑆𝑤𝑤 = 𝑊 𝑊=⎢ ⎥ e 𝑆−􏷠 = ⎢ 􏷡􏷠 .
𝑛 𝑇 𝑤𝑤 􏷡􏷡 ⎥
⎣ (1/𝑛)𝐸 𝑋 (1/𝑛)𝐸𝑇 𝐸 ⎦ ⎣ 𝑆𝑤𝑤 𝑆𝑤𝑤 ⎦
a) Seja 𝛼 o vector (𝑘 + 𝑝) × 1 dos coeficientes da regressão auxiliar. Tem-se
⎡ (1/𝑛)𝑋 𝑇 𝑈̂ ⎤
𝛼̂ = 𝑆−􏷠
𝑤𝑤 ⎢ ⎥.
⎣ (1/𝑛)𝐸 𝑈̂ ⎦
𝑇
Como 𝑋 𝑇 𝑈̂ = 𝟎, e o elemento de ordem 𝑠 de (1/𝑛)𝐸𝑇 𝑈̂ é
1 1 𝑛
(𝑢̂ 𝑠+􏷠 𝑢̂ 􏷠 + ⋯ + 𝑢̂ 𝑛 𝑢̂ 𝑛−𝑠 ) = 􏾜 𝑢̂ 𝑡 𝑢̂ 𝑡−𝑠 = 𝛾̂ 𝑠 ,
𝑛 𝑛 𝑡=𝑠+􏷠
obtém-se
⎡ 𝟎 ⎤
𝛼̂ = 𝑆−􏷠
𝑤𝑤 ⎢ ⎥.
⎣ 𝛾̂ ⎦
b) Vai provar-se que

𝑝 ⎡ 𝑄𝑥𝑥 𝐻 ⎤
𝑆𝑤𝑤 → 𝑄𝑤𝑤 = ⎢ ⎥,
𝑇
⎣ 𝐻 𝜎􏷡 𝐼𝑝 ⎦
onde
𝐻 = 􏿮 𝐸(𝑥𝑇𝑡• 𝑢𝑡−􏷠 ) ⋯ 𝐸(𝑥𝑇𝑡• 𝑢𝑡−𝑝 ) 􏿱
é uma matriz 𝑘 × 𝑝.
A coluna 𝑠 de (1/𝑛)𝑋 𝑇 𝐸 é
1 𝑛 1 𝑛
􏾜 𝑥𝑇𝑡• 𝑢̂ 𝑡−𝑠 = 􏾜 𝑥𝑇𝑡• (𝑦𝑡−𝑠 − 𝑥𝑡−𝑠,• 𝑏 + 𝑥𝑡−𝑠,• 𝛽 − 𝑥𝑡−𝑠,• 𝛽)
1 𝑛
= 􏾜 𝑥𝑇𝑡• {𝑢𝑡−𝑠 − 𝑥𝑡−𝑠,• (𝑏 − 𝛽)}
𝑛 𝑡=𝑠+􏷠
1 𝑛 1 𝑛
= 􏾜 𝑥𝑇𝑡• 𝑢𝑡−𝑠 − 􏿶 􏾜 𝑥𝑇𝑡• 𝑥𝑡−𝑠,• 􏿹 (𝑏 − 𝛽) .
Como o limite em probabilidade da segunda parcela é nulo, tem-se
1 𝑛 1 𝑛
plim 􏿶 􏾜 𝑥𝑇𝑡• 𝑢̂ 𝑡−𝑠 􏿹 = plim 􏿶 􏾜 𝑥𝑇𝑡• 𝑢𝑡−𝑠 􏿹 = 𝐸(𝑥𝑇𝑡• 𝑢𝑡−𝑠 ).
O elemento genérico, (𝑟, 𝑠), de (1/𝑛)𝐸𝑇 𝐸 (𝑟 ≥ 𝑠) é

1 𝑛 1 𝑛
􏾜 𝑢̂ 𝑡 𝑢̂ 𝑡−(𝑟−𝑠) = 􏾜 {𝑢𝑡 − 𝑥𝑡• (𝑏 − 𝛽)}𝑇 {𝑢𝑡−(𝑟−𝑠) − 𝑥𝑡−(𝑟−𝑠),• (𝑏 − 𝛽)}
𝑛 𝑡=𝑟−𝑠+􏷠 𝑛 𝑡=𝑟−𝑠+􏷠
1 𝑛
= 􏾜 𝑢𝑡 𝑢𝑡−(𝑟−𝑠)
𝑛 𝑡=𝑟−𝑠+􏷠
1 𝑛
− 􏾜 (𝑥𝑡• 𝑢𝑡−(𝑟−𝑠) + 𝑥𝑡−(𝑟−𝑠),• 𝑢𝑡 )(𝑏 − 𝛽)
1 𝑛
+ (𝑏 − 𝛽)𝑇 􏿶 􏾜 𝑥𝑇𝑡• 𝑥𝑡−(𝑟−𝑠),• 􏿹 (𝑏 − 𝛽) .
Como os limites em probabilidade das segunda e terceira parcelas são nulos, vem
1 𝑛 1 𝑛 𝜎􏷡 (𝑟 = 𝑠)
plim 􏿶 􏾜 𝑢̂ 𝑡 𝑢̂ 𝑡−(𝑟−𝑠) 􏿹 = plim 􏿶 􏾜 𝑢𝑡 𝑢𝑡−(𝑟−𝑠) 􏿹 = 𝛾𝑟−𝑠 = 􏿼 .
𝑛 𝑡=𝑟−𝑠+􏷠 𝑛 𝑡=𝑟−𝑠+􏷠 0 (𝑟 ≠ 𝑠)
c) Vai demonstrar-se que plim(𝛼)̂ = 𝟎.

Com efeito, como
1 𝑛 1 𝑛
𝛾̂ 𝑠 = 􏾜 𝑢̂ 𝑡 𝑢̂ 𝑡−𝑠 = 􏾜 {𝑢𝑡 − 𝑥𝑡• (𝑏 − 𝛽)}𝑇 {𝑢𝑡−𝑠 − 𝑥𝑡−𝑠,• (𝑏 − 𝛽)}
1 𝑛
= 􏾜 𝑢𝑡 𝑢𝑡−𝑠
𝑛 𝑡=𝑠+􏷠
,
1 𝑛
− 􏾜 (𝑥𝑡• 𝑢𝑡−𝑠 + 𝑥𝑡−𝑠,• 𝑢𝑡 )(𝑏 − 𝛽)
𝑛 𝑡=𝑠+􏷠
1 𝑛
+ (𝑏 − 𝛽)𝑇 􏿶 􏾜 𝑥𝑇𝑡• 𝑥𝑡−𝑠,• 􏿹 (𝑏 − 𝛽) ,
𝑛 𝑡=𝑠+􏷠
e atendendo a que os limites em probabilidade das segunda e terceira parcelas são

nulos, conclui-se que
1 𝑛
plim(𝛾̂ 𝑠 ) = plim 􏿶 􏾜 𝑢𝑡 𝑢𝑡−𝑠 􏿹 = 𝛾𝑠 = 0.
𝑛 𝑡=𝑠+􏷠
Como plim(𝑆𝑤𝑤 ) = 𝑄𝑤𝑤 , vem finalmente que
𝟎
plim(𝛼)̂ = plim 􏿶𝑆−􏷠
𝑤𝑤 􏿰 􏿳􏿹 = 𝟎.
𝛾̂
d) Vai provar-se que

SQR
plim 􏿶 􏷡
􏿹=𝜎 ,
𝑛−𝑘−𝑝
onde SQR é a soma dos quadrados dos resíduos da regressão auxiliar, 𝜎􏷡 = 𝐸(𝑢􏷡𝑡 )
e 𝑢𝑡 é a variável residual da regressão original.
Notando que
𝑇
􏿴 𝑈̂ − 􏿮 𝑋 𝐸 􏿱 𝛼􏿷
̂ 􏿮 𝑋 𝐸 􏿱=𝟎 e (1/𝑛)𝐸𝑇 𝑈̂ = 𝛾,̂
tem-se
SQR 1 𝑇 1 𝑇
= 􏿴 𝑈̂ − 􏿮 𝑋 ̂ 􏿴 𝑈̂ − 􏿮 𝑋
𝐸 􏿱 𝛼􏿷 𝐸 􏿱 𝛼􏿷
̂ = 􏿴 𝑈̂ − 􏿮 𝑋 ̂ 𝑈̂
𝐸 􏿱 𝛼􏿷
𝑛 𝑛 𝑛
1 𝑇 1 𝑇 1 𝑇 ⎡ (1/𝑛)𝑋 𝑇 𝑈̂ ⎤
= 𝑈̂ 𝑈̂ − 𝛼̂ 𝑇 􏿮 𝑋 𝐸 􏿱 𝑈̂ = 𝑈̂ 𝑈̂ − 𝛼̂ 𝑇 ⎢ ⎥
𝑛 𝑛 𝑛 ⎣ (1/𝑛)𝐸 𝑈̂ ⎦
𝑇
1 𝑇 𝟎
= 𝑈̂ 𝑈̂ − 𝛼̂ 𝑇 􏿰 􏿳.
𝑛 𝛾̂
Sabe-se que plim(𝛼)̂ = 𝟎, plim(𝛾)̂ = 𝟎 e plim{ (1/𝑛) 𝑈̂ 𝑇 𝑈}

̂ = 𝜎􏷡 . Então,
SQR SQR
plim 􏿶 􏿹 = plim 􏿶
􏷡
􏿹=𝜎 .
𝑛 𝑛−𝑘−𝑝
e) Demonstra-se a seguir que
𝑛𝛾̂ 𝑇 𝑆􏷡􏷡
𝑤𝑤 𝛾̂
𝑝𝐹 = .
SQR/(𝑛 − 𝑘 − 𝑝)
Na regressão auxiliar, considere-se o rácio-𝐹 correspondente ao teste de nulidade

conjunta dos coeficientes de 𝑢̂ 𝑡−􏷠 , 𝑢̂ 𝑡−􏷡 , … , 𝑢̂ 𝑡−𝑝 . As restrições respectivas podem
ser apresentadas na forma 𝑅𝛼 = 𝟎, onde 𝑅 = 􏿮 𝑂 𝐼𝑝 􏿱 e 𝑂 é a matriz nula 𝑝 × 𝑘.
O rácio-𝐹 é dado por
(𝑅𝛼)̂ 𝑇 {𝑅(𝑊 𝑇 𝑊)−􏷠 𝑅𝑇 }−􏷠 (𝑅𝛼)/𝑝

̂
𝐹= .
SQR/(𝑛 − 𝑘 − 𝑝)
Como
𝟎 1 1 􏷡􏷡
𝑅𝛼̂ = 􏿮 𝑂 𝐼𝑝 􏿱 𝑆−􏷠
𝑤𝑤 􏿰
􏷡􏷡
􏿳 = 𝑆𝑤𝑤 𝛾̂ e 𝑅(𝑊 𝑇 𝑊)−􏷠 𝑅𝑇 = 𝑅 𝑆−􏷠 𝑇
𝑤𝑤 𝑅 = 𝑆 ,
𝛾̂ 𝑛 𝑛 𝑤𝑤
obtém-se
(𝑆􏷡􏷡 ̂ 𝑇 {(1/𝑛)𝑆􏷡􏷡
𝑤𝑤 𝛾)
−􏷠 􏷡􏷡 ̂
𝑤𝑤 } (𝑆𝑤𝑤 𝛾)/𝑝 𝑛𝛾̂ 𝑇 𝑆􏷡􏷡 ̂
𝑤𝑤 𝛾/𝑝
𝐹= = .
SQR/(𝑛 − 𝑘 − 𝑝) SQR/(𝑛 − 𝑘 − 𝑝)
f) Utilizando a técnica de inversão de matrizes por blocos, obtém-se

−􏷠
1 1 1 𝑇
𝑆􏷡􏷡
𝑤𝑤 = 􏿰 𝐸𝑇 𝐸 − 􏿶 𝐸𝑇 𝑋 􏿹 𝑆−􏷠
𝑥𝑥 􏿶 𝑋 𝐸􏿹􏿳 .
𝑛 𝑛 𝑛
g) Finalmente vai demonstrar-se que 𝑄′BP e 𝑝𝐹 são assintoticamente equivalentes,
𝑝
(𝑄′BP − 𝑝𝐹) → 0.
Para isso, vai provar-se que 𝑄′BP e 𝑝𝐹 são assintoticamente equivalentes a
𝑛 𝛾̂ 𝑇 (𝐼𝑝 − Φ)−􏷠 𝛾̂
.
𝜎􏷣
Notando que
√𝑛 ̂ 𝑝 𝑝
√𝑛 𝜌̂ − 𝛾→𝟎 e Φ̂ → Φ,
𝜎􏷡
tem-se
′
𝑛 𝛾̂ 𝑇 (𝐼𝑝 − Φ)−􏷠 𝛾̂ 𝑝
􏿶𝑄BP − 􏿹 → 0.
𝜎􏷣
Comparando (3.83) com a linha genérica de (1/𝑛)𝐸𝑇 𝑋 , facilmente se verifica que
1 1 𝑇
𝑠􏷡 Φ̂ = 􏿶 𝐸𝑇 𝑋 􏿹 𝑆−􏷠
𝑥𝑥 􏿶 𝑋 𝐸􏿹 .
𝑛 𝑛
Então,
̂ −􏷠 𝛾̂
𝑛𝛾̂ 𝑇 {(1/𝑛) 𝐸𝑇 𝐸 − 𝑠􏷡 Φ}
𝑝𝐹 = .
SQR/(𝑛 − 𝑘 + 𝑝)
Como
𝑝 SQR 𝑝 1 𝑝 𝑝
𝑠􏷡 → 𝜎 􏷡 , → 𝜎􏷡 , 𝐸𝑇 𝐸 → 𝜎􏷡 𝐼𝑝 e Φ̂ → Φ,
𝑛−𝑘−𝑝 𝑛
conclui-se que 𝑝𝐹 é assintoticamente equivalente a
𝑛 𝛾̂ 𝑇 (𝜎􏷡 𝐼𝑝 − 𝜎􏷡 Φ)−􏷠 𝛾̂ 𝑛 𝛾̂ 𝑇 (𝐼𝑝 − Φ)−􏷠 𝛾̂

= .
𝜎􏷡 𝜎􏷣
[3E]
O tempo como regressor
No MRL-RPD uma das hipóteses básicas é que o processo {(𝑦𝑡 , 𝑥𝑡• )} é estacionário. No
entanto, no modelo de regressão linear com tendência determinística esta hipótese
deixa de se verificar.
Seja
𝑦𝑡 = 𝛽􏷠 + 𝛽􏷡 𝑡 + 𝑢𝑡 , (3E.1)
onde {𝑢𝑡 } é um ruído branco independente com 𝐸(𝑢􏷡𝑡 ) = 𝜎􏷡 .
Neste caso,
𝛽
𝑥𝑡• = [ 1 𝑡 ] e 𝛽 = 􏿰 􏷠 􏿳 .
𝛽􏷡
Facilmente se conclui que {(𝑦𝑡 , 𝑥𝑡• )} não é estacionário, pois
𝐸(𝑥𝑡• ) = [ 1 𝑡 ] e 𝐸(𝑦𝑡 ) = 𝛽􏷠 + 𝛽􏷡 𝑡
variam com 𝑡. No entanto, Var(𝑦𝑡 ) = 𝜎􏷡 .

Em geral, diz-se que um processo é estacionário em tendência quando se pode
escrever como a soma de uma tendência determinística e de um processo estacionário.
Neste caso, {𝑦𝑡 } é estacionário em tendência porque é a soma de uma tendência linear,
𝛽􏷠 + 𝛽􏷡 𝑡, com um ruído branco independente.
Como
⎡ 1 1 ⎤
⎢ 1 2 ⎥
𝑋=⎢ ,
⋮ ⋮ ⎥
⎢ ⎥
⎣ 1 𝑛 ⎦
979
980 Anexo 3E O tempo como regressor
tem-se
𝑛 ⎡ 𝑛(𝑛 + 1) ⎤
⎡ 𝑛 􏾜 𝑡 ⎤ 𝑛
𝑛 𝑡=􏷠 ⎢ 2 ⎥
𝑇
𝑋 𝑋= 􏾜 𝑇
𝑥𝑡• 𝑥𝑡• = ⎢ ⎥=
𝑡=􏷠 𝑛 𝑛 ⎢ 𝑛(𝑛 + 1) 𝑛(𝑛 + 1)(2𝑛 + 1) ⎥,
⎢ 􏾜 𝑡 􏾜 𝑡􏷡 ⎥
⎣ 𝑡=􏷠 𝑡=􏷠 ⎦ ⎢ 2 6
⎥
⎣ ⎦
𝑛
⎡ 􏾜 𝑦𝑡 ⎤
𝑛 𝑡=􏷠
𝑋 𝑇 𝑌 = 􏾜 𝑥𝑇𝑡• 𝑦𝑡 = ⎢ ⎥,
𝑡=􏷠 ⎢ 􏾜𝑛 𝑡𝑦 ⎥
𝑡
⎣ 𝑡=􏷠 ⎦
⎡ 2(2𝑛 + 1) 6 ⎤
−􏷠 ⎢ 𝑛(𝑛 − 1) ⎥
𝑛 𝑛(1 − 𝑛)
(𝑋 𝑇 𝑋)−􏷠 = 􏿵􏾜 𝑥𝑇𝑡• 𝑥𝑡• 􏿸 =⎢ ⎥.
𝑡=􏷠 6 12
⎢ ⎥
⎣ 𝑛(1 − 𝑛) 𝑛(𝑛 + 1)(𝑛 − 1) ⎦
Então, o estimador MQ de 𝛽 é dado por
⎡ 2(2𝑛 + 1) 6 ⎤ 𝑛
⎡ 􏾜 𝑦𝑡 ⎤
𝑏􏷠 ⎢ 𝑛(𝑛 − 1) 𝑛(1 − 𝑛) ⎥ 𝑡=􏷠
𝑏=􏿰 􏿳=⎢ ⎢ ⎥,
𝑏􏷡 6 12 ⎥ 𝑛
⎢ 􏾜 𝑡𝑦 ⎥
⎢ ⎥ ⎣ 𝑡=􏷠
𝑡
⎦
⎣ 𝑛(1 − 𝑛) 𝑛(𝑛 + 1)(𝑛 − 1) ⎦
ou seja,
2(2𝑛 + 1) 𝑛 6 𝑛
𝑏􏷠 = 􏾜 𝑦𝑡 + 􏾜 𝑡𝑦𝑡 ,
𝑛(𝑛 − 1) 𝑡=􏷠 𝑛(1 − 𝑛) 𝑡=􏷠
6 𝑛 12 𝑛
𝑏􏷡 = 􏾜 𝑦𝑡 + 􏾜 𝑡𝑦𝑡 .
𝑛(1 − 𝑛) 𝑡=􏷠 𝑛(𝑛 + 1)(𝑛 − 1) 𝑡=􏷠
Os respectivos erros de amostragem são
2(2𝑛 + 1) 𝑛 6 𝑛
𝑏􏷠 − 𝛽􏷠 = 􏾜 𝑢𝑡 + 􏾜 𝑡 𝑢𝑡 ,
𝑛(𝑛 − 1) 𝑡=􏷠 𝑛(1 − 𝑛) 𝑡=􏷠
6 𝑛 12 𝑛
𝑏􏷡 − 𝛽􏷡 = 􏾜 𝑢𝑡 + 􏾜 𝑡 𝑢𝑡 ,
𝑛(1 − 𝑛) 𝑡=􏷠 𝑛(𝑛 + 1)(𝑛 − 1) 𝑡=􏷠
o que permite concluir, sem dificuldade, que estes estimadores são consistentes.
No entanto, não basta considerar √𝑛(𝑏 − 𝛽) para obter distribuições limite não dege-
neradas.
O tempo como regressor 981
Com efeito, a matriz
⎡ 𝑛+1 ⎤
1
1 𝑇 1 𝑛 𝑇
⎢ 2 ⎥
𝑆𝑥𝑥 = 𝑋 𝑋 = 􏾜 𝑥𝑡• 𝑥𝑡• = ⎢ ⎥
𝑛 𝑛 𝑡=􏷠 𝑛+1 (𝑛 + 1)(2𝑛 + 1)
⎢ ⎥
⎣ 2 6 ⎦
é divergente, e, portanto, não converge (em probabilidade) para uma matriz quadrada
não singular. Nestas condições, não se pode obter um resultado semelhante a (3.38)
para basear a inferência estatística.
Analisem-se os elementos
𝑛 𝑛(𝑛 + 1) 𝑛􏷡 𝑛
􏾜 𝑡= = + ,
𝑡=􏷠 2 2 2
𝑛 𝑛(𝑛 + 1)(2𝑛 + 1) 𝑛􏷢 𝑛􏷡 𝑛
􏾜 𝑡􏷡 = = + + ,
𝑡=􏷠 6 3 2 6
da matriz 𝑋 𝑇 𝑋 . Como as parcelas dominantes são, respectivamente, 𝑛􏷡 /2 e 𝑛􏷢 /3, obtém-

-se
1 𝑛 1 1 1
􏷡
􏾜 𝑡= + → ,
𝑛 𝑡=􏷠 2 2𝑛 2
1 𝑛 1 1 1 1
􏷢
􏾜 𝑡􏷡 = + + 􏷡 → .
𝑛 𝑡=􏷠 3 2𝑛 6𝑛 3
Note-se que, em geral, a parcela dominante de
𝑛 𝑛𝑞+􏷠
􏾜 𝑡𝑞 é ,
𝑡=􏷠 𝑞+1
onde 𝑞 é um inteiro positivo, e que
1 𝑛 1
􏾜 𝑡𝑞 → .
𝑛𝑞+􏷠 𝑡=􏷠 𝑞+1
Facilmente se verifica que a matriz
⎡ 1 1 1 ⎤
+
1 𝑇 1 𝑛 ⎢ 𝑛 2 2𝑛 ⎥
􏷡
𝑋 𝑋 = 􏷡 􏾜 𝑥𝑇𝑡• 𝑥𝑡• = ⎢ ⎥
𝑛 𝑛 𝑡=􏷠 1 1 𝑛 1 1
⎢ + + + ⎥
⎣ 2 2𝑛 3 2 6𝑛 ⎦
ainda é divergente.
Como
⎡ 1 1 1 ⎤
⎢ + 􏷡 ⎥
1 𝑇 1 𝑛 𝑛􏷡 2𝑛 2𝑛 0 0
􏷢
𝑋 𝑋 = 􏷢 􏾜 𝑥𝑇𝑡• 𝑥𝑡• = ⎢ ⎥ → 􏿰 0 1/3 􏿳 ,
𝑛 𝑛 𝑡=􏷠 1 1 1 1 1
⎢ + 􏷡 + + 􏷡 ⎥
⎣ 2𝑛 2𝑛 3 2𝑛 6𝑛 ⎦
a matriz limite de (1/𝑛􏷢 )𝑋 𝑇 𝑋 não tem inversa (matriz singular).
Como se sabe, o facto de um certo estimador, 𝛽̂, ser consistente não dá qualquer
indicação sobre os resultados que se devem utilizar na inferência estatística, uma vez
que a distribuição limite do estimador é degenerada. Assim, é necessário dispor de uma
transformação do estimador, ℎ(𝛽)̂ , de tal modo que ℎ(𝛽)̂ tenha distribuição limite não
degenerada. Diz-se, então, que ℎ é uma transformação estabilizadora. Por exemplo,
na secção 3.4, provou-se que, no caso do MRL-RPD,
ℎ(𝑏) = √𝑛(𝑏 − 𝛽)
tem distribuição limite não degenerada [ver propriedade 3.2]. Nestas condições, diz-se
que 𝑏 é estimador consistente com taxa de convergência igual a √𝑛, ou que 𝑏 é estimador
√𝑛-consistente.
Como vai ver-se, no caso do modelo (3E.1) os estimadores 𝑏􏷠 e 𝑏􏷡 apresentam taxas
de convergência diferentes. Suponha-se que as transformações estabilizadoras de 𝑏􏷠 e
𝑏􏷡 — que conduzem a distribuições limite não degeneradas — são, respectivamente,
ℎ􏷠 (𝑏􏷠 ) = 𝑛𝛾􏷪 (𝑏􏷠 − 𝛽􏷠 ) e ℎ􏷡 (𝑏􏷡 ) = 𝑛𝛾􏷫 (𝑏􏷡 − 𝛽􏷡 ),
onde 𝑛𝛾􏷪 e 𝑛𝛾􏷫 são as respectivas taxas de convergência (no caso da propriedade 3.2,
tem-se 𝛾 = 1/2).
Fazendo
⎡ 𝑛𝛾􏷪 0 ⎤
Γ𝑛 = ⎢ ,
𝛾􏷫 ⎥
⎣ 0 𝑛 ⎦
vem
⎡ 𝑛𝛾􏷪 (𝑏􏷠 − 𝛽􏷠 ) ⎤ 𝑇 −􏷠 𝑇 −􏷠 𝑇 −􏷠 −􏷠 −􏷠 𝑇 −􏷠
Γ𝑛 (𝑏 − 𝛽) = ⎢ ⎥ = Γ𝑛 (𝑋 𝑋) 𝑋 𝑈 = (Γ𝑛 𝑋 𝑋 Γ𝑛 ) (Γ𝑛 𝑋 𝑈) = 𝑄𝑛 𝑉•𝑛 ,
𝛾􏷫
⎣ 𝑛 (𝑏􏷡 − 𝛽􏷡 ) ⎦
onde 𝑄𝑛 = Γ−􏷠𝑛 𝑋 𝑋 Γ𝑛 e 𝑉•𝑛 = Γ𝑛 𝑋 𝑈 . A escolha de 𝛾􏷠 e 𝛾􏷡 deve ser feita de forma a

𝑇 −􏷠 −􏷠 𝑇
verificar as condições
𝑝 𝑑
𝑄𝑛 → 𝑄 (não singular) e 𝑉•𝑛 → 𝑉 ∼ 𝑁 (􏷡) (𝟎, 𝜎􏷡 𝑄).
O cálculo da matriz 𝑄𝑛 permite obter

𝑛
⎡ 􏾜 𝑡 ⎤ 𝑛−𝛾􏷪
⎡ 𝑛−𝛾􏷪 0 ⎤ 𝑛 ⎡ 0 ⎤
𝑄𝑛 = ⎢ ⎢ 𝑡=􏷠 ⎥
⎥ 𝑛 𝑛 ⎢ ⎥
⎣ 0 𝑛−𝛾􏷫 ⎦ ⎢ 􏾜𝑡=􏷠 𝑡 􏾜𝑡=􏷠 𝑡
􏷡 ⎥ ⎣ 0 𝑛−𝛾􏷫 ⎦
⎣ ⎦
𝑛
⎡ 𝑛􏷠−􏷡𝛾􏷪 𝑛−𝛾􏷪 −𝛾􏷫 􏾜 𝑡 ⎤
=⎢ 𝑛 𝑛
𝑡=􏷠 ⎥,
⎢ 𝑛−𝛾􏷪 −𝛾􏷫 􏾜 𝑡 𝑛−􏷡𝛾􏷫 􏾜 𝑡􏷡 ⎥
⎣ 𝑡=􏷠 𝑡=􏷠 ⎦
ou
⎡ 𝑛(𝑛 + 1) ⎤
𝑛􏷠−􏷡𝛾􏷪
⎢ 2 𝑛𝛾􏷪 +𝛾􏷫 ⎥
𝑄𝑛 = ⎢ ⎥.
𝑛(𝑛 + 1) 𝑛(𝑛 + 1)(2𝑛 + 1)
⎢ ⎥
⎣ 2 𝑛𝛾􏷪 +𝛾􏷫 6 𝑛􏷡𝛾􏷫 ⎦
Facilmente se verifica que para 𝛾􏷠 = 1/2 e 𝛾􏷡 = 3/2, se tem
⎡ 𝑛+1 ⎤
1
⎢ 2𝑛 ⎥ 1 1/2
𝑄𝑛 = ⎢ ⎥ → 𝑄 = 􏿰 1/2 1/3 􏿳 .
𝑛+1 (𝑛 + 1)(2𝑛 + 1)
⎢ ⎥
⎣ 2𝑛 6𝑛􏷡 ⎦
Neste caso, obtém-se
⎡ 1 𝑛 ⎤
𝑛 􏾜 𝑢𝑡
⎡ 􏾜 𝑢𝑡 ⎤ ⎢ ⎥
𝑛−􏷠/􏷡 0 𝑡=􏷠 √𝑛 𝑡=􏷠
𝑉•𝑛 = 􏿰 􏿳 ⎢ ⎥=⎢ ⎥,
0 𝑛−􏷢/􏷡 𝑛
⎢ 􏾜 𝑡𝑢 ⎥ ⎢ 1 𝑛 𝑡 ⎥
⎣ 𝑡
⎦ ⎢ 􏾜 􏿵 𝑢𝑡 􏿸
𝑡=􏷠
𝑛 𝑡=􏷠 𝑛 ⎥
⎣ √ ⎦
podendo demonstrar-se que [Hamilton (1994), pp. 458–460]
𝑑
𝑉•𝑛 → 𝑁 (􏷡) (𝟎, 𝜎􏷡 𝑄),
desde que 𝐸(𝑢􏷣𝑡 ) < +∞. Nestas condições,
⎡ √𝑛(𝑏􏷠 − 𝛽􏷠 ) ⎤ 𝑑
Γ𝑛 (𝑏 − 𝛽) = ⎢ (􏷡) 􏷡 −􏷠
⎥ → 𝑁 (𝟎, 𝜎 𝑄 ), (3E.2)
􏷢/􏷡
⎣ 𝑛 (𝑏􏷡 − 𝛽􏷡 ) ⎦
onde
4 −6
𝑄−􏷠 = 􏿰 􏿳.
−6 12
Note-se também que
⎡ 2(2𝑛 + 1) −
6𝑛 ⎤
⎢ 𝑛−1 𝑛−1 ⎥
𝑄−􏷠
𝑛 =⎢ 􏷡 ⎥.
6𝑛 12𝑛
⎢ − ⎥
⎣ 𝑛−1 (𝑛 + 1)(𝑛 − 1) ⎦
O resultado (3E.2) mostra que 𝑏􏷠 é √𝑛-consistente (tal como no caso estacionário) e que
𝑏􏷡 é 𝑛􏷢/􏷡 -consistente. A velocidade de convergência de 𝑏􏷡 é maior do que a de 𝑏􏷠 , pelo
que se diz que 𝑏􏷡 é hiperconsistente.
De acordo com (3E.2), os estimadores MQ dos coeficientes de regressão do modelo
(3E.1) têm distribuição assintoticamente normal, desde que se utilizem as transforma-
ções estabilizadoras convenientes. Antes de apresentar alguns resultados para a infe-
rência estatística, vai provar-se que
plim(𝑠􏷡 ) = 𝜎􏷡 . (3E.3)
Com efeito, como
𝑢̂ 𝑡 = 𝑦𝑡 − 𝑥𝑡• 𝑏 = 𝑦𝑡 − 𝑥𝑡• 𝛽 − 𝑥𝑡• (𝑏 − 𝛽) = 𝑢𝑡 − 𝑥𝑡• (𝑏 − 𝛽),
vem
𝑢̂ 􏷡𝑡 = {𝑢𝑡 − 𝑥𝑡• (𝑏 − 𝛽)}𝑇 {𝑢𝑡 − 𝑥𝑡• (𝑏 − 𝛽)}
= 𝑢􏷡𝑡 − 2(𝑏 − 𝛽)𝑇 𝑥𝑇𝑡• 𝑢𝑡 + (𝑏 − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝑏 − 𝛽)
= 𝑢􏷡𝑡 − 2(𝑏 − 𝛽)𝑇 Γ𝑛 Γ−􏷠 𝑇 𝑇 −􏷠 𝑇 −􏷠
𝑛 𝑥𝑡• 𝑢𝑡 + (𝑏 − 𝛽) Γ𝑛 Γ𝑛 𝑥𝑡• 𝑥𝑡• Γ𝑛 Γ𝑛 (𝑏 − 𝛽) .
Donde
1 𝑛 1 𝑛 1 𝑛
􏾜 𝑢̂ 􏷡𝑡 = 􏾜 𝑢􏷡𝑡 − 2(𝑏 − 𝛽)𝑇 Γ𝑛 Γ−􏷠 𝑛 􏿶 􏾜 𝑥𝑇𝑡• 𝑢𝑡 􏿹
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
1 𝑛
+ (𝑏 − 𝛽)𝑇 Γ𝑛 Γ−􏷠
𝑛 􏿶 􏾜 𝑥𝑇𝑡• 𝑥𝑡• 􏿹 Γ−􏷠
𝑛 Γ𝑛 (𝑏 − 𝛽) ,
𝑛 𝑡=􏷠
ou
1 𝑛 1 𝑛 2 1
􏾜 𝑢̂ 􏷡𝑡 = 􏾜 𝑢􏷡𝑡 − (𝑏 − 𝛽)𝑇 Γ𝑛 𝑉•𝑛 + (𝑏 − 𝛽)𝑇 Γ𝑛 𝑄𝑛 Γ𝑛 (𝑏 − 𝛽)
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠 𝑛 𝑛
1 𝑛 1 𝑇 −􏷠
= 􏾜 𝑢􏷡𝑡 − 𝑉•𝑛 𝑄𝑛 𝑉•𝑛 ,
𝑛 𝑡=􏷠 𝑛
uma vez que Γ𝑛 (𝑏 − 𝛽) = 𝑄−􏷠
𝑛 𝑉•𝑛 .
Como
1 𝑇 −􏷠 𝑑
􏷡
𝑉•𝑛 𝑄𝑛 𝑉•𝑛 → 𝜒􏷡 (2),
𝜎
verifica-se que
1 𝑇 −􏷠
plim 􏿶 𝑉•𝑛 𝑄𝑛 𝑉•𝑛 􏿹 = 0,
𝑛
e, portanto,
1 𝑛 1 𝑛
plim 􏿶 􏾜 𝑢̂ 􏷡𝑡 􏿹 = plim 􏿶 􏾜 𝑢􏷡𝑡 􏿹 = 𝐸(𝑢􏷡𝑡 ) = 𝜎􏷡 .
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
Então,
1 𝑛 𝑛−𝑘 􏷡
plim 􏿶 􏾜 𝑢̂ 􏷡𝑡 􏿹 = plim 􏿶 𝑠 􏿹 = plim(𝑠􏷡 ) = 𝜎􏷡 .
𝑛 𝑡=􏷠 𝑛
Suponha-se que se pretende fazer o teste em que a hipótese nula é 𝐻􏷟 ∶ 𝛽􏷡 = 𝛽􏷟􏷡 . Seja o
rácio-𝑡
𝑏􏷡 − 𝛽􏷟􏷡 𝑛􏷢/􏷡 (𝑏􏷡 − 𝛽􏷟􏷡 )
𝑡􏷡 = = ,
𝑠√𝑚􏷡􏷡 𝑠√𝑛􏷢 𝑚􏷡􏷡
onde 𝑚􏷡􏷡 é o elemento (2,2) da matriz (𝑋 𝑇 𝑋)−􏷠 . Neste caso, tem-se
12
𝑚􏷡􏷡 = .
𝑛(𝑛 + 1)(𝑛 − 1)
Notando que
12 𝑛􏷡
𝑛􏷢 𝑚􏷡􏷡 = ,
(𝑛 + 1)(𝑛 − 1)
é o elemento (2,2) da matriz 𝑄−􏷠
𝑛 , tem-se imediatamente
𝑛􏷢/􏷡 (𝑏􏷡 − 𝛽􏷟􏷡 )

𝑡􏷡 = .
12 𝑛􏷡
𝑠
􏽱 (𝑛 + 1)(𝑛 − 1)
Como plim(𝑠􏷡 ) = 𝜎􏷡 e plim(𝑄𝑛 ) = 𝑄, obtém-se
𝑛􏷢/􏷡 (𝑏􏷡 − 𝛽􏷟􏷡 ) 𝑑

𝑡􏷡 = → 𝑁(0, 1). (3E.4)
12 𝑛􏷡
𝑠
􏽱 (𝑚 + 1)(𝑛 − 1)
Note-se que o elemento (2,2) de 𝑄−􏷠𝑛 tende em probabilidade para o correspondente
elemento da matriz 𝑄 (ou seja, 12).
−􏷠
O erro padrão de 𝑏􏷡 é, então, dado por
12
𝑠𝑏􏷫 = 𝑠 ,
𝑛(𝑚 + 1)(𝑛 − 1)
􏽱
ou seja, é igual ao produto do erro padrão da regressão pela raiz quadrada do quociente
entre o elemento (2,2) de 𝑄−􏷠𝑛 e𝑛 .
􏷢
Pode, então, escrever-se (3E.4) da seguinte maneira:
𝑏􏷡 − 𝛽􏷟􏷡 𝑑
𝑡􏷡 = → 𝑁(0, 1).
𝑠𝑏􏷫
O resultado (3E.4) podia ser apresentado de forma genérica, notando que
0 􏷢/􏷡 0
𝑛􏷢 𝑚􏷡􏷡 = 𝑛􏷢 􏿮 0 1 􏿱 (𝑋 𝑇 𝑋)−􏷠 􏿰 𝑇 −􏷠
􏿳 = 􏿮 0 𝑛 􏿱 (𝑋 𝑋) 􏿰 􏷢/􏷡 􏿳
1 𝑛
0 0
= 􏿮 0 1 􏿱 Γ𝑛 (𝑋 𝑇 𝑋)−􏷠 Γ𝑛 􏿰 −􏷠 𝑇 −􏷠 −􏷠
􏿳 = 􏿮 0 1 􏿱 { Γ𝑛 𝑋 𝑋 Γ𝑛 } 􏿰 􏿳
1 1
0 𝑝 0
= 􏿮 0 1 􏿱 𝑄−􏷠
𝑛 􏿰
−􏷠
􏿳 →􏿮 0 1 􏿱 𝑄 􏿰 􏿳,
1 1
uma vez que
𝑛 0
􏿮 0 1 􏿱 Γ𝑛 = 􏿮 0 1 􏿱 􏿰 √ 􏷢/􏷡
􏿳 = 􏿮 0 𝑛 􏿱.
0 𝑛􏷢/􏷡

􏷟
√𝑛(𝑏􏷠 − 𝛽􏷠 ) 𝑑
𝑡􏷠 = → 𝑁(0, 1). (3E.5)
2 (2𝑛 + 1)
𝑠
􏽰 𝑛−1
O erro padrão de 𝑏􏷠 é dado por
2(2𝑛 + 1)
𝑠𝑏􏷪 = 𝑠 ,
􏽱 𝑛(𝑛 − 1)
ou seja, é igual ao produto do erro padrão da regressão pela raiz quadrada do quociente
entre o elemento (1,1) de 𝑄−􏷠𝑛 e 𝑛.
Pode, então, fazer-se
𝑏􏷠 − 𝛽􏷟􏷠 𝑑
𝑡􏷠 = → 𝑁(0, 1).
𝑠𝑏􏷪
Os resultados (3E.4) e (3E.5) mostram que a inferência estatística referente ao modelo
(3E.1) se faz da mesma maneira que no caso estacionário.
O resultado (3E.2) pode ser generalizado para o caso em que {𝑢𝑡 } é um processo
estacionário (em geral), e não necessariamente um ruído branco independente, mas
supondo que
𝑑
𝑉•𝑛 → 𝑁 (􏷡) (𝟎, Σ),
onde Σ ≠ 𝜎􏷡 𝑄. Os estimadores 𝑏􏷠 e 𝑏􏷡 ainda são consistentes, e tem-se
𝑑
Γ𝑛 (𝑏 − 𝛽) → 𝑁 (􏷡) (𝟎, 𝑄−􏷠 Σ 𝑄−􏷠 ).
Os rácios-𝑡 têm distribuição limite normais, mas a variância não é igual a 1.

[4A]
Demonstrações de Propriedades
e de Teoremas
4A.1 Propriedade 4.3

Demonstração. Com efeito, considere-se a relação entre os resíduos 𝑢̂ 𝑡 = 𝑦𝑡 − 𝑥𝑡• 𝛽̂ e as
variáveis residuais 𝑢𝑡 ,
𝑢̂ 𝑡 = 𝑢𝑡 − 𝑥𝑡• (𝛽̂ − 𝛽).
Então, os quadrados dos resíduos são dados por
𝑢̂ 􏷡𝑡 = 𝑢􏷡𝑡 − 2 𝑢𝑡 𝑥𝑡• (𝛽̂ − 𝛽) + (𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽).
Donde
1 𝑛 1 𝑛 1 𝑛 1 𝑛
􏾜 𝑢̂ 􏷡𝑡 = 􏾜 𝑢􏷡𝑡 − 2 􏿶 􏾜 𝑥𝑡• 𝑢𝑡 􏿹 (𝛽̂ − 𝛽) + (𝛽̂ − 𝛽)𝑇 􏿶 􏾜 𝑥𝑇𝑡• 𝑥𝑡• 􏿹 (𝛽̂ − 𝛽).
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠 𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
Obviamente que a primeira parcela do segundo membro converge em probabilidade

para 𝐸(𝑢􏷡𝑡 ) = 𝜎􏷡 . Então, para provar (4.62), basta verificar que as outras duas parcelas
convergem em probabilidade para 0.
Como plim(𝛽)̂ = 𝛽, e
1 𝑛
plim 􏿶 􏾜 𝑥𝑇𝑡• 𝑥𝑡• 􏿹 = 𝐸(𝑥𝑇𝑡• 𝑥𝑡• ),
𝑛 𝑡=􏷠
a terceira parcela converge em probabilidade para 0.
989
990 Anexo 4A Demonstrações de Propriedades e de Teoremas
Se se demonstrar que existe 𝐸(𝑥𝑡• 𝑢𝑡 ), fica provado que a segunda parcela também
converge em probabilidade para 0. Com efeito, atendendo à desigualdade de Cauchy-
-Schwarz, tem-se
𝐸(𝑥􏷡 )𝐸(𝑢􏷡𝑡 ).
𝐸(| 𝑥𝑡𝑗 𝑢𝑡 |) ≤
􏽯 𝑡𝑗
Como existem os valores esperados 𝐸(𝑥􏷡𝑡𝑗 ) e 𝐸(𝑢􏷡𝑡 ), conclui-se imediatamente que tam-
bém existe 𝐸(𝑥𝑡𝑗 𝑢𝑡 ).
4A.2 Teorema 4.3

Demonstração. Com efeito, basta demonstrar que
(𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 )−􏷠 𝑄𝑇𝑧𝑥 𝑊 𝑆 𝑊 𝑄𝑧𝑥 (𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 )−􏷠 − (𝑄𝑇𝑧𝑥 𝑆−􏷠 𝑄𝑧𝑥 )−􏷠
Para provar este resultado vai recorrer-se a três propriedades da álgebra das matri-
zes:
a) Considerem-se duas matrizes, 𝐴 e 𝐵, simétricas definidas positivas; 𝐴 − 𝐵 é semi-
definida positiva se e só se 𝐵−􏷠 − 𝐴−􏷠 é semidefinida positiva.
b) Se 𝐴 é uma matriz quadrada definida positiva, existe uma matriz 𝐵, quadrada e

não singular, tal que 𝐵𝑇 𝐵 = 𝐴−􏷠 .
c) Uma matriz simétrica idempotente é semidefinida positiva.

De acordo com a), tem de provar-se que
𝑄𝑇𝑧𝑥 𝑆−􏷠 𝑄𝑧𝑥 − 𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 (𝑄𝑇𝑧𝑥 𝑊 𝑆 𝑊 𝑄𝑧𝑥 )−􏷠 𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥
Atendendo a b), existe uma matriz 𝐶, quadrada de ordem 𝑝, tal que
𝐶𝑇 𝐶 = 𝑆−􏷠 e 𝐶−􏷠 (𝐶𝑇 )−􏷠 = 𝑆.
Então,
𝑄𝑇𝑧𝑥 𝐶𝑇 𝐶𝑄𝑧𝑥 − 𝑄𝑇𝑧𝑥 𝐶𝑇 (𝐶𝑇 )−􏷠 𝑊 𝑄𝑧𝑥 {𝑄𝑇𝑧𝑥 𝑊 𝐶−􏷠 (𝐶𝑇 )−􏷠 𝑊 𝑄𝑧𝑥 }−􏷠 𝑄𝑇𝑧𝑥 𝑊 𝐶−􏷠 𝐶𝑄𝑧𝑥 .
Fazendo 𝐻 = 𝐶𝑄𝑧𝑥 e 𝐺 = (𝐶𝑇 )−􏷠 𝑊 𝑄𝑧𝑥 , obtém-se
𝐻 𝑇 𝐻 − 𝐻 𝑇 𝐺(𝐺𝑇 𝐺)−􏷠 𝐺𝑇 𝐻 = 𝐻 𝑇 (𝐼𝑝 − 𝐺(𝐺𝑇 𝐺)−􏷠 𝐺𝑇 )𝐻 = 𝐻 𝑇 𝑃𝐺 𝐻,
onde 𝑃𝐺 = 𝐼𝑝 − 𝐺(𝐺𝑇 𝐺)−􏷠 𝐺𝑇 é simétrica e idempotente.

Como 𝑃𝐺 é semidefinida positiva e 𝑟(𝐻) = 𝑘, conclui-se que 𝐻 𝑇 𝑃𝐺 𝐻 é semidefinida
positiva.
Teorema 4.4 991
4A.3 Teorema 4.4

Demonstração. A demonstração das alíneas a) e b) vai ser feita noutro capítulo. Para
provar a alínea c), começa-se por construir a Lagrangeana que permite obter o esti-
mador MGM sujeito às restrições 𝑅𝛽 = 𝛿􏷟 (por enquanto, considera-se uma matriz 𝑊̂
qualquer, e não 𝑆̂ −􏷠 , em particular). Tem-se
̂ 𝑧𝑦 − 𝑆𝑧𝑥 𝛽)̃ − 2𝜆𝑇 (𝑅𝛽̃ − 𝛿􏷟 ),
L(𝛽,̃ 𝜆) = 𝑛 (𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽)̃ 𝑇 𝑊(𝑠
onde 𝜆 é o vector 𝑚 × 1 dos multiplicadores de Lagrange.
Os gradientes da Lagrangeana em ordem a 𝛽̃ (vector 𝑘 × 1) e em ordem a 𝜆 (vector
𝑚 × 1) são, respectivamente,
⎧ ∇ L(𝛽,̃ 𝜆) = −2𝑛𝑆𝑇 𝑊̂ 𝑠 + 2𝑛𝑆𝑇 𝑊̂ 𝑆 𝛽̃ − 2𝑅𝑇 𝜆
⎪ 𝛽̃ 𝑧𝑥 𝑧𝑦 𝑧𝑥 𝑧𝑥
⎨
̃ ̃ 􏷟
⎪ ∇𝜆 L(𝛽, 𝜆) = −2(𝑅𝛽 − 𝛿 ) .
⎩
Igualando a zero estes gradientes, obtém-se o sistema de equações,
⎧ 𝑛𝑆𝑇 𝑊̂ 𝑆 𝛽̃ − 𝑛𝑆𝑇 𝑊̂ 𝑠 − 𝑅𝑇 𝜆 = 𝟎
⎪ 𝑧𝑥 𝑧𝑥 𝑧𝑥 𝑧𝑦
⎨
⎪ 𝑅𝛽̃ = 𝛿􏷟 .
⎩
Multiplicando à esquerda a primeira equação por 𝑅(𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 )−􏷠 , vem
̂ − 𝑅(𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 )−􏷠 𝑅𝑇 𝜆 = 𝟎,
𝑛𝑅𝛽̃ − 𝑛𝑅𝛽(̂ 𝑊)
ou
𝜆 = 𝑛{𝑅(𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 )−􏷠 𝑅𝑇 }−􏷠 {𝛿􏷟 − 𝑅𝛽(̂ 𝑊)},
̂
uma vez que 𝑅𝛽̃ = 𝛿􏷟 .
Substituindo 𝜆 na primeira equação, e resolvendo-a em ordem a 𝛽̃, imediatamente
se conclui que o estimador MGM de 𝛽, obedecendo às restrições 𝑅𝛽 = 𝛿􏷟 , é dado por
̂ = 𝛽(̂ 𝑊)
𝛽̂𝑟 (𝑊) ̂ + (𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 )−􏷠 𝑅𝑇 {𝑅(𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 )−􏷠 𝑅𝑇 }−􏷠 {𝛿􏷟 − 𝑅𝛽(̂ 𝑊)}.
̂ (4A.1)
Seja
̂ 𝑊}
𝐽{𝛽̂𝑟 (𝑊), ̂ = 𝑛 {𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽̂𝑟 (𝑊)}
̂ 𝑇 𝑊{𝑠
̂ 𝑧𝑦 − 𝑆𝑧𝑥 𝛽̂𝑟 (𝑊)}.
̂
Como o segundo membro desta expressão é igual a
𝑇
̂ + 𝑆𝑧𝑥 {𝛽(̂ 𝑊)
𝑛 􏿮{𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑊)} ̂ − 𝛽̂𝑟 (𝑊)}􏿱
̂ 𝑊̂ 􏿮{𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑊)}
̂ + 𝑆𝑧𝑥 {𝛽(̂ 𝑊)
̂ − 𝛽̂𝑟 (𝑊)}􏿱
̂ ,
tem-se
̂ 𝑊}
𝐽{𝛽̂𝑟 (𝑊), ̂ = 𝑛 {𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑊)}
̂ 𝑇 𝑊{𝑠
̂ 𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑊)}
̂
̂ − 𝛽̂𝑟 (𝑊)}
+ 2𝑛 {𝛽(̂ 𝑊) ̂ 𝑇 𝑆𝑇𝑧𝑥 𝑊{𝑠
̂ 𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑊)}
̂
̂ − 𝛽̂𝑟 (𝑊)}
+ 𝑛 {𝛽(̂ 𝑊) ̂ 𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 {𝛽(̂ 𝑊)
̂ − 𝛽̂𝑟 (𝑊)},
̂
ou
̂ 𝑊}
𝐽{𝛽̂𝑟 (𝑊), ̂ − 𝐽{𝛽(̂ 𝑊),
̂ 𝑊}
̂ = 𝑛 {𝛽(̂ 𝑊)
̂ − 𝛽̂𝑟 (𝑊)}
̂ 𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 {𝛽(̂ 𝑊)
̂ − 𝛽̂𝑟 (𝑊)},
̂ (4A.2)
uma vez que

̂ 𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑊)}
𝑆𝑇𝑧𝑥 𝑊{𝑠 ̂ = 𝟎.
Fazendo 𝑊̂ = 𝑆̂ −􏷠 em (4A.2) e (4A.1), obtém-se
𝑄′ = 𝑛 {𝛽(̂ 𝑆̂ −􏷠 ) − 𝛽̂𝑟 (𝑆̂ −􏷠 )}𝑇 𝑆𝑇𝑧𝑥 𝑆̂ −􏷠 𝑆𝑧𝑥 {𝛽(̂ 𝑆̂ −􏷠 ) − 𝛽̂𝑟 (𝑆̂ −􏷠 )},
𝛽(̂ 𝑆̂ −􏷠 ) − 𝛽̂𝑟 (𝑆̂ −􏷠 ) = (𝑆𝑇𝑧𝑥 𝑆̂ −􏷠 𝑆𝑧𝑥 )−􏷠 𝑅𝑇 {𝑅(𝑆𝑇𝑧𝑥 𝑆̂ −􏷠 𝑆𝑧𝑥 )−􏷠 𝑅𝑇 }−􏷠 {𝑅𝛽(̂ 𝑆̂ −􏷠 ) − 𝛿􏷟 }.
Substituindo o segundo membro desta expressão na expressão anterior, e efectuando

as respectivas simplificações, obtém-se finalmente 𝑄′ = 𝑄 [ver (4.75)].
4A.4 Teorema 4.5

Demonstração. Com efeito, começa-se por notar que
𝑔•𝑛 {𝛽(̂ 𝑆̂ −􏷠 )} = 𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑆̂ −􏷠 ) = 𝑠𝑧𝑦 − 𝑆𝑧𝑥 (𝑆𝑇𝑧𝑥 𝑆̂ −􏷠 𝑆𝑧𝑥 )−􏷠 𝑆𝑇𝑧𝑥 𝑆̂ −􏷠 𝑠𝑧𝑦
= {𝐼𝑝 − 𝑆𝑧𝑥 (𝑆𝑇𝑧𝑥 𝑆̂ −􏷠 𝑆𝑧𝑥 )−􏷠 𝑆𝑇𝑧𝑥 𝑆̂ −􏷠 }𝑠𝑧𝑦 ,
ou
𝑔•𝑛 {𝛽(̂ 𝑆̂ −􏷠 )} = 𝐵𝑠
̂ 𝑧𝑦 ,
onde
𝐵̂ = 𝐼𝑝 − 𝑆𝑧𝑥 (𝑆𝑇𝑧𝑥 𝑆̂ −􏷠 𝑆𝑧𝑥 )−􏷠 𝑆𝑇𝑧𝑥 𝑆̂ −􏷠 .
Como 𝐵̂ 𝑆𝑧𝑥 = 𝑂, tem-se
𝑔•𝑛 {𝛽(̂ 𝑆̂ −􏷠 )} = 𝐵𝑠
̂ 𝑧𝑦 = 𝐵(𝑠
̂ 𝑧𝑦 − 𝑆𝑧𝑥 𝛽) = 𝐵𝑔
̂
•𝑛
.
Como a matriz 𝑆̂ é definida positiva, existe uma 𝐶, quadrada de ordem 𝑝, não singular,
tal que 𝑆̂ −􏷠 = 𝐶𝑇 𝐶. Então, fazendo 𝐴 = 𝐶𝑆𝑧𝑥 , vem
𝐵̂ = 𝐼𝑝 − 𝑆𝑧𝑥 (𝑆𝑇𝑧𝑥 𝐶𝑇 𝐶𝑆𝑧𝑥 )−􏷠 𝑆𝑇𝑧𝑥 𝐶𝑇 𝐶 = 𝐼𝑝 − 𝑆𝑧𝑥 (𝐴𝑇 𝐴)−􏷠 𝐴𝑇 𝐶.
Então,
𝐵̂ 𝑇 𝑆̂ −􏷠 𝐵̂ = {𝐼𝑝 − 𝑆𝑧𝑥 (𝐴𝑇 𝐴)−􏷠 𝐴𝑇 𝐶}𝑇 𝐶𝑇 𝐶 {𝐼𝑝 − 𝑆𝑧𝑥 (𝐴𝑇 𝐴)−􏷠 𝐴𝑇 𝐶}
= 𝐶𝑇 {𝐼𝑝 − 𝐴(𝐴𝑇 𝐴)−􏷠 𝐴𝑇 } 𝐶
= 𝐶𝑇 𝑃𝐴 𝐶,
onde 𝑃𝐴 = 𝐼𝑝 − 𝐴(𝐴𝑇 𝐴)−􏷠 𝐴𝑇 é simétrica idempotente; tem-se 𝑟(𝑃𝐴 ) = 𝑝 − 𝑘.
Teorema 4.5 993
Conclui-se facilmente que
𝑑
𝑤 = √𝑛 𝐶𝑔•𝑛 → 𝑁 (𝑝) (𝟎, 𝐼𝑝 ),
uma vez que

𝑑
(𝑝)
√𝑛𝑔•𝑛 → 𝑁 (𝟎, 𝑆) e ̂ 𝑇 = 𝐼𝑝 .
𝐶 𝑆𝐶
Como
𝑇 𝑇
𝑤𝑇 𝑃𝐴 𝑤 = 𝑛𝑔•𝑛 𝐶𝑇 𝑃𝐴 𝐶𝑔•𝑛 = 𝑛𝑔•𝑛 𝐵̂ 𝑇 𝑆̂ −􏷠 𝐵𝑔
̂
•𝑛
= 𝐽{𝛽(̂ 𝑆̂ −􏷠 ), 𝑆̂ −􏷠 },
obtém-se imediatamente (4.79).
Podem-se fazer os seguintes comentários adicionais:
a) Ao contrário de outros testes estudados, o teste de sobre-identificação de Hansen

é consistente contra alguns casos de não verificação das condições de ortogonali-
dade, o que tem a ver com a perda de graus de liberdade, de 𝑝 para 𝑝 − 𝑘.
Como 𝐵̂ 𝑆𝑧𝑥 = 𝑂 e, para 𝑛 grande, tem-se 𝑟(𝑆𝑧𝑥 ) = 𝑘 com probabilidade 1, pode
concluir-se que a matriz 𝐵̂ tem característica inferior a 𝑝. Além disso, na demons-
tração do teorema 4.5 (Hansen) verificou-se que
𝑇
𝐽{𝛽(̂ 𝑆̂ −􏷠 ), 𝑆̂ −􏷠 } = 􏿴√𝑛𝐵𝑔
̂
•𝑛
􏿷 𝑆̂ −􏷠 􏿴√𝑛𝐵𝑔
̂
•𝑛
􏿷.
Se não se verificam algumas condições de ortogonalidade, tem-se 𝐸(𝑔𝑡• ) ≠ 𝟎. En-

tão, devido ao teorema da ergodicidade, 𝑔•𝑛 converge em probabilidade para este
valor esperado (não nulo), e os elementos de
√𝑛𝑔•𝑛
divergem para +∞ ou −∞. Mas, como 𝑟(𝐵)̂ < 𝑝,

̂
√𝑛 𝐵𝑔 •𝑛
e 𝐽{𝛽(̂ 𝑆̂ −􏷠 ), 𝑆̂ −􏷠 },
podem manter-se finitos, para algumas situações de não ortogonalidade.
b) Suponha-se que 𝑆̂ e 𝑆̃ são dois estimadores consistentes de 𝑆. Conclui-se imedia-

tamente que se pode obter um resultado semelhante a (4.79), isto é,
𝑑
𝐽{𝛽(̂ 𝑆̂ −􏷠 ), 𝑆̂ −􏷠 } = 𝑛 {𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑆̂ −􏷠 )}𝑇 𝑆̃ −􏷠 {𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑆̂ −􏷠 )} → 𝜒􏷡 (𝑝 − 𝑘).
c) Pode verificar-se, sem dificuldade, a seguinte igualdade:
𝐽{𝛽(̂ 𝑆̂ −􏷠 ), 𝑆̂ −􏷠 } = 𝑛𝑠𝑇𝑧𝑦 𝑆̂ −􏷠 {𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑆̂ −􏷠 )}.

Com efeito,
𝐽{𝛽(̂ 𝑆̂ −􏷠 ), 𝑆̂ −􏷠 } = 𝑛 {𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑆̂ −􏷠 )}𝑇 𝑆̂ −􏷠 {𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑆̂ −􏷠 )}

= 𝑛 𝑠𝑇𝑧𝑦 𝑆̂ −􏷠 {𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑆̂ −􏷠 )} − 𝑛{𝑆𝑧𝑥 𝛽(̂ 𝑆̂ −􏷠 )}𝑇 𝑆̂ −􏷠 {𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑆̂ −􏷠 )}
= 𝑛 𝑠𝑇𝑧𝑦 𝑆̂ −􏷠 {𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑆̂ −􏷠 )} − 𝑛 𝛽(̂ 𝑆̂ −􏷠 )𝑇 𝑆𝑇𝑧𝑥 𝑆̂ −􏷠 {𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑆̂ −􏷠 )} ,
ou
𝐽{𝛽(̂ 𝑆̂ −􏷠 ), 𝑆̂ −􏷠 } = 𝑛 𝑠𝑇𝑧𝑦 𝑆̂ −􏷠 {𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑆̂ −􏷠 )}
− 𝑛 𝛽(̂ 𝑆̂ −􏷠 )𝑇 𝑆𝑇𝑧𝑥 𝑆̂ −􏷠 𝑠𝑧𝑦
+ 𝑛 𝛽(̂ 𝑆̂ −􏷠 )𝑇 𝑆𝑇𝑧𝑥 𝑆̂ −􏷠 𝑆𝑧𝑥 𝛽(̂ 𝑆̂ −􏷠 ) .
Como 𝛽(̂ 𝑆̂ −􏷠 ) = (𝑆𝑇𝑧𝑥 𝑆̂ −􏷠 𝑆𝑧𝑥 )−􏷠 𝑆𝑇𝑧𝑥 𝑆̂ −􏷠 𝑠𝑧𝑦 , a igualdade fica demonstrada.
4A.5 Teorema 4.6

Demonstração. Com efeito, tal como se fez na demonstração do teorema 4.5 (Hansen),
pode concluir-se que
𝑔•𝑛 {𝛽(̂ 𝑆̂ −􏷠 )} = 𝐵𝑔
̂
•𝑛
, 𝐵̂ 𝑇 𝑆̂ −􏷠 𝐵̂ = 𝐶𝑇 𝑃𝐴 𝐶, 𝐽 = 𝑤𝑇 𝑃𝐴 𝑤,
􏷠 ̂ 􏷠
𝑔•𝑛 {𝛽(̂ 𝑆̂ −􏷠 𝑇
􏷠􏷠 )} = 𝐵􏷠 𝑔•𝑛 , 𝐽􏷠 = 𝑤•􏷠 𝑃􏷠 𝑤•􏷠 ,
onde:
1 𝑛
𝐵̂ = 𝐼𝑞 − 𝑆𝑧∗ 𝑥 (𝑆𝑇𝑧∗ 𝑥 𝑆̂ −􏷠 𝑆𝑧∗ 𝑥 )−􏷠 𝑆𝑇𝑧∗ 𝑥 𝑆̂ −􏷠 ; 𝑔•𝑛 = 􏾜 (𝑧∗𝑡• )𝑇 𝑢𝑡 ; 𝑆̂ −􏷠 = 𝐶𝑇 𝐶;
𝑛 𝑡=􏷠
𝑇 −􏷠 𝑇
𝑃𝐴 = 𝐼𝑞 − 𝐴(𝐴 𝐴) 𝐴 ; 𝐴 = 𝐶𝑆𝑧∗ 𝑥 ; 𝑟(𝑃𝐴 ) = 𝑞 − 𝑘; 𝑤 = √𝑛 𝐶𝑔•𝑛 ;
̂ −􏷠 􏷠 1 𝑛
𝐵̂ 􏷠 = 𝐼𝑞􏷪 − 𝑆𝑧􏷪 𝑥 (𝑆𝑇𝑧􏷪 𝑥 𝑆̂ −􏷠 −􏷠 𝑇
􏷠􏷠 𝑆𝑧􏷪 𝑥 ) 𝑆𝑧􏷪 𝑥 𝑆􏷠􏷠 ; 𝑔•𝑛 = 􏾜 (𝑧􏷠𝑡• )𝑇 𝑢𝑡 ; 𝑆̂ −􏷠 𝑇
􏷠􏷠 = 𝐶􏷠 𝐶􏷠 ;
𝑛 𝑡=􏷠
􏷠
𝑃􏷠 = 𝐼𝑞􏷪 − 𝐴􏷠 (𝐴𝑇􏷠 𝐴􏷠 )−􏷠 𝐴𝑇􏷠 ; 𝐴􏷠 = 𝐶􏷠 𝑆𝑧􏷪 𝑥 ; 𝑟(𝑃􏷠 ) = 𝑞􏷠 − 𝑘; 𝑤•􏷠 = √𝑛 𝐶􏷠 𝑔•𝑛 .
Seja
⎡ 𝐼𝑞􏷪 ⎤
𝐹=⎢ ⎥,
⎣ 𝑂 ⎦
onde 𝑂 é a matriz nula de tipo (𝑝 − 𝑝􏷠 ) × 𝑝􏷠 . Facilmente se verifica que:
􏷠
𝑧􏷠𝑡• = 𝑧∗𝑡• 𝐹; 𝑆𝑧􏷪 𝑥 = 𝐹 𝑇 𝑆𝑧∗ 𝑥 ; 𝑔•𝑛 = 𝐹 𝑇 𝑔•𝑛 .
Sem dificuldade se verifica que
𝐷 = 𝐽 − 𝐽􏷠 = 𝑤𝑇 (𝑃𝐴 − 𝐸)𝑤,
Teorema 4.6 995
onde 𝐸 = (𝐶𝑇 )−􏷠 𝐹 𝐶𝑇􏷠 𝑃􏷠 𝐶􏷠 𝐹 𝑇 𝐶−􏷠 . Com efeito, basta provar que 𝑤𝑇 𝐸𝑤 = 𝑤𝑇•􏷠 𝑃􏷠 𝑤•􏷠 :
𝑇 𝑇
𝑤𝑇 𝐸𝑤 = 𝑛𝑔•𝑛 𝐶𝑇 (𝐶𝑇 )−􏷠 𝐹 𝐶𝑇􏷠 𝑃􏷠 𝐶􏷠 𝐹 𝑇 𝐶−􏷠 𝐶𝑔•𝑛 = 𝑛𝑔•𝑛 𝐹 𝐶𝑇􏷠 𝑃􏷠 𝐶􏷠 𝐹 𝑇 𝑔•𝑛 = 𝑤𝑇•􏷠 𝑃􏷠 𝑤•􏷠 .
A matriz 𝐸 verifica as seguintes propriedades:
𝐸𝑇 = 𝐸 (simétrica). A prova é imediata.
𝐸􏷡 = 𝐸 (idempotente):
𝐸􏷡 = (𝐶𝑇 )−􏷠 𝐹 𝐶𝑇􏷠 𝑃􏷠 𝐶􏷠 𝐹 𝑇 𝐶−􏷠 (𝐶𝑇 )−􏷠 𝐹 𝐶𝑇􏷠 𝑃􏷠 𝐶􏷠 𝐹 𝑇 𝐶−􏷠

̂ 𝐶𝑇􏷠 𝑃􏷠 𝐶􏷠 𝐹 𝑇 𝐶−􏷠
= (𝐶𝑇 )−􏷠 𝐹 𝐶𝑇􏷠 𝑃􏷠 𝐶􏷠 𝐹 𝑇 𝑆𝐹
= (𝐶𝑇 )−􏷠 𝐹 𝐶𝑇􏷠 𝑃􏷠 𝐶􏷠 𝑆̂ 􏷠􏷠 𝐶𝑇􏷠 𝑃􏷠 𝐶􏷠 𝐹 𝑇 𝐶−􏷠
= (𝐶𝑇 )−􏷠 𝐹 𝐶𝑇􏷠 𝑃􏷠 𝐶􏷠 𝐹 𝑇 𝐶−􏷠 = 𝐸,
̂ = 𝑆̂ 􏷠􏷠 , 𝐶􏷠 𝑆̂ 􏷠􏷠 𝐶𝑇􏷠 = 𝐼𝑞 e 𝑃􏷠 é idempotente.
uma vez que 𝐹 𝑇 𝐶−􏷠 (𝐶𝑇 )−􏷠 𝐹 = 𝐹 𝑇 𝑆𝐹 􏷪
𝑟(𝐸) = 𝑞􏷠 − 𝑘:
𝑟(𝐸) = tr(𝐸) = tr{ (𝐶𝑇 )−􏷠 𝐹 𝐶𝑇􏷠 𝑃􏷠 𝐶􏷠 𝐹 𝑇 𝐶−􏷠 } = tr{ 𝐹 𝐶𝑇􏷠 𝑃􏷠 𝐶􏷠 𝐹 𝑇 𝐶−􏷠 (𝐶𝑇 )−􏷠 }
= tr{ 𝐹 𝐶𝑇􏷠 𝑃􏷠 𝐶􏷠 𝐹 𝑇 𝑆}̂ = tr{ 𝐶𝑇􏷠 𝑃􏷠 𝐶􏷠 𝐹 𝑇 𝑆𝐹}
̂ = tr{ 𝐶𝑇􏷠 𝑃􏷠 𝐶􏷠 𝑆̂ 􏷠􏷠 }
= tr{ 𝐶𝑇􏷠 𝑃􏷠 𝐶􏷠 𝐶−􏷠
􏷠 (𝐶􏷠 ) } = tr{ 𝐶􏷠 𝑃􏷠 (𝐶􏷠 ) }
𝑇 −􏷠 𝑇 𝑇 −􏷠
= tr{ 𝑃􏷠 (𝐶𝑇􏷠 )−􏷠 𝐶𝑇􏷠 } = tr{ 𝑃􏷠 } = 𝑞􏷠 − 𝑘 .
𝐴𝑇 𝐸 = 𝑂 :
𝐴𝑇 𝐸 = 𝑆𝑇𝑧𝑥 𝐶𝑇 (𝐶𝑇 )−􏷠 𝐹 𝐶𝑇􏷠 𝑃􏷠 𝐶􏷠 𝐹 𝑇 𝐶−􏷠 = 𝑆𝑇𝑧𝑥 𝐹 𝐶𝑇􏷠 𝑃􏷠 𝐶􏷠 𝐹 𝑇 𝐶−􏷠
= 𝑆𝑇𝑧􏷪 𝑥 𝐶𝑇􏷠 𝑃􏷠 𝐶􏷠 𝐹 𝑇 𝐶−􏷠 = 𝐴𝑇􏷠 𝑃􏷠 𝐶􏷠 𝐹 𝑇 𝐶−􏷠 = 𝑂,
uma vez que 𝐴𝑇􏷠 𝑃􏷠 = 𝑂.
A matriz 𝑃𝐴 − 𝐸 verifica as seguintes propriedades:
(𝑃𝐴 − 𝐸)𝑇 = 𝑃𝐴 − 𝐸 (simétrica). A prova é imediata.
(𝑃𝐴 − 𝐸)􏷡 = 𝑃𝐴 − 𝐸 (idempotente):
(𝑃𝐴 − 𝐸)􏷡 = (𝑃𝐴 − 𝐸)(𝑃𝐴 − 𝐸) = 𝑃𝐴 − 𝑃𝐴 𝐸 − 𝐸𝑃𝐴 + 𝐸

= 𝑃𝐴 − {𝐼𝑞 − 𝐴(𝐴𝑇 𝐴)−􏷠 𝐴𝑇 }𝐸 − 𝐸{𝐼𝑞 − 𝐴(𝐴𝑇 𝐴)−􏷠 𝐴𝑇 } + 𝐸
= 𝑃𝐴 − 𝐸 + 𝐴(𝐴𝑇 𝐴)−􏷠 𝐴𝑇 𝐸 − 𝐸 + 𝐸𝑇 𝐴(𝐴𝑇 𝐴)−􏷠 𝐴𝑇 + 𝐸
= 𝑃𝐴 − 𝐸 ,
atendendo a que 𝐴𝑇 𝐸 = 𝑂.
𝑟(𝑃𝐴 − 𝐸) = 𝑞 − 𝑞􏷠 :
𝑟(𝑃𝐴 − 𝐸) = tr (𝑃𝐴 − 𝐸) = (𝑞 − 𝑘) − (𝑞􏷠 − 𝑘) = 𝑞 − 𝑞􏷠 .
Como 𝐷 = 𝐽 − 𝐽􏷠 = 𝑤𝑇 (𝑃𝐴 − 𝐸)𝑤 e
𝑑
𝑤 → 𝑁 (𝑞) (𝟎, 𝐼𝑞 ),
conclui-se imediatamente (4.82).

[4B]
Princípio MGM de Hausman
Sejam 𝛽̂•􏷠 (𝑊̂ 􏷠 ) e 𝛽̂•􏷡 (𝑊̂ 􏷡 ) dois estimadores MGM, com duas escolhas diferentes da ma-
triz de pesos, 𝑊̂ 􏷠 e 𝑊̂ 􏷡 . Tem-se, evidentemente,
√𝑛 {𝛽̂•􏷠 (𝑊̂ 􏷠 ) − 𝛽} = (𝑆𝑧𝑥 𝑊̂ 􏷠 𝑆𝑧𝑥 ) 𝑆𝑧𝑥 𝑊̂ 􏷠 √𝑛 𝑔•𝑛 ,

𝑇 −􏷠 𝑇
√𝑛 {𝛽̂•􏷡 (𝑊̂ 􏷡 ) − 𝛽} = (𝑆𝑧𝑥 𝑊̂ 􏷡 𝑆𝑧𝑥 ) 𝑆𝑧𝑥 𝑊̂ 􏷡 √𝑛 𝑔•𝑛 ,

𝑇 −􏷠 𝑇
ou
⎡ √𝑛 {𝛽̂•􏷠 (𝑊̂ 􏷠 ) − 𝛽} ⎤ ⎡ (𝑆𝑇𝑧𝑥 𝑊̂ 􏷠 𝑆𝑧𝑥 )−􏷠 𝑆𝑇𝑧𝑥 𝑊̂ 􏷠 ⎤
⎢ ⎥=⎢ 𝑇 ⎥ √𝑛 𝑔•𝑛 ,
⎣ √𝑛 {𝛽̂•􏷡 (𝑊̂ 􏷡 ) − 𝛽} ⎦ ⎣ (𝑆𝑧𝑥 𝑊̂ 􏷡 𝑆𝑧𝑥 ) 𝑆𝑧𝑥 𝑊̂ 􏷡 ⎦
−􏷠 𝑇
onde plim(𝑆𝑧𝑥 ) = 𝑄𝑧𝑥 , plim(𝑊̂ 􏷠 ) = 𝑊􏷠 e plim(𝑊̂ 􏷡 ) = 𝑊􏷡 .

Como
𝑑
(𝑝)
√𝑛𝑔•𝑛 → 𝑁 (𝟎, 𝑆),
tem-se
𝑇
⎛⎡ 𝛽̂•􏷠 (𝑊̂ 􏷠 ) ⎤⎞ ⎡ (𝑄𝑇𝑧𝑥 𝑊􏷠 𝑄𝑧𝑥 )−􏷠 𝑄𝑇𝑧𝑥 𝑊􏷠 ⎤ ⎡ (𝑄𝑇𝑧𝑥 𝑊􏷠 𝑄𝑧𝑥 )−􏷠 𝑄𝑇𝑧𝑥 𝑊􏷠 ⎤
Cov𝑎 ⎜⎢ ⎥⎟ = ⎢ ⎥ 𝑆 ⎢ ⎥ .
⎝⎣ 𝛽̂•􏷡 (𝑊̂ 􏷡 )
𝑇 −􏷠 𝑇 𝑇 −􏷠 𝑇
⎦⎠ ⎣ (𝑄𝑧𝑥 𝑊􏷡 𝑄𝑧𝑥 ) 𝑄𝑧𝑥 𝑊􏷡 ⎦ ⎣ (𝑄𝑧𝑥 𝑊􏷡 𝑄𝑧𝑥 ) 𝑄𝑧𝑥 𝑊􏷡 ⎦
Então, não é difícil concluir que
⎡ √𝑛{𝛽̂•􏷠 (𝑊̂ 􏷠 ) − 𝛽} ⎤ 𝑑 (􏷡𝑘) ⎛ ⎡ 𝐴􏷠􏷠 𝐴􏷠􏷡 ⎤⎞

⎢ ⎥ → 𝑁 ⎜𝟎, ⎢ ⎥⎟ ,
⎣ √𝑛{𝛽̂•􏷡 (𝑊̂ 􏷡 ) − 𝛽} ⎦ ⎝ ⎣ 𝐴􏷡􏷠 𝐴􏷡􏷡 ⎦⎠
997
998 Anexo 4B Princípio MGM de Hausman
onde:
𝐴􏷠􏷠 = (𝑄𝑇𝑧𝑥 𝑊􏷠 𝑄𝑧𝑥 )−􏷠 𝑄𝑇𝑧𝑥 𝑊􏷠 𝑆 𝑊􏷠 𝑄𝑧𝑥 (𝑄𝑇𝑧𝑥 𝑊􏷠 𝑄𝑧𝑥 )−􏷠
𝐴􏷠􏷡 = (𝑄𝑇𝑧𝑥 𝑊􏷠 𝑄𝑧𝑥 )−􏷠 𝑄𝑇𝑧𝑥 𝑊􏷠 𝑆 𝑊􏷡 𝑄𝑧𝑥 (𝑄𝑇𝑧𝑥 𝑊􏷡 𝑄𝑧𝑥 )−􏷠
𝐴􏷡􏷠 = (𝑄𝑇𝑧𝑥 𝑊􏷡 𝑄𝑧𝑥 )−􏷠 𝑄𝑇𝑧𝑥 𝑊􏷡 𝑆 𝑊􏷠 𝑄𝑧𝑥 (𝑄𝑇𝑧𝑥 𝑊􏷠 𝑄𝑧𝑥 )−􏷠
𝐴􏷡􏷡 = (𝑄𝑇𝑧𝑥 𝑊􏷡 𝑄𝑧𝑥 )−􏷠 𝑄𝑇𝑧𝑥 𝑊􏷡 𝑆 𝑊􏷡 𝑄𝑧𝑥 (𝑄𝑇𝑧𝑥 𝑊􏷡 𝑄𝑧𝑥 )−􏷠 .
Como
√𝑛 {𝛽̂•􏷠 (𝑊̂ 􏷠 ) − 𝛽̂•􏷡 (𝑊̂ 􏷡 )} = {(𝑆𝑧𝑥 𝑊̂ 􏷠 𝑆𝑧𝑥 ) 𝑆𝑧𝑥 𝑊̂ 􏷠 − (𝑆𝑧𝑥 𝑊̂ 􏷡 𝑆𝑧𝑥 ) 𝑆𝑧𝑥 𝑊̂ 􏷡 } √𝑛 𝑔•𝑛 ,
𝑇 −􏷠 𝑇 𝑇 −􏷠 𝑇
obtém-se
𝑑
√𝑛 {𝛽̂•􏷠 (𝑊̂ 􏷠 ) − 𝛽̂•􏷡 (𝑊̂ 􏷡 )} → 𝑁 (𝟎, 𝐴􏷠􏷠 + 𝐴􏷡􏷡 − 𝐴􏷠􏷡 − 𝐴􏷡􏷠 ).
(𝑘)
Quando 𝑊̂ 􏷡 = 𝑆̂ −􏷠 , tem-se o estimador eficiente MGM, 𝛽̂•􏷡 (𝑆̂ −􏷠 ). Neste caso, vem
𝐴􏷠􏷠 = (𝑄𝑇𝑧𝑥 𝑊􏷠 𝑄𝑧𝑥 )−􏷠 𝑄𝑇𝑧𝑥 𝑊􏷠 𝑆 𝑊􏷠 𝑄𝑧𝑥 (𝑄𝑇𝑧𝑥 𝑊􏷠 𝑄𝑧𝑥 )−􏷠

𝐴􏷡􏷡 = 𝐴􏷠􏷡 = 𝐴􏷡􏷠 = (𝑄𝑇𝑧𝑥 𝑆−􏷠 𝑄𝑧𝑥 )−􏷠 .
Então,
𝑑
√𝑛 {𝛽̂•􏷠 (𝑊̂ 􏷠 ) − 𝛽̂•􏷡 (𝑆̂ )} → 𝑁 (𝟎, 𝐴􏷠􏷠 − 𝐴􏷡􏷡 ).
−􏷠 (𝑘)
Assim,
Cov𝑎 {𝛽̂•􏷠 (𝑊̂ 􏷠 ) − 𝛽̂•􏷡 (𝑆̂ −􏷠 )} = Cov𝑎 {𝛽̂•􏷠 (𝑊̂ 􏷠 )} − Cov𝑎 {𝛽̂•􏷡 (𝑆̂ −􏷠 )}. (4B.1)
[5A]
Tipos de modelos SER e
respectivos estimadores
Neste anexo faz-se um resumo dos resultados fundamentais sobre os vários tipos de
modelos SER e respectivos estimadores. Os aspectos considerados são os seguintes
(distinguindo, quando for caso disso, aqueles que se referem à população daqueles
que dizem respeito à amostra):
Tipos de modelos e respectiva formalização (quadros 5A.1 e 5A.2);
Estruturas matriciais (quadros 5A.3 e 5A.4);
Segundos momentos referentes a variáveis observáveis (quadros 5A.5 e 5A.6);
Produtos dos instrumentos pelas variáveis residuais/resíduos (quadros 5A.7 e

5A.8);
Modelos SER, estimadores e respectivas hipóteses básicas (quadros 5A.9 e 5A.10);
Quartos momentos que envolvem variáveis residuais e variáveis instrumentais

(quadros 5A.11 e 5A.12);
Estimadores e matrizes de pesos (quadro 5A.13);
Estimadores, distribuições limite, matrizes das covariâncias assintóticas e respec-

tivos estimadores (quadro 5A.14).
999
1000 Anexo 5A Tipos de modelos SER e respectivos estimadores
Quadro 5A.1 — Tipos de modelos da população
Modelos Regressores Regressores Instrumentos Coeficientes

SER endógenos? comuns? comuns? comuns?
M01 Sim Não Não Não
M02 Não Não Não Não
M03 Sim Não Sim Não
M04 Não Não Sim Não
M05 Sim Sim Sim Não
M06 Não Sim Sim Não
M07 Sim Não Não Sim
M08 Sim Não Sim Sim
M09 Não Não Sim Sim
M10 Sim Sim Sim Sim
Quadro 5A.2 — Formalização dos tipos de modelos SER
Modelos Notação A Notação B
SER Equações Instrumentos Equações Instrumentos
M01 𝑦𝑡𝑖 = 𝑥𝑡𝑖• 𝛽•𝑖 + 𝑢𝑡𝑖 𝑧𝑡𝑖• 𝑦𝑇𝑡• = 𝑋𝑡• 𝛽 + 𝑢𝑇𝑡• 𝑍𝑡•
M02 𝑦𝑡𝑖 = 𝑥𝑡𝑖• 𝛽•𝑖 + 𝑢𝑡𝑖 𝑥𝑡𝑖• 𝑦𝑇𝑡• = 𝑋𝑡• 𝛽 + 𝑢𝑇𝑡• 𝑋𝑡•
M03 𝑦𝑡𝑖 = 𝑥𝑡𝑖• 𝛽•𝑖 + 𝑢𝑡𝑖 𝑧𝑡• 𝑦𝑇𝑡• = 𝑋𝑡• 𝛽 + 𝑢𝑇𝑡• 𝑍𝑡• = 𝐼𝑚 ⊗ 𝑧𝑡•
M04 𝑦𝑡𝑖 = 𝑥𝑡𝑖• 𝛽•𝑖 + 𝑢𝑡𝑖 𝑧𝑡• ∶ 𝑥𝑡𝑖• = 𝑧𝑡• 𝐷𝑖 𝑦𝑇𝑡• = 𝑋𝑡• 𝛽 + 𝑢𝑇𝑡• 𝑍𝑡• = 𝐼𝑚 ⊗ 𝑧𝑡•
M05 𝑦𝑡𝑖 = 𝑥𝑡• 𝛽•𝑖 + 𝑢𝑡𝑖 𝑧𝑡• 𝑦𝑇𝑡• = (𝐼𝑚 ⊗ 𝑥𝑡• )𝛽 + 𝑢𝑇𝑡• 𝑍𝑡• = 𝐼𝑚 ⊗ 𝑧𝑡•
M06 𝑦𝑡𝑖 = 𝑥𝑡• 𝛽•𝑖 + 𝑢𝑡𝑖 𝑥𝑡• 𝑦𝑇𝑡• = (𝐼𝑚 ⊗ 𝑥𝑡• )𝛽 + 𝑢𝑇𝑡• 𝑋𝑡• = 𝐼𝑚 ⊗ 𝑥𝑡•
M07 𝑦𝑡𝑖 = 𝑥𝑡𝑖• 𝛽 + 𝑢𝑡𝑖 𝑧𝑡𝑖• 𝑦𝑇𝑡• = 𝑋𝑡• 𝛽 + 𝑢𝑇𝑡• 𝑍𝑡•
M08 𝑦𝑡𝑖 = 𝑥𝑡𝑖• 𝛽 + 𝑢𝑡𝑖 𝑧𝑡• 𝑦𝑇𝑡• = 𝑋𝑡• 𝛽 + 𝑢𝑇𝑡• 𝑍𝑡• = 𝐼𝑚 ⊗ 𝑧𝑡•
M09 𝑦𝑡𝑖 = 𝑥𝑡𝑖• 𝛽 + 𝑢𝑡𝑖 𝑧𝑡• ∶ 𝑥𝑡𝑖• = 𝑧𝑡• 𝐷𝑖 𝑦𝑇𝑡• = 𝑋𝑡• 𝛽 + 𝑢𝑇𝑡• 𝑍𝑡• = 𝐼𝑚 ⊗ 𝑧𝑡•
M10 𝑦𝑡𝑖 = 𝑥𝑡• 𝛽 + 𝑢𝑡𝑖 𝑧𝑡• 𝑦𝑇𝑡• = (𝑒𝑚 ⊗ 𝑥𝑡• )𝛽 + 𝑢𝑇𝑡• 𝑍𝑡• = 𝐼𝑚 ⊗ 𝑧𝑡•
Tipos de modelos SER e respectivos estimadores 1001
Quadro 5A.3 — Estruturas matriciais (população)
Matrizes/ Contexto Formato Bloco- Bloco/elemento Modelos

vectores particular -diagonal? genérico SER
𝑦𝑡• 1×𝑚 𝑦𝑡𝑖 1 a 10
𝑥𝑡𝑖• 1 × 𝑘𝑖 𝑥𝑡𝑖𝑗 1234789
𝑥𝑡• 1×𝑘 𝑥𝑡𝑖• 1234789
𝑥𝑡• RC 1×𝑘 𝑥𝑡𝑗 5 6 10
𝑥𝑡• CC 1 × 𝑚𝑘 𝑥𝑡𝑖• 789
𝑋𝑡• 𝑚×𝑘 Sim 𝑥𝑡𝑖• 1234
𝑋𝑡• = 𝐼𝑚 ⊗ 𝑥𝑡• RC 𝑚×𝑘 Sim 𝑥𝑡• 56
𝑋𝑡• CC 𝑚×𝑘 Não 𝑥𝑡𝑖• 789
𝑋𝑡• = 𝑒𝑚 ⊗ 𝑥𝑡• CC RC 𝑚×𝑘 Não 𝑥𝑡• 10
𝛽•𝑖 𝑘𝑖 × 1 𝛽𝑗𝑖 123456
𝛽 𝑘×1 𝛽•𝑖 123456
𝛽 CC 𝑘×1 𝛽𝑗 7 8 9 10
𝑢𝑡• 1×𝑚 𝑢𝑡𝑖 1 a 10
𝑧𝑡𝑖• 1 × 𝑝𝑖 𝑧𝑡𝑖ℎ 17
𝑧𝑡• 1×𝑝 𝑧𝑡𝑖• 17
𝑧𝑡• IC 1×𝑞 𝑧𝑡ℎ 3 4 5 8 9 10
𝑍𝑡• 𝑚×𝑝 Sim 𝑧𝑡𝑖• 17
𝑍𝑡• = 𝐼𝑚 ⊗ 𝑧𝑡• IC 𝑚 × 𝑚𝑞 Sim 𝑧𝑡• 3 4 5 8 9 10
𝐷𝑖 𝑞 × 𝑘𝑖 Não 𝐼𝑞 (𝑘𝑖 colunas) 49
Quadro 5A.4 — Estruturas matriciais (amostra)
Matrizes/ Contexto Formato Bloco- Bloco/elemento Modelos

vectores particular -diagonal? genérico SER
Notação A: 𝑌 = 𝑋𝛽 + 𝑈 ← 𝑍; 𝑦•𝑖 = 𝑋•𝑖 𝛽•𝑖 + 𝑢•𝑖 ← 𝑍•𝑖
𝑦•𝑖 𝑛×1 𝑦𝑡𝑖 1 a 10
𝑌 𝑚𝑛 × 1 𝑦•𝑖 1 a 10
𝑋•𝑖 𝑛 × 𝑘𝑖 Não 𝑥𝑡𝑖• 1234
𝑋•𝑖 CC 𝑛×𝑘 Não 𝑥𝑡𝑖• 789
𝑋̃ RC 𝑛×𝑘 Não 𝑥𝑡• 56
𝑋̃ CC RC 𝑛×𝑘 Não 𝑥𝑡• 10
𝑋 𝑚𝑛 × 𝑘 Sim 𝑋•𝑖 1234
𝑋 CC 𝑚𝑛 × 𝑘 Não 𝑋•𝑖 789
𝑋 = 𝐼𝑚 ⊗ 𝑋̃ RC 𝑚𝑛 × 𝑚𝑘 Sim 𝑋̃ 56
𝑋 = 𝑒𝑚 ⊗ 𝑋̃ CC RC 𝑚𝑛 × 𝑘 Não 𝑋̃ 10
𝑢•𝑖 𝑛×1 𝑢𝑡𝑖 1 a 10
𝑈 𝑚𝑛 × 1 𝑢•𝑖 1 a 10
𝑍•𝑖 𝑛 × 𝑝𝑖 Não 𝑧𝑡𝑖• 17
𝑍̃ IC 𝑛×𝑞 Não 𝑧𝑡• 3 4 5 8 9 10
𝑍 𝑚𝑛 × 𝑝 Sim 𝑍•𝑖 17
𝑍 = 𝐼𝑚 ⊗ 𝑍̃ IC 𝑚𝑛 × 𝑚𝑞 Sim 𝑍̃ 3 4 5 8 9 10
Notação B: 𝑌 = 𝑋𝛽 + 𝑈 ← 𝑍
𝑌 𝑚𝑛 × 1 𝑦𝑇𝑡• 1 a 10
𝑋 𝑚𝑛 × 𝑘 Não 𝑋𝑡• 1234
𝑋 RC 𝑚𝑛 × 𝑚𝑘 Não 𝑋𝑡• = 𝐼𝑚 ⊗ 𝑥𝑡• 56
𝑋 CC 𝑚𝑛 × 𝑘 Não 𝑋𝑡• 789
𝑋 CC RC 𝑚𝑛 × 𝑘 Não 𝑋𝑡• = 𝑒𝑚 ⊗ 𝑥𝑡• 10
𝑈 𝑚𝑛 × 1 𝑢𝑇𝑡• 1 a 10
𝑍 𝑚𝑛 × 𝑝 Não 𝑍𝑡• 17
𝑍 IC 𝑚𝑛 × 𝑚𝑞 Não 𝑍𝑡• = 𝐼𝑚 ⊗ 𝑧𝑡• 3 4 5 8 9 10
Nos quadros 5A.3 e 5A.4 são apresentadas as estruturas matriciais referentes às ma-
trizes e vectores que aparecem nos modelos da população e nas respectivas relações
amostrais, considerando as matrizes e vectores referentes às variáveis instrumentais.
Para cada matriz ou vector é apresentado o contexto particular (IC — instrumentos
comuns; RC — regressores comuns; CC — coeficientes comuns), o formato (no caso de
matriz, com indicação se é ou não bloco-diagonal), o elemento ou bloco (submatriz ou

subvector) genérico e a lista dos modelos SER em que se utiliza.
Quadro 5A.5 — Segundos momentos com variáveis observáveis (população)
Matrizes/ Contexto Formato Bloco- Bloco/elemento

vectores particular -diagonal? genérico
𝑄𝑧𝑖 𝑥𝑖 = 𝐸(𝑧𝑇𝑡𝑖• 𝑥𝑡𝑖• ) 𝑝𝑖 × 𝑘𝑖 Não 𝐸(𝑧𝑡𝑖ℎ 𝑥𝑡𝑖𝑗 )
𝑄𝑧𝑥 = 𝐸(𝑍𝑇𝑡• 𝑋𝑡• ) 𝑝×𝑘 Sim 𝑄𝑧𝑖 𝑥𝑖
𝑄𝑧𝑥𝑖 = 𝐸(𝑧𝑇𝑡• 𝑥𝑡𝑖• ) IC 𝑞 × 𝑘𝑖 Não 𝐸(𝑧𝑡ℎ 𝑥𝑡𝑖𝑗 )
𝑄𝑧𝑥 = 𝐸{(𝐼𝑚 ⊗ 𝑧𝑇𝑡• )𝑋𝑡• } IC 𝑚𝑞 × 𝑘 Sim 𝑄𝑧𝑥𝑖
𝑄̃ 𝑧𝑥 = 𝐸(𝑧𝑇𝑡• 𝑥𝑡• ) IC RC 𝑞×𝑘 Não 𝐸(𝑧𝑡ℎ 𝑥𝑡𝑗 )
𝑄𝑧𝑥 = 𝐼𝑚 ⊗ 𝑄̃ 𝑧𝑥 IC RC 𝑚𝑞 × 𝑚𝑘 Sim 𝑄̃ 𝑧𝑥
𝑄𝑧𝑖 𝑥𝑖 = 𝐸(𝑧𝑇𝑡𝑖• 𝑥𝑡𝑖• ) CC 𝑝𝑖 × 𝑘 Não 𝐸(𝑧𝑡𝑖ℎ 𝑥𝑡𝑖𝑗 )
𝑄𝑧𝑥 = 𝐸(𝑍𝑇𝑡• 𝑋𝑡• ) CC 𝑝×𝑘 Não 𝑄𝑧𝑖 𝑥𝑖
𝑄𝑧𝑥𝑖 = 𝐸(𝑧𝑇𝑡• 𝑥𝑡𝑖• ) CC IC 𝑞×𝑘 Não 𝐸(𝑧𝑡ℎ 𝑥𝑡𝑖𝑗 )
𝑄𝑧𝑥 = 𝐸{(𝐼𝑚 ⊗ 𝑧𝑇𝑡• )𝑋𝑡• } CC IC 𝑚𝑞 × 𝑘 Não 𝑄𝑧𝑥𝑖
𝑄𝑧𝑥 = 𝑒𝑚 ⊗ 𝑄̃ 𝑧𝑥 CC IC RC 𝑚𝑞 × 𝑘 Não 𝑄̃ 𝑧𝑥
𝑞𝑧𝑖 𝑦𝑖 = 𝐸(𝑧𝑇𝑡𝑖• 𝑦𝑡𝑖 ) 𝑝𝑖 × 1 𝐸(𝑧𝑡𝑖ℎ 𝑦𝑡𝑖 )
𝑞𝑧𝑦 = 𝐸(𝑍𝑇𝑡• 𝑦𝑇𝑡• ) 𝑝×1 𝑞𝑧𝑖 𝑦𝑖
𝑞𝑧𝑦𝑖 = 𝐸(𝑧𝑇𝑡• 𝑦𝑡𝑖 ) IC 𝑞×1 𝐸(𝑧𝑡ℎ 𝑦𝑡𝑖 )
𝑞𝑧𝑦 = 𝐸{(𝐼𝑚 ⊗ 𝑧𝑇𝑡• )𝑦𝑇𝑡• } IC 𝑚𝑞 × 1 𝑞𝑧𝑦𝑖
𝑄𝑧𝑖 𝑧𝑖 = 𝐸(𝑧𝑇𝑡𝑖• 𝑧𝑡𝑖• ) 𝑝𝑖 × 𝑝𝑖 Não 𝐸(𝑧𝑡𝑖ℎ 𝑧𝑡𝑖ℎ′ )
𝑄𝑧𝑧 = 𝐸(𝑍𝑇𝑡• 𝑍𝑡• ) 𝑝×𝑝 Sim 𝑄𝑧𝑖 𝑧𝑖
𝑄̃ 𝑧𝑧 = 𝐸(𝑧𝑇𝑡• 𝑧𝑡• ) IC 𝑞×𝑞 Não 𝐸(𝑧𝑡ℎ 𝑧𝑡ℎ′ )
𝑄𝑧𝑧 = 𝐼𝑚 ⊗ 𝑄̃ 𝑧𝑧 IC 𝑚𝑞 × 𝑚𝑞 Sim 𝑄̃ 𝑧𝑧
𝑄𝑥𝑖 𝑥𝑖 = 𝐸(𝑥𝑇𝑡𝑖• 𝑥𝑡𝑖• ) 𝑘𝑖 × 𝑘 𝑖 Não 𝐸(𝑥𝑡𝑖𝑗 𝑥𝑡𝑖𝑗′ )
𝑄𝑥𝑥 = 𝐸(𝑋𝑡• 𝑇
𝑋𝑡• ) 𝑘×𝑘 Sim 𝑄𝑥𝑖 𝑥𝑖
̃ 𝑇
𝑄𝑥𝑥 = 𝐸(𝑥𝑡• 𝑥𝑡• ) RC 𝑘×𝑘 Não 𝐸(𝑥𝑡𝑗 𝑥𝑡𝑗′ )
𝑄𝑥𝑥 = 𝐼𝑚 ⊗ 𝑄̃ 𝑥𝑥 RC 𝑚𝑘 × 𝑚𝑘 Sim 𝑄̃ 𝑥𝑥
𝑄𝑥𝑖 𝑥𝑖 = 𝐸(𝑥𝑇𝑡𝑖• 𝑥𝑡𝑖• ) CC 𝑘×𝑘 Não 𝐸(𝑥𝑡𝑖𝑗 𝑥𝑡𝑖𝑗′ )
𝑄𝑥𝑥 = 𝐸{diag(𝑋𝑡• )𝑇 𝑋𝑡• } CC 𝑚𝑘 × 𝑘 Não 𝑄𝑥𝑖 𝑥𝑖
𝑄𝑥𝑥 = 𝑒𝑚 ⊗ 𝑄̃ 𝑥𝑥 CC RC 𝑚𝑘 × 𝑘 Não 𝑄̃ 𝑥𝑥
𝑞𝑥𝑖 𝑦𝑖 = 𝐸(𝑥𝑇𝑡𝑖• 𝑦𝑡𝑖 ) 𝑘𝑖 × 1 𝐸(𝑥𝑡𝑖𝑗 𝑦𝑡𝑖 )
𝑇 𝑇
𝑞𝑥𝑦 = 𝐸(𝑋𝑡• 𝑦𝑡• ) 𝑘×1 𝑞𝑥𝑖 𝑦𝑖
𝑇
𝑞𝑥𝑦𝑖 = 𝐸(𝑥𝑡• 𝑦𝑡𝑖 ) RC 𝑘×1 𝐸(𝑥𝑡𝑗 𝑦𝑡𝑖 )
𝑞𝑥𝑦 = 𝐸{(𝐼𝑚 ⊗ 𝑥𝑇𝑡• )𝑦𝑇𝑡• } RC 𝑚𝑘 × 1 𝑞𝑥𝑦𝑖
𝑞𝑥𝑖 𝑦𝑖 = 𝐸(𝑥𝑇𝑡𝑖• 𝑦𝑡𝑖 ) CC 𝑘×1 𝐸(𝑥𝑡𝑖𝑗 𝑦𝑡𝑖 )
𝑞𝑥𝑦 = 𝐸{diag(𝑋𝑡• )𝑇 𝑦𝑇𝑡• } CC 𝑚𝑘 × 1 𝑞𝑥𝑖 𝑦𝑖
Quadro 5A.6 — Segundos momentos com variáveis observáveis (amostra)

Notação A:
𝑛 𝑛
𝑆𝑧𝑖 𝑥𝑖 = (1/𝑛) 􏾜 𝑧𝑇 𝑥𝑡𝑖• 𝑝𝑖 × 𝑘𝑖 Não (1/𝑛) 􏾜 𝑧𝑡𝑖ℎ 𝑥𝑡𝑖𝑗
𝑡=􏷠 𝑡𝑖• 𝑡=􏷠
= (1/𝑛)𝑍𝑇•𝑖 𝑋•𝑖
𝑆𝑧𝑥 = (1/𝑛)𝑍𝑇 𝑋 𝑝×𝑘 Sim 𝑆𝑧𝑖 𝑥𝑖
𝑛 𝑛
𝑆𝑧𝑥𝑖 = (1/𝑛) 􏾜 𝑧𝑇𝑡• 𝑥𝑡𝑖• IC 𝑞 × 𝑘𝑖 Não (1/𝑛) 􏾜 𝑧𝑡ℎ 𝑥𝑡𝑖𝑗
𝑡=􏷠 𝑡=􏷠
= (1/𝑛)𝑍̃ 𝑇 𝑋•𝑖
𝑆𝑧𝑥 = (1/𝑛)(𝐼𝑚 ⊗ 𝑍̃ 𝑇 )𝑋 IC 𝑚𝑞 × 𝑘 Sim 𝑆𝑧𝑥𝑖
𝑛 𝑛
𝑆̃ 𝑧𝑥 = (1/𝑛) 􏾜 𝑧𝑇𝑡• 𝑥𝑡• IC RC 𝑞×𝑘 Não (1/𝑛) 􏾜 𝑧𝑡ℎ 𝑥𝑡𝑗
𝑡=􏷠 𝑡=􏷠
= (1/𝑛)𝑍̃ 𝑇 𝑋̃
𝑆𝑧𝑥 = (1/𝑛)(𝐼𝑚 ⊗ 𝑍̃ 𝑇 )(𝐼𝑚 ⊗ 𝑋)
̃ IC RC 𝑚𝑞 × 𝑚𝑘 Sim 𝑆̃ 𝑧𝑥
= 𝐼𝑚 ⊗ 𝑆̃ 𝑧𝑥
𝑛 𝑛
𝑆𝑧𝑖 𝑥𝑖 = (1/𝑛) 􏾜 𝑧𝑇 𝑥𝑡𝑖• CC 𝑝𝑖 × 𝑘 Não (1/𝑛) 􏾜 𝑧𝑡𝑖ℎ 𝑥𝑡𝑖𝑗
𝑡=􏷠 𝑡𝑖• 𝑡=􏷠
= (1/𝑛)𝑍𝑇•𝑖 𝑋•𝑖
𝑆𝑧𝑥 = (1/𝑛)𝑍𝑇 𝑋 CC 𝑝×𝑘 Não 𝑆𝑧𝑖 𝑥𝑖
𝑛 𝑛
𝑆𝑧𝑥𝑖 = (1/𝑛) 􏾜 𝑧𝑇𝑡• 𝑥𝑡𝑖• CC IC 𝑞×𝑘 Não (1/𝑛) 􏾜 𝑧𝑡ℎ 𝑥𝑡𝑖𝑗
𝑡=􏷠 𝑡=􏷠
= (1/𝑛)𝑍̃ 𝑇 𝑋 •𝑖
𝑆𝑧𝑥 = (1/𝑛)(𝐼𝑚 ⊗ 𝑍̃ 𝑇 )𝑋 CC IC 𝑚𝑞 × 𝑘 Não 𝑆𝑧𝑥𝑖

𝑆𝑧𝑥 = 𝑒𝑚 ⊗ 𝑆̃ 𝑧𝑥 CC IC RC 𝑚𝑞 × 𝑘 Não 𝑆̃ 𝑧𝑥
𝑛 𝑛
𝑠𝑧𝑖 𝑦𝑖 = (1/𝑛) 􏾜 𝑧𝑇𝑡𝑖• 𝑦𝑡𝑖 𝑝𝑖 × 1 (1/𝑛) 􏾜 𝑧𝑡𝑖ℎ 𝑦𝑡𝑖
𝑡=􏷠 𝑡=􏷠
= (1/𝑛)𝑍𝑇•𝑖 𝑦•𝑖
𝑠𝑧𝑦 = (1/𝑛)𝑍𝑇 𝑌 𝑝×1 𝑠𝑧𝑖 𝑦𝑖
𝑛 𝑛
𝑠𝑧𝑦𝑖 = (1/𝑛) 􏾜 𝑧𝑇𝑡• 𝑦𝑡𝑖 IC 𝑞×1 (1/𝑛) 􏾜 𝑧𝑡ℎ 𝑦𝑡𝑖
𝑡=􏷠 𝑡=􏷠
= (1/𝑛)𝑍̃ 𝑇 𝑦•𝑖
𝑠𝑧𝑦 = (1/𝑛)(𝐼𝑚 ⊗ 𝑍̃ 𝑇 )𝑌 IC 𝑚𝑞 × 1 𝑠𝑧𝑦𝑖
Quadro 5A.6 (cont.) — Segundos momentos com variáveis observáveis (amostra)

𝑛 𝑛
𝑆𝑧𝑖 𝑧𝑖 = (1/𝑛) 􏾜 𝑧𝑇𝑡𝑖• 𝑧𝑡𝑖• 𝑝𝑖 × 𝑝𝑖 Não (1/𝑛) 􏾜 𝑧𝑡𝑖ℎ 𝑧𝑡𝑖ℎ′
𝑡=􏷠 𝑡=􏷠
= (1/𝑛)𝑍𝑇•𝑖 𝑍•𝑖
𝑆𝑧𝑧 = (1/𝑛)𝑍𝑇 𝑍 𝑝×𝑝 Sim 𝑆𝑧𝑖 𝑧𝑖
𝑛 𝑛
𝑆̃ 𝑧𝑧 = (1/𝑛) 􏾜 𝑧𝑇𝑡• 𝑧𝑡• IC 𝑞×𝑞 Não (1/𝑛) 􏾜 𝑧𝑡ℎ 𝑧𝑡ℎ′
𝑡=􏷠 𝑡=􏷠
= (1/𝑛)𝑍̃ 𝑇 𝑍̃
𝑆𝑧𝑧 = 𝐼𝑚 ⊗ 𝑆̃ 𝑧𝑧 IC 𝑚𝑞 × 𝑚𝑞 Sim 𝑆̃ 𝑧𝑧
𝑛 𝑛
𝑆𝑥𝑖 𝑥𝑖 = (1/𝑛) 􏾜 𝑥𝑇 𝑥𝑡𝑖• 𝑘𝑖 × 𝑘𝑖 Não (1/𝑛) 􏾜 𝑥𝑡𝑖𝑗 𝑥𝑡𝑖𝑗′
𝑡=􏷠 𝑡𝑖• 𝑡=􏷠
𝑇
= (1/𝑛)𝑋•𝑖 𝑋•𝑖
𝑆𝑥𝑥 = (1/𝑛)𝑋 𝑇 𝑋 𝑘×𝑘 Sim 𝑆𝑥𝑖 𝑥𝑖
𝑛 𝑛
𝑆̃ 𝑥𝑥 = (1/𝑛) 􏾜 𝑥𝑇𝑡• 𝑥𝑡• RC 𝑘×𝑘 Não (1/𝑛) 􏾜 𝑥𝑡𝑗 𝑥𝑡𝑗′
𝑡=􏷠 𝑡=􏷠
= (1/𝑛)𝑋̃ 𝑇 𝑋̃
𝑆𝑥𝑥 = 𝐼𝑚 ⊗ 𝑆̃ 𝑥𝑥 RC 𝑚𝑘 × 𝑚𝑘 Sim 𝑆̃ 𝑥𝑥
𝑛 𝑛
𝑆𝑥𝑖 𝑥𝑖 = (1/𝑛) 􏾜 𝑥𝑇 𝑥𝑡𝑖• CC 𝑘×𝑘 Não (1/𝑛) 􏾜 𝑥𝑡𝑖𝑗 𝑥𝑡𝑖𝑗′
𝑡=􏷠 𝑡𝑖• 𝑡=􏷠
𝑇
= (1/𝑛)𝑋•𝑖 𝑋•𝑖
𝑆𝑥𝑥 = (1/𝑛) diag(𝑋)𝑇 𝑋 CC 𝑚𝑘 × 𝑘 Não 𝑆𝑥𝑖 𝑥𝑖
𝑆𝑥𝑥 = 𝑒𝑚 ⊗ 𝑆̃ 𝑥𝑥 CC RC 𝑚𝑘 × 𝑘 Não 𝑆̃ 𝑥𝑥
𝑛 𝑛
𝑠𝑥𝑖 𝑦𝑖 = (1/𝑛) 􏾜 𝑥𝑇 𝑦𝑡𝑖 𝑘𝑖 × 1 (1/𝑛) 􏾜 𝑥𝑡𝑖𝑗 𝑦𝑡𝑖
𝑡=􏷠 𝑡𝑖• 𝑡=􏷠
𝑇
= (1/𝑛)𝑋•𝑖 𝑦•𝑖
𝑠𝑥𝑦 = (1/𝑛)𝑋 𝑇 𝑌 𝑘×1 𝑠𝑥𝑖 𝑦𝑖
𝑛 𝑛
𝑠𝑥𝑦𝑖 = (1/𝑛) 􏾜 𝑥𝑇𝑡• 𝑦𝑡𝑖 RC 𝑘×1 (1/𝑛) 􏾜 𝑥𝑡𝑗 𝑦𝑡𝑖
𝑡=􏷠 𝑡=􏷠
= (1/𝑛)𝑋̃ 𝑇 𝑦•𝑖
𝑠𝑥𝑦 = (1/𝑛)(𝐼𝑚 ⊗ 𝑋̃ 𝑇 )𝑌 RC 𝑚𝑘 × 1 𝑠𝑥𝑦𝑖
𝑛 𝑛
𝑠𝑥𝑖 𝑦𝑖 = (1/𝑛) 􏾜 𝑥𝑇 𝑦𝑡𝑖 CC 𝑘×1 (1/𝑛) 􏾜 𝑥𝑡𝑖𝑗 𝑦𝑡𝑖
𝑡=􏷠 𝑡𝑖• 𝑡=􏷠
𝑇
= (1/𝑛)𝑋•𝑖 𝑦•𝑖
𝑠𝑥𝑦 = (1/𝑛) diag(𝑋)𝑇 𝑌 CC 𝑚𝑘 × 1 𝑠𝑥𝑖 𝑦𝑖

Notação B:
𝑆𝑧𝑥 = (1/𝑛)𝑍𝑇 𝑋 𝑝×𝑘 Sim 𝑆𝑧𝑖 𝑥𝑖
𝑛
= (1/𝑛) 􏾜 𝑍𝑇𝑡• 𝑋𝑡•
𝑡=􏷠
𝑆𝑧𝑥 = (1/𝑛)𝑍𝑇 𝑋 IC 𝑚𝑞 × 𝑘 Sim 𝑆𝑧𝑥𝑖
𝑛
= (1/𝑛) 􏾜 (𝐼𝑚 ⊗ 𝑧𝑇𝑡• )𝑋𝑡•
𝑡=􏷠
𝑆𝑧𝑥 = (1/𝑛)𝑍𝑇 𝑋 IC RC 𝑚𝑞 × 𝑚𝑘 Sim 𝑆̃ 𝑧𝑥
𝑛
= 𝐼𝑚 ⊗ (1/𝑛) 􏾜 𝑧𝑇𝑡• 𝑥𝑡•
𝑡=􏷠
𝑆𝑧𝑥 = (1/𝑛)𝑍𝑇 𝑋 CC 𝑝×𝑘 Não 𝑆𝑧𝑖 𝑥𝑖
𝑛
= (1/𝑛) 􏾜 𝑍𝑇𝑡• 𝑋𝑡•
𝑡=􏷠
𝑆𝑧𝑥 = (1/𝑛)𝑍𝑇 𝑋 CC IC 𝑚𝑞 × 𝑘 Não 𝑆𝑧𝑥𝑖
𝑛
= (1/𝑛) 􏾜 (𝐼𝑚 ⊗ 𝑧𝑇𝑡• )𝑋𝑡•
𝑡=􏷠
𝑆𝑧𝑥 = 𝑒𝑚 ⊗ 𝑆̃ 𝑧𝑥 CC IC RC 𝑚𝑞 × 𝑘 Não 𝑆̃ 𝑧𝑥
𝑠𝑧𝑦 = (1/𝑛)𝑍𝑇 𝑌 𝑝×1 𝑠𝑧𝑖 𝑦𝑖
𝑛
= (1/𝑛) 􏾜 𝑍𝑇𝑡• 𝑦𝑇𝑡•
𝑡=􏷠
𝑠𝑧𝑦 = (1/𝑛)𝑍𝑇 𝑌 IC 𝑚𝑞 × 1 𝑠𝑧𝑦𝑖
𝑛
= (1/𝑛) 􏾜 (𝐼𝑚 ⊗ 𝑧𝑇𝑡• )𝑦𝑇𝑡•
𝑡=􏷠
𝑆𝑧𝑧 = (1/𝑛)𝑍𝑇 𝑍 𝑝×𝑝 Sim 𝑆𝑧𝑖 𝑧𝑖

𝑛
= (1/𝑛) 􏾜 𝑍𝑇𝑡• 𝑍𝑡•
𝑡=􏷠
𝑆𝑧𝑧 = 𝐼𝑚 ⊗ 𝑆̃ 𝑧𝑧 IC 𝑚𝑞 × 𝑚𝑞 Sim 𝑆̃ 𝑧𝑧
𝑆𝑥𝑥 = (1/𝑛)𝑋 𝑇 𝑋 𝑘×𝑘 Sim 𝑆𝑥 𝑖 𝑥 𝑖
𝑛 𝑇
= (1/𝑛) 􏾜 𝑋𝑡• 𝑋𝑡•
𝑡=􏷠
𝑆𝑥𝑥 = 𝐼𝑚 ⊗ 𝑆̃ 𝑥𝑥 RC 𝑚𝑘 × 𝑚𝑘 Sim 𝑆̃ 𝑥𝑥
𝑛
𝑆𝑥𝑥 = (1/𝑛) 􏾜 diag(𝑋𝑡• )𝑇 𝑋𝑡• CC 𝑚𝑘 × 𝑘 Não 𝑆𝑥𝑖 𝑥𝑖
𝑡=􏷠
𝑆𝑥𝑥 = 𝑒𝑚 ⊗ 𝑆̃ 𝑥𝑥 CC RC 𝑚𝑘 × 𝑘 Não 𝑆̃ 𝑥𝑥

𝑠𝑥𝑦 = (1/𝑛)𝑋 𝑇 𝑌 𝑘×1 𝑠 𝑥𝑖 𝑦𝑖
𝑛 𝑇 𝑇
= (1/𝑛) 􏾜 𝑋𝑡• 𝑦𝑡•
𝑡=􏷠
𝑠𝑥𝑦 = (1/𝑛)𝑋 𝑇 𝑌 RC 𝑚𝑘 × 1 𝑠𝑥𝑦𝑖
𝑛
= (1/𝑛) 􏾜 (𝐼𝑚 ⊗ 𝑥𝑇𝑡• )𝑦𝑇𝑡•
𝑡=􏷠
𝑛
𝑠𝑥𝑦 = (1/𝑛) 􏾜 diag(𝑋𝑡• )𝑇 𝑦𝑇𝑡• CC 𝑚𝑘 × 1 𝑠 𝑥𝑖 𝑦𝑖
𝑡=􏷠
Nos quadros 5A.5 e 5A.6 apresentam-se as matrizes referentes a segundos momentos

que envolvem variáveis observáveis (valores esperados de produtos de duas variáveis).
Para cada matriz ou vector é apresentado o contexto particular (IC — instrumentos
comuns; RC — regressores comuns; CC — coeficientes comuns), o formato (no caso de
matriz, com indicação se é ou não bloco-diagonal) e o elemento ou bloco genérico.
No caso dos momentos amostrais, utilizam-se as notações A e B.
Quadro 5A.7 — Produtos dos instrumentos pelas variáveis residuais (população)
Modelos Matrizes/ Formato Bloco/elemento

SER vectores genérico
17 𝑔𝑡𝑖• = 𝑧𝑡𝑖• 𝑢𝑡𝑖 1 × 𝑝𝑖 𝑔𝑡𝑖ℎ = 𝑧𝑡𝑖ℎ 𝑢𝑡𝑖
𝑔𝑡• = 𝑧𝑡• 𝑢𝑡𝑖 = 𝑢𝑡• 𝑍𝑡• 1×𝑝 𝑔𝑡𝑖•
𝑛 𝑛
𝑔•𝑛 = (1/𝑛) 􏾜 𝑔𝑇𝑡• = (1/𝑛)𝑍𝑇 𝑈 𝑝×1 (1/𝑛) 􏾜 𝑔𝑡𝑖•
𝑡=􏷠 𝑡=􏷠
2 𝑔𝑡𝑖• = 𝑥𝑡𝑖• 𝑢𝑡𝑖 1 × 𝑘𝑖 𝑔𝑡𝑖𝑗 = 𝑥𝑡𝑖𝑗 𝑢𝑡𝑖
𝑔𝑡• = 𝑥𝑡• 𝑢𝑡𝑖 = 𝑢𝑡• 𝑋𝑡• 1×𝑘 𝑔𝑡𝑖•
𝑛 𝑛
𝑔•𝑛 = (1/𝑛) 􏾜 𝑔𝑇𝑡• = (1/𝑛)𝑋 𝑇 𝑈 𝑘×1 (1/𝑛) 􏾜 𝑔𝑇
𝑡=􏷠 𝑡=􏷠 𝑡𝑖•
3 4 5 8 9 10 𝑧𝑡• 𝑢𝑡𝑖 1×𝑞 𝑧𝑡ℎ 𝑢𝑡𝑖
𝑔𝑡• = 𝑢𝑡• ⊗ 𝑧𝑡• = 𝑢𝑡• (𝐼𝑚 ⊗ 𝑧𝑡• ) 1 × 𝑚𝑞 𝑧𝑡• 𝑢𝑡𝑖
𝑛 𝑛
𝑔•𝑛 = (1/𝑛) 􏾜 (𝑢𝑇𝑡• ⊗ 𝑧𝑇𝑡• ) = (1/𝑛)𝑍𝑇 𝑈 𝑚𝑞 × 1 (1/𝑛) 􏾜 𝑔𝑇
𝑡=􏷠 𝑡=􏷠 𝑡𝑖•
6 𝑥𝑡• 𝑢𝑡𝑖 1×𝑘 𝑥𝑡𝑗 𝑢𝑡𝑖
𝑔𝑡• = 𝑢𝑡• ⊗ 𝑥𝑡• = 𝑢𝑡• (𝐼𝑚 ⊗ 𝑥𝑡• ) 1 × 𝑚𝑘 𝑥𝑡• 𝑢𝑡𝑖
𝑛 𝑛
𝑔•𝑛 = (1/𝑛) 􏾜 (𝑢𝑇𝑡• ⊗ 𝑥𝑇𝑡• ) = (1/𝑛)𝑋 𝑇 𝑈 𝑚𝑘 × 1 (1/𝑛) 􏾜 𝑔𝑇
𝑡=􏷠 𝑡=􏷠 𝑡𝑖•
Quadro 5A.8 — Produtos dos instrumentos pelos resíduos (amostra)
Modelos Matrizes/ Formato Bloco/elemento

SER vectores genérico
17 𝑔̂ 𝑡𝑖• = 𝑧𝑡𝑖• 𝑢̂ 𝑡𝑖 1 × 𝑝𝑖 𝑔̂ 𝑡𝑖ℎ = 𝑧𝑡𝑖ℎ 𝑢̂ 𝑡𝑖
𝑔̂ 𝑡• = 𝑧𝑡• 𝑢̂ 𝑡𝑖 = 𝑢̂ 𝑡• 𝑍𝑡• 1×𝑝 𝑔̂ 𝑡𝑖•
𝐺̂ 𝑖 𝑛 × 𝑝𝑖 𝑔̂ 𝑡𝑖•
𝐺̂ 𝑛×𝑝 𝐺̂ 𝑖
2 𝑔̂ 𝑡𝑖• = 𝑥𝑡𝑖• 𝑢̂ 𝑡𝑖 1 × 𝑘𝑖 𝑔̂ 𝑡𝑖𝑗 = 𝑥𝑡𝑖𝑗 𝑢̂ 𝑡𝑖
𝑔̂ 𝑡• = 𝑥𝑡• 𝑢̂ 𝑡𝑖 = 𝑢̂ 𝑡• 𝑋𝑡• 1×𝑘 𝑔̂ 𝑡𝑖•
𝐺̂ 𝑖 𝑛 × 𝑘𝑖 𝑔̂ 𝑡𝑖•
𝐺̂ 𝑛×𝑘 𝐺̂ 𝑖
3 4 5 8 9 10 𝑧𝑡• 𝑢̂ 𝑡𝑖 1×𝑞 𝑧𝑡ℎ 𝑢̂ 𝑡𝑖
𝑔̂ 𝑡• = 𝑢̂ 𝑡• ⊗ 𝑧𝑡• = 𝑢̂ 𝑡• (𝐼𝑚 ⊗ 𝑧𝑡• ) 1 × 𝑚𝑞 𝑧𝑡• 𝑢̂ 𝑡𝑖
𝐺̂ 𝑖 𝑛×𝑞 𝑧𝑡• 𝑢̂ 𝑡𝑖
𝐺̂ 𝑛 × 𝑚𝑞 𝐺̂ 𝑖
6 𝑥𝑡• 𝑢̂ 𝑡𝑖 1×𝑘 𝑥𝑡𝑗 𝑢̂ 𝑡𝑖
𝑔̂ 𝑡• = 𝑢̂ 𝑡• ⊗ 𝑥𝑡• = 𝑢̂ 𝑡• (𝐼𝑚 ⊗ 𝑥𝑡• ) 1 × 𝑚𝑘 𝑥𝑡• 𝑢̂ 𝑡𝑖
𝐺̂ 𝑖 𝑛×𝑘 𝑥𝑡• 𝑢̂ 𝑡𝑖
𝐺̂ 𝑛 × 𝑚𝑘 𝐺̂ 𝑖
Nos quadros 5A.7 e 5A.8 são apresentados as matrizes e vectores relativos aos produtos
de instrumentos por variáveis residuais ou por resíduos, respectivamente. Para cada
matriz ou vector, são referidos os modelos SER em que podem ser utilizados, o formato
e o bloco/elemento genérico.
No quadro 5A.9 apresenta-se a lista dos estimadores MGM, com os respectivos sím-
bolos, hipóteses básicas e modelos SER subjacentes.
O quadro 5A.10 refere, para cada modelo SER, a lista dos respectivos estimadores
MGM, distinguindo se existe ou não homocedasticidade condicionada.
Quadro 5A.9 — Estimadores, hipóteses básicas e modelos SER
Estimador Símbolo Hipóteses básicas Modelos

MGM (em geral) ̂
𝛽(̂ 𝑊) SER: 1 2 3 4 5 1
MGM eficiente 𝛽(̂ 𝑆̂ −􏷠 ) SER: 1 2 3 4 5 1
MGM (separado) 𝛽(̂ 𝑊̂ 𝐷 ) SER: 1 2 3 4 5 1
SMQ 𝛽̂SMQ SER: 1 2 3 4 5 2
SMQGF 𝛽̂SMQGF SER: 1 2 4 5; (5.35) 4
SIV 𝛽̂SIV SER: 1 2 3 4 5 1
SMQ2P 𝛽̂SMQ2P SER: 1 2 3 4 5 1
FIVE 𝛽̂FIVE SER: 1 2 3 4 5 6 1
MQ3P 𝛽̂MQ3P SER: 1 2 3 4 5 6 3
SUR 𝛽̂SUR SER: 1 2 4 5 6; (5.83) 4
MQ (regressão multivariada) 𝛽̂MQ SER: 1 2 4 5 6; (5.83) 6
MGM (coef comuns) ̂
𝛽̂∗ (𝑊) SER: 1’ 2 3 4’ 5 7
MGM eficiente (coef comuns) 𝛽̂∗ (𝑆̂ −􏷠 ) SER: 1’ 2 3 4’ 5 7
FIVE (coef comuns) 𝛽̂∗FIVE SER: 1’ 2 3 4’ 5 6 7
MQ3P (coef comuns) 𝛽̂∗MQ3P SER: 1’ 2 3 4’ 5 6 8
SUR (coef comuns) 𝛽̂∗SUR SER: 1’ 2 4’ 5 6; (5.83) 9
PMQ (coef comuns) 𝛽̂PMQ SER: 1’ 2 4’ 5 6; (5.83) 8
Quadro 5A.10 — Modelos SER, homocedasticidade condicionada e estimadores
Modelos SER.6? Estimadores

M01 Não ̂ ; 𝛽(̂ 𝑆̂ −􏷠 ); 𝛽(̂ 𝑊̂ 𝐷 ); 𝛽̂SIV ; 𝛽̂SMQ2P
𝛽(̂ 𝑊)
Sim 𝛽̂FIVE
M02 Não 𝛽̂SMQ
Sim
M03 Não
Sim 𝛽̂MQ3P
M04 Não 𝛽̂SMQGF
Sim 𝛽̂SUR
M05 Não
Sim
M06 Não
Sim 𝛽̂MQ (reg multivariada)
M07 Não ̂ ; 𝛽̂∗ (𝑆̂ −􏷠 )
𝛽̂∗ (𝑊)
Sim 𝛽̂∗FIVE
M08 Não
Sim 𝛽̂∗MQ3P ; 𝛽̂PMQ
M09 Não
Sim 𝛽̂∗SUR
M10 Não
Sim
Nos quadros 5A.11 e 5A.12 são referidas as matrizes relativas aos quartos momentos
que envolvem duas variáveis instrumentais e duas variáveis residuais ou dois resí-
duos, respectivamente. Para cada matriz, referem-se os modelos SER respectivos, dis-
tinguindo entre heterocedasticidade e homocedasticidade condicionada, o formato e o
bloco ou elemento genérico.
Quadro 5A.11 — Quartos momentos com variáveis residuais e variáveis instrumentais

(população)
Modelos SER.6? Matriz Formato Bloco/elemento

genérico
17 Não 𝑆𝑖ℓ = 𝐸(𝑔𝑇𝑡𝑖• 𝑔𝑡ℓ• ) = 𝐸(𝑢𝑡𝑖 𝑢𝑡ℓ 𝑧𝑇𝑡𝑖• 𝑧𝑡ℓ• ) 𝑝𝑖 × 𝑝 𝑖 𝐸(𝑢𝑡𝑖 𝑢𝑡ℓ 𝑧𝑡𝑖ℎ 𝑧𝑡ℓℎ′ )
𝑆= 𝐸(𝑔𝑇𝑡• 𝑔𝑡• ) = 𝐸(𝑍𝑇𝑡• 𝑢𝑇𝑡• 𝑢𝑡• 𝑍𝑡• ) 𝑝×𝑝 𝑆𝑖ℓ
Sim 𝑆𝑖ℓ = 𝜎𝑖ℓ 𝐸(𝑧𝑇𝑡𝑖• 𝑧𝑡ℓ• ) = 𝜎𝑖ℓ 𝑄𝑧𝑖 𝑧ℓ 𝑝𝑖 × 𝑝𝑖 𝜎𝑖ℓ 𝐸(𝑧𝑡𝑖ℎ 𝑧𝑡ℓℎ′ )
𝑆= 𝐸(𝑍𝑇𝑡• Σ𝑍𝑡• ) 𝑝×𝑝 𝑆𝑖ℓ
2 Não 𝑆𝑖ℓ = 𝐸(𝑔𝑇𝑡𝑖• 𝑔𝑡ℓ• ) = 𝐸(𝑢𝑡𝑖 𝑢𝑡ℓ 𝑥𝑇𝑡𝑖• 𝑥𝑡ℓ• ) 𝑘𝑖 × 𝑘𝑖 𝐸(𝑢𝑡𝑖 𝑢𝑡ℓ 𝑥𝑡𝑖𝑗 𝑥𝑡ℓ𝑗′ )
𝑆= 𝐸(𝑔𝑇𝑡• 𝑔𝑡• ) = 𝑇 𝑇
𝐸(𝑋𝑡• 𝑢𝑡• 𝑢𝑡• 𝑋𝑡• ) 𝑘×𝑘 𝑆𝑖ℓ
Sim 𝑆𝑖ℓ = 𝜎𝑖ℓ 𝐸(𝑥𝑇𝑡𝑖• 𝑥𝑡ℓ• ) = 𝜎𝑖ℓ 𝑄𝑥𝑖 𝑥ℓ 𝑘𝑖 × 𝑘𝑖 𝜎𝑖ℓ 𝐸(𝑥𝑡𝑖𝑗 𝑥𝑡ℓ𝑗′ )
𝑇
𝑆= 𝐸(𝑋𝑡• Σ𝑋𝑡• ) 𝑘×𝑘 𝑆𝑖ℓ
3 4 5 8 9 10 Não 𝑆𝑖ℓ = 𝐸(𝑢𝑡𝑖 𝑢𝑡ℓ 𝑧𝑇𝑡• 𝑧𝑡• ) 𝑞×𝑞 𝐸(𝑢𝑡𝑖 𝑢𝑡ℓ 𝑧𝑡ℎ 𝑧𝑡ℎ′ )
𝑆= 𝐸{(𝑢𝑇𝑡• 𝑢𝑡• ) ⊗ (𝑧𝑇𝑡• 𝑧𝑡• )} 𝑚𝑞 × 𝑚𝑞 𝑆𝑖ℓ
Sim 𝑆𝑖ℓ = 𝜎𝑖ℓ 𝐸(𝑧𝑇𝑡• 𝑧𝑡• ) = 𝜎𝑖ℓ 𝑄̃ 𝑧𝑧 𝑞×𝑞 𝜎𝑖ℓ 𝐸(𝑧𝑡ℎ 𝑧𝑡ℎ′ )
𝑆 = Σ ⊗ 𝑄̃ 𝑧𝑧 𝑚𝑞 × 𝑚𝑞 𝑆𝑖ℓ
6 Não 𝑆𝑖ℓ = 𝐸(𝑢𝑡𝑖 𝑢𝑡ℓ 𝑥𝑇𝑡• 𝑥𝑡• ) 𝑘×𝑘 𝐸(𝑢𝑡𝑖 𝑢𝑡ℓ 𝑥𝑡𝑗 𝑥𝑡𝑗′ )
𝑆= 𝐸{(𝑢𝑇𝑡• 𝑢𝑡• ) ⊗ (𝑥𝑇𝑡• 𝑥𝑡• )} 𝑚𝑘 × 𝑚𝑘 𝑆𝑖ℓ
Sim 𝑆𝑖ℓ = 𝜎𝑖ℓ 𝐸(𝑥𝑇𝑡• 𝑥𝑡• ) = 𝜎𝑖ℓ 𝑄̃ 𝑥𝑥 𝑘×𝑘 𝜎𝑖ℓ 𝐸(𝑥𝑡𝑗 𝑥𝑡𝑗′ )
𝑆 = Σ ⊗ 𝑄̃ 𝑥𝑥 𝑚𝑘 × 𝑚𝑘 𝑆𝑖ℓ
Nota: 𝜎𝑖ℓ = 𝐸(𝑢𝑡𝑖 𝑢𝑡ℓ ); Σ = 𝐸(𝑢𝑇𝑡• 𝑢𝑡• ).
Quadro 5A.12 — Quartos momentos com resíduos e variáveis instrumentais (amostra)

genérico
1 𝑛 1
17 Não 𝑆̂ 𝑖ℓ = 􏾜 𝑔̂ 𝑇𝑡𝑖• 𝑔̂ 𝑡ℓ• = 𝐺̂ 𝑇𝑖 𝐺̂ 𝑖
𝑛 𝑡=􏷠 𝑛
1 𝑛 1 𝑛
ou 𝑆̂ 𝑖ℓ = 􏾜 𝑢̂ 𝑡𝑖 𝑢̂ 𝑡ℓ 𝑧𝑇𝑡𝑖• 𝑧𝑡ℓ• 𝑝𝑖 × 𝑝𝑖 􏾜 𝑢̂ 𝑡𝑖 𝑢̂ 𝑡ℓ 𝑧𝑡𝑖ℎ 𝑧𝑡ℓℎ′
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
1 𝑛 1
𝑆̂ = 􏾜 𝑔̂ 𝑇𝑡• 𝑔̂ 𝑡• = 𝐺̂ 𝑇 𝐺̂
𝑛 𝑡=􏷠 𝑛
1 𝑛
ou 𝑆̂ = 􏾜 𝑍𝑇𝑡• 𝑢̂ 𝑇𝑡• 𝑢̂ 𝑡• 𝑍𝑡• 𝑝×𝑝 𝑆̂ 𝑖ℓ
𝑛 𝑡=􏷠
1 𝑛 1 𝑛
Sim 𝑆̂ 𝑖ℓ = 𝜎̂ 𝑖ℓ 􏾜 𝑧𝑇𝑡𝑖• 𝑧𝑡ℓ• = 𝜎̂ 𝑖ℓ 𝑆𝑧𝑖 𝑧ℓ 𝑝𝑖 × 𝑝𝑖 𝜎̂ 𝑖ℓ 􏾜 𝑧𝑡𝑖ℎ 𝑧𝑡ℓℎ′
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
1
𝑆̂ = {𝑍𝑇 (Σ̂ ⊗ 𝐼𝑛 )𝑍}
𝑛
1 𝑛
𝑆̂ = 􏾜 𝑍𝑇𝑡• Σ𝑍 ̂ 𝑡•
𝑛 𝑡=􏷠
ou 𝑝×𝑝 𝑆̂ 𝑖ℓ
1
= {𝑍𝑇 (𝐼𝑛 ⊗ Σ)𝑍} ̂
𝑛
1 𝑛 1
2 Não 𝑆̂ 𝑖ℓ = 􏾜 𝑔̂ 𝑇𝑡𝑖• 𝑔̂ 𝑡ℓ• = 𝐺̂ 𝑇𝑖 𝐺̂ 𝑖
𝑛 𝑡=􏷠 𝑛
1 𝑛 1 𝑛
ou 𝑆̂ 𝑖ℓ = 􏾜 𝑢̂ 𝑡𝑖 𝑢̂ 𝑡ℓ 𝑥𝑇𝑡𝑖• 𝑥𝑡ℓ• 𝑘𝑖 × 𝑘𝑖 􏾜 𝑢̂ 𝑡𝑖 𝑢̂ 𝑡ℓ 𝑥𝑡𝑖𝑗 𝑥𝑡ℓ𝑗′
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
1 𝑛 1
𝑆̂ = 􏾜 𝑔̂ 𝑇𝑡• 𝑔̂ 𝑡• = 𝐺̂ 𝑇 𝐺̂
𝑛 𝑡=􏷠 𝑛
1 𝑛
ou 𝑆̂ = 􏾜 𝑋𝑡• 𝑇 𝑇
𝑢̂ 𝑡• 𝑢̂ 𝑡• 𝑋𝑡• 𝑘×𝑘 𝑆̂ 𝑖ℓ
𝑛 𝑡=􏷠
1 𝑛 1 𝑛
Sim 𝑆̂ 𝑖ℓ = 𝜎̂ 𝑖ℓ 􏾜 𝑥𝑇𝑡𝑖• 𝑥𝑡ℓ• = 𝜎̂ 𝑖ℓ 𝑆𝑥𝑖 𝑥ℓ 𝑘𝑖 × 𝑘𝑖 𝜎̂ 𝑖ℓ 􏾜 𝑥𝑡𝑖𝑗 𝑥𝑡ℓ𝑗′
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
1
𝑆̂ = {𝑋 𝑇 (𝐼𝑛 ⊗ Σ)𝑋} ̂
𝑛
1 𝑛
𝑆̂ = 􏾜 𝑋𝑡• 𝑇 ̂
Σ 𝑋𝑡•
𝑛 𝑡=􏷠
ou 𝑘×𝑘 𝑆̂ 𝑖ℓ
1
= {𝑋 𝑇 (𝐼𝑛 ⊗ Σ)𝑋} ̂
𝑛
Quadro 5A.12 (cont.) — Quartos momentos com resíduos e variáveis instrumentais

(amostra)
genérico
1 𝑛 1 1 𝑛
3 4 5 8 9 10 Não 𝑆̂ 𝑖ℓ = 􏾜 𝑢̂ 𝑡𝑖 𝑢̂ 𝑡ℓ 𝑧𝑇𝑡• 𝑧𝑡• = 𝐺̂ 𝑇𝑖 𝐺̂ 𝑖 𝑞×𝑞 􏾜 𝑢̂ 𝑡𝑖 𝑢̂ 𝑡ℓ 𝑧𝑡ℎ 𝑧𝑡ℎ′
𝑛 𝑡=􏷠 𝑛 𝑛 𝑡=􏷠
1 𝑛
𝑆̂ = 􏾜 (𝑢̂ 𝑇𝑡• 𝑢̂ 𝑡• ) ⊗ (𝑧𝑇𝑡• 𝑧𝑡• )
𝑛 𝑡=􏷠
𝑚𝑞 × 𝑚𝑞 𝑆̂ 𝑖ℓ
1
= 𝐺̂ 𝑇 𝐺̂
𝑛
1 𝑛 1 𝑛
Sim 𝑆̂ 𝑖ℓ = 𝜎̂ 𝑖ℓ 􏾜 𝑧𝑇𝑡• 𝑧𝑡• = 𝜎̂ 𝑖ℓ 𝑆̃ 𝑧𝑧 𝑞×𝑞 𝜎̂ 𝑖ℓ 􏾜 𝑧𝑡ℎ 𝑧𝑡ℎ′
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
𝑆̂ = Σ̂ ⊗ 𝑆̃ 𝑧𝑧 𝑚𝑞 × 𝑚𝑞 𝑆̂ 𝑖ℓ
1 𝑛 1 1 𝑛
6 Não 𝑆̂ 𝑖ℓ = 􏾜 𝑢̂ 𝑡𝑖 𝑢̂ 𝑡ℓ 𝑥𝑇𝑡• 𝑥𝑡• = 𝐺̂ 𝑇𝑖 𝐺̂ 𝑖 𝑘×𝑘 􏾜 𝑢̂ 𝑡𝑖 𝑢̂ 𝑡ℓ 𝑥𝑡𝑗 𝑥𝑡𝑗′
𝑛 𝑡=􏷠 𝑛 𝑛 𝑡=􏷠
1 𝑛
𝑆̂ = 􏾜 (𝑢̂ 𝑇𝑡• 𝑢̂ 𝑡• ) ⊗ (𝑥𝑇𝑡• 𝑥𝑡• )
𝑛 𝑡=􏷠
𝑚𝑘 × 𝑚𝑘 𝑆̂ 𝑖ℓ
1
= 𝐺̂ 𝑇 𝐺̂
𝑛
1 𝑛 1 𝑛
Sim 𝑆̂ 𝑖ℓ = 𝜎̂ 𝑖ℓ 􏾜 𝑥𝑇𝑡• 𝑥𝑡• = 𝜎̂ 𝑖ℓ 𝑆̃ 𝑥𝑥 𝑘×𝑘 𝜎̂ 𝑖ℓ 􏾜 𝑥𝑡𝑗 𝑥𝑡𝑗′
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
𝑆̂ = Σ̂ ⊗ 𝑆̃ 𝑥𝑥 𝑚𝑘 × 𝑚𝑘 𝑆̂ 𝑖ℓ
Nota: 𝜎̂ 𝑖ℓ = (1/𝑛)Σ𝑛𝑡=􏷠 𝑢̂ 𝑡𝑖 𝑢̂ 𝑡ℓ ; Σ̂ = (1/𝑛)Σ𝑛𝑡=􏷠 𝑢̂ 𝑇𝑡• 𝑢̂ 𝑡• .
No quadro 5A.13 apresentam-se as referências das fórmulas dos vários estimadores

MGM, as respectivas matrizes de pesos, os respectivos modelos SER, referindo-se ainda
se o estimador é válido no contexto da heterocedasticidade ou da homocedasticidade
condicionada.
O quadro 5A.14 diz respeito às distribuições limite dos estimadores considerados
no quadro anterior, com indicação das referências das fórmulas das matrizes das cova-
riâncias assintóticas e dos respectivos estimadores.
Quadro 5A.13 — Estimadores e matrizes de pesos
Estimadores Matriz de pesos Modelos SER.6?

̂ = (5.15)
𝛽(̂ 𝑊) 𝑊̂ 1 Não
𝛽(̂ 𝑆̂ −􏷠 )=(5.25) 𝑆̂ −􏷠 = 𝑛(𝐺̂ 𝑇 𝐺)
̂ −􏷠 1 Não
𝛽(̂ 𝑊̂ 𝐷 )=(5.29) 𝑊̂ 𝐷 1 Não
𝛽̂SMQ =(5.31) Qualquer 2 Não
𝛽̂SMQGF =(5.42) (5.43) Qualquer 4 Não
𝛽̂SIV =(5.47) Qualquer 1 Não
𝛽̂SMQ2P =(5.52) 𝑆−􏷠
𝑧𝑧 1 Não
𝛽̂FIVE =(5.64) (5.65) (5.66) 𝑆̂ −􏷠 = 𝑛{𝑍𝑇 (Σ̂ ⊗ 𝐼𝑛 )𝑍}−􏷠 1 Sim
𝛽̂MQ3P =(5.78) (5.79) 𝑆̂ −􏷠 = Σ̂ −􏷠 ⊗ 𝑆̃ −􏷠
𝑧𝑧 3 Sim
𝛽̂SUR =(5.86) (5.43) 𝑆̂ −􏷠 = Σ̂ −􏷠 ⊗ 𝑆̃ −􏷠
𝑧𝑧 4 Sim
𝛽̂MQ =(5.91) 𝑆̂ −􏷠 = Σ̂ −􏷠 ⊗ 𝑆̃ −􏷠
𝑥𝑥 6 Sim
̂ =(5.98) (5.101) (5.102)
𝛽̂∗ (𝑊) 𝑊̂ 7 Não
𝛽̂∗ (𝑆̂ −􏷠 )=(5.98) (5.101) (5.102) [com 𝑆̂ −􏷠 ] 𝑆̂ −􏷠 = 𝑛(𝐺̂ 𝑇 𝐺)
̂ −􏷠 7 Não
𝛽̂∗FIVE =(5.98) (5.101) (5.102) [com 𝑆̂ −􏷠 ] 𝑆̂ −􏷠 = 𝑛{𝑍𝑇 (Σ̂ ⊗ 𝐼𝑛 )𝑍}−􏷠 7 Sim
𝛽̂∗MQ3P =(5.103) (5.104) (5.105) 𝑆̂ −􏷠 = Σ̂ −􏷠 ⊗ 𝑆̃ −􏷠
𝑧𝑧 8 Sim
𝛽̂∗SUR =(5.106) (5.107) (5.110) 𝑆̂ −􏷠 = Σ̂ −􏷠 ⊗ 𝑆̃ −􏷠
𝑧𝑧 9 Sim
𝛽̂PMQ =(5.113) (5.114) (5.118) 𝑆̂ −􏷠 = Σ̂ −􏷠 ⊗ 𝑆̃ −􏷠
𝑧𝑧 8 Sim
Quadro 5A.14 — Estimadores e distribuições limite
Estimadores Distribuições limite Cov𝑎 (⋅) 􏾩𝑎 (⋅)

Cov
̂
𝛽(̂ 𝑊) (5.18) (5.19) (5.22)
𝛽(̂ 𝑆̂ −􏷠 ) (5.18) c/𝑆̂ −􏷠 (5.26) (5.27)
𝛽(̂ 𝑊̂ 𝐷 ) (5.18) c/𝑊̂ 𝐷 (5.19) c/𝑊̂ 𝐷 (5.22) c/𝑊̂ 𝐷
𝛽̂SMQ (5.32) (5.33) (5.34)
𝛽̂SMQGF (5.44) (5.45) (5.46)
𝛽̂SIV (5.49) (5.50) (5.51)
𝛽̂SMQ2P (5.54) (5.55) (5.56)
𝛽̂FIVE (5.18) c/𝑆̂ −􏷠 (5.26) (5.67) (5.68)
𝛽̂MQ3P (5.18) c/𝑆̂ −􏷠 (5.80) (5.81)
𝛽̂SUR (5.18) c/𝑆̂ −􏷠 (5.87) (5.88) (5.89)
𝛽̂MQ (5.32) c/𝛽̂MQ (5.92) (5.93)
̂
𝛽̂∗ (𝑊) ̂
(5.18) c/𝛽̂∗ (𝑊) (5.19) (5.22)
𝛽̂∗ (𝑆̂ −􏷠 ) (5.18) c/𝛽̂∗ (𝑆̂ −􏷠 ) (5.26) (5.27)
𝛽̂∗FIVE (5.18) c/𝛽̂∗FIVE (5.26) (5.27)
𝛽̂∗MQ3P (5.18) c/𝛽̂∗MQ3P (5.80) (5.81)
𝛽̂∗SUR (5.18) c/𝛽̂∗SUR (5.108) (5.111) (5.109) (5.112)
𝛽̂PMQ (5.18) c/𝛽̂PMQ (5.115) (5.119) (5.116) (5.117) (5.120)
espaco
[5B]
Produto de Kronecker e
vectorização de matrizes
Neste anexo apresentam-se os conceitos de produto de Kronecker de duas matrizes e

de vectorização de uma matriz, e respectivas propriedades.
Definição 5B.1 (Produto de Kronecker de duas matrizes)

Sejam 𝐴 e 𝐵 duas matrizes de tipo 𝑚×𝑛 e 𝑝×𝑞, respectivamente. O produto de Kronecker
de 𝐴 por 𝐵 é uma matriz de tipo 𝑚𝑝 × 𝑛𝑞, que se representa por 𝐴 ⊗ 𝐵, e é tal que
⎡ 𝑎􏷠􏷠 𝐵 𝑎􏷠􏷡 𝐵 ⋯ 𝑎􏷠𝑛 𝐵 ⎤

⎢ 𝑎 𝐵 𝑎􏷡􏷡 𝐵 ⋯ 𝑎􏷡𝑛 𝐵 ⎥
𝐴 ⊗ 𝐵 = ⎢ 􏷡􏷠 ⎥. (5B.1)
⋮ ⋮ ⋮
⎢ ⎥
⎣ 𝑎𝑚􏷠 𝐵 𝑎𝑚􏷡 𝐵 ⋯ 𝑎𝑚𝑛 𝐵 ⎦
espaco
Assim, o produto de Kronecker de duas matrizes é uma matriz em que cada elemento
da primeira é multiplicado por todos os elementos da segunda, e estes produtos são
organizados de acordo com (5B.1).
O produto de Kronecker verifica as seguintes propriedades:
a) 𝐴 ⊗ (𝐵 + 𝐶) = (𝐴 ⊗ 𝐵) + (𝐴 ⊗ 𝐶);
b) (𝐴 ⊗ 𝐶) + (𝐵 ⊗ 𝐶) = (𝐴 + 𝐵) ⊗ 𝐶;
1017
1018 Anexo 5B Produto de Kronecker e vectorização de matrizes
c) (𝐴 ⊗ 𝐵) + (𝐴 ⊗ 𝐶) = 𝐴 ⊗ (𝐵 + 𝐶);
d) 𝜆(𝐴 ⊗ 𝐵) = (𝜆𝐴) ⊗ 𝐵 = 𝐴 ⊗ (𝜆𝐵);
e) (𝐴 ⊗ 𝐶)(𝐵 ⊗ 𝐷) = (𝐴𝐵) ⊗ (𝐶𝐷);
f) (𝐴 ⊗ 𝐵)𝑇 = 𝐴𝑇 ⊗ 𝐵𝑇 ;
g) (𝐴 ⊗ 𝐵)−􏷠 = 𝐴−􏷠 ⊗ 𝐵−􏷠 , onde 𝐴 e 𝐵 são matrizes quadradas;
h) tr(𝐴 ⊗ 𝐵) = tr(𝐴)tr(𝐵), onde 𝐴 e 𝐵 são matrizes quadradas;
i) | 𝐴 ⊗ 𝐵 | = | 𝐴 |𝑚 | 𝐵 |𝑚 , onde 𝐴 e 𝐵 são matrizes quadradas de ordem 𝑚 e 𝑛, respec-

tivamente;
j) Sejam 𝐴 e 𝐵 duas matrizes quadradas em que os pares (𝜆𝑗 , 𝑥•𝑗 ) e (𝜇𝑖 , 𝑦•𝑖 ) repre-
sentam, respectivamente, os valores próprios e os vectores próprios associados.
Então, os valores próprios de 𝐴 ⊗ 𝐵 são 𝜆𝑗 𝜇𝑖 , e os respectivos valores próprios são
dados por 𝑥•𝑗 ⊗ 𝑦•𝑖 .
Definição 5B.2 (Vectorização de uma matriz)

Seja 𝐴 uma matriz de tipo 𝑚 × 𝑛, onde 𝑎•𝑗 é a coluna genérica de 𝐴 (𝑗 = 1, 2, … , 𝑛). A
vectorização da matriz 𝐴 tem como resultado um vector 𝑚𝑛 × 1, que se representa por
Vec(𝐴), e é dado por
⎡ 𝑎•􏷠 ⎤
⎢ 𝑎 ⎥
Vec(𝐴) = ⎢ •􏷡 ⎥ . (5B.2)
⋮
⎢ ⎥
⎣ 𝑎•𝑛 ⎦
espaco
Assim, a vectorização de uma matriz 𝐴 consiste em dispor em coluna todos os elemen-

tos da matriz, começando pela primeira coluna de 𝐴 e terminando na última coluna.
A vectorização de matrizes verifica as seguintes propriedades:
a) Vec(𝐴𝐵𝐶) = (𝐶𝑇 ⊗ 𝐴)Vec(𝐵);
b) Vec(𝐴𝐵) = (𝐼𝑝 ⊗ 𝐴)Vec(𝐵) = (𝐵𝑇 ⊗ 𝐼𝑚 )Vec(𝐴), onde os tipos das matrizes 𝐴 e 𝐵 são
𝑚 × 𝑛 e 𝑛 × 𝑝, respectivamente;
c) Vec(𝐴𝐵𝐶) = (𝐼𝑞 ⊗ 𝐴𝐵)Vec(𝐶) = (𝐶𝑇 𝐵𝑇 ⊗ 𝐼𝑛 )Vec(𝐴), onde 𝐴, 𝐵 e 𝐶 são matrizes de

tipo 𝑚 × 𝑛, 𝑛 × 𝑝 e 𝑝 × 𝑞, respectivamente;
d) tr(𝐴𝐵) = Vec(𝐵𝑇 )𝑇 Vec(𝐴) = Vec(𝐴𝑇 )𝑇 Vec(𝐵);

Produto de Kronecker e vectorização de matrizes 1019
e) Se 𝐴, 𝐵 e 𝐶 são matrizes de tipo 𝑚 × 𝑛, 𝑛 × 𝑝 e 𝑝 × 𝑞, respectivamente, então
tr(𝐴𝐵𝐶) = Vec(𝐴𝑇 )𝑇 (𝐶𝑇 ⊗ 𝐼𝑛 )Vec(𝐵)

= Vec(𝐴𝑇 )𝑇 (𝐼𝑚 ⊗ 𝐵)Vec(𝐶)
= Vec(𝐵𝑇 )𝑇 (𝐴𝑇 ⊗ 𝐼𝑝 )Vec(𝐶)
;
= Vec(𝐵𝑇 )𝑇 (𝐼𝑛 ⊗ 𝐶)Vec(𝐴)
= Vec(𝐶𝑇 )𝑇 (𝐵𝑇 ⊗ 𝐼𝑚 )Vec(𝐴)
= Vec(𝐶𝑇 )𝑇 (𝐼𝑝 ⊗ 𝐴)Vec(𝐵);
f) Se 𝐴 e 𝐵 são matrizes de tipo 𝑚 × 𝑛, e 𝐶 e 𝐷 são matrizes de tipo 𝑛 × 𝑝, então
Vec{(𝐴 + 𝐵)(𝐶 + 𝐷)} = {(𝐼𝑝 ⊗ 𝐴) + (𝐼𝑝 ⊗ 𝐵)}{Vec(𝐶) + Vec(𝐷)}

= {(𝐶𝑇 ⊗ 𝐼𝑚 ) + (𝐷𝑇 ⊗ 𝐼𝑚 )}{Vec(𝐴) + Vec(𝐵)}.
[7A]
Complementos
7A.1 Construção do vector dos regressores não constantes a partir

do vector z•i
Recorde-se que: 𝑓𝑡𝑖• é o vector 1 × 𝑘􏷠 dos regressores não constantes; 𝑧•𝑖 é o vector 𝑞 × 1
formado por todos os elementos de 𝑥𝑡𝑖• . Como 𝑥𝑡𝑖• = [ 𝑓𝑡𝑖• ℎ𝑖• ], pode escrever-se
𝑧𝑇•𝑖 = 􏿮 𝑓􏷠𝑖• 𝑓􏷡𝑖• ⋯ 𝑓𝑝𝑖• ℎ𝑖• 􏿱 ,
onde 𝑞 = 𝑝 𝑘􏷠 + 𝑘􏷡 . Considerando as matrizes 𝑞 × 𝑘􏷠
𝑒•𝑡 ⊗ 𝐼𝑘􏷪
𝐽𝑡 = 􏿰 􏿳 (𝑡 = 1, 2, … , 𝑝),
𝑂
onde 𝑒•𝑡 (vector 𝑝 × 1) é a coluna 𝑡 da matriz 𝐼𝑝 , pode «extrair-se» 𝑓𝑡𝑖• de 𝑧𝑇•𝑖 , fazendo
𝑓𝑡𝑖• = 𝑧𝑇•𝑖 𝐽𝑡 (𝑡 = 1, 2, … , 𝑝).
Seja a matriz 𝑝𝑞 × 𝑘􏷠
⎡ 𝐽􏷠 ⎤
⎢ ⋮ ⎥
𝐽=⎢ 𝐽𝑡 ⎥.
⎢ ⋮ ⎥
⎢ ⎥
⎣ 𝐽𝑝 ⎦
Então,
𝐹•𝑖 = (𝐼𝑝 ⊗ 𝑧𝑇•𝑖 ) 𝐽.
1021
1022 Anexo 7A Complementos
7A.2 Hipóteses para que o estimador EF seja BLUE

Começa-se por considerar um conjunto de hipóteses que permitem concluir que, em
particular, os regressores não constantes para a unidade seccional i são estritamente
exógenos. As hipóteses são as seguintes:
a) O processo {(𝑦•𝑖 , 𝐹•𝑖 ) ∶ 𝑖 = 1, 2, …} é iid;
b) 𝐸(𝑣•𝑖 |𝐹•𝑖 ) = 𝟎;
c) 𝐸(𝑣•𝑖 𝑣𝑇•𝑖 |𝐹•𝑖 ) = 𝜎􏷡𝑣 𝐼𝑝 (esfericidade condicionada dos choques);
d) A matriz dos regressores de (7.63), 𝑊 = [ 𝐷 𝐹 ] de tipo 𝑚𝑝 × (𝑚 + 𝑘􏷠 ), tem carac-

terística igual a 𝑚 + 𝑘􏷠 .
Facilmente se verifica que os regressores não constantes para a unidade seccional i são
estritamente exógenos: 𝐸(𝑣•𝑖 |𝐹•􏷠 , 𝐹•􏷡 , …) = 𝟎. Com efeito, basta invocar a hipótese b), e
notar que a hipótese a) implica que (𝑣•𝑖 , 𝐹•𝑖 ) é independente de 𝐹•ℓ , para ℓ ≠ 𝑖. Assim,
𝐸(𝑣•𝑖 |𝐹•􏷠 , 𝐹•􏷡 , …) = 𝐸(𝑣•𝑖 |𝐹•𝑖 ) = 𝟎.
Quando se considera a relação 𝑌 = 𝐷𝛼+𝐹𝜙+𝑉 , conclui-se também, sem dificuldade,
que 𝐸(𝑉|𝑊) = 𝟎, ou que 𝐸(𝑣•𝑖 |𝑊) = 𝟎 (𝑖 = 1, 2, … , 𝑚). Com efeito, notando que 𝐷 é uma
matriz de constantes, e pelas razões já referidas, tem-se
𝐸(𝑣•𝑖 |𝑊) = 𝐸(𝑣•𝑖 |𝐹) = 𝐸(𝑣•𝑖 |𝐹•􏷠 , 𝐹•􏷡 , … , 𝐹•𝑚 ) = 𝐸(𝑣•𝑖 |𝐹•𝑖 ) = 𝟎.
De forma semelhante, as hipóteses a) e c) permitem provar que
𝐸(𝑣•𝑖 𝑣𝑇•𝑖 |𝐹•􏷠 , 𝐹•􏷡 , …) = 𝜎􏷡𝑣 𝐼𝑝 e 𝐸(𝑣•𝑖 𝑣𝑇•𝑖 |𝑊) = 𝜎􏷡𝑣 𝐼𝑝 .
Vai demonstrar-se, a seguir, que 𝐸(𝑣•𝑖 𝑣𝑇•ℓ |𝐹•􏷠 , 𝐹•􏷡 , …) = 𝑂. Como, devido à hipótese a),
(𝑣•𝑖 , 𝐹•𝑖 , 𝑣•ℓ , 𝐹•ℓ ) é independente de 𝐹•ℎ , para ℎ ≠ 𝑖, ℓ, vem
𝐸(𝑣•𝑖 𝑣𝑇•ℓ |𝐹•􏷠 , 𝐹•􏷡 , …) = 𝐸(𝑣•𝑖 𝑣𝑇•ℓ |𝐹•𝑖 , 𝐹•ℓ ).
Então,
𝐸(𝑣•𝑖 𝑣𝑇•ℓ |𝐹•𝑖 , 𝐹•ℓ ) = 𝐸{𝐸(𝑣•𝑖 𝑣𝑇•ℓ |𝐹•𝑖 , 𝐹•ℓ , 𝑣•𝑖 )|𝐹•𝑖 , 𝐹•ℓ }
= 𝐸{𝑣•𝑖 𝐸(𝑣𝑇•ℓ |𝐹•𝑖 , 𝐹•ℓ , 𝑣•𝑖 )|𝐹•𝑖 , 𝐹•ℓ }
= 𝐸{𝑣•𝑖 𝐸(𝑣𝑇•ℓ |𝐹•ℓ )|𝐹•𝑖 , 𝐹•ℓ },
pois (𝑣•𝑖 , 𝐹•𝑖 ) é independente de (𝑣•ℓ , 𝐹•ℓ ). A hipótese b) permite concluir a demonstra-
ção.
Obtém-se, também, 𝐸(𝑣•𝑖 𝑣𝑇•ℓ |𝑊) = 𝑂, e, portanto, 𝐸(𝑉 𝑉 𝑇 |𝑊) = 𝜎􏷡𝑣 𝐼𝑚𝑝 .
Demonstração das propriedades assintóticas do estimador EF 1023
A hipótese d) permite determinar os estimadores MQ de 𝛼 e de 𝜙, que coincidem,

como se sabe, com os respectivos estimadores EF. As consequências que se deduziram
das quatro hipóteses [a) a d)], com particular relevo para a exogeneidade estrita, levam
à conclusão de que estes estimadores são BLUE.
7A.3 Demonstração das propriedades assintóticas do estimador EF

As propriedades do estimador EF com homocedasticidade condicionada podem de-
monstrar-se directamente, a partir do erro de amostragem (7.58),
−􏷠
1 𝑚 1 𝑚
𝜙̂ EF − 𝜙 = 􏿶 􏾜 (𝐹•𝑖
𝑐 𝑇 𝑐 𝑐 𝑇 𝑐
) 𝐹•𝑖 􏿹 􏿶 􏾜 (𝐹•𝑖 ) 𝑣•𝑖 􏿹 .
𝑚 𝑖=􏷠 𝑚 𝑖=􏷠
Para provar (7.65), tem de verificar-se que a matriz 𝐸{(𝐹•𝑖 ) 𝐹•𝑖 } tem inversa, e que
𝑐 𝑇 𝑐
𝐸{(𝐹•𝑖 ) 𝑣•𝑖 } = 𝟎. Nestas circunstâncias, tem-se

𝑐 𝑇 𝑐
plim(𝜙̂ EF ) = 𝜙 + 𝐸{(𝐹•𝑖
𝑐 𝑇 𝑐 −􏷠 𝑐 𝑇 𝑐
) 𝐹•𝑖 } 𝐸{(𝐹•𝑖 ) 𝑣•𝑖 } = 𝜙.
Em primeiro lugar, vai demonstrar-se que MENO.4 implica que 𝐸{(𝐹•𝑖 ) 𝐹•𝑖 } tem inversa.
𝑐 𝑇 𝑐

𝑐 𝑇 𝑐 𝑇 𝑝 𝑝 𝑇
𝐸{(𝐹•𝑖 ) 𝐹•𝑖 } = 𝐸{𝐹•𝑖 𝑃𝑒 𝐹•𝑖 } = 􏾜 􏾜 𝑐𝑡𝑠 𝐸(𝑓𝑡𝑖• 𝑓𝑠𝑖• ),
𝑡=􏷠 𝑠=􏷠
em que 𝑐𝑡𝑠 é o elemento genérico de 𝑃𝑒 , e

𝑇 𝑇 𝑇
𝐸(𝑓𝑡𝑖• 𝑓𝑠𝑖• ) = 𝐸(𝑓𝑡𝑖• 𝑧•𝑖 )𝐸(𝑧•𝑖 𝑧𝑇•𝑖 )−􏷠 𝐸(𝑧•𝑖 𝑓𝑠𝑖• ),
uma vez que todos os elementos dos 𝑓𝑡𝑖• estão incluídos em 𝑧•𝑖 (ver exemplo 7.8).
Como o produto de uma coluna por uma linha é igual ao produto de Kronecker da
linha pela coluna, tem-se 𝑧•𝑖 𝑓𝑡𝑖• = 𝑓𝑡𝑖• ⊗ 𝑧•𝑖 . Então,
𝑐 𝑇 𝑐 𝑝 𝑝 𝑇 𝑇
𝐸{(𝐹•𝑖 ) 𝐹•𝑖 } = 􏾜 􏾜 𝑐𝑡𝑠 𝐸(𝑓𝑡𝑖• 𝑧•𝑖 ) 𝑄−􏷠
𝑧𝑧 𝐸(𝑧•𝑖 𝑓𝑠𝑖• )
𝑡=􏷠 𝑠=􏷠
𝑝 𝑝
=􏾜 􏾜 𝑐𝑡𝑠 𝐸(𝑓𝑡𝑖• ⊗ 𝑧•𝑖 )𝑇 𝑄−􏷠
𝑧𝑧 𝐸(𝑓𝑠𝑖• ⊗ 𝑧•𝑖 ),
𝑡=􏷠 𝑠=􏷠
ou
𝑐 𝑇 𝑐
𝐸{(𝐹•𝑖 ) 𝐹•𝑖 } = 𝐸(𝐹•𝑖 ⊗ 𝑧•𝑖 )𝑇 (𝑃𝑒 ⊗ 𝑄−􏷠
𝑧𝑧 )𝐸(𝐹•𝑖 ⊗ 𝑧•𝑖 )
= 𝐸(𝑃𝑒 𝐹•𝑖 ⊗ 𝑧•𝑖 )𝑇 (𝐼𝑝 ⊗ 𝑄−􏷠

𝑧𝑧 )𝐸(𝑃𝑒 𝐹•𝑖 ⊗ 𝑧•𝑖 )
𝑐 𝑐
= 𝐸(𝐹•𝑖 ⊗ 𝑧•𝑖 )𝑇 (𝐼𝑝 ⊗ 𝑄−􏷠
𝑧𝑧 )𝐸(𝐹•𝑖 ⊗ 𝑧•𝑖 )
= (𝑄𝑐𝑧𝑓 )𝑇 (𝐼𝑝 ⊗ 𝑄−􏷠 𝑐

𝑧𝑧 )𝑄𝑧𝑓 ,
onde 𝑄𝑐𝑧𝑓 = 𝐸(𝐹•𝑖

𝑐
⊗ 𝑧•𝑖 ). Logo, 𝐸{(𝐹•𝑖 ) 𝐹•𝑖 } é não singular.
𝑐 𝑇 𝑐
A seguir vai provar-se que 𝐸{(𝐹•𝑖 ) 𝑣•𝑖 } = 𝟎. Com efeito,

𝑐 𝑇 𝑐
𝑐 𝑇 𝑐 𝑇 𝑝 𝑝 𝑇 𝑝 𝑝 𝑇
𝐸{(𝐹•𝑖 ) 𝑣•𝑖 } = 𝐸(𝐹•𝑖 𝑃𝑒 𝑣•𝑖 ) = 𝐸 􏿵􏾜 􏾜 𝑐𝑡𝑠 𝑓𝑡𝑖• 𝑣𝑠𝑖 􏿸 = 􏾜 􏾜 𝑐𝑡𝑠 𝐸(𝑓𝑡𝑖• 𝑣𝑠𝑖 ) = 𝟎,
𝑡=􏷠 𝑠=􏷠 𝑡=􏷠 𝑠=􏷠
pois, devido a (7.54), 𝐸(𝑓𝑡𝑖• 𝑇

𝑣𝑠𝑖 ) = 𝟎 [deve ficar claro que as ortogonalidades cruzadas,
𝐸(𝑓𝑡𝑖• 𝑣𝑠𝑖 ) = 𝟎 para 𝑡 ≠ 𝑠, são indispensáveis para provar a consistência de 𝜙̂ EF ].
𝑇
Facilmente se conclui que as hipóteses do modelo implicam (7.66), em que
Cov𝑎 (𝜙̂ EF ) = 𝐸{(𝐹•𝑖

𝑐 𝑇 𝑐 −􏷠 𝑐 𝑇 𝑐
) 𝐹•𝑖 } 𝐸 {(𝐹•𝑖 ) 𝑣•𝑖 (𝑣𝑐•𝑖 )𝑇 𝐹•𝑖
𝑐 𝑐 𝑇 𝑐 −􏷠
} 𝐸{(𝐹•𝑖 ) 𝐹•𝑖 } .
Para provar (7.67), começa por notar-se que

𝑐 𝑇 𝑐
𝐸 {(𝐹•𝑖 ) 𝑣•𝑖 (𝑣𝑐•𝑖 )𝑇 𝐹•𝑖
𝑐 𝑐 𝑇 𝑐
} = 𝐸 􏿮𝐸{(𝐹•𝑖 ) 𝑣•𝑖 (𝑣𝑐•𝑖 )𝑇 𝐹•𝑖
𝑐
|𝑧•𝑖 }􏿱
𝑐 𝑇
= 𝐸 􏿮(𝐹•𝑖 ) 𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 |𝑧•𝑖 }𝐹•𝑖
𝑐
􏿱,
porque 𝑧•𝑖 abrange todos os elementos dos 𝑓𝑡𝑖• . Falta demonstrar que 𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 |𝑧•𝑖 } não
depende de 𝑧•𝑖 . Como 𝑣𝑐•𝑖 = 𝑃𝑒 𝑣•𝑖 = 𝑃𝑒 (𝑒𝑝 𝛼𝑖 + 𝑣•𝑖 ) = 𝑃𝑒 𝑢•𝑖 = 𝑢𝑐•𝑖 , tem-se
𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 |𝑧•𝑖 } = 𝐸{𝑢𝑐•𝑖 (𝑢𝑐•𝑖 )𝑇 |𝑧•𝑖 } = 𝑃𝑒 𝐸(𝑢•𝑖 𝑢𝑇•𝑖 |𝑧•𝑖 )𝑃𝑒
= 𝑃𝑒 𝐸(𝑢•𝑖 𝑢𝑇•𝑖 )𝑃𝑒 = 𝐸{𝑢𝑐•𝑖 (𝑢𝑐•𝑖 )𝑇 } = 𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 }.
A matriz 𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 } é singular. Com efeito, tem-se 𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 } = 𝑃𝑒 Σ 𝑃𝑒 , onde 𝑣𝑐•𝑖 = 𝑃𝑒 𝑢•𝑖
e Σ = 𝐸(𝑢•𝑖 𝑢𝑇•𝑖 ). Então, como 𝑃𝑒 é singular, conclui-se que 𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 } também é singular.
A seguir, vai demonstrar-se que
𝑐 𝑇
𝐸 􏿮(𝐹•𝑖 ) 𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 }𝐹•𝑖
𝑐
􏿱
é invertível. Com efeito, notando que 𝑣𝑐•𝑖 = 𝑃𝑒 𝑢•𝑖 , vem

𝑐 𝑇
𝐸 􏿮(𝐹•𝑖 ) 𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 }𝐹•𝑖
𝑐 𝑐 𝑇
􏿱 = 𝐸 {(𝐹•𝑖 𝑐
) 𝑃𝑒 𝐸(𝑢•𝑖 𝑢𝑇•𝑖 )𝑃𝑒 𝐹•𝑖 𝑐 𝑇
} = 𝐸 {(𝐹•𝑖 𝑐
) 𝐸(𝑢•𝑖 𝑢𝑇•𝑖 )𝐹•𝑖 }
𝑐 𝑇 𝑐 𝑐 𝑐
= 𝐸 {(𝐹•𝑖 ) Σ 𝐹•𝑖 } = 𝐸 (𝐹•𝑖 ⊗ 𝑧•𝑖 )𝑇 {Σ ⊗ 𝐸(𝑧•𝑖 𝑧𝑇•𝑖 )−􏷠 } 𝐸 (𝐹•𝑖 ⊗ 𝑧•𝑖 )
= (𝑄𝑐𝑧𝑓 )𝑇 (Σ ⊗ 𝑄−􏷠 𝑐
𝑧𝑧 ) 𝑄𝑧𝑓 .
Como 𝑟(𝑄𝑐𝑧𝑓 ) = 𝑘􏷠 e existe Σ−􏷠 , o resultado está provado.

Vai provar-se que 𝑉̂ , dado por (7.69), é estimador consistente de 𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 }. Para
isso, basta invocar a propriedade 5.1 (ver capítulo 5), e verificar as hipóteses desta pro-
priedade. Obviamente, no contexto do sistema 𝑦𝑐𝑡𝑖 = 𝑓𝑡𝑖• 𝑐
𝜙 + 𝑣𝑐𝑡𝑖 (𝑡 = 1, 2, … , 𝑝), são ver-
dadeiras as hipóteses MCDP.1 e MCDP.3 porque, respectivamente, o modelo é linear
em relação a 𝜙, e o processo {(𝑦𝑐𝑡𝑖 , 𝑓𝑡𝑖•
𝑐
) ∶ 𝑖 = 1, 2, …} é iid. Falta, então, provar a terceira
condição, ou seja, que existe 𝐸{(𝑓𝑡𝑖• ) 𝑓𝑠𝑖• }. Como 𝑓𝑡𝑖•
𝑐 𝑇 𝑐 𝑇
é uma transformação linear de 𝑧•𝑖 ,
𝑓𝑡𝑖• = 𝐽𝑡 𝑧•𝑖 , tem-se
𝑇 𝑇
𝑇
𝐸(𝑓𝑡𝑖• 𝑓𝑠𝑖• ) = 𝐽𝑡𝑇 𝐸(𝑧•𝑖 𝑧𝑇•𝑖 )𝐽𝑠 .
Como 𝐹•𝑖
𝑐
= 𝑃𝑒 𝐹•𝑖 , também existe 𝐸{(𝑓𝑡𝑖• ) 𝑓𝑠𝑖• }. Pode, então, concluir-se que
𝑐 𝑇 𝑐
̂ = 𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 }.
plim(𝑉)
As propriedades do estimador EF podem provar-se indirectamente, demonstrando que
este estimador é um estimador MGM.
Para isso, começa-se por considerar uma matriz 𝐴, de tipo 𝑝 × (𝑝 − 1), a verificar as
seguintes condições: a) 𝑟(𝐴) = 𝑝 − 1 (as colunas de 𝐴 são linearmente independentes);
b) 𝐴𝑇 𝑒𝑝 = 𝟎.
Um exemplo importante é a matriz das primeiras diferenças,
⎡ −1 0 ⋯ 0 0 ⎤
⎢ 1 −1 ⋯ 0 0 ⎥
⎢ ⎥
0 1 ⋯ 0 0
⎢ ⎥
𝐴=⎢ ⋮ ⋮ ⋮ ⋮ ⎥.
⎢ 0 0 ⋯ −1 0 ⎥
⎢ 0 0 ⋯ 1 −1 ⎥
⎢ 0 0 ⋯ 0 1 ⎥
⎣ ⎦
Por exemplo, tem-se
⎡ 𝑦􏷠𝑖 ⎤
⎢ 𝑦􏷡𝑖 ⎥
⎡ −1 1 0 ⋯ 0 0 0 ⎤ ⎡ 𝑦􏷡𝑖 − 𝑦􏷠𝑖 ⎤
⎢ ⎥
⎢ 0 −1 1 ⋯ 0 0 0 ⎥ 𝑦􏷢𝑖 ⎢ 𝑦􏷢𝑖 − 𝑦􏷡𝑖 ⎥
⎢ ⎥
𝐴𝑇 𝑦•𝑖 = ⎢ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⎥
⎢ ⋮ ⎥ = ⎢ ⋮ ⎥.
⎢ 0 0 0 ⋯ −1 1 0 ⎥ 𝑦𝑝−􏷡,𝑖 ⎢ 𝑦 − 𝑦𝑝−􏷡,𝑖 ⎥
⎢ ⎥
⎢ ⎥ ⎢ 𝑝−􏷠,𝑖 ⎥
⎣ 0 0 0 ⋯ 0 −1 1 ⎦ ⎢ 𝑦𝑝−􏷠,𝑖⎥ ⎣ 𝑦𝑝𝑖 − 𝑦𝑝−􏷠,𝑖 ⎦
⎢ 𝑦𝑝𝑖 ⎥
⎣ ⎦
Outro caso importante de matriz 𝐴 é a matriz 𝑃𝑒 eliminando, por exemplo, a última
coluna,
⎡ 1 − (1/𝑝) −(1/𝑝) ⋯ −(1/𝑝) ⎤
⎢ −(1/𝑝) 1 − (1/𝑝) ⋯ −(1/𝑝) ⎥
𝐴=⎢ ⋮ ⋮ ⋮ ⎥.
⎢ −(1/𝑝) −(1/𝑝) ⋯ 1 − (1/𝑝) ⎥
⎢ ⎥
⎣ −(1/𝑝) −(1/𝑝) ⋯ −(1/𝑝) ⎦
Por exemplo,
⎡ 𝑦􏷠𝑖 ⎤ ⎡ 𝑦 −𝑦 ⎤
⎡ 1 − (1/𝑝) −(1/𝑝) ⋯ −(1/𝑝) −(1/𝑝) ⎤ 􏷠𝑖 𝑖 ⎥
⎢ 𝑦􏷡𝑖 ⎥ ⎢
⎢ −(1/𝑝) 1 − (1/𝑝) ⋯ −(1/𝑝) −(1/𝑝) ⎥
𝑇
𝐴 𝑦•𝑖 = ⎢ ⎢ ⋮ ⎥ = ⎢ 􏷡𝑖 − 𝑦𝑖 ⎥ .
𝑦
⋮ ⋮ ⋮ ⋮ ⎥ ⋮
⎢ ⎥ ⎢ ⎥
⎢ ⎥ 𝑦𝑝−􏷠,𝑖
⎣ −(1/𝑝) −(1/𝑝) ⋯ 1 − (1/𝑝) −(1/𝑝) ⎦⎢ 𝑦 ⎥ ⎢ 𝑦𝑝−􏷠,𝑖 − 𝑦 ⎥
𝑖 ⎦
⎣ 𝑝𝑖 ⎦ ⎣
Considere-se o modelo (7.51). Multiplicando ambos os membros por 𝐴𝑇 , vem

𝐴𝑇 𝑦•𝑖 = 𝐴𝑇 𝐹•𝑖 𝜙 + 𝐴𝑇 𝑒𝑝 ℎ𝑖• 𝜂 + 𝐴𝑇 𝑒𝑝 𝛼𝑖 + 𝐴𝑇 𝑣•𝑖 ⇔ 𝑦𝑎•𝑖 = 𝐹•𝑖
𝑎
𝜙 + 𝑣𝑎•𝑖 ,
onde: 𝑦𝑎•𝑖 = 𝐴𝑇 𝑦•𝑖 é um vector (𝑝 − 1) × 1; 𝐹•𝑖 𝑎
= 𝐴𝑇 𝐹•𝑖 é uma matriz de tipo (𝑝 − 1) × 𝑘􏷠 ;
𝑣•𝑖 = 𝐴 𝑣•𝑖 é um vector (𝑝−1)×1. Em particular, o sistema de 𝑝−1 equações de regressão,
𝑎 𝑇
𝑦𝑎•𝑖 = 𝐹•𝑖
𝑎
𝜙 + 𝑣𝑎•𝑖 , é o modelo com primeiras diferenças.
Suponha-se que o sistema (7.51) é um modelo com componentes do erro (MCE)
[verifica MENO.1’, MENO.2, MENO.3, MCDP.4, MENO.4, MCDP.5 e MCDP.6]. Vai
provar-se que o sistema 𝑦𝑎•𝑖 = 𝐹•𝑖 𝑎
𝜙 + 𝑣𝑎•𝑖 é um modelo clássico de dados de painel, ou
seja, verifica as hipóteses MCDP.1 a MCDP.6:
1) MCDP.1 (linearidade).
É imediato, porque 𝑦𝑎•𝑖 = 𝐹•𝑖
𝑎
𝜙 + 𝑣𝑎•𝑖 .
2) MCDP.2 (amostragem casual): {(𝑦𝑎•𝑖 , 𝐹•𝑖
𝑎
) ∶ 𝑖 = 1, 2, …} é iid.
Basta notar que {(𝑦•𝑖 , 𝐹•𝑖 , ℎ𝑇𝑖• ) ∶ 𝑖 = 1, 2, …} é iid.
3) MCDP.3 (ortogonalidade): 𝐸(𝑔𝑎•𝑖 ) = 𝐸(𝑣𝑎•𝑖 ⊗ 𝑧•𝑖 ) = 𝟎, em que 𝑔𝑎•𝑖 = 𝑣𝑎•𝑖 ⊗ 𝑧•𝑖 é um
vector (𝑝 − 1)𝑞 × 1.
Com efeito,
𝐸(𝑣𝑎•𝑖 ⊗ 𝑧•𝑖 ) = 𝐸(𝐴𝑇 𝑣•𝑖 ⊗ 𝑧•𝑖 ) = 𝐸{(𝐴𝑇 ⊗ 𝐼𝑞 )(𝑣•𝑖 ⊗ 𝑧•𝑖 )} = (𝐴𝑇 ⊗ 𝐼𝑞 )𝐸(𝑣•𝑖 ⊗ 𝑧•𝑖 ) = 𝟎,
uma vez que 𝐸(𝑣•𝑖 ⊗ 𝑧•𝑖 ) = 𝟎.
4) MCDP.4: 𝑄𝑎𝑧𝑓 = 𝐸(𝐹•𝑖
𝑎
⊗ 𝑧•𝑖 ), de tipo (𝑝 − 1)𝑞 × 𝑘􏷠 , existe e verifica 𝑟(𝑄𝑎𝑧𝑓 ) = 𝑘􏷠 .
Com efeito, como 𝑟(𝑄𝑐𝑧𝑓 ) = 𝑘􏷠 , basta provar que 𝑟(𝑄𝑎𝑧𝑓 ) = 𝑟(𝑄𝑐𝑧𝑓 ). Começa-se por
notar que existe uma matriz 𝐿, 𝑝 × (𝑝 − 1), tal que 𝑟(𝐿) = 𝑝 − 1 e 𝑃𝑒 = 𝐿𝐴𝑇 ; esta
matriz é 𝐴(𝐴𝑇 𝐴)−􏷠 pois pode demonstrar-se que 𝐴(𝐴𝑇 𝐴)−􏷠 𝐴𝑇 = 𝑃𝑒 .
Como
𝑐
𝑄𝑐𝑧𝑓 = 𝐸(𝐹•𝑖 𝑎
⊗ 𝑧•𝑖 ) = 𝐸(𝑃𝑒 𝐹•𝑖 ⊗ 𝑧•𝑖 ) = 𝐸(𝐿𝐴𝑇 𝐹•𝑖 ⊗ 𝑧•𝑖 ) = 𝐸(𝐿𝐹•𝑖 ⊗ 𝑧•𝑖 )
𝑎 𝑎
= 𝐸{(𝐿 ⊗ 𝐼𝑞 )(𝐹•𝑖 ⊗ 𝑧•𝑖 )} = (𝐿 ⊗ 𝐼𝑞 )𝐸(𝐹•𝑖 ⊗ 𝑧•𝑖 )
= (𝐿 ⊗ 𝐼𝑞 )𝑄𝑎𝑧𝑓 ,
vem 𝑟(𝑄𝑐𝑧𝑓 ) ≤ 𝑟(𝑄𝑎𝑧𝑓 ). Seja
(𝐿𝑇 ⊗ 𝐼𝑞 )𝑄𝑐𝑧𝑓 = (𝐿𝑇 ⊗ 𝐼𝑞 )(𝐿 ⊗ 𝐼𝑞 )𝑄𝑎𝑧𝑓 .
Como (𝐿𝑇 ⊗ 𝐼𝑞 )(𝐿 ⊗ 𝐼𝑞 ) é não singular, tem-se
𝑟(𝑄𝑎𝑧𝑓 ) = 𝑟{(𝐿𝑇 ⊗ 𝐼𝑞 )(𝐿 ⊗ 𝐼𝑞 )𝑄𝑎𝑧𝑓 } = 𝑟{(𝐿𝑇 ⊗ 𝐼𝑞 )𝑄𝑐𝑧𝑓 } ≤ 𝑟(𝑄𝑐𝑧𝑓 ).
Então, 𝑟(𝑄𝑎𝑧𝑓 ) = 𝑟(𝑄𝑐𝑧𝑓 ) = 𝑘􏷠 .
5) MCDP.5 (existência e não singularidade da matriz 𝑆): a matriz (𝑝 − 1) × (𝑝 − 1),
𝑆𝑎 = 𝐸{𝑔𝑎•𝑖 (𝑔𝑎•𝑖 )𝑇 } = 𝐸 􏿮{𝑣𝑎•𝑖 (𝑣𝑎•𝑖 )𝑇 } ⊗ (𝑧•𝑖 𝑧𝑇•𝑖 )􏿱

Com efeito, sabendo que 𝑢•𝑖 = 𝑒𝑝 𝛼𝑖 + 𝑣•𝑖 , obtém-se
𝑔𝑎•𝑖 (𝑔𝑎•𝑖 )𝑇 = {𝑣𝑎•𝑖 (𝑣𝑎•𝑖 )𝑇 } ⊗ (𝑧•𝑖 𝑧𝑇•𝑖 ) = {𝐴𝑇 (𝑒𝑝 𝛼𝑖 + 𝑣•𝑖 )(𝑒𝑝 𝛼𝑖 + 𝑣•𝑖 )𝑇 𝐴} ⊗ (𝑧•𝑖 𝑧𝑇•𝑖 )
= (𝐴𝑇 𝑢•𝑖 𝑢𝑇•𝑖 𝐴) ⊗ (𝑧•𝑖 𝑧𝑇•𝑖 ) = (𝐴𝑇 ⊗ 𝐼𝑞 )(𝑢•𝑖 𝑢𝑇•𝑖 ⊗ 𝑧•𝑖 𝑧𝑇•𝑖 )(𝐴 ⊗ 𝐼𝑞 ).
Logo,
𝑆𝑎 = (𝐴𝑇 ⊗ 𝐼𝑞 )𝐸(𝑢•𝑖 𝑢𝑇•𝑖 ⊗ 𝑧•𝑖 𝑧𝑇•𝑖 )(𝐴 ⊗ 𝐼𝑞 ) = (𝐴𝑇 ⊗ 𝐼𝑞 ) 𝑆 (𝐴 ⊗ 𝐼𝑞 ).
Como 𝑟(𝐴) = 𝑝 − 1, conclui-se que 𝑟(𝐴 ⊗ 𝐼𝑞 ) = 𝑟(𝐴𝑇 ⊗ 𝐼𝑞 ) = (𝑝 − 1)𝑞, e, portanto, a
matriz 𝑆𝑎 tem inversa.
6) MCDP.6 (homocedasticidade condicionada): 𝐸{𝑣𝑎•𝑖 (𝑣𝑎•𝑖 )𝑇 |𝑧•𝑖 } = 𝐸{𝑣𝑎•𝑖 (𝑣𝑎•𝑖 )𝑇 } = Σ𝑎 é

não singular.
Como 𝑣𝑎•𝑖 (𝑣𝑎•𝑖 )𝑇 = 𝐴𝑇 𝑢•𝑖 𝑢𝑇•𝑖 𝐴, e atendendo a que 𝐸(𝑢•𝑖 𝑢𝑇•𝑖 |𝑧•𝑖 ) = Σ, vem
𝐸{𝑣𝑎•𝑖 (𝑣𝑎•𝑖 )𝑇 |𝑧•𝑖 } = 𝐸(𝐴𝑇 𝑢•𝑖 𝑢𝑇•𝑖 𝐴|𝑧•𝑖 ) = 𝐴𝑇 𝐸(𝑢•𝑖 𝑢𝑇•𝑖 |𝑧•𝑖 )𝐴 = 𝐴𝑇 Σ𝐴 = Σ𝑎 .
Note-se, sob a hipótese da homocedasticidade condicionada, a matriz 𝑆𝑎 é mais

simples. Com efeito, tem-se
𝑆𝑎 = 𝐸 􏿺𝐸 􏿮{𝑣𝑎•𝑖 (𝑣𝑎•𝑖 )𝑇 } ⊗ (𝑧•𝑖 𝑧𝑇•𝑖 )|𝑧•𝑖 􏿱􏿽

= 𝐸 􏿺𝐸 􏿮{𝑣𝑎•𝑖 (𝑣𝑎•𝑖 )𝑇 }|𝑧•𝑖 􏿱 ⊗ (𝑧•𝑖 𝑧𝑇•𝑖 )􏿽
= 𝐸{Σ𝑎 ⊗ (𝑧•𝑖 𝑧𝑇•𝑖 )} = Σ𝑎 ⊗ 𝐸(𝑧•𝑖 𝑧𝑇•𝑖 ) = Σ𝑎 ⊗ 𝑄𝑧𝑧 .
Sabe-se que o estimador EA, (7.26), é estimador MGM eficiente, pois corresponde ao
estimador SUR com coeficientes constantes (ver capítulo 5). Vai, agora, demonstrar-se
que o estimador EF de 𝜙, (7.57), é um estimador MGM (ficando também provado que
é um estimador consistente e assintoticamente normal). Para isso, vai considerar-se o
sistema de 𝑝 − 1 equações, 𝑦𝑎•𝑖 = 𝐹•𝑖
𝑎
𝜙 + 𝑣𝑎•𝑖 , e um estimador MGM de 𝜙 [com o formato
(5.15)], considerando
1 𝑚
𝑆𝑎𝑧𝑓 = 􏾜 (𝐹•𝑖𝑎
⊗ 𝑧•𝑖 ) [média amostral correspondente a 𝑄𝑎𝑧𝑓 = 𝐸(𝐹•𝑖
𝑎
⊗ 𝑧•𝑖 )],
𝑚 𝑖=􏷠
1 𝑚
𝑠𝑎𝑧𝑦 = 􏾜 (𝑦𝑎•𝑖 ⊗ 𝑧•𝑖 ) [média amostral correspondente a𝑞𝑎𝑧𝑦 = 𝐸(𝑦𝑎•𝑖 ⊗ 𝑧•𝑖 )],
𝑚 𝑖=􏷠
̂
𝑊 = (𝐴 𝐴)−􏷠 ⊗ 𝑆−􏷠
𝑇
𝑧𝑧 [matriz quadrada de ordem (𝑝 − 1)𝑞].
Vai, então, provar-se que
𝜙(̂ 𝑊)
̂ = {(𝑆𝑎 )𝑇 𝑊̂ 𝑆𝑎 }−􏷠 (𝑆𝑎 )𝑇 𝑊̂ 𝑠𝑎𝑧𝑦 = 𝜙̂ EF .
𝑧𝑓 𝑧𝑓 𝑧𝑓
Como 𝐹•𝑖
𝑎
= 𝐴𝑇 𝐹•𝑖 , vem
1 𝑚 1 𝑚
𝑆𝑎𝑧𝑓 = 􏾜 (𝐴𝑇 𝐹•𝑖 ⊗ 𝑧•𝑖 ) = (𝐴𝑇 ⊗ 𝐼𝑞 ) 􏾜 (𝐹•𝑖 ⊗ 𝑧•𝑖 ).
𝑚 𝑖=􏷠 𝑚 𝑖=􏷠
De modo semelhante, tem-se

1 𝑚 1 𝑚
𝑠𝑎𝑧𝑦 = 􏾜 (𝐴𝑇 𝑦•𝑖 ⊗ 𝑧•𝑖 ) = (𝐴𝑇 ⊗ 𝐼𝑞 ) 􏾜 (𝑦•𝑖 ⊗ 𝑧•𝑖 ).
𝑚 𝑖=􏷠 𝑚 𝑖=􏷠
Então,
1 𝑚 1 𝑚
(𝑆𝑎𝑧𝑓 )𝑇 𝑊̂ 𝑆𝑎𝑧𝑓 = 􏿶 􏾜 (𝐹•𝑖 ⊗ 𝑧•𝑖 )𝑇 􏿹 (𝐴 ⊗ 𝐼𝑞 ){(𝐴𝑇 𝐴)−􏷠 ⊗ 𝑆−􏷠 𝑇
𝑧𝑧 }(𝐴 ⊗ 𝐼𝑞 ) 􏿶 􏾜 (𝐹•𝑖 ⊗ 𝑧•𝑖 )􏿹
𝑚 𝑖=􏷠 𝑚 𝑖=􏷠
1 𝑚 1 𝑚
= 􏿶 􏾜 (𝐹•𝑖 ⊗ 𝑧•𝑖 )𝑇 􏿹 {𝑃𝑒 ⊗ 𝑆−􏷠
𝑧𝑧 } 􏿶 􏾜 (𝐹•𝑖 ⊗ 𝑧•𝑖 )􏿹 ,
𝑚 𝑖=􏷠 𝑚 𝑖=􏷠
e
1 𝑚 1 𝑚
(𝑆𝑎𝑧𝑓 )𝑇 𝑊̂ 𝑠𝑎𝑧𝑦 = 􏿶 􏾜 (𝐹•𝑖 ⊗ 𝑧•𝑖 )𝑇 􏿹 {𝑃𝑒 ⊗ 𝑆−􏷠
𝑧𝑧 } 􏿶 􏾜 (𝑦•𝑖 ⊗ 𝑧•𝑖 )􏿹 .
𝑚 𝑖=􏷠 𝑚 𝑖=􏷠
Como
⎡ 𝑓􏷠𝑖• ⊗ 𝑧•𝑖 ⎤ ⎡ 𝑧•𝑖 𝑓􏷠𝑖• ⎤
⎢ 𝑓 ⊗ 𝑧•𝑖 ⎥ ⎢ 𝑧•𝑖 𝑓􏷡𝑖• ⎥
𝐹•𝑖 ⊗ 𝑧•𝑖 = ⎢ 􏷡𝑖• ⎥=⎢ ⎥ , 𝑦•𝑖 ⊗ 𝑧•𝑖 = 𝑧•𝑖 𝑦•𝑖 ,
⋮ ⋮
⎢ ⎥ ⎢ ⎥
⎣ 𝑓𝑝𝑖• ⊗ 𝑧•𝑖 ⎦ ⎣ 𝑧•𝑖 𝑓𝑝𝑖• ⎦
e notando que 𝑐𝑡𝑠 é o elemento genérico de 𝑃𝑒 , obtém-se
⎡ 𝑐􏷠􏷠 𝑆−􏷠
𝑧𝑧 ⋯ 𝑐􏷠𝑝 𝑆−􏷠
𝑧𝑧 ⎤ ⎡ 􏷠
𝑚
∑𝑚 𝑧•𝑖 𝑓􏷠𝑖• ⎤
𝑖=􏷠
􏷠 ∑𝑚 􏷠 ∑𝑚 ⎢ ⎥ ⎢ ⎥
(𝑆𝑎𝑧𝑓 )𝑇 𝑊̂ 𝑆𝑎𝑧𝑓 𝑇 𝑇 𝑇 𝑇
= 􏿮 𝑚 𝑖=􏷠 𝑓􏷠𝑖• 𝑧•𝑖 ⋯ 𝑚 𝑖=􏷠 𝑓𝑝𝑖• 𝑧•𝑖 􏿱 ⋮ ⋮ ⋮
⎢ 𝑐 𝑆−􏷠 ⋯ 𝑐 𝑆−􏷠 ⎥ ⎢ 􏷠 ∑𝑚
𝑧 𝑓 ⎥
⎣ 𝑝􏷠 𝑧𝑧 𝑝𝑝 𝑧𝑧 ⎦ ⎣ 𝑚 𝑖=􏷠 •𝑖 𝑝𝑖• ⎦
𝑝 𝑝 1 𝑚 𝑇 𝑇 1 𝑚
= 􏾜 􏾜 𝑐𝑡𝑠 􏿶 􏾜 𝑓𝑡𝑖• 𝑧•𝑖 􏿹 𝑆−􏷠
𝑧𝑧 􏿶 􏾜 𝑧•𝑖 𝑓𝑠𝑖• 􏿹
𝑡=􏷠 𝑠=􏷠 𝑚 𝑖=􏷠 𝑚 𝑖=􏷠
e, de forma semelhante,
⎡ 𝑐􏷠􏷠 𝑆−􏷠
𝑧𝑧 ⋯ 𝑐􏷠𝑝 𝑆−􏷠𝑧𝑧 ⎤ ⎡ 􏷠
𝑚
∑𝑚 𝑧•𝑖 𝑦􏷠𝑖 ⎤
𝑖=􏷠
(𝑆𝑎𝑧𝑓 )𝑇 𝑊̂ 𝑠𝑎𝑧𝑦 = 􏿮 􏷠
𝑚
∑𝑚
𝑇 𝑇
𝑓􏷠𝑖• 𝑧•𝑖 ⋯ 􏷠
𝑇 𝑇
𝑓𝑝𝑖• 𝑚
∑𝑚
𝑧•𝑖 􏿱 ⎢ ⋮ ⋮ ⎥ ⎢ ⋮ ⎥
𝑖=􏷠 𝑖=􏷠
⎢ 𝑐 𝑆−􏷠 ⋯ 𝑐 𝑆−􏷠 ⎥ ⎢ 􏷠 ∑𝑚
𝑧 𝑦 ⎥
⎣ 𝑝􏷠 𝑧𝑧 𝑝𝑝 𝑧𝑧 ⎦ ⎣ 𝑚 𝑖=􏷠 •𝑖 𝑝𝑖 ⎦
𝑝 𝑝 1 𝑚 𝑇 𝑇 1 𝑚
= 􏾜 􏾜 𝑐𝑡𝑠 􏿶 􏾜 𝑓𝑡𝑖• 𝑧•𝑖 􏿹 𝑆−􏷠
𝑧𝑧 􏿶 􏾜 𝑧•𝑖 𝑦𝑠𝑖 􏿹 .
𝑡=􏷠 𝑠=􏷠 𝑚 𝑖=􏷠 𝑚 𝑖=􏷠
Como 𝑧•𝑖 inclui todos os elementos de 𝐹•𝑖 , 𝑧•𝑖 «desaparece». Assim,
𝑝 𝑝 1 𝑚 1 𝑚 𝑝 𝑝
(𝑆𝑎𝑧𝑓 )𝑇 𝑊̂ 𝑆𝑎𝑧𝑓 = 􏾜 􏾜 𝑐𝑡𝑠 􏿶 𝑇
􏾜 𝑓𝑡𝑖• 𝑇
𝑓𝑠𝑖• 􏿹 = 􏾜 􏿵􏾜 􏾜 𝑐𝑡𝑠 𝑓𝑡𝑖• 𝑓𝑠𝑖• 􏿸,
𝑡=􏷠 𝑠=􏷠 𝑚 𝑖=􏷠 𝑚 𝑖=􏷠 𝑡=􏷠 𝑠=􏷠
𝑝 𝑝 1 𝑚 1 𝑚 𝑝 𝑝
(𝑆𝑎𝑧𝑓 )𝑇 𝑊̂ 𝑠𝑎𝑧𝑦 = 􏾜 􏾜 𝑐𝑡𝑠 􏿶 𝑇
􏾜 𝑓𝑡𝑖• 𝑇
𝑦𝑠𝑖 􏿹 = 􏾜 􏿵􏾜 􏾜 𝑐𝑡𝑠 𝑓𝑡𝑖• 𝑦𝑠𝑖 􏿸.
𝑡=􏷠 𝑠=􏷠 𝑚 𝑖=􏷠 𝑚 𝑖=􏷠 𝑡=􏷠 𝑠=􏷠
Usando as fórmulas (ver capítulo 5)

𝑝 𝑝 𝑝 𝑝
􏾜 􏾜 𝑇
𝑐𝑡𝑠 𝑓𝑡𝑖• 𝑇
𝑓𝑠𝑖• = 𝐹•𝑖 𝑃𝑒 𝐹•𝑖 e 􏾜 􏾜 𝑇
𝑐𝑡𝑠 𝑓𝑡𝑖• 𝑇
𝑦𝑠𝑖 = 𝐹•𝑖 𝑃𝑒 𝑦•𝑖 ,
𝑡=􏷠 𝑠=􏷠 𝑡=􏷠 𝑠=􏷠
obtém-se
1 𝑚 1 𝑚
(𝑆𝑎𝑧𝑓 )𝑇 𝑊̂ 𝑆𝑎𝑧𝑓 = 􏾜 𝐹•𝑖𝑇
𝑃𝑒 𝐹•𝑖 e (𝑆𝑎𝑧𝑓 )𝑇 𝑊̂ 𝑠𝑎𝑧𝑓 = 􏾜 𝐹•𝑖𝑇
𝑃𝑒 𝑦•𝑖 ,
𝑚 𝑖=􏷠 𝑚 𝑖=􏷠
e, portanto, 𝜙(̂ 𝑊)
̂ = 𝜙̂ EF .
Facilmente se conclui que o estimador 𝜙̂ EF não é eficiente. De facto, como
𝑆𝑎 = 𝐸 􏿮{𝑣𝑎•𝑖 (𝑣𝑎•𝑖 )𝑇 } ⊗ (𝑧•𝑖 𝑧𝑇•𝑖 )􏿱 = Σ𝑎 ⊗ 𝑄𝑧𝑧 ,
é imediato verificar que
̂ = plim { (𝐴𝑇 𝐴)−􏷠 ⊗ 𝑆−􏷠

plim(𝑊) 𝑇 −􏷠 −􏷠 −􏷠 −􏷠 −􏷠
𝑧𝑧 } = (𝐴 𝐴) ⊗ 𝑄𝑧𝑧 ≠ 𝑆𝑎 = Σ𝑎 ⊗ 𝑄𝑧𝑧 .
Seja Σ̂ 𝑎 um estimador consistente de Σ𝑎 . Como 𝑆̂ −􏷠𝑎 = Σ𝑎 ⊗ 𝑆𝑧𝑧 , o estimador MGM

̂ −􏷠 −􏷠
eficiente de 𝜙 — quando se considera o sistema de 𝑝 − 1 equações 𝑦𝑎•𝑖 = 𝐹•𝑖 𝑎

𝜙 + 𝑣𝑎•𝑖 — é
𝜙(̂ 𝑆̂ 𝑎 ), que não é mais do que o estimador SUR com coeficientes comuns [na linguagem
−􏷠
do capítulo 5], ou o estimador EA [na linguagem do capítulo 7]. Assim, tem-se

−􏷠
𝑚 𝑚
𝜙(̂ 𝑆̂ −􏷠 ̂𝑎
𝑎 ) = 𝜙EA = 􏿵􏾜
𝑎 𝑇 ̂ −􏷠 𝑎
(𝐹•𝑖 𝑎 𝑇 ̂ −􏷠 𝑎
) Σ𝑎 𝐹•𝑖 􏿸 􏾜 (𝐹•𝑖 ) Σ𝑎 𝑦•𝑖 [ver (7.26)],
𝑖=􏷠 𝑖=􏷠
Cov𝑎 (𝜙̂ 𝑎EA ) = 𝐸{(𝐹•𝑖 ) Σ𝑎 𝐹•𝑖 } [ver (7.27)],

𝑎 𝑇 −􏷠 𝑎 −􏷠
−􏷠
􏾩𝑎 (𝜙̂ 𝑎EA ) = 􏿶 1 􏾜𝑚 (𝐹 𝑎 )𝑇 Σ̂ −􏷠
Cov 𝑎
𝑎 𝐹•𝑖 􏿹 [ver (7.28)].
•𝑖
𝑚 𝑖=􏷠
Trata-se, evidentemente, de um estimador consistente e assintoticamente normal.

Vai provar-se que 𝐸{(𝐹•𝑖 ) Σ𝑎 𝐹•𝑖 } é invertível. Com efeito, basta notar que
𝑎 𝑇 −􏷠 𝑎
𝑎 𝑇 −􏷠 𝑎 𝑎 𝑇 −􏷠 𝑎
𝐸 {(𝐹•𝑖 ) Σ𝑎 𝐹•𝑖 } = 𝐸 (𝐹•𝑖 ⊗ 𝑧•𝑖 )𝑇 {Σ−􏷠
𝑎 ⊗ 𝐸(𝑧•𝑖 𝑧•𝑖 ) } 𝐸 (𝐹•𝑖 ⊗ 𝑧•𝑖 )
= (𝑄𝑎𝑧𝑓 )𝑇 (Σ−􏷠 −􏷠 𝑎
𝑎 ⊗ 𝑄𝑧𝑧 ) 𝑄𝑧𝑓 ,
e que 𝑟(𝑄𝑎𝑧𝑓 ) = 𝑘􏷠 .
Escrutinando a propriedade 5.1, pode provar-se, sem dificuldade, que

1 𝑚 𝑎 ̂ 𝑎 ̂
Σ̂ 𝑎 = 􏾜 (𝑦𝑎•𝑖 − 𝐹•𝑖 𝜙EF )(𝑦𝑎•𝑖 − 𝐹•𝑖 𝜙EF )𝑇
𝑚 𝑡=􏷠
é estimador consistente de Σ𝑎 . Como 𝜙̂ EF é consistente para 𝜙, e se verificam as hipó-

teses MCDP.1 e MCDP.2, basta mostrar que 𝐸{(𝑓𝑡𝑖• ) 𝑓𝑠𝑖• } existe. Para isso, basta notar
𝑎 𝑇 𝑎
que 𝑄𝑧𝑧 = 𝐸(𝑧•𝑖 𝑧•𝑖 ) existe e tem inversa, e que em 𝑧•𝑖 estão todos os elementos de 𝐹•𝑖 .
𝑇
A estatística de Sargan associada com o estimador 𝜙̂ 𝑎EF é dada por
𝑑
𝑄𝑆 = 𝐽(𝜙̂ 𝑎EA , 𝑆̂ −􏷠 𝑎 𝑎 ̂ 𝑎 𝑇 ̂ −􏷠 𝑎 𝑎 ̂𝑎 􏷡
𝑎 ) = 𝑚(𝑠𝑧𝑦 − 𝑆𝑧𝑓 𝜙EA ) 𝑆𝑎 (𝑠𝑧𝑦 − 𝑆𝑧𝑓 𝜙EA ) → 𝜒 (𝑝𝑞 − 𝑘􏷠 ).
Considere-se, de novo, a matriz 𝐴, 𝑝 × (𝑝 − 1), tal que 𝑟(𝐴) = 𝑝 − 1 e 𝐴𝑇 𝑒𝑝 = 𝟎. Seja

𝐵 = 𝐴𝐶, onde 𝐶 é matriz quadrada de ordem 𝑝 − 1, não singular. Obviamente, a matriz
𝐵 ainda é de tipo 𝑝 × (𝑝 − 1), e verifica 𝑟(𝐵) = 𝑝 − 1 e 𝐵𝑇 𝑒𝑝 = 𝟎.
Como 𝐴(𝐴𝑇 𝐴)−􏷠 𝐴𝑇 = 𝑃𝑒 , facilmente se mostra que 𝐵(𝐵𝑇 𝐵)−􏷠 𝐵𝑇 = 𝑃𝑒 . Então, pode
concluir-se que o estimador EF, 𝜙̂ EF , é invariante à escolha de 𝐴.
Seja 𝑦𝑏•𝑖 = 𝐵𝑇 𝑦•𝑖 , 𝐹•𝑖
𝑏
= 𝐵𝑇 𝐹•𝑖 , 𝑣𝑏•𝑖 = 𝐵𝑇 𝑣•𝑖 e o sistema 𝑦𝑏•𝑖 = 𝐹•𝑖
𝑏
𝜙 + 𝑣𝑏•𝑖 . Como
𝑦𝑏•𝑖 = 𝐶𝑇 𝐴𝑇 𝑦•𝑖 = 𝐶𝑇 𝑦𝑎•𝑖 , 𝐹•𝑖

𝑏 𝑎
= 𝐶𝑇 𝐴𝑇 𝐹•𝑖 = 𝐶𝑇 𝐹•𝑖 , 𝑣𝑏•𝑖 = 𝐶𝑇 𝐴𝑇 𝑣•𝑖 = 𝐶𝑇 𝑣𝑎•𝑖 ,
tem-se Σ̂ 𝑏 = 𝐶𝑇 Σ̂ 𝑎 𝐶. Fazendo 𝑆̂ 𝑏 = Σ̂ 𝑏 ⊗ 𝑄𝑧𝑧 , obtém-se

−􏷠
𝑚 𝑚
𝜙(̂ 𝑆̂ −􏷠 ̂𝑏
𝑏 ) = 𝜙EA = 􏿵􏾜
𝑏 𝑇 ̂ −􏷠 𝑏
(𝐹•𝑖 𝑏 𝑇 ̂ −􏷠 𝑏
) Σ𝑏 𝐹•𝑖 􏿸 􏾜 (𝐹•𝑖 ) Σ𝑏 𝑦•𝑖
𝑖=􏷠 𝑖=􏷠
−􏷠
𝑚 𝑚
= 􏿵􏾜 𝑎 𝑇
(𝐹•𝑖 ) 𝐶(𝐶𝑇 Σ̂ −􏷠 −􏷠 𝑇 𝑎
𝑎 𝐶) 𝐶 𝐹•𝑖 􏿸 􏾜
𝑎 𝑇
(𝐹•𝑖 ) 𝐶(𝐶𝑇 Σ̂ −􏷠 −􏷠 𝑇 𝑎 ̂𝑎
𝑎 𝐶) 𝐶 𝑦•𝑖 = 𝜙EA ,
𝑖=􏷠 𝑖=􏷠
o que prova a invariância do estimador 𝜙̂ 𝑎EA . Facilmente se verifica que
Cov𝑎 (𝜙̂ 𝑎EA ) e 􏾩𝑎 (𝜙̂ 𝑎EA )

Cov
também são invariantes à escolha da matriz 𝐴.

As propriedades do estimador EF com heterocedasticidade condicionada ainda se
podem provar de duas maneiras: verificar que o estimador EF é um estimador MGM,
e aplicar os respectivos resultados assintóticos; analisar a expressão do respectivo erro
de amostragem.
Em particular deve ficar garantido que
1 𝑚
plim 􏿶 𝑐 𝑇 𝑐
􏾜 (𝐹•𝑖 ) 𝑣̂ •𝑖 (𝑣̂ 𝑐•𝑖 )𝑇 𝐹•𝑖
𝑐 𝑐 𝑇 𝑐 𝑐 𝑇 𝑐
􏿹 = 𝐸{(𝐹•𝑖 ) 𝑣•𝑖 (𝑣•𝑖 ) 𝐹•𝑖 }.
𝑚 𝑖=􏷠
A demonstração desta convergência é feita com a mesma técnica usada para demons-
trar a propriedade 3.4 (ver anexo 3B, secção 3B.2) e a propriedade 4.4.
Modelos dinâmicos 1031
Vai, também, provar-se que a matriz 𝐸{(𝐹•𝑖

𝑐 𝑇 𝑐
) 𝑣•𝑖 (𝑣𝑐•𝑖 )𝑇 𝐹•𝑖
𝑐
} é invertível. Notando que
𝐹•𝑖 = (𝐼𝑝 ⊗ 𝑧•𝑖 ) 𝐽 , seja
𝑇
𝑐 𝑇 𝑐 𝑇
(𝐹•𝑖 ) 𝑣•𝑖 = 𝐹•𝑖 𝑃𝑒 𝑣•𝑖 = 𝐽 𝑇 (𝐼𝑝 ⊗ 𝑧•𝑖 )𝑃𝑒 𝑣•𝑖 = 𝐽 𝑇 (𝐼𝑝 ⊗ 𝑧•𝑖 )𝑃𝑒 𝑢•𝑖 = 𝐽 𝑇 (𝐼𝑝 ⊗ 𝑧•𝑖 )(𝑃𝑒 𝑢•𝑖 ⊗ 1)
= 𝐽 𝑇 (𝑃𝑒 𝑢•𝑖 ⊗ 𝑧•𝑖 ) = 𝐽 𝑇 (𝑃𝑒 ⊗ 𝐼𝑞 )(𝑢•𝑖 ⊗ 𝑧•𝑖 ) = 𝐽 𝑇 (𝑃𝑒 ⊗ 𝐼𝑞 )𝑔•𝑖 .
Então,
𝑐 𝑇 𝑐
𝐸{(𝐹•𝑖 ) 𝑣•𝑖 (𝑣𝑐•𝑖 )𝑇 𝐹•𝑖
𝑐
} = 𝐸{𝐽 𝑇 (𝑃𝑒 ⊗ 𝐼𝑞 )𝑔•𝑖 𝑔𝑇•𝑖 (𝑃𝑒 ⊗ 𝐼𝑞 )𝐽} = 𝐽 𝑇 (𝑃𝑒 ⊗ 𝐼𝑞 )𝑆(𝑃𝑒 ⊗ 𝐼𝑞 )𝐽,
recordando que 𝑆 = 𝐸(𝑔•𝑖 𝑔𝑇•𝑖 ) [hipótese MCDP.5].

Como 𝑆 tem inversa, falta provar que a característica de (𝑃𝑒 ⊗ 𝐼𝑞 )𝐽 é igual a 𝑘􏷠 .
𝐹•𝑖 ⊗ 𝑧•𝑖 = {(𝐼𝑝 ⊗ 𝑧𝑇•𝑖 )𝐽} ⊗ 𝑧•𝑖 = {(𝐼𝑝 ⊗ 𝑧𝑇•𝑖 ) ⊗ 𝑧•𝑖 }(𝐽 ⊗ 1)
= (𝐼𝑝 ⊗ 𝑧𝑇•𝑖 ⊗ 𝑧•𝑖 ) 𝐽 = (𝐼𝑝 ⊗ 𝑧•𝑖 𝑧𝑇•𝑖 ) 𝐽 ,
e
𝑐
𝐹•𝑖 ⊗ 𝑧•𝑖 = (𝑃𝑒 ⊗ 𝐼𝑝 )(𝐹•𝑖 ⊗ 𝑧•𝑖 ) = (𝑃𝑒 ⊗ 𝐼𝑝 )(𝐼𝑝 ⊗ 𝑧•𝑖 𝑧𝑇•𝑖 ) 𝐽
= (𝑃𝑒 ⊗ 𝑧•𝑖 𝑧𝑇•𝑖 )𝐽 = (𝐼𝑝 ⊗ 𝑧•𝑖 𝑧𝑇•𝑖 )(𝑃𝑒 ⊗ 𝐼𝑝 ) 𝐽.
Então,
𝑄𝑐𝑧𝑓 = (𝐼𝑝 ⊗ 𝑄𝑧𝑧 )(𝑃𝑒 ⊗ 𝐼𝑝 ) 𝐽.
Como, devido à hipótese MENO.4, 𝑄𝑐𝑧𝑓 = 𝐸(𝐹•𝑖 𝑐
⊗ 𝑧•𝑖 ) tem característica 𝑘􏷠 , e como que
𝑄𝑧𝑧 = 𝐸(𝑧•𝑖 𝑧•𝑖 ) é não singular, conclui-se que 𝑟{(𝑃𝑒 ⊗ 𝐼𝑞 ) 𝐽} = 𝑘􏷠 .
𝑇
7A.4 Modelos dinâmicos

Uma situação típica em que o estimador EF não é consistente verifica-se quando o mo-
delo é dinâmico. Com efeito, seja o modelo
𝑦𝑡𝑖 = 𝛼𝑖 + 𝜙𝑦𝑡−􏷠,𝑖 + 𝑣𝑡𝑖 (𝑖 = 1, 2, … ; 𝑡 = 1, 2, … , 𝑝).
Admita-se que 𝐸(𝛼𝑖 𝑣𝑡𝑖 ) = 0, 𝐸(𝑦􏷟𝑖 𝑣𝑡𝑖 ) = 0, 𝐸(𝑣𝑡𝑖 𝑣𝑠𝑖 ) = 0 (𝑡 ≠ 𝑠), 𝐸(𝑣􏷡𝑡𝑖 ) = 𝜎􏷡𝑣 . Este modelo
pode ser apresentado na forma (7.51), fazendo
⎡ 𝑦􏷠𝑖 ⎤ ⎡ 𝑦􏷟𝑖 ⎤ ⎡ 𝑣􏷠𝑖 ⎤

⎢ 𝑦􏷡𝑖 ⎥ ⎢ 𝑦􏷠𝑖 ⎥ ⎢ 𝑣􏷡𝑖 ⎥
𝑦•𝑖 = ⎢
⋮ ⎥ , 𝐹•𝑖 = ⎢ ⋮ ⎥ , 𝑣•𝑖 = ⎢ ⋮ ⎥ e ℎ𝑖• = 𝟎 (não existe).
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎣ 𝑦𝑝𝑖 ⎦ ⎣ 𝑦𝑝−􏷠,𝑖 ⎦ ⎣ 𝑣𝑝𝑖 ⎦
Para obter 𝐸(𝑦𝑡𝑖 𝑣𝑠𝑖 ), começa-se por obter 𝑦𝑡𝑖 por substituição recursiva. Assim,
1 − 𝜙𝑡
𝑦𝑡𝑖 = 𝛼 + 𝜙𝑡 𝑦􏷟𝑖 + 𝑣𝑡𝑖 + 𝜙 𝑣𝑡−􏷠,𝑖 + ⋯ + 𝜙𝑡 𝑣􏷠𝑖 .
1−𝜙 𝑖
Multiplicando ambos os membros por 𝑣𝑠𝑖 , e calculando os respectivos valores espera-

dos, tem-se
𝐸(𝑦𝑡𝑖 𝑣𝑠𝑖 ) = 𝐸(𝑣𝑡𝑖 𝑣𝑠𝑖 ) + 𝜙 𝐸(𝑣𝑡−􏷠,𝑖 𝑣𝑠𝑖 ) + ⋯ + 𝜙𝑡 𝐸(𝑣􏷠𝑖 𝑣𝑠𝑖 ),
porque 𝐸(𝛼𝑖 𝑣𝑡𝑖 ) = 0, 𝐸(𝑦􏷟𝑖 𝑣𝑡𝑖 ) = 0. Então,
𝜙𝑡−𝑠 𝜎􏷡𝑣 (𝑡 ≥ 𝑠)
𝐸(𝑦𝑡𝑖 𝑣𝑠𝑖 ) = 􏿼
0 (𝑡 < 𝑠).
Vai, agora, determinar-se 𝐸(𝐹•𝑖

𝑇
𝑃𝑒 𝑣•𝑖 ). Começa-se por verificar que
𝑇
𝐸(𝐹•𝑖 𝑃𝑒 𝑣•𝑖 ) = 𝐸{tr(𝐹•𝑖
𝑇
𝑃𝑒 𝑣•𝑖 )} = 𝐸{tr(𝑣•𝑖 𝐹•𝑖
𝑇
𝑃𝑒 )} = tr{𝐸(𝑣•𝑖 𝐹•𝑖
𝑇
)𝑃𝑒 }
1 𝑇 1
= tr 􏿰𝐸(𝑣•𝑖 𝐹•𝑖
𝑇
) 􏿶𝐼𝑝 − 𝑒 𝑒 􏿹􏿳 = tr{ 𝐸(𝑣•𝑖 𝐹•𝑖
𝑇
)} − tr{ 𝐸(𝑣•𝑖 𝐹•𝑖
𝑇
) 𝑒𝑝 𝑒𝑇𝑝 }
𝑝 𝑝 𝑝 𝑝
1
= tr{ 𝐸(𝑣•𝑖 𝐹•𝑖
𝑇 𝑇
)} − 𝑒𝑇𝑝 𝐸(𝑣•𝑖 𝐹•𝑖 ) 𝑒𝑝 .
𝑝
Como
⎡ 𝑣􏷠𝑖 𝑦􏷟𝑖 𝑣􏷠𝑖 𝑦􏷠𝑖 ⋯ 𝑣􏷠𝑖 𝑦𝑝−􏷠,𝑖 ⎤
⎢ 𝑣 𝑦 𝑣􏷡𝑖 𝑦􏷠𝑖 ⋯ 𝑣􏷡𝑖 𝑦𝑝−􏷠,𝑖 ⎥
𝑇
𝑣•𝑖 𝐹•𝑖 = ⎢ 􏷡𝑖 􏷟𝑖 ⎥,
⋮ ⋮ ⋮
⎢ ⎥
⎣ 𝑝𝑖 𝑦􏷟𝑖
𝑣 𝑣𝑝𝑖 𝑦􏷠𝑖 ⋯ 𝑣𝑝𝑖 𝑦𝑝−􏷠,𝑖 ⎦
vem
⎡ 0 1 𝜙 𝜙􏷡 ⋯ 𝜙𝑝−􏷠 𝜙𝑝−􏷡 ⎤
⎢ 0 0 1 𝜙 ⋯ 𝜙𝑝−􏷡 𝜙𝑝−􏷢 ⎥
⎢ ⎥
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝐸(𝑣•𝑖 𝐹•𝑖 ) = ⎢
𝑇 ⎥,
⎢ 0 0 0 0 ⋯ 1 𝜙 ⎥
⎢ 0 0 0 0 ⋯ 0 1 ⎥
⎢ 0 0 0 0 ⋯ 0 0 ⎥
⎣ ⎦
e tr{ 𝐸(𝑣•𝑖 𝐹•𝑖

𝑇
)} = 0.
Esfericidade dos choques 1033
Notando que 𝑒𝑇𝑝 𝐸(𝑣•𝑖 𝐹•𝑖

𝑇
) 𝑒𝑝 é a soma dos elementos de 𝐸(𝑣•𝑖 𝐹•𝑖
𝑇
), tem-se
𝑇 1 𝑇 𝜎􏷡𝑣 1 − 𝜙𝑝−􏷠 1 − 𝜙𝑝−􏷡 1−𝜙

𝐸(𝐹•𝑖 𝑃𝑒 𝑣•𝑖 ) = − 𝑒𝑇𝑝 𝐸(𝑣•𝑖 𝐹•𝑖 ) 𝑒𝑝 = − 􏿶 + +⋯+ 􏿹
𝑝 𝑝 1−𝜙 1−𝜙 1−𝜙
𝜎􏷡𝑣 (𝑝 − 1) − {(1 − 𝜙𝑝 )/(1 − 𝜙) − 1}
=− 􏿶 􏿹
𝑝 1−𝜙
𝜎􏷡𝑣 (𝑝 − 1)(1 − 𝜙) − (1 − 𝜙𝑝 ) + (1 − 𝜙)}
=− 􏿶 􏿹
𝑝 1−𝜙
𝜎􏷡𝑣 𝑝 − 1 − 𝑝𝜙 + 𝜙𝑝
=− 􏿶 􏿹.
𝑝 1−𝜙
Se 𝐸(𝐹•𝑖𝑇
𝑃𝑒 𝐹•𝑖 ) é não singular, e se 𝑝 − 1 − 𝑝𝜙 + 𝜙𝑝 ≠ 0, então o estimador EF de 𝜙 é
inconsistente. Neste caso, é violada a hipótese MENO.2’, já que 𝐸(𝑦𝑡−􏷠,𝑖 𝑣𝑠𝑖 ) ≠ 0, para
𝑠 ≤ 𝑡 − 1.
7A.5 Esfericidade dos choques

Sabe-se que 𝐸(𝑢•𝑖 𝑢𝑇•𝑖 ) = Σ. No entanto, quando se decompõe o erro nas duas compo-
nentes já conhecidas — ver (7.35) —, é habitual supor que os choques são esféricos
(não há autocorrelação), isto é,
𝐸(𝑣•𝑖 𝑣𝑇•𝑖 ) = 𝜎􏷡𝑣 𝐼𝑝 ,
onde 𝜎􏷡𝑣 = 𝐸(𝑣􏷡𝑡𝑖 ). Daqui decorre que 𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 } = 𝜎􏷡𝑣 𝑃𝑒 .

Esta ausência de autocorrelação não deve ser confundida com a condição de que 𝑣•𝑖
não está correlacionado com 𝑣•ℓ , para 𝑖 ≠ ℓ. Esta condição é consequência da hipótese
MCDP.2 (amostragem casual).
Considerando a esfericidade dos choques em (7.67), e notando que 𝑃𝑒 𝐹•𝑖 𝑐 𝑐
= 𝐹•𝑖 ,
obtém-se
Cov𝑎 (𝜙̂ EF ) = 𝜎􏷡𝑣 𝐸{(𝐹•𝑖
𝑐 𝑇 𝑐 −􏷠
) 𝐹•𝑖 } .
Se 𝜎̂ 􏷡𝑣 é um estimador de 𝜎􏷡𝑣 , vem

−􏷠
􏾩𝑎 (𝜙̂ EF ) = 𝜎̂ 􏷡𝑣 􏿶 1 􏾜𝑚 (𝐹 𝑐 )𝑇 𝐹 𝑐 􏿹
Cov = 𝑚𝜎̂ 􏷡𝑣 (𝐹𝑐𝑇 𝐹𝑐 )−􏷠 ,
•𝑖 •𝑖
𝑚 𝑖=􏷠
que é igual a 𝑚 vezes o estimador da matriz das covariâncias assintóticas quando se

aplica o estimador PMQ à amostra (𝑦𝑐 , 𝐹𝑐 ).
A respectiva soma dos quadrados dos resíduos é dada por
𝑚
SQR = (𝑌𝑐 − 𝐹𝑐 𝜙̂ EF )𝑇 (𝑌𝑐 − 𝐹𝑐 𝜙̂ EF ) = 􏾜 (𝑣̂ 𝑐•𝑖 )𝑇 𝑣̂ 𝑐•𝑖 . (7A.1)
𝑖=􏷠
O estimador habitual de 𝜎􏷡𝑣 seria

SQR
𝜎̂ 􏷡𝑣 = .
𝑚𝑝 − 𝑘􏷠
Pode provar-se que este estimador não é consistente, mas sim,
SQR
𝜎̂ 􏷡𝑣 = .
𝑚𝑝 − 𝑚 − 𝑘􏷠
Para demonstrar que este estimador é consistente, começa-se por provar a consistência
de SQR/(𝑚𝑝 − 𝑚). Com efeito, seja
𝑚 𝑚 𝑚 𝑚
SQR = 􏾜 (𝑣̂ 𝑐•𝑖 )𝑇 𝑣̂ 𝑐•𝑖 = 􏾜 𝑣̂ 𝑇•𝑖 𝑃𝑒 𝑣̂ •𝑖 = 􏾜 𝑣̂ 𝑇•𝑖 𝐴(𝐴𝑇 𝐴)−􏷠 𝐴𝑇 𝑣̂ •𝑖 = 􏾜 (𝑣̂ 𝑎•𝑖 )𝑇 (𝐴𝑇 𝐴)−􏷠 𝑣̂ 𝑎•𝑖
𝑖=􏷠 𝑖=􏷠 𝑖=􏷠 𝑖=􏷠
𝑚 𝑚
=􏾜 tr{(𝑣̂ 𝑎•𝑖 )𝑇 (𝐴𝑇 𝐴)−􏷠 𝑣̂ 𝑎•𝑖 } = 􏾜 tr{(𝐴𝑇 𝐴)−􏷠 𝑣̂ 𝑎•𝑖 (𝑣̂ 𝑎•𝑖 )𝑇 }
𝑖=􏷠 𝑖=􏷠
1 𝑚
= 𝑚 tr 􏿰(𝐴𝑇 𝐴)−􏷠 􏾜 𝑣̂ 𝑎•𝑖 (𝑣̂ 𝑎•𝑖 )𝑇 􏿳 .
𝑚 𝑖=􏷠
Como
1 𝑚
plim 􏿶 􏾜 𝑣̂ 𝑎•𝑖 (𝑣̂ 𝑎•𝑖 )𝑇 􏿹 = 𝐸{𝑣𝑎•𝑖 (𝑣𝑎•𝑖 )𝑇 } = 𝐸(𝐴𝑇 𝑣•𝑖 𝑣𝑇•𝑖 𝐴) = 𝐴𝑇 𝐸(𝑣•𝑖 𝑣𝑇•𝑖 )𝐴 = 𝜎􏷡𝑣 𝐴𝑇 𝐴,
𝑚 𝑖=􏷠
obtém-se
SQR
plim 􏿶 􏿹 = 𝑚 tr 􏿮(𝐴 𝐴) 𝜎𝑣 𝐴 𝐴􏿱 = (𝑝 − 1)𝜎𝑣 ,
𝑇 −􏷠 􏷡 𝑇 􏷡
𝑚
ou
SQR
plim 􏿶 􏷡
􏿹 = 𝜎𝑣 .
𝑚(𝑝 − 1)
Como
SQR SQR 𝑚(𝑝 − 1)
= ,
𝑚(𝑝 − 1) − 𝑘􏷠 𝑚(𝑝 − 1) 𝑚(𝑝 − 1) − 𝑘􏷠
resulta imediatamente que 𝜎̂ 􏷡𝑣 = SQR/(𝑚𝑝 − 𝑚 − 𝑘􏷠 ) é estimador consistente de 𝜎􏷡𝑣 .
A razão para subtrair 𝑚 ao denominador tem a ver com o facto de as 𝑝 equações do
modelo transformado não serem linearmente independentes, porque a soma de ambos
os membros de 𝑦𝑐•𝑖 = 𝐹•𝑖
𝑐
𝜙 + 𝑣𝑐•𝑖 é nula (basta notar que 𝑒𝑇𝑝 𝑃𝑒 = 𝟎). Assim, a verdadeira
dimensão da amostra é 𝑚𝑝 − 𝑚, e não 𝑚𝑝; usar 𝑚𝑝 em vez de 𝑚𝑝 − 𝑚 é um erro muito
comum que pode sub-estimar os erros padrão e sobre-estimar os rácios-𝑡. Por exemplo,
se 𝑝 = 3, 𝑚 = 2000 e 𝑘􏷠 = 4 tem-se 𝑚𝑝 − 𝑘􏷠 = 5996 e 𝑚𝑝 − 𝑚 − 𝑘􏷠 = 3996; os rácios-𝑡 são
sobre-estimados em cerca de 22.5%, uma vez que
5996
− 1 ≈ 0.225.
􏽰 3996
Demonstração do teorema 7.1 (teste de especificação de Hausman) 1035
Como
Σ𝑎 = 𝐸{𝑣𝑎•𝑖 (𝑣𝑎•𝑖 )𝑇 } = 𝐴𝑇 𝐸(𝑣•𝑖 𝑣𝑇•𝑖 )𝐴 = 𝜎􏷡𝑣 𝐴𝑇 𝐴,
Σ̂ 𝑎 = 𝜎̂ 􏷡𝑣 𝐴𝑇 𝐴 é estimador consistente de Σ𝑎 , desde que 𝜎̂ 􏷡𝑣 seja estimador consistente de

𝜎􏷡𝑣 . Pode, então, concluir-se que o estimador MGM eficiente, 𝜙̂ 𝑎EA , com esta escolha de
Σ̂ 𝑎 , é numericamente igual ao estimador de efeitos fixos, 𝜙̂ EF . Com efeito, tem-se
𝑆̂ −􏷠 􏷡 𝑇 −􏷠 −􏷠
𝑎 = (𝜎̂ 𝑣 𝐴 𝐴) ⊗ 𝑆𝑧𝑧 ,
e, portanto,
𝜙̂ 𝑎EA = {(𝑆𝑎𝑧𝑓 )𝑇 𝑆̂ −􏷠 𝑎 −􏷠 𝑎 𝑇 ̂ −􏷠 𝑎
𝑎 𝑆𝑧𝑓 } (𝑆𝑧𝑓 ) 𝑆𝑎 𝑠𝑧𝑦
−􏷠
= 􏿮(𝑆𝑎𝑧𝑓 )𝑇 {(𝜎̂ 􏷡𝑣 𝐴𝑇 𝐴)−􏷠 ⊗ 𝑆−􏷠 𝑎 𝑎 𝑇 􏷡 𝑇 −􏷠 −􏷠 𝑎
𝑧𝑧 }𝑆𝑧𝑓 􏿱 (𝑆𝑧𝑓 ) {(𝜎̂ 𝑣 𝐴 𝐴) ⊗ 𝑆𝑧𝑧 }𝑠𝑧𝑦
−􏷠
= 􏿮(𝑆𝑎𝑧𝑓 )𝑇 {(𝐴𝑇 𝐴)−􏷠 ⊗ 𝑆−􏷠 𝑎 𝑎 𝑇 𝑇 −􏷠 −􏷠 𝑎
𝑧𝑧 }𝑆𝑧𝑓 􏿱 (𝑆𝑧𝑓 ) {(𝐴 𝐴) ⊗ 𝑆𝑧𝑧 }𝑠𝑧𝑦
= 𝜙̂ EF .
7A.6 Demonstração do teorema 7.1 (teste de especificação

de Hausman)
Sabe-se que o estimador EA de 𝛽 se pode escrever com o formato de (5.25):
𝛽̂EA = (𝑆𝑇𝑧𝑥 𝑆̂ −􏷠 𝑆𝑧𝑥 )−􏷠 𝑆𝑇𝑧𝑥 𝑆̂ −􏷠 𝑠𝑧𝑦 .
A seguir, vai provar-se que o estimador EF de 𝜙, (7.57), pode ser apresentado na forma
seguinte:
𝜙̂ EF = (𝐽 𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )−􏷠 𝐽 𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑠𝑧𝑦 ,
𝑘 𝑘
onde
⎡ 𝐼𝑘􏷪 ⎤
𝐽𝑘 = ⎢ ⎥ (matriz de tipo 𝑘 × 𝑘􏷠 ) e 𝑊̂ = 𝑃𝑒 ⊗ 𝑆−􏷠
𝑧𝑧 .
⎣ 𝑂 ⎦
Com efeito, tem-se
1 𝑚 1 𝑚
𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 = 𝐽𝑘𝑇 􏿰 􏾜 (𝑋•𝑖 ⊗ 𝑧•𝑖 )𝑇 􏿳 𝑊̂ 􏿰 􏾜 (𝑋•𝑖 ⊗ 𝑧•𝑖 )􏿳 𝐽𝑘
𝑚 𝑡=􏷠 𝑚 𝑡=􏷠
1 𝑚 1𝑇𝑚
= 𝐽𝑘𝑇 􏿶 􏾜 􏿮 𝐹•𝑖 ⊗ 𝑧•𝑖 𝐻•𝑖 ⊗ 𝑧•𝑖 􏿱 􏿹 𝑊̂ 􏿶 􏾜 􏿮 𝐹•𝑖 ⊗ 𝑧•𝑖 𝐻•𝑖 ⊗ 𝑧•𝑖 􏿱􏿹 𝐽𝑘
𝑚 𝑡=􏷠 𝑚 𝑡=􏷠
1 𝑚 1 𝑚
=􏿰 􏾜 (𝐹•𝑖 ⊗ 𝑧•𝑖 )𝑇 􏿳 (𝑃𝑒 ⊗ 𝑆−􏷠
𝑧𝑧 ) 􏿰 􏾜 (𝐹•𝑖 ⊗ 𝑧•𝑖 )􏿳 .
𝑚 𝑡=􏷠 𝑚 𝑡=􏷠
De forma semelhante, vem

1 𝑚 1 𝑚
𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑠𝑧𝑦 = 􏿰 􏾜 (𝐹•𝑖 ⊗ 𝑧•𝑖 )𝑇 􏿳 (𝑃𝑒 ⊗ 𝑆−􏷠
𝑧𝑧 ) 􏿰 􏾜 (𝑦•𝑖 ⊗ 𝑧•𝑖 )􏿳 .
𝑚 𝑡=􏷠 𝑚 𝑡=􏷠
Usando a mesma técnica utilizada para provar que o estimador EF de 𝜙 é estimador

MGM (a partir do sistema 𝑦𝑎•𝑖 = 𝐹•𝑖
𝑎
𝜙 + 𝑣𝑎•𝑖 ), obtém-se o resultado pretendido.
Seja
𝛿̂ = 𝜙̂ EF − 𝜙̂ EA = 𝜙̂ EF − 𝐽𝑘𝑇 𝛽̂EA
= (𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )−􏷠 𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑠𝑧𝑦 − ( 𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )−􏷠 (𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )𝐽𝑘𝑇 𝛽̂EA .
Notando que
1 𝑚
𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 = 􏾜 𝑋•𝑖𝑇 𝑃𝑒 𝑋•𝑖 ,
𝑚 𝑖=􏷠
e que
𝑇
𝐹•𝑖 𝑃𝑒 𝐹•𝑖 𝑂
𝑃𝑒 𝑋•𝑖 = 𝑃𝑒 [ 𝐹•𝑖 𝐻•𝑖 ] = 𝑃𝑒 [ 𝐹•𝑖 𝑒𝑝 ℎ𝑖• ] = [ 𝑃𝑒 𝐹•𝑖 𝑂 ], 𝑋•𝑖𝑇 𝑃𝑒 𝑋•𝑖 = 􏿰 􏿳,
𝑂 𝑂
tem-se
⎡
􏷠
𝑚
∑𝑚 𝐹•𝑖𝑇
𝑃𝑒 𝐹•𝑖 𝑂 ⎤
𝑖=􏷠
𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 =⎢ 𝑇 ̂ 𝑇
⎥ = 𝑆𝑧𝑥 𝑊 𝑆𝑧𝑥 𝐽𝑘 𝐽𝑘 .
⎣ 𝑂 𝑂 ⎦
Então,
𝛿̂ = (𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )−􏷠 𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑠𝑧𝑦 − (𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )−􏷠 𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝛽̂EA
= (𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )−􏷠 𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊(𝑠
̂ 𝑧𝑦 − 𝑆𝑧𝑥 𝛽̂EA )
= (𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )−􏷠 𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑔•𝑚 (𝛽̂EA ),
onde
𝑔•𝑚 (𝛽̂EA ) = 𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽̂EA .
De acordo com a demonstração do teorema 4.5 (secção 4A.4 do anexo 4A),
𝑔•𝑚 (𝛽̂EA ) = 𝐵̂ 𝑔•𝑚 ,
em que
1 𝑚 1 𝑚
𝐵̂ = 𝐼𝑝𝑞 − 𝑆𝑧𝑥 (𝑆𝑇𝑧𝑥 𝑆̂ −􏷠 𝑆𝑧𝑥 )−􏷠 𝑆𝑇𝑧𝑥 𝑆̂ −􏷠 e 𝑔•𝑚 = 􏾜 𝑔•𝑖 = 􏾜 (𝑢•𝑖 ⊗ 𝑧•𝑖 ).
𝑚 𝑖=􏷠 𝑚 𝑖=􏷠
Como
𝑑
(𝑝𝑞)
√𝑚 𝑔•𝑚 → 𝑁 (0, 𝑆), Cov𝑎 (𝑔•𝑚 ) = 𝑆,
Demonstração do teorema 7.1 (teste de especificação de Hausman) 1037
conclui-se que
𝑑
√𝑚 𝛿̂ = (𝐽𝑘 𝑆𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 ) 𝐽𝑘 𝑆𝑧𝑥 𝑊̂ 𝐵̂ √𝑚 𝑔•𝑚 → 𝑁 􏷪 { 𝟎, Cov𝑎 (𝛿)},
̂
𝑇 𝑇 −􏷠 𝑇 𝑇 (𝑘 )
desde que a matriz Cov𝑎 (𝛿)̂ tenha inversa. Neste caso, tem-se
Cov𝑎 (𝛿)̂ = (𝐽𝑘𝑇 𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 𝐽𝑘 )−􏷠 𝐽𝑘𝑇 𝑄𝑇𝑧𝑥 𝑊 𝐵 𝑆 𝐵𝑇 𝑊 𝑄𝑧𝑥 𝐽𝑘 (𝐽𝑘𝑇 𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 𝐽𝑘 )−􏷠 ,
onde 𝑊 = plim(𝑊) ̂ = 𝑃𝑒 ⊗ 𝑄−􏷠 ̂
𝑧𝑧 e 𝐵 = plim(𝐵) = 𝐼𝑝𝑞 − 𝑄𝑧𝑥 (𝑄𝑧𝑥 𝑆 𝑄𝑧𝑥 ) 𝑄𝑧𝑥 𝑆 .
𝑇 −􏷠 −􏷠 𝑇 −􏷠
Para provar que Cov𝑎 (𝛿)̂ é não singular, vai confirmar-se, em primeiro lugar, que
𝐽𝑘 𝑄𝑧𝑥 𝑊 𝑄𝑧𝑥 𝐽𝑘 é não singular. Com efeito, tem-se
𝑇 𝑇
𝐽𝑘𝑇 𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 𝐽𝑘 = 𝐸(𝐹•𝑖 ⊗ 𝑧•𝑖 )𝑇 (𝑃𝑒 ⊗ 𝑄−􏷠 𝑇

𝑧𝑧 )𝐸(𝐹•𝑖 ⊗ 𝑧•𝑖 ) = 𝐸(𝐹•𝑖 𝑃𝑒 𝐹•𝑖 ),
em que 𝑧•𝑖 «desaparece» porque todos os elementos de 𝐹•𝑖 estão incluídos em 𝑧•𝑖 . Como
𝑇
𝐸(𝐹•𝑖 𝑃𝑒 𝐹•𝑖 ) tem inversa (ver a demonstração das propriedades do estimador EF), está
garantida a não singularidade de 𝐽𝑘𝑇 𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 𝐽𝑘 .
Fica ao cuidado do leitor provar que 𝐵𝑇 𝑊 𝑄𝑧𝑥 𝐽𝑘 , matriz de tipo 𝑝𝑞 × 𝑘􏷠 , tem caracte-
rística igual a 𝑘􏷠 . Nestas circunstâncias, conclui-se que Cov𝑎 (𝛿)̂ é invertível.
Um estimador consistente de Cov𝑎 (𝛿)̂ é
􏾩𝑎 (𝛿)̂ = (𝐽 𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )−􏷠 𝐽 𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝐵̂ 𝑆̂ 𝐵̂ 𝑇 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 (𝐽 𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )−􏷠 .
Cov 𝑘 𝑘 𝑘
Pode verificar-se sem dificuldade que

Cov𝑎 (𝛿)̂ = Cov𝑎 (𝜙̂ EF ) − 𝐽𝑘𝑇 Cov𝑎 (𝛽̂EA )𝐽𝑘 = Cov𝑎 (𝜙̂ EF ) − Cov𝑎 (𝜙̂ EA ),
􏾩𝑎 (𝛿)̂ = Cov
Cov 􏾩𝑎 (𝛽̂EA )𝐽𝑘 = Cov
􏾩𝑎 (𝜙̂ EF ) − 𝐽 𝑇 Cov 􏾩𝑎 (𝜙̂ EF ) − Cov
􏾩𝑎 (𝜙̂ EA ).
𝑘
Então, conclui-se que esta matriz é definida positiva, e, portanto, 𝐻 ≥ 0.

O resultado (7.82) resulta imediatamente do princípio MGM de Hausman.
O teste de Hausman é considerado um teste de especificação porque pode detectar
a violação de (7.79), que faz parte da hipótese a manter do modelo com componentes
do erro. No entanto, convém aprofundar esta questão de forma a dar uma resposta
à seguinte pergunta: que testa a estatística de Hausman? Para simplificar, suponha-se
que Σ = 𝐸(𝑢•𝑖 𝑢𝑇•𝑖 ) é conhecido, e que 𝑥𝑡𝑖• = 𝑓𝑡𝑖• (não há regressores constantes no tempo).
Assim, (7.79) reduz-se a 𝐸(𝑥𝑡𝑖• 𝛼𝑖 ) = 𝟎, qualquer que seja 𝑡, que é a restrição que não se
usa no estimador EF. Será o estimador EA necessariamente inconsistente quando não
se verifica 𝐸(𝑥𝑡𝑖• 𝛼𝑖 ) = 𝟎, mas as outras hipóteses do modelo com componentes do erro
(MCE) são satisfeitas? Comece-se por notar que
−􏷠
𝑚 𝑚
𝛽̂EA = 􏿵􏾜 𝑋•𝑖𝑇 Σ−􏷠 𝑋•𝑖 􏿸 􏾜 𝑋•𝑖𝑇 Σ−􏷠 (𝑋•𝑖 𝛽 + 𝑢•𝑖 )
𝑖=􏷠 𝑖=􏷠
−􏷠
𝑚 𝑚
= 𝛽 + 􏿵􏾜 𝑋•𝑖𝑇 Σ−􏷠 𝑋•𝑖 􏿸 􏾜 𝑋•𝑖𝑇 Σ−􏷠 𝑢•𝑖 .
𝑖=􏷠 𝑖=􏷠
Então,
plim(𝛽̂EA ) = 𝛽 + 𝐸(𝑋•𝑖𝑇 Σ−􏷠 𝑋•𝑖 )−􏷠 𝐸(𝑋•𝑖𝑇 Σ−􏷠 𝑢•𝑖 ),
onde 𝑢•𝑖 = 𝑒𝑝 𝛼𝑖 + 𝑣•𝑖 . A consistência do estimador exige que 𝐸(𝑋•𝑖𝑇 Σ−􏷠 𝑢•𝑖 ) = 𝟎. Assim:
desde que se verifique 𝐸(𝑥𝑡𝑖• 𝑣𝑠𝑖 ) = 𝟎, a condição 𝐸(𝑥𝑡𝑖• 𝛼𝑖 ) = 𝟎 é suficiente para que
𝐸(𝑋•𝑖𝑇 Σ−􏷠 𝑢•𝑖 ) = 𝟎; contudo, esta condição não é necessária. Deste modo, em rigor, o
teste de Hausman não testa 𝐸(𝑥𝑡𝑖• 𝛼𝑖 ) = 𝟎, mas sim 𝐸(𝑋•𝑖𝑇 Σ−􏷠 𝑢•𝑖 ) = 𝟎.
7A.7 Demonstração das propriedades assintóticas do estimador EF

no caso de painéis não balanceados
A demonstração destas propriedades também se pode fazer de duas formas: provar
que estimador EF é estimador MGM, e aplicar os respectivos resultados assintóticos;
analisar a expressão do respectivo erro de amostragem.
Directamente, vai provar-se apenas que 𝐸{(𝐹•𝑖 ) 𝑣•𝑖 } = 𝟎. Com efeito, como
𝑐 𝑇 𝑐
𝑐 𝑇 𝑐 𝑝 𝑝
(𝐹•𝑖 𝑇
) 𝑣•𝑖 = 𝐹•𝑖 𝑃𝑑𝑖 𝑣•𝑖 = 􏾜 􏾜 𝑐𝑖𝑡𝑠 𝑑𝑡𝑖 𝑑𝑠𝑖 𝑓𝑡𝑖• 𝑣𝑠𝑖 ,
𝑡=􏷠 𝑠=􏷠
onde 𝑐𝑖𝑡𝑠 é o elemento genérico de 𝑃𝑑𝑖 , resulta
𝑐 𝑇 𝑐 𝑝 𝑝
𝐸{(𝐹•𝑖 ) 𝑣•𝑖 } = 􏾜 􏾜 𝐸(𝑐𝑖𝑡𝑠 𝑑𝑡𝑖 𝑑𝑠𝑖 𝑓𝑡𝑖• 𝑣𝑠𝑖 ) = 𝟎,
𝑡=􏷠 𝑠=􏷠
porque, atendendo à hipótese MENO.2”,
𝐸(𝑐𝑖𝑡𝑠 𝑑𝑡𝑖 𝑑𝑠𝑖 𝑓𝑡𝑖• 𝑣𝑠𝑖 ) = 𝐸{𝐸(𝑐𝑖𝑡𝑠 𝑑𝑡𝑖 𝑑𝑠𝑖 𝑓𝑡𝑖• 𝑣𝑠𝑖 |𝑑•𝑖 )} = 𝐸{𝑐𝑖𝑡𝑠 𝑑𝑡𝑖 𝑑𝑠𝑖 𝐸(𝑓𝑡𝑖• 𝑣𝑠𝑖 |𝑑•𝑖 )} = 𝟎.
Deve notar-se que a extensão das propriedades do estimador EF ao caso dos painéis
não balanceados é mais fácil admitindo a possibilidade de existir heterocedasticidade
condicionada. No caso de homocedasticidade condicionada, para obter, por exemplo,
a expressão correspondente a (7.67), deve supor-se que
𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 |𝑧•𝑖 , 𝑑•𝑖 } = 𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 }.
A determinação de um estimador consistente desta matriz é mais complicado do que

(7.68).
Alternativamente, o estimador EF pode ser obtido fazendo a «compressão» do vec-
tor 𝑦•𝑖 e da matriz 𝐹•𝑖 , ou seja, eliminando os zeros do primeiro, e as linhas nulas da
segunda: obtém-se, respectivamente, 𝑦∗•𝑖 (vector 𝑝𝑖 × 1), e 𝐹•𝑖
∗
(vector 𝑝𝑖 × 𝑘􏷠 ). Neste
caso, 𝑑•𝑖 = 𝑒𝑝𝑖 (vector-coluna com 𝑝𝑖 uns), a que corresponde a matriz 𝑃𝑖𝑒 . Verifica-se
∗
facilmente que
−􏷠
𝑚 𝑚
𝜙̂ EF = 􏿵􏾜 (𝐹•𝑖
∗ 𝑇 𝑖 ∗ ∗ 𝑇 𝑖 ∗
) 𝑃𝑒 𝐹•𝑖 􏿸 􏾜 (𝐹•𝑖 ) 𝑃𝑒 𝑦•𝑖 .
𝑖=􏷠 𝑖=􏷠
Quando se considera o modelo 𝑦•𝑖 = 𝑋•𝑖 𝛽 + 𝑢•𝑖 , com dados de painel não balancea-
dos, em que se admite a possibilidade de existir heterocedasticidade condicionada, o
estimador PMQ pode ser construído, sem dificuldade, fazendo
⎡ 𝑑􏷠𝑖 𝑦􏷠𝑖 ⎤ ⎡ 𝑑􏷠𝑖 𝑥􏷠𝑖• ⎤ ⎡ 𝑑􏷠𝑖 𝑢􏷠𝑖 ⎤

⎢ 𝑑 𝑦 ⎥ ⎢ 𝑑 𝑥 ⎥ ⎢ 𝑑 𝑢 ⎥
𝑦•𝑖 = ⎢ 􏷡𝑖 􏷡𝑖 ⎥, 𝑋•𝑖 = ⎢ 􏷡𝑖 􏷡𝑖• ⎥ e 𝑢•𝑖 = ⎢ 􏷡𝑖 􏷡𝑖 ⎥.
⋮ ⋮ ⋮
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎣ 𝑝𝑖 𝑦𝑝𝑖
𝑑 ⎦ 𝑑 𝑥
⎣ 𝑝𝑖 𝑝𝑖• ⎦ ⎣ 𝑝𝑖 𝑢𝑝𝑖
𝑑 ⎦
Então,
−􏷠
𝑚 𝑚
𝛽̂PMQ = 􏿵􏾜 𝑋•𝑖𝑇 𝑋•𝑖 􏿸 􏾜 𝑋•𝑖𝑇 𝑦•𝑖 ,
𝑖=􏷠 𝑖=􏷠
Cov𝑎 (𝛽̂PMQ ) = 𝐸(𝑋•𝑖𝑇 𝑋•𝑖 )−􏷠 𝐸(𝑋•𝑖𝑇 𝑢•𝑖 𝑢𝑇•𝑖 𝑋•𝑖 )𝐸(𝑋•𝑖𝑇 𝑋•𝑖 )−􏷠 ,
−􏷠 −􏷠
􏾩𝑎 (𝛽̂PMQ ) = 1 𝑚 1 𝑚 1 𝑚
Cov 𝑇 𝑇
􏿶 􏾜𝑖=􏷠 𝑋•𝑖 𝑋•𝑖 􏿹 􏿶 􏾜𝑖=􏷠 𝑋•𝑖 𝑢̂ •𝑖 𝑢̂ •𝑖 𝑋•𝑖 􏿹
𝑇
􏿶 􏾜 𝑋•𝑖𝑇 𝑋•𝑖 􏿹 ,
𝑚 𝑚 𝑚 𝑖=􏷠
onde 𝑢̂ •𝑖 = 𝑦•𝑖 − 𝑋•𝑖 𝛽̂PMQ .

[8A]
Sistemas de Equações de Regressão
Linear e o Método da Máxima
Verosimilhança
8A.1 O modelo de regressão multivariada e o método da máxima

verosimilhança
Nesta secção fazer-se a estimação de máxima verosimilhança dos parâmetros do mo-
delo de regressão multivariada, que é o caso mais simples de sistema de equações de
regressão linear.
Como se sabe (ver secção 5.7, subsecção «SUR versus MQ»), o modelo é dado por
𝑦𝑡𝑖 = 𝑥𝑡• 𝛽•𝑖 + 𝑢𝑡𝑖 (𝑖 = 1, 2, … , 𝑚 ; 𝑡 ∈ 𝑇), (8A.1)
em que 𝑥𝑡• é o vector 1 × 𝑘 dos regressores são pré-determinados (cada equação tem os
mesmos regressores).
O modelo pode ser escrito da seguinte maneira:
𝑦𝑡• = 𝑥𝑡• B + 𝑢𝑡• (𝑡 ∈ 𝑇), (8A.2)
onde
𝑦𝑡• = [ 𝑦𝑡􏷠 𝑦𝑡􏷡 ⋯ 𝑦𝑡𝑚 ];

B = [ 𝛽•􏷠 𝛽•􏷡 ⋯ 𝛽•𝑚 ] (matriz 𝑘 × 𝑚);
𝑢𝑡• = [ 𝑢𝑡􏷠 𝑢𝑡􏷡 ⋯ 𝑢𝑡𝑚 ].
1041
1042 Anexo 8A Sistemas de Equações de Regressão Linear e o Método da MV
Recordem-se as hipóteses deste modelo:

1) {(𝑦𝑡• , 𝑥𝑡• )} é estacionário e ergódico;
2) 𝐸(𝑥𝑇𝑡• 𝑢𝑡• ) = 𝑂 (ortogonalidade);
3) 𝑄𝑥𝑥 = 𝐸(𝑥𝑇𝑡• 𝑥𝑡• ) é não singular (condição de característica);
4) 𝐸(𝑢𝑇𝑡• 𝑢𝑡• |𝑥𝑡• ) = Σ, matriz quadrada de ordem m, definida positiva (homocedastici-
dade condicionada).
O estimador MGM de 𝛽•𝑖 é, como se sabe, o estimador MQ:
−􏷠
1 𝑛 1 𝑛
𝛽̂•𝑖,MQ = 􏿶 􏾜 𝑥𝑇𝑡• 𝑥𝑡• 􏿹 􏿶 􏾜 𝑥𝑇𝑡• 𝑦𝑡𝑖 􏿹 = (𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 𝑦•𝑖 ,
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
onde 𝑋 é a matriz 𝑛 × 𝑘 das observações dos regressores, e 𝑦•𝑖 é o vector 𝑛 × 1 das

observações do regressando.
Então, o estimador MQ de B é
−􏷠
1 𝑛 1 𝑛
B̂ MQ = 􏿶 􏾜 𝑥𝑇𝑡• 𝑥𝑡• 􏿹 􏿶 􏾜 𝑥𝑇𝑡• 𝑦𝑡• 􏿹 = (𝑋 𝑇 𝑋)−􏷠 𝑋 𝑇 𝑌, (8A.3)
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
onde 𝑌 é matriz 𝑛 × 𝑚 das observações dos regressandos,

⎡ 𝑦􏷠• ⎤
⎢ 𝑦 ⎥
𝑌 = ⎢ 􏷡• ⎥ = 􏿮 𝑦•􏷠 𝑦•􏷡 ⋯ 𝑦•𝑚 􏿱 .
⋮
⎢ ⎥
𝑦
⎣ 𝑛• ⎦
O modelo ainda não está devidamente especificado para se poder aplicar o método da
máxima verosimilhança. As hipóteses adicionais são as seguintes:
5) 𝑢𝑡• |𝑥𝑡• ∼ 𝑁 (𝑚) (𝟎, Σ);
6) {(𝑦𝑡• , 𝑥𝑡• )} é 𝑖𝑖𝑑.
A hipótese 6) simplifica a hipótese 1), implica que 𝑦𝑡• |𝑥𝑡• ∼ 𝑁 (𝑚) (𝑥𝑡• B, Σ).
Deste modo,
1
𝑓(𝑦𝑡• |𝑥𝑡• ; B, Σ) = (2𝜋)−𝑚/􏷡 |Σ|−􏷠/􏷡 exp 􏿼− (𝑦𝑡• − 𝑥𝑡• B) Σ−􏷠 (𝑦𝑡• − 𝑥𝑡• B)𝑇 � .
2
Substituindo (B, Σ) pelos quaisquer valores hipotéticos, (B̃ , Σ)
̃ , obtém-se, sem dificul-
dade, o logaritmo da função de verosimilhança para a observação 𝑡,
𝑚 1 1
ln{𝑓(𝑦𝑡• |𝑥𝑡• ; B̃ , Σ)}
̃ =−ln(2𝜋) + ln(|Σ̃ −􏷠 |) − (𝑦𝑡• − 𝑥𝑡• B̃ ) Σ̃ −􏷠 (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 ,
2 2 2
̃ ̃
notando que − ln(|Σ|) = ln(|Σ |).
−􏷠
O modelo de regressão multivariada e o método da máxima verosimilhança 1043
Quando se dispõe de uma amostra de dimensão 𝑛, a maximização do logaritmo

médio da verosimilhança (função objectivo)
𝑚 1 1 𝑛
𝜑𝑛 (B̃ , Σ)
̃ =− ln(2𝜋) + ln(|Σ̃ −􏷠 |) − 􏾜 (𝑦𝑡• − 𝑥𝑡• B̃ ) Σ̃ −􏷠 (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 ,
2 2 2𝑛 𝑡=􏷠
permite obter os respectivos estimadores MV.

Antes de calcular estes estimadores, vai provar-se que
1 𝑛
􏾜 (𝑦𝑡• − 𝑥𝑡• B̃ ) Σ̃ −􏷠 (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 = tr{ Σ̃ −􏷠 Σ(
̂ B̃ )},
𝑛 𝑡=􏷠
onde
1 𝑛
̂ B̃ ) =
􏾜 (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 (𝑦𝑡• − 𝑥𝑡• B̃ )
Σ(
𝑛 𝑡=􏷠
é uma matriz quadrada de ordem 𝑚. Com efeito,
1 𝑛 1 𝑛
􏾜 (𝑦𝑡• − 𝑥𝑡• B̃ ) Σ̃ −􏷠 (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 = tr 􏿼 􏾜 (𝑦𝑡• − 𝑥𝑡• B̃ ) Σ̃ −􏷠 (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 �
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
1 𝑛
= 􏾜 tr{ (𝑦𝑡• − 𝑥𝑡• B̃ ) Σ̃ −􏷠 (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 }
𝑛 𝑡=􏷠
1 𝑛
= 􏾜 tr{ Σ̃ −􏷠 (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 (𝑦𝑡• − 𝑥𝑡• B̃ )}
𝑛 𝑡=􏷠
1 𝑛
= tr 􏿼 􏾜 Σ̃ −􏷠 (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 (𝑦𝑡• − 𝑥𝑡• B̃ )�
𝑛 𝑡=􏷠
1 𝑛
= tr 􏿼Σ̃ −􏷠 􏾜 (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 (𝑦𝑡• − 𝑥𝑡• B̃ )� .
𝑛 𝑡=􏷠
Então, a função objectivo é

𝑚 1 1
𝜑𝑛 (B̃ , Σ)
̃ =− ̂ B̃ )}.
ln(2𝜋) + ln(|Σ̃ −􏷠 |) − tr{ Σ̃ −􏷠 Σ( (8A.4)
2 2 2
Vai demonstrar-se que a solução do problema de maximizar (8A.4) em relação a (B̃ , Σ)
̃
é numericamente igual ao da determinação dos estimadores MQ (MGM). Assim, o es-
timador MV de B é dado por (8A.3), e o estimador MV de Σ é
1 𝑛
Σ̂ MQ = ̂ B̂ MQ ),
􏾜 𝑢̂ 𝑇𝑡• 𝑢̂ 𝑡• = Σ( (8A.5)
𝑛 𝑡=􏷠
onde 𝑢̂ 𝑡• = 𝑦𝑡• − 𝑥𝑡• B̂ MQ .

Vai provar-se que Σ( ̂ B̃ ) é definida positiva com probabilidade 1, para qualquer B,̃
para 𝑛 suficientemente grande (pode, então, supor-se que Σ( ̂ B̃ ) é definida positiva, e
não meramente semidefinida positiva). Com efeito, como {(𝑦𝑡• , 𝑥𝑡• )} é 𝑖𝑖𝑑, começa-se
por notar que Σ( ̂ B̃ ) converge em probabilidade para 𝐸{(𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 (𝑦𝑡• − 𝑥𝑡• B̃ )}. Como
𝑦𝑡• − 𝑥𝑡• B̃ = 𝑢𝑡• + 𝑥𝑡• (B − B̃ ), 𝐸(𝑥𝑇𝑡• 𝑢𝑡• ) = 𝑂 e 𝐸(𝑢𝑇𝑡• 𝑢𝑡• ) = Σ, vem
𝐸{(𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 (𝑦𝑡• − 𝑥𝑡• B̃ )} = 𝐸 􏿮{𝑢𝑡• + 𝑥𝑡• (B − B̃ )}𝑇 {𝑢𝑡• + 𝑥𝑡• (B − B̃ )}􏿱
= 𝐸(𝑢𝑇𝑡• 𝑢𝑡• ) + (B − B̃ )𝑇 𝐸(𝑥𝑇𝑡• 𝑢𝑡• )
+ 𝐸(𝑢𝑇𝑡• 𝑥𝑡• )(B − B̃ ) + (B − B̃ )𝑇 𝐸(𝑥𝑇𝑡• 𝑥𝑡• )(B − B̃ )
= Σ + (B − B̃ )𝑇 𝐸(𝑥𝑇𝑡• 𝑥𝑡• )(B − B̃ ).
Então, Σ(̂ B̃ ) converge em probabilidade para esta matriz.

Como Σ é definida positiva, vem |Σ + (B − B̃ )𝑇 𝐸(𝑥𝑇𝑡• 𝑥𝑡• )(B − B̃ )| ≥ |Σ| > 0 [a primeira
desigualdade baseia-se na seguinte propriedade da álgebra das matrizes: se A e B são
duas matrizes semidefinidas positivas do mesmo tipo, então |𝐴 + 𝐵| ≥ |𝐴|]. Assim,
Σ + (B − B̃ )𝑇 𝐸(𝑥𝑇𝑡• 𝑥𝑡• )(B − B̃ ) é definida positiva, e, portanto, Σ(
̂ B̃ ) é definida positiva com
probabilidade 1, para 𝑛 suficientemente grande.
A demonstração de que os estimadores ML e MQ são numericamente iguais é ba-
seada na seguinte maximização, em dois passos, da função objectivo:
Passo 1
O primeiro passo consiste em maximizar (8A.4) em relação a Σ̃ , supondo que B̃ é dado.

Para isto, vai utilizar-se o seguinte resultado da álgebra das matrizes:
Sejam 𝐴 e 𝐵 duas matrizes simétricas e definidas positivas, do mesmo tipo. Então,

o único maximizante da função 𝑓(𝐴) = ln |𝐴| − tr(𝐴𝐵) é 𝐴 = 𝐵−􏷠 .
Fazendo 𝐴 = Σ̃ −􏷠 e 𝐵 = Σ( ̂ B̃ ), conclui-se imediatamente que o único maximizante de

̂ B̃ ), dado B.̃ Fazendo esta substituição em (8A.4), obtém-se o logaritmo
(8A.4) é Σ̃ = Σ(
médio da verosimilhança concentrada,
𝑚 1 1
𝜑∗𝑛 (B̃ ) = 𝜑𝑛 {B̃ , Σ(
̂ B̃ )} = −
ln(2𝜋) + ln{|Σ(̂ B̃ )−􏷠 |} − tr{ Σ(
̂ B̃ )−􏷠 Σ(
̂ B̃ )}
2 2 2
𝑚 1 𝑚
= − ln(2𝜋) − ln{|Σ(̂ B̃ )|} − .
2 2 2
Passo 2
Facilmente se verifica que a maximização de 𝜑∗𝑛 (B̃ ) é equivalente a minimizar
1
̂ B̃ )| = 􏿙 􏾜𝑛 (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 (𝑦𝑡• − 𝑥𝑡• B̃ ) 􏿙 .
|Σ(
𝑛 𝑡=􏷠
Modelos de equações simultâneas e o método da máxima verosimilhança 1045
̂ B̃ )| é (8A.3) [o estimador MQ]. Para isso, vai

Vai verificar-se que o minimizante de |Σ(
provar-se que
1 𝑛 1 𝑛
􏿙 􏾜 (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 (𝑦𝑡• − 𝑥𝑡• B̃ ) 􏿙 ≥ 􏿙 􏾜 𝑢̂ 𝑇𝑡• 𝑢̂ 𝑡• 􏿙 ,
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
onde 𝑢̂ 𝑡• = 𝑦𝑡• − 𝑥𝑡• B̂ MQ [como, por construção, 𝑢̂ 𝑡• não depende de B,̃ esta desigualdade
mostra que o primeiro membro é minimizado para B̃ = B̂ MQ ].
Com efeito, notando que 𝑦𝑡• − 𝑥𝑡• B̃ = 𝑢̂ 𝑡• + 𝑥𝑡• (B̂ MQ − B̃ ), vem
𝑛 𝑛
􏾜 (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 (𝑦𝑡• − 𝑥𝑡• B̃ ) = 􏾜 {𝑢̂ 𝑡• + 𝑥𝑡• (B̂ MQ − B̃ )}𝑇 {𝑢̂ 𝑡• + 𝑥𝑡• (B̂ MQ − B̃ )}
𝑡=􏷠 𝑡=􏷠
𝑛 𝑛
=􏾜 𝑢̂ 𝑇𝑡• 𝑢̂ 𝑡• + 􏾜 (B̂ MQ − B̃ )𝑇 𝑥𝑇𝑡• 𝑥𝑡• (B̂ MQ − B̃ ) ,
𝑡=􏷠 𝑡=􏷠
uma vez que

𝑛
􏾜 𝑥𝑇𝑡• 𝑢̂ 𝑡• = 𝑂.
𝑡=􏷠
Considerando as matrizes semidefinidas positivas
𝑛 𝑛
𝐴=􏾜 𝑢̂ 𝑇𝑡• 𝑢̂ 𝑡• e 𝐵=􏾜 (B̂ MQ − B̃ )𝑇 𝑥𝑇𝑡• 𝑥𝑡• (B̂ MQ − B̃ ),
𝑡=􏷠 𝑡=􏷠
e como |𝐴 + 𝐵| ≥ |𝐴|, fica provada aquela desigualdade.

Fazendo B̃ = B̂ MQ em Σ(
̂ B̃ ), obtém-se (8A.5).
Sabe-se que o estimador MQ (MGM) de B é consistente e assintoticamente normal,
mesmo que não se verifiquem as hipóteses 5) e 6). Obviamente, daqui decorre que o
estimador MV de B é ainda consistente e assintoticamente normal, e que o estimador
MV de Σ é consistente.
8A.2 Modelos de equações simultâneas e o método da máxima ve-

rosimilhança com informação completa
O estimador que vai ser estudado na presente subsecção é a contrapartida, no contexto
da máxima verosimilhança, do estimador MQ3P; na próxima subsecção, vai abordar-se
o estimador de máxima verosimilhança que é a contrapartida do estimador MQ2P.
Para estimar um modelo completo de equações simultâneas pelo método da má-
xima verosimilhança é necessário introduzir as seguintes hipóteses:
a) 𝑢𝑡• |𝑧𝑡• ∼ 𝑁 (𝑚) (𝟎, Σ);
b) {(𝑦𝑡• , 𝑧𝑡• )} é 𝑖𝑖𝑑.
Devido à hipótese a), e como 𝑣𝑡• = 𝑢𝑡• Γ−􏷠 , tem-se
𝑣𝑡• |𝑧𝑡• ∼ 𝑁 (𝑚) (𝟎, Ω),

onde Ω = (Γ−􏷠 )𝑇 Σ Γ−􏷠 . Atendendo a (6.2), vem
𝑦𝑡• |𝑧𝑡• ∼ 𝑁 (𝑚) (𝑧𝑡• Π, Ω),
em que Π = −Δ Γ−􏷠 . Então, o logaritmo da função de verosimilhança para a observação

𝑡é
𝑚 1 ̃ − 1 (𝑦𝑡• − 𝑧𝑡• Π)
̃ =−
ln 𝑓(𝑦𝑡• |𝑧𝑡• ; 𝛽,̃ Σ)
ln(2𝜋) − ln(|Ω|) ̃ Ω̃ −􏷠 (𝑦𝑡• − 𝑧𝑡• Π) ̃ 𝑇
2 2 2
𝑚 1 1
= − ln(2𝜋) − ln 􏿴􏿖(Γ̃ −􏷠 )𝑇 Σ̃ Γ̃ −􏷠 􏿖􏿷 − (𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ −􏷠 ) {(Γ̃ −􏷠 )𝑇 Σ̃ Γ̃ −􏷠 }−􏷠 (𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ −􏷠 )𝑇 .
2 2 2
Note-se a verosimilhança é função de (𝛽,̃ Σ) ̃ , porque (Γ,̃ Δ) ̃ depende de 𝛽̃.
Como
(𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ −􏷠 ) {(Γ̃ −􏷠 )𝑇 Σ̃ Γ̃ −􏷠 }−􏷠 (𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ −􏷠 )𝑇
= (𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ −􏷠 ) (Γ̃ Σ̃ −􏷠 Γ̃ 𝑇 )(𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ −􏷠 )𝑇
̃ Σ̃ −􏷠 (𝑦𝑡• Γ̃ + 𝑧𝑡• Δ̃ )𝑇 ,
= (𝑦𝑡• Γ̃ + 𝑧𝑡• Δ)
e
􏿖(Γ̃ −􏷠 )𝑇 Σ̃ Γ̃ −􏷠 􏿖 = |(Γ̃ −􏷠 )𝑇 | × |Σ|̃ × | Γ̃ −􏷠 | = |Σ|/|
̃ Γ|̃ 􏷡 ,
obtém-se
𝑚 1 1
ln(2𝜋) + ln( |Γ|̃ 􏷡 ) − ln( |Σ|)
̃ =−
ln{𝑓(𝑦𝑡• |𝑧𝑡• ; 𝛽,̃ Σ)} ̃
2 2 2
1 ̃ Σ̃ −􏷠 (𝑦𝑡• Γ̃ + 𝑧𝑡• Δ̃ )𝑇 .
− (𝑦𝑡• Γ̃ + 𝑧𝑡• Δ)
2
Este resultado pode ser obtido directamente, utilizando o teorema da mudança de va-
riáveis da teoria da probabilidade, que se recorda:
Seja 𝑢 um vector aleatório contínuo, 𝑚 × 1, com densidade 𝑓𝑢 (𝑢), e ℎ ∶ ℜ𝑚 → ℜ𝑚

uma aplicação biunívoca e diferenciável no conjunto aberto 𝐴. Tem-se 𝑦 = ℎ(𝑢),
em que 𝑦 é um vector aleatório contínuo, 𝑚 × 1. A aplicação inversa representa-
se por ℎ−􏷠 ∶ 𝑢 = ℎ−􏷠 (𝑦). Seja ∇ℎ(𝑢) a matriz Jacobiana, quadrada de ordem 𝑚, e
suponha-se que |∇ℎ(𝑢)| ≠ 0 em 𝐴. Então, a densidade de 𝑦 é dada por
𝑓𝑢 {ℎ−􏷠 (𝑦)}
𝑓(𝑦) = ,
Abs( |∇ℎ{ℎ−􏷠 (𝑦)}| )
onde Abs(⋅) é o valor absoluto.
Pode obter-se a densidade de 𝑦𝑡• |𝑧𝑡• a partir da densidade de 𝑢𝑡• |𝑧𝑡• . Devido à hipótese
a), tem-se
1
𝑓(𝑢𝑡• |𝑥𝑡• ; Σ) = (2𝜋)−𝑚/􏷡 |Σ|−􏷠/􏷡 exp 􏿼− 𝑢𝑡• Σ−􏷠 𝑢𝑇𝑡• � .
2
Como 𝑦𝑡• Γ + 𝑧𝑡• Δ = 𝑢𝑡• , tem-se
𝑦𝑡• = ℎ(𝑢𝑡• ) = −𝑧𝑡• Δ Γ−􏷠 + 𝑢𝑡• Γ−􏷠 e 𝑢𝑡• = ℎ−􏷠 (𝑦𝑡• ) = 𝑦𝑡• Γ + 𝑧𝑡• Δ.
Então, como ∇ℎ(𝑢𝑡• ) = Γ−􏷠 e |Γ−􏷠 | = |Γ|−􏷠 , vem

1
𝑓(𝑢𝑡• |𝑥𝑡• ; Σ) = (2𝜋)−𝑚/􏷡 |Σ|−􏷠/􏷡 Abs( |Γ| ) exp 􏿼− (𝑦𝑡• Γ + 𝑧𝑡• Δ)Σ−􏷠 (𝑦𝑡• Γ + 𝑧𝑡• Δ)𝑇 � .
2
Para obter o logaritmo da função de verosimilhança para a observação 𝑡, basta notar
que ln{ Abs( |Γ| )} = (1/2) ln(|Γ|􏷡 ).
Quando se dispõe de uma amostra de dimensão 𝑛, o logaritmo médio da verosimi-
lhança (função objectivo) é dado por
𝑚 1 1 1 𝑛
̃ Σ̃ −􏷠 (𝑦𝑡• Γ̃ + 𝑧𝑡• Δ̃ )𝑇 .
̃ =−
𝜑𝑛 (𝛽,̃ Σ) ln(2𝜋) + ln( |Γ|̃ 􏷡 ) − ln( |Σ|)
̃ − 􏾜 (𝑦𝑡• Γ̃ + 𝑧𝑡• Δ)
2 2 2 2𝑛 𝑡=􏷠
O estimador de máxima verosimilhança com informação completa (MVIC; a sigla in-

glesa é FIML, de full-information maximum likelihood) de (𝛽, Σ) são os valores de (𝛽,̃ Σ)
̃
que maximizam 𝜑𝑛 (𝛽,̃ Σ)̃ .
O primeiro passo para obter o estimador MVIC dos parâmetros do modelo consiste
̃ em relação a Σ̃ , dado 𝛽̃. Tem-se (secção 8A.1)
em maximizar 𝜑𝑛 (𝛽,̃ Σ)
1 𝑛
̃ 𝑇 (𝑦𝑡• Γ̃ + 𝑧𝑡• Δ̃ ).
̂ 𝛽)̃ =
Σ( 􏾜 (𝑦𝑡• Γ̃ + 𝑧𝑡• Δ)
𝑛 𝑡=􏷠
O elemento genérico desta matriz é

1 𝑛
𝜎̂ 𝑖ℓ (𝛽)̃ = ̃ 𝑡ℓ + 𝑥𝑡ℓ• 𝛽̃ ).
􏾜 (𝑦𝑡𝑖 − 𝑥𝑡𝑖• 𝛽)(𝑦
𝑛 𝑡=􏷠
Substituindo Σ̃ por Σ(
̂ 𝛽)̃ em 𝜑𝑛 (𝛽,̃ Σ)
̃ , e notando que
1 𝑛
̃ Σ̃ −􏷠 (𝑦𝑡• Γ̃ + 𝑧𝑡• Δ̃ )𝑇 = tr{ Σ̃ −􏷠 Σ(
􏾜 (𝑦𝑡• Γ̃ + 𝑧𝑡• Δ) ̂ 𝛽)},
̃
𝑛 𝑡=􏷠
obtém-se o logaritmo médio da verosimilhança concentrada,

𝑚 𝑚 1 1
̂ 𝛽)}
𝜑∗𝑛 (𝛽)̃ = 𝜑𝑛 {𝛽,̃ Σ( ̃ =− ln(2𝜋) − + ln (|Γ|̃ 􏷡 ) − ln( |Σ(
̂ 𝛽)|)
̃
2 2 2 2
𝑚 𝑚 1
=− ln(2𝜋) − − ln 􏿵􏿖Σ( ̃ Γ􏿖̃ 􏷡 􏿸
̂ 𝛽)􏿖/􏿖
2 2 2
𝑚 𝑚 1
=− ln(2𝜋) − − ln 􏿴􏿖(Γ̃ −􏷠 )𝑇 Σ(
̂ 𝛽)̃ Γ̃ −􏷠 􏿖􏿷
2 2 2
𝑚 𝑚 1 1 𝑛
=− ln(2𝜋) − − ln 􏿶􏿙 􏾜 (𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ −􏷠 )𝑇 (𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ −􏷠 ) 􏿙􏿹 .
2 2 2 𝑛 𝑡=􏷠
No segundo passo, maximiza-se esta função em relação a 𝛽̃, obtendo-se o estimador

̂ 𝛽)|
MVIC de 𝛽, 𝛽̂MVIC . Note-se que maximizar 𝜑∗𝑛 (𝛽)̃ é equivalente à minimizar |Ω( ̃ , onde
̂ 𝛽)̃ = 1 􏾜𝑛 (𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ −􏷠 )𝑇 (𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ −􏷠 ) ,

Ω(
𝑛 𝑡=􏷠
não sendo possível estabelecer uma expressão analítica para 𝛽̂MVIC . O estimador MVIC
de Σ é, então, Σ̂ MVIC = Σ(
̂ 𝛽̂MVIC ).
Dada a forma reduzida, 𝑦𝑡• = 𝑧𝑡• Π + 𝑣𝑡• (um modelo de regressão multivariada),
pode construir-se o logaritmo médio da verosimilhança concentrada, tal como se fez
na secção anterior. Fica ao cuidado do leitor verificar que se obtém
𝑚 𝑚 1 ̂ Π)|),
̃ =−
𝜑∗𝑛 (Π) ln(2𝜋) − − ln(|Ω( ̃
2 2 2
onde
1
Ω( ̃ = 􏾜𝑛 (𝑦𝑡• − 𝑧𝑡• Π)
̂ Π) ̃ 𝑇 (𝑦𝑡• − 𝑧𝑡• Π) ̂ 𝛽).
̃ = Ω( ̃
𝑛 𝑡=􏷠
Facilmente se verifica que 𝜑∗𝑛 (𝛽)̃ resulta de impor a 𝜑∗𝑛 (Π)̃ as restrições que são implica-
das pela seguinte hipótese nula:
𝐻􏷟 ∶ Π = −Δ Γ−􏷠 ou ΠΓ + Δ = 𝑂.
Dito de outro modo, a estimação MVIC de 𝛽 coincide com a estimação MQ (da regressão
multivariada) com a restrição correspondente a esta hipótese nula. Deste modo, 𝐻􏷟
pode ser testada recorrendo ao princípio da razão de verosimilhanças (ver secção 8.4).
Representando por Π̂ MQ o estimador MQ de Π, a estatística-teste é dada por
̂ Δ̂ MVIC Γ̂ −􏷠
RV = 2𝑛{𝜑∗𝑛 (Π̂ MQ ) − 𝜑∗𝑛 (𝛽̂MVIC )} = 𝑛 􏿮ln 􏿴􏿖 Ω(− ̂ ̂
MVIC ) 􏿖􏿷 − ln 􏿴􏿖 Ω(ΠMQ ) 􏿖􏿷􏿱 ,
onde Γ̂ MVIC e Δ̂ MVIC são, respectivamente, os estimadores de Γ e Δ obtidos a partir de

𝛽̂MVIC . Tem-se
𝑑
RV → 𝜒􏷡 (𝑘 − 𝑚𝑞),
em que 𝑘 = 𝑘􏷠 + 𝑘􏷡 + ⋯ + 𝑘𝑚 , 𝑚 é o número de equações e 𝑞 é o número de instrumen-

tos. Como 𝑘 − 𝑚𝑞 é o número de restrições de sobre-identificação, o teste baseado na
estatística RV é um teste de sobre-identificação. É, também, um teste de especificação,
porque as restrições que vão ser testadas são condições inerentes ao modelo (hipótese
a manter).
Apresentam-se a seguir, sem demonstração, as propriedades dos estimadores de
máxima verosimilhança com informação completa:
̃ seja obtida sob a

a) Propriedades assintóticas. Embora a função objectivo 𝜑𝑛 (𝛽,̃ Σ)
hipótese 𝑢𝑡• |𝑧𝑡• ∼ 𝑁 (𝟎, Σ), pode provar-se que o estimador MVIC de 𝛽 é con-
(𝑚)
sistente e assintoticamente normal, mesmo que não se verifique aquela hipótese.

Pode, também, provar-se que o estimador MVIC é assintoticamente equivalente
ao estimador MQ3P [Hausman (1975)]. Assim, a matriz das covariâncias assintó-
ticas é dada por (5.80), e o respectivo estimador é (5.81).
b) Invariância. Como o estimador MVIC é um estimador de máxima verosimi-

lhança, goza da propriedade da invariância (ver anexo 2D).
Como se sabe, no modelo SUR todos os regressores de cada equação são variáveis pré-
-determinadas. Nestas condições, o conjunto dos instrumentos é a união de todos os re-
gressores do modelo (𝑥𝑡𝑖• é um subvector de 𝑧𝑡• ). No exemplo 6.1, a forma estrutural do
modelo considera a mesma variável, 𝑞𝑡 , como variável dependente nas duas equações
(procura e oferta). Esta situação não pode ocorrer num modelo SUR.
Com efeito, supondo 𝑦𝑡􏷠 = 𝑥𝑡􏷠• 𝛽•􏷠 +𝑢𝑡􏷠 , 𝑦𝑡􏷡 = 𝑥𝑡􏷡• 𝛽•􏷡 +𝑢𝑡􏷡 e 𝑦𝑡􏷠 = 𝑦𝑡􏷡 , ter-se-ía 𝑢𝑡􏷠 −𝑢𝑡􏷡 =
𝑥𝑡􏷡• 𝛽•􏷡 − 𝑥𝑡􏷠• 𝛽•􏷠 . Como 𝑥𝑡􏷠• e 𝑥𝑡􏷡• são subvectores de 𝑧𝑡• , viria 𝑢𝑡􏷠 − 𝑢𝑡􏷡 = 𝑧𝑡• 𝛼, para
algum vector 𝛼, 𝑞 × 1. Multiplicando ambos os membros desta igualdade por 𝑧𝑇𝑡• , e
calculando os respectivos valores esperados, obtinha-se 𝐸(𝑧𝑇𝑡• 𝑧𝑡• )𝛼 = 𝟎, uma vez que
𝐸(𝑧𝑇𝑡• 𝑢𝑡􏷠 ) = 𝐸(𝑧𝑇𝑡• 𝑢𝑡􏷡 ) = 𝟎. Como 𝐸(𝑧𝑇𝑡• 𝑧𝑡• ) é não singular, obter-se-ía 𝛼 = 𝟎, e, portanto,
𝑢𝑡􏷠 − 𝑢𝑡􏷡 = 0, o que é contraditório com as hipóteses do modelo (em particular, porque
Σ é definida positiva). Pode, então, afirmar-se que 𝑦𝑡• agrupa as 𝑚 variáveis endógenas
do modelo. Além disso, como o vector 𝑧𝑡• não inclui qualquer variável endógena, Γ é a
matriz identidade. Então,
𝑚 1 1 𝑛
̃ Σ̃ −􏷠 (𝑦𝑡• + 𝑧𝑡• Δ̃ )𝑇 .
̃ =−
𝜑𝑛 (𝛽,̃ Σ) ̃ −
ln(2𝜋) − ln (|Σ|) 􏾜 (𝑦𝑡• + 𝑧𝑡• Δ)
2 2 2𝑛 𝑡=􏷠
A matriz Σ̃ que maximiza esta função, dado 𝛽̃, é
1 𝑛
̃ 𝑇 (𝑦𝑡• + 𝑧𝑡• Δ̃ ).
̂ 𝛽)̃ =
Σ( 􏾜 (𝑦𝑡• + 𝑧𝑡• Δ)
𝑛 𝑡=􏷠
No modelo SUR, o gradiente de 𝜑𝑛 (𝛽,̃ Σ) ̃ em relação a 𝛽̃ (o score) pode ser explicitado.

Notando que o elemento 𝑖 de 𝑦𝑡• + 𝑧𝑡• Δ̃ é 𝑦𝑡𝑖 − 𝑥𝑡𝑖• 𝛽̃•𝑖 , seja, de acordo com a notação (5.4),
o vector 𝑌 , 𝑚𝑛 × 1, e a matriz 𝑋 , 𝑚𝑛 × 𝑘. Então,
𝑛
􏾜 ̃ Σ̃ −􏷠 (𝑦𝑡• + 𝑧𝑡• Δ̃ )𝑇 = (𝑌 − 𝑋 𝛽)̃ 𝑇 (Σ̃ −􏷠 ⊗ 𝐼𝑛 )(𝑌 − 𝑋 𝛽),
(𝑦𝑡• + 𝑧𝑡• Δ) ̃ (8A.6)
𝑡=􏷠
e, portanto,
1 𝑇 −􏷠
̃ =
∇𝛽̃ 𝜑𝑛 (𝛽,̃ Σ) 𝑋 (Σ̃ ⊗ 𝐼𝑛 )(𝑌 − 𝑋 𝛽).
̃ (8A.7)
𝑛
Fazer o mesmo para o caso MVIC (mais geral) não é fácil, embora se continue a verificar
(8A.6). O cálculo do gradiente é mais complicado devido ao facto de função objectivo,
̃ , conter a parcela correspondente a ln( |Γ|̃ 􏷡 ). No entanto, se Γ̃ é constante, obtém-
𝜑𝑛 (𝛽,̃ Σ)
-se (8A.7). Igualando a zero esta expressão, obtém-se
̃ = {𝑋 𝑇 (Σ̃ −􏷠 ⊗ 𝐼𝑛 )𝑋}−􏷠 𝑋 𝑇 (Σ̃ −􏷠 ⊗ 𝐼𝑛 )𝑌.

𝛽(̂ Σ)
Dado um estimador consistente de Σ, Σ̂ , tem-se o estimador SUR de 𝛽, (5.87).

̃ e Σ(
As duas funções, 𝛽(̂ Σ) ̂ 𝛽)̃ , definem uma aplicação do espaço-parâmetro de (𝛽,̃ Σ) ̃
em si próprio, e a solução das condições de primeira ordem de maximização de 𝜑𝑛 (𝛽, Σ) ̃ ̃
é um ponto fixo daquela aplicação. Tal ponto fixo pode ser calculado por meio de um
procedimento iterativo de estimações SUR. Seja (𝛽̂(𝑗) , Σ̂ (𝑗) ) a estimativa de (𝛽, Σ) na ite-
ração 𝑗. A estimativa na iteração seguinte é
𝛽̂(𝑗+􏷠) = 𝛽(̂ Σ̂ (𝑗) ) e Σ̂ (𝑗+􏷠) = Σ(

̂ 𝛽̂(𝑗+􏷠) ),
onde 𝛽̂(𝑗+􏷠) é o estimador SUR de 𝛽, dado Σ̂ (𝑗) , e Σ̂ (𝑗+􏷠) é actualização da estimativa de

Σ usando a estimativa corrente de 𝛽. Se o procedimento converge, então o limite é a
solução das condições de primeira ordem.
Vai fazer-se uma aplicação do teorema 8.1. Considere-se o modelo de equações
simultâneas completo, 𝑦𝑡• Γ + 𝑧𝑡• Δ = 𝑢𝑡• (ver capítulo 6). O estimador de máxima ve-
rosimilhança com informação completa (MVIC) do vector dos coeficientes do sistema,
𝛽 (como se sabe, (Γ, Δ) depende deste vector) é um estimador extremante cuja função
̂ 𝛽)|
objectivo é 𝜑𝑛 (𝛽)̃ = −|Ω( ̃ , onde
̂ 𝛽)̃ = 1 􏾜𝑛 (𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ −􏷠 )𝑇 (𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ −􏷠 ) .

Ω(
𝑛 𝑡=􏷠
Seja 𝜑􏷟 (𝛽)̃ = plim{ 𝜑𝑛 (𝛽)}

̃ . Para provar que o estimador MVIC, 𝛽̂MVIC , é consistente, de-
vem verificar-se as condições a) e b) do teorema 8.1 [𝛽 é o único maximizante de 𝜑􏷟 (𝛽)̃ no
espaço-parâmetro, que é compacto; 𝜑𝑛 (𝛽)̃ converge uniformemente em probabilidade
para 𝜑􏷟 (𝛽)̃ ].
Considerando a equação 𝑖, 𝑦𝑡𝑖 = 𝑦𝑡𝑖• 𝛾(𝑖) + 𝑧𝑡𝑖• 𝛿(𝑖) + 𝑢𝑡𝑖 = 𝑥𝑡𝑖• 𝛽•𝑖 + 𝑢𝑡𝑖 , vai provar-se
que a condição de característica para a identificação, 𝑟(𝑄𝑧𝑥𝑖 ) = 𝑘𝑖 , onde 𝑄𝑧𝑥𝑖 = 𝐸(𝑧𝑇𝑡• 𝑥𝑡𝑖• )
é de tipo 𝑞 × 𝑘𝑖 , é equivalente à condição de identificação do teorema 8.1 [condição a)],
desde que se verifiquem as hipóteses que permitem estimar o modelo pelo método da
máxima verosimilhança com informação completa:
a) Sabe-se que (ver capítulo 6)

𝑦
𝑄𝑧𝑥𝑖 = 𝐸(𝑧𝑇𝑡• 𝑥𝑡𝑖• ) = 𝐸(𝑧𝑇𝑡• 𝑧𝑡• ) 􏿮 Π𝑖 𝑆𝑧𝑖 􏿱 = 𝐸(𝑧𝑇𝑡• 𝑧𝑡• ) 􏿮 Π𝑆𝑖 𝑆𝑧𝑖 􏿱 ,
𝑦
onde 𝑥𝑡𝑖• = [ 𝑦𝑡𝑖• 𝑧𝑡𝑖• ], Π𝑖 = Π𝑆𝑖 é a matriz 𝑞 × 𝑚𝑖 dos coeficientes das equações
da forma reduzida referentes às variáveis em 𝑦𝑡𝑖• (variáveis endógenas explica-
𝑦 𝑦
tivas consideradas na equação 𝑖), 𝑦𝑡𝑖• = 𝑦𝑡• 𝑆𝑖 , 𝑧𝑡𝑖• = 𝑧𝑡• 𝑆𝑧𝑖 , onde 𝑆𝑖 e 𝑆𝑧𝑖 são as
respectivas matrizes de selecção. Assim,
𝑦
𝑟(𝑄𝑧𝑥𝑖 ) = 𝑘𝑖 ⇔ 𝑟 􏿴􏿮 Π𝑆𝑖 𝑆𝑧𝑖 􏿱􏿷 = 𝑘𝑖 .
b) Vai provar-se que
̂ 𝛽)}
plim{ Ω( ̃ = (Γ−􏷠 )𝑇 Σ Γ−􏷠 + (Π + Δ̃ Γ̃ −􏷠 )𝑇 𝐸(𝑧𝑇𝑡• 𝑧𝑡• )(Π + Δ̃ Γ̃ −􏷠 ).
Com efeito, como {(𝑦𝑡• , 𝑧𝑡• )} é 𝑖𝑖𝑑, tem-se
̂ 𝛽)}
plim{ Ω( ̃ = 𝐸 {(𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ −􏷠 )𝑇 (𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ −􏷠 )}.
Como 𝑦𝑡• = 𝑧𝑡• Π + 𝑣𝑡• , vem 𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ −􏷠 = 𝑣𝑡• + 𝑧𝑡• (Π + Δ̃ Γ̃ −􏷠 ). Então,
(𝑦𝑡• +𝑧𝑡• Δ̃ Γ̃ −􏷠 )𝑇 (𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ −􏷠 ) = {𝑣𝑡• + 𝑧𝑡• (Π + Δ̃ Γ̃ −􏷠 )}𝑇 {𝑣𝑡• + 𝑧𝑡• (Π + Δ̃ Γ̃ −􏷠 )}

= 𝑣𝑇𝑡• 𝑣𝑡• + 𝑣𝑇𝑡• 𝑧𝑡• (Π + Δ̃ Γ̃ −􏷠 ) + (Π + Δ̃ Γ̃ −􏷠 )𝑇 𝑧𝑇𝑡• 𝑣𝑡• + (Π + Δ̃ Γ̃ −􏷠 )𝑇 𝑧𝑇𝑡• 𝑧𝑡• (Π + Δ̃ Γ̃ −􏷠 ).
Donde,
𝐸{(𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ −􏷠 )𝑇 (𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ −􏷠 )} = 𝐸(𝑣𝑇𝑡• 𝑣𝑡• ) + (Π + Δ̃ Γ̃ −􏷠 )𝑇 𝐸(𝑧𝑇𝑡• 𝑧𝑡• )(Π + Δ̃ Γ̃ −􏷠 )

= Ω + (Π + Δ̃ Γ̃ −􏷠 )𝑇 𝐸(𝑧𝑇𝑡• 𝑧𝑡• )(Π + Δ̃ Γ̃ −􏷠 )
= (Γ−􏷠 )𝑇 Σ Γ−􏷠 + (Π + Δ̃ Γ̃ −􏷠 )𝑇 𝐸(𝑧𝑇𝑡• 𝑧𝑡• )(Π + Δ̃ Γ̃ −􏷠 ).
c) Vai verificar-se que plim{|Ω( ̂ 𝛽)|}

̃ é minimizado apenas quando Π Γ̃ + Δ̃ = 𝑂. Com
efeito, seja 𝐷 = (Π + Δ Γ ) 𝐸(𝑧𝑇𝑡• 𝑧𝑡• )(Π + Δ̃ Γ̃ −􏷠 ) (matriz semidefinida positiva)
̃ ̃ −􏷠 𝑇
e Ω = (Γ−􏷠 )𝑇 Σ Γ−􏷠 (matriz definida positiva). Sabe-se da álgebra matricial que

|𝐷 + Ω| ≥ |Ω|, verificando-se a igualdade se e só se 𝐷 = 𝑂. Assim,
̂ 𝛽)|
plim{ |Ω( ̃ } = |𝐷 + Ω| ≥ |Ω|,
verificando-se |𝐷 + Ω| = |Ω| apenas quando 𝐷 = 𝑂. Como 𝐸(𝑧𝑇𝑡• 𝑧𝑡• ) é definida

positiva, 𝐷 = 𝑂 apenas quando Π + Δ̃ Γ̃ −􏷠 = 𝑂 ou Π Γ̃ + Δ̃ = 𝑂.
d) A seguir, vai provar-se que a condição de identificação de estimador extremante

̃ = (Γ, Δ) seja a única
[𝛽 é o único maximizante de 𝜑􏷟 (𝛽)̃ ] é equivalente a que (Γ,̃ Δ)
solução do sistema algébrico de equações lineares, Π Γ̃ + Δ̃ = 𝑂, com incógnitas
̃ .
(Γ,̃ Δ)
e) Seja (ver capítulo 6)
⎡ 0 ⎤
⎢ ⋮ ⎥
Γ ⎡ 𝛾•𝑖 ⎤
Φ=􏿰 􏿳, 𝜙•𝑖 = ⎢ ⎥ e 𝑒•𝑖 = ⎢ 1 ⎥,
Δ ⎢ ⎥
⎣ 𝛿•𝑖 ⎦ ⋮
⎢ ⎥
⎣ 0 ⎦
onde 𝛾•𝑖 é a coluna 𝑖 da matriz Γ (com 𝑚 elementos), 𝛿•𝑖 é a coluna 𝑖 da matriz Δ
(com 𝑞 elementos) e 𝑒•𝑖 é um vector com 𝑚 + 𝑞 componentes com 1 na posição que
corresponde à variável 𝑦𝑡𝑖 . Facilmente se conclui que
𝑦
𝑆𝑖 𝑂
𝜙•𝑖 = 𝑒•𝑖 − 􏿰 􏿳 𝛽•𝑖 .
𝑂 𝑆𝑧𝑖
Fica ao cuidado do leitor verificar esta igualdade para as três equações do modelo
de equações simultâneas apresentado no exemplo 6.5 (ver capítulo 6).
f) Como se sabe (ver capítulo 6), a relação Π Γ̃ + Δ̃ = 𝑂 pode escrever-se da seguinte

maneira:
Γ̃
􏿮 Π 𝐼𝑞 􏿱 􏿰 ̃ 􏿳 = 𝑂.
Δ
Assim,
⎡ 𝛾̃ •𝑖 ⎤ ⎧ 𝑦
⎡ 𝑆𝑖 𝑂 ⎤ ⎫
̃ ⎪ ̃ ⎪
􏿮 Π 𝐼𝑞 􏿱 ⎢ ⎥ = 􏿮 Π 𝐼 𝑞 􏿱 𝜙 •𝑖 = 􏿮 Π 𝐼 𝑞 􏿱 ⎨ 𝑒 •𝑖 − ⎢ ⎥ 𝛽 •𝑖 ⎬
̃ ⎪ 𝑧 ⎪
⎣ 𝛿•𝑖 ⎦ ⎩ ⎣ 𝑂 𝑆𝑖 ⎦ ⎭
𝑦
⎡ 𝑖 𝑂 ⎤
𝑆
= 􏿮 Π 𝐼𝑞 􏿱 𝑒•𝑖 − 􏿮 Π 𝐼𝑞 􏿱 ⎢ 𝛽̃
𝑧 ⎥ •𝑖
⎣ 𝑂 𝑆 𝑖 ⎦
𝑦 𝑧
= 􏿮 Π 𝐼𝑞 􏿱 𝑒•𝑖 − 􏿮 Π𝑆𝑖 𝑆𝑖 􏿱 𝛽•𝑖 ̃
𝑦
= 𝜋•𝑖 − 􏿮 Π𝑆𝑖 𝑆𝑧𝑖 􏿱 𝛽̃•𝑖 = 𝟎.
Donde se obtém o seguinte sistema de equações:

𝑦
􏿮 Π𝑆𝑖 𝑆𝑧𝑖 􏿱 𝛽̃•𝑖 = 𝜋•𝑖 .
g) Facilmente se verifica que 𝛽̃•𝑖 = 𝛽•𝑖 é solução do sistema anterior. Com efeito,
basta notar que ΠΓ + Δ = 𝑂, e, portanto,
⎡ 𝛾•𝑖 ⎤
􏿮 Π 𝐼𝑞 􏿱 ⎢ ⎥ = 𝟎.
⎣ 𝛿•𝑖 ⎦
A solução é única se e só se
𝑦
𝑟 ([ Π𝑆𝑖 𝑆𝑧𝑖 ]) = 𝑚𝑖 + 𝑞𝑖 = 𝑘𝑖 ,
que é equivalente a 𝑟(𝑄𝑧𝑥𝑖 ) = 𝑘𝑖 .
h) Facilmente se interpreta este resultado. De facto, a única solução de Π Γ̃ + Δ̃ = 𝑂 é

̃ = (Γ, Δ) porque cada elemento de 𝛽 (vector composto pelos subvectores 𝛽•𝑖 )
(Γ,̃ Δ)
aparece apenas uma vez em (Γ, Δ).
8A.3 Modelos de equações simultâneas e o método da máxima ve-

rosimilhança com informação limitada
A vantagem do estimador MVIC é que permite explorar toda a informação disponibili-
zada por um modelo completo de equações simultâneas. No entanto, tal como sucede
com qualquer estimador conjunto de parâmetros de um modelo com várias equações
(por exemplo, o estimador MQ3P), o estimador MVIC não é consistente se uma parte
do modelo está mal especificada. Por exemplo, se num modelo com três equações, há
razões para confiar na boa especificação de uma delas, mas não nas outras duas, o es-
timador MVIC não é consistente. Em casos como este, deve utilizar-se um estimador
que apenas estime os parâmetros da equação bem especificada, como, por exemplo,
o estimador MQ2P. No caso de estimadores de máxima verosimilhança, o estimador
adequado é o estimador de máxima verosimilhança com informação limitada (MVIL;
a sigla inglesa é LIML, de limited-information maximum likelihood).
Considere-se a equação 𝑖 de um modelo completo de equações simultâneas,
𝑦𝑡𝑖 = 𝑦𝑡𝑖• 𝛾(𝑖) + 𝑧𝑡𝑖• 𝛿(𝑖) + 𝑢𝑡𝑖 = 𝑥𝑡𝑖• 𝛽•𝑖 + 𝑢𝑡𝑖 .
Obviamente, o modelo composto só por esta equação não é completo, devido à pre-
sença das variáveis endógenas explicativas, 𝑦𝑡𝑖• . Contudo, se a esta equação forem
acrescentadas as equações da forma reduzida relativamente às variáveis consideradas
no vector 𝑦𝑡𝑖• , obtém-se um modelo completo. De facto, considerem-se as 𝑚𝑖 equações
da forma reduzida,
(􏷠) (􏷡)
𝑦𝑡𝑖• = 𝑧𝑡• Π𝑖 + 𝑣𝑡𝑖• = 𝑧𝑡𝑖• Π𝑖 + 𝑧∗𝑡𝑖• Π𝑖 + 𝑣𝑡𝑖• ,
(􏷠)
onde; Π𝑖 é a matriz 𝑞𝑖 × 𝑚𝑖 dos coeficientes da forma reduzida relativos às variáveis
(􏷡)
inseridas em 𝑧𝑡𝑖• ; Π𝑖 é a matriz 𝑞∗𝑖 × 𝑚𝑖 dos coeficientes da forma reduzida relativos às
variáveis consideradas em 𝑧∗𝑡𝑖• . Note-se que
⎡ Π(􏷠) ⎤
𝑖
Π𝑖 = ⎢ (􏷡) ⎥.
⎢ Π𝑖 ⎥
⎣ ⎦
O modelo completo, com 𝑚𝑖 + 1 equações, é, então,

⎧𝑦 − 𝑦 𝛾 − 𝑧 𝛿 = 𝑢
⎪ 𝑡𝑖 𝑡𝑖• (𝑖) 𝑡𝑖• (𝑖) 𝑡𝑖
⎨ (􏷠) (􏷡)
(8A.8)
⎪ 𝑦𝑡𝑖• − 𝑧𝑡𝑖• Π𝑖 − 𝑧∗𝑡𝑖• Π𝑖 = 𝑣𝑡𝑖• .
⎩
A primeira equação deste modelo (equação 𝑖 do MES original) é a equação de interesse;
as outras 𝑚𝑖 equações são equações suplementares.
Fazendo em (8A.8)
𝑦′𝑡𝑖• = 􏿮 𝑦𝑡𝑖 𝑦𝑡𝑖• 􏿱 [vector 1 × (𝑚𝑖 + 1) das variáveis endógenas],
1 𝟎𝑇
Γ′ = 􏿰 􏿳 [matriz (𝑚𝑖 + 1) × (𝑚𝑖 + 1) dos coeficientes das variáveis endó-
−𝛾(𝑖) 𝐼𝑚𝑖
genas],
⎡ −𝛿 (􏷠) ⎤
(𝑖) Π𝑖
′
Δ = ⎢ ⎥ [matriz 𝑞 × 𝑚𝑖 das variáveis pré-determinadas],
(􏷡)
⎢ 𝟎 Π𝑖 ⎥
⎣ ⎦
𝜀𝑡𝑖• = 􏿮 𝑢𝑡𝑖 𝑣𝑡𝑖• 􏿱 [vector 1 × (𝑚𝑖 + 1) das variáveis residuais],
pode escrever-se
𝑦′𝑡𝑖• Γ′ + 𝑧𝑡• Δ′ = 𝜀𝑡𝑖• . (8A.9)
Este modelo é completo porque tem 𝑚𝑖 + 1 equações, 𝑚𝑖 + 1 variáveis endógenas e
|Γ′ | = 1 ≠ 0. Neste caso, Σ′ = 𝐸(𝜀𝑇𝑡𝑖• 𝜀𝑡𝑖• ), de tipo (𝑚𝑖 + 1) × (𝑚𝑖 + 1), é a matriz das
covariâncias das variáveis residuais.
Exemplo 8A.1 Considere-se a primeira equação do modelo referido no exemplo 6.5.
Então, de acordo com (8A.8) e (8A.9), tem-se
⎧𝑦 − 𝛼 𝑦 − 𝛼 𝑦 − 𝛼 − 𝛼 𝑧 = 𝑢
⎪ 𝑡􏷠 􏷡 𝑡􏷡 􏷢 𝑡􏷢 􏷠 􏷣 𝑡􏷠 𝑡􏷠
⎪
⎨ 𝑦𝑡􏷡 − 𝜋􏷠􏷡 − 𝜋􏷡􏷡 𝑧𝑡􏷠 − 𝜋􏷢􏷡 𝑧𝑡􏷡 − 𝜋􏷣􏷡 𝑧𝑡􏷢 − 𝜋􏷤􏷡 𝑧𝑡􏷣 = 𝑣𝑡􏷡
⎪
⎪ 𝑦𝑡􏷢 − 𝜋􏷠􏷢 − 𝜋􏷡􏷢 𝑧𝑡􏷠 − 𝜋􏷢􏷢 𝑧𝑡􏷡 − 𝜋􏷣􏷢 𝑧𝑡􏷢 − 𝜋􏷤􏷢 𝑧𝑡􏷣 = 𝑣𝑡􏷢 ,
⎩
onde:
𝑦′𝑡􏷠• = 􏿮 𝑦𝑡􏷠 𝑦𝑡􏷡 𝑦𝑡􏷢 􏿱 ; 𝑦𝑡􏷠• = 􏿮 𝑦𝑡􏷡 𝑦𝑡􏷢 􏿱 ; 𝑧𝑡• = 􏿮 1 𝑧𝑡􏷠 𝑧𝑡􏷡 𝑧𝑡􏷢 𝑧𝑡􏷣 􏿱 ;
𝑧𝑡􏷠• = 􏿮 1 𝑧𝑡􏷠 􏿱 ; 𝑧∗𝑡􏷠• = 􏿮 𝑧𝑡􏷡 𝑧𝑡􏷢 𝑧𝑡􏷣 􏿱 ; 𝑣𝑡􏷠• = 􏿮 𝑣𝑡􏷡 𝑣𝑡􏷢 􏿱 ; 𝜀𝑡􏷠• = 􏿮 𝑢𝑡􏷠 𝑣𝑡􏷡 𝑣𝑡􏷢 􏿱 ;
⎡ 𝜋􏷠􏷡 𝜋􏷠􏷢 ⎤
⎢ 𝜋􏷡􏷡 𝜋􏷡􏷢 ⎥
𝛼􏷡 𝛼􏷠
𝛾(􏷠) = 􏿰 􏿳; 𝛿(􏷠) = 􏿰 􏿳; Π􏷠 = ⎢ 𝜋􏷢􏷡 𝜋􏷢􏷢 ⎥;
𝛼􏷢 𝛼􏷣 ⎢ ⎥
𝜋􏷣􏷡 𝜋􏷣􏷢
⎢ ⎥
⎣ 𝜋􏷤􏷡 𝜋􏷤􏷢 ⎦
⎡ −𝛼􏷠 𝜋􏷠􏷡 𝜋􏷠􏷢 ⎤

⎡ 1 0 0 ⎤ ⎢ −𝛼􏷣 𝜋􏷡􏷡 𝜋􏷡􏷢 ⎥
Γ′ = ⎢ −𝛼􏷡 1 0 ⎥ ; Δ′ = ⎢ 0 𝜋􏷢􏷡 𝜋􏷢􏷢 ⎥.
⎢ −𝛼 0 1 ⎥ ⎢ 0 𝜋 𝜋􏷣􏷢 ⎥
⎣ 􏷢 ⎦ ⎢ 􏷣􏷡
⎥
⎣ 0 𝜋 􏷤􏷡 𝜋􏷤􏷢 ⎦
Fica ao cuidado do leitor construir estes modelos referentes às equações 2 e 3.
Os parâmetros do modelo (8A.9) são 𝛾(𝑖) , 𝛿(𝑖) , Π𝑖 e Σ′ . Para estimar estes parâmetros
pelo método MVIC, o logaritmo médio da verosimilhança (função objectivo) é dado
por
𝑚𝑖 + 1 1
𝜑𝑛 (𝛾̃ (𝑖) , 𝛿̃(𝑖) , Π̃ 𝑖 , Σ̃ ′ ) = − ln(2𝜋) − ln( |Σ̃ ′ |)
2 2
1 𝑛
− 􏾜 (𝑦′𝑡• Γ̃ ′ + 𝑧𝑡• Δ̃ ′ ) (Σ̃ ′ )−􏷠 (𝑦′𝑡• Γ̃ ′ + 𝑧𝑡• Δ̃ ′ )𝑇 .
2𝑛 𝑡=􏷠
Maximizando esta função, obtêm-se os estimadores MVIC: (𝛾̂ (𝑖) , 𝛿̂(𝑖) , Π̂ 𝑖 , Σ̂ ′ ).

O estimador MVIL de
⎡ 𝛾(𝑖) ⎤
𝛽•𝑖 = ⎢ ⎥
⎣ 𝛿(𝑖) ⎦
e, então
⎡ 𝛾̂ (𝑖),MVIL ⎤ ⎡ 𝛾̂ (𝑖) ⎤
𝛽̂•𝑖,MVIL = ⎢ ⎥ = ⎢ ̂ ⎥.
̂
⎣ 𝛿(𝑖),MVIL ⎦ ⎣ 𝛿(𝑖) ⎦
Como o estimador MVIL dos parâmetros da equação 𝑖 de um modelo de equações si-
multâneas é um estimador MVIC [dos parâmetros do modelo do correspondente mo-
delo (8A.9)], o estimador MVIL é consistente e assintoticamente normal (mesmo que
as variáveis residuais não tenham distribuição normal).
No caso do modelo SUR, mostrou-se que o estimador MV pode ser obtido por meio
de um procedimento iterativo. Verificou-se que a função objectivo respectiva não de-
pende de Γ, porquanto o seu determinante é constante (Γ = 𝐼𝑚 ; |Γ| = 1). O mesmo
argumento se pode aplicar em relação à função objectivo que permite obter o estima-
dor MVIL, já que |Γ′ | = 1. Assim, o estimador MVIL de 𝛽•𝑖 pode ser obtido aplicando
aquele procedimento ao modelo (8A.9). Em particular, se Σ′ é conhecido, o estimador
MVIL é o estimador SUR (este estimador pode ser utilizado para estimar os coeficientes
das variáveis endógenas explicativas incluídas na equação 𝑖, 𝑦𝑡𝑖• . A razão essencial para
isto é a seguinte: pode demonstrar-se que o erro de amostragem, 𝛽̂•𝑖,MVIL − 𝛽•𝑖 , depende
das correlações entre 𝑦𝑡𝑖• e 𝑢𝑡𝑖 , e das correlações entre 𝑦𝑡𝑖• e 𝑣𝑡𝑖• , que se compensam.
Este argumento pode ser ilustado com um exemplo. Seja o modelo
⎧ 𝑦 = 𝛼𝑦 + 𝑢
⎪ 𝑡􏷠 𝑡􏷡 𝑡􏷠
⎨
⎪ 𝑦𝑡􏷡 = 𝛽𝑧𝑡 + 𝑣𝑡􏷡 ,
⎩
com
𝜎􏷠􏷠 𝜎􏷠􏷡 ⎡ 𝐸(𝑢􏷡𝑡􏷠 ) 𝐸(𝑢𝑡􏷠 𝑣𝑡􏷡 ) ⎤ 𝜎􏷠􏷠 𝜎􏷠􏷡

Σ′ = 􏿰 􏿳=⎢ ⎥ e (Σ′ )−􏷠 = 􏿰 􏿳.
𝜎􏷠􏷡 𝜎􏷡􏷡 𝐸(𝑣􏷡𝑡􏷡 ) ⎦ 𝜎􏷠􏷡 𝜎􏷡􏷡
⎣ 𝐸(𝑢𝑡􏷠 𝑣𝑡􏷡 )
Suponha-se que Σ′ é conhecida, e seja (𝛼,̂ 𝛽)̂ o estimador SUR de (𝛼, 𝛽).
Recorrendo a (5.86), o erro de amostragem é
𝛼̂ 𝛼
􏿰 􏿳−􏿰 􏿳=
𝛽̂ 𝛽
−􏷠
⎡ 􏷠􏷠 1 ∑𝑛 􏷡 1 𝑛 ⎤ ⎡ 􏷠􏷠 1 ∑𝑛 1 𝑛 ⎤
𝜎 𝑦𝑡􏷡 𝜎􏷠􏷡 ∑𝑡=􏷠 𝑦𝑡􏷡 𝑧𝑡 𝜎 𝑦𝑡􏷡 𝑢𝑡􏷠 + 𝜎􏷠􏷡 ∑𝑡=􏷠 𝑦𝑡􏷡 𝑣𝑡􏷡
⎢ 𝑛 𝑡=􏷠 𝑛 ⎥ ⎢ 𝑛 𝑡=􏷠 𝑛 ⎥
=⎢ ⎥ ⎢ ⎥.
1 1 𝑛 1 1
⎢ 𝜎􏷠􏷡 ∑𝑛𝑡=􏷠 𝑦𝑡􏷡 𝑧𝑡 𝜎􏷡􏷡 ∑𝑡=􏷠 𝑧􏷡𝑡 ⎥ ⎢ 𝜎􏷠􏷡 ∑𝑛𝑡=􏷠 𝑧𝑡 𝑢𝑡􏷠 + 𝜎􏷡􏷡 ∑𝑛𝑡=􏷠 𝑧𝑡 𝑣𝑡􏷡 ⎥
⎣ 𝑛 𝑛 ⎦ ⎣ 𝑛 𝑛 ⎦
1 𝑛 1 𝑛 𝑝
𝜎􏷠􏷠 􏾜 𝑦𝑡􏷡 𝑢𝑡􏷠 + 𝜎􏷠􏷡 􏾜 𝑦𝑡􏷡 𝑣𝑡􏷡 → 0.
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
1 𝑛 1 𝑛 𝑝
𝜎􏷠􏷠 􏾜 𝑦𝑡􏷡 𝑢𝑡􏷠 + 𝜎􏷠􏷡 􏾜 𝑦𝑡􏷡 𝑣𝑡􏷡 → 𝜎􏷠􏷠 𝐸(𝑦𝑡􏷡 𝑢𝑡􏷠 ) + 𝜎􏷠􏷡 𝐸(𝑦𝑡􏷡 𝑣𝑡􏷡 ),
𝑛 𝑡=􏷠 𝑛 𝑡=􏷠
e que 𝐸(𝑦𝑡􏷡 𝑢𝑡􏷠 ) = 𝐸(𝑣𝑡􏷡 𝑢𝑡􏷠 ) = 𝜎􏷠􏷡 , 𝐸(𝑦𝑡􏷡 𝑣𝑡􏷡 ) = 𝐸(𝑣􏷡𝑡􏷡 ) = 𝜎􏷡􏷡 e 𝜎􏷠􏷠 𝜎􏷠􏷡 + 𝜎􏷠􏷡 𝜎􏷡􏷡 = 0.
Apesar de poder calcular-se o estimador MVIL por meio do procedimento iterativo
de estimações SUR, pode obter-se uma fórmula explícita para aquele estimador. Isto é
possível porque o modelo (8A.9) tem duas características particulares: 1) a estrutura es-
pecial da matriz Γ′ ; não há restrições de exclusão relativamente às variáveis endógenas.
Seja
⎡ 𝑥􏷠𝑖• ⎤
⎢ 𝑥 ⎥
𝑋•𝑖 = ⎢ 􏷡𝑖• ⎥
⋮
⎢ ⎥
⎣ 𝑥𝑛𝑖• ⎦
[matriz 𝑛 × 𝑘𝑖 dos regressores da equação de interesse];
⎡ 𝑦􏷠𝑖• ⎤
⎢ 𝑦 ⎥
𝑌𝑖 = ⎢ 􏷡𝑖• ⎥
⋮
⎢ ⎥
𝑦
⎣ 𝑛𝑖• ⎦
[matriz 𝑛 × 𝑚𝑖 dos regressores endógenos da equação de interesse];
⎡ 𝑧􏷠𝑖• ⎤
⎢ 𝑧 ⎥
𝑍𝑖 = ⎢ 􏷡𝑖• ⎥
⋮
⎢ ⎥
𝑧
⎣ 𝑛𝑖• ⎦
[matriz 𝑛 × 𝑞𝑖 dos regressores pré-determinados da equação de interesse];
⎡ 𝑧􏷠• ⎤
⎢ 𝑧 ⎥
𝑍 = ⎢ 􏷡• ⎥
⋮
⎢ ⎥
⎣ 𝑧𝑛• ⎦
[matriz 𝑛 × 𝑞 das observações das variáveis pré-determinadas];
⎡ 𝑦􏷠𝑖 ⎤
⎢ 𝑦 ⎥
𝑦•𝑖 = ⎢ 􏷡𝑖 ⎥
⋮
⎢ ⎥
𝑦
⎣ 𝑛𝑖 ⎦
[vector 𝑛 × 1 das observações do regressando da equação de interesse].
Considerando as matrizes
𝑃𝑍 = 𝐼𝑛 − 𝑍(𝑍𝑇 𝑍)−􏷠 𝑍𝑇 e 𝑃𝑖 = 𝐼𝑛 − 𝑍𝑖 (𝑍𝑇𝑖 𝑍𝑖 )−􏷠 𝑍𝑇𝑖 ,
pode demonstrar-se que o estimador MVIL de 𝛽•𝑖 é [Davidson e MacKinnon (1993),

pp. 644–651]
𝛽̂•𝑖,MVIL = {𝑋•𝑖𝑇 (𝐼𝑛 − 𝜅𝑃𝑧 )𝑋•𝑖 }−􏷠 𝑋•𝑖𝑇 (𝐼𝑛 − 𝜅𝑃𝑧 )𝑦•𝑖 , (8A.10)
onde 𝜅 é o menor valor próprio de 𝐺𝑖 𝐻𝑖 , em que
𝐺𝑖 = [ 𝑦•𝑖 𝑌𝑖 ] 𝑇 𝑃𝑖 [ 𝑦•𝑖 𝑌𝑖 ] e 𝐻𝑖 = [ 𝑦•𝑖 𝑌𝑖 ] 𝑇 𝑃𝑍 [ 𝑦•𝑖 𝑌𝑖 ]
são matrizes quadradas de ordem 𝑚𝑖 + 1.

Pode, também, provar-se que, neste caso, o rácio de verosimilhanças para efectuar
o teste de sobre-identificação é dado por
𝑑
RV = 𝑛 ln(𝜅) → 𝜒􏷡 (𝑞 − 𝑘𝑖 ).
O argumento que pode justificar os graus de liberdade desta distribuição limite é o

seguinte: como não há sobre-identificação resultante das equações suplementares, a
equação de interesse é a única fonte possível de sobre-identificação; nesta equação exis-
tem 𝑘𝑖 regressores, e, no modelo, existem 𝑞 variáveis pré-determinadas.
Quando a equação de interesse é exactamente identificada, tem-se 𝑞 = 𝑘𝑖 , e pode
verificar-se que o valor próprio 𝜅 é igual a 1 (logo, RV = 0).
Fazendo variar o parâmetro 𝜅, os estimadores da forma (8A.10) chamam-se estima-
dores da classe-𝜅. O estimador MVIL é, então, um caso particular de estimador da
classe-𝜅. Sem dificuldade se verifica que 𝜅 = 1 para o estimador MQ2P, e 𝜅 = 0 para
o estimador MQ. Daqui resulta que os estimadores MVIL e MQ2P são numericamente
iguais no caso de identificação exacta (𝜅 = 1).
Como já se sabe, o estimador MVIL é consistente e assintoticamente normal. Con-
tudo, usando (8A.10), pode provar-se que a distribuição assintótica deste estimador é
a mesma do estimador MQ2P. Então, a fórmula da matriz das covariâncias assintóticas
do estimador MVIL é dada por (4.89) [ver capítulo 4]; o respectivo estimador consis-
tente é, então, (4.90).
[9A]
Complementos sobre equações
com diferenças
9A.1 Equações lineares com diferenças e com coeficientes

constantes
Começa-se por apresentar o conceito geral de equação com diferenças.
Definição 9A.1 (Equação com diferenças)

Considere-se uma variável 𝑦𝑡 que depende de 𝑡, desconhecida, bem como as sucessivas
diferenças até à ordem 𝑝, Δ𝑦𝑡 , Δ􏷡 𝑦𝑡 , … , Δ𝑝 𝑦𝑡 , e uma variável, 𝑤𝑡 , conhecida. Uma equação
com diferenças de ordem 𝑝 é uma relação conhecida entre 𝑡, 𝑦𝑡 , Δ𝑦𝑡 , Δ􏷡 𝑦𝑡 , … , Δ𝑝 𝑦𝑡 e 𝑤𝑡 ,
𝐹(𝑡, 𝑦𝑡 , Δ𝑦𝑡 , Δ􏷡 𝑦𝑡 , … , Δ𝑝 𝑦𝑡 , 𝑤𝑡 ) = 0.
Como a diferença de ordem 𝑠 (𝑠 = 1, 2, … , 𝑝) de 𝑦𝑡 é uma expressão que apenas de-

pende de 𝑦𝑡 , 𝑦𝑡−􏷠 , … , 𝑦𝑡−𝑠 , a relação que define a equação com diferenças de ordem 𝑝
pode escrever-se da seguinte maneira:
𝐹(𝑡, 𝑦𝑡 , 𝑦𝑡−􏷠 , 𝑦𝑡−􏷡 , … , 𝑦𝑡−𝑝 , 𝑤𝑡 ) = 0. (9A.1)
As equações com diferenças que são considerado no capítulo 9 são as equações lineares
de ordem 𝑝 com coeficientes constantes introduzidas na definição 9.1:
𝑦𝑡 = 𝜑 􏷠 𝑦𝑡−􏷠 + 𝜑 􏷡 𝑦𝑡−􏷡 + ⋯ + 𝜑 𝑝 𝑦𝑡−𝑝 + 𝑤𝑡 . (9A.2)
1059
1060 Anexo 9A Complementos sobre equações com diferenças
A obtenção da solução geral da respectiva equação homogénea foi feita no capítulo 9,

para os seguintes casos: 𝑝 = 1; 𝑝 = 2; qualquer 𝑝. Para obter a solução geral de
(9A.2), sabe-se que esta solução, 𝑦𝑡 , é igual à soma da solução geral da correspondente
equação homogénea, 𝑦ℎ𝑡 , com uma solução particular da equação (não homogénea),
𝑝 𝑝
𝑦𝑡 ∶ 𝑦𝑡 = 𝑦ℎ𝑡 + 𝑦𝑡 .
Vai complementar-se o estudo feito no capítulo 9, com a obtenção de uma solução
particular de (9A.2), quando 𝑤𝑡 = 𝛼 (constante) e 𝑤𝑡 = 𝛼 + 𝛽𝑡 (tendência linear).
Para 𝑝 = 1, tem-se:
a) 𝑤𝑡 = 𝛼.
𝑝
Para resolver a equação 𝑦𝑡 = 𝛼 + 𝜑𝑦𝑡−􏷠 , vai ver-se em que condições 𝑦𝑡 = 𝛿 é uma
solução particular. Fazendo a substituição na equação, tem-se
𝛼
𝛿= ,
1−𝜑
supondo que 𝜑 ≠ 1. Então, a solução geral da equação é

𝛼
𝑦𝑡 = 𝑐𝜑𝑡 + .
1−𝜑
Uma solução definida quando 𝑦𝑡􏷩 é conhecido é, então,
𝛼 𝑡−𝑡
𝛼
𝑦𝑡 = 􏿶𝑦𝑡􏷩 − 􏿹 𝜑 􏷩+ .
1−𝜑 1−𝜑
Quando 𝜑 = 1, a equação reduz-se a 𝑦𝑡 = 𝛼 + 𝑦𝑡−􏷠 . Uma solução particular é dada

𝑝
por 𝑦𝑡 = 𝛼𝑡; a solução geral é 𝑦𝑡 = 𝑐 + 𝛼𝑡; conhecendo 𝑦𝑡􏷩 , uma solução definida é
𝑦𝑡 = 𝑦𝑡􏷩 + 𝛼(𝑡 − 𝑡􏷟 ).
b) 𝑤𝑡 = 𝛼 + 𝛽𝑡.
Para resolver a equação 𝑦𝑡 = 𝛼 + 𝛽𝑡 + 𝜑𝑦𝑡−􏷠 , vai indagar-se a que condições devem
𝑝
obedecer 𝛿􏷟 e 𝛿􏷠 para que 𝑦𝑡 = 𝛿􏷟 + 𝛿􏷠 𝑡 seja uma solução particular. Substituindo
na equação, vem
𝛿􏷟 + 𝛿􏷠 𝑡 = 𝛼 + 𝛽𝑡 + 𝜑 (𝛿􏷟 + 𝛿􏷠 (𝑡 − 1)) ,
ou
𝛿􏷟 + 𝛿􏷠 𝑡 = (𝛼 + 𝜑𝛿􏷟 − 𝜑𝛿􏷠 ) + (𝛽 + 𝜑𝛿􏷠 ) 𝑡.
Então,
⎧ (1 − 𝜑)𝛿 + 𝜑𝛿 = 𝛼
⎪ 􏷟 􏷠
⎨
⎪ (1 − 𝜑)𝛿􏷠 = 𝛽.
⎩
Equações lineares com diferenças e com coeficientes constantes 1061
donde
⎧ 𝛼(1 − 𝜑) − 𝛽𝜑
⎪ 𝛿􏷟 =
⎪ (1 − 𝜑)􏷡
⎨
⎪ 𝛽
⎪ 𝛿􏷠 = .
⎩ 1−𝜑
Conclui-se, portanto, que
𝑝 𝛼(1 − 𝜑) − 𝛽𝜑 𝛽
𝑦𝑡 = 􏷡
+ 𝑡,
(1 − 𝜑) 1−𝜑
quando 𝜑 ≠ 1.
A solução geral é dada por
𝛼(1 − 𝜑) − 𝛽𝜑 𝛽
𝑦𝑡 = 𝑐𝜑𝑡 + 􏷡
+ 𝑡.
(1 − 𝜑) 1−𝜑
Com 𝑦𝑡􏷩 conhecido, a respectiva solução definida é
𝛼(1 − 𝜑) − 𝛽𝜑 𝛽 𝛼(1 − 𝜑) − 𝛽𝜑 𝛽
𝑦𝑡 = 􏿶𝑦𝑡􏷩 − − 𝑡 􏿹 𝜑𝑡−𝑡􏷩 + + 𝑡.
(1 − 𝜑)􏷡 1−𝜑 􏷟 (1 − 𝜑)􏷡 1−𝜑
Para 𝜑 = 1, a equação reduz-se a 𝑦𝑡 = 𝛼 + 𝛽𝑡 + 𝑦𝑡−􏷠 . Para resolver esta equação, vai
𝑝
ver-se em que condições 𝑦𝑡 = 𝛿􏷟 𝑡 + 𝛿􏷠 𝑡􏷡 é uma solução particular. Assim, de
𝛿􏷟 𝑡 + 𝛿􏷠 𝑡􏷡 = 𝛼 + 𝛽𝑡 + 𝛿􏷟 (𝑡 − 1) + 𝛿􏷠 (𝑡 − 1)􏷡 ,
ou
𝛿􏷟 𝑡 + 𝛿􏷠 𝑡􏷡 = 𝛼 + 𝛽𝑡 + 𝛿􏷟 𝑡 − 𝛿􏷟 + 𝛿􏷠 𝑡􏷡 − 2𝛿􏷠 𝑡 + 𝛿􏷠 ,
vem
(𝛿􏷟 − 𝛿􏷠 ) + 2𝛿􏷠 𝑡 = 𝛼 + 𝛽𝑡.
Donde
⎧ 2𝛼 + 𝛽
⎧𝛿 − 𝛿 = 𝛼 ⎪ 𝛿􏷟 =
⎪ 􏷟 􏷠 ⎪ 2
⎨ ⇔⎨
⎪ 2𝛿􏷠 = 𝛽 ⎪ 𝛽
⎩ ⎪ 𝛿􏷠 = .
⎩ 2
Então,
𝑝 2𝛼 + 𝛽 𝛽
𝑦𝑡 = 𝑡 + 𝑡􏷡 .
2 2
A solução geral é, então,
2𝛼 + 𝛽 𝛽
𝑡 + 𝑡􏷡 .
𝑦𝑡 = 𝑐 +
2 2
Para 𝑦𝑡􏷩 conhecido, a solução definida respectiva é
2𝛼 + 𝛽 𝛽
𝑦𝑡 = 𝑦𝑡􏷩 + (𝑡 − 𝑡􏷟 ) + (𝑡􏷡 − 𝑡􏷡􏷟 ).
2 2
Quando 𝑝 = 2, obtém-se:
a) 𝑤𝑡 = 𝛼.
Para resolver a equação 𝑦𝑡 = 𝛼+𝜑 􏷠 𝑦𝑡−􏷠 +𝜑 􏷡 𝑦𝑡−􏷡 , propõe-se uma solução particular
𝑝
da forma 𝑦𝑡 = 𝛿. Fazendo a substituição na equação, tem-se
𝛼
𝛿= ,
1 − 𝜑􏷠 − 𝜑 􏷡
desde que 𝜑􏷠 + 𝜑􏷡 ≠ 1. Então, tem-se a solução geral,
𝛼
𝑦𝑡 = 𝑦ℎ𝑡 + ,
1 − 𝜑􏷠 − 𝜑 􏷡
𝑦ℎ𝑡 é a solução geral da respectiva equação homogénea, que depende do caso con-
siderado. Por exemplo, se as raízes são reais e distintas, vem
𝛼
𝑦𝑡 = 𝑐􏷠 𝜆𝑡􏷠 + 𝑐􏷡 𝜆𝑡􏷡 + .
1 − 𝜑􏷠 − 𝜑 􏷡
Fica ao cuidado do leitor estabelecer as soluções definidas quando 𝑦􏷟 e 𝑦􏷠 são

conhecidos.
Quando 𝜑􏷠 + 𝜑􏷡 = 1, a equação passa a ser 𝑦𝑡 = 𝛼 + 𝜑 􏷠 𝑦𝑡−􏷠 + (1 − 𝜑 􏷠 )𝑦𝑡−􏷡 . Para
𝑝
resolver vai ver-se em que condições 𝑦𝑡 = 𝛿𝑡 é uma solução particular. Facilmente
se verifica que
𝛼
𝛿= ,
2 − 𝜑􏷠
supondo 𝜑􏷠 ≠ 2. Então,
𝑝 𝛼
𝑦𝑡 = 𝑡.
2 − 𝜑􏷠
Fica ao cuidado do leitor obter a solução geral e a solução definida, para 𝑦􏷟 e 𝑦􏷠
conhecidos, para os três casos estudados.
Se 𝜑􏷠 + 𝜑􏷡 = 1 e 𝜑􏷠 = 2, a equação reduz-se a 𝑦𝑡 = 𝛼 + 2𝑦𝑡−􏷠 − 𝑦𝑡−􏷡 . Propondo como
𝑝
solução particular, 𝑦𝑡 = 𝛿𝑡􏷡 , obtém-se 𝛿 = −𝛼/2. Donde,
𝑝 𝛼
𝑦𝑡 = − 𝑡􏷡 .
2
Para os três casos de raízes da equação característica, fica ao cuidado do leitor a
obtenção da solução geral e da solução definida quando 𝑦􏷟 e 𝑦􏷠 são conhecidos.
Equações lineares com diferenças e com coeficientes constantes 1063
b) 𝑤𝑡 = 𝛼 + 𝛽𝑡.
Para resolver a equação 𝑦𝑡 = 𝛼+𝛽𝑡+𝜑 􏷠 𝑦𝑡−􏷠 +𝜑 􏷡 𝑦𝑡−􏷡 , propõe-se a solução particular
𝑝
𝑦𝑡 = 𝛿􏷟 + 𝛿􏷠 𝑡, e procuram-se determinar os valores de 𝛿􏷟 e 𝛿􏷠 . Substituindo na
equação, obtém-se a igualdade
(1 − 𝜑􏷠 − 𝜑􏷡 )𝛿􏷟 + (𝜑􏷠 + 2 𝜑􏷡 )𝛿􏷠 + (1 − 𝜑􏷠 − 𝜑􏷡 )𝛿􏷠 𝑡 = 𝛼 + 𝛽𝑡.
(1 − 𝜑􏷠 − 𝜑􏷡 )𝛼 − (𝜑􏷠 + 2 𝜑􏷡 )𝛽 𝛽
𝛿􏷟 = e 𝛿􏷠 = ,
(1 − 𝜑􏷠 − 𝜑􏷡 )􏷡 1 − 𝜑􏷠 − 𝜑 􏷡
admitindo que 𝜑􏷠 + 𝜑􏷡 ≠ 1.
Fica ao cuidado leitor obter, quando 𝑦􏷟 e 𝑦􏷠 são conhecidos, a solução geral e a
solução definida, para os três casos estudados.
Quando 𝜑􏷠 + 𝜑􏷡 = 1, tem-se a equação 𝑦𝑡 = 𝛼 + 𝛽𝑡 + 𝜑 􏷠 𝑦𝑡−􏷠 + (1 − 𝜑 􏷠 )𝑦𝑡−􏷡 . A solução
𝑝
particular a ensaiar é 𝑦𝑡 = 𝛿􏷟 𝑡 + 𝛿􏷠 𝑡􏷡 , obtendo-se
(2 − 𝜑􏷠 )𝛿􏷟 − (4 − 3𝜑􏷠 )𝛿􏷠 + 2(2 − 𝜑􏷠 )𝛿􏷠 𝑡 = 𝛼 + 𝛽𝑡.
Donde
2(2 − 𝜑􏷠 )𝛼 − (4 − 3𝜑􏷠 )𝛽 𝛽
𝛿􏷟 = e 𝛿􏷠 = ,
2(1 − 𝜑􏷠 )􏷡 2(2 − 𝜑􏷠 )
admitindo que 𝜑􏷠 ≠ 2.
Fica ao cuidado do leitor obter, para os três casos estudados, a solução geral e a
solução definida (com 𝑦􏷟 e 𝑦􏷠 conhecidos).
Quando 𝜑􏷠 + 𝜑􏷡 = 1 e 𝜑􏷠 = 2, a equação passa a ser 𝑦𝑡 = 𝛼 + 𝛽𝑡 + 2𝑦𝑡−􏷠 − 𝑦𝑡−􏷡 .
𝑝
Considerando como solução particular 𝑦𝑡 = 𝛿􏷟 𝑡􏷡 + 𝛿􏷠 𝑡􏷢 , a relação que se obtém a
partir da equação é dada por
2𝛿􏷟 − 6𝛿􏷠 + 6𝛿􏷠 𝑡 = 𝛼 + 𝛽𝑡.
Então,
𝛼+𝛽 𝛽
𝛿􏷟 = e 𝛿􏷠 = .
2 6
Fica ao cuidado do leitor determinar, para os três casos estudados, a solução geral
e a solução definida (quando 𝑦􏷟 e 𝑦􏷠 são conhecidos).
Para qualquer 𝑝, fica ao cuidado do leitor a obtenção das soluções da equação não ho-
mogénea para as duas situações referidas.
9A.2 Equações vectoriais de 1.ª ordem

O estudo das equações (escalares) de ordem 𝑝 pode ser reduzido à análise de equações
vectoriais de 1.ª ordem.
Seja:
⎡ 𝑦𝑡 ⎤ ⎡ 𝑤𝑡 ⎤
⎢ 𝑦 ⎥ ⎡ 𝜑􏷠 𝜑􏷡 𝜑􏷢 ⋯ 𝜑𝑝−􏷠 𝜑𝑝 ⎤ ⎢ 0 ⎥
𝑡−􏷠
⎢ ⎥ ⎢ 1 0 0 ⋯ 0 0 ⎥ ⎢ ⎥
𝑦 ⎥ ; 𝑣𝑡 = ⎢ 0 ⎥ ,
𝜉𝑡 = ⎢ 𝑡−􏷡 ⎥;𝐹 = ⎢ 0 1 0 ⋯ 0 0
⎢ ⋮ ⎥ ⎢ ⎥ ⎢ ⋮ ⎥
⋮ ⋮ ⋮ ⋮ ⋮
⎢ 𝑦𝑡−(𝑝−􏷡) ⎥ ⎢ ⎥ ⎢ 0 ⎥
⎢ 𝑦𝑡−(𝑝−􏷠) ⎥ ⎣ 0 0 0 ⋯ 1 0 ⎦ ⎢ 0 ⎥
⎣ ⎦ ⎣ ⎦
onde: 𝜉𝑡 e 𝑣𝑡 são vectores 𝑝 × 1; 𝐹 é uma matriz 𝑝 × 𝑝.
Facilmente se verifica que no sistema de 𝑝 equações de diferenças (equação vectorial
de 1.ª ordem),
𝜉𝑡 = 𝐹𝜉𝑡−􏷠 + 𝑣𝑡 , (9A.3)
onde
⎡ 𝑦𝑡−􏷠 ⎤
⎢ 𝑦 ⎥
𝑡−􏷡
⎢ ⎥
⎢ 𝑦𝑡−􏷢 ⎥
𝜉𝑡−􏷠 = ,
⎢ ⋮ ⎥
⎢ 𝑦𝑡−(𝑝−􏷠) ⎥
⎢ 𝑦𝑡−𝑝 ⎥
⎣ ⎦
a primeira equação é (9A.2), ou seja, 𝑦𝑡 = 𝜑 􏷠 𝑦𝑡−􏷠 + 𝜑 􏷡 𝑦𝑡−􏷡 + ⋯ + 𝜑 𝑝 𝑦𝑡−𝑝 + 𝑤𝑡 (as outras
𝑝 − 1 equações são, obviamente, 𝑦𝑡−􏷠 = 𝑦𝑡−􏷠 , 𝑦𝑡−􏷡 = 𝑦𝑡−􏷡 , … , 𝑦𝑡−𝑝+􏷠 = 𝑦𝑡−𝑝+􏷠 ). Deste modo,
a equação vectorial de 1.ª ordem, (9A.3), não é mais do que outra forma de representar
a equação escalar de ordem 𝑝, (9A.2).
Notando que
⎡ 𝑦􏷟 ⎤
⎢ 𝑦 ⎥
−􏷠
⎢ ⎥
𝑦−􏷡 ⎥
𝜉􏷟 = ⎢ ,
⎢ ⋮ ⎥
⎢ 𝑦−(𝑝−􏷡) ⎥
⎢ 𝑦−(𝑝−􏷠) ⎥
⎣ ⎦
a equação (9A.3) pode resolver-se pelo método da substituição recursiva, tal como se
fez para (9.5), obtendo-se uma solução definida semelhante a (9.6):
𝜉𝑡 = 𝐹 𝑡 𝜉􏷟 + 𝐹 𝑡−􏷠 𝑣􏷠 + 𝐹 𝑡−􏷡 𝑣􏷡 + ⋯ + 𝐹 𝑣𝑡−􏷠 + 𝑣𝑡 . (9A.4)

Equações vectoriais de 1.ª ordem 1065
Não é difícil verificar que o primeiro elemento de 𝜉𝑡 , em (9A.4), é dado por

(𝑡) (𝑡) (𝑡) (𝑡)
𝑦𝑡 = 𝑓􏷠􏷠 𝑦􏷟 + 𝑓􏷠􏷡 𝑦−􏷠 + 𝑓􏷠􏷢 𝑦−􏷡 + ⋯ + 𝑓􏷠𝑝 𝑦−(𝑝−􏷠)
(𝑡−􏷠) (𝑡−􏷡) (􏷠)
(9A.5)
𝑦𝑡 + 𝑓􏷠􏷠 𝑤􏷠 + 𝑓􏷠􏷠 𝑤􏷡 + ⋯ + 𝑓􏷠􏷠 𝑤𝑡−􏷠 + 𝑤𝑡 ,
onde:
(𝑡) (𝑡) (𝑡) (𝑡)
𝑓􏷠􏷠 , 𝑓􏷠􏷡 , 𝑓􏷠􏷢 , … , 𝑓􏷠𝑝 são os elementos da primeira linha da matriz 𝐹 𝑡 ;
(𝑡−􏷠) (𝑡−􏷡) (􏷠)
𝑓􏷠􏷠 , 𝑓􏷠􏷠 , … , 𝑓􏷠􏷠 são os elementos da primeira linha e na posição (1,1) das ma-
trizes 𝐹 𝑡−􏷠 , 𝐹 𝑡−􏷡 , … , 𝐹 , respectivamente.
Conclui-se, portanto, que 𝑦𝑡 é uma função de 𝑝 valores iniciais (os elementos do vector
𝜉􏷟 ), e dos valores 𝑤􏷠 , 𝑤􏷡 , … , 𝑤𝑡 .
Do mesmo modo que (9.10), vem
𝜉𝑡+𝑠 = 𝐹 𝑠+􏷠 𝜉𝑡−􏷠 + 𝐹 𝑠 𝑣𝑡 + 𝐹 𝑠−􏷠 𝑣𝑡+􏷠 + 𝐹 𝑠−􏷡 𝑣𝑡+􏷡 + ⋯ + 𝐹 𝑣𝑡+𝑠−􏷠 + 𝑣𝑡+𝑠 , (9A.6)
e
(𝑠+􏷠) (𝑠+􏷠) (𝑠+􏷠) (𝑠+􏷠)
𝑦𝑡+𝑠 = 𝑓􏷠􏷠 𝑦𝑡−􏷠 + 𝑓􏷠􏷡 𝑦𝑡−􏷡 + 𝑓􏷠􏷢 𝑦𝑡−􏷢 + ⋯ + 𝑓􏷠𝑝 𝑦𝑡−𝑝
(𝑠) (𝑠−􏷠) (𝑠−􏷡) (􏷠)
(9A.7)
𝑦𝑡+𝑠 + 𝑓􏷠􏷠 𝑤𝑡 + 𝑓􏷠􏷠 𝑤𝑡+􏷠 + 𝑓􏷠􏷠 𝑤𝑡+􏷡 + ⋯ + 𝑓􏷠􏷠 𝑤𝑡+𝑠−􏷠 + 𝑤𝑡+𝑠 .
Neste caso, o multiplicador dinâmico é dado por
𝜕 𝑦𝑡+𝑠 (𝑠)
= 𝑓􏷠􏷠 , (9A.8)
𝜕 𝑤𝑡
(𝑠)
onde, obviamente, 𝑓􏷠􏷠 representa o elemento (1,1) da matriz 𝐹 𝑠 .
𝜕 𝑦𝑡+􏷠 𝜕 𝑦𝑡+􏷡
= 𝜑􏷠 ; = 𝜑􏷡􏷠 + 𝜑􏷡 .
𝜕 𝑤𝑡 𝜕 𝑤𝑡
O estudo das soluções e dos multiplicadores dinâmicos pode ser feito a partir dos va-
lores próprios da matriz 𝐹 , ou seja, fazendo |𝐹 − 𝜆𝐼𝑝 | = 0, onde, como se sabe, o de-
terminante é um polinómio, em 𝜆, de grau 𝑝; as p raízes do polinómio são os valores
próprios de 𝐹 .
Por exemplo, para 𝑝 = 2, os valores próprios são dados por
𝜑􏷠 − 𝜆 𝜑􏷡
􏵶 􏵶 = 𝜆􏷡 − 𝜑􏷠 𝜆 − 𝜑􏷡 = 0,
1 −𝜆
que não é mais do que a equação característica da equação de 2.ª ordem.

Este resultado sugere o seguinte:
Teorema 9A.1 Os valores próprios da matriz 𝐹 são as soluções da equação caracterís-

tica, (9.19), da equação de diferenças linear de ordem 𝑝, com coeficientes constantes.
Demonstração. Com efeito, seja
𝜑􏷠 − 𝜆 𝜑􏷡 𝜑􏷢 ⋯ 𝜑𝑝−􏷠 𝜑𝑝
􏿙 􏿙
1 −𝜆 0 ⋯ 0 0
􏿙 0 1 −𝜆 ⋯ 0 0 􏿙
|𝐹 − 𝜆𝐼𝑝 | = .
􏿙 ⋮ ⋮ ⋮ ⋮ ⋮ 􏿙
0 0 0 ⋯ −𝜆 0
􏿙 􏿙
0 0 0 ⋯ 1 −𝜆
Sabe-se que: por meio de operações elementares sobre as colunas de 𝐹 − 𝜆𝐼𝑝 se pode
obter uma matriz triangular superior com o mesmo determinante; o determinante desta
matriz é igual ao produto dos elementos da diagonal principal.
Verifica-se, sem dificuldade, que os 𝑝 elementos da diagonal principal da matriz
triangular podem ser os seguintes:
𝜑􏷡 𝜑􏷢 𝜑𝑝
−𝜆 + 𝜑􏷠 + + 􏷡 + ⋯ + 𝑝−􏷠 , −𝜆, … , −𝜆.
𝜆 𝜆 𝜆
Então,
𝜑􏷡 𝜑􏷢 𝜑𝑝
|𝐹 − 𝜆𝐼𝑝 | = 􏿵−𝜆 + 𝜑􏷠 + + 􏷡 + ⋯ + 𝑝−􏷠 􏿸 (−𝜆)𝑝−􏷠
𝜆 𝜆 𝜆
= (−1)𝑝−􏷠 (−𝜆𝑝 + 𝜑􏷠 𝜆𝑝−􏷠 + 𝜑􏷡 𝜆𝑝−􏷡 + 𝜑􏷢 𝜆𝑝−􏷢 + ⋯ + 𝜑𝑝 )
= (−1)𝑝 (𝜆𝑝 − 𝜑􏷠 𝜆𝑝−􏷠 − 𝜑􏷡 𝜆𝑝−􏷡 − 𝜑􏷢 𝜆𝑝−􏷢 − ⋯ − 𝜑𝑝 ) ,
o que mostra claramente a equivalência entre |𝐹 − 𝜆𝐼𝑝 | = 0 e (9.19).
Se os valores próprios são distintos (reais ou complexos), existe uma matriz 𝐵, qua-
drada de ordem 𝑝, não singular, que permite diagonalizar a matriz 𝐹 ,
𝐵−􏷠 𝐹 𝐵 = Λ ⇔ 𝐹 = 𝐵Λ𝐵−􏷠 ,
onde Λ é a matriz diagonal dos valores próprios, Λ = Diag {𝜆􏷠 , 𝜆􏷡 , … , 𝜆𝑝 }; decorre, sem
dificuldade, que
𝐹 𝑠 = 𝐵Λ𝑠 𝐵−􏷠 ,
onde Λ𝑠 = Diag {𝜆𝑠􏷠 , 𝜆𝑠􏷡 , … , 𝜆𝑠𝑝 }.
Se se designar por 𝑏𝑖𝑗 e 𝑏𝑖𝑗 os elementos genéricos das matrizes 𝐵 e 𝐵−􏷠 , respectiva-
mente, pode verificar-se que o elemento (1,1) de 𝐹 𝑠 é dado por
(𝑠)
𝑓􏷠􏷠 = (𝑏􏷠􏷠 𝑏􏷠􏷠 )𝜆𝑠􏷠 + (𝑏􏷠􏷡 𝑏􏷡􏷠 )𝜆𝑠􏷡 + ⋯ + (𝑏􏷠𝑝 𝑏𝑝􏷠 )𝜆𝑠𝑝 = ℎ􏷠 𝜆𝑠􏷠 + ℎ􏷡 𝜆𝑠􏷡 + ⋯ + ℎ𝑝 𝜆𝑠𝑝 ,
onde ℎ𝑖 = 𝑏􏷠𝑖 𝑏𝑖􏷠 (𝑖 = 1, 2, … , 𝑝). Note-se que
ℎ􏷠 + ℎ􏷡 + ⋯ + ℎ𝑝 = 𝑏􏷠􏷠 𝑏􏷠􏷠 + 𝑏􏷠􏷡 𝑏􏷡􏷠 + ⋯ + 𝑏􏷠𝑝 𝑏𝑝􏷠 = 1,
uma vez que é o elemento (1,1) da matriz 𝐵𝐵−􏷠 .
Pode, então, obter-se o resultado (9.24),
𝜕 𝑦𝑡+𝑠
= ℎ􏷠 𝜆𝑠􏷠 + ℎ􏷡 𝜆𝑠􏷡 + ⋯ + ℎ𝑝 𝜆𝑠𝑝 , (9A.9)
𝜕 𝑤𝑡
onde a expressão de cada ℎ𝑖 (𝑖 = 1, 2, … , 𝑝) já é conhecida. Deste modo, o multiplicador
dinâmico é uma média ponderada das potências de expoente 𝑠 dos valores próprios da
matriz 𝐹 .
Sejam 𝜆􏷠 , 𝜆􏷡 , … , 𝜆𝑞 , os valores próprios da matriz 𝐹 (quadrada de ordem 𝑝), em que
a multiplicidade algébrica de 𝜆𝑖 (𝑖 = 1, 2, … , 𝑞) é 𝑝𝑖 . Facilmente se conclui que 𝑞 ≤ 𝑝 e
que a soma das multiplicidades algébricas é 𝑝: 𝑝􏷠 + 𝑝􏷡 + ⋯ + 𝑝𝑞 = 𝑝.
Quando 𝑞 = 𝑝, todos os valores próprios são distintos (todas as multiplicidades al-
gébricas são iguais a 1). Neste caso, existem 𝑝 vectores próprios linearmente indepen-
dentes (cada um, associado a um e só um valor próprio), que constituem as colunas
da 𝐵 (matriz quadrada de ordem 𝑝, não singular) diagonalizadora de 𝐹 : 𝐵−􏷠 𝐹 𝐵 = Λ
(Λ é a matriz diagonal dos valores próprios).
Quando 𝑞 < 𝑝, há, pelo menos, um valor próprio repetido (pelo menos um deles
tem multiplicidade algébrica maior do que 1). Sendo 𝑚 o número de vectores próprios
linearmente independentes, tem-se 𝑞 ≤ 𝑚 ≤ 𝑝, e duas situações podem ocorrer.
Na primeira, supõe-se que é possível dispor ainda de 𝑝 vectores próprios linear-
mente independentes. Isto consegue-se, quando (e só quando) se podem determinar 𝑝𝑖
vectores próprios linearmente independentes associados a cada valor próprio 𝜆𝑖 . Neste
caso, tem-se 𝑞 < 𝑚 = 𝑝, e continua a ter-se 𝐵−􏷠 𝐹 𝐵 = Λ (Λ é matriz diagonal dos 𝑝 valores
próprios, com as repetições dadas pelas multiplicidades algébricas respectivas).
Na segunda situação, tem-se 𝑞 ≤ 𝑚 < 𝑝, e não existem 𝑝 vectores próprios linear-
mente independentes. Nestas condições, não se pode diagonalizar a matriz 𝐹 , de modo
a obter a decomposição 𝐹 = 𝐵Λ𝐵−􏷠 . No entanto, é possível encontrar outra decomposi-
ção de 𝐹 — que permite determinar uma expressão para o multiplicador dinâmico —,
conhecida pelo nome de decomposição de Jordan.
Qualquer que seja a matriz 𝐹 , pode provar-se que, existe uma matriz 𝐺 (quadrada
de ordem 𝑝, não singular), tal que
𝐹 = 𝐺𝐽 𝐺−􏷠 ,
onde 𝐽 é também uma matriz quadrada de ordem 𝑝, diagonal por blocos,
⎡ 𝐽􏷠 𝑂 ⋯ 𝑂 ⎤
⎢ 𝑂 𝐽􏷡 ⋯ 𝑂 ⎥
𝐽=⎢ ⎥
⋮ ⋮ ⋮
⎢ ⎥
⎣ 𝑂 𝑂 ⋯ 𝐽𝑚 ⎦
tal que cada bloco diagonal (bloco de Jordan) é da forma
⎡ 𝜆𝑖 1 0 ⋯ 0 ⎤
⎢ 0 𝜆𝑖 1 ⋯ 0 ⎥
𝐽ℓ = ⎢ 0 0 𝜆𝑖 ⋯ 0 ⎥ (ℓ = 1, 2, … , 𝑚).
⎢ ⋮ ⋮ ⋮ ⋮ ⎥
⎢ ⎥
⎣ 0 0 0 ⋯ 𝜆𝑖 ⎦
Podem-se fazer os seguintes comentários à matriz 𝐽 e aos blocos de Jordan:
a) Como 𝐽 não é diagonal, a matriz 𝐺 não é diagonalizadora de 𝐹 ; no entanto, 𝐽 é

«quase diagonal» (na diagonal principal encontram-se os valores próprios; apenas
tem um 1 em cada linha a seguir ao elemento da diagonal principal; os restantes
elementos são nulos).
b) Na diagonal principal de cada matriz 𝐽ℓ repete-se o mesmo valor próprio. No en-

tanto, o mesmo valor próprio pode aparecer em vários blocos de Jordan (em tan-
tos, quantos os vectores próprios linearmente independentes associados ao valor
próprio).
c) O número de vezes que o mesmo valor próprio aparece na diagonal principal da

matriz 𝐽 é igual à sua multiplicidade algébrica.
d) Cada bloco de Jordan é uma matriz quadrada de ordem 𝑛ℓ e 𝑛􏷠 + 𝑛􏷡 + ⋯ + 𝑛𝑚 = 𝑝.

𝐹 𝑠 = 𝐺𝐽 𝑠 𝐺−􏷠 ,
onde
⎡ 𝐽􏷠𝑠 𝑂 ⋯ 𝑂 ⎤
⎢ 𝑂 𝐽􏷡𝑠 ⋯ 𝑂 ⎥
𝐽𝑠 = ⎢ ⎥,
⋮ ⋮ ⋮
⎢ ⎥
⎣ 𝑂 𝑂 ⋯ 𝐽𝑚𝑠 ⎦
podendo provar-se que

⎡ 𝜆𝑠𝑖 𝐶𝑠􏷠 𝜆𝑠−􏷠 𝐶𝑠􏷡 𝜆𝑠−􏷡
𝑠−𝑛 +􏷠
⋯ 𝐶𝑠𝑛ℓ −􏷠 𝜆𝑖 ℓ ⎤
𝑖 𝑖
⎢ 𝑠−𝑛 +􏷡 ⎥
⎢ 0 𝜆𝑠𝑖 𝐶𝑠􏷠 𝜆𝑠−􏷠
𝑖 ⋯ 𝐶𝑠𝑛ℓ −􏷡 𝜆𝑖 ℓ ⎥
𝑠−𝑛 +􏷢
𝐽ℓ𝑠 = ⎢ 0 0 𝜆𝑠𝑖 ⋯ 𝐶𝑠𝑛ℓ −􏷢 𝜆𝑖 ℓ ⎥ (ℓ = 1, 2, … , 𝑚),
⎢ ⋮ ⋮ ⋮ ⋮ ⎥
⎢ 0 0 0 ⋯ 𝜆𝑠𝑖 ⎥
⎣ ⎦
onde
⎧ 𝑠!
⎪ (𝑠 ≥ 𝑛)
⎪
𝐶𝑠𝑛 = ⎨ 𝑛! (𝑠 − 𝑛)!
⎪
⎪ 0 (𝑠 < 𝑛) .
⎩
Por exemplo, no caso em que 𝑝 = 2 (equação de 2.ª ordem) e os valores próprios de 𝐹
são reais e iguais, vem
−􏷠
𝑔􏷠􏷠 𝑔􏷠􏷡 𝜆𝑠 𝑠𝜆𝑠−􏷠 𝑔􏷠􏷠 𝑔􏷠􏷡
𝐹 𝑠 = 𝐺𝐽 𝑠 𝐺−􏷠 = 􏿰 􏿳􏿰 𝑠 􏿳􏿰 􏿳
𝑔􏷡􏷠 𝑔􏷡􏷡 0 𝜆 𝑔􏷡􏷠 𝑔􏷡􏷡
1 𝑔􏷠􏷠 𝑔􏷠􏷡 𝜆𝑠 𝑠𝜆𝑠−􏷠 𝑔􏷡􏷡 −𝑔􏷠􏷡
= 􏿰 􏿳􏿰 𝑠 􏿳􏿰 􏿳,
𝑔􏷠􏷠 𝑔􏷡􏷡 − 𝑔􏷠􏷡 𝑔􏷡􏷠 𝑔􏷡􏷠 𝑔􏷡􏷡 0 𝜆 −𝑔􏷡􏷠 𝑔􏷠􏷠
ficando ao cuidado do leitor verificar que
𝜕 𝑦𝑡+𝑠 (𝑠) 𝑔􏷠􏷠 𝑔􏷡􏷠
= 𝑓􏷠􏷠 = 𝜆𝑠 − 𝑠𝜆𝑠−􏷠 .
𝜕 𝑤𝑡 𝑔􏷠􏷠 𝑔􏷡􏷡 − 𝑔􏷠􏷡 𝑔􏷡􏷠
Vai ser retomado o estudo, em geral, das equações vectoriais de 1.ª ordem, (9A.3).
Quando os valores próprios da matriz 𝐹 verificam a condição |𝜆𝑖 | < 1, 𝐹 𝑠 tende para 𝑂
quando 𝑠 → +∞, e é possível obter uma relação de longo prazo, em que 𝑦𝑡 é função de
toda a «história» da variável de input. Com efeito, supondo que as sucessões {𝑦𝑡 } e {𝑤𝑡 }
são limitadas, fazendo, indefinidamente em (9A.5), a substituição recursiva, vem
(􏷠) (􏷡) (􏷢)
𝑦𝑡 = 𝑤𝑡 + 𝑓􏷠􏷠 𝑤𝑡−􏷠 + 𝑓􏷠􏷠 𝑤𝑡−􏷡 + 𝑓􏷠􏷠 𝑤𝑡−􏷢 + ⋯ . (9A.10)
No caso particular em que os valores próprios são distintos, tem-se
(𝑠)
𝑓􏷠􏷠 = ℎ􏷠 𝜆𝑠􏷠 + ℎ􏷡 𝜆𝑠􏷡 + ⋯ + ℎ𝑝 𝜆𝑠𝑝 (𝑠 = 1, 2, 3, …).
Como se sabe, o valor actual do fluxo de valores futuros do output, 𝑦𝑡 , 𝑦𝑡+􏷠 , 𝑦𝑡+􏷡 , …, para
um dado factor de actualização 𝛾, é dado por (9.12). Suponha-se que se pretende de-
terminar a variação deste valor actual quando 𝑤𝑡 varia de uma unidade. Para isso,
começa-se por estabelecer que, devido a (9A.7), se tem
𝜕 𝜉𝑡+𝑠 𝜕 +∞ +∞
= 𝐹𝑠 e 􏿵 􏾜 𝛾𝑠 𝜉𝑡+𝑠 􏿸 = 􏾜 𝛾𝑠 𝐹 𝑠 = (𝐼𝑝 − 𝛾𝐹)−􏷠 ,
𝜕 𝑣𝑡 𝜕 𝑣𝑡 𝑠=􏷟 𝑠=􏷟
desde que |𝜆𝑖 | < 1/𝛾. Pode, então, provar-se que [Hamilton (1994), pp. 23–24]
𝜕 VA𝑡 +∞ 𝜕 𝑦𝑡+𝑠 1
= 􏾜 𝛾𝑠 = , (9A.11)
𝜕 𝑤𝑡 𝑠=􏷟 𝜕 𝑤𝑡 1 − 𝜑􏷠 𝛾 − 𝜑􏷡 𝛾􏷡 − ⋯ − 𝜑𝑝 𝛾𝑝
que é o elemento (1,1) da matriz (𝐼𝑝 − 𝛾𝐹)−􏷠 .

O efeito acumulado para o output, quando 𝑤𝑡 varia de uma unidade, é obtido, fa-
zendo 𝛾 = 1 em (9A.11). Assim,
+∞ 𝜕 𝑦𝑡+𝑠 1
􏾜 = . (9A.12)
𝑠=􏷟 𝜕 𝑤𝑡 1 − 𝜑 􏷠 − 𝜑 􏷡 − ⋯ − 𝜑𝑝
Este valor é também é igual ao efeito de longo prazo sobre o output, quando o input
varia de uma unidade, de forma permanente. Tem-se:
𝜕 𝑦𝑡+𝑠 𝜕 𝑦𝑡+𝑠 𝜕 𝑦𝑡+𝑠 𝜕 𝑦𝑡+𝑠 1

lim 􏿶 + + +⋯+ 􏿹= . (9A.13)
𝑠→+∞ 𝜕 𝑤𝑡 𝜕 𝑤𝑡+􏷠 𝜕 𝑤𝑡+􏷡 𝜕 𝑤𝑡+𝑠 1 − 𝜑􏷠 − 𝜑 􏷡 − ⋯ − 𝜑 𝑝
[10A]
Valores críticos para testes de raízes
unitárias e de cointegração
Os quadros 10A.1 e 10A.2 apresentam os valores críticos para, respectivamente, efec-

tuar os seguintes testes de Dickey-Fuller: DF-𝜑, DF-𝜑𝑐 e DF-𝜑𝑐𝑡 ; DF-𝜏, DF-𝜏𝑐 e DF-𝜏𝑐𝑡 .
Quadro 10A.1 — Valores críticos para os testes de Dickey-Fuller: DF-𝜑, DF-𝜑𝑐 e DF-𝜑𝑐𝑡
Probabilidade de a estatística-teste ser menor do que o valor crítico

𝑛 0.01 0.025 0.05 0.10 0.90 0.95 0.975 0.99
Teste DF-𝜑: 𝑛(𝜑̂ − 1)
25 −11.8 −9.3 −7.3 −5.3 1.01 1.41 1.78 2.28
50 −12.8 −9.9 −7.7 −5.5 0.97 1.34 1.69 2.16
100 −13.3 −10.2 −7.9 −5.6 0.95 1.31 1.65 2.09
250 −13.6 −10.4 −8.0 −5.7 0.94 1.29 1.62 2.05
500 −13.7 −10.4 −8.0 −5.7 0.93 1.28 1.61 2.04
∞ −13.8 −10.5 − 8.1 −5.7 0.93 1.28 1.60 2.03
Teste DF-𝜑𝑐 : 𝑛(𝜑̂ 𝑐 − 1)
25 −17.2 −14.6 −12.5 −10.2 −0.76 0.00 0.65 1.39
50 −18.9 −15.7 −13.3 −10.7 −0.81 −0.07 0.53 1.22
100 −19.8 −16.3 −13.7 −11.0 −0.83 −0.11 0.47 1.14
250 −20.3 −16.7 −13.9 −11.1 −0.84 −0.13 0.44 1.08
500 −20.5 −16.8 −14.0 −11.2 −0.85 −0.14 0.42 1.07
∞ −20.7 −16.9 −14.1 −11.3 −0.85 −0.14 0.41 1.05
1071
1072 Anexo 10A Valores críticos para testes de raízes unitárias
Quadro 10A.1 (cont.) — Valores críticos para os testes de Dickey-Fuller:

DF-𝜑, DF-𝜑𝑐 e DF-𝜑𝑐𝑡
𝑛 0.01 0.025 0.05 0.10 0.90 0.95 0.975 0.99
Teste DF-𝜑𝑐𝑡 : 𝑛(𝜑̂ 𝑐𝑡 − 1)
25 −22.5 −20.0 −17.9 −15.6 −3.65 −2.51 −1.53 −0.46
50 −25.8 −22.4 −19.7 −16.8 −3.71 −2.60 −1.67 −0.67
100 −27.4 −23.7 −20.6 −17.5 −3.74 −2.63 −1.74 −0.76
250 −28.5 −24.4 −21.3 −17.9 −3.76 −2.65 −1.79 −0.83
500 −28.9 −24.7 −21.5 −18.1 −3.76 −2.66 −1.80 −0.86
∞ −29.4 −25.0 −21.7 −18.3 −3.77 −2.67 −1.81 −0.88
Fonte: Fuller (1996).
Quadro 10A.2 — Valores críticos para os testes de Dickey-Fuller: DF-𝜏, DF-𝜏𝑐 e DF-𝜏𝑐𝑡

𝑛 0.01 0.025 0.05 0.10 0.90 0.95 0.975 0.99
Teste DF-𝜏
25 −2.65 −2.26 −1.95 −1.60 0.92 1.33 1.70 2.15
50 −2.62 −2.25 −1.95 −1.61 0.91 1.31 1.66 2.08
100 −2.60 −2.24 −1.95 −1.61 0.90 1.29 1.64 2.04
250 −2.58 −2.24 −1.95 −1.62 0.89 1.28 1.63 2.02
500 −2.58 −2.23 −1.95 −1.62 0.89 1.28 1.62 2.01
∞ −2.58 −2.23 −1.95 −1.62 0.89 1.28 1.62 2.01
Teste DF-𝜏𝑐
25 −3.75 −3.33 −2.99 −2.64 −0.37 0.00 0.34 0.71
50 −3.59 −3.23 −2.93 −2.60 −0.41 −0.04 0.28 0.66
100 −3.50 −3.17 −2.90 −2.59 −0.42 −0.06 0.26 0.63
250 −3.45 −3.14 −2.88 −2.58 −0.42 −0.07 0.24 0.62
500 −3.44 −3.13 −2.87 −2.57 −0.44 −0.07 0.24 0.61
∞ −3.42 −3.12 −2.86 −2.57 −0.44 −0.08 0.23 0.60
Teste DF-𝜏𝑐𝑡
25 −4.38 −3.95 −3.60 −3.24 −1.14 −0.81 −0.50 −0.15
50 −4.16 −3.80 −3.50 −3.18 −1.19 −0.87 −0.58 −0.24
100 −4.05 −3.73 −3.45 −3.15 −1.22 −0.90 −0.62 −0.28
250 −3.98 −3.69 −3.42 −3.13 −1.23 −0.92 −0.64 −0.31
500 −3.97 −3.67 −3.42 −3.13 −1.24 −0.93 −0.65 −0.32
∞ −3.96 −3.67 −3.41 −3.13 −1.25 −0.94 −0.66 −0.32
Valores críticos para testes de raízes unitárias e de cointegração 1073
O quadro 10A.3 apresenta os valores críticos para os testes de cointegração de Engle-

(􏷡)
-Granger, quando se considera a equação de regressão 𝑦􏷠𝑡 = 𝛽􏷟 + 𝛽𝑇 𝑧•𝑡 + 𝜆𝑇 𝑦•𝑡 + 𝑢𝑡 , para
os seguintes casos:
(􏷡)
a) 𝐸(Δ𝑦•𝑡 ) = 𝟎 e 𝐸(Δ𝑦􏷠𝑡 ) = 0;
(􏷡)
b) 𝐸(Δ𝑦•𝑡 ) ≠ 𝟎, mas 𝐸(Δ𝑦􏷠𝑡 ) pode ser nulo ou não;
(􏷡)
c) 𝐸(Δ𝑦•𝑡 ) = 𝟎 e 𝐸(Δ𝑦􏷠𝑡 ) ≠ 0.
Os valores críticos referentes ao primeiro caso encontram-se no quadro 10A.3(a), e, para
os outros dois casos, no 10A.3(b).
Quadro 10A.3 — Valores críticos para os testes de cointegração de Engle-Granger
N.º de regressores
(excluindo o termo independente)
1% 2.5% 5% 10%
(a) Os regressores não têm deriva
1 −3.96 −3.64 −3.53 −3.07
2 −4.31 −4.02 −3.77 −3.45
3 −4.73 −4.37 −4.11 −3.83
4 −5.07 −4.71 −4.45 −4.16
5 −5.28 −4.98 −4.71 −4.43
(b) Os regressores têm deriva
1 −3.96 −3.67 −3.41 −3.13
2 −4.36 −4.07 −3.80 −3.52
3 −4.65 −4.39 −4.16 −3.84
4 −5.04 −4.77 −4.49 −4.20
5 −5.36 −5.02 −4.74 −4.46
Fonte: (a) Phillips e Ouliaris (1990);
(b) linha 1 — Fuller (1996);
(b) linhas 2 a 5 — Phillips e Ouliaris (1990).
Em vez das tabelas anteriores, podem utilizar-se os valores referidos no quadro 10A.4
para calcular valores críticos para efectuar os testes de Dickey-Fuller (na versão rácios-
-𝜏) e os testes de cointegração de Engle-Granger. Para isso, utiliza-se a fórmula de
MacKinnon (1991),
̂
𝐶(𝛼, 𝑛) = 𝛽̂∞ + 𝛽̂􏷠 𝑛−􏷠 + 𝛽̂􏷡 𝑛−􏷡 ,
onde 𝛼 é a dimensão do teste e 𝑛 é o número de observações. Neste quadro, 𝑚 repre-
senta o número de variáveis envolvidas no teste (𝑚 = 1para os testes de Dickey-Fuller;
-𝑚 = 2, … , 6 para os testes de Engle-Granger).
1074 Anexo 10A Valores críticos para testes de raízes unitárias
Quadro 10A.4 — Estimativas dos parâmetros da fórmula de MacKinnon para calcular os

valores críticos para os testes de Dickey-Fuller (rácios-𝜏) e para os testes de Cointegração
de Engle-Granger
𝑚 Variante 𝛼 𝛽̂∞ 𝛽̂􏷠 𝛽̂􏷡
1 Sem constante 1 −2.5658 −1.960 −10.04
5 −1.9393 −0.398 −0.00
10 −1.6156 −0.181 −0.00
1 Sem tendência 1 −3.4335 −5.999 −29.25
5 −2.8621 −2.738 −8.36
10 −2.5671 −1.438 −4.48
1 Com tendência 1 −3.9638 −8.353 −47.44
5 −3.4126 −4.039 −17.83
10 −3.1279 −2.418 −7.58
2 Sem tendência 1 −3.9001 −10.534 −30.03
5 −3.3377 −5.967 −8.98
10 −3.0462 −4.069 −5.73
2 Com tendência 1 −4.3266 −15.531 −34.03
5 −3.7809 −9.421 −15.06
10 −3.4959 −7.203 −4.01
3 Sem tendência 1 −4.2981 −13.790 −46.37
5 −3.7429 −8.352 −13.41
10 −3.4518 −6.241 −2.79
3 Com tendência 1 −4.6676 −18.492 −49.35
5 −4.1193 −12.024 −13.13
10 −3.8344 −9.188 −4.85
4 Sem tendência 1 −4.6493 −17.188 −59.20
5 −4.1000 −10.745 −21.57
10 −3.8110 −8.317 −5.19
4 Com tendência 1 −4.9695 −22.504 −50.22
5 −4.4294 −14.501 −19.54
10 −4.1474 −11.165 −9.88
5 Sem tendência 1 −4.9587 −22.140 −37.29
5 −4.4185 −13.641 −21.16
10 −4.1327 −10.638 −5.48
5 Com tendência 1 −5.2497 −26.606 −49.56
5 −4.7154 −17.432 −16.50
10 −4.4345 −13.654 −5.77
Valores críticos para testes de raízes unitárias e de cointegração 1075
Quadro 10A.4 (cont.) — Estimativas dos parâmetros da fórmula de MacKinnon para

calcular os valores críticos para os testes de Dickey-Fuller (rácios-𝜏) e para os testes de
Cointegração de Engle-Granger
𝑚 Variante 𝛼 𝛽̂∞ 𝛽̂􏷠 𝛽̂􏷡

6 Sem tendência 1 −5.2400 −26.278 −41.65
5 −4.7048 −17.120 −11.17
10 −4.4242 −13.347 −0.00
6 Com tendência 1 −5.5127 −30.735 −52.50
5 −4.9767 −20.883 −9.05
10 −4.6999 −16.445 −0.00
Fonte: MacKinnon (1991).
ANEXO 2A
ÁLGEBRA E GEOMETRIA
DOS MÍNIMOS QUADRADOS
2A.1 - Álgebra dos mínimos quadrados
Nas secções 2.3 (estimação dos coeficientes de regressão pelo método dos míni-
mos quadrados), 2.4 (propriedades dos resíduos dos mínimos quadrados), 2.5 (proprie-
dades do estimador dos mínimos quadrados dos coeficientes de regressão), 2.6 (estima-
dor não enviesado da variância das variáveis residuais), 2.7 (coeficiente de determina-
ção) e 2.8 (estimação com restrições lineares sobre os coeficientes de regressão) estuda-
ram-se os aspectos essenciais da álgebra dos mínimos quadrados.
Na presente secção vão abordar-se alguns tópicos adicionais desta álgebra.
Obtenção do estimador MQ com a técnica “soma e subtrai”
~ ~
Considerando a expressão de U T U dada por (2.14), tem-se
~ ~ ~ ~
U TU = (Y − Xβ )T (Y − Xβ )
~ ~ ~ ~
= Y T Y − β T X T Y − Y T Xβ + β T X T Xβ
~ ~ ~
= Y T Y − 2 β T X T Y + β T X T Xβ ,
~ ~
atendendo a que β T X T Y = Y T Xβ . Subtraindo e somando Y T X ( X T X ) −1 X T Y , e notan-
do que X T X ( X T X ) −1 = I k , obtém-se
~ ~ ~ ~ ~
U TU = Y T Y − Y T X ( X T X ) −1 X T Y + β T X T Xβ + Y T X ( X T X ) −1 X T Y − 2β T X T Y
~ ~
= Y T {I n − X ( X T X ) −1 X T } Y + β T X T Xβ + Y T X ( X T X ) −1 X T X ( X T X ) −1 X T Y −
~
− 2β T X T X ( X T X ) −1 X T Y ,
uma vez que Y T Y − Y T X ( X T X ) −1 X T Y = Y T {I − X ( X T X ) −1 X T }Y .

Finalmente, vem
~ ~ ~ ~
U TU = Y T {I n − X ( X T X ) −1 X T } Y + {β − ( X T X ) −1 X T Y }T X T X {β − ( X T X ) −1 X T Y } .
~
A expressão a minimizar, em relação a β , é, portanto, a soma de duas parcelas,
~
a primeira das quais não depende de β . Basta, então, minimizar a segunda parcela, que
é uma forma quadrática definida positiva com matriz X T X . Consequentemente, o valor
Anexo 2A – Álgebra e geometria dos mínimos quadrados 2
~
de β que minimiza a forma quadrática é aquele que a anula, o que acontece apenas se
~
β − ( X T X )−1 X T Y = 0 ; ou seja, o minimizante é b = ( X T X ) −1 X T Y .
Facilmente se mostra que Uˆ TUˆ = (Y − Xb)T (Y − Xb) [a soma dos quadrados dos
~ ~ ~
resíduos MQ] é o mínimo absoluto de ϕ ( β ) = (Y − Xβ )T (Y − Xβ ) , ou seja,
~ ~ ~
∀β : (Y − Xβ )T (Y − Xβ ) ≥ (Y − Xb)T (Y − Xb) .
Com efeito,
~ ~
{(Y − Xb) + X (b − β )}T {(Y − Xb) + X (b − β )}
~ ~ ~
= (Y − Xb)T (Y − Xb) + 2(b − β )T X T (Y − Xb) + (b − β )T X T X (b − β )
~ ~ .
= (Y − Xb)T (Y − Xb) + (b − β )T X T X (b − β )
≥ (Y − Xb)T (Y − Xb) ,
~ ~
uma vez que X T (Y − Xb) = 0 (equações normais), e que (b − β )T X T X (b − β ) é defini-
da positiva.
Regressão por blocos
Tal como se fez no final da secção 2.5, a relação Y = Xβ + U pode apresentar-se

na forma Y = X 1 β •1 + X 2 β •2 + U , onde
− X 1 é a matriz n × k1 dos primeiros k1 regressores;
− X 2 é a matriz n × k2 dos últimos k2 regressores;
− k1 + k2 = k ;
− β •1 e β •2 são os respectivos vectores dos coeficientes de regressão.
Assim, tem-se
β 
X = [X 1 X 2 ] e β =  •1  ,
 β •2 
Como b = ( X T X ) −1 X T Y , para estimar β •1 e β • 2 pelo método MQ faz-se
X T X X 1T X 2   M 11 M 12   X 1T Y 
X T X =  1T 1 = e X T
Y =  T ,
 X 2 X1 X 2T X 2   M 21 M 22  X2Y 
onde:
− M 11 = X 1T X 1 é uma matriz quadrada de ordem k1 ;
− M 12 = X 1T X 2 é uma matriz de tipo k1 × k2 ;
− M 21 = X 2T X 1 é uma matriz de tipo k2 × k1 ;
− M 22 = X 2T X 2 é uma matriz quadrada de ordem k2 .
Para inverter a matriz X T X por blocos, convém recordar a respectiva técnica de

cálculo.
Inversão de matrizes por blocos:

Se
A A12 
A =  11 ,
 A21 A22 
tem-se
 G1 −´G1 A12 A22−1 
A−1 =  −1 
− A22 A21G1 A22−1 + A22−1 A21G1 A12 A22−1 
(2A.1) ,
 A11−1 + A11−1 A12G2 A21 A11−1 − A11−1 A12G2 
= 
 −´G2 A21 A11−1 G2 
onde G1 = ( A11 − A12 A22−1 A21 ) −1 e G2 = ( A22 − A21 A11−1 A12 ) −1 .
Aplicando este resultado, tem-se

−1
M
−1
M 12   M 11 M 12 
( X X ) =  11
T
 =  21 22 
,
 M 21 M 22   M M 
onde:
− M 11 = ( M 11 − M 12 M 22−1M 21 ) −1 ;
− M 21 = − M 22−1M 21M 11 ou M 21 = − M 22 M 21M 11−1 ;
− M 22 = ( M 22 − M 21M 11−1M 12 ) −1 ;
− M 12 = − M 11−1M 12 M 22 ou M 12 = − M 11M 12 M 22
−1
.
Facilmente se verifica que:

− M 11 = ( X 1T P2 X 1 ) −1 , onde P2 = I − H 2 e H 2 = X 2 ( X 2T X 2 ) −1 X 2T ;
− M 21 = −( X 2T X 2 ) −1 X 2T X 1M 11 ou M 21 = − M 22 X 2T X 1 ( X 1T X 1 ) −1 ;
− M 22 = ( X 2T P1 X 2 ) −1 , onde P1 = I − H1 e H1 = X 1 ( X 1T X 1 ) −1 X 1T ;
− M 12 = −( X 1T X 1 ) −1 X 1T X 2 M 22 ou M 12 = − M 11 X 1T X 2 ( X 2T X 2 ) −1 .
Tem-se, então,
 b•1   M 11 − M 11 X 1T X 2 ( X 2T X 2 ) −1   X 1T Y 
b= = −1  T .
b• 2  − M X 2 X 1 ( X 1 X 1 )
22 T T
M 22  X2 Y 
Donde
 b  ( M 11 X T − M 11 X 1T X 2 ( X 2T X 2 ) −1 X 2T )Y   M 11 X 1T P2 Y 
b =  •1  =  22 1T −1  =  22 T .
b• 2  ( M X 2 − M X 2 X 1 ( X 1 X 1 ) X 1 )Y   M X 2 P1Y 
22 T T T
Portanto,
b•1 = ( X 1T P2 X 1 ) −1 X 1T P2 Y ,
(2A.2) 
b• 2 = ( X 2T P1 X 2 ) −1 X 2T P1Y .
Notando que P1 X 1 = O e P2 X 2 = O , os respectivos erros de amostragem são

b•1 − β •1 = ( X 1T P2 X 1 ) −1 X 1T P2U ,

b• 2 − β • 2 = ( X 2T P1 X 2 ) −1 X 2T P1U .
As equações normais, X T X b = X T Y , podem escrever-se do seguinte modo:

 X 1T X 1b•1 + X 1T X 2b• 2 = X 1T Y
 T
 X 2 X 1b•1 + X 2T X 2b• 2 = X 2T Y .
Além da regressão referida,

Y = X 1b•1 + X 2b•2 + Uˆ , onde Uˆ = PX Y , PX = I − H X e H X = X ( X T X ) −1 X T ,
considerem-se mais as seguintes:
~ ~
(1) Y = X 1b•′1 + Y 1 , onde Y 1 = P1Y é o vector dos resíduos;
~ ~
(2) Y = X 2b•′2 + Y 2 , onde Y 2 = P2 Y é o vector dos resíduos;
~ ~
(3) X 2 = X 1B1 + X 2 , onde X 2 = P1 X 2 é a matriz dos resíduos destas k2 regressões;
~ ~
(4) X 1 = X 2 B2 + X 1 , onde X 1 = P2 X 1 é a matriz dos resíduos destas k1 regressões;
~ ~
(5) Y 1 = X 2b•∗2 + Uˆ 1 ;
~ ~
(6) Y 2 = X 1b•∗1 + Uˆ 2 .
− A regressão (1) permite obter as observações do regressando expurgadas da influên-
~
cia de X 1 (estes valores são os respectivos resíduos, Y 1 ). Tem-se
b•′1 = ( X 1T X 1 ) −1 X 1T Y .
− A regressão (2) tem o mesmo objectivo, mas eliminando o efeito de X 2 (os resíduos
~
respectivos são Y 2 ). Vem
b•′2 = ( X 2T X 2 ) −1 X 2T Y .
~
− As regressões (3) visam determinar X 2 “purificado” da influência de X 1 , isto é, X 2
( B1 é uma matriz k1 × k2 ). Obtém-se
B1 = ( X 1T X 1 ) −1 X 1T X 2 .
~
− As regressões (4) permitem calcular X 1 corrigido do efeito de X 2 , ou seja, X 1 ( B2 é
uma matriz k2 × k1 ). Tem-se
B2 = ( X 2T X 2 ) −1 X 2T X 1 .
− Em (5) faz-se a regressão com os resíduos obtidos em (1) e (3). Obtém-se
~ ~ ~ ~
b•∗2 = ( X 2T X 2 ) −1 X 2T Y 1 .
− O mesmo se passa na regressão (6) com os resíduos calculados em (2) e (4):

~ ~ ~ ~
b•∗1 = ( X 1T X 1 ) −1 X 1T Y 2 .
Podem provar-se os seguintes resultados:

a) b•∗2 = b•2 e b•∗1 = b•1 .
Com efeito,
~ ~ ~ ~
b•∗2 = ( X 2T X 2 ) −1 X 2T Y 1 = ( X 2T P1 X 2 ) −1 X 2T P1Y = b• 2 .
Da mesma forma se demonstra que b•∗1 = b•1 .
b) Uˆ 1 = Uˆ e Uˆ 2 = Uˆ .
~ ~
Com efeito, sabe-se que Uˆ 1 = Y 1 − X 2b•∗2 . Como b•1 = ( X 1T X 1 ) −1 ( X 1T Y − X 1T X 2b•2 )
[devido às equações normais], vem
Uˆ = Y − X 1b•1 − X 2b• 2 = Y − X 1 ( X 1T X 1 ) −1 ( X 1T Y − X 1T X 2b• 2 ) − X 2b• 2
~ ~
= P1Y − P1 X 2b• 2 = Y 1 − X 2b•∗2 = Uˆ 1 ,
uma vez que b•∗2 = b•2 . Da mesma forma se demonstra que Uˆ 2 = Uˆ .
~ ~ ~ ~ ~ ~
c) b• 2 = ( X 2T X 2 ) −1 X 2T Y e b•1 = ( X 1T X 1 ) −1 X 1T Y .
Com efeito,
~ ~ ~ ~ ~ ~ ~ ~ ~
b• 2 = ( X 2T X 2 ) −1 X 2T Y 1 = ( X 2T X 2 ) −1 X 2T P1Y = ( X 2T X 2 ) −1 X 2T Y .
~
Pode, então, concluir-se que b• 2 resulta, também, da regressão de Y sobre X 2 .
Do mesmo modo se prova a segunda igualdade.
Na secção 2.10, a propósito da dedução do resultado (2.80), demonstrou-se que

Uˆ rTUˆ r − Uˆ TUˆ = (δ − Rb)T {R( X T X ) −1 RT }−1 (δ − Rb) ,
onde δ = Rβ .
Como Uˆ r = Y − X br = (Y − X b) + X (b − br ) = Uˆ + X (b − br ) [ver (2.63)], resulta
que
Uˆ rTUˆ r − Uˆ TUˆ = (b − br )T X T X (b − br ) ,
uma vez que X TUˆ = 0 .
Pode provar-se que
(2A.3) Uˆ rTUˆ r − Uˆ TUˆ = Uˆ rT H X Uˆ r .
Com efeito, seja
(δ − Rb)T {R( X T X ) −1 RT }−1 (δ − Rb)
= (δ − Rb)T {R( X T X ) −1 RT }−1 R( X T X ) −1 RT {R( X T X ) −1 RT }−1 (δ − Rb)
= λ T R( X T X ) −1 RT λ ,
onde λ = {R( X T X ) −1 RT }−1 (δ − Rb) é o vector dos multiplicadores de Lagrange relativo

a (2.60).
Como X T Y − X T X br + RT λ = 0 [condições de 1.ª ordem de (2.60)], vem

X T (Y − X br ) = − RT λ ou X TUˆ r = − RT λ .
Então,
Uˆ rTUˆ r − Uˆ TUˆ = Uˆ rT X ( X T X ) −1 X TUˆ r = Uˆ rT H X Uˆ r .
2A.2 - Interpretações geométricas do método dos mínimos quadrados
Na secção 2.3 foi apresentada uma interpretação do método dos mínimos qua-
drados para o MRL simples com termo independente, yt = β1 + β 2 xt + ut . Esta interpre-
tação é feita no espaço ℜ2 das variáveis, considerando a “nuvem” de pontos ( xt , yt ) ,
para t = 1, 2,K, n (ver figuras 2.2 e 2.3). Esta abordagem do método MQ poderia ser fa-
cilmente generalizada para qualquer MRL com termo independente, considerando os
vectores ( yt , xt 2 , K , xtk ) do espaço ℜ k das variáveis ( t = 1, 2, K , n ).
A estimação pelo método dos mínimos quadrados é passível de outra interpreta-
ção geométrica muito sugestiva. Esta interpretação é feita no espaço ℜ n das observa-
ções, considera o vector Y e as colunas da matriz X ( x•1 , x•2 ,K, x•k ) como vectores da-
quele espaço.
Interpretação geométrica no espaço das observações
Considerando as k colunas da matriz X como vectores do espaço ℜ n , todas as

combinações lineares destas colunas geram um subespaço C X , de dimensão k, chamado
espaço das colunas da matriz X. Como Y = Xβ + U , o vector Y das observações do
regressando não pertence a C X , isto é, não é combinação linear das colunas da matriz X,
Y ≠ β1 x•1 + β 2 x•2 + L + β k x•k .
Na figura 2A.1 supõe-se k = 2 , e, portanto, o subespaço C X é um plano (trata-

-se do plano gerado pelos vectores x•1 e x• 2 , ou seja, é o conjunto de todas as combina-
ções lineares destes vectores).
Fig. 2A.1 – Interpretação geométrica no espaço das observações.
A estimação pelo método dos mínimos quadrados implica a determinação de um

vector Yˆ = Xb pertencente ao subespaço C X , que se aproxime “o mais possível” do
vector Y. A cada vector Ŷ assim obtido corresponde um vector de resíduos Û , tal que
Y = Yˆ + Uˆ . Assim, Y é a soma de dois vectores, um dos quais, Yˆ = Xb , pertence a C X .
Pretende escolher-se b de modo que o “erro” cometido seja mínimo, isto é, de forma
que o vector Ŷ esteja o mais “perto” possível do vector Y. Tal acontece escolhendo b de
forma que o vector Û seja ortogonal ao subespaço C X (na situação representada na
figura 2A.1 o vector Û é perpendicular ao plano atrás referido).
Verifica-se, então, que Ŷ é a projecção ortogonal de Y no espaço C X das colu-
nas de X. Como Yˆ = H X Y , a matriz da projecção (simétrica, idempotente) é H X . Ob-
viamente, H X X = X e H X Yˆ = Yˆ , porquanto as colunas de X e o vector Ŷ pertencem a
CX .
Como Uˆ = PX Y , PX = I n − H X , PX H X = O e Uˆ T Yˆ = 0 , a matriz PX (simétrica,
idempotente) é a matriz de projecção de Y no complemento ortogonal, C X⊥ , do espaço
C X . Manifestamente tem-se PX Uˆ = Uˆ , pois Û pertence a C X⊥ .
Pode, então, concluir-se que o espaço ℜ n é a soma directa dos subespaços C X
e C X⊥ : ℜ n = C X ⊕ C X⊥ . Deste modo, qualquer vector Y ∈ ℜ n é igual à soma de dois vec-
tores ortogonais, um pertencente a C X , e o outro a C X⊥ :
Y = Yˆ + Uˆ , Uˆ T Yˆ = 0 .
Diz-se, então, que cada um daqueles dois subespaços é o complemento ortogo-
nal do outro.
Notando que H X Uˆ = 0 , facilmente se conclui que C X⊥ é o núcleo da projecção
dada por H X . Assim, também se pode interpretar aquela soma directa da seguinte ma-
neira:
• A projecção dada por H X divide o espaço ℜ n em dois subespaços ortogonais:
− O contradomínio da projecção, C X = {Yˆ : Yˆ = H X Y , Y ∈ ℜn } ;
− O núcleo da projecção, C ⊥ = {Uˆ : H Uˆ = 0, Uˆ ∈ ℜn } .
X X
Do mesmo modo, pode deduzir-se sem dificuldade que C X é o núcleo da pro-

jecção dada por PX (basta notar que PX Yˆ = 0 ). Então, ℜ n = C X ⊕ C X⊥ pode, ainda, in-
terpretar-se da seguinte maneira:
• A projecção dada por PX divide o espaço ℜ n em dois subespaços ortogonais:
− O contradomínio da projecção, C X⊥ = {Uˆ : Uˆ = PX Y , Y ∈ ℜn } ;
− O núcleo da projecção, C = {Yˆ : P Yˆ = 0, Yˆ ∈ ℜn } .
X X
ANEXO 2B
VARIÁVEIS CENTRADAS
Considere-se o MRLC com termo independente. Dada uma amostra de dimen-

são n, {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , tem-se
(2B.1) yt = β1 + β 2 xt 2 + L + β k xtk + ut (t = 1, 2, K , n) .
Neste caso, a matriz dos regressores é

X = [ e X 2 ],
onde e = [ 1 1 L 1 ] T e X 2 = [x• 2 L x• k ] é a matriz de tipo n × (k − 1) das observações
dos regressores (genuínos).
Somando ordenadamente as n igualdades (2B.1), e dividindo por n, tem-se
(2B.2) y = β 1 + β 2 x 2 + L + β k xk + u ,
onde
∑ ∑ ∑ ∑
n n n n
yt xt 2 xtk ut
y= t =1
, x2 = t =1
,…, xk = t =1
,u= t =1
,
n n n n
são, respectivamente, a média das observações do regressando, as médias das observa-
ções dos regressores, e a média das variáveis residuais.
Subtraindo ordenadamente cada uma das n igualdades (2B.1), de (2B.2), obtém-
-se
yt − y = β 2 ( xt 2 − x2 ) + L + β k ( xtk − xk ) + (ut − u ) (t = 1, 2, K , n) .
Fazendo
ytc = yt − y , xtc2 = xt 2 − x2 ,..., xtkc = xtk − xk , utc = ut − u (t = 1, 2, K , n) ,
tem-se
ytc = β 2 xtc2 + L + β k xtkc + utc (t = 1, 2, K , n) ,
ou, com a notação matricial,

(2B.3) Yc = X c β c + U c ,
onde:
− Yc é o vector n × 1 das observações centradas do regressando, ytc ;
Anexo 2B – Variáveis centradas 2
− X c é a matriz de tipo n × (k − 1) das observações centradas dos regressores, xtjc , para

j = 2, K , k ;
− β c é o vector (k − 1) × 1 dos coeficientes de regressão, β j ( j = 2, K , k ) ;
− U c é o vector n × 1 das variáveis residuais centradas, utc .
Obteve-se, assim, um conjunto de n igualdades em variáveis centradas, pois

“centraram-se” as observações das variáveis em torno das respectivas médias.
A relação Yc = X c β c + U c pode ser obtido da respectiva relação em variáveis
originais, Y = Xβ + U , pré-multiplicando ambos os membros desta igualdade pela ma-
triz de centragem,
1
(2B.4) Pe = I n − e eT ,
n
ou
 1 1 1
1 − n − n L − n 
 
 − 1 1− 1 L − 1 
Pe =  n n n .
 
 M M M 
 
−1 −
1 1
L 1− 
 n n n
Assim, notando que
Pe Y = Yc , Pe X = Pe [ e X 2 ] = [ 0 X c ] , Pe U = U c ,
conclui-se facilmente que

Pe Y = Pe Xβ + Pe U ⇔ Yc = X c β c + U c .
Verifica-se sem dificuldade que a matriz Pe é simétrica, idempotente e semidefi-

nida positiva [a característica é n − 1 : r ( Pe ) = tr ( Pe ) = n − 1 ]. Assim, Pe representa uma
projecção ortogonal que permite projectar qualquer vector de ℜ n no complemento orto-
gonal do subespaço gerado pelo vector e.
Facilmente se conclui que Cov(U c | X c ) = Cov(U c ) = σ 2 Pe ≠ σ 2 I n . Então, o vec-
tor aleatório U c é degenerado, e existe uma relação linear entre as variáveis residuais
utc : u1c + L + unc = 0 .
Apesar disso, propõe-se
b2c 
 
(2B.5) bc =  M  = ( X cT X c ) −1 X cT Yc = ( X 2T Pe X 2 ) −1 X 2T Pe Y
b c 
 k
como estimador de β c . O estimador a propor para β1 é
(2B.6) b1c = y − (b2c x2 + L + bkc xk ) ,
motivado pela igualdade referente às médias, (2B.2).

Vai demonstrar-se que
b c 
b =  1 ,
 bc 
isto é, os estimadores (2B.5) e (2B.6), no contexto das variáveis centradas, fornecem os
mesmos resultados que o estimador b de β , já conhecido do MRLC (variáveis origi-
nais). Com efeito, considere-se a matriz X T X em variáveis originais,
 eT   n eT X 2 
X X =  T  [e
T
X2]=  T .
X2  X2 e X 2T X 2 
Fazendo
 x2 
1
X 2 =  M  = X 2T e ,
n
 xk 
obtém-se
 n n X 2T 
X X =
T
.
n X 2 X 2 X 2 
T
Invertendo esta matriz por blocos, obtém-se

(1 / n) + X 2T ( X 2T X 2 − n X 2 X 2T ) −1 X 2 − X 2T ( X 2T X 2 − n X 2 X 2T ) −1 
(X X ) = 
T −1
.
 − ( X 2T X 2 − n X 2 X 2T ) −1 X 2 ( X 2T X 2 − n X 2 X 2T ) −1 
Notando que
X cT X c = X 2T Pe X 2 = X 2T X 2 − (1 / n) X 2T e eT X 2 = X 2T X 2 − n X 2 X 2T ,
obtém-se
(1 / n) + X 2T ( X cT X c ) −1 X 2 − X 2T ( X cT X c ) −1 
( X T X ) −1 =  ,
 − ( X cT X c ) −1 X 2 ( X cT X c ) −1 
o que mostra que ( X cT X c ) −1 pode ser calculado a partir de ( X T X ) −1 , eliminando a pri-

meira linha e a primeira coluna.
Seja
 eT Y   n y 
X TY =  T  =  T  .
 X 2 Y   X 2 Y 
Como
X cT Yc = X 2T Pe Y = X 2T Y − (1 / n) X 2T e eT Y = X 2T Y − n X 2 y ,
obtém-se
 ny 
X TY =  .
 X cT Yc + n X 2 y 
Então,
(1 / n) + X 2T ( X cT X c ) −1 X 2 − X 2T ( X cT X c ) −1   ny 
b = (X X ) X Y = 
T −1 T
  ,
 − ( X cT X c ) −1 X 2 ( X cT X c ) −1   X cT Yc + n X 2 y 
ou
 y − X 2T ( X cT X c ) −1 X cT Yc   y − X 2T bc  b1c 
b= = = .
−1
     bc 
T T
( X c X c ) X Y
c c bc
Assim, fica provado que se podem obter os estimadores b2 , K , bk utilizando va-

riáveis centradas, com uma fórmula semelhante à que se havia deduzido com variáveis
originais, passando-se depois ao cálculo de b1 , por diferença.
Pode, também, verificar-se que os resíduos MQ são os mesmos, quer se trabalhe
com variáveis originais, quer com variáveis centradas. Com efeito, a partir de
yt = b1 + b2 xt 2 + L + bk xtk + uˆt (t = 1, 2, K , n) ,
obtém-se
(2B.7) y = b1 + b2 x2 + L + bk xk ,
uma vez que a média dos resíduos MQ é nula. Donde,

(2B.8) ytc = b2 xtc2 + L + bk xtkc + uˆt (t = 1, 2, K , n) .
Como Cov(b | X ) = σ 2 ( X T X ) −1 , facilmente se obtém

(2B.9) Var(b1 | X ) = σ 2{(1 / n) + X 2T ( X cT X c ) −1 X 2 } ,
(2B.10) Cov(bc | X ) = σ 2 ( X cT X c ) −1 ,
(2B.11) Cov(bc , b1 | X ) = −σ 2 ( X cT X c ) −1 X 2 .
Evidentemente, o estimador não enviesado de σ 2 continua a ser s 2 .

Antes de prosseguir, convém considerar as matrizes que permitem o cálculo de b
e bc . Como se sabe, estas são, respectivamente,
− X T X , de elemento genérico mij = ∑t =1 xti xtj (i, j = 1, 2, K , k ) ;

n
− X T Y , de elemento genérico m jy = ∑t =1 xtj yt ( j = 1, 2, K , k ) ;

n
− X cT X c , de elemento genérico mijc = ∑t =1 xtic xtjc (i, j = 2,K, k ) ;

n
− X cT Yc , de elemento genérico m cjy = ∑t =1 xtjc ytc ( j = 2, K, k ) .

n
Não é difícil estabelecer as relações entre os elementos destas matrizes em va-

riáveis centradas e em variáveis originais. Tem-se:
− m cjj = m jj − n x 2j ( j = 2, K, k ) ;
− mijc = mij − n xi x j (i, j = 2, K , k ; i ≠ j ) ;
− m cjy = m jy − n x j y ( j = 2, K, k ) .
Fazendo m yy = Σtn=1 yt2 e mcyy = Σtn=1 ( ytc ) 2 , também se tem
− m cyy = m yy − n y 2 .
Seja o modelo de regressão linear simples, yt = β1 + β 2 xt + ut . Tem-se:
∑
n
xtc ytc mxyc
− b2 = t =1
= ,
∑
n
( xtc ) 2 mxxc
t =1
− b1 = y − b2 x ,
σ2
− Var(b2 | X ) = ,
mxxc
 1 x2 
− Var (b1 | X ) = σ 2  + c  ,
 n mxx 
x
− Cov(b1 , b2 | X ) = −σ 2 c ,
mxx
∑
n
uˆt2
− s 2
= t =1
.
n−2
Estes resultados devem ser interpretados de forma conveniente. Por exemplo, a
fórmula da variância (condicionada) do estimador MQ de β 2 mostra que a precisão da
estimação é tanto maior quanto maior for a precisão das variáveis residuais (medida por
σ 2 ), e quanto maior for a dispersão das observações do regressor (medida por mxxc ).
Pode relacionar-se o coeficiente de correlação amostral entre as observações do
regressando e do regressor com a estimativa MQ de β 2 . Tem-se
(mxyc ) 2 c
mxy
(2B.12) r = 2
xy c
= b2 .
mxx m cyy m cyy
Prova-se, também, que
∑
n
(2B.13) t =1
uˆt2 = m cyy (1 − rxy2 ) ,
ou seja, a soma dos quadrados dos resíduos MQ é tanto menor quanto maior for o coe-
ficiente de correlação, em valor absoluto, entre os yt e os xt .
Com efeito, notando que yˆ tc = b2 xtc , e atendendo à propriedade 2.10 dos resíduos
MQ e a (2B.12), obtém-se
∑ uˆt2 = ∑t =1 ( ytc ) 2 − ∑t =1 ( yˆ tc ) 2 = m cyy − b22 mxx

n n n
t =1
c
= m cyy − b2 mxy
c
= m cyy (1 − rxy2 ) .
No caso do modelo yt = β1 + β 2 xt 2 + β 3 xt 3 + ut (MRLC com termo independen-

te e dois regressores), têm-se os seguintes resultados:
c
m33 m2c y − m23
c
m3c y
− b2 = ;
c
m22 c
m33 − (m23
c 2
)
c
m22 m3c y − m23
c
m2c y
− b3 = ;
c
m22 c
m33 − (m23
c 2
)
− b1 = y − b2 x2 − b3 x3 ;
σ 2 m33c σ2
− Var (b2 | X ) = = ;
c
m22 c
m33 − (m23
c 2
) c
m22 (1 − r232 )
σ 2 m22
c
σ2
− Var (b3 | X ) = = ;
c
m22 c
m33 − (m23
c 2
) c
m33 (1 − r232 )
− σ 2 m23
c
− σ 2 r232
− Cov(b2 , b3 | X ) = c c = c ;
m22 m33 − (m23c 2
) m23 (1 − r232 )
 1 x2 m33
c
− 2 x2 x3 m23
c
+ x3 m22
c

Var (b1 | X ) = σ  + 2

 n c
m22 m33c
− (m23c 2
) 
−
σ2
= + x22 Var (b2 | X ) + 2 x2 x3Cov(b2 , b3 | X ) + x32 Var (b3 | X ) ;
n
− σ 2 ( x2 m33
c
− x3m23
c
)
− Cov(b1 , b2 | X ) = = −{x2 Var(b2 | X ) + x3Cov(b2 , b3 | X )} ;
c
m22 c
m33 − (m23
c 2
)
− σ 2 ( x3m22
c
− x3m23
c
)
− Cov(b1 , b3 | X ) = = −{x2Cov(b2 , b3 | X ) + x3Var (b3 | X )} ;
c
m22 c
m33 − (m23
c 2
)
∑
n
uˆt2
− s 2
= t =1
,
n−3
onde r23 é o coeficiente de correlação (amostral) entre as observações dos dois regresso-
res.
É possível apresentar interpretações muito sugestivas das fórmulas anteriores.
Por exemplo, a fórmula da variância condicionada de b2 põe em evidência que a preci-
são da estimação de β 2 é tanto maior quanto maior for a precisão das variáveis resi-
duais (medida por σ 2 ), quanto maior for a dispersão das observações do respectivo re-
c
gressor (medida por m22 ), e quanto menor for o grau de associação linear entre os dois
regressores (medido por r232 ).
Fica ao cuidado do leitor verificar que
∑ uˆ = ∑t =1 ( ytc ) 2 − ∑t =1 ( yˆ tc ) 2 = m cyy − (b2 m2c y + b3 m3c y ) .

n 2 n n
(2B.14) t =1 t
ANEXO 2C
COEFICIENTES DE CORRELAÇÃO
Considere-se o MRLC com termo independente. Dada uma amostra de dimen-

são n, {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , pode construir-se a matriz das correlações
amostrais (simples) entre as observações dos regressores, e o vector das correlações
amostrais (simples) entre as observações de cada regressor e as observações do regres-
sando. Assim,
1 r23 r24 L r2 k  r2 y 
r r 
 23 1 r34 L r3k   3y 
(2C.1) Rxx =  r24 r34 1 L r4 k ; rxy = r4 y  ,

   
M M M M  M 
r2 k r3k r4 k L 1   rky 
 
onde:
∑
n
( xti − xi )( xtj − x j ) mijc mijc
rij = t =1
= = (i, j = 2, K , k ; i ≠ j ) ;
∑t =1 ( xti − xi ) 2 ∑t =1 ( xtj − x j ) 2 n si s j
n n
miic m cjj
∑
n
( xtj − x j )( yt − y ) m cjy m cjy
r jy = t =1
= = ( j = 2, K , k ) ;
∑t =1 ( xtj − x j ) 2 ∑t =1 ( yt − y ) 2 n s j sy
n n
m cjj m cyy
1 n m cjj 1 n m cyy
s 2j = ∑ tj j
n t =1
( x − x ) 2
=
n
( j = 2, K , k ) ; s 2
y = ∑ t
n t =1
( y − y ) 2
=
n
.
Considere-se também a matriz diagonal dos desvios padrão das observações dos
regressores, Dx = diag{s2 , K , sk } .
É possível apresentar o vector bc dos estimadores MQ com variáveis centradas
(ver anexo 2B), em função dos desvios padrão amostrais, s j e s y , e dos coeficientes de
correlação amostrais, rij e rjy . Com efeito, notando que mijc = n si s j rij e m cjy = n s j s y r jy ,
tem-se, respectivamente,
X cT X c = n Dx Rxx Dx e X cT Yc = n s y Dx rxy .
Então,
(2C.2) bc = s y Dx−1 Rxx−1rxy .
Anexo 2C – Coeficientes de correlação 2
Vejam-se dois casos particulares:

1) No caso do MRLC simples, yt = β1 + β 2 xt + ut , tem-se [ver (2.22)]
sy
b2 = rxy .
sx
2) Considerando o MRLC, yt = β1 + β 2 xt 2 + β 3 xt 3 + ut , vem

s y r2 y − r23 r3 y s y r3 y − r23 r2 y
b2 = , b3 = .
s2 1− r 2
23 s3 1 − r232
Estas fórmulas mostram bem que, por exemplo, o estimador b2 depende não só da
dispersão dos yt e dos xt 2 , e da respectiva correlação, mas também de todas as ou-
tras correlações amostrais que se podem estabelecer entre as observações das variá-
veis do modelo.
Os estimadores MQ dos coeficientes de regressão são passíveis de uma outra in-

terpretação muito sugestiva. Para facilitar a exposição considere-se ainda o MRLC,
yt = β1 + β 2 xt 2 + β 3 xt 3 + ut ,
e os seguintes ajustamentos (em variáveis centradas):

(1) ytc = b2 xtc2 + b3 xtc3 + uˆt ;
(2) y c = b xc + ~
t 2y t2 yc ;
t2
(3) y =b x + ~
c
t
c
3y t3 ytc3 ;
(4) xtc3 = b23 xtc2 + ~
xtc3 ;
(5) xc = b xc + ~
t2 32 t 3 xc .
t2
O ajustamento (1) corresponde ao modelo dado, e os estimadores MQ dos coe-

ficientes de regressão são (ver anexo 2B):
c
m33 m2c y − m23
c
m3c y c
m22 m3c y − m23
c
m2c y
b2 = , b3 = .
c
m22 c
m33 − (m23
c 2
) c
m22 c
m33 − (m23
c 2
)
Os ajustamentos (2) e (3) dizem respeito às regressões simples, e tem-se (ver

anexo 2B):
mc s mc s
b2 y = 2c y = y r2 y , b3 y = 3cy = y r3 y .
m22 s2 m33 s3
Os resíduos MQ são, respectivamente, ~ ytc2 e ~

ytc3 . Por exemplo, ~
ytc2 pode ser in-
terpretado como o valor de yt depois de eliminada a influência de xt 2 .
Os ajustamentos (4) e (5) referem-se a duas regressões auxiliares simples (de ca-
da regressor sobre o outro), obtendo-se:
c c
m23 s3 m32 s
b23 = = r23 , b32 = = 2 r23 .
c
m22 s 2 m33 s3
c
Os resíduos MQ são, respectivamente, ~ xtc3 e ~

xtc2 . Por exemplo, ~
xtc3 pode ser in-
terpretado como o valor de xt 3 depois de eliminada a influência de xt 2 .
Sem dificuldade se estabelecem as seguintes relações:
b2 y − b23b3 y b3 y − b32b2 y
b2 = e b3 = .
1 − b23b32 1 − b32b23
Por exemplo, a interpretação da fórmula de b2 pode ser feita do seguinte modo:

o estimador do coeficiente de xt 2 no modelo dado é baseado no estimador do coeficien-
te da regressão simples sobre xt 2 , corrigido da presença de xt 3 . Se xt 2 e xt 3 não estão
correlacionados tem-se r23 = 0 ( b23 = b32 = 0 ) e b2 = b2 y . Interpretação semelhante se
pode fazer para b3 .
De forma sugestiva pode escrever-se b2 = b2 y⋅3 para significar que este estimador
é expurgado da influência de xt 3 . Da mesma forma, se tem b3 = b3 y⋅2 . Chamando a b2 y⋅3
e b3 y⋅2 estimadores de ordem 1, e a b2 y e b3 y , estimadores de ordem 0, as fórmulas ante-
riores estabelecem as relações entre estes dois tipos de estimadores.
A hierarquia entre estimadores MQ, agora estabelecida, pode ser estendida aos
coeficientes de correlação entre as observações de cada regressor, e as observações do
regressando.
Para facilitar a exposição, considere-se inicialmente o mesmo MRLC com dois
regressores (genuínos), yt = β1 + β 2 xt 2 + β 3 xt 3 + ut . Neste caso, têm-se dois coeficientes
de correlação simples, r2 y e r3 y . Por exemplo, r2 y mede o grau de associação linear en-
tre xt 2 e yt . Contudo, devido à presença de xt 3 (que está correlacionado com xt 2 e com
yt ), r2 y não mede correctamente a correlação pretendida. Então, para se ter a correlação
correcta entre xt 2 e yt é necessário remover a associação linear existente entre xt 3 e
xt 2 , e entre xt 3 e yt . Assim, deve considerar-se o coeficiente de correlação entre os re-
síduos ~ xtc2 e ~
ytc3 , ou coeficiente de correlação parcial entre xt 2 e yt . Este coeficiente
de correlação vai representar-se da seguinte maneira:
~
xtc2 ~
r2 y ⋅3 =
∑ ytc3
.
~ ~
∑ t 2 ∑ t3
( x c 2
) ( y c 2
)
Assim, enquanto o coeficiente de correlação simples, r2 y , mede o grau de asso-

ciação linear entre xt 2 e yt , sob a influência de xt 3 , o coeficiente de correlação parcial,
r2 y⋅3 , mede a correlação entre as mesmas variáveis, expurgada daquela influência.
Atendendo às relações já estabelecidas, sem dificuldade obtêm-se as seguintes
igualdades:
~
x ~
∑ y = ∑t =1 ( xtc2 − b32 xtc3 )( ytc − b3 y xtc3 )
n c c n
t =1 t 2 t 3
= m2c y − b3 y m23
c
− b32 m3c y + b32b3 y m33
c
= n s2 s y (r2 y − r3 y r23 ) ,
∑ (~
n
t =1
xtc2 ) 2 = n s22 (1 − r232 ) = m22
c
(1 − r232 ) ,
∑ (~
n
t =1
ytc3 ) 2 = n s y2 (1 − r32y ) = m cyy (1 − r32y ) .
Então,
r2 y − r3 y r23
r2 y⋅3 = .
1 − r232 1 − r32y
De forma semelhante, tem-se

r3 y − r2 y r23
r3 y⋅2 = .
1 − r232 1 − r22y
Também se pode demonstrar que

t 22 t32
r22y⋅3 = , r 2
3 y⋅2 = ,
t 22 + (n − 3) t32 + (n − 3)
onde t 2 = b2 / sb2 e t3 = b3 / sb3 são os rácios-t de b2 e b3 , respectivamente, e n − 3 é o

número de graus de liberdade.
É vantajoso designar os coeficientes de correlação simples por coeficientes de
correlação parciais de ordem 0, e os coeficientes de correlação parciais propriamente
ditos por coeficientes de correlação parciais de ordem 1.
As considerações precedentes podem generalizar-se para situações em que exis-
tem três ou mais regressores genuínos. Por exemplo, no caso do MRLC,
yt = β1 + β 2 xt 2 + β 3 xt 3 + β 4 xt 4 + ut ,
têm-se os seguintes coeficientes de correlação parciais:

r2 y , r3 y , r4 y (3 de ordem 0);
r2 y⋅3 , r2 y⋅4 , r3 y⋅2 , r3 y⋅4 , r4 y⋅2 , r4 y⋅3 (6 de ordem 1);
r2 y⋅34 , r3 y⋅24 , r4 y⋅23 (3 de ordem 2).
Por exemplo: r2 y⋅4 mede o grau de associação linear entre xt 2 e yt , depois de

eliminado o efeito de xt 4 ; r3 y⋅24 mede a correlação entre xt 3 e yt , corrigida a influência
de xt 2 e xt 4 . Por convenção, o coeficiente de determinação, R 2 , pode ser considerado
como o quadrado do coeficiente de correlação parcial de ordem 3. Pode, então, escre-
ver-se R 2 = ry2⋅234 .
Se o modelo tiver k − 1 regressores (genuínos), têm-se as seguintes contagens:
Ordem Número
0 k −1
1 C1k −1 (k − 2)
2 C2k −1 (k − 3)
3 C3k −1 (k − 4)
M M
j C kj −1 (k − j − 1)
M M
k −2 k −1
k −1 1
onde
(k − 1)!
C kj −1 =
j !(k − 1 − j )!
é o número respectivo de combinações. O coeficiente de correlação parcial de ordem

k − 1 é a raiz quadrada do coeficiente de determinação, R 2 = ry2⋅23Kk .
A ordem de um coeficiente de correlação parcial é facilmente determinada con-
tando o número de índices depois do ponto. Assim, por exemplo, r3 y⋅257 é de ordem 3. O
seu cálculo pode ainda ser feito utilizando a seguinte fórmula:
t32
r32y⋅257 = ,
t32 + (n − 5)
onde: t3 é o rácio-t de b3 na regressão com termo independente, de yt sobre xt 2 , xt 3 ,

xt 5 e xt 7 ; n − 5 é o número de graus de liberdade correspondente a esta regressão.
Em geral, tem-se
t 2j
(2C.3) r 2
jy⋅K = ,
t 2j + gl
onde t j é rácio-t respectivo e gl é o correspondente número de graus de liberdade.

O cálculo dos coeficientes de correlação parciais pode fazer-se utilizando direc-
tamente os resíduos MQ. Com efeito, suponha-se, sem perda de generalidade, que pre-
tende determinar-se o coeficiente de correlação parcial de ordem j − 2 entre xtj e yt ,
eliminando o efeito de xt 2 , K , xt , j −1 . Os ajustamentos a fazer são os seguintes (comparar
com o anexo 2A):
(1) Y = X 1b•1 + b j x• j + Uˆ ,
~
(2) Y = X 1b•′1 + Y 1 ,
(3) x• j = X 1b j (1) + ~
x• j ,
~ ~
(4) Y 1 = b∗ ~
x +U1 ,
j •j
onde:
− O ajustamento (1) considera todos os regressores até à ordem j, separando o regres-
sor xtj dos primeiros j − 1 regressores [as observações do regressor xtj formam o
vector x• j ; as observações dos primeiros j − 1 regressores estão agrupadas na matriz
X 1 , de tipo n × ( j − 1) ; b•1 e b j são os estimadores MQ dos coeficientes de regressão
respectivos].
− O ajustamento (2) permite obter as observações do regressando expurgadas da inf-
~
luência de X 1 (estes valores são os respectivos resíduos, Y 1 ).
− No ajustamento (3) determinam-se as observações do regressor xtj “purificadas” da
influência de X 1 (estas observações são os resíduos ~ x• j ).
− No ajustamento (4) faz-se a regressão dos resíduos obtidos no ajustamento (2) sobre
os resíduos obtidos no ajustamento (3).
Tem-se:
~ ~
x•Tj Y 1 x•T j PX 1Y
(2C.4) r 2
jy ⋅ 23K, j −1 = ~ ~ = ,
~
x•Tj ~
x• j (Y 1 )T Y 1 x•T j PX 1 x• j Y T PX 1Y
onde PX1 = I n − X 1 ( X 1T X 1 ) X 1T .
O teorema de Frisch-Waugh-Lovell (apresentado no final da secção 2.5) permite
interpretar, de outra maneira, os coeficientes de correlação parciais. Considere-se,
para simplificar a exposição, o MRLC com três regressores (genuínos),
yt = β1 + β 2 xt 2 + β 3 xt 3 + β 4 xt 4 + ut .
Facilmente se conclui que r22y , r32y e r42y (os quadrados dos coeficientes de cor-
relação simples) medem, respectivamente, a proporção da variação de yt explicada por
cada xtj isoladamente ( j = 2, 3, 4) ; o coeficiente de determinação, R 2 = ry2⋅234 , permite
conhecer a proporção da variação de yt explicada, conjuntamente, por todos os xtj
( j = 2, 3, 4) . Os outros coeficientes de correlação parciais (de ordem 1 e 2) também po-
dem ser interpretados de forma semelhante. Por exemplo: r22y⋅4 mede a proporção da va-
riação de yt explicada por xt 2 , supondo que xt 4 já tinha sido incluído no modelo; r32y⋅24
calcula a proporção da variação de yt explicada por xt 3 , supondo que xt 2 e xt 4 já ti-
nham sido incluídos no modelo.
Verifica-se assim que as correlações parciais podem dar um contributo para a
decisão de inclusão, ou não, no modelo de mais regressores. Por exemplo, suponha-se
que r32y = 0.95 e r32y⋅2 = 0.02 . Nesta situação, xt 3 isolado apresenta uma forte correlação
com yt , mas a inclusão de xt 3 , depois de xt 2 , pouca ajuda na explicação da variação de
yt . Deste modo, xt 2 pode desempenhar o papel que isoladamente poderia desempenhar
xt 3 .
Uma situação típica ocorre quando os coeficientes de correlação simples (de or-
dem 0) são grandes, mas os coeficientes de correlação parciais (de ordem 1) são peque-
nos. Por exemplo, r22y = 0.97 , r32y = 0.95 , r22y⋅3 = 0.02 e r32y⋅2 = 0.01 . Neste caso, cada re-
gressor pode desempenhar o papel do outro.
Os dois exemplos anteriores podem, eventualmente, sugerir a ideia de que os
coeficientes de correlação simples (de ordem 0) nunca são inferiores aos coeficientes de
correlação parciais (de ordem 1). Contudo, observando, por exemplo, as fórmulas que
relacionam estes coeficientes no modelo yt = β1 + β 2 xt 2 + β 3 xt 3 + ut , facilmente se ve-
rifica que não é verdade. Com efeito, é bem possível ter-se r22y = 0.25 e r22y⋅3 = 0.45 .
Deste modo, xt 2 explica isoladamente 25% da variação de yt , mas xt 2 passa a explicar
45% da mesma variação, quando xt 3 já tinha sido previamente considerado.
O coeficiente de determinação, R 2 = ry2⋅23Kk , pode obter-se exclusivamente a
partir dos coeficientes de correlação simples.
Com efeito, notando que bc = s y Dx−1 Rxx−1rxy e YcT Yc = n s y2 , tem-se
YˆcT Yˆc bcT X cT Yc rxy Rxx Dx X c Yc
T −1 −1 T
R2 = = = .
YcT Yc YcT Yc nsy
Como
1 / s2 0 L 0  m2c y 
  c 
1 −1 T 1  0 1 / s3 L 0   m3 y 
Dx X c Yc = = rxy ,
nsy nsy  M M M  M 
  c 
 0 0 L 1 / s   mky 
k
conclui-se, então, que

(2C.5) R 2 = rxyT Rxx−1rxy .
Por exemplo, no caso do modelo yt = β1 + β 2 xt 2 + β 3 xt 3 + ut , tem-se

r22y + r32y − 2 r23 r2 y r3 y
R =2
.
1 − r232
O coeficiente de determinação, R 2 = ry2⋅23Kk , pode também relacionar-se com os

coeficientes de correlação parciais. Vai começar-se por considerar novamente o mo-
delo yt = β1 + β 2 xt 2 + β 3 xt 3 + ut .
Seja:
− (1 − ry2⋅23 )m cyy [VR considerando xt 2 e xt 3 ];
− (1 − r22y )m cyy [VR considerando xt 2 ];
− (1 − r32y⋅2 )(1 − r22y )m cyy [VR considerando xt 3 , depois da inclusão de xt 2 ].

(1 − ry2⋅23 )m cyy = (1 − r32y⋅2 )(1 − r22y )m cyy ,
ou
1 − ry2⋅23 = (1 − r22y )(1 − r32y⋅2 ) .
Então,
ry2⋅23 = r22y + r32y⋅2 (1 − r22y ) .
Em geral, tem-se
(2C.6) 1 − ry2⋅23Kk = (1 − r22y )(1 − r32y⋅2 )(1 − r42y⋅23 ) L (1 − rky2 ⋅23K,k −1 ) .
As fórmulas apresentadas permitem também concluir que o quadrado de qual-

quer coeficiente de correlação parcial é inferior ou igual a R 2 .
ANEXO 2D
ESTIMADORES DE MÁXIMA VEROSIMILHANÇA
Seja wt • um vector 1 × m de variáveis aleatórias cuja função densidade pertence

à família
~ ~
Pθ~ =  f ( wt • | θ ) : θ ∈ Θ  ,
 
~
indexada pelo vector θ ∈ Θ ⊂ ℜ p ; Θ é o respectivo espaço-parâmetro. Considere-se o
modelo formado pelo conjunto de processos estocásticos iid, {wt • } (processo estocásti-
~
co para cada θ ∈ Θ ).
A forma funcional de f é conhecida, e é a mesma qualquer que seja t, uma vez
que se trata de um processo identicamente distribuído. O modelo é paramétrico porque
~
o vector θ tem um número finito de componentes. Para o verdadeiro valor do vector
dos parâmetros, θ , a densidade f ( wt • | θ ) corresponde ao PGD que gerou os dados (o
verdadeiro PGD). Diz-se que o modelo está correctamente especificado se θ ∈ Θ .
Suponha-se que se tem uma amostra, {w1• , w2• , K , wn • } , de dimensão n, onde wt •
é a t-ésima observação. Como o processo é independente, a função densidade da amos-
tra é dada por
~
∏t =1 f (wt • | θ ) .
n
Como esta distribuição está completamente especificada, a estimação dos parâ-

metros pode ser feita com o método da máxima verosimilhança. A ideia básica deste
método de estimação é a de escolher estimativas para os parâmetros que maximizam a
probabilidade de obter a amostra concretamente observada.
~
Considerando a densidade da amostra como função de θ (e não como função da
amostra), obtém-se a função de verosimilhança,
~ ~
L(θ | w1• , w2• , K , wn • ) = ∏t =1 f ( wt • | θ ) .
n
(2D.1)
~
Para simplificar a escrita, podem utilizar-se os símbolos L(θ | ⋅) ou L para repre-
sentar a função de verosimilhança.
~
O método da máxima verosimilhança consiste em escolher um valor de θ que
maximiza (2D.1).
Anexo 2D – Estimadores de máxima verosimilhança 2
Definição 2D.1 – Estimador de máxima verosimilhança (MV)

~
Diz-se que θˆ é estimador MV de θ se e só se θˆ é o valor de θ que maximiza a função
de verosimilhança.
~
Suponha-se que L(θ | ⋅) > 0 . Como a transformação logarítmica é monótona,
maximizar a função de verosimilhança é equivalente a maximizar o respectivo logarit-
mo,
~ ~
ln{L(θ | w1• , w2• , K , wn • )} = ∑t =1 ln{ f ( wt • | θ )} .
n
(2D.2)
Em muitos casos, a maximização de (2D.2) implica a resolução das equações de

verosimilhança
~
(2D.3) ∇ ln{L(θ | ⋅)} = 0 .
Exemplo 2E.1 – Seja o processo escalar iid, {wt } , onde wt ~ N ( µ~, σ~ 2 ) . Então,
~
~ µ 
θ =  ~2  ,
σ 
e
1  ( w − µ~ ) 2 
f ( wt | µ~, σ~ 2 ) = exp− t ~ 2  .
2π σ~ 2  2σ 
O logaritmo da função de verosimilhança é

n n 1
ln{L( µ~, σ~ 2 | w1 , w2 , K , wn )} = − ln(2π ) − ln(σ~ 2 ) − ~ 2 ∑ ( wt − µ~ ) 2 .
n
2 2 2σ t =1
Construindo as respectivas equações de verosimilhança, verifica-se sem dificul-

dade que o estimador MV de ( µ , σ 2 ) é ( µˆ , σˆ 2 ) , onde
1 n 1 n
µ̂ = w =
n
∑ w e σˆ 2 = ∑t =1 ( wt − µˆ ) 2 .
t =1 t
n
∇
Em muitas aplicações, nomeadamente no caso do MRLCN, o vector wt • é de-

composto em dois blocos,
wt • = [ yt xt • ] ,
pretendendo examinar-se como xt • influencia a distribuição de yt condicionada por xt • .

É habitual chamar a yt regressando, e a xt • , vector dos regressores.
Seja f ( yt | xt • ;θ ) a densidade de yt condicionada por xt • , e f ( xt • |ψ ) a densi-
dade marginal de xt • . Então,
f ( yt , xt • | θ ,ψ ) = f ( yt | xt • ;θ ) f ( xt • |ψ )
é a distribuição conjunta de wt • = [ yt xt • ] (para simplificar, as três densidades represen-

taram-se com o mesmo símbolo f). Supondo que θ e ψ não estão funcionalmente rela-
cionados, o logaritmo da função de verosimilhança é
~ ~
ln{L(θ ,ψ~ | ⋅)} = ∑t =1 ln{ f ( yt , xt • | θ ,ψ~ )}
n
(2D.4) ~
= ∑t =1 ln{ f ( yt | xt • ;θ )} + ∑t =1 ln{ f ( xt • | ψ~ )}.
n n
A primeira parcela é o logaritmo da função de verosimilhança condicionada.

O estimador MV condicionado de θ corresponde à maximização desta parcela, igno-
rando a segunda.
A segunda parcela de (2D.4) é o logaritmo da função de verosimilhança marginal.
~
Como não depende de θ , o estimador MV condicionado de θ é numericamente igual
ao respectivo estimador MV conjunto.
Suponha-se, agora, que θ e ψ estão funcionalmente relacionados. Por exemplo,
α  β 
θ =  eψ = .
β  γ 
Neste caso, os estimadores MV de θ , conjunto e condicionado, não são numeri-
camente iguais, uma vez que o segundo não considera a informação incluída na verosi-
milhança marginal. Pode demonstrar-se que o estimador condicionado de θ é menos
eficiente do que o estimador de θ quando se estima conjuntamente θ e ψ . Em muitas
aplicações, a perda de eficiência é inevitável porque não se conhece a forma paramétrica
de f ( xt • |ψ~ ) .
Recordam-se algumas propriedades dos estimadores MV:
a) Invariância. Se θˆ é estimador MV de θ , e se λ = τ (θ ) , onde τ é uma aplicação
biunívoca, então λˆ = τ (θˆ) é estimador MV de λ = τ (θ ) .
b) Eficiência. Se θˆ é estimador eficiente de θ , então: θˆ é solução única das equações
~
de verosimilhança, ∇ ln{L(θ | ⋅)} = 0 ; θˆ é estimador MV.
c) Consistência. Verificadas certas condições de regularidade, os estimadores MV são
consistentes.
d) Normalidade assintótica. Verificadas certas condições de regularidade, os estima-
dores MV são assintoticamente normais.

1) As demonstrações das propriedades a), c) e d) vão ser apresentadas, num contexto
mais geral, no capítulo 8.
2) A invariância dos estimadores MV implica, em geral, que estes estimadores são en-
viesados.
3) A propriedade b) ensina que qualquer estimador eficiente (na óptica do teorema de
Fréchet-Cramér-Rao; ver anexo 2E) é necessariamente estimador MV. Contudo, há
estimadores MV que não são eficientes (basta considerar um estimador MV enviesa-
do).
4) As propriedades c) e d) podem ser enunciadas de uma forma mais rigorosa:
− Verificadas certas condições de regularidade, existe solução, θˆ , das equações de

~
verosimilhança, ∇ ln{L(θ | ⋅)} = 0 . Esta solução é estimador consistente de θ , e
tal que
d
n (θˆ − θ ) → N ( p )  0, I (θ ) −1  ,
 
onde I (θ ) é a matriz de informação de Fisher (ver anexo 2E).
5) As propriedades c) e d) garantem que, em certas condições, os estimadores MV são
CAN (consistentes e assintoticamente normais; ver, no capítulo 3, a subsecção “Esti-
madores consistentes e assintoticamente normais” da secção 3.1).
6) O enunciado referido em 4) corresponde a afirmar que, nas condições de regulari-
dade aludidas, os estimadores MV são assintoticamente eficientes. Trata-se, por-
tanto, de estimadores BAN (best asymptotically normal).
ANEXO 2E
ESTATÍSTICAS SUFICIENTES. ESTIMADORES UMVU.
DESIGUALDADE DE FRÉCHET-CRÁMER-RAO
Considerem-se os estimadores MQ, b e s 2 , de β e σ 2 , respectivamente. É pos-

sível provar que estes estimadores são (conjuntamente) estatísticas suficientes para β
e σ 2 . Começa por recordar-se o conceito de estatística suficiente, e o critério de factori-
zação de Neyman-Pearson.
Definição 2E.1 – Estatística suficiente

Seja z = ( z1 , K , z n ) um vector aleatório com função densidade dada por f ( z | θ ) , onde
θ é o vector m × 1 dos parâmetros da distribuição. O vector aleatório p × 1 , τ (z ) , é uma
estatística suficiente para θ se e só se a distribuição de z, condicionada por τ (z ) , não
depende de θ .
Pode, então, enunciar-se o critério de factorização.
Teorema 2E.1 (Critério de factorização)

~
A estatística τ (z ) é suficiente para θ se e só se a função de verosimilhança L(θ | z ) se
pode factorizar-se como
~ ~
(2E.1) L(θ | z ) = L1 ( z ) L2{θ | τ ( z )} ,
~
onde L1 não depende de θ , e L2 só depende de z através de τ (z ) .
No caso do MRLCN, considera-se o vector Y formado pelas n observações do

regressando, e a respectiva função densidade condicionada por X,
 1 
f (Y | X ; β , σ 2 ) = (2πσ 2 ) −n / 2 exp− (Y − Xβ )T (Y − Xβ ) .
 2σ
2

Pode provar-se que τ (Y | X ) = (b, s 2 ) é estatística suficiente para θ = ( β , σ 2 )
[tem-se m = p = k + 1 ]. Com efeito, notando que
~ ~ ~ ~
(Y − Xβ )T (Y − Xβ ) = (Y − Xb + Xb − Xβ )T (Y − Xb + Xb − Xβ )
~ ~
= {Uˆ + X (b − β )}T {Uˆ + X (b − β )}
~ ~ ~
= Uˆ TUˆ + 2Uˆ T X (b − β ) + (b − β )T X T X (b − β ),
Anexo 2E – Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR 2
ou
~ ~ ~ ~
(Y − Xβ )T (Y − Xβ ) = (n − k ) s 2 + (b − β )T X T X (b − β ) ,
a função de verosimilhança pode escrever-se da seguinte maneira:
~  1 ~ ~ 
L( β , σ~ 2 | Y , X ) = (2π ) − n / 2 (σ~ 2 ) − n / 2 exp− {(n − k ) s 2 + (b − β )T X T X (b − β )} .
 2σ~ 2 
Verifica-se, assim, que se tem a factorização,
~ ~
L( β , σ~ 2 | Y , X ) = L1 (Y | X ) L2 ( β , σ~ 2 | b, s 2 , X ) ,
onde
L1 (Y | X ) = (2π ) − n / 2 ,
e
~  1 ~ ~ 
L2 ( β , σ~ 2 | b, s 2 , X ) = (σ~ 2 ) − n / 2 exp− {(n − k ) s 2 + (b − β )T X T X (b − β )} .
 2σ~ 2 
Deste modo, L1 não depende dos parâmetros, e L2 depende de Y através de b e
2
s .
Como se sabe, uma das vantagens em dispor de uma estatística suficiente con-
junta para θ = ( β , σ 2 ) , como é o caso de τ (Y | X ) = (b, s 2 ) , é que ela retira dos dados,
fixada a matriz X, toda a informação relevante sobre os parâmetros.
Outra vantagem resulta da circunstância de b e s 2 serem também estimadores
não enviesados de β e σ 2 , respectivamente. Nestas condições, pode verificar-se que
(b, s 2 ) é o estimador de θ = ( β , σ 2 ) mais eficiente na classe dos estimadores não envie-
sados. Começa por apresentar-se, em termos gerais, a definição de estimador UMVU e
o enunciado do teorema de Rao-Blackwell.
Definição 2E.2 – Estimador não enviesado com variância uniformemente mínima

Considere-se o vector aleatório z = ( z1 , K , z n ) com função densidade dada por f ( z | θ ) ,
onde θ é o vector m × 1 dos parâmetros da distribuição. Seja Uθ a classe dos estimado-
res não enviesados de θ . O estimador
θˆ ∈ Uθ
é não enviesado com variância uniformemente mínima [sigla em inglês: UMVU (Uni-
formly Minimum-Variance Unbiased)] se e só se
Cov(θˆ) − Cov(θ ∗ ) é semidefinida negativa, ∀θ ∗ ∈ Uθ .
Esta condição significa que o estimador θˆ é o mais eficiente na classe dos esti-
madores não enviesados de θ ( Θ é o espaço-parâmetro).
Recorde-se, a seguir, o enunciado do teorema de Rao-Blackwell.
Teorema 2E.2 (Rao-Blackwell)

Seja τ (z ) uma estatística suficiente para θ , e θ ∗ um estimador não enviesado de θ .
Então, o estimador baseado em τ (z ) ,
θˆ = θˆ{τ ( z )} = E{θ ∗ | τ ( z )} ,
é ainda um estimador não enviesado de θ , e tal que
Cov(θˆ) − Cov(θ ∗ ) é semidefinida negativa.
Esta condição significa que o estimador não enviesado θˆ é mais eficiente do que
o estimador não enviesado θ ∗ . Assim, se se tomar um estimador de θ , não enviesado, o
teorema de Rao-Blackwell permite obter um estimador “melhor” (mais eficiente), desde
que seja baseado naquela estatística suficiente. Diz-se, então, que θˆ se obtém por Rao-
-Blackwellização de θ ∗ .
Deve ficar claro que este teorema não resolve inteiramente a questão da obten-
ção de um estimador UMVU para θ , mas aponta o caminho. Com efeito, estabelece, de
forma clara, que se existir um estimador UMVU, ele tem de procurar-se na classe dos
estimadores não enviesados baseados numa estatística suficiente. Se esta classe tem um
único elemento, trata-se evidentemente do estimador UMVU. De facto, é isso que acon-
tece quando o estimador se baseia numa estatística suficiente completa.
Antes de prosseguir, vai apresentar-se este conceito, e o enunciado do teorema
que permite obter o estimador UMVU.
Para definir estatística suficiente completa é indispensável definir previamente o
conceito de família de distribuições completa.
Definição 2E.3 – Família de distribuições completa

~ ~
θ é o vector m × 1 dos parâmetros da distribuição. A família Fθ~ = { f ( z | θ ) : θ ∈ Θ} é
completa se e só se, qualquer que seja ψ (z ) , se verifica a condição
~
∀θ ∈ Θ : E{ψ ( z )} = 0 ⇒ P{ψ ( z ) = 0} = 1 .
~
A condição P{ψ ( z ) = 0} = 1, ∀θ ∈ Θ , significa que ψ (z ) = 0 excepto, quando
muito, para valores de z pertencentes a um conjunto com probabilidade zero, e para
~
qualquer θ ∈ Θ .
Definição 2E.4 – Estatística suficiente completa

Considere-se a estatística suficiente τ (z ) (vector aleatório p × 1 ) com função densidade
dada por g{τ ( z ) | θ } , onde θ é o vector m × 1 dos parâmetros da distribuição. A estatís-
tica τ (z ) é completa se e só se a família
~ ~
Gθ~ =  g{τ ( z ) | θ } : θ ∈ Θ
 
é completa, isto é, qualquer que seja ψ {τ ( z )} , verifica-se a condição

~
∀θ ∈ Θ : E (ψ {τ ( z )}) = 0 ⇒ P(ψ {τ ( z )} = 0) = 1 .
A importância deste conceito para a determinação do estimador UMVU é de fá-

cil compreensão. Se a estatística τ (z ) é suficiente completa, e se θ ∗ é um qualquer es-
timador não enviesado de θ , seja θˆ o estimador obtido por Rao-Blackwellização de
θ∗,
θˆ = θˆ{τ ( z )} = E{θ ∗ | τ ( z )} .
) )
Se houver outro estimador não enviesado baseado em τ (z ) , θ = θ {τ ( z )} , con-
clui-se que
)
E θˆ{τ ( z )} = E θ {τ ( z )} = θ ,
   
ou
) ~
E θˆ{τ ( z )} − θ {τ ( z )} = 0, ∀θ ∈ Θ .
 
Então, por τ (z ) ser uma estatística suficiente completa, tem-se
) ~
P θˆ{τ ( z )} = θ {τ ( z )} = 1, ∀θ ∈ Θ ,
 
isto é,
)
θˆ{τ ( z )} = θ {τ ( z )} ,
~
excepto, quando muito, num conjunto com probabilidade zero, e para qualquer θ ∈ Θ .
)
Neste caso, os estimadores θˆ e θ não se distinguem.
Se não se conhece uma estatística suficiente completa, e se se opera com uma
estatística suficiente não completa, podem existir vários estimadores não enviesados ba-
seados nessa estatística, e não há procedimento geral que permita conhecer o estimador
mais eficiente.
Das considerações precedentes, pode enunciar-se o seguinte teorema:
Teorema 2E.3 (Lehmann-Scheffé)

Se existir uma estatística suficiente completa para θ , τ (z ) , e pelo menos um estimador
não enviesado, θ ∗ , então existe um e um só estimador UMVU,
θˆ = θˆ{τ ( z )} = E{θ ∗ | τ ( z )} .
Este estimador é o único estimador não enviesado que é função de τ (z ) .
No caso do MRLCN, pode provar-se que (b, s 2 ) é uma estatística suficiente

completa para θ = ( β , σ 2 ) . Como b e s 2 são, respectivamente, estimadores não envie-
sados de β e σ 2 , pode facilmente concluir-se que (b, s 2 ) é também estimador UMVU
de θ = ( β , σ 2 ) .
Este resultado é de natureza diferente da do teorema de Gauss-Markov. De

facto, este teorema não exige a hipótese REX.6, mas, por outro lado, garante que b é o
estimador mais eficiente na classe dos estimadores lineares e não enviesados (estimador
BLUE). Se se considerar a hipótese REX.6, o resultado que se baseia no teorema de
Lehmann-Scheffé garante que b é o estimador mais eficiente na classe dos estimadores
não enviesados (dispensa a linearidade dos estimadores).
A eficiência dos estimadores b e s 2 também pode ser investigada considerando
a conhecida desigualdade de Fréchet-Cramér-Rao. Começa-se por apresentar o teore-
ma respectivo, e os seus pressupostos.
Seja z = ( z1 , K , z n ) um vector aleatório com função densidade definida por
f ( z | θ ) , onde θ é o vector m × 1 dos parâmetros da distribuição. Designa-se por vector
score, ou simplesmente score, o gradiente do logaritmo da função de verosimilhança,
~ ~
(2E.2) s (θ | z ) = ∇ ln{ L(θ | z )} .
Assim, o score é o vector das derivadas parciais do logaritmo da função de vero-
similhança,
~
~ ∂ ln{ L(θ | z )}
s j (θ | z ) = ~ ( j = 1, 2, K , m) ,
∂θ j
para qualquer valor hipotético de θ .

Como
~ ~ 1 ~
s (θ | z ) = ∇ ln{ L(θ | z )} = ~ ∇L(θ | z ) ,
L(θ | z )
cada componente do score pode ser interpretado como a taxa de variação da função
~
verosimilhança em relação a θ j :
~
~ ∂ L(θ | z ) 1
s j (θ | z ) = ~ ~ .
∂θ j L(θ | z )
Considerando o score como um vector aleatório (em z), pode calcular-se o res-
pectivo valor esperado de cada componente (se existir),
~ ~ ~
E{s j (θ | z )} = ∫ n s j (θ | z ) f ( z | θ ) dz ( j = 1, 2, K , m) .
ℜ
~ ~ ~ ~ ~
Como f ( z | θ ) ≡ L(θ | z ) , tem-se ∇f ( z | θ ) = s (θ | z ) f ( z | θ ) , ou seja,
~
∂ f (z |θ ) ~ ~
~ = s j (θ | z ) f ( z | θ ) .
∂θ j
Como
~
∫ ℜ n
f ( z | θ ) dz = 1 ,
~
qualquer que seja θ , e admitindo a condição de regularidade segundo a qual se po-
dem permutar as operações de derivação e de integração, obtém-se
~
∂ f (z |θ ) ∂ ~
∫ ℜ n ~
∂θ j
dz = ~
∂θ j ∫ ℜ n
f ( z | θ ) dz = 0 .
Então,
~
E{s (θ | z )} = 0 .
~
Diz-se que a função de verosimilhança, L(θ | z ) , é regular se e só se o valor es-
perado do score, calculado em θ (verdadeiro valor do parâmetro), é nulo. Assim, vem
E{s(θ | z )} = 0 .
Pode, então, enunciar-se o teorema de Fréchet-Cramér-Rao.
Teorema 2E.4 (Fréchet-Cramér-Rao)

θ é o vector m × 1 dos parâmetros da distribuição. Suponha-se que a respectiva função
~
de verosimilhança, L(θ | z ) , é regular. Considere-se a matriz de informação (de Fi-
sher),
(2E.3) I (θ ) = E{s (θ | z ) s (θ | z )T } = − E{∇s (θ | z )} ,
onde o score é calculado em θ (verdadeiro valor do parâmetro). Seja θˆ um estimador
não enviesado de θ tal que Cov(θˆ) é a respectiva matriz das covariâncias.
Então, a matriz
Cov(θˆ) − I (θ ) −1
é semidefinida positiva. Se Cov(θˆ) = I (θ ) −1 , então θˆ é UMVU.
Note-se que o elemento genérico da matriz de informação é

 ∂ ln{ L(θ | z )}   ∂ ln{ L(θ | z )}   ∂ 2 ln{ L(θ | z )} 
E  ~   ~   = −E  ~ ~  (i, j = 1, 2, K , m) ,
∂θ i  ∂ θ   ∂θ ∂θ 
  j   i j 
não sendo difícil concluir que a matriz de informação é a matriz das covariâncias do
score.
O teorema de Fréchet-Crámer-Rao estabelece que a inversa desta matriz é o “li-
mite inferior” do conjunto das matrizes das covariâncias dos estimadores não enviesa-
dos de θ . Quando uma destas matrizes atinge aquele “limite inferior”, fica garantido
que o respectivo estimador é UMVU. Por estas razões, é habitual chamar desigualdade
de Fréchet-Crámer-Rao à seguinte propriedade:
(2E.4) Cov(θˆ) − I (θ ) −1 é semidefinida positiva.
A matriz I (θ ) −1 chama-se limite inferior de Fréchet-Crámer-Rao (LIFCR).
Estas considerações são mais fáceis de entender quando θ é um escalar. Com
efeito, neste caso, a desigualdade de Fréchet-Crámer-Rao resume-se a estabelecer que
1
Var(θˆ) ≥ ,
I (θ )
onde
 d ln{ L(θ | z )}   d 2 ln{ L(θ | z )} 
I (θ ) = Var  ~  = − E  ~  .
 dθ   dθ 2 
Como Cov(θˆ) = I (θ ) −1 é uma condição suficiente para que θˆ seja UMVU, um
estimador pode ser UMVU sem que a respectiva matriz das covariâncias atinja o limite
inferior de Fréchet-Crámer-Rao. Neste caso, aquela propriedade do estimador deve ser
provada com outros argumentos, nomeadamente mostrando que o estimador é baseado
numa estatística suficiente completa (ver teorema de Rao-Blackwell).
Considerando o MRLCN, vai provar-se um resultado indispensável para se po-
der aplicar o teorema de Fréchet-Cramér-Rao aos estimadores MQ: dado X, os estima-
dores MQ, b e s 2 , são independentes.
Com efeito, condicionados por X, b − β = ( X T X ) −1 X T U é uma forma linear em
U, e Uˆ T Uˆ = U T PX U (propriedade 2.4 dos resíduos MQ) é uma forma quadrática em U,
em que PX simétrica e idempotente. Então, como U | X ~ N ( n ) (0, σ 2 I ) , e atendendo à
propriedade 5) das distribuições de vectores aleatórios (ver secção 2.10), b − β e Uˆ T Uˆ
são independentes (dado X). Daqui resulta que, dado X, b e s 2 são, também, indepen-
dentes.
Notando que (ver demonstração na secção 2.10)
2σ 4
Var( s | X ) =
2
,
n−k
e que b e s 2 são independentes (dado X), a matriz das covariâncias condicionadas por X
do vector (k + 1) × 1 , θˆ = (b, s 2 ) , é
σ 2 ( X T X ) −1 0 
(2E.5) Cov(θˆ | X ) =  
2σ 4  .

 0
n − k 
Vai verificar-se que a função de verosimilhança é regular, ou seja, que o valor
esperado do score, calculado em θ = ( β , σ 2 ) , é nulo. Com efeito, como
~ n n 1 ~ ~
ln{ L( β , σ~ 2 | Y , X )} = − ln (2π ) − ln (σ~ 2 ) − ~ 2 (Y − Xβ )T (Y − Xβ ) ,
2 2 2σ
vem
1 
E (∇ β~ ln{ L( β , σ 2 | Y , X )} | X ) = E  2 X T (Y − Xβ ) X  = 0
σ 
 n 1 
E (∇σ~ 2 ln{ L( β , σ 2 | Y , X )} | X ) = E − 2 + (Y − Xβ )T (Y − Xβ ) X  = 0,
 2σ 2σ 4

uma vez que U = Y − Xβ , E (U | X ) = 0 e E (U T U | X ) = nσ 2 .
O caminho mais simples para obter a matriz de informação consiste em utilizar a

igualdade I (θ ) = − E{∇s(θ | Y , X )} , ou seja, recorrendo ao cálculo das segundas deriva-
~ ~
das de ln{ L( β , σ~ 2 | Y , X )} , fazendo β = β e σ~ 2 = σ 2 . Assim, tem-se:
1
∇ 2β~ ln{ L( β , σ 2 | Y , X )} = − XTX ;
σ2
n 1
∇σ2~ 2 ln{ L( β , σ 2 | Y , X )} = − (Y − Xβ )T (Y − Xβ ) ;
2σ 4
σ6
1
∇ 2β~σ~ 2 ln L( β , σ 2 | Y , X ) = − X T (Y − Xβ ) .
σ4
Donde,
 1 T 1 T  
 σ 2 X X X (Y − Xβ )  
I ( β , σ 2 ) = E  σ 4
 X ,
 1 (Y − Xβ )T X − n + 1 (Y − Xβ )T (Y − Xβ ) 
 σ 2σ 4 σ 6  
4
ou
1 T 
 X X 0 
I ( β , σ 2 ) = σ
2
.
 n 
0
 2σ 4 
Então, o limite inferior de Fréchet-Cramér-Rao é dado por
σ 2 ( X T X ) −1 0 
(2E.6) I ( β , σ 2 ) −1 =  
2σ 4  .

 0
n 
Verifica-se, assim, que a matriz das covariâncias condicionadas de b atinge o
LIFCR, o que mostra, por outra via, que b é UMVU para β . Contudo, a variância
condicionada de s 2 é superior ao respectivo LIFCR. No entanto, como se sabe, este es-
timador é UMVU para σ 2 , devido ao teorema de Lehmann-Scheffé (não há outro esti-
mador não enviesado de σ 2 com variância menor).
Alternativamente, a matriz de informação pode ser obtida utilizando a igualdade
I (θ ) = E{s(θ | Y , X ) s (θ | Y , X )T } , embora os cálculos sejam mais laboriosos.
 1 T 
 X U 
σ 2
s (θ | Y , X ) =  .
 n 1 
− 2 + U TU 
 2σ 2σ 4

Então, s (θ | Y , X ) s(θ | Y , X )T é igual a
 1 T n 1 
 X UU T X − 4 X TU + 6 X TU (U TU )
σ 4
2σ 2σ
 2
.
 n 1  n 1  
− 2σ 4 U X + 2σ 6 (U U )U X − 2 + U U
T T T T

 2σ 2σ 4
  
Pode, então, calcular-se o valor esperado condicionado de cada bloco desta ma-
triz. Verifica-se, sem dificuldade, que
 1  1 1
E  4 X TUU T X X  = 4 X T E (UU T | X ) X = 2 X T X .
σ  σ σ
Relativamente ao bloco (1,2), tem-se
 n 1  n 1
E  − 4 X TU + 6 X TU (U TU ) X  = − 4 X T E (U | X ) + X T E (U (U TU ) | X )
 2σ 2σ  2 σ 2σ 6
1
= X T E{U (U TU ) | X } ,
2σ 6
uma vez que E (U | X ) = 0 .
Seja
 u1   u13 + u1u22 + L + u1un2 
   2 
u2u1 + u2 + L + u2un 
3 2
2  2
u
U (U U ) = (u1 + u2 + L + un )   = 
T 2 2
.
M M
   
un  u u 2 + u u 2 + L + u 3 
 n 1 n 2 n
Como as variáveis residuais são iid a verificar ut | X ~ N (0, σ 2 ) , tem-se

E (ut3 | X ) = 0 e E (ut us2 | X ) = E (ut | X ) E (us2 | X ) = 0 × σ 2 = 0 (t ≠ s ) .
Então, E{U (U TU ) | X } = 0 , podendo concluir-se que

 n 1 
E  − 4 X TU + 6 X TU (U TU ) X  = 0 .
 2σ 2σ 
Quanto ao bloco (2,2), começa-se por notar que
2
 n 1  n2 n 1
 − + U T
U  = − 6 U TU + 8 (U TU ) 2 ,
 2σ 2σ  4σ 2σ 4σ
2 4 4
e que
(U TU ) 2 = (u12 + u22 + L + un2 ) 2 = u14 + u12u22 + L + u12un2
+ u22u12 + u24 + L + u22un2
+L
+ un2u12 + un2u22 + L + un4 .
Como
E (ut4 | X ) = 3σ 4 e E (ut2us2 | X ) = σ 4 (t ≠ s) ,
vem
2
 n2 n 1  n2 2n 2 3nσ 4 + n(n − 1)σ 4 n
E  4 − 6 U TU + 8 (U TU ) 2 X  = − + = .
 4σ 2σ 4σ  4σ 4
4σ 4
4σ 8
2σ 4
Pode, então, obter-se a matriz I ( β , σ 2 ) .

Considere-se a distribuição conjunta de Y e de X. Seja
f (Y , X | φ ) = f (Y | X ;θ ) f ( X |ψ ) ,
onde se utilizou o símbolo f para representar as funções densidade conjunta, condiciona-
da e marginal. Fazendo θ = ( β , σ 2 ) , tem-se
~ ~
L(φ | Y , X ) = L1 (θ | Y , X ) L2 (ψ~ | X ) ,
~ ~
onde L(φ | Y , X ) é a função de verosimilhança conjunta de Y e X, L1 (θ | Y , X ) é a
função de verosimilhança de Y condicionada por X, e L2 (ψ~ | X ) é a função de vero-
similhança marginal de X.
Então,
~ ~
ln{ L(φ | Y , X )} = ln{ L1 (θ | Y , X )} + ln{ L2 (ψ~ | X )} .
Admitindo que θ não é função de ψ (e, inversamente), facilmente se conclui
~ ~
que maximizar ln{ L(φ | Y , X )} em relação a φ dá o mesmo resultado que maximizar
~ ~
ln{ L1 (θ | Y , X )} em relação a θ .
Tem-se
1 T 
σ 2 X X 0 O 
 
 n 
I ( β , σ 2 ,ψ ) =  0 O .
2σ 4
 
 
 O O − E (∇ψ2~ ln{L(ψ | X )})
 
ANEXO 2F
CONSIDERAÇÕES GERAIS SOBRE
TESTE DE HIPÓTESES PARAMÉTRICAS
Como o próprio nome sugere, o teste de uma hipótese paramétrica serve para de-
cidir, com base na informação fornecida pelos dados, se se rejeita, ou não, a hipótese.
Seja z = ( z1 , K , z n ) um vector aleatório com distribuição na família
~ ~
Fθ~ = { f ( z | θ ) : θ ∈ Θ} ,
~ ~
em que θ é o vector m × 1 que percorre o espaço-parâmetro, Θ ⊂ ℜ m : θ ∈ Θ .
Supondo que θ é o vector m × 1 dos parâmetros desconhecidos, qualquer hipó-
tese paramétrica – conjectura sobre θ – estabelece no espaço-parâmetro Θ uma parti-
ção
Θ0 ∪ Θ1 = Θ , Θ0 ∩ Θ1 = ∅ ,
onde H 0 : θ ∈ Θ 0 é a hipótese a testar e H 1 : θ ∈ Θ1 é a hipótese que corresponde ao

conjunto das alternativas. A hipótese H 0 chama-se hipótese nula, designação tradicio-
nal, que corresponde, geralmente, ao satus quo; a hipótese H 1 é designada por hipótese
alternativa. Quando numa das hipóteses (nula ou alternativa) o respectivo subconjunto
de Θ ( Θ 0 ou Θ1 ) só tem um elemento, diz-se que a respectiva hipótese é simples; caso
contrário, é composta.
O teste de hipóteses pode, então, ser apresentado da seguinte maneira:
(2F.1) H 0 : θ ∈ Θ 0 contra H 1 : θ ∈ Θ1 .
O resultado do teste consiste na rejeição, ou não, de H 0 , sendo esta decisão to-

mada com base numa amostra. Naturalmente, a não rejeição (a rejeição) de H 0 implica
a rejeição (a não rejeição) de H 1 .
Seja Z ⊂ ℜ n o espaço-amostra, isto é, o conjunto de todos os vectores particula-
res z retirados da população. Um teste de hipóteses deve basear-se no comportamento
probabilístico de z no espaço-amostra, e estabelecer um critério para determinar quais os
valores concretos de z que levam à rejeição da hipótese nula (e, consequentemente, à
não rejeição da hipótese alternativa).
Anexo 2F – Considerações gerais sobre teste de hipóteses paramétricas 2
Definição 2F.1 – Teste de hipóteses

Um teste de hipóteses é uma regra que permite especificar um subconjunto do espaço-
-amostra, W ⊂ Z , tal que:
− se z ∈ W rejeita-se H 0 (não se rejeita H 1 );
− se z ∉ W não se rejeita H 0 (rejeita-se H 1 ).
O conjunto W chama-se região crítica ou região de rejeição.
É habitual designar o complementar do conjunto W, W , por região de não re-

jeição. Pode, então, afirmar-se que um teste é uma regra que permite introduzir uma
partição do espaço-amostra nas duas regiões referidas, ou seja,
W ∪W = Z , W ∩W = ∅ .
Como a região crítica é um subconjunto de ℜ n , pode ser complicado concluir se
uma determinada amostra particular pertence, ou não, à região crítica. No entanto, em
muitos casos de interesse prático, consegue evitar-se esta dificuldade recorrendo a uma
estatística T (z ) , designada por estatística-teste. Trabalha-se, então, no espaço-amostra
T ⊂ ℜ , relativo à estatística T (z ) , ou seja, com o conjunto de todos os seus valores par-
ticulares. Nestas circunstâncias, um teste de hipóteses estabelece uma regra que permite
determinar um conjunto WT ⊂ T tal que: se T ( z ) ∈ WT , rejeita-se H 0 (não se rejeita
H 1 ); se T ( z ) ∉ WT , não se rejeita H 0 (rejeita-se H 1 ). Os conjuntos WT e WT conti-
nuam a chamar-se, respectivamente, região de rejeição e região de não rejeição.
Em resumo, os ingredientes de um teste de hipóteses são:
− A hipótese nula, H 0 , que é defendida até a evidência estatística mostrar o contrário.
− A hipótese alternativa, H 1 , que é adoptada se a hipótese nula for rejeitada.
− Uma estatística-teste, T (z ) .
− Uma região crítica, WT .
Sendo o teste de hipóteses uma modalidade da inferência estatística, ou inferên-

cia incerta, não é demais recordar que todo o caminho que vai do particular (amostra)
para o geral (população) pode conduzir a erros. No teste de hipóteses, devem conside-
rar-se dois tipos de erros.
Definição 2F.2 – Erros de 1.ª e de 2.ª espécies

Ao proceder ao teste de H 0 contra H 1 podem cometer-se dois tipos de erros:
− O erro de 1.ª espécie ou de rejeição, que consiste em rejeitar H 0 , quando H 0 é ver-
dadeira;
− O erro de 2.ª espécie ou de não rejeição, que consiste em não rejeitar H 0 , quando
H 0 é falsa.
Os erros de 1.ª e de 2.ª espécies estão esquematizados no quadro seguinte:

Teste de hipóteses – erros de 1.ª e de 2.ª espécies
Decisão tomada H 0 verdadeira H 0 falsa
Rejeitar H 0 Erro de 1.ª espécie Decisão correcta
Não rejeitar H 0 Decisão correcta Erro de 2.ª espécie
O aspecto fundamental da teoria do teste de hipóteses prende-se com a possi-

bilidade de controlar cada um dos tipos de erro. Tenha-se, no entanto, presente que, de-
pois de tomada uma decisão, apenas se pode cometer um dos tipos de erro (se se rejeitar
H 0 , nunca ocorre o erro de 2.ª espécie; se não se rejeitar H 0 , nunca acontece o erro de
1.ª espécie).
Na impossibilidade de “minimizar” simultaneamente os dois tipos de erros, tor-
na-se necessário definir uma abordagem que permita considerá-los de alguma forma.
Das várias alternativas possíveis, assume particular relevância a abordagem de Ney-
man-Pearson que consiste no seguinte: em primeiro lugar, fixar um limite superior para
a possibilidade de ocorrer o erro de 1.ª espécie; em segundo lugar, dado aquele limite
superior, reduzir o mais possível o erro de 2.ª espécie.
A abordagem de Neyman-Pearson pode ser formalizada em termos mais rigo-
rosos, introduzindo os conceitos de dimensão do teste, e de função potência do teste. Es-
tes dois conceitos baseiam-se nas probabilidades de cometer os dois tipos de erros refe-
~
ridos, mas deve notar-se que tais probabilidades dependem do particular θ considerado
em Θ 0 e Θ1 , respectivamente.
Definição 2F.3 – Dimensão do teste

O teste associado com a região crítica WT tem dimensão α ( 0 < α < 1 ) se e só se
~ ~
P{T ( z ) ∈WT | θ } ≤ α (∀θ ∈ Θ0 )
(2F.2) ~
sup
~
P{T ( z ) ∈ WT | θ } = α .
θ ∈Θ 0
Deste modo, a dimensão do teste é o valor máximo (mais geralmente, o supre-

~
mo) assumido pela probabilidade de cometer o erro de 1.ª espécie, quando θ percorre o
subconjunto do espaço-parâmetro associado à hipótese nula. É habitual chamar nível de
significância à dimensão do teste.
Definição 2F.4 – Função potência do teste

A função potência do teste associado com a região crítica WT é dada por
~ ~ ~
(2F.3) π (θ ) = P{T ( z ) ∈WT | θ } , θ ∈ Θ .
Para qualquer θ fixado em Θ1 , π (θ ) é a potência do teste contra a particular

hipótese alternativa H 1 : θ = θ . Verifica-se facilmente que a probabilidade de cometer o
erro de 2.ª espécie é igual a 1 − π (θ ) . Assim, a potência do teste é a probabilidade de

não cometer o erro de 2.ª espécie. Note-se que a função potência costuma definir-se em
~
todo o espaço-parâmetro, Θ , embora tenha especial interesse quando θ ∈ Θ1 (para
~
θ ∈ Θ0 , a função potência dá as probabilidades de cometer os erros de 1.ª espécie; uma
vez fixada a dimensão do teste, estas probabilidades não podem exceder o valor α ).
Dispondo destes dois conceitos – dimensão e potência do teste – a abordagem de
Neyman-Pearson resume-se ao seguinte: fixar a dimensão do teste e maximizar a sua
potência.
Assinale-se que esta forma de proceder atribui mais importância ao erro de 1.ª
espécie, uma vez que é fixado um valor máximo para a probabilidade da sua ocorrência,
enquanto a potência deve ser a maior possível dentro dos condicionantes existentes.
Consequentemente, quando se rejeita H 0 , tem-se sempre presente a probabilidade má-
xima associada ao erro que se pode estar a cometer, situação que nem sempre acontece
quando não se rejeita H 0 .
O teste ideal seria aquele em que
~
~  0 (θ ∈ Θ0 )
π (θ ) =  ~ ,
 1 (θ ∈ Θ1 )
o que implicaria que o teste conduziria sempre à decisão correcta. Infelizmente este tes-
te ideal raramente existe.
~
Em geral, tem-se α > 0 e π (θ ) < 1 , sendo desejável que a probabilidade do erro
de 1.ª espécie seja pequena, uma vez que se adopta o seguinte ponto de vista: a possibi-
lidade de rejeitar incorrectamente a hipótese nula é considerada grave, pois esta hipótese
corresponde à posição que deve ser defendida, salvo se evidência estatística convincente
apontar no sentido contrário (a favor da hipótese alternativa).
Na grande maioria das aplicações práticas, os valores habituais fixados para α
são 0.1, 0.05 ou 0.01. Evidentemente que o valor fixado para α depende da importância
que se dá ao facto de rejeitar a hipótese nula, quando esta é verdadeira.
Uma ilustração deste ponto de vista pode ser feita com o seguinte princípio da
Justiça: “uma pessoa é inocente até se provar que é culpada”. Este princípio dá lugar ao
seguinte teste: H 0 : “a pessoa é inocente” contra H 1 : “a pessoa é culpada”. Os erros que
podem ocorrer são os seguintes: erro de 1.ª espécie, “a pessoa é condenada, mas está
inocente”; erro de 2.ª espécie, “a pessoa é absolvida, mas é culpada”. Naturalmente, de
acordo com o princípio enunciado, a aplicação da Justiça deve procurar reduzir a possi-
bilidade de ocorrer o erro de 1.ª espécie, pois entende-se que é mais grave condenar ino-
centes do que absolver criminosos. Para certos sistemas judiciais pode considerar-se que
α = 0.1 é demasiado elevado, optando-se por α = 0.01 ; noutros sistemas judiciais pode
admitir-se que α = 0.05 é um valor razoável.
Facilmente se conclui que existe uma infinidade de testes de dimensão α , ou se-
ja, há uma infinidade de testes cujas regiões críticas são compatíveis com aquela di-
mensão. Estando controlada a probabilidade do erro de 1.ª espécie, é precisamente a
existência de erros de 2.ª espécie que serve de guia na escolha da região crítica óptima
(se existir). De facto, afigura-se natural que seja considerada região crítica óptima,
aquela que minimiza de algum modo a probabilidade de cometer o erro de 2.ª espécie,
isto é, aquela que tem maior potência ou capacidade para rejeitar a hipótese nula,
quando falsa, em favor da hipótese alternativa.
Para formalizar esta ideia vai apresentar-se a seguinte definição:
Definição 2F.5 – Teste uniformemente mais potente (UMP)

Ao testar a hipótese nula H 0 : θ ∈ Θ 0 contra a hipótese alternativa H 1 : θ ∈ Θ1 , conside-
ram-se dois testes com a mesma dimensão α , mas com regiões críticas WT e WT∗ , res-
pectivamente. As correspondentes funções potências são
~ ~ ~
π (θ ) = P{T ( z ) ∈WT | θ } para θ ∈ Θ1 ,
~ ~ ~
π ∗ (θ ) = P{T ( z ) ∈WT∗ | θ } para θ ∈ Θ1.
Diz-se que o teste com a região crítica WT é uniformemente mais potente do que o teste
com região crítica WT∗ se e só se
~ ~ ~
(2F.4) π (θ ) ≥ π ∗ (θ ) , ∀θ ∈ Θ1 .
Se o teste com região crítica WT é uniformemente mais potente do que qualquer outro
teste de dimensão α , diz-se que é o teste uniformemente mais potente.
Em geral, quando não existem testes UMP – ou a sua determinação é muito difí-
cil –, utiliza-se um procedimento que faz largo apelo à intuição, permitindo obter, mui-
tas vezes, resultados interessantes. Trata-se do critério ou princípio da razão de verosi-
milhanças (RV) [ver capítulo 8].
Este princípio compara o máximo da função de verosimilhança restringido à hi-
pótese nula,
~
max
~ L(θ | z ) = Lˆ (Θ 0 ) ,
θ ∈Θ0
com o máximo da função de verosimilhança sem restrições,

~
max
~ L(θ | z ) = Lˆ (Θ) .
θ ∈Θ
Seja
Lˆ (Θ)
λ ( z) = ≥ 1.
Lˆ (Θ 0 )
Note-se que λ é função de z, uma vez que ao minimizar a função de verosimi-

lhança, quer em Θ quer em Θ 0 , os parâmetros são substituídos pelos respectivos esti-
madores de máxima verosimilhança (que são funções de z).
O teste RV baseia-se na seguinte ideia: se H 0 : θ ∈ Θ 0 é verdadeira, então λ (z )
deve ser “pequeno”; a hipótese nula é rejeitada se λ ( z ) ≥ λ0 , onde λ0 é uma constante
convenientemente escolhida. A questão resume-se, então, a determinar esta constante.
Em alguns casos, dá-se a feliz circunstância de existir uma correspondência en-
tre a estatística λ (z ) e uma estatística T (z ) , com distribuição conhecida, facto que per-
mite obter, no domínio desta estatística, uma região crítica equivalente,
λ ( z ) ≥ λ0 ⇔ T ( z ) ∈ WT .
Então, fixada a dimensão do teste, α , a igualdade
~
P{λ ( z ) ≥ λ0 | θ ∈ Θ0 } = α ,
possibilita a determinação do valor de λ0 .

Em Econometria, quando θ é um escalar, é habitual fazer testes em que a hipó-
tese nula é simples, H 0 : θ = θ 0 , e a hipótese alternativa é composta, podendo o teste
assumir uma das seguintes três formas:
a) H 0 : θ = θ 0 contra H 1 : θ > θ 0 ;
b) H 0 : θ = θ 0 contra H 1 : θ < θ 0 ;
c) H 0 : θ = θ 0 contra H 1 : θ ≠ θ 0 .
Em a), diz-se a que a hipótese alternativa é unilateral à direita; em b), unilate-

ral à esquerda; em c), bilateral.
Quando θ é um vector de ℜ m , é usual o teste assumir a seguinte forma:
d) H 0 : θ = θ 0 contra H1 : θ ≠ θ 0 .
Neste caso, a hipótese nula é simples, e a hipótese alternativa é composta (tal co-
mo nos três casos anteriores).
As partições do espaço-parâmetro são, respectivamente, as seguintes:
a) Θ 0 = {θ 0 } e Θ1 = (θ 0 ,+∞) ;
b) Θ 0 = {θ 0 } e Θ1 = (−∞,θ 0 ) ;
c) Θ 0 = {θ 0 } e Θ1 = (−∞,θ 0 ) ∪ (θ 0 ,+∞) ;
d) Θ 0 = {θ 0 } e Θ1 = {θ : θ ≠ θ 0 } ⊂ ℜ m .
Em qualquer destes quatro tipos de teste, a estatística-teste, T ( z ) , é uma variável

aleatória, cuja distribuição é conhecida, pelo menos assintoticamente. Muitas vezes, as
regiões de rejeição escolhidas para aqueles quatro tipos são, respectivamente, as se-
guintes:
a) Região de rejeição na cauda direita da distribuição de T (z ) : WT = (T ∗ ,+∞) ;
b) Região de rejeição na cauda esquerda da distribuição de T (z ) : WT = (−∞, T ∗ ) ;
c) Região de rejeição nas duas caudas (esquerda e direita) da distribuição de T ( z ) :
WT = (−∞, T1∗ ) ∪ (T2∗ ,+∞) ;
d) Região de rejeição na cauda direita da distribuição de T (z ) : WT = (T ∗ ,+∞) .
Em algumas situações, os valores T1∗ e T2∗ , referidos em c), são simétricos.

Evidentemente, tem-se P{T ( z ) ∈WT | H 0 } = α , uma vez que o conjunto Θ 0 tem
apenas tem um elemento. É habitual designar por valores críticos as extremidades fini-
tas dos intervalos que definem as regiões críticas.
Quando se faz um teste de hipóteses, fixada a respectiva dimensão, o resultado

consiste em rejeitar, ou não, a hipótese nula conforme a amostra observada pertence, ou
não, à região crítica (ou, quando se dispõe de uma estatística-teste, conforme o valor ob-
servado dessa estatística pertence, ou não, à respectiva região crítica). Deste modo,
quando se reporta a conclusão de um teste, tudo se resume a afirmar se a hipótese nula é
rejeitada ou não. Quando assim se procede, não se tem em conta se a amostra observada
está muito ou pouco distante da fronteira da região crítica, ou se o valor observado da
estatística-teste se situa longe ou perto dos limiares de rejeição.
Para se obter mais informação, é lícito fazer a seguinte pergunta: dado o valor
observado da estatística-teste, Tobs , qual é o valor máximo da dimensão do teste que per-
mite fazer o teste sem rejeitar a hipótese nula?
Para responder a esta pergunta, começa por considerar-se, por facilidade de expo-
sição, o teste H 0 : θ = θ 0 contra H1 : θ > θ 0 , com WT = (T ∗ ,+∞) [teste de tipo a)]. Veri-
fica-se, sem dificuldade, que o valor máximo da dimensão do teste a que corresponde a
não rejeição da hipótese nula é dado pela seguinte probabilidade:
pobs = P{T ( z ) > Tobs | H 0 } .
Com efeito, considerar esta probabilidade para dimensão do teste equivale a dizer
que o valor crítico que define o limiar da região de rejeição é o valor observado da esta-
tística-teste.
Daqui, decorre que:
− A hipótese nula não é rejeitada para esta dimensão do teste, ou para qualquer outra
inferior;
− A hipótese nula é rejeitada quando a dimensão do teste considerada é superior àque-
la probabilidade.

− Valores pequenos de pobs constituem evidência estatística contra a hipótese nula.
Por exemplo, se pobs = 0.001 , só com testes de dimensão igual ou inferior a 0.001 é
que não se rejeita H 0 .
− Valores grandes de pobs fornecem evidência estatística a favor de H 0 . Por exem-
plo, quando pobs = 0.7 , todos os testes de dimensão igual ou inferior a 0.7 não rejei-
tam a hipótese nula.
− De uma maneira geral, pode afirmar-se que quanto menor for pobs menor é a com-
patibilidade dos dados com H 0 .
− Reportar o valor de pobs é mais informativo do que apresentar a mera conclusão de
rejeição, ou não, da hipótese nula.
− O teste pode ser feito escolhendo um qualquer valor adequado para a dimensão do
teste, seja α , e proceder do seguinte modo: a hipótese nula é rejeitada se pobs < α ;
caso contrário, H 0 não é rejeitada.
As conclusões para os outros três tipos de teste são semelhantes, variando apenas
o modo de calcular pobs . Assim, tem-se:
b) H 0 : θ = θ 0 contra H1 : θ < θ 0 , com WT = (−∞, T ∗ ) :

pobs = P{T ( z ) < Tobs | H 0 } .
c) H 0 : θ = θ 0 contra H1 : θ ≠ θ 0 , com WT = (−∞, T1∗ ) ∪ (T2∗ ,+∞) :

Para determinar pobs é necessário considerar as probabilidades
P{T ( z ) > Tobs | H 0 } e P{T ( z ) < Tobs | H 0 } ,
e fazer pobs igual ao dobro da menor destas probabilidades.

No caso particular em que a distribuição de s(z ) é simétrica tem-se
 
pobs = 2 P  T ( z ) > | Tobs | H 0  .
 
d) Θ 0 = {θ 0 } e Θ1 = {θ : θ ≠ θ 0 } ⊂ ℜ m , com WT = (T ∗ ,+∞) :
pobs = P{T ( z ) > Tobs | H 0 } .
As considerações anteriores permitem apresentar a seguinte definição:
Definição 2F.6 – Valor-p

Suponha-se que se pretende fazer um teste de hipóteses em que o valor observado da es-
tatística-teste, T (z ) , é Tobs . Seja WT (α ) a região crítica associada a cada dimensão do
teste, α ∈ (0,1) . Admitindo que a hipótese nula, H 0 , é verdadeira, o valor-p é dado por
(2F.5) pobs = inf{α : Tobs ∈ WT (α )} ,
ou seja, o valor-p é a menor dimensão do teste para a qual se pode rejeitar H 0 .
Em termos informais, pode então afirmar-se o seguinte: fixada uma estatística-

-teste, T (z ) , o valor-p, pobs , mede a probabilidade de obter qualquer valor tão ou mais
desfavorável para H 0 do que Tobs . Deste modo, o valor-p mede a evidência contra a
hipótese nula: quanto menor é o valor-p, mais forte é a evidência contra H 0 .
Como se viu, a propósito dos testes de tipo a), b) e c), em que θ é um escalar, os
valores assumidos pela estatística-teste que são tão ou mais desfavoráveis para a hipóte-
se nula, dependem da forma da hipótese alternativa (unilateral à direita, unilateral à es-
querda ou bilateral). Por exemplo, quando se calcula o valor-p, no caso em que a hipó-
tese alternativa é composta e bilateral é necessário ter presente que, nesta situação, o
conjunto dos valores assumidos pela estatística-teste, tão ou mais desfavoráveis para a
hipótese nula, são os que se situam nas duas caudas da sua distribuição.
Pode apenas reportar-se o valor-p sem fixar limiares de rejeição de H 0 , e deixar
ao cuidado do investigador decidir se há muita ou pouca evidência contra a hipótese.
Contudo, muitas vezes, é conveniente comparar o valor-p com certos limiares ou níveis
de significância habituais (0.1, 0.05, 0.01). Por exemplo, podem estabelecer-se as se-
guintes regras práticas:
valor-p evidência contra H 0

pobs ≤ 0.01 muito forte
0.01 < pobs ≤ 0.05 forte
0.05 < pobs ≤ 0.10 fraca
pobs > 0.10 pouca ou nenhuma
Note-se que:
− Um valor-p grande não pode ser interpretado como evidência forte a favor de H 0 .
De facto, um valor-p elevado pode ocorrer por duas razões: a) H 0 é verdadeira; b)
H 0 é falsa, mas o teste tem potência fraca.
− Quando, por exemplo, 0.01 < pobs ≤ 0.05 há autores que dizem que a evidência con-
tra H 0 não é significativa ao nível de 0.01, mas é significativa ao nível de 0.05. Ou-
tros autores optam por dizer que a hipótese é de rejeitar ao nível de 0.05 mas não é de
rejeitar ao nível de 0.01; muitas vezes, fixa-se antecipadamente o nível α ( 0 < α < 1 )
e rejeita-se H 0 quando sai pobs < α .
ANEXO 2G
O MODELO DE REGRESSÃO LINEAR CLÁSSICO

GENERALIZADO (AITKEN)
O modelo de regressão linear clássico pode ser generalizado, abandonando as hi-

póteses REX.3 (homocedasticidade condicionada) e REX.4 (ausência de autocorrela-
ção). Assim, admite-se que:
− Var(ut | XT ) = σ t2 (heterocedasticidade condicionada);
− Cov(ut , us | XT ) ≠ 0 (autocorrelação).
Quando se dispõe de uma amostra, {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , a matriz

das covariâncias condicionadas, Cov(U | X ) = E (UU T | X ) , deixa de ser σ 2 I n .
O abandono daquelas hipóteses (REX.3 e REX.4) significa que cada elemento
de Cov(U | X ) é, em geral, função de X. Se existir heterocedasticidade condicionada, os
elementos da diagonal principal não são todos iguais; se existir autocorrelação, existem
elementos não diagonais diferentes de zero. Tem-se, então,
(2G.1) Cov(U | X ) = Σ( X ) ,
que se supõe definida positiva.
Para simplificar a notação, utiliza-se o símbolo
σ 11 σ 12 L σ 1n 
σ σ 22 L σ 2 n 
Σ=  12
.
 M M M 
 
σ 1n σ 2 n L σ nn 
Usando-se Σ em vez de Σ( X ) , deve estar sempre presente que cada σ ts é, em
geral, função de X: σ ts = σ ts ( X ) . Note-se que
σ = Var(u | X ) = σ 2 (t = 1, 2, K , n)
tt t t

σ ts = Cov(ut , us | X ) (t , s = 1, 2, K , n ; t ≠ s ).
Muitas vezes, supõe-se que Σ é conhecida a menos de uma constante multipli-

cativa. Assim, faz-se Σ = λ Ω , onde λ > 0 (que pode ser desconhecido) e Ω é uma ma-
triz conhecida e definida positiva. Neste caso, tem-se
Anexo 2G – O MRLC generalizado (Aitken) 2
σ = σ 2 = Var (u | X ) = λ ω (t = 1, 2, K , n)
tt t t tt

σ
 ts = Cov (ut , u s | X ) = λ ωts (t , s = 1, 2, K , n ; t ≠ s ),
onde ωts é o elemento genérico da matriz Ω . Os parâmetros desconhecidos do modelo

são os β j ( j = 1, 2, K , k ) e λ . Note-se, também, que
Cov(Y | X ) = Σ( X ) .
Como Σ é definida positiva, não existem relações lineares entre as variáveis re-
siduais. Se, pelo contrário, algum ut fosse combinação linear dos outros, a matriz Σ
seria singular e, portanto, semidefinida positiva. Por exemplo, seja n = 2 , e suponha-se
que u2 = α u1 . Então,
σ 12 σ 12   E (u12 | X ) E (u1u 2 | X ) 2 1 α
Σ=  =   = σ  2
,
α α 
1
σ 12 σ 2   E (u1u 2 | X ) E (u 2 | X ) 
2 2
e a matriz Σ é semidefinida positiva, pois

1 α
= 0.
α α2
O modelo de regressão, a verificar as hipóteses REX.1, REX.2, REX.5 e Ω co-
nhecida e definida positiva, designa-se por modelo de regressão linear clássico gene-
ralizado (MRLCG) ou modelo de Aitken.
Considere-se o estimador MQ de β , no contexto deste modelo,
b = ( X T X ) −1 X T Y ,
e analisem-se as suas propriedades exactas.
− O estimador b, condicionado por X, é linear em Y.
− O estimador b é não enviesado, E (b | X ) = E (b) = β .
− O erro de amostragem continua a ser b − β = ( X T X ) −1 X T U .
− A matriz das covariâncias de b, condicionada por X, é dada por
(2G.2) Cov(b | X ) = ( X T X ) −1 X T Σ X ( X T X ) −1 .
Com efeito, basta notar que Cov(Y | X ) = Σ .
− Como vai ver-se, o estimador b não é BLUE (não é o estimador mais eficiente na
classe dos estimadores lineares não enviesados; não se verifica o teorema de Gauss-
-Markov).
− Mesmo que se considere a hipótese REX.6 (normalidade das variáveis residuais), os
resultados (2.69), (2.73), (2.76), (2.79) e (2.80) não são verdadeiros. Em particular: o
rácio-t não segue uma distribuição t-Student; o rácio-F não segue uma distribuição
F-Snedcor.
Para obter um estimador BLUE para β , vai começar-se por demonstrar que é
possível transformar a relação Y = Xβ + U [onde Cov(U | X ) = Σ ] em Y∗ = X ∗ β +U ∗ ,
onde Cov(U * | X * ) = I n .
Como Σ é simétrica e definida positiva, pode determinar-se uma matriz P, qua-
drada de ordem n, não singular, tal que Σ −1 = P T P . Existem muitas matrizes P que per-
mitem esta decomposição, pouco importando qual delas é que vai ser escolhida. Uma
via possível consiste em calcular os valores próprios de Σ e a matriz ortonormal dos
respectivos vectores próprios. Representando por δ t > 0 ( t = 1, 2, K , n ) cada valor pró-
prio, a respectiva matriz diagonal é dada por
δ 1 0 L 0 
0 δ L 0 
D= 2  ou D = Diag{δ , δ , K , δ } .
M M M
1 2 n
 
 0 0 L δn
A correspondente matriz ortonormal dos vectores próprios é, então,
C = [c•1 c• 2 L c• n ] ,
onde, como se sabe, C T C = C C T = I n [logo, C T = C −1 ].

Como a matriz C diagonaliza Σ , obtém-se
C T Σ C = D ou Σ = C DC T .
Atendendo a que D = D1/ 2 D1/ 2 , onde D1/ 2 = Diag{δ 11/2 , δ 21/2 ,K, δ n1/2 } , vem
Σ = C D1 / 2 D1 / 2C T .
Então,
Σ −1 = C D −1 / 2 D −1 / 2C T = PT P ⇔ Σ = P −1 ( PT ) −1 ,
onde P = D −1/ 2C T , com | P | ≠ 0 , e D −1/ 2 = Diag{δ 1−1/2 , δ 2−1/2 , K , δ n−1/2 } .
Considere-se a transformação de Y = Xβ + U dada por
PY = PXβ + PU ,
ou
Y∗ = X ∗ β +U ∗ ,
onde Y∗ = PY , X ∗ = PX e U ∗ = PU (a matriz P depende de X).
Vai verificar-se que a nova relação verifica as seguintes propriedades do MRLC:
− E (U ∗ | X ∗ ) = 0 .
E (U ∗ | X ∗ ) = E (U ∗ | X ) = E ( PU | X ) = P E (U | X ) = 0 ,
uma vez que não há mais informação em X ∗ do que em X.
− Cov(U ∗ | X ∗ ) = I n .
De facto, tem-se
Cov(U ∗ | X ∗ ) = Cov(U ∗ | X ) = Cov( PU | X )

= P Cov(U | X ) PT = P Σ PT = P P −1 ( PT ) −1 PT = I n ,
porque não há mais informação em X ∗ do que em X, e Σ = P −1 ( P T ) −1 .

Quando Σ = λ Ω , tem-se Cov(U ∗ | X ∗ ) = λ I n .
− r( X ∗ ) = k .
Com efeito, basta notar que r ( X ) = k e P é não singular.
Nestas condições, utilizando a transformação Y∗ = X ∗ β +U ∗ pode determinar-se

o estimador MQ de β , obtendo-se
b* = ( X ∗T X ∗ ) −1 X ∗T Y∗ = ( X T P T PX ) −1 X T P T PY = ( X T Σ −1 X ) −1 X T Σ −1 Y .
Então, pode definir-se o seguinte estimador:
Definição 3G.1 – Estimador MQ generalizado de β

O estimador MQ generalizado de β (estimador MQG) é dado por
(2G.3) bg = ( X T Σ −1 X ) −1 X T Σ −1 Y .
Note-se que b∗ = bg , isto é, o estimador MQ de β , considerando Y∗ = X ∗ β +U ∗ ,

é igual ao estimador MQG de β , quando se considera Y = Xβ + U . Portanto, minimi-
~ ~ ~
zar ϕ ( β ) = (Y∗ − X ∗ β )T (Y∗ − X ∗ β ) equivale a minimizar
~ ~ ~
ϕ ( β ) = (Y − Xβ )T Σ −1 (Y − Xβ ) .
O erro de amostragem do estimador bg é dado por
bg − β = ( X T Σ −1 X ) −1 X T Σ −1U .
Quando Σ = λ Ω , facilmente se verifica que

bg = ( X T Ω −1 X ) −1 X T Ω −1Y .
Sem dificuldade se conclui que bg , estimador MQG de β , é BLUE. A respecti-

va matriz das covariâncias, condicionada por X, é dada por
(2G.4) Cov(bg | X ) = ( X T Σ −1 X ) −1 = λ ( X T Ω −1 X ) −1 .

Cov(bg | X ) = ( X T Σ −1 X ) −1 X T Σ −1Cov(Y | X )Σ −1 X ( X T Σ −1 X ) −1 ,
onde Cov(Y | X ) = Σ .
Também se demonstra, sem dificuldade, que δˆg = Rbg é BLUE para δ = Rβ e
Cov(δˆg | X ) = R Cov(bg | X ) RT = R ( X T Σ −1 X ) −1 RT .
Como bg é BLUE para β , é imediato concluir que

Cov(b | X ) − Cov(bg | X ) = ( X T X ) −1 X T Σ X ( X T X ) −1 − ( X T Σ −1 X ) −1
Quando se considera Σ = λ Ω , facilmente se conclui que o estimador não en-
viesado de λ , utilizando a relação transformada, é s∗2 = Uˆ ∗T Uˆ ∗ /(n − k ) onde Û ∗ é o res-
pectivo vector dos resíduos MQ, Û ∗ = Y∗ − X ∗b∗ . Como Uˆ ∗ = P(Y − X bg ) = P Uˆ , onde
Uˆ = Y − X bg [não confundir com Y − X b ], o estimador não enviesado de λ pode es-
crever-se da seguinte maneira:
Uˆ T Ω −1Uˆ
s g2 = .
n−k
Donde,
^
Cov(bg | X ) = s g2 ( X T Ω −1 X ) −1 .
Sabe-se que no MRLC sem termo independente a soma dos resíduos MQ é, em

geral, diferente de zero. Supondo que o MRLCG tem termo independente facilmente se
verifica que a matriz X ∗ não tem uma coluna com todos os elementos iguais a 1. Com
efeito, se x•1 = e então x•1∗ = P e ≠ e . Não se pode, portanto, concluir que
Σ tn=1uˆt∗ = eT Uˆ ∗ = 0 .
No entanto, como X ∗TUˆ ∗ = 0 , tem-se ( x•∗1 )T Uˆ ∗ = eT PT P Uˆ = eT Σ −1Uˆ = 0 .

Apresenta-se a seguir uma lista de resultados sobre o modelo em estudo:
− Da propriedade 1.10 dos resíduos MQ decorre Y∗T Y∗ = Yˆ∗T Yˆ∗ + Uˆ ∗T Uˆ ∗ , pelo que
Y T Σ −1Y = Yˆ T Σ −1Yˆ + Uˆ T Σ −1Uˆ .
Então, pode definir-se
Uˆ T Σ −1Uˆ Yˆ T Σ −1Yˆ
Rg2 = 1 − = .
Y T Σ −1Y Y T Σ −1Y
− A hipótese semelhante a REX.6 para o MRLCG é a seguinte:
U | X ~ N ( n ) (0, Σ) ,
A função de verosimilhança é, então,
~  1 ~ ~
L( β | Y , X ) = (2π ) −n / 2 | Σ |−1/ 2 exp− (Y − Xβ )T Σ −1 (Y − Xβ ) .
 2 
Quando Σ = λ Ω , vem
~ ~ ~  1 ~ ~
L( β , λ 2 | Y , X ) = (2π λ 2 ) − n / 2 | Ω |−1 / 2 exp− ~2 (Y − Xβ )T Ω −1 (Y − Xβ ) .
 2λ 
Os respectivos estimadores MV são
Uˆ T Ω −1Uˆ
β̂ g = bg e λˆg = .
n
− O resultado homólogo a (2.69) é dado por

Uˆ T Ω −1Uˆ (n − k ) s g2
= ~ χ 2 (n − k ) .
λ λ
− O resultado homólogo a (2.73) é
bgj − β j
~ t (n − k ) ,
m∗jj
onde m∗jj é o j-ésimo elemento da diagonal principal da matriz X T Σ −1 X .

Quando Σ = λ Ω , vem
bgj − β j
~ t (n − k ) ,
s g m∗jj
onde, agora, m∗jj é o j-ésimo elemento da diagonal principal da matriz X T Ω −1 X .

− Como o estimador BLUE de δ = Rβ é δˆg = Rbg , o resultado homólogo a (2.79) é o
seguinte:
(δˆg − δ )T {R( X T Σ −1 X ) −1 RT }−1 (δˆg − δ ) ~ χ 2 (m) .
Quando Σ = λ Ω , tem-se
(δˆg − δ )T {R( X T Σ −1 X ) −1 RT }−1 (δˆg − δ )
~ F (m, n − k ) .
msg2
− Considere-se Y = Xβ + U , e suponha-se que se dispõe de r observações adicionais

dos regressores, agrupadas na matriz X 0 de tipo r × k . Tem-se:
Y0 = X 0 β + U 0 ,

 E (U 0 | X , X 0 ) = 0,

Cov(U 0 | X , X 0 ) = Σ 0 ,

U 0 | X , X 0 ~ N (0, Σ 0 ),
(r )
Cov(U ,U 0 | X , X 0 ) = Σ ∗ .
Assim,
 U   Σ Σ∗ 
Cov   =  T .
U 0  Σ∗ Σ0 
~
Seja Y0 um qualquer previsor de Y0 a verificar as duas condições seguintes:
~
− Y0 = CY (linearidade em Y, condicionado por X e X 0 ).
~ ~ ~
− E ( D | X , X 0 ) = 0 , onde D = Y0 − Y0 (não enviesamento).
É possível demonstrar que
Yˆ0 = X 0bg + ΣT∗ Σ −1Uˆ ,
onde Uˆ = Y − X bg é BLUP para Y0 .

Fazendo D = Y0 − Yˆ0 , tem-se E ( D | X , X 0 ) = 0 e Cov( D | X , X 0 ) = Ψ , onde

Ψ = Σ 0 − ΣT∗ Σ −1Σ∗ + ( X 0 − ΣT∗ Σ −1 X )( X T Σ −1 X ) −1 ( X 0 − ΣT∗ Σ −1 X )T .
O resultado homólogo a (2.118) é, então,

(Y0 − Yˆ0 )T Ψ −1 (Y0 − Yˆ0 ) ~ χ 2 (r ) .
Quando
U   Ω Ω∗ 
Cov   = λ  T ,
U 0  Ω∗ Ω0 
tem-se Cov( D | X , X 0 ) = λ Ψ , e
Ψ = Ω 0 − ΩT∗ Ω −1Ω∗ + ( X 0 − ΩT∗ Ω −1 X )( X T Ω −1 X ) −1 ( X 0 − ΩT∗ Ω −1 X )T .
Donde,
(Y0 − Yˆ0 )T Ψ −1 (Y0 − Yˆ0 )
~ F (r , n − k ) .
r sg2
Quando r = 1 , obtém-se
yn+1 − yˆ n+1
~ t (n − k ) .
sg Ψ
ANEXO 3A
EXEMPLOS SOBRE RUÍDOS BRANCOS
E DIFERENÇA-MARTINGALAS
Exemplo de ruído branco que não é independente
Seja w uma variável aleatória com distribuição uniforme no intervalo (0 , 2π ) ,

1 / 2π (0 < w < 2π )
w ~ U (0 , 2π ) ⇔ 
 0 (outros w) .
Considere-se o processo estocástico {zt = cos(t w) : t = 1, 2, K} . Facilmente se ve-

rifica que se trata de um ruído branco. Com efeito,
2π
2π 1 1  sen (t w) 
E( zt ) = ∫ cos(t w) dw =  = 0;
0 2π 2π  t 0
2π
2π 1 1  sen (t w) cos(t w) w  1
Var( zt ) = ∫ 2
cos (t w) dw =  +  = ;
0 2π 2π  2t 20 2
2π
2π 1 1  sen{( s − t ) w} sen{( s + t ) w} 
Cov( zt , zs ) = ∫ cos(t w) cos( s w) dw = + =0.
0 2π 2π  2( s − t ) 2( s + t )  0
Contudo, {zt } não é um ruído branco independente, uma vez que zt = cos(t w) e
zs = cos( s w) não são independentes; nem sequer é estritamente estacionário.
Exemplo de ruído branco que não é uma diferença-martingala
Considere-se o ruído branco não independente atrás referido,

{zt = cos(t w) : t = 1, 2, K} ,
onde w tem distribuição uniforme no intervalo (0 , 2π ) .

Em primeiro lugar, vai mostrar-se que E ( zt | z1 ) = zt (t = 2, 3, K) . Com efeito,
basta notar que zt = cos(t w) apenas depende de z1 = cos( w) . Por exemplo,
z2 = cos(2 w) = 2 cos2 ( w) − 1 = 2 z12 − 1 ;
z3 = cos(3w) = 4 cos3 ( w) − 3 cos( w) = 4 z13 − 3z1 ;
z4 = cos(4 w) = 8 cos 4 ( w) − 8 cos 2 ( w) + 1 = 8 z14 − 8 z12 + 1 ;
Anexo 3A – Exemplos sobre ruídos brancos e diferença-martingalas 2
z5 = cos(5w) = 16 cos5 ( w) − 20 cos3 ( w) + 5 cos( w) = 16 z15 − 20 z13 + 5 z1 ;

...
Assim, se se conhecer z1 = cos( w) , a previsão de qualquer zt futuro coincide
com zt . O processo {zt = cos(t w) : t = 1, 2, K} não é uma diferença-martingala, já que
E ( zt | zt −1 , zt − 2 , K , z1 ) = E cos(t w) | cos{(t − 1) w}, cos{(t − 2) w}, K , cos( w)

 
= cos(t w) = zt .
Exemplo de diferença-martingala, que é um ruído branco não independente.
Seja wt = ε tε t −1 , onde {ε t } é um ruído branco independente. Obviamente {wt }

não é iid, uma vez que wt = ε tε t −1 e wt −1 = ε t −1ε t − 2 não são variáveis aleatórias indepen-
dentes. No entanto, {wt } é um ruído branco, porque
E ( wt ) = E (ε tε t −1 ) = E (ε t ) E (ε t −1 ) = 0 ,
E ( wt2 ) = E (ε t2ε t2−1 ) = E (ε t2 ) E (ε t2−1 ) = σ ε4 ,
E ( wt wt −1 ) = E (ε tε t2−1ε t − 2 ) = E (ε t ) E (ε t2−1 ) E (ε t − 2 ) = 0 ,
E ( wt wt − s ) = 0 ( s = 2, 3, K) .
Falta verificar que {wt } é uma diferença-martingala. Com efeito, vem

E ( wt | wt −1 , wt − 2 , K) = E (ε tε t −1 | ε t −1ε t − 2 , ε t − 2ε t −3 , K)
= E{E (ε tε t −1 | ε t −1 , ε t − 2 , K) | ε t −1ε t − 2 , ε t − 2ε t −3 , K}
= E{ε t −1E (ε t | ε t −1 , ε t − 2 , K) | ε t −1ε t − 2 , ε t − 2ε t −3 , K} = 0 .
Exemplo de diferença-martingala que não é um processo estacionário.
Suponha-se que o processo {ε t } é iid a verificar E (ε t ) = 0 e Var(ε t ) = σ ε2 , e que

{xt } é uma sucessão de números reais não constante. Verifica-se imediatamente que
E ( xtε t ) = 0 , e que {xtε t } é independente. Contudo, não é identicamente distribuído por-
que Var( xtε t ) = xt2σ ε2 . Contudo, como E ( xtε t | xt −1ε t −1 , xt − 2ε t − 2 , K) = E ( xtε t ) = 0 , {xtε t } é
uma diferença-martingala.
ANEXO 5A
TIPOS DE MODELOS SER E

RESPECTIVOS ESTIMADORES
Neste anexo faz-se um resumo dos resultados fundamentais sobre os vários tipos
de modelos SER e respectivos estimadores. Os aspectos considerados são os seguintes
(distinguindo, quando for caso disso, aqueles que se referem à população daqueles que
dizem respeito à amostra):
− Tipos de modelos e respectiva formalização (quadros 5A.1 e 5A.2);
− Estruturas matriciais (quadros 5A.3 e 5A.4);
− Segundos momentos referentes a variáveis observáveis (quadros 5A.5 e 5A.6);
− Produtos dos instrumentos pelas variáveis residuais/resíduos (quadros 5A.7 e 5A.8);
− Modelos SER, estimadores e respectivas hipóteses básicas (quadros 5A.9 e 5A.10);
− Quartos momentos que envolvem variáveis residuais e variáveis instrumentais (qua-
dros 5A.11 e 5A.12);
− Estimadores e matrizes de pesos (quadro 5A.13);
− Estimadores, distribuições limite, matrizes das covariâncias assintóticas e respectivos
estimadores (quadro 5A.14).
Quadro 5A.1 – Tipos de modelos da população

Modelos Regressores Regressores Instrumentos Coeficientes
SER endógenos? comuns? comuns? comuns?
M01 Sim Não Não Não
M02 Não Não Não Não
M03 Sim Não Sim Não
M04 Não Não Sim Não
M05 Sim Sim Sim Não
M06 Não Sim Sim Não
M07 Sim Não Não Sim
M08 Sim Não Sim Sim
M09 Não Não Sim Sim
M10 Sim Sim Sim Sim
Anexo 5A – Tipos de modelos SER e respectivos estimadores 2
Quadro 5A.2 – Formalização dos tipos de modelos SER

Modelos Notação A Notação B
SER Equações Instrumentos Equações Instrumentos
M01 yti = xti • β •i + uti zti • yt • = X t • β + ut •
T T
Zt •
M02 yti = xti • β •i + uti xti • yt • = X t • β + ut •
T T
X t•
M03 yti = xti • β •i + uti zt • ytT• = X t • β + utT• Z t • = I m ⊗ zt •
M04 yti = xti • β •i + uti zt • : xti • = zt • Di ytT• = X t • β + utT• Z t • = I m ⊗ zt •
M05 yti = xt • β •i + uti zt • ytT• = ( I m ⊗ xt • ) β + utT• Z t • = I m ⊗ zt •
M06 yti = xt • β •i + uti xt • y = ( I m ⊗ xt • ) β + u
T
t•
T
t•
X t • = I m ⊗ xt •
M07 yti = xti • β + uti zti • ytT• = X t • β + utT• Zt •
M08 yti = xti • β + uti zt • ytT• = X t • β + utT• Z t • = I m ⊗ zt •
M09 yti = xti • β + uti zt • : xti • = zt • Di ytT• = X t • β + utT• Z t • = I m ⊗ zt •
M10 yti = xt • β + uti zt • y = (em ⊗ xt • ) β + u
T
t•
T
t•
Z t • = I m ⊗ zt •
Quadro 5A.3 – Estruturas matriciais (população)

Bloco- Bloco/
Matrizes/ Contexto For- Modelos
diagonal elemento
vectores particular mato SER
? genérico
yt • 1× m yti 1 a 10
xti • 1× k i xtij 1234789
xt • 1× k xti• 1234789
xt • RC 1× k xtj 5 6 10
xt • CC 1 × mk xti• 789
X t• m×k Sim xti• 1234
X t • = I m ⊗ xt • RC m×k Sim xt • 56
X t• CC m×k Não xti• 789
X t • = em ⊗ xt • CC RC m×k Não xt • 10
β •i k i ×1 β ji 123456
β k ×1 β •i 123456
β CC k ×1 βj 7 8 9 10
ut • 1× m uti 1 a 10
zti • 1 × pi ztih 17
zt • 1× p zti • 17
zt • IC 1× q zth 3 4 5 8 9 10
Zt • m× p Sim zti • 17
Z t • = I m ⊗ zt • IC m × mq Sim zt • 3 4 5 8 9 10
Di q × ki Não I q ( ki colunas) 49
Quadro 5A.4 – Estruturas matriciais (amostra)

Bloco- Bloco/
Matrizes/ Contexto For- Modelos
diagonal elemento
vectores particular mato SER
? genérico
------------ Notação A: Y = Xβ + U ← Z ; y•i = X •i β •i + u•i ← Z •i --------------
y•i n ×1 yti 1 a 10
Y mn × 1 y•i 1 a 10
X •i n × ki Não xti• 1234
X •i CC n×k Não xti• 789
~
X RC n×k Não xt • 56
~
X CC RC n×k Não xt • 10
X mn × k Sim X •i 1234
X CC mn × k Não X •i 789
~ ~
X = Im ⊗ X RC mn × mk Sim X 56
~ ~
X = em ⊗ X CC RC mn × k Não X 10
u•i n ×1 uti 1 a 10
U mn × 1 u•i 1 a 10
Z •i n × pi Não zti • 17
~ n×q zt •
Z IC Não 3 4 5 8 9 10
Z mn × p Sim Z •i 17
~ mn × mq ~
Z = Im ⊗ Z IC Sim Z 3 4 5 8 9 10
-------------------------- Notação B: Y = Xβ + U ← Z ------------------------------
Y mn × 1 ytT• 1 a 10
X mn × k Não X t• 1234
X RC mn × mk Não X t • = I m ⊗ xt • 56
X CC mn × k Não X t• 789
X CC RC mn × k Não X t • = em ⊗ xt • 10
U mn × 1 utT• 1 a 10
Z mn × p Não Zt • 17
Z IC mn × mq Não Z t • = I m ⊗ zt • 3 4 5 8 9 10
Nos quadros 5A.3 e 5A.4 são apresentadas as estruturas matriciais referentes às

matrizes e vectores que aparecem nos modelos da população e nas respectivas relações
amostrais, considerando as matrizes e vectores referentes às variáveis instrumentais.
Para cada matriz ou vector é apresentado o contexto particular (IC – instrumen-
tos comuns; RC – regressores comuns; CC – coeficientes comuns), o formato (no caso
de matriz, com indicação se é ou não bloco-diagonal), o elemento ou bloco (submatriz
ou subvector) genérico e a lista dos modelos SER em que se utiliza.
Quadro 5A.5 – Segundos momentos com variáveis observáveis (população)

Matrizes/ Contexto For- Bloco- Bloco/elemento
vectores particular mato diagonal? genérico
Qzi xi = E ( ztiT• xti • ) pi × ki Não E ( ztih xtij )
Qzx = E ( Z tT• X t • ) p×k Sim Qzi xi
Qzxi = E ( z x )T
t • ti • IC q × ki Não E ( zth xtij )
Qzx = E{( I m ⊗ ztT• ) X t • } IC mq × k Sim Qzxi
~
Qzx = E ( ztT• xt • ) IC RC q×k Não E ( zth xtj )
~ ~
Qzx = I m ⊗ Qzx IC RC mq × mk Sim Qzx
Qzi xi = E ( ztiT• xti • ) CC pi × k Não E ( ztih xtij )
Qzx = E ( Z tT• X t • ) CC p×k Não Qzi xi
Qzxi = E ( ztT• xti • ) CC IC q×k Não E ( zth xtij )
Qzx = E{( I m ⊗ ztT• ) X t • } CC IC mq × k Não Qzxi
~ ~
Qzx = em ⊗ Qzx CC IC RC mq × k Não Qzx
qzi yi = E ( ztiT• yti ) pi × 1 E ( ztih yti )
qzy = E ( Z tT• ytT• ) p ×1 q zi yi
qzyi = E ( ztT• yti ) IC q ×1 E ( zth yti )
qzy = E{( I m ⊗ ztT• ) ytT• } IC mq × 1 q zyi
Qzi zi = E ( ztiT• zti • ) pi × pi Não E ( ztih ztih′ )
Qzz = E ( Z tT• Z t • ) p× p Sim Qzi zi
~ q×q E ( zth zth′ )
Qzz = E ( ztT• zt • ) IC Não
~ mq × mq ~
Qzz = I m ⊗ Qzz IC Sim Qzz
Qxi xi = E ( xtiT• xti • ) ki × ki Não E ( xtij xtij ′ )
Qxx = E ( X tT• X t • ) k×k Sim Qxi xi
~ E ( xtj xtj ′ )
Qxx = E ( xtT• xt • ) RC k×k Não
~ ~
Qxx = I m ⊗ Qxx RC mk × mk Sim Qxx
Qxi xi = E ( xtiT• xti • ) CC k×k Não E ( xtij xtij ′ )
Qxx = E{diag( X t • )T X t • } CC mk × k Não Qxi xi
~ ~
Qxx = em ⊗ Qxx CC RC mk × k Não Qxx
qxi yi = E ( xtiT• yti ) ki × 1 E ( xtij yti )
qxy = E ( X tT• ytT• ) k ×1 q xi y i
qxyi = E ( xtT• yti ) RC k ×1 E ( xtj yti )
qxy = E{( I m ⊗ xtT• ) ytT• } RC mk × 1 q xyi
qxi yi = E ( xtiT• yti ) CC k ×1 E ( xtij yti )
qxy = E{diag( X t • )T ytT• } CC mk × 1 q xi y i
Quadro 5A.6 – Segundos momentos com variáveis observáveis (amostra)

Bloco- Bloco/
Matrizes/ Contexto For-
diagonal elemento
vectores particular mato
? genérico
--------------------------------------------------- Notação A: -----------------------------------------------------
S zi xi = (1 / n)∑t =1 ztiT• xti • = (1 / n) Z •Ti X •i (1 / n)∑t =1 ztih xtij
n n
pi × ki Não
S zx = (1 / n) Z T X p×k Sim S z i xi
~
S zxi = (1 / n)∑t =1 ztT• xti • = (1 / n) Z T X •i (1 / n)∑t =1 zth xtij
n n
IC q × ki Não
~
S zx = (1 / n)( I m ⊗ Z T ) X IC mq × k Sim S zxi
~ ~ ~
S zx = (1 / n)∑t =1 ztT• xt • = (1 / n) Z T X (1 / n)∑t =1 zth xtj
n n
IC RC q×k Não
~ ~ ~ ~
S zx = (1 / n)( I m ⊗ Z T )( I m ⊗ X ) = I m ⊗ S zx IC RC mq × mk Sim S zx
S zi xi = (1 / n)∑t =1 ztiT• xti • = (1 / n) Z •Ti X •i (1 / n)∑t =1 ztih xtij
n n
CC pi × k Não
S zx = (1 / n) Z T X CC p×k Não S z i xi
~
S zxi = (1 / n)∑t =1 ztT• xti • = (1 / n) Z T X •i (1 / n)∑t =1 zth xtij
n n
CC IC q×k Não
~
S zx = (1 / n)( I m ⊗ Z T ) X CC IC mq × k Não S zxi
~ ~
S zx = em ⊗ S zx CC IC RC mq × k Não S zx
szi yi = (1 / n)∑t =1 ztiT• yti = (1 / n) Z •Ti y•i (1 / n)∑t =1 ztih yti
n n
pi × 1
szy = (1 / n) Z T Y p ×1 sz i yi
~
szyi = (1 / n)∑t =1 ztT• yti = (1 / n) Z T y•i (1 / n)∑t =1 zth yti
n n
IC q ×1
~
szy = (1 / n)( I m ⊗ Z T )Y IC mq × 1 szyi
S zi zi = (1 / n)∑t =1 ztiT• zti • = (1 / n) Z •Ti Z •i (1 / n)∑t =1 ztih ztih′

n n
pi × pi Não
S zz = (1 / n) Z T Z p× p Sim S zi zi
~ ~ ~
S zz = (1 / n)∑t =1 ztT• zt • = (1 / n) Z T Z q×q (1 / n)∑t =1 zth zth′
n n
IC Não
~ mq × mq ~
S zz = I m ⊗ S zz IC Sim S zz
S xi xi = (1 / n)∑t =1 xtiT• xti • = (1 / n) X •Ti X •i (1 / n)∑t =1 xtij xtij ′
n n
ki × ki Não
S xx = (1 / n) X T X k×k Sim S x i xi
~ ~ ~
S xx = (1 / n)∑t =1 xtT• xt • = (1 / n) X T X (1 / n)∑t =1 xtj xtj ′
n n
RC k×k Não
~ ~
S xx = I m ⊗ S xx RC mk × mk Sim S xx
S xi xi = (1 / n)∑t =1 xtiT• xti • = (1 / n) X •Ti X •i (1 / n)∑t =1 xtij xtij ′
n n
CC k×k Não
S xx = (1 / n) diag( X )T X CC mk × k Não S x i xi
~ ~
S xx = em ⊗ S xx CC RC mk × k Não S xx
sxi yi = (1 / n)∑t =1 xtiT• yti = (1 / n) X •Ti y•i (1 / n)∑t =1 xtij yti
n n
ki × 1
sxy = (1 / n) X T Y k ×1 s xi y i
Bloco- Bloco/
Matrizes/ Contexto For-
diagonal elemento
vectores particular mato
? genérico
~
sxyi = (1 / n)∑t =1 xtT• yti = (1 / n) X T y•i (1 / n)∑t =1 xtj yti
n n
RC k ×1
~
sxy = (1 / n)( I m ⊗ X T )Y RC mk × 1 sxyi
sxi yi = (1 / n)∑t =1 xtiT• yti = (1 / n) X •Ti y•i (1 / n)∑t =1 xtij yti
n n
CC k ×1
sxy = (1 / n) diag( X )T Y CC mk × 1 s xi y i
---------------------------------------------------- Notação B: ----------------------------------------------------
S zx = (1 / n) Z T X = (1 / n)∑t =1 Z tT• X t •
n
p×k Sim S z i xi
S zx = (1 / n) Z T X = (1 / n)∑t =1 ( I m ⊗ ztT• ) X t • IC
n
mq × k Sim S zxi
~
S zx = (1 / n) Z T X = I m ⊗ (1 / n)∑t =1 ztT• xt •
n
IC RC mq × mk Sim S zx
S zx = (1 / n) Z T X = (1 / n)∑t =1 Z tT• X t •
n
CC p×k Não S z i xi
S zx = (1 / n) Z T X = (1 / n)∑t =1 ( I m ⊗ ztT• ) X t • CC IC
n
mq × k Não S zxi
~ ~
S zx = em ⊗ S zx CC IC RC mq × k Não S zx
szy = (1 / n) Z T Y = (1 / n)∑t =1 Z tT• ytT•
n
p ×1 sz i yi
szy = (1 / n) Z T Y = (1 / n)∑t =1 ( I m ⊗ ztT• ) ytT•
n
IC mq × 1 szyi
S zz = (1 / n) Z T Z = (1 / n)∑t =1 Z tT• Z t • p× p
n
Sim S zi zi
~ mq × mq ~
S zz = I m ⊗ S zz IC Sim S zz
S xx = (1 / n) X T X = (1 / n)∑t =1 X tT• X t •
n
k×k Sim S x i xi
~ ~
S xx = I m ⊗ S xx RC mk × mk Sim S xx
S xx = (1 / n)∑t =1 diag( X t • )T X t •
n
CC mk × k Não S x i xi
~ ~
S xx = em ⊗ S xx CC RC mk × k Não S xx
sxy = (1 / n) X T Y = (1 / n)∑t =1 X tT• ytT•
n
k ×1 s xi y i
sxy = (1 / n) X T Y = (1 / n)∑t =1 ( I m ⊗ xtT• ) ytT•
n
RC mk × 1 sxyi
sxy = (1 / n)∑t =1 diag( X t • )T ytT•
n
CC mk × 1 s xi y i
Nos quadros 5A.5 e 5A.6 apresentam-se as matrizes referentes a segundos mo-

mentos que envolvem variáveis observáveis (valores esperados de produtos de duas va-
riáveis).
Para cada matriz ou vector é apresentado o contexto particular (IC – instrumen-
tos comuns; RC – regressores comuns; CC – coeficientes comuns), o formato (no caso
de matriz, com indicação se é ou não bloco-diagonal) e o elemento ou bloco genérico.
No caso dos momentos amostrais, utilizam-se as notações A e B.
Quadro 5A.7 – Produtos dos instrumentos pelas variáveis residuais (população)

Modelos Matrizes/ For- Bloco/elemento
SER vectores mato genérico
17 gti • = zti •uti 1× pi gtih = ztihuti
gt • = zt •uti = ut • Z t • 1× p g ti •
g• n = (1 / n)∑t =1 gtT• = (1 / n) Z TU (1 / n)∑t =1 gtiT•
n n
p ×1
2 gti • = xti •uti 1 × ki gtij = xtij uti
gt • = xt •uti = ut • X t • 1× k g ti •
g• n = (1 / n)∑t =1 gtT• = (1 / n) X TU (1 / n)∑t =1 gtiT•
n n
k ×1
3 4 5 8 9 10 zt •uti 1× q zthuti
gt • = ut • ⊗ zt • = ut • ( I m ⊗ zt • ) 1× mq zt •uti
g• n = (1 / n)∑t =1 (utT• ⊗ ztT• ) = (1 / n) Z TU (1 / n)∑t =1 gtiT•
n n
mq × 1
6 xt •uti 1× k xtj uti
gt • = ut • ⊗ xt • = ut • ( I m ⊗ xt • ) 1 × mk xt •uti
g• n = (1 / n)∑t =1 (utT• ⊗ xtT• ) = (1 / n) X TU mk × 1 (1 / n)∑t =1 gtiT•
n n
Quadro 5A.8 – Produtos dos instrumentos pelos resíduos (amostra)

Modelos Matrizes/ For- Bloco/elemento
SER vectores mato genérico
17 gˆ ti • = zti •uˆti 1× pi gˆ tih = ztihuˆti
gˆ t • = zt •uˆti = uˆt • Z t • 1× p ĝti •
Ĝi n × pi ĝti •
Ĝ n× p Ĝi
2 gˆ ti • = xti •uˆti 1 × ki gˆ tij = xtij uˆti
gˆ t • = xt •uˆti = uˆt • X t • 1× k ĝti •
Ĝi n × ki ĝti •
Ĝ n×k Ĝi
3 4 5 8 9 10 zt •uˆti 1× q zthuˆti
gˆ t • = uˆt • ⊗ zt • = uˆt • ( I m ⊗ zt • ) 1× mq zt •uˆti
Ĝi n×q zt •uˆti
Ĝ n × mq Ĝi
6 xt •uˆti 1× k xtj uˆti
gˆ t • = uˆt • ⊗ xt • = uˆt • ( I m ⊗ xt • ) 1 × mk xt •uˆti
Ĝi n×k xt •uˆti
Ĝ n × mk Ĝi
Nos quadros 5A.7 e 5A.8 são apresentados as matrizes e vectores relativos aos
produtos de instrumentos por variáveis residuais ou por resíduos, respectivamente. Para
cada matriz ou vector, são referidos os modelos SER em que podem ser utilizados, o
formato e o bloco/elemento genérico.
No quadro 5A.9 apresenta-se a lista dos estimadores MGM, com os respectivos
símbolos, hipóteses básicas e modelos SER subjacentes.
O quadro 5A.10 refere, para cada modelo SER, a lista dos respectivos estima-
dores MGM, distinguindo se existe ou não homocedasticidade condicionada.
Quadro 5A.9 – Estimadores, hipóteses básicas e modelos SER

Estimador Símbolo Hipóteses básicas Modelos
MGM (em geral) ˆ ˆ
β (W ) SER: 1 2 3 4 5 1
MGM eficiente ˆ ˆ
β ( S ) SER: 1 2 3 4 5
−1
1
MGM (separado) βˆ (Wˆ D ) SER: 1 2 3 4 5 1
SMQ β̂SMQ SER: 1 2 3 4 5 2
SMQGF β̂ SMQGF SER: 1 2 4 5; (5.35) 4
SIV βˆSIV SER: 1 2 3 4 5 1
SMQ2P βˆSMQ2P SER: 1 2 3 4 5 1
FIVE βˆFIVE SER: 1 2 3 4 5 6 1
MQ3P β̂ MQ3P SER: 1 2 3 4 5 6 3
SUR β̂ SUR SER: 1 2 4 5 6; (5.83) 4
MQ (regressão multivariada) β̂ MQ SER: 1 2 4 5 6; (5.83) 6
MGM (coef comuns) βˆ ∗ (Wˆ ) SER: 1’ 2 3 4’ 5 7
MGM eficiente (coef comuns) βˆ ( Sˆ ) SER: 1’ 2 3 4’ 5
∗ −1
7
FIVE (coef comuns) β̂ FIVE
∗
SER: 1’ 2 3 4’ 5 6 7
MQ3P (coef comuns) βˆMQ3P
∗
SER: 1’ 2 3 4’ 5 6 8
SUR (coef comuns) β̂SUR
∗
SER: 1’ 2 4’ 5 6; (5.83) 9
PMQ (coef comuns) β̂ PMQ SER: 1’ 2 4’ 5 6; (5.83) 8
Quadro 5A.10 – Modelos SER, homocedasticidade condicionada e estimadores

Modelos SER.6? Estimadores
M01 Não βˆ (Wˆ ) ; βˆ ( Sˆ ) ; βˆ (Wˆ D ) ; βˆSIV ; βˆSMQ2P
−1
Sim βˆFIVE
M02 Não β̂SMQ

Sim
M03 Não
Sim β̂ MQ3P
M04 Não β̂SMQGF
Sim β̂ SUR
M05 Não
Sim
M06 Não
Sim β̂ MQ (reg multivariada)
M07 Não βˆ ∗ (Wˆ ) ; βˆ ∗ ( Sˆ −1 )
Sim β̂ FIVE
∗
M08 Não
Sim βˆMQ3P
∗
; β̂ PMQ
M09 Não
Sim β̂SUR
∗
M10 Não
Sim
Nos quadros 5A.11 e 5A.12 são referidas as matrizes relativas aos quartos mo-
mentos que envolvem duas variáveis instrumentais e duas variáveis residuais ou dois re-
síduos, respectivamente. Para cada matriz, referem-se os modelos SER respectivos, dis-
tinguindo entre heterocedasticidade e homocedasticidade condicionada, o formato e o
bloco ou elemento genérico.
Quadro 5A.11 – Quartos momentos com variáveis residuais

e variáveis instrumentais (população)
For- Bloco/elemento
Modelos SER.6? Matriz
mato genérico
17 Não Sil = E ( gtiT• gtl • ) = E (utiutl ztiT• ztl • ) pi × pi E (utiutl ztih ztlh′ )
S = E ( gtT• gt • ) = E ( Z tT•utT•ut • Z t • ) p× p S il
Sim Sil = σ il E ( ztiT• ztl • ) = σ ilQzi z l pi × pi σ il E ( ztih ztlh′ )
S = E ( Z tT•Σ Z t • ) p× p S il
2 Não Sil = E ( gtiT• gtl • ) = E (utiutl xtiT• xtl • ) ki × ki E (utiutl xtij xtlj ′ )
S = E ( gtT• gt • ) = E ( X tT•utT•ut • X t • ) k×k S il
Sim Sil = σ il E ( xtiT• xtl • ) = σ ilQxi xl ki × ki σ il E ( xtij xtlj ′ )
S = E ( X tT•Σ X t • ) k×k S il
3 4 5 8 9 10 Não Sil = E (utiutl ztT• zt • ) q×q E (utiutl zth zth′ )
S = E{(utT•ut • ) ⊗ ( ztT• zt • )} mq × mq S il
~ q×q σ il E ( zth zth′ )
Sim Sil = σ il E ( ztT• zt • ) = σ ilQzz
~ mq × mq S il
S = Σ ⊗ Qzz
6 Não Sil = E (utiutl xtT• xt • ) k×k E (utiutl xtj xtj ′ )
S = E{(u u ) ⊗ ( x x )}
T
t• t•
T
t• t• mk × mk S il
~ σ il E ( xtj xtj ′ )
Sim Sil = σ il E ( xtT• xt • ) = σ ilQxx k×k
~ S il
S = Σ ⊗ Qxx mk × mk
Nota: σ il = E (utiutl ) ; Σ = E (utT•ut • ) .
Quadro 5A.12 – Quartos momentos com resíduos

e variáveis instrumentais (amostra)
Mo- For- Bloco/elemento
SER.6? Matriz
delos mato genérico
Sîl = (1 / n)∑t =1 gˆ tiT• gˆ tl • = (1 / n)Gˆ iT Gˆ i
n
17 Não
ou Sîl = (1 / n)∑t =1 uˆtiuˆtl ztiT• ztl • (1 / n)∑t =1 uˆtiuˆtl ztih ztlh′
n n
pi × pi
Sˆ = (1 / n)∑t =1 gˆ tT• gˆ t • = (1 / n)Gˆ T Gˆ
n
ou Sˆ = (1 / n)∑t =1 Z tT•uˆtT•uˆt • Z t • p× p
n
Ŝil
Sîl = σˆ il (1 / n)∑t =1 ztiT• ztl • = σˆ il S zi z l σˆ il (1 / n)∑t =1 ztih ztlh′

n n
Sim pi × pi
Sˆ = (1 / n){Z T (Σˆ ⊗ I n ) Z }
Sˆ = (1 / n)∑t =1 Z tT•Σˆ Z t •
n
ou p× p Ŝil
= (1 / n){Z ( I n ⊗ Σˆ ) Z }
T
Sîl = (1 / n)∑t =1 gˆ tiT• gˆ tl • = (1 / n)Gˆ iT Gˆ i

n
2 Não
ou Sîl = (1 / n)∑t =1 uˆtiuˆtl xtiT• xtl • (1 / n)∑t =1 uˆtiuˆtl xtij xtlj ′
n n
ki × ki
Sˆ = (1 / n)∑t =1 gˆ tT• gˆ t • = (1 / n)Gˆ T Gˆ
n
ou Sˆ = (1 / n)∑t =1 X tT•uˆtT•uˆt • X t •
n
k×k Ŝil
Sîl = σˆ il (1 / n)∑t =1 xtiT• xtl • = σˆ il S xi xl σˆ il (1 / n)∑t =1 xtij xtlj ′

n n
Sim ki × ki
Sˆ = (1 / n){ X T (Σˆ ⊗ I n ) X }
Sˆ = (1 / n)∑t =1 X tT•Σˆ X t •
n
ou k×k Ŝil
= (1 / n){ X T ( I n ⊗ Σˆ ) X }
Sîl = (1 / n)∑t =1 uˆtiuˆtl ztT• zt •
n
345
q×q (1 / n)∑t =1 uˆtiuˆtl zth zth′
n
8 9 10 Não
= (1 / n)Gˆ iT Gˆ i
Sˆ = (1 / n)∑t =1 (uˆtT•uˆt • ) ⊗ ( ztT• zt • )
n
mq × mq Ŝil
= (1 / n)Gˆ T Gˆ
~
Sîl = σˆ il (1 / n)∑t =1 ztT• zt • = σˆ il S zz q×q σˆ il (1 / n)∑t =1 zth zth′
n n
Sim
~ mq × mq
Sˆ = Σˆ ⊗ S zz Ŝil
Sîl = (1 / n)∑t =1 uˆtiuˆtl xtT• xt • = (1 / n)Gˆ iT Gˆ i (1 / n)∑t =1 uˆtiuˆtl xtj xtj ′
n n
6 Não k×k
Sˆ = (1 / n)∑t =1 (uˆtT•uˆt • ) ⊗ ( xtT• xt • )
n
mk × mk Ŝil
= (1 / n)Gˆ T Gˆ
~
Sîl = σˆ il (1 / n)∑t =1 xtT• xt • = σˆ il S xx σˆ il (1 / n)∑t =1 xtj xtj ′
n n
Sim k×k
~
Sˆ = Σˆ ⊗ S xx mk × mk Ŝil
Nota: σˆ il = (1 / n)Σtn=1uˆtiuˆtl ; Σˆ = (1 / n)Σtn=1uˆtT•uˆt • .
No quadro 5A.13 apresentam-se as referências das fórmulas dos vários estima-

dores MGM, as respectivas matrizes de pesos, os respectivos modelos SER, referindo-se
ainda se o estimador é válido no contexto da heterocedasticidade ou da homocedastici-
dade condicionada.
O quadro 5A.14 diz respeito às distribuições limite dos estimadores considera-
dos no quadro anterior, com indicação das referências das fórmulas das matrizes das co-
variâncias assintóticas e dos respectivos estimadores.
Quadro 5A.13 – Estimadores e matrizes de pesos

Estimadores Matriz de pesos Modelos SER.6?
ˆ ˆ
β (W ) = (5.15) Ŵ 1 Não
βˆ ( Sˆ −1 ) =(5.25) Sˆ −1 = n(Gˆ T Gˆ ) −1 1 Não
βˆ (Wˆ D ) =(5.29) ŴD 1 Não
β̂SMQ =(5.31) Qualquer 2 Não
β̂ SMQGF =(5.42) (5.43) Qualquer 4 Não
βˆSIV =(5.47) Qualquer 1 Não
βˆSMQ2P =(5.52) S −1
zz 1 Não
βˆFIVE =(5.64) (5.65) (5.66) Sˆ −1 = n{Z T (Σˆ ⊗ I n ) Z }−1 1 Sim
~
β̂ MQ3P =(5.78) (5.79) Sˆ −1 = Σˆ −1 ⊗ S zz−1 3 Sim
~
β̂ SUR =(5.86) (5.43) Sˆ −1 = Σˆ −1 ⊗ S zz−1 4 Sim
~
β̂ MQ =(5.91) Sˆ −1 = Σˆ −1 ⊗ S −1
xx 6 Sim
βˆ ∗ (Wˆ ) =(5.98) (5.101) (5.102) Ŵ 7 Não
βˆ ∗ ( Sˆ −1 ) =(5.98) (5.101) (5.102) Sˆ = n(Gˆ Gˆ )
−1 T −1
7 Não
[com Sˆ −1 ]
β̂ FIVE
∗
=(5.98) (5.101) (5.102) Sˆ −1 = n{Z T (Σˆ ⊗ I n ) Z }−1 7 Sim
[com Sˆ −1 ]
~
βˆ ∗ =(5.103) (5.104) (5.105)
MQ3P
Sˆ −1 = Σˆ −1 ⊗ S zz−1 8 Sim
~
βˆSUR
∗
=(5.106) (5.107) (5.110) Sˆ −1 = Σˆ −1 ⊗ S zz−1 9 Sim
~
β̂ PMQ =(5.113) (5.114) (5.118) Sˆ −1 = Σˆ −1 ⊗ S −1
zz 8 Sim
Quadro 5A.14 – Estimadores e distribuições limite

Distribuições Cov a (⋅)
^
Estimadores Cov a (⋅)
limite
βˆ (Wˆ ) (5.18) (5.19) (5.22)
βˆ ( Sˆ −1 ) (5.18) c/ Sˆ −1 (5.26) (5.27)
βˆ (Wˆ D ) (5.18) c/ ŴD (5.19) c/ ŴD (5.22) c/ ŴD
β̂SMQ (5.32) (5.33) (5.34)
β̂ SMQGF (5.44) (5.45) (5.46)
βˆSIV (5.49) (5.50) (5.51)
βˆSMQ2P (5.54) (5.55) (5.56)
βˆFIVE (5.18) c/ Sˆ −1 (5.26) (5.67) (5.68)
β̂ MQ3P (5.18) c/ Sˆ −1 (5.80) (5.81)
β̂ SUR (5.18) c/ Sˆ −1 (5.87) (5.88) (5.89)
β̂ MQ (5.32) c/ β̂ MQ (5.92) (5.93)
βˆ ∗ (Wˆ ) (5.18) c/ βˆ ∗ (Wˆ ) (5.19) (5.22)
βˆ ∗ ( Sˆ −1 ) (5.18) c/ βˆ ∗ ( Sˆ −1 ) (5.26) (5.27)
β̂ ∗
FIVE (5.18) c/ β̂ ∗
FIVE (5.26) (5.27)
βˆMQ3P
∗
(5.18) c/ βˆ ∗ MQ3P (5.80) (5.81)
β̂SUR
∗
(5.18) c/ β̂SUR
∗
(5.108) (5.111) (5.109) (5.112)
β̂ PMQ (5.18) c/ β̂ PMQ (5.115) (5.119) (5.116) (5.117) (5.120)
ANEXO 5B
PRODUTO DE KRONECKER E
VECTORIZAÇÃO DE MATRIZES
Neste anexo apresentam-se os conceitos de produto de Kronecker de duas matri-

zes e de vectorização de uma matriz, e respectivas propriedades.
Definição 5B.1 – Produto de Kronecker de duas matrizes

Sejam A e B duas matrizes de tipo m × n e p × q , respectivamente. O produto de Krone-
cker de A por B é uma matriz de tipo mp × nq , que se representa por A ⊗ B , e é tal que
 a11B a12 B L a1n B 
 
 a21B a22 B L a2 n B 
(5B.1) A⊗ B = .
 M M M 
 
am1B am 2 B L amn B 
Assim, o produto de Kronecker de duas matrizes é uma matriz em que cada ele-
mento da primeira é multiplicado por todos os elementos da segunda, e estes produtos
são organizados de acordo com (5B.1).
O produto de Kronecker verifica as seguintes propriedades:
a) A ⊗ ( B + C ) = ( A ⊗ B) + ( A ⊗ C ) ;
b) ( A ⊗ C ) + ( B ⊗ C ) = ( A + B) ⊗ C ;
c) ( A ⊗ B) + ( A ⊗ C ) = A ⊗ ( B + C ) ;
d) λ ( A ⊗ B) = (λA) ⊗ B = A ⊗ (λB) ;
e) ( A ⊗ C )( B ⊗ D) = ( AB) ⊗ (CD) ;
f) ( A ⊗ B)T = AT ⊗ BT ;
g) ( A ⊗ B ) −1 = A−1 ⊗ B −1 , onde A e B são matrizes quadradas;
h) tr ( A ⊗ B) = tr ( A) tr ( B) , onde A e B são matrizes quadradas;
i) | A ⊗ B |=| A |m | B |m , onde A e B são matrizes quadradas de ordem m e n, respectiva-
mente;
j) Sejam A e B duas matrizes quadradas em que os pares ( λ j , x• j ) e ( µi , y•i ) represen-
tam, respectivamente, os valores próprios e os vectores próprios associados. Então,
os valores próprios de A ⊗ B são λ j µi , e os respectivos valores próprios são dados
por x• j ⊗ y•i .
Anexo 5B – Produto de Kronecker e vectorização de matrizes 2
Definição 5B.2 – Vectorização de uma matriz

Seja A uma matriz de tipo m × n , onde a• j é a coluna genérica de A ( j = 1, 2, K , n ). A
vectorização da matriz A tem como resultado um vector mn × 1 , que se representa por
Vec( A) , e é dado por
 a•1 
 
a• 2
(5B.2) Vec( A) =   .
 M 
 
a• n 
Assim, a vectorização de uma matriz A consiste em dispor em coluna todos os

elementos da matriz, começando pela primeira coluna de A e terminando na última colu-
na.
A vectorização de matrizes verifica as seguintes propriedades:
a) Vec( ABC ) = (C T ⊗ A)Vec( B) ;
b) Vec( AB ) = ( I p ⊗ A)Vec( B ) = ( BT ⊗ I m )Vec( A) , onde os tipos das matrizes A e B são
m × n e n × p , respectivamente;
c) Vec( ABC ) = ( I q ⊗ AB)Vec(C ) = (C T BT ⊗ I n )Vec( A) , onde A, B e C são matrizes de
tipo m × n , n × p e p × q , respectivamente;
d) tr ( AB) = Vec( BT )T Vec( A) = Vec( AT )T Vec( B) ;
e) Se A, B e C são matrizes de tipo m × n , n × p e p × q , respectivamente, então
tr ( ABC ) = Vec( AT ) T (C T ⊗ I n )Vec( B)
= Vec( AT ) T ( I m ⊗ B)Vec(C )
= Vec( B T ) T ( AT ⊗ I p )Vec(C )
;
= Vec( B T ) T ( I n ⊗ C )Vec( A)
= Vec(C T )T ( B T ⊗ I m )Vec( A)
= Vec(C T )T ( I p ⊗ A)Vec( B);
f) Se A e B são matrizes de tipo m × n , e C e D são matrizes de tipo n × p , então

Vec{( A + B )(C + D)} = {( I p ⊗ A) + ( I p ⊗ B )}{Vec(C ) + Vec( D)}
= {(C T ⊗ I m ) + ( DT ⊗ I m )}{Vec( A) + Vec( B )}.
ANEXO 7A
COMPLEMENTOS
7A.1 - Construção do vector dos regressores não constantes a partir do vector z•i
Recorde-se que: f ti• é o vector 1 × k1 dos regressores não constantes; z•i é o

vector q × 1 formado por todos os elementos de xti• ,. Como xti• = [ f ti• hi• ], pode es-
crever-se
z•Ti =  f1i• f 2 i• L f pi• hi•  ,

 
onde q = p k1 + k 2 . Considerando as matrizes q × k1

e ⊗ I 
J t =  •t k1
 (t = 1, 2, K , p) ,
 O 
onde e•t (vector p × 1 ) é a coluna t da matriz I p , pode “extrair-se” f ti• de z•Ti , fazendo
fti • = z•Ti J t (t = 1, 2, K , p) .
Seja a matriz pq × k1
 J1 
 
M
J =  Jt  .
 
M
J 
 p 
Então,
F•i = ( I p ⊗ z•Ti ) J .
7A.2 - Hipóteses para que o estimador EF seja BLUE
Começa-se por considerar um conjunto de hipóteses que permitem concluir que,

em particular, os regressores não constantes para a unidade seccional i são estrita-
mente exógenos. As hipóteses são as seguintes:
a) O processo {( y•i , F•i ) : i = 1, 2, K} é iid;
b) E (v•i | F•i ) = 0 ;
Anexo 7A – Complementos 2
c) E (v•i v•Ti | F•i ) = σ v2 I p (esfericidade condicionada dos choques);

d) A matriz dos regressores de (7.63), W = [ D F ] de tipo mp × (m + k1 ) , tem caracte-
rística igual a m + k1 .
Facilmente se verifica que os regressores não constantes para a unidade sec-

cional i são estritamente exógenos: E (v•i | F•1 , F• 2 , K) = 0 . Com efeito, basta invocar a
hipótese b), e notar que a hipótese a) implica que (v•i , F•i ) é independente de F•l , para
l ≠ i . Assim, E (v•i | F•1 , F• 2 , K) = E (v•i | F•i ) = 0 .
Quando se considera a relação Y = Dα + Fφ + V , conclui-se também, sem difi-
culdade, que E (V | W ) = 0 , ou que E (v•i | W ) = 0 (i = 1, 2, K , m) . Com efeito, notando
que D é uma matriz de constantes, e pelas razões já referidas, tem-se
E (v•i | W ) = E (v•i | F ) = E (v•i | F•1 , F• 2 , K , F• m ) = E (v•i | F•i ) = 0 .
De forma semelhante, as hipóteses a) e c) permitem provar que

E (v•i v•Ti | F•1 , F• 2 , K) = σ v2 I p e E (v•i v•Ti | W ) = σ v2 I p .
Vai demonstrar-se, a seguir, que E (v•i v•Tl | F•1 , F• 2 , K) = O . Como, devido à hipó-
tese a), (v•i , F•i , v• l , F•l ) é independente de F• h , para h ≠ i, l , vem
E (v•i v•Tl | F•1 , F• 2 , K) = E (v•i v•Tl | F•i , F•l ) .
Então,
E (v•i v•Tl | F•i , F•l ) = E{E (v•i v•Tl | F•i , F• l , v•i ) | F•i , F•l }
= E{v•i E (v•Tl | F•i , F• l , v•i ) | F•i , F•l }
= E{v•i E (v•Tl | F• l ) | F•i , F•l },
pois (v•i , F•i ) é independente de (v•l , F• l ) . A hipótese b) permite concluir a demonstra-

ção.
Obtém-se, também, E (v•i v•Tl | W ) = O , e, portanto, E (V V T | W ) = σ v2 I mp .
A hipótese d) permite determinar os estimadores MQ de α e de φ , que coinci-
dem, como se sabe, com os respectivos estimadores EF. As consequências que se dedu-
ziram das quatro hipóteses [a) a d)], com particular relevo para a exogeneidade estrita,
levam à conclusão de que estes estimadores são BLUE.
7A.3 - Demonstração das propriedades assintóticas do estimador EF
As propriedades do estimador EF com homocedasticidade condicionada po-

dem demonstrar-se directamente, a partir do erro de amostragem (7.58),
−1
1 m  1 m 
φÊF − φ =  ∑i =1 ( F•ci )T F•ci   ∑ ( F•ci )T v•ci  .
 m i =1 
m
   
Para provar (7.65), tem de verificar-se que a matriz E{( F•ci )T F•ci } tem inversa, e
que E{( F•ci )T v•ci } = 0 . Nestas circunstâncias, tem-se
plim(φÊF ) = φ + E{( F•ci )T F•ci }−1 E{( F•ci )T v•ci } = φ .
Em primeiro lugar, vai demonstrar-se que MENO.4 implica que E{( F•ci )T F•ci }
tem inversa. Começa-se por notar que
E{( F•ci )T F•ci } = E{F•Ti Pe F•i } = ∑t =1 ∑ s =1 cts E ( ftiT• f si • ) ,

p p
em que cts é o elemento genérico de Pe , e

E ( f tiT• f si • ) = E ( f tiT• z•Ti ) E ( z•i z•Ti ) −1 E ( z•i f si • ) ,
uma vez que todos os elementos dos fti • estão incluídos em z•i (ver exemplo 7.8).
Como o produto de uma coluna por uma linha é igual ao produto de Kronecker
da linha pela coluna, tem-se z•i fti • = fti • ⊗ z•i . Então,
E{( F•ci )T F•ci } = ∑t =1 ∑s =1 cts E ( f tiT• z•Ti ) Qzz−1 E ( z•i f si• )
p p
= ∑t =1 ∑s =1 cts E ( f ti• ⊗ z•i )T Qzz−1 E ( f si• ⊗ z•i ),

p p
ou
E{( F•ci )T F•ci } = E ( F•i ⊗ z•i )T ( Pe ⊗ Qzz−1 ) E ( F•i ⊗ z•i )
= E ( Pe F•i ⊗ z•i )T ( I p ⊗ Qzz−1 ) E ( Pe F•i ⊗ z•i )
= E ( F•ci ⊗ z•i )T ( I p ⊗ Qzz−1 ) E ( F•ci ⊗ z•i )
= (Qzfc )T ( I p ⊗ Qzz−1 )Qzfc ,
onde Qzfc = E ( F•ci ⊗ z•i ) . Logo, E{( F•ci )T F•ci } é não singular.
A seguir vai provar-se que E{( F•ci )T v•ci } = 0 . Com efeito,
E{( F•ci )T v•ci } = E ( F•Ti Pe v•i ) = E  ∑t =1 ∑ s =1 cts f tiT•vsi  = ∑t =1 ∑ s =1 cts E ( ftiT•vsi ) = 0 ,

p p p p
 
pois, devido a (7.54), E ( f tiT•vsi ) = 0 [deve ficar claro que as ortogonalidades cruzadas,
E ( f tiT•vsi ) = 0 para t ≠ s , são indispensáveis para provar a consistência de φÊF ].
Facilmente se conclui que as hipóteses do modelo implicam (7.66), em que
Cov a (φÊF ) = E{( F•ci )T F•ci }−1 E {( F•ci )T v•ci (v•ci )T F•ci } E{( F•ci )T F•ci }−1 .
Para provar (7.67), começa por notar-se que
E {( F•ci )T v•ci (v•ci )T F•ci } = E  E{( F•ci )T v•ci (v•ci )T F•ci | z•i }
 
= E ( F•ci )T E{v•ci (v•ci )T | z•i }F•ci  ,

 
porque z•i abrange todos os elementos dos fti • . Falta demonstrar que E{v•ci (v•ci )T | z•i }
não depende de z•i . Como v•ci = Pev•i = Pe (e pα i + v•i ) = Peu•i = u•ci , tem-se
E{v•ci (v•ci )T | z•i } = E{u•ci (u•ci )T | z•i } = Pe E (u•iu•Ti | z•i ) Pe
= Pe E (u•iu•Ti ) Pe = E{u•ci (u•ci )T } = E{v•ci (v•ci )T }.
A matriz E{v•ci (v•ci )T } é singular. Com efeito, tem-se E{v•ci (v•ci )T } = Pe Σ Pe , onde
v•ci = Pe u•i e Σ = E (u•i u•Ti ) . Então, como Pe é singular, conclui-se que E{v•ci (v•ci )T } tam-
bém é singular.
A seguir, vai demonstrar-se que
E ( F•ci )T E{v•ci (v•ci )T }F•ci 

 
é invertível. Com efeito, notando que v•ci = Pe u•i , vem
E ( F•ci )T E{v•ci (v•ci )T }F•ci  = E {( F•ci )T Pe E (u•i u•Ti ) Pe F•ci } = E {( F•ci )T E (u•i u•Ti ) F•ci }
 
= E {( F•ci )T Σ F•ci } = E ( F•ci ⊗ z•i )T {Σ ⊗ E ( z•i z•Ti ) −1} E ( F•ci ⊗ z•i )
= (Qzfc )T (Σ ⊗ Qzz−1 ) Qzfc .
Como r (Qzfc ) = k1 e existe Σ −1 , o resultado está provado.

Vai provar-se que Vˆ , dado por (7.69), é estimador consistente de E{v•ci (v•ci )T } .
Para isso, basta invocar a propriedade 5.1 (ver capítulo 5), e verificar as hipóteses desta
propriedade. Obviamente, no contexto do sistema ytic = f tic•φ + vtic ( t = 1, 2, K , p ), são
verdadeiras as hipóteses MCDP.1 e MCDP.3 porque, respectivamente, o modelo é li-
near em relação a φ , e o processo {( ytic , f tic• ) : i = 1, 2, K} é iid. Falta, então, provar a ter-
ceira condição, ou seja, que existe E{( f tic• )T f sic• } . Como f tiT• é uma transformação linear
de z•i , ftiT• = J tT z•i , tem-se
E ( f tiT• f si • ) = J tT E ( z•i z•Ti ) J s .
Como F•ci = Pe F•i , também existe E{( f tic• )T f sic• } . Pode, então, concluir-se que
plim(Vˆ ) = E{v•ci (v•ci )T } .
As propriedades do estimador EF podem provar-se indirectamente, demons-

trando que este estimador é um estimador MGM.
Para isso, começa-se por considerar uma matriz A, de tipo p × ( p − 1) , a verificar
as seguintes condições: a) r ( A) = p − 1 (as colunas de A são linearmente independen-
tes); b) AT e p = 0 .
Um exemplo importante é a matriz das primeiras diferenças,
− 1 0 L 0 0
 
 1 −1 L 0 0
0 1 L 0 0
 
A= M M M M .
 
0 0 L −1 0 
0 0 L 1 − 1
 
 0 0 L 0 1

Por exemplo, tem-se
 y 
 1i 
− 1 1 0 L 0 0 0  y2i   y2i − y1i 

   
 0 −1 1 L 0 0 0  y3i   y3i − y2i 
A y•i =  M
T
M M M M M   M  =  M .

  
0 0 0 L − 1 1 0  y p − 2,i   y p −1,i − y p − 2,i 
   
 0 0 0 L 0 − 1 1  y p −1,i   y pi − y p −1,i 
   
 y pi 
Outro caso importante de matriz A é a matriz Pe eliminando, por exemplo, a úl-

tima coluna,
1 − (1 / p) − (1 / p ) L − (1 / p ) 
 
 − (1 / p) 1 − (1 / p) L − (1 / p ) 
A= M M M .
 
 − (1 / p) − (1 / p ) L 1 − (1 / p)
 
 − (1 / p) − (1 / p ) L − (1 / p ) 

Por exemplo,
 y 
1 − (1 / p) − (1 / p) L − (1 / p) − (1 / p)  1i   y1i − yi 
   y2 i   
 − (1 / p) 1 − (1 / p) L − (1 / p) − (1 / p)    y2i − yi 
A y•i = 
T
M = .
M M M M   M
   y p −1,i   
 − (1 / p) − (1 / p) L 1 − (1 / p) − (1 / p)   y − yi
  y pi   p −1,i 
 
Considere-se o modelo (7.51). Multiplicando ambos os membros por AT , vem
AT y•i = AT F•iφ + AT e p hi •η + AT e pα i + AT v•i ⇔ y•ai = F•aiφ + v•ai ,
onde: y•ai = AT y•i é um vector ( p − 1) × 1 ; F•ai = AT F•i é uma matriz de tipo ( p − 1) × k1 ;

v•ai = AT v•i é um vector ( p − 1) × 1 . Em particular, o sistema de p − 1 equações de re-
gressão, y•ai = F•aiφ + v•ai , é o modelo com primeiras diferenças.
Suponha-se que o sistema (7.51) é um modelo com componentes do erro (MCE)
[verifica MENO.1′ , MENO.2, MENO.3, MCDP.4, MENO.4, MCDP.5 e MCDP.6]. Vai
provar-se que o sistema y•ai = F•aiφ + v•ai é um modelo clássico de dados de painel, ou se-
ja, verifica as hipóteses MCDP.1 a MCDP.6:
1) MCDP.1 (linearidade).
É imediato, porque y•ai = F•aiφ + v•ai .
2) MCDP.2 (amostragem casual): {( y•ai , F•ai ) : i = 1, 2, K} é iid.
Basta notar que {( y•i , F•i , hiT• ) : i = 1, 2, K} é iid.
3) MCDP.3 (ortogonalidade): E ( g•ai ) = E (v•ai ⊗ z•i ) = 0 , em que g•ai = v•ai ⊗ z•i é um vec-
tor ( p − 1)q × 1 .
Com efeito,
E (v•ai ⊗ z•i ) = E ( AT v•i ⊗ z•i ) = E{( AT ⊗ I q )(v•i ⊗ z•i )} = ( AT ⊗ I q ) E (v•i ⊗ z•i ) = 0 ,
uma vez que E (v•i ⊗ z•i ) = 0 .

4) MCDP.4: Qzfa = E ( F•ai ⊗ z•i ) , de tipo ( p − 1)q × k1 , existe e verifica r (Qzfa ) = k1 .
Com efeito, como r (Qzfc ) = k1 , basta provar que r (Qzfa ) = r (Qzfc ) . Começa-se por no-
tar que existe uma matriz L, p × ( p − 1) , tal que r ( L) = p − 1 e Pe = L AT ; esta matriz
é A( AT A) −1 pois pode demonstrar-se que A( AT A) −1 AT = Pe .
Como
Qzfc = E ( F•ci ⊗ z•i ) = E ( Pe F•i ⊗ z•i ) = E ( L AT F•i ⊗ z•i ) = E ( L F•ai ⊗ z•i )
= E{( L⊗ I q )( F•ai ⊗ z•i )} = ( L⊗ I q ) E ( F•ai ⊗ z•i )
= ( L⊗ I q )Qzfa ,
vem r (Qzfc ) ≤ r (Qzfa ) . Seja

( LT ⊗ I q )Qzfc = ( LT ⊗ I q )( L⊗ I q )Qzfa .
Como ( LT ⊗ I q )( L⊗ I q ) é não singular, tem-se

r (Qzfa ) = r{( LT ⊗ I q )( L⊗ I q )Qzfa } = r{( LT ⊗ I q )Qzfc } ≤ r (Qzfc ) .
Então, r (Qzfa ) = r (Qzfc ) = k1 .

5) MCDP.5 (existência e não singularidade da matriz S): a matriz ( p − 1) × ( p − 1) ,
S a = E{g•ai ( g•ai )T } = E {v•ai (v•ai )T } ⊗ ( z•i z•Ti )

 

Com efeito, sabendo que u•i = e pα i + v•i , obtém-se
g•ai ( g•ai )T = {v•ai (v•ai )T } ⊗ ( z•i z•Ti ) = { AT (e pα i + v•i )(e pα i + v•i )T A} ⊗ ( z•i z•Ti )
= ( AT u•iu•Ti A) ⊗ ( z•i z•Ti ) = ( AT ⊗ I q )(u•iu•Ti ⊗ z•i z•Ti )( A ⊗ I q ).
Logo,
S a = ( AT ⊗ I q ) E (u•iu•Ti ⊗ z•i z•Ti )( A ⊗ I q ) = ( AT ⊗ I q ) S ( A ⊗ I q ) .
Como r ( A) = p − 1 , conclui-se que r ( A ⊗ I q ) = r ( AT ⊗ I q ) = ( p − 1)q , e, portanto, a

matriz Sa tem inversa.
6) MCDP.6 (homocedasticidade condicionada): E{v•ai (v•ai )T | z•i } = E{v•ai (v•ai )T } = Σ a é
não singular.
Como v•ai (v•ai )T = AT u•iu•Ti A , e atendendo a que E (u•iu•Ti | z•i ) = Σ ,vem
E{v•ai (v•ai )T | z•i } = E ( AT u•iu•Ti A | z•i ) = AT E (u•iu•Ti | z•i ) A = AT Σ A = Σ a .
Note-se, sob a hipótese da homocedasticidade condicionada, a matriz Sa é mais sim-

ples. Com efeito, tem-se
 
S a = E  E {v•ai (v•ai )T } ⊗ ( z•i z•Ti ) | z•i  
   

 
= E  E {v•ai (v•ai )T } | z•i  ⊗ ( z•i z•Ti )
   
= E{Σ a ⊗ ( z•i z•Ti )} = Σ a ⊗ E ( z•i z•Ti ) = Σ a ⊗ Qzz .
Sabe-se que o estimador EA, (7.26), é estimador MGM eficiente, pois corres-
ponde ao estimador SUR com coeficientes constantes (ver capítulo 5). Vai, agora, de-
monstrar-se que o estimador EF de φ , (7.57), é um estimador MGM (ficando tam-
bém provado que é um estimador consistente e assintoticamente normal). Para isso, vai
considerar-se o sistema de p − 1 equações, y•ai = F•aiφ + v•ai , e um estimador MGM de φ
[com o formato (5.15)], considerando
1 m
m ∑i =1 •i
S zfa = ( F a ⊗ z•i ) [média amostral correspondente a Qzfa = E ( F•ai ⊗ z•i ) ],
1 m a
szya =
m ∑ i =1
( y•i ⊗ z•i ) [média amostral correspondente a qzya = E ( y•ai ⊗ z•i ) ],
Wˆ = ( AT A) −1 ⊗ S zz−1 [matriz quadrada de ordem ( p − 1)q ].

Vai, então, provar-se que
φˆ(Wˆ ) = {( S zfa )T Wˆ S zfa }−1 ( S zfa )T Wˆ szya = φÊF .
Como F•ai = AT F•i , vem

1 m T 1 m
m ∑i =1
S zfa = ( A F•i ⊗ z•i ) = ( AT ⊗ I q ) ∑i =1 ( F•i ⊗ z•i ) .
m
De modo semelhante, tem-se
1 m T 1 m
szya =
m ∑ i =1
( A y•i ⊗ z•i ) = ( AT ⊗ I q ) ∑i =1 ( y•i ⊗ z•i ) .
m
Então,
1 m  1 m 
( S zfa )T Wˆ S zfa =  ∑i =1 ( F•i ⊗ z•i )T ( A ⊗ I q ){( AT A) −1⊗ S zz−1}( AT ⊗ I q ) ∑i =1 ( F•i ⊗ z•i ) 
 m   m 
1 m  1 m 
=  ∑i =1 ( F•i ⊗ z•i )T {Pe ⊗ S zz−1} ∑i =1 ( F•i ⊗ z•i ) ,
 m   m 
e
1 m  1 m 
( S zfa )T Wˆ szya =  ∑i =1 ( F•i ⊗ z•i )T  {Pe ⊗ S zz−1}  ∑i =1 ( y•i ⊗ z•i )  .
m  m 
Como
 f1i • ⊗ z•i   z•i f1i • 

 f ⊗ z  z f 
F•i ⊗ z•i = 
•i 
=
2i • •i 2i • 
, y ⊗ z•i = z•i y•i ,
 M   M  •i
   
 f pi • ⊗ z•i   z•i f pi • 
e notando que cts é o elemento genérico de Pe , obtém-se
 
 c S −1 L c S −1   1 m z f 
1 m 1 m   11 zz 1 p zz ∑
  m i =1 •i 1i • 
( S zfa )T Wˆ S zfa =  ∑i =1 f1Ti• z•Ti L ∑i =1 f piT • z•Ti   M M  M 
m m  
  c S −1 L c S −1  1
  m ∑i =1 •i pi • 
m
z f 
 p1 zz pp zz 
 
1 m  1 m 
= ∑t =1 ∑ s =1 cts  ∑i =1 ftiT• z•Ti  S zz−1  ∑i =1 z•i f si • 
p p
m  m 
   
e, de forma semelhante,
 
 c S −1 L c S −1   1 m z y 
1 m 1 m   11 zz 1 p zz ∑
  m i =1 •i 1i 
( S zfa )T Wˆ szya =  ∑i =1 f1Ti• z•Ti L ∑i =1 f piT • z•Ti   M M  M 
m m  
  c S −1 L c S −1  1
  m ∑i =1 •i pi 
m
z y 
 p1 zz pp zz 
 
1 m  1 m 
= ∑t =1 ∑ s =1 cts  ∑i =1 ftiT• z•Ti  S zz−1  ∑i =1 z•i ysi  .
p p
m  m 
   
Como z•i inclui todos os elementos de F•i , z•i “desaparece”. Assim,
1 m  1 m
( S zfa )T Wˆ S zfa = ∑t =1 ∑ s =1 cts  ∑i =1 ftiT• f si •  = ∑i =1  ∑t =1 ∑ s =1 cts ftiT• f si •  ,
p p p p
m  m  
 
1 m  1 m
( S zfa )T Wˆ szya = ∑t =1 ∑ s =1 cts  ∑i =1 ftiT• ysi  = ∑i =1  ∑t =1 ∑ s =1 cts ftiT• ysi  .
p p p p
m  m  
 
Usando as fórmulas (ver capítulo 5)
∑ ∑ ∑ ∑
p p p p
t =1
c f fT
s =1 ts ti • si •
= F•Ti Pe F•i e t =1
c f y = F•Ti Pe y•i ,
T
s =1 ts ti • si
obtém-se
1 m 1 m
( S zfa )T Wˆ S zfa = ∑i =1 F•Ti Pe F•i e ( S zfa )T Wˆ szfa = ∑i =1 F•Ti Pe y•i ,
m m
e, portanto, φˆ(Wˆ ) = φÊF .
Facilmente se conclui que o estimador φÊF não é eficiente. De facto, como
Sa = E {v•ai (v•ai )T } ⊗ ( z•i z•Ti ) = Σ a ⊗ Qzz ,

 
é imediato verificar que
plim(Wˆ ) = plim {( AT A) −1 ⊗ S zz−1} = ( AT A) −1 ⊗ Qzz−1 ≠ S a−1 = Σ −a1 ⊗ Qzz−1 .
Seja Σ̂ a um estimador consistente de Σ a . Como Sâ−1 = Σˆ −a1 ⊗ S zz−1 , o estimador

MGM eficiente de φ – quando se considera o sistema de p − 1 equações y•ai = F•aiφ + v•ai
– é φˆ( Sˆ a−1 ) , que não é mais do que o estimador SUR com coeficientes comuns [na lin-
guagem do capítulo 5], ou o estimador EA [na linguagem do capítulo 7]. Assim, tem-se
−1
φˆ( Sâ−1 ) = φÊA =  ∑i =1 ( F•ai )T Σˆ a−1 F•ai  ∑
m m
a
( F•ai )T Σˆ −a1 y•ai [ver (7.26)],
  i =1
Cov a (φÊA
a
) = E{( F•ai )T Σ −a1 F•ai }−1 [ver (7.27)],
−1
^ 1 m 
Cov a (φˆ ) =  ∑i =1 ( F•ai )T Σˆ a−1 F•ai 
a
EA [ver (7.28)].
m 
Trata-se, evidentemente, de um estimador consistente e assintoticamente normal.
Vai provar-se que E{( F•ai )T Σ a−1 F•ai } é invertível. Com efeito, basta notar que
E {( F•ai )T Σ −a1 F•ai } = E ( F•ai ⊗ z•i )T {Σ −a1 ⊗ E ( z•i z•Ti ) −1} E ( F•ai ⊗ z•i )
= (Qzfa )T (Σ −a1 ⊗ Qzz−1 ) Qzfa ,
e que r (Qzfa ) = k1 .
Escrutinando a propriedade 5.1, pode provar-se, sem dificuldade, que
1 m
Σˆ a = ∑t =1 ( y•ai − F•ai φÊF )( y•ai − F•ai φÊF )T
m
é estimador consistente de Σ . Como φˆ é consistente para φ , e se verificam as hipóte-
a EF
ses MCDP.1 e MCDP.2, basta mostrar que E{( f tia• )T f sia• } existe. Para isso, basta notar
que Qzz = E ( z•i z•Ti ) existe e tem inversa, e que em z•i estão todos os elementos de F•i .
A estatística de Sargan associada com o estimador φÊF a
é dada por
d
QS = J (φÊA
a
, Sâ−1 ) = m( s zya − S zfa φÊA
a T ˆ −1
) S a ( s zya − S zfa φÊA
a
) → χ 2 ( pq − k1 ) .
Considere-se, de novo, a matriz A, p × ( p − 1) , tal que r ( A) = p − 1 e AT e p = 0 .

Seja B = AC , onde C é matriz quadrada de ordem p − 1 , não singular. Obviamente, a
matriz B ainda é de tipo p × ( p − 1) , e verifica r ( B) = p − 1 e BT e p = 0 .
Como A( AT A) −1 AT = Pe , facilmente se mostra que B ( BT B) −1 BT = Pe . Então,
pode concluir-se que o estimador EF, φÊF , é invariante à escolha de A.
Seja y•bi = BT y•i , F•bi = BT F•i , v•bi = BT v•i e o sistema y•bi = F•biφ + v•bi . Como
y•bi = C T AT y•i = C T y•ai , F•bi = C T AT F•i = C T F•ai , v•bi = C T AT v•i = C T v•ai ,
tem-se Σˆ b = C T Σˆ aC . Fazendo Sˆb = Σˆ b ⊗ Qzz , obtém-se

−1
φˆ( Sˆb−1 ) = φÊA =  ∑i =1 ( F•bi )T Σˆ b−1F•bi  ∑
m m
b
( F•bi )T Σˆ b−1 y•bi
  i =1
−1
=  ∑i =1 ( F•ai )T C (C T Σˆ −a1C ) −1 C T F•ai  ∑ ( F•ai )T C (C T Σˆ −a1C ) −1 C T y•ai = φÊA
m m a
,
  i =1
o que prova a invariância do estimador φÊA

a
. Facilmente se verifica que
^
Cov a (φÊA
a
) e Cov a (φÊA
a
)
também são invariantes à escolha da matriz A.

As propriedades do estimador EF com heterocedasticidade condicionada
ainda se podem provar de duas maneiras: verificar que o estimador EF é um estimador
MGM, e aplicar os respectivos resultados assintóticos; analisar a expressão do respecti-
vo erro de amostragem.
Em particular deve ficar garantido que
1 m 
plim  ∑i =1 ( F•ci )T vˆ•ci (vˆ•ci )T F•ci  = E{( F•ci )T v•ci (v•ci )T F•ci } .
m 
A demonstração desta convergência é feita com a mesma técnica usada para
demonstrar a propriedade 3.4 (ver anexo 3B, secção 3B.2) e a propriedade 4.4.
Vai, também, provar-se que a matriz E{( F•ci )T v•ci (v•ci )T F•ci } é invertível. Notando
que F•i = ( I p ⊗ z•Ti ) J , seja
( F•ci )T v•ci = F•Ti Pe v•i = J T ( I p ⊗ z•i ) Pe v•i = J T ( I p ⊗ z•i ) Pe u•i = J T ( I p ⊗ z•i )( Pe u•i ⊗ 1)
= J T ( Pe u•i ⊗ z•i ) = J T ( Pe ⊗ I q )(u•i ⊗ z•i ) = J T ( Pe ⊗ I q ) g•i .
Então,
E{( F•ci )T v•ci (v•ci )T F•ci } = E{J T ( Pe ⊗ I q ) g•i g•Ti ( Pe ⊗ I q ) J } = J T ( Pe ⊗ I q ) S ( Pe ⊗ I q ) J ,
recordando que S = E ( g •i g •Ti ) [hipótese MCDP.5].

Como S tem inversa, falta provar que a característica de ( Pe ⊗ I q ) J é igual a k1 .
F•i ⊗ z•i = {( I p ⊗ z•Ti ) J } ⊗ z•i = {( I p ⊗ z•Ti ) ⊗ z•i }( J ⊗ 1)
= ( I p ⊗ z•Ti ⊗ z•i ) J = ( I p ⊗ z•i z•Ti ) J ,
e
F•ci ⊗ z•i = ( Pe ⊗ I p )( F•i ⊗ z•i ) = ( Pe ⊗ I p )( I p ⊗ z•i z•Ti ) J
= ( Pe ⊗ z•i z•Ti ) J = ( I p ⊗ z•i z•Ti )( Pe ⊗ I p ) J .
Então,
Qzfc = ( I p ⊗ Qzz )( Pe ⊗ I p ) J .
Como, devido à hipótese MENO.4, Qzfc = E ( F•ci ⊗ z•i ) tem característica k1 , e

como que Qzz = E ( z•i z•Ti ) é não singular, conclui-se que r{( Pe ⊗ I q ) J } = k1 .
7A.4 - Modelos dinâmicos
Uma situação típica em que o estimador EF não é consistente verifica-se quando

o modelo é dinâmico. Com efeito, seja o modelo
yti = α i + φ yt −1,i + vti (i = 1, 2, K; t = 1, 2, K , p) .
Admita-se que E (α i vti ) = 0 , E ( y0i vti ) = 0 , E (vti vsi ) = 0 ( t ≠ s ), E (vti2 ) = σ v2 . Es-

te modelo pode ser apresentado na forma (7.51), fazendo
 y1i   y0 i   v1i 
     
 y2i   y1i   v2 i 
y•i =   , F•i = 
M M 
, v•i =  M  e hi • = 0 (não existe).
     
 y pi   y p−1,i  v pi 
     
Para obter E ( yti vsi ) , começa-se por obter yti por substituição recursiva. Assim,
1−φt
yti = α i + φ t y0i + vti + φ vt −1,i + L + φ t v1i .
1−φ
Multiplicando ambos os membros por vsi , e calculando os respectivos valores
esperados, tem-se
E ( yti vsi ) = E (vti vsi ) + φ E (vt −1,i vsi ) + L + φ t E (v1i vsi ) ,
porque E (α i vti ) = 0 , E ( y0i vti ) = 0 . Então,

φ t − sσ 2 (t ≥ s )
E ( yti vsi ) =  v
 0 (t < s ).
Vai, agora, determinar-se E ( F•Ti Pe v•i ) . Começa-se por verificar que

E ( F•Ti Pe v•i ) = E{tr ( F•Ti Pe v•i )} = E{tr (v•i F•Ti Pe )} = tr{E (v•i F•Ti ) Pe }
  1  1
= tr  E (v•i F•Ti )  I p − e p eTp  = tr{E (v•i F•Ti )} − tr{E (v•i F•Ti ) e p eTp }
  p  p
1
= tr{E (v•i F•Ti )} − eTp E (v•i F•Ti ) e p .
p
Como
 v1i y0i v1i y1i L v1i y p −1,i 
v y v2i y1i L v2i y p −1,i 
v•i F•i = 
T 2i 0i
,
 M M M 
 
v pi y0i v pi y1i L v pi y p−1,i 
vem
0 1 φ φ 2 L φ p −1 φ p −2 
 
0 0 1 φ L φ p − 2 φ p −3 
M M M M M M 
E (v•i F•Ti ) =  ,
0 0 0 0 L 1 φ 
0 0 0 0 L 0 1 
 
0 0 0 0 L 0 0 
e tr{E (v•i F•Ti )} = 0 .

Notando que eTp E (v•i F•Ti ) e p é a soma dos elementos de E (v•i F•Ti ) , tem-se
1 T σ2  1 − φ p−1 1 − φ p−2 1−φ 
E ( F•Ti Pe v•i ) = − e p E (v•i F•Ti ) e p = − v  + +L+ 
p p  1−φ 1−φ 1 − φ 
σ v2  ( p − 1) − {(1 − φ p ) /(1 − φ ) − 1} 
=−  
p  1−φ 
σ v2  ( p − 1)(1 − φ ) − (1 − φ p ) + (1 − φ )} 
=−  
p  1−φ 
σ v2  p − 1 − pφ + φ p 
=−   .
p  1−φ 
Se E ( F•Ti Pe F•i ) é não singular, e se p − 1 − pφ + φ p ≠ 0 , então o estimador EF de
φ é inconsistente. Neste caso, é violada a hipótese MENO.2′ , já que E ( yt −1,i vsi ) ≠ 0 ,
para s ≤ t − 1 .
7A.5 - Esfericidade dos choques
Sabe-se que E (u•iu•Ti ) = Σ . No entanto, quando se decompõe o erro nas duas

componentes já conhecidas – ver (7.35) –, é habitual supor que os choques são esfé-
ricos (não há autocorrelação), isto é,
E (v•i v•Ti ) = σ v2 I p ,
onde σ v2 = E (vti2 ) . Daqui decorre que E{v•ci (v•ci )T } = σ v2 Pe .

Esta ausência de autocorrelação não deve ser confundida com a condição de que
v•i não está correlacionado com v•l , para i ≠ l . Esta condição é consequência da hipó-
tese MCDP.2 (amostragem casual).
Considerando a esfericidade dos choques em (7.67), e notando que Pe F•ci = F•ci ,
obtém-se
Cov a (φÊF ) = σ v2 E{( F•ci )T F•ci }−1 .
Se σˆ v2 é um estimador de σ v2 , vem
−1
^ 1 m 
Cov a (φÊF ) = σˆ  ∑i =1 ( F•ci )T F•ci  = mσˆ v2 ( FcT Fc ) −1 ,
2
m v 
 
que é igual a m vezes o estimador da matriz das covariâncias assintóticas quando se ap-
lica o estimador PMQ à amostra ( yc , Fc ) .
A respectiva soma dos quadrados dos resíduos é dada por
SQR = (Yc − Fc φÊF )T (Yc − Fc φÊF ) = ∑i =1 (vˆ•ci )T vˆ•ci .

m
(7A.1)
O estimador habitual de σ v2 seria

SQR
σˆ v2 = .
mp − k1
Pode provar-se que este estimador não é consistente, mas sim,

SQR
σˆ v2 = .
mp − m − k1
Para demonstrar que este estimador é consistente, começa-se por provar a con-
sistência de SQR/ (mp − m) . Com efeito, seja
SQR = ∑i =1 (vˆ•ci )T vˆ•ci = ∑i =1 vˆ•Ti Pe vˆ•i = ∑i =1 vˆ•Ti A( AT A) −1 AT vˆ•i = ∑i =1 (vˆ•ai )T ( AT A) −1 vˆ•ai

m m m m
= ∑i =1 tr{(vˆ•ai )T ( AT A) −1 vˆ•ai } = ∑i =1 tr{( AT A) −1 vˆ•ai (vˆ•ai )T }

m m
 1 m 
= m tr ( AT A) −1 ∑i =1 vˆ•ai (vˆ•ai )T  .
 m 
Como
1 m 
plim  ∑i =1 vˆ•ai (vˆ•ai )T  = E{v•ai (v•ai )T } = E ( AT v•i v•Ti A) = AT E (v•i v•Ti ) A = σ v2 AT A ,
m 
obtém-se
 SQR 
plim   = m tr [( AT A) −1σ v2 AT A] = ( p − 1)σ v2 ,
 m 
ou
 SQR 
plim   = σ v2 .
 m( p − 1) 
Como
SQR SQR m( p − 1)
= ,
m( p − 1) − k1 m( p − 1) m( p − 1) − k1
resulta imediatamente que σˆ v2 = SQR/( mp − m − k1 ) é estimador consistente de σ v2 .

A razão para subtrair m ao denominador tem a ver com o facto de as p equações
do modelo transformado não serem linearmente independentes, porque a soma de am-
bos os membros de y•ci = F•ciφ + v•ci é nula (basta notar que eTp Pe = 0 ). Assim, a verdadei-
ra dimensão da amostra é mp − m , e não mp ; usar mp em vez de mp − m é um erro
muito comum que pode sub-estimar os erros padrão e sobre-estimar os rácios-t. Por
exemplo, se p = 3 , m = 2000 e k1 = 4 tem-se mp − k1 = 5996 e mp − m − k1 = 3996 ; os
rácios-t são sobre-estimados em cerca de 22.5%, uma vez que
5996
− 1 ≈ 0.225 .
3996
Como
Σ a = E{v•ai (v•ai )T } = AT E (v•i v•Ti ) A = σ v2 AT A ,
Σˆ a = σˆ v2 AT A é estimador consistente de Σ a , desde que σˆ v2 seja estimador consistente

de σ v2 . Pode, então, concluir-se que o estimador MGM eficiente, φÊA a
, com esta escolha
de Σ̂ a , é numericamente igual ao estimador de efeitos fixos, φÊF . Com efeito, tem-se
Sâ−1 = (σˆ v2 AT A) −1 ⊗ S zz−1 ,
e, portanto,
φÊA
a
= {( S zfa )T Sâ−1 S zfa }−1 ( S zfa )T Sâ−1 s zya
−1
= ( S zfa )T {(σˆ v2 AT A) −1 ⊗ S zz−1}S zfa  ( S zfa )T {(σˆ v2 AT A) −1 ⊗ S zz−1}s zya
 
−1
= ( S zfa )T {( AT A) −1 ⊗ S zz−1}S zfa  ( S zfa )T {( AT A) −1 ⊗ S zz−1}s zya
 
= φÊF .
7A.6 - Demonstração do teorema 7.1 (teste de especificação de Hausman)
Sabe-se que o estimador EA de β se pode escrever com o formato de (5.25):

βÊA = ( S zxT Sˆ −1 S zx ) −1 S zxT Sˆ −1 s zy .
A seguir, vai provar-se que o estimador EF de φ , (7.57), pode ser apresentado

na forma seguinte:
φÊF = ( J kT S zxT Wˆ S zx J k )−1 J kT S zxT Wˆ szy ,
onde
I 
J k =  k1  (matriz de tipo k × k1 ) e Wˆ = Pe ⊗ S zz−1 .
 O 
Com efeito, tem-se

1 m  1 m 
J kT S zxT Wˆ S zx J k = J kT  ∑t =1 ( X •i ⊗ z•i )T  Wˆ  ∑t =1 ( X •i ⊗ z•i ) J k
m  m 
1 m T  1 m 
= J kT  ∑t =1 [F•i ⊗ z•i H •i ⊗ z•i ]  Wˆ  ∑t =1 [F•i ⊗ z•i H •i ⊗ z•i ] J k
m  m 
1 m  1 m 
=  ∑t =1 ( F•i ⊗ z•i )T  ( Pe ⊗ S zz−1 )  ∑t =1 ( F•i ⊗ z•i ) .
m  m 
De forma semelhante, vem
1 m  1 m 
J kT S zxT Wˆ szy =  ∑t =1 ( F•i ⊗ z•i )T  ( Pe ⊗ S zz−1 )  ∑t =1 ( y•i ⊗ z•i ) .
 m   m 
Usando a mesma técnica utilizada para provar que o estimador EF de φ é esti-
mador MGM (a partir do sistema y•ai = F•aiφ + v•ai ), obtém-se o resultado pretendido.
Seja
δˆ = φÊF − φÊA = φÊF − J kT βÊA

= ( J kT S zxT Wˆ S zx J k ) −1 J kT S zxT Wˆ szy − ( J kT S zxT Wˆ S zx J k ) −1 ( J kT S zxT Wˆ S zx J k ) J kT βÊA .
Notando que
1 m
S zxT Wˆ S zx = ∑i =1 X •Ti Pe X •i ,
m
e que
 F•Ti Pe F•i O
Pe X •i = Pe [ F•i H •i ] = Pe [ F•i e p hi• ] = [ Pe F•i O ], X Pe X •i = 
T
•i ,
 O O 
tem-se
1 m T 
S zxT Wˆ S zx =  m ∑i =1 •i e •i
F P F O
= S zxT Wˆ S zx J k J kT .
 O O 

Então,
δˆ = ( J kT S zxT Wˆ S zx J k )−1 J kT S zxT Wˆ szy − ( J kT S zxT Wˆ S zx J k )−1 J kT S zxT Wˆ S zx βÊA
= ( J kT S zxT Wˆ S zx J k ) −1 J kT S zxT Wˆ ( szy − S zx βÊA )
= ( J kT S zxT Wˆ S zx J k ) −1 J kT S zxT Wˆ g• m ( βÊA ),
onde
g •m ( βÊA ) = s zy − S zx βÊA .
De acordo com a demonstração do teorema 4.5 (secção 4A.4 do anexo 4A),

g •m ( βÊA ) = Bˆ g •m ,
em que
1 m 1 m
Bˆ = I pq − S zx ( S zxT Sˆ −1S zx ) −1 S zxT Sˆ −1 e g •m = ∑i =1 g •i = ∑i =1 (u•i ⊗ z•i ) .
m m
Como
d
m g •m → N ( pq ) ( 0, S ) , Cov a ( g •m ) = S ,
conclui-se que
d
m δˆ = ( J kT S zxT Wˆ S zx J k ) −1 J kT S zxT Wˆ Bˆ m g• m → N ( k1 ){ 0, Cov a (δˆ)} ,
desde que a matriz Cov a (δˆ) tenha inversa. Neste caso, tem-se
Cov a (δˆ) = ( J kT QzxT W Qzx J k ) −1 J kT QzxT W B S BTW Qzx J k ( J kT QzxT W Qzx J k ) −1 ,
onde W = plim(Wˆ ) = Pe ⊗ Qzz−1 e B = plim( Bˆ ) = I pq − Qzx (QzxT S −1Qzx ) −1 QzxT S −1 .

Para provar que Cov a (δˆ) é não singular, vai confirmar-se, em primeiro lugar,
T T
que J k Qzx W Qzx J k é não singular. Com efeito, tem-se
J kT QzxT W Qzx J k = E ( F•i ⊗ z•i )T ( Pe ⊗ Qzz−1 ) E ( F•i ⊗ z•i ) = E ( F•Ti Pe F•i ) ,
em que z•i “desaparece” porque todos os elementos de F•i estão incluídos em z•i . Co-
mo E ( F•Ti Pe F•i ) tem inversa (ver a demonstração das propriedades do estimador EF),
está garantida a não singularidade de J kT QzxT W Qzx J k .
Fica ao cuidado do leitor provar que BTW Qzx J k , matriz de tipo pq × k1 , tem ca-
racterística igual a k1 . Nestas circunstâncias, conclui-se que Cov a (δˆ) é invertível.
Um estimador consistente de Cov a (δˆ) é
^
Cov a (δˆ ) = ( J kT S zxT Wˆ S zx J k ) −1 J kT S zxT Wˆ Bˆ Sˆ Bˆ TWˆ S zx J k ( J kT S zxT Wˆ S zx J k ) −1 .
Pode verificar-se sem dificuldade que

Cov a (δˆ) = Cov a (φÊF ) − J kT Cov a ( βÊA ) J k = Cov a (φÊF ) − Cov a (φÊA ) ,
^ ^ ^ ^ ^
Cov a (δˆ) = Cov a (φÊF ) − J kT Cov a ( βÊA ) J k = Cov a (φÊF ) − Cov a (φÊA ) .
Então, conclui-se que esta matriz é definida positiva, e, portanto, H ≥ 0 .

O resultado (7.82) resulta imediatamente do princípio MGM de Hausman.
O teste de Hausman é considerado um teste de especificação porque pode de-

tectar a violação de (7.79), que faz parte da hipótese a manter do modelo com compo-
nentes do erro. No entanto, convém aprofundar esta questão de forma a dar uma respos-
ta à seguinte pergunta: que testa a estatística de Hausman? Para simplificar, suponha-se
que Σ = E (u•i u•Ti ) é conhecido, e que xti• = f ti• (não há regressores constantes no tem-
po). Assim, (7.79) reduz-se a E ( xti •α i ) = 0 , qualquer que seja t, que é a restrição que
não se usa no estimador EF. Será o estimador EA necessariamente inconsistente quando
não se verifica E ( xti •α i ) = 0 , mas as outras hipóteses do modelo com componentes do
erro (MCE) são satisfeitas? Comece-se por notar que
−1
βÊA =  ∑i =1 X •Ti Σ −1 X •i  ∑
m m
X •Ti Σ −1 ( X •i β + u•i )
  i =1
−1
= β +  ∑i =1 X •Ti Σ −1 X •i  ∑
m m
X •Ti Σ −1u•i .
  i =1
Então,
plim(βÊA ) = β + E ( X •Ti Σ −1 X •i ) −1 E ( X •Ti Σ −1u•i ) ,
onde u•i = e pα i + v•i . A consistência do estimador exige que E ( X •Ti Σ −1u•i ) = 0 . Assim:
desde que se verifique E ( xti •vsi ) = 0 , a condição E ( xti •α i ) = 0 é suficiente para que
E ( X •Ti Σ −1u•i ) = 0 ; contudo, esta condição não é necessária. Deste modo, em rigor, o tes-
te de Hausman não testa E ( xti •α i ) = 0 , mas sim E ( X •Ti Σ −1u•i ) = 0 .
7A.7 - Demonstração das propriedades assintóticas do estimador EF no caso de

painéis não balanceados
A demonstração destas propriedades também se pode fazer de duas formas: pro-

var que estimador EF é estimador MGM, e aplicar os respectivos resultados assintóti-
cos; analisar a expressão do respectivo erro de amostragem.
Directamente, vai provar-se apenas que E{( F•ci )T v•ci } = 0 . Com efeito, como
( F•ci )T v•ci = F•Ti Pd i v•i = ∑t =1 ∑ s =1 ctsi dti d si f ti • vsi ,

p p
onde ctsi é o elemento genérico de Pd i , resulta
E{( F•ci )T v•ci } = ∑t =1 ∑ s =1 E (ctsi dti d si fti • vsi ) = 0 ,

p p
porque, atendendo à hipótese MENO.2′′ ,

E (ctsi dti d si fti • vsi ) = E{E (ctsi dti d si fti • vsi | d•i )} = E{ctsi dti d si E ( fti • vsi | d•i )} = 0 .
Deve notar-se que a extensão das propriedades do estimador EF ao caso dos pai-
néis não balanceados é mais fácil admitindo a possibilidade de existir heterocedasticida-
de condicionada. No caso de homocedasticidade condicionada, para obter, por exemplo,
a expressão correspondente a (7.67), deve supor-se que
E{v•ci (v•ci )T | z•i , d•i } = E{v•ci (v•ci )T } .
A determinação de um estimador consistente desta matriz é mais complicado do

que (7.68).
Alternativamente, o estimador EF pode ser obtido fazendo a “compressão” do
vector y•i e da matriz F•i , ou seja, eliminando os zeros do primeiro, e as linhas nulas da
segunda: obtém-se, respectivamente, y•∗i (vector pi × 1 ), e F•∗i (vector pi × k1 ). Neste ca-
so, d•∗i = e pi (vector-coluna com pi uns), a que corresponde a matriz Pei . Verifica-se fa-
cilmente que
−1
 m 
φÊF =  ∑i =1 ( F•∗i )T Pei F•∗i  ∑
m
i =1
( F•∗i )T Pei y•∗i .
 
Quando se considera o modelo y•i = X •i β + u•i , com dados de painel não balan-
ceados, em que se admite a possibilidade de existir heterocedasticidade condicionada, o
estimador PMQ pode ser construído, sem dificuldade, fazendo
d y  d x  d u 
 1i 1i   1i 1i •   1i 1i 
 d 2 i y2 i   d 2i x2i •   d 2 i u2 i 
y•i =   , X •i =   e u•i =  .
M M M 
     
d pi y pi  d pi x pi •  d piu pi 
     
Então,
−1
 m 
=  ∑i =1 X •Ti X •i  ∑
m
β̂ PMQ i =1
X •Ti y•i ,
 
Cov a ( βˆPMQ ) = E ( X •Ti X •i ) −1 E ( X •Tiu•iu•Ti X •i ) E ( X •Ti X •i ) −1 ,

−1 −1
1 m  1 m T  
 ∑ X uˆ uˆ T X   1 ∑ m X T X  ,
^
Cov a ( βˆPMQ ) =  ∑i =1 X •Ti X •i 
m   m i =1 • i • i • i • i
  m i =1 • i • i

    
onde uˆ•i = y•i − X •i βˆPMQ .
ANEXO 9A
COMPLEMENTOS SOBRE
EQUAÇÕES COM DIFERENÇAS
9A.1 - Equações lineares com diferenças e com coeficientes constantes
Começa-se por apresentar o conceito geral de equação com diferenças.
Definição 9A.1 - Equação com diferenças

Considere-se uma variável yt que depende de t, desconhecida, bem como as sucessivas
diferenças até à ordem p, ∆yt , ∆2 yt ,…, ∆p yt , e uma variável, wt , conhecida. Uma equa-
ção com diferenças de ordem p é uma relação conhecida entre t, yt , ∆yt , ∆2 yt ,…, ∆p yt e
wt ,
F (t , yt , ∆yt , ∆2 yt , K , ∆p yt , wt ) = 0 .
Como a diferença de ordem s ( s = 1, 2, K , p ) de yt é uma expressão que apenas

depende de yt , yt −1 ,…, yt −s , a relação que define a equação com diferenças de ordem p
pode escrever-se da seguinte maneira:
(9A.1) F (t , yt , yt −1 , yt − 2 , K , yt − p , wt ) = 0 .
As equações com diferenças que são considerado no capítulo 9 são as equações

lineares de ordem p com coeficientes constantes introduzidas na definição 9.1:
(9A.2) yt = ϕ 1 yt −1 + ϕ 2 yt −2 + L + ϕ p yt − p + wt .
A obtenção da solução geral da respectiva equação homogénea foi feita no capí-

tulo 9, para os seguintes casos: p = 1 ; p = 2 ; qualquer p. Para obter a solução geral de
(9A.2), sabe-se que esta solução, yt , é igual à soma da solução geral da correspondente
equação homogénea, yth , com uma solução particular da equação (não homogénea),
ytp : yt = yth + ytp .
Vai complementar-se o estudo feito no capítulo 9, com a obtenção de uma solu-
ção particular de (9A.2), quando wt = α (constante) e wt = α + β t (tendência linear).
Para p = 1 , tem-se:
a) wt = α .
Para resolver a equação yt = α + ϕ yt −1 , vai ver-se em que condições ytp = δ é uma
solução particular. Fazendo a substituição na equação, tem-se
Anexo 9A – Complementos sobre equações com diferenças 2
α
δ= ,
1−ϕ
supondo que ϕ ≠ 1 . Então, a solução geral da equação é
α
yt = cϕ t + .
1−ϕ
Uma solução definida quando yt 0 é conhecido é, então,
 α  t −t0 α
yt =  y t 0 −  ϕ + .
 1−ϕ  1−ϕ
Quando ϕ = 1 , a equação reduz-se a yt = α + yt −1 . Uma solução particular é dada

por ytp = α t ; a solução geral é yt = c + α t ; conhecendo yt 0 , uma solução definida
é yt = yt 0 + α (t − t0 ) .
b) wt = α + β t .
Para resolver a equação yt = α + β t + ϕ yt −1 , vai indagar-se a que condições devem
obedecer δ 0 e δ 1 para que ytp = δ 0 + δ 1t seja uma solução particular. Substituindo
na equação, vem
δ 0 + δ 1t = α + β t + ϕ (δ 0 + δ 1 (t − 1) ) ,
ou
δ 0 + δ 1t = (α + ϕ δ 0 − ϕ δ 1 ) + ( β + ϕ δ 1 ) t .
Então,
(1 − ϕ )δ 0 + ϕ δ1 = α

(1 − ϕ )δ1 = β .
donde
 α (1 − ϕ ) − β ϕ
δ 0 = (1 − ϕ ) 2


δ = β .
 1 1 − ϕ
Conclui-se, portanto, que

α (1 − ϕ ) − β ϕ β
ytp = 2
+ t,
(1 − ϕ ) 1−ϕ
quando ϕ ≠ 1 .
A solução geral é dada por
α (1 − ϕ ) − β ϕ β
yt = cϕ t + 2
+ t.
(1 − ϕ ) 1−ϕ
Com yt 0 conhecido, a respectiva solução definida é
 α (1 − ϕ ) − β ϕ β  α (1 − ϕ ) − β ϕ β
yt =  yt0 − 2
− t0  ϕ t −t 0 + 2
+ t.
 (1 − ϕ ) 1−ϕ  (1 − ϕ ) 1−ϕ
Para ϕ = 1 , a equação reduz-se a yt = α + β t + yt −1 . Para resolver esta equação, vai

ver-se em que condições ytp = δ 0t + δ 1t 2 é uma solução particular. Assim, de
δ 0t + δ 1t 2 = α + β t + δ 0 (t − 1) + δ 1 (t − 1) 2 ,
ou
δ 0t + δ 1t 2 = α + β t + δ 0t − δ 0 + δ 1t 2 − 2δ 1t + δ 1 ,
vem
(δ 0 − δ 1 ) + 2δ 1t = α + β t .
Donde
 2α + β
δ 0 −δ 1 = α δ 0 = 2
 ⇔ .
2δ 1 = β δ = β
 1 2
Então,
2α + β β
ytp = t + t2 .
2 2
A solução geral é, então,
2α + β β
yt = c + t + t2 .
2 2
Para yt 0 conhecido, a solução definida respectiva é
2α + β β
yt = yt 0 + (t − t0 ) + (t 2 − t02 ) .
2 2
Quando p = 2 , obtém-se:
a) wt = α .
Para resolver a equação yt = α + ϕ 1 yt −1 + ϕ 2 yt −2 , propõe-se uma solução particular
da forma ytp = δ . Fazendo a substituição na equação, tem-se
α
δ= ,
1 − ϕ1 − ϕ 2
desde que ϕ1 + ϕ 2 ≠ 1 . Então, tem-se a solução geral,

α
yt = yth + ,
1 − ϕ1 − ϕ 2
yth é a solução geral da respectiva equação homogénea, que depende do caso con-
siderado. Por exemplo, se as raízes são reais e distintas, vem
α
yt = c1λ1t + c2 λt2 + .
1 − ϕ1 − ϕ 2
Fica ao cuidado do leitor estabelecer as soluções definidas quando y0 e y1 são co-

nhecidos.
Quando ϕ1 + ϕ 2 = 1 , a equação passa a ser yt = α + ϕ 1 yt −1 + (1 − ϕ 1) yt −2 . Para resol-
ver vai ver-se em que condições ytp = δ t é uma solução particular. Facilmente se
verifica que
α
δ= ,
2 − ϕ1
supondo ϕ1 ≠ 2 . Então,
α
ytp = t.
2 − ϕ1
Fica ao cuidado do leitor obter a solução geral e a solução definida, para y0 e y1

conhecidos, para os três casos estudados.
Se ϕ1 + ϕ 2 = 1 e ϕ1 = 2 , a equação reduz-se a yt = α + 2 yt −1 − yt −2 . Propondo como
solução particular, ytp = δ t 2 , obtém-se δ = −α / 2 . Donde,
α
ytp = − t2 .
2
Para os três casos de raízes da equação característica, fica ao cuidado do leitor a ob-
tenção da solução geral e da solução definida quando y0 e y1 são conhecidos.
b) wt = α + β t .
Para resolver a equação yt = α + β t + ϕ 1 yt −1 + ϕ 2 yt −2 , propõe-se a solução particu-
lar ytp = δ 0 + δ 1t , e procuram-se determinar os valores de δ 0 e δ 1 . Substituindo na
equação, obtém-se a igualdade
(1 − ϕ1 − ϕ 2 )δ 0 + (ϕ1 + 2 ϕ 2 )δ 1 + (1 − ϕ1 − ϕ 2 )δ 1t = α + β t .

(1 − ϕ1 − ϕ 2 )α − (ϕ1 + 2 ϕ 2 ) β β
δ0 = 2
e δ1 = ,
(1 − ϕ1 − ϕ 2 ) 1 − ϕ1 − ϕ 2
admitindo que ϕ1 + ϕ 2 ≠ 1 .
Fica ao cuidado leitor obter, quando y0 e y1 são conhecidos, a solução geral e a so-
lução definida, para os três casos estudados.
Quando ϕ1 + ϕ 2 = 1 , tem-se a equação yt = α + β t + ϕ 1 yt −1 + (1 − ϕ 1) yt −2 . A solução
particular a ensaiar é ytp = δ 0t + δ 1t 2 , obtendo-se
(2 − ϕ1 )δ 0 − (4 − 3ϕ1 )δ 1 + 2(2 − ϕ1 )δ 1t = α + β t .
Donde
2(2 − ϕ1 )α − (4 − 3ϕ1 ) β β
δ0 = 2
e δ1 = ,
2 (1 − ϕ1 ) 2(2 − ϕ1 )
admitindo que ϕ1 ≠ 2 .
Fica ao cuidado do leitor obter, para os três casos estudados, a solução geral e a so-
lução definida (com y0 e y1 conhecidos).
Quando ϕ1 + ϕ 2 = 1 e ϕ1 = 2 , a equação passa a ser yt = α + β t + 2 yt −1 − yt −2 . Con-

siderando como solução particular ytp = δ 0t 2 + δ 1t 3 , a relação que se obtém a partir
da equação é dada por
2δ 0 − 6δ 1 + 6δ 1t = α + β t .
Então,
α+β β
δ0 = e δ1 = .
2 6
Fica ao cuidado do leitor determinar, para os três casos estudados, a solução geral e
a solução definida (quando y0 e y1 são conhecidos).
Para qualquer p, fica ao cuidado do leitor a obtenção das soluções da equação

não homogénea para as duas situações referidas.
9A.2 - Equações vectoriais de 1.ª ordem
O estudo das equações (escalares) de ordem p pode ser reduzido à análise de

equações vectoriais de 1.ª ordem.
Seja:
 yt   wt 
 y  ϕ1 ϕ 2 ϕ 3 L ϕ p−1 ϕ p  0
 t −1  1 0 0 L 0 0   
 yt − 2   0
ξt =  ; F =0 1 0 L 0 0  ; vt =   ,
 M    M
 yt −( p−2 )  M M M M M 
0
   0 0 0 L 1 0   
 yt −( p−1)   0 
onde: ξ t e vt são vectores p × 1 ; F é uma matriz p × p .
Facilmente se verifica que no sistema de p equações de diferenças (equação vec-
torial de 1.ª ordem),
(9A.3) ξ t = Fξ t −1 + vt ,
onde
 yt −1 
 y 
 t −2 
 yt −3 
ξt −1 =  ,
 M 
 yt − ( p −1) 
 
 yt − p 
a primeira equação é (9A.2), ou seja, yt = ϕ 1 yt −1 + ϕ 2 yt −2 + L + ϕ p yt − p + wt (as outras

p − 1 equações são, obviamente, yt −1 = yt −1 , yt −2 = yt −2 ,…, yt − p+1 = yt − p+1 ). Deste modo,
a equação vectorial de 1.ª ordem, (9A.3), não é mais do que outra forma de representar a
equação escalar de ordem p, (9A.2).
Notando que
 y0 
 y 
 −1 
 y −2 
ξ0 =  ,
 M 
 y −( p − 2 ) 
 
 y−( p−1) 
a equação (9A.3) pode resolver-se pelo método da substituição recursiva, tal como se
fez para (9.5), obtendo-se uma solução definida semelhante a (9.6):
(9A.4) ξ t = F tξ 0 + F t −1v1 + F t −2 v2 + L + F vt −1 + vt .
Não é difícil verificar que o primeiro elemento de ξ t , em (9A.4), é dado por
yt = f11(t ) y0 + f12(t ) y−1 + f13(t ) y−2 + L + f1(pt ) y−( p−1)
(9A.5)
+ f11( t −1) w1 + f11( t −2) w2 + L + f11(1) wt −1 + wt ,
onde:
− f11( t ) , f12( t ) , f13(t ) ,K, f1(pt ) são os elementos da primeira linha da matriz F t ;
− f11( t −1) , f11( t −2) , K , f11(1) são os elementos da primeira linha e na posição (1,1) das matri-
zes F t −1 , F t −2 , K , F , respectivamente.
Conclui-se, portanto, que yt é uma função de p valores iniciais (os elementos do
vector ξ 0 ), e dos valores w1 , w2 ,…, wt .
Do mesmo modo que (9.10), vem
(9A.6) ξ t +s = F s +1ξ t −1 + F s vt + F s−1vt +1 + F s −2vt +2 + L + F vt + s−1 + vt + s ,
e
yt + s = f11( s +1) yt −1 + f12( s +1) yt −2 + f13( s +1) yt −3 + L + f1(ps +1) yt − p
(9A.7)
+ f11( s ) wt + f11( s −1) wt +1 + f11( s −2) wt + 2 + L + f11(1) wt + s −1 + wt + s .
Neste caso, o multiplicador dinâmico é dado por

∂ yt + s
(9A.8) = f11( s ) ,
∂ wt
onde, obviamente, f11( s ) representa o elemento (1,1) da matriz F s .

∂ yt +1 ∂ yt + 2
= ϕ1 ; = ϕ12 + ϕ 2 .
∂ wt ∂ wt
O estudo das soluções e dos multiplicadores dinâmicos pode ser feito a partir
dos valores próprios da matriz F, ou seja, fazendo | F − λ I p | = 0 , onde, como se sabe,
o determinante é um polinómio, em λ , de grau p; as p raízes do polinómio são os va-

lores próprios de F.
Por exemplo, para p = 2 , os valores próprios são dados por
ϕ1 − λ ϕ2
= λ2 − ϕ1λ − ϕ 2 = 0 ,
1 −λ
que não é mais do que a equação característica da equação de 2.ª ordem.

Este resultado sugere o seguinte:
Teorema 9A.1
Os valores próprios da matriz F são as soluções da equação característica, (9.19), da
equação de diferenças linear de ordem p, com coeficientes constantes.
Dem.: Com efeito, seja

ϕ1 − λ ϕ2 ϕ3 L ϕ p −1 ϕp
1 −λ 0 L 0 0
0 1 −λ L 0 0
| F − λ Ip |= .
M M M M M
0 0 0 L −λ 0
0 0 0 L 1 −λ
Sabe-se que: por meio de operações elementares sobre as colunas de F − λ I p se

pode obter uma matriz triangular superior com o mesmo determinante; o determinante
desta matriz é igual ao produto dos elementos da diagonal principal.
Verifica-se, sem dificuldade, que os p elementos da diagonal principal da matriz
triangular podem ser os seguintes:
ϕ 2 ϕ3 ϕp
− λ + ϕ1 + + 2 + L + p−1 , − λ , K , − λ .
λ λ λ
Então,
 ϕ ϕ ϕ 
| F − λ I p | =  − λ + ϕ1 + 2 + 23 + L + pp−1 (−λ ) p −1
 λ λ λ 
= (−1) p −1 (−λ p + ϕ1λ p −1 + ϕ2λ p − 2 + ϕ3λ p − 3 + L + ϕ p )
= (−1) p (λ p − ϕ1λ p −1 − ϕ2λ p − 2 − ϕ3λ p − 3 − L − ϕ p ) ,
o que mostra claramente a equivalência entre | F − λ I p | = 0 e (9.19).

∇∇
Se os valores próprios são distintos (reais ou complexos), existe uma matriz B,

quadrada de ordem p, não singular, que permite diagonalizar a matriz F,
B −1 F B = Λ ⇔ F = B Λ B −1 ,
onde Λ é a matriz diagonal dos valores próprios, Λ = Diag {λ1 , λ2 , K , λ p } ; decorre, sem
dificuldade, que
F s = B Λs B −1 ,
onde Λs = Diag {λ1s , λs2 ,K, λsp } .
Se se designar por bij e b ij os elementos genéricos das matrizes B e B −1 , respec-
tivamente, pode verificar-se que o elemento (1,1) de F s é dado por
f11( s ) = (b11b11 )λ1s + (b12b 21 )λs2 + L + (b1 p b p1 )λsp = h1λ1s + h2 λs2 + L + h p λsp ,
onde hi = b1i b i1 ( i = 1, 2, K , p ). Note-se que

h1 + h2 + L + h p = b11b11 + b12b 21 + L + b1 p b p1 = 1 ,
uma vez que é o elemento (1,1) da matriz B B −1 .

Pode, então, obter-se o resultado (9.24),
∂ yt + s
(9A.9) = h1λ1s + h2 λs2 + L + h p λsp ,
∂ wt
onde a expressão de cada hi ( i = 1, 2, K , p ) já é conhecida. Deste modo, o multiplicador

dinâmico é uma média ponderada das potências de expoente s dos valores próprios da
matriz F.
Sejam λ1 , λ2 , K , λq , os valores próprios da matriz F (quadrada de ordem p), em
que a multiplicidade algébrica de λi ( i = 1, 2, K , q ) é pi . Facilmente se conclui que
q ≤ p e que a soma das multiplicidades algébricas é p: p1 + p2 + L + pq = p .
Quando q = p , todos os valores próprios são distintos (todas as multiplicidades
algébricas são iguais a 1). Neste caso, existem p vectores próprios linearmente indepen-
dentes (cada um, associado a um e só um valor próprio), que constituem as colunas da B
(matriz quadrada de ordem p, não singular) diagonalizadora de F: B −1F B = Λ ( Λ é a
matriz diagonal dos valores próprios).
Quando q < p , há, pelo menos, um valor próprio repetido (pelo menos um deles
tem multiplicidade algébrica maior do que 1). Sendo m o número de vectores próprios
linearmente independentes, tem-se q ≤ m ≤ p , e duas situações podem ocorrer.
Na primeira, supõe-se que é possível dispor ainda de p vectores próprios linear-
mente independentes. Isto consegue-se, quando (e só quando) se podem determinar pi
vectores próprios linearmente independentes associados a cada valor próprio λi . Neste
caso, tem-se q < m = p , e continua a ter-se B −1F B = Λ ( Λ é matriz diagonal dos p va-
lores próprios, com as repetições dadas pelas multiplicidades algébricas respectivas).
Não segunda situação, tem-se q ≤ m < p , e não existem p vectores próprios li-
nearmente independentes. Nestas condições, não se pode diagonalizar a matriz F, de
modo a obter a decomposição F = B Λ B −1 . No entanto, é possível encontrar outra de-
composição de F – que permite determinar uma expressão para o multiplicador dinâmi-
co –, conhecida pelo nome de decomposição de Jordan.
Qualquer que seja a matriz F, pode provar-se que, existe uma matriz G (quadra-
da de ordem p, não singular), tal que
F = G J G −1 ,
onde J é também uma matriz quadrada de ordem p, diagonal por blocos,
 J1 O L O
O J 2 L O 
J =
M M M 
 
O O L Jm 
tal que cada bloco diagonal (bloco de Jordan) é da forma

λi 1 0 L 0
0 λi 1 L 0 

Jl =  0 0 λi L 0  ( l = 1,2, K , m ).
 
M M M M
 0 0 0 L λi 
Podem-se fazer os seguintes comentários à matriz J e aos blocos de Jordan:

a) Como J não é diagonal, a matriz G não é diagonalizadora de F; no entanto, J é “qua-
se diagonal” (na diagonal principal encontram-se os valores próprios; apenas tem um
1 em cada linha a seguir ao elemento da diagonal principal; os restantes elementos
são nulos).
b) Na diagonal principal de cada matriz J l repete-se o mesmo valor próprio. No en-
tanto, o mesmo valor próprio pode aparecer em vários blocos de Jordan (em tantos,
quantos os vectores próprios linearmente independentes associados ao valor próprio).
c) O número de vezes que o mesmo valor próprio aparece na diagonal principal da ma-
triz J é igual à sua multiplicidade algébrica.
d) Cada bloco de Jordan é uma matriz quadrada de ordem nl e n1 + n2 + L + nm = p .

F s = G J s G −1 ,
onde
J s O L O
 1 
O J 2s L O 
Js =  ,
M M M 
 
 O O L J ms 

podendo provar-se que
λsi C1s λsi −1 C2s λsi −2 L Cnsl −1λis −nl +1 
 
0 λsi C1s λis −1 L Cnsl −2 λis −nl +2 
Jl =  0
s
0 λis L Cnsl −3λis −nl +3  ( l = 1, 2, K , m ),
 
M M M M 
0 0 0 L λis 
 
onde
 s!
 ( s ≥ n)
Cns =  n!( s − n)!
 0 ( s < n) .
Por exemplo, no caso em que p = 2 (equação de 2.ª ordem) e os valores pró-

prios de F são reais e iguais, vem
−1
g −1 g12  λs sλs −1   g11 g12 
F = G J G =  11
s s
 
 g 21 g 22   0 λs   g 21 g 22 
1  g11 g12  λs sλs −1   g 22 − g12 
=   ,
g11 g 22 − g12 g 21  g 21 g 22   0 λs  − g 21 g11 
ficando ao cuidado do leitor verificar que
∂ yt + s g11 g 21
= f11( s ) = λs − sλs−1 .
∂ wt g11 g 22 − g12 g 21
Vai ser retomado o estudo, em geral, das equações vectoriais de 1.ª ordem,
(9A.3). Quando os valores próprios da matriz F verificam a condição | λi | < 1 , F s tende
para O quando s → +∞ , e é possível obter uma relação de longo prazo, em que yt é
função de toda a “história” da variável de input. Com efeito, supondo que as sucessões
{ yt } e {wt } são limitadas, fazendo, indefinidamente em (9A.5), a substituição recursi-
va, vem
(9A.10) yt = wt + f11(1) wt −1 + f11( 2 ) wt −2 + f11(3) wt −3 + L .
No caso particular em que os valores próprios são distintos, tem-se

f11( s ) = h1λ1s + h2 λs2 + L + h p λsp ( s = 1, 2, 3, K ).
Como se sabe, o valor actual do fluxo de valores futuros do output, yt , yt +1 ,

yt +2 ,…, para um dado factor de actualização γ , é dado por (9.12). Suponha-se que se
pretende determinar a variação deste valor actual quando wt varia de uma unidade. Para
isso, começa-se por estabelecer que, devido a (9A.7), se tem
∂ ξ t+s ∂  +∞ s 
 ∑ s = 0 γ ξt + s  = ∑ s = 0 γ F = ( I p − γ F ) ,
+∞
= Fs e s s −1
∂ vt ∂ vt  
desde que | λi | < 1 / γ . Pode, então, provar-se que [Hamilton (1994), pp. 23-24]
∂ VA t ∂y 1
= ∑s =0 γ s t + s =
+∞
(9A.11) ,
∂ wt ∂ wt 1 − ϕ1γ − ϕ 2γ 2 − L − ϕ pγ p
que é o elemento (1,1) da matriz ( I p − γ F ) −1 .

O efeito acumulado para o output, quando wt varia de uma unidade, é obtido,
fazendo γ = 1 em (9A.11). Assim,
∂ yt + s 1
∑
+∞
(9A.12) = .
s =0
∂ wt 1 − ϕ1 − ϕ 2 − L − ϕ p
Este valor é também é igual ao efeito de longo prazo sobre o output, quando o
input varia de uma unidade, de forma permanente. Tem-se:
∂y ∂y ∂y ∂y  1
(9A.13) lim  t + s + t + s + t + s + L + t + s  = .
s → +∞
 ∂ wt ∂ wt +1 ∂ wt + 2 ∂ wt + s  1 − ϕ1 − ϕ2 − L − ϕ p
ANEXO 10A
VALORES CRÍTICOS PARA TESTES DE
RAÍZES UNITÁRIAS E DE COINTEGRAÇÃO
As tabelas 10A.1 e 10A.2 apresentam os valores críticos para, respectivamente,

efectuar os seguintes testes de Dickey-Fuller: DF- ϕ , DF- ϕc e DF- ϕct ; DF- τ , DF- τ c e
DF- τ ct .
Tabela 10A.1
Valores críticos para os testes de Dickey-Fuller: DF- ϕ , DF- ϕc e DF- ϕct
n 0.01 0.025 0.05 0.10 0.90 0.95 0.975 0.99
Teste DF- ϕ : n(ϕˆ − 1)
25 –11.8 –9.3 –7.3 –5.3 1.01 1.41 1.78 2.28
50 –12.8 –9.9 –7.7 –5.5 0.97 1.34 1.69 2.16
100 –13.3 –10.2 –7.9 –5.6 0.95 1.31 1.65 2.09
250 –13.6 –10.4 –8.0 –5.7 0.94 1.29 1.62 2.05
500 –13.7 –10.4 –8.0 –5.7 0.93 1.28 1.61 2.04
∞ –13.8 –10.5 – 8.1 –5.7 0.93 1.28 1.60 2.03
Teste DF- ϕc : n(ϕˆc − 1)
25 –17.2 –14.6 –12.5 –10.2 –0.76 0.00 0.65 1.39
50 –18.9 –15.7 –13.3 –10.7 –0.81 –0.07 0.53 1.22
100 –19.8 –16.3 –13.7 –11.0 –0.83 –0.11 0.47 1.14
250 –20.3 –16.7 –13.9 –11.1 –0.84 –0.13 0.44 1.08
500 –20.5 –16.8 –14.0 –11.2 –0.85 –0.14 0.42 1.07
∞ –20.7 –16.9 –14.1 –11.3 –0.85 –0.14 0.41 1.05
Teste DF- ϕct : n(ϕˆct − 1)
25 –22.5 –20.0 –17.9 –15.6 –3.65 –2.51 –1.53 –0.46
50 –25.8 –22.4 –19.7 –16.8 –3.71 –2.60 –1.67 –0.67
100 –27.4 –23.7 –20.6 –17.5 –3.74 –2.63 –1.74 –0.76
250 –28.5 –24.4 –21.3 –17.9 –3.76 –2.65 –1.79 –0.83
500 –28.9 –24.7 –21.5 –18.1 –3.76 –2.66 –1.80 –0.86
∞ –29.4 –25.0 –21.7 –18.3 –3.77 –2.67 –1.81 –0.88
Anexo 10A – Valores críticos para testes de raízes unitárias e de cointegração 2
Tabela 10A.2
Valores críticos para os testes de Dickey-Fuller: DF- τ , DF- τ c e DF- τ ct
n 0.01 0.025 0.05 0.10 0.90 0.95 0.975 0.99
Teste DF- τ
25 –2.65 –2.26 –1.95 –1.60 0.92 1.33 1.70 2.15
50 –2.62 –2.25 –1.95 –1.61 0.91 1.31 1.66 2.08
100 –2.60 –2.24 –1.95 –1.61 0.90 1.29 1.64 2.04
250 –2.58 –2.24 –1.95 –1.62 0.89 1.28 1.63 2.02
500 –2.58 –2.23 –1.95 –1.62 0.89 1.28 1.62 2.01
∞ –2.58 –2.23 –1.95 –1.62 0.89 1.28 1.62 2.01
Teste DF- τ c
25 –3.75 –3.33 –2.99 –2.64 –0.37 0.00 0.34 0.71
50 –3.59 –3.23 –2.93 –2.60 –0.41 –0.04 0.28 0.66
100 –3.50 –3.17 –2.90 –2.59 –0.42 –0.06 0.26 0.63
250 –3.45 –3.14 –2.88 –2.58 –0.42 –0.07 0.24 0.62
500 –3.44 –3.13 –2.87 –2.57 –0.44 –0.07 0.24 0.61
∞ –3.42 –3.12 –2.86 –2.57 –0.44 –0.08 0.23 0.60
Teste DF- τ ct
25 –4.38 –3.95 –3.60 –3.24 –1.14 –0.81 –0.50 –0.15
50 –4.16 –3.80 –3.50 –3.18 –1.19 –0.87 –0.58 –0.24
100 –4.05 –3.73 –3.45 –3.15 –1.22 –0.90 –0.62 –0.28
250 –3.98 –3.69 –3.42 –3.13 –1.23 –0.92 –0.64 –0.31
500 –3.97 –3.67 –3.42 –3.13 –1.24 –0.93 –0.65 –0.32
∞ –3.96 –3.67 –3.41 –3.13 –1.25 –0.94 –0.66 –0.32
A tabela 10A.3 apresenta os valores críticos para os testes de cointegração de

Engle-Granger, quando se considera a equação de regressão
y1t = β 0 + β T z•t + λT y•(t2) + ut ,
para os seguintes casos:

1) E (∆y•( t2 ) ) = 0 e E (∆y1t ) = 0 ;
2) E (∆y•(t2) ) ≠ 0 , mas E (∆y1t ) pode ser nulo ou não;
3) E (∆y•( t2 ) ) = 0 e E (∆y1t ) ≠ 0 .
Os valores críticos referentes ao primeiro caso encontram-se na tabela 10A.3(a),

e, para os outros dois casos, na 10A.3(b).
Tabela 10A.3
Valores críticos para os testes
de cointegração de Engle-Granger
N.º de regressores
(excluindo o termo independente)
1% 2.5% 5% 10%
(a) Os regressores não têm deriva
1 –3.96 –3.64 –3.53 –3.07
2 –4.31 –4.02 –3.77 –3.45
3 –4.73 –4.37 –4.11 –3.83
4 –5.07 –4.71 –4.45 –4.16
5 –5.28 –4.98 –4.71 –4.43
(b) Os regressores têm deriva
1 –3.96 –3.67 –3.41 –3.13
2 –4.36 –4.07 –3.80 –3.52
3 –4.65 –4.39 –4.16 –3.84
4 –5.04 –4.77 –4.49 –4.20
5 –5.36 –5.02 –4.74 –4.46
Fonte: (a) Phillips e Ouliaris (1990);
(b) linha 1 – Fuller (1996);
(b) linhas 2 a 5 – Phillips e Ouliaris (1990).
Em vez das tabelas anteriores, podem utilizar-se os valores referidos na tabela

10A.4 para calcular valores críticos para efectuar os testes de Dickey-Fuller (na versão
rácios- τ ) e os testes de cointegração de Engle-Granger. Para isso, utiliza-se a fórmula
de MacKinnon (1991),
Cˆ (α , n) = βˆ∞ + βˆ1 n −1 + βˆ 2 n −2 ,
onde α é a dimensão do teste e n é o número de observações. Nesta tabela, m representa

o número de variáveis envolvidas no teste ( m = 1 para os testes de Dickey-Fuller;
m = 2, K ,6 para os testes de Engle-Granger).
Tabela 10A.4
Estimativas dos parâmetros da fórmula de MacKinnon
para calcular os valores críticos para os testes de
Dickey-Fuller (rácios- τ ) e para os testes de
Cointegração de Engle-Granger
m Variante α β̂ ∞ β̂1 β̂ 2
1 Sem constante 1 –2.5658 –1.960 –10.04
5 –1.9393 –0.398 –0.00
10 –1.6156 –0.181 –0.00
1 Sem tendência 1 –3.4335 –5.999 –29.25
5 –2.8621 –2.738 –8.36
10 –2.5671 –1.438 –4.48
1 Com tendência 1 –3.9638 –8.353 –47.44
5 –3.4126 –4.039 –17.83
10 –3.1279 –2.418 –7.58
2 Sem tendência 1 –3.9001 –10.534 –30.03
5 –3.3377 –5.967 –8.98
10 –3.0462 –4.069 –5.73
2 Com tendência 1 –4.3266 –15.531 –34.03
5 –3.7809 –9.421 –15.06
10 –3.4959 –7.203 –4.01
3 Sem tendência 1 –4.2981 –13.790 –46.37
5 –3.7429 –8.352 –13.41
10 –3.4518 –6.241 –2.79
3 Com tendência 1 –4.6676 –18.492 –49.35
5 –4.1193 –12.024 –13.13
10 –3.8344 –9.188 –4.85
4 Sem tendência 1 –4.6493 –17.188 –59.20
5 –4.1000 –10.745 –21.57
10 –3.8110 –8.317 –5.19
4 Com tendência 1 –4.9695 –22.504 –50.22
5 –4.4294 –14.501 –19.54
10 –4.1474 –11.165 –9.88
5 Sem tendência 1 –4.9587 –22.140 –37.29
5 –4.4185 –13.641 –21.16
10 –4.1327 –10.638 –5.48
5 Com tendência 1 –5.2497 –26.606 –49.56
5 –4.7154 –17.432 –16.50
10 –4.4345 –13.654 –5.77
6 Sem tendência 1 –5.2400 –26.278 –41.65
5 –4.7048 –17.120 –11.17
10 –4.4242 –13.347 –0.00
6 Com tendência 1 –5.5127 –30.735 –52.50
5 –4.9767 –20.883 –9.05
10 –4.6999 –16.445 –0.00
Fonte: MacKinnon (1991).

Carlos Silva Ribeiro - Econometria-Escolar Editora (2014)

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Carlos Silva Ribeiro - Econometria-Escolar Editora (2014)

Enviado por

Direitos autorais:

Formatos disponíveis

CAPÍTULO 1

1.1 - De que trata a Econometria?

Numa primeira aproximação, pode dizer-se que a Econometria procura fornecer

Exemplo 1.1 – O consumo privado, considerado como agregado macroeconómico, é

Exemplo 1.2 – Para as unidades produtivas que se dedicam ao fabrico de um bem é,

Exemplo 1.3 – Quando pretende explicar-se o comportamento, ao longo de vários pe-

Exemplo 1.4 – Considere-se as variáveis educ (número de anos de escolaridade de um

Evidentemente, outros factores – como o número de anos de escolaridade da

Exemplo 1.5 – Procura saber-se se a assiduidade às aulas de um aluno de Estatística du-

Podia propor-se a seguinte especificação de h:

Os exemplos seguintes consideram modelos económicos com duas ou mais rela-

considerar também a função oferta, qs = hs ( p ) , e a relação de equilíbrio, qd = qs , o que

A especificação mais habitual é a seguinte:

Devido à simultaneidade atrás referida, o modelo apresentado tem o grave in-

onde r é o rendimento médio dos consumidores do bem, e z é um indicador da dimensão

Exemplo 1.8 – Sabe-se da teoria macroeconómica que a função consumo introduzida

cons = β1 + β 2 pnb (função consumo)

Exemplo 1.9 – Suponha-se que pretende determinar-se a influência do número de agen-

A análise empírica da interdependência entre as variáveis crime e pol pode ser

Ragnar Frisch (economista norueguês, prémio Nobel da Economia em 1969 –

− “A Econometria pode ser definida como a ciência social em que as ferramentas da

Embora se esteja ainda relativamente distante desta situação ideal, a Econome-

1.2 - Modelo teórico

Quando se estuda, com base em dados, um determinado fenómeno de natureza

Exemplo 1.11 – Retome-se os exemplos anteriores:

b) Na sequência do exemplo 1.8, e apoiados na teoria macroeconómica, podia ser ra-

Cada relação do modelo teórico proposto – exceptuando possíveis relações de

Pressupõe-se que (1.1) envolve um conjunto finito de parâmetros desconheci-

onde, por convenção, w é o vector-linha das variáveis explicativas, e α é o vector-colu-

1.3 - Relações lineares

onde y é a variável explicada ou dependente (ou uma função desta variável), x1 , x2 ,K , xk

Exemplo 1.13 – Retome-se alguns dos dez exemplos da secção 1.1:

onde: y = ln(Q) , x1 = 1 , x2 = ln( K ) , x3 = ln( L) , β1 = ln(α1 ) , β2 = α2 e β3 = α3 .

em que: y = ln(import ) , x1 = 1 , x2 = ln( prm) , x3 = ln( pib) , β1 = ln(α1 ) , β 2 = α 2 e

não é linear nos parâmetros. No entanto, facilmente se passa a

onde: y = lsalar , x1 = 1 , x2 = educ , x3 = exper , x4 = empc , x5 = mulher , β1 = α1 ,

obtém-se uma relação linear relativamente aos parâmetros, onde y = nest , x1 = 1 ,

É particularmente importante não confundir linearidade relativa aos parâme-

1.4 - Efeitos parciais, elasticidades e semi-elasticidades

Exemplo 1.14 – Considere-se as seguintes perguntas:

Dado o modelo z = h( w1 , K w j , K , wp ) , a análise ceteris paribus da relação de

As variações absolutas das duas variáveis são, respectivamente, ∆w j e ∆ z (po-

Como este efeito mede, ceteris paribus, a variação (absoluta) de z quando w j

Considerem-se os seguintes exemplos:

Neste caso, α 2 é igual à variação de z quando w2 varia de uma unidade.

2) Seja z = α1 + α2 w + α3 w 2 , relação quadrática entre z e w (variáveis contínuas). O

Como este efeito depende linearmente de w, o parâmetro α 3 tem uma interpretação

O valor de w que anula a primeira derivada (ponto de estacionaridade) é

Este valor é maximizante ou minimizante da função conforme o sinal da segunda de-

3) Suponha-se que a relação (não linear) entre z, w2 e w3 (variáveis contínuas) é dada

Suponha-se, agora, que a variável z ainda é quantitativa (contínua ou discreta), e

depende de w2 . Há um efeito marginal para cada valor de w2 : α 3 , quando w2 = 0 ;

Admita-se que as variáveis z e w j são quantitativas (contínuas ou discretas).

Multiplicando por 100 as variações relativas, obtêm-se as respectivas variações

A elasticidade de z em relação a w j é dada por

Esta elasticidade mede, ceteris paribus, a variação percentual de z quando w j

Facilmente se conclui que

No caso particular em que as variáveis z e w j são contínuas, e a função h é de-

Facilmente se verifica que

Para ∆w j ≈ 0 , tem-se EL∗ ( z ; w j ) ≈ EL( z ; w j ) .

Com efeito, notando que w j = exp{ln(w j )} e que

aplicando duas vezes a regra da derivada da função composta, obtém-se

Considerem-se os seguintes exemplos:

Suponha-se que as variáveis z e w j são quantitativas (contínuas ou discretas).