Escolar Documentos
Profissional Documentos
Cultura Documentos
INTRODUÇÃO
Q = α1 K α 2 Lα3 ,
onde α1 , α 2 e α 3 são parâmetros positivos ( α 2 e α 3 representam, neste caso, as elasti-
cidades pontuais da quantidade produzida relativamente ao capital e ao trabalho, respec-
tivamente; ver secção 1.4). A análise estatística destas elasticidades (estimação pontual
e por intervalos, teste de hipóteses, etc.) é uma preocupação empírica muito importante.
Outra especificação corrente, na teoria da produção, é a função de produção
CES (elasticidade de substituição constante),
γ
−
Q = β {(1 − δ ) L− ρ + δ K − ρ } ρ
,
com parâmetros β > 0 , γ > 0 , 0 < δ < 1 e ρ .
∇
ou ainda,
lsalar = α1 + α 2 educ + α 3 exper + α 4 empc + α 5 mulher ,
onde lsalar = ln(salar ) . Com facilidade se interpreta o significado dos parâmetros (esta
questão vai ser aprofundada nas próximas secções). Por exemplo: α 2 (multiplicado por
100) mede, aproximadamente, a variação percentual do salário quando um trabalhador
tem mais um ano de escolaridade (em estudos deste tipo é particularmente útil conhecer
uma estimativa deste parâmetro, que representa o retorno da educação); α 5 (multiplica-
do por 100) mede, aproximadamente, a diferença percentual de salário entre uma mu-
lher e um homem.
∇
Exemplo 1.6 – Suponha-se que pretende estimar-se o número diário de viagens de au-
tomóvel (viag) entre os concelhos da Área Metropolitana de Lisboa (AML) situados a
norte do Tejo, por motivo de deslocação para o trabalho, com vista a tomar decisões so-
bre a construção de novas vias rápidas ou alargamento das existentes. Com o objectivo
de melhor entender estes movimentos, decidiu-se propor uma relação funcional, onde os
factores explicativos de viag são a população activa no concelho de origem (pop), o nú-
mero de empresas no concelho de destino (nemp) como sucedâneo do emprego, e a dis-
tância entre as sedes dos concelhos de origem e destino (dist). Assim,
viag = h( pop, nemp, dist ) .
Capítulo 1 – Introdução 4
Exemplo 1.7 – Sabe-se da teoria económica que, em muitos casos, o factor principal
que explica a procura mensal de um certo bem, qd , é o respectivo preço, p. Tem-se, en-
tão, a seguinte função procura: qd = hd ( p) .
Como se sabe, a quantidade e o preço de equilíbrio do mercado (respectivamen-
te, q e p∗ ) não podem ser determinados apenas com aquela função. É indispensável
∗
Exemplo 1.10 – Os países de economia mais aberta têm menores taxas de inflação?
Para responder a esta pergunta, considerou-se que
inf = h1 ( ga, rpc ) ,
onde inf é a taxa de inflação, ga é o grau de abertura da economia medido pelo quo-
ciente entre as importações e o PIB, e rpc é o rendimento per capita.
Como é admissível supor que ga também é influenciado por inf (há interdepen-
dência entre as duas variáveis), deve considerar-se uma segunda relação funcional, que,
por exemplo, poderia ser
ga = h1 (inf , rpc, ap ) ,
onde ap é a área do país em quilómetros quadrados.
Fazendo
inf = β1 + β 2 ga + β 3 ln(rpc)
ga = γ 1 + γ 2inf + γ 3 ln(rpc) + γ 4 ln(ap) ,
é de admitir, por exemplo, que β 2 < 0 (quanto maior é o grau de abertura da economia,
menor a taxa de inflação), e γ 4 < 0 (quanto menor é o país, maior é o grau de abertura).
A interdependência sugerida entre inf e ga deve ser submetida a uma análise em-
pírica adequada.
∇
Exemplo 1.12 – Considerem-se, novamente, os exemplos 1.1, 1.2, 1.4 e 1.5, e as últi-
mas especificações propostas (os outros exemplos da secção 1.1 ficam ao cuidado do
leitor). Tem-se:
a) Exemplo 1.1: z = cons e w = rdisp .
b) Exemplo 1.2: z = Q , w1 = K e w2 = L .
c) Exemplo 1.4: z = lsalar , w1 = educ , w2 = exper , w3 = empc e w4 = mulher .
d) Exemplo 1.5: z = nest , w1 = assid , w2 = tae e w3 = mis .
∇
Um caso particular muito importante das relações de tipo (1.1) é aquele que é
caracterizado pela linearidade relativamente aos parâmetros, isto é, as relações assu-
mem a forma
(1.2) y = β1 x1 + β2 x2 + L + βk xk ,
1
z = α1 + ,
α2 + w
não é, nem linear nas variáveis, nem (intrinsecamente) linear nos parâmetros.
Como vai ver-se, para a estimação dos parâmetros de uma relação (intrinseca-
mente) linear, a linearidade relativamente às variáveis tem pouca importância. A expres-
são “a relação é linear” significa que a relação é linear ou linearizável relativamente
aos parâmetros. No entanto, a linearidade, ou não, relativamente às variáveis desem-
penha um papel decisivo para interpretar os parâmetros (ver secção seguinte).
Esta secção tem por objectivo apresentar alguns conceitos de grande importância
para a interpretação dos parâmetros – muito particularmente no quadro da Economia –,
o que vai permitir dar conteúdo à última frase da secção anterior (“a linearidade, ou não,
relativamente às variáveis desempenha um papel decisivo para interpretar os parâme-
tros”).
O objectivo de muitos estudos empíricos em Economia (e nas Ciências Sociais,
em geral) é determinar relações de causalidade entre duas variáveis. Trata-se de saber
se a variação de uma variável implica ou causa uma variação noutra variável. Neste
contexto, é crucial a noção de ceteris paribus [“supondo todos os outros factores (rele-
vantes) fixos”].
Efeitos parciais
Para ∆w j ≈ 0 , tem-se
∂z ∆z
≈ .
∂ w j ∆w j
que depende do valor de w3 (obtém-se um efeito marginal para cada valor fixado pa-
ra w3 ).
4) Seja a relação linear nas variáveis, z = α1 + α2 w2 + α3 w3 , onde z e w3 são variáveis
contínuas, e w2 é uma variável discreta. Suponha-se, para fixar ideias, que a variável
discreta w2 é uma variável de contagem (por exemplo, o número de dias de falta ao
trabalho de determinado trabalhador). Para medir as variações de z quando w2 se al-
tera, não se pode calcular a derivada parcial. Neste caso, quando w2 varia para
w2 + ∆w2 , z passa para z + ∆ z = α1 + α2 ( w2 + ∆w2 ) + α3 w3 . Facilmente se verifica que
∆ z = α2 ∆w2 ou
∆z
= α2 .
∆w2
Pode dizer-se que α 2 mede a variação de z quando w2 varia de uma unidade (por
exemplo, α 2 mede o efeito parcial sobre z de mais uma falta ao trabalho).
Capítulo 1 – Introdução 14
Então, ∆ z = z1 − z0 = α2 + α4 w3 depende de w3 .
Elasticidades
∆w j ∆z
%∆w j = 100 e %∆z = 100 .
wj z
∂ ln( z )
EL∗ ( z ; w j ) = .
∂ ln(w j )
Semi-elasticidades
que depende de w.
2) Considere-se z = α1 + α2 w2 , onde z e w são variáveis contínuas. A semi-elasticidade
de z em relação a w é
∆ z 1 α 2 (2 w + ∆w)
SEL( z ; w) = = .
∆w z α1 + α 2 w2
A respectiva semi-elasticidade pontual é dada por
dz 1 2α 2 w
SEL∗ ( z ; w) = = .
d w z α1 + α 2 w 2
Existe uma grande variedade de relações que se podem estudar sob a capa das
relações lineares. Com o objectivo de aprofundar esta questão, vão apresentar-se alguns
tipos de relações funcionais muito utilizados na prática. Por simplicidade de exposição,
estas relações consideram apenas uma variável explicativa, mas podem ser imediata-
mente generalizadas para duas ou mais variáveis.
0 1 2
Então,
d ln( z ) ∆ ln z ∆ z /z %∆ z
β2 = = ≈ = ,
d ln( w) ∆ ln w ∆ w / w %∆ w
Então,
α
∆w
1 + −1
%∆ z w
(1.12) EL( z ; w) = = .
%∆ w ∆w
w
O grau de aproximação entre (1.12) e (1.10) é ilustrado a seguir. Por exemplo,
suponha-se que z = w0.33 . O quadro seguinte apresenta os desvios entre β 2 = α = 0.33 e
%∆ z %∆ w :
d z 1 d ln( z )
(1.15) SEL∗ ( z ; w) = = = β2 .
dw z dw
A função dada por (1.13) também é conhecida pela designação de função de se-
mi-elasticidade constante.
-2 -1 0 1 2
Tem-se
d ln( z ) ∆ ln( z ) ∆ z / z %∆ z %∆ z
β2 = = ≈ = ⇔ 100 β 2 ≈ ,
dw ∆w ∆ w 100 ∆ w ∆w
c) A relação lin-log é outro tipo de relação semi-logarítmica, mas onde os papéis das
variáveis estão trocados, isto é, a variável explicada é especificada em níveis, e a variá-
vel explicativa, em logaritmos. Tem-se, então (ver figura 1.3),
(1.17) z = β1 + β2 ln( w) ( w > 0) .
Esta relação verifica a propriedade
Capítulo 1 – Introdução 22
dz
(1.18) = β2 .
d ln( w)
Como
d z β2 dz dz dw β
= e = = 2 w,
dw w d ln( w) d w d ln( w) w
0 1 2
Por exemplo, supondo que β 2 = 42.4 , o quadro seguinte mostra os desvios entre
β 2 e (100 × ∆ z ) %∆ w [note-se que ∆ z = β 2{ln( w + ∆w) − ln( w)} ]:
w ∆w %∆ w ∆z (100 × ∆ z ) %∆ w β 2 Desvios
600 6 1 0.4219 42.1894 42.4 – 0.2106
600 60 10 4.0412 40.4115 42.4 – 1.9885
600 120 20 7.7304 38.6522 42.4 – 3.7478
600 180 30 11.1242 37.0808 42.4 – 5.3192
Capítulo 1 – Introdução 23
e supondo w > 0 (que corresponde à situação mais habitual para as variáveis económi-
cas), verifica-se facilmente que: se β 2 > 0 , a função é decrescente e convexa, com uma
assíntota horizontal igual a β1 ; se β 2 < 0 , a função é crescente e côncava, com uma
assíntota horizontal igual a β1 .
e) A relação polinomial,
(1.20) z = δ 0 + δ1w + δ2 w2 + L + δ p w p ,
é uma relação linear (nos parâmetros) em que as variáveis x j são as sucessivas potên-
cias de w. Por exemplo, quando p = 2 (relação quadrática na variável w), os efeitos
marginais w sobre z são crescentes ou decrescentes conforme o sinal de δ 2 .
Quando w = t , a variável z tem tendência (linear, quando p = 1 ; quadrática,
quando p = 2 ; etc.).
Capítulo 1 – Introdução 24
Embora algumas questões sobre a análise empírica dos modelos, e sobre a natu-
reza dos dados, sejam abordadas mais adiante (ver secções 1.7 e 1.8), é importante, des-
de já, chamar a atenção para duas questões.
A primeira questão tem a ver com o modo como os dados podem ser obtidos
ou gerados. Assim:
a) Nas Ciências da Natureza (Física, Biologia, etc.), sobretudo em ambientes laborato-
riais, os dados resultam, muitas vezes, de uma situação controlada pelo investigador.
Neste caso, os dados dizem-se experimentais.
b) Em Economia (e, em geral, nas Ciências Sociais) os dados decorrem, quase sempre,
de um fenómeno passivamente observado pelo investigador. Nesta situação, os dados
são não experimentais.
(1.23) y = β1 x1 + β2 x2 + L + βk xk + u = xβ + u .
Convenção
Vai utilizar-se o mesmo símbolo para representar as variáveis aleatórias e os res-
pectivos valores concretamente observados.
O modelo (1.22) é formado apenas por uma equação que representa uma relação
de causalidade. Nestas condições, diz-se que (1.22) é uma equação estrutural, e os
respectivos parâmetros, α j , chamam-se parâmetros estruturais. Muitas vezes, estes
parâmetros são estimáveis exclusivamente apenas tendo por base a equação estrutural.
Diz-se, então, que a equação estrutural é directamente estimável. Outras vezes, tal não
acontece, sendo necessário combinar hipóteses adicionais sobre outras variáveis com
manipulações algébricas para obter uma equação estimável. Neste caso, é de esperar
que esta equação permita estimar alguns parâmetros estruturais (ou mesmo todos). Além
disso, pode haver motivos para estimar equações não estruturais, que pode ser,
nalguns casos, um passo preliminar para estimar uma equação estrutural.
Muitas vezes, supõe-se que
(1.24) h( w) = E ( z | w) = µ ( w) ,
ou seja, a componente sistemática do modelo é o valor esperado de z condicionado por
w. Daqui resulta que E (u | w) = 0 , isto é, o valor esperado da componente residual con-
dicionado por w é nulo. Neste caso, tem-se que u = z − E ( z | w) = z − µ ( w) , ou seja, a
variável residual não é mais do que o desvio entre z e o seu valor esperado condicionado
por w.
Quando se verifica (1.24), o valor esperado condicionado passa a desempenhar
um papel primordial na análise econométrica, uma vez que E ( z | w) coincide com a
componente sistemática do modelo. De facto, uma parte substancial dos desenvolvimen-
tos metodológicos em Econometria tem a ver com métodos de estimação de valores es-
perados condicionados. Neste contexto, é fundamental apresentar a seguinte definição:
A função µ (w) tem esta designação porque supõe-se que representa o compor-
tamento médio da variável z (normalmente associada a um certo tipo de agentes eco-
nómicos, ou outros), quando variam as componentes do vector w.
Capítulo 1 – Introdução 27
Como se pode comparar (1.30) com (1.29)? Como E{ln( z )| w} ≠ ln{ E ( z|w)} , as
duas elasticidades são diferentes. Contudo, se w e u são independentes, a igualdade é
verificada. Com efeito, notando que z = exp{g ( w) + u} = exp{g ( w)} exp{u} , vem
E ( z | w) = E (exp{g ( w)} exp{u} | w) = δ exp{g ( w)} ,
Capítulo 1 – Introdução 28
onde δ = E (exp{u} | w) = E (exp{u}) , uma vez que exp{u} e w também são independen-
tes. Então,
E{ln( z )| w} = E{g ( w) + u | w} = g ( w) e ln{ E ( z|w)} = ln(δ ) + g ( w)
têm derivadas iguais em relação a ln(w) . Por exemplo, se
ln( z ) = β1 + β 2 ln(w1 ) + β 2 w2 + u ,
e se u tem valor esperado nulo e é independente de ( w1 , w2 ) , a elasticidade de z em rela-
ção a w1 é β 2 , usando qualquer das duas definições.
Se E (u | w) = 0 , mas w e u não são independentes, as duas definições dão resul-
tados diferentes, embora, em muitas situações, as diferenças não sejam significativas,
desde que z > 0 . Contudo, a primeira definição é mais geral porque pode utilizar-se em
casos em que não existe ln(z ) [mas existe ln{ E ( z|w)} ].
Escolher a lista adequada de variáveis de controlo nem sempre é fácil; a utiliza-
ção de listas diferentes pode conduzir a conclusões diferentes sobre a relação de causali-
dade entre z e w j . É por esta razão que estabelecer causalidades pode ser complicado,
pois depende dos factores que se supõem constantes.
Admitindo que se conhece a lista de variáveis de controlo, e supondo que estas
variáveis são observáveis, não é complicado, em geral, estimar o efeito parcial pretendi-
do. Infelizmente, em Economia (nas Ciências Sociais) muitas das variáveis de controlo
não são observáveis.
Podem, ainda, surgir outros problemas que interferem na estimação de relações
de causalidade. Para exemplificar, vão referir-se duas situações:
a) Erros de medida nas variáveis. Mesmo que a lista de variáveis de controlo esteja
correctamente especificada, pode acontecer que não seja possível dispor de medidas
suficientemente rigorosas de w j ou de z;
b) Simultaneidade. As variáveis w j e z são simultaneamente determinadas, e as únicas
observações disponíveis são valores de equilíbrio (como pode acontecer nos casos
dos exemplos 1.7, 1.9 e 1.10).
Fazendo µ (educ, c) = E (lsalar | educ, c) , com c = [ exper empc mulher aptid ], su-
põe-se que o comportamento médio do logaritmo do salário é dado por
Capítulo 1 – Introdução 29
Assim, β 2 mede o efeito parcial de educ sobre o valor esperado do logaritmo do sa-
lário condicionado por educ e pelas variáveis de controlo. Este efeito não é estimá-
vel, uma vez que a variável de controlo aptid não é observável.
A semi-elasticidade (pontual) média de salar em relação a educ é, então,
∂µ (educ, c) 1
× .
∂ educ µ (educ, c)
É óbvio que esta semi-elasticidade também não é estimável.
Desprezando a variável não observável, aptid, esta passa a estar incluída na variável
residual, u. Como é de esperar que haja correlação entre aptid e educ, verifica-se
que E (educ × aptid ) ≠ 0 . Então, E (u | educ, c) ≠ 0 , onde o vector das variáveis de
controlo é, agora, c = [ exper empc mulher ]. Neste caso,
E (lsalar | educ, c) = β1 + β 2 educ + β 3 exper + β 4 empc + β 5 mulher + E (u | educ, c) ,
Para terminar esta secção vão apresentar-se algumas propriedades gerais dos va-
lores esperados condicionados (médias, variâncias e covariâncias), envolvendo variá-
veis aleatórias e vectores aleatórios.
Capítulo 1 – Introdução 30
do, o problema difícil [o cálculo directo de E (z ) ] pode ser resolvido mediante a re-
solução de dois problemas mais simples: o conhecimento ou a determinação da fun-
ção µ (w) ; o cálculo do respectivo valor esperado.
Apresentam-se dois exemplos simples:
1. Se E ( z | w) = a (constante) então E ( z ) = a. Com efeito,
E ( z ) = E{E ( z | w)} = E (a) = a
Contudo, E ( z ) = a não implica E ( z | w) = a .
2. Seja w é um vector aleatório discreto que assume os valores c•1 , c• 2 , K , c• m com
probabilidades p1 , p2 , K , pm , respectivamente. Então,
E ( z ) = p1E ( z | w = c•1 ) + p2 E ( z | w = c• 2 ) + L + pm E ( z | w = c• m ) ,
obtém-se
µ2 ( w1 , w2 ) = E ( z | w1, w2 ) = α 0 + α1w1 + α 2 w2 + α 3w12 + α 4 w1w2 ,
onde
α 0 = β 0 + β 3 δ 0
α = β + β δ + β δ
1 1 3 1 4 0
α 2 = β 2 + β 3 δ 2
α = β δ
3 4 1
α 4 = β 4 δ 2 .
− A regra do valor esperado iterado [propriedade b)] tem outra implicação importan-
te. Suponha-se que para alguma função vectorial, g (x) , e para alguma função (esca-
lar), h, tem-se E ( z | x) = h{g ( x)} . Então,
E{z | g ( x)} = E ( z | x) = h{g ( x)} .
Com efeito, de acordo com a propriedade b), tem-se
E{z | g ( x)} = E{E ( z | x) | g ( x)} = E{h{g ( x)} | g ( x)} = h{g ( x)} = E ( z | x) .
Este resultado pode ser apresentado de outro modo. Com efeito, fazendo w = g (x) ,
vem E ( z | w) = h( w) .
Pode concluir-se que: se o valor esperado de z condicionado por x é uma função de x,
é redundante condicioná-lo por g (x) ; basta condicioná-lo por x.
Por exemplo, suponha-se que
Capítulo 1 – Introdução 33
x1
x2
g ( x1 , x2 ) = 2 ,
x2
x1 x2
Supondo que E (u | x) = 0 , e como w j = g j (x) , pode concluir-se que u não está corre-
lacionado com qualquer w j (e com qualquer função dos w j ).
− A propósito da regra do valor esperado iterado, pode enunciar-se uma outra pro-
priedade muito importante:
− Sejam u, x e w três vectores aleatórios. Se ( u, x ) é independente do vector w, en-
tão E (u | x) = E (u | x, w) .
− Para justificar a propriedade d), basta invocar que nos valores esperados condicio-
nados por w, as funções de w são consideradas constantes.
− Para provar a propriedade e), começa-se por notar que E (u | w) = 0 . Então, devido à
propriedade a), tem-se E{h( w) u} = E ( E{h( w) u | w}) = E{h( w) E (u | w)} = 0 . Fica ao
cuidado do leitor verificar que E (u ) = 0 e que Cov( w j , u ) = 0 .
− Pode referir-se dois casos particulares importantes da propriedade f):
− {E ( z | w)}2 ≤ E ( z 2 | w) ;
− Se z > 0 , então − ln{E ( z | w)} ≤ E{− ln( z ) | w} , ou E{ln( z ) | w} ≤ ln{E ( z | w)} .
− As propriedades h) e j) são passíveis de comentário semelhante ao da propriedade
a): o problema do cálculo directo de Var( z ) ou de Cov ( z1 , z2 ) é decomposto em ou-
tros problemas mais simples. Por exemplo, para determinar Cov ( z1 , z2 ) , primeiro de-
termina-se σ12 ( w) = Cov ( z1 , z2 | w) , µ1 ( w) = E ( z1 | w) e µ 2 ( w) = E ( z2 | w) . Em segui-
da, calcula-se E{σ 12 ( w)} e Cov{µ1 ( w), µ 2 ( w)} .
− Como consequência da propriedade i), pode provar-se que
Capítulo 1 – Introdução 34
Também se tem
E ( z1 | w) µ1 ( w)
E ( z | w) µ ( w)
E ( z | w) = 2 = 2 ,
M M
E ( zm | w) µ m ( w)
onde µi ( w) = E ( zi | w) , para i = 1, 2, K , m .
Então,
Var{µ1 ( w)} Cov{µ1 ( w), µ2 ( w)} L Cov{µ1 ( w), µ m ( w)}
Cov{µ ( w), µ ( w)} Var{µ 2 ( w)} L Cov{µ 2 ( w), µ m ( w)}
Cov{E ( z | w)} = 2 1
.
M M M
Cov{µ m ( w), µ1 ( w)} Cov{µm ( w), µ 2 ( w)} L Var{µm ( w)}
Por exemplo, verifica-se imediatamente que
Cov( z2 , z4 ) = E{Cov( z2 , z4 | w)} + Cov{E ( z2 | w), E ( z4 | w)}
= E{σ 24 ( w)} + Cov{µ2 ( w), µ4 ( w)}.
Como, em geral, este efeito parcial depende de v, não é possível estimá-lo. Con-
tudo, em certas condições, é possível determinar o valor esperado de θ j ( w, v ) , a partir
da distribuição de v. Este valor esperado avaliado em w0 (valor assumido por w) é dado
por
δ j ( w0 ) = Ev {θ j ( w0 , v)} .
onde: a primeira igualdade decorre a lei do valor esperado iterado; a segunda, resulta da
hipótese da redundância; a terceira, é consequência da independência condicional. Deri-
vando parcialmente, e supondo que a derivada parcial é permutável com o integral, vem
∂ µ2 ( w, q )
= ∫ θ j ( w, v) f (v | q )dv .
∂wj ℜ
Quadro 1.1
Dados seccionais
N.º US z w1 w2 … wp
1 US1 z1 w11 w12 … w1 p
2 US2 z2 w21 w22 … w2 p
M M M M M M
n USn zn wn1 wn 2 … wnp
Nalguns casos, pode acontecer que os dados não correspondam exactamente, para
todas as entidades observadas, à mesma data. No entanto, se os dados se referem a
datas relativamente próximas, pode considerar-se que fazem parte do mesmo con-
junto de dados seccionais. Por exemplo, se há observações de despesas e de recei-
tas de certas famílias realizadas num certo mês, e há observações de outras famílias
feitas no mês seguinte, é lícito, em muitos casos (depende dos meses!), supor que
esta pequena variação temporal não afecta significativamente a análise empírica.
Uma característica fundamental dos dados seccionais é que a ordem das observa-
ções é irrelevante (pouco importa qual é a primeira família observada ou a vigési-
ma quinta!).
Capítulo 1 – Introdução 39
Quadro 1.2
Dados temporais
N.º Data z w1 w2 … wp
1 Data 1 z1 w11 w12 … w1 p
2 Data 2 z2 w21 w22 … w2 p
M M M M M M
n Data n zn wn1 wn 2 … wnp
em determinados meses do ano). Neste caso, diz-se que a variável tem sazonali-
dade.
As séries temporais têm grande importância para o estudo de muitos fenómenos de
natureza económica e, em especial, na macroeconomia aplicada (estudo agregado
do comportamento do consumo, do investimento, das importações, das exportações,
das finanças públicas, da procura de moeda, da inflação, das taxas de juro, etc.).
Além das duas categorias básicas de dados apresentadas, convém referir mais
duas que, de certo modo, são derivadas daquelas.
c) Dados seccionais combinados. Alguns conjuntos de dados têm aspectos seccionais
e temporais. Diz-se que se tem um conjunto de dados seccionais combinados (poo-
led cross sections) quando se juntam vários conjuntos de dados seccionais, cada um
referente a certa data (momento ou período de tempo). Por exemplo, em determina-
do ano tem-se um conjunto de 200 famílias (com as respectivas despesas e receitas),
e cinco anos depois tem-se outro conjunto de 250 famílias. Este tipo de dados pode
ser analisado como se fosse um conjunto de dados seccionais, mas tem a vantagem
de permitir testar se as famílias têm comportamentos diferentes nos dois anos con-
siderados. Obviamente que o primeiro conjunto de 200 famílias não coincide com o
segundo conjunto de 250 famílias (o mais provável é que os dois conjuntos sejam
disjuntos!) Estes dados podem ser apresentados num quadro semelhante ao dos da-
dos seccionais, mas a chave identificadora é formada pela data e pela unidade
seccional (ver quadro 1.3).
Quadro 1.3
Dados seccionais combinados
N.º Data US z w1 w2 … wp
1 Data 1 US1 z1 w11 w12 … w1 p
2 Data 1 US2 z2 w21 w22 … w2 p
M M M M M M M
m Data 1 USm zm wm1 wm 2 … wmp
m +1 Data 2 USm +1 z m+1 wm+1,1 wm+1, 2 … wm+1, p
m+2 Data 2 USm + 2 z m+ 2 wm+2,1 wm+2, 2 … wm+ 2, p
M M M M M M M
n Data 2 USn zn wn1 wn 2 … wnp
dificulta a sua obtenção. Contudo, pode ter-se omissão de observações para sub-
conjuntos de unidades seccionais em determinadas datas (painéis de dados não ba-
lanceados).
Muitas vezes, a chave identificadora do quadro das observações deste tipo de da-
dos é o par ordenado (unidade seccional, data) [ver quadro 1.4].
Quadro 1.4
Dados de painel
N.º US Data z w1 w2 … wp
1 US1 Data1 z11 w111 w112 … w11 p
2 US1 Data 2 z21 w211 w212 … w21 p
M M M M M M M
q US1 Data q zq1 wq11 wq12 … wq1 p
q +1 US2 Data 1 z12 w121 w122 … w12 p
q+2 US2 Data 2 z 22 w221 w222 … w22 p
M M M M M M M
2q US2 Data q zq 2 wq 21 wq 22 … wq 2 p
M M M M M M M
(m − 1)q + 1 USm Data 1 z1m w1m1 w1m 2 … w1mp
(m − 1)q + 2 USm Data 2 z2 m w2m1 w2m 2 … w2 mp
M M M M M M M
n = mq USm Data q zqm wqm1 wqm 2 … wqmp
A observação genérica da variável explicada é identificada por dois índices: um, re-
fere-se à unidade seccional; o outro, à data. Assim, tem-se zti para i = 1, 2, K , m e
t = 1, 2, K , q . As observações das variáveis explicativas representam-se por wtij [ob-
servação da variável explicativa w j ( j = 1, 2, K , p ) , relativa à unidade seccional i e
à data t].
Noutros casos, é conveniente apresentar os dados com outra chave identificadora,
correspondente ao par ordenado (data, unidade seccional), e obtinha-se um quadro
de dados de painel semelhante ao quadro 1.3.
Embora os dados de painel possam ser encarados como dados seccionais combina-
dos, existem métodos adequados que, com vantagem, tiram partido da sua caracte-
rística essencial (conjunto fixo de entidades a observar). As vantagens têm a ver
com o facto de se dispor de várias observações temporais para a mesma entidade,
e de se poder analisar, em alguns casos, os seus lags de comportamento.
A distinção entre dados seccionais e dados temporais é, como vai ver-se, crucial
para a Econometria. Tendo presente a premissa básica – e supondo que o modelo é
constituído apenas por uma relação (1.22) –, vão fazer-se alguns comentários sobre
os dois tipos fundamentais de dados no que diz respeito aos seguintes aspectos:
Capítulo 1 – Introdução 42
Dados seccionais
que tanto pode ser encarada como uma sequência de n vectores aleatórios ou de n vec-
tores efectivamente observados.
Muitas vezes, supõe-se que os dados seccionais são obtidos por amostragem ca-
sual. Então, tendo em conta a premissa básica atrás referida, os vectores aleatórios
( zt , wt1 , wt 2 , K , wtp ) são iid (independentes e identicamente distribuídos) [no caso de da-
dos seccionais combinados (pooled cross sections), com amostras casuais obtidas em
diferentes datas (para a mesma população), não é razoável aceitar a hipótese de que os
dados são iid; é mais credível supor que as observações são inid (independentes e não
identicamente distribuídas)].
Noutras situações, pode não ser apropriado estabelecer a hipótese da casualidade
no processo de amostragem, sendo de considerar outros tipos de amostragem (amos-
tragem estratificada, amostragem por conglomerados, etc.).
Por exemplo, se se estiver interessado em estudar os factores que explicam a
acumulação de riqueza por parte das famílias, pode acontecer que grande parte das fa-
mílias mais ricas se recusem a revelar as respectivas riquezas. Neste caso, a amostra
disponível não é uma amostra casual da população.
Outra situação interessante, em que não é adequado supor que o processo de
amostragem é casual, é aquela em que as entidades a serem observadas são poucas e
têm, individualmente, um peso relativamente importante no contexto da respectiva po-
pulação. Por exemplo, se se pretendesse estudar, em função de determinados factores, o
número de empresas novas criadas em certo ano nos vários distritos do continente por-
tuguês, não é razoável admitir a independência de comportamentos em distritos próxi-
mos, pois existe correlação espacial. A população de certos distritos não é suficiente-
mente grande para diluir a influência de cada um sobre os outros (pelo menos, sobre os
mais próximos), ou cada distrito é suficientemente grande para induzir comportamentos
nos distritos vizinhos.
A amostragem por conglomerados (cluster sampling) também induz correla-
ção em dados seccionais. Por exemplo, as poupanças de reforma dos empregados de
uma empresa podem estar correlacionadas devido às características comuns dos traba-
lhadores da empresa (muitas vezes não observáveis) ou devido às características da pró-
pria empresa (por exemplo, o tipo de plano de reformas). Como cada empresa represen-
Capítulo 1 – Introdução 43
Exemplo 1.16 – Os modelos apresentados nos exemplos 1.2, 1.4, 1.5, 1.6, 1.9 e 1.10
são modelos geradores de dados seccionais.
a) Exemplo 1.2: a população é o conjunto de todas as unidades produtivas de um certo
bem num determinado país ou região, num determinado ano. A amostra casual se-
ria formada por um subconjunto da população. A amostra também podia ser estrati-
ficada em função da dimensão das empresas.
b) Exemplo 1.4: Supondo que a população é constituída por todos os trabalhadores de
uma determinada região e num determinado ano, pode não ser difícil obter uma
amostra casual. No entanto, se a população é formada por todas as pessoas da
mesma região, podem surgir problemas na selecção da amostra, uma vez que podem
ser escolhidas pessoas que não trabalham, e, portanto, o salário não é observável.
Fica a questão de saber qual a população que deve ser considerada para se ter uma
explicação adequada do comportamento dos salários.
c) Exemplo 1.5: a população é formada pelos alunos de Economia e Gestão do ISEG
inscritos na disciplina de Estatística em determinado semestre. No caso de amostra-
gem casual, obtinha-se uma amostra de alunos, sem atender ao curso e às turmas a
que pertencem. No entanto, a amostra podia ser estratificada, escolhendo-se para
factores de estratificação o curso e o facto de o aluno ser repetente ou não.
d) Exemplo 1.6: para estimar viag realizou-se um inquérito, por amostragem casual, à
população activa da AML a norte do Tejo, referido a um dia útil razoavelmente
representativo do tráfego rodoviário.
Cada inquirido tinha que responder a três perguntas:
1) Qual o concelho onde habita?
2) Qual o concelho onde trabalha?
3) Se naquele dia foi de automóvel para o trabalho?
Como existiam, naquela data, nove concelhos da AML a norte do Tejo (Amadora,
Azambuja, Cascais, Lisboa, Loures, Mafra, Oeiras, Sintra e Vila Franca de Xira),
agruparam-se os inquiridos em 72 categorias, tantas quantas os pares de concelhos
(existiam oito destinos possíveis para cada uma das nove origens). Depois de elimi-
nados os casos em que o concelho de habitação coincidia com o concelho de traba-
lho, calculou-se, para cada categoria, a proporção de respostas afirmativas à pergun-
ta 3), a qual, multiplicada pela população activa do respectivo concelho de origem,
permitiu estimar viag, para o dia seleccionado.
Os dados para estimar a relação proposta no exemplo 1.6, depois de logaritmizada,
são formados por 72 observações do seguinte vector de variáveis:
[ ln(viag ) ln( pop) ln(nemp) ln(dist ) ].
Capítulo 1 – Introdução 44
Note-se que não se dispõe das verdadeiras observações de viag, mas das estimativas
obtidas da forma indicada.
A “amostra” assim construída permitiria estimar os parâmetros do modelo. Não é
fácil delimitar a população subjacente a esta amostra. No entanto, pelo menos sabe-
-se que foi seleccionada uma amostra casual da população activa da AML.
e) Exemplo 1.9: a população pode ser formada pelo conjunto de cidades com mais de
100000 habitantes num determinado país ou região, e num certo ano. O subconjunto
de cidades que constitui a amostra podia ser obtido por amostragem casual.
f) Exemplo 1.10: a população corresponde, por exemplo, ao conjunto dos 27 países da
União Europeia, num determinado ano. Neste caso, a amostra podia coincidir com
a população.
∇
Dados temporais
Como é difícil admitir que as observações de uma mesma variável são indepen-
dentes, não se pode supor que os vectores aleatórios ( zt , wt1 , wt 2 , K , wtp ) sejam iid. No
entanto, pode pensar-se, intuitivamente, que cada elemento de uma série temporal é o
valor assumido por certa variável aleatória, uma vez que em cada data não se sabe qual
o valor da variável na data seguinte.
Formalmente, pode considerar-se que a partir de uma sucessão de vectores alea-
tórios,
{( zt , wt1 , wt 2 , K , wtp ) : t = 1, 2, K}
(habitualmente designada por processo estocástico ou aleatório), se pode obter uma se-
quência (finita) de vectores,
{( zt , wt1 , wt 2 , K , wtp ) : t = 1, 2, K , n} ,
que constitui a amostra. Tal como nos dados seccionais, esta sequência tanto pode ser
encarada como uma sequência de n vectores aleatórios ou de n vectores efectivamente
observados.
Diz-se, então, que a amostra efectivamente observada é uma realização finita do
processo estocástico. Assim, os dados disponíveis são interpretados como a única rea-
lização (finita) do processo estocástico, uma vez que não se pode recuar no tempo e re-
começar o processo de novo. Neste contexto, a população em estudo é o conjunto de
todas as realizações possíveis do processo estocástico.
Exemplo 1.17 – Os modelos apresentados nos exemplos 1.1, 1.3, 1.7 e 1.8 podem ser
considerados como modelos geradores de dados temporais.
a) Exemplo 1.1: considere-se a sucessão de vectores aleatórios com duas componentes
(processo estocástico bidimensional), {(const , rdispt ) : t = 1, 2, K} . A população é o
conjunto de todas as realizações possíveis desta sucessão. Quando, por exemplo, se
dispõe de dados sobre estas variáveis de 1970 a 2006, tem-se uma amostra.
b) Exemplo 1.3: considerando o processo estocástico tridimensional,
Capítulo 1 – Introdução 45
PALAVRAS-CHAVE
Amostra Regra do valor esperado total
Amostragem casual Relação de causalidade
Análise ceteris paribus Relação inversa
Análise empírica Relação linear(izável)
Componente residual Relação lin-log
Componente sistemática Relação logística
Dados Relação log-lin
Dados de painel Relação log-log
Dados (não) experimentais Relação polinomial
Dados seccionais (combinados) Relação quadrática
Dados temporais Resposta média
Desfasamento (lag) Sazonalidade
Econometria Semi-elasticidade (pontual)
Efeito marginal (pontual) Série temporal
Efeito parcial Simultaneidade
Elasticidade (pontual) Taxa de variação
Equação estimável Tendência
Equação estrutural Tendência exponencial
Erro de medida Tendência linear
Factor não observável Tendência quadrática
Factor qualitativo Teoria
Heterogeneidade não observada Unidade seccional
Independência condicional Valor esperado condicionado estrutural
Inferência estatística Variação absoluta
Interacção Variação percentual
Linearidade relativa aos parâmetros Variação relativa
Linearidade relativa às variáveis Variável binária
Linearidade (intrínseca) Variável contínua
Macroeconometria Variável de contagem
Microeconometria Variável de controlo
Modelo da população Variável dependente
Modelo econométrico Variável discreta
Modelo teórico Variável explicada
Ordem cronológica Variável explicativa
Parâmetro (estrutural) Variável independente
População Variável qualitativa
Premissa básica da Econometria Variável quantitativa
Processo de amostragem Variável residual
Processo estocástico Variável resposta
Regra do valor esperado iterado Vector redundante (ignorável)
Capítulo 1 – Introdução 47
PERGUNTAS DE REVISÃO
onde
β1
β
2
M
xt • = [ xt1 xt 2 L xtj L xtk ] e β =
β j
M
β k
Como vai ver-se na secção seguinte, é crucial conhecer as hipóteses que relacio-
nam a variável residual com as variáveis explicativas. Por exemplo:
− O valor esperado de u, condicionado por educ, exper e empc, é nulo?
− A variância de u, condicionado pelas mesmas variáveis, é constante? Ou depende
dos valores de certas variáveis explicativas?
− A correlação entre u e cada uma das variáveis explicativas é nula? Ou há correlações
significativas entre a variável residual e algumas variáveis explicativas?
As respostas a estas perguntas (e outras) são decisivas para uma adequada análi-
se econométrica do modelo em estudo. Para este efeito (nomeadamente, para a análise
das propriedades dos estimadores dos coeficientes de regressão), é vantajoso explicitar,
para cada variável, um índice t identificador dos trabalhadores que, genericamente, po-
dem ser seleccionadas da população. Assim, tem-se
lsalart = β1 + β 2 educt + β3 expert + β 4 empct + ut .
Este modelo vai ser utilizado para exemplificar as hipóteses básicas do MRL
(ver secção 2.2) e para ilustrar, no presente capítulo, os vários aspectos da análise esta-
tística do MRL.
∇
x1•
x
2•
M
[
X = x•1 x•2 L x• j L x•k ] = .
xt •
M
xn•
Quando o modelo tem termo independente (caso muito frequente), tem-se
1
1
x•1 = e = .
M
1
− U é o vector n × 1 das variáveis residuais.
(2.4) yt = xt • β + ut (t = 1, 2,K, n) ,
ou
(2.5) Y = β1 x•1 + β 2 x• 2 + L + β j x• j + L + β k x• k + U .
7.53773 1 11 17 11 β1 u1
6.31180 1 15 8 8
u2
β
M , X = M M M M , β = , U = M .
2
Y =
β3 u999
7.05908 1 12 13 2
7.27514 β 4
1 12 15 3 u1000
[esta propriedade pressupõe a seguinte definição: duas variáveis aleatórias são orto-
gonais se e só se o valor esperado do produto é igual a 0].
Com efeito, atendendo às propriedades a) e d),
E ( xtj u s ) = E{E ( xtj u s | xtj )} = E{xtj E (u s | xtj )} = 0 .
onde 0 é o vector nulo. Este resultado garante que a observação t de cada regressor é
ortogonal, não só à variável residual associada à observação t, mas a qualquer outra
variável residual.
− As covariâncias entre os regressores e as variáveis residuais são nulas:
Cov( xtj , u s ) = 0 ( t , s ∈ T ; j = 1, 2, K , k ).
porque E (u s ) = 0 e E ( xtj u s ) = 0 .
Utilizando a notação matricial, vem
Cov( xt • , us ) = 0 ( t , s ∈ T ).
Assim, a observação t de cada regressor não está correlacionada, não só com a variá-
vel residual associada à observação t, mas com qualquer outra variável residual. Dito
de outro modo, não há associação linear entre as respectivas variáveis.
− Qualquer função dos regressores é ortogonal às variáveis residuais:
E{g ( xt • ) us } = 0 ( t , s ∈ T ).
Com efeito,
E{( g ( xt • ) us } = E ( E{g ( xt • ) us | xt • }) = E{g ( xt • ) E (us | xt • )} = 0 .
A função µ (⋅) é adequada para fazer a análise ceteris paribus de relações de causa-
lidade, estudando os respectivos efeitos parciais (ver secção 1.6).
− Quando se dispõe da amostra {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , a condição (2.6)
implica que E (ut | x1• , x2• , K , xn• ) = 0 ou que E (ut | X ) = 0 (t = 1, 2, K , n) . Pode es-
crever-se E (U | X ) = 0 [e, portanto, E (U ) = 0 ]. Também se tem: E (Y | X ) = Xβ .
Convém fazer ainda mais alguns comentários sobre a hipótese REX.2 e a natu-
reza dos dados:
1) Com dados seccionais e amostragem casual é fácil verificar que, pelo facto de os
vectores aleatórios ( yt , xt • ) serem iid, o mesmo sucede com (ut , xt • ) , já que ut é
função de yt e xt • . Então, pouco importa a distinção entre exogeneidade estrita e
exogeneidade para a mesma unidade seccional. De facto, não é necessário explicitar
como a variável residual relativa à unidade seccional t está relacionada com as ob-
servações dos regressores para outras unidades seccionais, porque ut é independente
de xs• ( s ≠ t ) . Neste caso, tem-se sempre
E (ut | XT ) = E (ut | xt • ) (t ∈ T ) ,
com E (ut | XT ) = 0 . Este modelo é conhecido pela designação de MRL com desfa-
samento escalonado finito de ordem r ou DL(r) [DL significa Distributed Lags].
3) É possível encontrar, com facilidade, exemplos de modelos de regressão linear com
dados temporais, em que a hipótese REX.2 não se verifica. Considere-se o modelo
dinâmico
yt = β1 + β 2 yt −1 + ut ,
Exemplo 2.3 – Admitindo que os dados são seccionais e a amostragem é casual, supo-
nha-se que era especificado o modelo (ver exemplo 2.1),
lsalart = β1 + β 2 educt + ut ,
omitindo-se as variáveis exper e empc. Assim, a variável residual passa a abranger estes
factores explicativos (para além de outros, como a aptidão, o género, o número de anos
de escolaridade do pai e da mãe do trabalhador, o número de filhos, o local da habita-
ção, etc.).
Como, por exemplo, é de esperar que exper e educ estejam negativamente corre-
lacionados (quando a escolaridade aumenta, a experiência profissional diminui), a variá-
vel residual está correlacionada com educ. Nesta situação, tem-se
E (lsalart | educt ) = β1 + β 2 educt + E (ut | educt ) ,
em que E (ut | educt ) depende de educt . Deste modo, o parâmetro β 2 não mede o efeito
ceteris paribus de educ sobre lsalar, e o modelo não está correctamente especificado.
Note-se que:
∂ E (lsalart | educt ) ∂ E (ut | educt )
= β2 + .
∂ educt ∂ educt
onde a variável residual já não inclui exper. Neste caso, deve exigir-se que o valor espe-
rado condicionado, E (ut | educt , expert ) , não dependa dos factores condicionantes. No
entanto, é natural que empc e exper (ou empc e educ) estejam correlacionados, o que
significa que o modelo continua mal especificado (a hipótese REX.2 é violada).
Propõe-se, então,
lsalart = β1 + β 2 educt + β 3 expert + β 4 empct + ut ,
nenhuma das três variáveis (educ, exper, empc) está correlacionada com a variável resi-
dual: os três regressores são exógenos. Ter-se-ia, então, o seguinte valor esperado con-
dicionado estrutural:
E (lsalart | educt , expert , empct ) = β1 + β 2 educt + β3 expert + β 4 empct .
Para garantir a especificação correcta do modelo não basta afirmar, por exemplo,
que a correlação entre a variável residual e exper é nula, uma vez que esta ausência de
correlação estabelece apenas que não há associação linear entre as duas variáveis. Se
houvesse correlação entre a variável residual e exper 2 , o modelo continuava mal espe-
cificado porque E (ut | educt , expert , empct ) dependia de expert . Nestas circunstâncias,
devia fazer-se
lsalart = β1 + β 2 educt + β 3 expert + β 4 expert 2 + β 5 empct + ut .
No entanto, continua a ser possível que educ esteja correlacionado com a variá-
vel residual, porque educ pode depender de aptid (aptidão da pessoa) ou de mulher.
Embora seja imediato controlar o factor género, não teria sentido controlar o factor
aptid (incluindo-o na componente sistemática do modelo), uma vez que se trata de um
factor não observável. Provavelmente deveria manter-se a especificação do modelo, mas
a hipótese REX.2 era violada. Esta questão será retomada no capítulo 4.
∇
Este resultado mostra uma diferença essencial entre as hipóteses REX.2 e REX.3.
Enquanto esta hipótese implica que a variância do regressando, condicionada pelos
regressores, não depende destes, a hipótese REX.2 origina que o valor esperado do
regressando, condicionado pelos regressores, já depende.
Note-se que Var( yt ) ≠ σ 2 . Com efeito, atendendo à propriedade h) dos valores espe-
rados condicionados, tem-se
Var( yt ) = E{Var( yt | XT )} + Var{E ( yt | XT )}
= σ 2 + Var( xt • β ) = σ 2 + β T Cov( xt • ) β ≠ σ 2 .
dicionada deve ser encarada como tal, e os parâmetros devem ser estimados utilizando
técnicas apropriadas.
Exemplo 2.4 – Retomando o exemplo 2.3, e continuando a admitir que os dados são
seccionais e a amostragem é casual, a homocedasticidade condicionada significa que
Var(ut | educt , expert , empct ) = σ 2 .
Se, pelo contrário, a variância da variável residual dependesse, por exemplo, dos
valores observados para exper, ter-se-ia
Var(ut | educt , expert , empct ) = σ 2 (expert ) ,
A quinta hipótese refere-se apenas aos regressores, e garante que existe a ma-
triz dos valores esperados dos elementos da matriz xtT• xt • , e a respectiva inversa.
Comentários:
a) A matriz Qxx = E ( xtT• xt • ) é simétrica, uma vez que
xt21 xt1 xt 2 K xt1 xtk
x x xt22 L xt 2 xtk
xt • xt • = t1 t 2
T
.
M M M
xt1 xtk xt 2 xtk L xtk2
Capítulo 2 – O Modelo de Regressão Linear Clássico 15
b) A hipótese REX.5 implica que Qxx tem característica igual a k, e é definida positi-
va. Pode, então, afirmar-se que a hipótese falha se e só se um dos regressores é com-
binação linear de outros regressores.
Por exemplo se yt = β1 + β 2 ln( xt ) + β3 ln( xt2 ) + ut , tem-se
1 1 ln( xt ) 2 ln( xt )
xtT• xt • = ln( xt ) [ 1 ln( xt ) 2 ln( xt )] = ln( xt ) {ln( xt )}2 2{ln( xt )}2 ,
2 ln( xt ) 2 ln( xt ) 2{ln( xt )}2 4{ln( xt )}2
e verifica-se que, por exemplo, a terceira coluna é o dobro da segunda. Em casos co-
mo este, diz-se que o modelo da população tem multicolinearidade exacta ou per-
feita. A condição de característica não exclui a possibilidade de haver correlações en-
tre regressores; contudo, não permite que estas correlações sejam perfeitas.
c) Quando se dispõe da amostra {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , pode concluir-se
que, em certas condições de regularidade (ver capítulo 3), a hipótese REX.5 implica
que a característica da matriz X é igual a k (número de coeficientes de regressão),
r ( X ) = k , com probabilidade 1. Isto significa que, dada a sucessão de acontecimen-
tos {Cn : n = k , k + 1, K} , onde Cn = {numa amostra de dimensão n, r ( X ) = k} , tem-se
lim P(Cn ) = 1 .
n → +∞
Como
xt • = [ 1 educt expert empct ],
As hipóteses são designadas com o prefixo REX para lembrar que os regresso-
res são estritamente exógenos.
O MRLC tem particular vocação para o estudo de relações entre variáveis com
dados seccionais e amostragem casual. No entanto, há situações interessantes em que
o MRLC para séries temporais permite estimar razoavelmente alguns efeitos parciais
relativos a variáveis macroeconómicas. É o caso do efeito da taxa de inflação, ou da
proporção do défice orçamental em relação ao PIB, sobre a taxa de juro.
Habitualmente, a expressão “modelo de regressão linear clássico” estava reser-
vada para designar o “modelo de regressão linear com regressores fixos”, tão conhe-
cido do estudo tradicional da Econometria. Neste modelo, supõe-se que, para a observa-
ção t, se obtém um valor para o regressando, e certos valores para os regressores; se fos-
se possível repetir a experiência, ainda para a observação t, podia obter-se outro valor
para o regressando, mas os valores dos regressores eram os mesmos. Deste modo, para
cada observação, o valor do regressando podia flutuar de amostra para amostra, mas os
valores dos regressores eram constantes.
Facilmente se conclui que esta concepção do modelo pode ser interessante para
gerar dados experimentais, mas não é compatível com o tipo de hipóteses que se po-
Capítulo 2 – O Modelo de Regressão Linear Clássico 17
dem considerar num MRL em Economia. Por exemplo, estaria eliminada, por natureza,
a possibilidade de haver correlação não nula entre a variável residual e qualquer
regressor (admitir que há regressores exógenos pressupõe a possibilidade de existirem,
também, regressores endógenos). Para ilustrar o contra-senso da hipótese dos
regressores fixos, considere-se a seguinte afirmação (que aparece em muitos manuais de
econometria): “ σ 2 = Var(ut ) = Var( yt ) , qualquer que seja t”. Esta afirmação é falsa
quando os regressores são aleatórios, mas é verdadeira quando os regressores são fixos.
Trata-se de uma situação em que a hipótese dos regressores fixos conduz a conclusões
contra-intuitivas. De facto, suponha-se que w é um factor explicativo de y, está incluído
na variável residual e não está correlacionado com os regressores. Quando se dispõe de
observações de w, esta variável pode ser acrescentada à lista dos regressores. Neste ca-
so, a variável residual muda, bem como a respectiva variância (é menor do que a an-
terior). Deste modo, a hipótese dos regressores fixos pressupõe que existe sempre a pos-
sibilidade de aceder a todos os factores explicativos possíveis de controlar; só deste mo-
do fica garantido que não haverá qualquer factor w, inicialmente abrangido pela compo-
nente residual, que possa ser “transferido” para a componente sistemática. Esta especifi-
cação perfeita do modelo é praticamente impossível em grande parte das aplicações eco-
nométricas (não se pode exigir ao analista capacidades que ele quase nunca pode ter).
Como o modelo com regressores fixos não é objecto de estudo neste texto, reser-
va-se a sigla MRLC para designar o modelo de regressão linear com regressores estrita-
mente exógenos.
2.3 - Estimação dos coeficientes de regressão pelo método dos mínimos quadrados
síduos relativamente pequenos para muitas observações. Deste modo, consegue garan-
tir-se um compromisso que permite obter um estimador com propriedades desejáveis
(ver secção 2.5).
~ ~
Quando se minimiza ϕ ( β ) em ordem a β está a supor-se, como é evidente, que
~
β varia no respectivo espaço-parâmetro, isto é, que pode ser qualquer ponto deste es-
paço. A relação que existe entre β (vector desconhecido dos coeficientes de regressão),
~
b (a respectiva estimativa MQ de β ) e β (valor hipotético de β ) está ilustrada na figu-
ra 2.1, para o caso em que estas três grandezas são escalares. De acordo com a conven-
ção estabelecida na secção 1.6 do capítulo 1, vai utilizar-se o mesmo símbolo para re-
presentar o estimador e as respectivas estimativas.
~
em ordem a β , obtém-se
~ ~
∇ϕ ( β ) = −2 X T Y + 2 X T X β ,
~ ~
onde ∇ϕ ( β ) é o gradiente de ϕ em ordem a β (vector k × 1 das derivadas parciais). O
minimizante b, que resulta da anulação do gradiente, verifica a seguinte igualdade:
(2.15) X T X b = X TY .
Sem dificuldade se verifica que
∑ n xt21 ∑
n
x x L ∑
n
x x
t =1 t =1 t 1 t 2
t =1 t1 tk
x x
∑t =1 xt 2 xt1 ∑ ∑
n n 2 n
x L
X X =
T t =1 t 2 t =1 t 2 tk
,
M M M
n x x 2
∑t =1 tk t1 ∑ ∑t =1 xtk
n n
x x
t =1 tk t 2
L
∑ ∑ x x = ∑t =1 xtj ( j = 2, K , k ) , ∑ x y = ∑t =1 yt ,
n n n n n
x =n,
2
t =1 t1 t =1 t 1 tj t =1 t 1 t
n n 2 n
∑t =1 xt 2 xt1 b1 + ∑t =1 xt 2 b2 + L + ∑t =1 xt 2 xtk bk = ∑t =1 xt 2 yt
n
(2.16)
L
n b + n x x b + L + n x2 b = n x y .
∑ t =1
xtk xt 1 1 ∑t =1 tk t 2 2
∑t =1 tk k ∑t =1 tk t
Supondo que existe a matriz inversa de X T X , a solução do sistema (2.15) for-
nece o estimador MQ:
Capítulo 2 – O Modelo de Regressão Linear Clássico 20
b1
b
2
M
(2.17) b = = ( X T X ) −1 X T Y ,
b
j
M
bk
Daqui, obtém-se
E ( xt yt ) − E ( xt ) E ( yt ) Cov( xt , yt )
β 2 = =
(2.19) E ( xt2 ) − {E ( xt )}2 Var( xt )
β = E ( y ) − β E ( x ) .
1 t 2 t
Capítulo 2 – O Modelo de Regressão Linear Clássico 21
Uma vez identificado β , é possível encontrar outra via para determinar o res-
pectivo estimador MQ, que consiste em substituir os valores esperados da população,
Qxx e q xy , pelas respectivas médias amostrais:
1 n T 1 n
S xx =
n
∑ x x e s xy = ∑t =1 xtT• yt .
t =1 t • t •
n
Assim, a contrapartida amostral de {E ( xtT• xt • )}−1 E ( xtT• yt ) = Qxx−1qxy é dada por
−1
1 n T 1 n T
∑t =1 xt • xt • ∑ x y = S xx−1sxy .
t =1 t • t
n n
Como
∑ ∑
n n
t =1
xtT• xt • = X T X e t =1
xtT• yt = X T Y ,
Assim:
− A estimativa MQ da semi-elasticidade (pontual) do salário em relação ao número de
anos de escolaridade (retorno da educação) é igual a 0.0554, isto é, se a escolaridade
aumentar de um ano, o salário cresce, ceteris paribus, aproximadamente 5.54%.
Capítulo 2 – O Modelo de Regressão Linear Clássico 22
A seguir vai apresentar-se a fórmula do estimador MQ, (2.17), para alguns casos
particulares:
a) Modelo de regressão linear simples com termo independente:
Como yt = β1 + β 2 xt + ut , tem-se
n x n y
∑ ∑ t
n
− X X = n
T t =1 t
, X T Y = n t =1 ,
x xy
∑t =1 t ∑ ∑t =1 t t
n 2
x t =1 t
n x2 − n x
− (X X ) =
T −1 1 ∑t =1 t ∑t =1 t .
n∑t =1 xt2 − ∑t =1 xt − ∑t =1 xt
2 n
n n n
Donde
n x2 − n x n y
∑t =1 t ∑t =1 t ∑t =1 t ,
b1 1
b= =
− n x y
∑t =1 t ∑t =1 t t
2 n
b2
n∑t =1 xt2 − ∑t =1 xt x n
n n
ou
∑ ∑ ∑ ∑
n n n n
b = t =1
xt
2
t =1
y t − t =1
xt t
xy
=1 t t
,
1
2
n∑t =1 xt − ∑t =1 xt
n 2 n
(2.21)
n ∑t =1 xt yt − ∑t =1 xt ∑t =1 yt
n n n
b
2 = 2
.
n∑t =1 xt − ∑t =1 xt
n 2 n
Fazendo
1 n 1 n
y=
n ∑ t =1
yt e x = ∑t =1 xt ,
n
facilmente se mostra que
∑ ( xt − x ) 2 = ∑t =1 xt2 − n x 2 , ∑ ( xt − x )( yt − y ) = ∑t =1 xt yt − n x y .
n n n n
t =1 t =1
∑
n
b = ( xt − x )( yt − y ) s xy sy
t =1
= = r
∑
2 xy
(2.22)
n
( xt − x ) 2 s x2 sx
t =1
b1 = y − b2 x ,
onde
1 n 1 n 1 n sxy
s y2 = ∑
n t =1
( yt − y ) 2
, s 2
x = ∑
n t =1
( xt − x ) 2
, s xy = ∑
n t =1
( xt − x )( yt − y ) , rxy =
sx s y
.
b) Modelo de regressão linear simples sem termo independente: yt = β xt + ut .
Tem-se
1
X T X = ∑t =1 xt2 , X T Y = ∑t =1 xt yt , ( X T X ) −1 = n
n n
,
∑t =1 t
x 2
e
∑
n
xy
t =1 t t
(2.23) b= .
∑
n 2
t =1 t
x
n
e
∑
n
yt
(2.24) b= t =1
= y.
n
Verifica-se um resultado bem conhecido: o estimador MQ de E ( yt ) = β é a média
das observações do regressando.
função de regressão linear ajustada. Esta designação tem por finalidade salientar o
facto de esta função ter sido estimada e, portanto, de ser conhecida por meio de um pro-
cedimento empírico.
Não se deve confundir a função de regressão linear da população, µ ( xt • ) = xt • β ,
com a função de regressão linear ajustada (amostral), yˆ t = xt •b ; também não se deve
confundir as variáveis residuais, ut , com os resíduos MQ, ût . Facilmente se conclui que
se têm duas formas distintas de decompor yt : yt = µ ( xt • ) + ut e yt = yˆ t + uˆt . A primeira
refere-se à população, e a segunda à amostra.
O critério dos mínimos quadrados pode interpretar-se facilmente no caso do
modelo de regressão linear, yt = β1 + β 2 xt + ut , onde a componente sistemática é dada
por µ ( xt ) = β1 + β 2 xt . Esta componente é a função de regressão linear (recta teórica)
desconhecida, uma vez que os coeficientes de regressão são desconhecidos.
Quando se dispõe de n observações das duas variáveis do modelo, tem-se o res-
pectivo diagrama de dispersão:
{( yt , xt ) ∈ ℜ2 : t = 1,2, K , n } ,
que, por exemplo, corresponde à “nuvem” de pontos da figura 2.2. A função de re-
gressão linear estimada pelo método MQ (recta estimada), yˆt = b1 + b2 xt , é aquela que
“melhor” se ajusta à “nuvem” de pontos de ℜ 2 (ver figura 2.2).
Assim, deve distinguir-se entre (ver figura 2.3):
− O ponto [ xt , µ ( xt ) ], que se encontra sobre a recta teórica;
− O ponto ( xt , yˆt ) , que está sobre a recta estimada;
− O ponto ( xt , yt ) , que corresponde aos valores observados.
Então:
Capítulo 2 – O Modelo de Regressão Linear Clássico 25
yt E (Y ) = β 1 + β 2 x
u t
û t
yˆ = b1 + b2 x
0 xt x
Fig. 2.3 – Rectas teórica e ajustada.
6.85855 0.67918
6.86923 − 0.55743
Yˆ = M e Uˆ = M .
6.78640 0.27268
6.83633 0.43881
8
7.5
6.5
5.5
0 10 20 30 40 50 60 70 80 90 100
Observado Ajustado
1.5
0.5
-0.5
-1
-1.5
0 10 20 30 40 50 60 70 80 90 100
Resíduos
Sejam
ht = xt • ( X T X ) −1 xtT• e pt = 1 − ht (t = 1, 2, K , n)
tr ( H X ) = ∑t =1 ht = k , tr ( PX ) = ∑t =1 pt = n − k e ∑ h + ∑t =1 pt = n .
n n n n
t =1 t
∑ uˆt2 = Uˆ T Uˆ = Y T PX Y = U T PX U .
n
(2.31) t =1
Propriedade 2.5 – O valor esperado da soma dos quadrados dos resíduos MQ, condi-
cionado por X, é dado por
E ∑t =1 ut2 | X = E (U TU | X ) = nσ 2 .
n
Capítulo 2 – O Modelo de Regressão Linear Clássico 29
Propriedade 2.6 – A soma dos quadrados dos valores ajustados das observações do re-
gressando é
∑ Yˆ = Yˆ T Yˆ = Y T H X Y .
n 2
(2.33) t =1 t
Uˆ T Yˆ = Yˆ T Uˆ = 0 ⇔ ∑t =1 uˆt yˆ t = 0 .
n
(2.35)
O resultado (2.35) também se pode provar a partir das propriedades 2.1 e 2.3.
Com efeito, basta notar que
Uˆ T Yˆ = Yˆ TUˆ = Y T H X PX Y = 0 .
Propriedade 2.9 - Se o modelo tem termo independente, então a soma dos resíduos MQ
é igual a zero:
∑
n
(2.36) t =1
uˆt = 0 .
x•T1Uˆ = 0 ⇔ eT Uˆ = 0 ⇔ ∑t =1 uˆt = 0 .
n
∇∇
= ∑t =1 yt − n b1 − b2 ∑t =1 xt 2 − b3 ∑t =1 xt 3 − L − bk ∑t =1 xtk = 0 .
n n n n
vem
∑ yt = n b1 + b2 ∑t =1 xt 2 + b3 ∑t =1 xt 3 + L + bk ∑t =1 xt 3 + ∑t =1 uˆt
n n n n n
i =1
resulta da propriedade 2.7 que a covariância amostral entre xtj e ût é nula.
Como
∑t =1 uˆt yˆ t = ∑t =1 uˆt ( yˆ t − y ) ,
n n
tem-se, devido à propriedade 2.8, que a covariância amostral entre ût e ŷt é nula.
∑ yt2 = ∑t =1 yˆ t2 + ∑t =1 uˆt2 ⇔ Y T Y = Yˆ T Yˆ + Uˆ T Uˆ .
n n n
(2.37) t =1
Para se ter linearidade, é indispensável supor que a matriz X é dada. Caso contrá-
rio, a matriz A é estocástica e o estimador não é linear. Como vai ver-se, há muitos esti-
madores que não são lineares.
A propriedade seguinte vai permitir conhecer as expressões da variância de b j
( j = 1, 2, K, k ) , e da covariância entre bi e b j (i, j = 1, 2, K, k ; i ≠ j ) , todas condiciona-
das por X. Vai determinar-se a matriz das covariâncias de b condicionada por X,
Var (b1 | X ) Cov(b1 , b2 | X ) L Cov(b1 , bk | X )
Cov(b2 , b1 | X ) Var (b2 | X ) L Cov(b2 , bk | X )
Cov(b | X ) = .
M M M
Cov(bk , b1 | X ) Cov(bk , b2 | X ) L Var (bk | X )
∑
n
x2
t =1 t
Var (b1 | X ) = σ 2
2
,
n∑t =1 xt − ∑t =1 xt
n 2 n
n
Var (b2 | X ) = σ
2
(2.42) 2
,
n∑t =1 xt − ∑t =1 xt
n 2 n
∑t =1 xt
n
Cov(b1 , b2 | X ) = −σ
2
2
.
n∑t =1 xt − ∑t =1 xt
n 2 n
onde D é função de X.
Como
E ( βˆ | X ) = C E (Y | X ) = {( X T X ) −1 X T + D} Xβ = β + DXβ ,
conclui-se que
E ( βˆ | X ) = β ⇔ DX = O .
Donde
Cov( βˆ | X ) = C Cov(Y | X ) C T = σ 2{( X T X ) −1 X T + D}{ X ( X T X ) −1 + DT }
= σ 2{( X T X ) −1 + ( X T X ) −1 X T DT + DX ( X T X ) −1 + DDT }
= σ 2{( X T X ) −1 + DDT } ,
pois DX = O . Então,
Cov( βˆ | X ) − Cov(b | X ) = σ 2 DDT .
Como DDT é semidefinida positiva, fica provado que Cov( βˆ | X ) − Cov(b | X )
é semidefinida positiva.
∇∇
δ1 = 2 β 2 − β 4
δ 2 = β3 + β5 ,
tem-se
0 2 0 − 1 0 δ1
R= e δ = .
0 0 1 0 1 δ 2
Então,
δˆ1 = 2b2 − b4
δˆ2 = b3 + b5 .
onde P1 = I n − X 1 ( X 1T X 1 ) −1 X 1T e P2 = I n − X 2 ( X 2T X 2 ) −1 X 2T .
Com efeito, a partir das equações normais, X T X b = X T Y , obtém-se
X 1T X 1b•1 + X 1T X 2b• 2 = X 1T Y
T
X 2 X 1b•1 + X 2 X 2b• 2 = X 2 Y .
T T
Capítulo 2 – O Modelo de Regressão Linear Clássico 38
Assim:
− A regressão a) permite obter as observações do regressando expurgadas da influência
~
de X 1 (estes valores são os respectivos resíduos, Y 1 ).
~
− A regressão b) procura determinar X 2 “purificado” da influência de X 1 , isto é, X 2 .
− Em c) faz-se a regressão dos resíduos obtidos em a) sobre os resíduos resultantes de
b). Obtém-se
~ ~ ~ ~
b•∗2 = ( X 2T X 2 ) −1 X 2T Y 1 .
Facilmente se prova que b•∗2 = b•2 (ver anexo 2A). Com efeito, basta notar que
~ ~ ~ ~
b•∗2 = ( X 2T X 2 ) −1 X 2T Y 1 = ( X 2T P1 X 2 ) −1 X 2T P1Y = b• 2 .
Este resultado é conhecido pela designação de teorema de Frisch-Waugh-Lo-
vell (FWL), e tem a seguinte interpretação: a estimativa do efeito ceteris paribus de
X 2 sobre Y (isto é, expurgado das eventuais influências de X 1 ) é dada por b•2 , e ob-
tém-se fazendo a regressão de Y sobre X 1 e X 2 ; esta estimativa não acusa a influência
dos regressores considerados em X 1 desde que tais regressores sejam explicitados no
modelo.
Esta interpretação é simples numa situação com dois regressores. Assim, supo-
nha-se que se procura conhecer o efeito de xt 2 sobre yt , sabendo que tanto xt 2 como
yt são influenciados por xt 3 . Se adoptar-se o modelo yt = α1 + α 2 xt 2 + vt , o parâmetro
α 2 não mede o efeito pretendido, porque aquela influência comum “perturba” a relação
Capítulo 2 – O Modelo de Regressão Linear Clássico 39
Exemplo 2.8 – Quando se faz a regressão MQ de lsalar sobre 1, educ, exper e empc,
obtém-se a estimativa do coeficiente de educ: 0.055383. Este valor é também obtido fa-
zendo três regressões. A primeira, é a regressão de lsalar sobre 1, exper e empc, onde os
respectivos resíduos representam os logaritmos dos salários expurgados da influência
das variáveis consideradas na regressão. A segunda tem por objectivo obter os valores
de educ expurgados da influência das mesmas variáveis. Para isso, basta fazer a regres-
são MQ de educ sobre 1, exper e empc, e considerar os respectivos resíduos. A terceira,
consiste em fazer a regressão MQ dos resíduos obtidos com a primeira regressão sobre
os resíduos dados pela segunda regressão (sem termo independente). Pode verificar-se
que a estimativa do coeficiente dos segundos resíduos é ainda 0.055383. Os cálculos fi-
cam ao cuidado do leitor.
∇
∑
n 2
U TU u
σ̂ =
2
= t =1 t
,
n n
uma vez que
1 n 2 1 n
n ∑t =1 t n ∑t =1
E (σˆ 2 ) = E u = E (ut2 ) = σ 2 .
Capítulo 2 – O Modelo de Regressão Linear Clássico 40
Uˆ TUˆ ∑t =1 uˆt
2 n
(2.46) s =
2
= .
n−k n−k
Evidentemente, este estimador, condicionado por X, é não enviesado,
(2.47) E (s 2 | X ) = σ 2 .
Com algum abuso de linguagem, pode dizer-se que s 2 é o estimador MQ de σ 2 .
A justificação desta afirmação pouco rigorosa pode encontrar-se no facto de s 2 ser cal-
culado utilizando a soma dos quadrados dos resíduos MQ. Note-se que s 2 é uma forma
quadrática em Y (e em U), porquanto Uˆ T Uˆ = Y T PX Y = U T PX U .
Facilmente se verifica que o valor esperado marginal de s 2 é ainda σ 2 ,
E ( s 2 ) = E{E ( s 2 | X )} = σ 2 .
É habitual designar s por erro padrão da regressão. Note-se que s pode crescer
ou decrescer quando mais um regressor é acrescentado ao modelo (para a mesma amos-
tra). De facto, a presença do novo regressor provoca uma diminuição do numerador de
(2.46) (da soma dos quadrados dos resíduos MQ), mas também uma diminuição do de-
nominador (dos graus de liberdade); não é possível saber, a priori, qual é o efeito que
prevalece.
O estimador não enviesado da matriz das covariâncias de b, condicionada
por X, é
^
(2.48) Cov(b | X ) = s 2 ( X T X ) −1 .
Assim,
^
(2.49) Var (b j | X ) = sb2j = s 2 m jj ,
∑
n
uˆ = 140.445 e s 2 = 0.141 .
2
t =1 t
Como 0 ≤ ry2yˆ ≤ 1 , pode concluir-se que quanto mais próximo de 1 estiver o coe-
ficiente de determinação melhor é o “grau de ajustamento”, ou seja, maior é a “proxi-
midade” entre os yt e os ŷt . Por exemplo, observando a figura 2.6 verifica-se que no
gráfico da esquerda se tem uma boa aderência ( ry2ŷ elevado), e que no gráfico da direita
há um afastamento significativo entre os valores de yt e de ŷt ( ry2ŷ baixo). Um valor
negativo de ryyˆ não tem significado, uma vez que traduziria um ajustamento absurdo.
ŷt ŷt
y t yt ry2ŷ elevado yt 2
r yŷ baixo
Qualquer que seja o MRL (com ou sem termo independente), tem-se sempre, de-
vido à propriedade 2.10 dos resíduos MQ,
∑ yt2 = ∑t =1 yˆ t2 + ∑t =1 uˆt2 ⇔ Y T Y = Yˆ T Yˆ + Uˆ T Uˆ .
n n n
t =1
Quando o modelo tem termo independente, pode obter-se uma relação seme-
lhante, mas considerando os desvios das observações em relação às respectivas médias,
∑ ( yt − y ) 2 = ∑t =1 ( yˆ t − y ) 2 + ∑t =1 uˆt2 .
n n n
(2.51) t =1
= ∑t =1 ( yˆt − y ) 2 + ∑t =1 uˆt2 ,
n n
VT = ∑t =1 ( yt − y ) 2 , VE = ∑t =1 ( yˆt − y ) 2 e VR = ∑t =1 uˆt2 ,
n n n
tem-se
(2.52) VT = VE + VR ,
onde:
Capítulo 2 – O Modelo de Regressão Linear Clássico 43
− VT é a variação total dos yt , ou seja, a soma dos quadrados dos desvios em relação
à média das observações do regressando.
− VE é a variação explicada pela regressão, ou seja, a soma dos quadrados dos des-
vios em relação à média dos valores ajustados das observações do regressando, ob-
tidos com o método dos mínimos quadrados, ŷt .
− VR é a variação residual, ou seja, a soma dos quadrados dos resíduos MQ.
2
n ( yˆ − y ) 2 + n uˆ yˆ − y n uˆ
∑t =1 t ∑t =1 t t ∑t =1 t ∑tn=1 ( yˆt − y )2 2
= = n =R .
∑t =1 t ∑t =1 t ∑t =1 t
n n
( y − y ) 2
( ˆ
y − y ) 2
( y − y ) 2
ou
Capítulo 2 – O Modelo de Regressão Linear Clássico 44
2
n ( x − x )( y − y )
∑t =1 t t
R = n
2 = r2 .
∑t =1 ( xt − x ) ∑t =1 ( y t − y )2
2 n xy
∑
n
yˆt2 − n y 2
R 2
= t =1
.
∑
n
t =1
( yt − y ) 2
Este valor pode ser negativo porque a média das observações do regressando,
yt , é diferente da média dos respectivos valores ajustados, ŷt ( y ≠ yˆ ). Contudo, conti-
nua a ter-se R 2 ≤ 1 .
A propriedade 2.10 atrás referida, garante que a igualdade Y T Y = Yˆ T Yˆ + Uˆ T Uˆ se
verifica sempre (quer o modelo tenha termo independente quer não tenha). Pode, então,
escrever-se
(2.54) SQT = SQE + SQR ,
onde:
Em geral, R∗2 ≠ ry2yˆ e R∗2 ≠ R 2 (no caso do modelo ter termo independente vem
R 2 ≤ R∗2 , pois VT ≤ SQT ).
Facilmente se verifica a seguinte relação entre R 2 e R∗2 :
n y2
R 2 = 1 − (1 − R∗2 ) 1 + n .
∑t =1 ( yt − y ) 2
∑ ∑
n n
( yt − y ) 2 uˆ2
s′y
2
= t =1
e s 2
= t =1 t
,
n −1 n−k
em vez de s y2 e sû2 , obtém-se o coeficiente de determinação ajustado,
VR /(n − k )
(2.56) R 2 =1− .
VT /(n − 1)
Verifica-se sem dificuldade que
n −1 k −1
R 2 = 1 − (1 − R 2 ) = R 2 − (1 − R 2 ) .
n−k n−k
O inconveniente apontado para R 2 já não se verifica com R 2 . Com efeito,
quando se adiciona mais um regressor, R 2 cresce se a diminuição da soma dos quadra-
dos dos resíduos for suficiente para compensar o decréscimo de uma unidade no deno-
minador de s 2 . Esta comprovação sugere que se pode conferir a R 2 uma característica
de medida de eficácia da regressão relativamente ao número de regressores utilizados, o
que não acontece com R 2 .
Note-se que:
a) R ≤ R 2 ; R 2 = R 2 , se k = 1 ou R 2 = 1 .
2
Capítulo 2 – O Modelo de Regressão Linear Clássico 46
8.5
7.5
Valores ajustados
6.5
5.5
5.5 6 6.5 7 7.5 8 8.5
Valores observados
Além disso, o cálculo de R 2 em certas regressões pode ser útil para aprofundar a
análise dos factores que contribuem para explicar os valores obtidos para os erros pa-
drão dos b j . Com efeito, considere-se um MRLC com termo independente, e recorde-se
que Var (b j | X ) = σ 2 m jj [ver (2.41)], onde m jj é o elemento diagonal de ordem j da
matriz ( X T X ) −1 .
Vai demonstrar-se que (2.41) é equivalente a
σ2
(2.57) Var (b j | X ) = ,
(1 − R 2j )VT j
VT j = ∑t =1 ( xtj − x j ) 2 ,
n
X ( j ) x• j X (Tj ) X ( j )
Invertendo esta matriz por blocos, o elemento da matriz inversa situado na pri-
meira linha e na primeira coluna é dado por
( x•Tj Pj x• j ) −1 onde Pj = I n − X ( j ) ( X (Tj ) X ( j ) ) −1 X (Tj ) .
Então,
Var (b j | X ) = σ 2 ( x•Tj Pj x• j ) −1 .
Devido à propriedade 2.4 dos resíduos MQ, verifica-se que x•Tj Pj x• j é igual à so-
ma dos quadrados dos resíduos correspondente à regressão auxiliar, e, portanto,
x•Tj Pj x• j = (1 − R 2j )VT j ,
que dá uma informação mais precisa sobre os factores que determinam o erro padrão de
b j . Assim, além dos factores já apontados a propósito de (2.58), o erro padrão de b j é
tanto menor quanto menor for a variação dos yt (medida por VT), quanto maior for o
coeficiente de determinação R 2 , e quanto maior for o número de graus de liberdade do
modelo.
Exemplo 2.11 – Sabe-se que s 2 = 0.141 , VT = 169.93349 (variação total das obser-
vações de lsalar), R 2 = 0.174 e n − k = 996 [ver exemplos 2.9 e 2.10].
Como VT2 = 5996.119 (variação total das observações de educ) e R22 = 0.00281
(coeficiente de determinação da regressão MQ de educ sobre 1, exper e empc), tem-se,
devido a (2.58) e (2.59),
^ s2 0.141
Var (b2 | X ) = = = 0.0000236
(1 − R2 )VT2
2
(1 − 0.00281 ) × 5996.119
e
^ (1 − R 2 )VT (1 − 0.174) × 169.93349
Var(b2 | X ) = = = 0.0000236 .
(n − k ) (1 − R2 )VT2
2
996 × (1 − 0.00281) × 5996.119
Do mesmo modo, como VT3 = 21875.911 (variação total das observações de ex-
per) e R32 = 0.00179 (coeficiente de determinação da regressão MQ de exper sobre 1,
educ e empc), vem
^ s2 0.141
Var (b3 | X ) = = = 0.0000065
(1 − R3 )VT3 (1 − 0.00179) × 21875.911
2
e
^ (1 − R 2 )VT (1 − 0.174) × 169.93349
Var (b3 | X ) = = = 0.0000065 .
(n − k ) (1 − R3 )VT3 996 × (1 − 0.00179) × 21875.911
2
^ s2 0.141
Var(b4 | X ) = = = 0.0000059
(1 − R4 )VT4
2
(1 − 0.00257 ) × 24102.464
e
^ (1 − R 2 )VT (1 − 0.174) × 169.93349
Var(b3 | X ) = = = 0.0000059 .
(n − k ) (1 − R3 )VT3
2
996 × (1 − 0.00257) × 24102.464
∇
onde R = [ 0 1 1 ] e δ = 1 .
∇
Exemplo 2.13 – Suponha-se que β é composto por cinco β j e está sujeito às seguintes
condições: β1 = 2 ; a soma dos coeficientes é igual a 1; β 2 e β 3 são iguais; β 4 é o
dobro de β 5 . Tem-se
2
1 0 0 0 0
1 1 1 1 1 1
R= e δ =
0 1 −1 0 0 0
0 0 0 1 − 2 0
∇
~ ~ ~
min ϕ ( β ) = (Y − Xβ )T (Y − Xβ )
(2.60) ~
sujeito a Rβ = δ .
Este problema pode ser resolvido com o clássico método dos multiplicadores de
Lagrange. Seja a função lagrangeana
~ ~ ~ ~
L ( β , λ ) = (Y − Xβ )T (Y − Xβ ) − 2( Rβ − δ )T λ ,
onde λ = [ λ1 λ2 L λm ] T é o vector m × 1 dos multiplicadores de Lagrange. Calculan-
~
do as primeiras derivadas em ordem a β e λ , obtém-se
~ ~
∇ β~ L ( β , λ ) = −2 X T Y + 2 X T Xβ − 2 RT λ
~ ~
∇ λ L ( β , λ ) = −2( Rβ − δ ) ,
onde
~ ~
∇ β~ L ( β , λ ) e ∇ λ L ( β , λ )
~
são, respectivamente, o gradiente da lagrangeana em relação a β (vector k × 1 das res-
pectivas derivadas parciais) e o gradiente da lagrangeana em ordem a λ (vector m × 1
das derivadas parciais da lagrangeana em relação aos multiplicadores de Lagrange).
Igualando a zero estes gradientes, obtém-se o seguinte sistema de equações:
X T Xβ~ − X T Y − RT λ = 0
~
Rβ = δ .
onde ytr = yt − xt(•1) R1−1δ e xtr• = xt(•2) − xt(•1) R1−1R2 . Os estimadores dos coeficientes de re-
gressão são
b• 2 = ( X r X r ) X r Yr
r T −1 T
r
b•1 = R1−1 (δ − R2b•r2 ) ,
forma separada e aditiva, pode acontecer que o conjunto de tais influências seja uma
função mais complicada dos factores não observados.
Muitas vezes, a utilização de uma transformação da variável explicada (em es-
pecial, a logaritmização) pode favorecer a hipótese da normalidade. Por exemplo, é
mais razoável admitir que lsalar tem distribuição aproximadamente normal do que salar
(que teria, então, distribuição lognormal).
Quando os valores possíveis que o regressando pode assumir são poucos, e em
que o valor zero é muito frequente (por exemplo, o número de sinistros num ano por
apólice de seguro automóvel), a hipótese REX.6 é claramente pouco adequada.
Como vai ver-se no capítulo 3, o abandono da hipótese da normalidade não
constitui um problema grave no caso de grandes amostras. Neste caso, as distribuições
necessárias para fazer inferência estatística são assintóticas.
Convém fazer, ainda, os seguintes comentários:
− A distribuição de ut , condicionada por XT , depende apenas de dois parâmetros ca-
racterísticos: o valor esperado e a variância.
− A função densidade em (2.65) é dada por
u2
f (ut | XT ) = (2πσ 2 ) −1 / 2 exp− t 2 .
2σ
− Antes de prosseguir, convém referir um resultado muito importante:
• Suponha-se que: a variável aleatória (vector aleatório) u depende de um con-
junto de variáveis aleatórias (vectores aleatórios), X ; os parâmetros característi-
cos da distribuição de u condicionada por X não dependem de X . Então, a
distribuição condicionada coincide com a distribuição não condicionada.
Este resultado vai ser utilizado em todas as situações de inferência estatística que vão
estudar-se na secção 2.10.
− Aplicando o resultado anterior, pode concluir-se o seguinte: como os parâmetros ca-
racterísticos da distribuição de ut , condicionada por XT , não dependem de XT , a
distribuição não condicionada (marginal) é a mesma que a distribuição condicionada.
Assim, ut ~ N (0, σ 2 ) e
u2
f (ut ) = (2πσ 2 ) −1/ 2 exp− t 2 .
2σ
− Se duas variáveis aleatórias são independentes, então a respectiva correlação é nula,
mas a recíproca não é verdadeira. No entanto, no caso da distribuição normal, inde-
pendência e correlação nula são equivalentes.
Neste caso, considerando as hipóteses REX.4 e REX.6, conclui-se imediatamente
que as variáveis ut (t ∈ T ) são iid. Pode, então, escrever-se
ut ~ NIID(0, σ 2 ) (t ∈ T ) ,
para significar que as variáveis aleatórias do conjunto {ut : t ∈ T } são normais e iid.
Capítulo 2 – O Modelo de Regressão Linear Clássico 57
e, portanto,
U TU
f (U | X ) = f (U ) = (2πσ 2 ) −n / 2 exp− 2
.
2σ
Capítulo 2 – O Modelo de Regressão Linear Clássico 58
Tem-se
Y | X ~ N ( n ) ( Xβ , σ 2 I n ) .
∇ ~ 2 ln{ L( β~, σ~ 2 | Y , X )} = − n + 1 (Y − Xβ~ )T (Y − Xβ~ ) = 0 .
σ 2σ~ 2 2σ~ 4
Da primeira equação, vem imediatamente
(2.67) β̂ = b ,
Capítulo 2 – O Modelo de Regressão Linear Clássico 59
Estes estimadores podem ser obtidos de outro modo. De facto, é instrutivo maxi-
mizar o logaritmo da função de verosimilhança em dois passos. No primeiro, a maximi-
~
zação é feita em ordem a β , supondo σ~ 2 constante. No segundo passo, maximiza-se
~
em ordem a σ~ 2 , tendo em conta que β , obtido no primeiro passo, pode depender de
σ~ 2 .
Observando a expressão do logaritmo da função de verosimilhança, verifica-se
~
que maximizar esta função em ordem a β é equivalente a minimizar a função
~ ~ ~
ϕ ( β ) = (Y − Xβ )T (Y − Xβ ) ,
já conhecida do método MQ. Assim, obtém-se imediatamente (2.67). Além disso, devi-
do às hipóteses estabelecidas para o MRLCN, este maximizante não depende de σ~ 2 .
~
Substituindo β por b no logaritmo da função de verosimilhança, obtém-se
n n Uˆ TUˆ
ln{L∗ (σ~ 2 | Y , X )} = − ln (2π ) − ln (σ~ 2 ) − ~ 2 ,
2 2 2σ
~
que se chama logaritmo da função de verosimilhança concentrada (em relação a β ).
Trata-se de uma função apenas de σ~ 2 , e a sua maximização permite obter (2.68). Este
cálculo é imediato, uma vez que a soma dos quadrados dos resíduos não depende de
σ~ 2 .
Facilmente se conclui que o máximo do logaritmo da função de verosimilhança
é dado por
~ ~2 n 2π n
~ ~ 2 ln{ L ( β , σ | Y , X )} = −
max ln + 1 − ln (Uˆ TUˆ ) .
β ,σ 2 n 2
Então,
−n / 2
~ ~2 2π n
~ ~ 2 L( β , σ | Y , X ) =
max exp − (Uˆ TUˆ ) − n / 2 .
β ,σ n 2
Alternativamente, a concentração da função de verosimilhança pode fazer-se em
~
relação a σ~ 2 , obtendo-se uma função de β . De facto, fazendo γ~ = σ~ 2 no logaritmo da
função de verosimilhança,
Capítulo 2 – O Modelo de Regressão Linear Clássico 60
~ n 1 ~ ~
ln{ L( β , γ~ | Y , X )} = − ln (2π γ~ ) − ~ (Y − Xβ )T (Y − Xβ ) ,
2 2γ
obtém-se
~ n 1 ~ ~
∇γ~ ln{ L( β , γ~ | Y , X )} = − ~ + ~ 2 (Y − Xβ )T (Y − Xβ ) = 0 ,
2γ 2γ
ou
1 ~ ~
γ~ = (Y − Xβ )T (Y − Xβ ) .
n
~
Então, obtém-se a função de β ,
~ n 2π n ~ ~
ln{ L∗ ( β | Y , X )} = − ln + 1 − ln{(Y − Xβ )T (Y − Xβ )} ,
2 n 2
Uˆ TUˆ (n − k ) s 2
X ~ χ 2 (n − k ) ou X ~ χ 2 (n − k ) .
σ 2
σ 2
A estatística-teste é
(n − k ) s 2
(2.71) q= ~ χ 2 (n − k ) .
σ 2
0
Por exemplo, no caso a), representando por qobs o respectivo valor observado,
este valor vai comparar-se com o valor crítico, χ α2 , e rejeita-se a hipótese nula quando
qobs > χ α2 . O valor-p é P(q > qobs | H 0 ) .
No quadro 2.1 apresentam-se as regiões críticas e os valores-p para os três casos
referidos.
Quadro 2.1
Teste de H 0 : σ 2 = σ 02 contra H 1
H1 Região crítica Valor-p
Deve notar-se que os resultados desta subsecção são, em geral, pouco úteis, uma
vez que não é habitual, nos MRL, fazer inferência estatística sobre σ 2 . Contudo, (2.69)
é importante para fundamentar os resultados necessários para a inferência estatística re-
lativa aos coeficientes de regressão.
Como b = ( X T X ) −1 X T Y e Y | X ~ N ( n ) ( Xβ , σ 2 I ) , obtém-se
b | X ~ N ( k ) β , σ 2 ( X T X ) −1 .
Note-se que a distribuição não condicionada de b não é normal k-dimensional,
uma vez que a matriz das covariâncias da distribuição de b, condicionada por X, de-
pende de X.
Em particular,
bj − β j
X ~ N (0,1) ( j = 1, 2,K, k ) ,
σb j
bj − β j
X ~ t (n − k ) ( j = 1, 2, K , k ) .
s m jj
O parâmetro característico desta distribuição, condicionada por X, é n − k . Co-
mo este parâmetro não depende de X, a respectiva distribuição não condicionada é dada
por
bj − β j bj − β j
(2.73) tj = = ~ t (n − k ) ( j = 1, 2, K , k ) ,
s m jj sb j
Quadro 2.2
Teste de H 0 : β j = β 0j contra H 1
β 3 : [ b3 − tα / 2 sb , b3 + tα / 2 sb ] = [0.018, 0.028];
3 3
β 4 : [ b4 − tα / 2 sb , b4 + tα / 2 sb ] = [–0.0008, 0.0087];
4 4
Facilmente se conclui que a hipótese nula que corresponde a cada um dos valo-
res destes intervalos não é rejeitada a nível 0.05, quando as hipóteses alternativas são
bilaterais. Por exemplo, as hipóteses nulas H 0 : β 2 = 0.05 ou H 0 : β 2 = 0.06 não são re-
jeitadas porque 0.05 e 0.06 pertencem ao intervalo de confiança de β 2 .
Para construir um intervalo de confiança a 95% para a variância das variáveis re-
siduais, tem-se, com α = 0.05 e n − k = 996 , χ 02.025 = 1085.355 e χ 02.975 = 910.4327 . En-
tão,
(n − k ) s 2 (n − k ) s 2
σ2: , 2 = [0.1294, 0.15426].
χα / 2
2
χ1−α / 2
∇
Capítulo 2 – O Modelo de Regressão Linear Clássico 68
δˆ | X ~ N δ , σ 2c( X T X )−1 cT ,
ou
δˆ − δ
X ~ N (0,1) .
σ c( X T X ) −1 cT
Logo,
δˆ − δ δˆ − δ
(2.76) tδˆ = = ~ t (n − k ) ,
s c( X T X ) −1 cT sδˆ
onde
sδˆ = s c( X T X ) −1 c T
é o erro padrão de δˆ = cb .
Para uma melhor compreensão do resultado (2.76), suponha-se, por exemplo,
δ = β 2 + 3β3 . Então, δˆ = b2 + 3b3 , e vem
^ ^ ^ ^
sδ2ˆ = Var(b2 + 3b3 | X ) = Var(b2 | X ) + Var(3b3 | X ) + 2 Cov(b2 ,3b3 | X )
^ ^ ^ ^
= Var(b2 | X ) + 9 Var(b3 | X ) + 6 Cov(b2 , b3 | X ) = sb22 + 9sb23 + 6 Cov(b2 , b3 | X ) ,
e, portanto, de acordo com (2.76), obtém-se
(b2 + 3b3 ) − ( β 2 + 3β 3 )
~ t (n − k ) .
^
s + 9 s + 6 Cov(b2 , b3 | X )
2
b2
2
b3
A estatística-teste é o rácio-t,
δˆ − δ 0
(2.78) tδˆ = ~ t (n − k ) .
sδˆ
Quadro 2.3
Teste de H 0 : δ = δ 0 contra H 1
H1 Região crítica Valor-p
H1 : δ < δ 0 tδˆ < −tα ou δˆ < δ 0 − tα sδˆ P (tδˆ < tδˆ , obs | H 0 )
e
^ ^ ^
sδˆ = Var(b3 | X ) + Var(b4 | X ) − 2 Cov(b3 , b4 | X )
= 0.00000646 + 0.00000587 − 2 × 0.000000167 = 0.00346 .
Para testar, a nível 0.05,
H 0 : δ = β3 − β 4 = 0 contra H1 : δ = β3 − β 4 > 0 .
Tem-se
δˆ − 0 0.019035
tδˆ , obs = = = 5.49764 ,
sδˆ 0.00346
ou
Capítulo 2 – O Modelo de Regressão Linear Clássico 71
Então, testar
H 0 : δ = 0 contra H1 : δ ≠ 0
δˆ | X ~ N ( m ) δ , R Cov(b | X ) RT ,
ou
δˆ | X ~ N ( m ) δ , σ 2 R( X T X ) −1 RT .
Atendendo à propriedade 2) das distribuições de vectores aleatórios, obtém-se
1
(δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ ) X ~ χ 2 (m) .
σ2
Utilizando este resultado, e (2.69), é possível obter uma variável aleatória que
segue uma distribuição F-Snedcor. Para isso, basta demonstrar a independência, condi-
cionada por X, entre
Uˆ T Uˆ = U T PX U e (δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ ) = U T S X U ,
onde
δˆ − δ = R( X T X )−1 X TU e S X = X ( X T X )−1 RT {R( X T X ) −1 RT }−1 R ( X T X )−1 X T
é simétrica e idempotente. Com efeito, basta notar que PX S X = O e atender à proprieda-
de 4) das distribuições de vectores aleatórios.
Como (1 / σ 2 ) U T S X U | X ~ χ 2 (m) e (1 / σ 2 ) Uˆ TUˆ | X ~ χ 2 (n − k ) , obtém-se
Retomando o caso geral, note-se que o resultado (2.79) pode ser apresentado de
forma equivalente, utilizando os resíduos MQ com restrições, e evitando o cálculo da
matriz {R( X T X ) −1 RT }−1 . Com efeito, seja
Capítulo 2 – O Modelo de Regressão Linear Clássico 74
pois X TUˆ = 0 .
Pode, assim, dispor-se do seguinte resultado equivalente a (2.79):
Uˆ rTUˆ r − Uˆ TUˆ
(2.80) F= ~ F (m, n − k ) .
m s2
L
rm1β1 + rm 2 β 2 + L + rmk β k = δ m 0 ,
onde δˆ = Rb . A obtenção da distribuição deste rácio-F foi feita de acordo com o princí-
pio de Wald (ver capítulo 8), que se baseia no estimador MQ de β sem restrições, b.
Como se sabe, quando a hipótese nula se supõe verdadeira, obtém-se o resultado
equivalente,
Uˆ rTUˆ r − Uˆ TUˆ (VR 0 − VR1 ) / m
(2.82) F= = ~ F (m, n − k ) ,
ms2 VR1 /(n − k )
onde: VR 0 = Uˆ rTUˆ r (variação residual ou soma dos quadrados dos resíduos do modelo
com as restrições impostas pela hipótese nula); VR1 = Uˆ TUˆ (variação residual ou soma
dos quadrados dos resíduos do modelo sem restrições); s 2 = VR1 /(n − k ) .
O resultado (2.82) serve para fazer, nas condições referidas, qualquer teste de
hipóteses sobre um conjunto de igualdades lineares que envolvem os coeficientes de re-
gressão. Trata-se de um resultado de fácil aplicação, desde que se tenham estimado o
modelo sem restrições, e o modelo com as restrições dadas pela hipótese nula. Com
efeito, basta notar que o numerador é a diferença entre a variação residual (a soma dos
quadrados dos resíduos) com as restrições e a variação residual sem restrições, e que o
denominador é o produto do número de restrições, m, pelo estimador da variância das
variáveis residuais do modelo sem restrições.
A mecânica do teste é a seguinte: se o valor observado de F, Fobs , é superior a
Fα rejeita-se a hipótese nula; caso contrário, esta hipótese não é rejeitada. Pode também
reportar-se o resultado do teste indicando o respectivo valor-p: pobs = P( F > Fobs | H 0 ) .
ou
yt − 0.5( xt 2 + xt 3 ) = β1 + β5{−1.5( xt 2 + x3 ) + 2 xt 4 + xt 5} + ut .
~ ~ ~ ~
Θ = ( β , σ~ 2 ) : β ∈ ℜk , σ~ 2 > 0 , Θ0 = ( β , σ~ 2 ) : Rβ = δ 0 , σ~ 2 > 0 .
Então,
1 n n / 2 exp{−n / 2} ˆ T ˆ − n / 2
Lˆ (Θ) = (2π σˆ 2 ) − n / 2 exp− 2 (Y − Xb)T (Y − Xb) = (U U ) ,
2σˆ (2π ) n / 2
Não rejeitar a hipótese nula corresponde a verificar que o modelo proposto não é
adequado, na sua globalidade, para descrever o comportamento do regressando.
Como a hipótese nula corresponde a E ( yt | XT ) = β1 = E ( yt ) , diz-se que se está a
testar a significância global da regressão.
Para obter a estatística-teste, vai considerar-se (2.82) e notar que, neste caso, a
soma dos quadrados dos resíduos a satisfazer as restrições definidas pela hipótese nula
( β 2 = β 3 = L = β k = 0 ) é igual à variação total das observações do regressando,
VR 0 = VT = ∑t =1 ( yt − y ) 2 ,
n
Capítulo 2 – O Modelo de Regressão Linear Clássico 78
ou seja, no modelo sujeito às restrições, a variação total coincide com a variação resi-
dual (a variação explicada é nula). A igualdade anterior é facilmente provada em virtude
de o modelo com restrições ser apenas yt = β1 + ut . Neste caso, tem-se
b1 = y e uˆ rt = yt − y .
Então,
∑ ( yt − y ) 2 − Uˆ TUˆ
n
VT − VR
F= t =1
= ~ F (k − 1, n − k ) ,
(k − 1) s 2
(k − 1) s 2
Note-se que (2.84) pode obter-se de (2.83), fazendo R02 = 0 . Se não se rejeita a
hipótese nula, conclui-se que há evidência de que o conjunto de todos os regressores
não é adequado para explicar o comportamento do regressando. Obviamente, a rejeição
da hipótese nula significa que os regressores, na sua globalidade, explicam alguma va-
riação das observações do regressando. Contudo, isto não quer dizer que o valor de R 2
tenha que ser muito elevado (por exemplo, pode acontecer que o teste rejeite a hipótese
nula, mas o valor de R 2 é igual a 0.04). É por esta razão que se deve fazer o teste de
significância global, e não ter em conta apenas a magnitude de R 2 .
Exemplo 2.19 – Considere-se o MRL apresentado no exemplo 2.1. Suponha-se que pre-
tende testar-se a hipótese nula, H 0 : β 2 = β 3 = β 4 = 0 , isto é, procura-se testar se as semi-
-elasticidades (pontuais) são conjuntamente nulas (teste de significância global dos re-
gressores). Recorrendo a (2.84), tem-se
R 2 / (k − 1) 0.173527 / 3
Fobs = = = 69.707 ,
(1 − R ) /(n − k ) (1 − 0.173527) / 996
2
e F0.05 = 2.6138 (valor crítico com 3 e 996 graus de liberdade). Pode concluir-se que
deve rejeitar-se a hipótese nula, quando a dimensão do teste é 0.05; o valor-p é pratica-
mente nulo.
Considere-se o seguinte MRL:
lsalart = β1 + β 2 educt + β 3 expert + β 4 empct + β 5 expert 2 + β 6 empct2 + ut ,
1 (se A se verifica),
(2.85) d =
0 (se A não se verifica).
Pode escrever-se
δ = E ( yt | XT , A) − E ( yt | XT , A ) .
Capítulo 2 – O Modelo de Regressão Linear Clássico 83
d=0 d=1
1 (se A se verifica)
d2 =
0 (se A não se verifica),
ou
%∆yt = 100 × (exp{δ } − 1) ,
onde
yt1 − yt0
%∆yt = 100 × .
yt0
d=0 d=1
Exemplo 2.23 – No seguimento do exemplo 2.21, suponha-se que urb interage com
rdisp, mas não influencia o termo independente. O modelo é, então,
despct = β1 + β 2 rdisp t + β3 daft + β 4 (urbt × rdisp t ) + ut .
1 (se A2 se verifica)
d2 =
0 (se A2 não se verifica),
...
1 (se Am −1 se verifica)
d m −1 =
0 (se Am −1 não se verifica).
Neste caso, o acontecimento de referência é Am .
Uma vez definidas as variáveis artificiais, utiliza-se um procedimento em tudo
semelhante àquele que se seguiu quando se tinha apenas uma variável artificial, ou seja,
é necessário determinar se os efeitos do factor qualitativo afectam o termo independente
ou os coeficientes dos regressores. Os coeficientes associados às variáveis artificiais in-
terpretam-se, agora, como diferenças em relação à alternativa escolhida para referência.
Exemplo 2.24 – Suponha-se que no exemplo da despesa anual em bens e serviços cultu-
rais se define o grau de escolaridade do agregado familiar, distinguindo três modalida-
des: “alto”, “médio” e “baixo”. Torna-se, então, necessário introduzir duas variáveis ar-
tificiais, que se podem definir da seguinte forma:
1 (grau de escolaridade alto)
educA =
0 (caso contrário),
onde:
1 ( trabalhador semi-especializado)
gept1 =
0 (caso contrário)
1 ( trabalhador especializado)
gept 2 =
0 (caso contrário)
onde
0 ( trabalhador não especializado)
1 ( trabalhador semi-especializado)
gept =
2 ( trabalhador especializado)
3 ( trabalhador muito especializado) .
Este modelo pressupõe que o efeito parcial de gep sobre lsalar é constante.
Fazendo δ 2 = 2δ 1 e δ 3 = 3δ 1 , facilmente se conclui que estas restrições sobre os
coeficientes do primeiro modelo permitem obter o segundo. De facto, inserindo as res-
trições no primeiro modelo, obtém-se
lsalart = β1 + β 2 educt + β3 expert + δ1 ( gept1 + 2 gept 2 + 3 gept 3 ) + ut ,
que não é mais do que o segundo modelo, onde gept = gept1 + 2 gept 2 + 3 gept 3 .
Para testar a hipótese de efeito parcial constante, utiliza-se o teste do rácio-F ha-
bitual, onde o primeiro modelo é o modelo sem restrições, e o segundo, o modelo com
restrições.
∇
Capítulo 2 – O Modelo de Regressão Linear Clássico 91
baixo para o grau médio (alto) de escolaridade é sempre medida por β 5 ( β 4 ), qualquer
que seja a zona de residência.
Quadro 2.4
Termo independente no modelo sem interacções
Grau de escolaridade
Zona Alto Médio Baixo
Urbana β1 + β 3 + β 4 β1 + β 3 + β 5 β1 + β 3
Rural β1 + β 4 β1 + β 5 β1
O modelo é, então,
(2.91) yt = β1 + β 2 xt + β 3 dt1 + β 4 dt 2 + β 5 dt 3 + β 6 dt 4 + β 7 dt 5 + ut .
Pode, então, verificar-se que a diferença entre as duas zonas de residência varia
com o grau de escolaridade: β 3 + β 6 para o grau de escolaridade alto; β 3 + β 7 para o
grau médio; β 3 para o grau baixo. Fica ao cuidado do leitor verificar, recorrendo a um
raciocínio semelhante, que as diferenças entre os graus de escolaridade dependem da
zona de residência.
Exemplo 2.26 – Retome-se os exemplos 2.21 e 2.24, e estime-se o modelo com as va-
riáveis artificiais correspondentes aos factores zona de residência – variável urb – e grau
de escolaridade – variáveis educA e educM. Os resultados da estimação dos modelos
com e sem interacções apresentam-se nos quadros seguintes.
Capítulo 2 – O Modelo de Regressão Linear Clássico 93
Para facilitar a exposição, começa-se por tratar o caso em que número de gru-
pos é igual a 2. O modelo é o seguinte:
yt = β11 xt1 + β 21 xt 2 + L + β k1 xtk + ut (t ∈ T1 )
(2.93)
yt = β12 xt1 + β 22 xt 2 + L + β k 2 xtk + ut (t ∈ T2 ),
onde:
− os coeficientes de regressão, β ji ( j = 1, 2, K k ; i = 1, 2 ), representam-se com dois ín-
dices: o primeiro refere-se ao regressor; o segundo, ao grupo.
− Os conjuntos de índices dos grupos 1 e 2 representam-se, respectivamente, por T1 e
T2 . Estes conjuntos constituem uma partição de T: T1 ∪ T2 = T e T1 ∩ T2 = ∅ .
e, naturalmente, a hipótese alternativa estabelece que pelo menos uma destas k igualda-
des não se verifica. Pode, então, escrever-se:
(2.95) H 0 : β •1 = β • 2 contra H1 : β•1 ≠ β • 2 .
ou
(2.97) yt = xt • β + vt (t ∈ T ) ,
onde
Capítulo 2 – O Modelo de Regressão Linear Clássico 98
β1 δ1
β2 δ
β= e δ = 2 .
M M
β k δ k
que se deve comparar com o respectivo valor crítico da tabela da F-Snedcor com 4 e
992 graus de liberdade. Como este valor é igual 2.38, conclui-se que se rejeita a hipó-
tese de permanência de estrutura (o valor-p é praticamente nulo), ou seja, não se rejeita
a hipótese de existirem diferenças significativas de salários em função do género.
Por curiosidade, referem-se os resultados das três regressões:
Capítulo 2 – O Modelo de Regressão Linear Clássico 99
O estudo precedente pode ser generalizado para g grupos. O modelo sem res-
trições passa a ser
yt = xt • β •1 + ut (t ∈ T1 )
yt = xt • β • 2 + ut (t ∈ T2 )
(2.104)
M
yt = xt • β • g + ut (t ∈ Tg ),
onde os conjuntos T1 , T2 , K , Tg formam uma partição de T. O modelo com restrições
continua a ser dado por (2.97), onde β •1 = β • 2 = L = β • g = β .
Dispondo de ni observações para o grupo i (i = 1, 2, K , g ) , a relação amostral
correspondente ao modelo sem restrições é semelhante a (2.99), Y = X ∗ β∗ + U , onde
Y•1 X1 O L O β•1 U •1
Y O X2 L O β• 2 U
Y= •2
, X∗ = , β∗ = eU =
•2
,
M M M M M M
Y• g O O L X g β• g U • g
(note-se que: n = n1 + n2 + L + ng ; X ∗ é uma matriz n × g k ; β∗ é um vector g k × 1 ).
A relação amostral relativa ao modelo com restrições tem a mesma forma que
(2.100), Y = Xβ + V , onde
X1 V•1
X V
X= 2
e V = .
•2
M M
X g V• g
O teste de alteração da estrutura é dado por
H 0 : β•1 = β • 2 = L = β• g contra H1 : ∃(i, l) : β •i ≠ β•l .
Ik O L O − Ik
O Ik L O − I k
R= ,
M M M M
O O L Ik − Ik
onde
Uˆ TUˆ = Uˆ •T1Uˆ •1 + Uˆ •T2Uˆ • 2 + L + Uˆ •TgUˆ • g .
1 (t ∈ T1 ) 1 (t ∈ T2 ) 1 (t ∈ Tg −1 )
d t1 = , dt 2 = ,..., dt , g −1 = .
0 (t ∉ T1 ) 0 (t ∉ T2 ) 0 (t ∉ Tg −1 )
onde
β1 δ11 δ12 δ1, g −1
β2 δ 21 δ 22 δ 2, g −1
β= ,δ = ,δ = ,..., δ •, g −1 = .
M •1 M • 2 M M
β
k
δ
k1 δ k 2 δ k , g −1
L
yt = xt1• β •1g + xt2• β •2g + ut (t ∈ Tg ),
onde: xt1• é o vector 1 × k1 dos primeiros k1 regressores; xt2• é o vector 1 × k2 dos restan-
tes k2 regressores; β •1i (i = 1, 2, K , g ) é o vector k1 × 1 dos coeficientes sujeitos a teste;
β •2i (i = 1, 2, K, g ) é o vector k2 × 1 dos coeficientes não sujeitos a teste (e que podem
variar inter-grupos).
As respectivas relações amostrais são
Y•1 = X 11β•11 + X 12 β•21 + U •1
Y• 2 = X 2 β• 2 + X 2 β• 2 + U • 2
1 1 2 2
L
Y• g = X 1g β•1g + X g2 β•2g + U • g ,
onde: X i1 (i = 1, 2, K , g ) é a matriz ni × k1 dos regressores relativamente ao grupo i, e
aos regressores cujos coeficientes estão sujeitos a teste; X i2 (i = 1, 2, K , g ) é a matriz
ni × k2 dos regressores relativamente ao grupo i, e aos regressores cujos coeficientes não
estão sujeitos a teste.
Pode, também, fazer-se Y = X ∗ β∗ + U , onde
X1 O L O X 2 O L O
1 1
O X1 L O O X 2 L O
X* = ,
2 2
M M M M M M
1 2
O O L Xg O O L Xg
Capítulo 2 – O Modelo de Regressão Linear Clássico 102
e
β1
•1
β 1
•2
M
1
β• g
β∗ = 2 .
β•1
β 2
•2
M
2
β• g
O teste é, então, H 0 : β•11 = β•12 = L = β•1g = β 1 contra H1 : ∃(i, l) : β•1i ≠ β •1l , onde
β1
β
β = 2.
1
M
β k1
L
yt = xt1• β 1 + xt2• β •2g + ut (t ∈ Tg ).
As respectivas relações amostrais são dadas por
Y•1 = X 11β 1 + X 12 β•21 + V•1
Y• 2 = X 2 β + X 2 β• 2 + V• 2
1 1 2 2
L
Y• g = X 1g β 1 + X g2 β •2g + V• g .
Pode, também, escrever-se Y = Xβ + V , onde
β1
X 11 X 21
O L O β2
1 2
•1
X 2 O X2 L O
X = e β = β•22 .
1
M M M M
X g O
2
O L X g
2
β• g
Capítulo 2 – O Modelo de Regressão Linear Clássico 103
Este teste pode ser feito recorrendo a um modelo com variáveis artificiais, tal
como se fez a propósito do teste de Chow (2.105). O modelo sem restrições pode ser
formalizado com apenas uma equação de regressão cujos regressores são
xtj e d ti xtj (i = 1, 2, K , g − 1; j = 1, 2, K , k1 , k1 + 1, K , k ; k2 = k − k1 ) .
onde
δ11 δ12 δ1, g −1
δ 21 1 δ 22 δ 2, g −1
δ •1 =
1
,δ = ,..., δ •, g −1 =
1
,
M •2 M M
δ δ k1 2 δ
k11 k1 , g −1
e
β k +1 δ k +1,1 δ k +1, 2 δ k +1, g −1
1 1 1 1
β k1 + 2 δ k1 + 2 ,1 δ k1 + 2 , 2 δ k1 + 2, g −1
β =
2
,δ =
2
,δ =
2
,..., δ •, g −1 =
2
,
M •1 M • 2 M M
β δ δ k 2 δ
k k1 k , g −1
A matriz dos regressores é
X1 X 11 O L O X 12 X 12 O L O
11
X2 O X 21 L O X 22 O X 22 L O
M M M M M M M M .
1 1 2
X g −1 O O L X g −1 X g −1 O O L X g2−1
X 1g O O L O X g2 O O L O
A hipótese nula é dada por
H 0 : δ •11 = δ •12 = L = δ •1, g −1 = 0 .
X 11 X 12 X 12 O L O
1
X2 X 22 O X 22 L O
M M M M M .
1
X g −1 X g2−1 O O L X g2−1
1
Xg X g2 O O L O
Para ilustrar este resultado, vai considerar-se um modelo com termo indepen-
dente e mais dois regressores ( k = 3 ). Suponha-se que existem três grupos ( g = 3 ), e
que se pretende testar se as inclinações são constantes inter-grupos. Assim, o número de
coeficientes sujeitos a teste é k1 = 2 (e, portanto, k2 = 1 ).
Definindo duas variáveis artificiais, dti (i = 1, 2) [o grupo de referência é o ter-
ceiro], o modelo sem restrições é dado por
yt = β1 + δ11dt1 + δ12 dt 2
+ β 2 xt 2 + δ 21dt1 xt 2 + δ 22 dt 2 xt 2
+ β3 xt 3 + δ 31dt1 xt 3 + δ 32 dt 2 xt 3 + ut ,
L
yt = xt1• β•1g + xt2• β 2 + ut (t ∈ Tg ),
onde β 2 é o vector k2 × 1 dos coeficientes não sujeitos a teste (e que não variam inter-
-grupos).
As respectivas relações amostrais são
Y•1 = X 11β •11 + X 12 β 2 + U •1
Y• 2 = X 2 β• 2 + X 2 β + U • 2
1 1 2 2
L
Y• g = X 1g β•1g + X g2 β 2 + U • g .
Capítulo 2 – O Modelo de Regressão Linear Clássico 105
O teste continua a ser H 0 : β•11 = β•12 = L = β •1g = β 1 contra H1 : ∃(i, l) : β•1i ≠ β•1l .
No modelo com restrições os regressores são xtj ( j = 1, 2, K , k ) .
Daqui resulta que as relações amostrais são dadas por
Y•1 = X 11 β 1 + X 12 β 2 + V•1
Y•2 = X 2 β + X 2 β + V•2
1 1 2 2
L
Y = X 1 β 1 + X 2 β 2 + V .
•g g g •g
Fazendo Y = Xβ + V , tem-se
X1 X 2
1 1
X 1 X 2 β 1
X =
2 2
; β = .
M M β 2
1
2
X
g X g
Se a hipótese nula é verdadeira, tem-se
{Vˆ TVˆ − Uˆ TUˆ } /{( g − 1)k1}
(2.107) ~ F ( g − 1)k1 , n − g k1 − k2 .
ˆ T ˆ
U U /(n − g k − k )
1 2
Estimativas Erros
Regressores dos coeficientes padrão Rácios-t Valores-p
constante 5.88936
mulhert – 0.22665 0.14345 – 1.58004 0.114
educt 0.55732 0.00597 9.33295 0.000
mulhert × educt – 0.00032 0.00971 – 0.03330 0.973
expert 0.02302 0.00313 7.34721 0.000
mulhert × expert 0.00096 0.00507 0.19009 0.849
empct 0.00323 0.00300 1.07699 0.282
mulhert × empct 0.00339 0.00483 0.70336 0.482
Até aqui, o modelo de regressão linear foi apresentado de acordo com o seguinte
ponto de vista: dispondo de um certo número de observações sobre as variáveis, procu-
ra-se estimar uma relação linear capaz de explicar o comportamento do regressando em
função de certos regressores. Outro ponto de vista é o de encontrar o modo mais eficaz
de utilização do modelo com o objectivo da previsão de observações adicionais do re-
gressando a partir de certos valores assumidos pelos regressores. No entanto, deve subli-
nhar-se que só se deve passar à fase da previsão depois de se adoptar um determinado
modelo estimado, o que pressupõe que as estimações feitas foram submetidas a uma
cuidada análise da especificação.
O “problema da previsão” procura dar resposta a dois tipos de questões:
a) Previsão em média: estimação do valor esperado das observações do regressando
condicionado por uma ou várias combinações de valores assumidos pelos regresso-
res.
b) Previsão pontual (para valores isolados): estimação de valores observados pelo re-
gressando em correspondência com uma ou várias combinações de valores assumi-
dos pelos regressores.
A distinção entre estes dois tipos de previsão é ilustrada pelo exemplo que se se-
gue.
Cov(U , U 0 | X , X 0 ) = O,
onde
yn+1 u n+1
y u
Y0 = n+2
, U 0 = n+ 2 ,
M M
yn+r u n + r
e Cov(U , U 0 | X , X 0 ) é a matriz n × r das covariâncias, condicionadas por X e X 0 ,
entre as variáveis residuais, ut , relativas ao domínio de estimação e as variáveis resi-
duais, u s , referentes ao domínio de previsão. Assim,
Cov(ut , us | X , X 0 ) = 0 (t = 1, 2, K , n ; s = n + 1, n + 2, K , n + r ) .
Y0 | X , X 0 ~ N ( X 0 β , σ I r ),
(r ) 2
Cov(Y , Y | X , X ) = O.
0 0
U 0 ~ N (0, σ I r ),
(r ) 2
Cov(U , U ) = O.
0
Previsão em média
que não é mais do que um sistema de r combinações lineares dos coeficientes de regres-
são. Naturalmente que
(2.109) θˆ = X 0b
é BLUE para θ = X 0 β , condicionado por X e X 0 .
Tem-se
E (θˆ | X , X ) = E ( X 0b | X , X 0 ) = X 0 β = θ ,
0
Então,
e
(θˆ − θ )T { X 0 ( X T X ) −1 X 0T }−1 (θˆ − θ )
(2.112) ~ F (r , n − k ) .
r s2
Este resultado é semelhante a (2.79), onde R foi substituído por X 0 (no entanto,
R é não estocástica e X 0 é matriz aleatória), e permite fazer inferência estatística sobre
θ = X 0 β : construir regiões de confiança (elipsóides de previsão) e testar hipóteses.
Quando se abandona a hipótese REX.6, a distribuição anterior é assintótica, e o resul-
tado (2.112) só é válido para grandes amostras (ver capítulo 3).
Quando se tem apenas uma observação adicional ( r = 1 ), para simplificar, vai
fazer-se
X 0 = c = [ c1 c2 L ck ],
θˆ = Eˆ ( y0 | X , c) = cb = c1b1 + c2b2 + L + ck bk .
Recorrendo à distribuição t-Student, obtém-se
θˆ − θ Eˆ ( y0 | X , c) − E ( y0 | X , c)
(2.113) = ~ t (n − k ) ,
sθˆ s c( X T X ) −1 cT
Capítulo 2 – O Modelo de Regressão Linear Clássico 110
onde
sθˆ = s c( X T X ) −1 cT
Quando o modelo tem termo independente, o cálculo de θˆ e de sθˆ pode ser feito
utilizando uma técnica já conhecida (ver secção 2.10, subsecção “Inferência estatística
sobre uma combinação linear dos coeficientes de regressão”). Com efeito, seja o MRL,
yt = β1 + β 2 xt 2 + L + β k xtk + ut e θ = β1 + β 2c2 + L + β k ck . Como
β1 = θ − β 2c2 − L − β k ck ,
substituindo no modelo, vem
yt = θ + β 2 ( xt 2 − c2 ) + L + β k ( xtk − ck ) + ut .
onde
θˆ = Eˆ ( y0 | X , c) = b1 + b2 c , θ = E ( y0 | X , c) = β1 + β 2c ,
e
1 (c − x ) 2
sθˆ = s + .
n
∑
n
t =1
( xt − x ) 2
Previsão pontual
e o erro de previsão,
(2.116) D = Y0 − Yˆ0 .
Com efeito,
Cov( D | X , X 0 ) = Cov(Y0 | X , X 0 ) + Cov(Yˆ0 | X , X 0 ) − 2 Cov(Y0 , Yˆ0 | X , X 0 )
= σ 2 I r + σ 2 X 0 ( X T X ) −1 X 0T − 2 E{(Y0 − X 0 β )(Yˆ0 − X 0 β )T | X , X 0 }
= σ 2 I r + σ 2 X 0 ( X T X ) −1 X 0T − 2 E{U 0 ( X 0b − X 0 β )T | X , X 0 }
= σ 2 I r + σ 2 X 0 ( X T X ) −1 X 0T − 2 E{U 0 (b − β )T X 0T | X , X 0 }
= σ 2 I r + σ 2 X 0 ( X T X ) −1 X 0T − 2 E{U 0U T | X , X 0 } X ( X T X ) −1 X 0T
= σ 2{I r + X 0 ( X T X ) −1 X 0T } ,
Capítulo 2 – O Modelo de Regressão Linear Clássico 112
pois b − β = ( X T X ) −1 X T U , e E (U 0U T | X , X 0 ) = O .
Verifica-se, assim, que a matriz das covariâncias do erro de previsão, condicio-
nadas por X e X 0 , é a soma de duas matrizes:
− A matriz das covariâncias condicionadas de Y0 , que não depende dos dados,
Cov(Y0 | X , X 0 ) = σ 2 I r ;
Cov(Yˆ0 | X , X 0 ) = σ 2 X 0 ( X T X ) −1 X 0T .
onde
sd = s 1 + c( X T X ) −1 cT
d y0 − yˆ 0
= ~ t ( n − 2) ,
sd 1 (c − x ) 2
s 1+ +
n
∑
n
t =1
( xt − x ) 2
onde
1 (c − x ) 2
sd = s 1 + + ,
n
∑
n
t =1
( xt − x ) 2
Considere-se o modelo (2.94). Supondo, tal como se fez na secção 2.12, que se
dispõe de n1 observações para o grupo 1, e n2 para o grupo 2, a relação amostral corres-
pondente é dada por (2.98). No teste de Chow de alteração da estrutura, em que se uti-
liza a estatística (2.102), pressupõe-se que n1 > k e que n2 > k , e fazem-se três ajusta-
mentos MQ (com n1 observações, com n2 observações e com n = n1 + n2 observações).
Para efectuar o teste de previsão de Chow, vai adoptar-se outro ponto de vista:
as observações do grupo 1 são utilizadas para estimar os coeficientes de regressão, ob-
tendo-se b•1 = ( X 1T X 1 ) −1 X 1T Y•1 (supõe-se que n1 > k ); as observações do grupo 2 são usa-
das para testar a hipótese (2.95),
H 0 : β •1 = β • 2 contra H1 : β •1 ≠ β • 2 ,
−1
X 1T X 1 + X 2T X 2 X 2T ( X 1T X 1 ) −1 − ( X 1T X 1 ) −1 X 2T O
R RT = O I n2 [ ]
− X 2 ( X 1 X 1 ) I n2 + X 2 ( X 1 X 1 ) X 2 I n2
T −1 T −1 T
X2 I n2
= I n2 + X 2 ( X 1T X 1 ) −1 X 2T .
Vˆ T Vˆ − Uˆ •T1Uˆ •1
(2.124) ~ t (n1 − k ) .
s
E (lyt | X ) = xt • β ;
Var(lyt | X ) = σ 2 ;
Cov(lyt , ly s | X ) = 0 (t ≠ s );
(lyt | X ) ~ NID( xt • β , σ 2 ) .
e
exp{E (lyt | X )} = exp{xt • β } ≠ E ( yt | X ) = exp{xt • β }E (exp{ut } | X ) ,
recorrendo à função geradora dos momentos de variável aleatória com distribuição nor-
mal, e notando que exp {σ 2 / 2} > 1 (porque σ 2 > 0 ).
Nestas condições, o previsor
^
yˆ 0 = exply 0 = exp{cb} ,
é enviesado (o respectivo erro de previsão não tem valor esperado nulo) e inconsistente
(subestima sistematicamente o valor esperado condicionado de y0 ).
Facilmente se verifica que este enviesamento é tanto maior quanto maior for σ 2 .
Na prática, este enviesamento é tanto maior quanto menor for o coeficiente de determi-
nação, ou quanto maior for o erro padrão, s, da regressão de lyt sobre xt • .
Refira-se, ainda, que este problema tem consequências diferentes quando se pre-
tende fazer uma previsão pontual ou quando se efectua uma previsão por intervalos.
Com efeito, na primeira situação, a previsão é enviesada em termos da variável original,
y0 , e deve ser corrigida sempre que possível. No segundo caso, obtém-se uma previsão
com o grau de confiança desejado, embora descentrada em relação ao valor esperado
condicionado de y0 . Em vez de centrar o intervalo de previsão no valor esperado condi-
cionado de y0 , opta-se por utilizar um intervalo de previsão com idêntica probabilidade
à esquerda e à direita.
As considerações anteriores mostram que é necessária uma correcção simples
para prever y0 . O novo previsor é dado por
s 2 ^ s 2
(2.125) yˆ 0 = exp exply 0 = exp exp{cb} ,
2 2
Capítulo 2 – O Modelo de Regressão Linear Clássico 117
Exemplo 2.31 – Suponha-se que se vai fazer a previsão pontual do salário (previsão
para um determinado trabalhador), quando os regressores assumem os seguintes valo-
res: educt = 14 ; expert = 7 ; empct = 4 . A previsão é a seguinte:
^
lsalar0 = 5.81505 + 14 × 0.055383 + 7 × 0.022988 + 4 × 0.00395 = 6.76714 .
Este valor podia ser obtido fazendo a regressão de lsalart sobre 1, educt − 14 ,
expert − 7 e empct − 4 . A estimativa do termo independente é, então, 6.76714; o respec-
tivo erro padrão é igual a 0.020314. Como
e t0.025 = 1.9624 (com 996 graus de liberdade), o intervalo de confiança é dado por
[6.02918, 7.50511].
O valor previsto para o salário (sem correcção do enviesamento) é, então, igual a
exp{ 6.76714 } = 868.82491 . Calculando os anti-logaritmos das extremidades daquele
intervalo, obtém-se
[415.3725, 1817.29631].
Como era de esperar, a amplitude deste intervalo é elevada, uma vez que, tratan-
do-se de previsão pontual, o cálculo dos anti-logaritmos acentua a disparidade de valo-
res.
O valor previsto anteriormente para o salário, 868.82491, pertence a este interva-
lo, mas encontra-se claramente mais perto da extremidade inferior do que da extremida-
Capítulo 2 – O Modelo de Regressão Linear Clássico 118
Previsão ex-post
∑
n+ r
( yt − yˆ t ) 2
REQM = t = n +1
.
r
b) O erro absoluto médio
∑
n+r
| yt − yˆ t |
EAM = t = n +1
.
r
Estas duas estatísticas têm um problema de escala (dependem da unidade de me-
dida dos yt ). As duas estatísticas seguintes evitam este problema.
c) A estatística U T de Theil
∑
n+ r
( y − yˆ t ) 2
t
UT = t = n +1
.
∑t =n+1 yt
n+ r 2
d) A estatística U T∆ de Theil
∑
n+r
∆
(∆yt − ∆yˆ t ) 2
U = t = n +1
.
∑
T n+ r
t = n +1
(∆yt ) 2
Esta estatística, que pode também ser apresentada em taxas de variação, é uma
variante de U T . Ela permite detectar pontos de viragem (turning points) nas observa-
ções do regressando.
Capítulo 2 – O Modelo de Regressão Linear Clássico 119
mas sim
Var(uˆt | X ) = σ 2{1 − xt • ( X T X ) −1 xtT• } ,
porque Cov(Uˆ | X ) = σ 2 PX (ver secção 2.4). A este propósito, fica ao cuidado do leitor
verificar que Var( yˆ t | X ) = Cov( yt , yˆ t | X ) = σ 2 xt • ( X T X ) −1 xtT• , donde se conclui que
Var(uˆt | X ) = Var( yt − yˆ t | X ) = Var( yt | X ) − Var( yˆ t | X ) ≥ 0 .
Capítulo 2 – O Modelo de Regressão Linear Clássico 121
PALAVRAS-CHAVE
Acontecimento de referência Interacção
Alteração da estrutura Intervalo de confiança
Análise dos resíduos Linearidade
Armadilha das variáveis artificiais Matriz das covariâncias das variáveis re-
siduais
Associação (não) linear Matriz das covariâncias dos estimadores
MQ
Ausência de autocorrelação Matriz dos regressores
Autocorrelação Método da máxima verosimilhança (MV)
Coeficiente de correlação (parcial) Método dos mínimos quadrados (MQ)
Coeficiente de determinação Método dos momentos
Coeficiente de determinação ajustado Modalidades
Coeficiente de determinação não centrado Modelo com restrições
Coeficiente de regressão Modelo de regressão linear (clássico)
Condição de característica Modelo de regressão linear normal
Condição de ortogonalidade Modelo de regressão linear simples
Diagrama de dispersão Modelo sem restrições
Dimensão do teste Multicolinearidade (aproximada)
Distribuição assintótica Multicolinearidade exacta
Distribuição do qui-quadrado Parâmetro característico
Distribuição exacta Parâmetro perturbador
Distribuição F-Snedcor Previsão em média
Distribuição normal Previsão ex-ante
Distribuição t-Student Previsão ex-post
Domínio de estimação Previsão pontual
Domínio de previsão Previsor
Eficiência Previsor BLUP
Enviesamento Princípio da analogia
Equações de verosimilhança Princípio da razão de verosimilhanças
Equações normais Princípio de Wald
Erro de amostragem Rácio-F
Erro de previsão Rácio-t
Erro padrão da previsão em média Região crítica
Erro padrão da regressão Região de confiança
Erro padrão do erro de previsão Regressando
Erro padrão do estimador MQ Regressor
Escala nominal Regressores fixos
Escala ordinal Relação amostral
Estimador BLUE Resíduo MQ com restrições
Estimador de máxima verosimilhança Resíduo (dos mínimos quadrados)
Estimador dos mínimos quadrados Sazonalidade determinística
Capítulo 2 – O Modelo de Regressão Linear Clássico 122
PALAVRAS-CHAVE
Estimador eficiente Significância estatística
Estimador linear Significância prática
Estimador MQ com restrições Soma dos quadrados dos resíduos
Estimador não enviesado Soma dos quadrados explicada
Exogeneidade contemporânea Soma total dos quadrados
Exogeneidade estrita Teorema de Frisch-Waugh-Lovell
Factor qualitativo Teorema de Gauss-Markov
Função de regressão linear ajustada Teorema do limite central
Função de regressão linear (teórica) Teste de Chow
Função de verosimilhança (concentrada) Teste de hipóteses
Grau de multicolinearidade Teste de nulidade conjunta
Graus de liberdade Teste de previsão de Chow
Heterocedasticidade condicionada Teste de significância global
Homocedasticidade condicionada Valor ajustado
Hipótese a manter Valor-p
Hipótese alternativa Variação explicada
Hipótese nula Variação residual
Identificação Variação total
Inferência estatística Variável artificial
Inferência estatística sobre a variância da Variável binária
variável residual
Inferência estatística sobre combinações Variável residual
lineares de coeficientes de regressão
Inferência estatística sobre um coeficiente Variáveis centradas
de regressão isolado
Inferência estatística sobre uma combina-
ção linear de coeficientes de regressão
Capítulo 2 – O Modelo de Regressão Linear Clássico 123
PERGUNTAS DE REVISÃO
Uˆ T Uˆ (n − k ) s 2
X ~ χ 2 (n − k ) ou X ~ χ 2 (n − k ) .
σ2 σ2
ou de vectores aleatórios,
z•1 , z•2 , K , z•n , K ou {z•n } ,
lim P( | z2 n − c2 | < ε ) = 1
p
z• n → c ⇔ n → +∞
L
lim P( | z − c | < ε ) = 1,
n → +∞ mn m
e notando que
( z• n − c)T ( z• n − c) = ( z1n − c1 ) 2 + ( z2 n − c2 ) 2 + L + ( zmn − cm ) 2 ,
onde | z•n − c | representa o módulo da diferença entre os vectores z•n e c (a raiz qua-
drada da distância euclideana). Esta definição adapta-se imediatamente às sucessões
de matrizes aleatórias, notando que uma matriz de tipo m × p pode ser encarada co-
mo um vector mp × 1 .
Capítulo 3 – MRL com Regressores Pré-Determinados 3
d d
zn → z ~ N ( µ , σ 2 ) ou zn → N ( µ , σ 2 ) ,
Obviamente que
p d
(3.9) zn → c ⇔ zn → c .
Tem-se:
d p d
d) z•n → z ∧ An → A ⇒ ( An z•n ) → A z , onde An é matriz aleatória k × m e A matriz não
aleatória do mesmo tipo; em particular, deve considerar-se o caso em que An = A .
d
e) Se, nas condições de d), z ~ N ( m ) ( µ , V ) então ( An z• n ) → N ( k ) ( Aµ , AVAT ) .
d p d
f) z•n → z ∧ An → A ⇒ ( z•Tn An−1 z•n ) → z T A −1 z , se as matrizes An e A tiverem inversa.
d p d
g) z• n → z ~ N ( m ) (0, V ) ∧ Vn → V ⇒ ( z•TnVn−1 z• n ) → z TV −1 z ~ χ 2 (m) , se Vn tiver inversa;
em particular, deve considerar-se o caso em que Vn = V .
ou seja,
a
w•Tn z•n ~ cT z•n .
Assim, verifica-se que substituir w•n pelo seu limite em probabilidade, não alte-
ra a distribuição limite de w•Tn z•n , desde que z•n convirja em distribuição para algum
vector aleatório z.
A seguir vai apresentar-se e demonstrar-se um teorema (conhecido pelo nome de
método delta), que permite obter distribuições limite que envolvem uma função (não li-
near) dos vectores de uma sucessão de vectores aleatórios.
Capítulo 3 – MRL com Regressores Pré-Determinados 7
Em particular,
d
n ( z• n − θ ) → N ( m ) (0, V ) ⇒
(3.11) d
n{g ( z• n ) − g (θ )} → N ( p ) 0, ∇g (θ ) V ∇g (θ )T .
Dem.: De acordo com o teorema dos acréscimos finitos da análise diferencial, existe um
vector w•n entre z•n e θ a verificar
g ( z• n ) − g (θ ) = ∇ g ( w• n )( z• n − θ ) ,
ou
n{g ( z• n ) − g (θ )} = ∇ g ( w• n ) n ( z• n − θ ) .
Como w•n está entre z•n e θ e plim( z• n ) = θ , então também plim(w• n ) = θ . Co-
mo ∇ g é contínua, tem-se, devido a (3.2), plim{∇g ( w• n )} = ∇g (θ ) .
Atendendo a que
d
n ( z• n − θ ) → z ,
Como vai ver-se, este teorema permite testar hipóteses não lineares, dada a dis-
tribuição limite de um estimador.
É altura de apresentar a definição de convergência em média quadrática.
Capítulo 3 – MRL com Regressores Pré-Determinados 8
Notando que
E{( z• n − c)T ( z• n − c)} = E{( z1n − c1 ) 2 } + E{( z2 n − c2 ) 2 } + L + E{( zmn − cm ) 2 } ,
mq p
(3.15) zn → c ⇒ zn → c .
Então,
mq p
(3.17) zn → z ⇒ zn → z .
qualquer que seja ε > 0 e n′ > n . Esta condição sugere que θˆ•n deve tender em probabi-
lidade para θ .
Vão apresentar-se dois resultados gerais muito usados nos testes de hipóteses
em Econometria:
1) Suponha-se que θˆ•n é um estimador assintoticamente normal de θ , e que R é uma
matriz p × m tal que p ≤ m e r ( R) = p . Então,
d
n R (θˆ• n − θ ) → N ( p ) (0, R V RT ) ,
e
d
n{R (θˆ• n − θ )}T ( R V RT ) −1{R (θˆ• n − θ )} → χ 2 ( p ) .
e
d
n{g (θˆ• n ) − g (θ )}T {∇g (θ ) V ∇g (θ )T }−1{g (θˆ• n ) − g (θ )} → χ 2 ( p) .
Capítulo 3 – MRL com Regressores Pré-Determinados 12
Se existem constantes
c1 , c2 , K , cn , K ,
tais que a sucessão { yn − cn } converge em probabilidade para zero, diz-se que a suces-
são {z n } obedece à lei dos grandes números (LGN). É esta convergência estocástica
que, como vai ver-se, dá uma certeza prática de que o valor de yn não se afasta signi-
ficativamente de cn , desde que se considere n suficientemente grande. Assim, tem-se
plim ( yn − cn ) = 0 ⇔ lim P ( | yn − cn | < ε ) = 1 .
n→+∞
Esta concepção mais restrita é, mesmo assim, suficientemente geral para abran-
ger, como casos particulares, as várias leis clássicas dos grandes números (Bernoulli,
Poisson, etc.).
Vão apresentar-se a seguir alguns teoremas sobre lei dos grandes números que
vão ser úteis para o estudo do modelo de regressão linear considerado neste capítulo.
Estes teoremas estabelecem condições suficientes relativamente a três aspectos
do comportamento da sucessão de variáveis aleatórias:
1) Dependência ou “memória”: supõe-se que as variáveis aleatórias zn (n = 1,2, K)
são independentes? Caso contrário, a dependência está sujeita a algumas comdições?
2) Heterogeneidade: as variáveis aleatórias zn são identicamente distribuídas (homo-
geneidade)? Caso contrário (heterogeneidade), que condições se devem impor?
3) Momentos: que hipóteses se estabelecem sobre os momentos das variáveis aleatórias
zn ?
Assim, os teoremas sobre a lei dos grandes números têm o seguinte formato:
Capítulo 3 – MRL com Regressores Pré-Determinados 14
Chebychev, com base na desigualdade que tem o seu nome, provou uma con-
dição suficiente para que uma sucessão de variáveis aleatórias independentes (mas não
necessariamente identicamente distribuídas), obedeça à lei dos grandes números:
n → +∞ n
n → +∞
então a sucessão {z n } obedece à lei dos grandes números,
1 n
plim {zn − E ( zn )} = plim zn − ∑i =1 µi = 0 .
n
Na secção seguinte vai apresentar-se outro teorema sobre a lei dos grandes nú-
meros (teorema da ergodicidade), em que se supõe dependência (sob certas condições) e
homogeneidade.
Capítulo 3 – MRL com Regressores Pré-Determinados 15
Estes teoremas sobre as leis dos grandes números podem ser enunciados para su-
cessões de vectores aleatórios, {z•n } , considerando a convergência em probabilidade de
cada elemento de z•n .
1 1 d σ
2
n − → N 0, 4 ,
zn µ µ
uma vez que g ( µ ) = 1 / µ e g ′( µ ) = −1 / µ 2 .
Na secção seguinte apresentar-se outro TLC, de grande utilidade para o estudo
do modelo de regressão linear.
Nesta secção vão apresentar-se alguns conceitos e resultados básicos sobre pro-
cessos estocásticos (recorde-se que o termo processo estocástico é apenas outro nome
que se pode dar a uma sucessão de variáveis aleatórias). É particularmente importante o
caso em que o índice destas variáveis é interpretado como sendo o tempo, e os termos
da sucessão referem-se a sucessivas datas (períodos ou instantes); diz-se, então, que o
processo estocástico, z1 , z 2 , K , zt , K ou {zt } , é uma série temporal ou sucessão crono-
lógica [note-se que uma série temporal é uma sucessão, e não deve confundir-se com o
conceito matemático de série].
Uma sucessão de valores assumidos pelas variáveis aleatórias zt é uma realiza-
ção da série temporal. Frequentemente usa-se o termo série temporal para designar o
processo estocástico ou qualquer das suas realizações.
Muitas vezes, o processo estocástico a estudar é uma sucessão de vectores alea-
tórios, e não uma sucessão de variáveis aleatórias (escalares). Neste caso, usa-se a no-
tação {z•t } ou z•1 , z•2 , K , z•t , K , onde z•t é um vector aleatório m × 1 . Diz-se, então,
que se tem um processo estocástico vectorial, que não é mais do que um sistema de m
processos estocásticos escalares.
Considerando o processo estocástico {z•t } , admita-se que existe o valor espe-
rado de cada z•t , µ •t = E ( z•t ) , que, em geral, varia com t (cada termo da sucessão tem
o seu valor esperado).
A matriz das autocovariâncias de ordem s na data t é dada por
Γts = Cov( z•t , z•,t − s ) = E{( z•t − µ •t )( z•,t −s − µ •,t − s )T } ( s = 0,1, 2, K) .
Utiliza-se o prefixo “auto” para salientar que os dois vectores aleatórios, z•t e
z•,t −s , pertencem ao mesmo processo estocástico.
Quando o processo estocástico é escalar, {zt } , a autocovariância de ordem s
na data t é
γ ts = Cov( zt , zt −s ) = E{( zt − µ t )( zt −s − µ t −s )} ( s = 0,1, 2, K) .
Estacionaridade
Também se pode concluir que, se {z•t } é estacionário então {h( z•t )} também é
estacionário, onde h é uma função real (escalar ou vectorial). Por exemplo, {z•t z•Tt } ou
{z•Tt z•t } são estacionários, se {z•t } o for.
Um exemplo típico de processo estocástico estacionário é uma sucessão de va-
riáveis aleatórias iid, {ε t } . Outro exemplo é o processo z1 , z1 , K (as variáveis aleató-
rias da sucessão são todas iguais). Note-se que, no primeiro caso, tem-se uma situação
de ausência de autocorrelação; no segundo, a autocorrelação é máxima.
Evidentemente, se o processo estocástico {z•t } é estacionário, os processos for-
mados pelos elementos homólogos dos vectores z•t são também estacionários. Contudo,
a recíproca não é verdadeira. Com efeito, suponha-se que {ε t } é um processo iid e que
Capítulo 3 – MRL com Regressores Pré-Determinados 18
γ s = Cov( zt , zt −s ) ( s = 0,1, 2, K) ,
e facilmente se verifica que γ 0 = Var( zt ) , e que γ s = γ −s .
O processo estocástico iid, {ε t } , e o processo z1 , z1 , K , atrás referidos, são dois
exemplos de estacionaridade fraca (em covariância), se existirem as respectivas variân-
cias. No primeiro caso, tem-se γ 0 = Var(ε t ) e γ s = 0 para s = 1, 2, K ; no segundo caso,
γ s = Var( z1 ) para s = 0,1, 2, K
O coeficiente de autocorrelação de ordem s é dado por
γ s Cov( zt , zt −s )
ρs = = ( s = 0,1, 2, K) .
γ0 Var ( zt )
Como zt −2 = ϕ zt −3 + ε t −2 , vem
zt = ϕ 2 (ϕ zt −3 + ε t −2 ) + ε t + ϕ ε t −1 = ϕ 3 zt −3 + ε t + ϕ ε t −1 + ϕ 2ε t −2 .
onde {ε t } é um ruído branco. Escreve-se então, zt ~ MA(1) [MA é a sigla para mo-
ving average].
Admitindo, para simplificar, que α = 0 , tem E ( zt ) = 0 , e facilmente se conclui que
Var ( zt ) = σ z2 = σ ε2 (1 + θ 2 ) ,
Ergodicidade
Este teorema sobre a lei dos grandes números é uma generalização do teorema
de Kinchine (teorema 3.2). De facto, o teorema da ergodicidade permite a existência de
dependência entre os termos da sucessão, embora ela desapareça a longo prazo.
Também se pode verificar que se {z•t } é estacionário e ergódico, o mesmo acon-
tece com {h( z•t )} , onde h é uma função real (escalar ou vectorial). Por exemplo, os
processos {z•t z•Tt } ou {z•Tt z•t } são estacionários e ergódicos, se {z•t } o for.
Este resultado tem uma importância fundamental, pois permite concluir que um
estimador consistente de qualquer momento (se existir) de um processo estacionário e
ergódico é o respectivo momento amostral. Por exemplo, quando se considera o proces-
so {z•t z•Tt } , um estimador consistente de E ( z•t z•Tt ) é
1 n
n
∑ z zT .
t =1 •t •t
∑
+∞
t =1
| γ s | = | γ 1 | = σ ε2 | θ | < +∞ .
Martingalas
Seja zit uma componente do vector z•t . O processo {zit } é uma martingala em
relação a {z•t } se e só se
E ( zit | z•,t −1 , z•,t −2 , K) = zi ,t −1 .
Capítulo 3 – MRL com Regressores Pré-Determinados 24
Com efeito,
E ( zit | zi ,t −1 , zi ,t −2 , K) = E{E ( zit | z•,t −1 , z•,t −2 , K) | zi ,t −1 , zi ,t −2 , K} = zi ,t −1 .
ou seja, o valor esperado das variações futuras, condicionadas pelo passado, é nulo
(as martingalas não conseguem prever variações!). Com efeito, supondo que {zit } é uma
martingala em relação a {z•t } , facilmente se conclui que
E ( zi ,t + s +1 | z•,t −1 , z•,t − 2 , K) = E{E ( zi ,t + s +1 | z•,t + s , z•,t + s −1 , K , z•t , z•,t −1 , K) | z•,t −1 , z•,t − 2 , K}
= E ( zi ,t + s | z•,t −1 , z•,t − 2 , K) ,
Pode concluir-se, sem dificuldade, que E ( z•t ) = 0 e Cov( z•t , z•,t − s ) = (t − s )Γε ,
onde Γε = Cov(ε •t ) . Deste modo, o passeio aleatório é um processo não estacionário
em covariância.
No caso do passeio aleatório {zt } (escalar), sabendo que σ ε2 = Var (ε t ) , vem
E ( zt ) = 0 ; Var ( zt ) = tσ ε2 ; Cov( zt , zt −s ) = (t − s )σ ε2 ; Cov( zt , zt + s ) = tσ ε2 ;
t−s t
Corr ( zt , zt − s ) = ; Corr ( zt , zt + s ) = .
t t+s
Este processo é assim chamado porque o processo das somas acumuladas criado
a partir de {w•t } ,
z•1 = w•1 , z•2 = w•1 + w•2 , K , z•t = w•1 + w•2 + L + w•t , K ,
é uma martingala. Com efeito, basta fazer uma demonstração semelhante àquela em que
se provou que um passeio aleatório é uma martingala.
Inversamente, se {z•t } é uma martingala, então o processo das diferenças,
w•1 = z•1 , w•2 = z•2 − z•1 , K , w•t = z•t − z•,t −1 , K ,
Como s ≥ 1 , ( w•,t −1 , K , w•,t − s , K , w•1 ) inclui w•,t − s . Então, devido à regra do va-
lor esperado iterado, e a (3.29), obtém-se
E ( w•t | w•,t − s ) = E{E ( w•t | w•,t −1 , K , w•,t − s , K , w•1 ) | w•,t − s } = 0 .
que mede a variação do valor esperado condicionado quando mais uma observação é
incluída no conjunto de informação. Pode provar-se que este processo, {wt } , de revisão
de expectativas é uma diferença-martingala. Com efeito, devido à regra do valor es-
perado iterado, vem
E ( wt | yt − 2 , yt − 3 , K) = E{E ( yt | yt −1 , yt − 2 , K) | yt − 2 , yt − 3 , K}
− E{E ( yt | yt − 2 , yt − 3 , K) | yt − 2 , yt − 3 , K}
= E ( yt | yt − 2 , yt − 3 , K) − E ( yt | yt − 2 , yt − 3 , K) = 0 .
( y , x ), ( y , x ), K , ( y , x ) .
1 1• 2 2• n n•
Pode, portanto, considerar-se nesta análise, os modelos com dados seccionais
obtidos de forma casual, como acontece com muitos dados microeconómicos (sobre fa-
mílias, empresas, etc.), em que as observações formam uma amostra casual de uma de-
terminada população.
Como {( yt , xt • )} é estacionário e ergódico, conclui-se imediatamente que o pro-
cesso {ut } , onde ut = yt − xt • β , é também estacionário e ergódico. Então, a hipótese
RPD.2 implica que E (ut2 ) , se existir, não varia com t, ou seja, existe homocedastici-
dade marginal (não condicionada),
(3.30) E (ut2 ) = σ 2 .
Note-se que: em (3.30) não pode escrever-se Var (ut ) = σ 2 , porque não está ga-
rantido que E (ut ) = 0 [a homocedasticidade marginal estabelece que o segundo mo-
mento de ut em relação à origem, E (ut2 ) , é constante]; pode ter-se heterocedasticidade
condicionada, isto é, E (ut2 | xt • ) pode depender de xt • (esta situação vai ser estudada
mais adiante).
A hipótese que vai apresentar-se a seguir é crucial, na medida em que se afasta
da exogeneidade estrita dos regressores (REX.2). Enquanto esta hipótese garante a orto-
gonalidade entre qualquer observação dos regressores e qualquer variável residual,
E ( xtj u s ) = 0 (para qualquer t e s, e para j = 1, 2, K , k ), a hipótese seguinte postula a or-
togonalidade, mas apenas para a mesma observação t, ou seja,
E ( xtj ut ) = 0 (para qualquer t e para j = 1, 2, K , k ).
Note-se que
gt • = [ gt1 gt 2 L gtk ] = [ xt1ut xt 2ut L xtk ut ] .
yt = β1 xt1 + β 2 xt 2 + L + β k −1 xt , k −1 + β k xtk∗ + vt ,
e a equação estimável é
yt = β1 xt1 + β 2 xt 2 + L + β k −1 xt , k −1 + β k xtk + ut ,
c) Simultaneidade.
Considere-se a equação
yt1 = β1 + β 2 xt1 + β 3 yt 2 + ut1 ,
Facilmente se verifica que tanto yt1 como yt 2 estão correlacionados com ut1 e ut 2 .
Para isso, basta resolver, em relação a yt1 e yt 2 , o sistema formado pelas duas equa-
ções para pôr em evidência aquelas correlações. Tem-se:
β1 + β 3γ 1 β2 β 3γ 2 1 β3
yt1 = 1 − β γ + 1 − β γ xt1 + 1 − β γ xt 2 + 1 − β γ ut1 + 1 − β γ ut 2
3 3 3 3 3 3 3 3 3 3
y = β1γ 3 + γ 1 + β 2γ 3 x + γ 2 x + γ 3 u + 1
ut 2 .
t2
1 − β 3γ 3 1 − β 3γ 3
t1
1 − β 3γ 3
t2
1 − β 3γ 3
t1
1 − β 3γ 3
O problema da simultaneidade é aflorado nos exemplos 1.7 a 1.10 (capítulo 1). Esta
questão será retomada noutro capítulo.
A distinção entre estas três formas possíveis de endogeneidade nem sempre é tão
evidente. De facto, numa mesma equação pode coexistir mais do que um tipo de en-
dogeneidade. Por exemplo, se se quisesse analisar o efeito do consumo de bebidas al-
coólicas (CA) sobre o salário das trabalhadores, é bem possível que CA esteja correla-
cionada com factores abrangidos pela variável residual (por exemplo, factores que têm a
ver com os antecedentes familiares), e tinha-se, então, uma situação de omissão de va-
riáveis. É de admitir, também, que a variável CA seja observada com erro. Finalmente,
é razoável supor que CA depende do salário, havendo, portanto, uma situação de simul-
taneidade.
Capítulo 3 – MRL com Regressores Pré-Determinados 31
que, no caso de modelos com dados temporais, significa que os regressores são contem-
poraneamente exógenos. Note-se que (3.32) implica que E (ut ) = 0 (mesmo que o mo-
delo não tenha termo independente); também se verifica que a condição (3.32) é equiva-
lente a E ( yt | xt • ) = xt • β .
Como (3.32) implica (3.31), pode haver alguma vantagem em utilizar (3.32). Po-
de provar-se que (3.32) implica que qualquer função de xt • , g ( xt • ) , é ortogonal a ut .
Com efeito,
E{g ( xt • ) ut } = E{E ( g ( xt • ) ut | xt • )} = E{g ( xt • ) E (ut | xt • )} = 0 ,
o que significa que, tal como se comentou no capítulo 2, a condição (3.32) garante que
não há associação (linear ou outra) entre xtj e ut . Em consequência, pode afirmar-se
que a hipótese (3.32) é mais natural quando a equação estrutural, yt = xt • β + ut , é direc-
tamente estimável, porque está garantido que outras funções dos regressores não contri-
buem para explicar yt . No entanto, como vai ver-se, basta considerar a condição mais
fraca (3.31), na hipótese RPD.3, para estabelecer os resultados indispensáveis para a in-
ferência estatística.
Note-se, também, o seguinte: se ut e xt • são independentes, e se E (ut ) = 0 , en-
tão E (ut | xt • ) = 0 (a recíproca não é verdadeira). Nestas condições, conclui-se imediata-
mente que Var(ut | xt • ) é constante (existe homocedasticidade condicionada).
A quarta hipótese é a condição de característica já conhecida do MRLC (hipóte-
se REX.5).
Note-se que
ut2 xt21 ut2 xt1 xt 2 K ut2 xt1 xtk
2
u x x ut2 xt22 L ut2 xt 2 xtk
ut xt • xt • = t t1 t 2
2 T
.
M M M
2
ut xt1 xtk ut2 xt 2 xtk L ut2 xtk2
Como vai ver-se, esta hipótese é necessária para obter a distribuição assintótica
de b (estimador MQ de β ). Note-se que RPD.5 é mais forte que RPD.3, uma vez que
(3.34) implica E ( gt • ) = 0 , e, portanto, S = Cov( gt • ) . A condição (3.34) implica, tam-
bém, que não existe autocorrelação no processo {g t • } : Cov( g t • , g t −s ,• ) = O .
Como g t • = xt •ut = xt • ( yt − xt • β ) , verifica-se que {g t • } é estacionário e ergódi-
co. Então, fazendo,
1 n 1 n 1
g •n = ∑t =1 g tT• = ∑t =1 xtT•ut = X T U ,
n n n
e atendendo ao teorema do limite central de Bilingsley (teorema 3.8) tem-se
d
n g• n → N ( k ) (0, S ) ,
onde Ea ( g• n ) = 0 e Cov a ( g •n ) = S .
Note-se que:
1 1 1 T
∑ ∑
n n
n g •n = t =1
g tT• = t =1
xtT•ut = X U.
n n n
Quando o modelo tem termo independente ( xt1 = 1 ), o primeiro elemento do
vector g t • é igual a ut , e E (ut | g t −1,• , g t −2,• ,K) = 0 . Então, de acordo com a regra do va-
lor esperado iterado, tem-se
E (ut | ut −1 , ut −2 , K) = E{E (ut | g t −1,• , g t −2,• , K) | ut −1 , ut −2 , K} = 0 ,
Capítulo 3 – MRL com Regressores Pré-Determinados 33
E (ut | xt • , xs• , u s ) = 0 ,
e portanto,
Cov(ut , u s | xt • , xs• ) = 0 .
4. As hipóteses RPD.1 a RPD.5 não implicam que exista E (ut2 ) , porque um processo
estritamente estacionário pode não ter segundos momentos. No entanto, se o modelo
tem termo independente, o elemento (1,1) da matriz gtT• gt • = ut2 xtT• xt • é ut2 . Logo, de
acordo com a segunda parte de RPD.5, existe E (ut2 ) . Assim, devido a RPD.2, garan-
te-se a homocedasticidade marginal.
Dem.: Com efeito, começa-se por escrever o erro de amostragem, b − β , em termos das
médias amostrais. Assim,
−1 −1
1 1 1 n 1 n
b − β = X T X X T U = ∑t =1 xtT• xt • ∑t =1 xtT•ut = S xx−1 g •n .
n n n n
Como, devido à hipótese RPD.2, o processo {( yt , xt • )} é estacionário e ergódi-
co, o mesmo acontece com {xtT• xt • } ; o teorema da ergodicidade (teorema 3.7) permite
concluir que plim(S xx ) = Qxx ; da hipótese RPD.4, e da propriedade da preservação do li-
mite em probabilidade, obtém-se
plim(S xx−1 ) = Qxx−1 .
As hipóteses RPD.1 a RPD.4 não permitem provar que o estimador b é não en-
viesado. Contudo, supondo amostragem casual (o processo da hipótese RPD.2 é iid) e
(3.32), [hipótese mais forte do que RPD.3], vai verificar-se que E (b | X ) = β . Com efei-
to, sabe-se que E (b | X ) = β + ( X T X ) −1 X T E (U | X ) . A componente genérica do vector
E (U | X ) é
E (ut | X ) = E (ut | x1• , x2• , K , xt −1,• , xt • , xt +1,• , K , xn • ) = E (ut | xt • , wt • ) ,
sendo de notar que esta matriz das covariâncias assintóticas de b reflecte o facto de po-
der existir heterocedasticidade condicionada (ver os comentários subsequentes à hipó-
tese RPD.2). Quando se admite a hipótese da homocedasticidade condicionada, a matriz
Cov a (b) é mais simples (ver secção 3.6).
As considerações anteriores mostram que o estimador MQ é caracterizado por
ter boas propriedades assintóticas no contexto de modelo de regressão linear com re-
gressores pré-determinados, o que mantém intacta a importância do método dos míni-
mos quadrados para a Econometria. Como vai ver-se no capítulo 4, quando existem
regressores endógenos, o estimador MQ tem que ser abandonado.
A propósito da hipótese RPD.2, verificou-se que E (ut2 ) = σ 2 , se existir, não va-
ria com t, ou seja, existe homocedasticidade marginal (não condicionada). Quando, o
modelo tem termo independente vem E (ut ) = 0 , podendo concluir-se que σ 2 é a va-
riância marginal das variáveis residuais.
A seguir vai provar-se que o estimador MQ de σ 2 ,
1 Uˆ T Uˆ
∑t =1 uˆt2 =
n
(3.40) s2 = ,
n−k n−k
onde ût é o resíduo MQ relativo à observação t, é estimador consistente.
Propriedade 3.4 – Supondo que existe S = E (ut2 xtT• xt • ) , e que existem os momentos
E{( xti xtj ) 2 } ( i, j = 1, 2, K , k ; qualquer que seja t), as hipóteses RPD.1 e RPD.5 impli-
cam que o estimador
1 n
(3.43) Sˆ = ∑t =1 uˆt2 xtT• xt •
n
é consistente para S.
Capítulo 3 – MRL com Regressores Pré-Determinados 38
Considerem-se as matrizes
^
Cov a (b) = Qxx−1 S Qxx−1 e Cov a (b) = S xx−1 Sˆ S xx−1 ,
e que
Vara (b j )
plim ^ =1,
Var a (b )
j
onde
1 ^
sb∗j = Vara (b j )
n
é o erro padrão heterocedástico-consistente de b j . Este erro padrão também é conhe-
cido pelas designações de erro padrão heterocedástico-robusto ou erro padrão de
White. Esta terminologia justifica-se pelo facto de poder existir heterocedasticidade
condicionada das variáveis residuais.
Conclui-se imediatamente que
Capítulo 3 – MRL com Regressores Pré-Determinados 40
1 ^ 1 ^
plim(sb∗ j ) = plim Vara (b j ) = plim plim Vara (b j ) = 0 ,
n n
ou seja, o erro padrão robusto de b j degenera no valor zero (como era de esperar, uma
vez que b j é estimador consistente).
Pode demonstrar-se que
∑
n 2 2
^ rˆ uˆ
t =1 tj t
Var (b ) =
a j 2
,
VT j
∑
n
^ ( xt − x ) 2 uˆt2
Var (b ) =
a 2
t =1
,
VTx2
^
w•n = n (δˆ − δ ) e Vn = R Cov a (b) R T .
onde
V = R Cov a (b) R T .
Quadro 3.1
Teste de hipóteses no MRLCN e MRL-RPD
Hipótese nula MRLCN
H 0 : β j = β 0j bj − β 0
j
tj = ~ t (n − k )
sb j
H 0 : Rβ = δ 0 F=
(
(δˆ − δ 0 )T R ( X T X ) −1 R T )−1
(δˆ − δ 0 )
~ F (m, n − k )
ms 2
ou
Uˆ rT Uˆ r − Uˆ T Uˆ
F= ~ F (m, n − k )
ms 2
Hipótese nula MRL-RPD
H 0 : β j = β 0j bj − β 0
j
d
t ∗j = → N (0, 1)
sb∗ j
−1
H 0 : Rβ = δ 0 ^
d
Q = n (δˆ − δ 0 )T R Cov a (b) RT (δˆ − δ 0 ) → χ 2 (m)
−1
^ d
(3.47) Q = n (δˆ − δ 0 )T R Cov a (b) RT (δˆ − δ 0 ) → χ 2 (m) .
A obtenção da distribuição da estatística Q foi feita de acordo com o princípio
de Wald (ver secção 8.4 do capítulo 8) porque se baseia nos estimadores sem restrições
(não sujeitos à hipótese nula),
^
b e Cov a (b) .
Este resultado é uma generalização de (3.46), onde g ( β ) = Rβ − δ .
A estatística-teste é, então, dada por
−1
^
d
(3.49) Q = n g (b) ∇g (b) Cov a (b) ∇g (b)T g (b) → χ 2 (m) .
T
Capítulo 3 – MRL com Regressores Pré-Determinados 43
Donde
^ 1 ^
Vara (λˆ ) = 2 Vara (b j ) ,
bj
ou
1 1 ^ sb∗ j
sλ̂ =
∗
Vara (b j ) = .
bj n bj
Pequenas amostras
No caso de pequenas amostras, a potência dos testes referidos pode ser clara-
mente inferior a 1, contra certas alternativas. Além disso, a probabilidade do erro de 1.ª
espécie pode ser muito diferente da dimensão escolhida para o teste.
Davidson e MacKinnon (1963) propõem, baseados em estudos de simulação, al-
gumas correcções da matriz Ŝ que podem atenuar o problema da sobre-rejeição da hi-
pótese nula.
As matrizes Ŝ corrigidas podem ser dadas pela seguinte expressão geral:
1 n
n
∑ c uˆ 2 x T x ,
t =1 t t t • t •
Com efeito,
S = E ( gtT• gt • ) = E (ut2 xtT• xt • ) = E{E (ut2 xtT• xt • | xt • )} = E{E (ut2 | xt • ) xtT• xt • } = σ 2 E ( xtT• xt • ) .
Esta igualdade mostra que ut2 não está correlacionado com qualquer elemento
da matriz xtT• xt • , uma vez que E (ut2 xtT• xt • ) = E (ut2 ) E ( xtT• xt • ) .
Devido a RPD.5, a matriz S tem inversa; então, a matriz Qxx também tem inver-
sa. Assim, as hipóteses RPD.5 e RPD.6 implicam a condição de característica (RPD.4).
De (3.51), resulta que
(3.52) Cov a (b) = σ 2 Qxx−1 .
Então,
Capítulo 3 – MRL com Regressores Pré-Determinados 45
^
(3.54) Cov a (b) = s 2 S xx−1 = n s 2 ( X T X ) −1 .
Nestas condições, o erro padrão robusto coincide com o erro padrão clássi-
co. De facto,
1 ^
sb∗j = Vara (b j ) = s m jj = sb j ,
n
donde se conclui que t ∗j = t j (o rácio-t robusto é igual ao rácio-t clássico).
Assim,
b j − β 0j d
(3.55) t ∗j = t j = → N (0,1) .
sb j
Como
−1
Q = n (δˆ − δ 0 )T R {n s 2 ( X T X ) −1} RT (δˆ − δ 0 )
ˆ −1 T −1 ˆ
= (δ − δ ) {R ( X X ) R } (δ − δ 0 ) / s 2
0 T T
ou
1
n R2 = (k − 1) F .
n−k 1
+ (k − 1) F
n n
Como
d
(k − 1) F → χ 2 (k − 1) ,
resulta que
1
plim (k − 1) F = 0 ,
n
e
n−k 1
plim + (k − 1) F = 1 .
n n
Capítulo 3 – MRL com Regressores Pré-Determinados 46
onde import designa as importações portuguesas a preços constantes; prm, o rácio entre
o índice de preços implícito nas importações e o índice de preços implícito no PIB; e
pib, o produto interno bruto português a preços constantes. Os dados disponíveis são
anuais e referem-se ao período de 1966 a 1984 (ver quadro 3.2).
A função de regressão ajustada é a seguinte:
Capítulo 3 – MRL com Regressores Pré-Determinados 47
^
ln(import t ) = 0.1296 − 0.3882 ln( prmt ) + 1.2425 ln( pibt ) ( s = 0.08374) .
Quadro 3.2
Importações, preços relativos e PIB (Portugal)
Anos import prm pib
1966 4.77 78.10 11.97
1967 4.48 85.30 12.87
1968 5.96 70.20 14.02
1969 6.42 63.70 14.31
1970 6.47 74.90 15.62
1971 7.41 72.40 16.65
1972 8.30 69.30 17.99
1973 9.35 72.00 20.00
1974 9.80 87.20 20.23
1975 7.33 86.60 19.35
1976 7.58 84.10 20.69
1977 8.49 86.00 21.85
1978 8.47 86.80 22.59
1979 9.44 96.40 23.99
1980 10.55 100.00 25.07
1981 11.13 107.30 25.17
1982 11.68 103.10 26.05
1983 10.83 106.90 25.97
1984 10.48 111.80 25.53
Quadro 3.3
Erros padrão
Erros padrão robustos, sb∗j , com a matriz
Regressores sb j Ŝ Ŝ1 Ŝ 2 Ŝ 3
Constante 0.59306 0.35984 0.39212 0.40941 0.47192
ln(prm) 0.18599 0.13010 0.14177 0.15485 0.18761
ln(pib) 0.12298 0.09727 0.10600 0.11865 0.14731
Quando não se verifica a hipótese RPD.6, sabe-se que Cov a (b) = Qxx−1 S Qxx−1 . Ob-
viamente (3.54) não é estimador consistente desta matriz, uma vez que
plim(s 2 S xx−1 ) = σ 2Qxx−1 .
Além disso, o rácio-t clássico, dado por (3.55), não tem distribuição limite nor-
mal estandardizada; a estatística Q, referente a (3.56), não tem distribuição limite do
qui-quadrado.
Supondo verificada RPD.6, (3.54) é estimador consistente de (3.52). Também se
prova com facilidade que (3.42) estima de forma consistente (3.52). Com efeito, devido
a (3.51),
plim(S xx−1Sˆ S xx−1 ) = Qxx−1S Qxx−1 = σ 2 Qxx−1 = Cov a (b) .
Qual a razão para preferir s 2 S xx−1 a S xx−1 Sˆ S xx−1 para estimar σ 2Qxx−1 ? As proprieda-
des de pequenas amostras de um estimador são, em geral, melhores quanto menor é o
número de parâmetros que é necessário estimar. Para obter s 2 S xx−1 basta estimar um esca-
lar, σ 2 , e uma matriz, Qxx ; para calcular S xx−1 Sˆ S xx−1 é necessário estimar duas matrizes,
Qxx e S; logo, deve preferir-se s 2 S xx−1 .
− RPD.1 – Linearidade;
− RPD.2’ – O processo {( yt , xt • )} é iid;
− RPD.3’ – E (ut | xt • ) = 0 , qualquer que seja t;
− RPD.4 – A matriz Qxx = E ( xtT• xt • ) existe e tem inversa;
− RPD.5’ – A matriz S = E ( g tT• g t • ) = E (ut2 xtT• xt • ) existe e tem inversa.
As hipóteses novas, em relação às definidoras de um MRL-RPD, são as hipó-
teses RPD.2’ e RPD.3’:
− Em geral, quando se estuda o problema da heterocedasticidade, é natural introduzir a
hipótese simplificadora RPD.2’, porque, na prática, este problema é típico de mo-
delos com dados seccionais onde o processo de amostragem é casual.
− A hipótese RPD.3’, que já foi referida a propósito dos comentários feitos à hipótese
RPD.3, estabelece que os regressores são exógenos para a mesma observação t;
− A hipótese RPD.5’ é parte de RPD.5.
o que significa que o modelo tanto pode ser encarado como um MRLC com heteroce-
dasticidade condicionada (verificam-se as hipóteses REX.1, REX.2, REX.4 e REX.5)
ou como um MRL-RPD (verificam-se as hipóteses RPD.1 a RPD.5).
Dispondo de uma amostra, (Y , X ) , pode construir-se a matriz
Capítulo 3 – MRL com Regressores Pré-Determinados 50
Var(u1 | x1• ) 0 L 0 σ 12 0 L 0
0 σ2 L 0
2
0 Var(u2 | x2• ) L 0
Σ= = M M ,
M M M M
0 0 L Var(un | xn • ) 0 0 L σ n2
onde σ t2 é, em geral, função de xt • : σ t2 = σ t2 ( xt • ) .
Como E (ut | xt• ) = E (ut | X ) e Var(ut | xt • ) = Var(ut | X ) , pode fazer-se
σ 12 0 L 0
0 σ 22 L 0
(3.59) Σ = Cov(U | X ) = .
M M M
0 0 L σ n2
Este resultado pode ser obtido sem admitir que E (ut | xt • ) = 0 (RPD.3’), mas
mantendo a hipótese RPD.3, e supondo que o modelo tem termo independente.
Raramente, nas aplicações práticas, o padrão de heterocedasticidade condi-
cionada é conhecido (ver anexo 3C), já que não se conhece o comportamento da va-
riância σ t2 ( xt• ) . Neste caso, o modelo tem n + k parâmetros desconhecidos (os k coefi-
cientes de regressão, β j , e as n variâncias, σ t2 ) e não é possível estimar tantos parâme-
tros com apenas n observações.
No entanto, no caso de amostragem casual (ver as hipóteses RPD.1, RPD.2’,
RPD.3’, RPD.4 e RPD.5’), o modelo verifica as hipóteses clássicas, excepto REX.3. O
estimador MQ de β , b = ( X T X ) −1 X T Y , é linear e não enviesado, sendo também possí-
vel demonstrar que se trata de um estimador consistente. No entanto, não é BLUE, já
que não é o estimador mais eficiente na classe dos estimadores lineares não enviesados.
Devido à presença de heterocedasticidade condicionada, a matriz das covariân-
cias condicionadas de b já não é σ 2 ( X T X ) −1 , mas sim
Exemplo 3.2 – Recapitula-se a estimação apresentada nos exemplos 2.6 e 2.9 do mode-
lo explicativo dos salários dos trabalhadores:
^
lsalart = 5.81505 + 0.055383 educt + 0.022988 expert + 0.003953 empct .
( s = 0.3755) .
Os erros padrão dos b j apresentam-se no quadro 3.4. Verifica-se que os erros
padrão robustos pouco diferem dos erros padrão clássicos, o que é sintoma de que a he-
terocedasticidade condicionada, que possivelmente existe, é fraca.
Efectuando os cálculos, conclui-se que, para efectuar os testes de nulidade indi-
vidual dos coeficientes dos três regressores, os valores-p associados a educ e exper são
aproximadamente iguais a zero, e o valor-p correspondente a empc é aproximadamente
0.1.
Quadro 3.4
Erros padrão
Erros padrão robustos, sb∗j , com a matriz
Regressores sb j Ŝ Ŝ1 Ŝ 2 Ŝ 3
Constante 0.07197 0.06600 0.06613 0.06618 0.06636
educ 0.00486 0.00456 0.00457 0.00457 0.00459
exper 0.00245 0.00254 0.00255 0.00255 0.00256
empc 0.00242 0.00239 0.00240 0.00240 0.00240
∇
n ∑t =1 t t n ∑t =1 tj t
ˆ
w u → E ( w u
t t ) e x ˆ
w → E ( xtj wt ) .
ˆ − = ,
t =1
é a mesma para os dois modelos (quer fosse possível utilizar wt como regressor, quer
substituindo wt por ŵt ). Note-se que E (ut | xt • , zt • ) = 0 (hipótese razoável no contexto
da geração de regressores) implica E{∇α h( zt • , α ) ut } = 0 , porque ut é ortogonal a qual-
quer função de xt • e zt • . Quando δ ≠ 0 , a inferência estatística referida nas secções 3.5
e 3.6 não é válida.
Muitas vezes, pretende-se testar H 0 : δ = 0 , para decidir quanto à inclusão do re-
gressor ŵt na equação estimável. Nas condições enunciadas, o rácio-t habitual tem dis-
tribuição limite normal estandardizada quando E (ut2 | xt • , wt ) = σ 2 (homocedasticidade
condicionada). No caso de heterocedasticidade condicionada, pode fazer-se o teste habi-
tual, mas usando o erro padrão robusto.
Retome-se a questão do teste da forma funcional. Como facilmente se compre-
ende, a inserção de quadrados e produtos de variáveis como regressores pode reduzir
drasticamente o número de graus de liberdade. Ramsey (1969) propôs um teste em que
o número de graus de liberdade não depende de k. Para isso, considere-se o modelo
yt = xt • β + ut , com a hipótese E (ut | xt • ) = 0 [ver (3.32) e os respectivos comentários].
Assim, não basta supor a hipótese RPD.3 [ver (3.31)], uma vez que deve garantir-se a
ortogonalidade entre a variável residual e qualquer função de xt • . Em particular, (3.32)
implica que ( xt • β )i , para qualquer i inteiro e positivo, é ortogonal a ut . O teste a efec-
tuar baseia-se, por exemplo, no modelo
yt = xt • β + δ 2 ( xt • β ) 2 + δ 3 ( xt • β )3 + δ 4 ( xt • β ) 4 + ut ,
Como ( xt • β )i não é observável, vão gerar-se os regressores yˆt2 , yˆt3 e yˆt4 , e con-
siderar a equação estimável,
yt = xt • β + δ 2 yˆt2 + δ 3 yˆt3 + δ 4 yˆt4 + vt ,
possibilidade de o teste concluir que o modelo está bem especificado, uma vez que os
regressores gerados são as potências de yˆt = xt •b (onde: b é o estimador de β quando o
vector dos regressores é xt • ; vˆt = yt − xt •b são os respectivos resíduos MQ), e não as po-
tências de yˆt = xt • βˆ + δˆ wt (onde: βˆ e δˆ são estimadores MQ de β e δ , respectiva-
mente; os resíduos MQ são uˆt = yt − xt • βˆ − δˆ wt ).
Se a variável omitida, wt , está correlacionada com xt • , existem regressores en-
dógenos, e o teste RESET não pode ser utilizado. No entanto, se E ( wt | xt • ) = xt •α (li-
near em xt • ) é imediato verificar que E ( yt | xt • ) é também linear em xt • . Com efeito,
E ( yt | xt • ) = E ( xt • β + δ wt + ut | xt • ) = xt • β + xt • (δ α ) = xt • ( β + δ α ) .
Para usar os testes clássicos é necessário que a variável residual vt seja condi-
cionalmente homocedástica, ou seja, E (vt2 | xt • ) = σ v2 (constante). Sob H 0 , esta condição
implica que E (ut4 | xt • ) seja também constante [com efeito, como ut2 = σ 2 + vt e
ut4 = σ 4 + vt2 + 2σ 2vt , vem E (ut4 | xt • ) = σ 4 + σ v2 = κ 2 ]. A condição E (ut4 | xt • ) = κ 2 cha-
ma-se homokurtosis condicionada, e estabelece que o quarto momento de ut condi-
cionado por xt • é constante. A homokurtosis verifica-se sempre que ut é independente
de xt • . Caso contrário, pode acontecer que E (ut | xt • ) = 0 , E (ut2 | xt • ) = σ 2 e E (ut4 | xt • )
depende de xt • .
Capítulo 3 – MRL com Regressores Pré-Determinados 56
A estatística-teste é
d
(3.63) BP = n R 2 → χ 2 (k − 1) ,
onde R 2 é o coeficiente de determinação da regressão auxiliar MQ de uˆt2 sobre xt • .
Este teste é baseado no princípio do multiplicador de Lagrange, mas também po-
dia utilizar-se o rácio-F (princípio de Wald) para testar a nulidade de todos os coeficien-
tes da regressão auxiliar (excepto o termo independente). Pode provar-se que as estatís-
ticas BP e F são assintoticamente equivalentes.
No teste de White, supõe-se que ht • é formado por todos os elementos únicos e
não constantes da matriz xtT• xt • . Por exemplo, se yt = β1 + β 2 xt 2 + β 3 xt 3 + ut , tem-se
ht • = [ xt 2 xt 3 xt22 xt23 xt 2 xt 3 ] ( q = 6 ).
A estatística-teste é
d
Ws = n R 2 → χ 2 (2) ,
0.12), pode ainda concluir-se que não se rejeita a hipótese da homocedasticidade con-
dicionada.
No caso do teste de White simplificado, faz-se a regressão auxiliar de
^ ^
uˆt2 sobre 1, lsalart e lsalart 2 ,
3.10 - Autocorrelação
− E (ut ) = 0 ;
σ ε2
− Var (ut ) = σ = 2
;
1−ϕ 2
u
ϕs
− Cov(ut , ut −s ) = γ s = σ u2 ϕ s = σ ε2 ;
1−ϕ 2
− ρs = ϕ s ( s = 0,1, 2, K) .
Capítulo 3 – MRL com Regressores Pré-Determinados 60
Então,
1 ϕ L ϕ n −1
1 ϕ 1 L ϕ n−2
(3.67) Cov(U ) = Σ = σ ε
2
.
1−ϕ2 M M M
n −1 n − 2
ϕ ϕ L 1
Neste caso, o modelo tem apenas k + 2 parâmetros desconhecidos (os k coefi-
cientes de regressão, β j , a variância de ε t , σ ε2 , e o parâmetro do processo auto-regres-
sivo de primeira ordem, ϕ ).
Outra especificação possível do comportamento das variáveis residuais é dada
pelo processo de médias móveis de primeira ordem,
(3.68) ut = ε t + θ ε t −1 ,
− Var(ut ) = σ u2 = σ ε2 (1 + θ 2 ) ;
obtendo-se os processos ARMA(p,q). Estes processos mais gerais vão ser estudados no
capítulo 9.
Capítulo 3 – MRL com Regressores Pré-Determinados 61
De acordo com a propriedade 3.1, as hipóteses RPD.1 a RPD.4 bastam para pro-
var que o estimador MQ de β é consistente, mesmo que haja heterocedasticidade con-
dicionada e autocorrelação.
Quando existe autocorrelação, e o modelo tem termo independente, não se veri-
fica a hipótese RPD.5, e o estimador b não verifica (3.38). Em particular, a respectiva
matriz das covariâncias assintóticas não é dada por (3.39). Deste modo, os resultados
para a inferência estatística apresentados nas secções 3.5 e 3.6 deixam de ser válidos.
Apresentam-se a seguir dois exemplos que ajudam a esclarecer as relações entre
a consistência do estimador MQ e a autocorrelação:
− Considere-se que o valor esperado de yt condicionado por yt −1 é linear, isto é, seja o
modelo
E ( yt | yt −1 ) = α + β yt −1 ,
Como, por construção, este modelo satisfaz a hipótese RPD.3, fica garantido que os
estimadores MQ dos coeficientes de regressão são consistentes, haja ou não haja au-
tocorrelação dos ut . A condição E (ut | yt −1 ) = 0 garante a não correlação de ut com
yt −1 , mas ut e yt −2 podem estar correlacionados.
Neste caso, como ut −1 = yt −1 − (α + β yt − 2 ) , tem-se
Cov(ut , ut −1 ) = E (ut ut −1 ) = E{ut ( yt −1 − α − β yt − 2 )}
= − β E (ut yt − 2 ) = − β Cov(ut , yt − 2 ) ≠ 0 ,
isto é, não se verifica a hipótese RPD.3. Neste caso, os estimadores MQ dos coefi-
cientes de regressão não são consistentes.
Capítulo 3 – MRL com Regressores Pré-Determinados 62
ou
yt = δ 0 + δ1 yt −1 + δ 2 yt − 2 + ε t ,
Testes de autocorrelação
∑
n
1 n γˆ ( zt − z n )( zt −s − z n )
(3.70) γˆs = ∑t =s +1 ( zt − z n )( zt −s − z n ) ; ρˆ s = s = t = s +1
,
γˆ0 ∑t =1 ( zt − zn ) 2
n
n
onde
1 n
zn = ∑ zt .
n t =1
Deve notar-se que embora na expressão de γˆ s haja apenas n − s parcelas, a so-
ma é dividida por n, e não por n − s . Esta diferença não é importante no caso de grandes
amostras, mas pode ser substancial quando se tem uma amostra pequena.
Facilmente se prova que se {zt } é estacionário e ergódico, então γˆ s é consisten-
te para γ s ,
(3.71) plim(γˆs ) = γ s ( s = 0,1, 2, K) .
M M
γˆ p ρˆ p
Então,
d d
(3.73) n γˆ → N ( p ) (0, σ 4 I p ) e n ρˆ → N ( p ) (0, I p ) .
Tem particular interesse o teste de autocorrelação de 1.ª ordem. Neste caso, a hi-
pótese nula é H 0 : ρ1 = 0 .
Também se pode testar se várias autocorrelações (da ordem 1 até à ordem p) são
conjuntamente nulas: H 0 : ρ = 0 , onde
ρ
1
ρ
ρ = 2 .
M
ρ p
são assintoticamente independentes, e cada um deles tem distribuição limite normal es-
tandardizada,
d
n ρˆ s → N (0,1) ( s = 1, 2, K , p) .
Capítulo 3 – MRL com Regressores Pré-Determinados 65
p n + 2 2
QBP − QLB = ∑ s =1 1 − ρ
s = a• n w• n ,
T
ˆ
n − s
n
onde
n+2 2
1 − n ρˆ
n −1
1
1 − n + 2
2
n − 2 n ρ2
ˆ
a• n = e w =
•n
.
M M
1 − n + 2 n ρˆ
2
n − p
p
Como
w1
d w2
lim a• n = 0 e w• n → w = ,
n → +∞ M
wp
γ s E (ut ut −s )
γ 0 = E (ut2 ) = σ 2 ; γ s = E (ut ut −s ) ( s = 1, 2, K) ; ρ s = = .
γ0 σ2
Se as variáveis residuais fossem observáveis, os coeficientes de autocorrelação
amostrais seriam dados por
γ~
(3.77) ρ~s = ~s ( s = 1, 2, K) ,
γ 0
onde
1 n
(3.78) γ~s = ∑ ut ut −s (s = 0,1, 2,K) .
n t = s +1
Como o processo {ut ut − s } é estacionário e ergódico, conclui-se que:
d
− plim(γ~s ) = γ s ; plim( ρ~s ) = ρ s ; n ρ~s → N (0,1) ;
p n+2
2 d 2 d
− QBP = ∑ s =1 n ρ~s → χ 2 ( p) ; QLB = ∑ s =1 n ρ~s → χ ( p) .
p 2
n−s
Como as variáveis residuais não são observáveis, deve utilizar-se os resíduos
MQ, ût . Assim, tem-se
γˆ s
(3.79) ρˆ s = ( s = 1, 2, K) ,
γˆ0
onde
1 n
(3.80) γˆ s = ∑ uˆt uˆt −s (s = 0,1, 2,K) .
n t = s +1
[Note-se que a soma dos resíduos é nula, pois o modelo tem termo independente].
Quando se utiliza (3.79) em (3.75) e (3.76), põe-se a seguinte questão: as respec-
tivas estatísticas QBP e QLB têm distribuições limite do qui-quadrado, sendo então pos-
sível testar a autocorrelação? A resposta a esta questão é afirmativa no caso em que os
regressores são estritamente exógenos (ver secção 3D.4).
Quando os regressores são pré-determinados, não está garantido que se veri-
fique E ( xt •ut − s ) = 0 e E ( xt − s ,•ut ) = 0 . Logo, as estatísticas Q podem não ter distribuição
limite do qui-quadrado, e, portanto, têm de ser modificadas.
Para este efeito, considerem-se as seguintes condições:
1) E (ut | ut −1 , ut −2 , K , xt • , xt −1,• , K) = 0 ;
2) E (ut2 | ut −1 , ut −2 , K , xt • , xt −1,• , K) = σ 2 > 0 .
Teorema 3.10
Considere-se um modelo de regressão a satisfazer as hipóteses RPD.1, RPD.2, RPD.4 e
as condições 1) e 2). Se ρ̂ s é dado por (3.79) então,
d d
(3.81) n γˆ → N ( p ){ 0, σ 4 ( I p − Φ)} e n ρˆ → N ( p ) (0, I p − Φ ) ,
Embora o cálculo desta estatística não seja difícil, é útil conhecer uma estatísti-
ca assintoticamente equivalente, que pode ser calculada mediante duas regressões
MQ:
1) Regressão de yt sobre xt • (regressão correspondente ao modelo proposto), com o
objectivo de calcular os respectivos resíduos MQ, ût .
2) Regressão auxiliar de ût sobre xt • , uˆt −1 , uˆt −2 , K , uˆt − p , com t = p + 1, p + 2, K , n .
Em alternativa, esta regressão auxiliar pode ser feita com n observações, mas
para isso é necessário atribuir valores aos resíduos uˆ0 , uˆ −1 , K , uˆ − p+1 . Pouco importa
quais são estes valores, pois isso não altera os resultados assintóticos, mas é aconselhá-
vel propor valores iguais aos respectivos valores esperados, ou seja, zero.
A regressão auxiliar do passo 2) permite calcular o rácio-F para testar a hipótese
de nulidade conjunta dos coeficientes de uˆt −1 , uˆt −2 , K , uˆt − p . Atendendo a (3.56), é de es-
perar que
Capítulo 3 – MRL com Regressores Pré-Determinados 68
d
(3.85) pF → χ 2 ( p) .
Esta conjectura é, de facto, verdadeira. Assim, atendendo a (3.84), basta provar
′ e pF são assintoticamente equivalentes (a diferença entre estas duas estatísticas
que QBP
converge em probabilidade para 0).
Teorema 3.11
ˆ ) −1 ρˆ , dada por (3.84), e pF , referida em (3.85), são
′ = n ρˆ T ( I p − Φ
As estatísticas QBP
assintoticamente equivalentes.
ou
n− p 1
pF − (n − p ) R 2 = 1 − × pF .
n − k − p 1 + pF
n−k − p
plim{ pF − (n − p) R 2 } = 0 .
Então, tem-se
d
(n− p) R 2 → χ 2 ( p) .
O teste para detectar autocorrelação baseado neste resultado designa-se por teste
de Breusch-Godfrey, e a respectiva estatística-teste é BG = (n − p) R 2 .
Em resumo, o procedimento para efectuar este teste é o seguinte:
1) Calcular os resíduos MQ, ût , do modelo proposto.
2) Fazer a regressão auxiliar dos resíduos MQ sobre os mesmos resíduos desfasados
até à ordem p, uˆt −1 , uˆt −2 , K , uˆt − p , e os regressores considerados no modelo proposto.
3) A estatística-teste é
d
(3.86) BG = (n − p) R 2 → χ 2 ( p) ,
onde R 2 é o coeficiente de determinação da regressão auxiliar; a região de rejeição
encontra-se na aba direita da distribuição.
Exemplo 3.5 – Considere-se que numa empresa monopolista a função custo total (CT)
permite especificar o modelo de regressão linear dado por
CTt = β1 + β 2Qt + β 3Qt2 + ut ,
Quadro 3.5
Observações trimestrais do custo total e da quan-
tidade produzida por uma empresa monopolista
Obs CT Q Obs CT Q
1 11790 206 25 10501 196
2 14503 231 26 6246 138
3 15323 245 27 9419 180
4 3276 96 28 5053 115
5 13523 228 29 8791 173
6 5337 133 30 15690 248
7 8431 178 31 3633 91
8 8960 183 32 9230 177
9 12207 220 33 13459 225
10 14756 244 34 8026 158
11 5923 134 35 7375 151
12 13297 223 36 10517 190
13 8342 161 37 7685 155
14 4593 108 38 5900 129
15 10851 198 39 4393 91
16 5746 138 40 10066 184
17 4925 126 41 3525 73
18 10087 196 42 5580 128
19 13007 226 43 5217 123
20 3449 95 44 6513 141
21 3930 101 45 5638 130
22 9281 183 46 2839 86
23 9463 184 47 8692 187
24 7005 153 48 2151 83
Quadro 3.6
Teste com BG Teste com pF
p R 2
BG Valor-p χ 2
p , 0.05 pF Valor-p pF – BG
1 0.56 26.530 0.00 3.841 55.704 0.00 29.174
2 0.56 25.722 0.00 5.991 51.418 0.00 25.696
3 0.61 27.423 0.00 7.815 59.872 0.00 32.449
4 0.64 28.336 0.00 9.488 65.387 0.00 37.051
Quadro 3.7
Teste com BG Teste com pF
p R 2
BG Valor-p χ 2
p , 0.05 pF Valor-p pF – BG
1 0.56 26.714 0.00 3.841 55.218 0.00 28.504
2 0.56 26.813 0.00 5.991 54.416 0.00 27.603
3 0.57 27.187 0.00 7.815 54.861 0.00 27.654
4 0.57 27.293 0.00 9.488 54.040 0.00 26.747
Modelo A Modelo B
p pF Valor-p pF Valor-p
1 3.942 0.047 3.571 0.059
2 3.804 0.149 2.273 0.321
Os valores-p para testar a nulidade dos coeficientes são 0.115, 0.038 e 0.001,
respectivamente.
Os resultados apresentados no quadro 3.8 mostram que, a 5%, não é de rejeitar a
hipótese da ausência de autocorrelação.
∇
Capítulo 3 – MRL com Regressores Pré-Determinados 72
onde
Γs = E (ut ut − s xtT• xt −s ,• ) ( s = 0,±1,±2, K ).
Sˆ = Γˆ 0 + ∑s =1ω s (Γˆ s + Γˆ sT ) ,
l
(3.92)
2
2 n
l = 2 ⇒ Vˆ = ∑t =1 uˆt2 xtT• xt • + ∑t = 2 uˆt uˆt −1 ( xtT• xt −1,• + xtT−1,• xt • )
n
3
1 n
+ ∑t = 3 uˆt uˆt − 2 ( xtT• xt − 2,• + xtT− 2,• xt • ) ;
3
3 n
l = 3 ⇒ Vˆ = ∑t =1 uˆt2 xtT• xt • + ∑t = 2 uˆt uˆt −1 ( xtT• xt −1,• + xtT−1,• xt • )
n
4
1 n
+ ∑t = 3 uˆt uˆt − 2 ( xtT• xt − 2,• + xtT− 2,• xt • )
2
1 n
+ ∑t = 4 uˆt uˆt − 3 ( xtT• xt − 3,• + xtT−3,• xt • ) ;
4
4 n
l = 4 ⇒ Vˆ = ∑t =1 uˆt2 xtT• xt • + ∑t = 2 uˆt uˆt −1 ( xtT• xt −1,• + xtT−1,• xt • )
n
5
3 n
+ ∑t = 3 uˆt uˆt − 2 ( xtT• xt − 2,• + xtT− 2,• xt • )
5
2 n
+ ∑t = 4 uˆt uˆt − 3 ( xtT• xt − 3,• + xtT− 3,• xt • )
5
1 n
+ ∑t = 5 uˆt uˆt − 4 ( xtT• xt − 4,• + xtT− 4,• xt • ) .
5
Finalmente, obtém-se o estimador consistente de Newey-West de Cov a (b) ,
^
(3.94) Cov a (b) = S xx−1 Sˆ S xx−1 = n ( X T X ) −1Vˆ ( X T X ) −1 .
Note-se que:
4 n 2 n
l = 2 ⇒ vˆ = ∑t =1 aˆtj2 + ∑ + ∑t = 3 aˆtj aˆt − 2, j ;
n
aˆ aˆ
t = 2 tj t −1, j
3 3
3 n 1 n
l = 3 ⇒ vˆ = ∑t =1 aˆtj2 + ∑ + ∑t = 3 aˆtj aˆt − 2, j + ∑t = 4 aˆtj aˆt − 3, j ;
n n
aˆ aˆ
t = 2 tj t −1, j
2 2
8 n 6 n 4 n 2 n
l = 4 ⇒ vˆ = ∑t =1 aˆtj2 + ∑ + ∑t = 3 aˆtj aˆt − 2, j + ∑t = 4 aˆtj aˆt − 3, j + ∑t = 5 aˆtj aˆt − 4, j .
n
aˆ aˆ
t = 2 tj t −1, j
5 5 5 5
Capítulo 3 – MRL com Regressores Pré-Determinados 75
PALAVRAS-CHAVE
Amostragem casual Matriz das covariâncias assintóticas
Ausência de correlação assintótica Matriz das covariâncias limite
Autocorrelação Memória
Autocovariância Método delta
Coeficiente de autocorrelação Modelo de regressão linear com regresso-
res pré-determinados (MRL-RPD)
Coeficiente de determinação Modelo dinâmicamente completo
Condição de característica Modelo econométrico
Conjunto de informação Momentos
Consistência Omissão de variáveis
Convergência estocástica Ortogonalidade (contemporânea)
Convergência em distribuição Padrão de heterocedasticidade condicio-
nada
Convergência em média quadrática Padrão de autocorrelação
Convergência em probabilidade Passeio aleatório
Correlação contemporânea Preservação da convergência em distri-
buição
Correlograma Preservação da convergência em probabi-
lidade
Dependência Princípio de Wald
Dependência fraca Princípio do multiplicador de Lagrange
Diferença-martingala Processo estocástico
Dimensão exacta (nominal) do teste Processo AR(1)
Distorção da dimensão Processo gerador de dados (PGD)
Distribuição limite Processo MA(1)
Distribuição limite degenerada Rácio-t robusto
Enviesamento assintótico Regressor contemporaneamente exógeno
Equivalência assintótica Regressor endógeno
Ergodicidade (em relação à média) Regressor estritamente exógeno
Erro de medida Regressor gerado
Erro padrão de White Regressor pré-determinado
Erro padrão heterocedástico-robusto Ruído branco (independente)
Erro padrão de Newey-West Série temporal
Erro padrão robusto à autocorrelação Simultaneidade
Especificação inadequada Situação de autocorrelação
Estacionaridade em covariância Teorema da ergodicidade
Estacionaridade ergódica Teorema de Chebychev
Estacionaridade (em sentido restrito) Teorema de Khinchine
Estatística Q de Box-Pierce (modificada) Teorema de Hall e Heyde
Estatística Q de Ljung-Box Teorema de Lindeberg-Levy
Estimador assintoticamente normal Teorema de Markov
Capítulo 3 – MRL com Regressores Pré-Determinados 76
PALAVRAS-CHAVE
Estimador CAN Teorema de Slutsky
Estimador consistente Teorema do limite central de Billingsley
Geração de regressores Teoremas do limite central (formato)
Heterocedasticidade condicionada Teoremas sobre a lei dos grandes núme-
ros (formato)
Homocedasticidade condicionada Teste da forma funcional
Homokurtosis condicionada Teste de autocorrelação
Heterogeneidade Teste de Breusch-Godfrey
Inferência estatística Teste de Breusch-Pagan
Inferência estatística sobre combinações Teste de Durbin alternativo
lineares de coeficientes de regressão
Inferência estatística sobre um coeficiente Teste de heterocedasticidade condiciona-
de regressão isolado da
Intervalo de confiança Teste de hipóteses não lineares
Lei dos grandes números Teste de White (simplificado)
Lema da equivalência assintótica Teste pF
Limite em probabilidade Teste RESET
Linearidade Valor esperado assintótico
Martingala Valor esperado limite
Matriz das autocovariâncias Variância limite
Capítulo 3 – MRL com Regressores Pré-Determinados 77
PERGUNTAS DE REVISÃO
Antes de dar resposta ao problema atrás referido, vai analisar-se uma situação
mais geral. Considere-se uma variável aleatória (escalar), y, e um vector aleatório de ti-
po 1 × k , x = [ x1 x2 K xk ]. Suponha-se que se pretende prever o valor assumido por y,
conhecendo a distribuição do vector (k + 1) -dimensional, ( y, x) , e o valor de x.
Um previsor de y é uma função de x, h(x) , determinada pela distribuição con-
junta de y e de x. Naturalmente, h(x) deve ser escolhida de acordo com algum critério
que deve ter em conta o erro de previsão, η = y − h(x) . O critério que vai ser adoptado
consiste em minimizar o erro quadrático médio da previsão (EQMP),
E (η 2 ) = E { y − h( x)}2 .
Teorema 4.1
O melhor previsor de y, de acordo com o princípio dos mínimos quadrados, é o valor es-
perado de y condicionado por x: µ ( x) = E ( y | x) .
tem-se
E ({ y − h( x)}2 ) = E ({ y − µ ( x)}2 ) + E ( {µ ( x) − h( x)}2 ) ≥ E ({ y − µ ( x)}2 ) .
Assim, o erro quadrático médio da previsão é limitado inferiormente, e o limite
inferior é obtido quando h( x) = µ ( x) .
∇∇
Capítulo 4 – MRL com Regressores Endógenos 3
Assim, tem-se
E ∗ ( y | x) = xβ∗ = x E ( xT x) −1 E ( xT y ) .
O teorema que permite justificar a escolha do melhor previsor linear é o seguin-
te:
Capítulo 4 – MRL com Regressores Endógenos 4
Teorema 4.2
O melhor previsor linear de y, de acordo com o princípio dos mínimos quadrados linea-
res, é a projecção linear MQ de y sobre x: E ∗ ( y | x) = xβ ∗ .
~
Dem.: Com efeito, considere-se um previsor linear qualquer, xβ , e o respectivo erro
quadrático médio,
~
E{( y − xβ ) 2 } .
Tem-se
~ ~
E{( y − xβ ) 2 } = E ( {( y − xβ∗ ) + x( β∗ − β )}2 )
~ ~
= E {( y − xβ∗ ) 2 } + 2 E{( y − xβ∗ ) x( β∗ − β )} + E ({x( β∗ − β )}2 )
~ ~
= E {( y − xβ∗ ) 2 } + 2 E{( β∗ − β )T xT ( y − xβ∗ )} + E ({x( β∗ − β )}2 )
~ ~
= E {( y − xβ∗ ) 2 } + 2 ( β∗ − β )T E{xT ( y − xβ∗ )} + E ({x( β∗ − β )}2 )
~
= E {( y − xβ∗ ) 2 } + E ({x( β∗ − β )}2 )
≥ E {( y − xβ∗ ) 2 } ,
notando que E{xT ( y − xβ∗ )} = 0 .
Assim, o erro quadrático médio da previsão é limitado inferiormente, e o limite
~
inferior é obtido quando β = β ∗ .
∇∇
Então,
−1
E ( x T x ) E ( xT z ) E ( xT y )
E ( y | x, z ) = [ x z ]
∗
T T T
E ( z x) E ( z z ) E ( z y )
A11 A12 E ( xT y )
= [ x z ]
A21 A22 E ( z y )
T
A E ( xT y ) + A12 E ( z T y )
= [ x z ] 11
A21E ( x y ) + A22 E ( z y )
T T
onde x( 2 ) = [ x2 K xk ], obtém-se
1 x( 2 ) y
xT x = T e x T
y = T .
x( 2 ) x(T2) x( 2 ) x( 2 ) y
Considerando
β 2∗
β ∗
β ∗ = , onde β •∗2 = M ,
1
β
∗
•2 β k∗
tem-se
E ∗ ( y | x) = E ∗ ( y | 1, x( 2) ) = xβ∗ = β1∗ + x( 2 ) β •∗2 .
Como
Capítulo 4 – MRL com Regressores Endógenos 8
1 E ( x( 2) ) β1∗ E ( y )
E ( x T x ) β ∗ = E ( xT y ) ⇔ = ,
E ( x(T2 ) ) E ( x(T2 ) x( 2 ) ) β ∗ E ( x(T2) y )
• 2
vem
β1∗ + E ( x( 2 ) ) β •∗2 = E ( y )
E ( x( 2 ) ) β1 + E ( x( 2 ) x( 2 ) ) β •2 = E ( x( 2) y ) .
T ∗ T ∗ T
tem-se
ε2 ε t −1ε t − 2 L ε t −1ε t − m ε ε
t −1 t −1 t
ε ε ε t − 2 L ε t − 2ε t − m
2
ε t − 2ε t
xT x = t − 2 t −1 e x y=
T
.
M M M M
ε ε ε ε
t − m t −1 ε t − mε t − 2 L ε t − m
2
t − m t
Donde
E ( xT x) = σ ε2 I m , E ( xT y ) = 0 e β∗ = (σ ε2 I m ) −1 0 = 0 .
Logo,
E ∗ (ε t | ε t −1 , K , ε t − m ) = 0 .
não é verdadeira.
Continuando a supor que o processo {( yt , xt • )} é estacionário e ergódico (hipó-
tese RPD.2) e que Qxx = E ( xtT• xt • ) existe e tem inversa (RPD.4), pode concluir-se que,
tendo em conta as considerações feitas sobre a regressão de tipo II, existe um vector β ∗
que satisfaz as condições de ortogonalidade,
(4.5) E{xtT• ( yt − xt • β∗ )} = 0 .
−1
1 n 1 n
b = S s = ∑t =1 xtT• xt • ∑t =1 xtT• yt = ( X T X ) −1 X T Y
−1
xx xy
n n
é estimador consistente de β ∗ .
Pode, então, afirmar-se que, existindo regressores endógenos, b não é estimador
consistente de β (vector dos coeficientes de regressão), mas é estimador consistente de
outro vector de parâmetros, o vector β ∗ dos coeficientes na projecção linear MQ. O en-
viesamento assintótico do estimador MQ, quando se pretende estimar β , é dado por
plim(b) − β = β∗ − β = E ( xtT• xt • ) −1 E ( xtT•ut ) ,
Como
E ( ztT• yt ) = E{ztT• ( zt • β •1 + xt • β• 2 + ut )} = E ( ztT• zt • ) β •1 ,
vem
β •∗1 β•1
β∗ = ∗ = .
β • 2 β • 2 + E ( xt • xt • ) E ( xt •ut )
T −1 T
δ ∗ E ( z T z ) −1 O E ( zT u )
•1
δ∗ = ∗ = t• t•
t• t
δ • 2 O E ( xt • xt • ) E ( xtT•ut )
T −1
E ( z T z ) −1 E ( z T u ) 0
= t• t• t• t
= .
E ( xtT• xt • ) −1 E ( xtT•ut ) E ( xtT• xt • ) −1 E ( xtT•ut )
Então,
E ∗ (ut | zt • , xt • ) = xt • E ( xtT• xt • ) −1 E ( xtT•ut ) ,
e, portanto,
E ∗ ( yt | zt • , xt • ) = zt • β •1 + xt • β • 2 + E ∗ (ut | zt • , xt • ) .
ou ut = ut∗ + E ∗ (ut | zt • , xt • ) .
No capítulo 3, nos comentários à hipótese RPD.3, fez-se uma referência a três
situações típicas de endogeneidade: omissão de variáveis; erros de medida nas variá-
veis; simultaneidade. Nas duas subsecções seguintes vão analisar-se as duas primeiras
situações. A simultaneidade vai ser abordada na próxima secção.
Omissão de variáveis
que é ortogonal a xt • : E ( xtT•ut∗ ) = 0 [se o modelo tem termo independente, o resíduo ut∗
tem valor esperado nulo e não está correlacionado com xt • ].
Notando que a projecção linear MQ de wt • sobre xt • é
E ∗ ( wt • | xt • ) = xt • E ( xtT• xt • ) −1 E ( xtT• wt • )= xt •Γ∗ ,
pode escrever-se wt • = xt •Γ∗ + rt • , onde E ( xtT•rt • ) = O [se o modelo tem termo indepen-
dente, E (rt • ) = 0 e Cov( xt • , rt • ) = O ]. Então,
yt = xt • β + wt •δ + vt = xt • β + ( xt •Γ∗ + rt • )δ + vt = xt • ( β + Γ∗δ ) + ut∗ ,
Tem-se
−1
γ 1∗ 1 E ( xt 2 ) E ( xt 3 ) E ( wt )
∗
Γ∗ = γ 2 = E ( xt 2 ) E ( xt22 ) E ( xt 2 xt 3 ) E ( xt 2 wt ) .
∗
γ 3 E ( xt 3 ) E ( xt 2 xt 3 ) E ( xt 3 )
2
E ( xt 3 wt )
Então,
E ∗ ( yt | 1, xt 2 , xt 3 ) = β1 + β 2 xt 2 + β 3 xt 3 + δ E ∗ ( wt | 1, xt 2 , xt 3 ) .
Fazendo E ∗ ( wt | 1, xt 2 , xt 3 ) = γ 1∗ + γ 2∗ xt 2 + γ 3∗ xt 3 , obtém-se
E ∗ ( yt | 1, xt 2 , xt 3 ) = β1 + β 2 xt 2 + β3 xt 3 + δ (γ 1∗ + γ 2∗ xt 2 + γ 3∗ xt 3 )
= ( β1 + δ γ 1∗ ) + ( β 2 + δ γ 2∗ ) xt 2 + ( β 3 + δ γ 3∗ ) xt 3 .
Alternativamente, como
wt = γ 1∗ + γ 2∗ xt 2 + γ 3∗ xt 3 + rt ,
Cov( xt 3 , wt )
plim(b3 ) = β 3 + δ .
Var ( xt 3 )
Supõe-se que qt é uma variável proxy de wt . Para isso, é necessário que qt ve-
rifique dois requisitos:
1) A variável proxy qt é redundante (ignorável) na equação estrutural:
E ( yt | xt • , wt , qt ) = E ( yt | xt • , wt ) .
ou
yt = β10 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ 0 qt + ut ,
onde β10 = β1 + δ θ 0 , δ 0 = δ θ1 e ut = δ rt + vt .
Capítulo 4 – MRL com Regressores Endógenos 15
Então,
yt = β10 + β 20 xt 2 + β 30 xt 3 + L + β k0 xtk + δ 0 qt + ut ,
verificando-se que este efeito depende do nível de wt , e, portanto, não é estimável. Con-
tudo, supondo que E ( wt ) = 0 , o efeito parcial médio (EPM) é E ( β k + δ 2 wt ) = β k . Se
xtk é quantitativa e discreta, pode fazer-se uma interpretação semelhante. Se xtk é uma
variável artificial, o efeito parcial é
E ( yt | xt 2 , xt 3 , K , xt , k −1 ,1, wt ) − E ( yt | xt 2 , xt 3 , K , xt , k −1 , 0, wt ) = β k + δ 2 wt .
Este segundo requisito é mais forte do que no caso em que não há interacções.
Para obter a equação estimável, começa-se por notar que, devido à redundância,
tem-se E (vt | xt • , wt , qt ) = E (vt | xt • , wt ) = 0 . Então, a regra do valor esperado iterado per-
mite estabelecer que E (vt | xt • , qt ) = 0 . O segundo requisito é equivalente a supor que
E (rt | xt • , qt ) = E (rt | qt ) = 0 , uma vez que wt = θ1 qt + rt . Então, considerando a equação
estrutural, obtém-se
yt = β1 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ1 (θ1 qt + rt ) + δ 2 (θ1 qt + rt ) xtk + vt
= β1 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ1θ1 qt + δ 2θ1 qt xtk + δ1rt + δ 2 rt xtk + vt ,
ou
yt = β1 + β 2 xt 2 + β3 xt 3 + L + β k xtk + δ10 qt + δ 20 qt xtk + ut ,
tem-se
A A E ( xtT• yt )
E ∗ ( yt | xt • , wt • ) = [ xt • wt • ] 11 12
A21 A22 E ( wt • yt )
T
A A E{xtT• ( xt • β + vt )}
= [ xt • wt • ] 11 12 ,
A21 A22 E{wt • ( xt • β + vt )}
T
ou
A11 A12 E ( xtT• xt • )
E ( y t | xt • , wt • ) = [ xt •
∗
wt • ] β
A21 A22 E ( wt • xt • )
T
I
= [ xt • wt • ] β = x t • β ,
O
donde se conclui que β∗ = β e δ * = 0 . Assim,
plim( βˆ ) = β = β
MQ ∗
plim(δˆMQ ) = δ ∗ = 0,
Capítulo 4 – MRL com Regressores Endógenos 18
onde yt∗ representa qualquer observação de y sem erro. Supondo que E (vt | xt • ) = 0 , to-
dos os regressores são pré-determinados, E ( xtT•vt ) = 0 , e E (vt ) = 0 . Quando y é observá-
vel com erro, os valores observados representam-se com yt ≠ yt∗ . O erro de medida (na
população) é dado por et = yt − yt∗ .
A equação estimável é, então,
yt = xt • β + ut ,
Esta hipótese não é controversa, porque é razoável supor que zt • não tem efeito
sobre yt , se se controlar zt∗• . Como E (vt | xt • , zt∗• , zt • ) = E (vt | xt • , zt∗• ) = 0 , facilmente se
verifica que E ( ztT•vt ) = 0 . Com efeito,
E ( ztT•vt ) = E{E ( ztT•vt | zt • )} = E{ztT• E (vt | zt • )} = 0 ,
ou
Capítulo 4 – MRL com Regressores Endógenos 20
A A E ( xtT•vt )
E ∗ ( yt | xt • , zt • ) = xt • β + zt •δ + [ xt • zt • ] 11 12
A21 A22 E ( zt •vt )
T
A A E ( xtT•et • )
− [ xt • zt • ] 11 12 δ
A21 A22 E ( zt •et • )
T
A A O
= xt • β + zt •δ − [ xt • zt • ] 11 12 δ
A21 A22 E ( zt •et • )
T
A E ( ztT•et • )
= xt • β + zt •δ − [ xt • zt • ] 12 T δ
A22 E ( zt •et • )
= xt •{β − A12 E ( ztT•et • ) δ } + zt •{δ − A22 E ( ztT•et • ) δ }.
Donde
β∗ = β − A12Cov(et • ) δ
δ ∗ = δ − A22Cov(et • ) δ .
Assim,
plim( βˆ ) = β = β − A Cov(e ) δ
MQ ∗ 12 t•
plim(δˆMQ ) = δ ∗ = δ − A22Cov(et • ) δ ,
obtendo-se os enviesamentos de erros nos regressores (variáveis explicativas).
A conclusão é a seguinte: quando existem regressores com erro, os estimado-
res MQ de todos os coeficientes de regressão do modelo disponível são assintotica-
mente enviesados.
O estudo do enviesamento de erros nos regressores pode ser aprofundado tirando
partido da projecção linear MQ de zt∗• sobre xt • , e da projecção linear MQ de zt • sobre
xt • . A primeira projecção é dada por
E ∗ ( zt∗• | xt • ) = xt • E ( xtT• xt • ) −1 E ( xtT• zt∗• ) = xt • ∆ ou zt∗• = xt •∆ + rt∗• ,
onde ∆ = E ( xtT• xt • ) −1 E ( xtT• zt∗• ) e rt∗• é o resíduo da projecção [ E ( xtT•rt∗• ) = O ; se existe ter-
mo independente, E (rt∗• ) = 0 e Cov( xt • , rt∗• ) = O ].
Como E ∗ (et • | xt • ) = xt • E ( xtT• xt • ) −1 E ( xtT•et • ) = 0 , a segunda projecção é
E ∗ ( zt • | xt • ) = E ∗ ( zt∗• + et • | xt • ) = xt •∆ ou zt • = xt •∆ + rt • ,
E (rtT• yt ) = E{rtT• ( xt • β + zt •δ + vt − et •δ )}
= E (rtT• xt • ) β + E (rtT• zt • )δ + E (rtT• vt ) − E (rtT• et • )δ
= E (rtT• zt • )δ − E (rtT• et • )δ = E{rtT• ( zt • − et • )}δ = E (rtT• zt∗• )δ ,
Então,
δ ∗ = {E{( rt∗• )T rt∗•} + Cov(et • )}−1 E{( rt∗• )T rt∗•}δ ,
ou
δ ∗ = E (rtT• rt • ) −1{E (rtT• rt • ) − Cov(et • )}δ .
No caso de existir termo independente, obtém-se
δ ∗ = {Cov(rt∗• ) + Cov(et • )}−1 Cov(rt∗• )δ = Cov(rt • ) −1{Cov(rt • ) − Cov(et • )}δ .
Esta igualdade não é fácil de interpretar para m > 1 . Quando m = 1 [há apenas
uma variável observável com erro; zt = zt∗ + et ], tem-se
Var(rt∗ ) Var(rt ) − Var (et )
plim(δˆMQ ) = δ ∗ = δ= δ.
Var(rt ) + Var (et )
∗
Var(rt )
Como Var(rt∗ ) < Var(rt∗ ) + Var(et ) , conclui-se que | plim(δˆMQ ) | = | δ ∗ | < | δ | . Des-
te modo, em grandes amostras, o efeito parcial de z sobre y (medido por δ ), quando é
estimado pelo método MQ, é atenuado devido à existência de erro de medida no re-
gressor. Se δ > 0 , δˆMQ tende a sub-estimar δ ; se δ < 0 , δˆMQ tende a sobre-estimar δ .
Para ilustrar as considerações anteriores, seja a equação estrutural
yt = β1 + β 2 xt 2 + β3 xt∗3 + vt ,
e que
Capítulo 4 – MRL com Regressores Endógenos 22
Então,
E ( xt )Var (et )
plim(b1 ) = β1∗ = β1 + β2
Var ( xt )
plim(b ) = β ∗ = β − Var (et ) β .
2 2 2
Var( xt ) 2
Como
Var ( xt ) − Var(et ) Var ( xt∗ )
plim(b2 ) = β 2∗ = β2 = β
Var ( xt ) Var( xt∗ ) + Var(et ) 2
e Var ( xt∗ ) < Var ( xt ) , tem-se | plim(b2 ) | = | β 2∗ | < | β 2 | ; quanto menor for Var (et ) relativa-
mente a Var ( xt∗ ) , menor é o enviesamento assintótico.
Nalguns casos, a hipótese clássica dos erros nas variáveis pode não ser ver-
dadeira [como E ( ztT•et • ) = E{( zt∗• )T et • } + Cov(et • ) , pode acontecer que E{( zt∗• )T et • } ≠ O
e que E ( ztT•et • ) ≠ O ]. Por exemplo, suponha-se que um dos factores que explica o salário
dos trabalhadores é o consumo de marijuana. Seja marijuana∗ o número de dias por
mês que o trabalhador fuma marijuana, e marijuana o número de dias por mês reporta-
dos pelo trabalhador. Postula-se que marijuana = marijuana∗ + e , e pode mesmo supor-
-se que os trabalhadores tentam reportar a verdade. É obvio que marijuana∗ = 0 implica
marijuana = 0 [o erro de medida para os trabalhadores que não fumam marijuana é ze-
ro]. Quando marijuana ∗ > 0 , é mais provável que marijuana < marijuana∗ , do que o
contrário. Deste modo, há correlação entre o erro de medida e marijuana∗ .
Uma situação geral em que a hipótese CEV é necessariamente falsa é aquela em
que Var ( zt ) < Var ( zt∗ ) ; neste caso, como Var ( zt ) = Var ( zt∗ ) + Var (et ) + 2 Cov( zt∗ , et ) , é
óbvio que Cov( zt∗ , et ) < 0 . Por exemplo, se o número de anos de escolaridade é uma va-
riável explicativa dos salários dos trabalhadores, há tendência para que educ (número
Capítulo 4 – MRL com Regressores Endógenos 23
onde:
qtd - quantidade do produto procurada no período t;
qts - quantidade do produto oferecida no período t;
pt - preço do produto no período t;
utd - variável residual da equação da procura, relativa ao período t;
uts - variável residual da equação da oferta, relativa ao período t.
A variável residual da equação da procura representa os factores que, para além
do preço, influenciam a quantidade procurada (por exemplo, o rendimento dos consumi-
dores); como as variações desta variável provocam deslocamentos da curva da procura
(gráfico que representa a relação entre a quantidade procurada e o preço), a variável re-
sidual utd chama-se shifter da procura (não observável).
A variável residual da equação da oferta diz respeito aos factores que, para além
do preço, influenciam a quantidade oferecida (por exemplo, a dimensão média das em-
presas do mercado); como as variações desta variável implicam deslocamentos da curva
da oferta, a variável residual uts chama-se shifter da oferta (não observável).
Vai supor-se que: E (utd ) = 0 ; E (uts ) = 0 . Fazendo qt = qtd = qts , o modelo pode
escrever-se da seguinte maneira:
qt = α 0 + α1 pt + utd (equação da procura)
(4.8)
qt = β 0 + β1 pt + ut
s
(equação da oferta ).
Facilmente se verifica que o preço é função das duas variáveis residuais. Com
efeito, resolvendo o sistema anterior em relação ao preço e à quantidade, tem-se
β 0 − α 0 uts − utd
p
t = +
α 1 − β1 α 1 − β 1
(4.9)
q = α1 β 0 − α 0 β1 + α1ut − β1ut .
s d
t α1 − β1 α 1 − β1
Capítulo 4 – MRL com Regressores Endógenos 24
Então, como
Cov(utd , uts ) − Var(utd ) Var(uts ) − Cov(utd , uts )
Cov( pt , utd ) = ≠ 0 , Cov( pt , uts ) = ≠ 0,
α1 − β1 α1 − β1
resulta que o preço é endógeno nas duas equações (procura e oferta); a endogeneidade
é consequência do equilíbrio de mercado.
Quando se estabelece que Cov(utd , uts ) = 0 , as covariâncias anteriores simplifi-
cam-se para
Var(utd ) Var(uts )
(4.10) Cov( pt , utd ) = − ≠ 0 , Cov( pt , uts ) = ≠0.
α1 − β1 α 1 − β1
Se, como habitualmente, α1 < 0 (curva da procura decrescente) e β1 > 0 (curva
da oferta crescente) conclui-se que: a correlação entre o preço e o shifter da procura é
positiva; a correlação entre o preço e o shifter da oferta é negativa.
Quando se faz a regressão MQ da quantidade sobre uma constante e o preço, não
se consegue estimar nem a equação da procura nem a equação da oferta, uma vez que o
preço é endógeno nas duas equações.
No entanto, como se viu na secção anterior, o estimador MQ é consistente para o
vector dos coeficientes na projecção linear MQ. Atendendo a (4.3), o coeficiente do pre-
ço, nesta projecção, é dado por
Cov( pt , qt )
(4.11) α1∗ = β1∗ = .
Var( pt )
e
Cov( pt , utd )
α1∗ = α1 + .
Var( pt )
onde
Cov( pt , utd )
Var( pt )
e
Capítulo 4 – MRL com Regressores Endógenos 25
s
Cov( pt , ut )
(4.13) plim( βˆ1 ) = β1∗ = β1 + .
Var( pt )
Então,
Cov( pt , qt ) α1Var(uts ) + β1Var(utd )
= .
Var( pt ) Var(uts ) + Var(utd )
obtém-se
α 0∗ = E (qt ) − α1∗ E ( pt )
Cov( pt , utd )
= {α 0 + α1E ( pt )} − α1 + E ( pt )
Var ( pt )
Cov( pt , utd )
= α0 − E ( pt ) .
Var ( pt )
Como não se pode inferir dos dados se as variações dos preços e das quantidades
provêm de deslocações da procura ou da oferta, não se podem estimar os coeficientes de
forma consistente. Isto sugere que pode ser possível estimar a equação da procura (da
Capítulo 4 – MRL com Regressores Endógenos 26
oferta) se houver shifters observáveis, ou seja, se algum ou alguns dos factores que fa-
zem deslocar a curva da oferta (da procura) forem observáveis.
Suponha-se, por exemplo, que o modelo (4.8) passa a ser
qt = α 0 + α1 pt + utd (equação da procura)
(4.14)
qt = β 0 + β1 pt + β 2 zt + ut
s
(equação da oferta ),
t α1 − β1 α1 − β1 t α 1 − β1
Como Cov( zt , uts ) = 0 e Cov( zt , utd ) = 0 , tem-se
β2
Cov( pt , zt ) = Var( zt ) ≠ 0 .
α1 − β1
Verifica-se, assim, que zt (o shifter observável da oferta) não está correlaciona-
do com a variável residual da equação da procura, utd (o shifter não observável da
procura), mas está correlacionado com o preço (regressor endógeno da mesma equa-
ção). Nestas condições, diz-se que zt é uma variável instrumental (VI) ou instrumen-
to do preço (ou da equação da procura). A definição, em termos gerais, deste tipo de
variáveis vai ser apresentada mais adiante.
Nestas condições, é possível estimar, de forma consistente, o parâmetro α1 . Para
isso, vai calcular-se Cov(qt , zt ) , utilizando a equação da procura. Assim,
Cov(qt , zt ) = Cov(α 0 + α1 pt + utd , zt ) = α1Cov( pt , zt ) + Cov(utd , zt ) = α1Cov( pt , zt ) ,
∑
n
(qt − q )( zt − z )
(4.17) α̂1,VI = t =1
,
∑
n
t =1
( pt − p )( zt − z )
∑
n
( qt − q )(rt − r )
(4.19) β̂1,VI = t =1
,
∑
n
t =1
( pt − p )(rt − r )
onde:
Ct - consumo agregado no ano t;
Yt - PNB (produto nacional bruto) ou rendimento nacional no ano t;
It - investimento agregado no ano t;
ut - variável residual da função consumo, relativa ao ano t.
O parâmetro α1 desempenha um papel fundamental neste modelo, já que repre-
senta a propensão marginal a consumir a partir do rendimento ( 0 < α1 < 1 ).
Facilmente se obtém os valores de equilíbrio do consumo e do PNB,
α0 α1 1
Ct = 1 − α + 1 − α I t + 1 − α ut
1 1 1
(4.21)
Y = α 0 + 1 I + 1 u .
t 1 − α1 1 − α1 t 1 − α1 t
Capítulo 4 – MRL com Regressores Endógenos 28
obtém-se
Cov(Ct , I t )
(4.23) α1 = .
Cov(Yt , I t )
Então, o estimador VI de α1 é
∑
n
(Ct − C )( I t − I )
(4.24) α̂1,VI = t =1
.
∑
n
t =1
(Yt − Y )( I t − I )
Como se viu na secção anterior, a propósito da questão dos erros nas variáveis,
um regressor pré-determinado torna-se endógeno se for medido com erro.
Este problema é muito frequente, por exemplo, em modelos com micro-dados
seccionais sobre famílias. Para ilustrar esta situação, vai considerar-se a versão micro-
económica, com dados seccionais, da Hipótese do Rendimento Permanente (HRP) de
Milton Friedman (1957).
Esta hipótese estabelece que o “consumo permanente” da família t, Ct∗ , é pro-
porcional ao respectivo “rendimento permanente”, Yt ∗ . Assim,
(4.25) Ct∗ = λ Yt ∗ ( 0 < λ < 1 ),
onde utc e uty são os respectivos desvios; estes desvios podem ser interpretados, respec-
tivamente, como os erros de medida do consumo permanente e do rendimento perma-
nente.
Vai supor-se que os erros têm valor esperado nulo e não estão correlacionados
entre si, e com o consumo e rendimento permanentes. Assim,
E (utc ) = 0 , E (uty ) = 0 , E (utc uty ) = 0 ,
Como este modelo não possui termo independente, deve calcular-se E (Yt ut ) , e
não Cov(Yt , ut ) , para indagar se Yt é endógeno. Assim,
E (Yt ut ) = E{(Yt ∗ + uty )(utc − λ uty )} = −λ E{(uty ) 2 } < 0 ,
vem
E (Ct zt )
(4.29) λ= ,
E (Yt zt )
Facilmente se obtém
Cov(Ct , Yt ) λVar (Yt ∗ )
λ =
∗
= <λ.
Var (Yt ) Var (Yt ∗ ) + Var (uty )
Continua a ter-se (4.29), mas não pode fazer-se zt = 1 , porque a regressão tem
termo independente.
onde:
Qt - quantidade produzida pela empresa t;
Lt - quantidade de trabalho utilizado pela empresa t;
αt - nível de eficiência da empresa t;
vt - choque tecnológico referente à empresa t.
Supõe-se que: α t é observável pela empresa, mas não pelo econometrista; vt
não é observável, nem pela empresa nem pelo econometrista.
Admitindo que vt e α t são independentes, e fazendo
E (exp{vt } | α t ) = E (exp{vt }) = λ ,
o nível de produção esperado por cada empresa, quando escolhe Lt , é λ α t Lθt 1 . Sendo p
e w, respectivamente, o preço unitário da produção e a taxa de salário, a empresa t deter-
mina Lt de forma a maximizar o lucro esperado,
π t = pλα t Ltθ − wLt .
1
onde
1 w
β0 = ln − θ 0 − ln (λθ1 )
θ1 − 1 p
é constante (é a mesma para todas as empresas).
A expressão (4.34) mostra que ln( Lt ) é regressor endógeno em (4.33), correla-
cionado positivamente com a variável residual ut + vt . Neste caso, o estimador MQ do
parâmetro θ1 da função de produção logaritmizada confunde a contribuição de dois fac-
tores explicativos do nível de produção: a variável ut (que para a empresa é observável,
mas para o econometrista faz parte da variável residual) e a quantidade de trabalho.
Da endogeneidade de ln( Lt ) em (4.33) decorre que
plim(θˆ1, MQ ) = θ1∗ = 1 .
Então, de
dπ t
= pα tθ1Lθt 1 −1 exp{vt } − w = 0 ,
dLt
obtém-se
1
1 1
w θ1 −1 v
Lt = (α t )1−θ1 (θ1 )1−θ1 exp t ,
p 1 − θ1
e
θ1
1 θ
w θ1 −1 1−θ1
1
1−θ1 v
Qt = (α t ) (θ1 ) exp t .
p 1 − θ1
Donde
Qt w 1
= × ,
Lt p θ1
Nesta secção vai definir-se um modelo de regressão linear que tem em conta a
existência de regressores endógenos. As hipóteses que vão estabelecer-se passam a ter o
prefixo REN.
Este vector é, como vai ver-se, um vector de variáveis instrumentais (já se fez
referência a estas variáveis nos exemplos da secção 4.2; ver adiante a definição 4.3).
A hipótese a estabelecer é a seguinte:
Como pode haver elementos comuns nos vectores xt• e zt• , é vantajoso, por ve-
zes, trabalhar com um vector wt• que apenas abrange a união dos elementos daqueles
dois vectores. Assim, a hipótese anterior garante que o processo { yt , wt •} é estacionário
e ergódico.
Tal como aconteceu com a hipótese RPD.2, conclui-se imediatamente que o pro-
cesso {ut } , onde ut = yt − xt • β , é também estacionário e ergódico. Continua a ter-se
homocedasticidade marginal (não condicionada),
(4.35) E (ut2 ) = σ 2 .
Variáveis instrumentais
Note-se que
g t• = [ g t1 g t 2 L g tp ] = [ zt1ut zt 2ut L ztp ut ]
é um vector 1× p .
Os elementos comuns dos vectores xt• e zt • são os regressores pré-determina-
dos; os outros elementos de xt• são os regressores endógenos; os outros elementos de
zt • não são regressores, mas são variáveis pré-determinadas relativamente à equação es-
trutural yt = xt • β + ut . Quando xt1 = 1 (o modelo tem termo independente), tem-se, tam-
bém, zt1 = 1 ; neste caso, verifica-se que E (ut ) = 0 e Cov( zt • , ut ) = 0 .
Cada componente do vector zt • deve estar relacionada (linearmente) com com-
ponentes do vector xt• . Para isso, vai estabelecer-se a seguinte hipótese:
Capítulo 4 – MRL com Regressores Endógenos 34
ra fazer este teste é um problema complexo, e vai ser tratado mais adiante (ver a sub-
-secção sobre o significado da condição de característica).
As hipóteses REN.3 e REN.4 permitem identificar o vector β . Como
g tT• = ztT•ut = ztT• ( yt − xt • β ) = ztT• yt − ztT• xt • β ,
torna-se claro que este vector depende das variáveis presentes no modelo (regressando,
regressores e instrumentos) e dos verdadeiros valores dos coeficientes de regressão. En-
tão, as condições de ortogonalidade (REN.3) podem escrever-se do seguinte modo:
(4.39) E ( ztT• xt• ) β = E ( ztT• yt ) ou Qzx β = q zy ,
onde q zy = E ( ztT• yt ) .
~
Seja β um qualquer valor hipotético de β , e considere-se o sistema de p equa-
~
ções lineares a k incógnitas (as componentes de β ),
~
(4.40) Qzx β = q zy .
Como o sistema (4.40) tem pelo menos tantas equações como incógnitas, a con-
dição r (Qzx ) = k é necessária e suficiente para que o sistema tenha apenas a solução
~
β = β . Assim,
1 E ( pt )
wt • = [ 1 pt zt ]; Qzx = .
E ( zt ) E ( zt pt )
A condição r (Qzx ) = 2 significa que
| Qzx | ≠ 0 ⇔ E ( zt pt ) − E ( zt ) E ( pt ) ≠ 0 ⇔ Cov( zt , pt ) ≠ 0 ,
1 E ( pt ) E ( zt )
wt • = [ 1 pt zt rt ] ; Qzx = E ( zt ) E ( zt pt ) E ( zt2 ) .
E ( rt ) E ( rt pt ) E ( rt zt )
Exemplo 4.2 – Suponha-se que se procura estimar a função consumo do modelo (4.20).
Pode concluir-se que:
xt • = [ 1 Yt ] (k = 2) ; zt• = [ 1 I t ] ( p = 2) ;
1 E (Yt )
wt • = [ 1 Yt I t ]; Qzx = .
E ( I t ) E ( I t Yt )
A condição r (Qzx ) = 2 significa que Cov( I t , Yt ) ≠ 0 . A função consumo é exac-
tamente identificada.
Considere-se, agora, o modelo macroeconómico,
Ct = α 0 + α1Yt + α 2Ct −1 + ut1 (função consumo)
(4.42) I t = β 0 + β1 Rt + β 2Yt + β 3Yt −1 + ut 2 (função investimento)
Y = C + I + G (identidade do PNB),
t t t t
onde:
Ct - consumo agregado no ano t;
Ct −1 - consumo agregado no ano t − 1 ;
Yt - PNB (produto nacional bruto) ou rendimento nacional no ano t;
Yt −1 - PNB (produto nacional bruto) ou rendimento nacional no ano t − 1 ;
It - investimento agregado no ano t;
Rt - taxa de juro no ano t;
Gt - despesa pública no ano t;
ut 1 - variável residual da função consumo, relativa ao ano t;
ut 2 - variável residual da função investimento, relativa ao ano t.
Suponha-se que se pretende estimar a função consumo, e que as variáveis Ct −1 ,
Yt −1 , Rt e Gt são pré-determinadas. Tem-se:
xt• = [1 Yt Ct −1 ] (k = 3) ; zt • = [ 1 Ct −1 Yt −1 Rt Gt ] ( p = 5) ,
wt • = [ 1 Yt Ct −1 Yt −1 Rt Gt ].
Fica ao cuidado do leitor construir a matriz 5 × 3 , Qzx . Neste caso, a função con-
sumo é sobre-identificada ( p − k = 2 ).
Quando se pretende estimar a função investimento, vem
xt • = [ 1 Rt Yt Yt −1 ] (k = 4) ; zt • = [ 1 Ct −1 Yt −1 Rt Gt ] ( p = 5) ,
wt • = [ 1 Yt Ct −1 Yt −1 Rt Gt ].
onde:
lsalart - logaritmo do salário do indivíduo t;
educt - anos de escolaridade do indivíduo t;
expert - anos de experiência profissional do indivíduo t;
aptid t - aptidão do indivíduo t;
vt - variável residual relativa ao indivíduo t.
Supõe-se que E (vt ) = 0 , e que os regressores educt e expert são pré-determina-
dos. Como a variável aptid não pode ser observada, supõe-se que qit = aptidt + et , onde
qit é o QI do indivíduo t (considerado como uma medida da aptidão do indivíduo) e et
é o erro de medida. Fazendo E (et ) = 0 e E (aptidt et ) = Cov(aptidt , et ) = 0 , vem imedia-
tamente que E (qit et ) = E (et2 ) = Var(et ) ≠ 0 .
A equação estimável é dada por
lsalart = β1 + β 2 educt + β3 expert + β 4 qit + ut ,
e os antecedentes familiares. Neste caso, os regressores endógenos são qit e educt . Vai
supor-se que as variáveis instrumentais são as seguintes:
cmtrabt - score do teste sobre o “conhecimento do mundo do trabalho”
do indivíduo t;
meduc t - anos de escolaridade da mãe do indivíduo t.
peduc t - anos de escolaridade do pai do indivíduo t.
Supõe-se que cmtrabt está correlacionada com qit , e que as variáveis meduc t e
peduc t estão correlacionadas com educt . Neste caso,
zt • = [ 1 expert meduct peduct cmtrabt ] ( p = 5) ,
onde
π
1j
π 2 j
π • j = = E ( ztT• zt • ) −1 E ( ztT• xtj ) .
M
π pj
Capítulo 4 – MRL com Regressores Endógenos 41
É imediato concluir que xtj∗ é uma variável instrumental, uma vez que é uma
combinação linear das variáveis instrumentais ztl (l = 1, 2, K , p) .
Representando por vtj o resíduo daquela projecção, vem
xtj = xtj∗ + vtj ( j = 1, 2, K , k ) .
Note-se que:
− Quando xtj é pré-determinado, xtj∗ = xtj e vtj = 0 [porque xtj é uma das componentes
de zt• ].
− Quando o regressor xtj é endógeno, as duas parcelas de xtj verificam o seguinte: a
primeira, xtj∗ , é ortogonal a ut [ xtj∗ é a parte de xtj que não é endógena]; a segunda,
vtj , não é ortogonal a ut , E (ut vtj ) ≠ 0 [ vtj é a parte endógena de xtj ; caso contrário,
x j não seria endógeno].
L
x = π z + π z + L + π z + v = x∗ + v ,
tk 1k t1 2k t 2 pk tp tk tk tk
onde:
− xt∗• = E ∗ ( xt • | zt • ) = [ xt∗1 xt∗2 L xtk∗ ] = zt •Π ;
− Π = E ( ztT• zt • ) −1 E ( ztT• xt • ) = Qzz−1Qzx é a matriz de tipo p × k , de elemento genérico π lj ,
cujas colunas são π • j ;
− vt • = [ vt1 vt 2 K vtk ] é o vector dos resíduos das projecções lineares MQ.
− E{( xt∗• )T ut } = 0 ;
− E{( xt∗• )T vt •} = O ;
− Qx ∗ x ∗ = E{( xt∗• )T xt∗• } = ΠT Qzz Π = QzxT Qzz−1Qzx ;
− Qx ∗ x = E{( xt∗• )T xt •} = E{( xt∗• )T xt∗•} ou Qx ∗ x = Qx ∗ x ∗ .
uma vez que r (Qzz ) = p . Assim, a condição de característica, (4.37), é equivalente a que
a característica da matriz Π (matriz dos coeficientes da forma reduzida referente aos re-
gressores da equação estrutural) seja também k.
É possível testar a condição (4.37) dispondo de uma amostra do par ( xt • , zt • ) e
considerando a média amostral correspondente a Qzx = E ( ztT• xt • ) : S zx = (1 / n)Σtn=1 ztT• xt • .
Embora estes testes sejam complexos [ver Cragg e Donald (1996)], este problema pode,
em muitos casos, ser simplificado, fazendo a estimação das equações da forma reduzida
pelo método MQ e testes de nulidade dos respectivos parâmetros, π lj , de forma a garan-
tir que cada instrumento ztl , que não pertence a xt • , seja significativo. Este procedimen-
to não é suficiente para não rejeitar a condição de característica, mas pode fornece evi-
dência estatística contra a condição.
Para esclarecer e interpretar a equivalência entre a condição de característica e
r (Π) = k , apresentam-se alguns exemplos:
Capítulo 4 – MRL com Regressores Endógenos 43
E ( zt ) E ( zt xt 2 ) E ( zt xt 3 )
são linearmente independentes. Assim, não basta exigir que zt e xt 3 estão correlacio-
nados, E ( zt xt 3 ) ≠ 0 . Facilmente se conclui que para obter uma condição equivalente
à condição de característica, deve considerar-se a projecção linear MQ de xt 3 sobre
todas as variáveis pré-determinadas, xt 3 = π 1 + π 2 xt 2 + π 3 zt + vt , e supor que π 3 ≠ 0
[ vt é o resíduo da projecção; E (vt ) = 0 ; E ( xt 2vt ) = 0 ; E ( zt vt ) = 0 ]. Com efeito, como
zt • = [ 1 xt 2 zt ], xt∗• = [ 1 xt 2 xt∗3 ] e xt∗3 = π 1 + π 2 xt 2 + π 3 zt , resulta
1 0 π 1
Π = 0 1 π 2 ,
0 0 π 3
A condição π 3 ≠ 0 significa que xt 3 e zt estão parcialmente correlacionados, ou
seja, a correlação está “expurgada da influência de xt 2 ”.
Capítulo 4 – MRL com Regressores Endógenos 44
x∗ = π + π x + π z + π z + π z
t3 13 23 t 2 33 t1 43 t 2 53 t 3
∗
xt 4 = π 14 + π 24 xt 2 + π 34 zt1 + π 44 zt 2 + π 54 zt 3 .
Então,
1 0 π 13 π 14
0 1 π 23 π 24
Π = 0 0 π 33 π 34 .
0 0 π 43 π 44
0
0 π 53 π 54
A estimação dos parâmetros da forma reduzida pode ter algum interesse pa-
ra aprofundar as relações entre as variáveis do modelo. No exemplo 4.3 há razões para
admitir que as variáveis explicativas qit e educt são regressores endógenos no modelo
lsalart = β1 + β 2 educt + β 3 expert + β 4 qit + ut . Supondo que o vector das variáveis instru-
mentais é z t • = [ 1 expert meduct peduct cmtrabt ], equação da forma reduzida do
regressor educt é dada por
educt = π 12 + π 22expert + π 32 meduct + π 42 peduct + π 52cmtrabt + vt 2 .
Por exemplo, pode ser interessante medir o efeito parcial de meduc sobre educ.
Para isso, pode estimar-se o parâmetro π 32 e testar a condição π 32 ≠ 0 .
riáveis, tal como as variáveis proxy, são redundantes na equação estrutural. Assim, tem-
-se E ( yt | xt • , wt • , zt • ) = E ( yt | xt • , wt • ) , onde zt • é o vector das variáveis instrumentais
(se fosse possível controlar wt • , zt • seria dispensável). Contudo, ao contrário das variá-
veis proxy, as variáveis instrumentais não devem estar correlacionadas com as variáveis
omitidas.
Existem propostas de solução daquele problema e do problema dos erros de
medida nos regressores apelando a outro tipo de variáveis. Para facilitar a exposição
admite-se que yt = xt • β + δ wt + vt (existe apenas uma variável explicativa não observá-
vel) e que o modelo tem termo independente.
Chama-se indicador de wt a uma variável wt′ que verifica as seguintes condi-
ções:
1) O indicador wt′ é redundante na equação estrutural:
E ( yt | xt • , wt , wt′) = E ( yt | xt • , wt ) .
(porque é redundante na equação estrutural) e não está correlacionado com vt′ (porque
vt′ não está correlacionado com wt e com vt′′ ). Como wt′ e wt′′ estão correlacionados,
wt′′ pode ser utilizado como instrumento de wt′ . Obviamente os papéis de wt′ e wt′′ po-
dem ser trocados.
Esta solução é muito diferente da solução em que a variável não observável é
incluída na variável residual, em que é necessário decidir quais os elementos de xt • que
estão correlacionados com wt , e encontrar variáveis instrumentais para os regressores
endógenos. Na solução com indicadores múltiplos, não é necessário conhecer estes re-
gressores, porque xt • é pré-determinado; basta saber que wt′′ é instrumento de wt′ .
No caso da hipótese clássica dos erros nas variáveis, wt′ e wt′′ são as medidas
de wt , e os respectivos erros de medida não estão correlacionados. A solução do proble-
ma ainda é mais simples. Como α 0 = γ 0 = 0 e α1 = γ 1 = 1 , tem-se − α 0δ ∗ = 0 e δ ∗ = δ .
Então, como wt′ é regressor endógeno da equação estimável e wt′′ é a respectiva variá-
vel instrumental, todos os parâmetros da equação estrutural, β e δ , são estimáveis de
forma consistente.
Existem outras formas de utilizar indicadores de variáveis omitidas. Suponha-se
que se tem apenas um indicador de wt : wt′ = α1 wt + vt′ , onde α1 ≠ 0 . Sem perda de ge-
neralidade admite-se que α 0 = 0 e que E ( wt ) = 0 . Então: E ( wt vt′) = 0 e E ( xt •vt′) = 0 ; co-
mo há termo independente na equação estrutural, tem-se E (vt′) = 0 . Supõe-se também
que E (vt vt′) = 0 . Contudo, como apenas se dispõe de um indicador, vai considerar-se um
vector zt∗• , com m componentes, a verificar as seguintes condições:
1) O vector zt∗• é redundante na equação estrutural:
E ( yt | xt • , wt , zt∗• ) = E ( yt | xt • , wt ) .
basta garantir que π •2 ≠ 0 (pelo menos um elemento deste vector é diferente de zero).
Capítulo 4 – MRL com Regressores Endógenos 48
A seguir, vai analisar-se uma situação em que uma variável explicativa não é
observável e em que outra variável explicativa é observável com erro. Considere-se o
modelo,
yt = β1 + β 2 xt 2 + L β k −1 xt , k −1 + β k xtk∗ + wt + vt ,
onde aptid t é não observável. Supõe-se que todas as variáveis explicativas são pré-de-
terminadas (são todas ortogonais a vt ). A forma directa para solucionar o problema da
variável não observável é inseri-la na variável residual, obtendo-se a seguinte equação
estimável:
lsalart = β1 + β 2 educt + β 3 expert + β 4 expert 2 + ut ,
onde se supõe que todas as variáveis explicativas são pré-determinadas (para simpli-
ficar, fez-se δ = 1 ).
Continua a considerar-se que o único indicador de aptid t é qit . Quanto às variáveis
meduct , peduct e cmtrabt , estabelecem-se as seguintes hipóteses: não estão correla-
cionados com vt , vt′ e et 2 ; estão correlacionados com educt e qit .
A equação estimável é dada por
α 1 1
lsalart = β1 − 0 + β 2 educt + β 3 expert + β 4 expert 2 + qit + vt − β 2et 2 − vt′ .
α1 α1 α1
Os regressores endógenos são educt e qit , e as respectivas variáveis instrumentais
são meduct , peduct e cmtrabt .
∇
Diferença-martingala
Note-se que
ut2 zt21 ut2 zt1 zt 2 K ut2 zt1 ztp
2
u z z ut2 zt22 L ut2 zt 2 ztp
ut zt • zt • = t t 1 t 2
2 T
.
M M M
2
ut zt1 ztp ut2 zt 2 ztp L ut2 ztp2
Como vai ver-se, esta hipótese é necessária para deduzir a distribuição assintóti-
ca dos estimadores de β a estudar nas secções seguintes.
Os comentários que se podem fazer a propósito de REN.5 são semelhantes aos
que se fizeram relativamente a RPD.5. Assim:
− REN.5 é mais forte que REN.3, já que (4.43) implica E ( gt • ) = 0 .
− Como E ( gt • ) = 0 , tem-se S = Cov( gt • ) .
− Não existe autocorrelação em {g t • } : Cov( g t • , g t −s ,• ) = O .
− Fazendo,
1 n 1 n 1
g• n = ∑t =1 gtT• = ∑t =1 ztT•ut = Z TU ,
n n n
onde Z é a matriz n × p das observações das variáveis instrumentais, tem-se
d
n g• n → N ( p ) (0, S ) ,
onde Ea ( g• n ) = 0 e Cov a ( g •n ) = S .
Note-se que:
1 1 1 T
∑ ∑
n n
n g• n = t =1
gtT• = z u =
T
t =1 t • t
Z U.
n n n
− Quando zt1 = 1 (o que acontece sempre que o modelo tem termo independente), o
processo {ut } das variáveis residuais é também uma diferença-martingala. Portan-
to, E (ut ) = 0 e Cov(ut , ut −s ) = 0 (não há autocorrelação).
− Em vez da (4.43), pode utilizar-se a condição suficiente de interpretação mais fácil,
(4.45) E (ut | ut −1 , ut −2 , K , zt • , zt −1,• , zt −2,• , K) = 0 .
Esta condição implica que as variáveis residuais não estão autocorrelacionadas e que
cada variável residual é ortogonal às observações correntes e desfasadas dos instru-
mentos.
− A matriz S, definida em (4.44), é uma matriz de quartos momentos: o seu elemento
genérico é E (ut2 zth ztl ) .
− Devido a (4.43), conclui-se que Cov a ( g •n ) = S . Sem esta hipótese, a matriz das co-
variâncias assintóticas de g •n é mais complicada, envolvendo autocovariâncias de
g t• .
Capítulo 4 – MRL com Regressores Endógenos 51
Exemplo 4.5 – Retome-se o exemplo 4.3. A matriz S é o valor esperado da seguinte ma-
triz:
u2 ut2educt ut2expert ut2idadet ut2 meduct
2 t
ut educt ut2educt2 ut2educt expert ut2educt idadet ut2educt meduct
u 2exper u 2exper educ ut2expert 2 ut2expert idadet ut2expert meduct .
t t t t t
Para provar REN.4 basta notar que Qz ′x = E{( zt′• )T xt •} = AT E ( ztT• xt • ) = AT Qzx .
Para demonstrar REN.5, começa-se por notar que gt′• = zt′•ut = zt •ut A = gt • A .
Então,
E ( gt′• | gt′−1,• , gt′− 2,• , K) = E ( gt • A | gt −1,• A, gt − 2,• A, K) = E ( gt • | gt −1,• , gt − 2,• , K) A = 0 .
onde
1 n T 1 1 n 1
S zx =
n
∑ z x = Z T X , szy = ∑t =1 ztT• yt = Z T Y ,
t =1 t • t •
n n n
são os correspondentes momentos amostrais de Qzx e q zy [o sistema (4.46) é a contra-
~
partida amostral do sistema (4.40), Qzx β = q zy ].
Supondo que a equação de regressão é identificada, podem considerar-se dois
casos: 1) p = k (identificação exacta); 2) p > k (sobre-identificação).
1 p q
1 n T 1 n T
S zx = ∑t =1 zt • xt • = e szy = ∑t =1 zt • yt = .
∑t =1 t t ∑t =1 t t
n n
n z (1 / n ) z p n (1 / n ) z q
Então,
−1
αˆ 0, VI 1 p q
=
αˆ1, VI z (1 / n)∑t =1 zt pt (1 / n)∑t =1 zt qt
n n
1 (1 / n)∑ n zt pt − p q
= t =1
,
(1 / n)∑t =1 zt pt − z p 1 (1 / n)∑t =1 zt qt
n n
−z
ou
αˆ 0, VI
(1 / n)∑t =1 zt pt q − (1 / n)∑t =1 zt qt
n n
1 p
= (1 / n) n z p − z p .
αˆ1, VI ∑t =1 t t (1 / n)∑t =1 zt qt − z q
n
Donde
(1 / n)∑t =1 zt qt − z q
∑ ∑
n n n
z q − nz q
t =1 t t
( zt − z )(qt − q )
αˆ1, VI = = = t =1
,
(1 / n)∑ z p − z p ∑ z p − nz p ∑
n n n
t =1 t t t =1 t t t =1
( zt − z )( pt − p )
Com efeito,
(1 / n) n z p q − (1 / n) n z q p n z p q − n z q p
∑t =1 t t ∑t =1 t t ∑t =1 t t ∑t =1 t t
α̂ 0, VI = =
(1 / n)∑t =1 zt pt − z p ∑t =1 zt pt − n z p
n n
ou
αˆ 0, VI =
(∑ n
)
z pt q − n z p q −
t =1 t
(∑ n
)
z q p + nz p q
t =1 t t
∑
n
z pt − n z p
t =1 t
=
(∑ n
z pt − n z p q −
t =1 t
) (∑ n
z q − nz q p
t =1 t t
) =q−
∑
n
z q − nz q
t =1 t t
p.
∑ ∑
n n
z p − nz p
t =1 t t
z p − nz p
t =1 t t
∑ ∑ ∑ z yt − y ∑t =1 zt
n n n n
( zt − z )( yt − y ) z ( yt − y )
β̂ 2, VI = t =1
= t =1 t
= t =1 t
.
∑ − z )( x − x ) ∑ z (x − x) ∑ z x − x ∑t =1 zt
n n n n
t =1
( zt t t =1 t t t =1 t t
Quando p > k (segundo caso), o sistema (4.46) pode não ter solução, pelo que
~
não é possível, em geral, escolher um vector β que satisfaça as p equações do sistema.
Como não se pode anular
~ ~
g• n ( β ) = szy − S zx β
Capítulo 4 – MRL com Regressores Endógenos 55
~
de forma exacta, espera-se que seja possível encontrar um β que minimize a distância
~
entre os vectores s zy e S zx β . A distância, que vai ser considerada, é dada por
~ ~ ~ ~ ~
(4.48) J ( β , Wˆ ) = n {g• n ( β )}T Wˆ { g• n ( β )} = n ( szy − S zx β )T Wˆ ( szy − S zx β ) ,
onde a matriz dos pesos, Ŵ , é simétrica definida positiva. Esta matriz pode ser aleatória
e depender da dimensão da amostra, para cobrir o caso de poder ser estimada a partir da
amostra. Supõe-se, também, que Ŵ é estimador consistente de alguma matriz W (não
aleatória, simétrica definida positiva). Assim, plim(Wˆ ) = W .
Como vai ver-se adiante, é conveniente que n apareça a multiplicar na expressão
(4.48). Pode, então, apresentar-se a seguinte definição:
Como
~ ~ ~ ~
J ( β , Wˆ ) = n( s Tzy Wˆ s zy − 2 β T S zxT Wˆ s zy + β T S zxT Wˆ S zx β ) ,
~
quando se faz ∇ J ( β , Wˆ ) = 0 , obtém-se
~
S zxT Wˆ S zx β = S zxT Wˆ s zy .
Em rigor, o símbolo mais adequado para representar este estimador deveria ser
ˆ ˆ
β (W , Z ) , já que ele depende dos instrumentos considerados.
~
Mesmo no caso de sobre-identificação, o sistema Qzx β = q zy é possível, pois
~ ~
existe a solução β = β . No entanto, o sistema S zx β = s zy pode não ser possível, não
obstante plim( S zx ) = Qzx e plim( szy ) = qzy ; mesmo que r ( S zx ) = k , não está garantido
que r ( [ S zx szy ] ) = k .
O estimador MGM, (4.50), continua válido, para n suficientemente grande, mes-
mo que W = plim(Wˆ ) seja singular, desde que QzxT W Qzx tenha inversa.
~
Quando p = k , o modelo é exactamente identificado, e tem-se J ( β , Wˆ ) = 0 ,
porque o sistema (4.46) é possível. É imediato verificar que o estimador VI é um caso
particular de estimador MGM: βˆ (Wˆ ) = ( Z T X ) −1Wˆ −1 ( X T Z ) −1 ( X T Z ) Wˆ ( Z T Y ) = βˆVI .
A fórmula (4.50) mostra que os estimadores MGM constituem uma família de
estimadores indexada pela matriz Ŵ .
Capítulo 4 – MRL com Regressores Endógenos 56
onde
PVˆ = I − Vˆ (Vˆ TVˆ ) −1Vˆ T = I − PZ X ( X T PZ X ) −1 X T PZ .
Capítulo 4 – MRL com Regressores Endógenos 58
Então,
−1
βˆMQ = X T {I − PZ X ( X T PZ X ) −1 X T PZ } X X T {I − PZ X ( X T PZ X ) −1 X T PZ } Y
= ( X T X − X T PZ X ) −1 ( X T Y − X T PZ Y ) = { X T ( I − PZ ) X }−1 X T ( I − PZ )Y
= ( X T H X ) −1 ( X T H Y ) = βˆ
Z Z . MQ2P
Exemplo 4.7 – Retome-se o modelo (4.14) para estimar, pelo método MQ2P, a equação
da procura. Neste caso, pt é o único regressor endógeno, e zt• = [ 1 zt ].
Atendendo a (4.15), tem-se
β0 − α0 β2 u s − utd
pt = π 1 + π 2 zt + vt = + zt + t .
α1 − β1 α1 − β1 α1 − β1
No primeiro passo faz-se a regressão MQ de pt sobre 1 e zt , de modo a obter
p̂t . O segundo passo permite obter, por exemplo, o estimador MQ2P de α1 , fazendo a
regressão MQ de q t sobre 1 e p̂t ,
∑
n
(qt − q )( pˆ t − pˆ )
α̂1,MQ2P = t =1
∑
n
t =1
( pt − pˆ ) 2
∑
n
(qt − q )( zt − z )
αˆ1,MQ2P = αˆ1,VI = t =1
.
∑
n
t =1
( pt − p )( zt − z )
Capítulo 4 – MRL com Regressores Endógenos 59
Exemplo 4.8 – Seja o modelo (4.20) com a finalidade de estimar a função consumo pe-
lo método MQ2P. O único regressor endógeno é Yt , e zt• = [ 1 I t ].
Atendendo a (4.21), vem
α0 1 u
Yt = π 1 + π 2 I t + vt = + It + t .
1 − α1 1 − α1 1 − α1
∑ (Ct − C )(Yˆt − Yˆ )
n
α̂1,MQ2P = t =1
.
∑t =1 (Yˆt − Yˆ ) 2
n
∑
n
(Ct − C )( I t − I )
αˆ1,MQ2P = αˆ1,VI = t =1
.
∑
n
t =1
(Yt − Y )( I t − I )
Exemplo 4.9 – Retome-se o exemplo 4.3 com o objectivo de estimar a equação dos sa-
lários pelo método MQ2P. No primeiro passo faz-se a regressão MQ de qit (o único re-
gressor endógeno) sobre 1, educt , expert , idadet e meduct , de modo a obter os valores
ajustados de qit . No segundo passo efectua-se a regressão MQ de lsalart sobre 1,
educt , expert e os valores ajustados, no primeiro passo, de qit .
Tem-se p > k ( p = 5 e k = 4 ). Os estimadores MQ2P dos coeficientes de re-
gressão β j ( j = 0,1, 2, 3 ), seriam calculados com (4.54).
No entanto, se o regressor expert fosse também endógeno, o primeiro passo se-
ria constituído por duas regressões MQ: qit sobre 1, educt , idadet e meduct , de modo a
obter os valores ajustados de qit ; expert sobre 1, educt , idadet e meduct , obtendo-se os
Capítulo 4 – MRL com Regressores Endógenos 60
Considere-se o estimador MQ de β 2 ,
∑
n
( xt − x )( yt − y )
b2 = t =1
.
∑t =1 ( xt − x )2
n
∑ ∑ ∑
n n n
( xt − x )( yi − y ) ( xt − x ) yi ( xt − x )( β1 + β 2 xt + ut )
b2 = t =1
= t =1
= t =1
,
∑t =1 ( xt − x )2 ∑ ∑t =1 ( xt − x )2
n n n
t =1
( xt − x ) 2
ou
∑
n
( xt − x )ut
b2 = β 2 + t =1
.
∑
n
t =1
( xt − x ) 2
Então,
Cov( xt , ut ) σ u
plim(b2 ) − β 2 = = Corr ( xt , ut ) ,
Var ( xt ) σx
onde σ x2 = Var( xt ) e σ u2 = Var (ut ) .
Sendo zt uma variável instrumental de xt , tem-se
∑
n
( zt − z )( yt − y )
βˆ2, VI = t =1
.
∑
n
t =1
( zt − z )( xt − x )
∑ ∑ ∑
n n n
( zt − z )( yt − y ) ( zt − z ) yt ( zt − z )( β1 + β 2 xt + ut )
βˆ = t =1
= t =1
= t =1
,
∑ − z )( x − x ) ∑ ∑t =1 ( zt − z ) xt
2 , VI n n n
t =1
( zt t t =1
( zt − z ) xt
ou
∑ ( z − z )u .
n
βˆ = β2
t t
+ t =1
∑ ( z − z )( x − x )
2 , VI n
t =1 t t
Então,
Cov( zt , ut ) σ u Corr ( zt , ut )
plim(βˆ2, VI ) − β 2 = = .
Cov( zt , xt ) σ x Corr ( zt , xt )
Esta situação pode não ocorrer quando a correlação entre zt e xt é pequena em rela-
ção à correlação entre zt e ut .
Capítulo 4 – MRL com Regressores Endógenos 62
onde Λ 2 = E{( zt′′• )T zt′′•}−1 E{( zt′′• )T xt′′• } é uma matriz p′′ × k ′′ . Seja xt′′• = xt∗• + et′′• , onde
et′′• é o vector dos resíduos da projecção. Sabe-se que E{( zt′′• )T et′′•} = O . Para simplifi-
car, suponha-se que Λ 2 é conhecido e, portanto, x̂t′′• = xt∗• . Então (2.º passo),
yt = xt′• β •1 + ( xt∗• + et′′• ) β • 2 + ut = xt′• β •1 + xt∗• β• 2 + (et′′• β• 2 + ut ) .
Para provar a consistência tem que haver ortogonalidade entre os regressores desta
equação e a variável residual, et′′• β •2 + ut . Por hipótese, xt′• é ortogonal a ut , e xt∗• é
ortogonal ut e a et′′• . Contudo, xt′• não é ortogonal a et′′• , porque xt′• não foi incluído
na projecção linear MQ de xt′′• sobre zt′′• . Então, os estimadores MQ obtidos no 2.º
passo são inconsistentes. Esta conclusão mostra que não se deve esquecer os regres-
sores pré-determinados quando se faz o 1.º passo do método MQ2P.
d
n {βˆ (Wˆ ) − β } = ( S zxT Wˆ S zx ) −1 S zxT Wˆ n g• n , n g• n → N ( p ) (0, S ) ,
plim( S zx ) = Qzx e plim(Wˆ ) = W ,
Cov a ( βˆVI ) = Qzx−1 S (QzxT ) −1 .
b) Estimador MQ2P:
Cov a ( βˆMQ2P ) = (QzxT Qzz−1 Q zx ) −1 QzxT Qzz−1 S Qzz−1 Q zx (QzxT Qzz−1 Q zx ) −1 .
Com efeito,
é estimador consistente de σ 2 .
O resultado (4.58) não pode ser utilizado na inferência estatística porque a ma-
triz das covariâncias assintótica, dada por (4.59), depende de parâmetros desconhecidos,
Qzx = E ( ztT• xt• ) , W e S = E (ut2 ztT• zt• ) .
Como plim S zx = Qzx , obviamente que S zx é um estimador consistente de Qzx ;
como plim(Wˆ ) = W , Ŵ é estimador consistente de W; basta, então, conhecer um esti-
mador consistente para S, Ŝ .
Se as variáveis residuais fossem observáveis,
1 n 2 T
∑ ut z t • z t •
n t =1
seria um estimador consistente para S. Como ut não é observável, pode provar-se que,
em certas condições (ver propriedade 4.4), e se se substituir na expressão anterior as va-
riáveis residuais pelos resíduos obtidos à custa de um estimador consistente de β , ob-
tém-se um estimador consistente para S.
A seguir apresenta-se a propriedade que garante, em certas condições, a consis-
tência de Ŝ .
^
(4.64) Cov a {βˆ (Wˆ )} = ( S zxT Wˆ S zx) −1 S zxT Wˆ Sˆ Wˆ S zx( S zxT Wˆ S zx) −1 .
onde
1 ^ ˆ ˆ
s∗j = Vara {β j (W )}
n
−1
^
Q = n g{βˆ (Wˆ )}T ∇g{βˆ (Wˆ )} Cov a {βˆ (Wˆ )} ∇g{βˆ (Wˆ )}T g{βˆ (Wˆ )} .
Se W é singular, as propriedades dos estimadores MGM, bem como os resulta-
dos sobre inferência estatística, continuam válidos, desde que QzxT W Qzx tenha inversa.
Teorema 4.3
Um limite inferior para a matriz das covariâncias assintótica dos estimadores MGM, da-
da por (4.59), é
(4.70) (QzxT S −1 Q zx ) −1 .
βˆ j ( Sˆ −1 ) − β 0j d
(4.74) t ∗j = → N (0, 1) ,
s∗j
onde
1 ^ ˆ ˆ −1
s∗j = Vara {β j ( S )} ;
n
d
(4.75) Q = n {Rβˆ ( Sˆ −1 ) − δ 0 }T {R ( S zxT Sˆ −1 S zx) −1 RT }−1{Rβˆ ( Sˆ −1 ) − δ 0 } → χ 2 (m) ;
d
(4.76) Q → χ 2 ( m) ,
onde
−1
Q = n g{βˆ ( Sˆ −1 )}T ∇g{βˆ ( Sˆ −1 )} ( S zxT Sˆ −1 S zx) −1 ∇g{βˆ ( Sˆ −1 )}T g{βˆ ( Sˆ −1 )} .
Em resumo, o estimador MGM eficiente é calculado com os dois passos seguin-
tes:
1) Escolhe-se a matriz Ŵ , convergente em probabilidade para uma matriz simétrica
definida positiva, e minimiza-se
~ ~ ~
J ( β , Wˆ ) = n( s zy − S zx β )T Wˆ ( s zy − S zx β )
~
em relação a β , a fim de obter βˆ (Wˆ ) .
A escolha de Ŵ não oferece dificuldade; pode fazer-se Wˆ = I , mas a opção mais
usual é Wˆ = S zz−1 . Assim, minimiza-se
~ ~ ~
J ( β , S zz−1 ) = n( szy − S zx β )T S zz−1 ( szy − S zx β ) ,
~
em relação a β , para obter o respectivo estimador MGM.
~
Como o estimador MGM ao fim de dois passos é consistente, a nova matriz S é
ainda estimador consistente de S. Então, devido às propriedades 4.1 e 4.2, o estimador
MGM com três passos é consistente e assintoticamente normal. Atendendo ao teorema
4.3, conclui-se, ainda, que este estimador é assintoticamente eficiente. A escolha de Ŵ ,
tal que W = plim(Wˆ ) , não influencia a distribuição limite do estimador MGM.
Suponha-se que o conjunto dos elementos de xt • é um subconjunto próprio do
conjunto dos elementos de zt • (todos os regressores são pré-determinados, havendo
variáveis pré-determinadas que não são regressores). Neste caso, faz-se
zt• = [ zt1• zt2• ] = [ xt • zt2• ],
é semidefinida positiva.
Volta, agora, a considerar-se o vector de instrumentos zt′• = zt • A , onde A é uma
matriz p × q a verificar r ( A) = q ≤ p . Continua a ter-se gt′• = zt′•ut = zt •ut A = gt • A , e ob-
Capítulo 4 – MRL com Regressores Endógenos 70
b) Atendendo às hipóteses consideradas na propriedade 4.4 (ver secção 4.7), foi possí-
vel obter, em (4.63), um estimador consistente de S. Então, a distância mínima, obti-
da no segundo passo para a determinação do estimador MGM eficiente, tem distri-
buição limite do qui-quadrado com p − k graus de liberdade.
c) O resultado (4.79) pode interpretado como um teste de especificação. Trata-se de
verificar se, conjuntamente, todas as hipóteses do teorema 4.5 (REN.1 a REN.5) são
satisfeitas. Assim, se o valor observado da estatística-teste,
J = J {βˆ ( Sˆ −1 ), Sˆ −1} ,
designada por estatística J (de Hansen), for inesperadamente grande, é indicação de
que alguma das hipóteses do modelo é falsa.
d) Se houver razões para apenas pôr em dúvida a hipótese REN.3, é de admitir que um
valor elevado da estatística J constitua evidência a favor de que algumas das p variá-
veis incluídas em zt • não são instrumentais.
Para melhor esclarecimento, considerem-se as seguintes partições dos vectores xt• e
zt • :
xt • = [ xt′• xt′′• ] e zt • = [ zt′• zt′′• ],
onde:
− xt′• é o vector 1 × k ′ dos regressores supostos pré-determinados: E ( xt′•ut ) = 0 ;
− xt′′• é o vector 1 × k ′′ dos regressores endógenos (k ′′ = k − k ′) ;
− zt′• é o vector 1 × p′ dos instrumentos, que são regressores;
− zt′′• é o vector 1× p′′ de eventuais instrumentos, não regressores ( p′′ = p − p′) ;
− Evidentemente: xt′• = zt′• (k ′ = p′) ; p − k = p′′ − k ′′ ; p > k ⇔ p′′ > k ′′ .
O teste não pode ser efectuado quando p = k ou p′′ = k ′′ , porque haveria zero graus
de liberdade (quando muito, a equação de regressão era exactamente identificada).
e) O interesse prático do teste de sobre-identificação pode resumir-se da seguinte ma-
neira: se se rejeita H 0 , então a estratégia de escolha das variáveis instrumentais de-
ve ser reexaminada; se não se rejeita H 0 , então pode ter-se alguma confiança nos
Capítulo 4 – MRL com Regressores Endógenos 74
instrumentos escolhidos (note-se, no entanto, que o teste não é adequado para detec-
tar a endogeneidade de alguns instrumentos).
Supondo que
xt′• = zt′• = [ 1 educt expert ], xt′′• = qit e zt′′• = [ idadet meduct ],
a hipótese nula é que idadet e meduct são instrumentos. A não rejeição desta hipótese
permite concluir que há sobre-identificação; um valor elevado da estatística J (de Han-
sen) rejeita que idadet ou meduct sejam variáveis instrumentais.
∇
1 n 2 T 1 n
s z2 y =
n
∑t =1
( zt • ) yt (vector q2 × 1 ); S z2 x = ∑t =1 ( zt2• )T xt • (matriz q2 × k ).
n
Seja, também,
E{u 2 ( z1 )T z1 } E{u 2 ( z1 )T z 2 } S11 S12
t• t• t• t•
S = E{u ( z ) z } = =
t t
2
t
∗ T
t•
∗
t•
,
E{ut ( zt • ) zt • } E{ut ( zt • ) zt2•} S 21 S 22
2 2 T 1 2 2 T
onde os tipos das submatrizes são os seguintes: S11 , q1 × q1 ; S12 , q1 × q2 ; S 21 , q2 × q1 ;
S 22 , q2 × q2 . Conhecido um estimador consistente de S, Ŝ , o estimador MGM eficiente
de β é dado por β̂ ( Sˆ −1 ) = ( S zT∗ x Sˆ −1 S z∗ x ) −1 S zT∗ x Sˆ −1 sz∗ y [ver (4.71)]. A correspondente esta-
tística J é dado por (4.79), com as necessárias adaptações (nos índices das matrizes das
médias amostrais, substitui-se z por z∗ ).
Seja
(1 / n)∑t =1 uˆt2 ( zt1• )T zt2• Sˆ11
1 n 2 ∗ T ∗ (1 / n)∑t =1 uˆt ( zt • ) zt • Sˆ12
n 2 1 T 1 n
S = ∑t =1 uˆt ( zt • ) zt • =
ˆ = .
(1 / n) n uˆ 2 ( z 2 )T z1 2 T 2
n
∑t =1 t t • t • (1 / n)∑t =1 ut ( zt • ) zt • Sˆ S22
n
ˆ 2 ˆ
21
Fazendo gˆ t1• = zt1•uˆt e gˆ t2• = zt2•uˆt , tem-se gˆ t • = zt∗•uˆt = [ gˆ t1• gˆ t2• ].
Então,
Gˆ = Gˆ1 Gˆ 2 ,
em que
gˆ 1 gˆ 2
11• 12•
ˆ
g gˆ
Gˆ1 = 2• e Gˆ 2 = 2• .
M M
gˆ n •
1
gˆ n2•
Assim, pode escrever-se
(1 / n)Gˆ T Gˆ (1 / n)Gˆ T Gˆ
1
Sˆ = Gˆ T Gˆ = .
1 1 1 2
Sˆ ˆ
S 22 (1 / n) Z 2 Φ Z1 (1 / n) Z 2 Φ Z 2
T ˆ T ˆ
21
Quando se usam apenas os q1 elementos de zt1• , tem-se, respectivamente,
Capítulo 4 – MRL com Regressores Endógenos 76
é a seguinte:
z t1• = [ 1 expert idadet meduct ] ( q1 = 4) ; zt2• = educt ( q2 = 1) .
Continua a ter-se
xt • = [ 1 educt expert qit ] (k = 4) .
determinados. Um caso especial importante é aquele em que xt• = zt1• . Neste caso, os
regressores são, por hipótese, pré-determinados, e procura-se testar se as variáveis inc-
luídas em zt2• são pré-determinadas ou endógenas.
Nestas condições, o modelo de regressão linear é dado por
(4.83) yt = zt1• β + ut .
obtendo-se
βˆ ( Sˆ −1 )
γˆr ( Sˆ −1 ) = ,
0
onde
βˆ ( Sˆ −1 ) = ( S zT z Sˆ −1S z z ) −1 S zT z Sˆ −1sz y
∗ 1 ∗ 1 ∗ 1 ∗
Tal como se fez no capítulo 3 (secção 3.6), vão estudar-se na presente secção as
implicações da homocedasticidade condicionada no contexto do MRL-REN. Para isso,
começa-se por estabelecer a seguinte hipótese:
βˆ ( Sˆ −1 ) = βˆ{ (σˆ 2 S zz ) −1} = {S zxT (σˆ 2 S zz ) −1 S zx }−1 S zxT (σˆ 2 S zz ) −1 szy = ( S zxT S zz−1 S zx ) −1 S zxT S zz−1 szy ,
que não é mais do que o estimador MQ2P, (4.55); este estimador não depende de σ̂ 2 .
Assim, no caso de homocedasticidade condicionada, o estimador MGM efi-
ciente é o estimador MQ2P,
(4.88) βˆ ( Sˆ −1 ) = βˆ ( S zz−1 ) = βˆ MQ2P .
onde H Z = Z ( Z T Z ) −1 Z T .
O estimador σ̂ 2 pode ser calculado utilizando os resíduos MQ2P. Assim,
1 n Uˆ T Uˆ
(4.91) ∑
σˆ 2 =
n t =1
( y t − xt •
ˆ
β MQ2P ) 2
=
n
,
vai ver-se, quando p − k é muito grande, o estimador MQ2P pode apresentar sérios
problemas em pequenas amostras.
b) Para simplificar, considere-se o modelo yt = β1 + β 2 xt + ut , onde xt é endógeno e zt
é a respectiva variável instrumental. A partir de (4.89), e notando que p = k = 2 , po-
de concluir-se que
σ2
Var a ( βˆ2, VI ) = 2 2 ,
σ x ρ zx
onde σ x2 = Var( xt ) e ρ zx é o coeficiente de correlação entre zt e xt . Obviamente é
desejável que σ 2 seja pequeno, e que σ x2 e ρ zx sejam grandes; também se verifica
que Var a ( βˆ2, VI ) tende para + ∞ , quando ρ zx → 0 (quanto mais fraco é o instrumen-
to, maior é a variância assintótica do estimador VI de β 2 ).
Um estimador consistente desta variância assintótica é dado por
^ nσˆ 2
Var a ( βˆ2, VI ) = ,
VTx Rzx2
onde:
∑
n
uˆ 2
− σˆ 2
= t =1 t
(os ût são os resíduos VI);
n−2
− VTx = ∑t =1 ( xt − x ) 2 ;
n
σ2
Vara ( βˆk , MQ2P ) ≈ .
VTk∗{1 − ( Rk∗ ) 2 }
Neste caso
1 ^ ˆ
s ∗j = Vara ( β MQ2P, j ) = σˆ m∗jj ,
n
onde m∗jj é o elemento de ordem j da diagonal principal de ( X T H Z X ) −1 .
Fica ao cuidado do leitor verificar com um exemplo que os erros padrão resultantes
do 2.º passo do método MQ2P são diferentes dos erros padrão s∗j .
2) Quando a hipótese nula é H 0 : Rβ = δ 0 , tem-se
n ( RβˆMQ2P − δ 0 )T {R ( S zxT S zz−1 S zx) −1 RT }−1 ( RβˆMQ2P − δ 0 ) d 2
(4.93) Q= → χ ( m) ,
σˆ 2
ou
( RβˆMQ2P − δ 0 )T {R ( X T H Z X ) −1 RT }−1 ( RβˆMQ2P − δ 0 ) d 2
Q= → χ ( m) .
σˆ 2
3) Vai estudar-se um caso particular do teste referido em 2). Considere-se o modelo
yt = xt(•1) β•1 + xt(•2 ) β • 2 + ut , onde xt • = [ xt(•1) xt(•2 ) ], com xt(•1) de tipo 1× k1 e xt(•2 ) de tipo
1 × k2 , e β •1 e β • 2 são de tipo k1 × 1 e k2 × 1 , respectivamente ( k1 + k2 = k ). As com-
ponentes dos vectores xt(•1) e xt(•2 ) podem ser regressores pré-determinados ou regres-
sores endógenos (o vector das variáveis instrumentais é zt • ). O teste a efectuar é o
seguinte: H 0 : β • 2 = 0 contra H1 : β• 2 ≠ 0 . Seja ût o resíduo MQ2P, quando se esti-
ma o modelo sem restrições. A respectiva variação residual é VR1 = Σtn=1uˆt2 . Seja
xˆt(•1) e xˆt(•2) os valores ajustados do 1.º passo do método MQ2P (quando se fazem as
regressões MQ de xt(•1) e de xt(•2 ) sobre zt • , respectivamente). Represente-se por
VR1∗ a soma dos quadrados do resíduos da regressão MQ de yt sobre xˆt(•1) e xˆt(•2 ) (2º
passo do método MQ2P sem restrições), e por VR ∗0 a soma dos quadrados dos resí-
duos da regressão MQ de yt sobre xˆt(•1) (2º passo do método MQ2P com restrições).
Pode demonstrar-se que, sob H 0 ,
(VR ∗0 − VR1∗ ) / k2 d
→ F ( k2 , n − k ) .
VR1 /(n − k )
d
(4.94) Q → χ 2 ( m) ,
onde
−1
n g ( βˆMQ2P )T ∇g ( βˆMQ2P )( S zxT S zz−1 S zx) −1 ∇g ( βˆMQ2P )T g ( βˆMQ2P )
Q= ,
σ ˆ 2
ou
−1
g ( βˆMQ2P )T ∇ g ( βˆMQ2P )( X T H Z X ) −1 ∇ g ( βˆMQ2P )T g ( βˆMQ2P )
Q= .
σˆ 2
5) A distância definida em (4.48) reduz-se a
~ ~ ~ ~
~ 2 n ( szy − S zx β )T S zz−1 ( szy − S zx β ) (Y − Xβ )T H Z (Y − Xβ )
(4.95) J {β , (σˆ S zz ) } =
−1
= .
σˆ 2 σˆ 2
Então, a estatística J (de Hansen) é dada por
n ( szy − S zx βˆMQ2P )T S zz−1 ( szy − S zx βˆMQ2P ) Uˆ T H ZUˆ d 2
(4.96) QS = = → χ ( p − k) ,
σˆ 2 σˆ 2
conhecida pelo nome de estatística de Sargan.
Note-se que
QS = n R∗2 ,
onde QS é dado por (4.96), e QSr obtém-se minimizando (4.95) com as restrições
impostas pela hipótese nula H 0 : g ( β ) = 0 ou H 0 : Rβ = δ 0 ; o respectivo estimador
de β designa-se por estimador MQ2P com restrições, β̂ MQ2P r
. Tem-se
n ( szy − S zx βˆMQ2P
r
)T S zz−1 ( szy − S zx βˆMQ2P
r
) Uˆ rT H ZUˆ r
QSr = = ,
σˆ 2 σˆ 2
onde Uˆ r = Y − XβˆMQ2P
r
.
Capítulo 4 – MRL com Regressores Endógenos 85
ˆ ˆ ˆ
U H Z ∗U − U1 H1U1
T T ˆ
= ,
σˆ 2
onde H Z ∗ = Z ∗ ( Z∗T Z ∗ ) −1 Z∗T .
8) Quando todos os regressores são pré-determinados, mas podendo existir em zt •
variáveis pré-determinadas que não são regressores, há uma relação entre a distância
J para o estimador MGM eficiente e a soma dos quadrados dos resíduos. Com efei-
to, considerando (4.95), e notando que H Z X = X , tem-se
~ ~ ~ ~ ~
~ (Y − Xβ )T H Z (Y − Xβ ) Y T H Z Y − 2Y T H Z Xβ + β T X T H Z Xβ
J {β , (σˆ 2 S zz−1 )} = =
σˆ 2 σˆ 2
~ ~ ~
Y T H zY − 2Y T Xβ + β T X T Xβ
=
σˆ 2
~ ~
(Y − Xβ )T (Y − Xβ ) Y T Y − Y T H Z Y
= − ,
σˆ 2 σˆ 2
ou
Capítulo 4 – MRL com Regressores Endógenos 86
~ ~
~ (Y − Xβ )T (Y − Xβ ) (Y − Yˆ )T (Y − Yˆ )
J {β , (σˆ 2 S zz−1 )} = − ,
σˆ 2 σˆ 2
onde Yˆ = H Z Y é o vector dos valores ajustados dados pelo estimador MQ.
~
Como a segunda parcela não depende de β , a minimização de J reduz-se à minimi-
~ ~
zação da soma dos quadrados dos resíduos, (Y − Xβ )T (Y − Xβ ) . Então: o estimador
MGM eficiente de β é o estimador MQ; o estimador MGM eficiente sujeito às res-
trições da hipótese nula é o estimador MQ com as respectivas restrições; obtêm-se
todos os resultados estatísticos já conhecidos do capítulo 3.
Naturalmente, quando não se verifica a hipótese da homocedasticidade condiciona-
da, o estimador MGM eficiente de β não é o estimador MQ.
d
(4.99) n R 2 → χ 2 ( p′′ − k ′′) .
Suponha-se que
xt′• = zt′• = [ 1 educt expert ], xt′′• = qit e zt′′• = [ idadet meduct ].
é semidefinida positiva.
Fazendo (ver anexo 4B)
Capítulo 4 – MRL com Regressores Endógenos 88
Como
^ ^
Cov a ( βˆMQ2P ) = nσˆ 2 ( X T H Z ∗ X ) −1 e Cov a ( βˆMQ2P
1
) = nσˆ 2 ( X T H1 X ) −1 ,
vem
^
(4.100) Cov a ( βˆMQ2P
1
− βˆMQ2P ) = nσˆ 2{( X T H1 X ) −1 − ( X T H Z ∗ X ) −1} .
Para efectuar este teste, supõe-se que está disponível um vector 1 × p de instru-
mentos, zt• , com p ≥ k . Pode, então, utilizar-se (4.98) com as necessárias adaptações.
Neste caso, tem-se
d
D = QS − QS1 → χ 2 (k ′′) ,
(porque cada ztl é ortogonal a ut e a vtj ). Pode supor-se que E (ε t ) = 0 . Então, cada vtj
é ortogonal a ut se e só se δ j = 0 :
E (vtj ut ) = 0 ⇔ δ j = 0 ( j = 1, 2, K , k ) .
Capítulo 4 – MRL com Regressores Endógenos 90
onde ε t é a respectiva variável residual. Nesta equação todos os regressores são pré-de-
terminados, porque E (vt •ε t ) = 0 e E ( xt •ε t ) = E{( xt∗• + vt • )ε t } = 0 . Poderia, então, testar-
-se a hipótese H 0 : δ = 0 , através do respectivo rácio-F. Note-se que, sob H 0 , ut = ε t .
Mas, como os vtj não são observáveis, deve aplicar-se o método dos mínimos
quadrados às equações (4.101) de forma a calcular os respectivos resíduos MQ, v̂tj .
Então, passa a considerar-se a equação de regressão
(4.102) yt = xt • β + vˆt •δ + ε t′ ,
onde vˆt• = [ vˆt1 vˆt 2 L vˆtk ] , que deve ser estimada pelo método MQ [quando um dos
regressores, xtj , é, por hipótese, pré-determinado, da respectiva regressão MQ vem
vˆtj = 0 , e este regressor não aparece em (4.102)]. A introdução dos regressores gera-
dos, v̂tj , não afecta a consistência dos estimadores MQ na regressão (4.102), e não afec-
ta os resultados clássicos da inferência estatística, uma vez que a hipótese nula estabele-
ce que δ = 0 . Assim, O teste de H 0 : δ = 0 é feito usando o respectivo rácio-F [quando
há heterocedasticidade condicionada, o teste é feito calculando, de acordo com o prin-
cípio de Wald, a respectiva estatística Q que resulta de (3.47)]. Se se rejeitar H 0 , con-
clui-se que pelo menos um regressor é endógeno.
O teste referido é conhecido pela designação de teste de Wu-Hausman. Em re-
sumo, a respectiva mecânica é a seguinte:
1) Fazer a regressão MQ de cada regressor xtj , que se presume ser endógeno, sobre zt • ,
com vista a obter os respectivos resíduos MQ, v̂tj .
2) Fazer a regressão MQ de yt sobre xt • e os resíduos v̂tj , obtidos em 1), para testar,
utilizando o rácio-F, a nulidade conjunta dos coeficientes destes resíduos. Se esta hi-
pótese for rejeitada, há pelo menos um regressor endógeno.
Como
xt • = [ 1 educt expert qit ] ( k ′ = 3 ; k ′′ = 1 ),
zt • = [ 1 educt expert idadet meduct ] ( p′ = 3 ; p′′ = 2 ),
PALAVRAS-CHAVE
Condição de característica Método dos mínimos quadrados em dois
passos (MQ2P)
Condição de ordem Método generalizado dos momentos
Consistência Modelo de procura e oferta
Diferença-martingala Modelo de regressão linear com regresso-
res endógenos (MRL-REN)
Efeito parcial (médio) Modelo macroeconómico simples
Enviesamento da endogeneidade MRL sobre-parametrizado
Enviesamento da simultaneidade MRL sub-parametrizado
Enviesamento das variáveis omitidas Multicolinearidade
Enviesamento de erros nos regressores Normalidade assintótica
Equação estimável Omissão de variáveis
Equação estrutural Ortogonalidade
Erro de amostragem Previsor
Erro de medida no regressando Princípio da razão de verosimilhanças
Erro de medida num regressor Princípio de Wald
Erro de previsão Princípio MGM de Hausman
Erro padrão heterocedástico-consistente Princípio dos mínimos quadrados (linear)
Erro quadrático médio da previsão Programa de avaliação
Estacionaridade ergódica Projecção linear MQ
Estatística de Hausman Rácio-t robusto
Estatística de Sargan Redundância
Estimador de grupos Regra da projecção linear MQ iterada
Estimador de variáveis instrumentais Regressão de tipo I
Estimador MGM (eficiente) Regressão de tipo II
Estimador MQ2P Regressor endógeno
Experiência natural Regressor gerado
Forma reduzida Regressor pré-determinado
Função de consumo microeconómica Resíduo da projecção linear MQ
Função de produção microeconómica Shifter da oferta (observável)
Heterocedasticidade condicionada Shifter da procura (observável)
Homocedasticidade condicionada Sobre-identificação
Hipótese clássica dos erros nas variáveis Sub-identificação
Hipótese do rendimento permanente Teste de adição de variáveis
Identificação (exacta) Teste de endogeneidade
Indicador Teste de Hausman
Inferência estatística Teste de hipóteses não lineares
Inferência estatística sobre combinações Teste de sobre-identificação (de Hansen)
lineares de coeficientes de regressão
Inferência estatística sobre um coeficiente Teste de um subconjunto de condições de
de regressão isolado ortogonalidade
Capítulo 4 – MRL com Regressores Endógenos 94
PALAVRAS-CHAVE
Interacção Teste de Wu-Hausman
Invariância Variável instrumental
Linearidade Variável proxy (imperfeita)
Método das variáveis instrumentais
Capítulo 4 – MRL com Regressores Endógenos 95
PERGUNTAS DE REVISÃO
40. Considere um modelo de regressão linear com regressores endógenos. Seja k o nú-
mero de regressores e p o número de instrumentos. Quais as relações que se de-
vem verificar entre k e p para aplicar o método VI e o método MQ2P, respectiva-
mente.
41. Considere a relação amostral, Y = Xβ + U , associado ao modelo de regressão
linear, onde X é a matriz dos regressores de tipo n × k . Supondo que pelo menos
um dos regressores é endógeno, seja Z a matriz das variáveis instrumentais de tipo
n × p . Escreva, com a notação matricial, a relação amostral correspondente ao
segundo passo do método MQ2P, e a relação entre os vectores das variáveis re-
siduais desta relação e da relação original.
42. Considere o modelo yt = xt • β + ut onde os dados são seccionais, xt • é o vector
1 × k dos regressores e zt • é o vector 1× p das variáveis instrumentais. A que
condições deve obedecer a matriz E ( ztT• zt • ) para garantir que o estimador MQ2P
de β seja consistente.
43. Considere o seguinte modelo de equações simultâneas:
yt1 = α1 yt 2 + α 2 xt1 + α 3 xt 2 + α 4 xt 4 + ut1
yt 2 = β1 yt1 + β 2 xt 2 + β 3 xt 3 + ut 2 .
Escreva as expressões das variáveis residuais da forma reduzida em função das
variáveis residuais da forma estrutural.
44. Considere o seguinte modelo de equações simultâneas:
yt1 = α1 yt 2 + α 2 xt1 + α 3 xt 2 + ut1
yt 2 = β1 yt1 + β 2 xt 2 + β 3 xt 3 + ut 2 .
Indique as duas regressões que deve efectuar para estimar, pelo método MQ2P, os
coeficientes da primeira equação.
45. Indique um estimador consistente da matriz S = E (ut2 ztT• zt • ) .
46. Considere o MRL-REN, yt = xt • β + ut . Prove a consistência dos estimadores
MGM do vector dos coeficientes de regressão.
47. Considere o MRL-REN, yt = xt • β + ut . Demonstre o resultado que permite afir-
mar que os estimadores MGM do vector dos coeficientes de regressão são assinto-
ticamente normais.
48. Considere o MRL-REN, yt = xt• β + ut . Seja zt • o vector das variáveis instrumen-
tais, e considere os produtos ztT• ut . Indique um estimador consistente da matriz
das covariâncias assintóticas da média amostral daqueles produtos.
49. Considere o MRL-REN yt = xt • β + ut . A família dos estimadores MGM de β é
indexada pela matriz de pesos, Ŵ , simétrica definida positiva. Qual é a matriz Ŵ
no caso do estimador MGM eficiente?
50. Considere o MRL-REN, yt = xt • β + ut , onde xt• é o vector 1 × k dos regressores
e zt • é o vector 1× p das variáveis instrumentais. Indique um estimador consis-
tente da matriz das covariâncias assintóticas do estimador MGM eficiente do vec-
tor dos coeficientes de regressão.
Capítulo 4 – MRL com Regressores Endógenos 100
SISTEMAS DE EQUAÇÕES
DE REGRESSÃO LINEAR
Este capítulo tem por objectivo generalizar o estudo efectuado no capítulo 4 con-
siderando um modelo econométrico constituído por várias equações de regressão li-
near, e onde o método de estimação dos parâmetros ainda é o método generalizado
dos momentos (MGM).
Desta forma, considere-se o modelo da população,
(5.1) yti = β1i xti1 + β 2i xti 2 + L + β kii xtiki + uti (i = 1, 2, K , m ; t ∈ T ) ,
onde:
− yti é a observação t do regressando yi (há uma equação para cada regressando);
− xtij é a observação t do regressor xij ( j = 1, 2, K , ki ) ; a equação i tem ki regressores;
− β ji é o coeficiente de regressão de xij (os coeficientes podem variar de equação
para equação, mas não de observação para observação, dentro da mesma equação);
− uti é a variável residual da observação t da equação i.
Nota: o índice t tanto pode designar uma observação temporal como uma observa-
ção seccional; o índice i refere-se à equação i, ou ao regressando da equação i.
Fazendo
β1i
β
] e β •i = ,
2i
xti • = [ xti1 xti 2 L xtiki
M
β k i i
o modelo (5.1) pode ser apresentado com a notação seguinte (notação A):
(5.2) yti = xti• β •i + uti (i = 1, 2, K , m ; t ∈ T ) .
Deste modo:
− xti• é o vector 1× ki da observação t dos regressores da equação i; o elemento genéri-
co deste vector é xtij ( j = 1, 2, K , ki ) .
Capítulo 5 – Sistemas de Equações de Regressão Linear 2
O modelo (5.1) pode, ainda, ser formalizado de outro modo (notação B):
(5.3) ytT• = X t • β + utT• (t ∈ T ) ,
onde
yt • = [ yt1 yt 2 L ytm ], ut • = [ ut1 ut 2 L utm ],
xt1• 0 L 0 β •1
0 x 0 β
t 2• L
X t• = e β = •2 .
M M M M
0 0 L xtm • β• m
Assim:
− yt • é o vector de tipo 1 × m da observação t dos regressandos; o elemento genérico
deste vector é yti ( i = 1, 2, K , m );
− ut • é o vector 1 × m das variáveis residuais relativas observação t; o elemento genéri-
co deste vector é uti ( i = 1, 2, K , m );
− X t • é a matriz m × k ( k = k1 + k2 + L + km ), diagonal por blocos, formada pelos m
blocos xti • ( i = 1, 2, K , m );
− β é o vector k × 1 , formado pelos m subvectores β•i ( i = 1, 2, K , m ).
onde:
y1i x1i • x1i1 x1i 2 L x1ik i u1i
y x x x L x u
y•i = 2 i , X •i = 2 i • =
2 ik i
e u•i = 2i .
2 i1 2i 2
M M M M M M
y ni xni • xni1 xni 2 L xnik i uni
Logo:
− y•i é o vector n × 1 (de elemento genérico yti ) das observações do regressando yi
( i = 1, 2, K , m ).
Capítulo 5 – Sistemas de Equações de Regressão Linear 3
As m equações, dadas por (5.5), podem ser agrupadas numa única expressão matri-
cial da forma (5.4), onde:
y•1 X •1 O L O u•1
y O X •2 L O u
Y= •2
, X = e U = •2 .
M M M M M
y• m O O L X •m u• m
Assim:
− Y é o vector mn × 1 , formado pelos m subvectores y•i ( i = 1, 2, K , m );
− X é a matriz diagonal por blocos, de tipo mn × k , formada pelos m blocos X •i
( i = 1, 2, K , m );
− U é o vector mn × 1 , formado pelos m subvectores u•i ( i = 1, 2, K , m ).
b) Notação B. Quando se consideram as n relações (5.3), para t = 1, 2, K , n , ainda se
tem uma relação amostral na forma (5.4), onde
y1T• X 1• u1T•
T X T
y2 • u
Y= , X= 2•
e U = 2• .
M M M
T T
yn • X n• un •
Assim:
− Y é o vector mn × 1 , formado pelos n subvectores ytT• ( t = 1, 2, K , n );
− X é a matriz de tipo mn × k , formada pelos m blocos X t • ( t = 1, 2, K , n );
− U é o vector mn × 1 , formado pelos m subvectores utT• ( t = 1, 2, K , n ).
No anexo 5A faz-se uma sistematização dos vários tipos de modelos com várias
equações de regressão, apresentando-se a formalização desses modelos e descrevendo-
-se as estruturas matriciais respectivas, quer para os modelos da população quer para as
Capítulo 5 – Sistemas de Equações de Regressão Linear 4
relações amostrais correspondentes (ver quadros 5A.1 a 5A.4). A consulta destes qua-
dros deve ser uma preocupação constante ao longo da leitura do presente capítulo, so-
bretudo quando forem introduzidos os casos particulares do modelo (5.2) [ou (5.3)].
Exemplo 5.1 – Retome-se o exemplo 4.3 (ver capítulo 4), onde se considerou a seguinte
equação estimável:
lsalart = β11 + β 21 educt + β 31 expert + β 41 qit + ut1 .
β11
β β12
β •1 = ; β • 2 = β 22 .
21
β 31
β32
β 41
Quando se apresenta o modelo na forma (5.3), resulta:
yt • = [ lsalart cmtt ] ; ut • = [ ut1 ut 2 ] ;
M M M M M M M M M
lsalarn u 1 educn expern qin 0 0 0
Y = ; U = n1 ; X = .
cmt1 u12 0 0 0 0 1 educ1 qi1
cmt2 u22 0 0 0 0 1 educ2 qi2
M M M M M M M M M
cmtn un 2 0 0 0 0 1 educn qin
Exemplo 5.2 – Suponha-se que num painel de dados sobre trabalhadores existem obser-
vações para dois anos (anos 1 e 2) sobre as variáveis salar, educ, qi e exper. Pode, en-
tão, considerar-se o seguinte modelo:
lsalar1t = β11 + β 21 educ1t + β 31 exper1t + β 41qit + ut1
lsalar 2t = β12 + β 22 educ 2t + β 32 exper 2t + β 42 qit + ut 2 ,
onde
lsalar1t - logaritmo do salário do indivíduo t no ano 1;
lsalar 2t - logaritmo do salário do indivíduo t no ano 2;
educ1t - anos completos de escolaridade do indivíduo t no ano 1;
educ 2t - anos completos de escolaridade do indivíduo t no ano 2;
exper1t - anos de experiência profissional do indivíduo t no ano 1;
exper 2t - anos de experiência profissional do indivíduo t no ano 2;
qit - QI do indivíduo t.
Tem-se: m = 2 ; k1 = k2 = 4 .
Para a notação (5.2) do modelo, faz-se:
yt1 = lsalar1t ; yt 2 = lsalar 2t ;
xt1• = [ 1 educ1t exper1t qit ]; xt 2• = [ 1 educ 2t exper 2t qit ] ;
Capítulo 5 – Sistemas de Equações de Regressão Linear 6
β11 β12
β β
β •1 = 21
; β• 2 = 22 .
β 31 β32
β 41 β 42
No caso de (5.3), tem-se:
yt • = [ lsalar1t lsalar 2t ] ; ut • = [ ut1 ut 2 ] ;
Exemplo 5.3 – Os sistemas de equações de regressão linear podem ter lugar em muitos
modelos da teoria económica. Na teoria do comportamento do consumidor, o decisor
dispõe de um determinado rendimento monetário, rm, e defronta um conjunto de preços
de r bens, p1 , p2 , K , pr . A hipótese da maximização da utilidade permite obter um
conjunto de funções de procura,
qi = f i ( p1 , p2 , K , pr , rm) ,
obtém-se
ai bi rmbi pi− bi −1 exp{ε i }
qi = ( i = 1, 2, K , r ),
∑h =1 ah bh rmbh −1 ph−bh
m
rm rm
ln di − ln d j = α ij + bi ln − b j ln + uij ( i ≠ j ),
pi pj
onde
ai bi
α ij = ln e uij = ε i − ε j .
a b
j j
Dados r bens, há r (r − 1) / 2 equações desta forma, mas muitas são redundantes.
Para ilustrar tais redundâncias, sejam três bens e as respectivas equações:
rm rm
ln(d1 ) − ln(d3 ) = α13 + b1 ln − b3 ln + u13 ;
p1 p3
rm rm
ln(d 2 ) − ln(d3 ) = α 23 + b2 ln − b3 ln + u23 ;
p2 p3
rm rm
ln(d1 ) − ln(d 2 ) = α12 + b1 ln − b2 ln + u12 .
p1 p2
Facilmente se verifica que, por exemplo, a terceira equação é igual à diferença
das duas primeiras, bastando notar que α12 = α13 − α 23 e que u12 = u13 − u23 .
Considerando r bens, existem apenas r − 1 equações independentes. Como a es-
colha destas equações é arbitrária, vai considerar-se o seguinte sistema:
rm rm
ln(d1 ) − ln(d r ) = α1r + b1 ln p − br ln p + u1r
1 r
rm rm
ln(d 2 ) − ln(d r ) = α 2 r + b2 ln p − br ln p + u2 r
2 r
L
rm rm
ln(d r −1 ) − ln(d r ) = α r −1, r + br −1 ln p − br ln p + ur −1, r .
r −1 r
Introduzindo o índice t das observações, este modelo pode apresentar-se na for-
ma (5.2). Fazendo r −1 = m , tem-se, para i = 1, 2, K , m ,
α ir
rmt rmt
yti = ln(dti ) − ln(dtr ) , xti • = 1 ln − ln ( ki = 3 ), β •i = bi , uti = utir .
p
ti p
tr
br
Nesta secção vão estabelecer-se as hipóteses do modelo em estudo, que não são
mais do que a extensão para o caso de m equações, das hipóteses REN.1 a REN.5 apre-
sentadas no capítulo 4; neste caso, as hipóteses têm o prefixo SER (sistema de equações
de regressão linear).
A primeira hipótese é o resumo das considerações feitas na secção anterior.
Note-se que a hipótese da linearidade foi a apresentada com base em (5.2), mas
podia ser enunciada a partir da notação (5.3).
A segunda hipótese diz respeito à estacionaridade ergódica. Seja
zti• = [ zti1 zti 2 L ztipi ]
é estacionário e ergódico.
Esta hipótese é mais forte do que simplesmente supor que a estacionaridade er-
gódica é verificada para cada equação do sistema [cada processo ( 1 + ki + pi )-dimensio-
nal, {( yti , xti • , zti • ) : t ∈ T } , é estacionário e ergódico].
Capítulo 5 – Sistemas de Equações de Regressão Linear 9
Como pode haver elementos comuns no vector dado por (5.6), é vantajoso utili-
zar o vector wt • , que não considera os elementos repetidos daquele vector.
Na sequência da notação (5.3) do modelo SER, pode considerar-se a matriz Z t •
de tipo m × p , diagonal por blocos, formada pelos m blocos zti • ( i = 1, 2, K , m ),
zt1• 0 L 0
0 z 0
t 2• L
Zt • = .
M M M
0 0 L ztm •
Exemplo 5.4 – Retomando o exemplo 5.1, suponha-se que qit é endógeno, em ambas
as equações, e que os restantes regressores são pré-determinados. Admita-se que a va-
Capítulo 5 – Sistemas de Equações de Regressão Linear 10
M M M M M M M M
1 educ n expern meduc n 0 0 0 0
Z = .
0 0 0 0 1 educ1 exper1 meduc1
0 0 0 0 1 educ 2 exper2 meduc 2
M M M M M M M M
0 0 0 0 1 educ n expern meduc n
Exemplo 5.5 – Suponha-se que no exemplo 5.2 o vector dos instrumentos de cada equa-
ção é formado pelo conjunto de todos os regressores considerados nos vectores xt1• e
xt 2• . Assim,
zt1• = zt 2• = [ 1 educ1t exper1t educ2t exper 2t qit ].
Capítulo 5 – Sistemas de Equações de Regressão Linear 11
ou seja, a matriz dos segundos momentos (não condicionados) de ut • , se existir, não de-
pende de t. Os elementos da matriz Σ são da forma E (utiutl ) = σ il . Por exemplo, para
m = 2 , vem
E (ut21 ) E (ut1ut 2 ) σ 11 σ 12
E (utT•ut • ) = Σ = = .
E (ut 1ut 2 ) E (ut
2
2 ) σ 12 σ 22
Assim, quando i ≠ l , admite-se que podem existir correlações entre variáveis re-
siduais para a mesma observação t, mas para equações diferentes (no caso de dados
temporais, diz-se que estas correlações são contemporâneas).
Exemplo 5.6 – Retome-se o exemplo 5.3. Suponha-se que o vector dos instrumentos de
cada equação é formado pelo conjunto de todos os regressores considerados no sistema.
Assim,
rm rm rmt rm
zti • = 1 ln t ln t L ln − ln t ( i = 1, 2, K , m = r − 1 ).
pt1 pt 2 pt , r −1 ptr
Neste caso, tem-se ut • = [ ut1 ut 2 L utm ], onde uti = ε ti − ε tr . Os elementos da
matriz Σ são dados por:
σ ii = E (uti2 ) = E{(ε ti − ε tr ) 2 }
( i = 1, 2, K , m = r − 1 );
= E (ε ti2 ) + E (ε tr2 ) − 2 E (ε tiε tr )
σ il = E (utiutl ) = E{(ε ti − ε tr )(ε tl − ε tr )}
( i, l = 1, 2, K , m = r − 1; i ≠ l ).
= E (ε tiε tl ) − E (ε tiε tr ) − E (ε tlε tr ) + E (ε tr2 )
onde ut • Z t • = gt • .
A hipótese SER.3 é a hipótese mais fraca de não correlação entre variáveis ins-
trumentais e variáveis residuais; nem sequer exige ortogonalidades “cruzadas” (não es-
tabelece, por exemplo, que zt1• é ortogonal a ut 2 ). Podem estabelecer-se hipóteses mais
fortes do que SER.3:
1) E ( zti •utl ) = 0 (i, l = 1, 2, K , m) . Esta hipótese admite que existam ortogonalidades en-
tre cada variável instrumental e cada variável residual para a mesma equação e para
equações diferentes (intra-equações e inter-equações).
De forma resumida, aquelas mp condições podem escrever-se da seguinte maneira:
E (utT• ⊗ Z t • ) = O ,
É imediato concluir que estas condições são sucessivamente mais fortes. No en-
tanto, a hipótese SER.3 é suficiente para estabelecer as propriedades assintóticas de-
sejáveis dos estimadores MGM dos parâmetros do modelo: consistência e normalidade
assintótica.
Capítulo 5 – Sistemas de Equações de Regressão Linear 13
Note-se que, como zt1• e zt 2• têm os mesmos instrumentos, cada um deles é or-
togonal a ut1 e ut 2 (por exemplo, expert é ortogonal a ut1 e ut 2 ).
∇
ou
E ( ztT1• yt1 ) E ( ztT1• xt1• ) O L O β •1
β•2 .
T T
E ( zt 2• yt 2 ) O E ( zt 2• xt 2• ) L O
E ( gtT• ) = −
M M M M M
• xtm • ) β • m
T T
E ( ztm • ytm ) O O L E ( ztm
E ( ztT1• xt1• ) O L O
O E ( ztT2• xt 2• ) L O = E (Z T X ) ,
Qzx =
M M M t• t•
O O T
L E ( ztm • xtm • )
onde se pode fazer qzi yi = E ( ztiT• yti ) e Qzi xi = E ( ztiT• xti • ) . As condições de ortogonalidade,
equivalentes a (5.8), são
(5.9) Q zx β = q zy ,
Esta hipótese corresponde a exigir REN.4 (ver capítulo 4) para cada equação de
regressão do sistema, e é simples de estabelecer porque não se impõem quaisquer restri-
ções inter-equações a priori sobre os coeficientes de regressão.
No quadro 5A.5 sistematizam-se as estruturas matriciais que envolvem segun-
dos momentos com variáveis observáveis, como é o caso das matrizes Qzi xi , Qzx , q zi yi e
q zy .
Finalmente vai apresentar-se a quinta hipótese (hipótese homóloga a REN.5),
que estabelece o comportamento estocástico do processo {gt • } .
onde Ea ( g• n ) = 0 e Cov a ( g• n ) = S .
Note-se que
1 n T 1 n T T
n ∑t =1 t • n ∑t =1 t • t •
g• n = g = Z u
n .
M M M M M M
0 (1 / n)
∑t =1 ztmT •utm (1 / n)Z•Tmu•m
n
• utm
T
0 L ztm
Deste modo,
1 T
g• n = Z U,
n
onde Z TU pode ser obtido com as notações A ou B correspondentes a (5.4) e respecti-
vas matrizes Z.
A sistematização das estruturas matriciais relativas aos quartos momentos com
duas variáveis residuais e dois instrumentos é apresentada no quadro 5A.11, como é o
caso das matrizes Sil e S.
Capítulo 5 – Sistemas de Equações de Regressão Linear 16
E (uniu1l ) E (uniu2 l ) L E (uniunl ) 0 0 L σ il
para i, l = 1, 2, K , m , uma vez que E (utiutl ) = σ il e E (utiusl ) = 0 ( t ≠ s ).
Quando se considera o vector U com a notação B de Y = Xβ + U ,
u1T•
T
u
U = 2• ,
M
T
un •
tem-se:
u1T• u1T•u1• u1T•u2• L u1T•un •
T T
u2 • u2•u1• u2T•u2• L u2T•un •
UU = [u1•
T
u2 • L un • ] =
M M M M
un • un •u1• unT•u2• L unT•un •
T T
e
Capítulo 5 – Sistemas de Equações de Regressão Linear 17
onde
βˆ (Wˆ ) Wˆ Wˆ L Wˆ
•1 11 12 1m
βˆ (Wˆ ) Wˆ Wˆ L Wˆ
βˆ (Wˆ ) = e Wˆ = 21 .
•2 22 2m
M M M M
βˆ• m (Wˆ ) Wˆ m1 Wˆ m 2 L Wˆ mm
A matriz Ŵ , quadrada de ordem p, é simétrica definida positiva [cada bloco,
Ŵil , é de tipo pi × pl ; tem-se plim(Wˆil ) = Wil ].
Nos quadros 5A.9 e 5A.10 apresenta-se a lista dos estimadores que vão ser es-
tudados no presente capítulo, que são casos particulares do estimador MGM. Nestes
quadros sistematizam-se as hipóteses básicas subjacentes aos vários estimadores e refe-
rem-se os modelos da população respectivos.
No quadro 5A.13 faz-se a lista das referências das fórmulas dos estimadores
contemplados no presente capítulo, apresentando as respectivas matrizes de pesos, Ŵ .
Retomando a estrutura do estimador (5.15), facilmente se verifica que o bloco
genérico de S zxT Wˆ S zx é a matriz ki × kl , dada por
1 n 1 n 1 1
S zTi xi Wˆil S z l xl = ∑t =1 xtiT• zti • Wˆil ∑t =1 ztTl • xtl • = X •Ti Z •i Wˆil Z •Tl X •l ,
n n n n
para i, l = 1, 2, K , m . Do mesmo modo, o bloco genérico de S zxT Wˆ szy é
Capítulo 5 – Sistemas de Equações de Regressão Linear 19
onde W = plim(Wˆ ) , Qzx é a matriz diagonal por blocos referida em (5.9), e S é dada por
(5.13). A propriedade 4.3 não se pode aplicar directamente ao modelo com várias equa-
ções de regressão linear, mas a sua adaptação é óbvia. Assim, dispondo de um estima-
dor consistente de β•i , β̂•i , e definindo os respectivos resíduos, uˆti = yti − xti• β̂ •i , vem:
onde
1 n
n ∑t =1 ti tl
σˆ il = uˆ uˆ e σ il = E (utiutl ) ,
é uma matriz n × pi (i = 1, 2, K , m) , e
Gˆ = Gˆ1 Gˆ 2 L Gˆ m
é uma matriz n × p . Assim, cada bloco da matriz Ŝ é dado por:
1 n 1 n 1
Sˆil = ∑t =1 uˆtiuˆtl ztiT• ztl • = ∑t =1 gˆ tiT• gˆ tl • = Gˆ iT Gˆ l .
n n n
Pode, então, enunciar-se o seguinte:
onde
1 ^ ˆ ˆ
s ∗ji = Vara {β ji (W )}
n
Do mesmo modo se têm resultados similares a (4.67) e (4.68) para efectuar in-
ferência estatística sobre combinações lineares dos coeficientes de regressão. Supo-
nha-se se pretende testar H 0 : Rβ = δ 0 contra H 1 : Rβ ≠ δ 0 , onde R é uma matriz de ti-
po r × k . A estatística-teste, obtida de acordo com o princípio de Wald, é dada por
−1
^ d
(5.24) Q = n {Rβˆ (Wˆ ) − δ 0 }T R Cov a {βˆ (Wˆ )} RT {Rβˆ (Wˆ ) − δ 0 } → χ 2 (r ) .
Deve notar-se que (5.24) permite fazer testes de hipóteses de restrições lineares
inter-equações sobre os coeficientes de regressão.
Quando a hipótese a testar não é linear, a estatística-teste é dada por um resul-
tado semelhante a (4.69).
Quando se utiliza o princípio da razão de verosimilhanças, as estatísticas-teste
baseiam-se em resultados análogos ao teorema 4.4.
O estimador MGM eficiente é ainda obtido substituindo Ŵ por Sˆ −1 em (5.15),
obtendo-se um resultado semelhante a (4.71) [ver teorema 4.3],
(5.25) βˆ ( Sˆ −1 ) = ( S zxT Sˆ −1 S zx )−1 S zxT Sˆ −1 szy = { X T Z (Gˆ T Gˆ ) −1 Z T X }−1 X T Z (Gˆ T Gˆ )−1 Z T Y .
e
^
(5.27) Cov a {βˆ ( Sˆ −1 )} = ( S zxT Sˆ −1 S zx) −1 = n{ X T Z (Gˆ T Gˆ ) −1 Z T X }−1 ,
onde o estimador inicial, β̂•i , necessário para calcular ûti e Ŝ , pode ser obtido, por
exemplo, a partir do estimador MGM eficiente aplicado a cada equação separadamente.
No modelo SER, o teste de sobre-identificação de Hansen baseia-se ainda no
teorema 4.5, aplicando-se o resultado (4.79) com as necessárias adaptações. Assim, vem
d
J = J {βˆ ( Sˆ −1 ), Sˆ −1} = n {szy − S zx βˆ ( Sˆ −1 )}T Sˆ −1{szy − S zx βˆ ( Sˆ −1 )} → χ 2 ( p − k ) ,
onde p = p1 + p2 + L + pm e k = k1 + k2 + L + km .
Do mesmo modo, para fazer o teste de um subconjunto de condições de orto-
gonalidade (ou de endogeneidade), recorre-se ao teorema 4.6, utilizando-se a estatísti-
ca D dada por (4.82); o número de graus de liberdade é igual ao número total de instru-
mentos submetidos a teste (considerando as várias equações).
O estimador MGM de β , dado por (5.15), tira partido de toda a informação dis-
ponível, nomeadamente da estrutura da matriz Ŵ , referida na secção 5.3. Pode, no en-
tanto, comparar-se esta estimação conjunta dos β•i (i = 1, 2, K , m) com a estimação
Capítulo 5 – Sistemas de Equações de Regressão Linear 23
Fazendo
Wˆ11 O L O
ˆ O Wˆ22 L O
WD = ,
M M M
O O L Wˆmm
ou
( X •T1Z •1Wˆ11 Z •T1 X •1 ) −1 X •T1Z •1Wˆ11 Z •T1 y•1
( X • 2 Z • 2Wˆ22 Z • 2 X • 2 ) X • 2 Z • 2Wˆ22 Z • 2 y• 2
T T −1 T T
ˆ ˆ
β (WD ) =
M .
( X •Tm Z • m Wˆmm Z •Tm X • m ) −1 X •Tm Z • mWˆmm Z •Tm y• m
e
^
Cov a {βˆ (Wˆ D )} = ( S zxT Wˆ D S zx) −1 S zxT Wˆ D Sˆ Wˆ D S zx( S zxT Wˆ D S zx) −1
.
T ˆ T T ˆ ˆ T ˆ ˆ
= n( X Z WD Z X ) X Z WD G G WD Z X ( X Z WD Z X ) .
−1 T T ˆ T −1
Então,
^
Cov a {βˆ ( SˆD−1 )} = ( S zxT SˆD−1 S zx) −1 S zxT SˆD−1 Sˆ SˆD−1 S zx( S zxT SˆD−1 S zx) −1
= n{ X T Z (Gˆ T Gˆ ) −1 Z T X }−1 X T Z (Gˆ T Gˆ ) −1 Gˆ T Gˆ
D D D D
é semidefinida positiva, admitindo que foram usados os mesmos resíduos para calcular
Ŝ D e Ŝ (no teorema 4.3, capítulo 4, obteve-se um resultado semelhante; a verificação
do presente resultado é meramente algébrica, seguindo os mesmos passos da demonstra-
ção daquele teorema).
A relação anterior entre as duas matrizes estimadoras das covariâncias assintóti-
cas garante que os erros padrão do estimador MGM eficiente conjunto não são maiores
que os respectivos erros padrão do estimador MGM eficiente separado (recorde-se que
Capítulo 5 – Sistemas de Equações de Regressão Linear 25
os erros padrão são obtidos dividindo por n os elementos da diagonal principal daquelas
matrizes, e calculando a seguir as respectivas raízes quadradas).
Existem duas situações em que os estimadores (5.15) e (5.29) são “equivalen-
tes”. A primeira, corresponde ao caso em que cada equação do modelo é exactamente
identificada ( ki = pi ). Nestas circunstâncias, a matriz S zx é quadrada, e o estimador
MGM reduz-se ao estimador VI, qualquer que seja a matriz dos pesos (ver a subsecção
da secção 5.6 sobre o estimador SVI). Então,
βˆ (Wˆ ) = βˆ (Wˆ D ) .
Se pelo menos uma das equações é sobre-identificada, a escolha da matriz dos
pesos afecta o valor numérico do estimador MGM. No entanto, é possível descrever
uma situação em que a estimação conjunta e a estimação separada dão resultados assin-
toticamente equivalentes. Com efeito, seja βˆ ( Sˆ −1 ) o estimador MGM eficiente de β ,
dado por (5.25), que obviamente é um estimador conjunto. Suponha-se, também, que se
dispunha de um estimador MGM eficiente, separadamente para cada equação do mode-
lo, βˆ•i (Wˆii ) , onde
plim(Wˆii ) = E (uti2 ztiT• zti • ) −1 .
Em qualquer dos dois casos atrás referidos, não há vantagem em fazer a estima-
ção conjunta, podendo mesmo afirmar-se que a estimação separada pode dar melhores
resultados em pequenas amostras.
Em geral (excepto nas duas situações referidas), a estimação conjunta é assinto-
ticamente mais eficiente; mesmo no caso em que apenas se está interessado em estimar
uma equação isolada, há ganhos de eficiência na estimação conjunta.
No entanto, esta estimação apresenta alguns inconvenientes práticos. Por um
lado, a qualidade dos estimadores dos coeficientes de uma dada equação, no caso de
amostras pequenas, pode melhorar fazendo-se a estimação separada. Por outro lado, os
resultados assintóticos pressupõem que o modelo está correctamente especificado, isto
é, verificam-se as hipóteses do modelo. Quando há erros de especificação (cuja possibi-
lidade de ocorrência aumenta quando se juntam mais equações ao sistema), nem sequer
a consistência dos estimadores está garantida.
Para ilustrar este aspecto, suponha-se que a hipótese SER.3 não é satisfeita por-
que as condições de ortogonalidade não se verificam para a última equação do modelo:
E ( ztm •utm ) ≠ 0 ; esta situação pode ocorrer quando é omitido um regressor importante.
Nestas circunstâncias, os estimadores de todos os coeficientes do modelo (da equação m
e das outras) podem ser inconsistentes.
Com efeito, considere-se o erro de amostragem (5.16), onde o último bloco de
g •n não é nulo,
1 n T
plim ∑t =1 ztm •utm = E ( ztm •utm ) ≠ 0 .
T
n
Como plim(S zx ) = Qzx e plim(Wˆ ) = W , o enviesamento assintótico é dado por
0
0
plim βˆ (Wˆ ) − β = (QzxT W Qzx ) −1 QzxT W .
M
T
E ( ztm •utm )
Como W e (QzxT W Qzx ) −1 QzxT W não são diagonais por blocos, qualquer elemento
de plim{βˆ (Wˆ )} − β pode ser diferente de zero.
Supondo, para facilitar, que m = 2 , tem-se:
plim βˆ•1 (Wˆ ) − β •1
plim{βˆ (Wˆ )} − β =
ˆ ˆ
plim β• 2 (W ) − β • 2
−1
E ( xtT1• zt1• ) O W11 W12 E ( ztT1• xt1• ) O
=
O E ( xt 2• zt 2• ) W21 W22
T
O T
E ( zt 2• xt 2• )
E ( xtT1• zt1• ) O W11 W12 0
× T ,
O E ( x T
z ) W
t 2 • t 2 • 21 W 22 E ( z u )
t 2• t 2
ou
Capítulo 5 – Sistemas de Equações de Regressão Linear 27
−1
E ( xtT1• z t1• ) W11 E ( z tT1• xt1• ) E ( xtT1• z t1• ) W12 E ( z tT2• xt 2• )
plim{βˆ (Wˆ )} − β =
E ( x T z ) W E ( z T x ) E ( x T z ) W E ( z T x )
t 2 • t 2• 21 t1• t1• t 2• t 2 • 22 t 2 • t 2•
E ( xtT1• z t1• ) W12 E ( z tT2• u t 2 )
× T T .
E ( x z
t 2 • t 2• ) W 22 E ( z u )
t 2• t 2
Nesta secção vão estudar-se alguns casos particulares do estimador MGM dado
por (5.15).
Estimador SMQ
Quando se supõe que todos os regressores de cada equação do modelo (5.2) são
pré-determinados, E ( xti •uti ) = 0 [ou E (ut • X t • ) = 0 ], tem-se: zti • = xti • , p = k , Z = X ,
S zx = S xx (matriz quadrada de ordem k, simétrica) e szy = sxy . Então, (5.15) reduz-se a
βˆ (Wˆ ) = ( S xx Wˆ S xx ) −1 S xx Wˆ sxy = S xx−1Wˆ −1S xx−1S xx Wˆ sxy = S xx−1sxy = ( X T X ) −1 X T Y .
E ( xtT1• xt1• ) O L O
O E ( xtT2• xt 2• ) L O = E( X T X ) .
Qxx =
M M M t• t•
O O T
L E ( xtm • xtm • )
Esta matriz é quadrada de ordem k, simétrica e não singular. Como Q zx = Qxx , a
partir de (5.18) e (5.19) resulta imediatamente
d
(5.32) n ( βˆSMQ − β ) → N ( k ) 0, Cov a ( βˆSMQ ) ,
onde
(5.33) Cov a ( βˆSMQ ) = Qxx−1 S Qxx−1 ,
S = E ( gtT• gt • ) = E ( X tT•utT•ut • X t • ) e gt • = ut • X t • .
A matriz Ŝ é dada por
1 n 1 1 n
Sˆ = ∑t =1 gˆ tT• gˆ t • = Gˆ T Gˆ = ∑t =1 X tT•uˆtT•uˆt • X t • ,
n n n
onde gˆ t • = uˆt • X t • e ût • é o vector dos resíduos MQ.
Então,
^
(5.34) Cov a ( βˆSMQ ) = S xx−1 Sˆ S xx−1 = n( X T X ) −1 Gˆ T Gˆ ( X T X ) −1 .
Estimador SMQGF
ou
Y∗ = X ∗ β + U ∗ ,
onde Y∗ = ( P ⊗ I n )Y , X ∗ = ( P ⊗ I n ) X e U ∗ = ( P ⊗ I n )U .
A relação transformada verifica o resultado pretendido:
E (U *U ∗T ) = E{( P ⊗ I n )UU T ( PT ⊗ I n )}= ( P ⊗ I n ) E (UU T )( PT ⊗ I n )
= ( P ⊗ I n )(Σ ⊗ I n )( PT ⊗ I n )
= ( P ⊗ I n ){P −1 ( PT ) −1 ⊗ I n }( PT ⊗ I n ) = I m ⊗ I n = I mn .
−1
σ 11 X •T1 X •1 σ 12 X •T1 X • 2 L σ 1m X •T1 X • m
12 T
σ X • 2 X •1 σ X • 2 X • 2 L σ X • 2 X • m
22 T 2m T
βˆSMQG =
M M M
1m T
σ X • m X •1 σ X • m X • 2 L σ X • m X •1m
2m T mm T
× .
M
1m T
σ X • m y•1 + σ X • m y• 2 + L + σ X • m y•1m
2m T mm T
ou
( yt∗• )T = X t∗• β + (ut∗• )T ,
ou
(5.38) βˆSMQG = { X T ( I n ⊗ Σ −1 ) X }−1 X T ( I n ⊗ Σ −1 )Y .
A expressão (5.38) pode também ser obtida a partir da relação amostral (5.4),
onde de acordo com a respectiva notação B, Cov(U ) = E (UU T ) = I n ⊗ Σ .
O estimador (5.37) pode ser obtido de (5.15), fazendo Z = (Σ −1 ⊗ I n ) X . Com
efeito,
βˆ (Wˆ ) = { X T (Σ −1 ⊗ I n ) X Wˆ X T (Σ −1 ⊗ I n ) X }−1 X T (Σ −1 ⊗ I n ) X Wˆ X T (Σ −1 ⊗ I n )Y
= { X T (Σ −1 ⊗ I n ) X }−1Wˆ −1{ X T (Σ −1 ⊗ I n ) X }−1 X T (Σ −1 ⊗ I n ) X Wˆ X T (Σ −1 ⊗ I n )Y
= { X T (Σ −1 ⊗ I n ) X }−1 X T (Σ −1 ⊗ I n )Y .
Esta resultado permite afirmar que o estimador SMQG é MGM eficiente, por-
que não depende da escolha de Ŵ . Fica ao cuidado do leitor obter a mesma conclusão,
usando (5.38) e Z = ( I n ⊗ Σ −1 ) X ou Z t • = Σ −1 X t • .
Pode, então, concluir-se que o estimador SMQG é consistente e assintoticamente
normal. Assim,
d
(5.39) n ( βˆSMQG − β ) → N ( k ) 0, Cov a ( βˆSMQG ) .
O estimador SMQG só pode ser utilizado para fazer inferência estatística quando
se pressupõe que a matriz Σ = E (utT•ut • ) é conhecida. Como, em geral, esta matriz é des-
conhecida, é necessário dispor de Σ̂ , estimador consistente de Σ : plim(Σ) ˆ =Σ.
Para obter este estimador, basta calcular os resíduos SMQ, uˆtT• = ytT• − X t • βˆSMQ , e
notar que β̂SMQ é estimador consistente de β . Então,
1 n
(5.41) Σˆ = ∑t =1 uˆtT•uˆt • .
n
Para provar a consistência Σ̂ , começa-se por referir que
1 n
plim ∑t =1 utT•ut • = Σ ,
n
devido ao teorema da ergodicidade.
Como uˆtT• = utT• − X t • ( βˆSMQ − β ) , tem-se
uˆtT•uˆt • = utT•ut • − utT• ( βˆSMQ − β )T X tT• − X t • ( βˆSMQ − β )ut • + X t • ( βˆSMQ − β )( βˆSMQ − β )T X tT• .
Vai provar-se que a média amostral de Vec{ X t • ( βˆSMQ − β )ut • } [Vec da terceira
parcela] tende em probabilidade para 0 (a demonstração também é válida para a segun-
da parcela, que é a transposta da terceira). Com efeito, atendendo à propriedade a) da
vectorização de matrizes, tem-se
1 n 1 n T p
n ∑t =1 n ∑t =1 t •
Vec{ X ( ˆ
β − β )u } = (u ⊗ X ) Vec( ˆ
β − β ) → 0,
t• SMQ t• t• SMQ
uma vez que
1 n T p
∑
n t =1
(ut • ⊗ X t • ) → E (utT• ⊗ X t • ) = O e plim(βˆSMQ ) = β .
1 n
n ∑t =1
Vec{ X t • ( βˆSMQ − β )( βˆSMQ − β )T X tT• } =
1 n p
n ∑t =1 t •
( X ⊗ X ) Vec{( βˆ − β )( ˆ
β − β )T
} → 0,
t• SMQ SMQ
porque
1 n p
n ∑t =1 t •
( X ⊗ X t• ) → E( X t• ⊗ X t• ) ,
Então, como
1 n 1 n
plim ∑t =1 uˆtT•uˆt • = plim ∑t =1 utT•ut • ,
n n
fica provada a consistência de (5.41).
Nestas condições, propõe-se, baseado em (5.37), o seguinte estimador de β :
(5.42) βˆSMQGF = { X T (Σˆ −1 ⊗ I n ) X }−1 X T (Σˆ −1 ⊗ I n )Y .
ou
−1
= ∑t =1 X tT•Σˆ −1 X t • ∑
n n
β̂SMQGF X tT•Σˆ −1 ytT• .
t =1
Como plim(Σ) ˆ = Σ , com Σ̂ dado por (5.41), é de esperar que β̂SMQGF seja con-
sistente. Este resultado fica provado, demonstrando a seguinte equivalência assintótica:
a
n ( βˆSMQGF − β ) ~ n ( βˆSMQG − β ) .
−1
1 n 1
A = ∑t =1 X tT•Σ −1 X t • , B = ∑
n
X tT•Σ −1utT• .
n n t =1
b) plim(Â − A) = O ;
c) plim(A) = (Qxx∗ ) −1 ;
d) B e B̂ são assintoticamente equivalentes.
porque plim(Σˆ ) = Σ e
1 n p
n ∑t =1 t •
( X T
⊗ X T
t• ) → E ( X tT• ⊗ X tT• ) .
c) De facto,
1 n
plim ∑t =1 X tT•Σ −1 X t • = E ( X tT•Σ −1 X t • ) = Qxx∗ .
n
d) Como plim(B̂ - B) = 0 e
1 d
∑
n
B= t =1
X tT•Σ −1utT• → N ( m ) (0, S∗ ) ,
n
tem-se
1 d
∑
n
B̂ = t =1
X tT•Σˆ −1utT• → N ( m ) (0, S∗ ) ,
n
ou seja, B e B̂ são assintoticamente equivalentes.
onde
(5.45) Cov a ( βˆSMQGF ) = (Qxx∗ ) −1 S∗ (Qxx∗ ) −1 .
onde
1 n 1 n
Sˆ∗ = ∑t =1 ( gˆ t∗• )T gˆ t∗• = ∑t =1 X tT•Σˆ −1uˆtT•uˆt •Σˆ −1 X t • ,
n n
com gˆ t∗• = uˆt •Σˆ −1 X t • e uˆtT• = ytT• − X t • βˆSMQGF (o vector dos resíduos SMQGF), e
1 T ˆ −1
S xx∗ = X (Σ ⊗ I n ) X ,
n
com a notação A de X, ou
1 n T ˆ −1 1
S xx∗ =
n ∑ t =1
X t •Σ X t • = X T ( I n ⊗ Σˆ −1 ) X ,
n
com a notação B de X.
Estes resultados permitem fazer inferência estatística robusta sobre os parâme-
tros do modelo.
Fica ao cuidado do leitor demonstrar que o estimador (5.42) pode ser obtido de
(5.15), fazendo Z = (Σˆ −1 ⊗ I n ) X . Assim, como (5.42) não depende da escolha de Ŵ ,
Capítulo 5 – Sistemas de Equações de Regressão Linear 36
pode afirmar-se que o estimador SMQGF é estimador MGM eficiente, na classe dos
estimadores que verificam (5.35). Pode chegar-se à mesma conclusão, mostrando que o
estimador (5.43) resulta de (5.15), quando Z = ( I n ⊗ Σˆ −1 ) X ou Z t • = Σˆ −1 X t • .
Todas considerações anteriores pressupõem que não são impostas restrições so-
bre parâmetros de equações diferentes (restrições inter-equações). Os modelos com es-
te tipo de restrições ainda se podem formalizar da maneira já conhecida, e, portanto, po-
derem ser utilizados os métodos de estimação SMQ e SMQGF.
Por exemplo, considere-se o seguinte modelo SER com duas equações:
yt1 = β11 + β 21 xt12 + β31 xt13 + β 41 xt14 + ut1
yt 2 = β12 + β 22 xt 22 + β32 xt 23 + ut 2 ,
impondo-se a restrição β 21 = 2 β 22 . O modelo que verifica esta restrição é dado por
yt1 = β11 + 2 β 22 xt12 + β31 xt13 + β 41 xt14 + ut1
yt 2 = β12 + β 22 xt 22 + β32 xt 23 + ut 2 .
Estimador SVI
e
^
(5.51) Cov a ( βˆSVI ) = S zx−1Sˆ ( S zxT ) −1 = n{( Z T X ) −1 Gˆ T Gˆ ( X T Z ) −1} .
Estimador SMQ2P
onde H Z = Z ( Z T Z ) −1 Z T .
Verifica-se imediatamente que o estimador SMQ2P é um estimador MQ2P “em-
pilhado”, ou seja, estimam-se separadamente, pelo método MQ2P, os coeficientes de
cada equação. Com efeito, basta atender à estrutura bloco-diagonal das matrizes S zx e
S zz . Assim, tem-se
βˆ•1, MQ2P
βˆ• 2, MQ2P
βˆSMQ2P = ,
M
βˆ
• m, MQ2P
onde
βˆ•i , MQ2P = ( S zT x S z−1z S z x ) −1 S zT x S z−1z sz y ( i = 1, 2, K , m ).
i i i i i i i i i i i i
Este estimador reduz-se ao estimador SIV quando p = k . Com efeito, basta no-
tar que Z T X é matriz quadrada.
Tem-se
d
(5.54) n ( βˆSMQ2P − β ) → N ( k ) 0, Cov a ( βˆSMQ2P ) ,
onde
(5.55) Cov a ( βˆSMQ2P ) = (QzxT Qzz−1Qzx ) −1 QzxT Qzz−1 S Qzz−1Qzx (QzxT Qzz−1Qzx ) −1 ,
e
^
Cov a ( βˆSMQ2P ) = ( S zxT S zz−1S zx ) −1 S zxT S zz−1 Sˆ S zz−1S zx ( S zxT S zz−1S zx ) −1
(5.56)
= n{( X T H Z X ) −1 X T Z ( Z T Z ) −1 Gˆ T Gˆ ( Z T Z ) −1 Z T X ( X T H Z X ) −1}.
Tal como se fez nos capítulos 3 (secção 3.6) e 4 (secção 4.9), mas agora no âm-
bito do modelo SER, vão analisar-se as implicações da homocedasticidade condiciona-
da, nomeadamente vão estudar-se alguns estimadores importantes, que são casos parti-
culares do estimador MGM. A versão multi-equação da hipótese da homocedasticidade
condicionada é a seguinte:
para i, l = 1, 2, K , m .
(5.59) S= .
M M M
σ m1E ( ztm • zt1• ) σ m 2 E ( ztm • zt 2• ) L σ mm E ( ztm • ztm • )
T T T
Note-se que
Sil = σ il E ( ztiT• ztl • ) = σ ilQzi z l ,
Verificou-se, assim, que (5.58) implica (5.60). Sem dificuldade se conclui que a
inversa não é verdadeira. Nalguns casos, em especial em certos modelos de equações
simultâneas (ver capítulo 6) e em alguns modelos com dados de painel (ver capítulo 7),
é mais adequado substituir a hipótese SER.6 pela hipótese mais fraca dada por (5.60),
ou seja, supor que E ( Z tT•utT•ut • Z t • ) = E ( Z tT•Σ Z t • ) . Naturalmente (5.58) é condição sufici-
ente de (5.60).
Um estimador consistente de S é dado por
1 n T 1 n T 1 n T
σˆ11 n ∑t =1 zt1• zt1• σˆ12 n ∑t =1 zt1• zt 2• L σˆ1m n ∑t =1 zt1• ztm •
σˆ 21 1 ∑ n ztT2• zt1• σˆ 22 1 ∑n ztT2• zt 2• L σˆ 2 m 1 ∑ n ztT2• ztm •
(5.61) Sˆ = n t =1 n t =1 n t =1 ,
M M M
σˆ 1 n z T z σˆ 1 n z T z 1 n T
m1 n ∑t =1 tm• t1• m 2 n ∑t =1 tm • t 2• L σ mm n ∑t =1 ztm • ztm •
ˆ
com
1 n
σˆ il = ∑ uˆtiuˆtl ,
n t =1
onde uˆti = yti − xti• β̂ •i , e β̂•i é um estimador consistente de β•i (habitualmente, o esti-
mador MQ2P).
Utilizando a notação A da matriz Z, a matriz Ŝ pode ser apresentada da se-
guinte maneira:
Capítulo 5 – Sistemas de Equações de Regressão Linear 40
1 T 1 T 1 T
σˆ11 n Z •1Z •1 σˆ12 n Z •1Z • 2 L σˆ1m n Z •1Z • m
σˆ 21 1 Z •T2 Z •1 σˆ 22 1 Z •T2 Z • 2 L σˆ 2 m 1 Z •T2 Z • m
(5.62) Sˆ = n n n = 1 {Z T (Σˆ ⊗ I ) Z } .
n n
M M M
σˆ 1 Z T Z σˆ 1 Z T Z L σˆ 1 Z T Z
m1 n • m •1 m 2 n • m • 2 mm
n • m • m
Pode, também, fazer-se
1 n 1
Sˆil = σˆ il ∑t =1 ztiT• ztl • = σˆ il Z •Ti Z • l = σˆ il S zi z l ,
n n
onde
1 n T 1
S zi zl =
n
∑ z z = Z •Ti Z •l .
t =1 ti • tl •
n
Recorrendo à notação B da matriz Z, tem-se
1 n 1
(5.63) Sˆ = ∑t =1 Z tT•Σˆ Z t • = {Z T ( I n ⊗ Σˆ ) Z } .
n n
Nestas condições, ou seja, supondo homocedasticidade condicionada, tem-se o
estimador FIVE (Full-information Instrumental Variables Efficient) de β ,
(5.64) βˆFIVE = ( S zxT Sˆ −1 S zx ) −1 S zxT Sˆ −1 szy ,
onde a matriz Ŝ é dada por (5.61) [com as notações alternativas, (5.62) ou (5.63]. Este
estimador também é conhecido pela designação de estimador MGM-MQ3P, para o
distinguir do estimador MQ3P tradicional (ver adiante a subsecção que trata deste esti-
mador).
Quando se utiliza a notação (5.62), tem-se
(5.65) βˆFIVE = ( X T Z {Z T (Σˆ ⊗ I n ) Z }−1 Z T X ) −1 X T Z {Z T (Σˆ ⊗ I n ) Z }−1 Z T Y .
Com (5.63), obtém-se
(5.66) βˆFIVE = ( X T Z {Z T ( I n ⊗ Σˆ ) Z }−1 Z T X ) −1 X T Z {Z T ( I n ⊗ Σˆ ) Z }−1 Z T Y .
O estimador FIVE é consistente e assintoticamente normal (como qualquer
estimador MGM), e é MGM eficiente (porque Wˆ = Sˆ −1 ); a matriz das covariâncias
assintóticas é da forma (5.26) [com a matriz S dada por (5.59) ou (5.60)]; atendendo a
(5.65), o estimador consistente desta matriz é
^
(5.67) Cov a ( βˆFIVE ) = ( S zxT Sˆ −1 S zx) −1 = n( X T Z {Z T (Σˆ ⊗ I n ) Z }−1 Z T X ) −1 .
Quando não se verifica SER.6, o estimador FIVE não é eficiente [logo, a matriz
(5.67) – ou (5.68) – não serve para fazer inferência estatística, e, em particular, para for-
necer os erros padrão adequados]. O estimador eficiente é dado por (5.25). Note-se que:
no caso do estimador FIVE, faz-se Wˆ = Sˆ −1 , com Ŝ dada por (5.61); no caso do estima-
dor (5.25), tem-se Wˆ = Sˆ −1 , com Ŝ dada por (5.21). Contudo, mesmo supondo que há
homocedasticidade condicionada, o estimador FIVE não é assintoticamente mais efici-
ente que o estimador (5.25): os dois estimadores são assintoticamente equivalentes. En-
tão, porquê não utilizar sempre o estimador mais geral, (5.25)? A resposta é simples: o
estimador FIVE pode ter melhores propriedades em pequenas amostras.
e
^
(5.72) Cov a ( βˆSMQGF ) = ( S xx∗ ) −1 .
Com as hipóteses fixadas para obter o estimador SMQGF, este estimador é me-
nos robusto que o estimador SMQ, e computacionalmente mais complicado. Então,
porquê usar SMQGF? Porque, quando se introduz a hipótese da homocedasticidade con-
dicionada, pode demonstrar-se que o estimador SMQGF é assintoticamente mais efi-
ciente que o estimador SMQ.
Capítulo 5 – Sistemas de Equações de Regressão Linear 42
ou
(5.73) Cov a ( βˆSMQ2P ) = (QzxT S D−1Qzx ) −1 ,
onde
σ 11Qz1 z1 O L O
O σ 22Qz 2 z 2 L O
SD = .
M M M
O O L σ mmQz m z m
Capítulo 5 – Sistemas de Equações de Regressão Linear 43
é semidefinida positiva. Assim, os erros padrão do estimador FIVE não são maiores que
os respectivos erros padrão do estimador SMQ2P.
Ainda se podem fazer os seguintes comentários:
a) Quando não se verifica a hipótese SER.6 (não há homocedasticidade condicionada),
a matriz Ŝ , dada por (5.61), não é estimador consistente de S, dada por (5.12). No
entanto, se existir homocedasticidade condicionada, a matriz Ŝ , correspondente a
(5.21), é estimador consistente de S, dada por (5.59).
b) Supondo que não existe homocedasticidade condicionada, o estimador FIVE ainda é
consistente e assintoticamente normal, pois continua a ser um estimador MGM, para
alguma matriz Ŵ . No entanto, deixa de ser eficiente porque esta matriz Ŵ já não
verifica a condição plim(Wˆ ) = S −1 .
c) No caso de homocedasticidade condicionada, se cada equação do modelo SER é
exactamente identificada, os estimadores FIVE e SMQ2P são numericamente iguais
ao estimador VI [ver a primeira conclusão da secção 5.5, a seguir a (5.30)].
d) No caso de homocedasticidade condicionada, se pelo menos uma das equações é so-
bre-identificada, mas σ il = 0 para todos os pares (i, l) , com i ≠ l , então os estima-
dores FIVE e MQ2P separado são assintoticamente equivalentes.
Com efeito, basta atender à segunda conclusão da secção 5.5, a seguir a (5.30), e no-
tar que, sob homocedasticidade condicionada, o estimador MGM eficiente se reduz
ao estimador FIVE, e o estimador (5.29) se reduz ao estimador MQ2P separado.
e) Note-se, também, que no caso de homocedasticidade condicionada, as equações não
estão “relacionadas” [de acordo com (5.30)], se σ il = 0 , para i, l = 1, 2, K , m , com
i ≠ l . Com efeito, basta verificar que
E (uti utl ztiT• ztl• ) = E{E (uti utl ztiT• ztl• | zti• , ztl• )}
= E{E (uti utl | zti• , ztl• ) ztiT• ztl• } = σ il E ( ztiT• ztl• ).
Quando cada equação tem as mesmas variáveis instrumentais, diz-se que o mo-
delo tem instrumentos comuns. Neste caso, o estimador FIVE pode ser simplificado.
Considere-se o vector 1 × m , ut • , formado pelas variáveis residuais uti (i = 1, 2, K , m) , e
a matriz de Σ = E (utT•ut • ) [ver (5.7)]. Como o elemento genérico desta matriz é σ il , um
estimador consistente de Σ pode ser obtido com o mesmo procedimento utilizado para
estimar a matriz Ŝ , referido em (5.61), recorrendo, por exemplo, ao estimador MQ2P
de cada β•i , e respectivos resíduos. Assim,
Capítulo 5 – Sistemas de Equações de Regressão Linear 44
Do mesmo modo,
1 n 1 ~ ~ ~
(5.77) Sˆ = Σˆ ⊗ ∑t =1 ztT• zt • = Σˆ ⊗ Z T Z = Σˆ ⊗ S zz ,
n n
~
onde a matriz Z , de tipo n × q , é
z1• z11 z12 L z1q
~ z2• z21 z22 L z2 q ~ 1 n 1~ ~
Z= = e S zz = ∑t =1 ztT• zt • = Z T Z .
M M M M n n
zn • zn1 zn 2 L znq
Note-se que
~
S zz = I m ⊗ S zz .
Também se tem
−1 −1
1 n 1 ~ ~ ~
Sˆ = Σˆ ⊗ ∑t =1 ztT• zt •
−1 −1
= Σˆ ⊗ Z T Z
−1
= Σˆ −1 ⊗ S zz−1 .
n n
Capítulo 5 – Sistemas de Equações de Regressão Linear 45
~
Com zt • = zti • , vem Z = I m ⊗ Z (de tipo mn × mq ), de acordo com a notação A
da matriz Z das observações das variáveis instrumentais. Como Z t • = I m ⊗ zt • , a matriz
Z, de acordo com a notação B, é dada por
I m ⊗ z1•
I m ⊗ z2 •
Z= .
M
I m ⊗ zn •
~
Quando se considera o estimador FIVE com esta matriz Sˆ −1 = Σˆ −1 ⊗ S zz−1 , tem-se
o estimador dos mínimos quadrados em três passos (MQ3P; em inglês, Three-Stage
Least Squares, 3SLS),
~ ~
(5.78) βˆMQ3P = {S zxT (Σˆ −1 ⊗ S zz−1 ) S zx }−1 S zxT (Σˆ −1 ⊗ S zz−1 ) szy .
1 n T 1~
n ∑ t = 1
zt • yti = Z T y•i ( i = 1, 2, K , m ).
szyi =
n
~
− O bloco genérico de S zxT (Σˆ −1 ⊗ S zz−1 ) S zx , de tipo ki × kl , é dado por
~
σˆ il S zxT i S zz−1S zxl ( i, l = 1, 2, K , m ),
onde
−1
~ 1 ~ 1 ~ ~ 1 ~ 1
S S zz−1S zxl = X •Ti Z Z T Z Z T X •l = X •Ti H Z~ X •l ,
T
zxi n n n n
~ ~ ~ ~
onde H Z~ = Z ( Z T Z ) −1 Z T .
~
− O bloco genérico de S zxT (Σˆ −1 ⊗ S zz−1 ) szy é
~ ~ ~ ~
∑l =1σˆ il S zxT i S zz−1szyl = σˆ i1S zxT i S zz−1szy1 + σˆ i 2 S zxT i S zz−1szy2 + L + σˆ im S zxT i S zz−1szym ( i = 1, 2,K, m ),
m
onde
−1
~ 1 ~ 1 ~ ~ 1 ~T 1 T
S S zz−1szyl = X •Ti Z Z T Z
T Z y•l = X •i H ~ y•l .
zxi n n n n Z
Sem dificuldade se verifica que (5.78) pode apresentar-se do seguinte modo:
−1
(5.79) βˆMQ3P = X T {Σˆ −1 ⊗ H Z~ } X X T {Σˆ −1 ⊗ H Z~ } Y .
Atendendo à propriedade e) do produto de Kronecker (ver anexo 5B), vem
−1
1 ~ 1 ~ ~ 1
−1
~
βˆMQ3P = X T ( I m ⊗ Z ) Σˆ −1 ⊗ Z T Z ( I m ⊗ Z T ) X
n n n
~ 1 ~ ~ 1
−1
1 T ~
× X ( I m ⊗ Z ) Σˆ −1 ⊗ Z T Z ( I m ⊗ Z T ) Y ,
n n n
ou
−1
~ ~ ~ ~ ~ ~ ~ ~
βˆMQ3P = X T {Σˆ −1 ⊗ Z ( Z T Z ) −1 Z T } X X T {Σˆ −1 ⊗ Z ( Z T Z ) −1 Z T } Y .
O estimador (5.79) pode também ser obtido directamente a partir de (5.65) [ex-
~
pressão do estimador FIVE na notação A], fazendo Z = I m ⊗ Z . Com efeito,
−1
~ ~ ~ ~
βˆFIVE = X T ( I m ⊗ Z ){( I m ⊗ Z T )(Σˆ ⊗ I n )( I m ⊗ Z )}−1 ( I m ⊗ Z T ) X
~ ~ ~ ~
× X T ( I m ⊗ Z ){( I m ⊗ Z T )(Σˆ ⊗ I n )( I m ⊗ Z )}−1 ( I m ⊗ Z T )Y
−1
~ ~ ~ ~
= X T ( I m ⊗ Z ){Σˆ −1 ⊗ ( Z T Z ) −1}( I m ⊗ Z T ) X
~ ~ ~ ~
× X T ( I m ⊗ Z ){Σˆ −1 ⊗ ( Z T Z ) −1}( I m ⊗ Z T )Y
ou
Capítulo 5 – Sistemas de Equações de Regressão Linear 47
−1
~ ~ ~ ~ ~ ~ ~ ~
βˆFIVE = X T {Σˆ −1 ⊗ Z ( Z T Z ) −1 Z T } X X T {Σˆ −1 ⊗ Z ( Z T Z ) −1 Z T }Y .
Do mesmo modo,
y1T•
T
y
Z Y = [ I m ⊗ z1T• I m ⊗ z2T• L I m ⊗ zn • ]
1 T 1 T 2• 1 n
szy = = ∑t =1 ( I m ⊗ ztT• ) ytT• .
n n M n
ynT•
onde
E ( ztT• xt1• ) O L O
O E ( ztT• xt 2• ) L O .
Qzx =
M M M
O O L E ( ztT• xtm • )
~
Cada bloco de QzxT (Σ −1 ⊗ Qzz−1 ) Qzx , de tipo ki × kl , é dado por
~
σ il E ( xtiT• zt • ) E ( ztT• zt • ) −1 E ( ztT• xtl • ) = σ ilQzxT i Qzz−1Qzxl ,
Neste caso,
Capítulo 5 – Sistemas de Equações de Regressão Linear 48
d
(5.82) QS = J ( βˆMQ3P , Sˆ −1 ) → χ 2 (mq − k ) .
ou
( S~T S~ −1S~ ) −1 S~T S~ −1 O L O szy
zx zz zx zx zz
~ ~ ~ ~ ~ 1
O T −1 −1 T −1
( S zx S zz S zx ) S zx S zz L O szy 2
βˆMQ3P = ,
M M M M
~ ~ ~ ~ ~
O O L ( S zxT S zz−1S zx ) −1 S zxT S zz−1 szy m
Capítulo 5 – Sistemas de Equações de Regressão Linear 49
ou ainda,
( S~T S~ −1S~ ) −1 S~T S~ −1s
~zx ~zz ~zx ~zx ~zz zy1
( S zxT S zz−1S zx ) −1 S zxT S zz−1szy
βˆMQ3P = 2
,
M
~T ~ −1 ~ −1 ~T ~ −1
( S zx S zz S zx ) S zx S zz szy m
onde
A11 = E ( xtT1• zt • ) E ( ztT• zt • ) −1 E ( ztT• xt1• ) , A12 = E ( xtT1• zt • ) E ( ztT• zt • ) −1 E ( ztT• xt 2• ) ,
O estimador SUR
Exemplo 5.9 – Retome-se o exemplo 5.1, supondo que se verifica (5.83). Então,
zt • = [ 1 educt expert qit ] .
1 T 1
(5.84) X •i H Z~ X •l = X •Ti X • l = S xi xl .
n n
Com efeito, seja
~
X •i = Z Di ,
onde
~ 1
S zxT i S zz−1szy l = X •Ti H Z~ y•l .
n
Do mesmo modo, se verifica que
1 T 1
(5.85) X •i H Z~ y•l = X •Ti y•l = sxi y l .
n n
Utilizando os resultados (5.84) e (5.85), tem-se
−1
σˆ 11 X •T1 X •1 σˆ 12 X •T1 X • 2 L σˆ 1m X •T1 X • m
21 T
σˆ X • 2 X •1 σˆ X • 2 X • 2 L σˆ X • 2 X • m
22 T 2m T
βˆSUR =
M M M
σˆ m1 X T X σˆ m 2 X T X L σˆ mm X T X
• m •1 •m •2 •m •m
× ,
M
σˆ m1 X T y + σˆ m 2 X T y + L + σˆ mm X T y
• m •1 •m •2 •m •m
ou
(5.86) βˆSUR = { X T (Σˆ −1 ⊗ I n ) X }−1 X T (Σˆ −1 ⊗ I n )Y .
Comparando este estimador com (5.42), conclui-se imediatamente que o estima-
dor SUR coincide com o estimador SMQGF, de acordo com a notação A das matrizes
X e Y. Recorrendo à respectiva notação B, fica ao cuidado do leitor mostrar que o
estimador SUR coincide com o estimador SMQGF dado por (5.43). Assim, quando se
introduz a hipótese da homocedasticidade condicionada, o estimador SMQGF costuma
designar-se por estimador SUR. Pode também concluir-se que o vector das variáveis
instrumentais implícito no cálculo do estimador SMQGF é o mesmo que se considera
no estimador SUR.
Capítulo 5 – Sistemas de Equações de Regressão Linear 53
~ ~
Sabendo que o bloco genérico de QzxT (Σ −1 ⊗ Qzz−1 ) Qzx é dado por σ ilQzxT i Qzz−1Qzxl ,
pode provar-se que
~
QzxT i Qzz−1Qzxl = Qxi xl = E ( xtiT• xtl • ) ( i, l = 1, 2, K , m ).
Assim,
σ 11Qx1 x1 σ 12Qx1 x2 L σ 1mQx1 xm
12
σ Qx 2 x1 σ 22Qx2 x2 L σ 2 mQx2 xm
(5.87) Cov a ( βˆSUR ) = ,
M M M
σ 1mQ Qxm x2 L σ Qx m x m
x m x1 σ
2m mm
onde Qxi xl = E ( xtiT• xtl • ) ( i, l = 1, 2, K , m ).
Logo,
σˆ 11S x1 x1 σˆ 12 S x1 x 2 L σˆ 1m S x1 xm
12
^ σˆ S x2 x1 σˆ 22 S x2 x2 L σˆ 2 m S x2 xm
(5.88) Cov a ( βˆSUR ) = ,
M M M
σˆ 1m S ˆ S xm x 2 L σˆ S xm xm
x m x1 σ
2m mm
onde S xi xl = (1 / n)Σtn=1 xtiT• xtl • ( i, l = 1, 2, K , m ). Os estimadores σ̂ il são obtidos a partir
dos resíduos MQ resultantes do ajustamento de cada equação do modelo.
Alternativamente a (5.88), pode fazer-se
^ −1
(5.89) Cov a ( βˆSUR ) = n X T {Σˆ −1 ⊗ I n } X .
Comparando (5.46) com (5.88) [ou (5.89)], verifica-se que os erros padrão cor-
respondentes a (5.46) são mais robustos que os erros padrão resultantes do estimador
SUR. Pode dizer-se que o estimador SMQGF deduzido na secção 5.6 é o estimador
SUR robusto.
A estatística de Sargan reduz-se a
d
(5.90) QS = J ( βˆSUR , Sˆ −1 ) = n ( szy − S zx βˆSUR )T Sˆ −1 ( szy − S zx βˆSUR ) → χ 2 (mq − k ) ,
~
onde Sˆ = Σˆ ⊗ S zz .
Conclui-se, sem dificuldade, que: se juntar a zt • outras variáveis que não sejam
regressores, o estimador SUR não se altera numericamente, porque este estimador não
considera os instrumentos que não são regressores; no entanto, a estatística de Sargan é
numericamente diferente, porque Ŝ depende do novo zt • (o aumento do número de
graus de liberdade é igual ao produto de m pelo número de novos instrumentos).
Supondo que não há homocedasticidade condicionada, o estimador SUR conti-
nua a ser consistente e assintoticamente normal, pois é um estimador MGM, embora
não seja eficiente.
Segue-se um exemplo que alerta para os perigos da estimação conjunta.
Capítulo 5 – Sistemas de Equações de Regressão Linear 54
x 0 σ I σ I y
T 11 12
× •1 T 12 n 22 n •1 .
0 x• 2 σ I n σ I n y• 2
−1
σ 11 xT x σ 12 xT x σ 11 xT y + σ 12 x•T1 y• 2
= 12 •T1 •1 22 •T1 • 2 12 T•1 •1 .
σ x• 2 x•1 σ x• 2 x• 2 σ x• 2 y•1 + σ x• 2 y• 2
22 T
−1
σ 11 x•T1 x•1 σ 12 x•T1 x• 2 σ 11 x•T1u•1 + σ 12 x•T1u• 2
B= 12 T .
σ 12 x•T2 x•1 σ 22 x•T2 x• 2 σ x• 2u•1 + σ 22 x•T2u• 2
Assim, a relação que existe entre o estimador SUR (estimação conjunta) e o esti-
mador SMQ (estimação separada) é da mesma natureza daquela que se tem entre os es-
timadores MGM (para os dois tipos de estimação).
De forma semelhante ao que se viu na secção 5.5, há dois casos em que os esti-
madores SUR e SMQ são “equivalentes”:
a) Cada equação é exactamente identificada. Como o vector dos instrumentos é co-
mum a todas as equações, e é formado pela união de todos os regressores, é forçoso
que cada equação tenha os mesmos regressores, isto é, xti • = zt • ( i = 1, 2, K , m ). Nes-
tas condições, o modelo SUR designa-se por modelo de regressão multivariada
(este modelo é um exemplo de modelo com regressores comuns).
Fazendo xti • = xt • (vector 1 × k ), o modelo (5.2) reduz-se a
yti = xt • β•i + uti (i = 1, 2, K , m ; t ∈ T ) .
ytT• = X t • β + utT• ,
onde X t • = I m ⊗ xt • .
Dispondo de uma amostra de dimensão n, pode estabelecer-se, de acordo com a
notação A, a respectiva relação amostral. Tem-se
~
y•i = X β•i + u•i ,
~
onde X , matriz n × k , é
x1•
~ x2•
X= .
M
xn •
conclui-se que
~
(5.92) Cov a ( βˆMQ ) = Σ ⊗ Qxx−1 .
a) No caso de cada equação ser exactamente identificada, mesmo que não exista homo-
cedasticidade condicionada, o estimador SUR ainda se reduz ao estimador MQ (re-
gressão multivariada).
b) No caso de regressores comuns, existe uma razão importante para continuar a usar o
estimador SUR: quando se está interessado em fazer testes de hipóteses que envol-
vem coeficientes de regressão de equações diferentes, deve recorrer-se ao estima-
dor da matriz das covariâncias assintóticas de βˆSUR , e não à respectiva matriz de
βˆ•i ,SUR . Estimar cada equação com o método MQ não fornece directamente as esti-
mativas das covariâncias assintóticas dos estimadores de dois coeficientes de regres-
são pertencentes a equações diferentes. O método SUR fornece automaticamente tais
estimativas.
c) Se, em vez de (5.83), se considerar a hipótese E ( xti •uti ) = 0 ( i = 1, 2, K , m ), o estima-
dor SUR não é consistente, o que mostra a importância das ortogonalidades cruzadas.
O estimador MGM eficiente (supondo homocedasticidade condicionada) é o estima-
dor SMQ.
d) Uma questão importante relativa aos estimadores SUR e SMQ tem a ver o trade-off
entre eficiência e robustez. Salvo nos casos de “equivalência” entre os dois estima-
dores, sob homocedasticidade condicionada, o estimador SUR é assintoticamente
mais eficiente que o estimador SMQ; contudo, este estimador é mais robusto do que
aquele. A vantagem do estimador SUR do ponto de vista da eficiência assintótica é
obtida supondo que os regressores de cada equação não estão correlacionados com as
variáveis residuais de cada equação. Se os regressores não são comuns a todas as
equações, é porque intencionalmente alguns deles foram omitidos de algumas equa-
ções. Se se pretender, por exemplo, fazer inferência estatística sobre os coeficientes
da primeira equação, mas a segunda equação está mal especificada, o método SUR
produz, em geral, estimadores inconsistentes dos coeficientes de todas as equações.
Contudo, o estimador MQ dos coeficientes da primeira equação é consistente, desde
que haja ortogonalidade entre os seus regressores e a sua variável residual.
e) Facilmente se verifica que J ( βˆSMQ , Sˆ −1 ) = 0 .
f) Na secção 8A.1 do anexo 8A do capítulo 8 estuda-se a estimação do modelo de re-
gressão multivariada pelo método da máxima verosimilhança.
onde
σˆ i2l
ril2 = ,
σˆ iiσˆ ll
Capítulo 5 – Sistemas de Equações de Regressão Linear 59
p = m(m − 1) / 2 , e o símbolo Σim< l significa que se faz a soma de todos os ril2 , com i < l
(i, l = 1, 2, K, m) .
Exemplo 5.13 – Retomando o exemplo 5.2, o respectivo modelo com coeficientes co-
muns é o seguinte:
lsalar1t = β1 + β 2 educ1t + β3 exper1t + β 4 qit + ut1
lsalar 2t = β1 + β 2 educ 2t + β3 exper 2t + β 4 qit + ut 2 .
∇
O modelo SER com coeficientes comuns pode ser apresentado da seguinte ma-
neira (notação A):
(5.94) yti = xti • β + uti (i = 1, 2, K , m ; t ∈ T ) ,
onde
β1
β2
xti• = [ xti1 xti 2 L xtik ] e β = .
M
β k
Assim:
− xti• é o vector 1 × k da observação t dos regressores da equação i;
− β é o vector k × 1 dos coeficientes de regressão (comum a todas as equações), de
elemento genérico β j ( j = 1, 2, K , k ) .
considerando a matriz m × k ,
xt1•
x
X t • = t 2• .
M
xtm •
Capítulo 5 – Sistemas de Equações de Regressão Linear 60
onde X •i é a matriz n × k (de elemento genérico xtij ) das observações dos regresso-
res da equação i.
Então, em Y = Xβ + U , a matriz X, de tipo mn × k é dada por
X •1
X •2
X =
M
X • m
M M M M
E ( z T u ) E{z T ( y − x β )} E ( z T y ) E ( z T x )
tm • tm tm • tm tm • tm • tm tm • tm •
Esta hipótese é mais fraca que SER.4 (cada equação do sistema é identificada).
Supondo SER.4’, a existência de uma matriz E ( ztiT• xti • ) com característica k é condição
suficiente de identificação. Com efeito, como E ( ztiT• xti • ) tem k linhas linearmente inde-
pendentes, Qzx tem, pelo menos, k linhas linearmente independentes. O facto de SER.4’
ser mais fraca do que SER.4 resulta da existência de restrições a priori que impõem que
os coeficientes sejam os mesmos em todas as equações; além disso, é possível que o
sistema seja identificado, mesmo que nenhuma equação individual seja identificada.
Neste caso, o modelo não é identificado, porque a terceira coluna de Qzx é igual
a E ( qit ) a multiplicar pela primeira coluna. A característica de Qzx é inferior a três.
∇
O estimador MGM
onde a matriz dos pesos, Ŵ , apresenta a mesma estrutura que foi referida a propósito do
estimador (5.15): é uma matriz quadrada de ordem p, onde cada bloco, Ŵil , é de tipo
pi × pl . Utiliza-se o símbolo βˆ ∗ (Wˆ ) para representar o estimador MGM para salientar
o facto de o estimador se referir ao modelo SER com coeficientes comuns.
Tal como (5.16), o erro de amostragem é
(5.99) βˆ ∗ (Wˆ ) − β = ( S zxT Wˆ S zx ) −1 S zxT Wˆ g• n = ( X T Z Wˆ Z T X ) −1 X T Z Wˆ Z TU .
As propriedades do estimador MGM apresentadas na secção 5.4 continuam váli-
das para o estimador (5.98), com as necessárias adaptações; dispondo de um estimador
consistente de β , βˆ , os respectivos resíduos são uˆti = yti − xit • β̂ (i = 1, 2, K , m ) .
Quando se pretende relacionar o estimador MGM com os seus casos particulares
mais conhecidos da literatura, é conveniente reformular (5.98). Assim, utilizando szy e
S zx , vem
−1
S s
z1 x1 z1 y1
S z 2 x2 T sz 2 y 2
βˆ (Wˆ ) = S zT1 x1 S zT2 x2 L S zTm xm Wˆ
∗
T T
S z1 x1 S z 2 x 2 L S z m x m Wˆ ,
M M
S s
z m xm z m y m
onde
Wˆ11 Wˆ12 L Wˆ1m
ˆ
ˆ W21 Wˆ22 L Wˆ2 m
W= .
M M M
Wˆm1 Wˆm 2 L Wˆmm
−1
βˆ ∗ (Wˆ ) = ∑t =1 X tT• Z t • Wˆ ∑t =1 Z tT• X t • ∑t =1 X tT• Z t • Wˆ ∑t =1 Z tT• ytT• .
n n n n
(5.102)
Homocedasticidade condicionada
M M
T T
E ( zt • xtm • ) E ( zt • ytm )
Também se pode fazer
Qzx = E ( X t • ⊗ ztT• ) e qzy = E ( ytT• ⊗ ztT• ) ,
bastando notar que ztT• xti • = xti • ⊗ ztT• e ztT• yti = ytT• ⊗ ztT• .
Logo,
1 n T 1 ~T
n ∑t =1 zt • xt1• n Z X •1
1 ∑ n ztT• xt 2• 1 Z~T X • 2
S zx = n
t =1
= n = 1 ( I ⊗ Z~T ) X ou S = 1 n ( X ⊗ z T ) .
n m zx
n ∑t =1 t • t•
M M
1 n z T x 1 Z~T X
n ∑t =1 t • tm • n •m
Do mesmo modo, tem-se
Capítulo 5 – Sistemas de Equações de Regressão Linear 65
1 n T 1 ~T
n ∑t =1 zt • yt1 n Z y•1
1 ∑ n ztT• yt 2 1 Z~T y• 2
szy = n
t =1
= n = 1 ( I ⊗ Z~T )Y ou s = 1 n ( yT ⊗ z T ) .
n m zy
n ∑t =1 t • t•
M M
1 n z T y 1 Z~T y
n ∑t =1 t • tm n •m
O estimador MQ3P com coeficientes comuns é
~ ~
(5.103) βˆMQ3P
∗
= {S zxT (Σˆ −1 ⊗ S zz−1 ) S zx }−1 S zxT (Σˆ −1 ⊗ S zz−1 ) szy ,
ou
−1
~ ~
βˆ ∗ = ∑i =1 ∑l =1 (σˆ il S zxT i S zz−1 S zxl ) ∑ ∑
m m m m
(5.104) MQ3P (σˆ il S zxT i S zz−1szyl ) ,
i =1 l =1
ou, ainda,
−1
m
βˆ ∗ = ∑i =1 ∑l =1σˆ il X •Ti H Z~ X •l ∑ ∑
m m m
MQ3P i =1 l =1
σˆ il X •Ti H Z~ y•l
(5.105)
−1
= X T (Σˆ −1 ⊗ H Z~ ) X X T (Σˆ −1 ⊗ H Z~ ) Y.
~ ~ ~ ~
onde H Z~ = Z ( Z T Z ) −1 Z T . Para m = 2 , tem-se
βˆMQ3P
∗
= (σˆ 11 X •T1H Z~ X •1 + σˆ 12 X •T1H Z~ X • 2 + σˆ 21 X •T2 H Z~ X •1 + σˆ 22 X •T2 H Z~ X • 2 ) −1
× (σˆ 11 X •T1H Z~ y•1 + σˆ 12 X •T1H Z~ y• 2 + σˆ 21 X •T2 H Z~ y•1 + σˆ 22 X •T2 H Z~ y• 2 ) .
Para provar (5.106), basta notar que X •i = Z Di , como se fez a propósito do es-
timador SUR (sem coeficientes comuns).
Para m = 2 , obtém-se
βˆSUR
∗
= (σˆ 11 X •T1 X •1 + σˆ 12 X •T1 X • 2 + σˆ 21 X •T2 X •1 + σˆ 22 X •T2 X • 2 ) −1
× (σˆ 11 X •T1 y•1 + σˆ 12 X •T1 y• 2 + σˆ 21 X •T2 y•1 + σˆ 22 X •T2 y• 2 ) .
−1
βˆSUR = ∑i =1 ∑l =1σˆ il S x x ∑ ∑
m m m m
(5.107) ∗
σˆ il sx y ,
i l
i =1 l =1 i l
onde, recorde-se,
1 n T 1 1 n 1
S xi x l =
n
∑ x x = X •Ti X •l e sxi y l = ∑t =1 xtiT• ytl = X •Ti y•l .
t =1 ti • tl •
n n n
As ortogonalidades cruzadas são decisivas para este estimador. De facto, supo-
nha-se que E ( xti •utl ) = 0 , para i = l , mas não necessariamente para i ≠ l . Nestas con-
dições, o estimador não é consistente.
A respectiva matriz das covariâncias assintóticas é dada por
−1 −1
Cov a ( βˆSUR ) = ∑i =1 ∑l=1σ il E ( xtiT• xtl• ) = ∑i =1 ∑l=1 σ il Qxi xl ,
∗ m m m m
(5.108)
onde Qxi xl = E ( xtiT• xtl • ) .
O respectivo estimador consistente é, então,
−1 −1
) = ∑i =1 ∑l =1σˆ il S xi xl = n ∑i =1 ∑l =1σˆ il X •Ti X • l
^
Cov a ( βˆSUR
∗ m m m m
(5.109)
−1
= n X T (Σˆ −1 ⊗ I n ) X .
∑ ∑
m m
T
x x = X tT• X t • ;
i =1 ti • ti •
x y = X tT• ytT• ;
T
i =1 ti • ti
∑ ∑ ∑ ∑
m m m m
i =1
T
c x x
l =1 il ti • tl •
= X tT•C X t • ; i =1
c x y = X tT•C ytT• ,
T
l =1 il ti • tl
= { X ( I n ⊗ Σˆ ) X }−1 X T ( I n ⊗ Σˆ −1 )Y ;
T −1
Em (5.111), não é difícil provar que E ( X tT•Σ −1 X t • ) é invertível. Com efeito, no-
tando que xti • = zt • Di , obtém-se, sucessivamente,
Pooled MQ
1 T 1 m
X X = ∑i =1 X •Ti X •i = ∑i =1 S xi xi ,
m
S xx =
n n
1 T 1 m
X Y = ∑i =1 X •Ti y•i = ∑i =1 sxi yi .
m
sxy =
n n
O estimador PMQ também pode ser obtido como caso particular do estimador
SUR. Com efeito, basta considerar que, em (5.106) ou (5.107), se tem σˆ il = 1 ( i = l ) e
σˆ il = 0 ( i ≠ l ).
Note-se, também, que no estimador SUR a matriz dos pesos é
−1
~ 1 ~ ~
Wˆ = Sˆ −1 = Σˆ −1 ⊗ S zz−1 = Σˆ −1 ⊗ Z T Z ,
n
e no estimador PMQ é
−1
~ 1 ~ ~
Wˆ = I m ⊗ S zz−1 = I m ⊗ Z T Z .
n
Para o estimador Pooled MQ, que é um estimador MGM com uma escolha não
óptima de Ŵ , a fórmula correcta para a matriz das covariâncias assintóticas é da forma
(4.59) [ver capítulo 4],
(QzxT W Qzx ) −1 QzxT W S W Qzx (QzxT W Qzx ) −1 ,
~ ~
onde W = I m ⊗ Qzz−1 = I m ⊗ E ( ztT• zt • ) −1 , S = Σ ⊗ Qzz−1 = Σ ⊗ E ( ztT• zt • ) −1 .
Notando que
~
Qzx1 Qzz D1
~
Qzx2 Q zz D2
Qzx = = ,
M M
~
Qzxm Qzz Dm
(5.117)
T ˆ
= n ( X X ) { X (Σ ⊗ I ) X } ( X X ) .
T −1
n
T −1
Para m = 2 , vem
Capítulo 5 – Sistemas de Equações de Regressão Linear 69
^
Cov a ( βˆPMQ ) = n ( X •T1 X •1 + X •T2 X • 2 ) −1 (σˆ11 X •T1 X •1 + σˆ12 X •T1 X • 2 + σˆ 21 X •T2 X •1 + σˆ 22 X •T2 X • 2 )
× ( X •T1 X •1 + X •T2 X • 2 ) −1.
Na expressão (5.119), é fácil mostrar que E ( X tT• X t • ) tem inversa. Basta con-
siderar o raciocínio a que se recorreu para demonstrar que E ( X tT•Σ −1 X t • ) é invertível,
substituindo Σ −1 por I m .
Considere-se a seguinte questão: qual é o estimador MGM eficiente de β (coe-
ficientes comuns) que explora as condições E ( xti •uti ) = 0 (i = 1, 2, K , m ) ? Este estima-
dor é dado por (5.98), com zti • = xti • , onde Ŵil é o bloco (i, l) de Sˆ −1 , com a matriz Ŝ
dada por (5.21) [(5.61), no caso de homocedasticidade condicionada]. Mesmo na hipó-
tese de homocedasticidade condicionada, este estimador não coincide com: o estimador
MQ3P com coeficientes comuns porque os instrumentos não são os mesmos para todas
as equações; o estimador SUR com coeficientes comuns, uma vez que não se utilizam
as mesmas condições de ortogonalidade; o estimador PMQ, a não ser que Σ̂ = I m .
Considere-se o modelo SUR com coeficientes comuns e, em vez de (5.83), a
condição de ortogonalidade seguinte: E ( xt1•ut1 + xt 2•ut 2 + L + xtm •utm ) = 0 .
Como a contrapartida amostral é
~ 1
g• n ( β ) = ∑t =1 xtT1• yt1 + ∑t =1 xtT2• yt 2 + L + ∑t =1 xtm
n n n T
• ytm
n
1 ~
− ∑t =1 xtT1• xt1• + ∑t =1 xtT2• xt 2• + L + ∑t =1 xtT1m xtm • β
n n n
n
1 1 ~
= ( X •T1 y•1 + X •T2 y• 2 + L + X •Tm y• m ) − ( X •T1 X •1 + X •T2 X • 2 + L + X •Tm X • m ) β = 0,
n n
obtém-se o estimador PMQ, (5.113).
Capítulo 5 – Sistemas de Equações de Regressão Linear 70
Embora pareça que o modelo SER com coeficientes comuns, (5.94), é um caso
particular de (5.2), este pode ser apresentado na forma (5.94) com uma adequada redefi-
nição dos regressores. Considere-se o exemplo seguinte:
Para apresentar a questão em termos gerais, o modelo (5.94) pode ser escrito na
forma seguinte: yti = xti∗ • β∗ + uti , para não se confundir com o modelo (5.2).
A hipótese SER.1 pode considerar-se um caso especial de SER.1’, se se fizer
β •1
M
β•,i −1
xti∗• = [ 0 L 0 xti • 0 L 0 ] e β∗ = β•i .
β
•,i +1
M
β
•m
Com efeito, basta notar que xti∗ • β∗ = xti • β (i = 1, 2, K , m ) .
A hipótese SER.4 é um caso especial de SER.4’, pois basta verificar que
E( zT x∗ ) E( zT x ) O L O
t1• t1•
t1• t 1•
E ( z tT2• xt∗2• ) O E ( z T
x
t 2• t 2• ) L O
Qzx∗ = = = Qzx .
M M M M
E ( z tm
T
x ∗
) O O L E ( z tm • tm •
T
x )
• tm •
Como, também, se tem
Capítulo 5 – Sistemas de Equações de Regressão Linear 71
1 n T ∗ 1 n T
∑t =1 zt1• xt1• ∑t =1 zt1• xt1• O L O
n n
1 n T ∗ 1 n T
∑t =1 zt 2• xt 2• O ∑ zt 2• xt 2• L O
∗ n n t =1 =S ,
S zx = = zx
M M M M
1 ∑n ztm T
x ∗ O O L
1 n T
∑ tm• tm•
z x
n t =1 • tm• n t =1
o estimador (5.98), βˆ ∗ (Wˆ ) , reduz-se a (5.15), βˆ (Wˆ ) .
Capítulo 5 – Sistemas de Equações de Regressão Linear 72
PALAVRAS-CHAVE
Coeficientes comuns Identificação (exacta)
Condição de característica Inferência estatística
Consistência Inferência estatística sobre combinações
lineares de coeficientes de regressão
Correlação contemporânea Inferência estatística sobre um coeficiente
de regressão isolado
Dados de painel Instrumentos comuns
Diferença-martingala Linearidade
Equações não “relacionadas” Método MQ2P
Erro de amostragem Método generalizado dos momentos
Estacionaridade ergódica Modelo regressão multivariada
Estatística de Sargan Modelo SER (com coeficientes comuns)
Estimação conjunta Normalidade assintótica
Estimação separada Ortogonalidade
Estimador FIVE Princípio da razão de verosimilhanças
Estimador MGM (eficiente) Regressor endógeno
Estimador MQ3P Regressor pré-determinado
Estimador Pooled MQ Regressores comuns
Estimador SMQ Sistema de equações de regressão linear
Estimador SMQ2P Sobre-identificação
Estimador SMQG Teste de endogeneidade
Estimador SMQGF Teste de hipóteses não lineares
Estimador SUR Teste de sobre-identificação (de Hansen)
Estimador SVI Teste de um subconjunto de condições de
ortogonalidade
Heterocedasticidade condicionada Variável instrumental
Homocedasticidade condicionada
Capítulo 5 – Sistemas de Equações de Regressão Linear 73
PERGUNTAS DE REVISÃO
yt 2 = β12 + β 22 yt 3 + β 32 zt 2 + β 42 zt 3 + ut 2
y = β + β y + β z + β z + u ,
t 3 13 23 t 4 33 t 3 43 t 4 t3
yt 2 = β12 + β 22 yt1 + β 32 yt 3 + β 42 zt 2 + β 52 z t 3 + ut 2
y = β + β y + β z + β z + u ,
t 3 13 23 t 4 33 t 3 43 t 4 t3
yt 2 = β12 + β 22 yt 3 + β 32 zt 2 + β 42 zt 3 + ut 2
y = β + β y + β z + β z + u ,
t 3 13 23 t 4 33 t 3 43 t 4 t3
yt 2 = β12 + β 22 yt1 + β 32 yt 3 + β 42 zt 2 + β 52 z t 3 + ut 2
y = β + β y + β z + β z + u ,
t 3 13 23 t 4 33 t 3 43 t 4 t3
25. Seja o sistema de equações de regressão linear, yti = xti• β •i + uti (i = 1, 2,K, m) .
Em que condições este modelo se reduz ao modelo SUR?
26. Considere um sistema de equações de regressão linear. Em que condições este sis-
tema é um modelo de regressão multivariada?
27. Considere o modelo SUR. Em que condições este modelo se reduz ao modelo de
regressão multivariada.
28. Considere o modelo SER no contexto da homocedasticidade condicionada. Em
que condições há equivalência numérica entre o estimador MQ3P e o estimador
MQ2P separado.
29. Considere um modelo SER com coeficientes comuns e com duas equações. Apre-
sente a respectiva condição de característica.
30. Considere o seguinte sistema de equações de regressão linear:
yt1 = β11 + β 21 yt 2 + β 31 zt1 + β 41 z t 2 + ut1
yt 2 = β12 + β 22 yt 3 + β 32 z t 2 + ut 2 .
6.1 - Introdução
Neste capítulo vai considerar-se uma situação particular do modelo SER, em que
pelo menos uma variável explicativa endógena é também variável explicada ou, de for-
ma equivalente, pelo menos uma variável explicada (obviamente endógena) é variável
explicativa de outra variável.
de trabalhador para trabalhador, a equação da oferta podia ser estimada mesmo sem
considerar a equação da procura.
Em geral, é desejável que num MES as equações gozem de autonomia e repre-
sentem relações de causalidade. Por exemplo, nos modelos de procura e oferta de um
mercado em equilíbrio, a autonomia e a causalidade são características inerentes às
equações da procura e da oferta. No entanto, existem muitas situações em que tal não se
verifica. Por exemplo, considere-se que se pretende modelar a escolha individual entre
horas de trabalho em actividades legais (variável trab) e horas gastas em actividades
criminosas (variável crime). Suponha-se que os factores exógenos que explicam esta
escolha são o salário (o rendimento do trabalho legal), o rendimento das actividades cri-
minosas, outros rendimentos, a probabilidade de ser preso, a probabilidade de ser con-
denado, o número esperado de anos de prisão, etc. Além destes factores, está subjacente
à escolha um conjunto de factores demográficos, como o número de anos de escolarida-
de, o número de anos de experiência profissional em actividades legais, o género, a raça,
etc. Nestas condições, podem especificar-se duas equações estruturais: trab em função
dos factores exógenos, dos factores demográficos e dos factores não observados; crime
em função dos mesmos factores:
trab = f1 (factores exógenos, factores demográficos, factores não observáveis)
crime = f 2 (factores exógenos, factores demográficos, factores não observáveis).
É possível que alguns dos factores que explicam trab e crime não possam ser
tratados como exógenos pelo econometrista, pois os factores não observados que afec-
tam a escolha entre trab e crime podem estar correlacionados com alguns factores ob-
servados. Mesmo assim, cada equação do modelo tem uma interpretação causal. Contu-
do, o modelo proposto não é um modelo de equações simultâneas.
Considere-se, no entanto, o seguinte modelo de equações simultâneas:
trab = f1 (crime, factores exógenos, factores demográficos, factores não observáveis)
crime = f 2 (trab, factores exógenos, factores demográficos, factores não observáveis).
Facilmente se conclui que nenhuma das equações é autónoma, pois cada uma
traduz o comportamento dos mesmos agentes económicos (as pessoas que escolhem en-
tre horas de trabalho legal e horas dedicadas a actividades criminosas), não se podendo
fazer uma interpretação causal de qualquer das equações; por exemplo, não tem signifi-
cado estudar o efeito da variação do salário sobre as horas gastas em actividades crimi-
nosas, supondo constante as horas de trabalho legal, porque qualquer pessoa ajusta o
tempo gasto nas duas actividades quando varia o salário.
A confusão entre equações simultâneas e equações estruturais não é invulgar
na literatura da econometria aplicada. De facto, é frequente encontrar aplicações econo-
métricas, como as do exemplo da escolha entre trab e crime, em que as equações do
MES não gozam de autonomia, e, no entanto, fazem-se interpretações causais abusivas.
O exemplo anterior mostra que pode haver modelos com equações estruturais que não
são modelos de equações simultâneas, e modelos de equações simultâneas que não têm
equações estruturais.
Capítulo 6 – Modelos de Equações Simultâneas 5
Fazendo
γ γ L γ 1m δ δ L δ
11 12 11 12 1m
γ 21 γ 22 L γ 2 m δ 21 δ 22 L δ 2 m
Γ= , ∆= ,
M M M M M M
γ m1 γ m 2 L γ mm δ q1 δ q 2 L δ qm
onde Γ é quadrada de ordem m e ∆ é de tipo q × m , pode escrever-se
(6.2) yt •Γ + zt • ∆ = ut • ,
ou
yt •γ •l + zt •δ • l = utl ( l = 1,2, K , m ),
onde
π π L π
11 12 1m
π 21 π 22 L π 2m
Π = − ∆ Γ −1 =
M M M
π q1 π q 2 L π qm
é a matriz q × m dos coeficientes da forma reduzida, e
vt • = ut •Γ −1 = [ vt1 vt1 L vtm ]
(6.5) Υ= Z Π + V ,
onde V = U Γ −1 é a matriz n × m (de elemento genérico vti ) das variáveis residuais da
forma reduzida. Cada equação de (6.5) pode ser apresentada da seguinte maneira:
y•i = Zπ •i + v•i ,
Exemplo 6.2 – Considere-se o modelo de procura e oferta de um certo produto (ver sec-
ção 4.2 do capítulo 4),
qtd = α 0 + α1 pt + utd (equação da procura)
s
qt = β 0 + β1 pt + ut (equação da oferta ),
s
onde qt = qtd = qts (quantidade transaccionada). Este modelo de duas equações simultâ-
neas (há interdependência entre qt e pt ) é completo porque tem duas variáveis endóge-
nas, qt e pt , e duas equações.
Considere-se o modelo (4.18),
qt = α 0 + α1 pt + α 2 rt + utd (equação da procura)
qt = β 0 + β 1 pt + β 2 z t + u t
s
(equação da oferta ),
α β
0 0 β
β•1 = α1 , β• 2 = β1 , β = •1 , ut1 = utd , ut 2 = uts e zt • = [ 1 rt zt ] ( q = 3 ).
α β β• 2
2
2
e, portanto,
− α 0 − β0
1 1
yt • = [ qt pt ], zt • = [ 1 rt zt ], Γ = , ∆ = − α 2 0 e ut • = [ utd uts ].
− α1 − β1 0 −β
2
t α1 − β1 α1 − β1 t α1 − β1 t α1 − β1
Então,
α β − α β β0 − α 0
1 0 0 1
α1 − β1 α1 − β1
αβ β2 α u s − β u d uts − utd
Π= 1 2
e vt • = 1 t 1 t
.
α − β α − β1 α − β α1 − β1
1 1 1 1 1
− α 2 β1 −
α2
α1 − β1 α1 − β1
∇
α0 α1 1
Ct = 1 − α1 + 1 − α1 I t + 1 − α1 ut
Y = α 0 + 1 I + 1 u ,
t 1 − α1 1 − α1 t 1 − α1 t
onde
α0 α0
1 − α 1 − α1 1 1
Π= e vt • =
1
ut u
α1 1 1 − α1 1 − α1 t
1 − α1 1 − α1
∇
yt 2 = β1 + β 2 yt1 + β 3 zt1 + β 4 zt 2 + β5 zt 3 + ut 2
y = γ + γ y + γ z + γ z + γ z + γ z + u .
t 3 1 2 t 2 3 t1 4 t 2 5 t 3 6 t 4 t 3
γ
β 1
α 1
γ 2
1 β2 β
α γ •1
2
β •1 = β• 2 β3
, = , β = 3
, β = β• 2 ( k = 15 ).
α3 •3 γ 4
β4 β
•3
α 4 γ 5
β
5 γ 6
Fazendo
y −α y −α y −α −α z = u
t1 2 t2 3 t3 1 4 t1 t1
yt 2 − β 2 yt1 − β1 − β3 zt1 − β 4 zt 2 − β5 zt 3 = ut 2
y − γ y − γ − γ z − γ z − γ z − γ z = u ,
t 3 2 t 2 1 3 t1 4 t 2 5 t 3 6 t 4 t3
onde:
− Siy é a matriz m × mi de selecção das variáveis endógenas explicativas incluídas na
equação i [em cada coluna desta matriz existe um e só elemento igual a 1 (os outros
elementos são nulos), que corresponde a cada variável endógena explicativa incluída
na equação i];
Capítulo 6 – Modelos de Equações Simultâneas 13
Equação 2
yt 2• = [ yt1 ] , yt∗2• = [ yt 3 ] , zt 2• = [ 1 zt1 zt 2 zt 3 ] , zt∗2• = [zt 4 ] ,
β1
β
γ ( 2 ) = [β 2 ] , δ ( 2) = 3 , m2 = 1 , m2∗ = 1 , q2 = 4 , q2∗ = 1 ,
β4
β
5
1 0 0 0
1 0 1 0 0
S2y = 0 e S 2z = 0 0 1 0 .
0 0 0 0 1
0 0 0 0
Equação 3
yt 3• = [ yt 2 ] , yt∗3• = [ yt1 ] , zt 3• = [ 1 zt1 zt 2 zt 3 zt 4 ] , zt∗3• não existe,
γ 1
γ
3
γ (3) = [γ 2 ], δ (3) = γ 4 , m3 = 1 , m3∗ = 1 , q3 = 5 , q3∗ = 0 ,
γ
5
γ 6
Capítulo 6 – Modelos de Equações Simultâneas 14
1 0 0 0 0
0 0 1 0 0 0
S3y = 1 e S3z = 0 0 1 0 0 .
0 0 0 0 1 0
0 0 0 0 1
∇
6.4 - Identificação
= E ( ztT• zt • ) Π i Siz .
Capítulo 6 – Modelos de Equações Simultâneas 15
e que ztq não aparece no modelo, a última linha de Π i é nula, bem como a de Siz . Lo-
go, a última linha de [ Π i Siz ] é nula. Então, eliminar ztq do vector zt • corresponde a
eliminar a última linha de [ Π i Siz ], o que não altera a sua característica.
O estudo da identificação pode ser generalizado de forma a incorporar quais-
quer restrições sobre os parâmetros da forma estrutural. Para isso, vai considerar-se a
forma reduzida, yt • = zt •Π + vt • , onde Ω = E (vtT•vt • ) . Pode concluir-se imediatamente
que Π e Ω são identificados, uma vez que E ( ztT•vt • ) = O e Qzz = E ( ztT• zt • ) é não singu-
lar [notar, também, que os parâmetros da forma reduzida podem ser estimados, de forma
consistente, pelo método MQ]. Põe-se, então, a questão de saber se a partir dos parâme-
tros da forma reduzida, (Π, Ω) , se podem determinar, de forma unívoca, os parâmetros
estruturais, (Γ, ∆, Σ) , usando as relações entre os dois tipos de parâmetros: Π Γ + ∆ = O
e Σ = ΓT Ω Γ .
Como o número de parâmetros estruturais é m 2 + qm + m(m + 1) / 2 [ m2 parâme-
tros em Γ ; qm parâmetros em ∆ ; m(m + 1) / 2 parâmetros em Σ ], e o número de igual-
dades é qm + m(m + 1) / 2 [ qm igualdades em Π Γ + ∆ = O ; m(m + 1) / 2 igualdades em
Σ = ΓT ΩΓ ], são necessárias, pelo menos, m 2 restrições adicionais sobre os parâmetros
estruturais para que estes sejam identificados, isto é, sejam determinados de forma uní-
voca. Quando não se dispõe deste número de restrições não se podem identificar os pa-
râmetros estruturais.
Os tipos de restrições sobre os parâmetros estruturais são os seguintes:
a) Restrições de normalização (cada coluna da matriz Γ tem um elemento igual a 1,
ou seja, em cada equação há uma variável endógena que tem coeficiente unitário).
b) Restrições de exclusão (alguns elementos das matrizes Γ e ∆ são nulos, ou seja,
algumas variáveis endógenas ou pré-determinadas não estão incluídas em certas
equações).
c) Restrições lineares intra-equações (restrições lineares sobre os coeficientes de uma
dada equação estrutural).
Capítulo 6 – Modelos de Equações Simultâneas 16
onde
Γ O
Ri = Ri′ Ri′′ e é não singular.
∆ I q
Como
− Ri′′ I ri
Iq O
é não singular, vem
Α − Ri′′ I r1 O I q R Φ O
r = r = r i = r ( Ri Φ ) + q .
R I O R Φ R′′ O I
i q i i q
Donde, r ( Ri Φ ) + q = m + q − 1 ou r ( Ri Φ ) = m − 1 [esta condição só pode ser sa-
tisfeita se r ( Ri ) ≥ m − 1 , que é a condição de ordem já conhecida].
Em resumo:
1) A equação i não é identificável se e só se r ( Ri Φ ) < m − 1 . Pode, então, dizer-se que a
equação i é sub-identificada. A sub-identificação surge, evidentemente, quando se
tem r ( Ri ) < m − 1 . Nenhum método de estimação fornece estimadores consistentes
dos coeficientes da equação i.
2) A equação i é exactamente identificada se e só se r ( Ri Φ ) = m − 1 e r ( Ri ) = m − 1 .
Neste caso, os coeficientes estruturais podem ser expressos, de forma única, em fun-
ção dos coeficientes da forma reduzida.
Capítulo 6 – Modelos de Equações Simultâneas 18
Exemplo 6.7 – No exemplo 6.5, a matriz dos parâmetros estruturais é dada por
1 − β2 0
− α 2 1 −γ2
− α3 0 1
− α1 − β1 − γ1
Φ= .
− α 4 − β3 − γ3
0 − β4 −γ4
0 − β5 − γ5
0 0 −γ6
α2 − β2
− α3 − β3
− α − β 4
4
Equação 1:
R1= [ 0 0 1 1 0 0] ; R1Φ = [ 0 − β 2 ] .
Como r ( R1Φ ) = 1 e r1 = r ( R1 ) = 1 , a equação 1 é exactamente identificada.
Equação 2:
0 0 1 0 0 0 − α2 0
R2 = ; R Φ = .
− 0.5α1 + 2α 2 − α 3 0
2
0 0 .5 0 2 1 0
ficação está em considerar que vectores f•i da forma ci e•i são os únicos que satisfazem
a condição ( R1Φ ) f•i = 0 . Se esta condição é verdadeira para vectores f•i ≠ ci e•i , não há
possibilidade de identificar φ•i .
Afirmar que ( R1Φ ) f•i = 0 se verifica apenas para f•i = ci e•i , significa que o grau
de indeterminação do sistema homogéneo ( R1Φ ) f•i = 0 é igual a 1 (o respectivo espaço
das soluções tem dimensão 1), ou seja, a matriz do sistema, R1Φ , tem característica
igual a m − 1 . A indeterminação é levantada quando se considera a restrição de normali-
zação (pelo menos um dos coeficientes é igual a 1). Reencontra-se a condição de ca-
racterística para a identificação, r ( Ri Φ ) = m − 1 .
Seguidamente vai utilizar-se a metodologia anterior para estudar a identificação
quando existem restrições inter-equações. Considere-se o seguinte modelo:
yt1 = α1 yt 2 + α 2 zt1 + ut1
(6.9)
yt 2 = β1 yt1 + β 2 zt1 + β3 zt 2 + ut 2 .
Facilmente se verifica que a equação 1 é identificada, e que a equação 2 é sub-
-identificada. Contudo, com a informação adicional, α 2 + β 2 = 0 , fica garantido que a
equação 2 passa a ser identificada.
Fazendo
f f
F = 11 12 ,
f 21 f 22
vem
1 − β1 f11 f12 f11 − β1 f 21 f12 − β1 f 22
ΓF = = ,
− α1 1 f 21 f 22 − α1 f11 + f 21 − α1 f12 + f 22
− α 2 − β 2 f11 f12 − α 2 f11 − β 2 f 21 − α 2 f12 − β 2 f 22
∆F = = .
0 − β3 f 21 f 22 − β 3 f 21 − β3 f 22
Se a estrutura transformada (Γ∗ , ∆∗ , Σ∗ ) é admissível, verifica as mesmas restri-
ções de que a estrutura (Γ, ∆, Σ) . Então,
f11 − β1 f 21 = 1
− α1 f12 + f 22 = 1
− β3 f 21 = 0
(α f + β f ) + (α f + β f ) = 0.
2 11 2 21 2 12 2 22
ou
π 12 π 21
β1 = 1 + π 1 − π
11 22
(6.13)
β = π − π 1 + π 12 1 − π 21 ,
21
3 π 11 π 22
22
α1
yt1 yt 2 zt1 0 0 α 2 ut1
(6.15) y = 0 − z +
yt1 zt 2 β1 ut 2
,
t2 t1
β3
onde
α1
α
y y zt1 0 0 u
ytT• = t1 , X t • = t 2 , β = 2 e utT• = t1 .
yt 2 0 − zt 1 yt1 zt 2 β1 ut 2
β3
Como o vector dos instrumentos comuns é zt • = [ zt1 zt 2 ] , tem-se
z z 0 0
Z t • = I 2 ⊗ zt • = t1 t 2
0 0 zt1 zt 2
e
E ( zt1 yt 2 ) E ( zt21 ) 0 0
E ( zt 2 yt 2 ) E ( zt1 zt 2 ) 0 0
= T
Qzx E ( Z t • X t • ) = .
0 − E ( zt21 ) E ( zt1 yt1 ) E ( zt1 zt 2 )
0 − E ( zt1 zt 2 ) E ( zt 2 yt1 ) E ( zt22 )
nula, σ 12 = 0 . Dado que se tem uma restrição sobre Σ , importa, para além de ΓF e de
∆ F , considerar a matriz das covariâncias da estrutura transformada,
f11 f 21 σ 11 0 f11 f12 f112σ 11 + f 212σ 22 f11 f12σ 11 + f 21 f 22σ 22
F ΣF =
T
= .
f f
12 22 0 σ f
22 21 f 22 f f σ + f f σ
11 12 11 21 22 22 f 2
σ
12 11 + f 2
σ
22 22
Então,
f11 − β1 f 21 = 1
− α f + f = 1
1 12 22
− β
3 21 f = 0
f11 f12σ 11 + f 21 f 22σ 22 = 0.
E ( z y ) β + E ( z z ) β + E ( z 2 ) β = E ( z y ).
t 2 t1 1 t1 t 2 2 t2 3 t2 t2
Como o sistema formado pelas cinco equações é não linear nos parâmetros, as
condições sobre os momentos são não lineares. Nestas circunstâncias, o estimador ade-
quado é o estimador MGM não linear, que vai ser estudado no capítulo 8.
Os modelos de equações simultâneas que vão ser considerados nesta secção são
modelos não lineares nas variáveis endógenas, embora sejam lineares nos parâmetros.
Estes modelos podem ser formalizados da seguinte maneira:
(6.16) yti = hi ( yt(•i ) , zt • ) β •i + uti ( i = 1,2, K , m ),
onde:
− yt(i•) = [ yt1 yt 2 L yt ,1−1 yt ,i +1 L ytm ] é vector 1× (m − 1) das variáveis endógenas
originais, excluindo a variável explicada da equação i, yti .
− zt • é vector de tipo 1× q de todas as variáveis pré-determinadas originais.
− hi ( yt(•i ) , zt • ) é uma função vectorial, de tipo 1× ki , de yt(i•) e de zt • .
− E (uti | zt • ) = 0 .
Este sistema é linear nos parâmetros, o que é importante para permitir aplicar os
métodos já conhecidos de estimação com variáveis instrumentais. No entanto, a presen-
ça do regressor endógeno yt22 na primeira equação torna o modelo não linear nas va-
riáveis endógenas.
Facilmente se conclui que a forma reduzida correspondente ao modelo (6.17)
mostra que yt 2 é uma função não linear de zt1 , zt 2 , ut1 e ut 2 . Com efeito, considerando
a segunda equação, tem-se yt1 = ( yt 2 − β 2 zt 2 − ut 2 ) / β1 ; substituindo na primeira equação,
resulta a seguinte equação do segundo grau em yt 2 :
α1β1 − 1 β 1
α 2 yt22 + yt 2 + α 3 zt1 + 2 zt 2 + ut1 + ut 2 = 0 ,
β1 β1 β1
cuja fórmula resolvente é bem conhecida. Resolvendo esta equação, é possível obter de
forma explícita a forma reduzida, embora não valha a pena fazer os cálculos. Supondo
que α 2 ≠ 0 , deduz-se imediatamente que E ( yt1 | zt1 , zt 2 ) , E ( yt22 | zt1 , zt 2 ) e E ( yt 2 | zt1 , zt 2 )
não são lineares em zt1 e zt 2 . Estes factos têm importantes implicações na identificação
da primeira equação de (6.17) e na escolha dos instrumentos.
Outro exemplo de modelo não linear nas variáveis endógenas, em que nem se-
quer é possível obter explicitamente a forma reduzida, é dado por
yt1 = α1 ln( yt 2 ) + α 2 zt1 + ut1
(6.18)
yt 2 = β1 yt1 + β 2 yt1 + β3 zt 2 + ut 2 ,
2
onde:
− zt • = [ zt1 zt 2 ];
− h1 ( yt 2 , zt • ) =[ ln( yt 2 ) z t1 ], h2 ( yt1 , zt • ) =[ yt1 yt21 zt 2 ];
− E (ut1 | zt1 , zt 2 ) = 0 e E (ut 2 | zt1 , zt 2 ) = 0 .
onde a terceira equação é a projecção linear MQ de yt22 sobre zt1 , zt 2 , zt21 , zt22 e zt1 zt 2
(forma reduzida de yt 3 ). A identificação da primeira equação do modelo (6.24) pode ser
feita com a condição de característica habitual. Deve notar-se que o estudo da identifica-
ção pode ser feito considerando o modelo incompleto formado apenas pelas duas pri-
Capítulo 6 – Modelos de Equações Simultâneas 30
meiras equações ( m = 2 ), desde que considere que as variáveis instrumentais são zt1 ,
zt 2 , zt21 , zt22 e zt1 zt 2 . Este procedimento é equivalente àquele que se podia fazer com as
três equações ( m = 3 ). Assim, tem-se
1 − β1
− α
1 1
− α 2 0 0 0 0 0 1 0 0 0 0 − β 2
0 0 0
− α3 0 0 0 0 0 1 0 0
Φ= , R = e R1Φ = .
0 − β 2 1 0 0 0 0 0 0 1 0 0 0
0 0 0 0 0 0 0 0 0 1 0 0
0 0
0 0
Sem dificuldade se mostra que a condição de Fisher é suficiente, mas não é ne-
cessária. Com efeito, considere-se o seguinte modelo:
yt1 = α1 yt 2 + α 2 yt22 + α 3 zt1 + α 4 zt 2 + ut1
(6.25)
yt 2 = β1 yt1 + β 2 zt 2 + ut 2 .
Se α 2 = 0 , a primeira equação deste modelo não é identificada, mesmo que se
pretenda acrescentar à lista das variáveis instrumentais iniciais, ( zt1 , zt 2 ), os instrumen-
tos zt21 , zt22 e zt1 zt 2 . A primeira equação só é identificada se α 2 ≠ 0 , uma vez que neste
caso é possível considerar zt1 , zt 2 , zt21 , zt22 e zt1 zt 2 como instrumentos de yt 2 e yt22 .
Numa situação destas (em que a equação só é identificada com a introdução, tal-
vez artificial, de variáveis endógenas não lineares, que são funções das variáveis endó-
genas originais), diz-se que se tem uma situação de identificação deficiente. Também
se diz que a respectiva equação do modelo é deficientemente identificada. Se no modelo
(6.24) não figura originalmente yt22 , a primeira equação não é identificada; a introdução
desta variável, que porventura foi introduzida apenas para permitir a identificação, é,
muitas vezes, uma solução insatisfatória do problema porque pode não haver fundamen-
to teórico para justificar que yt22 é variável explicativa de yt1 . De salientar também que
a identificação feita nos moldes descritos não permite testar H 0 : α 2 = 0 , uma vez que
não há identificação quando a hipótese nula é verdadeira.
Existem muitos outros modelos em que a identificação pode ser verificada medi-
ante um raciocínio semelhante ao do método de Fisher. É o caso dos modelos com in-
teracções entre uma variável endógena e uma variável pré-determinada ou dos modelos
com interacções entre duas variáveis endógenas. Em qualquer dos casos, o modelo com
interacções é identificado se o modelo sem interacções o for.
Genericamente, uma boa prática consiste em verificar se é identificada a versão
mais geral de modelo linear que se pode obter a partir do modelo não linear. Em caso
afirmativo, a versão não linear é provavelmente identificada. Se a versão linear não é
identificada, há que tomar as precauções devidas porque a identificação depende da pre-
sença de não linearidades, que normalmente não pode ser testada.
A partir do momento em que o modelo está identificado, o que pressupõe que os
instrumentos estão razoavelmente escolhidos, pode-se estimar os parâmetros pelo mé-
todo MGM ou por um dos seus casos particulares mais adequados. Mais uma vez se de-
ve pesar a conveniência de utilizar um estimador conjunto ou um estimador separado,
atendendo ao trade-off entre eficiência assintótica e robustez. No caso de homocedasti-
cidade condicionada, o método de estimação conjunta preconizado é o método MQ3P;
optando, por um método separado, deve utilizar-se o estimador MQ2P.
É importante notar que estes métodos de estimação devem aplicar-se directa-
mente às equações estruturais do modelo. Para ilustrar esta preocupação, suponha-se
que, por exemplo, se pretende estimar, pelo método MQ2P, a primeira equação do mo-
delo (6.24). Para estimar de forma correcta esta equação deve utilizar-se a fórmula do
estimador MQ2P [ver, por exemplo, (5.52)]. Poderia supor-se que também seria admis-
sível estimar a equação fazendo os dois passos seguintes:
Capítulo 6 – Modelos de Equações Simultâneas 32
1º) Fazer a regressão MQ de yt 2 sobre zt1 , zt 2 , zt21 , zt22 e zt1 zt 2 , de forma a obter os
respectivos valores ajustados, yˆt 2 .
2º) Fazer a regressão MQ de yt1 sobre yˆt 2 , yˆt22 e zt1 .
Como
xt1• = [ 1 lsalart educt idadet rendt ] e xt 2• = [ 1 htrabt educt expert empct ],
as duas equações são identificadas. De facto, tem-se: a matriz Qz1 x1 = E ( ztT1• xt1• ) é de ti-
po 6 × 5 , e r (Qz1 x1 ) = 5 ; a matriz Qz 2 x2 = E ( ztT2• xt 2• ) é de tipo 5 × 5 , e r (Qz 2 x 2 ) = 5 .
Os métodos de estimação separada podem ser aplicados sem dificuldade, no-
meadamente o método MQ2P (no caso de homocedasticidade condicionada). Contudo,
no que diz respeito aos métodos de estimação conjunta, não é possível utilizar os mé-
todos de estimação que pressupõem instrumentos comuns, como é o caso do método
MQ3P. Neste método, exige-se que todos os instrumentos do modelo sejam ortogonais
a todas as variáveis residuais. No exemplo em estudo, educ não é ortogonal à variável
residual da segunda equação: E (educt ut 2 ) ≠ 0 . O método recomendado é obviamente o
método MGM eficiente (com Wˆ = Sˆ −1 ), onde a matriz Z t • é dada por
z 0 1 educt idadet rendt expert empct 0 0 0 0 0
Z t • = t1• = .
0 zt 2 • 0 0 0 0 0 0 1 idadet rendt expert empct
As igualdades E (ut21 ztT1• zt1• ) = σ 11E ( ztT1• zt1• ) e E (ut22 ztT2• zt 2• ) = σ 22 E ( ztT2• zt 2• ) pres-
supõem que E (ut21 | zt1• ) = σ 11 e que E (ut22 | zt 2• ) = σ 22 , respectivamente. Estas condições
são razoáveis, uma vez que dizem respeito a cada uma das equações individualmente
consideradas. Também se sabe que a igualdade E (ut1ut 2 ztT1• zt 2• ) = σ 12 E ( ztT1• zt 2• ) é impli-
cada por E (ut1ut 2 | zt1• , zt 2• ) = σ 12 . Contudo, esta hipótese é pouco credível porque a va-
riável residual ut 2 está correlacionada com educt , um dos elementos de zt1• . Nestas
condições, há razões fortes para supor que E (ut1ut 2 | zt1• , zt 2• ) não é constante.
Um caso em que se verifica E (ut1ut 2 ztT1• zt 2• ) = σ 12 E ( ztT1• zt 2• ) é quando
E (ut1 | ut 2 , zt1• , zt 2• ) = 0 .
E (ut1ut 2 ztT1• zt 2• ) = E{E (ut1ut 2 ztT1• zt 2• | ut 2 , zt1• , zt 2• )} = E{E (ut1 | ut 2 , zt1• , zt 2• ) ut 2 ztT1• zt 2• } = 0 ,
PALAVRAS-CHAVE
Autonomia Método generalizado dos momentos
Causalidade Modelo completo
Completude Modelo de equações simultâneas
Condição de característica Modelo não linear nas variáveis endógenas
Condição de ordem Modelo de regressão multivariada
Equação de comportamento Modelo SER
Equação de definição Ortogonalidade
Equação de equilíbrio Parâmetro da forma reduzida
Equação estrutural Parâmetro estrutural
Equação institucional Raciocínio contrafactual
Equação técnica Regressão proibida
Equivalência observacional Regressor endógeno
Estimação conjunta Regressor pré-determinado
Estimação separada Relação de causalidade
Estimador MGM (eficiente) Restrição de exclusão
Estimador MQ3P Restrição (linear) inter-equações
Estimador SMQ2P Restrição (linear) intra-equações
Estrutura (admissível) Restrição de normalização
Estruturas equivalentes Restrição de nulidade
Forma estrutural Restrição sobre variâncias e covariâncias
Forma reduzida Simultaneidade
Heterocedasticidade condicionada Sobre-identificação
Homocedasticidade condicionada Sub-identificação
Identificação deficiente Teste de endogeneidade
Identificação (exacta) Teste de hipóteses
Inferência estatística Teste de sobre-identificação
Instrumentos não comuns Valor esperado condicionado estrutural
Interacções Variável instrumental
Matriz de selecção Variável residual
Máxima verosimilhança Transformação linear admissível
Método de Fisher
Capítulo 6 – Modelos de Equações Simultâneas 36
PERGUNTAS DE REVISÃO
1. A que condição deve obedecer um modelo de equações simultâneas para ser com-
pleto?
2. Considere um sistema de equações de regressão com instrumentos comuns e ho-
mocedasticidade condicionada. Em que condições este sistema é um modelo de
equações simultâneas completo?
3. Considere o modelo de equações simultâneas, yt • Γ + z t • ∆ = ui • (com dados sec-
cionais), onde: yt • é o vector 1× m das variáveis endógenas; Γ é a matriz dos res-
pectivos coeficientes; zt • é o vector 1× q das variáveis exógenas; ∆ é a matriz
dos respectivos coeficientes. Enuncie a hipótese que permite obter a respectiva
forma reduzida.
4. Considere o seguinte modelo de equações simultâneas (forma estrutural):
yt1 = β11 + β 21 yt 2 + β 31 zt1 + β 41 zt 2 + ut1
yt 2 = β12 + β 22 yt1 + β 32 zt 2 + β 42 zt 3 + ut 2 .
yt 2 = β12 + β 22 yt1 + β 32 yt 3 + β 42 zt 2 + β 52 z t 3 + ut 2
y = β + β y + β z + β z + u ,
t 3 13 23 t 4 33 t 3 43 t 4 t3
yt 2 = β12 + β 22 yt 3 + β 32 zt 2 + β 42 zt 3 + ut 2
y = β + β y + β z + β z + u ,
t 3 13 23 t 4 33 t 3 43 t 4 t3
yt 2 = β12 + β 22 yt 3 + β 32 zt 2 + β 42 zt 3 + ut 2
y = β + β y + β z + β z + u ,
t 3 13 23 t 4 33 t 3 43 t 4 t3
DADOS DE PAINEL
onde:
− yti é a observação t da variável explicada y para a unidade seccional i;
− xtij é a observação t da variável explicativa x j ( j = 1, 2, K , k ) para a unidade sec-
cional i;
− β j ( j = 1, 2, K , k ) é o coeficiente de regressão de x j (estes coeficientes são os mes-
mos para todas as unidades seccionais);
− uti é a variável residual correspondente à observação t da unidade seccional i.
Fazendo
β1
β
xti • = [ xti1 xti 2 L xtik ] e β = 2 ,
M
βk
o modelo (7.1) pode ser apresentado da seguinte maneira:
(7.2) yti = xti • β + uti (t = 1, 2, K , p ; i = 1, 2, K) .
Deste modo,
− xti• é o vector 1 × k da observação t das variáveis explicativas da unidade seccional i;
− β é o vector k × 1 dos coeficientes de regressão das variáveis explicativas.
Quando o modelo tem termo independente, como acontece muitas vezes, o pri-
meiro elemento de cada vector xti• é igual a 1: xti1 = 1 .
Outra forma de apresentar o modelo é a seguinte:
(7.3) y•i = X •i β + u•i (i = 1, 2, K) ,
onde:
y1i x1i • u1i
y x u
y•i = , X •i = 2i • = [ x•i1 x•i 2 L x•ik ] e u•i = 2i ,
2i
M M M
y x u
pi pi • pi
com
x1ij
x
x•ij = ( j = 1, 2, K , k ) .
2 ij
M
x
pij
Assim:
− y•i é o vector p × 1 (elemento genérico, yti ) das observações da variável explicada y
da unidade seccional i;
− X •i é a matriz p × k (elemento genérico, xtij ; linha genérica, xti • ; coluna genérica,
x•ij ) das observações das variáveis explicativas da unidade seccional i;
Capítulo 7 – Dados de painel 3
− u•i é o vector p × 1 (elemento genérico, uti ) das variáveis residuais relativas à unida-
de seccional i.
Exemplo 7.1 – Considere-se a função de produção [do tipo (4.33); ver capítulo 4, sec-
ção 4.2],
ln(Qti ) = θ 0 + θ1 ln( Lti ) + uti (t = 1, 2, K , p ; i = 1, 2, K) ,
onde: Qti é a quantidade produzida pela empresa i no ano t; Lti é a quantidade de traba-
lho utilizado pela empresa i no ano t.
Tem-se:
ln(Q1i ) 1 ln( L1i )
θ 0 ln(Q2i ) 1 ln( L2i )
yti = ln(Qti ) ; xti • = [ 1 ln( Lti )] ; β = ; y•i = ; X •i = .
θ1 M M M
ln(Q pi ) 1 ln( Lpi )
∇
que se vai colher; em (5.94) ou (5.95), o índice t designa as observações (que podem
ser seccionais ou temporais), em que o número respectivo depende da dimensão da
amostra a seleccionar; em (7.2) ou (7.3), o índice t diz respeito ao número de obser-
vações temporais, que é fixo (t = 1, 2, K , p ) .
4) Pode, então, concluir-se que o modelo com dados de painel [(7.2) ou (7.3)] é formal-
mente um sistema de p equações de regressão lineares.
5) A notação privilegiada para estudar os modelos com dados de painel é a notação B
dos modelos SER.
Exemplo 7.2 – Considere-se o exemplo 5.14, mas supondo, agora, que se dispõe de um
painel de dados de trabalhadores com observações em três anos (anos 1, 2 e 3) das va-
riáveis salar, educ e qi. Os anos podem não ser consecutivos e terem uma frequência
variável [por exemplo, 1995, 1999 e 2001. Assim: 1995 é o ano 1; o ano 2 de observa-
ção tem lugar 4 anos depois, em 1999; o ano 3 corresponde a 2001, dois anos depois do
ano 2]. Supõe-se que: os coeficientes de educ e qi não variam com o tempo; o termo in-
dependente depende de t (devido, por exemplo, ao efeito do ciclo económico sobre os
salários).
O modelo pode ser formalizado do seguinte modo:
lsalar1i = θ1 + β1 educ1i + β 2 qii + u1i
lsalar2i = θ 2 + β1 educ2i + β 2 qii + u2i
lsalar3i = θ3 + β1 educ3i + β 2 qii + u3i ,
onde θ1 = δ1 , θ 2 = δ1 + δ 2 e θ3 = δ1 + δ 3 .
Fazendo
δ1
δ
lsalar1i x1i • 1 0 0 educ1i qii 2
y•i = lsalar2i ; X •i = x2i • = 1 1 0 educ2i
qii ; β = δ 3 ,
lsalar3i x3i • 1 0 1 educ3i qii β1
β 2
Capítulo 7 – Dados de painel 5
Nesta secção vão estabelecer-se as hipóteses básicas dos modelos com dados de
painel, que vão ser designadas com o prefixo MCDP (modelo clássico de dados de pai-
nel). A primeira hipótese é o resumo das considerações feitas na secção anterior.
Note-se que a equivalência entre (7.6) e (7.7) está intimamente ligada ao facto de o
vector z•i e a matriz X •i conterem a mesma informação.
c) A hipótese da ortogonalidade, (7.5), pode ser substituída pela hipótese mais forte da
exogeneidade estrita:
(7.8) E (uti | x1i • , x2i • , K , x pi • ) = E (uti | X •i ) = 0 (t = 1, 2, K , p) .
É fácil verificar que (7.8) implica (7.5). Deste modo, a exogeneidade estrita dos re-
gressores implica que a variável residual correspondente à data t não está correlacio-
nada com os regressores referentes a qualquer data s (t , s = 1, 2, K , p) .
A condição (7.8) é equivalente a fazer
(7.9) E ( yti | X •i ) = E ( yti | xti • ) = xti • β .
Neste caso, resulta que não há correlação entre uti e xti • (para a mesma data). Por-
tanto, existe apenas ortogonalidade contemporânea entre as variáveis residuais e os
regressores:
(7.11) E ( xti •uti ) = 0 (t = 1, 2, K , p) .
f) A condição (7.10) pode falhar mesmo que xti • não inclua a variável explicada des-
fasada. Seja, por exemplo, o modelo que relaciona a produção agrícola (pa) com a
quantidade de trabalho utilizada (trab), para um conjunto de explorações agrícolas.
Assim, tem-se pati = β1 + β 2trabti + uti , para alguns anos. Como os valores de trab
podem ser escolhidos pelos agricultores, é razoável admitir que estes podem ajustar a
quantidade de trabalho no futuro, em função da produção agrícola no presente e no
passado. De forma simplificada, pode fazer-se trabti = α1 + α 2 pat −1,i + vti . Se α 2 ≠ 0 ,
não se verifica a hipótese (7.10) porque trabt +1.i depende de uti , e xt +1,i • inclui
trabt +1.i .
Capítulo 7 – Dados de painel 7
resulta E ( g•i ) = 0 , onde g•Ti = [ u1i u1i ln( L1i ) u1i ln( L2i ) u2i u2i ln( L1i ) u2i ln( L2i )] .
∇
verificando-se E (u•i ⊗ X •i ) = O .
De forma alternativa, obtém-se E ( g•i ) = 0 , onde o vector g •i é de tipo 15 × 1 .
Tem-se
1 1
educ1i u1i educ1i
z•i = educ2i e g•i = u•i ⊗ z•i = u2i ⊗ educ2i .
educ3i u3i educ3i
qi qii
i
∇
Trata-se, portanto, de uma matriz quadrada de ordem pq , que pode ser escrita
com a forma seguinte: S = E ( g•i g•Ti ) = E{(u•i ⊗ z•i )(u•Ti ⊗ z•Ti )} = E{(u•iu•Ti ) ⊗ ( z•i z•Ti )} . Fi-
ca ao cuidado do leitor construir as matrizes S para os exemplos 7.1 e 7.2.
b) Obviamente (7.16) [ou (7.17)] implica E (u•iu•Ti ) = Σ . Assim, como se admite a possi-
bilidade de σ ts ≠ 0 , pode existir autocorrelação (temporal) para a mesma unidade
seccional.
c) Quando há homocedasticidade condicionada, a matriz S pode simplificar-se. Com
efeito,
S = E ( g •i g•Ti ) = E{E ( g•i g•Ti | z•i )} = E ( E{(u•iu•Ti ) ⊗ ( z•i z•Ti ) | z•i })
= E{E (u•iu•Ti | z•i ) ⊗ ( z•i z•Ti )} = E{Σ ⊗ ( z•i z•Ti )}
= Σ ⊗ E ( z•i z•Ti ) = Σ ⊗ Qzz ,
Com efeito, começa-se por notar que xtiT• = Dt z•i , onde a matriz Dt , de tipo k × q , é
formada pelas primeiras k colunas da matriz identidade de ordem q. Tem-se:
E (uti2 xtiT• xti • ) = E (uti2 Dt z•i z•Ti DtT ) = E{E (uti2 Dt z•i z•Ti DtT | z•i )} = E{E (uti2 | z•i ) Dt z•i z•Ti DtT }
= E{σ tt Dt z•i z•Ti DtT } = σ tt E ( Dt z•i z•Ti DtT ) = σ tt E ( xtiT• xti • ).
Como E (uti2 | xti • ) = E (uti2 | z•Ti DtT ) = E (uti2 | z•i ) = σ tt , pode concluir-se que
Capítulo 7 – Dados de painel 10
Esta condição significa que xti • inclui os desfasamentos suficientes de todas as variá-
veis de tal modo que o efeito parcial de eventuais desfasamentos adicionais é nulo.
Quando se verifica (7.24), diz-se que o modelo é dinamicamente completo. É ime-
diato constatar que a completude dinâmica é equivalente a
(7.25) E (uti | xti • , ut −1,i , xt −1,i • , K , u1i , x1i • ) = 0 .
Fica ao cuidado do leitor concluir que (7.25) [que é equivalente a (7.24)] implica
E (utiusi | xti • , xts • ) = 0 . Portanto, a completude dinâmica implica E (utiusi xtiT• xts • ) = O
[ver (7.23)] e E ( xti •uti ) = 0 .
= { X T ( I m ⊗ Σˆ −1 ) X }−1 X T ( I m ⊗ Σˆ −1 )Y ;
(7.28) m
= m{ X T ( I ⊗ Σˆ −1 ) X }−1.
m
1 m
σ̂ ts = ∑ uˆtiuˆsi (t , s = 1, 2,K, p) ,
m i =1
onde uˆti = yti − xti • β̂ (i = 1, 2, K , m) , e β̂ é um estimador consistente de β (por exem-
plo, o estimador PMQ). Assim, tem-se:
1 m
Σˆ = ∑i =1 uˆ•iuˆ•Ti .
m
O estimador (7.26) também pode ser apresentado com o formato de (5.25). Com
efeito, tem-se
βˆEA = ( S zxT Sˆ −1 S zx ) −1 S zxT Sˆ −1 s zy ,
onde:
1 m 1 m
− S zx =
m ∑ i =1
( X •i ⊗ z•i ) = ∑i =1 ( I p ⊗ z•i ) X •i
m
[matriz pq × k , contrapartida amostral de Qzx ];
1 m 1 m
− szy =
m ∑ i =1
( y•i ⊗ z•i ) = ∑i =1 ( I p ⊗ z•i ) y•i
m
[vector pq × 1 , contrapartida amostral de qzy ];
− Sˆ = Σˆ ⊗ S zz [matriz pq × pq , contrapartida amostral de S];
1 m
− S zz =
m ∑ i =1
z•i z•Ti [matriz q × q , contrapartida amostral de Qzz ].
−1
βˆEA = βˆPMQ = ∑i =1 X •Ti X •i ∑
m m
X •Ti y•i = ( X T X ) −1 X T Y ,
i =1
Os resultados obtidos são semelhantes ao do estimador SMQGF estudado no ca-
pítulo 5 [ver (5.43), (5.45) e (5.46)].
Suponha-se que o vector β foi estimado pelo método PMQ. Muitas vezes, é útil
testar a existência de autocorrelação por duas razões: a autocorrelação não tem lugar
num modelo dinamicamente completo; a presença de autocorrelação obriga a utilizar
uma matriz robusta das covariâncias de β̂ PMQ .
Admita-se que a hipótese alternativa do teste de autocorrelação pressupõe que o
processo das variáveis residuais é AR(1):
(7.32) uti = ϕ ut −1,i + ε ti (t = 2, 3, K , p ; i = 1, 2, K) ,
Note-se que a hipótese nula é uma das hipóteses básicas para se poder utilizar o
estimador PMQ sem recorrer à respectiva matriz robusta das covariâncias.
Tal como na secção 3.9 (capítulo 3), vai considerar-se uma função vectorial de
xt • , com r − 1 componentes: h( xti • ) = [ h2 ( xti • ) h3 ( xti • ) L hr ( xti • ) ]. Sob H 0 , esta fun-
ção não está correlacionada com uti2 : Cov{h( xti • ), uti2 } = 0 . O teste baseia-se no modelo
uti2 = α1 + hti •α + vti (t = 1, 2, K, p) , onde hti • = h( xti • ) e α = [ α 2 α 3 L α r ] T . Sob H 0 ,
tem-se E (vti | hti • ) = E (vti | xti • ) = 0 , α = 0 e α1 = σ 2 . Assim, o teste de heterocedastici-
dade condicionada consiste em testar H 0 : α = 0 contra H1 : α ≠ 0 .
A mecânica deste teste é a seguinte:
1) Calcular os resíduos PMQ do modelo proposto, yti = xti • β + uti : ûti .
2) Fazer a regressão auxiliar PMQ de uˆti2 sobre 1 e hti • .
3) A estatística-teste é
d
(7.34) mpR 2 → χ 2 (r − 1) ,
onde R 2 é o coeficiente de determinação da regressão auxiliar.
nel: a equação estrutural subjacente ao modelo pode incluir factores explicativos não
observáveis constantes no tempo que estão correlacionados com algumas variáveis ex-
plicativas. Nestas circunstâncias, a hipótese (7.11) pode ser demasiado forte.
Nas secções seguintes vão estudar-se modelos com dados de painel que explici-
tamente incluem um efeito não observado constante no tempo, encarado como uma va-
riável aleatória. Nesta secção vai mostrar-se que uma motivação importante para estudar
este tipo de modelos é resolver o problema da omissão de variáveis (ver a subsecção so-
bre omissão de variáveis da secção 4.1 do capítulo 4). De forma mais precisa, vai ver-se
que, em certas condições, os modelos com dados de painel podem ser usados para obter
estimadores consistentes de parâmetros na presença de variáveis omitidas.
Em termos gerais, considere-se uma variável aleatória (escalar), y, e um vector
aleatório de tipo 1 × k , x = [ x1 x2 L xk ]. Supõe-se que estas k + 1 variáveis aleatórias
são observáveis. A população de interesse é representada pelo vector formado por k + 2
variáveis aleatórias, [ y x1 x2 L xk α ], onde α é não observável (de acordo com a
tradição dos modelos com dados de painel, a notação da variável aleatória não observá-
vel é uma letra grega; recorde-se que as letras gregas são geralmente usadas para repre-
sentar os parâmetros).
Admita-se que o modelo da população é E ( y | x, α ) (valor esperado condiciona-
do estrutural), e que se pretende analisar os efeitos parciais de cada x j ( j = 1, 2, K , k )
sobre este valor esperado condicionado (naturalmente nesta análise ceteris paribus, α é
encarado como uma constante). Suponha-se que E ( y | x, α ) = xβ + α (modelo linear em
x e α ), onde β é o vector k × 1 dos parâmetros, e α entra no modelo de forma aditiva.
É razoável supor que o coeficiente de α é igual a 1, uma vez que não faz sentido esti-
mar o respectivo efeito parcial (como α não é observável, não tem uma unidade de me-
dida natural). Introduzindo uma variável residual, v, o modelo pode formalizar-se do se-
guinte modo: y = xβ + α + v , onde E (v | x, α ) = 0 .
Obviamente, há duas possibilidades sobre o comportamento de α : se α não está
correlacionado com cada x j , Cov( x, α ) = 0 , então α é apenas mais um factor não ob-
servado que influencia y; se Cov( x, α ) ≠ 0 , isto é, se algum x j está correlacionado com
α , incluir α na variável residual pode causar problemas sérios (sem mais informação
não é possível estimar β de forma consistente).
Recorde-se que se conhecem três maneiras de contribuir para a resolução deste
problema:
a) Recorrer a variáveis proxy para α (ver secção 4.1). Neste caso, pode utilizar-se o
método MQ.
b) Encontrar instrumentos para os x j que estão correlacionados com α . Nestas condi-
ções deve recorrer-se a um método de estimação MGM (MGM eficiente, VI, MQ2P).
c) Utilizar indicadores de α (ver secção 4.3). Numa situação de indicadores múltiplos,
usam-se os métodos de estimação MGM.
dos (observações das mesmas unidades seccionais em várias datas), existem outras pos-
sibilidades.
A hipótese crucial para a análise subsequente é que α seja constante no tempo
(o efeito sobre a resposta média é o mesmo nas várias datas). Na terminologia dos mo-
delos com dados de painel, uma variável não observável e constante no tempo é de-
signada por efeito não observado. Este efeito é passível de várias interpretações: se as
unidades seccionais são indivíduos, α i captura as respectivas características individuais
como sejam a aptidão cognitiva, a motivação, os antecedentes familiares, etc.; no caso
de empresas, o efeito não observado captura aspectos não observáveis como a qualidade
da gestão, a estrutura da empresa, etc.
Para simplificar, supõe-se que y e x são observados em duas datas ( t = 1, 2 ). In-
troduzindo o índice i para designar as unidades seccionais, o modelo da população pode
escrever-se da seguinte maneira:
E ( yti | xti • , α i ) = xti • β + α i ( t = 1, 2 ; i = 1, 2, K ),
ou
yti = xti • β + α i + vti ( t = 1, 2 ; i = 1, 2, K ),
As primeiras duas parcelas da igualdade anterior são nulas (os regressores são orto-
gonais às variáveis residuais en cada data). Contudo, a hipótese fundamental do mo-
delo, E (vti | xti • , α i ) = 0 , não garante a nulidade das outras duas parcelas. Como a hi-
pótese da ortogonalidade do modelo com diferenças não decorre da hipótese funda-
mental do modelo, é necessário exigir que E ( xti •vsi ) = 0 ( t , s = 1, 2 ). Note-se que não
se impõe qualquer restrição relativamente à correlação entre xti • e α i .
Capítulo 7 – Dados de painel 16
2) Se a condição característica fosse substituída pela hipóptese r{E (∆xiT• ∆xi • )} = k , bas-
tava que existisse um elemento de xti • constante no tempo para falhar esta hipótese.
Esta conclusão pode ser apreciada da seguinte maneira: como α i pode estar correla-
cionado com elementos de xti • , o efeito de qualquer variável explicativa que é cons-
tante no tempo não se distingue do efeito de α i . Então, apenas pode estimar-se β j de
forma consistente quando a componente j de xti • varia no tempo.
Nas secções seguintes abordam-se várias formas de lidar com a presença de efei-
tos não observados, no contexto de vários conjuntos de hipóteses.
Retome-se o modelo (7.2) e suponha-se que a variável residual ou erro, uti , tem
duas componentes,
(7.35) uti = α i + vti ,
onde a primeira componente, α i , não varia com t. Esta componente – que pode variar
com i (unidade seccional), mas não com t (tempo) –, chama-se efeito não observado,
heterogeneidade não observada ou variável latente. Se as unidades seccionais são
indivíduos (pessoas), o efeito não observado pode também chamar-se o efeito individual
ou heterogeneidade individual. O mesmo tipo de terminologia pode estender-se a famí-
lias, empresas, cidades, etc. Por exemplo, no caso de empresas, tem-se o efeito empresa-
rial ou a heterogeneidade empresarial. A outra componente, vti , representa o choque a
que está submetida a unidade seccional i na data t (esta componente também se chama
erro idiossincrático). Assim, o modelo (7.2) apresenta-se do seguinte modo:
(7.36) yti = xti • β + α i + vti ( t = 1, 2, K , p ; i = 1, 2, K ),
onde uti = α i + vti . O vector xti • pode incluir regressores que: variam com t e i; só va-
riam com t; só variam com i.
Fazendo
v1i 1
v 1
v•i = , e p = ,
2i
M M
v pi 1
o sistema (7.3) pode apresentar-se do seguinte modo:
(7.37) y•i = X •i β + e pα i + v•i (i = 1, 2, K) ,
Assim:
− α é o vector m × 1 , de elemento genérico α i (i = 1, 2, K , m) .
− V é o vector mp × 1 , formado pelos m subvectores v•i .
Na abordagem tradicional dos modelos com dados painel era habitual encarar os
efeitos não observados, α i , de duas formas distintas: considerá-los como variáveis alea-
tórias, e dizia-se, então que os α i eram os efeitos aleatórios; supor que os α i eram pa-
râmetros a estimar, um por cada unidade seccional da amostra, dizendo-se, então, que os
α i eram efeitos fixos. Esta distinção foi abandonada na abordagem moderna: os efeitos
não observados são sempre considerados variáveis aleatórias, e a questão está em saber
se estão correlacionados, ou não, com os regressores. Embora seja aconselhável adoptar
o nome geral (ou seja, efeitos não observados), na gíria dos modelos com dados de pai-
nel é corrente usar o termo efeito aleatório quando α i não está correlacionado com xti • ,
E ( xti •α i ) = 0 , e o termo efeito fixo quando α i está correlacionado com algum elemento
de xti • , E ( xti •α i ) ≠ 0 .
Facilmente se conclui que E ( xti •usi ) = 0 (t , s = 1, 2, K , p) [hipótese MCDP.2]
não implica a ortogonalidade entre os regressores e cada uma das componentes do erro.
Pode, então, estabelecer-se a seguinte hipótese mais forte:
Exemplo 7.5 – A função de produção referida no exemplo 7.1, na sequência das consi-
derações que permitiram escrever (4.33) [ver capítulo 4, secção 4.2], pode ser escrita na
forma
ln(Qti ) = θ 0 + θ1 ln( Lti ) + α i + vti , (t = 1, 2, K , p ; i = 1, 2, K)
Exemplo 7.6 – Retomando o exemplo 7.2, suponha-se que a variável residual uti (erro)
se decompõe em duas parcelas: α i , que representa as características permanentes do tra-
balhador i, que podem afectar as suas escolhas individuais de escolaridade; os outros
factores, vti , não correlacionados com os regressores, como sejam o erro de medida do
logarítmo da taxa de salário.
∇
Deste modo, controlando xti • e α i , não existe efeito parcial de xsi • ( s ≠ t ) sobre yti .
Capítulo 7 – Dados de painel 19
Neste caso, resulta que não há correlação entre uti e xti • (para a mesma data). Por-
tanto, existe apenas ortogonalidade contemporânea entre os erros idiossincráticos e
os regressores:
(7.44) E ( xti •vti ) = 0 (t = 1, 2, K , p ) .
Na análise com efeitos aleatórios supõe-se que o efeito não observado, α i , faz
parte da variável residual ou erro composto, e que se verifica a hipótese MENO.2. Desta
forma, as condições de ortogonalidade são mais fortes do que aquelas que são exigidas
para o método PMQ. As condições (7.38) e (7.39) podem ser substituídas, respectiva-
mente, pelas hipóteses mais fortes, (7.40) e (7.41).
O modelo que verifica as hipóteses MENO.1, MENO.2, MCDP.3, MCDP.4 e
MCDP.5 (e, eventualmente, MCDP.6) é o modelo de dados painel com efeitos aleató-
rios (MDP-EA). Assim, substituindo as hipóteses MCDP.1 e MCDP.2 por MENO.1 e
MENO.2, respectivamente, pode estimar-se β pelo método SUR com coeficientes co-
muns [que coincide com o estimador SMQGF]: trata-se do estimador EA já conhecido
[ver (7.26), (7.27) e (7.28)].
Note-se ainda que, tal como se faz no contexto do estimador SMQGF, a hipótese
da condição de característica MCDP.4 pode ser substituída pela seguinte:
(7.45) r ( X •Ti Σ −1 X •i ) = k ,
onde Σ = E (u•iu•Ti ) .
A estrutura geral da matriz Σ admite a existência de autocorrelação das variá-
veis residuais, uti . A seguir vai explicitar-se a estrutura dessa matriz, supondo a esferi-
cidade dos erros idiossincráticos:
(7.46) E (v•i v•Ti ) = σ v2 I p ,
Então,
σ α2 + σ v2 σ α2 L σ α2
σ α2 σ α2 + σ v2 L σ α2
Σ = E (u•iu•i ) =
T
,
M M M
σα σ α2 L σ α2 + σ v2
2
Capítulo 7 – Dados de painel 21
ou
(7.49) Σ = σ α2 e p eTp + σ v2 I p .
E ∑t =1 ∑ u u = ∑t =1 ∑ s = t +1 E (utiusi ) = σ α2 ∑t =1 ( p − t )
p −1 p p −1 p p −1
s = t +1 ti si
,
p ( p − 1)
= σ α2 {( p − 1) + ( p − 2) + L + 2 + 1} = σ α2 .
2
Então, um estimador consistente de σ α2 é dado por
1
∑ ∑ ∑ u~ u~ .
m p −1 p
σˆα2 =
mp( p − 1) / 2 − k i =1 t =1 s = t +1 ti si
onde:
− f ti• é o vector 1 × k1 da observação t dos regressores que variam com o tempo (re-
gressores não constantes) para a unidade seccional i (na secção 7A.1 do anexo 7A
apresenta-se a construção deste vector a partir do vector z•i );
− hi• é o vector 1 × k 2 da observação t dos regressores que não variam com o tempo
(regressores constantes) para a unidade seccional i.
onde:
− F•i é a matriz p × k1 (de elemento genérico f tij ) das observações dos regressores não
contantes da unidade seccional i. A linha e a coluna genérica de F•i são, respectiva-
mente, f ti• e f•ij .
− H •i = e p hi• é a matriz p × k 2 das observações dos regressores contantes da unidade
seccional i.
Em particular,
1 p 1
fij =
p ∑ t =1
ftij = eTp f •ij (i = 1, 2, K; j = 1, 2, K , k1 ) .
p
Então,
Capítulo 7 – Dados de painel 24
y1i − yi
y − y
y•i = Pe y•i =
2i i
c
= y•i − e p yi , X •ci = Pe X •i , F•ci = Pe F•i e v•ci = Pe v•i .
M
y pi − yi
O elemento genérico do vector y•ci é ytic = yti − yi ; o elemento genérico e a linha
genérica da matriz X •ci são xtijc = xtij − xij e xtic • , respectivamente; o elemento genérico e
a linha genérica da matriz F•ci são ftijc = ftij − fij e ftic• , respectivamente; o elemento ge-
nérico do vector v•ci é vtic = vti − vi .
O modelo transformado, que se obtém multiplicando por Pe ambos os membros
do y•i = X •i β + u•i , é dado por
(7.52) Pe y•i = Pe X •i β + Peu•i ⇔ y•ci = X •ci β + u•ci ,
ou, ainda,
ytic = xtic • β + utic (t = 1, 2, K , p ) .
Exemplo 7.7 – Considerando de novo o exemplo 7.2, a matriz X •ci é dada por
2 / 3 − 1 / 3 − 1 / 3 1 0 0 educ1i qii
X •ci = Pe X •i = − 1 / 3 2 / 3 − 1 / 3 1 1 0 educ2i qii
− 1 / 3 − 1 / 3 2 / 3 1 0 1 educ3i qii
0 − 1 / 3 − 1 / 3 educ1i − educi 0
= 0 2 / 3 − 1 / 3 educ2i − educi 0 .
0 − 1 / 3 2 / 3 educ − educ 0
3i i
Facilmente se conclui que δ1 e β 2 não são identificados.
Fica ao cuidado do leitor verificar que, mesmo eliminando de X •ci a 5.ª coluna, a
matriz 15 × 4 , X •ci ⊗ z•i , tem característica igual a 3, e, portanto, não se verifica a
hipótese MCDP.4 para o modelo transformado (note-se que X •ci seria uma matriz 3× 4 ,
e que z•i , de acordo com o exemplo 7.4, é 5× 1 ).
∇
Se z•i é o vector q × 1 formado pela união dos elementos dos vectores fti • e hi • ,
as condições c) e d) podem resumir-se com E (v•i ⊗ z•i ) = 0 .
Destas quatro condições, a hipótese de ortogonalidade a reter para o método EF
é a seguinte:
A partir da hipótese MCDP.4, também se tem: a matriz Qzf = E ( F•i ⊗ z•i ) , de ti-
po pq × k1 , , existe e verifica r (Qzf ) = k1 .
0 0 educ1i δ 2 − 1 / 3 − 1 / 3 educ1ci
δ
F•i = 1 0 educ2i ; hi • = [ 1 qii ] ; φ = δ 3 ; η = 1 ; F•ci = 2 / 3 − 1 / 3 educ2ci ,
0 1 educ3i β1 β2 − 1 / 3 2 / 3 educ3ci
concluindo-se que k1 = 3 e k2 = 2 .
Para verificar a hipótese MENO.4, vai construir-se a matriz
(−1 / 3) z•i (−1 / 3) z•i educ1ci z•i
F•ci ⊗ z•i = (2 / 3) z•i (−1 / 3) z•i educ2ci z•i
(−1 / 3) z•i (2 / 3) z•i educ3ci z•i
−1/ 3 −1/ 3 educ1ci
(−1 / 3)educ1i (−1 / 3)educ1i educ1i educ1i
c
(2 / 3)educ3i (−1 / 3)educ3i educ2i educ3i
c
é o vector das médias temporais dos regressores não constantes no tempo. A condição
(7.54), por si só, não garante a consistência do estimador between porque pode aconte-
Capítulo 7 – Dados de painel 28
Os efeitos parciais de hi • sobre yti , nas sucessivas datas, são medidos por:
− η•1 (na data 1);
− η•1 + η• 2 (na data 2);
− ...;
− η•1 + η• p (na data p).
Facilmente se conclui que não é possível identificar o vector η•1 porque a parce-
la hi•η•1 é constante no tempo e, portanto, não se distingue de α i . Contudo, podem-se
identificar os vectores η• 2 ,η•3 , K ,η• p , uma vez que as respectivas parcelas variam com
o tempo. Deste modo, apenas se podem estimar as diferenças dos efeitos parciais dos re-
gressores constantes (no tempo) em relação à data de referência (data 1).
O modelo (7.59) pode apresentar-se com a seguinte notação alternativa:
(7.60) y•i = F•iφ + e p hi •η•1 + d• 2 hi •η• 2 + L + d• p hi •η• p + e pα i + v•i ,
ou
y•i = α1d•1 + α 2 d• 2 + L + α m d• m + F•iφ + v•i (i = 1, 2, K , m) ,
onde
e p (i = l)
d• l = (para l = 1, 2, K , m ).
0 (i ≠ l)
Podem agrupar-se as m relações precedentes numa única expressão matricial,
(7.63) Y = Dα + Fφ + V ,
onde:
y•1 e p 0 L 0
y
0 ep L 0
Y = , D = [D•1 D• 2 L D• m ] =
• 2
= I m ⊗ ep ,
M M M M
y• m 0 0 L ep
α1 F•1 v•1
α
F• 2 v• 2
α = , F = , V = .
2
M M M
α m F• m v• m
Assim:
− Y é o vector mp × 1 , formado pelos m subvectores y•i ;
− D é a matriz mp × m das variáveis artificiais (a coluna i desta matriz, D•i , é formada
por m blocos, cada um com p elementos; o bloco i de D•i é e p , os outros blocos são
nulos);
Capítulo 7 – Dados de painel 30
Como D = I m ⊗ e p , vem
PD = I pm − ( I m ⊗ e p ){( I m ⊗ e p )T ( I m ⊗ e p )}−1 ( I m ⊗ e p )T
= I pm − ( I m ⊗ e p )( I m ⊗ eTp e p ) −1 ( I m ⊗ eTp )
= I pm − ( I m ⊗ e p ){I m ⊗ (1 / p)}( I m ⊗ eTp )
= ( I m ⊗ I p ) − {I m ⊗ (1 / p)e p eTp }
= I m ⊗ {I p − (1 / p)e p eTp }
= I m ⊗ Pe .
Então,
Pe O L O y•1 y•c1
O Pe L O y•2 y•c2
PDY = ( I m ⊗ Pe )Y = = = Yc .
M M M M M
O O L Pe y•m y•cm
Do mesmo modo, tem-se PD F = Fc . Daqui resulta que
φˆPMQ = ( F T PD F ) −1 F T PDY = ( FcT Fc ) −1 FcT Yc = φˆEF .
Capítulo 7 – Dados de painel 31
ou
{F T F − F T D( DT D) −1 DT F }φˆPMQ = F T Y − F T D( DT D) −1 DT Y ,
p
O eTp L O y•2 eTp y•2 ∑t =1 yt 2
p
D T Y = ( I m ⊗ e p )T Y = = = ,
M M M M M M
O L eTp y•m eTp y•m ∑t =1 ytm
p
O
p
f
= ∑t =1 t 2• ,
O
e p L O F•2
T T
e p F•2 p
D T F = ( I m ⊗ e p )T F = =
M M M M M M
p
O O L eTp F•m eTp F•m ∑t =1 f tm•
obtém-se
αˆ1,PMQ ∑ p yt1 − ∑ p f t1•φˆPMQ y1 − (1 / p )∑ p ft1• φˆPMQ
αˆ pt =1 t =1
t =1
∑t =1 t 2 ∑t =1 t 2• PMQ = 2
ˆ
∑t =1 t 2• PMQ .
ˆ
p p
1 y − f φ y − (1 / p ) f φ
= =
2 ,PMQ
αˆ PMQ
M p M
M
αˆ m,PMQ ∑ ytm − ∑ f tm •φˆPMQ ym − (1 / p )∑ f tm • φˆPMQ
p p p
t =1 t =1 t =1
Deste modo, vem
1 p
αˆ i,EF = yi −
p ∑ f φˆEF (i = 1, 2, K , m) .
t =1 ti •
Capítulo 7 – Dados de painel 32
(7.66)
d
[
m (φˆEF − φ ) → N ( k1 ) 0, Cov a (φˆEF ) , ]
onde
(7.67) Cov a (φˆEF ) = E{( F•ci )T F•ci }−1 E ( F•ci )T E{v•ci (v•ci )T }F•ci E{( F•ci )T F•ci }−1 ;
onde ∆yti = yti − yt −1,i , ∆xti • = xti • − xt −1,i • e ∆vti = vti − vt −1,i . Quando p = 2 , (7.72) reduz-
-se a ∆y2i = ∆x2i • β + ∆v2i ( i = 1, 2, K ).
O modelo (7.72) pode apresentar-se da seguinte maneira:
(7.73) ∆y•i = ∆X •i β + ∆v•i ( i = 1, 2, K ),
onde:
− ∆y•i é o vector ( p − 1) × 1 (elemento genérico, ∆yti ) das primeiras diferenças das ob-
servações da variável explicada y da unidade seccional i;
− ∆X •i é a matriz ( p − 1) × k (elemento genérico, ∆xtij ; linha genérica, ∆xti • ; coluna
genérica, ∆x•ij ) das primeiras diferenças das observações das variáveis explicativas
da unidade seccional i;
− ∆v•i é o vector ( p − 1) × 1 (elemento genérico, ∆vti ) dos erros idiossincráticos re-
lativos à unidade seccional i.
onde ∆dts = dts − dt −1, s , para s = 2, 3, K , p . Verifica-se, assim, que em (7.74) não se po-
de identificar o vector η•1 (dos coeficientes dos regressores constantes). Note-se que as
variáveis ∆dts apenas podem assumir os valores 1 (quando s = t ), –1 (quando s = t − 1 )
e 0 (nos outros casos).
Naturalmente que o modelo (7.74) se pode apresentar do seguinte modo:
(7.75) ∆y•i = ∆F•iφ + (∆d• 2 )hi •η• 2 + L + (∆d• p )hi •η• p + ∆v•i ,
onde:
− ∆F•i é a matriz ( p − 1) × k1 (elemento genérico, ∆f tij ; linha genérica, ∆fti • ; coluna
genérica, ∆f•ij ) das primeiras diferenças das observações das variáveis explicativas
não constantes (no tempo) da unidade seccional i;
− ∆d• s é o vector ( p − 1) × 1 ( s = 2, 3, K , p ) de elemento genérico ∆dts .
ou
y1i = η1 + f1i •φ + α i + v1i
y2i = (η1 + η 2 ) + f 2i •φ + α i + v2i
y = (η + η ) + f φ + α + v .
3i 1 3 3i • i 3i
Esta condição garante que não há regressores constantes (no tempo) e que não
há multicolinearidade perfeita entre os regressores não constantes.
Sem perda de generalidade, considere-se o seguinte caso particular de (7.59):
yti = δ1 + δ 2 dt 2 + δ 3dt 3 + δ 4 dt 4 + δ 5dt 5
(7.76)
+ η1hi + η2 dt 2 hi + η3dt 3hi + η4 dt 4 hi + η5dt 5hi + fti •φ + α i + vti .
onde
t=2 t =3 t=4 t =5
∆dt 2 = dt 2 − dt −1, 2 = 1− 0 =1 0 − 1 = −1 0−0=0 0−0=0
∆dt 3 = dt 3 − dt −1,3 = 0−0=0 1− 0 =1 0 − 1 = −1 0−0=0
∆dt 4 = dt 4 − dt −1, 4 = 0−0=0 0−0=0 1− 0 =1 0 − 1 = −1
∆dt 5 = dt 5 − dt −1,5 = 0−0=0 0−0=0 0−0=0 1− 0 =1
Capítulo 7 – Dados de painel 36
Então,
∆y2i = δ 2 + η2 hi + ∆f 2i •φ + ∆v2i
∆y3i = (−δ 2 + δ 3 ) + (−η2 + η3 )hi + ∆f3i •φ + ∆v3i
∆y4i = (−δ 3 + δ 4 ) + (−η3 + η4 )hi + ∆f 4i •φ + ∆v4i
∆y5i = (−δ 4 + δ 5 ) + (−η4 + η5 )hi + ∆f 5i •φ + ∆v5i .
Logo,
δ 2 = θ1 η2 = γ 1
− δ 2 + δ 3 = θ1 + θ3 − η2 + η3 = γ 1 + γ 3
e
− δ 3 + δ 4 = θ1 + θ 4 − η3 + η4 = γ 1 + γ 4
− δ 4 + δ 5 = θ1 + θ5 − η4 + η5 = γ 1 + γ 5 .
Então,
θ1 = δ 2 γ 1 = η2
θ 3 = −2δ 2 + δ 3 γ = −2η 2 + η3
e 3
θ 4 = −δ 2 − δ 3 + δ 4 γ 4 = −η 2 − η3 + η 4
θ 5 = −δ 2 − δ 4 + δ 5 γ 5 = −η 2 − η4 + η5 .
onde
y1i + y2i 1 v +v
yi = , fi • = ( f1i • + f 2i • ) e vi = 1i 2i .
2 2 2
Então,
y − y = ( f − f )φ + (v − v ) ( p = 1)
1i 2i 1i • 2i • 1i 2i
y2i − y1i = ( f 2i • − f1i • )φ + (v2i − v1i ) ( p = 2),
Capítulo 7 – Dados de painel 37
o que mostra que uma das equações é redundante (cada equação obtém-se da outra mul-
tiplicando-a por –1). Retendo apenas a segunda equação, tem-se o modelo com primei-
ras diferenças: y2i − y1i = ( f 2i• − f1i• )φ + (v2i − v1i ) .
Vai admitir-se que o vector v•i pode ter autocorrelação, ou seja, passa a ter-se
E (v v ) = Σ v , e não E (v•i v•Ti ) = σ v2 I p .
T
•i •i
Comparando (7.54), E ( f ti •vsi ) = 0 , com a hipótese MENO.2, verifica-se que as
condições de ortogonalidade não consideradas no estimador EF são
(7.79) E ( f ti •α i ) = 0 , E (hi •α i ) = 0 e E (hi •vti ) = 0 (t = 1, 2, K , p ) .
uma vez que não é necessário incluir a matriz das covariâncias assintóticas entre φˆEF e
φˆEA . Um estimador consistente de (7.80) é
^ ^ ^
(7.81) Cov a (δˆ ) = Cov a (φˆEF ) − Cov a (φˆEA ) ,
Capítulo 7 – Dados de painel 38
^ ^
onde Cov a (φˆEF ) é dada por (7.68), e Cov a (φˆEA ) resulta da partição de (7.28),
^
ˆ )
^
ˆ ˆ
^ Cov (φ Cov a (φEA ,η EA )
Cov a ( βˆEA ) = ^ a EA .
ˆ
^
Cov a (ηˆEA , φEA ) Cov a (ηˆEA )
Nos modelos com dados de painel estudados nas secções precedentes está implí-
cita a importante hipótese de que as variáveis são observáveis para todas as unidades
seccionais e para todas as datas (o número de observações para cada i é p). Neste caso, o
painel de dados é balanceado.
Em geral, os painéis disponíveis não são balanceados devido às saídas e às entra-
das de unidades seccionais na amostra. Por exemplo, num painel sobre empresas, algu-
mas delas desaparecem da amostra devido a falências ou fusões antes do final do ano p;
ou são incluídas na amostra a partir de certa altura, porque são empresas novas.
Diz-se que se tem um painel não balanceado quando o número de observações
não é o mesmo para todas as unidades seccionais, isto é, quando para pelo menos uma
unidade seccional há observações omissas (missing observations).
Em determinadas condições, do ponto de vista formal, os estimadores atrás refe-
ridos podem ser calculados de forma semelhante, com as necessárias adaptações. Por
exemplo, as unidades seccionais com apenas uma observação não podem ser conside-
radas no estimador de efeitos fixos.
A questão crucial da análise com painéis não balanceados é a de saber se o fac-
to de algumas observações da unidade seccional i figurarem ou não na amostra depende
dos choques. Quando existe esta dependência, há um problema de selecção da amostra
(sample selection), e, como vai ver-se, o estimador EF não é consistente. Neste caso,
diz-se que se tem uma situação de enviesamento da selectividade (selectivity bias).
Capítulo 7 – Dados de painel 39
onde t = 1, 2, K, p . Seja
d
1i
d 2i
d•i = e pi = ∑t =1 dti (número de observações da unidade seccional i).
p
M
d pi
Se a observação t é omissa para i, os t-ésimos elementos de y•i e de v•i , e a li-
nha t de F•i , supõem-se nulos. Então, passa a considerar-se
d y d f d v
1i 1i 1i 1i • 1i 1i
d 2 i y2 i d 2i f 2i • d 2i v2i
y•i = , F•i = e v•i = .
M M M
d pi y pi d pi f pi • d pi v pi
Deste modo, para cada i e para cada t, todos os elementos de ( yti , f ti • ) são obser-
váveis, ou nenhum elemento é observável [não se admite a possibilidade de alguns ele-
mentos de ( yti , f ti • ) serem observáveis, e os outros não].
O modelo homólogo a (7.51) é, então, o seguinte:
(7.83) y•i = F•iφ + d•i hi •η + d•i α i + v•i (i = 1, 2, K) .
Capítulo 7 – Dados de painel 40
em que y•ci = Pd i y•i , F•ci = Pd i F•i e v•ci = Pd i v•i [note-se que Pd i (d•i hi •η + d•iα i ) = 0 , uma
vez que Pd i d•i = 0 ].
Por exemplo, se
1
0
d•i = ( p = 4 ; pi = 2 ),
1
0
tem-se
y f v
1i 1i • 1i
0 0 0
y•i = , F•i = e v•i = .
y f v
3i 3i • 3i
0 0 0
Como
Capítulo 7 – Dados de painel 41
1 − (1 / 2) 0 0
−1/ 2
0 1 0 0
Pd i = ,
−1/ 2 0 1 − (1 / 2) 0
0 0 0 1
tem-se, por exemplo,
y c 1 − (1 / 2) 0 −1/ 2 0 y1i y1i − yi
1ci
y2 i 0 1 0 0 0 0
yc = − 1 / 2 0 1 − (1 / 2)
=
0 y3i y3i − yi
,
3i
y4ci 0 0 0 1 0 0
onde yi = ( y1i + y3i ) / 2 .
O estimador EF é dado por
−1 −1
m m
φˆEF = ∑i =1 ( F•ci )T F•ci ∑i =1 ( F ) y = ∑i =1 F•Ti Pd i F•i ∑
m c T c m
(7.85) •i •i i =1
F•Ti Pd i y•i .
O respectivo erro de amostragem é
−1
m
φˆEF − φ = ∑i =1 F•Ti Pd i F•i ∑
m
(7.86) i =1
F•Ti Pd i v•i .
O estimador EF é consistente e assintoticamente normal, desde que a hipótese
MENO.2′ seja substituída pela seguinte:
PALAVRAS CHAVE
Amostragem casual Heterocedasticidade condicionada
Choque Homocedasticidade condicionada
Componentes do erro Heterogeneidade individual
Condição de característica Linearidade
Consistência Modelo com componentes do erro
Dados de painel Modelo SER (com coeficientes comuns)
Efeito aleatório Normalidade assintótica
Efeito fixo Observações omissas
Enviesamento da selectividade Ortogonalidade
Erro idiossincrático Painel não balanceado
Erro de amostragem Processo de amostragem
Esfericidade dos choques Processo de geração de dados
Estimador de efeitos aleatórios (EA) Regressor (não) constante
Estimador de efeitos fixos (EF) Selecção da amostra
Estimador de primeiras diferenças Teste de especificação de Hausman
Estimador LSDV Unidade seccional
Estimador MGM Variáveis centradas
Estimador within
Capítulo 7 – Dados de painel 43
PERGUNTAS DE REVISÃO
y 2i = β1 + β 2 x2i + β 3 z 2i + β 4 wi + u 2i
y = β + β x + β z + β w + u ,
3i 1 2 3i 3 3i 4 i 3i
para três datas (1, 2 e 3), onde i é o índice que designa a unidade seccional.
Supondo que pretende obter o estimador de efeitos fixos (EF), apresente o modelo
transformado que lhe permitiria determinar aquele estimador.
6. Considere o modelo com dados de painel, y•i = F•iφ + e p hi•η + e pα i + v•i , em que:
y•i é o vector p × 1 das observações da variável explicada y da unidade seccional
i; F•i é a matriz p × k1 das observações dos regressores não constantes da unidade
seccional i; φ é o vector k1 × 1 dos coeficientes dos regressores não constantes;
e p é o vector p × 1 formado por uns; hi• é o vector 1 × k 2 dos regressores con-
tantes da unidade seccional i; η é o vector k 2 × 1 dos coeficientes dos regressores
constantes; α i é o efeito não observado da unidade seccional i; v•i é o vector
p × 1 dos choques relativos à unidade seccional i. Considere, também, as condi-
ções de ortogonalidade: E ( fti •vsi ) = 0 , E ( f ti •α i ) = 0 , E (hi •α i ) = 0 e E (hi •vti ) = 0
[note que: f ti • é a linha genérica da matriz F•i ; vti é o elemento genérico do
vector v•i ]. Das quatro condições de ortogonalidade referidas, indique aquela que
é considerada na estimação EF.
7. Considere o modelo com dados de painel, y•i = X •i β + e pα i + v•i , em que: y•i é o
vector p × 1 das observações da variável explicada y da unidade seccional i; X •i
(com linha genérica xti • ) é a matriz p × k das observações dos regressores da uni-
Capítulo 7 – Dados de painel 44
y 2i = β1 + β 2 x2i + β 3 z 2i + β 4 wi + α i + v2i
y = β + β x + β z + β w +α + v ,
3i 1 2 3i 3 3i 4 i i 3i
para três datas (1, 2 e 3), onde i é o índice que designa a unidade seccional. Apre-
sente as condições de ortogonalidade entre os efeitos não observados e os regres-
sores constantes.
11. Considere o modelo com dados de painel
y = β + β x + β z + β w +α + v
1i 1 2 1i 3 i 4 i i 1i
y 2i = β1 + β 2 x2i + β 3 z i + β 4 wi + α i + v2i
y3i = β1 + β 2 x3i + β 3 zi + β 4 wi + α i + v3i ,
para três datas (1, 2 e 3), onde i é o índice que designa a unidade seccional. Apre-
sente as condições de ortogonalidade entre os regressores não constantes e as
componentes do erro.
12. Seja o modelo com dados de painel, yti = xti • β + uti . Defina as duas componentes
em que habitualmente se decompõe o erro uti .
13. Seja o modelo com dados de painel, yti = xti• β + uti = f ti•φ + hi•η + α i + vti . Defina
a ortogonalidade entre os regressores não constantes (no tempo) e os choques.
14. Considere o modelo com dados de painel
y = β + β x + β z + β w +α + v
1i 1 2 1i 3 1i 4 i i 1i
y 2i = β1 + β 2 x2i + β 3 z 2i + β 4 wi + α i + v2i
y = β + β x + β z + β w +α + v ,
3i 1 2 3i 3 3i 4 i i 3i
para três datas (1, 2 e 3), onde i é o índice que designa a unidade seccional. Apre-
sente as condições de ortogonalidade entre os regressores não constantes e os
choques.
15. Considere o modelo com dados de painel, y•i = X •i β + e pα i + v•i , em que: y•i é o
vector p × 1 das observações da variável explicada y da unidade seccional i; X •i
Capítulo 7 – Dados de painel 45
(com linha genérica xti • ) é a matriz p × k das observações dos regressores da uni-
dade seccional i; β é o vector k × 1 dos coeficientes dos regressores; e p é o vec-
tor p × 1 formado por uns; α i é o efeito não observado da unidade seccional i; v•i
(com elemento genérico vti ) é o vector p × 1 dos choques relativos à unidade sec-
cional i. Apresente a condição que permite afirmar que os choques são esféricos.
16. Considere um modelo com dados de painel. Descreva a mecânica do teste de
Hausman para optar entre efeitos fixos e efeitos aleatórios.
CAPÍTULO 9
O operador T é linear se e só se
T (α xt + β wt ) = α T ( xt ) + β T ( wt ) .
Em particular, (T + δ ) xt = T ( xt ) + δ xt .
O operador produto de dois operadores (ou operador composto), T1T2 , é dado
por
(T1T2 ) xt = T1{ T2 ( xt )} .
O operador diferença
Quando não houver ambiguidade sobre qual a variável a que se está a aplicar o
operador ∆ , pode utilizar-se o símbolo ∆ xt em vez de ∆ ( xt ) .
O operador de desfasamento
tem-se
α ( L) xt = α 0 xt + α1 xt −1 + α 2 xt − 2 + L + α p xt − p .
Definição 9.1 – Equação linear com diferenças de ordem p, com coeficientes cons-
tantes
Considere-se uma variável yt que depende de t, desconhecida, bem como os sucessivos
desfasamentos até à ordem p, yt −1 , yt − 2 ,…, yt − p , e uma variável, wt , conhecida.
Uma equação da forma
(9.4) yt = ϕ 1 yt −1 + ϕ 2 yt −2 + L + ϕ p yt − p + wt ,
Vai começar-se por analisar o caso das equações lineares de 1.ª ordem ( p = 1 ),
(9.5) yt = ϕ yt −1 + wt ,
A resolução da equação (9.5) pode ser feita pelo método da substituição re-
cursiva, que se passa a descrever.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 6
Verifica-se, assim, que esta solução é uma função linear do valor inicial, y0 , e
dos valores históricos da variável input, w1 , w2 ,…, wt .
Note-se que a solução definida (9.6) poderia ser obtida tendo em conta os co-
mentários d) e e) da definição 9.1. Com efeito, facilmente se conclui que:
− yt0 = ϕ t é uma solução particular da equação homogénea, yt = ϕ yt −1 ;
− yth = cϕ t é a solução geral da equação homogénea;
− ytp = ϕ t −1w1 + ϕ t −2 w2 + L + ϕ wt −1 + wt é uma solução particular da equação (não ho-
mogénea);
− yt = cϕ t + ϕ t −1w1 + ϕ t − 2 w2 + L + ϕ wt −1 + wt é a solução geral da equação (não homo-
génea);
− Fazendo c = y0 , obtém-se a a solução definida (9.6).
1 + ϕ L + ϕ 2 L2 + L + ϕ t −1 Lt −1 ,
obtém-se
(1 + ϕ L + ϕ 2 L2 + L + ϕ t −1Lt −1 )(1 − ϕ L) yt = (1 + ϕ L + ϕ 2 L2 + L + ϕ t −1Lt −1 ) wt ,
ou,
(1 − ϕ t Lt ) yt = (1 + ϕ L + ϕ 2 L2 + L + ϕ t −1Lt −1 ) wt ,
o que permite obter a solução definida (9.6). Pode, portanto, concluir-se que, aplicando
o operador 1 + ϕ L + ϕ 2 L2 + L + ϕ t −1Lt −1 a (9.7), se dispõe do mesmo resultado que foi
obtido pelo método da substituição recursiva.
É interessante analisar a natureza deste operador. Notando que
yt − (1 + ϕ L + ϕ 2 L2 + L + ϕ t −1Lt −1 )(1 − ϕ L) yt = ϕ t y0 ,
é fácil concluir que, se | ϕ | < 1 e a sucessão { yt } é limitada, esta diferença tende para 0,
quando t → +∞ . Pode, então, escrever-se
lim (1 + ϕ L + ϕ 2 L2 + L + ϕ s Ls ) = 1 + ϕ L + ϕ 2 L2 + ϕ 3 L3 + L ,
s → +∞
(1 + ϕ L + ϕ 2 L2 + ϕ 3 L3 + L)(1 − ϕ L) = 1 ,
e, portanto,
(9.8) (1 − ϕ L) −1 = 1 + ϕ L + ϕ 2 L2 + ϕ 3 L3 + L ,
onde (1 − ϕ L) −1 é o operador inverso de 1 − ϕ L .
Nestas condições, vem
(9.9) yt = (1 − ϕ L) −1 wt = wt + ϕ wt −1 + ϕ 2 wt −2 + ϕ 3 wt −3 + L .
Com efeito, basta considerar yt −1 como valor inicial, e obter yt + s com a técnica
de substituição recursiva. Outro modo de obter (9.10) consiste em considerar a relação
(9.7) em t + s , (1 − ϕ L) yt + s = wt + s , e multiplicar ambos os membros desta igualdade por
1 + ϕ L + ϕ 2 L2 + L + ϕ s Ls .
Considerando (9.10), o efeito, ceteris paribus, de wt sobre yt + s , é medido pelo
multiplicador dinâmico,
∂ yt + s
(9.11) =ϕs .
∂ wt
Quadro 9.1
Comportamento do multiplicador dinâmico
Casos Valores de ϕ Comportamento de (9.11) quando s → +∞
1 0 <ϕ <1 Tende em progressão geométrica para 0, decrescendo.
2 −1 < ϕ < 0 Tende em progressão geométrica para 0, oscilando.
3 ϕ >1 Tende exponencialmente para + ∞ , crescendo.
4 ϕ < −1 Diverge exponencialmente, oscilando.
5 ϕ =1 Mantém-se igual 1.
6 ϕ = −1 Oscila entre 1 e − 1 .
VA t = ∑s =0 γ s yt + s .
+∞
(9.12)
Quadro 9.2
Comportamento de ϕ s para vários valores de ϕ
Valores de ϕ
s 0.8 –0.8 1.1 –1.1 1 –1
0 1.000 1.000 1.000 1.000 1.000 1.000
1 0.800 –0.800 1.100 –1.100 1.000 –1.000
2 0.640 0.640 1.210 1.210 1.000 1.000
3 0.512 –0.512 1.331 –1.331 1.000 –1.000
4 0.410 0.410 1.464 1.464 1.000 1.000
5 0.328 –0.328 1.611 –1.611 1.000 –1.000
6 0.262 0.262 1.772 1.772 1.000 1.000
7 0.210 –0.210 1.949 –1.949 1.000 –1.000
8 0.168 0.168 2.144 2.144 1.000 1.000
9 0.134 –0.134 2.358 –2.358 1.000 –1.000
10 0.107 0.107 2.594 2.594 1.000 1.000
11 0.086 –0.086 2.853 –2.853 1.000 –1.000
12 0.069 0.069 3.138 3.138 1.000 1.000
13 0.055 –0.055 3.452 –3.452 1.000 –1.000
14 0.044 0.044 3.797 3.797 1.000 1.000
15 0.035 –0.035 4.177 –4.177 1.000 –1.000
16 0.028 0.028 4.595 4.595 1.000 1.000
17 0.023 –0.023 5.054 –5.054 1.000 –1.000
18 0.018 0.018 5.560 5.560 1.000 1.000
19 0.014 –0.014 6.116 –6.116 1.000 –1.000
20 0.012 0.012 6.727 6.727 1.000 1.000
∂ yt + s 1
∑
+∞
(9.14) = ,
s =0
∂ wt 1 −ϕ
Exemplo 9.2 – Retomando a equação do exemplo 9.1, suponha-se que quer conhecer-se
o efeito sobre lcga, daqui a dois trimestres, quando lpga varia de uma unidade no tri-
mestre corrente (mantendo lpga constante nos próximos dois trimestres).
Tem-se
∂ lcgat + 2 ∂ lcgat + 2 ∂ wt ∂ wt
= × = ϕ2 × = 0.292 × (−0.43) ≈ −0.036 .
∂ lpgat ∂ wt ∂ lpgat ∂ lpgat
verificando-se que
lim ∆ys = 0 .
s → +∞
e
1 1
lim ∆ys = = = 5.
s → +∞ 1 − ϕ 1 − 0 .8
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 11
Quadro 9.3
Efeitos transitórios e permanentes
Efeitos Efeitos
Transitórios permanentes
s t ∆wt ∆yt ∑ ∆y t ∆wt ∆yt
0 0.0000 0.0000 0.0000
1 0 0.0000 0.0000 0 0.0000
0 2 1 1.0000 1.0000 1 1.0000
1 3 0 0.8000 1.8000 1 1.8000
2 4 0 0.6400 2.4400 1 2.4400
3 5 0 0.5120 2.9520 1 2.9520
4 6 0 0.4096 3.3616 1 3.3616
5 7 0 0.3277 3.6893 1 3.6893
6 8 0 0.2621 3.9514 1 3.9514
7 9 0 0.2097 4.1611 1 4.1611
8 10 0 0.1678 4.3289 1 4.3289
9 11 0 0.1342 4.4631 1 4.4631
10 12 0 0.1074 4.5705 1 4.5705
11 13 0 0.0859 4.6564 1 4.6564
12 14 0 0.0687 4.7251 1 4.7251
13 15 0 0.0550 4.7801 1 4.7801
14 16 0 0.0440 4.8241 1 4.8241
15 17 0 0.0352 4.8593 1 4.8593
16 18 0 0.0281 4.8874 1 4.8874
17 19 0 0.0225 4.9099 1 4.9099
18 20 0 0.0180 4.9279 1 4.9279
19 21 0 0.0144 4.9424 1 4.9424
20 22 0 0.0115 4.9539 1 4.9539
21 23 0 0.0092 4.9631 1 4.9631
22 24 0 0.0074 4.9705 1 4.9705
23 25 0 0.0059 4.9764 1 4.9764
24 26 0 0.0047 4.9811 1 4.9811
25 27 0 0.0038 4.9849 1 4.9849
26 28 0 0.0030 4.9879 1 4.9879
27 29 0 0.0024 4.9903 1 4.9903
28 30 0 0.0004 4.9984 1 4.9984
ϕ1 + ϕ12 + 4ϕ 2 ϕ1 − ϕ12 + 4ϕ 2
λ1 = , λ2 = ,
2 2
a verificar λ1 + λ2 = ϕ1 e λ1λ2 = −ϕ 2 .
Podem-se verificar três casos:
a) As raízes são reais e distintas: ϕ12 + 4ϕ 2 > 0 .
Como as duas soluções particulares independentes são y10t = λ1t e y20t = λt2 , a solu-
ção geral é dada por
yt = c1λ1t + c2 λt2 .
ϕ1 + i − (ϕ12 + 4ϕ 2 ) ϕ1 − i − (ϕ12 + 4ϕ 2 )
λ1 = = a + i b e λ2 = = a − ib ,
2 2
onde
ϕ1 − (ϕ12 + 4ϕ 2 )
a= e b= .
2 2
A solução geral da equação é dada por
yt = c1λ1t + c2 λt2 = c1 (a + i b) t + c2 (a − ib) t .
ou
yt = r t {d1 cos(θ t ) + d 2 sen (θ t )} ,
onde d1 = c1 + c2 e d 2 = i (c1 − c2 ) .
Dados y0 e y1 , é fácil fazer os cálculos para determinar as constantes que dão a so-
lução definida. Assim,
d1 = y0
y0 = d1
ou y1 − y0r cos(θ )
y1 = r{d1 cos(θ ) + d 2 sen(θ )} d 2 = r sen(θ )
.
ϕ1 + ϕ12 + 4ϕ 2
λ1 > 1 ⇔ > 1 ⇔ ϕ12 + 4ϕ 2 > 2 − ϕ1 .
2
Como ϕ12 + 4ϕ 2 > 0 , a desigualdade verifica-se para ϕ1 ≥ 2 . Se ϕ1 < 2 , elevando ao
quadrado ambos os membros da desigualdade, obtém-se
ϕ12 + 4ϕ 2 > 4 − 4ϕ1 + ϕ12 ⇔ ϕ 2 > 1 − ϕ1 .
Em conclusão, λ1 > 1 se ϕ1 ≥ 2 ou se o ponto (ϕ1 , ϕ 2 ) se encontra à direita da recta
ϕ 2 = 1 − ϕ1 . A intersecção da parábola com esta recta dá-se no ponto (2,−1) , pelo
que λ1 = 1 em todos os pontos da recta à esquerda de (2,−1) .
Com um raciocínio semelhante, verifica-se que λ2 < −1 se ϕ1 ≤ −2 ou se o ponto
(ϕ1 , ϕ 2 ) se encontra à esquerda da recta ϕ 2 = 1 + ϕ1 . Como em (−2,−1) se verifica a
intersecção desta recta com a parábola, λ2 = −1 em todos os pontos da recta à es-
querda de (−2,−1) .
Finalmente, a solução é estável [ | λ j | < 1 ( j = 1,2 )], nas condições seguintes:
ϕ1
− se 0 ≤ ϕ1 < 2 então − < ϕ 2 < 1 − ϕ1 ;
4
ϕ1
− se − 2 < ϕ1 ≤ 0 então − < ϕ 2 < 1 + ϕ1 .
4
− No caso (b), todos os pontos (ϕ1 , ϕ 2 ) pertencem à parábola. A solução é estável se e
só se | λ | < 1 . Facilmente se conclui que: λ = 1 , no ponto (2,−1) ; λ = −1 , no ponto
(−2,−1) ; λ > 1 , nos pontos da parábola a verificar ϕ1 > 2 ; λ < −1 , nos pontos da
parábola, tais que ϕ1 < −2 ; | λ | < 1 , em todos os pontos da parábola que correspon-
dem a − 2 < ϕ1 < 2 .
− No caso (c), a solução é estável se r < 1 . Como
r = − ϕ2 > 0 ,
6
ϕ2
5
1
ϕ1
0
-6 -4 -2 0 2 4 6
-1
ϕ 2 = 1 + ϕ1 -2
ϕ 2 = 1 − ϕ1
-3
-4
ϕ 2 = −ϕ12 / 4
-5
onde z1 + z2 = −ϕ1 / ϕ2 e z1 z2 = −1 / ϕ 2 .
Multiplicando por
ϕ1 + ϕ12 + 4ϕ 2
ambos os termos do quociente referente à raiz z1 , e por
ϕ1 − ϕ12 + 4ϕ 2
ambos os termos do quociente respeitante à raiz z 2 , obtém-se, respectivamente,
2 2
z1 = e z2 = .
ϕ1 + ϕ12 + 4ϕ 2 ϕ1 − ϕ12 + 4ϕ 2
Assim,
2 2
1 ϕ1 + ϕ1 + 4ϕ 2 1 ϕ1 − ϕ1 + 4ϕ 2
λ1 = = e λ2 = = ,
z1 2 z2 2
tem-se
yt = (1 − λ1 L) −1 (1 − λ2 L) −1 wt .
onde
λ1 λ2
h1 = , h2 = e h1 + h2 = 1 .
λ1 − λ2 λ2 − λ1
Como
yt + s = (h1 + h2 ) wt + s + (h1λ1 + h2λ2 ) wt + s −1 + (h1λ12 + h2λ22 ) wt + s − 2 + L + (h1λ1s + h2λs2 ) wt + L ,
∂ yt + s a
= h1λ1s + h2 λs2 = r s cos(θ s ) + sen (θ s ) .
∂ wt b
A discussão do comportamento do multiplicador dinâmico (9.18) é semelhan-
te à que foi feita a propósito da solução geral da respectiva equação homogénea: o
multiplicador dinâmico é estável se os módulos das raízes são menores do que 1. Em
particular, se as raízes são complexas conjugadas, a condição de estabilidade é dada por
r <1.
Neste caso, o sistema não é estável, porque uma das raízes é igual a 1; o multip-
licador tende para 0.625 quando s → +∞ .
∇
Evidentemente que esta expressão é pouco elucidativa do efeito que wt tem so-
bre yt + s . No entanto, notando que
0 .4 2
r = 0.5 ≈ 0.707 , θ = Arc cos = Arc cos ≈ 1.284 , a = 2 ≈ 0.295 ,
2 0 .5 5 b 46
tem-se
∂ yt + s
≈ 0.707 s {cos(1.284 s ) + 0.295 sen (1.284 s )} ,
∂ wt
Equações de ordem p
onde c1 , c2 , K , c p são constantes arbitrárias. Note-se que, por cada par de raízes com-
plexas conjugadas (por exemplo, as raízes λ j e λ j +1 ), se pode escrever
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 20
onde d j = c j + c j +1 e d j +1 = i (c j − c j +1 ) .
No caso de haver raízes iguais, não existem p soluções particulares indepen-
dentes da forma λtj . Sejam λi ( i = 1, 2, K , q ) as raízes distintas, onde cada λi tem mul-
tiplicidade algébrica (número de vezes que a raiz se repete) igual a pi ; naturalmente,
tem-se p1 + p1 + L + pq = p .
Então, por cada raiz λ j de multiplicidade algébrica pi , é óbvio que não se pode
considerar, na solução geral,
yt = L + ci λti + ci +1λti + L + ci+ pi −1λti + L ,
mas sim,
Em geral, tem-se
(9.21) 1 − ϕ1 z − ϕ 2 z 2 − L − ϕ p z p = 0 ,
Então,
yt = (1 − λ1 L) −1 (1 − λ2 L) −1 L (1 − λ p L) −1 wt .
ou
λ1p −1
h1 = .
(λ1 − λ2 )(λ1 − λ3 ) L (λ1 − λ p )
λ2p −1
h2 = ;
(λ2 − λ1 )(λ2 − λ3 ) L (λ2 − λ p )
...
λ pp −1
hp = .
(λ p − λ1 )(λ p − λ2 ) L (λ p − λ p −1 )
ou
yt = (h1 + h2 + L + hp ) wt
(9.23) + (h1λ1 + h2λ2 + L + hp λ p ) wt −1
+ (h1λ12 + h2λ22 + L + hp λ2p ) wt − 2 + L.
Continua a ter-se
∂ yt + s
(9.24) = h1λ1s + h2 λs2 + L + h p λsp .
∂ wt
∂ wt ∂ wt
Como
yt = (1 − λ1 L) −1 (1 − λ2 L) −1 L (1 − λ p L) −1 wt ,
yt = ψ ( L) wt ,
1 − ϕ 1 L − ϕ 2 L2 − L − ϕ p Lp = (1 − λ1 L)(1 − λ2 L) L (1 − λ p L) ,
conclui-se que
ψ ( L) = (1 − ϕ 1 L − ϕ 2 L2 − L − ϕ p Lp ) −1 ,
e, portanto,
ψ (γ ) = (1 − ϕ 1γ − ϕ 2γ 2 − L − ϕ pγ p ) −1 .
Logo,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 23
∂ VA t ∂y 1
= ∑s =0 γ s t + s =
+∞
(9.25) .
∂ wt ∂ wt 1 − ϕ1γ − ϕ 2γ 2 − L − ϕ pγ p
Este valor é também é igual ao efeito de longo prazo sobre o output, quando o
input varia de uma unidade, de forma permanente. Tem-se:
∂y ∂y ∂y ∂y 1
(9.27) lim t + s + t + s + t + s + L + t + s = .
s → +∞
∂ wt ∂ wt +1 ∂ wt + 2 ∂ wt + s 1 − ϕ1 − ϕ2 − L − ϕ p
Donde
∂ yt + s
= h1λ1s + h2 λs2 + h3λ3s ≈ 0.951 × 0.724 s + 0.264 × (−0.5) s − 0.215 × 0.274 s ,
∂ wt
A operação de filtragem de uma série temporal, {xt } , permite obter outra série
temporal, { yt } , aplicando o filtro α (L) à primeira. Assim,
yt = α ( L) xt = α 0 xt + α1 xt −1 + α 2 xt − 2 + L = ∑ s = 0 α s xt − s .
+∞
(9.29)
obtendo-se
(9.32) yt = µ + θ ( L)ε t .
γ s = 0 ( s = q + 1, q + 2, K ),
onde γ s = Cov( yt , yt − s ) é a autocovariância de ordem s (note-se que γ s = γ − s ).
Facilmente se obtêm os coeficientes de autocorrelação:
θ s + θ s+1θ1 + L + θ qθ q−s
ρs = ( s = 0,1, K , q ); ρ s = 0 ( s = q + 1, q + 2, K ).
1 + θ12 + L + θ q2
Para q = 1, vem:
γ 0 = (1 + θ12 )σ ε2 ; γ 1 = θ1σ ε2 ; γ s = 0 ( s = 2, 3, 4, K );
θ1
ρ 0 = 1 ; ρ1 = ; ρ s = 0 ( s = 2, 3, 4, K ).
1 + θ12
Para q = 2 , resulta:
γ 0 = (1 + θ12 + θ 22 )σ ε2 ; γ 1 = (θ1 + θ 2θ1 )σ ε2 ; γ 2 = θ 2σ ε2 ; γ s = 0 ( s = 3, 4, K );
θ1 + θ 2θ1 θ2
ρ 0 = 1 ; ρ1 = 2 2
; ρ2 = ; ρ s = 0 ( s = 3, 4, K ).
1 + θ1 + θ 2 1 + θ12 + θ 22
ψ 0ε t + ψ 1ε t −1 + ψ 2ε t −2 + L = ∑s =0ψ s ε t −s ,
+∞
(9.33)
yt = µ + ψ 0ε t + ψ 1ε t −1 + ψ 2ε t −2 + L = µ + ∑s=0ψ sε t −s = µ + ψ ( L)ε t ,
+∞
(9.34)
onde
ψ ( L) = ψ 0 + ψ 1 L + ψ 2 L2 + L ,
é um filtro.
Este filtro é absolutamente somável se e só se
∑
+∞
(9.35) s =0
| ψ s | < +∞ .
∑
+∞
s =0
ψs
é absolutamente convergente (e, portanto, convergente). Note-se também que uma con-
dição necessária de convergência de uma série é que o seu termo geral, ψ s , tenda para
0, quando s → +∞ . Assim, a somabilidade absoluta implica que os choques passados,
representados pelos ψ s , vão-se atenuando.
Como se vai ver no teorema seguinte, a sucessão das somas parciais
∑
n
(9.36) s =0
ψ sε t − s
converge em média quadrática para uma dada variável aleatória, desde que se verifique
(9.35). Neste caso, diz-se que a série estocástica (9.33) é convergente em média qua-
drática. Como a diferença entre (9.34) e (9.33) se resume à constante µ , também se
pode dizer que
yt = µ + ∑s =0ψ s ε t − s
+∞
Teorema 9.1
Seja {ε t } um ruído branco e {ψ s } uma sucessão de números reais absolutamente so-
mável. Então:
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 28
∑
+∞
(9.38) s =0
| γ s | < +∞ .
vem
2
E{( ytm − ytn ) 2 } = E ∑ s = n +1ψ sε t − s = σ ε2 ∑ s = n +1ψ s2 .
m m
∑ ψ s2 = ∑s =0ψ s2 .
n +∞
lim s =0
n→+∞
∑ ψ s2 − ∑s =0ψ s2 = lim ∑
m n m
lim s =0 s = n +1
ψ s2 = 0 ,
m→+∞ m→+∞
n→+∞ n →+∞
lim E ( ytn ) = E ( yt ) = µ .
n→+∞
Como
E{( ytn − µ )( yt − s ,n − µ )} = (ψ sψ 0 + ψ s +1ψ 1 + ψ s + 2ψ 2 + L + ψ s + nψ n )σ ε2 ,
∑ ψ s +iψ i ≤ σ ε2 ∑i=0 ( | ψ s +i | | ψ i | ) .
+∞ +∞
| γ s | = σ ε2 i =0
Então,
∑ | γ s | ≤ σ ε2 ∑ s = 0 ∑i = 0 ( | ψ s + i | | ψ i | )
+∞ +∞ +∞
s =0
= σ ε2 ∑i = 0 ∑ s = 0 ( |ψ s + i | |ψ i | )
+∞ +∞
= σ ε2 ∑i = 0 | ψ i | ∑ s = 0 ( | ψ s + i | ) .
+∞ +∞
Como {ψ s } é absolutamente somável, existe um K < +∞ tal que
∑
+∞
s =0
|ψ s | < K ,
e, portanto,
∑
+∞
s =0
| ψ s +i | < K ( i = 0, 1, 2, K ).
Finalmente,
∑ | γ s | < σ ε2 K ∑i=0 | ψ i | < σ ε2 K 2 < +∞ .
+∞ +∞
s =0
existe uma ordem n, a partir da qual | ψ s | < 1 , o que implica ψ s2 < | ψ s | , qualquer que
seja s ≥ n . Então,
∑
+∞
s =1
(1 / s)
∑
+∞
s =1
(1 / s 2 )
yt = µ + ∑−∞ ψ sε t −s , com ∑
+∞ +∞
−∞
| ψ s | < +∞ .
Embora, o teorema 9.1 se possa generalizar para este caso, apenas se vão consi-
derar os processos unilaterais, uma vez que os processos bilaterais são pouco usuais em
Economia.
yt = α 0 xt + α1xt −1 + α 2 xt − 2 + L = ∑ s = 0 α s xt − s = α ( L) xt ,
+∞
(9.40)
Teorema 9.2
Seja {xt } um processo estacionário em covariância e {α s } uma sucessão de números
reais absolutamente somável. Então:
a) Para cada t, yt , dado por (9.40), é convergente em média quadrática.
b) Se E ( xt ) = µ x , então
µ = E ( yt ) = µ x ∑ s = 0 α s .
+∞
(9.41)
γ s = ∑i = 0 ∑l = 0 α iα l γ sx− i + l .
+∞ +∞
(9.42)
ytn = α 0 xt + α1 xt −1 + α 2 xt − 2 + L + α n xt − n = ∑ s = 0 α s xt − s .
n
Como E ( xt ) = µ x , tem-se
n → +∞ n → +∞
Como
E{( ytn − µ )( yt − s , n − µ )} = E ∑i = 0 α i ( xt − i − µ x ) ∑l = 0 α l ( xt − s − l − µ x )
n n
= ∑i = 0 ∑l = 0 α iα lγ sx− i + l ,
n n
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 32
Teorema 9.3
Seja ϕ ( L) = 1 − ϕ1 L − ϕ 2 L2 − L − ϕ p Lp e ψ ( L) = ϕ ( L) −1 = ψ 0 + ψ 1 L + ψ 2 L2 + L . Se a so-
lução geral da equação (9.30) é estável, então a sucessão {ψ s } , dos coeficientes de
ψ ( L) , é absolutamente somável.
onde c = max{| cil |} . Como , por hipótese, | λi | < 1 , seja ξ = | λi | , obtendo-se, devido
ao resultado auxiliar,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 33
para algum ai > 0 e | λi | < bi < 1 . Sendo a ∗ = max{ai } e b = max{bi } , tem-se, para
qualquer i, ai bis < a ∗b s . Então,
onde a = cpa ∗ .
Finalmente, tem-se
a
∑ | ψ s | < ∑s =0 a b s =
+∞ +∞
< +∞ ,
s =0
1− b
ou seja, {ψ s } é absolutamente somável.
∇∇
Processos auto-regressivos
obtendo-se
(9.44) ϕ ( L ) yt = α + ε t .
Quando se compara (9.43) com (9.4), conclui-se que se tem ainda uma equação
de diferenças linear de ordem p com coeficientes constantes, onde wt = α + ε t .
Vai começar-se por aprofundar o estudo dos processos auto-regressivos de 1.ª
ordem, ou seja,
(9.45) yt = α + ϕ yt −1 + ε t ⇔ (1 − ϕ L) yt = α + ε t ⇔ ϕ ( L) yt = α + ε t ,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 34
onde ϕ ( L) = 1 − ϕ L .
Quando ϕ ≠ 1 , (9.45) pode escrever-se na forma
(1 − ϕ L)( yt − µ ) = ε t ⇔ yt − µ = ϕ ( yt −1 − µ ) + ε t ,
onde µ = α /(1 − ϕ ) .
Pretende-se encontrar uma solução estacionária em covariância, { yt } , para a
equação (9.45). Para isso, vão analisar-se três casos:
1) | ϕ | < 1 .
Como esta condição implica que o filtro
(1 − ϕ L) −1 = 1 + ϕ L + ϕ 2 L2 + L
é absolutamente somável [a sucessão {ϕ s } , para s = 0,1,2, K , é absolutamente so-
mável, com soma igual a 1 /(1 − ϕ ) ], pode fazer-se
(1 − ϕ L) −1 (1 − ϕ L)( yt − µ ) = (1 − ϕ L) −1 ε t ,
ou
yt = µ + (1 − ϕ L) −1 ε t = µ + (1 + ϕ L + ϕ 2 L2 + L)ε t = µ + ∑s =0 ϕ sε t −s .
+∞
(9.46)
Então, de acordo com o teorema 9.1, o processo { yt } , dado por (9.46), é conver-
gente em média quadrática e estacionário em covariância. Pode, ainda, concluir-se
que o processo AR(1), (9.45), é um processo linear, pois pode representar-se por
um processo MA(∞) . Naturalmente, (9.46) define o único processo estacionário em
covariância, solução da equação de diferenças estocástica, (9.45). Como a condição
de estabilidade | ϕ | < 1 garante que o processo { yt } é estacionário em covariância,
pode também chamar-se condição de estacionaridade.
Os momentos do processo AR(1) [valor esperado, autocovariâncias e coeficientes
de autocorrelação] podem ser determinados a partir dos resultados obtidos no teore-
ma 9.1. De acordo com a alínea b) deste teorema, tem-se E ( yt ) = µ .
Atendendo a (9.37) [teorema 9.1c)], obtém-se
ϕs γ
(9.47) γ s = (ϕ s + ϕ s +2 + ϕ s +4 + L)σ ε2 = σ ε2 2
e ρs = s = ϕ s ,
1−ϕ γ0
para s = 0, 1, 2, K . Em particular,
σ ε2
γ0 = .
1−ϕ 2
Estes momentos foram calculados baseados no facto do processo AR(1), a verificar
a condição de estacionaridade, se poder representar por um processo MA(∞) . Con-
tudo, supondo que { yt } é estacionário em covariância, é possível obter os mesmos
resultados directamente a partir de (9.45). Com efeito, tomando o valor esperado de
ambos os membros de (9.45),
E ( yt ) = α + ϕ E ( yt −1 ) + E (ε t ) ,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 35
Como yt −1 − µ = ε t −1 + ϕ ε t −2 + ϕ 2ε t −3 + L , tem-se
E{( yt − µ ) 2 } = ϕ 2 E{( yt −1 − µ ) 2 } + σ ε2 .
Donde
E{( yt − µ )( yt − s − µ )} = ϕ E{( yt −1 − µ )( yt −s − µ )} .
Com efeito,
E ∗ ( yt | 1, yt −1 ) = α + ϕ yt −1 + E ∗ (ε t | 1, yt −1 )
−1
1 E ( yt −1 ) E (ε t )
= α + ϕ yt −1 + [ 1 yt −1 ] 2
E ( yt −1 ) E ( yt −1 ) E ( yt −1ε t )
= α + ϕ yt −1 ,
ou
(1 − ϕ −1L−1 )( yt − µ ) = −ϕ −1ε t +1 ,
ou
para s suficientemente grande. Esta contradição mostra que { yt } não pode ser esta-
cionário em covariância.
Outra maneira de verificar a não estacionaridade do processo consiste em fixar a
condição inicial y0 , e notar que
yt = y0 + α t + (ε t + ε t −1 + L + ε1 ) .
sσ ε2
(−1) ρ s = 1 −
s
< −1 ,
2γ 0
para s suficientemente grande. Assim, tinha-se | ρ s | > 1 , o que leva a concluir que
{ yt } não pode ser estacionário em covariância.
yt = µ + ψ ( L) ε t = µ + (ψ 0 + ψ 1 L + ψ 2 L2 + L)ε t = µ + ∑s =0ψ s ε t −s .
+∞
(9.49)
Processos ARMA
obtendo-se
(9.56) ϕ ( L ) yt = α + θ ( L ) ε t .
Neste caso, tem-se a equação estocástica de diferenças linear de ordem p com
coeficientes constantes, onde wt = α + ε t + θ1ε t −1 + θ 2ε t −2 + L + θ qε t −q .
Seja
α α
µ= = ,
1 − ϕ1 − ϕ 2 − L − ϕ p ϕ (1)
ou
ϕ ( L)( yt − µ ) = θ ( L)ε t .
yt = µ + ψ ( L) ε t = µ + (ψ 0 + ψ 1 L + ψ 2 L2 + L)ε t = µ + ∑s =0ψ s ε t − s .
+∞
(9.57)
ou
ψ 0 + (ψ 1 − ϕψ 0 ) L + (ψ 2 − ϕψ 1 ) L2 + L = 1 + θ L .
Donde
ψ 0 = 1
ψ 1 = ϕ + θ
ψ − ϕψ = 0 ( s = 2, 3, K) .
s s −1
Neste caso, s∗ = 2 .
2) Processo ARMA(3,1): yt = α + ϕ1 yt −1 + ϕ2 yt − 2 + ϕ3 yt − 3 + ε t + θ ε t −1 .
Tem-se: ϕ ( L) = 1 − ϕ1L − ϕ2 L2 − ϕ3 L3 ; θ ( L) = 1 + θ L .
Então,
(1 − ϕ1L − ϕ2 L2 − ϕ3 L3 )(ψ 0 + ψ 1L + ψ 2 L2 + L) = 1 + θ L ,
ou
ψ 0 + (ψ 1 − ϕ1ψ 0 ) L + (ψ 2 − ϕ1ψ 1 − ϕ2ψ 0 ) L2 + (ψ 3 − ϕ1ψ 2 − ϕ2ψ 1 − ϕ3ψ 0 ) L3 + L = 1 + θ L .
Donde
ψ 0 = 1
ψ 1 = ϕ1 + θ
2
ψ 2 = ϕ1 + ϕ1θ + ϕ2
ψ s − ϕ1ψ s −1 − ϕ 2ψ s − 2 − ϕ3ψ s − 3 = 0 ( s = 3, 4, K) .
Neste caso, s∗ = 3 .
3) Processo ARMA(1,2): yt = α + ϕ yt −1 + ε t + θ1ε t −1 + θ 2 ε t − 2 .
Tem-se: ϕ ( L) = 1 − ϕ L ; θ ( L) = 1 + θ1 L + θ 2 L2 .
Obtém-se
(1 − ϕ L)(ψ 0 + ψ 1L + ψ 2 L2 + L) = 1 + θ1 L + θ 2 L2 ,
ou
ψ 0 + (ψ 1 − ϕψ 0 ) L + (ψ 2 − ϕψ 1 ) L2 + (ψ 3 − ϕψ 2 ) L3 + L = 1 + θ1 L + θ 2 L2 .
Donde
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 42
ψ 0 = 1
ψ 1 = ϕ + θ1
2
ψ 2 = ϕ + ϕθ1 + θ 2
ψ s − ϕψ s −1 = 0 ( s = 3, 4, K) .
Neste caso, s∗ = 3 .
e
(9.60) ρ s = ϕ1 ρ s −1 + ϕ 2 ρ s −2 + L + ϕ p ρ s − p ( s = q + 1, q + 2, K ).
Então,
g y ( z ) = ∑ s = −∞ γ s z s = γ 0 + ∑ s =1 γ s ( z s + z − s ) ,
+∞ +∞
(9.61)
e que
(cos ω − i sen ω ) s + (cos ω − i sen ω )− s = cos( sω ) − i sen ( sω ) + cos(− sω ) − i sen (− sω )
= cos( sω ) − i sen ( sω ) + cos( sω ) + i sen ( sω )
= 2 cos( sω ) .
Então,
1 γ + 2 + ∞ γ cos( sω ) .
s y (ω ) =
2π 0 ∑s =1 s
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 45
ou
(9.62) g y ( z ) = σ ε2 θ ( z )θ ( z −1 ) ,
onde θ ( z ) = 1 + θ z .
O resultado (9.62) é imediatamente generalizável para os processos de médias
móveis de ordem q. Assim, considerando
yt = µ + θ ( L) ε t = µ + (1 + θ1 L + θ 2 L2 + L + θ q Lq ) ε t ,
tem-se
g y ( z ) = σ ε2 θ ( z )θ ( z −1 )
(9.63)
= σ ε2 (1 + θ1 z + θ 2 z 2 + L + θ q z q )(1 + θ1 z −1 + θ 2 z −2 + L + θ q z −q ) .
Mais geralmente:
− Seja {xt } um processo estacionário em covariância, onde a sucessão das autocova-
riâncias é absolutamente somável, e g x (z ) a respectiva função geradora das autoco-
variâncias. Considere-se o processo estocástico { yt } , dado por yt = h( L) xt , onde o
filtro h( L) = h0 + h1 L + h2 L2 + L é absolutamente somável. Então, a função geradora
das autocovariâncias de { yt } é dada por
(9.65) g y ( z ) = h( z ) g x ( z ) h( z −1 ) .
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 46
Pode verificar-se que se tem, de facto, a respectiva função geradora. Assim, no-
tando que
σ ε2
= σ ε2 (1 + ϕ z + ϕ 2 z 2 + L)(1 + ϕ z −1 + ϕ 2 z −2 + L) ,
(1 − ϕ z )(1 − ϕ z −1 )
o coeficiente de z s é
ϕs
σ ε2 (ϕ s + ϕ s +1ϕ + ϕ s +2ϕ 2 + L) = σ ε2 =γs.
1−ϕ 2
No caso de um processo ARMA( p, q ) , estacionário em covariância, dado por
ϕ ( L)( yt − µ ) = θ ( L)ε t , vem a seguinte função geradora das autocovariâncias:
σ ε2θ ( z ) θ ( z −1 )
(9.67) g y ( z) = .
ϕ ( z )ϕ ( z −1 )
Por exemplo, no caso ARMA(1,1), yt − µ = ϕ ( yt −1 − µ ) + ε t + θ ε t −1 , tem-se
σ ε2 (1 + θ z )(1 + θ z −1 )
g y ( z) = .
(1 − ϕ z )(1 − ϕ z −1 )
Invertibilidade
(1 + θ L) −1 ( yt − µ ) = ε t ,
ou
µ
(9.68) yt = + θ yt −1 − θ 2 yt − 2 + θ 3 yt − 3 − L + ε t .
1+θ
Verifica-se, assim, que o processo MA(1) se pode representar por um processo
AR (∞) , desde que se verifique a condição | θ | < 1 . Diz-se, então, que o processo
MA(1) é invertível e | θ | < 1 é a condição de invertibilidade.
Quando se tem um processo MA(q ) , yt − µ = θ ( L)ε t , onde
θ ( L) = 1 + θ L + θ 2 L2 + L + θ q Lq ,
a condição de invertibilidade é que todas as raízes da equação
θ ( z) = 1 + θ z + θ 2 z 2 + L + θ q z q = 0 ,
se encontrem no exterior do círculo unitário. Nestas condições, o filtro
θ ( L) −1 = 1 + η1 L + η 2 L2 + η3 L3 + L
é absolutamente somável, e diz-se que o processo MA(q ) é invertível. A sua represen-
tação como AR (∞) é dada por θ ( L) −1 ( yt − µ ) = ε t , ou
µ
(9.69) yt + η1 yt −1 + η 2 yt − 2 + η3 yt − 3 + L = + εt ,
θ (1)
onde θ (1) = 1 + θ + θ 2 + L + θ q .
Em geral, quando se considera um processo ARMA( p, q ) ,
ϕ ( L)( yt − µ ) = θ ( L)ε t ,
onde ϕ ( L) = 1 − ϕ1 L − ϕ 2 L2 − L − ϕ p Lp , vai continuar a supor-se que θ (L) verifica a
condição de invertibilidade. Então, a respectiva representação como AR (∞) é
θ ( L) −1ϕ ( L)( yt − µ ) = ε t ,
ou
ϕ (1) µ
θ ( L) −1ϕ ( L) yt = + εt ,
θ (1)
onde ϕ (1) = 1 − ϕ1 − ϕ 2 − L − ϕ p .
Esta representação não exige que ϕ (L) verifique a condição de estabilidade. No
entanto, quando ambos os polinómios, ϕ (L) e θ (L) , verificam as respectivas condições
de invertibilidade, o processo ARMA( p, q ) , tanto pode ser representado por um
AR (∞) , como por um MA(∞) .
Fazendo
Θ( L) = I m + Θ1 L + Θ 2 L2 + L + Θ q Lq ,
Γs = O ( s = q + 1, q + 2, K ),
onde Γs = Cov( y•t , y•,t − s ) é a matriz das autocovariâncias de ordem s. As fórmulas ante-
riores cobrem os casos em que s = −1,−2, K , porquanto Γ− s = ΓsT .
Por exemplo, para o processo VMA(1), y•t = µ + Θ 0 ε •t + Θ1ε •,t −1 , tem-se:
Γ0 = Cov( y•t ) = E (Θ0 ε •t + Θ1ε •,t −1 )(Θ0 ε •t + Θ1ε •,t −1 )T = Θ0 Σε ΘT0 + Θ1 Σε Θ1T ;
Γ1 = Cov( y•t , y•,t −1 ) = E (Θ0 ε •t + Θ1ε •,t −1 )(Θ0 ε •,t −1 + Θ1ε •,t − 2 )T = Θ1 Σε ΘT0 ;
Γs = O ( s = 2, 3, K) .
Γs = ∑i = 0 Ψs + i Σε ΨiT ( s = 0,1,2, K ).
+∞
(9.75)
µ = E ( y•t ) = µ x ∑ s = 0 As .
+∞
(9.76)
Γs = ∑i = 0 ∑l = 0 Ai Γsx− i + l AlT .
+∞ +∞
(9.77)
B( L) A( L) = ( I m + B1 L)( I m + A1 L) = I m + ( B1 + A1 ) L + B1 A1 L2 ,
é absolutamente somável.
A condição enunciada é a condição de estabilidade, que pode ser apresentada de
forma equivalente da seguinte maneira: as raízes da equação
(9.80) | I m z p − Φ1 z p −1 − L − Φ p −1z − Φ p | = 0
onde Ψ ( L) = Φ ( L) −1 .
− Tem-se: E ( y•t ) = µ = Φ (1) −1α .
− A sucessão das matrizes das autocovariâncias, (9.75), é absolutamente somável.
ou
(9.87) Φ( L)( y•t − µ ) = Θ( L) ε •t ,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 53
onde Ψ ( L) = Φ( L) −1 Θ( L) .
− Tem-se: E ( y•t ) = µ = Φ (1) −1α .
− A sucessão das matrizes das autocovariâncias, dadas por (9.75), é absolutamente
somável.
G y ( z ) = ∑s = −∞ Γs z s = Γ0 + ∑s =1 (Γs z s + ΓsT z − s ) ,
+∞ +∞
(9.89)
O estudo mais aprofundado dos processos estocásticos vectoriais pode ser feito
em Hamilton (1994), capítulos 10 e 11.
Donde
(9.91) Vara (ϕˆ ) = 1 − ϕ 2 .
1 − ϕˆ 2
sϕˆ = .
n
Então, relativamente ao rácio-t, tem-se
n (ϕˆ − ϕ ) d
(9.92) tϕˆ = → N (0,1) .
1 − ϕˆ 2
− Um estimador consistente de σ ε2 é
1
∑
n
s2 = εˆ 2 ,
t =1 t
n−2
onde εˆt = yt − (αˆ + ϕˆ yt −1 ) .
Qxx = E ( xtT• xt • ) = µ γ 1 + µ L γ p −2 + µ 2 ,
2
γ0 + µ2
M M M M
µ γ p −1 + µ γ p −2 + µ 2
2
L γ0 + µ 2
ou
1 µ eT
Qxx = 2 T
,
µ e V + µ ee
onde
γ0 γ1 γ2 L γ p−1
1 γ
1 1 γ0 γ1 L γ p−2
e = e V = Cov( yt −1 , yt −2 , K , yt − p ) = γ 2 γ1 γ0 L γ p−3 .
M
M M M M
1 γ p−1 γ p −2 γ p−3 L γ 0
Como
1 + µ 2 eT V −1e − µ eT V −1
Qxx−1 = −1 ,
− µV e V −1
facilmente se conclui que Qxx tem inversa, se e só se V é não singular. Como se pode
provar que V tem inversa, para qualquer p, se γ 0 > 0 e γ s → 0 , quando s → +∞ (situa-
ção que se verifica neste modelo, porque a sucessão {γ s } é absolutamente somável), ve-
rifica-se a hipótese RPD.4.
Pode, então, concluir-se que todos os resultados da secção 3.6 são válidos para
este modelo. Assim:
− O estimador MQ de β ,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 57
αˆ
ϕˆ
1
b = ϕˆ 2 ,
M
ϕˆ p
é consistente e assintoticamente normal.
− Tem-se
−1
^ 1 n
2
Cov a (b) = σ ε Q −1
xx e Cov a (b) = s ∑t =1 xtT• xt • ,
2
n
onde
1
∑
n
s2 = εˆ 2 e εˆt = yt − (αˆ + ϕˆ1 yt −1 + ϕˆ 2 yt −2 + L + +ϕˆ p yt − p ) .
t =1 t
n − p −1
− Nestes resultados parte-se do princípio que é possível observar y− p+1 , y− p+2 , K , y0 ,
quando t = 1, 2, K , p .
onde
α
ϕ
1
xt• = [ 1 yt −1 yt −2 L yt − p ], β = ϕ 2
M
ϕ p
e
ut = ε t + θ1ε t −1 + θ 2ε t −2 + L + θ qε t −q .
onde:
y1t α1 ϕ11(1) ϕ12(1) ϕ13(1) ϕ11( 2) ϕ12( 2) ϕ13( 2 ) ε1t
y•t = y2t ; α = α 2 ; Φ1 = ϕ 21
(1) (1)
ϕ 22 (1)
ϕ 23 ( 2) ( 2) (2)
; Φ 2 = ϕ 21 ϕ 22 ϕ 23 ; ε •t = ε 2t .
y3t α 3 ϕ 31
(1)
ϕ 32(1) ϕ 33(1) ϕ 31
( 2)
ϕ 32( 2) ϕ 33( 2 ) ε 3t
Pode, então, contruir-se um sistema de três equações de regressão com sete re-
gressores comuns,
y1t = α1 + ϕ11(1) y1,t −1 + ϕ12(1) y2,t −1 + ϕ13(1) y3,t −1 + ϕ11( 2) y1,t −2 + ϕ12( 2 ) y2,t −2 + ϕ13( 2) y3,t −2 + ε 1t
(1) (1) (1) (2) ( 2) ( 2)
y2t = α 2 + ϕ 21 y1,t −1 + ϕ 22 y2,t −1 + ϕ 23 y3,t −1 + ϕ 21 y1,t −2 + ϕ 22 y2,t −2 + ϕ 23 y3,t −2 + ε 2t
(1) (1) (1) ( 2) (2) ( 2)
y3t = α 3 + ϕ 31 y1,t −1 + ϕ 32 y2,t −1 + ϕ 33 y3,t −1 + ϕ 31 y1,t −2 + ϕ 32 y2,t −2 + ϕ 33 y3,t −2 + ε 3t ,
ou
y1t = δ 1• x•t + ε1t
y2t = δ 2• x•t + ε 2t
y = δ x + ε ,
3t 3• •t 3t
onde, para i = 1, 2, 3 ,
δ i• = [ α i ϕ i(•1) ϕ i(•2) ] é um vector 1× 7 ,
ϕ i(•1) é a linha i da matriz Φ1 ,
ϕ i(•2 ) é a linha i da matriz Φ 2 ,
e
1
x•t = y•,t −1 .
y•,t − 2
ou
yit = ϕi • y•,t −1 + ε it ( i = 1, 2, K , m ),
que procura especificar uma relação que põe em destaque o facto das variações corren-
tes da variável explicativa se repercutirem contemporânea e diferidamente nos valores
da variável a explicar.
Um exemplo interessante consiste em considerar que o stock de capital no mo-
mento t (no final do período t), K t , depende dos investimentos correntes e desfasados
nos últimos r períodos, I t − s ( s = 0,1, 2, K , r ),
K t = K 0 + ∑ s =0 δ s I t − s + ut ,
r
ou seja, o valor esperado de ut não depende de x, para qualquer período. Esta condição
implica que ut não está correlacionado com x em qualquer período (passado, presente e
futuro).
Pode, no entanto, estabelecer-se uma hipótese mais fraca em que o valor de ut
não depende de x no presente e no passado (exogeneidade contemporânea e passada),
E (ut | xt , xt −1 , xt − 2 , K) = 0 .
ou
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 63
E ( yt | xt , xt −1, yt −1 , xt − 2 , yt − 2 , K) = E ( yt | xt , xt −1 , xt − 2 , K , xt − r ) .
Fazendo
α
δ
0
δ1
xt• = [ 1 xt xt −1 xt − 2 xt − r ], β = ,
δ 2
M
δ r
obtém-se o MRL yt = xt • β + ut .
Pode fazer-se a interpretação dos coeficientes, δ s ( s = 0,1, 2, K , r ), em termos
semelhantes ao que se fez na secção 9.1, isto é, medindo os efeitos dos desfasamentos
por meio de multiplicadores.
Assim, considerando o aumento temporário de x, de uma unidade no período t,
o efeito ceteris paribus de xt sobre yt + h ( h = 0,1, 2, K ) é medido pelo multiplicador
∂ yt + h
= δ h ( h = 0,1, 2, K ).
∂ xt
MLP = δ 0 + δ1 + δ 2 + L + δ r = ∑s =1 δ s = δ (1) .
r
Considerando, de novo, r = 2 , e
K , xt −1 = c, xt = c + 1, xt +1 = c + 1, K
obtém-se:
...
yt −1 = α + δ 0c + δ1c + δ 2c
yt = α + δ 0 (c + 1) + δ1c + δ 2c
yt +1 = α + δ 0 (c + 1) + δ1 (c + 1) + δ 2c
yt + 2 = α + δ 0 (c + 1) + δ1 (c + 1) + δ 2 (c + 1)
yt + 3 = α + δ 0 (c + 1) + δ1 (c + 1) + δ 2 (c + 1)
...
Então,
yt − yt −1 = δ 0 , yt +1 − yt −1 = δ 0 + δ1 , yt + 2 − yt −1 = δ 0 + δ1 + δ 2 = MLP , yt + 3 − yt −1 = MLP , ...
δ (1)
Como δ ′( L) = δ1 + 2δ 2 L + 3δ 3 L2 + L + rδ r Lr −1 , obtém-se
δ ′(1)
(9.98) Dm = .
δ (1)
O desfasamento mediano é dado por
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 65
0.50 − ∑s =0 ω s 0.50 − ∑s =0 ω s
l l
supondo que
∑ ∑
l l+1
s =0
ω s ≤ 0.50 e s =0
ω s > 0.50 .
s 0 1 2 3 4
ωs 0.11 0.28 0.39 0.17 0.05
∑
s
h =1
ωh 0.11 0.39 0.78 0.95 1.00
Então,
0.50 − 0.39
D0.50 = 1 + = 1.28 períodos.
0.39
Do mesmo modo, obtém-se, por exemplo,
0.90 − 0.78
D0.90 = 2 + = 2.71 períodos.
0.17
No modelo DL(r ) existem r + 2 coeficientes de regressão (o termo indepen-
dente, α , e os δ s , com s = 0, 1, 2, K , r ), que podem ser estimados pelo método MQ.
Contudo, existem duas dificuldades:
1) Em geral, há correlações substanciais entre os regressores ( xt , xt −1 , xt − 2 ,..., xt − r ). Esta
presença da multicolinearidade proporciona, em geral, estimativas individuais pou-
co precisas dos δ s . No entanto, deve notar-se que, mesmo nestas condições, pode ob-
ter-se, em muitos casos, uma estimativa razoável de MLP.
2) Muitas vezes, o comprimento do desfasamento, r, é desconhecido. O erro de espe-
cificação de r pode ter sérias consequências. Contudo, pode estimar-se r com os pro-
cedimentos indicados atrás para a estimação da ordem de auto-regressão nos modelos
AR ( p ) .
δ0 = γ 0
δ1 = γ 0 + γ 1 + γ 2 + L + γ l
δ 2 = γ 0 + 2γ 1 + 2 2 γ 2 + L + 2l γ l
...
δ r = γ 0 + rγ 1 + r 2 γ 2 + L + r l γ l ,
ou
δ = Hγ ,
onde
δ 0 1 0 0 L 0 γ 0
δ 1 1 1 L 1 γ
1 1
δ = δ 2 , H = 1 2 22 L 2 e γ = γ 2 .
l
M M M M M M
δ r 1 r r2 l
L r γ l
onde
α
δ
yr +1 1 xr +1 xr L x1 0 ur +1
y 1 x u
xr +1 L x2 α δ1
Y = r + 2 , X = [ en − r X2]= r +2
, β = = , U =
r +2
.
M M M M M δ δ 2 M
M
yn 1 xn x´n −1 L xr un
δ r
onde
α
γ
0
α γ 1
X 2∗ = X 2 H , X ∗ = en − r X 2∗ e β∗ = = .
γ γ 2
M
γ l
Aplicando o método dos mínimos quadrados ao modelo transformado, obtém-se
γˆ , e, portanto, δˆ = Hγˆ .
Note-se que a reparametrização de δ para γ reduz o número de parâmetros de
r + 2 para l + 2 , o que implica a introdução de r − l restrições lineares. Como determi-
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 67
Muitas vezes, a estimação livre dos δ s fornece resultados muito diferentes dos
da estimação com restrições. Este é, sem dúvida, um inconveniente grave do método de
Almon.
Existem outras reparametrizações mais interessantes de (9.96) ou de (9.97).
Para isso, começa-se por considerar dois resultados preliminares sobre decomposições
de polinómios no operador de desfasamento:
1) Considere-se o polinómio de grau r em L,
δ ( L) = δ 0 + δ1 L + δ 2 L2 + L + δ r Lr = ∑s =0 δ s Ls .
r
e
γ i = −∑ r δ s = −(δ i +1 + δ i + 2 + L + δ r ) (i = 0,1, 2, K, r − 1)
s = i +1
γ r = 0 .
2) O polinómio de grau r em L,
δ ( L) = δ 0 + δ1 L + δ 2 L2 + L + δ r Lr = ∑s =0 δ s Ls ,
r
onde
γ ( L) = γ 0 + γ 1 L + γ 2 L2 + L + γ r −1 Lr −1 = ∑i =0 γ i Li ,
r −1
e
γ 0 = δ 0
γ i = −∑s =i+1 δ s = −(δ i +1 + δ i+2 + L + δ r ) (i = 1, 2, K , r − 1)
r
γ r = 0 .
Fica ao cuidado do leitor verificar estas duas decomposições. No entanto, vão fa-
zer-se as deduções directas para r = 1 e r = 2 .
Quando r = 1 , tem-se δ ( L) = δ 0 + δ1 L . Para efectuar a primeira decomposição,
faz-se
δ ( L) = δ 0 + δ1 − δ1 + δ1 L = (δ 0 + δ1 ) − δ1 (1 − L) = δ (1) + γ 0 (1 − L) ,
onde γ 0 = −δ1 .
Quanto à segunda decomposição, tem-se
δ ( L) = δ 0 + δ 1 L + δ 0 L − δ 0 L = (δ 0 + δ1 ) L + δ 0 (1 − L) = δ (1) L + γ 0 (1 − L) ,
onde γ 0 = δ 0 .
Quando r = 2 , o polinómio é δ ( L) = δ 0 + δ1 L + δ 2 L2 . Para a primeira decompo-
sição, obtém-se
δ ( L) = δ 0 + δ1 + δ 2 − δ1 − δ 2 + δ 1 L + δ 2 L − δ 2 L + δ 2 L2
= (δ 0 + δ1 + δ 2 ) − (δ1 + δ 2 )(1 − L) − δ 2 L(1 − L)
= δ (1) + (γ 0 + γ 1 L)(1 − L) ,
onde γ 0 = −(δ1 + δ 2 ) e γ 1 = −δ 2 .
Para a segunda decomposição, vem
δ ( L) = δ 0 + δ 0 L + δ1 L + δ 2 L − δ 0 L − δ 2 L + δ 2 L2
= (δ 0 + δ1 + δ 2 ) L + δ 0 (1 − L) − δ 2 L(1 − L)
= δ (1) L + (γ 0 + γ 1 L)(1 − L) ,
onde γ 0 = δ 0 e γ 1 = −δ 2 .
Quando se considera o modelo DL(r ) , yt = α + δ ( L) xt + ut , e se utiliza a pri-
meira decomposição, obtém-se
yt = α + {δ (1) + γ ( L)(1 − L)} xt + ut
= α + δ (1) xt + γ ( L)(1 − L) xt + ut
= α + δ (1) xt + γ ( L) ∆xt + ut
= α + δ (1) xt + ∑i = 0 γ i ∆xt −i + ut
r −1
Para r = 1 , vem
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 69
Para r = 2 , tem-se
yt = α + {(δ 0 + δ1 + δ 2 ) − (δ1 + δ 2 )(1 − L) − δ 2 L(1 − L)}xt + ut
= α + (δ 0 + δ1 + δ 2 ) xt − (δ1 + δ 2 ) ∆xt − δ 2 ∆xt −1 + ut .
Para r = 1 , tem-se
yt = α + {(δ 0 + δ1 ) L + δ 0 (1 − L)}xt + ut = α + (δ 0 + δ1 ) xt −1 + δ 0∆xt + ut .
Para r = 2 , resulta
yt = α + {(δ 0 + δ1 + δ 2 ) L + δ 0 (1 − L) − δ 2 L(1 − L)}xt + ut
= α + (δ 0 + δ1 + δ 2 ) xt −1 + δ 0 ∆xt − δ 2 ∆xt −1 + ut .
Todas as considerações feitas para o modelo com uma variável, podem ser adap-
tadas imediatamente para o modelo com várias variáveis explicativas. A notação utiliza-
da passa a ser DL(r1 , r2 , K , rk ) . Outra notação muito usada continua a ser DL(r ) , onde
r = max{r1, r2 , K , rk } .
Este modelo também pode ser apresentado da seguinte maneira:
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 70
yt = α + δ1 ( L) xt1 + δ 2 ( L) xt 2 + L + δ k ( L) xtk + ut
2
δ1 ( L) = δ10 + δ11L + δ12 L + L + δ1r1 L
r1
2
δ 2 ( L) = δ 20 + δ 21L + δ 22 L + L + δ 2 r2 L 2
r
L
δ ( L) = δ + δ L + δ L2 + L + δ Lrk .
k k0 k1 k2 krk
a verificar
∑
+∞
h =0
| δ h | < +∞ .
Modelos ARMAX
2
θ ( L) = 1 + θ1L + θ 2 L + L + θ q L ,
q
Vão apresentar-se oito casos particulares deste modelo, impondo restrições sobre
os seus parâmetros [ver Hendry (1995), capítulo 7]:
1) O modelo de regressão linear simples estático, yt = ϕ 0 + β 0 xt + ε t , obtém-se com
as restrições ϕ1 = 0 e β1 = 0 .
2) O modelo auto-regressivo de 1.ª ordem, yt = ϕ 0 +ϕ1 yt −1 + ε t , decorre das restrições
β 0 = 0 e β1 = 0 .
3) O modelo nas primeiras diferenças das variáveis, ∆ yt = ϕ 0 + β 0 ∆ xt + ε t , resulta de
fazer ϕ1 = 1 e β 0 + β1 = 0 . Note-se que, neste caso, o modelo inicial não é estável.
4) O modelo de indicador avançado (leading indicator), yt = ϕ 0 + β1 xt −1 + ε t , corres-
ponde às restrições ϕ1 = 0 e β 0 = 0 .
5) O modelo de ajustamento parcial (ver adiante), yt = ϕ0 +ϕ1 yt −1 + β 0 xt + ε t , obtém-
-se com a restrição β1 = 0 .
6) Considere-se o modelo yt = α + β 0 xt + ut , onde ut =ϕ1 ut −1 + ε t ( | ϕ1 | < 1 ). Atendendo
a que ut =(1 − ϕ1 L ) −1 ε t , vem yt = α + β 0 xt + (1 − ϕ1 L) −1 ε t . Então,
(1 − ϕ1 L) yt = (1 − ϕ1 )α + β 0 (1 − ϕ1 L ) xt + ε t .
onde ϕ 0 = (1 − ϕ1 )α e β1 = (1 − ϕ1 ) β 0 .
7) O modelo DL(1), yt = ϕ0 + β 0 xt + β1 xt −1 + ε t , obtém-se fazendo ϕ1 = 0 .
8) O modelo dead start, yt = ϕ0 +ϕ1 yt −1 + β1 xt −1 + ε t , resulta de β 0 = 0 .
β T = [ ϕ 0 ϕ1 ϕ 2 L ϕ p β 0 β1 β 2 L β r ],
ut = ε t + θ1ε t −1 + θ 2ε t −2 + L + θ qε t −q .
Tal como nos modelos ARMA, a variável residual ut apresenta dois problemas,
mesmo que o regressor xt − s ( s = 0, 1, 2, K , r ) seja pré-determinado. O primeiro, diz res-
peito à autocorrelação de {ut } : ut ~ MA(q ) [ver secções 9.8 e 9.9]. O outro, tem a ver
com a existência de regressores endógenos. O problema é resolvido com a introdução de
variáveis instrumentais pertencentes às listas ( xt − r −1 , xt − r − 2 , K) ou ( yt − q−1 , yt −q−2 , K) .
Em (9.102) ou (9.103) considerou-se apenas uma variável explicativa, x, mas a
generalização é imediata quando há várias variáveis explicativas. Tem-se:
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 73
ou
ϕ ( L) yt = α + β1 ( L) xt1 + β 2 ( L) xt 2 + L + β k ( L) xtk + ut ,
onde
β1 ( L) = β10 + β11L + β12 L2 + L + β1r1 Lr1
2
β 2 ( L) = β 20 + β 21L + β 22 L + L + β 2 r2 L 2
r
L
β ( L) = β + β L + β L2 + L + β Lrk .
k k0 k1 k2 krk
Como
ϕ yt −1 = αϕ + γ ϕ xt −1 + γ ϕ 2 xt − 2 + L + ϕ ut −1 ,
subtraindo ordenadamente as duas igualdades, obtém-se
(9.105) yt = α 0 + γ xt +ϕ yt −1 + vt ,
(1 − ϕ L) yt = (1 − ϕ )α + γ xt + (1 − ϕ L)ut ,
ou
yt = α (1 − ϕ ) + γ xt + ϕ yt −1 + (ut − ϕ ut −1 ) ,
Exemplo 9.6 – Numa versão simplificada da função consumo de Friedman (1957) pro-
põe-se que o consumo, Ct , depende do rendimento permanente, Yt ∗ , definido como a
quantidade máxima de consumo que se pode fazer fixada uma determinada quantidade
de riqueza. Tem-se, então, Ct = β Yt ∗ + ut .
A consequência mais interessante desta concepção da função consumo resulta da
relação dinâmica existente entre a riqueza e os valores ao longo do tempo do rendimen-
to permanente. Assim, pode admitir-se que esta variável não observável se relaciona
com os valores observados do rendimento, Y, presente e passados, do seguinte modo:
Yt ∗ = δ 0Yt + δ1Yt −1 + δ 2Yt − 2 + L .
δ ( L) = ϕ ( L) −1 β ( L) ou ϕ ( L)δ ( L) = β ( L) ;
ε t = ϕ ( L) −1 vt ou vt = ϕ ( L)ε t = ε t − ϕ1ε t −1 − ϕ 2ε t −2 − L − ϕ pε t − p .
obtém-se
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 76
yt = (1 − ϕ1 L) −1ϕ 0 + (1 − ϕ1 L) −1 ( β 0 + β1 L) xt + (1 − ϕ1 L) −1 vt ,
ou
ϕ0
yt = + (1 +ϕ1 L + ϕ12 L2 + L)( β 0 + β1 L) xt + (1 + ϕ1 L + ϕ12 L2 + L) vt
1 − ϕ1
ϕ
= 0 + β 0 ( xt +ϕ1 xt −1 + ϕ12 xt −2 + L) + β1 ( xt −1 + ϕ1 xt −2 + ϕ12 xt −3 + L)
1 − ϕ1
+ (vt + ϕ1vt −1 + ϕ12 vt −2 + L) .
Assim,
δ 0 = β0
δ1 = β 0ϕ1 + β1
δ 2 = ϕ1 ( β 0ϕ1 + β1 )
δ 3 = ϕ12 ( β 0ϕ1 + β1 )
L
As restrições sobre os δ s são, portanto,
δ s = ϕ1s −1 ( β 0ϕ1 + β1 ) ( s = 1, 2, 3, K ).
Fica ao cuidado do leitor mostrar que estas relações podiam ser obtidas a partir
da igualdade
(1 − ϕ1 L)(δ 0 + δ1 L + δ 2 L2 + L) = β 0 + β1 L .
onde
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 77
ϕ ( L) = 1 − ϕ1 L − ϕ 2 L2
β ( L ) = β 0 + β1 L ,
que vai ser confrontado com um DL(∞) , yt = α + δ ( L) xt + ε t , onde {ε t } é um ruído
branco.
Utilizando a igualdade ϕ ( L)δ ( L) = β ( L) , tem-se
(1 − ϕ1 L − ϕ 2 L2 )(δ 0 + δ1 L + δ 2 L2 + L) = β 0 + β1 L .
Donde,
δ 0 + (δ1 − ϕ1δ 0 ) L + (δ 2 − ϕ1δ 1 − ϕ 2δ 0 ) L2 + (δ 3 − ϕ1δ 2 − ϕ 2δ1 ) L3 + L = β 0 + β1 L .
Então,
δ 0 = β 0 δ 0 = β 0
δ − ϕ δ = β δ = ϕ β + β
1 1 0 1 1 1 0 1
δ 2 − ϕ1δ1 − ϕ 2δ 0 = 0 ou δ 2 = ϕ1δ1 + ϕ 2δ 0
δ − ϕ δ − ϕ δ = 0 δ = ϕ δ + ϕ δ
3 1 2 2 1
3 1 2 2 1
L L
Expectativas adaptativas
obtém-se
xt∗+1 = η {1 − (1 − η ) L}−1 xt = η {1 + (1 − η ) L + (1 − η ) 2 L2 + L}xt
= η h( L) xt = η xt + η (1 − η ) xt −1 + η (1 − η )2 xt − 2 + L ,
onde
h( L) = {1 − (1 − η ) L}−1 = 1 + (1 − η ) L + (1 − η )2 L2 + L .
Então,
yt = α + β η h( L) xt + ut ,
onde α 0 = αη , γ = β η e vt = ut − (1 − η ) ut −1 .
Conclui-se imediatamente que se obtém um processo ARMAX(1,0,1), quando
ut = ε t (ruído branco). Note-se que se trata de um modelo com desfasamento escalona-
do geométrico com ϕ = 1 − η e γ = β η , ou seja, δ s = βη (1 − η ) s .
Para estimar os parâmetros deste modelo deve utilizar-se o método das variáveis
instrumentais, utilizando xt −1 como instrumento de yt −1 .
Como Ct = β Yt ∗ + ut , obtém-se
Ct = β η{1 −(1 − η ) L}−1Yt + ut ,
ou
Ct = β η Yt + (1 − η )Ct −1 + {ut − (1 − η )ut −1} ,
Ajustamento parcial
onde yt∗ é valor expectativa em t da variável y. Por exemplo: pretende-se modelar os ní-
veis desejados de investimento num modelo de acelerador flexível; procura-se explicar
os níveis desejados de stocks em função do volume de vendas.
Em muitos destes casos, introduz-se uma hipótese (do ajustamento parcial) que
visa representar a situação segundo a qual, período a período, existe convergência entre
os níveis desejados da variável a explicar e os níveis efectivamente observados. As cau-
sas do desajustamento podem atribuir-se às demoras na efectivação dos planos de inves-
timento, aos custos associados à realização dos processos produtivos, às falhas da gestão
empresarial, etc.
A hipótese do ajustamento parcial estabelece que
(9.107) yt − yt −1 = γ ( yt∗ − yt −1 ) , onde 0 < γ < 1 .
yt = γ yt∗ + (1 − γ ) yt −1 ,
ou
yt = γ {1 − (1 − γ ) L}−1 yt∗ = γ yt∗ + γ (1 − γ ) yt∗−1 + γ (1 − γ ) 2 yt∗− 2 + L .
Assim, por exemplo, o stock actual resulta da combinação dos stocks desejados
no presente e no passado.
Facilmente se verifica que
yt = γ (α + β xt + ut ) + (1 − γ ) yt −1 ,
ou
yt = α γ + βγ xt + (1 − γ ) yt −1 + γ ut = α 0 + β 0 xt + (1 − γ ) yt −1 + vt ,
onde α 0 = α γ , β 0 = β γ e vt = γ ut .
Quando ut = ε t (ruído branco), o modelo obtido é um ARMAX(1,0,0). Os parâ-
metros podem ser estimados com o método MQ.
Pode também mostrar-se que a hipótese do ajustamento parcial também dá lugar
a um modelo DL(∞) . Com efeito, como
{1 − (1 − γ ) L} yt = α γ + βγ xt + vt ,
obtém-se
yt = α + βγ {1 − (1 − γ ) L}−1 xt + {1 − (1 − γ ) L}−1 vt
= α + βγ {1 + (1 − γ ) L + (1 − γ ) 2 L2 + L}xt + vt′
= α + βγ xt + βγ (1 − γ ) xt −1 + βγ (1 − γ ) 2 xt − 2 + L + vt′,
ou
Ct = β 0γ + β1γ Pt + β 2γ Gt + (d − γ ) St −1 + γ ut .
Donde
a ∗ 1
yt = yt + yt −1 ,
a +1 a +1
isto é, obtém-se a equação do ajustamento parcial fazendo γ = a /(a + 1) .
Esta função custo tem duas componentes: o custo associado com o desvio entre
o valor desejado e o valor observado; o custo associado com o desvio entre o valor ob-
servado corrente e desfasado, sendo este último corrigido por uma fracção da variação
dos níveis desejados da variável.
A minimização de Ct em relação a yt resulta do anulamento da respectiva deri-
vada parcial,
∂Ct
= −2a ( yt∗ − yt ) + 2 yt − { yt −1 + c ( yt∗ − yt∗−1 )} = 0 ,
∂ yt
obtendo-se
(a + 1) yt = a yt∗ + yt −1 + c ( yt∗ − yt∗−1 ) = a yt∗ + yt −1 + c ∆yt∗ ,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 83
ou
(9.108) yt = γ yt∗ + (1 − γ ) yt −1 + c(1 − γ )∆yt∗ ,
onde γ = a /(a + 1) .
Como yt∗ = α + β xt + ut e ∆yt∗ = β ∆ xt + (ut − ut −1 ) , vem
yt = γ (α + β xt + ut ) + (1 − γ ) yt −1 + c(1 − γ )( β ∆ xt + ut − ut −1 ) ,
ou
ou
∆yt = γ yt∗ + γ yt∗−1 − γ yt∗−1 − γ yt −1 + c(1 − γ ) yt∗ − c(1 − γ ) yt∗−1
= { γ + c(1 − γ )} yt∗ − { γ + c(1 − γ )} yt∗−1 + γ ( yt∗−1 − yt −1 )
= { γ + c(1 − γ )}∆yt∗ + γ ( yt∗−1 − yt −1 ) .
ou
∆yt = β 0 ∆ xt + γ (α + β xt −1 − yt −1 ) + {δ ut + (γ − δ )ut −1} ,
onde β 0 = β δ .
Pode, então, concluir-se que a variação de y depende da variação de x (com peso
β 0 ), e de (α + β xt −1 ) − yt −1 , desvio entre o valor desejado no período t − 1 (eliminando
a respectiva variável residual: yt∗−1 − ut −1 ), e o valor observado de y no mesmo período,
yt −1 (com peso γ > 0 ). Este desvio mede até que ponto o valor desejado não é obtido. O
parâmetro γ pode ser interpretado como a parte do desvio que se reflecte na variação de
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 84
Um modelo com mecanismo de correcção do erro pode, também, ser obtido me-
diante uma reparametrização de um modelo ARMAX estável, em que o valor deseja-
do é o equilíbrio estático de longo prazo, yte .
Por exemplo, começa-se por considerar o modelo ARMAX(1,1,0),
yt = ϕ0 +ϕ1 yt −1 + β 0 xt + β1 xt −1 + ε t ( | ϕ1 | < 1 ).
Note-se, antes de mais, que o equilíbrio estático de longo prazo verifica as con-
dições yte = yt = yt −1 , xt = xt −1 e ε t = 0 . Então, obtém-se
ϕ0 β + β1
yte = + 0 xt = λ0 + λ1 xt ,
1 − ϕ1 1 − ϕ1
ou
(1 − ϕ1 ) yt = ϕ0 − ϕ1∆ yt + ( β 0 + β1 ) xt − β1∆ xt + ε t ,
ou, ainda,
yt = γ ϕ0 − γ ϕ1∆ yt + γ ( β 0 + β1 ) xt − γ β1∆ xt + γ ε t ,
β ( L) = β 0 + β1L + β 2 L2 + L + β r Lr = ∑s = 0 β s Ls ,
r
e
γ = β
0 0
γ i = −∑ s = i +1 β s = −( β i +1 + β i + 2 + L + β r ) (i = 1, 2, K , r − 1)
r
γ r = 0 .
De forma semelhante pode decompor-se o polinómio de grau p em L,
ϕ ( L) = 1 − ϕ1L − ϕ2 L2 − L − ϕ p Lp = 1 − ∑h =1ϕh Lh .
p
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 87
Assim, tem-se
ϕ ( L) = ϕ (1) L + α ( L)(1 − L) ,
onde
α ( L) = 1 − α1L − α 2 L2 − L − α p −1Lp −1 = 1 − ∑ g =1α g Lg ,
p −1
e
α g = −∑ h = g +1ϕh = −(ϕ g +1 + ϕ g + 2 + L + ϕ p ) ( g = 1, 2, K , p − 1)
p
α p = 0 .
Começa-se por notar que
ϕ0 β (1)
yte = + xt = λ0 + λ1xt ,
ϕ (1) ϕ (1)
onde λ0 = ϕ0 / ϕ (1) e λ1 = β (1) / ϕ (1) (multiplicador de longo prazo).
Substituindo, no modelo ARMAX, as decomposições referidas de ϕ (L) e de
β (L) , obtém-se
{ϕ (1) L + α ( L)(1 − L)} yt = ϕ0 + {β (1) L + γ ( L)(1 − L)}xt + ut ,
ou
ϕ (1) yt −1 + α ( L)∆yt = ϕ0 + β (1) xt −1 + γ ( L)∆xt + ut ,
ou, ainda,
ϕ (1) yt −1 + 1 − ∑ g =1α g Lg ∆yt = ϕ0 + β (1) xt −1 + ∑i = 0 γ i Li ∆xt + ut .
p −1 r −1
Então, a forma de Barsden é dado por
p −1 r −1
∆yt = ϕ0 − ϕ (1) yt −1 + ∑ g =1α g Lg ∆yt + β (1) xt −1 + ∑i = 0 γ i Li ∆xt + ut ,
ou
∆yt = ϕ0 − ϕ (1) yt −1 + α1∆yt −1 + α 2∆yt − 2 + L + α p −1∆yt − p +1
+ β (1) xt −1 + γ 0 ∆xt + γ 1∆xt −1 + γ 2∆xt − 2 + L + γ r −1∆xt − r +1 + ut .
Verifica-se, assim, que se obtém um ARMAX( p − 1, r − 1, q ) nas primeiras dife-
renças de y e de x, aumentado com os seus níveis desfasados de um período.
A representação MCE resulta de pôr em evidência η = −ϕ (1) na forma de Bars-
den, considerando o termo independente e os termos em yt −1 e em xt −1 . Tem-se
p −1 r −1
∆yt = η ( yt −1 − λ0 − λ1 xt −1 ) + ∑ g =1α g Lg ∆yt + ∑i = 0 γ i Li ∆xt + ut
= η ( yt −1 − yt −1 ) + α1∆yt −1 + α 2∆yt − 2 + L + α p −1∆yt − p +1
e
,
+ γ 0 ∆xt + γ 1∆xt −1 + γ 2∆xt − 2 + L + γ r −1∆xt − r +1 + ut .
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 88
Muitos autores (entre eles, Hendry e Mizon) defendem que a melhor estratégia
para obter um modelo dinâmico adequado consiste em começar por especificar um mo-
delo suficientemente geral – um ARMAX com ordens de desfasamento elevadas, de
preferência com as formas reparametrizadas atrás analisadas –, e, testando “para baixo”,
caminhar para um modelo mais simples, mas que seja satisfatório.
As principais características desta metodologia “do geral para o particular”
são as seguintes:
1) Não se adopta o princípio da parcimónia. Assim, não há intenção, a priori, de
identificar um modelo parcimonioso, ou seja, não se atribui importância à sobrepara-
metrização. Esta concepção é, porventura, a mais criticada.
2) Desde a primeira especificação, e em cada fase do processo de simplificação, os mo-
delos passam pelo crivo de uma bateria de testes para detecção de erros de especifi-
cação (testes de heterocedasticidade, de autocorrelação, RESET, de alteração da es-
trutura, etc.).
3) A teoria económica é utilizada apenas para indicar as variáveis a considerar, e a for-
ma geral da relação de equilíbrio de longo prazo. Em contrapartida, a escolha da es-
trutura dinâmica de curto prazo é feita a partir dos dados, recorrendo aos testes mais
adequados para as restrições propostas.
Para ilustrar estas considerações, suponha-se, por exemplo, que o modelo inicial é
um ARMAX(1,1,0). Pergunta-se: porquê iniciar o trabalho de especificação com um ca-
so particular [por exemplo, um dos seguintes modelos: regressão linear simples; auto-re-
gressivo de 1.ª ordem; com as primeiras diferenças das variáveis; de indicador avança-
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 89
do; de ajustamento parcial; com factores comuns; DL(1); dead start], sem ter testado
previamente as restrições impostas? Parece ter mais sentido iniciar o estudo pelo mo-
delo mais geral, e considerar um modelo particular apenas quando as restrições que ele
implica não forem rejeitadas pelos dados (e se não apresentar sintomas de má especifi-
cação). Deste modo, vai deixar-se que os dados “falem livremente”, impondo as restri-
ções que eles não rejeitem ou, até, que eles próprios sugiram (por exemplo, excluindo
regressores com coeficientes não significativos).
A estratégia do “geral para o particular” pode envolver as seguintes fases:
1) Especificação inicial de um modelo dinâmico com ordens de desfasamento elevadas
(um ARMAX, de preferência reparametrizado sob a forma de Barsden), que seja
compatível com a relação de equilíbrio de longo prazo (dada pela teoria económica),
e que não imponha restrições sobre a dinâmica de curto prazo.
2) Simplificação do modelo excluindo regressores não significativos, ou impondo res-
trições que sejam suportadas pelos dados, e que não provoquem o aparecimento de
sintomas de erros de especificação. Em geral, são os coeficientes de desfasamento de
ordens mais elevadas que tenderão a ser os mais pequenos, pelo que se começa por
testar a sua significância, “descendo” em seguida para os desfasamentos de ordem
mais baixa.
3) Avaliação final do modelo seleccionado com base na teoria económica, e nos testes
de má especificação (misspecification tests).
Teorema 9.4 [Lei dos grandes números para processos estacionários em covariân-
cia com autocovariâncias a tender para zero]
Seja { yt } um processo estacionário em covariância, com valor esperado µ , e {γ s } a
respectiva sucessão de autocovariâncias. Tem-se:
mq
a) Se lim γ s = 0 então y → µ .
s →+∞
n → +∞
Com efeito, de
Var ( y1 + y2 + L + yn −1 + yn )
= Var ( y1 ) + 2 Cov( y1, y2 ) + L + 2 Cov( y1 , yn −1 ) + 2 Cov( y1, yn )
+ Var ( y2 ) + 2 Cov( y2 , y3 ) + L + 2 Cov( y2 , yn −1 ) + 2 Cov( y2 , yn )
+L
+ Var ( yn −1 ) + 2 Cov( yn −1 , yn )
+ Var ( yn )
= nγ 0 + 2(n − 1)γ 1 + L + 2(n − s )γ s + L + 2 γ n −1 = nγ 0 + 2∑ s =1 (n − s )γ s ,
n −1
vem
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 91
1 γ 2 n−1 s
Var ( y ) = 2
Var ( y1 + y2 + L + y n ) = 0 + ∑s =1 1 − γ s .
n n n n
Então, notando que 1 − s / n = 0 para s = n ,
γ0 2 n s
Var ( y ) =
n
+ ∑ 1 − γ s
n s =1 n
2 n s
γ0
≤ ∑ 1 − | γ s |
+
n n s =1 n
γ 2 n
≤ 0 + ∑s =1 | γ s | .
n n
Se se demonstrar que
1 n
lim γ s = 0 ⇒ lim
s →+∞ s →+∞
∑ |γs | = 0,
n s =1
fica provada a alínea a).
Como, por hipótese, {γ s } converge para 0, pode concluir-se que:
− ∀s , | γ s | < c ;
ε
− ∀ε > 0, ∃ nε : s > nε ⇒ | γ s | < .
2
Então,
1 n 1 n 1 n
n
∑ s =1
| γ s | = ∑sε=1 | γ s | + ∑s = n +1 | γ s |
n n ε
1 n 1 n ε n c (n − nε ) ε nε c ε
< ∑s =ε 1 c + ∑s =n +1 = ε + < + <ε,
n n ε 2 n n 2 n 2
uma vez que, para n suficientemente grande, (nε c / n) < (ε / 2) . Pode, finalmente con-
cluir-se que Var ( y ) tende para 0, quando n → +∞ .
Para provar a alínea b), começa-se por notar que
n s 2 n
Var n y = γ 0 + 2 ∑ s =1 1 − γ s = γ 0 + 2 ∑ s =1 γ s − ∑ s =1 sγ s .
n
n n
A seguir vai demonstrar-se que
1 n
∑ ∑ sγ s = 0 .
+∞
s =1
γ s < +∞ ⇒ lim
s→+∞ n s=1
Com efeito, como
∑
n
s =1
sγ s = γ 1 + 2 γ 2 + 3 γ 3 + L + n γ n
= (γ 1 + γ 2 + L + γ n ) + ( γ 2 + L + γ n ) + L + ( γ n−1 + γ n ) + γ n
= ∑s =1 ∑i= s γ i ,
n n
vem
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 92
1 n 1 n 1 n
∑ sγ s = ∑s =1 ∑i = s γ i ≤ ∑s =1 ∑
n n
s =1 i=s
γi .
n n n
Como {γ s } é somável, tem-se:
∑
n
− ∀s, n , i=s
γi < c;
ε
∑
n
− ∀ε > 0, ∃ nε : s, n > nε ⇒ γi < .
i=s
2
Donde
1 n 1 n 1 nε 1 n
∑ ∑ ∑ ∑ ∑ ∑ ∑
n n n
sγ s ≤ γ i = γ i + γi
n s =1 n s =1 i=s n s =1 i=s n s =nε +1 i=s
n c (n − nε ) ε nε c ε
< ε + < + <ε.
n n 2 n 2
Então, porque {γ s } é somável,
n→+∞
∇∇
Teorema 9.5 [Teorema do limite central para um processo de médias móveis in-
finito]
Seja { yt } um processo MA(∞) ,
yt = µ + ∑s =0ψ s ε t − s ,
+∞
n ( y − µ ) → N 0, ∑ s = −∞ γ s .
d +∞
(9.110)
Vara ( y ) = VLP( yt ) = ∑s = −∞ γ s .
+∞
(9.111)
Supondo, por exemplo, que yt = ε t − ε t −1 , conclui-se imediatamente que
mq
(9.112) E ( yt | yt −s , yt −s −1 , K) → 0 ,
quando s → +∞ . Assim,
onde
rtj = E ( yt | I t − j ) − E ( yt | I t − j −1 ) ( j = 0,1, 2, K , s − 1 ),
e notando que E ( yt | I t ) = yt .
A diferença rtj pode ser interpretada como a revisão da previsão de yt , quando a
informação aumenta de I t − j −1 para I t − j .
Devido à segunda restrição,
yt − (rt 0 + rt1 + L + rt ,s −1 ) = E ( yt | yt − s , yt −s −1 , K)
converge em média quadrática para 0, quando s → +∞ (para cada t). Então, pode es-
crever-se
yt = ∑s =0 rts ,
+∞
(9.113)
∑
+∞
(9.114) s =0
E (rts2 ) < +∞ .
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 95
tem-se
E ( yt | yt −s , yt − s −1 , K) = ϕ s yt −s .
2 σ ε2 2s
lim E{(ϕ yt − s ) } = lim ϕ
s
=0.
s → +∞ s → +∞ 1−ϕ2
Como as revisões das previsões são dadas por
rts = ϕ s yt − s − ϕ s +1 yt − s −1 = ϕ s ( yt − s − ϕ yt − s −1 ) = ϕ sε t − s ,
yt = ∑s = 0 ϕ sε t − s .
+∞
n y → N 0, ∑ s = −∞ γ s .
d +∞
(9.115)
n → +∞
− A matriz das covariâncias de longo prazo é dada por
n → +∞
− Teorema do limite central para um processo de médias móveis infinito
Se { y•t } é um processo MA(∞) ,
n ( y − µ ) → N ( m ) 0, ∑ s = −∞ Γs .
d +∞
(9.116)
− Condição de Gordin
a) Existe E ( y•t y•Tt ) .
mq
b) E ( y•t | y•,t − s , y•,t − s −1 , K) → 0 , quando s → +∞ .
∑
+∞
c) s =0
E (rtsT rts ) existe, onde rts = E ( y•t | I t − s ) − E ( y•t | I t − s−1 ) .
n y → N ( m) 0, ∑ s = −∞ Γs .
d +∞
(9.117)
Assim, a matriz das covariâncias assintóticas de y coincide com a matriz das cova-
riâncias de longo prazo do processo.
Para ilustrar a obtenção de uma matriz de covariâncias de longo prazo vai consi-
derar-se y•t = H ( L) x•t + ε •t , onde H ( L) = H 0 + H1L e {x•t } é um processo estacionário
em covariância com autocovariâncias absolutamente somáveis. Sabe-se que
é a matriz das covariâncias de longo prazo de {x•t } . Para esta matriz para o processo
{ y•t } , faz-se z = 1 em (9.90), obtendo-se
G y (1) = H (1) Gx (1) H (1)T .
∑
+∞
c) Existe s =0
E (rts rtsT ) , onde
rts = E ( g t• | g t − s ,• , g t − s −1,• , K) − E ( g t • | g t − s −1,• , g t − s −2,• , K) .
lim Cov n g• n = ∑ s = −∞ Γs ,
+∞
n → +∞
onde
1 n T
g •n =
n
∑ g e Γs = E ( g tT• g t − s ,• ) ( s = 0, ± 1, ± 2, K ),
t =1 t •
é não singular.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 98
onde Cov a ( g •n ) = S .
Neste caso, a matriz S é dada por
Sˆ = ∑s =− q Γˆ s = Γˆ 0 + ∑s =1 (Γˆ s + Γˆ sT ) .
q q
(9.121)
é uma matriz semidefinida positiva (ou definida positiva). Este estimador é conhecido
pelo nome de estimador de Newey-West. Por exemplo, para q (n) = 3 , incluem-se os
estimadores das matrizes das autocovariâncias até dois desfasamentos, obtendo-se
2 1
Sˆ = Γˆ 0 + (Γˆ1 + Γˆ1T ) + (Γˆ 2 + Γˆ 2T ) .
3 3
Para q (n) = 4 , vem
3 1 1
Sˆ = Γˆ 0 + (Γˆ1 + Γˆ1T ) + (Γˆ 2 + Γˆ 2T ) + (Γˆ 3 + Γˆ 3T ) .
4 2 4
Em geral, tem-se
q ( n ) −1 s ˆ
(9.123) Sˆ = Γˆ 0 + ∑s =1 1 − (Γs + Γˆ sT ) .
q ( n)
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 100
Neste caso, a matriz Ŝ , dada por (9.126), é igual a (9.121). Com efeito, notando
que Z Ω̂ Z é igual a
T
ωˆ 0 ωˆ1 ωˆ 2 L ωˆ n − 2 ωˆ n −1 z1•
ωˆ ωˆ 0 ωˆ1 L ωˆ n − 3 ωˆ n − 2 z2•
1
ωˆ 2 ωˆ1 ωˆ 0 L ωˆ n − 4 ωˆ n − 3 z3•
[z T
1• z2T• z3T• L znT−1,• z1Tn• ] ,
M M M M M
ωˆ n − 2 ωˆ n − 3 ωˆ n − 4 L ωˆ 0 ωˆ1 zn −1,•
ωˆ n −1 ωˆ n − 2 ωˆ n − 3 L ωˆ1 ωˆ 0 zn •
ou
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 102
ωˆ 0 z1T• z1• + ωˆ 1 z 2T• z1• + ωˆ 2 z3T• z1• + L + ωˆ n−2 z nT−1,• z1• + ωˆ n−1 z nT• z1• +
ωˆ 1 z1T• z2• + ωˆ 0 z 2T• z 2• + ωˆ 1 z3T• z 2• + L + ωˆ n−3 z nT−1,• z 2• + ωˆ n−2 z nT• z 2• +
ωˆ 2 z1T• z3• + ωˆ 1 z2T• z3• + ωˆ 0 z3T• z3• + L + ωˆ n−4 z nT−1,• z3• + ωˆ n−3 z nT• z3• +
L+
ωˆ n−2 z1T• z n−1,• + ωˆ n−3 z 2T• z n−1,• + ωˆ n−4 z3T• zn−1,• + L + ωˆ 0 znT−1,• z n−1,• + ωˆ 1 znT• zn−1,• +
ωˆ n−1 z1T• z n• + ωˆ n−2 z2T• zn• + ωˆ n−3 z3T• zn• + L + ωˆ 1 znT−1,• z n• + ωˆ 0 z nT• z n• ,
obtém-se
1 ˆ Z = ωˆ 1 n z T z + q ωˆ 1 n ( z T z
Sˆ = Z T Ω 0 ∑ t =1 t • t • ∑ s =1 s ∑ t =1 t • t − s , • + zt − s , • zt • )
T
n n n
= Γˆ 0 + ∑ s =1 (Γˆ s + Γˆ sT ) .
q
Fica ao cuidado fazer estes cálculos de verificação de (9.126), por exemplo, para
n = 3 e q =1.
Quando q não é conhecido, e considerando o estimador de S baseado no núcleo
de Bartlett, faz-se
1 − s 1 ∑ n uˆt uˆt − s ( s = 0,1, 2, K , q(n) − 1) ,
ωˆ s = q(n) n t = s +1
0 ( s = q(n), q(n) + 1, K) .
Com a mesma técnica utilizada para o caso anterior, pode provar-se que
1 ˆ Z = Γˆ + ∑ q ( n ) −1 1 − s (Γˆ + Γˆ T ) .
Sˆ = Z T Ω 0 s =1 q( n) s s
n
Estes resultados permitem obter o estimador MGM eficiente que verifica a con-
dição (9.124). Assim, a partir de βˆ ( Sˆ −1 ) = ( S zxT Sˆ −1S zx ) −1 S zxT Sˆ −1s zy [ver (4.71)], vem
(9.127) βˆ ( Sˆ −1 ) = { X T Z ( Z T Ω
ˆ Z ) −1 Z T X }−1 X T Z ( Z T Ω
ˆ Z ) −1 Z T Y ,
~
Quando se substitui β por βˆ ( Sˆ −1 ) dado por (9.127), obtém-se a respectiva esta-
tística de Sargan,
QS = Uˆ T Z ( Z T Ωˆ Z ) −1 Z TUˆ ,
onde Uˆ = Y − X βˆ ( Sˆ −1 ) .
Quando todos os regressores são pré-determinados, mas existem variáveis
instrumentais que não são regressores ( xt • é subconjunto próprio de zt • ), sabe-se
que, no caso de homocedasticidade condicionada e de ausência de autocorrelação, o
estimador MQ2P reduz-se ao estimador MQ. Quando há autocorrelação (e homocedasti-
cidade condicionada) tal já não acontece: o estimador (9.127) é diferente do estimador
MQ.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 104
PALAVRAS-CHAVE
Ajustamento parcial Multiplicador de longo prazo
Autocovariância Multiplicador dinâmico
Círculo unitário Núcleo (truncado)
Coeficiente de autocorrelação Núcleo de Bartlett
Comportamento da solução Operador de desfasamento
Comprimento da banda Operador diferença
Condição de Gordin Operador inverso
Condição de invertibilidade Operador linear
Condições iniciais Operador produto
Critério de informação Bayesiano Operador soma
Critério de informação de Akaike Operadores permutáveis
Decomposição do polinómio em L Passeio aleatório
Desfasamento mediano Polinómio em L
Desfasamento médio Processo ARMA
Desfasamento polinomial (Almon) Processo auto-regressivo
Efeito acumulado Processo de médias móveis
Efeito de longo prazo Processo de médias móveis infinito
Efeito permanente Processo estacionário
Efeito transitório Processo invertível
Equação característica Processo linear
Equação homogénea Processo VAR
Equação linear de 1.ª ordem Processo VARMA
Equação linear de 2.ª ordem Processo vectorial
Equações de Yule-Walker Processo VMA
Equações (lineares) com diferenças Produto de filtros
Erro de equilíbrio Quadrado de um operador
Estimação de modelos auto-regressivos Relação dinâmica
Estimador de Newey-West Relações de convolução
Estimadores baseados em núcleos Ruído branco
Expectativas adaptativas Solução definida
Filtro Solução estável
Filtro absolutamente somável Solução instável
Filtro inverso Solução geral
Forma de Barsden Solução particular
Forma de Bewley Soma telescópica
Função geradora de autocovariâncias Teorema do limite central para processo
de médias móveis infinito
Lei dos grandes números para processos Teorema do limite central para processo
estacionários em covariância estacionário e ergódico
Matriz das covariâncias de longo prazo Termo de correcção do erro
Mecanismo de correcção do erro Valor actual
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 105
PERGUNTAS DE REVISÃO
Sendo r a taxa de juro, indique o efeito de w (variável input) sobre o valor actual
do fluxo de valores futuros de y (variável output), yt , yt +1 , yt +2 ,….
6. Considere os filtros
α ( L) = α 0 + α1 L + α 2 L2 + L e β ( L) = β 0 + β1L + β 2 L2 + L .
Fazendo δ ( L) = α ( L) β ( L) = δ 0 + δ 1 L + δ 2 L2 + L , indique as expressões de δ 0 ,
δ 1 e δ 2 a partir dos coeficientes dos filtros α (L) e β (L) .
7. Apresente um exemplo de filtro que não é absolutamente somável.
8. Suponha que yt ~ MA(2) : yt = ε t +θ1ε t −1 + θ 2ε t − 2 , onde {ε t } é um ruído branco.
Deduza a expressão de Corr ( yt , yt − 2 ) [coeficiente de autocorrelação de segunda
ordem].
9. Suponha que yt ~ MA(3) : yt = ε t +θ1ε t −1 + θ 2ε t − 2 + θ 3ε t −3 , onde {ε t } é um ruído
branco. Deduza as expressões das autocovariâncias de ordem s ( s = 2, 3, 4 ).
10. Considere o filtro α (L) . Indique a condição para que este filtro seja absolutamen-
te somável.
11. Seja o modelo de regressão yt = α + β xt + ut , onde u t = ρ1u t −1 + ρ 2u t − 2 + ε t e ε t
é um ruído branco. Utilizando o operador L, construa um modelo equivalente ao
modelo dado, mas em que a variável residual é o ruído branco.
12. Suponha que yt ~ AR (2) : yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ε t , onde {ε t } é um ruído
branco. Admitindo que o processo é estacionário, indique a relação entre os coefi-
cientes de autocorrelação de ordem s ( s = 1, 2, 3 ).
13. Considere um processo ARMA(2,3),
yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ε t + θ1ε t −1 + θ 2ε t − 2 + θ 3ε t −3 ,
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 107
onde {ε t } é um ruído branco. Em que condições se pode afirmar que este proces-
so é estacionário em covariância?
14. Considere um processo ARMA(2,3),
yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ε t + θ1ε t −1 + θ 2ε t − 2 + θ 3ε t −3 ,
Como sabe, este processo pode ser representado por um processo MA(∞) , com
filtro ψ (L) . Determine ψ s ( s = 0,1, 2,3 ).
16. Considere um processo ARMA(3,1) estacionário,
yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ϕ 3 yt −3 + ε t + θ ε t −1 .
Que condições deve impôr aos parâmetros para garantir que o processo se possa
representar por um processo MA(∞) ?
17. Considere um processo ARMA(3,2) estacionário,
yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ϕ 3 yt −3 + ε t + θ1 ε t −1 + θ 2 ε t − 2 .
Que condições deve impôr aos parâmetros para garantir que o processo se possa
representar por um processo AR (∞) ?
18. Considere-se o processo AR(1) estacionário, yt = α + ϕ yt −1 + ε t , onde {ε t } é um
ruído branco independente. Considerando este modelo como um MRL, verifique a
hipótese RPD.4 [a matriz Qxx = E ( xtT• xt • ) existe e tem inversa].
19. Considere um processo MA(3), yt = α + ε t + θ1ε t −1 + θ 2ε t − 2 + θ 3ε t −3 , onde {ε t } é
um ruído branco. Que condições deve impôr aos parâmetros para garantir que o
processo é invertível?
20. Considere-se o processo AR(1) estacionário, yt = α + ϕ yt −1 + ε t , onde {ε t } é um
ruído branco independente. Considerando este modelo como um MRL, verifique
que g t • = xt •ε t é uma diferença-martingala.
21. Considere-se o processo AR(1) estacionário, yt = α + ϕ yt −1 + ε t , onde {ε t } é um
ruído branco independente. Considerando este modelo como um MRL, e supondo
que a hipótese da homocedasticidade condicionada é verdadeira, verifique que a
matriz S = E (ε t2 xtT• xt • ) existe e tem inversa.
22. Considere-se o processo AR(2) estacionário, yt = α + ϕ1 yt −1 + ϕ 2 yt − 2 + ε t , onde
{ε t } é um ruído branco independente. Considerando este modelo como um MRL,
determine a matriz E ( xtT• xt • ) . Suponha que a hipótese da homocedasticidade
condicionada é verdadeira, e que E ( xtT• xt • ) existe e tem inversa. Verifique que a
matriz S = E (ε t2 xtT• xt • ) existe e tem inversa.
23. Considere um modelo DL(r ) , yt = δ ( L) xt + u t . Indique a fórmula para calcular o
desfasamento que corresponde a 80% do efeito.
24. Seja o modelo yt = α + δ ( L) xt + u t , onde δ ( L) = 2.2 + 0.8 L + 0.3L2 + 0.1L3 . Deter-
mine o desfasamento médio.
Capítulo 9 – Modelos Dinâmicos e Autocorrelação 108
Conside este modelo como um MRL, e suponha que os regressores que envolvem
a variável x são pré-determinados. Indique a ordem de autocorrelação (se existir) e
os eventuais regressores endógenos.
31. Seja o processo ARMAX estável,
yt = ϕ 0 +ϕ1 yt −1 +ϕ 2 yt − 2 + β 0 xt + β1 xt −1 + vt .
Nos modelos econométricos com dados temporais estudados nos capítulos ante-
riores desempenhou um papel fundamental a hipótese da estacionaridade dos respecti-
vos processos estocásticos.
A constatação de que muitas variáveis económicas são não estacionárias tem
como consequência que os resultados assintóticos anteriormente obtidos, necessários
para efectuar inferência estatística sobre os parâmetros desconhecidos dos modelos es-
pecificados, têm que ser modificados.
A questão da não estacionaridade está intimamente relacionada com a existência
de tendências. Em economia, não faltam exemplos de variáveis que apresentam algum
tipo de tendência temporal. Nalguns casos, como o PIB a preços constantes (ou o seu lo-
garitmo), a variável apresenta tendência temporal média crescente, ou seja, o seu valor
médio, em vez de se manter constante, cresce de forma consistente ao longo do tempo.
Este tipo de tendência (linear ou não) é designada por tendência determinística. Na fi-
gura 10.1 apresenta-se uma série longa do logaritmo do PIB anual de Portugal, de 1865
a 2001, em milhões de dólares 1990 (International Geary-Khamis).
13
12
11
10
6
1865 1873 1881 1889 1897 1905 1913 1921 1929 1937 1945 1953 1961 1969 1977 1985 1993 2001
Noutros casos, como as taxas de câmbio (por exemplo, o rácio euro/dólar), a va-
riável não apresenta tendência em média, mas qualquer variação no seu valor parece ter
um efeito permanente nos valores futuros de tal forma que o melhor previsor destes va-
lores é o seu valor corrente. Na figura 10.2 apresenta-se uma série da taxa mensal de
câmbio de referência do Euro em relação ao Dólar dos Estados Unidos (USD), de Janei-
ro de 1999 a Dezembro de 2005.
1.5
1.25
0.75
0.5
1999 1999 1999 2000 2000 2000 2001 2001 2001 2002 2002 2002 2003 2003 2003 2004 2004 2004 2005 2005 2005
Jan M ai Set Jan M ai Set Jan M ai Set Jan M ai Set Jan M ai Set Jan M ai Set Jan M ai Set
Um processo com esta propriedade, que não é verdadeira para os processos esta-
cionários, tem a designação de tendência estocástica. Recordando a definição de mar-
tingala (ver definição 3.10 do capítulo 3), facilmente se verifica que martingala e ten-
dência estocástica são sinónimos. Com efeito, se o processo { yt } é uma martingala tem-
-se E ( yt +1 | yt , yt −1 , K) = yt , e conclui-se (utilizando a propriedade do valor esperado ite-
rado) que E ( yt + s | yt , yt −1, K) = yt , para s = 2, 3, K . Como vai ver-se, as tendências esto-
cásticas gozam de uma propriedade muito importante: revelam um comportamento claro
de não gravitarem em torno de um valor constante ou de uma tendência temporal deter-
minística.
Note-se, contudo, que podem existir processos não estacionários sem apresenta-
rem tendência. Por exemplo, seja o processo iid, {ε t } , tal que Var (ε t ) = 1 , e suponha-se
que d t = 1 , quando t é ímpar, e que d t = 2 , quando t é par. O processo {ut } , tal que
ut = dtε t , não é estacionário porque Var (ut ) = 1 , quando t é ímpar, e Var (ut ) = 4 , quan-
do t é par. No entanto, {ut } é um processo sem tendência.
A premissa básica deste capítulo é a de que as variáveis económicas podem ser
representadas pela soma de três parcelas: uma componente determinística (em muitos
casos, uma tendência linear), uma tendência estocástica, e um processo estacionário.
As duas últimas parcelas constituem a componente estocástica.
Capítulo 10 – Raízes unitárias e cointegração 3
Nesta secção vai introduzir-se uma classe importante de processos com tendência
estocástica, a classe dos processos integrados.
Para definir processo integrado de ordem d (inteiro e positivo), vai começar-se
por apresentar a definição de processo de ordem 0.
onde {wt } é o processo I (0) , com valor esperado nulo. Diz-se, então, que { yt } é o pro-
cesso I (d ) associado ao processo {wt } .
Em particular, para d = 1 , tem-se
∆yt = ct + wt .
Capítulo 10 – Raízes unitárias e cointegração 4
yt = y0 + ct + ct −1 + L + c1 + wt + wt −1 + L + w1 = y0 + ∑s =1 cs + ∑ s =1 ws = y0 + Ct + Wt ,
t t
onde
Ct = ∑ s =1 cs e Wt = ∑ s =1 ws .
t t
onde:
γ 0 = Var ( ws | y0 ) , para s = 1, 2, K , t ;
γ 1 = Cov( ws , ws −1 | y0 ) , para s = 2, 3, K , t ;
γ 2 = Cov( ws , ws − 2 | y0 ) , para s = 3, 4, K , t ;
...
γ t − 2 = Cov( ws , ws −t + 2 | y0 ) , para s = t − 1, t ;
γ t −1 = Cov( wt , w1 | y0 ) .
Se o processo “não teve início” (isto é, se “começou” em − ∞ ), verifica-se sem difi-
culdade que a variância de yt é infinita.
2) Quando ct = α , tem-se ∆ yt = α + wt , e, portanto,
yt = y0 + Ct + Wt = y0 + α t + wt + wt −1 + L + w1 ,
onde Ct = α t . Tem-se
E ( yt ) = E ( y0 ) + α t .
Deduz-se imediatamente que este processo I (1) pode ter uma tendência linear deter-
minística. Se α = 0 , o processo I (1) não tem tendência, e pode designar-se por pro-
cesso I (1) sem deriva. Se α ≠ 0 , o processo tem deriva. Obviamente, um processo
I (1) com deriva é igual à soma de uma tendência linear determinística com um pro-
cesso I (1) sem deriva (com uma tendência estocástica). Em suma, pode afirmar-se
que “a média do processo I (0) corresponde à tendência linear do processo I (1) ”.
3) Quando ct = α + δ t , e, portanto, ∆ yt = α + δ t + wt , vem
δ δ
yt = y0 + Ct + Wt = y0 + α + t + t 2 + wt + wt −1 + L + w1 ,
2 2
Capítulo 10 – Raízes unitárias e cointegração 5
onde
δ δ
Ct = α + t + t 2 .
2 2
Tem-se
δ δ
E ( yt ) = E ( y0 ) + α + t + t 2 .
2 2
Verifica-se imediatamente que este processo I (1) pode ter uma tendência quadrática
determinística. Se δ = 0 , o processo I (1) tem tendência linear. Se δ ≠ 0 , o proces-
so tem tendência quadrática. Neste caso, o processo I (1) é igual à soma de uma
tendência quadrática determinística com um processo I (1) sem deriva (com uma ten-
dência estocástica). Em suma, pode afirmar-se que “a tendência linear do processo
I (0) corresponde à tendência quadrática do processo I (1) ”.
4) Um processo I (1) também se pode chamar processo diferença-estacionário (diffe-
rence-stationary), uma vez que o respectivo processo das primeiras diferenças é esta-
cionário.
5) Na definição 10.1 foi imposta a condição de a variância de longo prazo ser positiva.
Esta condição tem por objectivo evitar a situação contraditória que se passa a expor.
Considere-se o processo { yt } tal que yt = ε t − ε t −1 , onde {ε t } é um ruído branco in-
dependente. No capítulo 9 (secção 9.7) verificou-se que a variância de longo prazo
de { yt } é nula. Se não se exigisse, na definição 10.1, que a variância de longo prazo
deve ser positiva, este processo { yt } seria I (0) . Mas, como yt = ∆ε t , então {ε t } se-
ria também I (1) ! Para clarificar esta situação contraditória, vai definir-se que o pro-
cesso das primeiras diferenças de um processo I (0) é um processo I (−1) . É o que
acontece com { yt } , porque yt = ∆ε t e {ε t } é I (0) .
Vai demonstrar-se que a variância de longo prazo de um processo I (−1) é nula. Com
efeito, seja ut ~ I (0) , com Cov(ut , ut − s ) = γ s < +∞ , qualquer que seja s (inteiro). Co-
meça por verificar-se que o processo {vt } , onde vt = ut − ut −1 , é estacionário em
covariância, uma vez que E (vt ) = 0 , Var (vt ) = Var (ut − ut −1 ) = 2 (γ 0 − γ 1 ) e
Cov(vt , vt − s ) = E (vt vt − s ) = E{(ut − ut −1 )(ut − s − ut − s −1 )} = 2 γ s − γ s +1 − γ s −1 .
Como
v1 + v2 + L + vn = un − u0 e Var (un − u0 ) = 2 (γ 0 − γ n ) = 2 γ 0 (1 − ρ n ) ,
yt = y0 + ε t + ε t −1 + L + ε1 = y0 + ∑ s =1 ε s .
t
dependem de t. Para t fixo, a correlação entre yt e yt + s , por exemplo, tende para ze-
ro (em geral, lentamente) quando s → +∞ . De facto, quanto maior é t, mais lenta-
mente a correlação tende para zero, quando s cresce. Se se escolher um s grande, po-
de sempre escolher-se um t suficientemente grande, tal que a correlação entre yt e
yt + s esteja próxima de 1. Deste modo, o passeio aleatório é assintoticamente correla-
cionado.
3) Passeio aleatório com deriva: yt = α + yt −1 + ε t , em que {ε t } é um ruído branco in-
dependente. O processo { yt } é I (1) porque ∆ yt = α + ε t ~ I (0) .
Tem-se ct = α , wt = ε t e
yt = y0 + α t + ε t + ε t −1 + L + ε1 = y0 + α t + ∑ s =1 ε s .
t
Então, ct = α + δ t , wt = ε t e
δ δ δ δ
yt = y0 + α + t + t 2 + ε t + ε t −1 + L + ε1 = y0 + α + t + t 2 + ∑ s =1 ε s ,
t
2 2 2 2
yt + s = yt + wt + s + wt + s −1 + L + wt +1 = yt + ∑i =1 wt + i ,
s
e E ( yt + s | yt ) = yt , ∀s ≥ 1 . Isto significa que, por mais distante que seja o futuro, a me-
lhor previsão de yt + s é yt . No caso de o processo I (1) ter deriva, ct = α , facilmente se
conclui que
yt + s = yt + α s + wt + s + wt + s −1 + L + wt +1 = yt + α s + ∑i =1 wt + i ,
s
e E ( yt + s | yt ) = α s + yt , ∀s ≥ 1 .
Por exemplo, a este propósito vai confrontar-se um passeio aleatório sem deriva,
yt = yt −1 + ε t , com um processo AR(1) estável, yt = ϕ yt −1 + ε t ( | ϕ | < 1 ). Para o primeiro
processo, tem-se
yt + s = yt + ε t + s +ε t + s −1 + L + ε t +1 = yt + ∑i =1 ε t + i ,
s
yt + s = ϕ s yt + ε t + s + ϕ ε t + s −1 + ϕ 2ε t + s − 2 + L + ϕ s − 2ε t + 2 + ϕ s −1ε t +1 = ϕ s yt + ∑i =1ϕ s − iε t + i ,
s
tem-se
E ( yt + s | yt , yt −1 , K) = α + δ (t + s ) + ρ sut
= α + δ (t + s ) + ρ s ( yt − α − δ t ).
ou seja, a previsão de longo prazo é o valor esperado não condicionado. Esta proprie-
dade, que se designa por reversão para a média (mean reversion), caracteriza o pro-
cesso em causa (mais geralmente, é uma propriedade dos processos estacionários li-
neares). Por esta razão, um processo estacionário linear também se pode designar por
componente transitória.
b) ρ = 1 .
Neste caso, {ut } é um passeio aleatório sem deriva (um caso particular de tendência
estocástica), podendo escrever-se
yt = (α + u0 ) + δ t + ε t + ε t −1 + L + ε1 .
E ( yt + s | yt , yt −1, K) = δ s + yt .
Assim, espera-se que um passeio aleatório com deriva δ cresça a uma taxa constante
δ , qualquer que seja o valor corrente de y. Devido à existência de uma tendência es-
tocástica, o valor corrente de y tem um efeito permanente na previsão, qualquer que
seja o respectivo horizonte temporal. Por esta razão, uma tendência estocástica tam-
bém tem o nome de componente permanente.
Numa primeira abordagem, sobretudo gráfica, pode ser difícil distinguir os dois
comportamentos referidos. Contudo, os dois modelos especificam comportamentos mui-
to diferentes para { yt } , exactamente os mesmos que distinguem um processo I (0) de
um processo I (1) . Além disso, os dois modelos contêm recomendações implícitas dife-
rentes sobre a forma de proceder. Com efeito, a eliminação da tendência no primeiro dá
origem a um processo estacionário sem tendência; em contrapartida, no segundo, para
obter um processo estacionário, devem considerar-se as primeiras diferenças, ∆yt .
e
δ i = −(ψ i +1 + ψ i + 2 + L) (i = 0,1, 2, K) .
Por exemplo, vai verificar-se (10.3) para ψ ( L) = (1 − ϕ L)−1 , com | ϕ | < 1 . Com
efeito, como ψ ( L) = 1 + ϕ L + ϕ 2 L2 + L , obtém-se ψ (1) = 1 + ϕ + ϕ 2 + L = 1 (1 − ϕ ) , e
ϕ
δ 0 = −(ϕ + ϕ 2 + L) = −
1−ϕ
2 3 ϕ2
δ1 = −(ϕ + ϕ + L) = −
1−ϕ
ϕ3
δ 2 = −(ϕ 3 + ϕ 4 + L) = −
1−ϕ
L
Então,
1 ϕ ϕ2 ϕ3 2
ψ (1) + δ ( L)(1 − L) = − + L+ L + L (1 − L) ,
1 − ϕ 1 − ϕ 1 − ϕ 1−ϕ
sendo fácil verificar que
1 ϕ ϕ2 ϕ3 2
− + L+ L + L (1 − L) = 1 + ϕ L + ϕ 2 L2 + L.
1 − ϕ 1 − ϕ 1 − ϕ 1−ϕ
Utilizando a identidade (10.3), tem-se
wt = ψ ( L)ε t = {ψ (1) + δ ( L)(1 − L)}ε t = ψ (1)ε t + δ ( L)ε t − δ ( L)ε t −1 = ψ (1)ε t + ηt − ηt −1 ,
Capítulo 10 – Raízes unitárias e cointegração 11
onde ηt = δ ( L)ε t .
Pode demonstrar-se que δ ( L) é absolutamente somável. Com efeito, fica ao cui-
dado do leitor verificar todos os passos da seguinte sequência de igualdades e desigual-
dades:
∑ | δ i | = ∑i = 0 − ∑ j = i +1ψ j ≤ ∑i = 0 ∑ j = i +1 |ψ j | = ∑ j = 0 j |ψ j | < +∞ .
+∞ +∞ +∞ +∞ +∞ +∞
i =0
yt = y0 + ∑s =1 cs + ∑s =1 ws = y0 + Ct + ∑ s =1 ws .
t t t
∑
t
s =1
(ηs − ηs −1 ) = ηt − η0 ,
onde
ωt = ∑s =1 ε s .
t
Assim, qualquer processo I (1) linear pode ser escrito como soma de: uma com-
ponente determinística, Ct ; uma tendência estocástica, que é um passeio aleatório sem
deriva, ψ (1) ωt ; um processo estacionário, ηt ; uma condição inicial, y0 − η0 . Note-se
que a componente estacionária, ηt , pode não ser um processo I (0) . Por exemplo, se
wt = ψ 0 ε t − 2ε t −1 + ε t − 2 , tem-se δ 0 = 1 , δ1 = −1 e δ ( L) = 1 − L . Portanto, ηt = ε t − ε t −1 .
Este processo, embora estacionário, não é I (0) , porque a sua variância de longo prazo é
nula.
Resumindo, tem-se:
yt 1 y η η
= ψ (1) ωt + 0 + t − 0 .
t t t t t
Como, por hipótese, E ( y02 ) < +∞ , tem-se E{( y0 t ) 2 } → 0 , quando t → +∞ .
Logo, y0 t converge em probabilidade para zero. O mesmo se passa com ηt t e
com η0 t . Então, assintoticamente, a parcela entre parêntesis recto pode ser ignorada.
Além disso, devido ao TLC de Lindeberg-Levy,
ωt d
ψ (1) → N (0, σ ε2{ψ (1)}2 ) ,
t
e, portanto, a tendência estocástica cresce à taxa t .
Utilizando (10.2), a tendência estocástica pode ser escrita da seguinte maneira:
ωt
ψ (1) ωt = λ ,
σε
o que mostra que as variações da tendência estocástica de { yt } têm variância igual a λ2
(a variância de longo prazo de {∆ yt } ).
Considere-se, agora, ct = α ≠ 0 (com deriva). Dividindo ambos os membros de
(10.4) por t, vem
yt ω y η η
= α + ψ (1) t + 0 + t − 0 .
t t t t t
∑
n
t =1
( yt − µ ) = ψ (1) ωt + ηn − η0 .
ωt d
ψ (1) → N (0, λ2 ) ,
n
o que prova (9.110).
É possível relacionar os processos I (d ) com os processos ARMA. Com efei-
to, considere-se a equação com diferenças ϕ ( L) wt = θ ( L)ε t , onde
ϕ ( L) = 1 − ϕ1L − ϕ 2 L2 − L − ϕ p Lp , θ ( L) = 1 + θ1 L + θ 2 L2 + L + θ q Lq ,
d: yt ~ ARIMA( p, d , q ) .
Esta classe de processos I (d ) satisfaz a equação
ϕ ∗ ( L) yt = α + θ ( L)ε t ,
em que ϕ ∗ ( L) = ϕ ( L)(1 − L) d é um polinómio de grau p + d , com p raízes com módulo
superior a 1 e d raízes unitárias. Assim, na classe do processos ARIMA( p, d , q ) , o
problema da ordem de integração é equivalente ao problema da determinação do
número de raízes unitárias do polinómio que opera sobre yt . Nestas condições, pode
dizer-se que o processo { yt } é integrado de ordem d ou tem d raízes unitárias.
Para ilustrar as considerações precedentes, considere-se o processo AR(3)
ϕ ∗ ( L) yt = α + ε t
∗ ∗ 2 ∗ 3
ϕ ( L) = 1 − ϕ1 L − ϕ2 L − ϕ3 L .
∗
ou seja, yt ~ I (2) .
Na secção seguinte vai estudar-se os testes de raízes unitárias. As distribuições
limite das respectivas estatísticas-teste são apresentadas com base em processos de
Wiener (ou processos de movimento Browniano).
po contínuo de um passeio aleatório sem deriva cujas variações têm variância igual a
σ ε2 é dado por σ ε W (r ) .
Amostra de dimensão 10
0.5
0
1
-0.5
-1
-1.5
-2
-2.5
0.5
0
1
-0.5
-1
-1.5
-2
1.5
0.5
0
1
-0.5
y0 + y1 + L + yn −1
ytc = yt − ( t = 0,1, K , n − 1 ).
n
A versão em tempo contínuo deste processo é o processo de Wiener estandar-
dizado centrado,
1
W c (r ) = W (r ) − ∫ W ( s ) ds .
0
[A série centrada foi definida para t = 0,1, K , n − 1 para coincidir com a convenção se-
guida no teorema 10.2 (ver adiante); se a série centrada for definida para t = 1, 2, K , n ,
então a versão em tempo contínuo correspondente continua a ser W c (r ) ].
onde
1 1
d 0 = ∫ (4 − 6 s) W ( s ) ds e d1 = ∫ (−6 + 12 s ) W ( s ) ds
0 0
Os testes de raízes unitárias envolvem processos I (0) e I (1) (ver secção seguin-
te). Os resultados fundamentais coleccionados no teorema seguinte vão ser utilizados
para obter as distribuições limite das respectivas estatísticas-teste.
1 n d λ2 γ
b)
n ∑ t =1
( ∆yt ) yt −1 →
2
W (1) 2 − 0 ;
2
1 d 1
∑ ( ytc−1 ) 2 → λ2 ∫ {W c (r )}2 dr ;
n
c)
n2 t =1 0
1 n d λ2
{W c (1)}2 − {W c (0)}2 − γ 0 ;
n ∑t =1 t t −1
d) ( ∆y ) y c
→
2 2
1 d 1
∑ ( ytnt−1 ) 2 → λ2 ∫ {W nt (r )}2 dr ;
n
e)
n2 t =1 0
1 n d λ2
{W nt (1)}2 − {W nt (0)}2 − γ 0 .
n ∑t =1 t t −1
f) ( ∆y ) y nt
→
2 2
n
indexadas por n, converge em distribuição para a variável aleatória
1
λ2 ∫ W (r ) 2 dr .
0
Note-se que todas as variáveis aleatórias limite são escritas em termos de proces-
sos de Wiener estandardizados. O mesmo processo de Wiener, W (⋅) , aparece em a) e
em b); os processos de Wiener centrado e sem tendência, referidos em c)-f) são obtidos
a partir do processo W (⋅) ; assim, as variáveis aleatórias limite consideradas em a)-f) po-
dem estar correlacionadas.
Para aprofundar, por exemplo, a compreensão da conclusão a) do teorema 10.2,
suponha-se temporariamente que o processo { yt } é um passeio aleatório sem deriva, tal
Capítulo 10 – Raízes unitárias e cointegração 18
que σ 2 = Var (∆ yt ) , e com y0 fixo. Dado que o processo de Wiener é a respectiva ver-
são em tempo contínuo, não é surpreende que
∑
n
t =1
yt2−1 ,
Talvez não seja evidente que a normalização adequada consista em dividir por
n . Contudo, como E ( yt2 ) = Var ( yt ) = σ 2 t , uma forma de ver que esta normalização é a
2
e que a média de
∑
n
t =1
yt2−1
cresce à taxa n 2 . Para se obter uma variável aleatória com distribuição limite, esta soma
tem de ser dividida por n 2 .
Suponha-se, agora, que { yt } está nas condições gerais do teorema 10.2. O prob-
lema da autocorrelação em {∆ yt } pode ser resolvido substituindo γ 0 = Var (∆ yt ) por λ2
(a variância de longo de prazo de {∆ yt } ). Isto pode fazer-se porque, como se viu, devi-
do às implicações da decomposição de Beveridge-Nelson, um processo I (1) sem com-
ponente determinística é dominado, em grandes amostras, por um passeio aleatório cu-
jas primeiras diferenças têm variância igual a λ2 . Dito de outro modo, a distribuição li-
mite de
1
2 ∑t =1 t −1
n
y2 ,
n
em vez de ser um processo I (1) com primeiras diferenças autocorrelacionadas, é um
passeio aleatório cujas primeiras diferenças têm variância λ2 .
O mesmo tipo de raciocínio se pode fazer para as outras alíneas do teorema 10.2.
A demonstração do teorema 10.2 encontra-se, por exemplo, em Stock (1994).
Trata-se de uma aplicação do TLCF e de um teorema chamado “teorema da aplicação
contínua”. Como W (1) ~ N (0, 1) , a variável aleatória limite em b) é
λ2 γ0
v− ,
2 2
onde v ~ χ 2 (1) . A demonstração de b) pode fazer-se sem o aparato sofisticado do TLCF
e do teorema da aplicação contínua. Como yt = yt −1 + ∆ yt , obtém-se yt2 = ( yt −1 + ∆ yt ) 2
ou yt2 = yt2−1 + 2 yt −1 (∆ yt ) + (∆ yt ) 2 . Então,
1
(∆ yt ) yt −1 = { yt2 − yt2−1 − (∆ yt ) 2} .
2
Donde
Capítulo 10 – Raízes unitárias e cointegração 19
1 1 n
∑ (∆ yt ) yt −1 = ( yn2 − y02 ) − ∑t =1 (∆ yt ) 2 .
n
t =1 2 2
Dividindo ambos os membros desta igualdade por n, obtém-se
2 2
1 n 1 y 1 y 1
n ∑t =1
(∆ yt ) yt −1 = n − 0 − ∑t =1 (∆ yt ) 2 .
n
2 n 2 n 2n
n ∑t =1 t n ∑t =1 t
n ∆y → N (0, λ2 ) ou n ∆y → λ x , onde x ~ N (0,1) .
Assim,
2
1 y n d λ2 2
→ x , onde x 2 ~ χ 2 (1) .
2 n 2
[a hipótese nula diz respeito ao processo I (1) ; a hipótese alternativa refere-se processo
I (0) ]. Trata-se, portanto, de um teste unilateral (à esquerda).
Estes testes baseiam-se no estimador MQ de ϕ , ϕ̂ , quando se faz a regressão de
yt sobre yt −1 , e fazendo a convenção de que a amostra é formada por n + 1 observa-
ções, ( y0 , y1, y2 , K , yn ) . Sob a hipótese nula, o erro de amostragem é dado por
∑ ∑ (∆y ) y
n n
t =1
yt yt −1 t =1 t t −1
ϕ̂ − 1 = −1 = .
∑ ∑ y
n 2 n 2
t =1
y t −1 t =1 t −1
Vai obter-se a distribuição limite de n(ϕˆ − 1) , sob a hipótese nula. Assim: podem
aplicar-se os resultados a) e b) do teorema 10.2, uma vez que { yt } é um processo I (1)
sem deriva; como {∆ yt } é um ruído branco independente, tem-se γ 0 = λ2 (a variância
do processo {∆ yt } é igual à respectiva variância de longo prazo). Logo,
1 n d γ γ
ω1n =
n ∑ t =1
( ∆yt ) yt −1 → ω1 = 0 W (1)2 − 0 ,
2 2
1 d 1
2 ∑t =1 t −1
y 2 → ω2 = γ 0 ∫ W (r ) 2 dr .
n
ω2 n =
n 0
ou
Capítulo 10 – Raízes unitárias e cointegração 21
d
(10.5) n(ϕˆ − 1) → DFϕ .
Note-se o seguinte:
− No teste DF- ϕ não se pode utilizar a estatística n (ϕˆ − 1) , porque tem distribuição
limite degenerada. Usando n(ϕˆ − 1) , tem-se uma distribuição limite não degenerada.
Neste caso, diz-se que o estimador ϕ̂ é superconsistente, uma vez que converge à
taxa n (mais rápida).
− Facilmente se verifica que n1−ν (ϕˆ − 1) tende em probabilidade para zero, para qual-
quer 0 < ν < 1 , e supondo que ϕ = 1 . Com efeito, basta notar que
1
n1−ν (ϕˆ − 1) = n(ϕˆ − 1) ,
nν
onde o primeiro factor do segundo membro tende para 0, e o segundo, de acordo com
(10.5), tende em distribuição para uma variável aleatória. Assim, n1−ν (ϕˆ − 1) tem dis-
tribuição limite degenerada [a estatística n (ϕˆ − 1) corresponde ao caso ν = 0.5 ].
− A hipótese nula não especifica os valores de y0 (valor inicial) e de γ 0 (variância do
ruído branco), pois não afectam a distribuição limite (a distribuição da variável alea-
tória DFϕ ). Assim, no teste DF- ϕ , a distribuição limite não envolve aqueles parâ-
metros perturbadores.
− O numerador e o denominador da variável aleatória DFϕ envolve o mesmo processo
de Wiener, pelo que estão correlacionados. Como W (1) ~ N (0, 1) , o numerador po-
de ser escrito da seguinte maneira: ( w − 1) / 2 , onde w = W (1) 2 ~ χ 2 (1) .
− Suponha-se que no modelo yt = ϕ yt −1 + ε t , onde {ε t } é um ruído branco independen-
te, se substitui ε t por ut , em que {ut } é um processo I (0) com valor esperado nulo,
a verificar as condições da definição 10.3. Sob a hipótese nula, H 0 : ϕ = 1 , tem-se
yt = yt −1 + ut , e, portanto, { yt } é um processo I (1) sem deriva. Aplicando directa-
mente os resultados a) e b) do teorema 10.2, obtém-se
λ2 γ0 1 γ
W (1) 2 − 02
(1 / n)∑t =1 (∆yt ) yt −1 W (1) 2 − 2
n
d λ
n(ϕˆ − 1) = → 2 2 = ,
(1 / n )∑t =1 y
2 n 2 1 1
∫ ∫
2 2 2
t −1 λ W (r ) dr W (r ) dr
0 0
(1 / n)∑t =1 yt yt −1
n
p
γ1
ϕˆ = → < 1.
(1 / n)∑t =1 y γ0
n 2
t −1
Então, plim {n(ϕˆ − 1)} = −∞ . Assim, a probabilidade de rejeitar a hipótese nula nas
condições enunciadas tende para 1, quando n → +∞ .
O rácio-t habitual (que corresponde à hipótese nula) tem, também, uma distribui-
ção limite não degenerada, que não é a distribuição normal estandardizada. Para distin-
guir este teste de Dickey-Fuller do teste clássico, vai utilizar-se a expressão “rácio- τ ”,
em vez de “rácio-t”. Assim, tem-se
∑
n
yt2−1
∑t =1 (∆yt ) yt −1 ∑ (1 / n)∑t =1 (∆yt ) yt −1
n n n
ϕˆ − 1 t =1
t =1
(∆yt ) yt −1
τ= = = = ,
∑t =1 yt2−1
n
sϕˆ s
∑ s (1 / n )∑t =1 y
n 2 2 n 2
s t =1
y
t −1 t −1
onde:
s
sϕ̂ = é o erro padrão de ϕ̂ ;
∑t =1 yt2−1
n
∑
n
t =1
( yt − ϕˆ yt −1 )2
s= é o erro padrão da regressão.
n −1
Facilmente de prova que s 2 é estimador consistente de γ 0 , mesmo no caso em
que ϕ = 1 (quando ϕ < 1 , sabe-se, do capítulo 9, que s 2 é estimador consistente da va-
riância de ε t ). Com efeito, seja
1 1
∑ ∑
n n
s2 = ( y − ϕˆ y 1 ) 2
= {∆yt − (ϕˆ − 1) yt −1}2
n − 1 t =1 t t −
n − 1 t =1
1 2 1 n
∑ {n(ϕˆ − 1)} ∑t =1 (∆yt ) yt −1
n
= (∆yt ) 2 −
n −1 t =1 n −1 n
1 1
{n(ϕˆ − 1)}2 2 ∑t =1 yt2−1.
n
+
n −1 n
As três parcelas obtidas têm o seguinte comportamento assintótico: quanto à pri-
meira, tende em probabilidade para E{(∆yt ) 2 } = γ 0 , uma vez que o processo {∆yt } é iid
Capítulo 10 – Raízes unitárias e cointegração 23
ou
ϕˆ − 1 d
(10.6) τ= → DFτ .
sϕˆ
H 0 : θ = 0 contra H1 : θ < 0 .
(1 / n2 )∑t = 0 yt2
n
SB = ,
(1 / n)∑t =1 (∆yt ) 2
n
p
E ( yt2 )
n SB → .
E{(∆yt ) 2}
Um inconveniente dos testes baseados num processo AR(1) sem termo indepen-
dente ou constante é a ausência de invariância em relação à adição de uma constan-
te à série de observações. Se o teste é feito para uma série em logaritmos, uma modifi-
cação da unidade de medida (por exemplo, passar de euros para milhares de euros) re-
sulta numa adição de uma constante a cada observação, o que altera o valor da estatísti-
ca-teste. Para evitar o inconveniente referido, considere-se o modelo
(10.8) yt = α 0 + zt , com zt = ϕ zt −1 + ε t ,
onde α = α 0 (1 − ϕ ) .
Como α = 0 , quando ϕ = 1 , a hipótese nula de que o processo é um passeio
aleatório sem deriva [processo I (1) ] corresponde a considerar que a hipótese nula con-
junta seja H 0 : ϕ = 1 ∧ α = 0 , em termos dos coeficientes de regressão de (10.9). Sem a
restrição α = 0 , { yt } pode ser um passeio aleatório com deriva. Mais adiante vão estu-
dar-se testes para este caso. Por enquanto, vai continuar-se com a situação em que a hi-
pótese nula diz respeito a um passeio aleatório sem deriva.
Seja ϕ̂c o estimador MQ de ϕ em (10.9), e τ c é o rácio- τ para a hipótese nula,
ϕ = 1 [o teste da hipótese nula conjunta é raramente feito em econometria]. Deve ficar
claro que o valor de α 0 não afecta o valor de ϕ̂c , ou o seu erro padrão, pois adicionar
uma constante às observações apenas altera a estimativa do termo independente. Assim,
as distribuições (exacta ou limite) da estatística n(ϕˆc − 1) do teste DF- ϕc , e do rácio- τ
respectivo, τ c , do teste DF- τ c , não dependem do valor de α 0 , qualquer que seja ϕ .
Pode demonstrar-se que
d
(10.10) n(ϕˆc − 1) → DFϕc ,
onde
e que
ϕˆc − 1 d
(10.11) τc = → DFτc ,
sϕˆc
∑
n
t =1
(∆yt ) ytc−1
ϕ̂c −1 = ,
∑
n
t =1
( ytc−1 ) 2
∑ ∑
n n
t =1
yt ytc−1 t =1
( yt − ytc−1 ) ytc−1
ϕ̂c = ou ϕ̂c −1 = .
∑ ∑t =1 ( ytc−1 )2
n n
t =1
( ytc−1 )2
Como
∑
n
t =1
ytc−1 = 0 ,
= ∑t =1 ( yt − yt −1 ) ytc−1 + y ∑t =1 ytc−1
n n
= ∑t =1 ( yt − yt −1 ) ytc−1
n
= ∑t =1 (∆yt ) ytc−1.
n
Capítulo 10 – Raízes unitárias e cointegração 27
n n
∑ t =1
yt −1 → λ ∫ W (r )dr ,
0
e como n(ϕˆc − 1) tende em distribuição para uma variável aleatória, a segunda parce-
la do segundo membro da mesma igualdade tembém converge em probabilidade para
0. Fica, assim, provado que plim(αˆ ) = 0 .
Seja
1 1
n − 2 ∑t =1 t n − 2 ∑t =1
n n
s2 = ( y − αˆ − ϕˆc yt −1 )2 = {(∆yt − αˆ ) − (ϕˆc − 1) yt −1}2
1 2 1 n
∑ {n(ϕˆc − 1)} ∑t =1 (∆yt − αˆ ) yt −1
n
= (∆yt − αˆ ) 2 −
n−2 t =1 n−2 n
1 1
{n(ϕˆc − 1)}2 2 ∑t =1 yt2−1.
n
+
n−2 n
Capítulo 10 – Raízes unitárias e cointegração 28
∑
n
( ytc−1 ) 2
∑t =1 (∆yt ) ytc−1 (1 / n)∑t =1 (∆yt ) ytc−1
n n
t =1
τc = = .
∑t =1 ( ytc−1 )2
n
s
s (1 / n )∑t =1 ( y )
2 n c 2
t −1
Exemplo 10.1 – Seja ltced o logaritmo da taxa mensal de câmbio de referência Eu-
ro/USD. Como se mostra na figura 10.2, com dados mensais de Janeiro de 1999 a De-
zembro de 2005, esta variável evidencia uma tendência estocástica. Contudo, o crono-
grama das respectivas primeiras diferenças (ver figura 10.4) aponta para que ∆ltced se-
ja estacionária.
Para suportar empiricamente que ltced é I (1) , vai fazer-se o teste de Dickey-
-Fuller. Para tornar este teste invariante em relação à escolha das unidades, vai conside-
rar-se a equação de regressão na forma (10.9), ou seja,
ltcedt = α + ϕ ltcedt −1 + ε t .
0.08
0.06
0.04
0.02
-0.02
-0.04
-0.06
Fev-99 Ago-99 Fev-00 Ago-00 Fev-01 Ago-01 Fev-02 Ago-02 Fev-03 Ago-03 Fev-04 Ago-04 Fev-05 Ago-05
Como se dispõe de 83 observações, o valor crítico está entre –13.3 e –13.7. Co-
mo o valor observado da estatística-teste é –1.56171, a evidência é claramente favorável
à hipótese nula: a variável ltced é I (1) .
O valor crítico (assintótico) a 5%, dado pela tabela 10A.2, é –2.86, isto é,
P( DFτc < −2.86) = 0.05 .
onde
Os testes DF- ϕct e DF- τ ct seguem a mesma mecânica dos testes DF- ϕ e DF- τ ,
respectivamente (as tabelas encontram-se no anexo 10A: para o primeiro, ver a tabela
10A.1; para o segundo, ver as tabelas 10A.1 e 10A.4).
Os resultados (10.14) e (10.15) permitem fazer testes DF de um passeio aleató-
rio com ou sem deriva, no caso de existir termo independente e tendência linear
[em (10.13)]. A demonstração de (10.14) é a seguinte [fica ao cuidado do leitor provar
(10.15), seguindo os passos d) e e) da demonstração de (10.11) ]:
a) Vai provar-se que
∑
n
t =1
(∆yt ) ytnt−1
ϕ̂ct −1 = ,
∑
n
t =1
( ytnt−1 )2
∑ ∑
n n
t =1
yt ytnt−1 t =1
( yt − ytnt−1 ) ytnt−1
ϕ̂ct = ou ϕ̂ct −1 = .
∑ ∑t =1 ( ytnt−1 )2
n n
t =1
( ytnt−1 ) 2
∑ ∑
n n
t =1
ytnt−1 = 0 e t =1
t ytnt−1 = 0 ,
obtém-se
= ∑t =1 ( yt − yt −1 ) ytnt−1
n
= ∑t =1 (∆yt ) ytnt−1 ,
n
(1 / n) ∑t =1 (∆yt ) ytnt−1
n
n(ϕˆct − 1) = .
(1 / n 2 ) ∑t =1 ( ytnt−1 )2
n
Capítulo 10 – Raízes unitárias e cointegração 32
∑
n
znt
t =1 t −1
=0.
Então,
n(ϕˆct − 1) = = .
(1 / n 2 ) ∑t =1 ( ztnt−1 )2 (1 / n 2 ) ∑t =1 ( ztnt−1 ) 2
n n
Então,
yt −1 − φ yt −1 + ∆yt − ξ1∆yt −1 − ξ 2∆yt − 2 − L − ξ p −1∆yt − p +1 = ε t ,
e, portanto,
yt = φ yt −1 + ξ1∆yt −1 + ξ 2 ∆yt − 2 + L + ξ p −1∆yt − p +1 + ε t
(10.17)
= φ yt −1 + ∑ s =1 ξ s ∆yt − s + ε t .
p −1
em que θ = φ − 1 = ϕ1 + ϕ2 + L + ϕ p − 1 .
Por exemplo, para p = 2 é fácil verificar a equivalência entre
yt = ϕ1 yt −1 + ϕ2 yt − 2 + ε t e yt = φ yt −1 + ξ1∆yt −1 + ε t ,
onde
φ
xt • = [ yt −1 ∆yt −1 ] e β = .
ξ1
Supondo que a amostra é ( y−1 , y0 , y1 , K , yn ) , a estimação é feita com n observa-
ções ( t = 1, 2, K , n ). Se
Capítulo 10 – Raízes unitárias e cointegração 35
φˆ
βˆ =
ˆ
ξ1
é o estimador MQ de β , o erro de amostragem é
−1
βˆ − β = ∑t =1 xtT• xt • ∑
n n
x ε ,
T
t =1 t • t
em que
yt −1 (∆yt −1 )
∑ ∑ ∑ n yt −1ε t
n n
y2
=1 t −1 e
∑t =1 xt • xt • = X X = n ∑t =1 xtT•ε t = n .
n T T t t =1 n t =1
2
∑t =1 (∆yt −1 ) yt −1 ∑ ∑t =1 (∆yt −1 )ε t
n
(∆yt −1 )
t =1
Tal como se fez anexo 3E, procura-se uma matriz não singular, Γn , quadrada de
ordem 2, de tal modo que Γn ( βˆ − β ) tenha, sob a hipótese nula ( φ = 1 ), distribuição li-
mite não degenerada. Tem-se
−1
−1
Γn ( βˆ − β ) = Γn ∑t =1 xtT• xt • ∑t =1 xtT•ε t = Γn−1 ∑t =1 xtT• xt • Γn−1 Γn−1 ∑t =1 xtT•ε t = Qn−1V•n ,
n n n n
onde
Qn = Γn−1 ∑t =1 xtT• xt • Γn−1 e V• n = Γn−1 ∑t =1 xtT•ε t .
n n
Como vai ver-se, a distribuição limite não degenerada obtém-se quando
n 0
Γn = ,
0 n
e, portanto,
n(φˆ − 1)
Γn ( βˆ − β ) = .
n (ξˆ − ξ )
1 1
Logo,
1 1 1 n 1 n
2 ∑ t =1 t −1 ∑ ∑
n
y2 yt −1 ( ∆ y t −1 ) yt −1 ε t
n n n t =1 n t =1
Qn = eV = .
1 1 n 1 n •n 1
∑t =1 (∆yt −1 ) yt −1 ∑ ∑
2 n
( ∆ y t −1 ) ( ∆ y t −1 )ε t
n n n t =1 n
t =1
n2 0
Capítulo 10 – Raízes unitárias e cointegração 36
∑
n t =1
( ∆yt −1 ) 2
→ γ 0 = Var (∆yt ) .
que é a média amostral do produto de uma variável I (0) com valor esperado nulo
por uma variável I (1) sem deriva. Vai provar-se que
1 n d λ2 γ
n ∑ t =1
( ∆yt −1 ) yt −1 →
2
W (1) 2 + 0 .
2
Com efeito, esta distribuição limite é a mesma de
1 n
n ∑t =1 t t
(∆y ) y .
∑
n t =1
( ∆yt ) 2
→ γ0 .
Então,
1 1 n p
∑
n n t =1
( ∆yt −1 ) yt −1 → 0.
− Conclusão:
λ2 1 W (r )2 dr 0
Qn → Q = ∫ 0
d
.
0 γ 0
− Primeiro elemento de V• n . Usando a decomposição de Beveridge-Nelson, pode de-
monstrar-se que
1 n d 1
∑
n t =1
yt −1ε t → v1 = σ ε2ψ (1){W (1) 2 − 1} ,
2
supondo que { yt } é um processo I (1) sem deriva, pelo que {∆yt } é um processo
I (0) , com valor esperado nulo (a satisfazer as condições da definição 10.3). Tem-se:
∆yt = ψ ( L)ε t [representação MA(∞) de {∆yt } ].
Capítulo 10 – Raízes unitárias e cointegração 37
No caso presente, tem-se ∆yt = ξ1∆yt −1 + ε t , sob a hipótese nula, pelo que
1
ψ ( L) = (1 − ξ1L) −1 e ψ (1) = .
1 − ξ1
onde ωt = ε1 + ε 2 + L + ε t . Donde
1 n 1 n 1 n 1 n
n ∑ t =1
yt −1ε t = ψ (1) ∑t =1 ωt −1ε t + ∑t =1 ηt −1ε t + ( y0 − η0 ) ∑t =1 ε t .
n n n
Quanto à primeira parcela do segundo membro desta igualdade pode concluir-se o
seguinte: como {ωt } é um passeio aleatório e ε t = ∆ωt , e como λ2 = γ 0 = σ ε2 , devido
à propriedade b) do teorema 10.2, tem-se
1 n d σ2
n ∑t =1 t −1 t
ω ∆ω → ε
{W (1)2 − 1} .
2
O resultado pretendido fica provado se se verificar que as outras duas parcelas con-
vergem em probabilidade para 0. De facto, como ηt −1 é função de (ε t −1 , ε t − 2 , K) , é
independente de ε t ; logo, E (ηt −1ε t ) = 0 ; pelo teorema da ergodicidade, vem
1 n p
∑
n t =1
η t −1ε t → 0.
∑
n t =1
ε t → 0.
n(φˆ − 1) d 2 1
−1
ˆ λ ∫ W ( r ) 2
dr 0 v1
Γn ( β − β ) = 1
→Q V =
−
0
n (ξˆ1 − ξ1 )
−1 v
0 γ 0 2
2 1 v
−1
= ∫ 0
2
λ W ( r ) dr
1 .
γ 0−1v2
Portanto,
d σ ε2ψ (1) (1 / 2){W (1)2 − 1}
n(φˆ − 1) → ,
λ2 1
∫
2
W (r ) dr
0
ou
λ2 2
ˆ − 1) → (1 / 2){W (1) − 1} = DF ,
d
(10.21) n (φ φ
σ ε2ψ (1) 1
∫ W (r ) 2 dr
0
onde DFφ é a mesma variável aleatória obtida em (10.5) [por razões óbvias de notação,
escreve-se, agora, DFφ , em vez de DFϕ ].
Conclui-se, também, que
d σ2
(10.22) n (ξˆ1 − ξ1 ) → N 0, ε ,
γ0
ou seja, obtém-se a distribuição assintótica clássica do estimador MQ do coeficiente da
variável I (0) com valor esperado nulo, ∆yt −1 .
A estatística-teste (10.21) envolve parâmetros perturbadores, devido ao factor
λ2
.
σ ε2ψ (1)
Contudo, como λ2 = σ ε2ψ (1) 2 [a variância de longo prazo de {∆yt } ], tem-se, sob
a hipótese nula,
Capítulo 10 – Raízes unitárias e cointegração 39
λ2 1
= ψ (1) = .
2
σ ε ψ (1) 1 − ξ1
Substituindo ξ1 pelo respectivo estimador MQ, vem
n(φˆ − 1) d
(10.23) → DFφ .
1 − ξˆ1
q11
sφˆ = s m11 = s n
é o erro padrão de φˆ .
n2
Atendendo à expressão de Q −1 , a (10.21), a que s 2 é um estimador consistente
de σ ε2 , e às propriedades a) e b) do teorema 10.2, pode verificar-se que
φˆ − 1 d
(10.24) τ= → DFτ .
sφˆ
Com efeito,
1
Teorema 10.3 – Testes ADF de uma raiz unitária (sem termo independente)
Suponha-se que { yt } é um processo ARIMA( p − 1,1, 0) , pelo que {∆yt } é um processo
AR ( p − 1) estacionário com valor esperado nulo. Seja (φˆ, ξˆ1 , ξˆ2 , K , ξˆp −1 ) o estimador
MQ dos coeficientes da auto-regressão aumentada, (10.17). Tem-se
n(φˆ − 1) d
(10.25) → DFφ (estatística ADF- φ ),
1 − ξˆ1 − ξˆ2 − L − ξˆp −1
φˆ − 1 d
(10.26) τ= → DFτ (estatística ADF- τ ),
sφˆ
onde
ξ1 ξˆ1 γ0 γ 1 L γ p−2
ξ 2 ˆ ξˆ2 γ 1 γ 0 L γ p −3
ξ = , ξ = , Ω=
M M M M M
ˆ
ξ p −1 ξ p −1 γ p − 2 γ p − 3 L γ 0
e γ s ( s = 0,1, 2, K , p − 2 ) é a autocovariância de ordem s de {∆yt } .
Atendendo aos resultados obtidos na secção 9.5 relativamente à estimação MQ
de processos auto-regressivos estacionários,verifica-se facilmente que esta distribuição
assintótica referida em (10.27) é a mesma que se obteria se se estimasse (10.19) pelo
método MQ. As hipóteses que envolvem apenas coeficientes dos regressores I (0) com
valor esperado nulo, (ξ1 , ξ 2 , K , ξ p −1 ) , podem ser testadas com os habituais rácios t e F
(assintoticamente válidos).
O teorema 10.3 pressupõe que a ordem de auto-regressão para ∆yt , p − 1 , é
conhecida. Quando esta é desconhecida, deve propor-se um valor para p. Em muitas si-
tuações, quando os dados são anuais, é razoável admitir que bastam dois ou três desfasa-
mentos; para dados mensais, sugere-se a utilização de 12 desfasamentos. No entanto,
não existem regras absolutas para esta escolha.
Numa primeira aproximação, pode utilizar-se o teste de Breusch-Godfrey para
verificar se no modelo (10.19), ∆yt = ξ1∆yt −1 + ξ 2 ∆yt − 2 + L + ξ p −1∆yt − ( p −1) + ε t (supondo
φ = 1 ), sucessivamente com p = 1, 2, 3, K , se detecta autocorrelação.
O problema da estimação de p também pode ser abordado de uma forma seme-
lhante à que foi estudada na secção na 9.6. As diferenças são as seguintes: no presente
caso, o PGD é um processo estacionário nas primeiras diferenças, e não em níveis; o
modelo é uma auto-regressão aumentada em que φ é livremente estimado.
Capítulo 10 – Raízes unitárias e cointegração 41
Contudo, este resultado não fornece uma regra prática para seleccionar o com-
primento do desfasamento, p̂ , já que existe uma infinidade de regras que satisfazem as
condições (10.28). É, então, natural adoptar uma das regras indicadas na secção 9.5: a
regra sequencial “do geral para o particular” baseada em rácios-t; os critérios de infor-
mação obtidos a partir de somas de quadrados de resíduos e na dimensão da amostra.
Recapitulando, os critérios de informação fazem p̂ igual a valor de s que mi-
nimiza
SQR s C ( n)
ln + ( s + 1) ,
n n
(3) [Ng e Perron (1995)] Suponha-se que p̂ é seleccionado pelo critério AIC ou pelo
critério BIC, em que p ∗ (n) satisfaz as condições (10.28). Então, as duas estatísti-
cas, ADF- φ e ADF- τ , têm as mesmas distribuições limite do teorema 10.3.
Tal como nos testes DF, podem modificar-se os testes ADF quando se soma
uma constante à série das observações. Considere-se o modelo
(10.29) yt = α 0 + zt , com zt = ϕ1 zt −1 + ϕ2 zt − 2 + L + ϕ p zt − p + ε t ⇔ ϕ ( L) zt = ε t ,
H 0 : θ = 0 contra H1 : θ < 0 .
onde
α
xt • = [ 1 yt −1 ∆yt −1 ] e β = φ .
ξ1
o erro de amostragem é
−1
βˆc − β c = ∑t =1 ( xtc• )T xtc• ∑
n n
( xtc• )T ε t ,
t =1
onde
∑ ∑ y (∆y ) e
∑ yc ε
n n n
( ytc−1 ) 2 c
∑t =1 ( x ) x = n (∆y ) y c
t =1 t −1
∑ .
n t −1 c n t =1 t −1 t
c T c t =1
(x ) εt =
c T
∑t =1 t −1 c t −1 ∑ (∆y )
t• t• n 2 t =1 t•
∑ n (∆yt −1 )c ε t
t =1 t −1 c
t =1
Então,
n(φˆ − 1) −1
c T c −1 −1
ˆ = Γn ∑t =1 ( xt • ) xt • Γn Γn ∑t =1 ( xtc• )T ε t = Qn−1V• n ,
−1 n n
Γn ( β c − β c ) = c
ˆ
n (ξ1 − ξ1 )
Capítulo 10 – Raízes unitárias e cointegração 44
onde
Qn = Γn−1 ∑t =1 ( xtc• )T xtc• Γn−1 e V• n = Γn−1 ∑t =1 ( xtc• )T ε t ,
n n
ou
1 1 1 n c 1 n c
2 ∑t =1 ∑ ∑
n
( ytc−1 )2 y (∆yt −1 )c yt −1ε t
n n n t =1 t −1 n t =1
Qn = e V• n = 1 .
1 1 ∑ n (∆yt −1 )c ytc−1 1 n
∑t =1 t −1 c t
n
n ∑t =1 t −1 c
(∆y ) 2 ( ∆y ) ε
n n t =1 n
Assim (para φ = 1 ):
− Elemento (1,1) de Qn . Como { yt } é I (1) sem deriva, tem-se
1 d 1
∑t =1 ( ytc−1 )2 → λ2 ∫ {W c (r )}2 dr ,
n
n2 0
e
1 n 1 n 1 n
n ∑ t =1
(∆yt −1 )c2 = ∑t =1 (∆yt −1 ) 2 − 2 ∆y ∑t =1 ∆yt −1 + (∆y )2
n n
2
1 n 1 n
= ∑
n t =1
( ∆yt −1 ) 2
− ∑t =1 ∆yt −1 .
n
Como E (∆yt ) = 0 , E{(∆yt ) 2} = γ 0 e {∆yt } é um processo AR(1) estacionário (verifi-
ca-se a estacionaridade ergódica), tem-se
1 n p
∑
n t =1
( ∆yt −1 ) 2
c → γ0 .
1 1 n d 1
n n
∑ t =1
yt −1 → λ ∫ W (r )dr ,
0
1 n p
∑
n t =1
∆yt −1 → 0.
Então,
Capítulo 10 – Raízes unitárias e cointegração 45
1 1 n p
∑
n n t =1
( ∆y ) y c
t −1 c t −1 → 0.
− Conclusão:
λ2 1{W c (r )}2 dr 0
Qn → Q = ∫ 0
d
.
0 γ 0
− Primeiro elemento de V• n . Como ytc−1 = yt −1 − y , a decomposição de Beveridge-Nel-
son permite escrever yt −1 = ψ (1) ωt −1 + ηt −1 + ( y0 − η0 ) , onde ωt −1 = ε1 + ε 2 + L + ε t −1 , e
como
1 n 1 n
y=
n ∑ t =1
yt −1 = ∑t =1{ψ (1) ωt −1 + ηt −1 + ( y0 − η0 )}
n
1 n 1 n
= ψ (1) ∑t =1 ωt −1 + ∑t =1ηt −1 + ( y0 − η0 )
n n
= ψ (1) ω + η + ( y0 − η0 ) ,
onde
1 n 1 n
ω=
n ∑ t =1
ωt −1 e η = ∑t =1ηt −1 .
n
Então,
ytc−1 = yt −1 − y = ψ (1) (ωt −1 − ω ) + (ηt −1 − η ) = ψ (1) ωtc−1 + ηtc−1 .
Logo,
1 n c 1 n 1 n
n ∑ t =1
yt −1ε t = ψ (1) ∑t =1 ωtc−1ε t + ∑t =1ηtc−1ε t .
n n
Como ηt −1 é independente de ε t , a segunda parcela do segundo termo tende em pro-
babilidade para 0. Notando que ε t = ∆ωt e que λ2 = γ 0 = σ ε2 , a propriedade d) do teo-
rema 10.2 permite concluir que
1 n c d σ2
n ∑t =1 t −1 t
ω ε →
2
ε
[{W c (1)}2 − {W c (0)}2 − 1 ].
Então,
1 n c d 1
∑ y 1ε → v1 = σ ε2ψ (1) [ {W c (1)}2 − {W c (0)}2 − 1 ] .
n t =1 t − t
2
− Segundo elemento de V• n . Fica ao cuidado do leitor verificar que
1 d
∑
n
t =1
(∆yt −1 )c ε t → v2 ~ N (0, γ 0 σ ε2 ) .
n
− Conclusão:
d v1 σ ε2ψ (1) 1 [{W c (1)}2 − {W c (0)}2 − 1 ]
V• n → V = = 2 .
v2 2
v2 ~ N (0, γ 0 σ ε )
Utilizando os resultados anteriores, tem-se
Capítulo 10 – Raízes unitárias e cointegração 46
n(φˆc − 1) d 2 1 c
−1
ˆ λ ∫ {W ( r )}2
dr 0 v1
Γn ( β c − β c ) = 1
→Q V =
−
0
n (ξˆ1 − ξ1 )
−1 v
0 γ 0 2
2 1 c v
−1
= ∫ 0
2
λ {W ( r )} dr
1 .
γ 0−1v2
Portanto,
d σ ε2ψ (1) (1 / 2) [{W c (1)}2 − {W c (0)}2 − 1 ]
n(φˆc − 1) → ,
λ2 1
∫
2 2
λ {W (r )} dr
c
0
ou
λ2 ˆ − 1) → (1 / 2) [ {W (1)} − {W (0)} − 1 ] = DF c ,
d c 2 c 2
(10.33) n (φ φ
σ ε2ψ (1) c 1
∫
λ2 {W c (r )}2 dr
0
onde DFφc é a mesma variável aleatória obtida em (10.10) [por razões óbvias de nota-
ção, escreve-se DFφc em vez de DFϕc ]. Eliminando os parâmetros perturbadores, vem
n(φˆc − 1) d
(10.34) → DFφc ,
ˆ
1 − ξ1
onde sφˆ é o erro padrão de φˆc e DFτc é a mesma variável aleatória indicada em (10.11).
c
Os resultados (10.34) e (10.35) podem ser generalizados para qualquer p.
Teorema 10.4 – Testes ADF de uma raiz unitária (com termo independente)
Suponha-se que { yt } é um processo ARIMA( p − 1,1, 0) , pelo que {∆yt } é um processo
AR ( p − 1) estacionário com valor esperado nulo. Seja (αˆ , φˆc , ξˆ1 , ξˆ2 , K , ξˆp −1 ) o estimador
MQ dos coeficientes da auto-regressão aumentada com termo independente, (10.30).
Então:
n(φˆc − 1) d
(10.36) → DFφc (estatística ADF- φc ),
1 − ξˆ1 − ξˆ2 − L − ξˆp −1
φˆc − 1 d
(10.37) τc = → DFτc (estatística ADF- τ c ),
sφˆ
c
Comentários:
1) Os testes estatísticos são invariantes com a adição de uma constante à série de ob-
servações.
2) A extensão de Said-Dickey-Ng-Perron continua aplicável: se {∆yt } é um processo
ARMA( p, q ) estacionário e invertível (pelo que ∆yt pode ser escrito como um pos-
sível processo auto-regressivo infinito), então as estatísticas ADF- φc e ADF- τ c têm
as distribuições limite indicadas no teorema 10.4, desde que p̂ seja escolhido com as
regras atrás referidas.
Os resultados gerais para efectuar estes testes ADF são dados pelo teorema se-
guinte:
Teorema 10.5 – Testes ADF de uma raiz unitária (com tendência linear)
Seja { yt } a soma de uma tendência linear com um processo ARIMA( p − 1,1, 0) , pelo
que {∆yt } é um processo AR ( p − 1) estacionário cujo valor esperado pode, ou não, ser
nulo. Seja (αˆ , δˆ, φˆct , ξˆ1 , ξˆ2 , K , ξˆp −1 ) o estimador MQ dos coeficientes da auto-regressão
aumentada com tendência linear, (10.39). Então:
n(φˆct − 1) d
(10.41) → DFφct (estatística ADF- φct ),
1 − ξˆ1 − ξˆ2 − L − ξˆp −1
Capítulo 10 – Raízes unitárias e cointegração 48
onde DFφct é a mesma variável aleatória obtida em (10.14) [por razões óbvias de nota-
ção, escreve-se DFφct em vez de DFϕct ];
φˆct − 1 d
(10.42) τ ct = → DFτct (estatística ADF- τ ct ),
sφˆ
ct
onde sφˆ é o erro padrão de φˆct e DFτct é a variável aleatória indicada em (10.15).
ct
Comentários:
1) Os testes estatísticos são invariantes com os parâmetros da tendência, (α 0 , δ 0 ) .
2) A extensão de Said-Dickey-Ng-Perron continua aplicável: se {∆yt } é um processo
ARMA( p, q ) estacionário e invertível com valor esperado possivelmente não nulo,
então as estatísticas ADF- φct e ADF- τ ct têm as distribuições limite indicadas no
teorema 10.5, desde que p̂ seja escolhido com as regras já conhecidas.
3) O mesmo comentário que se fez a propósito da escolha do teste DF com ou sem ten-
dência linear é aplicável ao testes ADF. Se houver razões para não considerar uma
tendência linear, devem usar-se as estatísticas ADF- φc e ADF- τ c , porque, geral-
mente, a potência dos testes é maior se se não incluir a tendência na auto-regressão
aumentada. No caso de ser razoável admitir a existência de uma tendência linear,
deve recorrer-se às estatísticas ADF- φct e ADF- τ ct , incluindo a tendência na auto-re-
gressão aumentada.
4) As tabelas dos valores críticos para efectuar os testes ADF são, de acordo com os
teoremas 10.3, 10.4 e 10.5, as mesmas que se utilizam os testes DF, respectivamente
(ver anexo 10.A).
Exemplo 10.2 – Seja lpib o logaritmo do PIB português. Como se mostra na figura
10.1, com dados anuais de 1865 a 2001, o logaritmo do PIB evidencia uma tendência
determinística linear e, eventualmente, uma tendência estocástica. O cronograma da ta-
xa de variação do PIB parece confirmar esta possibilidade, uma vez que ∆lpib é, apa-
rentemente, estacionário (ver figura 10.5).
Para fazer o teste ADF vai considerar-se a seguinte auto-regressão aumentada:
lpibt = α + δ t + φ lpibt −1 + ξ1 ∆lpibt −1 + ε t .
O valor crítico (assintótico) a 5%, dado pela tabela 10A.1, é –21.7, isto é,
P( DFφct < −21.7) = 0.05 .
Capítulo 10 – Raízes unitárias e cointegração 49
0.2
0.15
0.1
0.05
-0.05
-0.1
-0.15
1865 1875 1885 1895 1905 1915 1925 1935 1945 1955 1965 1975 1985 1995
Como se dispõe de 135 observações, o valor crítico está entre –20.6 e –21.3. Co-
mo o valor observado da estatística-teste é –1.61879, a evidência aponta claramente pa-
ra a hipótese nula: a variável lpib é I (1) .
O valor crítico (assintótico) a 5%, dado pela tabela 10.2, é –3.41, isto é,
P( DFτct < −3.41) = 0.05 .
Como se dispõe de 135 observações, o cálculo directo permite obter –3.438, pa-
ra o valor crítico, e 0.949, para o valor-p. A evidência, ainda, é favorável para a hipótese
nula.
∇
Os vários processos I (1) considerados nesta secção são casos particulares do se-
guinte modelo (conjunto de PGDs):
(10.43) yt = ct + zt , zt = φ zt −1 + ut ,
vem
5.0
4.5
4.0
3.5
3.0
2.5
2.0
1960 1965 1970 1975 1980 1985 1990 1995 2000 2005
verifica-se, também, que yt ~ I (1) . Contudo, existe uma combinação linear das variá-
veis yt e xt que é I (0) . Com efeito, tem-se ε t1 = yt − λ xt ~ I (0) .
∇
Exemplo 10.4 – Seja r 6 t a taxa de juro dos títulos do tesouro a 6 meses (no final do tri-
mestre t, anualizada), e r 3t a respectiva taxa de juro a 3 meses. Sabe-se que cada uma
destas variáveis é I (1) , e que o spread entre as duas taxas de juro, sprt = r 6 t − r 3t , é
I (0) . Então, as duas variáveis são cointegradas porque sprt ~ I (0) é combinação linear
de r 6 t e r 3t .
Esta cointegração tem uma interpretação económica simples. Se r 6 t e r 3t não
fossem cointegradas, a diferença entre as duas taxas de juro tenderia a ser muito grande,
e a não se aproximarem. Por exemplo, suponha-se que o spread crescia durante muitos
períodos, o que tornava o investimento em títulos do tesouro a 6 meses muito mais atra-
ente do que a 3 meses. Então, os investidores renunciavam aos títulos a 3 meses a favor
dos títulos a 6 meses, fazendo subir o preço destes, e baixando o preço daqueles. Como
as taxas de juro têm uma relação inversa com o preço dos títulos, diminuía r6 e aumen-
tava r3, até que o spread fosse reduzido. Deste modo, não é de esperar que se mante-
nham grandes diferenças entre r6 e r3: o spread tem tendência para regressar ao seu va-
lor médio (em princípio ligeiramente positivo, porque o retorno dos investidores a mais
longo prazo é superior ao dos investidores a mais curto prazo).
Capítulo 10 – Raízes unitárias e cointegração 53
Pode, também, argumentar-se que existe uma relação de longo prazo entre as
duas taxas de juro. Com efeito, seja µ = E ( sprt ) . Então, pode escrever-se
r 6t = r 3t + µ + ε t ,
onde ct = ct1 − λ ct 2 , verifica-se que a cointegração das tendências estocásticas não eli-
mina a componente determinística.
No caso particular em que ct1 = α1 + δ1 t e ct 2 = α 2 + δ 2 t , conclui-se que δ1 é a
deriva de yt [ δ1 = E (∆yt ) ] e que δ 2 é a deriva de xt [ δ 2 = E (∆ xt ) ]. Neste caso,
ut = yt − λ xt = (α1 + δ1 t + zt1 ) − λ (α 2 + δ 2 t + zt 2 )
,
= {(α1 − λα 2 ) + (δ1 − λδ 2 ) t } + ( zt1 − λ zt 2 )
verifica-se que a cointegração das tendências estocásticas não elimina a tendência li-
near.
Por exemplo, admita-se que { yt } e {xt } são passeios aleatórios com deriva,
yt = α1 + yt −1 + ε t1 e xt = α 2 + xt −1 + ε t 2 ,
ou
yt = y0 + α1 t + ∑ s =1 ε s1 e xt = x0 + α 2 t + ∑ s =1 ε s 2 .
t t
Então,
ut = yt − λ xt = y0 + α1 t + ∑ s =1 ε s1 − λ x0 + α 2 t + ∑ s =1 ε s 2
t t
= ∑ s =1 ε s1 − λ ∑ s =1 ε s 2 + {( y0 − λ x0 ) + (α1 − λ α 2 ) t }.
t t
A cointegração tenta revelar a existência de um equilíbrio de longo prazo para o
qual converge o sistema económico em estudo. Se, por exemplo, a teoria económica su-
gere a relação de equilíbrio entre yt e xt , yt = λ xt , então ut pode ser interpretado como
o erro de equilíbrio (o desvio relativamente ao equilíbrio). O ideal seria ter-se ut = 0 .
Uma relação (equação) de cointegração traduz estatisticamente uma relação de
equilíbrio de longo prazo. Com efeito, se ut ~ I (0) , o erro de equilíbrio tem as seguin-
tes características:
a) Não apresenta qualquer comportamento sistemático, ao longo do tempo, para se
desviar da sua componente determinística;
b) Mantém-se sempre dentro de certos limites (porque a sua variância é constante);
c) É assintoticamente não correlacionado (porque é estacionário e ergódico);
d) Tem tendência para regressar, com regularidade, à sua média, isto é, tem um com-
portamento mean reversing.
ou
w•t = ε •t + Ψ1ε •,t −1 ,
onde
w ε − 1 λ
w•t = 1t , ε •t = 1t e Ψ1 = .
w2t ε 2t 0 0
Seja {w•t } um processo I (0) linear, com valor esperado nulo. O processo { y•t }
é um processo m-dimensional I (1) linear associado com {w•t } se e só se
(10.46) ∆y•t = c•t + w•t ,
Exemplo 10.6 – Um processo I (1) associado ao processo I (0) , com valor esperado nu-
lo, considerado no exemplo 10.5, é o seguinte:
∆y1t = α1 + ε1t − ε1,t −1 + λ ε 2,t −1
∆y2t = α 2 + ε 2t .
Fazendo
∆y•t = α + ε •t + Ψ1ε •,t −1 = α + Ψ ( L)ε •t ,
onde
∆y α 1 0 − 1 λ 1 − L λ L
∆y•t = 1t , α = 1 e Ψ ( L) = + L= ,
∆y2t α 2 0 1 0 0 0 1
e
Di = −(Ψi +1 + Ψi + 2 + L) (i = 0,1, 2, K)
Então,
w•t = Ψ ( L)ε •t = {Ψ (1) + (1 − L) D( L)}ε •t
= Ψ (1)ε •t + D( L)ε •t − D( L)ε •,t −1
= Ψ (1)ε •t + η•t − η•,t −1 ,
onde η•t = D ( L)ε •t . Como Ψ (L) é somável de 1.ª ordem, D (L) é absolutamente somá-
vel, e {η•t } é estacionário em covariância. Substituindo a expressão de w•t em (10.48),
obtém-se a respectiva decomposição de Beveridge-Nelson:
(10.50) y•t = C•t + Ψ (1) ω•t + η•t + ( y• 0 − η• 0 ) ,
onde ω•t = ε •1 + ε • 2 + L + ε •t .
Assim, o processo { y•t } decompõe-se em quatro parcelas: a componente deter-
minística, C•t ; a tendência estocástica, Ψ (1) ω•t ; o processo estacionário, η•t ; a condi-
ção inicial, y•0 − η• 0 . Por construção, η• 0 é um vector aleatório, pelo que o valor inicial
também é aleatório.
0 λ ∑ s =1 ε1s λ ∑ s =1 ε 2 s
t t
verificando-se que as suas duas componentes são geradas pela mesma tendência esto-
cástica, Σts =1ε 2 s .
∇
Se a satisfaz a condição
(10.51) aT Ψ (1) = 0 ,
onde 0 é o vector nulo 1 × m , a tendência estocástica é eliminada, obtendo-se
(10.52) aT y•t = aT C•t + aTη•t + aT ( y• 0 − η• 0 ) .
Capítulo 10 – Raízes unitárias e cointegração 60
Em rigor, não está garantido que o processo {aT y•t } é I (0) [é estacionário em
torno da componente determinística], porque a condição inicial, aT ( y•0 − η• 0 ) , pode es-
tar correlacionada com os valores subsequentes de aTη•t . O processo {aT y•t } será I (0)
se, por exemplo, o valor inicial, y•0 , for tal que aT ( y•0 − η•0 ) = 0 .
Para mostrar que o processo {aT y•t } pode não ser I (0) , considere-se, por exem-
plo, a seguinte situação simples: η•t = ε •t − ε •,t −1 , c•t = 0 (para qualquer t) e y•0 = 0 .
Em primeiro lugar, vai verificar-se que
2Σ ε (t = 0)
Cov(η•t ,η• 0 ) = − Σε (t = 1)
O (t > 1).
Com efeito, notando que
Cov(η•t ,η• 0 ) = E (η•tη•T0 ) = E{(ε •t − ε •,t −1 )(ε •0 − ε •, −1 )T } ,
tem-se:
− Para t = 0 : E{(ε • 0 − ε •, −1 )(ε • 0 − ε •, −1 )T } = E (ε • 0ε •T0 ) + E (ε •, −1ε •T, −1 ) = 2Σε ;
− Para t = 1 : E{(ε •1 − ε • 0 )(ε • 0 − ε •, −1 )T } = − E (ε •0ε •T0 ) = −Σε ;
− Para t > 1 : E{(ε •t − ε •,t −1 )(ε • 0 − ε •, −1 )T } = O .
vem:
− Para t = 0 :
ε • 0 − ε •, −1 − ε • 0 + ε •, −1 = 0 ⇒ Var (aT y•t ) = 0 ;
− Para t = 1 :
E{(ε •1 − 2ε •0 + ε •, −1 )(ε •1 − 2ε • 0 + ε •, −1 )T } = 6Σε ⇒ Var (aT y•t ) = 6aT Σε a ;
− Para t > 1 :
E{(ε •t − ε •,t −1 − ε • 0 + ε •, −1 )(ε •t − ε •,t −1 − ε •0 + ε •, −1 )T } = 4Σε ⇒ Var (aT y•t ) = 4aT Σε a .
Neste caso,
(10.55) aT y•t = aTη•t + aT ( y• 0 − η• 0 ) .
Deste modo, pode supor-se, em geral, que se verifica (10.53) e (10.56) quando a ca-
racterística de cointegração é igual a h.
Por exemplo, quando c•t = α , tem-se C•t = α t , e a condição (10.54) reduz-se a
aT α = 0 . Neste caso, α é combinação linear das colunas de Ψ (1) , pelo que a ca-
racterística da matriz m × (m + 1) , [ α Ψ (1) ], é igual a m − h .
Quando um vector de cointegração elimina a tendência estocástica, mas não elimina
a componente determinística, diz-se que se tem cointegração estocástica.
α 0 λ
[α Ψ (1) ] = 1 .
α 2 0 1
A hipótese de que o vector de cointegração também elimina a tendência determi-
nística é dada por a1α1 − a1 λ α 2 = 0 ou α1 = λ α 2 , o implica que a característica da ma-
triz [ α Ψ (1) ] é igual a 1.
∇
onde ω•t = ε •1 + ε •2 + L + ε •t .
Considere-se o seguinte resultado algébrico:
− Se C é uma matriz quadrada de ordem m, com característica m − h , então existe uma
matriz G, quadrada de ordem m e não singular, e uma matriz F, de tipo m × (m − h)
com r ( F ) = m − h , tais que C G = [ F O ], onde O é a matriz nula m × h .
Vai provar-se que a tendência estocástica, Ψ (1) ω•t , pode escrever-se na forma
F v•t , onde F é uma matriz m × (m − h) tal que r ( F ) = m − h , e v•t é um passeio aleató-
rio ( m − h )-dimensional com Cov(∆v•t ) definida positiva.
Com efeito, seja Ψ (1) ω•t = Ψ (1) GG −1ω•t e v•t o subvector de G −1ω•t correspon-
dente aos seus primeiros m − h elementos. Então,
v
Ψ (1) ω•t = Ψ (1) G •∗t ,
v•t
onde v•∗t abrange os últimos h elementos de G −1ω•t . Invocando o resultado algébrico re-
ferido, e fazendo C = Ψ (1) , tem-se
v
Ψ (1) ω•t = [ F O ] •∗t = F v•t .
v•t
Portanto, tem-se
(10.57) y•t = C•t + F v•t + η•t + ( y•0 − η•0 ) ,
Capítulo 10 – Raízes unitárias e cointegração 65
o que mostra que { y•t } , processo I (1) , onde a característica da cointegração é igual a h,
tem m − h tendências estocásticas comuns. Trata-se da representação com tendências
comuns de um processo I (1) [Stock e Watson (1988)].
onde λ é um vector (m − 1) × 1 .
A partir de (10.52), tem-se
y1t − λT y•( t2 ) = [1 − λT ] C•t + [1 − λT ]η•t + [1 − λT ]( y• 0 − η• 0 ) ,
ou
(10.58) y1t = β 0 + β T z•t + λT y•(t2) + ut ,
onde:
− β 0 = [1 − λT ]( y•0 − η•0 ) = ( y10 − η10 ) − λT ( y•( 02 ) − η•(02) ) [termo independente];
− Nestas expressões distingue-se o primeiro elemento dos vectores y•0 , η• 0 e η•t , dos
respectivos m − 1 elementos;
− z•t é o vector dos regressores correspondentes à componente determinística;
− β é o vector dos respectivos coeficientes de regressão;
− Os m − 1 coeficientes de regressão das variáveis incluídas no vector y•( t2 ) constituem
o vector λ .
Se c•t = α + δ t , vem
δ δ
C•t = α + t + t 2 ,
2 2
e, portanto,
δ δ
β T z•t = [1 − λT ] α + t + t 2
2 2
δ δ δ δ
= α1 + 1 − λT α • 2 + • 2 t + 1 − λT • 2 t 2 = β1 t + β 2 t 2 ,
2 2 2 2
onde
δ1 δ δ δ
β1 = α1 + − λT α • 2 + • 2 , β 2 = 1 − λT • 2 , z1t = t e z2t = t 2 .
2 2 2 2
ou
(10.61) y•(1t ) = β • 0 + ΒT z•t + ΛT y•(t2) + u•t ,
onde:
− β •0 = AT ( y• 0 − η• 0 ) [vector dos termos independentes];
− ΒT z•t = AT C•t [vector das componentes determinísticas];
− u•t = ATη•t [vector das variáveis residuais; u•t é estacionário, porque η•t é estacioná-
rio].
fazendo AT D( L) = [ I h − ΛT ] D( L) = Ψ1∗ ( L) .
Facilmente se prova que y•( t2 ) não é cointegrado. Com efeito, basta verificar que
a matriz Ψ2 (1) , de tipo (m − h) × m , tem característica igual a m − h (as linhas são li-
nearmente independentes). Suponha-se que as linhas são linearmente dependentes, isto
é, existe um vector b ≠ 0 , com m − h componentes, tal que bT Ψ2 (1) = 0 . A característi-
ca da cointegração seria pelo menos h + 1 , uma vez que o vector m-dimensional
0
a=
b
Exemplo 10.9 – No processo bivariado considerado nos exemplos 10.6, 10.7 e 10.8 a
característica da cointegração é igual a 1. O vector de cointegração, cuja primeira com-
ponente é igual a 1, é dado por [ 1 − λ ] T .
Tem-se
ε1t − λ ε 2t
ut = [ 1 − λ ]η•t = [ 1 − λ ] = ε1t − λ ε 2t ,
0
y10 − (ε10 − λ ε 20 )
β 0 = [ 1 − λ ]( y•0 − η•0 ) = [ 1 − λ ] = ( y10 − λ y20 ) − (ε10 − λ ε 20 ) ,
y20 − 0
e
α
β T z•t = [ 1 − λ ] 1 t = (α1 − λα 2 ) t = β1 t ,
α 2
onde β1 = α1 − λα 2 .
A representação triangular é a seguinte:
y1t = β 0 + β1 t + λ y2t + (ε1t − λ ε 2t )
∆y2t = α 2 + ε 2t .
Como
ut ε1t − λ ε 2t 1 − λ ε1t
w = ε = 0 1 ε ,
2t 2t 2t
Capítulo 10 – Raízes unitárias e cointegração 69
Daqui resulta
∆y1t = α1 + ε1t − ε1,t −1 + λ ε 2,t −1
∆y 2 t = α 2 + ε 2 t ,
obtendo-se a representação VMA do processo.
∇
VAR e cointegração
onde
d •t = ( y•0 − η• 0 ) + C•t e v•t = Ψ (1) ω•t + η•t ,
Pode demonstrar-se que: uma condição necessária e suficiente para que {v•t } , a
verificar Φ( L)v•t = ε •t , seja um processo I (1) cointegrado com característica h é que
Φ( L) possa ser factorizado da seguinte maneira: Φ( L) = U ( L) M ( L)V ( L) .
Deste modo, todas as raízes de | Φ( z ) | = 0 encontram-se na fronteira ou no exte-
rior do círculo unitário, e aquelas que estão na fronteira são raízes unitárias ( z = 1 ). Não
é suficiente que Φ( L) tenha m − h raízes unitárias (e as restantes no exterior do círculo
unitário) [ver exemplo 10.10; neste exemplo, Φ( z ) tem duas raízes unitárias e uma raiz
no exterior do círculo unitário, mas o processo não é I (1) ]; as m − h raízes unitárias
têm que obedecer à forma como é feita a factorização, ou seja, Φ( z ) = U ( z ) M ( z )V ( z ) .
Fazendo z = 1 nesta factorização, obtém-se Φ(1) = U (1) M (1)V (1) . Como as raí-
zes de U ( z ) e de V ( z ) se encontram no exterior do círculo unitário, U (1) e V (1) são
não singulares, e a característica de Φ(1) é igual à característica de M (1) (ou seja, h).
Assim,
r{Φ(1)} = h .
Capítulo 10 – Raízes unitárias e cointegração 71
Nestas condições, sabe-se da álgebra das matrizes que existem duas matrizes de
tipo m × h , A e G, a verificar r ( A) = r (G ) = h , e tais que
Φ(1) = GAT .
A escolha das matrizes A e G não é única; se F é uma matriz quadrada de ordem
h, não singular, então G ( F T )−1 e AF também verificam a igualdade anterior.
Substituindo Φ(1) por GAT em Φ(1)Ψ (1) = O , obtém-se GAT Ψ (1) = O . Como
r (G ) = h , vem AT Ψ (1) = O . Então, as h colunas de A são vectores de cointegração.
Como se viu, Ψ ( L) = Φ ( L) −1 (1 − L) . Contudo, é possível obter Ψ ( L) exploran-
do a factorização anterior de Φ( L) . De facto, como U ( L) M ( L)V ( L)v•t = ε •t , e notando
que U ( L)−1 é absolutamente somável, vem M ( L)V ( L)v•t = U ( L) −1ε •t . Fazendo
I m−h O
M ( L) = ,
O (1 − L ) I h
Assim,
∆2 y1t = ε1t
2 −1 2
∆ y2t = (1 − ϕ L) ∆ ε 2t
∆2 y = ∆2ε ,
3t 3t
Capítulo 10 – Raízes unitárias e cointegração 72
ou
∆2 y1t = ε1t
2 2
∆ y2t = ε 2t + (ϕ − 2)ε 2,t −1 + (ϕ − 2ϕ + 1)ε 2,t − 2 + L
2
∆ y3t = ε 3t − 2ε 3,t −1 + ε 3,t − 2 .
Então,
∆2 y1t
∆2 y•t = ∆2 y2t = ε •t + Ψ1ε •,t −1 + Ψ2ε •,t − 2 + L ,
2
∆ y3t
onde
ε1t 0 0 0 0 0 0
ε •t = ε 2t , Ψ1 = 0 ϕ − 2 0 , Ψ2 = 0 ϕ 2 − 2ϕ + 1 0 ,...
ε 0 0 − 2 0 0 1
3t
Como
y1t − 2 y1,t −1 + y1,t − 2 = ε1t
y2t − ϕ y2,t −1 = ε 2t
y = ε ,
3t 3t
tem-se
1 0 0 2 0 0 − 1 0 0
Φ( L) = 0 1 0 − 0 ϕ 0 L − 0 0 0 L2 .
0 0 1 0 0 0 0 0 0
Considerando
1 − 2 z + z 2 0 0
Φ( z ) = 0 1 − ϕ z 0 ,
0 0 1
onde Θ = Φ1 + Φ 2 + L + Φ p .
Como Θ − I m = −Φ (1) , e subtraindo v•,t −1 a ambos os membros de (10.66), vem
∆v•t = −Φ (1)v•,t −1 + Η1∆v•,t −1 + Η 2∆v•,t − 2 + L + Η p −1∆v•,t − p +1 + ε •t
(10.67)
= −GAT v•,t −1 + Η1∆v•,t −1 + Η 2 ∆v•,t − 2 + L + Η p −1∆v•,t − p +1 + ε •t .
ou
∆y•t = d•∗t − GAT y•,t −1 + Η1∆y•,t −1 + Η 2 ∆y•,t − 2 + L + Η p −1∆y•,t − p +1 + ε •t ,
onde
d •∗t = GAT d•,t −1 + ∆d •t − Η1∆d •,t −1 − Η 2∆d •,t − 2 − L − Η p −1∆d •,t − p +1
= Φ (1)d•,t −1 + Η ( L)∆d •t = Φ ( L)d•t .
Como
y•(1,t)−1
AT y•,t −1 = [ I h − ΛT ] ( 2) = y•(1,t)−1 − ΛT y•( ,2t)−1 ,
y•,t −1
obtém-se
∆y•t = d •∗t − G{ y•(1,t)−1 − ΛT y•(,2t)−1}
(10.68)
+ Η1∆y•,t −1 + Η 2 ∆y•,t − 2 + L + Η p −1∆y•,t − p +1 + ε •t ,
que garante a cointegração do processo (o processo VAR nas primeiras diferenças não é
cointegrado). O modelo VMCE envolve h relações de cointegração, pois inclui h combi-
nações lineares das variáveis em níveis.
Quando c•t = α , (10.68) reduz-se a
∆y•t = θ• 0 + θ•1 t − G{ y•(1,t)−1 − ΛT y•(,2t)−1}
(10.69)
+ Η1∆y•,t −1 + Η 2 ∆y•,t − 2 + L + Η p −1∆y•,t − p +1 + ε •t ,
Capítulo 10 – Raízes unitárias e cointegração 74
onde
AT d•,t −1 = AT ( y• 0 − η• 0 ) + AT C•,t −1 = β • 0 + ΒT z•,t −1 .
Então,
∆y•t = Η ( L)c•t − G{ y•(1,t)−1 − ( β • 0 + ΒT z•,t −1 + ΛT y•(,2t)−1 )}
(10.70)
+ Η1∆y•,t −1 + Η 2 ∆y•,t − 2 + L + Η p −1∆y•,t − p +1 + ε •t .
onde
α •1
ΒT z•,t −1 = AT C•,t −1 = [ I h − ΛT ] (t − 1) = (α •1 − ΛTα • 2 )(t − 1) = β •1 (t − 1) ,
α • 2
com β•1 = α •1 − ΛT α • 2 .
As considerações feitas nesta subsecção e na subsecção precedente permitem
concluir que o mesmo processo I (0) pode ter representações VAR, VMA e VMCE. Es-
te resultado é conhecido pela designação de teorema da representação de Granger.
ou
y1t θ10 θ11 0 λ y1,t −1 ε1t
y = θ + θ t + 0 1 y + ε ,
2t 20 21 2,t −1 2t
onde
θ
θ•0 = 10 = Φ(1)( y• 0 − η• 0 ) + Φ1α
θ 20
1 − λ y10 − η10 0 λ α1 ( y10 − η10 ) − ( y20 − η20 )λ + α 2λ
= + = ,
0 0 y20 − η 20 0 1 α 2 α2
e
θ 1 − λ α α − α λ
θ•1 = 11 = Φ (1)α = 1 = 1 2
.
θ
21 0 0 α
2 0
Para obter a representação VMCE (10.69), seja, por exemplo, Φ(1) = GAT , com
1 1
G = e A= .
0 − λ
ou
∆y1t θ10 θ11 1 ε1t
= +
∆y θ θ 0 t − ( y1, t −1 − λ y 2 , t −1 ) + ε .
2t 20 21 2t
Pode, então, escrever-se
∆y1t = {( y10 − η10 ) − ( y20 − η20 )λ + α 2λ} + (α1 − α 2λ ) t − ( y1,t −1 − λ y2,t −1 ) + ε1t
∆y2t = α 2 + ε 2t .
A tendência determinística desaparece se α1 = α 2 λ , isto é, se o vector de cointe-
gração também elimina aquela tendência.
Notando que Η (1) = I m , a representação VMCE (10.71) é dada por
ou
Capítulo 10 – Raízes unitárias e cointegração 76
∆y α 1 ε
1t = 1 − y1,t −1 − {β 0 + β1 (t − 1) + λ y2,t −1} + 1t .
∆y2t α 2 0 ε 2t
Logo,
∆y1t = α1 − y1,t −1 − {β 0 + β1 (t − 1) + λ y2,t −1} + ε1t
∆y2t = α 2 + ε 2t .
Quando se escolhe
λ 1 λ
G = e A= ,
0 − 1
tem-se, respectivamente,
∆y1t = {( y10 − η10 ) − ( y20 − η 20 )λ + α 2λ} + (α1 − α 2λ ) t − λ{(1 λ ) y1,t −1 − y2,t −1} + ε1t
∆y2t = α 2 + ε 2t .
e
∆y1t = α1 − λ (1 λ ) y1,t −1 − {β 0 + β1 (t − 1) + y2,t −1} + ε1t
∆y2t = α 2 + ε 2t .
∇
onde
ϕ0 δ β + β1 + β 2
η0 = , η1 = e λ= 0 .
1 − ϕ1 − ϕ2 1 − ϕ1 − ϕ2 1 − ϕ1 − ϕ2
em que ϕ (1) = 1 − ϕ1 − ϕ 2 . Então, pode concluir-se que este modelo reparametrizado, on-
de se explicita o termo de correcção do erro, − ϕ (1)( y1,t −1 − y1e,t −1 ) , é equivalente ao mo-
delo ARMAX(2,2,0) inicial.
Inversamente, como um modelo ARMAX(2,2,0), estável em torno de uma ten-
dência linear, é um modelo MCE, então, as variáveis envolvidas no modelo são cointe-
gradas [admitindo que estas variáveis são I (1) ].
Como no modelo MCE o regressando e os regressores são I (0) (em particular, o
erro de equilíbrio, y1,t −1 − y1e,t −1 = ut −1 ), os métodos de inferência usuais são válidos, não
obstante a variável ut não ser observável (ver adiante, como fazer a estimação deste
modelo).
O modelo envolvendo apenas primeiras diferenças das variáveis está mal especi-
ficado, pois, omitindo incorrectamente o termo de correcção do erro, é removida qual-
quer informação sobre a relação de longo prazo.
No caso em que o vector y•t bidimensional, formado pelas variáveis y1t e y2t , é
I (1) , mas não é cointegrado, é importante fazer o seguinte comentário: não é lícito esti-
mar uma relação do tipo y1t = η0 + η1 t + λ y2t + ut , uma vez que se trata de uma regres-
são absurda ou espúria (ver adiante). Contudo, pode considerar-se outro modelo, um
modelo dinâmico com as primeiras diferenças. Este modelo poderia ser, por exemplo,
∆y1t = α 0 + α1 ∆y1,t −1 + γ 0 ∆y2t + γ 1∆y2,t −1 + ut ,
onde E (ut | ∆y1,t −1, ∆y2t , ∆y2,t −1 , K) = 0 . A este modelo podem aplicar-se os resultados es-
tatísticos assintóticos habituais. O inconveniente deste procedimento é que se perde a
possibilidade de obter relações, em níveis, entre as variáveis.
Regressões espúrias
parâmetro da população (do processo). Por exemplo, mesmo que y1t não esteja correla-
cionado com y•(t2 ) [ ∆y1t e ∆y•( 2s ) são independentes, quaisquer que sejam t e s], as estatís-
ticas t e F associadas com o estimador MQ crescem com a dimensão da amostra, dando
a falsa impressão de que existe uma relação estreita entre y1t e y•(t2 ) .
Este fenómeno, conhecido pela designação de regressão espúria (spurious re-
gression) ou regressão absurda (nonsense regression), foi estudado pela primeira vez
por Granger e Newbold (1974), a partir de experiências de simulação de Monte Carlo.
Phillips (1986) deduziu alguns resultados teóricos sobre as distribuições assintóticas das
estatísticas-teste no caso de regressões espúrias.
Para ilustrar uma situação de regressão espúria, considere-se que {xt } e { yt } são
dois passeios aleatórios,
xt = xt −1 + ε 1t
yt = yt −1 + ε 2t ,
onde {ε1t } e {ε 2t } são ruídos brancos independentes. Suponha-se também que os dois
passeios aleatórios, {xt } e { yt } , são independentes. Que acontece se os parâmetros da
equação de regressão, yt = β 0 + β1 xt + ut , forem estimados pelo método MQ?
Em situações deste tipo espera-se que plim(βˆ1 ) = 0 e, ainda mais importante,
quando se testa H 0 : β1 = 0 contra H1 : β1 ≠ 0 , a 5%, espera-se que o rácio-t para β̂1 se-
ja não significativo 95% das vezes. No entanto, Granger e Newbold (1974) mostraram,
por meio de métodos de simulação, que a hipótese nula é rejeitada mais vezes do que se
espera e, regra geral, o coeficiente de determinação é elevado [deve referir-se também a
experiência de Davidson e McKinnon (1993)].
Note-se que, sob H 0 , o modelo yt = β 0 + β1 xt + ut se reduz a yt = β 0 + ut . En-
tão, como { yt } é um passeio aleatório sem deriva, tem-se
yt = y0 + ∑ s =1 ε 2 s ,
t
ut = ∑ s =1 ε 2 s .
t
Deste modo, conclui-se que {ut } é também um passeio aleatório, o que viola
claramente as hipóteses habituais do modelo de regressão.
Em consequência disto, Phillips (1986) provou que a probabilidade de rejeição
da hipótese H 0 : β1 = 0 , utilizando o respectivo rácio-t, tende para 1 quando n tende pa-
ra + ∞ . Assim, no limite, existe sempre uma relação “significativa” entre yt e xt . Além
disso, mostrou que o rácio-t dividido por n converge para uma distribuição não dege-
nerada e que a estatística de Durbin-Watson tende para zero.
A possibilidade de regressões espúrias com variáveis I (1) é muito importante, o
que tem levado muitos economistas a reexaminar várias regressões nas quais os rácios-t
são muito grandes e os coeficientes de determinação estão muito próximo de 1. Assim,
devem ter-se cuidados especiais com os dados económicos temporais, nomeadamente
testar previamente a existência de raízes unitárias.
Capítulo 10 – Raízes unitárias e cointegração 79
O teste de Engle-Granger
Comentários:
a) Não há necessidade de considerar uma constante em (10.72) porque, se (10.58) já in-
clui uma constante, a média amostral dos resíduos é nula.
b) Não há necessidade de incluir a componente determinística considerada em (10.58)
[em particular, a tendência linear], porque as variáveis y jt envolvidas em (10.58)
incluem, implícita ou explicitamente, aquela componente determinística.
c) O valor de p em (10.72) cresce com a dimensão n da amostra, mas a uma taxa mais
lenta do que n1 / 3 . Assim, quando n → +∞ , tem-se p → +∞ , mas p n1 / 3 → 0 (em
probabilidade, porque p pode ser considerado uma variável aleatória).
d) O caso em que a característica da cointegração é superior a 1 não vai ser tratado.
Para dispor dos valores críticos para fazer o teste EG, há considerar os três casos
seguintes:
1) E (∆y•( t2 ) ) = 0 e E (∆y1t ) = 0 : nenhuma componente do processo I (1) tem componente
determinística. Considera-se a equação de regressão (10.59), y1t = β 0 + λT y•(t2 ) + ut , e
os valores críticos encontram-se na tabela 10A.3(a) [Phillips e Ouliaris (1990)].
Designando por g o número de regressores excluindo o termo independente, tem-se
g = m − 1.
2) E (∆y•(t2) ) ≠ 0 , mas E (∆y1t ) pode ser nulo ou não: alguns dos m − 1 regressores I (1)
incluídos em y•( t2 ) têm deriva. Neste caso, continua a ter-se a equação de regressão
(10.59), y1t = β 0 + λT y•(t2 ) + ut .
Começa-se por notar que a tendência linear de vários regressores pode ser consi-
derada apenas num deles. Com efeito, suponha-se que, por exemplo, (10.59) se resu-
me a
y1t = β 0 + λ2 y2t + λ3 y3t + ut ,
e que as variáveis y2t e y3t têm deriva. Como E (∆y2t ) = δ 2 e E (∆y3t ) = δ 3 , tem-se
y2t = δ 2t + vt 2 e y3t = δ 3t + vt 3 , onde v2t e v3t são variáveis I (1) sem deriva. Então,
y1t = β 0 + λ2 (δ 2 t + vt 2 ) + λ3 (δ 3 t + vt 3 ) + ut = β 0 + {(λ2δ 2 + λ3δ 3 ) t + λ2vt 2 } + λ3vt 3 + ut .
Em geral, (10.59) pode ser concebida como tendo m − 2 regressores I (1) sem deriva
e um regressor I (1) com deriva. Como as tendências lineares dominam as tendências
estocásticas, o regressor I (1) com tendência comporta-se, no caso de grandes amos-
tras, como se fosse uma tendência linear determinística. Então, os resíduos MQ da
equação de regressão (10.59) e os resíduos MQ da regressão de y1t sobre 1, t e m − 2
regressores I (1) sem deriva são “assintoticamente os mesmos”: a distribuição limite
de uma estatística baseada naqueles resíduos é igual à distribuição da mesma estatís-
tica baseada nestes resíduos.
Para efectuar o teste EG, determinam-se os resíduos MQ da regressão (10.59). Os va-
lores críticos encontram-se na tabela 10A.3(b), onde o número de regressores, ex-
cluindo o termo independente, é g = m − 1 . Por exemplo, para m − 1 = 3 , o valor crí-
tico a 5% é –4.16.
Capítulo 10 – Raízes unitárias e cointegração 81
3) E (∆y•( t2 ) ) = 0 e E (∆y1t ) ≠ 0 . Como y1t tem deriva, e y•( t2 ) não tem, é necessário inc-
luir o tempo como regressor para remover a tendência linear dos resíduos MQ. Neste
caso, considera-se a equação de regressão (10.58) com β T z•t = β1 t , ou seja,
y1t = β 0 + β1 t + λT y•( t2) + ut .
Exemplo 10.12 – Como se afirmou a propósito da figura 10.6, parece que o logaritmo
do consumo privado e o logaritmo do PIB em Portugal, a preços de 2000, são cointe-
grados. Pode, por exemplo, conjecturar-se que a diferença entre o logaritmo do PIB e o
logaritmo do consumo privado é estacionário, o equivale a dizer que o vector de cointe-
gração seria ( 1, − 1 ). Contudo, o cronograma desta diferença está longe de ter o compor-
tamento sugerido (ver figura 10.7).
Para fazer o teste de cointegração, começa-se por testar se as variáveis lpibt
(logaritmo do PIB) e lconst (logaritmo do consumo privado) são I (1) . Em relação à
primeira variável, faz-se a regressão de lpibt sobre 1, t, lpibt −1 e ∆lpibt , obtendo-se
φˆ = 0.915877 (estimativa do coeficiente de lpibt −1 ), com erro padrão igual a 0.045414.
O respectivo rácio- τ é –1.85238, a que corresponde um valor-p (corrigido para pe-
quenas amostras) igual 0.705. A evidência obtida é favorável a que lpibt seja I (1) . No
que respeita à outra variável, a conclusão é semelhante. Com efeito, fazendo a regressão
de lconst sobre 1, t, lconst −1 e ∆lconst , obtendo-se φˆ = 0.899966 (estimativa do coefi-
Capítulo 10 – Raízes unitárias e cointegração 82
ciente de lconst −1 ), com erro padrão igual a 0.049098. O rácio- τ é –2.03743, com va-
lor-p (corrigido para pequenas amostras) igual 0.609.
0.55
0.50
0.45
0.40
0.35
0.30
0.25
0.20
1960 1965 1970 1975 1980 1985 1990 1995 2000 2005
Obtém-se
∆uˆt = −0.259757 uˆt −1 + 0.261273 ∆uˆt −1 + vˆt ,
∆
•ty = c•t + w•t , w
•t
onde y•(t2 ) não é cointegrado. A primeira equação de (10.73) é a regressão de cointegra-
ção.
Nestas condições, existe um único vector λ , (m − 1) -dimensional, tal que:
~ ~
a) Quando λ = λ , y1t − λ T y•(t2) é igual à soma de um processo estacionário, ut , com
uma variável aleatória invariante com o tempo, β 0 , e com uma componente determi-
nística que varia no tempo, β T z•t ;
~ ~
b) Quando λ ≠ λ , y1t − λ T y•(t2) tem uma tendência estocástica.
Atendendo a que Cov( y20 , ut ) = 0 , ∆y2t = w2t e (ut , w2t ) é iid, vem
Cov( y2t , ut ) = Cov( w21 + w22 + L + w2t , ut ) = Cov( w2t , ut ) .
onde
E ( w2t ut )
γ= .
E ( w22t )
das equações, um dos regressores é I (0) com valor esperado nulo, e o outro é I (1) sem
componente determinística. Na auto-regressão aumentada, a matriz “ X T X ”, adequada-
mente normalizada por n e por n , é assintoticamente diagonal, pelo que a existência
de regressores I (0) pode ser ignorada para determinar a distribuição limite do estima-
dor MQ do coeficiente do regressor I (1) . O mesmo se passa com a regressão de cointe-
gração aumentada, e o mesmo argumento que explora a diagonalidade assintótica de
“ X T X ” (devidamente normalizada) mostra que o rácio-t clássico para testar a hipótese
λ = λ0 é assintoticamente equivalente a
1 n
∑t =1 y2t vt
(10.76) t∗ = n ,
σ v2
∑
n
2 t =1
y22t
n
onde σ v2 = Var (vt ) . Assim, a diferença entre o rácio-t clássico e t ∗ converge em proba-
bilidade para 0, pelo que têm a mesma distribuição limite.
Na auto-regressão aumentada utilizada no teste ADF, a distribuição limite da
estatística ADF- τ é a respectiva distribuição de Dickey-Fuller (a distribuição DFτ ). No
entanto, a distribuição assintótica de t ∗ (e, portanto, do rácio-t clássico) é N (0,1) .
Como vai ver-se, este resultado decorre de o regressor I (1) , y2t , ser estritamente exó-
geno. Suponha-se, de momento, que (ut , w2t ) seguem uma distribuição normal bidimen-
sional ( y2 s e ut , além de não estarem correlacionados, são independentes). Então, a
distribuição de vt condicionada por ( y21, y22 , K , y2 n ) é igual à respectiva distribuição
não condicionada, que é N (0, σ v2 ) . Logo, a distribuição do numerador de t ∗ , condicio-
nada por ( y21, y22 , K , y2 n ) , é
σ2 n
N 0, 2v ∑t =1 y22t .
n
Como o desvio padrão desta distribuição normal é igual ao denominador de t ∗ ,
tem-se
(t ∗ | y21 , y22 , K , y2 n ) ~ N (0,1) ,
e, portanto,
t ∗ ~ N (0,1) .
Quando (ut , w2t ) não é normal bidimensional, pode provar-se [Hamilton (1994),
Watson (1994) e Park e Phillips (1988)] que a distribuição limite de t ∗ ainda é normal
estandardizada,
d
t ∗ → N (0, 1) .
Note-se que o processo I (1) bivariado considerado para obter este resultado é
especial sob vários aspectos: a) não há autocorrelação em (ut , w2t ) ; b) o regressor I (1) ,
y2t , é um escalar; c) y2t não tem componente determinística; d) β 0 = 0 .
Quando não se verifica Ψ ∗ (L) = Ψ0∗ , existe autocorrelação em (ut , w2t ) [a con-
dição a) é relaxada]. O regressor I (1) , y2t , deixa de ser estritamente exógeno [embora
se tenha Cov(vt , ∆y2t ) = 0 , já não se verifica Cov(vt , ∆y2 s ) = 0 , para t ≠ s ]. Para remo-
Capítulo 10 – Raízes unitárias e cointegração 87
ut = γ ( L)∆y2t + vt e γ ( L) = ∑ j = −∞ γ j L j ,
+∞
(10.77)
onde se consideram não só os regressores de (10.75), mas os leads and lags de ∆y2t .
Como Cov(vt , ∆y2 s ) = 0 , quaisquer que sejam t e s, os regressores ∆y2 s são es-
tritamente exógenos, o mesmo acontecendo com y2t . Considerando (10.79), o estima-
dor MQ de λ designa-se por estimador MQ “dinâmico” (MQD), para o distinguir do
estimador MQE. O estimador MQD também se chama estimador leads and lags.
Em (10.79) existem 2 + 2 p regressores: o primeiro é I (1) sem componente de-
terminística; os outros são I (0) com valor esperado nulo. Com a normalização adequa-
da da matriz “ X T X ” (por n e por n ), esta matriz é assintoticamente diagonal por blo-
cos, e o regressor I (1) é assintoticamente não correlacionado com os regressores com
os 2 p + 1 regressores I (0) ; estes regressores podem ser ignorados na determinação da
distribuição limite do estimador MQD de λ ; continua a considerar-se a estatística t ∗ ,
(10.76), para testar a hipótese λ = λ0 ( t ∗ é assintoticamente equivalente ao rácio-t
clássico).
Neste caso, contudo, a distribuição assintótica de (10.76) não se obtém da mes-
ma maneira que no caso de não autocorrelação de (ut , w2t ) , porque vt pode ser autocor-
relacionado; a projecção linear MQ atrás referida, embora eliminando a correlação entre
∆y2 s e vt , quaisquer que sejam t e s, não remove a autocorrelação de vt . Este dificulda-
de (e a possível existência de heterocedasticidade condicionada) pode ser ultrapassada
calculando o respectivo erro padrão robusto de Newey-West.
Para obter a distribuição assintótica, seja V a matriz das autocovariâncias de n
sucessivos valores vt , ωv2 a variância de longo prazo de vt e
y21
y
Y2 = 22 .
M
y2 n
Suponha-se, de momento, que (ut , w2t ) tem distribuição normal bidimensional.
Como y2t é estritamente exógeno, a distribuição do numerador de t ∗ , condicionada por
Capítulo 10 – Raízes unitárias e cointegração 88
∑ ∆y•(,2t)+ j + ∑ j = p +1 γ •T j ∆y•(,2t)− j .
+∞ +∞
γT
j = p +1 • , − j
Todos os resultados se mantêm, desde que p em (10.84) cresça com n a uma taxa
mais lenta do que n1 / 3 [ver Saikkonen (1991)].
Finalmente, vão apresentar-se alguns métodos de estimação do modelo com
MCE. Para facilitar a exposição, vai retomar-se o exemplo utilizado para ilustrar a im-
portância do teorema da representação de Granger (ver final da secção 10.6), ou seja,
∆y1t = δ − ϕ (1)( y1,t −1 − y1e,t −1 ) − ϕ2∆y1,t −1 + β 0 ∆y2t − β 2∆y2,t −1 + ε t .
PALAVRAS-CHAVE
Auto-regressão aumentada Regressão de cointegração aumentada
Característica de cointegração Regressão espúria
Cointegração Relação de equilíbrio de longo prazo
Componente determinística Representação triangular de Phillips
Componente estocástica Representação VAR
Comportamento altamente persistente Tendência determinística
Decomposição de Beveridge-Nelson Tendência estocástica
Deriva Tendência linear
Erro de equilíbrio Tendência quadrática
Espaço de cointegração Teorema da representação de Granger
Estimador leads and lags Teorema do limite central funcional
Estimador MQ “dinâmico” Teste ADF
Estimador MQ “estático” Teste ADF- φ
Estimador superconsistente Teste ADF- φc
Inferência sobre vectores de cointegração Teste ADF- φct
Mecanismo de correcção do erro Teste ADF- τ
Método em dois passos de Engle-Granger Teste ADF- τ c
Movimento Browniano Teste ADF- τ ct
Parâmetro de cointegração Teste de Breusch-Godfrey
Parâmetro perturbador Teste de cointegração
Passeio aleatório Teste de Engle-Granger
Processo ARMA integrado Teste de raízes unitárias
Processo auto-regressivo Teste DF- ϕ
Processo de inovação Teste DF- ϕc
Processo de Wiener Teste DF- ϕct
Processo diferença-estacionário Teste DF- τ
Processo estacionário em tendência Teste DF- τ c
Processo integrado Teste DF- τ ct
Processo integrado linear Teste de Phillips
Processos cointegrados Teste de Phillips-Perron
Raiz unitária Vector de cointegração
Capítulo 10 – Raízes unitárias e cointegração 92
PERGUNTAS DE REVISÃO
onde
ωt = ∑s =1 ε s .
t
wt = ψ (1)ε t + η t − η t −1 ,
em que η t = δ ( L)ε t .
15. Suponha que yt ~ I (1) e xt ~ I (1) , e considere o modelo yt = α + β xt + ut . Quais
das seguintes afirmações são verdadeiras: a) este modelo corresponde a uma re-
gressão espúria, excepto se ut ~ I (0) ; b) este modelo traduz uma relação de equi-
líbrio de longo prazo se ut ~ I (0) .
16. Quais das seguintes afirmações são verdadeiras: a) um ruído branco e um passeio
aleatório são I (0) ; b) um passeio aleatório necessita de ter tendência determi-
nística para ser I (1) ; c) um processo MA(q) é I (1) para valores de q a partir de
certa ordem.
17. Quais das seguintes afirmações são verdadeiras: a) um passeio aleatório, qualquer
que seja a sua componente determinística, é sempre I (1) ; b) qualquer processo
AR(1) é I (0) ou I (1) ; c) um processo MA(2) nunca pode ser I (1) .
18. Considere o processo yt = xt + ut , onde {xt } é ARMA( p, q ) estacionário. Indi-
que uma situação em que { yt } é I (1) .
19. Considere o processo yt = α + δ t + ϕ1 yt −1 + ϕ2 yt − 2 + ϕ3 yt − 3 + ϕ4 yt − 4 + ε t . Escreva a
respectiva equação de auto-regressão aumentada, e indique a estatística-teste para
fazer o respectivo teste ADF- φ .
20. Suponha que o processo m-dimensional { y•t } é I (1) linear. Indique a representa-
ção VMA do processo {∆y•t } .
21. Considere que cada uma das variáveis xt , yt e zt é I (1) . Apresente a definição
de cointegração destas três variáveis.
22. Considere as seguintes variáveis: yt , xt e zt . Apresente a respectiva definição de
cointegração, supondo que normalizava o coeficiente de yt e que a componente
determinística é formada por uma constante e uma tendência linear.
23. Suponha que yt ~ I (1) e que xt ~ I (1) . Seja a combinação linear a yt + b xt . Que
pode concluir?
24. Suponha que as variáveis yt e xt são I (1) e cointegradas. Prove que as variáveis
yt e xt −1 também são cointegradas.
25. Suponha que as variáveis yt , xt e zt são I (1) e cointegradas. Admita que o mo-
delo de curto prazo que relaciona as três variáveis é o seguinte:
yt = ϕ 0 + ϕ1 yt −1 + δ t + β 0 xt + β1 xt −1 + γ 0 z t + γ 1 z t −1 + ε t ,
39. Suponha que y•t ~ I (1) linear e cointegrado, em que o vector y•t tem quatro com-
ponentes e c•t = α + δ t . Admita que a característica da cointegração é igual a
dois. Apresente a respectiva representação triangular de Phillips.
40. Enuncie o teorema da representação de Granger.
Anexos
[2A]
Álgebra e geometria
dos mínimos quadrados
Nas secções 2.3 (estimação dos coeficientes de regressão pelo método dos mínimos qua-
drados), 2.4 (propriedades dos resíduos dos mínimos quadrados), 2.5 (propriedades do
estimador dos mínimos quadrados dos coeficientes de regressão), 2.6 (estimador não
enviesado da variância das variáveis residuais), 2.7 (coeficiente de determinação) e 2.8
(estimação com restrições lineares sobre os coeficientes de regressão) estudaram-se os
aspectos essenciais da álgebra dos mínimos quadrados.
Na presente secção vão abordar-se alguns tópicos adicionais desta álgebra.
𝑈̃ 𝑇 𝑈̃ = (𝑌 − 𝑋 𝛽)̃ 𝑇 (𝑌 − 𝑋 𝛽)̃
= 𝑌 𝑇 𝑌 − 𝛽̃𝑇 𝑋 𝑇 𝑌 − 𝑌 𝑇 𝑋 𝛽̃ + 𝛽̃𝑇 𝑋 𝑇 𝑋 𝛽̃
= 𝑌 𝑇 𝑌 − 2𝛽̃𝑇 𝑋 𝑇 𝑌 + 𝛽̃𝑇 𝑋 𝑇 𝑋 𝛽̃ ,
877
878 Anexo 2A Álgebra e geometria dos mínimos quadrados
Com efeito,
̃ 𝑇 {(𝑌 − 𝑋𝑏) + 𝑋(𝑏 − 𝛽)}
{(𝑌 − 𝑋𝑏)+𝑋(𝑏 − 𝛽)} ̃
= (𝑌 − 𝑋𝑏)𝑇 (𝑌 − 𝑋𝑏) + 2(𝑏 − 𝛽)̃ 𝑇 𝑋 𝑇 (𝑌 − 𝑋𝑏) + (𝑏 − 𝛽)̃ 𝑇 𝑋 𝑇 𝑋(𝑏 − 𝛽)̃
= (𝑌 − 𝑋𝑏)𝑇 (𝑌 − 𝑋𝑏) + (𝑏 − 𝛽)̃ 𝑇 𝑋 𝑇 𝑋(𝑏 − 𝛽)̃
≥ (𝑌 − 𝑋𝑏)𝑇 (𝑌 − 𝑋𝑏) ,
uma vez que 𝑋 𝑇 (𝑌 − 𝑋𝑏) = 𝟎 (equações normais), e que (𝑏 − 𝛽)̃ 𝑇 𝑋 𝑇 𝑋(𝑏 − 𝛽)̃ é definida
positiva.
𝑘 + 𝑘 = 𝑘;
Álgebra dos mínimos quadrados 879
Assim, tem-se
⎡ 𝛽• ⎤
𝑋 = 𝑋 𝑋 e 𝛽=⎢ ⎥,
⎣ 𝛽• ⎦
Como 𝑏 = (𝑋 𝑇 𝑋)− 𝑋 𝑇 𝑌 , para estimar 𝛽• e 𝛽• pelo método MQ faz-se
Para inverter a matriz 𝑋 𝑇 𝑋 por blocos, convém recordar a respectiva técnica de cálculo.
onde:
𝑀 ) ;
𝑀 = (𝑀 − 𝑀 𝑀− −
𝑀 ) ;
𝑀 = (𝑀 − 𝑀 𝑀− −
(5) 𝑌̃ = 𝑋̃ 𝑏∗• + 𝑈̂ ;
(6) 𝑌̃ = 𝑋̃ 𝑏∗• + 𝑈̂ .
A regressão (2) tem o mesmo objectivo, mas eliminando o efeito de 𝑋 (os resíduos
respectivos são 𝑌̃ ). Vem
𝑏′• = (𝑋𝑇 𝑋 )− 𝑋𝑇 𝑌.
b) 𝑈̂ = 𝑈̂ e 𝑈̂ = 𝑈̂ .
Com efeito, sabe-se que 𝑈̂ = 𝑌̃ − 𝑋̃ 𝑏∗• . Como 𝑏• = (𝑋𝑇 𝑋 )− (𝑋𝑇 𝑌 − 𝑋𝑇 𝑋 𝑏• )
[devido às equações normais], vem
onde 𝛿 = 𝑅𝛽.
Como 𝑈̂ 𝑟 = 𝑌 − 𝑋 𝑏𝑟 = (𝑌 − 𝑋 𝑏) + 𝑋(𝑏 − 𝑏𝑟 ) = 𝑈̂ + 𝑋(𝑏 − 𝑏𝑟 ) [ver (2.63)], resulta que
𝑈̂ 𝑇𝑟 𝑈̂ 𝑟 − 𝑈̂ 𝑇 𝑈̂ = (𝑏 − 𝑏𝑟 )𝑇 𝑋 𝑇 𝑋(𝑏 − 𝑏𝑟 ),
onde 𝜆 = {𝑅(𝑋 𝑇 𝑋)− 𝑅𝑇 }− (𝛿 − 𝑅𝑏) é o vector dos multiplicadores de Lagrange relativo
a (2.60).
Como 𝑋 𝑇 𝑌 − 𝑋 𝑇 𝑋 𝑏𝑟 + 𝑅𝑇 𝜆 = 𝟎 [condições de 1.ª ordem de (2.60)], vem
𝑋 𝑇 (𝑌 − 𝑋 𝑏𝑟 ) = −𝑅𝑇 𝜆 ou 𝑋 𝑇 𝑈̂ 𝑟 = −𝑅𝑇 𝜆.
Então,
𝑈̂ 𝑇𝑟 𝑈̂ 𝑟 − 𝑈̂ 𝑇 𝑈̂ = 𝑈̂ 𝑇𝑟 𝑋(𝑋 𝑇 𝑋)− 𝑋 𝑇 𝑈̂ 𝑟 = 𝑈̂ 𝑇𝑟 𝐻𝑋 𝑈̂ 𝑟 .
Xb
𝑌 = 𝑌̂ + 𝑈,
̂ 𝑈̂ 𝑇 𝑌̂ = 0.
Diz-se, então, que cada um daqueles dois subespaços é o complemento ortogonal do
outro.
Notando que 𝐻𝑋 𝑈̂ = 𝟎, facilmente se conclui que 𝐶⊥
𝑋 é o núcleo da projecção dada
por 𝐻𝑋 . Assim, também se pode interpretar aquela soma directa da seguinte maneira:
A projecção dada por 𝐻𝑋 divide o espaço ℜ𝑛 em dois subespaços ortogonais:
— O contradomínio da projecção, 𝐶𝑋 = { 𝑌̂ ∶ 𝑌̂ = 𝐻𝑋 𝑌, 𝑌 ∈ ℜ𝑛 };
̂ ̂ ̂
𝑋 = { 𝑈 ∶ 𝐻𝑋 𝑈 = 𝟎, 𝑈 ∈ ℜ }.
— O núcleo da projecção, 𝐶⊥ 𝑛
— O contradomínio da projecção, 𝐶⊥ ̂ ̂
𝑋 = { 𝑈 ∶ 𝑈 = 𝑃𝑋 𝑌, 𝑌 ∈ ℜ };
𝑛
— O núcleo da projecção, 𝐶𝑋 = { 𝑌̂ ∶ 𝑃𝑋 𝑌̂ = 𝟎, 𝑌̂ ∈ ℜ𝑛 }.
[2B]
Variáveis centradas
𝑋 = 𝑒 𝑋 ,
𝑦 = 𝛽 + 𝛽 𝑥 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝑢, (2B.2)
onde 𝑛 𝑛 𝑛
𝑦𝑡 𝑥𝑡 𝑥𝑡𝑘
𝑡= 𝑡= 𝑡=
𝑦= , 𝑥 = ,, … , 𝑥𝑘 =
𝑛 𝑛 𝑛
são, respectivamente, a média das observações do regressando, as médias das observa-
ções dos regressores, e a média das variáveis residuais.
Subtraindo ordenadamente cada uma das 𝑛 igualdades (2B.1), de (2B.2), obtém-se
Fazendo
887
888 Anexo 2B Variáveis centradas
tem-se
𝑦𝑐𝑡 = 𝛽 𝑥𝑐𝑡 + ⋯ + 𝛽𝑘 𝑥𝑐𝑡𝑘 + 𝑢𝑐𝑡 (𝑡 = 1, 2, … , 𝑛),
ou, com a notação matricial,
𝑌𝑐 = 𝑋𝑐 𝛽𝑐 + 𝑈𝑐 , (2B.3)
onde:
𝑃 𝑒 𝑌 = 𝑌𝑐 , 𝑃 𝑒 𝑋 = 𝑃𝑒 [ 𝑒 𝑋 ] = [ 𝟎 𝑋 𝑐 ] , 𝑃 𝑒 𝑈 = 𝑈 𝑐 ,
𝑃𝑒 𝑌 = 𝑃𝑒 𝑋𝛽 + 𝑃𝑒 𝑈 ⇔ 𝑌𝑐 = 𝑋𝑐 𝛽𝑐 + 𝑈𝑐 .
⎡ 𝑏𝑐 ⎤
⎢ ⎥
𝑏𝑐 = ⎢ ⋮ ⎥ = (𝑋𝑐𝑇 𝑋𝑐 )− 𝑋𝑐𝑇 𝑌𝑐 = (𝑋𝑇 𝑃𝑒 𝑋 )− 𝑋𝑇 𝑃𝑒 𝑌 (2B.5)
⎢ 𝑏𝑐 ⎥
⎣ 𝑘 ⎦
como estimador de 𝛽𝑐 . O estimador a propor para 𝛽 é
𝑇
⎡ 𝑒𝑇 ⎤ ⎡ 𝑛 𝑒𝑇 𝑋 ⎤
𝑋 𝑋=⎢ 𝑒 𝑋 = ⎢ ⎥.
𝑇 ⎥ 𝑇 𝑇
⎣ 𝑋 ⎦ ⎣ 𝑋 𝑒 𝑋 𝑋 ⎦
Fazendo
⎡ 𝑥 ⎤
1
𝑋 = ⎢ ⋮ ⎥ = 𝑋𝑇 𝑒,
⎢ 𝑥 ⎥ 𝑛
⎣ 𝑘 ⎦
obtém-se
⎡ 𝑇⎤
𝑛 𝑛𝑋
𝑋 𝑋=⎢ 𝑇 ⎥.
⎢ 𝑛𝑋 𝑋 𝑋 ⎥
𝑇
⎣ ⎦
Invertendo esta matriz por blocos, obtém-se
⎡ (1/𝑛) + 𝑋 𝑇 (𝑋 𝑇 𝑋 − 𝑛𝑋 𝑋 𝑇 )− 𝑋 𝑇 𝑇
−𝑋 (𝑋𝑇 𝑋 − 𝑛𝑋 𝑋 )− ⎤
(𝑋 𝑇 𝑋)− =⎢ 𝑇 𝑇
⎥.
⎢ −(𝑋𝑇 𝑋 − 𝑛𝑋 𝑋 )− 𝑋 𝑇
(𝑋 𝑋 − 𝑛𝑋 𝑋 )− ⎥
⎣ ⎦
890 Anexo 2B Variáveis centradas
Notando que
𝑇
𝑋𝑐𝑇 𝑋𝑐 = 𝑋𝑇 𝑃𝑒 𝑋 = 𝑋𝑇 𝑋 − (1/𝑛)𝑋𝑇 𝑒 𝑒𝑇 𝑋 = 𝑋𝑇 𝑋 − 𝑛𝑋 𝑋 ,
obtém-se
⎡ 𝑇 𝑇 ⎤
(1/𝑛) + 𝑋 (𝑋𝑐𝑇 𝑋𝑐 )− 𝑋 −𝑋 (𝑋𝑐𝑇 𝑋𝑐 )−
𝑇
(𝑋 𝑋) −
= ⎢ ⎥,
⎢ −(𝑋𝑐𝑇 𝑋𝑐 )− 𝑋 (𝑋𝑐𝑇 𝑋𝑐 )− ⎥
⎣ ⎦
o que mostra que (𝑋𝑐𝑇 𝑋𝑐 )− pode ser calculado a partir de (𝑋 𝑇 𝑋)− , eliminando a pri-
meira linha e a primeira coluna.
Seja
⎡ 𝑒𝑇 𝑌 ⎤ ⎡ 𝑛𝑦 ⎤
𝑋𝑇 𝑌 = ⎢ ⎥ = ⎢ 𝑇 ⎥.
𝑇
⎣ 𝑋 𝑌 ⎦ ⎣ 𝑋 𝑌 ⎦
Como
𝑋𝑐𝑇 𝑌𝑐 = 𝑋𝑇 𝑃𝑒 𝑌 = 𝑋𝑇 𝑌 − (1/𝑛)𝑋𝑇 𝑒 𝑒𝑇 𝑌 = 𝑋𝑇 𝑌 − 𝑛𝑋 𝑦,
obtém-se
⎡ 𝑛𝑦 ⎤
𝑋 𝑌=⎢
𝑇 ⎥.
⎢ 𝑋𝑐𝑇 𝑌𝑐 + 𝑛𝑋 𝑦 ⎥
⎣ ⎦
Então,
⎡ 𝑇 𝑇 ⎤ ⎡ 𝑛𝑦 ⎤
(1/𝑛) + 𝑋 (𝑋𝑐𝑇 𝑋𝑐 )− 𝑋 −𝑋 (𝑋𝑐𝑇 𝑋𝑐 )−
𝑏 = (𝑋 𝑋) 𝑋 𝑌 = ⎢
𝑇 − 𝑇 ⎥ ⎢ ⎥,
⎢ −(𝑋𝑐𝑇 𝑋𝑐 )− 𝑋 (𝑋𝑐𝑇 𝑋𝑐 )− ⎥ ⎢ 𝑋𝑐𝑇 𝑌𝑐 + 𝑛𝑋 𝑦 ⎥
⎣ ⎦ ⎣ ⎦
ou
⎡ 𝑇 ⎤ ⎡ 𝑇 ⎤
𝑦 − 𝑋 (𝑋𝑐𝑇 𝑋𝑐 )− 𝑋𝑐𝑇 𝑌𝑐 𝑦 − 𝑋 𝑏𝑐 ⎡ 𝑏𝑐 ⎤
𝑏= ⎢ ⎥ = ⎢ ⎥=
⎢ ⎥.
⎢ (𝑋𝑐𝑇 𝑋𝑐 )− 𝑋𝑐𝑇 𝑌𝑐 ⎥ ⎢ 𝑏𝑐 ⎥ ⎣ 𝑏𝑐 ⎦
⎣ ⎦ ⎣ ⎦
Assim, fica provado que se podem obter os estimadores 𝑏 , … , 𝑏𝑘 utilizando variáveis
centradas, com uma fórmula semelhante à que se havia deduzido com variáveis origi-
nais, passando-se depois ao cálculo de 𝑏 , por diferença.
Pode, também, verificar-se que os resíduos MQ são os mesmos, quer se trabalhe
com variáveis originais, quer com variáveis centradas. Com efeito, a partir de
obtém-se
𝑦 = 𝑏 + 𝑏 𝑥 + ⋯ + 𝑏𝑘 𝑥𝑘 , (2B.7)
Variáveis centradas 891
𝑏 = 𝑦 − 𝑏 𝑥,
𝜎
Var(𝑏 | 𝑋) = ,
𝑚𝑐𝑥𝑥
892 Anexo 2B Variáveis centradas
⎛1 𝑥 ⎞
Var(𝑏 | 𝑋) = 𝜎 ⎜ + 𝑐 ⎟,
⎝𝑛 𝑚𝑥𝑥 ⎠
𝑥
Cov(𝑏 , 𝑏 | 𝑋) = −𝜎 ,
𝑚𝑐𝑥𝑥
∑𝑛 𝑢̂ 𝑡
𝑠 = 𝑡=
.
𝑛−2
Estes resultados devem ser interpretados de forma conveniente. Por exemplo, a fór-
mula da variância (condicionada) do estimador MQ de 𝛽 mostra que a precisão da
estimação é tanto maior quanto maior for a precisão das variáveis residuais (medida
por 𝜎 ), e quanto maior for a dispersão das observações do regressor (medida por 𝑚𝑐𝑥𝑥 ).
Pode relacionar-se o coeficiente de correlação amostral entre as observações do re-
gressando e do regressor com a estimativa MQ de 𝛽 . Tem-se
(𝑚𝑐𝑥𝑦 ) 𝑚𝑐𝑥𝑦
𝑟𝑥𝑦 = = 𝑏 . (2B.12)
𝑚𝑐𝑥𝑥 𝑚𝑐𝑦𝑦 𝑚𝑐𝑦𝑦
895
896 Anexo 2C Coeficientes de correlação
𝑦𝑡 = 𝛽 + 𝛽 𝑥𝑡 + 𝛽 𝑥𝑡 + 𝑢𝑡 ,
Os ajustamentos (2) e (3) dizem respeito às regressões simples, e tem-se (ver anexo 2B):
𝑚𝑐𝑦 𝑠𝑦 𝑚𝑐𝑦 𝑠𝑦
𝑏𝑦 = = 𝑟𝑦 , 𝑏𝑦 = = 𝑟𝑦 .
𝑚𝑐 𝑠 𝑚𝑐 𝑠
Os resíduos MQ são, respectivamente, 𝑦̃ 𝑐𝑡 e 𝑦̃ 𝑐𝑡 . Por exemplo, 𝑦̃ 𝑐𝑡 pode ser interpretado
como o valor de 𝑦𝑡 depois de eliminada a influência de 𝑥𝑡 .
Os ajustamentos (4) e (5) referem-se a duas regressões auxiliares simples (de cada
regressor sobre o outro), obtendo-se:
𝑚𝑐 𝑠 𝑚𝑐 𝑠
𝑏 = = 𝑟 , 𝑏 = 𝑐 = 𝑟 .
𝑐
𝑚 𝑠 𝑚 𝑠
Os resíduos MQ são, respectivamente, 𝑥̃ 𝑐𝑡 e 𝑥̃ 𝑐𝑡 . Por exemplo, 𝑥̃ 𝑐𝑡 pode ser interpretado
como o valor de 𝑥𝑡 depois de eliminada a influência de 𝑥𝑡 .
Sem dificuldade se estabelecem as seguintes relações:
Por exemplo, a interpretação da fórmula de 𝑏 pode ser feita do seguinte modo: o esti-
mador do coeficiente de 𝑥𝑡 no modelo dado é baseado no estimador do coeficiente da
regressão simples sobre 𝑥𝑡 , corrigido da presença de 𝑥𝑡 . Se 𝑥𝑡 e 𝑥𝑡 não estão correlacio-
nados tem-se 𝑟 = 0 (𝑏 = 𝑏 = 0) e 𝑏 = 𝑏𝑦 . Interpretação semelhante se pode fazer
para 𝑏 .
De forma sugestiva pode escrever-se 𝑏 = 𝑏𝑦⋅ para significar que este estimador
é expurgado da influência de 𝑥𝑡 . Da mesma forma, se tem 𝑏 = 𝑏𝑦⋅ . Chamando a
𝑏𝑦⋅ e 𝑏𝑦⋅ estimadores de ordem 1, e a 𝑏𝑦 e 𝑏𝑦 , estimadores de ordem 0, as fórmulas
anteriores estabelecem as relações entre estes dois tipos de estimadores.
A hierarquia entre estimadores MQ, agora estabelecida, pode ser estendida aos co-
eficientes de correlação entre as observações de cada regressor, e as observações do
regressando.
Para facilitar a exposição, considere-se inicialmente o mesmo MRLC com dois re-
gressores (genuínos), 𝑦𝑡 = 𝛽 + 𝛽 𝑥𝑡 + 𝛽 𝑥𝑡 + 𝑢𝑡 . Neste caso, têm-se dois coeficientes de
correlação simples, 𝑟𝑦 e 𝑟𝑦 . Por exemplo, 𝑟𝑦 mede o grau de associação linear entre
𝑥𝑡 e 𝑦𝑡 . Contudo, devido à presença de 𝑥𝑡 (que está correlacionado com 𝑥𝑡 e com 𝑦𝑡 ),
𝑟𝑦 não mede correctamente a correlação pretendida. Então, para se ter a correlação
correcta entre 𝑥𝑡 e 𝑦𝑡 é necessário remover a associação linear existente entre 𝑥𝑡 e 𝑥𝑡 , e
entre 𝑥𝑡 e 𝑦𝑡 . Assim, deve considerar-se o coeficiente de correlação entre os resíduos 𝑥̃ 𝑐𝑡
e 𝑦̃ 𝑐𝑡 , ou coeficiente de correlação parcial entre 𝑥𝑡 e 𝑦𝑡 . Este coeficiente de correlação
898 Anexo 2C Coeficientes de correlação
𝑥̃ 𝑐𝑡 𝑦̃ 𝑐𝑡
𝑟𝑦⋅ = .
(𝑥̃ 𝑐𝑡 ) (𝑦̃ 𝑐𝑡 )
Assim, enquanto o coeficiente de correlação simples, 𝑟𝑦 , mede o grau de associação
linear entre 𝑥𝑡 e 𝑦𝑡 , sob a influência de 𝑥𝑡 , o coeficiente de correlação parcial, 𝑟𝑦⋅ ,
mede a correlação entre as mesmas variáveis, expurgada daquela influência.
Atendendo às relações já estabelecidas, sem dificuldade obtêm-se as seguintes igual-
dades: 𝑛 𝑛
𝑥̃ 𝑐𝑡 𝑦̃ 𝑐𝑡 = (𝑥𝑐𝑡 − 𝑏 𝑥𝑐𝑡 )(𝑦𝑐𝑡 − 𝑏𝑦 𝑥𝑐𝑡 )
𝑡= 𝑡=
= 𝑚𝑐𝑦 − 𝑏𝑦 𝑚𝑐 − 𝑏 𝑚𝑐𝑦 + 𝑏 𝑏𝑦 𝑚𝑐
= 𝑛𝑠 𝑠𝑦 (𝑟𝑦 − 𝑟𝑦 𝑟 ),
𝑛
(𝑥̃ 𝑐𝑡 ) = 𝑛𝑠 (1 − 𝑟 ) = 𝑚𝑐 (1 − 𝑟 ),
𝑡=
𝑛
(𝑦̃ 𝑐𝑡 ) = 𝑛𝑠𝑦 (1 − 𝑟𝑦 ) = 𝑚𝑐𝑦𝑦 (1 − 𝑟𝑦 ).
𝑡=
Então,
𝑟𝑦 − 𝑟𝑦 𝑟
𝑟𝑦⋅ = .
1 − 𝑟 1 − 𝑟𝑦
De forma semelhante, tem-se
𝑟𝑦 − 𝑟𝑦 𝑟
𝑟𝑦⋅ = .
1 − 𝑟 1 − 𝑟𝑦
𝑡 𝑡
𝑟𝑦⋅ = , 𝑟
𝑦⋅ = ,
𝑡 + (𝑛 − 3) 𝑡 + (𝑛 − 3)
(2) 𝑌 = 𝑋 𝑏′• + 𝑌̃ ,
(4) 𝑌̃ = 𝑏∗𝑗 𝑥̃ •𝑗 + 𝑈̃ ,
onde:
O ajustamento (1) considera todos os regressores até à ordem 𝑗, separando o re-
gressor 𝑥𝑡𝑗 dos primeiros 𝑗 − 1 regressores [as observações do regressor 𝑥𝑡𝑗 formam
o vector 𝑥•𝑗 ; as observações dos primeiros 𝑗 − 1 regressores estão agrupadas na
matriz 𝑋 , de tipo 𝑛 × (𝑗 − 1); 𝑏• e 𝑏𝑗 são os estimadores MQ dos coeficientes de
regressão respectivos].
Facilmente se conclui que 𝑟𝑦 , 𝑟𝑦 e 𝑟𝑦 (os quadrados dos coeficientes de correlação sim-
ples) medem, respectivamente, a proporção da variação de 𝑦𝑡 explicada por cada 𝑥𝑡𝑗
Coeficientes de correlação 901
Como
⎡ 1/𝑠 0 ⋯ 0 ⎤ ⎡ 𝑚𝑐 ⎤
𝑦
⎢ ⎥ ⎢ ⎥
𝑐
1 − 𝑇 1 ⎢ 0 1/𝑠 ⋯ 0 ⎥ ⎢ 𝑚𝑦 ⎥
𝐷 𝑋 𝑌 = ⎥ = 𝑟𝑥𝑦 ,
𝑛𝑠𝑦 𝑥 𝑐 𝑐 𝑛𝑠𝑦 ⎢ ⋮ ⋮
⎥
⋮ ⎥
⎢
⋮
⎢ ⎢ ⎥
⎢ 0 0 ⋯ 1/𝑠𝑘 ⎥ ⎢ 𝑚𝑐𝑘𝑦 ⎥
⎣ ⎦ ⎣ ⎦
conclui-se, então, que
𝑅 = 𝑟𝑇𝑥𝑦 𝑅−
𝑥𝑥 𝑟𝑥𝑦 . (2C.5)
902 Anexo 2C Coeficientes de correlação
(1 − 𝑟𝑦⋅ )(1 − 𝑟𝑦 )𝑚𝑐𝑦𝑦 [VR considerando 𝑥𝑡 , depois da inclusão de 𝑥𝑡 ].
ou
1 − 𝑟𝑦⋅ = (1 − 𝑟𝑦 )(1 − 𝑟𝑦⋅ ).
Então,
𝑟𝑦⋅ = 𝑟𝑦 + 𝑟𝑦⋅ (1 − 𝑟𝑦 ).
Em geral, tem-se
Seja 𝑤𝑡• um vector 1×𝑚 de variáveis aleatórias cuja função densidade pertence à família
903
904 Anexo 2D Estimadores de máxima verosimilhança
Exemplo 2D.1 Seja o processo escalar 𝑖𝑖𝑑, {𝑤𝑡 }, onde 𝑤𝑡 ∼ 𝑁(𝜇,̃ 𝜎̃ ). Então,
𝜇̃
𝜃̃ = ,
𝜎̃
e
1 (𝑤𝑡 − 𝜇)̃
𝑓(𝑤𝑡 | 𝜇,̃ 𝜎̃ ) = exp − �.
√2𝜋 𝜎̃ 2 𝜎̃
O logaritmo da função de verosimilhança é
𝑛 𝑛 1 𝑛
ln{𝐿(𝜇,̃ 𝜎̃ | 𝑤 , 𝑤 , … , 𝑤𝑛 )} = − ln(2𝜋) − ln(𝜎̃ ) − (𝑤𝑡 − 𝜇)̃ .
2 2 2𝜎̃ 𝑡=
Seja 𝑓(𝑦𝑡 | 𝑥𝑡• ; 𝜃) a densidade de 𝑦𝑡 condicionada por 𝑥𝑡• , e 𝑓(𝑥𝑡• | 𝜓) a densidade mar-
ginal de 𝑥𝑡• . Então,
𝑓(𝑦𝑡 , 𝑥𝑡• | 𝜃, 𝜓) = 𝑓(𝑦𝑡 | 𝑥𝑡• ; 𝜃)𝑓(𝑥𝑡• | 𝜓)
é a distribuição conjunta de 𝑤𝑡• = 𝑦𝑡 𝑥𝑡• (para simplificar, as três densidades
representaram-se com o mesmo símbolo 𝑓 ). Supondo que 𝜃 e 𝜓 não estão funcional-
mente relacionados, o logaritmo da função de verosimilhança é
𝑛
ln{𝐿(𝜃,̃ 𝜓̃ | ⋅)} = ln{𝑓(𝑦𝑡 , 𝑥𝑡• | 𝜃,̃ 𝜓)}
̃
𝑡=
(2D.4)
𝑛 𝑛
= ̃ +
ln{𝑓(𝑦𝑡 | 𝑥𝑡• ; 𝜃)} ̃ .
ln{𝑓(𝑥𝑡• | 𝜓)}
𝑡= 𝑡=
𝛼 𝛽
𝜃= e 𝜓= .
𝛽 𝛾
907
908 Anexo 2E Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
1
𝑓(𝑌 | 𝑋; 𝛽, 𝜎 ) = (2𝜋𝜎 )−𝑛/ exp − (𝑌 − 𝑋𝛽)𝑇 (𝑌 − 𝑋𝛽)� .
2𝜎
Pode provar-se que 𝜏(𝑌 | 𝑋) = (𝑏, 𝑠 ) é estatística suficiente para 𝜃 = (𝛽, 𝜎 ) [tem-se
𝑚 = 𝑝 = 𝑘 + 1].
Com efeito, notando que
ou
(𝑌 − 𝑋 𝛽)̃ 𝑇 (𝑌 − 𝑋 𝛽)̃ = (𝑛 − 𝑘)𝑠 + (𝑏 − 𝛽)̃ 𝑇 𝑋 𝑇 𝑋(𝑏 − 𝛽)̃ ,
1
𝐿(𝛽,̃ 𝜎̃ | 𝑌, 𝑋) = (2𝜋)−𝑛/ (𝜎̃ )−𝑛/ exp − {(𝑛 − 𝑘)𝑠 + (𝑏 − 𝛽)̃ 𝑇 𝑋 𝑇 𝑋(𝑏 − 𝛽)}
̃ �.
2𝜎̃
onde
𝐿 (𝑌 | 𝑋) = (2𝜋)−𝑛/ ,
e
1
𝐿 (𝛽,̃ 𝜎̃ | 𝑏, 𝑠 , 𝑋) = (𝜎̃ )−𝑛/ exp − {(𝑛 − 𝑘)𝑠 + (𝑏 − 𝛽)̃ 𝑇 𝑋 𝑇 𝑋(𝑏 − 𝛽)}
̃ �.
2𝜎̃
Deste modo, 𝐿 não depende dos parâmetros, e 𝐿 depende de 𝑌 através de 𝑏 e 𝑠 .
Como se sabe, uma das vantagens em dispor de uma estatística suficiente conjunta
para 𝜃 = (𝛽, 𝜎 ), como é o caso de 𝜏(𝑌 | 𝑋) = (𝑏, 𝑠 ), é que ela retira dos dados, fixada a
matriz 𝑋 , toda a informação relevante sobre os parâmetros.
Outra vantagem resulta da circunstância de 𝑏 e 𝑠 serem também estimadores não
enviesados de 𝛽 e 𝜎 , respectivamente. Nestas condições, pode verificar-se que (𝑏, 𝑠 )
é o estimador de 𝜃 = (𝛽, 𝜎 ) mais eficiente na classe dos estimadores não enviesados.
Começa por apresentar-se, em termos gerais, a definição de estimador UMVU e o enun-
ciado do teorema de Rao-Blackwell.
Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR 909
Esta condição significa que o estimador 𝜃̂ é o mais eficiente na classe dos estimadores
não enviesados de 𝜃 (Θ é o espaço-parâmetro).
Recorde-se, a seguir, o enunciado do teorema de Rao-Blackwell.
𝜃̂ = 𝜃{𝜏(𝑧)}
̂ = 𝐸{𝜃∗ | 𝜏(𝑧)},
Esta condição significa que o estimador não enviesado 𝜃̂ é mais eficiente do que o esti-
mador não enviesado 𝜃∗ . Assim, se se tomar um estimador de 𝜃, não enviesado, o te-
orema de Rao-Blackwell permite obter um estimador «melhor» (mais eficiente), desde
que seja baseado naquela estatística suficiente. Diz-se, então, que 𝜃̂ se obtém por Rao-
-Blackwellização de 𝜃∗ .
Deve ficar claro que este teorema não resolve inteiramente a questão da obtenção
de um estimador UMVU para 𝜃, mas aponta o caminho. Com efeito, estabelece, de
forma clara, que se existir um estimador UMVU, ele tem de procurar-se na classe dos
estimadores não enviesados baseados numa estatística suficiente. Se esta classe tem
um único elemento, trata-se evidentemente do estimador UMVU. De facto, é isso que
acontece quando o estimador se baseia numa estatística suficiente completa.
Antes de prosseguir, vai apresentar-se este conceito, e o enunciado do teorema que
permite obter o estimador UMVU.
910 Anexo 2E Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
𝜃̂ = 𝜃{𝜏(𝑧)}
̂ = 𝐸{𝜃∗ | 𝜏(𝑧)}.
⌢ ⌢
Se houver outro estimador não enviesado baseado em 𝜏(𝑧), 𝜃 = 𝜃{𝜏(𝑧)}, conclui-se que
⌢
̂
𝐸 𝜃{𝜏(𝑧)} = 𝐸 {𝜃{𝜏(𝑧)}} = 𝜃,
ou
⌢
̂
𝐸 𝜃{𝜏(𝑧)} − 𝜃{𝜏(𝑧)} = 𝟎, ∀𝜃̃ ∈ Θ.
Então, por 𝜏(𝑧) ser uma estatística suficiente completa, tem-se
⌢
̂
𝑃 𝜃{𝜏(𝑧)} = 𝜃{𝜏(𝑧)} = 1, ∀𝜃̃ ∈ Θ,
Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR 911
isto é,
⌢
̂
𝜃{𝜏(𝑧)} = 𝜃{𝜏(𝑧)},
excepto, quando muito, num conjunto com probabilidade zero, e para qualquer 𝜃̃ ∈ Θ.
⌢
Neste caso, os estimadores 𝜃̂ e 𝜃 não se distinguem.
Se não se conhece uma estatística suficiente completa, e se se opera com uma estatís-
tica suficiente não completa, podem existir vários estimadores não enviesados baseados
nessa estatística, e não há procedimento geral que permita conhecer o estimador mais
eficiente.
Das considerações precedentes, pode enunciar-se o seguinte teorema:
𝜃̂ = 𝜃{𝜏(𝑧)}
̂ = 𝐸{𝜃∗ | 𝜏(𝑧)}.
No caso do MRLCN, pode provar-se que (𝑏, 𝑠 ) é uma estatística suficiente completa
para 𝜃 = (𝛽, 𝜎 ). Como 𝑏 e 𝑠 são, respectivamente, estimadores não enviesados de 𝛽 e
𝜎 , pode facilmente concluir-se que (𝑏, 𝑠 ) é também estimador UMVU de 𝜃 = (𝛽, 𝜎 ).
Este resultado é de natureza diferente da do teorema de Gauss-Markov. De facto,
este teorema não exige a hipótese REX.6, mas, por outro lado, garante que 𝑏 é o esti-
mador mais eficiente na classe dos estimadores lineares e não enviesados (estimador
BLUE). Se se considerar a hipótese REX.6, o resultado que se baseia no teorema de
Lehmann-Scheffé garante que 𝑏 é o estimador mais eficiente na classe dos estimadores
não enviesados (dispensa a linearidade dos estimadores).
A eficiência dos estimadores 𝑏 e 𝑠 também pode ser investigada considerando a
conhecida desigualdade de Fréchet-Cramér-Rao. Começa-se por apresentar o teorema
respectivo, e os seus pressupostos.
Seja 𝑧 = (𝑧 , … , 𝑧𝑛 ) um vector aleatório com função densidade definida por 𝑓(𝑧 | 𝜃),
onde 𝜃 é o vector 𝑚 × 1 dos parâmetros da distribuição. Designa-se por vector score, ou
simplesmente score, o gradiente do logaritmo da função de verosimilhança,
𝑠(𝜃̃ | 𝑧) = ∇ ln{𝐿(𝜃̃ | 𝑧)}. (2E.2)
Assim, o score é o vector das derivadas parciais do logaritmo da função de verosimi-
lhança,
𝜕 ln{𝐿(𝜃̃ | 𝑧)}
𝑠𝑗 (𝜃̃ | 𝑧) = (𝑗 = 1, 2, … , 𝑚),
𝜕 𝜃̃ 𝑗
912 Anexo 2E Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
cada componente do score pode ser interpretado como a taxa de variação da função
verosimilhança em relação a 𝜃̃ 𝑗 :
𝜕 𝐿(𝜃̃ | 𝑧) 1
𝑠𝑗 (𝜃̃ | 𝑧) = .
𝜕 𝜃̃ 𝑗 𝐿(𝜃̃ | 𝑧)
Considerando o score como um vector aleatório (em 𝑧), pode calcular-se o respectivo
valor esperado de cada componente (se existir),
Como 𝑓(𝑧 | 𝜃)̃ ≡ 𝐿(𝜃̃ | 𝑧), tem-se ∇𝑓(𝑧 | 𝜃)̃ = 𝑠(𝜃̃ | 𝑧)𝑓(𝑧 | 𝜃)̃ , ou seja,
𝜕 𝑓(𝑧 | 𝜃)̃
= 𝑠𝑗 (𝜃̃ | 𝑧)𝑓(𝑧 | 𝜃).
̃
𝜕 𝜃̃ 𝑗
Como
𝑓(𝑧 | 𝜃)̃ 𝑑𝑧 = 1,
ℜ𝑛
𝜕 𝑓(𝑧 | 𝜃)̃ 𝜕
𝑑𝑧 = 𝑓(𝑧 | 𝜃)̃ 𝑑𝑧 = 0.
ℜ𝑛 𝜕 𝜃̃ 𝑗 𝜕 𝜃̃ 𝑗 ℜ𝑛
Então,
𝐸{𝑠(𝜃̃ | 𝑧)} = 𝟎.
𝐸{𝑠(𝜃 | 𝑧)} = 𝟎.
não sendo difícil concluir que a matriz de informação é a matriz das covariâncias do
score.
O teorema de Fréchet-Crámer-Rao estabelece que a inversa desta matriz é o «limite
inferior» do conjunto das matrizes das covariâncias dos estimadores não enviesados
de 𝜃. Quando uma destas matrizes atinge aquele «limite inferior», fica garantido que
o respectivo estimador é UMVU. Por estas razões, é habitual chamar desigualdade de
Fréchet-Crámer-Rao à seguinte propriedade:
2𝜎
Var(𝑠 | 𝑋) = ,
𝑛−𝑘
e que 𝑏 e 𝑠 são independentes (dado 𝑋 ), a matriz das covariâncias condicionadas por
𝑋 do vector (𝑘 + 1) × 1, 𝜃̂ = (𝑏, 𝑠 ), é
⎡ 𝜎 (𝑋 𝑇 𝑋)− 𝟎 ⎤
Cov(𝜃̂ | 𝑋) = ⎢ 2𝜎
⎥.
(2E.5)
⎢ 𝟎 ⎥
⎣ 𝑛−𝑘 ⎦
Vai verificar-se que a função de verosimilhança é regular, ou seja, que o valor esperado
do score, calculado em 𝜃 = (𝛽, 𝜎 ), é nulo. Com efeito, como
𝑛 𝑛 1
ln{𝐿(𝛽,̃ 𝜎̃ | 𝑌, 𝑋)} = − ln (2𝜋) − ln (𝜎̃ ) − (𝑌 − 𝑋 𝛽)̃ 𝑇 (𝑌 − 𝑋 𝛽),
̃
2 2 2𝜎̃
vem
1 𝑇
𝐸(∇𝛽̃ ln{𝐿(𝛽, 𝜎 | 𝑌, 𝑋)}| 𝑋) = 𝐸 𝑋 (𝑌 − 𝑋𝛽) 𝑋 = 𝟎,
𝜎
𝑛 1
𝐸 (∇𝜎̃ ln{𝐿(𝛽, 𝜎 | 𝑌, 𝑋)}| 𝑋) = 𝐸 −
+ (𝑌 − 𝑋𝛽)𝑇 (𝑌 − 𝑋𝛽) 𝑋 = 0,
2𝜎 2𝜎
1 𝑇
∇𝛽̃ ln{𝐿(𝛽, 𝜎 | 𝑌, 𝑋)} = − 𝑋 𝑋;
𝜎
Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR 915
𝑛 1
∇𝜎̃ ln{𝐿(𝛽, 𝜎 | 𝑌, 𝑋)} =
− (𝑌 − 𝑋𝛽)𝑇 (𝑌 − 𝑋𝛽);
2𝜎 𝜎
1
∇𝛽̃𝜎̃ ln 𝐿(𝛽, 𝜎 | 𝑌, 𝑋) = − 𝑋 𝑇 (𝑌 − 𝑋𝛽).
𝜎
Donde,
⎧ ⎫
⎪⎡ 1 𝑇 1 𝑇 ⎤ ⎪
⎪⎢ 𝑋 𝑋 𝑋 (𝑌 − 𝑋𝛽) ⎪
⎪ 𝜎 𝜎 ⎥ ⎪
𝐼(𝛽, 𝜎 ) = 𝐸 ⎨ ⎢ ⎥ 𝑋⎬ ,
⎪ 1 𝑛 1 ⎪
⎪ ⎢ (𝑌 − 𝑋𝛽)𝑇 𝑋 − + (𝑌 − 𝑋𝛽)𝑇 (𝑌 − 𝑋𝛽) ⎥ ⎪
⎪⎣ 𝜎 2𝜎 𝜎 ⎦ ⎪
⎩ ⎭
ou
⎡ 1 𝑇 ⎤
⎢
𝑋 𝑋 𝟎 ⎥
𝜎
𝐼(𝛽, 𝜎 ) = ⎢ .
𝑛 ⎥
⎢ 𝟎 ⎥
⎣ 2𝜎 ⎦
Então, o limite inferior de Fréchet-Cramér-Rao é dado por
⎡ 𝜎 (𝑋 𝑇 𝑋)− 𝟎 ⎤
⎢ ⎥
𝐼(𝛽, 𝜎 )− = ⎢ ⎥. (2E.6)
2𝜎
⎢ 𝟎 ⎥
⎣ 𝑛 ⎦
Verifica-se, assim, que a matriz das covariâncias condicionadas de 𝑏 atinge o LIFCR, o
que mostra, por outra via, que 𝑏 é UMVU para 𝛽. Contudo, a variância condicionada de
𝑠 é superior ao respectivo LIFCR. No entanto, como se sabe, este estimador é UMVU
para 𝜎 , devido ao teorema de Lehmann-Scheffé (não há outro estimador não enviesado
de 𝜎 com variância menor).
Alternativamente, a matriz de informação pode ser obtida utilizando a igualdade
𝐼(𝜃) = 𝐸{𝑠(𝜃 | 𝑌, 𝑋)𝑠(𝜃 | 𝑌, 𝑋)𝑇 }, embora os cálculos sejam mais laboriosos.
Com efeito, sabe-se que
⎡ 1 𝑇 ⎤
𝑋 𝑈
⎢ 𝜎 ⎥
𝑠(𝜃 | 𝑌, 𝑋) = ⎢ ⎥.
𝑛 1
⎢ − + 𝑈𝑇 𝑈 ⎥
⎣ 2𝜎 2𝜎 ⎦
Então, 𝑠(𝜃 | 𝑌, 𝑋)𝑠(𝜃 | 𝑌, 𝑋)𝑇 é igual a
⎡ 1 𝑇 𝑛 𝑇 1 ⎤
⎢ 𝑋 𝑈𝑈 𝑇 𝑋 − 𝑋 𝑈 + 𝑋 𝑇 𝑈(𝑈 𝑇 𝑈) ⎥
𝜎 2𝜎 2𝜎
⎢
⎥.
⎢ 𝑛 𝑇 1 𝑇 𝑇
𝑛 1 𝑇 ⎥
⎢ − 2𝜎 𝑈 𝑋 + 2𝜎 (𝑈 𝑈)𝑈 𝑋 − + 𝑈 𝑈
2𝜎 2𝜎 ⎥
⎣ ⎦
916 Anexo 2E Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR
Pode, então, calcular-se o valor esperado condicionado de cada bloco desta matriz.
Verifica-se, sem dificuldade, que
1 𝑇 1 1
𝐸
𝑋 𝑈𝑈 𝑇 𝑋 𝑋 = 𝑋 𝑇 𝐸 𝑈𝑈 𝑇 𝑋 𝑋 = 𝑋 𝑇 𝑋.
𝜎 𝜎 𝜎
𝑛 𝑇 1 𝑛 1
𝐸 −
𝑋 𝑈 + 𝑋 𝑇 𝑈(𝑈 𝑇 𝑈) 𝑋 = − 𝑋 𝑇 𝐸(𝑈 | 𝑋) + 𝑋 𝑇 𝐸 𝑈(𝑈 𝑇 𝑈) | 𝑋
2𝜎 2𝜎 2𝜎 2𝜎
1
= 𝑋 𝑇 𝐸{𝑈(𝑈 𝑇 𝑈) | 𝑋} ,
2𝜎
uma vez que 𝐸(𝑈 | 𝑋) = 𝟎. Seja
𝑛 𝑇 1
𝐸 −
𝑋 𝑈 + 𝑋 𝑇 𝑈(𝑈 𝑇 𝑈) 𝑋 = 𝟎.
2𝜎 2𝜎
Como
𝐸(𝑢𝑡 | 𝑋) = 3 𝜎 e 𝐸(𝑢𝑡 𝑢𝑠 | 𝑋) = 𝜎 (𝑡 ≠ 𝑠),
vem
𝑛 𝑛 1 𝑛 2𝑛 3𝑛𝜎 + 𝑛(𝑛 − 1)𝜎 𝑛
𝐸 − 𝑈 𝑇 𝑈 + (𝑈 𝑇 𝑈) 𝑋 = − +
= .
4𝜎 2𝜎 4𝜎 4𝜎 4𝜎 4𝜎 2𝜎
Como o próprio nome sugere, o teste de uma hipótese paramétrica serve para decidir,
com base na informação fornecida pelos dados, se se rejeita, ou não, a hipótese.
Seja 𝑧 = (𝑧 , … , 𝑧𝑛 ) um vector aleatório com distribuição na família
F𝜃̃ = {𝑓(𝑧 | 𝜃)̃ ∶ 𝜃̃ ∈ Θ},
em que 𝜃̃ é o vector 𝑚 × 1 que percorre o espaço-parâmetro, Θ ⊂ ℜ𝑚 : 𝜃̃ ∈ Θ.
Supondo que 𝜃 é o vector 𝑚 × 1 dos parâmetros desconhecidos, qualquer hipótese
paramétrica — conjectura sobre 𝜃 — estabelece no espaço-parâmetro Θ uma partição
Θ ∪ Θ = Θ, Θ ∩ Θ = ∅,
onde 𝐻 ∶ 𝜃 ∈ Θ é a hipótese a testar e 𝐻 ∶ 𝜃 ∈ Θ é a hipótese que corresponde ao
conjunto das alternativas. A hipótese 𝐻 chama-se hipótese nula, designação tradicio-
nal, que corresponde, geralmente, ao satus quo; a hipótese 𝐻 é designada por hipótese
alternativa. Quando numa das hipóteses (nula ou alternativa) o respectivo subcon-
junto de Θ (Θ ou Θ ) só tem um elemento, diz-se que a respectiva hipótese é simples;
caso contrário, é composta.
O teste de hipóteses pode, então, ser apresentado da seguinte maneira:
𝐻 ∶ 𝜃 ∈ Θ contra 𝐻 ∶ 𝜃 ∈ Θ . (2F.1)
O resultado do teste consiste na rejeição, ou não, de 𝐻 , sendo esta decisão tomada com
base numa amostra. Naturalmente, a não rejeição (a rejeição) de 𝐻 implica a rejeição
(a não rejeição) de 𝐻 .
919
920 Anexo 2F Considerações gerais sobre teste de hipóteses paramétricas
𝑊 ∪ 𝑊 = Z, 𝑊 ∩ 𝑊 = ∅.
O erro de 2.ª espécie ou de não rejeição, que consiste em não rejeitar 𝐻 , quando
𝐻 é falsa.
espaco
Deste modo, a dimensão do teste é o valor máximo (mais geralmente, o supremo) as-
sumido pela probabilidade de cometer o erro de 1.ª espécie, quando 𝜃̃ percorre o sub-
conjunto do espaço-parâmetro associado à hipótese nula. É habitual chamar nível de
significância à dimensão do teste.
espaco
⎧ 0 (𝜃̃ ∈ Θ )
̃ ⎪
𝜋(𝜃) = ⎨ ,
⎪ 1 (𝜃̃ ∈ Θ )
⎩
o que implicaria que o teste conduziria sempre à decisão correcta. Infelizmente este
teste ideal raramente existe.
Em geral, tem-se 𝛼 > 0 e 𝜋(𝜃)̃ < 1, sendo desejável que a probabilidade do erro de 1.ª
espécie seja pequena, uma vez que se adopta o seguinte ponto de vista: a possibilidade
de rejeitar incorrectamente a hipótese nula é considerada grave, pois esta hipótese cor-
responde à posição que deve ser defendida, salvo se evidência estatística convincente
apontar no sentido contrário (a favor da hipótese alternativa).
Na grande maioria das aplicações práticas, os valores habituais fixados para 𝛼 são
0.1, 0.05 ou 0.01. Evidentemente que o valor fixado para 𝛼 depende da importância que
se dá ao facto de rejeitar a hipótese nula, quando esta é verdadeira.
Uma ilustração deste ponto de vista pode ser feita com o seguinte princípio da Jus-
tiça: «uma pessoa é inocente até se provar que é culpada». Este princípio dá lugar ao
seguinte teste: 𝐻 : «a pessoa é inocente» contra 𝐻 : «a pessoa é culpada». Os erros que
podem ocorrer são os seguintes: erro de 1.ª espécie, «a pessoa é condenada, mas está
inocente»; erro de 2.ª espécie, «a pessoa é absolvida, mas é culpada». Naturalmente, de
acordo com o princípio enunciado, a aplicação da Justiça deve procurar reduzir a pos-
sibilidade de ocorrer o erro de 1.ª espécie, pois entende-se que é mais grave condenar
inocentes do que absolver criminosos. Para certos sistemas judiciais pode considerar-se
que 𝛼 = 0.1 é demasiado elevado, optando-se por 𝛼 = 0.01; noutros sistemas judiciais
pode admitir-se que 𝛼 = 0.05 é um valor razoável.
Facilmente se conclui que existe uma infinidade de testes de dimensão 𝛼, ou seja, há
uma infinidade de testes cujas regiões críticas são compatíveis com aquela dimensão.
Estando controlada a probabilidade do erro de 1.ª espécie, é precisamente a existência
de erros de 2.ª espécie que serve de guia na escolha da região crítica óptima (se existir).
De facto, afigura-se natural que seja considerada região crítica óptima, aquela que mi-
nimiza de algum modo a probabilidade de cometer o erro de 2.ª espécie, isto é, aquela
que tem maior potência ou capacidade para rejeitar a hipótese nula, quando falsa, em
favor da hipótese alternativa.
Para formalizar esta ideia vai apresentar-se a seguinte definição:
Diz-se que o teste com a região crítica 𝑊𝑇 é uniformemente mais potente do que o teste
com região crítica 𝑊𝑇∗ se e só se
𝜋(𝜃)̃ ≥ 𝜋∗ (𝜃),
̃ ∀𝜃̃ ∈ Θ . (2F.4)
Se o teste com região crítica 𝑊𝑇 é uniformemente mais potente do que qualquer outro
teste de dimensão 𝛼, diz-se que é o teste uniformemente mais potente.
Em geral, quando não existem testes UMP — ou a sua determinação é muito difícil —,
utiliza-se um procedimento que faz largo apelo à intuição, permitindo obter, muitas
vezes, resultados interessantes. Trata-se do critério ou princípio da razão de verosimi-
lhanças (RV) [ver capítulo 8].
Este princípio compara o máximo da função de verosimilhança restringido à hipó-
tese nula,
max 𝐿(𝜃̃ | 𝑧) = 𝐿(Θ
̂ ),
̃
𝜃∈
Seja
̂
𝐿(Θ)
𝜆(𝑧) = ≥ 1.
̂ )
𝐿(Θ
Note-se que 𝜆 é função de 𝑧, uma vez que ao minimizar a função de verosimilhança,
quer em Θ quer em Θ , os parâmetros são substituídos pelos respectivos estimadores
de máxima verosimilhança (que são funções de 𝑧).
O teste RV baseia-se na seguinte ideia: se 𝐻 ∶ 𝜃 ∈ Θ é verdadeira, então 𝜆(𝑧)
deve ser «pequeno»; a hipótese nula é rejeitada se 𝜆(𝑧) ≥ 𝜆 , onde 𝜆 é uma constante
convenientemente escolhida. A questão resume-se, então, a determinar esta constante.
Em alguns casos, dá-se a feliz circunstância de existir uma correspondência entre
a estatística 𝜆(𝑧) e uma estatística 𝑇(𝑧), com distribuição conhecida, facto que permite
obter, no domínio desta estatística, uma região crítica equivalente,
𝜆(𝑧) ≥ 𝜆 ⇔ 𝑇(𝑧) ∈ 𝑊𝑇 .
Considerações gerais sobre teste de hipóteses paramétricas 925
𝑃{𝜆(𝑧) ≥ 𝜆 | 𝜃̃ ∈ Θ } = 𝛼,
a) 𝐻 ∶ 𝜃 = 𝜃 contra 𝐻 ∶ 𝜃 > 𝜃 ;
b) 𝐻 ∶ 𝜃 = 𝜃 contra 𝐻 ∶ 𝜃 < 𝜃 ;
c) 𝐻 ∶ 𝜃 = 𝜃 contra 𝐻 ∶ 𝜃 ≠ 𝜃 .
d) 𝐻 ∶ 𝜃 = 𝜃 contra 𝐻 ∶ 𝜃 ≠ 𝜃 .
Neste caso, a hipótese nula é simples, e a hipótese alternativa é composta (tal como nos
três casos anteriores).
As partições do espaço-parâmetro são, respectivamente, as seguintes:
b) Θ = {𝜃 } e Θ = (−∞, 𝜃 );
d) Θ = {𝜃 } e Θ = {𝜃 ∶ 𝜃 ≠ 𝜃 } ⊂ ℜ𝑚 .
Em qualquer destes quatro tipos de teste, a estatística-teste, 𝑇(𝑧), é uma variável ale-
atória, cuja distribuição é conhecida, pelo menos assintoticamente. Muitas vezes, as
regiões de rejeição escolhidas para aqueles quatro tipos são, respectivamente, as se-
guintes:
Com efeito, considerar esta probabilidade para dimensão do teste equivale a dizer que o
valor crítico que define o limiar da região de rejeição é o valor observado da estatística-
teste.
Daqui, decorre que:
A hipótese nula não é rejeitada para esta dimensão do teste, ou para qualquer
outra inferior;
De uma maneira geral, pode afirmar-se que quanto menor for 𝑝obs menor é a com-
patibilidade dos dados com 𝐻 .
O teste pode ser feito escolhendo um qualquer valor adequado para a dimen-
são do teste, seja 𝛼, e proceder do seguinte modo: a hipótese nula é rejeitada se
𝑝obs < 𝛼; caso contrário, 𝐻 não é rejeitada.
As conclusões para os outros três tipos de teste são semelhantes, variando apenas o
modo de calcular 𝑝obs . Assim, tem-se:
Note-se que:
Um valor-𝑝 grande não pode ser interpretado como evidência forte a favor de 𝐻 .
De facto, um valor-𝑝 elevado pode ocorrer por duas razões: a) 𝐻 é verdadeira; b)
𝐻 é falsa, mas o teste tem potência fraca.
Quando, por exemplo, 0.01 < 𝑝obs ≤ 0.05, há autores que dizem que a evidência
contra 𝐻 não é significativa ao nível de 0.01, mas é significativa ao nível de 0.05.
Outros autores optam por dizer que a hipótese é de rejeitar ao nível de 0.05 mas
não é de rejeitar ao nível de 0.01; muitas vezes, fixa-se antecipadamente o nível 𝛼
(0 < 𝛼 < 1) e rejeita-se 𝐻 quando sai 𝑝obs < 𝛼.
[2G]
O modelo de regressão linear clássico
generalizado (Aitken)
Cov(𝑢𝑡 , 𝑢𝑠 | X𝑇 ) ≠ 0 (autocorrelação).
Quando se dispõe de uma amostra, {(𝑦𝑡 , 𝑥𝑡 , 𝑥𝑡 , … , 𝑥𝑡𝑘 ) ∶ 𝑡 = 1, 2, … , 𝑛}, a matriz das
covariâncias condicionadas, Cov(𝑈 | 𝑋) = 𝐸(𝑈𝑈 𝑇 | 𝑋), deixa de ser 𝜎 𝐼𝑛 .
O abandono daquelas hipóteses (REX.3 e REX.4) significa que cada elemento de
Cov(𝑈 | 𝑋) é, em geral, função de 𝑋 . Se existir heterocedasticidade condicionada, os
elementos da diagonal principal não são todos iguais; se existir autocorrelação, existem
elementos não diagonais diferentes de zero. Tem-se, então,
929
930 Anexo 2G O modelo de regressão linear clássico generalizado (Aitken)
Usando-se Σ em vez de Σ(𝑋), deve estar sempre presente que cada 𝜎𝑡𝑠 é, em geral,
função de 𝑋 : 𝜎𝑡𝑠 = 𝜎𝑡𝑠 (𝑋). Note-se que
⎧ 𝜎 = Var(𝑢 | 𝑋) = 𝜎 (𝑡 = 1, 2, … , 𝑛)
⎪ 𝑡𝑡 𝑡 𝑡
⎨
⎪ 𝜎𝑡𝑠 = Cov(𝑢𝑡 , 𝑢𝑠 | 𝑋) (𝑡, 𝑠 = 1, 2, … , 𝑛 ; 𝑡 ≠ 𝑠).
⎩
Muitas vezes, supõe-se que Σ é conhecida a menos de uma constante multiplicativa.
Assim, faz-se Σ = 𝜆 Ω, onde 𝜆 > 0 (que pode ser desconhecido) e Ω é uma matriz
conhecida e definida positiva. Neste caso, tem-se
⎧ 𝜎 = 𝜎 = Var(𝑢 | 𝑋) = 𝜆 𝜔 (𝑡 = 1, 2, … , 𝑛)
⎪ 𝑡𝑡 𝑡 𝑡 𝑡𝑡
⎨
⎪ 𝜎𝑡𝑠 = Cov(𝑢𝑡 , 𝑢𝑠 | 𝑋) = 𝜆 𝜔𝑡𝑠 (𝑡, 𝑠 = 1, 2, … , 𝑛 ; 𝑡 ≠ 𝑠),
⎩
onde 𝜔𝑡𝑠 é o elemento genérico da matriz Ω. Os parâmetros desconhecidos do modelo
são os 𝛽𝑗 (𝑗 = 1, 2, … , 𝑘) e 𝜆. Note-se, também, que
Cov(𝑌 | 𝑋) = Σ(𝑋).
Como Σ é definida positiva, não existem relações lineares entre as variáveis residuais.
Se, pelo contrário, algum 𝑢𝑡 fosse combinação linear dos outros, a matriz Σ seria sin-
gular e, portanto, semidefinida positiva. Por exemplo, seja 𝑛 = 2, e suponha-se que
𝑢 = 𝛼 𝑢 . Então,
1 𝛼
= 0.
𝛼 𝛼
𝑏 = (𝑋 𝑇 𝑋)− 𝑋 𝑇 𝑌,
Como vai ver-se, o estimador 𝑏 não é BLUE (não é o estimador mais eficiente
na classe dos estimadores lineares não enviesados; não se verifica o teorema de
Gauss-Markov).
Para obter um estimador BLUE para 𝛽, vai começar-se por demonstrar que é possível
transformar a relação 𝑌 = 𝑋𝛽 + 𝑈 [onde Cov(𝑈 | 𝑋) = Σ] em 𝑌∗ = 𝑋∗ 𝛽 + 𝑈∗ , onde
Cov(𝑈∗ | 𝑋∗ ) = 𝐼𝑛 .
Como Σ é simétrica e definida positiva, pode determinar-se uma matriz 𝑃, quadrada
de ordem 𝑛, não singular, tal que Σ− = 𝑃𝑇 𝑃. Existem muitas matrizes 𝑃 que permi-
tem esta decomposição, pouco importando qual delas é que vai ser escolhida. Uma via
possível consiste em calcular os valores próprios de Σ e a matriz ortonormal dos respec-
tivos vectores próprios. Representando por 𝛿𝑡 > 0 (𝑡 = 1, 2, … , 𝑛) cada valor próprio, a
respectiva matriz diagonal é dada por
⎡ 𝛿 0 ⋯ 0 ⎤
⎢ 0 𝛿 ⋯ 0 ⎥
𝐷=⎢ ⎥ ou 𝐷 = Diag{𝛿 , 𝛿 , … , 𝛿𝑛 }.
⋮ ⋮ ⋮
⎢ ⎥
⎣ 0 0 ⋯ 𝛿𝑛 ⎦
A correspondente matriz ortonormal dos vectores próprios é, então,
𝐶𝑇 Σ 𝐶 = 𝐷 ou Σ = 𝐶𝐷𝐶𝑇 .
932 Anexo 2G O modelo de regressão linear clássico generalizado (Aitken)
Atendendo a que 𝐷 = 𝐷/ 𝐷/ , onde 𝐷/ = Diag{ 𝛿1/2 1/2 1/2
1 ,𝛿2 , … , 𝛿𝑛 } , vem
Σ = 𝐶𝐷/ 𝐷/ 𝐶𝑇 .
Então,
Σ− = 𝐶𝐷−/ 𝐷−/ 𝐶𝑇 = 𝑃𝑇 𝑃 ⇔ Σ = 𝑃− (𝑃𝑇 )− ,
onde 𝑃 = 𝐷−/ 𝐶𝑇 , com |𝑃| ≠ 0, e 𝐷−/ = Diag{ 𝛿−1 1/2 ,𝛿−2 1/2 , … , 𝛿−𝑛 1/2 } .
Considere-se a transformação de 𝑌 = 𝑋𝛽 + 𝑈 dada por
𝑃𝑌 = 𝑃𝑋𝛽 + 𝑃𝑈, ou 𝑌∗ = 𝑋∗ 𝛽 + 𝑈∗ ,
onde 𝑌∗ = 𝑃𝑌 , 𝑋∗ = 𝑃𝑋 e 𝑈∗ = 𝑃𝑈 (a matriz 𝑃 depende de 𝑋 ).
Vai verificar-se que a nova relação verifica as seguintes propriedades do MRLC:
𝐸(𝑈∗ | 𝑋∗ ) = 𝟎.
Com efeito, basta notar que
𝐸(𝑈∗ | 𝑋∗ ) = 𝐸(𝑈∗ | 𝑋) = 𝐸(𝑃𝑈 | 𝑋) = 𝑃𝐸(𝑈 | 𝑋) = 𝟎,
uma vez que não há mais informação em 𝑋∗ do que em 𝑋 .
Cov(𝑈∗ | 𝑋∗ ) = 𝐼𝑛 .
De facto, tem-se
Cov(𝑈∗ | 𝑋∗ ) = Cov(𝑈∗ | 𝑋) = Cov(𝑃𝑈 | 𝑋)
= 𝑃 Cov(𝑈 | 𝑋)𝑃𝑇 = 𝑃Σ𝑃𝑇 = 𝑃𝑃− (𝑃𝑇 )− 𝑃𝑇 = 𝐼𝑛 ,
porque não há mais informação em 𝑋∗ do que em 𝑋 , e Σ = 𝑃− (𝑃𝑇 )− .
Quando Σ = 𝜆 Ω, tem-se Cov(𝑈∗ | 𝑋∗ ) = 𝜆𝐼𝑛 .
𝑟(𝑋∗ ) = 𝑘.
Com efeito, basta notar que 𝑟(𝑋) = 𝑘 e 𝑃 é não singular.
Nestas condições, utilizando a transformação 𝑌∗ = 𝑋∗ 𝛽 + 𝑈∗ pode determinar-se o esti-
mador MQ de 𝛽, obtendo-se
𝑏∗ = (𝑋∗𝑇 𝑋∗ )− 𝑋∗𝑇 𝑌∗ = (𝑋 𝑇 𝑃𝑇 𝑃𝑋)− 𝑋 𝑇 𝑃𝑇 𝑃𝑌 = (𝑋 𝑇 Σ− 𝑋)− 𝑋 𝑇 Σ− 𝑌.
Então, pode definir-se o seguinte estimador:
onde Cov(𝑌 | 𝑋) = Σ.
Também se demonstra, sem dificuldade, que 𝛿̂𝑔 = 𝑅𝑏𝑔 é BLUE para 𝛿 = 𝑅𝛽 e
é semidefinida positiva.
Quando se considera Σ = 𝜆 Ω, facilmente se conclui que o estimador não enviesado
de 𝜆, utilizando a relação transformada, é 𝑠∗ = 𝑈̂ 𝑇∗ 𝑈̂ ∗ /(𝑛−𝑘) onde 𝑈̂ ∗ é o respectivo vector
dos resíduos MQ, 𝑈̂ ∗ = 𝑌∗ − 𝑋∗ 𝑏∗ . Como 𝑈̂ ∗ = 𝑃(𝑌 − 𝑋 𝑏𝑔 ) = 𝑃 𝑈̂ , onde 𝑈̂ = 𝑌 − 𝑋 𝑏𝑔 [não
confundir com 𝑌 − 𝑋 𝑏], o estimador não enviesado de 𝜆 pode escrever-se da seguinte
maneira:
𝑈̂ 𝑇 Ω− 𝑈̂
𝑠𝑔 = .
𝑛−𝑘
Donde,
(𝑏𝑔 | 𝑋) = 𝑠𝑔 (𝑋 𝑇 Ω− 𝑋)− .
Cov
934 Anexo 2G O modelo de regressão linear clássico generalizado (Aitken)
Sabe-se que no MRLC sem termo independente a soma dos resíduos MQ é, em geral,
diferente de zero. Supondo que o MRLCG tem termo independente facilmente se veri-
fica que a matriz 𝑋∗ não tem uma coluna com todos os elementos iguais a 1. Com efeito,
se 𝑥• = 𝑒 então 𝑥∗• = 𝑃𝑒 ≠ 𝑒. Não se pode, portanto, concluir que
Σ𝑛𝑡= 𝑢̂ ∗𝑡 = 𝑒𝑇 𝑈̂ ∗ = 0.
𝑈̂ 𝑇 Σ− 𝑈̂ 𝑌̂ 𝑇 Σ− 𝑌̂
𝑅𝑔 = 1 − = .
𝑌 𝑇 Σ− 𝑌 𝑌 𝑇 Σ− 𝑌
A hipótese semelhante a REX.6 para o MRLCG é a seguinte:
−/ 1
𝐿(𝛽,̃ 𝜆̃ | 𝑌, 𝑋) = (2𝜋 𝜆̃ )−𝑛/ |Ω| exp − (𝑌 − 𝑋 𝛽)̃ 𝑇 Ω− (𝑌 − 𝑋 𝛽)̃ � .
2𝜆̃
Os respectivos estimadores MV são
𝑈̂ 𝑇 Ω− 𝑈̂
𝛽̂𝑔 = 𝑏𝑔 e 𝜆̂ 𝑔 = .
𝑛
O resultado homólogo a (2.69) é dado por
𝑈̂ 𝑇 Ω− 𝑈̂ (𝑛 − 𝑘)𝑠𝑔
= ∼ 𝜒 (𝑛 − 𝑘).
𝜆 𝜆
O resultado homólogo a (2.73) é
𝑏𝑔𝑗 − 𝛽𝑗
∼ 𝑡(𝑛 − 𝑘),
𝑗𝑗
𝑚∗
O modelo de regressão linear clássico generalizado (Aitken) 935
𝑗𝑗
onde 𝑚∗ é o 𝑗-ésimo elemento da diagonal principal da matriz 𝑋 𝑇 Σ− 𝑋 .
Quando Σ = 𝜆 Ω, vem
𝑏𝑔𝑗 − 𝛽𝑗
∼ 𝑡(𝑛 − 𝑘),
𝑗𝑗
𝑠 𝑔 𝑚 ∗
𝑗𝑗
onde, agora, 𝑚∗ é o 𝑗-ésimo elemento da diagonal principal da matriz 𝑋 𝑇 Ω− 𝑋 .
⎧ 𝑌 = 𝑋 𝛽 + 𝑈 ,
⎪
⎪
⎪ 𝐸(𝑈 | 𝑋, 𝑋 ) = 𝟎,
⎪
⎪
⎨ Cov(𝑈 | 𝑋, 𝑋 ) = Σ ,
⎪
⎪ 𝑈 | 𝑋, 𝑋 ∼ 𝑁 (𝑟) (𝟎, Σ ),
⎪
⎪
⎪ Cov(𝑈, 𝑈 | 𝑋, 𝑋 ) = Σ .
⎩ ∗
Assim,
𝑈 ⎡ Σ Σ∗ ⎤
Cov =⎢ 𝑇 ⎥.
𝑈
⎣ Σ∗ Σ ⎦
𝑌̂ = 𝑋 𝑏𝑔 + Σ𝑇∗ Σ− 𝑈,
̂
Ψ = Σ − Σ𝑇∗ Σ− Σ∗ + (𝑋 − Σ𝑇∗ Σ− 𝑋)(𝑋 𝑇 Σ− 𝑋)− (𝑋 − Σ𝑇∗ Σ− 𝑋)𝑇 .
Quando
𝑈 ⎡ Ω Ω∗ ⎤
Cov =𝜆⎢ 𝑇 ⎥,
𝑈
⎣ Ω∗ Ω ⎦
tem-se Cov(𝐷 | 𝑋, 𝑋 ) = 𝜆Ψ, e
Ψ = Ω − Ω𝑇∗ Ω− Ω∗ + (𝑋 − Ω𝑇∗ Ω− 𝑋)(𝑋 𝑇 Ω− 𝑋)− (𝑋 − Ω𝑇∗ Ω− 𝑋)𝑇 .
Donde,
(𝑌 − 𝑌̂ )𝑇 Ψ− (𝑌 − 𝑌̂ )
∼ 𝐹(𝑟, 𝑛 − 𝑘).
𝑟𝑠𝑔
Quando 𝑟 = 1, obtém-se
𝑦𝑛+ − 𝑦̂ 𝑛+
∼ 𝑡(𝑛 − 𝑘).
𝑠𝑔 √Ψ
[3A]
Exemplos sobre ruídos brancos e
diferença-martingalas
𝜋
𝜋 1 1 sen(𝑡𝑤)
𝐸(𝑧𝑡 ) = cos(𝑡𝑤) 𝑑𝑤 = = 0;
2𝜋 2𝜋 𝑡
𝜋
𝜋 1 1 sen(𝑡𝑤) cos(𝑡𝑤) 𝑤 1
Var(𝑧𝑡 ) = cos (𝑡𝑤) 𝑑𝑤 = + = ;
2𝜋 2𝜋 2𝑡 2 2
𝜋
𝜋 1 1 sen{(𝑠 − 𝑡)𝑤} sen{(𝑠 + 𝑡)𝑤}
Cov(𝑧𝑡 , 𝑧𝑠 ) = cos(𝑡𝑤) cos(𝑠𝑤) 𝑑𝑤 = + = 0.
2𝜋 2𝜋 2(𝑠 − 𝑡) 2(𝑠 + 𝑡)
Contudo, {𝑧𝑡 } não é um ruído branco independente, uma vez que 𝑧𝑡 = cos(𝑡𝑤) e 𝑧𝑠 =
= cos(𝑠𝑤) não são independentes; nem sequer é estritamente estacionário.
937
938 Anexo 3A Exemplos sobre ruídos brancos e diferença-martingalas
1 𝑛 𝑈𝑇 𝑈
plim 𝑢𝑡 = plim
= 𝐸(𝑢𝑡 ) = 𝜎 .
𝑛 𝑡= 𝑛
Como assim não acontece, esta média é substituída pela média amostral dos quadrados
dos resíduos MQ,
1 𝑛 𝑈̂ 𝑇 𝑈̂
𝑢̂ 𝑡 = .
𝑛 𝑡= 𝑛
Como
𝑛 𝑈̂ 𝑇 𝑈̂
𝑠 = ,
𝑛−𝑘 𝑛
basta provar que
𝑈𝑇 𝑈 𝑈̂ 𝑇 𝑈̂
plim = plim ,
𝑛 𝑛
para se ter (3.41). Atendendo à propriedade 2.4 dos resíduos MQ, tem-se
941
942 Anexo 3B Demonstração de algumas propriedades
ou
−
𝑈̂ 𝑇 𝑈̂ 𝑈𝑇 𝑈 1 1 1
= − 𝑈𝑇 𝑋 𝑋𝑇 𝑋 𝑋𝑇 𝑈 ,
𝑛 𝑛 𝑛 𝑛 𝑛
ou, ainda,
𝑈̂ 𝑇 𝑈̂ 𝑈𝑇 𝑈 𝑇
= − 𝑔•𝑛 𝑆−
𝑥𝑥 𝑔•𝑛 .
𝑛 𝑛
Como plim(𝑔 ) = 𝟎 e plim(𝑆−
𝑥𝑥 ) = 𝑄𝑥𝑥 , fica provado (3.41).
−
•𝑛
Deve observar-se que o resultado anterior continua válido se, em vez do estimador 𝑏,
se tivesse utilizado outro estimador consistente de 𝛽, e os respectivos resíduos. Com
efeito, seja 𝑢̂ 𝑡 = 𝑦𝑡 − 𝑥𝑡• 𝛽̂, onde 𝛽̂ é um estimador consistente de 𝛽. Suponha-se que
se verificam as hipóteses RPD.1, RPD.2, RPD.4, e que existe 𝐸(𝑥𝑇𝑡• 𝑢𝑡 ) (não é necessário
exigir a condição de ortogonalidade, tal como se faz em RPD.3). Como a relação entre
𝑢̂ 𝑡 e 𝑢𝑡 é
𝑢̂ 𝑡 = 𝑦𝑡 − 𝑥𝑡• 𝛽̂ = 𝑦𝑡 − 𝑥𝑡• 𝛽 − 𝑥𝑡• (𝛽̂ − 𝛽) = 𝑢𝑡 − 𝑥𝑡• (𝛽̂ − 𝛽),
vem
𝑢̂ 𝑡 = 𝑢𝑡 − 2(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑢𝑡 + (𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽).
Donde
1 𝑛 1 𝑛 1 𝑛 1 𝑛
𝑢̂ 𝑡 = 𝑢𝑡 − 2(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑢𝑡 + (𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽)
𝑛 𝑡= 𝑛 𝑡= 𝑛 𝑡= 𝑛 𝑡=
1 𝑛
= 𝑢𝑡 − 2(𝛽̂ − 𝛽)𝑇 𝑔•𝑛 + (𝛽̂ − 𝛽)𝑇 𝑆𝑥𝑥 (𝛽̂ − 𝛽) .
𝑛 𝑡=
Então,
1 𝑛 1 𝑛
plim 𝑢̂ 𝑡 = plim 𝑢𝑡 − 2 plim{ (𝛽̂ − 𝛽)𝑇 } plim (𝑔•𝑛 )
𝑛 𝑡= 𝑛 𝑡=
1 𝑛
= plim 𝑢𝑡 − 2 × 𝟎 × 𝐸(𝑥𝑇𝑡• 𝑢𝑡 ) + 𝟎 × 𝑄𝑥𝑥 × 𝟎
𝑛 𝑡=
1 𝑛
= plim 𝑢𝑡 = 𝐸(𝑢𝑡 ) = 𝜎 .
𝑛 𝑡=
𝑢̂ 𝑡 = 𝑢𝑡 − 2(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑢𝑡 + (𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽),
resulta
1 𝑛 1 𝑛
𝑆̂ = 𝑢̂ 𝑡 𝑥𝑇𝑡• 𝑥𝑡• = {𝑢𝑡 − 2(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑢𝑡 + (𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽)} 𝑥𝑇𝑡• 𝑥𝑡•
𝑛 𝑡= 𝑛 𝑡=
1 𝑛 1 𝑛
= 𝑢𝑡 𝑥𝑇𝑡• 𝑥𝑡• − {2(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑢𝑡 } 𝑥𝑇𝑡• 𝑥𝑡•
𝑛 𝑡= 𝑛 𝑡=
1 𝑛
+ {(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽)} 𝑥𝑇𝑡• 𝑥𝑡• .
𝑛 𝑡=
ou seja,
1 𝑛
plim {2(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑢𝑡 } 𝑥𝑇𝑡• 𝑥𝑡• = 𝑂,
𝑛 𝑡=
(3B.1)
1 𝑛
plim {(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽)} 𝑥𝑇𝑡• 𝑥𝑡• = 𝑂.
𝑛 𝑡=
Cada parcela de
𝑛
{2(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑢𝑡 } 𝑥𝑇𝑡• 𝑥𝑡•
𝑡=
é uma matriz da forma
⎡ 𝑥𝑡 ⋯ 𝑥𝑡 𝑥𝑡𝑘 ⎤
̂ 𝑇 𝑇
2(𝛽 − 𝛽) 𝑥𝑡• 𝑢𝑡 ⎢ ⋮ ⋮ ⎥,
⎢ 𝑥 𝑥 ⋯ 𝑥 ⎥
⎣ 𝑡 𝑡𝑘 𝑡𝑘 ⎦
944 Anexo 3B Demonstração de algumas propriedades
onde
(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑢𝑡 = (𝛽̂ − 𝛽 )𝑥𝑡 𝑢𝑡 + ⋯ + (𝛽̂𝑘 − 𝛽𝑘 )𝑥𝑡𝑘 𝑢𝑡 .
Assim, cada elemento daquela matriz é uma soma, onde cada parcela é da forma
1 𝑛
plim (𝑥𝑡𝑗 𝑢𝑡 𝑥𝑡𝑖 𝑥𝑡ℓ ) = 𝐸(𝑥𝑡𝑗 𝑢𝑡 𝑥𝑡𝑖 𝑥𝑡ℓ ).
𝑛 𝑡=
é da forma
⎡ 𝑥𝑡 ⋯ 𝑥𝑡 𝑥𝑡𝑘 ⎤
(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽) ⎢ ⋮ ⋮ ⎥,
⎢ 𝑥 𝑥 ⋯ 𝑥𝑡𝑘 ⎥
⎣ 𝑡 𝑡𝑘 ⎦
onde
(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽) = (𝛽̂ − 𝛽 ) 𝑥𝑡 + ⋯ + (𝛽̂ − 𝛽 )(𝛽̂𝑘 − 𝛽𝑘 )𝑥𝑡 𝑥𝑡𝑘
+ ⋯
+ (𝛽̂𝑘 − 𝛽𝑘 )(𝛽̂ − 𝛽 )𝑥𝑡𝑘 𝑥𝑡 + ⋯ + (𝛽̂𝑘 − 𝛽𝑘 ) 𝑥𝑡𝑘 .
Distribuição da estatística nR2 do teste de heterocedasticidade condicionada 945
Assim, cada elemento daquela matriz é uma soma, onde cada parcela é da forma
1 𝑛
{(𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽)} 𝑥𝑇𝑡• 𝑥𝑡•
𝑛 𝑡=
1 𝑛
(𝛽̂𝑖 − 𝛽𝑖 )(𝛽̂𝑗 − 𝛽𝑗 ) (𝑥𝑡𝑖 𝑥𝑡𝑗 𝑥𝑡ℓ 𝑥𝑡𝑝 ),
𝑛 𝑡=
ou seja, é o produto de (𝛽̂𝑖 − 𝛽𝑖 )(𝛽̂𝑗 − 𝛽𝑗 ) pela média amostral de 𝑥𝑡𝑖 𝑥𝑡𝑗 𝑥𝑡ℓ 𝑥𝑡𝑝 .
Como plim(𝛽̂𝑗 ) = 𝛽𝑗 , o limite em probabilidade destes produtos é nulo se se provar
que existe o valor esperado de 𝑥𝑡𝑖 𝑥𝑡𝑗 𝑥𝑡ℓ 𝑥𝑡𝑝 , pois neste caso,
1 𝑛
plim (𝑥𝑡𝑖 𝑥𝑡𝑗 𝑥𝑡ℓ 𝑥𝑡𝑝 ) = 𝐸(𝑥𝑡𝑖 𝑥𝑡𝑗 𝑥𝑡ℓ 𝑥𝑡𝑝 ).
𝑛 𝑡=
Com efeito, fazendo 𝑓 = 𝑥𝑡𝑖 𝑥𝑡𝑗 e ℎ = 𝑥𝑡ℓ 𝑥𝑡𝑝 , e devido à desigualdade de Cauchy -Schwarz,
tem-se
𝐸( | 𝑓 ℎ | ) ≤ 𝐸(𝑓 )𝐸(ℎ ),
ou
Como existem os valores esperados 𝐸{(𝑥𝑡𝑖 𝑥𝑡𝑗 ) } e 𝐸{(𝑥𝑡ℓ 𝑥𝑡𝑝 ) } (hipótese adicional), conclui-
-se que existe 𝐸(𝑥𝑡𝑖 𝑥𝑡𝑗 𝑥𝑡ℓ 𝑥𝑡𝑝 ). Fica, assim, demonstrada a segunda igualdade de (3B.1).
Este teste é baseado no modelo 𝑢𝑡 = 𝛼 + ℎ𝑡• 𝛼 + 𝑣𝑡 , onde ℎ𝑡• = ℎ(𝑥𝑡• ) é uma função
vectorial de 𝑥𝑡• , com 𝑞 − 1 componentes, e 𝛼 = [ 𝛼 𝛼 ⋯ 𝛼𝑞 ]𝑇 é um vector
de parâmetros de tipo (𝑞 − 1) × 1.
Supondo que 𝐸(𝑣𝑡 | 𝑥𝑡• ) = 𝜎𝑣 , resulta que 𝐸(𝑢𝑡 | 𝑥𝑡• ) = 𝜅 (homokurtosis condicio-
nada), onde 𝜅 = 𝜎 + 𝜎𝑣 .
𝑑
𝑛𝑅 → 𝜒 (𝑞 − 1),
Demonstração de (3.62)
a) Retome-se o modelo 𝑢𝑡 = 𝛼 + ℎ𝑡• 𝛼 + 𝑣𝑡 . Calculando o valor esperado de cada
membro desta igualdade, tem-se 𝜎 = 𝛼 + 𝜇ℎ 𝛼, onde 𝜇ℎ = 𝐸(ℎ𝑡• ). Subtraindo
ordenadamente as duas igualdades, obtém-se o modelo
𝑢𝑡 − 𝜎 = (ℎ𝑡• − 𝜇ℎ )𝛼 + 𝑣𝑡 .
Fazendo
vem
Logo,
1 𝑛 𝑑
(ℎ𝑡• − 𝜇ℎ )𝑇 (𝑢𝑡 − 𝜎 ) → 𝑁 (𝑞−) 𝟎, 𝜂 𝐸{(ℎ𝑡• − 𝜇ℎ )𝑇 (ℎ𝑡• − 𝜇ℎ )} , (3B.2)
√𝑛 𝑡=
∗ 𝑑
(𝑞−) 𝟎,
√𝑛 𝛼MQ → 𝑁 𝜂 𝐸{(ℎ𝑡• − 𝜇ℎ )𝑇 (ℎ𝑡• − 𝜇ℎ )}− .
1 𝑛 1 𝑛 1 𝑛
𝜎̂ = 𝑢̂ 𝑡 (estimador consistente de 𝜎 ), ℎ = ℎ𝑡• e 𝑒= 𝑒𝑡 .
𝑛 𝑡= 𝑛 𝑡= 𝑛 𝑡=
onde 𝛼̂ MQ é o estimador MQ de 𝛼.
948 Anexo 3B Demonstração de algumas propriedades
1 𝑛
𝜂̂ = (𝑢̂ 𝑡 − 𝜎̂ ) ,
𝑛 𝑡=
e
−
𝑛 ∑𝑛𝑡= (ℎ𝑡• − ℎ)𝑇 (ℎ𝑡• − ℎ)
𝑛𝑅 = (𝑢̂ 𝑡
− 𝜎̂ )(ℎ𝑡• − ℎ)
𝑡= 𝜂̂ (3B.4)
𝑛
× (ℎ𝑡• − ℎ) 𝑇
(𝑢̂ 𝑡
− 𝜎̂ ) .
𝑡=
Nas alíneas seguintes vai provar-se (3.62): a distribuição limite de 𝑛𝑅 é 𝜒 (𝑞 − 1).
1 𝑛 1 𝑛 𝑝
ℎ𝑇𝑡• (𝑢̂ 𝑡 − 𝜎̂ ) − (ℎ𝑡• − 𝜇ℎ )𝑇 (𝑢𝑡 − 𝜎 ) → 𝟎, (3B.5)
√𝑛 𝑡=
√𝑛 𝑡=
notando que
𝑛 𝑛
ℎ𝑇𝑡• (𝑢̂ 𝑡 − 𝜎̂ ) = (ℎ𝑇𝑡• − ℎ)(𝑢̂ 𝑡 − 𝜎̂ ).
𝑡= 𝑡=
1 𝑛 𝑝
(ℎ𝑡• − 𝜇ℎ )𝑇 (𝜎̂ − 𝜎 ) → 𝟎.
√𝑛 𝑡=
Distribuição da estatística nR2 do teste de heterocedasticidade condicionada 949
Com efeito, basta notar que, de acordo com o teorema do limite central de Lindeberg-
-Levy (versão vectorial), se tem
1 𝑛 𝑑
(ℎ𝑡• − 𝜇ℎ )𝑇 → 𝑁 (𝑞−) 𝟎, 𝐸{(ℎ𝑡• − 𝜇ℎ )(ℎ𝑡• − 𝜇ℎ )𝑇 } ,
√𝑛 𝑡=
e que plim(𝜎̂ − 𝜎 ) = 0.
Portanto,
1 𝑛 1 𝑛 𝑝
ℎ𝑇𝑡• (𝑢̂ 𝑡 − 𝜎̂ ) − (ℎ𝑡• − 𝜇ℎ )𝑇 (𝑢̂ 𝑡 − 𝜎 ) → 𝟎, (3B.6)
√𝑛 𝑡=
√𝑛 𝑡=
porque
1 𝑛 1 𝑛
ℎ𝑇𝑡• (𝑢̂ 𝑡 − 𝜎̂ ) − (ℎ𝑡• − 𝜇ℎ )𝑇 (𝑢̂ 𝑡 − 𝜎 ) =
√𝑛 𝑡=
√𝑛 𝑡=
1 𝑛
= (ℎ𝑡• − 𝜇ℎ )𝑇 (𝜎 − 𝜎̂ ).
√𝑛 𝑡=
1 𝑛
−2 𝑢𝑡 (ℎ𝑡• − 𝜇ℎ )𝑇 𝑥𝑡• (𝑏 − 𝛽) (3B.8)
√𝑛 𝑡=
1 𝑛
+ (ℎ𝑡• − 𝜇ℎ )𝑇 (𝑥𝑡• ⊗ 𝑥𝑡• ) Vec{ (𝑏 − 𝛽)(𝑏 − 𝛽)𝑇 },
√𝑛 𝑡=
onde:
𝑥𝑡• ⊗ 𝑥𝑡• é produto de Kronecker de 𝑥𝑡• por 𝑥𝑡• (vector 1 × 𝑘 que se obtém
multiplicando cada elemento de 𝑥𝑡• por todos os elementos de 𝑥𝑡• ):
{𝑥𝑡• (𝑏 − 𝛽)} = 𝑥𝑡• (𝑏 − 𝛽)(𝑏 − 𝛽)𝑇 𝑥𝑇𝑡• = (𝑥𝑡• ⊗ 𝑥𝑡• )Vec{ (𝑏 − 𝛽)(𝑏 − 𝛽)𝑇 }
1 𝑛 1 𝑛
𝑢𝑡 (ℎ𝑡• − 𝜇ℎ )𝑇 𝑥𝑡• (𝑏 − 𝛽) = 𝑢𝑡 (ℎ𝑡• − 𝜇ℎ )𝑇 𝑥𝑡• √𝑛(𝑏 − 𝛽).
√𝑛 𝑡= 𝑛 𝑡=
Sabe-se que a distribuição limite de √𝑛(𝑏 − 𝛽) é normal. Atendendo à lei dos gran-
des números e a que
𝐸{𝑢𝑡 (ℎ𝑡• − 𝜇ℎ )𝑇 𝑥𝑡• } = 𝐸(𝐸{𝑢𝑡 (ℎ𝑡• − 𝜇ℎ )𝑇 𝑥𝑡• | 𝑥𝑡• }) = 𝐸{𝐸(𝑢𝑡 | 𝑥𝑡• )(ℎ𝑡• − 𝜇ℎ )𝑇 𝑥𝑡• } = 𝑂,
vem
1 𝑛 𝑝
𝑢𝑡 (ℎ𝑡• − 𝜇ℎ )𝑇 𝑥𝑡• → 𝑂.
𝑛 𝑡=
1 1 𝑛
𝑡= (ℎ𝑡• − 𝜇ℎ ) (𝑥𝑡• ⊗ 𝑥𝑡• ) Vec{ √𝑛(𝑏 − 𝛽)√𝑛(𝑏 − 𝛽) }.
𝑇 𝑇
√𝑛 𝑛
Como:
Sabendo que
1 𝑛 1 𝑛
(𝑢̂ 𝑡 − 𝜎̂ )ℎ𝑡• = (𝑢̂ 𝑡 − 𝜎̂ )(ℎ𝑡• − ℎ),
√𝑛 𝑡=
√𝑛 𝑡=
tem-se
−
1 𝑛 𝑛 ∑𝑛𝑡= (ℎ𝑡• − ℎ)𝑇 (ℎ𝑡• − ℎ)
(𝑢̂ 𝑡
− 𝜎̂ )(ℎ𝑡• − ℎ) ×
√𝑛 𝑡= 𝜂̂
(3B.10)
1 𝑛 𝑑
× (ℎ𝑡• − ℎ)𝑇 (𝑢̂ 𝑡 − 𝜎̂ ) → 𝜒 (𝑞 − 1).
√𝑛 𝑡=
1 𝑛
× (ℎ𝑡• − ℎ)𝑇 (𝑢̂ 𝑡 − 𝜎̂ ) .
√𝑛 𝑡=
Portanto,
−
𝑛 𝑛
(𝑢̂ 𝑡 − 𝜎̂ )(ℎ𝑡• − ℎ) (𝑢̂ 𝑡 − 𝜎̂ ) (ℎ𝑡• − ℎ)𝑇 (ℎ𝑡• − ℎ) ×
𝑡= 𝑡=
(3B.12)
𝑛 𝑑
× (ℎ𝑡• − ℎ)𝑇 (𝑢̂ 𝑡 − 𝜎̂ ) → 𝜒 (𝑞 − 1).
𝑡=
Sem dificuldade se verifica que esta estatística-teste é a soma dos quadrados explicada
pela regressão de 1 sobre (𝑢̂ 𝑡 − 𝜎̂ )(ℎ𝑡• − ℎ) (sem termo independente). Como a soma
total dos quadrados é 𝑛, a estatística (3B.12) é igual a 𝑛 − VR∗ .
[3C]
Heterocedasticidade condicionada
com padrão conhecido
953
954 Anexo 3C Heterocedasticidade condicionada com padrão conhecido
⎡ 1 ⎤
0 ⋯ 0
⎢ 𝜎 ⎥
⎢ 1 ⎥
0 ⋯ 0 ⎥
𝑃=⎢ 𝜎 .
⎢ ⋮ ⋮ ⋮ ⎥
⎢ 1 ⎥
⎢ 0 0 ⋯ ⎥
⎣ 𝜎𝑛 ⎦
1
𝑄∗𝑥𝑥 = 𝐸{𝑥∗𝑡• 𝑇 𝑥∗𝑡• } = 𝐸
𝑥𝑇𝑡• 𝑥𝑡•
𝜎𝑡 (𝑥𝑡• )
Como
𝑦𝑡 1
{(𝑦∗𝑡 , 𝑥∗𝑡• )} = , 𝑥 � ,
𝜎𝑡 (𝑥𝑡• ) 𝜎𝑡 (𝑥𝑡• ) 𝑡•
e {(𝑦𝑡 , 𝑥𝑡• )} é 𝑖𝑖𝑑, então o processo {(𝑦∗𝑡 , 𝑥∗𝑡• )} é 𝑖𝑖𝑑, verificando-se RPD.2.
onde
1 1
𝑔∗𝑡• = 𝑥∗𝑡• 𝑢∗𝑡 = 𝑥𝑡• 𝑢𝑡 = 𝑔𝑡• ,
𝜎𝑡 (𝑥𝑡• ) 𝜎𝑡 (𝑥𝑡• )
verifica-se RPD.3.
Como, por hipótese, a matriz 𝑄∗𝑥𝑥 existe e tem inversa, tem-se RPD.4.
plim(𝑏𝑔 ) = 𝛽, (3C.4)
e
𝑑
(𝑘) ∗ −
√𝑛(𝑏𝑔 − 𝛽) → 𝑁 0, (𝑄𝑥𝑥 ) , (3C.5)
Então,
− −
𝑎 (𝑏𝑔 ) = 1 𝑛 1 𝑥𝑇𝑡• 𝑥𝑡•
Cov
1
= 𝑋 𝑇 Σ− 𝑋 . (3C.7)
𝑛 𝑡= 𝜎𝑡 𝑛
Quando 𝛿 = 𝑅𝛽, onde 𝑅 é uma matriz 𝑚 × 𝑘 com característica igual a 𝑚 ≤ 𝑘, facilmente
se verifica que [ver (3.46)]
𝑑
𝑄 = (𝛿̂𝑔 − 𝛿)𝑇 {𝑅 (𝑋 𝑇 Σ− 𝑋)− 𝑅𝑇 }− (𝛿̂𝑔 − 𝛿) → 𝜒 (𝑚), (3C.8)
Então,
⎡ 𝑥 0 ⋯ 0 ⎤
⎢ ⎥
0 𝑥 ⋯ 0
Cov(𝑈 | 𝑋) = 𝜆 Ω = 𝜆 ⎢ ⎥.
⎢ ⋮ ⋮ ⋱ ⋮ ⎥
⎢ 0 0 ⋯ 𝑥 ⎥
⎣ 𝑛 ⎦
Para ilustrar esta situação suponha-se que 𝑦𝑡 = 𝛽 + 𝛽 𝑥𝑡 + 𝛽 𝑥𝑡 + 𝑢𝑡 , e que 𝜎𝑡 =
= 𝛼 + 𝛼 ln(𝑥𝑡 ) + 𝛼 ln(𝑥𝑡 ). Tem-se: 𝑝 = 3; 𝑧𝑡 = 1; 𝑧𝑡 = ln(𝑥𝑡 ); 𝑧𝑡 = ln(𝑥𝑡 ).
Quando 𝛼 é desconhecido (embora seja conhecido o padrão de heterocedasticidade
condicionada), obviamente que a matriz Σ também é desconhecida. Neste caso, não se
pode utilizar (3C.2) para estimar os coeficientes de regressão 𝛽𝑗 ; é necessário determinar,
previamente, um estimador consistente do vector 𝛼.
Como 𝐸(𝑢𝑡 | 𝑥𝑡• ) = 𝑧𝑡• 𝛼, considere-se 𝜀𝑡 = 𝑢𝑡 − 𝐸(𝑢𝑡 | 𝑥𝑡• ), ou seja, a equação de regres-
são
𝑢𝑡 = 𝑧𝑡• 𝛼 + 𝜀𝑡 .
Naturalmente que 𝐸(𝜀𝑡 | 𝑥𝑡• ) = 0, e como 𝑧𝑡• é função de 𝑥𝑡• , conclui-se que 𝑧𝑡• e 𝜀𝑡 são or-
togonais, 𝐸(𝑧𝑡• 𝜀𝑡 ) = 𝟎. Então, supondo que a matriz 𝑄𝑧𝑧 = 𝐸(𝑧𝑇𝑡• 𝑧𝑡• ) existe e tem inversa,
o estimador MQ de 𝛼 seria um estimador CAN, se 𝑢𝑡 fosse observável. Contudo, como
tal não é possível, não pode ser esta a via para estimar 𝛼.
Contudo, considerando os resíduos MQ, 𝑢̂ 𝑡 = 𝑦𝑡 − 𝑥𝑡• 𝑏, relativos ao modelo original,
𝑦𝑡 = 𝑥𝑡• 𝛽 + 𝑢𝑡 (𝑏 é estimador consistente de 𝛽, com ou sem heterocedasticidade condicio-
nada), pode provar-se que um estimador consistente de 𝛼, 𝛼̂ , utilizando a regressão
𝑢̂ 𝑡 = 𝑧𝑡• 𝛼 + 𝜀′𝑡 ,
e que
1 𝑛
plim (𝛼̂ − 𝛼)̃ = 𝑄−
𝑧𝑧 plim 𝑧𝑇𝑡• (𝑢̂ 𝑡 − 𝑢𝑡 ) .
𝑛 𝑡=
958 Anexo 3C Heterocedasticidade condicionada com padrão conhecido
Vai provar-se que as duas somas do segundo membro desta igualdade convergem em
probabilidade para zero. Quanto à primeira soma, tem-se
1 𝑛
plim 𝑢𝑡 𝑧𝑇𝑡• 𝑥𝑡• plim (𝑏 − 𝛽) = 𝟎,
𝑛 𝑡=
𝐸(𝑢𝑡 𝑧𝑇𝑡• 𝑥𝑡• ) = 𝐸{𝐸(𝑢𝑡 𝑧𝑇𝑡• 𝑥𝑡• | 𝑥𝑡• )} = 𝐸{𝑧𝑇𝑡• 𝑥𝑡• 𝐸(𝑢𝑡 | 𝑥𝑡• )} = 𝑂,
é um vector da forma
⎡ 𝑧𝑡 ⎤
⎢ 𝑧𝑡 ⎥ 𝑇 𝑇
⎢ ⋮ ⎥ (𝑏 − 𝛽) 𝑥𝑡• 𝑥𝑡• (𝑏 − 𝛽),
⎢ ⎥
⎣ 𝑧𝑡𝑝 ⎦
onde
(𝑏 − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝑏 − 𝛽) = (𝑏 − 𝛽 ) 𝑥𝑡 + ⋯ + (𝑏 − 𝛽 )(𝑏𝑘 − 𝛽𝑘 )𝑥𝑡 𝑥𝑡𝑘
+ ⋯
+ (𝑏𝑘 − 𝛽𝑘 )(𝑏 − 𝛽 )𝑥𝑡𝑘 𝑥𝑡 + ⋯ + (𝑏𝑘 − 𝛽𝑘 ) 𝑥𝑡𝑘 .
Assim, cada elemento daquele vector é uma soma, onde cada parcela é da forma
ou seja, é o produto de (𝑏𝑖 − 𝛽𝑖 )(𝑏𝑗 − 𝛽𝑗 ) pela média amostral de 𝑧𝑡ℓ 𝑥𝑡𝑖 𝑥𝑡𝑗 .
Heterocedasticidade condicionada com padrão conhecido 959
Como plim(𝑏𝑗 ) = 𝛽𝑗 e, por hipótese, existem os momentos 𝐸(𝑧𝑡ℓ 𝑥𝑡𝑖 𝑥𝑡𝑗 ), o limite em
probabilidade daqueles produtos é nulo. Fica, assim, demonstrado que
plim(𝛼)̂ = plim(𝛼)̃ = 𝛼.
Note-se que na regressão 𝑢̂ 𝑡 = 𝑧𝑡• 𝛼 + 𝜀′𝑡 , a respectiva variável residual, 𝜀′𝑡 , pode ser con-
dicionalmente heterocedástica, o que não tem inconveniente (assintoticamente), pois
apenas é necessário dispor de um estimador consistente de 𝛼.
O estimador dos mínimos quadrados ponderados (MQP), uma vez estimado 𝛼 da
maneira indicada, é dado por
𝑏̂ 𝑔 = (𝑋 𝑇 Σ̂ − 𝑋)− 𝑋 𝑇 Σ̂ − 𝑌, (3C.10)
onde
⎡ 𝑧• 𝛼̂ 0 ⋯ 0 ⎤
⎢ ⎥
0 𝑧• 𝛼̂ ⋯ 0
Σ̂ = ⎢ ⎥,
⎢ ⋮ ⋮ ⋮ ⎥
⎢ 0 0 ⋯ 𝑧𝑛• 𝛼̂ ⎥
⎣ ⎦
ou, ainda,
−
𝑛 1 𝑇 𝑛 1 𝑇
𝑏̂ 𝑔 = 𝑥 𝑥
𝑡• 𝑡•
𝑥𝑡• 𝑦𝑡 , (3C.11)
𝑡= 𝜎̂ 𝑡 𝑡= 𝜎̂ 𝑡
em que 𝜎̂ 𝑡 = 𝑧𝑡• 𝛼̂ .
Pode, então, concluir-se que este estimador é consistente:
plim(𝑏̂ 𝑔 ) = 𝛽. (3C.12)
b) Tem-se
1 1
plim 𝑋 𝑇 Σ̂ − 𝑋 = plim 𝑋 𝑇 Σ− 𝑋 .
𝑛 𝑛
960 Anexo 3C Heterocedasticidade condicionada com padrão conhecido
Em resumo, dado o modelo 𝑦𝑡 = 𝑥𝑡• 𝛽 + 𝑢𝑡 , onde 𝐸(𝑢𝑡 | 𝑥𝑡• ) = 𝑧𝑡• 𝛼, a estimação dos
respectivos coeficientes de regressão é feita do seguinte modo:
Diz-se que um estimador CAN é assintoticamente mais eficiente que outro estimador
(para o mesmo parâmetro) se a diferença entre as matrizes das covariâncias assintóticas
do segundo e do primeiro é semidefinida positiva.
Nas condições descritas, dispõe-se de dois estimadores consistentes e assintotica-
mente normais: o estimador MQP (𝑏̂ 𝑔 ou 𝑏𝑔 ) e o estimador MQ (b). Pode verificar-se,
sem dificuldade, que 𝑏̂ 𝑔 é assintoticamente mais eficiente que 𝑏, ou seja,
−
1 𝑇
Cov𝑎 (𝑏) − Cov𝑎 (𝑏̂ 𝑔 ) = 𝑄− −
𝑥𝑥 𝑆 𝑄𝑥𝑥 − 𝐸 𝑥 𝑥
𝑧𝑡• 𝛼 𝑡• 𝑡•
é semidefinida positiva.
Com efeito, de acordo com (3C.14), sabe-se
− −
1 𝑇 1
Cov𝑎 (𝑏̂ 𝑔 ) = 𝐸 𝑥 𝑥 = plim 𝑋 𝑇 Σ− 𝑋 ,
𝑧𝑡• 𝛼 𝑡• 𝑡• 𝑛
1
plim 𝑋 𝑇 Σ𝑋 = 𝑆.
𝑛
Com efeito, seja
𝑆 = 𝐸(𝑢𝑡 𝑥𝑇𝑡• 𝑥𝑡• ) = 𝐸{𝐸(𝑢𝑡 𝑥𝑇𝑡• 𝑥𝑡• |𝑥𝑡• )} = 𝐸{𝐸(𝑢𝑡 |𝑥𝑡• )𝑥𝑇𝑡• 𝑥𝑡• } = 𝐸(𝑧𝑡• 𝛼𝑥𝑇𝑡• 𝑥𝑡• ).
Como {𝑥𝑡• } é 𝑖𝑖𝑑, e como 𝑧𝑡• é função de 𝑥𝑡• , tem-se que {𝑧𝑡• 𝛼𝑥𝑇𝑡• 𝑥𝑡• } também é 𝑖𝑖𝑑. Então,
a respectiva média amostral,
1 𝑛 1
(𝑧𝑡• 𝛼𝑥𝑇𝑡• 𝑥𝑡• ) = 𝑋 𝑇 Σ𝑋,
𝑛 𝑡= 𝑛
converge em probabilidade para 𝑆. Fica, assim, provado que Cov𝑎 (𝑏) − Cov𝑎 (𝑏̂ 𝑔 ) é semi-
definida positiva.
A superioridade assintótica de 𝑏̂ 𝑔 , relativamente a 𝑏, baseia-se na pressuposto de que
a dimensão da amostra é suficientemente grande, e que a forma funcional de 𝜎𝑡 (𝑥𝑡• ) está
correctamente especificada. Caso contrário, não fica garantido que o estimador MQP
dê melhores resultados que o estimador MQ.
Como os elementos de 𝑧𝑡• podem ser funções não lineares de 𝑥𝑡• , a forma linear em
𝛼, definida em (3C.9), abrange uma grande variedade de situações. No entanto, pode
ser interessante considerar outras formas funcionais, como
que tem a vantagem de garantir que exp{𝑧𝑡• 𝛼} > 0. Neste caso, a heterocedasticidade
condicionada designa-se por heterocedasticidade multiplicativa, uma vez que
Continua a utilizar-se o estimador (3C.11), com 𝜎̂ 𝑡 = exp{𝑧𝑡• 𝛼}̂ , mas prevalece a questão
de determinar um estimador consistente de 𝛼.
Pode demonstrar-se que os passos para estimar 𝛽 no modelo 𝑦𝑡 = 𝑥𝑡• 𝛽 + 𝑢𝑡 , onde
𝐸(𝑢𝑡 | 𝑥𝑡• ) = exp{𝑧𝑡• 𝛼}, são os seguintes:
𝑦𝑡 = 𝛽 + 𝛽 𝑥𝑡 + 𝑢𝑡 ,
a verificar REX.1, REX.2, REX.3 e REX.5 (mas não REX.4; pode haver autocorrelação).
Notando que
𝑛 𝑛 𝑛
(𝑥𝑡 − 𝑥)(𝑦𝑡 − 𝑦) (𝑥𝑡 − 𝑥)𝑦𝑡 (𝑥𝑡 − 𝑥)(𝛽 + 𝛽 𝑥𝑡 + 𝑢𝑡 )
𝑡= 𝑡= 𝑡=
𝑏 = 𝑛 = =
(𝑥𝑡 − 𝑥) VT𝑥 VT𝑥
𝑡=
𝑛 𝑛 𝑛
𝛽 (𝑥𝑡 − 𝑥)𝑥𝑡 + (𝑥𝑡 − 𝑥)𝑢𝑡 (𝑥𝑡 − 𝑥)𝑢𝑡
𝑡= 𝑡= 𝑡=
= = 𝛽 + ,
VT𝑥 VT𝑥
963
964 Anexo 3D Complementos sobre autocorrelação
1 𝑛 𝑛 𝑡−
= (𝑥𝑡 − 𝑥) Var(𝑢𝑡 | 𝑋) + 2 (𝑥𝑡 − 𝑥)(𝑥𝑡−𝑠 − 𝑥) Cov(𝑢𝑡 , 𝑢𝑡−𝑠 | 𝑋)
VT𝑥 𝑡= 𝑡= 𝑠=
𝜎𝑢 2 𝑛 𝑡−
= + (𝑥𝑡 − 𝑥)(𝑥𝑡−𝑠 − 𝑥) Cov(𝑢𝑡 , 𝑢𝑡−𝑠 | 𝑋) .
VT𝑥 VT𝑥 𝑡= 𝑠=
𝑑
𝑡𝜑̂ → 𝑁(0, 1),
Este tipo de procedimento pode ser utilizado para testar outros tipos de autocorrelação,
nomeadamente para os processos auto-regressivos de ordem dois ou superior, usando-
-se um teste do 𝐅.
Outra forma de detectar autocorrelação do tipo AR(1) é dada pelo teste de Durbin-
-Watson, que é talvez o teste mais conhecido, e, historicamente, o mais utilizado.
A estatística-teste 𝑛
(𝑢̂ 𝑡 − 𝑢̂ 𝑡− )
𝑑= 𝑡=
𝑛 , (3D.1)
𝑢̂ 𝑡−
𝑡=
onde se consideram os resíduos MQ do modelo proposto.
Pode fazer-se uma interpretação intuitiva dos valores assumidos por esta estatís-
tica, notando que a média dos resíduos MQ é nula. Se os resíduos estão positivamente
autocorrelacionados, verifica-se que cada resíduo tende a manter o sinal do resíduo an-
terior. Há vários resíduos seguidos com sinal positivo, e vários resíduos seguidos com
valor negativo, e, portanto, as diferenças entre dois valores sucessivos tendem a ser
pequenas e significativamente menores que os valores dos próprios resíduos. Então, 𝑑
tende, também, a assumir um valor pequeno.
Se a autocorrelação dos resíduos é negativa, então cada resíduo tende a ter o sinal
contrário do resíduo anterior. As diferenças sucessivas tendem a ser grandes, e maiores
que os valores dos próprios resíduos. O valor 𝑑 tende, também, a ser grande.
Pode demonstrar-se que
plim(𝑑) = 2(1 − 𝜑), (3D.2)
e, portanto, 0 < plim(𝑑) < 4. Pode afirmar-se que: 𝑑 varia aproximadamente entre 0 e
4; quando não há autocorrelação, 𝑑 é aproximadamente igual a 2.
Heuristicamente pode estabelecer-se o seguinte:
𝐸(𝑔𝑡 | 𝑔𝑡− , 𝑔𝑡− , …) = 𝐸(𝜀𝑡 𝜀𝑡− | 𝜀𝑡− 𝜀𝑡− , 𝜀𝑡− 𝜀𝑡− , …) = 𝜀𝑡− 𝐸(𝜀𝑡 | 𝜀𝑡− , 𝜀𝑡− , …) = 0.
𝑑
√𝑛 𝛾̂ → 𝑁(0, 𝜎 ).
𝑑
√𝑛 𝜌̂ → 𝑁(0, 1).
968 Anexo 3D Complementos sobre autocorrelação
1 𝑛 1 𝑛
𝛾̂ 𝑠 = 𝑢̂ 𝑡 𝑢̂ 𝑡−𝑠 = {𝑢𝑡 − 𝑥𝑡• (𝑏 − 𝛽)}{𝑢𝑡−𝑠 − 𝑥𝑡−𝑠,• (𝑏 − 𝛽)}
𝑛 𝑡=𝑠+ 𝑛 𝑡=𝑠+
1 𝑛 1 𝑛
= 𝛾̃ 𝑠 − (𝑥𝑡• 𝑢𝑡−𝑠 + 𝑥𝑡−𝑠,• 𝑢𝑡 )(𝑏 − 𝛽) + (𝑏 − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡−𝑠,• (𝑏 − 𝛽) .
𝑛 𝑡=𝑠+ 𝑛 𝑡=𝑠+
Supondo que existem os momentos 𝐸(𝑥𝑡• 𝑢𝑡−𝑠 ), 𝐸(𝑥𝑡−𝑠,• 𝑢𝑡 ) e 𝐸(𝑥𝑇𝑡• 𝑥𝑡−𝑠,• ), vem imediata-
mente que: plim (𝛾̂ 𝑠 − 𝛾̃ 𝑠 ) = 0 e plim (𝜌̂ 𝑠 − 𝜌̃ 𝑠 ) = 0.
Então,
plim(𝛾̂ 𝑠 ) = 𝛾𝑠 e plim(𝜌̂ 𝑠 ) = 𝜌𝑠 .
√𝑛 𝛾̂ 𝑠 e √𝑛 𝛾̃ 𝑠
plim √𝑛 𝛾̂ 𝑠 − √𝑛 𝛾̃ 𝑠 = 0.
Com efeito,
1 𝑛
√𝑛 𝛾̂ 𝑠 = √𝑛 𝛾̃ 𝑠 − 𝑡=𝑠+ (𝑥𝑡• 𝑢𝑡−𝑠 + 𝑥𝑡−𝑠,• 𝑢𝑡 ) √𝑛(𝑏 − 𝛽)
𝑛
1 𝑛
+ (𝑏 − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡−𝑠,• √𝑛(𝑏 − 𝛽) .
𝑛 𝑡=𝑠+
Sabendo que √𝑛(𝑏−𝛽) converge em distribuição para um vector aleatório com distribui-
ção normal 𝑘-dimensional, em que condições as terceira e segunda parcelas do segundo
membro daquela igualdade convergem em probabilidade para 0?
Distribuições limite de QBP e QLP 969
Como
1 𝑛
plim(𝑏) = 𝛽 e plim 𝑥𝑇𝑡• 𝑥𝑡−𝑠,• = 𝐸(𝑥𝑇𝑡• 𝑥𝑡−𝑠,• ),
𝑛 𝑡=𝑠+
𝑑
plim √𝑛 𝛾̂ 𝑠 − √𝑛 𝛾̃ 𝑠 = 0 e
√𝑛 𝛾̃ 𝑠 → 𝑁(0, 𝜎 ),
também se tem
𝑑
√𝑛 𝛾̂ 𝑠 → 𝑁(0, 𝜎 ),
𝛾̃ 𝑠 𝛾̂ 𝑠 1 1 1 1 1
− = 𝛾̃ 𝑠 − − 𝛾̂ 𝑠 − + (𝛾̃ 𝑠 − 𝛾̂ 𝑠 ),
𝛾̃ 𝛾̂ 𝛾̃ 𝜎 𝛾̂ 𝜎 𝜎
vem
𝛾̃ 𝑠 𝛾̂ 𝑠 1 1 1 1 1
√𝑛 𝜌̃ 𝑠 − √𝑛 𝜌̂ 𝑠 = √𝑛 − = √𝑛 𝛾̃ 𝑠 − − √𝑛 𝛾̂ 𝑠 − + (√𝑛 𝛾̃ 𝑠 − √𝑛 𝛾̂ 𝑠 ).
̃𝛾 𝛾̂ ̃𝛾 𝜎 ̂𝛾 𝜎 𝜎
plim √𝑛 𝜌̃ 𝑠 − √𝑛 𝜌̂ 𝑠 = 0.
Deste modo, as estatísticas 𝑄BP e 𝑄LB , onde 𝜌̂ 𝑠 é calculado com os resíduos MQ, conti-
nuam a ter distribuições limite do qui-quadrado.
970 Anexo 3D Complementos sobre autocorrelação
1 𝑛
√𝑛 𝛾̂ 𝑠 = √𝑛 𝛾̃ 𝑠 − 𝑡=𝑠+ (𝑥𝑡• 𝑢𝑡−𝑠 + 𝑥𝑡−𝑠,• 𝑢𝑡 ) √𝑛 (𝑏 − 𝛽)
𝑛
1 𝑛
+ (𝑏 − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡−𝑠,• √𝑛 (𝑏 − 𝛽)
𝑛 𝑡=𝑠+
𝑎 1 𝑛
∼ √𝑛 𝛾̃ 𝑠 − (𝑥𝑡• 𝑢𝑡−𝑠 + 𝑥𝑡−𝑠,• 𝑢𝑡 ) √𝑛 (𝑏 − 𝛽) ,
𝑛 𝑡=𝑠+
vem
𝑎
√𝑛 𝛾̂ 𝑠 ∼ √𝑛 𝛾̃ 𝑠 − 𝐸(𝑥𝑡• 𝑢𝑡−𝑠 + 𝑥𝑡−𝑠,• 𝑢𝑡 )√𝑛 (𝑏 − 𝛽).
A condição 1) [do teorema 3.10] permite concluir que 𝐸(𝑥𝑡−𝑠,• 𝑢𝑡 ) = 0. Então,
𝑎
√𝑛 𝛾̂ 𝑠 ∼ √𝑛 𝛾̃ 𝑠 − 𝐸(𝑥𝑡• 𝑢𝑡−𝑠 )√𝑛 (𝑏 − 𝛽).
Como 𝑏 − 𝛽 = 𝑆−
𝑥𝑥 𝑔•𝑛 , e atendendo a (3.78), tem-se
𝑎 1 𝑛 −
√𝑛 𝛾̂ 𝑠 ∼ √𝑛 𝑡=𝑠+ 𝑢𝑡 𝑢𝑡−𝑠 − 𝐸(𝑥𝑡• 𝑢𝑡−𝑠 ) 𝑆𝑥𝑥 𝑔•𝑛 .
𝑛
1 𝑛 1 𝑛 1 𝑠 𝑝
𝑢𝑡 𝑢𝑡−𝑠 − 𝑢𝑡 𝑢𝑡−𝑠 = 𝑢𝑡 𝑢𝑡−𝑠 → 0,
𝑛 𝑡= 𝑛 𝑡=𝑠+ 𝑛 𝑡=
𝑎 1 𝑛 −
√𝑛 𝛾̂ 𝑠 ∼ √𝑛 𝑡= 𝑢𝑡 𝑢𝑡−𝑠 − 𝐸(𝑥𝑡• 𝑢𝑡−𝑠 ) 𝑄𝑥𝑥 𝑔•𝑛 .
𝑛
Fazendo
⎡ 𝑢𝑡 𝑢𝑡−𝑠 ⎤ ⎡ 𝑢𝑡 𝑢𝑡−𝑠 ⎤
𝑐𝑠• = 1 −𝐸(𝑥 𝑢
𝑡• 𝑡−𝑠 ) 𝑄 −
𝑥𝑥 , ℎ•𝑠𝑡 =
⎢ ⎥=⎢ ⎥ e ℎ•𝑠 = 1 𝑛 ℎ•𝑠𝑡 ,
⎢ 𝑔𝑇 ⎥ ⎢ 𝑥𝑇 𝑢 ⎥ 𝑛 𝑡=
⎣ 𝑡• ⎦ ⎣ 𝑡• 𝑡 ⎦
Demonstração do teorema 3.10 971
vem
𝑎
√𝑛 𝛾̂ 𝑠 ∼ 𝑐𝑠• √𝑛 ℎ•𝑠 .
onde:
⎡ 𝑐• 𝟎 ⋯ 𝟎 ⎤
⎢ ⎥
⎢ 𝟎 𝑐• ⋯ 𝟎 ⎥
𝐶=⎢ ⎥ é uma matriz 𝑝 × 𝑝(𝑘 + 1);
⋮ ⋮ ⋮
⎢ ⎥
⎢ 𝟎 𝟎 ⋯ 𝑐𝑝• ⎥
⎣ ⎦
⎡ ℎ•𝑡 ⎤
⎢ ⎥
1 𝑛 ℎ•𝑡
ℎ = ℎ•𝑡 onde ℎ•𝑡 = ⎢ ⎥ é um vector 𝑝(𝑘 + 1) × 1
𝑛 𝑡= ⎢ ⋮ ⎥
⎢ ℎ ⎥
⎣ •𝑝𝑡 ⎦
Prova-se a seguir que {ℎ•𝑡 } é uma diferença-martingala, ou seja,
Como {ℎ•,𝑡− , ℎ•,𝑡− , …} tem menos informação do que {𝑥𝑡• , 𝑥𝑡−,• , … , 𝑢𝑡− , 𝑢𝑡− , …}, tem--se
𝐸(ℎ•𝑠𝑡 | ℎ•,𝑡− , ℎ•,𝑡− , …) = 𝐸{𝐸(ℎ•𝑠𝑡 | 𝑥𝑡• , 𝑥𝑡−,• , … , 𝑢𝑡− , 𝑢𝑡− , …)|ℎ•,𝑡− , ℎ•,𝑡− , …} = 𝟎,
uma vez que, recorrendo à condição 1), 𝐸(ℎ•𝑠𝑡 | 𝑥𝑡• , 𝑥𝑡−,• , … , 𝑢𝑡− , 𝑢𝑡− , …) = 𝟎.
Como {ℎ•𝑡 } é estacionário e ergódico, o teorema do limite central de Billingsley per-
mite concluir que
𝑑
√𝑛 ℎ → 𝑁
{𝑝(𝑘+)} 𝟎,
𝐸(ℎ•𝑡 ℎ𝑇•𝑡 ) .
972 Anexo 3D Complementos sobre autocorrelação
⎡ ℎ
•𝑡
⎤ ⎡ ℎ ℎ𝑇 𝑇
•𝑡 •𝑡 ℎ•𝑡 ℎ•𝑡 ⋯ ℎ•𝑡 ℎ𝑇•𝑝𝑡 ⎤
⎢ ⎥ ⎢ ⎥
⎢ ℎ•𝑡 ⎥ 𝑇
⎢ ℎ•𝑡 ℎ𝑇•𝑡 ℎ•𝑡 ℎ𝑇•𝑡 ⋯ ℎ•𝑡 ℎ𝑇•𝑝𝑡 ⎥
ℎ•𝑡 ℎ𝑇•𝑡 = ⎢ ⎥ ℎ•𝑡 ℎ𝑇•𝑡 ⋯ ℎ𝑇•𝑝𝑡 =⎢ ⎥.
⋮ ⋮ ⋮ ⋮
⎢ ⎥ ⎢ ⎥
⎢ ℎ•𝑝𝑡 ⎥ ⎢ ℎ•𝑝𝑡 ℎ𝑇•𝑡 ℎ•𝑝𝑡 ℎ𝑇•𝑡 ⋯ ℎ•𝑝𝑡 ℎ𝑇•𝑝𝑡 ⎥
⎣ ⎦ ⎣ ⎦
Para o bloco (𝑠, 𝑟), tem-se
Então,
⎡ 𝜎 𝛿𝑠𝑟 𝜎 𝐸(𝑥𝑡• 𝑢𝑡−𝑠 ) ⎤
𝐸(ℎ•𝑠𝑡 ℎ𝑇•𝑟𝑡 ) =⎢ ⎥,
𝑇
⎣ 𝜎 𝐸(𝑥𝑡• 𝑢𝑡−𝑟 ) 𝜎 𝑄𝑥𝑥 ⎦
onde 𝛿𝑠𝑟 é o delta de Kronecker,
⎧ 1 (𝑠 = 𝑟)
⎪
𝛿𝑠𝑟 = ⎨
⎪ 0 (𝑠 ≠ 𝑟) .
⎩
Como
𝑎 𝑑
√𝑛 𝛾̂ ∼ 𝐶√𝑛 ℎ e √𝑛 ℎ → 𝑁
{𝑝(𝑘+)} 𝟎,
𝐸(ℎ•𝑡 ℎ𝑇•𝑡 ) ,
vem
𝑑
(𝑝) 𝑇 𝑇
√𝑛 𝛾̂ → 𝑁 𝟎, 𝐶 𝐸(ℎ•𝑡 ℎ•𝑡 ) 𝐶 ,
Demonstração do teorema 3.11 973
onde Cov𝑎 (𝛾)̂ = 𝐶 𝐸(ℎ•𝑡 ℎ𝑇•𝑡 ) 𝐶𝑇 . O elemento (𝑠, 𝑟) desta matriz é dado por
𝑇
𝐸(𝑥𝑡• 𝑢𝑡−𝑠 ) 𝑄−
𝑥𝑥 𝐸(𝑥𝑡• 𝑢𝑡−𝑟 )
= 𝜎 𝛿𝑠𝑟 −
= 𝜎 (𝛿𝑠𝑟 − 𝜙𝑠𝑟 ) .
𝜎
Então,
𝑑(𝑝)
√𝑛 𝛾̂ → 𝑁 𝟎, 𝜎 (𝐼𝑝 − Φ) .
Como
𝑎 √𝑛 𝛾̂
√𝑛 𝜌̂ ∼ ,
𝜎
resulta que √𝑛 𝜌̂ e √𝑛 𝛾/𝜎
̂ têm a mesma distribuição limite. Então,
𝑑
(𝑝)
√𝑛 𝜌̂ → 𝑁 𝟎, 𝐼𝑝 − Φ .
⎡ (1/𝑛)𝑋 𝑇 𝑈̂ ⎤
𝛼̂ = 𝑆−
𝑤𝑤 ⎢ ⎥.
⎣ (1/𝑛)𝐸 𝑈̂ ⎦
𝑇
1 1 𝑛
(𝑢̂ 𝑠+ 𝑢̂ + ⋯ + 𝑢̂ 𝑛 𝑢̂ 𝑛−𝑠 ) = 𝑢̂ 𝑡 𝑢̂ 𝑡−𝑠 = 𝛾̂ 𝑠 ,
𝑛 𝑛 𝑡=𝑠+
obtém-se
⎡ 𝟎 ⎤
𝛼̂ = 𝑆−
𝑤𝑤 ⎢ ⎥.
⎣ 𝛾̂ ⎦
é uma matriz 𝑘 × 𝑝.
A coluna 𝑠 de (1/𝑛)𝑋 𝑇 𝐸 é
1 𝑛 1 𝑛
𝑥𝑇𝑡• 𝑢̂ 𝑡−𝑠 = 𝑥𝑇𝑡• (𝑦𝑡−𝑠 − 𝑥𝑡−𝑠,• 𝑏 + 𝑥𝑡−𝑠,• 𝛽 − 𝑥𝑡−𝑠,• 𝛽)
𝑛 𝑡=𝑠+ 𝑛 𝑡=𝑠+
1 𝑛
= 𝑥𝑇𝑡• {𝑢𝑡−𝑠 − 𝑥𝑡−𝑠,• (𝑏 − 𝛽)}
𝑛 𝑡=𝑠+
1 𝑛 1 𝑛
= 𝑥𝑇𝑡• 𝑢𝑡−𝑠 − 𝑥𝑇𝑡• 𝑥𝑡−𝑠,• (𝑏 − 𝛽) .
𝑛 𝑡=𝑠+ 𝑛 𝑡=𝑠+
1 𝑛 1 𝑛
plim 𝑥𝑇𝑡• 𝑢̂ 𝑡−𝑠 = plim 𝑥𝑇𝑡• 𝑢𝑡−𝑠 = 𝐸(𝑥𝑇𝑡• 𝑢𝑡−𝑠 ).
𝑛 𝑡=𝑠+ 𝑛 𝑡=𝑠+
Demonstração do teorema 3.11 975
1 𝑛
= 𝑢𝑡 𝑢𝑡−(𝑟−𝑠)
𝑛 𝑡=𝑟−𝑠+
1 𝑛
− (𝑥𝑡• 𝑢𝑡−(𝑟−𝑠) + 𝑥𝑡−(𝑟−𝑠),• 𝑢𝑡 )(𝑏 − 𝛽)
𝑛 𝑡=𝑟−𝑠+
1 𝑛
+ (𝑏 − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡−(𝑟−𝑠),• (𝑏 − 𝛽) .
𝑛 𝑡=𝑟−𝑠+
Como os limites em probabilidade das segunda e terceira parcelas são nulos, vem
1 𝑛 1 𝑛 𝜎 (𝑟 = 𝑠)
plim 𝑢̂ 𝑡 𝑢̂ 𝑡−(𝑟−𝑠) = plim 𝑢𝑡 𝑢𝑡−(𝑟−𝑠) = 𝛾𝑟−𝑠 = .
𝑛 𝑡=𝑟−𝑠+ 𝑛 𝑡=𝑟−𝑠+ 0 (𝑟 ≠ 𝑠)
1 𝑛
= 𝑢𝑡 𝑢𝑡−𝑠
𝑛 𝑡=𝑠+
,
1 𝑛
− (𝑥𝑡• 𝑢𝑡−𝑠 + 𝑥𝑡−𝑠,• 𝑢𝑡 )(𝑏 − 𝛽)
𝑛 𝑡=𝑠+
1 𝑛
+ (𝑏 − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡−𝑠,• (𝑏 − 𝛽) ,
𝑛 𝑡=𝑠+
𝟎
plim(𝛼)̂ = plim 𝑆−
𝑤𝑤 = 𝟎.
𝛾̂
onde SQR é a soma dos quadrados dos resíduos da regressão auxiliar, 𝜎 = 𝐸(𝑢𝑡 )
e 𝑢𝑡 é a variável residual da regressão original.
Notando que
𝑇
𝑈̂ − 𝑋 𝐸 𝛼
̂ 𝑋 𝐸 =𝟎 e (1/𝑛)𝐸𝑇 𝑈̂ = 𝛾,̂
tem-se
SQR 1 𝑇 1 𝑇
= 𝑈̂ − 𝑋 ̂ 𝑈̂ − 𝑋
𝐸 𝛼 𝐸 𝛼
̂ = 𝑈̂ − 𝑋 ̂ 𝑈̂
𝐸 𝛼
𝑛 𝑛 𝑛
1 𝑇 1 𝑇 1 𝑇 ⎡ (1/𝑛)𝑋 𝑇 𝑈̂ ⎤
= 𝑈̂ 𝑈̂ − 𝛼̂ 𝑇 𝑋 𝐸 𝑈̂ = 𝑈̂ 𝑈̂ − 𝛼̂ 𝑇 ⎢ ⎥
𝑛 𝑛 𝑛 ⎣ (1/𝑛)𝐸 𝑈̂ ⎦
𝑇
1 𝑇 𝟎
= 𝑈̂ 𝑈̂ − 𝛼̂ 𝑇 .
𝑛 𝛾̂
SQR SQR
plim = plim
=𝜎 .
𝑛 𝑛−𝑘−𝑝
𝑛𝛾̂ 𝑇 𝑆
𝑤𝑤 𝛾̂
𝑝𝐹 = .
SQR/(𝑛 − 𝑘 − 𝑝)
Como
𝟎 1 1
𝑅𝛼̂ = 𝑂 𝐼𝑝 𝑆−
𝑤𝑤
= 𝑆𝑤𝑤 𝛾̂ e 𝑅(𝑊 𝑇 𝑊)− 𝑅𝑇 = 𝑅 𝑆− 𝑇
𝑤𝑤 𝑅 = 𝑆 ,
𝛾̂ 𝑛 𝑛 𝑤𝑤
obtém-se
(𝑆 ̂ 𝑇 {(1/𝑛)𝑆
𝑤𝑤 𝛾)
− ̂
𝑤𝑤 } (𝑆𝑤𝑤 𝛾)/𝑝 𝑛𝛾̂ 𝑇 𝑆 ̂
𝑤𝑤 𝛾/𝑝
𝐹= = .
SQR/(𝑛 − 𝑘 − 𝑝) SQR/(𝑛 − 𝑘 − 𝑝)
Demonstração do teorema 3.11 977
𝑝
(𝑄′BP − 𝑝𝐹) → 0.
𝑛 𝛾̂ 𝑇 (𝐼𝑝 − Φ)− 𝛾̂
.
𝜎
Notando que
√𝑛 ̂ 𝑝 𝑝
√𝑛 𝜌̂ − 𝛾→𝟎 e Φ̂ → Φ,
𝜎
tem-se
′
𝑛 𝛾̂ 𝑇 (𝐼𝑝 − Φ)− 𝛾̂ 𝑝
𝑄BP − → 0.
𝜎
Comparando (3.83) com a linha genérica de (1/𝑛)𝐸𝑇 𝑋 , facilmente se verifica que
1 1 𝑇
𝑠 Φ̂ = 𝐸𝑇 𝑋 𝑆−
𝑥𝑥 𝑋 𝐸 .
𝑛 𝑛
Então,
̂ − 𝛾̂
𝑛𝛾̂ 𝑇 {(1/𝑛) 𝐸𝑇 𝐸 − 𝑠 Φ}
𝑝𝐹 = .
SQR/(𝑛 − 𝑘 + 𝑝)
Como
𝑝 SQR 𝑝 1 𝑝 𝑝
𝑠 → 𝜎 , → 𝜎 , 𝐸𝑇 𝐸 → 𝜎 𝐼𝑝 e Φ̂ → Φ,
𝑛−𝑘−𝑝 𝑛
conclui-se que 𝑝𝐹 é assintoticamente equivalente a
No MRL-RPD uma das hipóteses básicas é que o processo {(𝑦𝑡 , 𝑥𝑡• )} é estacionário. No
entanto, no modelo de regressão linear com tendência determinística esta hipótese
deixa de se verificar.
Seja
𝑦𝑡 = 𝛽 + 𝛽 𝑡 + 𝑢𝑡 , (3E.1)
onde {𝑢𝑡 } é um ruído branco independente com 𝐸(𝑢𝑡 ) = 𝜎 .
Neste caso,
𝛽
𝑥𝑡• = [ 1 𝑡 ] e 𝛽 = .
𝛽
Facilmente se conclui que {(𝑦𝑡 , 𝑥𝑡• )} não é estacionário, pois
𝐸(𝑥𝑡• ) = [ 1 𝑡 ] e 𝐸(𝑦𝑡 ) = 𝛽 + 𝛽 𝑡
979
980 Anexo 3E O tempo como regressor
tem-se
𝑛 ⎡ 𝑛(𝑛 + 1) ⎤
⎡ 𝑛 𝑡 ⎤ 𝑛
𝑛 𝑡= ⎢ 2 ⎥
𝑇
𝑋 𝑋= 𝑇
𝑥𝑡• 𝑥𝑡• = ⎢ ⎥=
𝑡= 𝑛 𝑛 ⎢ 𝑛(𝑛 + 1) 𝑛(𝑛 + 1)(2𝑛 + 1) ⎥,
⎢ 𝑡 𝑡 ⎥
⎣ 𝑡= 𝑡= ⎦ ⎢ 2 6
⎥
⎣ ⎦
𝑛
⎡ 𝑦𝑡 ⎤
𝑛 𝑡=
𝑋 𝑇 𝑌 = 𝑥𝑇𝑡• 𝑦𝑡 = ⎢ ⎥,
𝑡= ⎢ 𝑛 𝑡𝑦 ⎥
𝑡
⎣ 𝑡= ⎦
⎡ 2(2𝑛 + 1) 6 ⎤
− ⎢ 𝑛(𝑛 − 1) ⎥
𝑛 𝑛(1 − 𝑛)
(𝑋 𝑇 𝑋)− = 𝑥𝑇𝑡• 𝑥𝑡• =⎢ ⎥.
𝑡= 6 12
⎢ ⎥
⎣ 𝑛(1 − 𝑛) 𝑛(𝑛 + 1)(𝑛 − 1) ⎦
⎡ 2(2𝑛 + 1) 6 ⎤ 𝑛
⎡ 𝑦𝑡 ⎤
𝑏 ⎢ 𝑛(𝑛 − 1) 𝑛(1 − 𝑛) ⎥ 𝑡=
𝑏= =⎢ ⎢ ⎥,
𝑏 6 12 ⎥ 𝑛
⎢ 𝑡𝑦 ⎥
⎢ ⎥ ⎣ 𝑡=
𝑡
⎦
⎣ 𝑛(1 − 𝑛) 𝑛(𝑛 + 1)(𝑛 − 1) ⎦
ou seja,
2(2𝑛 + 1) 𝑛 6 𝑛
𝑏 = 𝑦𝑡 + 𝑡𝑦𝑡 ,
𝑛(𝑛 − 1) 𝑡= 𝑛(1 − 𝑛) 𝑡=
6 𝑛 12 𝑛
𝑏 = 𝑦𝑡 + 𝑡𝑦𝑡 .
𝑛(1 − 𝑛) 𝑡= 𝑛(𝑛 + 1)(𝑛 − 1) 𝑡=
2(2𝑛 + 1) 𝑛 6 𝑛
𝑏 − 𝛽 = 𝑢𝑡 + 𝑡 𝑢𝑡 ,
𝑛(𝑛 − 1) 𝑡= 𝑛(1 − 𝑛) 𝑡=
6 𝑛 12 𝑛
𝑏 − 𝛽 = 𝑢𝑡 + 𝑡 𝑢𝑡 ,
𝑛(1 − 𝑛) 𝑡= 𝑛(𝑛 + 1)(𝑛 − 1) 𝑡=
o que permite concluir, sem dificuldade, que estes estimadores são consistentes.
No entanto, não basta considerar √𝑛(𝑏 − 𝛽) para obter distribuições limite não dege-
neradas.
O tempo como regressor 981
⎡ 𝑛+1 ⎤
1
1 𝑇 1 𝑛 𝑇
⎢ 2 ⎥
𝑆𝑥𝑥 = 𝑋 𝑋 = 𝑥𝑡• 𝑥𝑡• = ⎢ ⎥
𝑛 𝑛 𝑡= 𝑛+1 (𝑛 + 1)(2𝑛 + 1)
⎢ ⎥
⎣ 2 6 ⎦
é divergente, e, portanto, não converge (em probabilidade) para uma matriz quadrada
não singular. Nestas condições, não se pode obter um resultado semelhante a (3.38)
para basear a inferência estatística.
Analisem-se os elementos
𝑛 𝑛(𝑛 + 1) 𝑛 𝑛
𝑡= = + ,
𝑡= 2 2 2
𝑛 𝑛(𝑛 + 1)(2𝑛 + 1) 𝑛 𝑛 𝑛
𝑡 = = + + ,
𝑡= 6 3 2 6
𝑛 𝑛𝑞+
𝑡𝑞 é ,
𝑡= 𝑞+1
1 𝑛 1
𝑡𝑞 → .
𝑛𝑞+ 𝑡= 𝑞+1
⎡ 1 1 1 ⎤
+
1 𝑇 1 𝑛 ⎢ 𝑛 2 2𝑛 ⎥
𝑋 𝑋 = 𝑥𝑇𝑡• 𝑥𝑡• = ⎢ ⎥
𝑛 𝑛 𝑡= 1 1 𝑛 1 1
⎢ + + + ⎥
⎣ 2 2𝑛 3 2 6𝑛 ⎦
ainda é divergente.
982 Anexo 3E O tempo como regressor
Como
⎡ 1 1 1 ⎤
⎢ + ⎥
1 𝑇 1 𝑛 𝑛 2𝑛 2𝑛 0 0
𝑋 𝑋 = 𝑥𝑇𝑡• 𝑥𝑡• = ⎢ ⎥ → 0 1/3 ,
𝑛 𝑛 𝑡= 1 1 1 1 1
⎢ + + + ⎥
⎣ 2𝑛 2𝑛 3 2𝑛 6𝑛 ⎦
a matriz limite de (1/𝑛 )𝑋 𝑇 𝑋 não tem inversa (matriz singular).
Como se sabe, o facto de um certo estimador, 𝛽̂, ser consistente não dá qualquer
indicação sobre os resultados que se devem utilizar na inferência estatística, uma vez
que a distribuição limite do estimador é degenerada. Assim, é necessário dispor de uma
transformação do estimador, ℎ(𝛽)̂ , de tal modo que ℎ(𝛽)̂ tenha distribuição limite não
degenerada. Diz-se, então, que ℎ é uma transformação estabilizadora. Por exemplo,
na secção 3.4, provou-se que, no caso do MRL-RPD,
ℎ(𝑏) = √𝑛(𝑏 − 𝛽)
tem distribuição limite não degenerada [ver propriedade 3.2]. Nestas condições, diz-se
que 𝑏 é estimador consistente com taxa de convergência igual a √𝑛, ou que 𝑏 é estimador
√𝑛-consistente.
Como vai ver-se, no caso do modelo (3E.1) os estimadores 𝑏 e 𝑏 apresentam taxas
de convergência diferentes. Suponha-se que as transformações estabilizadoras de 𝑏 e
𝑏 — que conduzem a distribuições limite não degeneradas — são, respectivamente,
onde 𝑛𝛾 e 𝑛𝛾 são as respectivas taxas de convergência (no caso da propriedade 3.2,
tem-se 𝛾 = 1/2).
Fazendo
⎡ 𝑛𝛾 0 ⎤
Γ𝑛 = ⎢ ,
𝛾 ⎥
⎣ 0 𝑛 ⎦
vem
⎡ 𝑛𝛾 (𝑏 − 𝛽 ) ⎤ 𝑇 − 𝑇 − 𝑇 − − − 𝑇 −
Γ𝑛 (𝑏 − 𝛽) = ⎢ ⎥ = Γ𝑛 (𝑋 𝑋) 𝑋 𝑈 = (Γ𝑛 𝑋 𝑋 Γ𝑛 ) (Γ𝑛 𝑋 𝑈) = 𝑄𝑛 𝑉•𝑛 ,
𝛾
⎣ 𝑛 (𝑏 − 𝛽 ) ⎦
verificar as condições
𝑝 𝑑
𝑄𝑛 → 𝑄 (não singular) e 𝑉•𝑛 → 𝑉 ∼ 𝑁 () (𝟎, 𝜎 𝑄).
O tempo como regressor 983
⎡ 𝑛+1 ⎤
1
⎢ 2𝑛 ⎥ 1 1/2
𝑄𝑛 = ⎢ ⎥ → 𝑄 = 1/2 1/3 .
𝑛+1 (𝑛 + 1)(2𝑛 + 1)
⎢ ⎥
⎣ 2𝑛 6𝑛 ⎦
Neste caso, obtém-se
⎡ 1 𝑛 ⎤
𝑛 𝑢𝑡
⎡ 𝑢𝑡 ⎤ ⎢ ⎥
𝑛−/ 0 𝑡= √𝑛 𝑡=
𝑉•𝑛 = ⎢ ⎥=⎢ ⎥,
0 𝑛−/ 𝑛
⎢ 𝑡𝑢 ⎥ ⎢ 1 𝑛 𝑡 ⎥
⎣ 𝑡
⎦ ⎢ 𝑢𝑡
𝑡=
𝑛 𝑡= 𝑛 ⎥
⎣ √ ⎦
podendo demonstrar-se que [Hamilton (1994), pp. 458–460]
𝑑
𝑉•𝑛 → 𝑁 () (𝟎, 𝜎 𝑄),
⎡ √𝑛(𝑏 − 𝛽 ) ⎤ 𝑑
Γ𝑛 (𝑏 − 𝛽) = ⎢ () −
⎥ → 𝑁 (𝟎, 𝜎 𝑄 ), (3E.2)
/
⎣ 𝑛 (𝑏 − 𝛽 ) ⎦
onde
4 −6
𝑄− = .
−6 12
984 Anexo 3E O tempo como regressor
⎡ 2(2𝑛 + 1) −
6𝑛 ⎤
⎢ 𝑛−1 𝑛−1 ⎥
𝑄−
𝑛 =⎢ ⎥.
6𝑛 12𝑛
⎢ − ⎥
⎣ 𝑛−1 (𝑛 + 1)(𝑛 − 1) ⎦
O resultado (3E.2) mostra que 𝑏 é √𝑛-consistente (tal como no caso estacionário) e que
𝑏 é 𝑛/ -consistente. A velocidade de convergência de 𝑏 é maior do que a de 𝑏 , pelo
que se diz que 𝑏 é hiperconsistente.
De acordo com (3E.2), os estimadores MQ dos coeficientes de regressão do modelo
(3E.1) têm distribuição assintoticamente normal, desde que se utilizem as transforma-
ções estabilizadoras convenientes. Antes de apresentar alguns resultados para a infe-
rência estatística, vai provar-se que
plim(𝑠 ) = 𝜎 . (3E.3)
vem
𝑢̂ 𝑡 = {𝑢𝑡 − 𝑥𝑡• (𝑏 − 𝛽)}𝑇 {𝑢𝑡 − 𝑥𝑡• (𝑏 − 𝛽)}
= 𝑢𝑡 − 2(𝑏 − 𝛽)𝑇 𝑥𝑇𝑡• 𝑢𝑡 + (𝑏 − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝑏 − 𝛽)
= 𝑢𝑡 − 2(𝑏 − 𝛽)𝑇 Γ𝑛 Γ− 𝑇 𝑇 − 𝑇 −
𝑛 𝑥𝑡• 𝑢𝑡 + (𝑏 − 𝛽) Γ𝑛 Γ𝑛 𝑥𝑡• 𝑥𝑡• Γ𝑛 Γ𝑛 (𝑏 − 𝛽) .
Donde
1 𝑛 1 𝑛 1 𝑛
𝑢̂ 𝑡 = 𝑢𝑡 − 2(𝑏 − 𝛽)𝑇 Γ𝑛 Γ− 𝑛 𝑥𝑇𝑡• 𝑢𝑡
𝑛 𝑡= 𝑛 𝑡= 𝑛 𝑡=
1 𝑛
+ (𝑏 − 𝛽)𝑇 Γ𝑛 Γ−
𝑛 𝑥𝑇𝑡• 𝑥𝑡• Γ−
𝑛 Γ𝑛 (𝑏 − 𝛽) ,
𝑛 𝑡=
ou
1 𝑛 1 𝑛 2 1
𝑢̂ 𝑡 = 𝑢𝑡 − (𝑏 − 𝛽)𝑇 Γ𝑛 𝑉•𝑛 + (𝑏 − 𝛽)𝑇 Γ𝑛 𝑄𝑛 Γ𝑛 (𝑏 − 𝛽)
𝑛 𝑡= 𝑛 𝑡= 𝑛 𝑛
1 𝑛 1 𝑇 −
= 𝑢𝑡 − 𝑉•𝑛 𝑄𝑛 𝑉•𝑛 ,
𝑛 𝑡= 𝑛
uma vez que Γ𝑛 (𝑏 − 𝛽) = 𝑄−
𝑛 𝑉•𝑛 .
Como
1 𝑇 − 𝑑
𝑉•𝑛 𝑄𝑛 𝑉•𝑛 → 𝜒 (2),
𝜎
O tempo como regressor 985
verifica-se que
1 𝑇 −
plim 𝑉•𝑛 𝑄𝑛 𝑉•𝑛 = 0,
𝑛
e, portanto,
1 𝑛 1 𝑛
plim 𝑢̂ 𝑡 = plim 𝑢𝑡 = 𝐸(𝑢𝑡 ) = 𝜎 .
𝑛 𝑡= 𝑛 𝑡=
Então,
1 𝑛 𝑛−𝑘
plim 𝑢̂ 𝑡 = plim 𝑠 = plim(𝑠 ) = 𝜎 .
𝑛 𝑡= 𝑛
Suponha-se que se pretende fazer o teste em que a hipótese nula é 𝐻 ∶ 𝛽 = 𝛽 . Seja o
rácio-𝑡
𝑏 − 𝛽 𝑛/ (𝑏 − 𝛽 )
𝑡 = = ,
𝑠√𝑚 𝑠√𝑛 𝑚
onde 𝑚 é o elemento (2,2) da matriz (𝑋 𝑇 𝑋)− . Neste caso, tem-se
12
𝑚 = .
𝑛(𝑛 + 1)(𝑛 − 1)
Notando que
12 𝑛
𝑛 𝑚 = ,
(𝑛 + 1)(𝑛 − 1)
é o elemento (2,2) da matriz 𝑄−
𝑛 , tem-se imediatamente
12
𝑠𝑏 = 𝑠 ,
𝑛(𝑚 + 1)(𝑛 − 1)
986 Anexo 3E O tempo como regressor
ou seja, é igual ao produto do erro padrão da regressão pela raiz quadrada do quociente
entre o elemento (2,2) de 𝑄−𝑛 e𝑛 .
𝑏 − 𝛽 𝑑
𝑡 = → 𝑁(0, 1).
𝑠𝑏
0 / 0
𝑛 𝑚 = 𝑛 0 1 (𝑋 𝑇 𝑋)− 𝑇 −
= 0 𝑛 (𝑋 𝑋) /
1 𝑛
0 0
= 0 1 Γ𝑛 (𝑋 𝑇 𝑋)− Γ𝑛 − 𝑇 − −
= 0 1 { Γ𝑛 𝑋 𝑋 Γ𝑛 }
1 1
0 𝑝 0
= 0 1 𝑄−
𝑛
−
→ 0 1 𝑄 ,
1 1
𝑛 0
0 1 Γ𝑛 = 0 1 √ /
= 0 𝑛 .
0 𝑛/
2(2𝑛 + 1)
𝑠𝑏 = 𝑠 ,
𝑛(𝑛 − 1)
ou seja, é igual ao produto do erro padrão da regressão pela raiz quadrada do quociente
entre o elemento (1,1) de 𝑄−𝑛 e 𝑛.
Pode, então, fazer-se
𝑏 − 𝛽 𝑑
𝑡 = → 𝑁(0, 1).
𝑠𝑏
Os resultados (3E.4) e (3E.5) mostram que a inferência estatística referente ao modelo
(3E.1) se faz da mesma maneira que no caso estacionário.
O tempo como regressor 987
O resultado (3E.2) pode ser generalizado para o caso em que {𝑢𝑡 } é um processo
estacionário (em geral), e não necessariamente um ruído branco independente, mas
supondo que
𝑑
𝑉•𝑛 → 𝑁 () (𝟎, Σ),
onde Σ ≠ 𝜎 𝑄. Os estimadores 𝑏 e 𝑏 ainda são consistentes, e tem-se
𝑑
Γ𝑛 (𝑏 − 𝛽) → 𝑁 () (𝟎, 𝑄− Σ 𝑄− ).
Donde
1 𝑛 1 𝑛 1 𝑛 1 𝑛
𝑢̂ 𝑡 = 𝑢𝑡 − 2 𝑥𝑡• 𝑢𝑡 (𝛽̂ − 𝛽) + (𝛽̂ − 𝛽)𝑇 𝑥𝑇𝑡• 𝑥𝑡• (𝛽̂ − 𝛽).
𝑛 𝑡= 𝑛 𝑡= 𝑛 𝑡= 𝑛 𝑡=
1 𝑛
plim 𝑥𝑇𝑡• 𝑥𝑡• = 𝐸(𝑥𝑇𝑡• 𝑥𝑡• ),
𝑛 𝑡=
989
990 Anexo 4A Demonstrações de Propriedades e de Teoremas
Se se demonstrar que existe 𝐸(𝑥𝑡• 𝑢𝑡 ), fica provado que a segunda parcela também
converge em probabilidade para 0. Com efeito, atendendo à desigualdade de Cauchy-
-Schwarz, tem-se
𝐸(𝑥 )𝐸(𝑢𝑡 ).
𝐸(| 𝑥𝑡𝑗 𝑢𝑡 |) ≤
𝑡𝑗
Como existem os valores esperados 𝐸(𝑥𝑡𝑗 ) e 𝐸(𝑢𝑡 ), conclui-se imediatamente que tam-
bém existe 𝐸(𝑥𝑡𝑗 𝑢𝑡 ).
(𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 )− 𝑄𝑇𝑧𝑥 𝑊 𝑆 𝑊 𝑄𝑧𝑥 (𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 )− − (𝑄𝑇𝑧𝑥 𝑆− 𝑄𝑧𝑥 )−
é semidefinida positiva.
Para provar este resultado vai recorrer-se a três propriedades da álgebra das matri-
zes:
a) Considerem-se duas matrizes, 𝐴 e 𝐵, simétricas definidas positivas; 𝐴 − 𝐵 é semi-
definida positiva se e só se 𝐵− − 𝐴− é semidefinida positiva.
𝑄𝑇𝑧𝑥 𝑆− 𝑄𝑧𝑥 − 𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 (𝑄𝑇𝑧𝑥 𝑊 𝑆 𝑊 𝑄𝑧𝑥 )− 𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥
é semidefinida positiva.
Atendendo a b), existe uma matriz 𝐶, quadrada de ordem 𝑝, tal que
Então,
𝑄𝑇𝑧𝑥 𝐶𝑇 𝐶𝑄𝑧𝑥 − 𝑄𝑇𝑧𝑥 𝐶𝑇 (𝐶𝑇 )− 𝑊 𝑄𝑧𝑥 {𝑄𝑇𝑧𝑥 𝑊 𝐶− (𝐶𝑇 )− 𝑊 𝑄𝑧𝑥 }− 𝑄𝑇𝑧𝑥 𝑊 𝐶− 𝐶𝑄𝑧𝑥 .
ou
̂ 𝑊}
𝐽{𝛽̂𝑟 (𝑊), ̂ − 𝐽{𝛽(̂ 𝑊),
̂ 𝑊}
̂ = 𝑛 {𝛽(̂ 𝑊)
̂ − 𝛽̂𝑟 (𝑊)}
̂ 𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 {𝛽(̂ 𝑊)
̂ − 𝛽̂𝑟 (𝑊)},
̂ (4A.2)
𝑄′ = 𝑛 {𝛽(̂ 𝑆̂ − ) − 𝛽̂𝑟 (𝑆̂ − )}𝑇 𝑆𝑇𝑧𝑥 𝑆̂ − 𝑆𝑧𝑥 {𝛽(̂ 𝑆̂ − ) − 𝛽̂𝑟 (𝑆̂ − )},
𝛽(̂ 𝑆̂ − ) − 𝛽̂𝑟 (𝑆̂ − ) = (𝑆𝑇𝑧𝑥 𝑆̂ − 𝑆𝑧𝑥 )− 𝑅𝑇 {𝑅(𝑆𝑇𝑧𝑥 𝑆̂ − 𝑆𝑧𝑥 )− 𝑅𝑇 }− {𝑅𝛽(̂ 𝑆̂ − ) − 𝛿 }.
𝑔•𝑛 {𝛽(̂ 𝑆̂ − )} = 𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑆̂ − ) = 𝑠𝑧𝑦 − 𝑆𝑧𝑥 (𝑆𝑇𝑧𝑥 𝑆̂ − 𝑆𝑧𝑥 )− 𝑆𝑇𝑧𝑥 𝑆̂ − 𝑠𝑧𝑦
= {𝐼𝑝 − 𝑆𝑧𝑥 (𝑆𝑇𝑧𝑥 𝑆̂ − 𝑆𝑧𝑥 )− 𝑆𝑇𝑧𝑥 𝑆̂ − }𝑠𝑧𝑦 ,
ou
𝑔•𝑛 {𝛽(̂ 𝑆̂ − )} = 𝐵𝑠
̂ 𝑧𝑦 ,
onde
𝐵̂ = 𝐼𝑝 − 𝑆𝑧𝑥 (𝑆𝑇𝑧𝑥 𝑆̂ − 𝑆𝑧𝑥 )− 𝑆𝑇𝑧𝑥 𝑆̂ − .
Como 𝐵̂ 𝑆𝑧𝑥 = 𝑂, tem-se
𝑔•𝑛 {𝛽(̂ 𝑆̂ − )} = 𝐵𝑠
̂ 𝑧𝑦 = 𝐵(𝑠
̂ 𝑧𝑦 − 𝑆𝑧𝑥 𝛽) = 𝐵𝑔
̂
•𝑛
.
Como a matriz 𝑆̂ é definida positiva, existe uma 𝐶, quadrada de ordem 𝑝, não singular,
tal que 𝑆̂ − = 𝐶𝑇 𝐶. Então, fazendo 𝐴 = 𝐶𝑆𝑧𝑥 , vem
Então,
𝐵̂ 𝑇 𝑆̂ − 𝐵̂ = {𝐼𝑝 − 𝑆𝑧𝑥 (𝐴𝑇 𝐴)− 𝐴𝑇 𝐶}𝑇 𝐶𝑇 𝐶 {𝐼𝑝 − 𝑆𝑧𝑥 (𝐴𝑇 𝐴)− 𝐴𝑇 𝐶}
= 𝐶𝑇 {𝐼𝑝 − 𝐴(𝐴𝑇 𝐴)− 𝐴𝑇 } 𝐶
= 𝐶𝑇 𝑃𝐴 𝐶,
onde 𝑃𝐴 = 𝐼𝑝 − 𝐴(𝐴𝑇 𝐴)− 𝐴𝑇 é simétrica idempotente; tem-se 𝑟(𝑃𝐴 ) = 𝑝 − 𝑘.
Teorema 4.5 993
𝑑
𝑤 = √𝑛 𝐶𝑔•𝑛 → 𝑁 (𝑝) (𝟎, 𝐼𝑝 ),
√𝑛𝑔•𝑛
𝑑
𝐽{𝛽(̂ 𝑆̂ − ), 𝑆̂ − } = 𝑛 {𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑆̂ − )}𝑇 𝑆̃ − {𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽(̂ 𝑆̂ − )} → 𝜒 (𝑝 − 𝑘).
Com efeito,
Como 𝛽(̂ 𝑆̂ − ) = (𝑆𝑇𝑧𝑥 𝑆̂ − 𝑆𝑧𝑥 )− 𝑆𝑇𝑧𝑥 𝑆̂ − 𝑠𝑧𝑦 , a igualdade fica demonstrada.
𝑔•𝑛 {𝛽(̂ 𝑆̂ − )} = 𝐵𝑔
̂
•𝑛
, 𝐵̂ 𝑇 𝑆̂ − 𝐵̂ = 𝐶𝑇 𝑃𝐴 𝐶, 𝐽 = 𝑤𝑇 𝑃𝐴 𝑤,
̂
𝑔•𝑛 {𝛽(̂ 𝑆̂ − 𝑇
)} = 𝐵 𝑔•𝑛 , 𝐽 = 𝑤• 𝑃 𝑤• ,
onde:
1 𝑛
𝐵̂ = 𝐼𝑞 − 𝑆𝑧∗ 𝑥 (𝑆𝑇𝑧∗ 𝑥 𝑆̂ − 𝑆𝑧∗ 𝑥 )− 𝑆𝑇𝑧∗ 𝑥 𝑆̂ − ; 𝑔•𝑛 = (𝑧∗𝑡• )𝑇 𝑢𝑡 ; 𝑆̂ − = 𝐶𝑇 𝐶;
𝑛 𝑡=
𝑇 − 𝑇
𝑃𝐴 = 𝐼𝑞 − 𝐴(𝐴 𝐴) 𝐴 ; 𝐴 = 𝐶𝑆𝑧∗ 𝑥 ; 𝑟(𝑃𝐴 ) = 𝑞 − 𝑘; 𝑤 = √𝑛 𝐶𝑔•𝑛 ;
̂ − 1 𝑛
𝐵̂ = 𝐼𝑞 − 𝑆𝑧 𝑥 (𝑆𝑇𝑧 𝑥 𝑆̂ − − 𝑇
𝑆𝑧 𝑥 ) 𝑆𝑧 𝑥 𝑆 ; 𝑔•𝑛 = (𝑧𝑡• )𝑇 𝑢𝑡 ; 𝑆̂ − 𝑇
= 𝐶 𝐶 ;
𝑛 𝑡=
𝑃 = 𝐼𝑞 − 𝐴 (𝐴𝑇 𝐴 )− 𝐴𝑇 ; 𝐴 = 𝐶 𝑆𝑧 𝑥 ; 𝑟(𝑃 ) = 𝑞 − 𝑘; 𝑤• = √𝑛 𝐶 𝑔•𝑛 .
Seja
⎡ 𝐼𝑞 ⎤
𝐹=⎢ ⎥,
⎣ 𝑂 ⎦
onde 𝑂 é a matriz nula de tipo (𝑝 − 𝑝 ) × 𝑝 . Facilmente se verifica que:
𝑧𝑡• = 𝑧∗𝑡• 𝐹; 𝑆𝑧 𝑥 = 𝐹 𝑇 𝑆𝑧∗ 𝑥 ; 𝑔•𝑛 = 𝐹 𝑇 𝑔•𝑛 .
𝐷 = 𝐽 − 𝐽 = 𝑤𝑇 (𝑃𝐴 − 𝐸)𝑤,
Teorema 4.6 995
onde 𝐸 = (𝐶𝑇 )− 𝐹 𝐶𝑇 𝑃 𝐶 𝐹 𝑇 𝐶− . Com efeito, basta provar que 𝑤𝑇 𝐸𝑤 = 𝑤𝑇• 𝑃 𝑤• :
𝑇 𝑇
𝑤𝑇 𝐸𝑤 = 𝑛𝑔•𝑛 𝐶𝑇 (𝐶𝑇 )− 𝐹 𝐶𝑇 𝑃 𝐶 𝐹 𝑇 𝐶− 𝐶𝑔•𝑛 = 𝑛𝑔•𝑛 𝐹 𝐶𝑇 𝑃 𝐶 𝐹 𝑇 𝑔•𝑛 = 𝑤𝑇• 𝑃 𝑤• .
𝐸 = 𝐸 (idempotente):
̂ = 𝑆̂ , 𝐶 𝑆̂ 𝐶𝑇 = 𝐼𝑞 e 𝑃 é idempotente.
uma vez que 𝐹 𝑇 𝐶− (𝐶𝑇 )− 𝐹 = 𝐹 𝑇 𝑆𝐹
𝑟(𝐸) = 𝑞 − 𝑘:
𝑟(𝐸) = tr(𝐸) = tr{ (𝐶𝑇 )− 𝐹 𝐶𝑇 𝑃 𝐶 𝐹 𝑇 𝐶− } = tr{ 𝐹 𝐶𝑇 𝑃 𝐶 𝐹 𝑇 𝐶− (𝐶𝑇 )− }
= tr{ 𝐹 𝐶𝑇 𝑃 𝐶 𝐹 𝑇 𝑆}̂ = tr{ 𝐶𝑇 𝑃 𝐶 𝐹 𝑇 𝑆𝐹}
̂ = tr{ 𝐶𝑇 𝑃 𝐶 𝑆̂ }
= tr{ 𝐶𝑇 𝑃 𝐶 𝐶−
(𝐶 ) } = tr{ 𝐶 𝑃 (𝐶 ) }
𝑇 − 𝑇 𝑇 −
𝐴𝑇 𝐸 = 𝑂 :
𝐴𝑇 𝐸 = 𝑆𝑇𝑧𝑥 𝐶𝑇 (𝐶𝑇 )− 𝐹 𝐶𝑇 𝑃 𝐶 𝐹 𝑇 𝐶− = 𝑆𝑇𝑧𝑥 𝐹 𝐶𝑇 𝑃 𝐶 𝐹 𝑇 𝐶−
= 𝑆𝑇𝑧 𝑥 𝐶𝑇 𝑃 𝐶 𝐹 𝑇 𝐶− = 𝐴𝑇 𝑃 𝐶 𝐹 𝑇 𝐶− = 𝑂,
atendendo a que 𝐴𝑇 𝐸 = 𝑂.
996 Anexo 4A Demonstrações de Propriedades e de Teoremas
𝑟(𝑃𝐴 − 𝐸) = 𝑞 − 𝑞 :
𝑑
𝑤 → 𝑁 (𝑞) (𝟎, 𝐼𝑞 ),
Sejam 𝛽̂• (𝑊̂ ) e 𝛽̂• (𝑊̂ ) dois estimadores MGM, com duas escolhas diferentes da ma-
triz de pesos, 𝑊̂ e 𝑊̂ . Tem-se, evidentemente,
ou
⎡ √𝑛 {𝛽̂• (𝑊̂ ) − 𝛽} ⎤ ⎡ (𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 )− 𝑆𝑇𝑧𝑥 𝑊̂ ⎤
⎢ ⎥=⎢ 𝑇 ⎥ √𝑛 𝑔•𝑛 ,
⎣ √𝑛 {𝛽̂• (𝑊̂ ) − 𝛽} ⎦ ⎣ (𝑆𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 ) 𝑆𝑧𝑥 𝑊̂ ⎦
− 𝑇
997
998 Anexo 4B Princípio MGM de Hausman
onde:
𝐴 = (𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 )− 𝑄𝑇𝑧𝑥 𝑊 𝑆 𝑊 𝑄𝑧𝑥 (𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 )−
𝐴 = (𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 )− 𝑄𝑇𝑧𝑥 𝑊 𝑆 𝑊 𝑄𝑧𝑥 (𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 )−
𝐴 = (𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 )− 𝑄𝑇𝑧𝑥 𝑊 𝑆 𝑊 𝑄𝑧𝑥 (𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 )−
𝐴 = (𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 )− 𝑄𝑇𝑧𝑥 𝑊 𝑆 𝑊 𝑄𝑧𝑥 (𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 )− .
Como
√𝑛 {𝛽̂• (𝑊̂ ) − 𝛽̂• (𝑊̂ )} = {(𝑆𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 ) 𝑆𝑧𝑥 𝑊̂ − (𝑆𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 ) 𝑆𝑧𝑥 𝑊̂ } √𝑛 𝑔•𝑛 ,
𝑇 − 𝑇 𝑇 − 𝑇
obtém-se
𝑑
√𝑛 {𝛽̂• (𝑊̂ ) − 𝛽̂• (𝑊̂ )} → 𝑁 (𝟎, 𝐴 + 𝐴 − 𝐴 − 𝐴 ).
(𝑘)
Quando 𝑊̂ = 𝑆̂ − , tem-se o estimador eficiente MGM, 𝛽̂• (𝑆̂ − ). Neste caso, vem
Então,
𝑑
√𝑛 {𝛽̂• (𝑊̂ ) − 𝛽̂• (𝑆̂ )} → 𝑁 (𝟎, 𝐴 − 𝐴 ).
− (𝑘)
Assim,
Cov𝑎 {𝛽̂• (𝑊̂ ) − 𝛽̂• (𝑆̂ − )} = Cov𝑎 {𝛽̂• (𝑊̂ )} − Cov𝑎 {𝛽̂• (𝑆̂ − )}. (4B.1)
[5A]
Tipos de modelos SER e
respectivos estimadores
Neste anexo faz-se um resumo dos resultados fundamentais sobre os vários tipos de
modelos SER e respectivos estimadores. Os aspectos considerados são os seguintes
(distinguindo, quando for caso disso, aqueles que se referem à população daqueles
que dizem respeito à amostra):
999
1000 Anexo 5A Tipos de modelos SER e respectivos estimadores
M01 𝑦𝑡𝑖 = 𝑥𝑡𝑖• 𝛽•𝑖 + 𝑢𝑡𝑖 𝑧𝑡𝑖• 𝑦𝑇𝑡• = 𝑋𝑡• 𝛽 + 𝑢𝑇𝑡• 𝑍𝑡•
M02 𝑦𝑡𝑖 = 𝑥𝑡𝑖• 𝛽•𝑖 + 𝑢𝑡𝑖 𝑥𝑡𝑖• 𝑦𝑇𝑡• = 𝑋𝑡• 𝛽 + 𝑢𝑇𝑡• 𝑋𝑡•
M03 𝑦𝑡𝑖 = 𝑥𝑡𝑖• 𝛽•𝑖 + 𝑢𝑡𝑖 𝑧𝑡• 𝑦𝑇𝑡• = 𝑋𝑡• 𝛽 + 𝑢𝑇𝑡• 𝑍𝑡• = 𝐼𝑚 ⊗ 𝑧𝑡•
M04 𝑦𝑡𝑖 = 𝑥𝑡𝑖• 𝛽•𝑖 + 𝑢𝑡𝑖 𝑧𝑡• ∶ 𝑥𝑡𝑖• = 𝑧𝑡• 𝐷𝑖 𝑦𝑇𝑡• = 𝑋𝑡• 𝛽 + 𝑢𝑇𝑡• 𝑍𝑡• = 𝐼𝑚 ⊗ 𝑧𝑡•
M05 𝑦𝑡𝑖 = 𝑥𝑡• 𝛽•𝑖 + 𝑢𝑡𝑖 𝑧𝑡• 𝑦𝑇𝑡• = (𝐼𝑚 ⊗ 𝑥𝑡• )𝛽 + 𝑢𝑇𝑡• 𝑍𝑡• = 𝐼𝑚 ⊗ 𝑧𝑡•
M06 𝑦𝑡𝑖 = 𝑥𝑡• 𝛽•𝑖 + 𝑢𝑡𝑖 𝑥𝑡• 𝑦𝑇𝑡• = (𝐼𝑚 ⊗ 𝑥𝑡• )𝛽 + 𝑢𝑇𝑡• 𝑋𝑡• = 𝐼𝑚 ⊗ 𝑥𝑡•
M07 𝑦𝑡𝑖 = 𝑥𝑡𝑖• 𝛽 + 𝑢𝑡𝑖 𝑧𝑡𝑖• 𝑦𝑇𝑡• = 𝑋𝑡• 𝛽 + 𝑢𝑇𝑡• 𝑍𝑡•
M08 𝑦𝑡𝑖 = 𝑥𝑡𝑖• 𝛽 + 𝑢𝑡𝑖 𝑧𝑡• 𝑦𝑇𝑡• = 𝑋𝑡• 𝛽 + 𝑢𝑇𝑡• 𝑍𝑡• = 𝐼𝑚 ⊗ 𝑧𝑡•
M09 𝑦𝑡𝑖 = 𝑥𝑡𝑖• 𝛽 + 𝑢𝑡𝑖 𝑧𝑡• ∶ 𝑥𝑡𝑖• = 𝑧𝑡• 𝐷𝑖 𝑦𝑇𝑡• = 𝑋𝑡• 𝛽 + 𝑢𝑇𝑡• 𝑍𝑡• = 𝐼𝑚 ⊗ 𝑧𝑡•
M10 𝑦𝑡𝑖 = 𝑥𝑡• 𝛽 + 𝑢𝑡𝑖 𝑧𝑡• 𝑦𝑇𝑡• = (𝑒𝑚 ⊗ 𝑥𝑡• )𝛽 + 𝑢𝑇𝑡• 𝑍𝑡• = 𝐼𝑚 ⊗ 𝑧𝑡•
Tipos de modelos SER e respectivos estimadores 1001
Nos quadros 5A.3 e 5A.4 são apresentadas as estruturas matriciais referentes às ma-
trizes e vectores que aparecem nos modelos da população e nas respectivas relações
amostrais, considerando as matrizes e vectores referentes às variáveis instrumentais.
Para cada matriz ou vector é apresentado o contexto particular (IC — instrumentos
comuns; RC — regressores comuns; CC — coeficientes comuns), o formato (no caso de
Tipos de modelos SER e respectivos estimadores 1003
Nos quadros 5A.7 e 5A.8 são apresentados as matrizes e vectores relativos aos produtos
de instrumentos por variáveis residuais ou por resíduos, respectivamente. Para cada
matriz ou vector, são referidos os modelos SER em que podem ser utilizados, o formato
e o bloco/elemento genérico.
No quadro 5A.9 apresenta-se a lista dos estimadores MGM, com os respectivos sím-
bolos, hipóteses básicas e modelos SER subjacentes.
O quadro 5A.10 refere, para cada modelo SER, a lista dos respectivos estimadores
MGM, distinguindo se existe ou não homocedasticidade condicionada.
Tipos de modelos SER e respectivos estimadores 1009
Nos quadros 5A.11 e 5A.12 são referidas as matrizes relativas aos quartos momentos
que envolvem duas variáveis instrumentais e duas variáveis residuais ou dois resí-
duos, respectivamente. Para cada matriz, referem-se os modelos SER respectivos, dis-
tinguindo entre heterocedasticidade e homocedasticidade condicionada, o formato e o
bloco ou elemento genérico.
Tipos de modelos SER e respectivos estimadores 1011
1 𝑛 1
𝑆̂ = 𝑔̂ 𝑇𝑡• 𝑔̂ 𝑡• = 𝐺̂ 𝑇 𝐺̂
𝑛 𝑡= 𝑛
1 𝑛
ou 𝑆̂ = 𝑍𝑇𝑡• 𝑢̂ 𝑇𝑡• 𝑢̂ 𝑡• 𝑍𝑡• 𝑝×𝑝 𝑆̂ 𝑖ℓ
𝑛 𝑡=
1 𝑛 1 𝑛
Sim 𝑆̂ 𝑖ℓ = 𝜎̂ 𝑖ℓ 𝑧𝑇𝑡𝑖• 𝑧𝑡ℓ• = 𝜎̂ 𝑖ℓ 𝑆𝑧𝑖 𝑧ℓ 𝑝𝑖 × 𝑝𝑖 𝜎̂ 𝑖ℓ 𝑧𝑡𝑖ℎ 𝑧𝑡ℓℎ′
𝑛 𝑡= 𝑛 𝑡=
1
𝑆̂ = {𝑍𝑇 (Σ̂ ⊗ 𝐼𝑛 )𝑍}
𝑛
1 𝑛
𝑆̂ = 𝑍𝑇𝑡• Σ𝑍 ̂ 𝑡•
𝑛 𝑡=
ou 𝑝×𝑝 𝑆̂ 𝑖ℓ
1
= {𝑍𝑇 (𝐼𝑛 ⊗ Σ)𝑍} ̂
𝑛
1 𝑛 1
2 Não 𝑆̂ 𝑖ℓ = 𝑔̂ 𝑇𝑡𝑖• 𝑔̂ 𝑡ℓ• = 𝐺̂ 𝑇𝑖 𝐺̂ 𝑖
𝑛 𝑡= 𝑛
1 𝑛 1 𝑛
ou 𝑆̂ 𝑖ℓ = 𝑢̂ 𝑡𝑖 𝑢̂ 𝑡ℓ 𝑥𝑇𝑡𝑖• 𝑥𝑡ℓ• 𝑘𝑖 × 𝑘𝑖 𝑢̂ 𝑡𝑖 𝑢̂ 𝑡ℓ 𝑥𝑡𝑖𝑗 𝑥𝑡ℓ𝑗′
𝑛 𝑡= 𝑛 𝑡=
1 𝑛 1
𝑆̂ = 𝑔̂ 𝑇𝑡• 𝑔̂ 𝑡• = 𝐺̂ 𝑇 𝐺̂
𝑛 𝑡= 𝑛
1 𝑛
ou 𝑆̂ = 𝑋𝑡• 𝑇 𝑇
𝑢̂ 𝑡• 𝑢̂ 𝑡• 𝑋𝑡• 𝑘×𝑘 𝑆̂ 𝑖ℓ
𝑛 𝑡=
1 𝑛 1 𝑛
Sim 𝑆̂ 𝑖ℓ = 𝜎̂ 𝑖ℓ 𝑥𝑇𝑡𝑖• 𝑥𝑡ℓ• = 𝜎̂ 𝑖ℓ 𝑆𝑥𝑖 𝑥ℓ 𝑘𝑖 × 𝑘𝑖 𝜎̂ 𝑖ℓ 𝑥𝑡𝑖𝑗 𝑥𝑡ℓ𝑗′
𝑛 𝑡= 𝑛 𝑡=
1
𝑆̂ = {𝑋 𝑇 (𝐼𝑛 ⊗ Σ)𝑋} ̂
𝑛
1 𝑛
𝑆̂ = 𝑋𝑡• 𝑇 ̂
Σ 𝑋𝑡•
𝑛 𝑡=
ou 𝑘×𝑘 𝑆̂ 𝑖ℓ
1
= {𝑋 𝑇 (𝐼𝑛 ⊗ Σ)𝑋} ̂
𝑛
Tipos de modelos SER e respectivos estimadores 1013
1 𝑛
𝑆̂ = (𝑢̂ 𝑇𝑡• 𝑢̂ 𝑡• ) ⊗ (𝑧𝑇𝑡• 𝑧𝑡• )
𝑛 𝑡=
𝑚𝑞 × 𝑚𝑞 𝑆̂ 𝑖ℓ
1
= 𝐺̂ 𝑇 𝐺̂
𝑛
1 𝑛 1 𝑛
Sim 𝑆̂ 𝑖ℓ = 𝜎̂ 𝑖ℓ 𝑧𝑇𝑡• 𝑧𝑡• = 𝜎̂ 𝑖ℓ 𝑆̃ 𝑧𝑧 𝑞×𝑞 𝜎̂ 𝑖ℓ 𝑧𝑡ℎ 𝑧𝑡ℎ′
𝑛 𝑡= 𝑛 𝑡=
𝑆̂ = Σ̂ ⊗ 𝑆̃ 𝑧𝑧 𝑚𝑞 × 𝑚𝑞 𝑆̂ 𝑖ℓ
1 𝑛 1 1 𝑛
6 Não 𝑆̂ 𝑖ℓ = 𝑢̂ 𝑡𝑖 𝑢̂ 𝑡ℓ 𝑥𝑇𝑡• 𝑥𝑡• = 𝐺̂ 𝑇𝑖 𝐺̂ 𝑖 𝑘×𝑘 𝑢̂ 𝑡𝑖 𝑢̂ 𝑡ℓ 𝑥𝑡𝑗 𝑥𝑡𝑗′
𝑛 𝑡= 𝑛 𝑛 𝑡=
1 𝑛
𝑆̂ = (𝑢̂ 𝑇𝑡• 𝑢̂ 𝑡• ) ⊗ (𝑥𝑇𝑡• 𝑥𝑡• )
𝑛 𝑡=
𝑚𝑘 × 𝑚𝑘 𝑆̂ 𝑖ℓ
1
= 𝐺̂ 𝑇 𝐺̂
𝑛
1 𝑛 1 𝑛
Sim 𝑆̂ 𝑖ℓ = 𝜎̂ 𝑖ℓ 𝑥𝑇𝑡• 𝑥𝑡• = 𝜎̂ 𝑖ℓ 𝑆̃ 𝑥𝑥 𝑘×𝑘 𝜎̂ 𝑖ℓ 𝑥𝑡𝑗 𝑥𝑡𝑗′
𝑛 𝑡= 𝑛 𝑡=
𝑆̂ = Σ̂ ⊗ 𝑆̃ 𝑥𝑥 𝑚𝑘 × 𝑚𝑘 𝑆̂ 𝑖ℓ
Nota: 𝜎̂ 𝑖ℓ = (1/𝑛)Σ𝑛𝑡= 𝑢̂ 𝑡𝑖 𝑢̂ 𝑡ℓ ; Σ̂ = (1/𝑛)Σ𝑛𝑡= 𝑢̂ 𝑇𝑡• 𝑢̂ 𝑡• .
Assim, o produto de Kronecker de duas matrizes é uma matriz em que cada elemento
da primeira é multiplicado por todos os elementos da segunda, e estes produtos são
organizados de acordo com (5B.1).
O produto de Kronecker verifica as seguintes propriedades:
a) 𝐴 ⊗ (𝐵 + 𝐶) = (𝐴 ⊗ 𝐵) + (𝐴 ⊗ 𝐶);
b) (𝐴 ⊗ 𝐶) + (𝐵 ⊗ 𝐶) = (𝐴 + 𝐵) ⊗ 𝐶;
1017
1018 Anexo 5B Produto de Kronecker e vectorização de matrizes
c) (𝐴 ⊗ 𝐵) + (𝐴 ⊗ 𝐶) = 𝐴 ⊗ (𝐵 + 𝐶);
f) (𝐴 ⊗ 𝐵)𝑇 = 𝐴𝑇 ⊗ 𝐵𝑇 ;
j) Sejam 𝐴 e 𝐵 duas matrizes quadradas em que os pares (𝜆𝑗 , 𝑥•𝑗 ) e (𝜇𝑖 , 𝑦•𝑖 ) repre-
sentam, respectivamente, os valores próprios e os vectores próprios associados.
Então, os valores próprios de 𝐴 ⊗ 𝐵 são 𝜆𝑗 𝜇𝑖 , e os respectivos valores próprios são
dados por 𝑥•𝑗 ⊗ 𝑦•𝑖 .
b) Vec(𝐴𝐵) = (𝐼𝑝 ⊗ 𝐴)Vec(𝐵) = (𝐵𝑇 ⊗ 𝐼𝑚 )Vec(𝐴), onde os tipos das matrizes 𝐴 e 𝐵 são
𝑚 × 𝑛 e 𝑛 × 𝑝, respectivamente;
𝑒•𝑡 ⊗ 𝐼𝑘
𝐽𝑡 = (𝑡 = 1, 2, … , 𝑝),
𝑂
onde 𝑒•𝑡 (vector 𝑝 × 1) é a coluna 𝑡 da matriz 𝐼𝑝 , pode «extrair-se» 𝑓𝑡𝑖• de 𝑧𝑇•𝑖 , fazendo
Seja a matriz 𝑝𝑞 × 𝑘
⎡ 𝐽 ⎤
⎢ ⋮ ⎥
𝐽=⎢ 𝐽𝑡 ⎥.
⎢ ⋮ ⎥
⎢ ⎥
⎣ 𝐽𝑝 ⎦
Então,
𝐹•𝑖 = (𝐼𝑝 ⊗ 𝑧𝑇•𝑖 ) 𝐽.
1021
1022 Anexo 7A Complementos
b) 𝐸(𝑣•𝑖 |𝐹•𝑖 ) = 𝟎;
Facilmente se verifica que os regressores não constantes para a unidade seccional i são
estritamente exógenos: 𝐸(𝑣•𝑖 |𝐹• , 𝐹• , …) = 𝟎. Com efeito, basta invocar a hipótese b), e
notar que a hipótese a) implica que (𝑣•𝑖 , 𝐹•𝑖 ) é independente de 𝐹•ℓ , para ℓ ≠ 𝑖. Assim,
𝐸(𝑣•𝑖 |𝐹• , 𝐹• , …) = 𝐸(𝑣•𝑖 |𝐹•𝑖 ) = 𝟎.
Quando se considera a relação 𝑌 = 𝐷𝛼+𝐹𝜙+𝑉 , conclui-se também, sem dificuldade,
que 𝐸(𝑉|𝑊) = 𝟎, ou que 𝐸(𝑣•𝑖 |𝑊) = 𝟎 (𝑖 = 1, 2, … , 𝑚). Com efeito, notando que 𝐷 é uma
matriz de constantes, e pelas razões já referidas, tem-se
𝐸(𝑣•𝑖 |𝑊) = 𝐸(𝑣•𝑖 |𝐹) = 𝐸(𝑣•𝑖 |𝐹• , 𝐹• , … , 𝐹•𝑚 ) = 𝐸(𝑣•𝑖 |𝐹•𝑖 ) = 𝟎.
Vai demonstrar-se, a seguir, que 𝐸(𝑣•𝑖 𝑣𝑇•ℓ |𝐹• , 𝐹• , …) = 𝑂. Como, devido à hipótese a),
(𝑣•𝑖 , 𝐹•𝑖 , 𝑣•ℓ , 𝐹•ℓ ) é independente de 𝐹•ℎ , para ℎ ≠ 𝑖, ℓ, vem
Então,
𝐸(𝑣•𝑖 𝑣𝑇•ℓ |𝐹•𝑖 , 𝐹•ℓ ) = 𝐸{𝐸(𝑣•𝑖 𝑣𝑇•ℓ |𝐹•𝑖 , 𝐹•ℓ , 𝑣•𝑖 )|𝐹•𝑖 , 𝐹•ℓ }
= 𝐸{𝑣•𝑖 𝐸(𝑣𝑇•ℓ |𝐹•𝑖 , 𝐹•ℓ , 𝑣•𝑖 )|𝐹•𝑖 , 𝐹•ℓ }
= 𝐸{𝑣•𝑖 𝐸(𝑣𝑇•ℓ |𝐹•ℓ )|𝐹•𝑖 , 𝐹•ℓ },
pois (𝑣•𝑖 , 𝐹•𝑖 ) é independente de (𝑣•ℓ , 𝐹•ℓ ). A hipótese b) permite concluir a demonstra-
ção.
Obtém-se, também, 𝐸(𝑣•𝑖 𝑣𝑇•ℓ |𝑊) = 𝑂, e, portanto, 𝐸(𝑉 𝑉 𝑇 |𝑊) = 𝜎𝑣 𝐼𝑚𝑝 .
Demonstração das propriedades assintóticas do estimador EF 1023
Para provar (7.65), tem de verificar-se que a matriz 𝐸{(𝐹•𝑖 ) 𝐹•𝑖 } tem inversa, e que
𝑐 𝑇 𝑐
plim(𝜙̂ EF ) = 𝜙 + 𝐸{(𝐹•𝑖
𝑐 𝑇 𝑐 − 𝑐 𝑇 𝑐
) 𝐹•𝑖 } 𝐸{(𝐹•𝑖 ) 𝑣•𝑖 } = 𝜙.
Em primeiro lugar, vai demonstrar-se que MENO.4 implica que 𝐸{(𝐹•𝑖 ) 𝐹•𝑖 } tem inversa.
𝑐 𝑇 𝑐
uma vez que todos os elementos dos 𝑓𝑡𝑖• estão incluídos em 𝑧•𝑖 (ver exemplo 7.8).
Como o produto de uma coluna por uma linha é igual ao produto de Kronecker da
linha pela coluna, tem-se 𝑧•𝑖 𝑓𝑡𝑖• = 𝑓𝑡𝑖• ⊗ 𝑧•𝑖 . Então,
𝑐 𝑇 𝑐 𝑝 𝑝 𝑇 𝑇
𝐸{(𝐹•𝑖 ) 𝐹•𝑖 } = 𝑐𝑡𝑠 𝐸(𝑓𝑡𝑖• 𝑧•𝑖 ) 𝑄−
𝑧𝑧 𝐸(𝑧•𝑖 𝑓𝑠𝑖• )
𝑡= 𝑠=
𝑝 𝑝
= 𝑐𝑡𝑠 𝐸(𝑓𝑡𝑖• ⊗ 𝑧•𝑖 )𝑇 𝑄−
𝑧𝑧 𝐸(𝑓𝑠𝑖• ⊗ 𝑧•𝑖 ),
𝑡= 𝑠=
ou
𝑐 𝑇 𝑐
𝐸{(𝐹•𝑖 ) 𝐹•𝑖 } = 𝐸(𝐹•𝑖 ⊗ 𝑧•𝑖 )𝑇 (𝑃𝑒 ⊗ 𝑄−
𝑧𝑧 )𝐸(𝐹•𝑖 ⊗ 𝑧•𝑖 )
𝑐 𝑇 𝑐 𝑇 𝑝 𝑝 𝑇 𝑝 𝑝 𝑇
𝐸{(𝐹•𝑖 ) 𝑣•𝑖 } = 𝐸(𝐹•𝑖 𝑃𝑒 𝑣•𝑖 ) = 𝐸 𝑐𝑡𝑠 𝑓𝑡𝑖• 𝑣𝑠𝑖 = 𝑐𝑡𝑠 𝐸(𝑓𝑡𝑖• 𝑣𝑠𝑖 ) = 𝟎,
𝑡= 𝑠= 𝑡= 𝑠=
porque 𝑧•𝑖 abrange todos os elementos dos 𝑓𝑡𝑖• . Falta demonstrar que 𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 |𝑧•𝑖 } não
depende de 𝑧•𝑖 . Como 𝑣𝑐•𝑖 = 𝑃𝑒 𝑣•𝑖 = 𝑃𝑒 (𝑒𝑝 𝛼𝑖 + 𝑣•𝑖 ) = 𝑃𝑒 𝑢•𝑖 = 𝑢𝑐•𝑖 , tem-se
𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 |𝑧•𝑖 } = 𝐸{𝑢𝑐•𝑖 (𝑢𝑐•𝑖 )𝑇 |𝑧•𝑖 } = 𝑃𝑒 𝐸(𝑢•𝑖 𝑢𝑇•𝑖 |𝑧•𝑖 )𝑃𝑒
= 𝑃𝑒 𝐸(𝑢•𝑖 𝑢𝑇•𝑖 )𝑃𝑒 = 𝐸{𝑢𝑐•𝑖 (𝑢𝑐•𝑖 )𝑇 } = 𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 }.
A matriz 𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 } é singular. Com efeito, tem-se 𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 } = 𝑃𝑒 Σ 𝑃𝑒 , onde 𝑣𝑐•𝑖 = 𝑃𝑒 𝑢•𝑖
e Σ = 𝐸(𝑢•𝑖 𝑢𝑇•𝑖 ). Então, como 𝑃𝑒 é singular, conclui-se que 𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 } também é singular.
A seguir, vai demonstrar-se que
𝑐 𝑇
𝐸 (𝐹•𝑖 ) 𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 }𝐹•𝑖
𝑐
Como 𝐹•𝑖
𝑐
= 𝑃𝑒 𝐹•𝑖 , também existe 𝐸{(𝑓𝑡𝑖• ) 𝑓𝑠𝑖• }. Pode, então, concluir-se que
𝑐 𝑇 𝑐
̂ = 𝐸{𝑣𝑐•𝑖 (𝑣𝑐•𝑖 )𝑇 }.
plim(𝑉)
As propriedades do estimador EF podem provar-se indirectamente, demonstrando que
este estimador é um estimador MGM.
Para isso, começa-se por considerar uma matriz 𝐴, de tipo 𝑝 × (𝑝 − 1), a verificar as
seguintes condições: a) 𝑟(𝐴) = 𝑝 − 1 (as colunas de 𝐴 são linearmente independentes);
b) 𝐴𝑇 𝑒𝑝 = 𝟎.
Um exemplo importante é a matriz das primeiras diferenças,
⎡ −1 0 ⋯ 0 0 ⎤
⎢ 1 −1 ⋯ 0 0 ⎥
⎢ ⎥
0 1 ⋯ 0 0
⎢ ⎥
𝐴=⎢ ⋮ ⋮ ⋮ ⋮ ⎥.
⎢ 0 0 ⋯ −1 0 ⎥
⎢ 0 0 ⋯ 1 −1 ⎥
⎢ 0 0 ⋯ 0 1 ⎥
⎣ ⎦
Por exemplo, tem-se
⎡ 𝑦𝑖 ⎤
⎢ 𝑦𝑖 ⎥
⎡ −1 1 0 ⋯ 0 0 0 ⎤ ⎡ 𝑦𝑖 − 𝑦𝑖 ⎤
⎢ ⎥
⎢ 0 −1 1 ⋯ 0 0 0 ⎥ 𝑦𝑖 ⎢ 𝑦𝑖 − 𝑦𝑖 ⎥
⎢ ⎥
𝐴𝑇 𝑦•𝑖 = ⎢ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⎥
⎢ ⋮ ⎥ = ⎢ ⋮ ⎥.
⎢ 0 0 0 ⋯ −1 1 0 ⎥ 𝑦𝑝−,𝑖 ⎢ 𝑦 − 𝑦𝑝−,𝑖 ⎥
⎢ ⎥
⎢ ⎥ ⎢ 𝑝−,𝑖 ⎥
⎣ 0 0 0 ⋯ 0 −1 1 ⎦ ⎢ 𝑦𝑝−,𝑖⎥ ⎣ 𝑦𝑝𝑖 − 𝑦𝑝−,𝑖 ⎦
⎢ 𝑦𝑝𝑖 ⎥
⎣ ⎦
Outro caso importante de matriz 𝐴 é a matriz 𝑃𝑒 eliminando, por exemplo, a última
coluna,
⎡ 1 − (1/𝑝) −(1/𝑝) ⋯ −(1/𝑝) ⎤
⎢ −(1/𝑝) 1 − (1/𝑝) ⋯ −(1/𝑝) ⎥
𝐴=⎢ ⋮ ⋮ ⋮ ⎥.
⎢ −(1/𝑝) −(1/𝑝) ⋯ 1 − (1/𝑝) ⎥
⎢ ⎥
⎣ −(1/𝑝) −(1/𝑝) ⋯ −(1/𝑝) ⎦
Por exemplo,
⎡ 𝑦𝑖 ⎤ ⎡ 𝑦 −𝑦 ⎤
⎡ 1 − (1/𝑝) −(1/𝑝) ⋯ −(1/𝑝) −(1/𝑝) ⎤ 𝑖 𝑖 ⎥
⎢ 𝑦𝑖 ⎥ ⎢
⎢ −(1/𝑝) 1 − (1/𝑝) ⋯ −(1/𝑝) −(1/𝑝) ⎥
𝑇
𝐴 𝑦•𝑖 = ⎢ ⎢ ⋮ ⎥ = ⎢ 𝑖 − 𝑦𝑖 ⎥ .
𝑦
⋮ ⋮ ⋮ ⋮ ⎥ ⋮
⎢ ⎥ ⎢ ⎥
⎢ ⎥ 𝑦𝑝−,𝑖
⎣ −(1/𝑝) −(1/𝑝) ⋯ 1 − (1/𝑝) −(1/𝑝) ⎦⎢ 𝑦 ⎥ ⎢ 𝑦𝑝−,𝑖 − 𝑦 ⎥
𝑖 ⎦
⎣ 𝑝𝑖 ⎦ ⎣
1026 Anexo 7A Complementos
𝑦𝑎•𝑖 = 𝐹•𝑖
𝑎
𝜙 + 𝑣𝑎•𝑖 , é o modelo com primeiras diferenças.
Suponha-se que o sistema (7.51) é um modelo com componentes do erro (MCE)
[verifica MENO.1’, MENO.2, MENO.3, MCDP.4, MENO.4, MCDP.5 e MCDP.6]. Vai
provar-se que o sistema 𝑦𝑎•𝑖 = 𝐹•𝑖 𝑎
𝜙 + 𝑣𝑎•𝑖 é um modelo clássico de dados de painel, ou
seja, verifica as hipóteses MCDP.1 a MCDP.6:
1) MCDP.1 (linearidade).
É imediato, porque 𝑦𝑎•𝑖 = 𝐹•𝑖
𝑎
𝜙 + 𝑣𝑎•𝑖 .
2) MCDP.2 (amostragem casual): {(𝑦𝑎•𝑖 , 𝐹•𝑖
𝑎
) ∶ 𝑖 = 1, 2, …} é iid.
Basta notar que {(𝑦•𝑖 , 𝐹•𝑖 , ℎ𝑇𝑖• ) ∶ 𝑖 = 1, 2, …} é iid.
3) MCDP.3 (ortogonalidade): 𝐸(𝑔𝑎•𝑖 ) = 𝐸(𝑣𝑎•𝑖 ⊗ 𝑧•𝑖 ) = 𝟎, em que 𝑔𝑎•𝑖 = 𝑣𝑎•𝑖 ⊗ 𝑧•𝑖 é um
vector (𝑝 − 1)𝑞 × 1.
Com efeito,
𝐸(𝑣𝑎•𝑖 ⊗ 𝑧•𝑖 ) = 𝐸(𝐴𝑇 𝑣•𝑖 ⊗ 𝑧•𝑖 ) = 𝐸{(𝐴𝑇 ⊗ 𝐼𝑞 )(𝑣•𝑖 ⊗ 𝑧•𝑖 )} = (𝐴𝑇 ⊗ 𝐼𝑞 )𝐸(𝑣•𝑖 ⊗ 𝑧•𝑖 ) = 𝟎,
uma vez que 𝐸(𝑣•𝑖 ⊗ 𝑧•𝑖 ) = 𝟎.
4) MCDP.4: 𝑄𝑎𝑧𝑓 = 𝐸(𝐹•𝑖
𝑎
⊗ 𝑧•𝑖 ), de tipo (𝑝 − 1)𝑞 × 𝑘 , existe e verifica 𝑟(𝑄𝑎𝑧𝑓 ) = 𝑘 .
Com efeito, como 𝑟(𝑄𝑐𝑧𝑓 ) = 𝑘 , basta provar que 𝑟(𝑄𝑎𝑧𝑓 ) = 𝑟(𝑄𝑐𝑧𝑓 ). Começa-se por
notar que existe uma matriz 𝐿, 𝑝 × (𝑝 − 1), tal que 𝑟(𝐿) = 𝑝 − 1 e 𝑃𝑒 = 𝐿𝐴𝑇 ; esta
matriz é 𝐴(𝐴𝑇 𝐴)− pois pode demonstrar-se que 𝐴(𝐴𝑇 𝐴)− 𝐴𝑇 = 𝑃𝑒 .
Como
𝑐
𝑄𝑐𝑧𝑓 = 𝐸(𝐹•𝑖 𝑎
⊗ 𝑧•𝑖 ) = 𝐸(𝑃𝑒 𝐹•𝑖 ⊗ 𝑧•𝑖 ) = 𝐸(𝐿𝐴𝑇 𝐹•𝑖 ⊗ 𝑧•𝑖 ) = 𝐸(𝐿𝐹•𝑖 ⊗ 𝑧•𝑖 )
𝑎 𝑎
= 𝐸{(𝐿 ⊗ 𝐼𝑞 )(𝐹•𝑖 ⊗ 𝑧•𝑖 )} = (𝐿 ⊗ 𝐼𝑞 )𝐸(𝐹•𝑖 ⊗ 𝑧•𝑖 )
= (𝐿 ⊗ 𝐼𝑞 )𝑄𝑎𝑧𝑓 ,
vem 𝑟(𝑄𝑐𝑧𝑓 ) ≤ 𝑟(𝑄𝑎𝑧𝑓 ). Seja
(𝐿𝑇 ⊗ 𝐼𝑞 )𝑄𝑐𝑧𝑓 = (𝐿𝑇 ⊗ 𝐼𝑞 )(𝐿 ⊗ 𝐼𝑞 )𝑄𝑎𝑧𝑓 .
Como (𝐿𝑇 ⊗ 𝐼𝑞 )(𝐿 ⊗ 𝐼𝑞 ) é não singular, tem-se
𝑟(𝑄𝑎𝑧𝑓 ) = 𝑟{(𝐿𝑇 ⊗ 𝐼𝑞 )(𝐿 ⊗ 𝐼𝑞 )𝑄𝑎𝑧𝑓 } = 𝑟{(𝐿𝑇 ⊗ 𝐼𝑞 )𝑄𝑐𝑧𝑓 } ≤ 𝑟(𝑄𝑐𝑧𝑓 ).
Então, 𝑟(𝑄𝑎𝑧𝑓 ) = 𝑟(𝑄𝑐𝑧𝑓 ) = 𝑘 .
Demonstração das propriedades assintóticas do estimador EF 1027
𝑔𝑎•𝑖 (𝑔𝑎•𝑖 )𝑇 = {𝑣𝑎•𝑖 (𝑣𝑎•𝑖 )𝑇 } ⊗ (𝑧•𝑖 𝑧𝑇•𝑖 ) = {𝐴𝑇 (𝑒𝑝 𝛼𝑖 + 𝑣•𝑖 )(𝑒𝑝 𝛼𝑖 + 𝑣•𝑖 )𝑇 𝐴} ⊗ (𝑧•𝑖 𝑧𝑇•𝑖 )
= (𝐴𝑇 𝑢•𝑖 𝑢𝑇•𝑖 𝐴) ⊗ (𝑧•𝑖 𝑧𝑇•𝑖 ) = (𝐴𝑇 ⊗ 𝐼𝑞 )(𝑢•𝑖 𝑢𝑇•𝑖 ⊗ 𝑧•𝑖 𝑧𝑇•𝑖 )(𝐴 ⊗ 𝐼𝑞 ).
Logo,
𝑆𝑎 = (𝐴𝑇 ⊗ 𝐼𝑞 )𝐸(𝑢•𝑖 𝑢𝑇•𝑖 ⊗ 𝑧•𝑖 𝑧𝑇•𝑖 )(𝐴 ⊗ 𝐼𝑞 ) = (𝐴𝑇 ⊗ 𝐼𝑞 ) 𝑆 (𝐴 ⊗ 𝐼𝑞 ).
Como 𝑟(𝐴) = 𝑝 − 1, conclui-se que 𝑟(𝐴 ⊗ 𝐼𝑞 ) = 𝑟(𝐴𝑇 ⊗ 𝐼𝑞 ) = (𝑝 − 1)𝑞, e, portanto, a
matriz 𝑆𝑎 tem inversa.
𝐸{𝑣𝑎•𝑖 (𝑣𝑎•𝑖 )𝑇 |𝑧•𝑖 } = 𝐸(𝐴𝑇 𝑢•𝑖 𝑢𝑇•𝑖 𝐴|𝑧•𝑖 ) = 𝐴𝑇 𝐸(𝑢•𝑖 𝑢𝑇•𝑖 |𝑧•𝑖 )𝐴 = 𝐴𝑇 Σ𝐴 = Σ𝑎 .
Sabe-se que o estimador EA, (7.26), é estimador MGM eficiente, pois corresponde ao
estimador SUR com coeficientes constantes (ver capítulo 5). Vai, agora, demonstrar-se
que o estimador EF de 𝜙, (7.57), é um estimador MGM (ficando também provado que
é um estimador consistente e assintoticamente normal). Para isso, vai considerar-se o
sistema de 𝑝 − 1 equações, 𝑦𝑎•𝑖 = 𝐹•𝑖
𝑎
𝜙 + 𝑣𝑎•𝑖 , e um estimador MGM de 𝜙 [com o formato
(5.15)], considerando
1 𝑚
𝑆𝑎𝑧𝑓 = (𝐹•𝑖𝑎
⊗ 𝑧•𝑖 ) [média amostral correspondente a 𝑄𝑎𝑧𝑓 = 𝐸(𝐹•𝑖
𝑎
⊗ 𝑧•𝑖 )],
𝑚 𝑖=
1 𝑚
𝑠𝑎𝑧𝑦 = (𝑦𝑎•𝑖 ⊗ 𝑧•𝑖 ) [média amostral correspondente a𝑞𝑎𝑧𝑦 = 𝐸(𝑦𝑎•𝑖 ⊗ 𝑧•𝑖 )],
𝑚 𝑖=
̂
𝑊 = (𝐴 𝐴)− ⊗ 𝑆−
𝑇
𝑧𝑧 [matriz quadrada de ordem (𝑝 − 1)𝑞].
1028 Anexo 7A Complementos
𝜙(̂ 𝑊)
̂ = {(𝑆𝑎 )𝑇 𝑊̂ 𝑆𝑎 }− (𝑆𝑎 )𝑇 𝑊̂ 𝑠𝑎𝑧𝑦 = 𝜙̂ EF .
𝑧𝑓 𝑧𝑓 𝑧𝑓
Como 𝐹•𝑖
𝑎
= 𝐴𝑇 𝐹•𝑖 , vem
1 𝑚 1 𝑚
𝑆𝑎𝑧𝑓 = (𝐴𝑇 𝐹•𝑖 ⊗ 𝑧•𝑖 ) = (𝐴𝑇 ⊗ 𝐼𝑞 ) (𝐹•𝑖 ⊗ 𝑧•𝑖 ).
𝑚 𝑖= 𝑚 𝑖=
Então,
1 𝑚 1 𝑚
(𝑆𝑎𝑧𝑓 )𝑇 𝑊̂ 𝑆𝑎𝑧𝑓 = (𝐹•𝑖 ⊗ 𝑧•𝑖 )𝑇 (𝐴 ⊗ 𝐼𝑞 ){(𝐴𝑇 𝐴)− ⊗ 𝑆− 𝑇
𝑧𝑧 }(𝐴 ⊗ 𝐼𝑞 ) (𝐹•𝑖 ⊗ 𝑧•𝑖 )
𝑚 𝑖= 𝑚 𝑖=
1 𝑚 1 𝑚
= (𝐹•𝑖 ⊗ 𝑧•𝑖 )𝑇 {𝑃𝑒 ⊗ 𝑆−
𝑧𝑧 } (𝐹•𝑖 ⊗ 𝑧•𝑖 ) ,
𝑚 𝑖= 𝑚 𝑖=
e
1 𝑚 1 𝑚
(𝑆𝑎𝑧𝑓 )𝑇 𝑊̂ 𝑠𝑎𝑧𝑦 = (𝐹•𝑖 ⊗ 𝑧•𝑖 )𝑇 {𝑃𝑒 ⊗ 𝑆−
𝑧𝑧 } (𝑦•𝑖 ⊗ 𝑧•𝑖 ) .
𝑚 𝑖= 𝑚 𝑖=
Como
⎡ 𝑓𝑖• ⊗ 𝑧•𝑖 ⎤ ⎡ 𝑧•𝑖 𝑓𝑖• ⎤
⎢ 𝑓 ⊗ 𝑧•𝑖 ⎥ ⎢ 𝑧•𝑖 𝑓𝑖• ⎥
𝐹•𝑖 ⊗ 𝑧•𝑖 = ⎢ 𝑖• ⎥=⎢ ⎥ , 𝑦•𝑖 ⊗ 𝑧•𝑖 = 𝑧•𝑖 𝑦•𝑖 ,
⋮ ⋮
⎢ ⎥ ⎢ ⎥
⎣ 𝑓𝑝𝑖• ⊗ 𝑧•𝑖 ⎦ ⎣ 𝑧•𝑖 𝑓𝑝𝑖• ⎦
e notando que 𝑐𝑡𝑠 é o elemento genérico de 𝑃𝑒 , obtém-se
⎡ 𝑐 𝑆−
𝑧𝑧 ⋯ 𝑐𝑝 𝑆−
𝑧𝑧 ⎤ ⎡
𝑚
∑𝑚 𝑧•𝑖 𝑓𝑖• ⎤
𝑖=
∑𝑚 ∑𝑚 ⎢ ⎥ ⎢ ⎥
(𝑆𝑎𝑧𝑓 )𝑇 𝑊̂ 𝑆𝑎𝑧𝑓 𝑇 𝑇 𝑇 𝑇
= 𝑚 𝑖= 𝑓𝑖• 𝑧•𝑖 ⋯ 𝑚 𝑖= 𝑓𝑝𝑖• 𝑧•𝑖 ⋮ ⋮ ⋮
⎢ 𝑐 𝑆− ⋯ 𝑐 𝑆− ⎥ ⎢ ∑𝑚
𝑧 𝑓 ⎥
⎣ 𝑝 𝑧𝑧 𝑝𝑝 𝑧𝑧 ⎦ ⎣ 𝑚 𝑖= •𝑖 𝑝𝑖• ⎦
𝑝 𝑝 1 𝑚 𝑇 𝑇 1 𝑚
= 𝑐𝑡𝑠 𝑓𝑡𝑖• 𝑧•𝑖 𝑆−
𝑧𝑧 𝑧•𝑖 𝑓𝑠𝑖•
𝑡= 𝑠= 𝑚 𝑖= 𝑚 𝑖=
e, de forma semelhante,
⎡ 𝑐 𝑆−
𝑧𝑧 ⋯ 𝑐𝑝 𝑆−𝑧𝑧 ⎤ ⎡
𝑚
∑𝑚 𝑧•𝑖 𝑦𝑖 ⎤
𝑖=
(𝑆𝑎𝑧𝑓 )𝑇 𝑊̂ 𝑠𝑎𝑧𝑦 =
𝑚
∑𝑚
𝑇 𝑇
𝑓𝑖• 𝑧•𝑖 ⋯
𝑇 𝑇
𝑓𝑝𝑖• 𝑚
∑𝑚
𝑧•𝑖 ⎢ ⋮ ⋮ ⎥ ⎢ ⋮ ⎥
𝑖= 𝑖=
⎢ 𝑐 𝑆− ⋯ 𝑐 𝑆− ⎥ ⎢ ∑𝑚
𝑧 𝑦 ⎥
⎣ 𝑝 𝑧𝑧 𝑝𝑝 𝑧𝑧 ⎦ ⎣ 𝑚 𝑖= •𝑖 𝑝𝑖 ⎦
𝑝 𝑝 1 𝑚 𝑇 𝑇 1 𝑚
= 𝑐𝑡𝑠 𝑓𝑡𝑖• 𝑧•𝑖 𝑆−
𝑧𝑧 𝑧•𝑖 𝑦𝑠𝑖 .
𝑡= 𝑠= 𝑚 𝑖= 𝑚 𝑖=
Demonstração das propriedades assintóticas do estimador EF 1029
𝑝 𝑝 1 𝑚 1 𝑚 𝑝 𝑝
(𝑆𝑎𝑧𝑓 )𝑇 𝑊̂ 𝑆𝑎𝑧𝑓 = 𝑐𝑡𝑠 𝑇
𝑓𝑡𝑖• 𝑇
𝑓𝑠𝑖• = 𝑐𝑡𝑠 𝑓𝑡𝑖• 𝑓𝑠𝑖• ,
𝑡= 𝑠= 𝑚 𝑖= 𝑚 𝑖= 𝑡= 𝑠=
𝑝 𝑝 1 𝑚 1 𝑚 𝑝 𝑝
(𝑆𝑎𝑧𝑓 )𝑇 𝑊̂ 𝑠𝑎𝑧𝑦 = 𝑐𝑡𝑠 𝑇
𝑓𝑡𝑖• 𝑇
𝑦𝑠𝑖 = 𝑐𝑡𝑠 𝑓𝑡𝑖• 𝑦𝑠𝑖 .
𝑡= 𝑠= 𝑚 𝑖= 𝑚 𝑖= 𝑡= 𝑠=
obtém-se
1 𝑚 1 𝑚
(𝑆𝑎𝑧𝑓 )𝑇 𝑊̂ 𝑆𝑎𝑧𝑓 = 𝐹•𝑖𝑇
𝑃𝑒 𝐹•𝑖 e (𝑆𝑎𝑧𝑓 )𝑇 𝑊̂ 𝑠𝑎𝑧𝑓 = 𝐹•𝑖𝑇
𝑃𝑒 𝑦•𝑖 ,
𝑚 𝑖= 𝑚 𝑖=
e, portanto, 𝜙(̂ 𝑊)
̂ = 𝜙̂ EF .
Facilmente se conclui que o estimador 𝜙̂ EF não é eficiente. De facto, como
−
𝑎 (𝜙̂ 𝑎EA ) = 1 𝑚 (𝐹 𝑎 )𝑇 Σ̂ −
Cov 𝑎
𝑎 𝐹•𝑖 [ver (7.28)].
•𝑖
𝑚 𝑖=
𝑎 𝑇 − 𝑎 𝑎 𝑇 − 𝑎
𝐸 {(𝐹•𝑖 ) Σ𝑎 𝐹•𝑖 } = 𝐸 (𝐹•𝑖 ⊗ 𝑧•𝑖 )𝑇 {Σ−
𝑎 ⊗ 𝐸(𝑧•𝑖 𝑧•𝑖 ) } 𝐸 (𝐹•𝑖 ⊗ 𝑧•𝑖 )
= (𝑄𝑎𝑧𝑓 )𝑇 (Σ− − 𝑎
𝑎 ⊗ 𝑄𝑧𝑧 ) 𝑄𝑧𝑓 ,
e que 𝑟(𝑄𝑎𝑧𝑓 ) = 𝑘 .
1030 Anexo 7A Complementos
que 𝑄𝑧𝑧 = 𝐸(𝑧•𝑖 𝑧•𝑖 ) existe e tem inversa, e que em 𝑧•𝑖 estão todos os elementos de 𝐹•𝑖 .
𝑇
𝑑
𝑄𝑆 = 𝐽(𝜙̂ 𝑎EA , 𝑆̂ − 𝑎 𝑎 ̂ 𝑎 𝑇 ̂ − 𝑎 𝑎 ̂𝑎
𝑎 ) = 𝑚(𝑠𝑧𝑦 − 𝑆𝑧𝑓 𝜙EA ) 𝑆𝑎 (𝑠𝑧𝑦 − 𝑆𝑧𝑓 𝜙EA ) → 𝜒 (𝑝𝑞 − 𝑘 ).
1 𝑚
plim 𝑐 𝑇 𝑐
(𝐹•𝑖 ) 𝑣̂ •𝑖 (𝑣̂ 𝑐•𝑖 )𝑇 𝐹•𝑖
𝑐 𝑐 𝑇 𝑐 𝑐 𝑇 𝑐
= 𝐸{(𝐹•𝑖 ) 𝑣•𝑖 (𝑣•𝑖 ) 𝐹•𝑖 }.
𝑚 𝑖=
A demonstração desta convergência é feita com a mesma técnica usada para demons-
trar a propriedade 3.4 (ver anexo 3B, secção 3B.2) e a propriedade 4.4.
Modelos dinâmicos 1031
𝑐 𝑇 𝑐 𝑇
(𝐹•𝑖 ) 𝑣•𝑖 = 𝐹•𝑖 𝑃𝑒 𝑣•𝑖 = 𝐽 𝑇 (𝐼𝑝 ⊗ 𝑧•𝑖 )𝑃𝑒 𝑣•𝑖 = 𝐽 𝑇 (𝐼𝑝 ⊗ 𝑧•𝑖 )𝑃𝑒 𝑢•𝑖 = 𝐽 𝑇 (𝐼𝑝 ⊗ 𝑧•𝑖 )(𝑃𝑒 𝑢•𝑖 ⊗ 1)
= 𝐽 𝑇 (𝑃𝑒 𝑢•𝑖 ⊗ 𝑧•𝑖 ) = 𝐽 𝑇 (𝑃𝑒 ⊗ 𝐼𝑞 )(𝑢•𝑖 ⊗ 𝑧•𝑖 ) = 𝐽 𝑇 (𝑃𝑒 ⊗ 𝐼𝑞 )𝑔•𝑖 .
Então,
𝑐 𝑇 𝑐
𝐸{(𝐹•𝑖 ) 𝑣•𝑖 (𝑣𝑐•𝑖 )𝑇 𝐹•𝑖
𝑐
} = 𝐸{𝐽 𝑇 (𝑃𝑒 ⊗ 𝐼𝑞 )𝑔•𝑖 𝑔𝑇•𝑖 (𝑃𝑒 ⊗ 𝐼𝑞 )𝐽} = 𝐽 𝑇 (𝑃𝑒 ⊗ 𝐼𝑞 )𝑆(𝑃𝑒 ⊗ 𝐼𝑞 )𝐽,
𝐹•𝑖 ⊗ 𝑧•𝑖 = {(𝐼𝑝 ⊗ 𝑧𝑇•𝑖 )𝐽} ⊗ 𝑧•𝑖 = {(𝐼𝑝 ⊗ 𝑧𝑇•𝑖 ) ⊗ 𝑧•𝑖 }(𝐽 ⊗ 1)
= (𝐼𝑝 ⊗ 𝑧𝑇•𝑖 ⊗ 𝑧•𝑖 ) 𝐽 = (𝐼𝑝 ⊗ 𝑧•𝑖 𝑧𝑇•𝑖 ) 𝐽 ,
e
𝑐
𝐹•𝑖 ⊗ 𝑧•𝑖 = (𝑃𝑒 ⊗ 𝐼𝑝 )(𝐹•𝑖 ⊗ 𝑧•𝑖 ) = (𝑃𝑒 ⊗ 𝐼𝑝 )(𝐼𝑝 ⊗ 𝑧•𝑖 𝑧𝑇•𝑖 ) 𝐽
= (𝑃𝑒 ⊗ 𝑧•𝑖 𝑧𝑇•𝑖 )𝐽 = (𝐼𝑝 ⊗ 𝑧•𝑖 𝑧𝑇•𝑖 )(𝑃𝑒 ⊗ 𝐼𝑝 ) 𝐽.
Então,
𝑄𝑐𝑧𝑓 = (𝐼𝑝 ⊗ 𝑄𝑧𝑧 )(𝑃𝑒 ⊗ 𝐼𝑝 ) 𝐽.
Como, devido à hipótese MENO.4, 𝑄𝑐𝑧𝑓 = 𝐸(𝐹•𝑖 𝑐
⊗ 𝑧•𝑖 ) tem característica 𝑘 , e como que
𝑄𝑧𝑧 = 𝐸(𝑧•𝑖 𝑧•𝑖 ) é não singular, conclui-se que 𝑟{(𝑃𝑒 ⊗ 𝐼𝑞 ) 𝐽} = 𝑘 .
𝑇
Admita-se que 𝐸(𝛼𝑖 𝑣𝑡𝑖 ) = 0, 𝐸(𝑦𝑖 𝑣𝑡𝑖 ) = 0, 𝐸(𝑣𝑡𝑖 𝑣𝑠𝑖 ) = 0 (𝑡 ≠ 𝑠), 𝐸(𝑣𝑡𝑖 ) = 𝜎𝑣 . Este modelo
pode ser apresentado na forma (7.51), fazendo
Para obter 𝐸(𝑦𝑡𝑖 𝑣𝑠𝑖 ), começa-se por obter 𝑦𝑡𝑖 por substituição recursiva. Assim,
1 − 𝜙𝑡
𝑦𝑡𝑖 = 𝛼 + 𝜙𝑡 𝑦𝑖 + 𝑣𝑡𝑖 + 𝜙 𝑣𝑡−,𝑖 + ⋯ + 𝜙𝑡 𝑣𝑖 .
1−𝜙 𝑖
𝜙𝑡−𝑠 𝜎𝑣 (𝑡 ≥ 𝑠)
𝐸(𝑦𝑡𝑖 𝑣𝑠𝑖 ) =
0 (𝑡 < 𝑠).
𝑇
𝐸(𝐹•𝑖 𝑃𝑒 𝑣•𝑖 ) = 𝐸{tr(𝐹•𝑖
𝑇
𝑃𝑒 𝑣•𝑖 )} = 𝐸{tr(𝑣•𝑖 𝐹•𝑖
𝑇
𝑃𝑒 )} = tr{𝐸(𝑣•𝑖 𝐹•𝑖
𝑇
)𝑃𝑒 }
1 𝑇 1
= tr 𝐸(𝑣•𝑖 𝐹•𝑖
𝑇
) 𝐼𝑝 − 𝑒 𝑒 = tr{ 𝐸(𝑣•𝑖 𝐹•𝑖
𝑇
)} − tr{ 𝐸(𝑣•𝑖 𝐹•𝑖
𝑇
) 𝑒𝑝 𝑒𝑇𝑝 }
𝑝 𝑝 𝑝 𝑝
1
= tr{ 𝐸(𝑣•𝑖 𝐹•𝑖
𝑇 𝑇
)} − 𝑒𝑇𝑝 𝐸(𝑣•𝑖 𝐹•𝑖 ) 𝑒𝑝 .
𝑝
Como
⎡ 𝑣𝑖 𝑦𝑖 𝑣𝑖 𝑦𝑖 ⋯ 𝑣𝑖 𝑦𝑝−,𝑖 ⎤
⎢ 𝑣 𝑦 𝑣𝑖 𝑦𝑖 ⋯ 𝑣𝑖 𝑦𝑝−,𝑖 ⎥
𝑇
𝑣•𝑖 𝐹•𝑖 = ⎢ 𝑖 𝑖 ⎥,
⋮ ⋮ ⋮
⎢ ⎥
⎣ 𝑝𝑖 𝑦𝑖
𝑣 𝑣𝑝𝑖 𝑦𝑖 ⋯ 𝑣𝑝𝑖 𝑦𝑝−,𝑖 ⎦
vem
⎡ 0 1 𝜙 𝜙 ⋯ 𝜙𝑝− 𝜙𝑝− ⎤
⎢ 0 0 1 𝜙 ⋯ 𝜙𝑝− 𝜙𝑝− ⎥
⎢ ⎥
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝐸(𝑣•𝑖 𝐹•𝑖 ) = ⎢
𝑇 ⎥,
⎢ 0 0 0 0 ⋯ 1 𝜙 ⎥
⎢ 0 0 0 0 ⋯ 0 1 ⎥
⎢ 0 0 0 0 ⋯ 0 0 ⎥
⎣ ⎦
Se 𝐸(𝐹•𝑖𝑇
𝑃𝑒 𝐹•𝑖 ) é não singular, e se 𝑝 − 1 − 𝑝𝜙 + 𝜙𝑝 ≠ 0, então o estimador EF de 𝜙 é
inconsistente. Neste caso, é violada a hipótese MENO.2’, já que 𝐸(𝑦𝑡−,𝑖 𝑣𝑠𝑖 ) ≠ 0, para
𝑠 ≤ 𝑡 − 1.
Como
1 𝑚
plim 𝑣̂ 𝑎•𝑖 (𝑣̂ 𝑎•𝑖 )𝑇 = 𝐸{𝑣𝑎•𝑖 (𝑣𝑎•𝑖 )𝑇 } = 𝐸(𝐴𝑇 𝑣•𝑖 𝑣𝑇•𝑖 𝐴) = 𝐴𝑇 𝐸(𝑣•𝑖 𝑣𝑇•𝑖 )𝐴 = 𝜎𝑣 𝐴𝑇 𝐴,
𝑚 𝑖=
obtém-se
SQR
plim = 𝑚 tr (𝐴 𝐴) 𝜎𝑣 𝐴 𝐴 = (𝑝 − 1)𝜎𝑣 ,
𝑇 − 𝑇
𝑚
ou
SQR
plim
= 𝜎𝑣 .
𝑚(𝑝 − 1)
Como
SQR SQR 𝑚(𝑝 − 1)
= ,
𝑚(𝑝 − 1) − 𝑘 𝑚(𝑝 − 1) 𝑚(𝑝 − 1) − 𝑘
resulta imediatamente que 𝜎̂ 𝑣 = SQR/(𝑚𝑝 − 𝑚 − 𝑘 ) é estimador consistente de 𝜎𝑣 .
A razão para subtrair 𝑚 ao denominador tem a ver com o facto de as 𝑝 equações do
modelo transformado não serem linearmente independentes, porque a soma de ambos
os membros de 𝑦𝑐•𝑖 = 𝐹•𝑖
𝑐
𝜙 + 𝑣𝑐•𝑖 é nula (basta notar que 𝑒𝑇𝑝 𝑃𝑒 = 𝟎). Assim, a verdadeira
dimensão da amostra é 𝑚𝑝 − 𝑚, e não 𝑚𝑝; usar 𝑚𝑝 em vez de 𝑚𝑝 − 𝑚 é um erro muito
comum que pode sub-estimar os erros padrão e sobre-estimar os rácios-𝑡. Por exemplo,
se 𝑝 = 3, 𝑚 = 2000 e 𝑘 = 4 tem-se 𝑚𝑝 − 𝑘 = 5996 e 𝑚𝑝 − 𝑚 − 𝑘 = 3996; os rácios-𝑡 são
sobre-estimados em cerca de 22.5%, uma vez que
5996
− 1 ≈ 0.225.
3996
Demonstração do teorema 7.1 (teste de especificação de Hausman) 1035
Como
Σ𝑎 = 𝐸{𝑣𝑎•𝑖 (𝑣𝑎•𝑖 )𝑇 } = 𝐴𝑇 𝐸(𝑣•𝑖 𝑣𝑇•𝑖 )𝐴 = 𝜎𝑣 𝐴𝑇 𝐴,
𝑆̂ − 𝑇 − −
𝑎 = (𝜎̂ 𝑣 𝐴 𝐴) ⊗ 𝑆𝑧𝑧 ,
e, portanto,
𝜙̂ 𝑎EA = {(𝑆𝑎𝑧𝑓 )𝑇 𝑆̂ − 𝑎 − 𝑎 𝑇 ̂ − 𝑎
𝑎 𝑆𝑧𝑓 } (𝑆𝑧𝑓 ) 𝑆𝑎 𝑠𝑧𝑦
−
= (𝑆𝑎𝑧𝑓 )𝑇 {(𝜎̂ 𝑣 𝐴𝑇 𝐴)− ⊗ 𝑆− 𝑎 𝑎 𝑇 𝑇 − − 𝑎
𝑧𝑧 }𝑆𝑧𝑓 (𝑆𝑧𝑓 ) {(𝜎̂ 𝑣 𝐴 𝐴) ⊗ 𝑆𝑧𝑧 }𝑠𝑧𝑦
−
= (𝑆𝑎𝑧𝑓 )𝑇 {(𝐴𝑇 𝐴)− ⊗ 𝑆− 𝑎 𝑎 𝑇 𝑇 − − 𝑎
𝑧𝑧 }𝑆𝑧𝑓 (𝑆𝑧𝑓 ) {(𝐴 𝐴) ⊗ 𝑆𝑧𝑧 }𝑠𝑧𝑦
= 𝜙̂ EF .
A seguir, vai provar-se que o estimador EF de 𝜙, (7.57), pode ser apresentado na forma
seguinte:
𝜙̂ EF = (𝐽 𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )− 𝐽 𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑠𝑧𝑦 ,
𝑘 𝑘
onde
⎡ 𝐼𝑘 ⎤
𝐽𝑘 = ⎢ ⎥ (matriz de tipo 𝑘 × 𝑘 ) e 𝑊̂ = 𝑃𝑒 ⊗ 𝑆−
𝑧𝑧 .
⎣ 𝑂 ⎦
Com efeito, tem-se
1 𝑚 1 𝑚
𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 = 𝐽𝑘𝑇 (𝑋•𝑖 ⊗ 𝑧•𝑖 )𝑇 𝑊̂ (𝑋•𝑖 ⊗ 𝑧•𝑖 ) 𝐽𝑘
𝑚 𝑡= 𝑚 𝑡=
1 𝑚 1𝑇𝑚
= 𝐽𝑘𝑇 𝐹•𝑖 ⊗ 𝑧•𝑖 𝐻•𝑖 ⊗ 𝑧•𝑖 𝑊̂ 𝐹•𝑖 ⊗ 𝑧•𝑖 𝐻•𝑖 ⊗ 𝑧•𝑖 𝐽𝑘
𝑚 𝑡= 𝑚 𝑡=
1 𝑚 1 𝑚
= (𝐹•𝑖 ⊗ 𝑧•𝑖 )𝑇 (𝑃𝑒 ⊗ 𝑆−
𝑧𝑧 ) (𝐹•𝑖 ⊗ 𝑧•𝑖 ) .
𝑚 𝑡= 𝑚 𝑡=
1036 Anexo 7A Complementos
𝛿̂ = 𝜙̂ EF − 𝜙̂ EA = 𝜙̂ EF − 𝐽𝑘𝑇 𝛽̂EA
= (𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )− 𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑠𝑧𝑦 − ( 𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )− (𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )𝐽𝑘𝑇 𝛽̂EA .
Notando que
1 𝑚
𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 = 𝑋•𝑖𝑇 𝑃𝑒 𝑋•𝑖 ,
𝑚 𝑖=
e que
𝑇
𝐹•𝑖 𝑃𝑒 𝐹•𝑖 𝑂
𝑃𝑒 𝑋•𝑖 = 𝑃𝑒 [ 𝐹•𝑖 𝐻•𝑖 ] = 𝑃𝑒 [ 𝐹•𝑖 𝑒𝑝 ℎ𝑖• ] = [ 𝑃𝑒 𝐹•𝑖 𝑂 ], 𝑋•𝑖𝑇 𝑃𝑒 𝑋•𝑖 = ,
𝑂 𝑂
tem-se
⎡
𝑚
∑𝑚 𝐹•𝑖𝑇
𝑃𝑒 𝐹•𝑖 𝑂 ⎤
𝑖=
𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 =⎢ 𝑇 ̂ 𝑇
⎥ = 𝑆𝑧𝑥 𝑊 𝑆𝑧𝑥 𝐽𝑘 𝐽𝑘 .
⎣ 𝑂 𝑂 ⎦
Então,
𝛿̂ = (𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )− 𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑠𝑧𝑦 − (𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )− 𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝛽̂EA
= (𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )− 𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊(𝑠
̂ 𝑧𝑦 − 𝑆𝑧𝑥 𝛽̂EA )
= (𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )− 𝐽𝑘𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑔•𝑚 (𝛽̂EA ),
onde
𝑔•𝑚 (𝛽̂EA ) = 𝑠𝑧𝑦 − 𝑆𝑧𝑥 𝛽̂EA .
De acordo com a demonstração do teorema 4.5 (secção 4A.4 do anexo 4A),
em que
1 𝑚 1 𝑚
𝐵̂ = 𝐼𝑝𝑞 − 𝑆𝑧𝑥 (𝑆𝑇𝑧𝑥 𝑆̂ − 𝑆𝑧𝑥 )− 𝑆𝑇𝑧𝑥 𝑆̂ − e 𝑔•𝑚 = 𝑔•𝑖 = (𝑢•𝑖 ⊗ 𝑧•𝑖 ).
𝑚 𝑖= 𝑚 𝑖=
Como
𝑑
(𝑝𝑞)
√𝑚 𝑔•𝑚 → 𝑁 (0, 𝑆), Cov𝑎 (𝑔•𝑚 ) = 𝑆,
Demonstração do teorema 7.1 (teste de especificação de Hausman) 1037
conclui-se que
𝑑
√𝑚 𝛿̂ = (𝐽𝑘 𝑆𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 ) 𝐽𝑘 𝑆𝑧𝑥 𝑊̂ 𝐵̂ √𝑚 𝑔•𝑚 → 𝑁 { 𝟎, Cov𝑎 (𝛿)},
̂
𝑇 𝑇 − 𝑇 𝑇 (𝑘 )
desde que a matriz Cov𝑎 (𝛿)̂ tenha inversa. Neste caso, tem-se
Cov𝑎 (𝛿)̂ = (𝐽𝑘𝑇 𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 𝐽𝑘 )− 𝐽𝑘𝑇 𝑄𝑇𝑧𝑥 𝑊 𝐵 𝑆 𝐵𝑇 𝑊 𝑄𝑧𝑥 𝐽𝑘 (𝐽𝑘𝑇 𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 𝐽𝑘 )− ,
onde 𝑊 = plim(𝑊) ̂ = 𝑃𝑒 ⊗ 𝑄− ̂
𝑧𝑧 e 𝐵 = plim(𝐵) = 𝐼𝑝𝑞 − 𝑄𝑧𝑥 (𝑄𝑧𝑥 𝑆 𝑄𝑧𝑥 ) 𝑄𝑧𝑥 𝑆 .
𝑇 − − 𝑇 −
Para provar que Cov𝑎 (𝛿)̂ é não singular, vai confirmar-se, em primeiro lugar, que
𝐽𝑘 𝑄𝑧𝑥 𝑊 𝑄𝑧𝑥 𝐽𝑘 é não singular. Com efeito, tem-se
𝑇 𝑇
em que 𝑧•𝑖 «desaparece» porque todos os elementos de 𝐹•𝑖 estão incluídos em 𝑧•𝑖 . Como
𝑇
𝐸(𝐹•𝑖 𝑃𝑒 𝐹•𝑖 ) tem inversa (ver a demonstração das propriedades do estimador EF), está
garantida a não singularidade de 𝐽𝑘𝑇 𝑄𝑇𝑧𝑥 𝑊 𝑄𝑧𝑥 𝐽𝑘 .
Fica ao cuidado do leitor provar que 𝐵𝑇 𝑊 𝑄𝑧𝑥 𝐽𝑘 , matriz de tipo 𝑝𝑞 × 𝑘 , tem caracte-
rística igual a 𝑘 . Nestas circunstâncias, conclui-se que Cov𝑎 (𝛿)̂ é invertível.
Um estimador consistente de Cov𝑎 (𝛿)̂ é
𝑎 (𝛿)̂ = (𝐽 𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )− 𝐽 𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝐵̂ 𝑆̂ 𝐵̂ 𝑇 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 (𝐽 𝑇 𝑆𝑇𝑧𝑥 𝑊̂ 𝑆𝑧𝑥 𝐽𝑘 )− .
Cov 𝑘 𝑘 𝑘
Então,
plim(𝛽̂EA ) = 𝛽 + 𝐸(𝑋•𝑖𝑇 Σ− 𝑋•𝑖 )− 𝐸(𝑋•𝑖𝑇 Σ− 𝑢•𝑖 ),
onde 𝑢•𝑖 = 𝑒𝑝 𝛼𝑖 + 𝑣•𝑖 . A consistência do estimador exige que 𝐸(𝑋•𝑖𝑇 Σ− 𝑢•𝑖 ) = 𝟎. Assim:
desde que se verifique 𝐸(𝑥𝑡𝑖• 𝑣𝑠𝑖 ) = 𝟎, a condição 𝐸(𝑥𝑡𝑖• 𝛼𝑖 ) = 𝟎 é suficiente para que
𝐸(𝑋•𝑖𝑇 Σ− 𝑢•𝑖 ) = 𝟎; contudo, esta condição não é necessária. Deste modo, em rigor, o
teste de Hausman não testa 𝐸(𝑥𝑡𝑖• 𝛼𝑖 ) = 𝟎, mas sim 𝐸(𝑋•𝑖𝑇 Σ− 𝑢•𝑖 ) = 𝟎.
𝑐 𝑇 𝑐 𝑝 𝑝
(𝐹•𝑖 𝑇
) 𝑣•𝑖 = 𝐹•𝑖 𝑃𝑑𝑖 𝑣•𝑖 = 𝑐𝑖𝑡𝑠 𝑑𝑡𝑖 𝑑𝑠𝑖 𝑓𝑡𝑖• 𝑣𝑠𝑖 ,
𝑡= 𝑠=
𝑐 𝑇 𝑐 𝑝 𝑝
𝐸{(𝐹•𝑖 ) 𝑣•𝑖 } = 𝐸(𝑐𝑖𝑡𝑠 𝑑𝑡𝑖 𝑑𝑠𝑖 𝑓𝑡𝑖• 𝑣𝑠𝑖 ) = 𝟎,
𝑡= 𝑠=
𝐸(𝑐𝑖𝑡𝑠 𝑑𝑡𝑖 𝑑𝑠𝑖 𝑓𝑡𝑖• 𝑣𝑠𝑖 ) = 𝐸{𝐸(𝑐𝑖𝑡𝑠 𝑑𝑡𝑖 𝑑𝑠𝑖 𝑓𝑡𝑖• 𝑣𝑠𝑖 |𝑑•𝑖 )} = 𝐸{𝑐𝑖𝑡𝑠 𝑑𝑡𝑖 𝑑𝑠𝑖 𝐸(𝑓𝑡𝑖• 𝑣𝑠𝑖 |𝑑•𝑖 )} = 𝟎.
Deve notar-se que a extensão das propriedades do estimador EF ao caso dos painéis
não balanceados é mais fácil admitindo a possibilidade de existir heterocedasticidade
condicionada. No caso de homocedasticidade condicionada, para obter, por exemplo,
a expressão correspondente a (7.67), deve supor-se que
facilmente que
−
𝑚 𝑚
𝜙̂ EF = (𝐹•𝑖
∗ 𝑇 𝑖 ∗ ∗ 𝑇 𝑖 ∗
) 𝑃𝑒 𝐹•𝑖 (𝐹•𝑖 ) 𝑃𝑒 𝑦•𝑖 .
𝑖= 𝑖=
Demonstração das propriedades assintóticas do estimador EF 1039
Quando se considera o modelo 𝑦•𝑖 = 𝑋•𝑖 𝛽 + 𝑢•𝑖 , com dados de painel não balancea-
dos, em que se admite a possibilidade de existir heterocedasticidade condicionada, o
estimador PMQ pode ser construído, sem dificuldade, fazendo
Cov𝑎 (𝛽̂PMQ ) = 𝐸(𝑋•𝑖𝑇 𝑋•𝑖 )− 𝐸(𝑋•𝑖𝑇 𝑢•𝑖 𝑢𝑇•𝑖 𝑋•𝑖 )𝐸(𝑋•𝑖𝑇 𝑋•𝑖 )− ,
− −
𝑎 (𝛽̂PMQ ) = 1 𝑚 1 𝑚 1 𝑚
Cov 𝑇 𝑇
𝑖= 𝑋•𝑖 𝑋•𝑖 𝑖= 𝑋•𝑖 𝑢̂ •𝑖 𝑢̂ •𝑖 𝑋•𝑖
𝑇
𝑋•𝑖𝑇 𝑋•𝑖 ,
𝑚 𝑚 𝑚 𝑖=
em que 𝑥𝑡• é o vector 1 × 𝑘 dos regressores são pré-determinados (cada equação tem os
mesmos regressores).
O modelo pode ser escrito da seguinte maneira:
onde
1041
1042 Anexo 8A Sistemas de Equações de Regressão Linear e o Método da MV
onde
1 𝑛
̂ B̃ ) =
(𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 (𝑦𝑡• − 𝑥𝑡• B̃ )
Σ(
𝑛 𝑡=
1 𝑛 1 𝑛
(𝑦𝑡• − 𝑥𝑡• B̃ ) Σ̃ − (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 = tr (𝑦𝑡• − 𝑥𝑡• B̃ ) Σ̃ − (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 �
𝑛 𝑡= 𝑛 𝑡=
1 𝑛
= tr{ (𝑦𝑡• − 𝑥𝑡• B̃ ) Σ̃ − (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 }
𝑛 𝑡=
1 𝑛
= tr{ Σ̃ − (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 (𝑦𝑡• − 𝑥𝑡• B̃ )}
𝑛 𝑡=
1 𝑛
= tr Σ̃ − (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 (𝑦𝑡• − 𝑥𝑡• B̃ )�
𝑛 𝑡=
1 𝑛
= tr Σ̃ − (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 (𝑦𝑡• − 𝑥𝑡• B̃ )� .
𝑛 𝑡=
não meramente semidefinida positiva). Com efeito, como {(𝑦𝑡• , 𝑥𝑡• )} é 𝑖𝑖𝑑, começa-se
por notar que Σ( ̂ B̃ ) converge em probabilidade para 𝐸{(𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 (𝑦𝑡• − 𝑥𝑡• B̃ )}. Como
𝑦𝑡• − 𝑥𝑡• B̃ = 𝑢𝑡• + 𝑥𝑡• (B − B̃ ), 𝐸(𝑥𝑇𝑡• 𝑢𝑡• ) = 𝑂 e 𝐸(𝑢𝑇𝑡• 𝑢𝑡• ) = Σ, vem
𝐸{(𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 (𝑦𝑡• − 𝑥𝑡• B̃ )} = 𝐸 {𝑢𝑡• + 𝑥𝑡• (B − B̃ )}𝑇 {𝑢𝑡• + 𝑥𝑡• (B − B̃ )}
= 𝐸(𝑢𝑇𝑡• 𝑢𝑡• ) + (B − B̃ )𝑇 𝐸(𝑥𝑇𝑡• 𝑢𝑡• )
+ 𝐸(𝑢𝑇𝑡• 𝑥𝑡• )(B − B̃ ) + (B − B̃ )𝑇 𝐸(𝑥𝑇𝑡• 𝑥𝑡• )(B − B̃ )
= Σ + (B − B̃ )𝑇 𝐸(𝑥𝑇𝑡• 𝑥𝑡• )(B − B̃ ).
Passo 1
𝑚 1 1
𝜑∗𝑛 (B̃ ) = 𝜑𝑛 {B̃ , Σ(
̂ B̃ )} = −
ln(2𝜋) + ln{|Σ(̂ B̃ )− |} − tr{ Σ(
̂ B̃ )− Σ(
̂ B̃ )}
2 2 2
𝑚 1 𝑚
= − ln(2𝜋) − ln{|Σ(̂ B̃ )|} − .
2 2 2
Passo 2
Facilmente se verifica que a maximização de 𝜑∗𝑛 (B̃ ) é equivalente a minimizar
1
̂ B̃ )| = 𝑛 (𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 (𝑦𝑡• − 𝑥𝑡• B̃ ) .
|Σ(
𝑛 𝑡=
Modelos de equações simultâneas e o método da máxima verosimilhança 1045
onde 𝑢̂ 𝑡• = 𝑦𝑡• − 𝑥𝑡• B̂ MQ [como, por construção, 𝑢̂ 𝑡• não depende de B,̃ esta desigualdade
mostra que o primeiro membro é minimizado para B̃ = B̂ MQ ].
Com efeito, notando que 𝑦𝑡• − 𝑥𝑡• B̃ = 𝑢̂ 𝑡• + 𝑥𝑡• (B̂ MQ − B̃ ), vem
𝑛 𝑛
(𝑦𝑡• − 𝑥𝑡• B̃ )𝑇 (𝑦𝑡• − 𝑥𝑡• B̃ ) = {𝑢̂ 𝑡• + 𝑥𝑡• (B̂ MQ − B̃ )}𝑇 {𝑢̂ 𝑡• + 𝑥𝑡• (B̂ MQ − B̃ )}
𝑡= 𝑡=
𝑛 𝑛
= 𝑢̂ 𝑇𝑡• 𝑢̂ 𝑡• + (B̂ MQ − B̃ )𝑇 𝑥𝑇𝑡• 𝑥𝑡• (B̂ MQ − B̃ ) ,
𝑡= 𝑡=
obtém-se
𝑚 1 1
ln(2𝜋) + ln( |Γ|̃ ) − ln( |Σ|)
̃ =−
ln{𝑓(𝑦𝑡• |𝑧𝑡• ; 𝛽,̃ Σ)} ̃
2 2 2
1 ̃ Σ̃ − (𝑦𝑡• Γ̃ + 𝑧𝑡• Δ̃ )𝑇 .
− (𝑦𝑡• Γ̃ + 𝑧𝑡• Δ)
2
Este resultado pode ser obtido directamente, utilizando o teorema da mudança de va-
riáveis da teoria da probabilidade, que se recorda:
𝑓𝑢 {ℎ− (𝑦)}
𝑓(𝑦) = ,
Abs( |∇ℎ{ℎ− (𝑦)}| )
Pode obter-se a densidade de 𝑦𝑡• |𝑧𝑡• a partir da densidade de 𝑢𝑡• |𝑧𝑡• . Devido à hipótese
a), tem-se
1
𝑓(𝑢𝑡• |𝑥𝑡• ; Σ) = (2𝜋)−𝑚/ |Σ|−/ exp − 𝑢𝑡• Σ− 𝑢𝑇𝑡• � .
2
Modelos de equações simultâneas e o método da máxima verosimilhança 1047
𝑦𝑡• = ℎ(𝑢𝑡• ) = −𝑧𝑡• Δ Γ− + 𝑢𝑡• Γ− e 𝑢𝑡• = ℎ− (𝑦𝑡• ) = 𝑦𝑡• Γ + 𝑧𝑡• Δ.
Substituindo Σ̃ por Σ(
̂ 𝛽)̃ em 𝜑𝑛 (𝛽,̃ Σ)
̃ , e notando que
1 𝑛
̃ Σ̃ − (𝑦𝑡• Γ̃ + 𝑧𝑡• Δ̃ )𝑇 = tr{ Σ̃ − Σ(
(𝑦𝑡• Γ̃ + 𝑧𝑡• Δ) ̂ 𝛽)},
̃
𝑛 𝑡=
não sendo possível estabelecer uma expressão analítica para 𝛽̂MVIC . O estimador MVIC
de Σ é, então, Σ̂ MVIC = Σ(
̂ 𝛽̂MVIC ).
Dada a forma reduzida, 𝑦𝑡• = 𝑧𝑡• Π + 𝑣𝑡• (um modelo de regressão multivariada),
pode construir-se o logaritmo médio da verosimilhança concentrada, tal como se fez
na secção anterior. Fica ao cuidado do leitor verificar que se obtém
𝑚 𝑚 1 ̂ Π)|),
̃ =−
𝜑∗𝑛 (Π) ln(2𝜋) − − ln(|Ω( ̃
2 2 2
onde
1
Ω( ̃ = 𝑛 (𝑦𝑡• − 𝑧𝑡• Π)
̂ Π) ̃ 𝑇 (𝑦𝑡• − 𝑧𝑡• Π) ̂ 𝛽).
̃ = Ω( ̃
𝑛 𝑡=
Facilmente se verifica que 𝜑∗𝑛 (𝛽)̃ resulta de impor a 𝜑∗𝑛 (Π)̃ as restrições que são implica-
das pela seguinte hipótese nula:
𝐻 ∶ Π = −Δ Γ− ou ΠΓ + Δ = 𝑂.
Dito de outro modo, a estimação MVIC de 𝛽 coincide com a estimação MQ (da regressão
multivariada) com a restrição correspondente a esta hipótese nula. Deste modo, 𝐻
pode ser testada recorrendo ao princípio da razão de verosimilhanças (ver secção 8.4).
Representando por Π̂ MQ o estimador MQ de Π, a estatística-teste é dada por
̂ Δ̂ MVIC Γ̂ −
RV = 2𝑛{𝜑∗𝑛 (Π̂ MQ ) − 𝜑∗𝑛 (𝛽̂MVIC )} = 𝑛 ln Ω(− ̂ ̂
MVIC ) − ln Ω(ΠMQ ) ,
Como se sabe, no modelo SUR todos os regressores de cada equação são variáveis pré-
-determinadas. Nestas condições, o conjunto dos instrumentos é a união de todos os re-
gressores do modelo (𝑥𝑡𝑖• é um subvector de 𝑧𝑡• ). No exemplo 6.1, a forma estrutural do
modelo considera a mesma variável, 𝑞𝑡 , como variável dependente nas duas equações
(procura e oferta). Esta situação não pode ocorrer num modelo SUR.
Com efeito, supondo 𝑦𝑡 = 𝑥𝑡• 𝛽• +𝑢𝑡 , 𝑦𝑡 = 𝑥𝑡• 𝛽• +𝑢𝑡 e 𝑦𝑡 = 𝑦𝑡 , ter-se-ía 𝑢𝑡 −𝑢𝑡 =
𝑥𝑡• 𝛽• − 𝑥𝑡• 𝛽• . Como 𝑥𝑡• e 𝑥𝑡• são subvectores de 𝑧𝑡• , viria 𝑢𝑡 − 𝑢𝑡 = 𝑧𝑡• 𝛼, para
algum vector 𝛼, 𝑞 × 1. Multiplicando ambos os membros desta igualdade por 𝑧𝑇𝑡• , e
calculando os respectivos valores esperados, obtinha-se 𝐸(𝑧𝑇𝑡• 𝑧𝑡• )𝛼 = 𝟎, uma vez que
𝐸(𝑧𝑇𝑡• 𝑢𝑡 ) = 𝐸(𝑧𝑇𝑡• 𝑢𝑡 ) = 𝟎. Como 𝐸(𝑧𝑇𝑡• 𝑧𝑡• ) é não singular, obter-se-ía 𝛼 = 𝟎, e, portanto,
𝑢𝑡 − 𝑢𝑡 = 0, o que é contraditório com as hipóteses do modelo (em particular, porque
Σ é definida positiva). Pode, então, afirmar-se que 𝑦𝑡• agrupa as 𝑚 variáveis endógenas
do modelo. Além disso, como o vector 𝑧𝑡• não inclui qualquer variável endógena, Γ é a
matriz identidade. Então,
𝑚 1 1 𝑛
̃ Σ̃ − (𝑦𝑡• + 𝑧𝑡• Δ̃ )𝑇 .
̃ =−
𝜑𝑛 (𝛽,̃ Σ) ̃ −
ln(2𝜋) − ln (|Σ|) (𝑦𝑡• + 𝑧𝑡• Δ)
2 2 2𝑛 𝑡=
1 𝑛
̃ 𝑇 (𝑦𝑡• + 𝑧𝑡• Δ̃ ).
̂ 𝛽)̃ =
Σ( (𝑦𝑡• + 𝑧𝑡• Δ)
𝑛 𝑡=
e, portanto,
1 𝑇 −
̃ =
∇𝛽̃ 𝜑𝑛 (𝛽,̃ Σ) 𝑋 (Σ̃ ⊗ 𝐼𝑛 )(𝑌 − 𝑋 𝛽).
̃ (8A.7)
𝑛
1050 Anexo 8A Sistemas de Equações de Regressão Linear e o Método da MV
Fazer o mesmo para o caso MVIC (mais geral) não é fácil, embora se continue a verificar
(8A.6). O cálculo do gradiente é mais complicado devido ao facto de função objectivo,
̃ , conter a parcela correspondente a ln( |Γ|̃ ). No entanto, se Γ̃ é constante, obtém-
𝜑𝑛 (𝛽,̃ Σ)
-se (8A.7). Igualando a zero esta expressão, obtém-se
𝑦
onde 𝑥𝑡𝑖• = [ 𝑦𝑡𝑖• 𝑧𝑡𝑖• ], Π𝑖 = Π𝑆𝑖 é a matriz 𝑞 × 𝑚𝑖 dos coeficientes das equações
da forma reduzida referentes às variáveis em 𝑦𝑡𝑖• (variáveis endógenas explica-
𝑦 𝑦
tivas consideradas na equação 𝑖), 𝑦𝑡𝑖• = 𝑦𝑡• 𝑆𝑖 , 𝑧𝑡𝑖• = 𝑧𝑡• 𝑆𝑧𝑖 , onde 𝑆𝑖 e 𝑆𝑧𝑖 são as
respectivas matrizes de selecção. Assim,
𝑦
𝑟(𝑄𝑧𝑥𝑖 ) = 𝑘𝑖 ⇔ 𝑟 Π𝑆𝑖 𝑆𝑧𝑖 = 𝑘𝑖 .
̂ 𝛽)}
plim{ Ω( ̃ = (Γ− )𝑇 Σ Γ− + (Π + Δ̃ Γ̃ − )𝑇 𝐸(𝑧𝑇𝑡• 𝑧𝑡• )(Π + Δ̃ Γ̃ − ).
̂ 𝛽)}
plim{ Ω( ̃ = 𝐸 {(𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ − )𝑇 (𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ − )}.
Como 𝑦𝑡• = 𝑧𝑡• Π + 𝑣𝑡• , vem 𝑦𝑡• + 𝑧𝑡• Δ̃ Γ̃ − = 𝑣𝑡• + 𝑧𝑡• (Π + Δ̃ Γ̃ − ). Então,
Donde,
̂ 𝛽)|
plim{ |Ω( ̃ } = |𝐷 + Ω| ≥ |Ω|,
⎡ 0 ⎤
⎢ ⋮ ⎥
Γ ⎡ 𝛾•𝑖 ⎤
Φ= , 𝜙•𝑖 = ⎢ ⎥ e 𝑒•𝑖 = ⎢ 1 ⎥,
Δ ⎢ ⎥
⎣ 𝛿•𝑖 ⎦ ⋮
⎢ ⎥
⎣ 0 ⎦
onde 𝛾•𝑖 é a coluna 𝑖 da matriz Γ (com 𝑚 elementos), 𝛿•𝑖 é a coluna 𝑖 da matriz Δ
(com 𝑞 elementos) e 𝑒•𝑖 é um vector com 𝑚 + 𝑞 componentes com 1 na posição que
corresponde à variável 𝑦𝑡𝑖 . Facilmente se conclui que
𝑦
𝑆𝑖 𝑂
𝜙•𝑖 = 𝑒•𝑖 − 𝛽•𝑖 .
𝑂 𝑆𝑧𝑖
Fica ao cuidado do leitor verificar esta igualdade para as três equações do modelo
de equações simultâneas apresentado no exemplo 6.5 (ver capítulo 6).
⎡ 𝛾̃ •𝑖 ⎤ ⎧ 𝑦
⎡ 𝑆𝑖 𝑂 ⎤ ⎫
̃ ⎪ ̃ ⎪
Π 𝐼𝑞 ⎢ ⎥ = Π 𝐼 𝑞 𝜙 •𝑖 = Π 𝐼 𝑞 ⎨ 𝑒 •𝑖 − ⎢ ⎥ 𝛽 •𝑖 ⎬
̃ ⎪ 𝑧 ⎪
⎣ 𝛿•𝑖 ⎦ ⎩ ⎣ 𝑂 𝑆𝑖 ⎦ ⎭
𝑦
⎡ 𝑖 𝑂 ⎤
𝑆
= Π 𝐼𝑞 𝑒•𝑖 − Π 𝐼𝑞 ⎢ 𝛽̃
𝑧 ⎥ •𝑖
⎣ 𝑂 𝑆 𝑖 ⎦
𝑦 𝑧
= Π 𝐼𝑞 𝑒•𝑖 − Π𝑆𝑖 𝑆𝑖 𝛽•𝑖 ̃
𝑦
= 𝜋•𝑖 − Π𝑆𝑖 𝑆𝑧𝑖 𝛽̃•𝑖 = 𝟎.
g) Facilmente se verifica que 𝛽̃•𝑖 = 𝛽•𝑖 é solução do sistema anterior. Com efeito,
basta notar que ΠΓ + Δ = 𝑂, e, portanto,
⎡ 𝛾•𝑖 ⎤
Π 𝐼𝑞 ⎢ ⎥ = 𝟎.
⎣ 𝛿•𝑖 ⎦
Modelos de equações simultâneas e o método da máxima verosimilhança 1053
A solução é única se e só se
𝑦
𝑟 ([ Π𝑆𝑖 𝑆𝑧𝑖 ]) = 𝑚𝑖 + 𝑞𝑖 = 𝑘𝑖 ,
Obviamente, o modelo composto só por esta equação não é completo, devido à pre-
sença das variáveis endógenas explicativas, 𝑦𝑡𝑖• . Contudo, se a esta equação forem
acrescentadas as equações da forma reduzida relativamente às variáveis consideradas
no vector 𝑦𝑡𝑖• , obtém-se um modelo completo. De facto, considerem-se as 𝑚𝑖 equações
da forma reduzida,
() ()
𝑦𝑡𝑖• = 𝑧𝑡• Π𝑖 + 𝑣𝑡𝑖• = 𝑧𝑡𝑖• Π𝑖 + 𝑧∗𝑡𝑖• Π𝑖 + 𝑣𝑡𝑖• ,
()
onde; Π𝑖 é a matriz 𝑞𝑖 × 𝑚𝑖 dos coeficientes da forma reduzida relativos às variáveis
()
inseridas em 𝑧𝑡𝑖• ; Π𝑖 é a matriz 𝑞∗𝑖 × 𝑚𝑖 dos coeficientes da forma reduzida relativos às
variáveis consideradas em 𝑧∗𝑡𝑖• . Note-se que
⎡ Π() ⎤
𝑖
Π𝑖 = ⎢ () ⎥.
⎢ Π𝑖 ⎥
⎣ ⎦
1054 Anexo 8A Sistemas de Equações de Regressão Linear e o Método da MV
1 𝟎𝑇
Γ′ = [matriz (𝑚𝑖 + 1) × (𝑚𝑖 + 1) dos coeficientes das variáveis endó-
−𝛾(𝑖) 𝐼𝑚𝑖
genas],
⎡ −𝛿 () ⎤
(𝑖) Π𝑖
′
Δ = ⎢ ⎥ [matriz 𝑞 × 𝑚𝑖 das variáveis pré-determinadas],
()
⎢ 𝟎 Π𝑖 ⎥
⎣ ⎦
𝜀𝑡𝑖• = 𝑢𝑡𝑖 𝑣𝑡𝑖• [vector 1 × (𝑚𝑖 + 1) das variáveis residuais],
pode escrever-se
𝑦′𝑡𝑖• Γ′ + 𝑧𝑡• Δ′ = 𝜀𝑡𝑖• . (8A.9)
Este modelo é completo porque tem 𝑚𝑖 + 1 equações, 𝑚𝑖 + 1 variáveis endógenas e
|Γ′ | = 1 ≠ 0. Neste caso, Σ′ = 𝐸(𝜀𝑇𝑡𝑖• 𝜀𝑡𝑖• ), de tipo (𝑚𝑖 + 1) × (𝑚𝑖 + 1), é a matriz das
covariâncias das variáveis residuais.
Exemplo 8A.1 Considere-se a primeira equação do modelo referido no exemplo 6.5.
Então, de acordo com (8A.8) e (8A.9), tem-se
⎧𝑦 − 𝛼 𝑦 − 𝛼 𝑦 − 𝛼 − 𝛼 𝑧 = 𝑢
⎪ 𝑡 𝑡 𝑡 𝑡 𝑡
⎪
⎨ 𝑦𝑡 − 𝜋 − 𝜋 𝑧𝑡 − 𝜋 𝑧𝑡 − 𝜋 𝑧𝑡 − 𝜋 𝑧𝑡 = 𝑣𝑡
⎪
⎪ 𝑦𝑡 − 𝜋 − 𝜋 𝑧𝑡 − 𝜋 𝑧𝑡 − 𝜋 𝑧𝑡 − 𝜋 𝑧𝑡 = 𝑣𝑡 ,
⎩
onde:
𝑦′𝑡• = 𝑦𝑡 𝑦𝑡 𝑦𝑡 ; 𝑦𝑡• = 𝑦𝑡 𝑦𝑡 ; 𝑧𝑡• = 1 𝑧𝑡 𝑧𝑡 𝑧𝑡 𝑧𝑡 ;
𝑧𝑡• = 1 𝑧𝑡 ; 𝑧∗𝑡• = 𝑧𝑡 𝑧𝑡 𝑧𝑡 ; 𝑣𝑡• = 𝑣𝑡 𝑣𝑡 ; 𝜀𝑡• = 𝑢𝑡 𝑣𝑡 𝑣𝑡 ;
⎡ 𝜋 𝜋 ⎤
⎢ 𝜋 𝜋 ⎥
𝛼 𝛼
𝛾() = ; 𝛿() = ; Π = ⎢ 𝜋 𝜋 ⎥;
𝛼 𝛼 ⎢ ⎥
𝜋 𝜋
⎢ ⎥
⎣ 𝜋 𝜋 ⎦
Modelos de equações simultâneas e o método da máxima verosimilhança 1055
Os parâmetros do modelo (8A.9) são 𝛾(𝑖) , 𝛿(𝑖) , Π𝑖 e Σ′ . Para estimar estes parâmetros
pelo método MVIC, o logaritmo médio da verosimilhança (função objectivo) é dado
por
𝑚𝑖 + 1 1
𝜑𝑛 (𝛾̃ (𝑖) , 𝛿̃(𝑖) , Π̃ 𝑖 , Σ̃ ′ ) = − ln(2𝜋) − ln( |Σ̃ ′ |)
2 2
1 𝑛
− (𝑦′𝑡• Γ̃ ′ + 𝑧𝑡• Δ̃ ′ ) (Σ̃ ′ )− (𝑦′𝑡• Γ̃ ′ + 𝑧𝑡• Δ̃ ′ )𝑇 .
2𝑛 𝑡=
⎧ 𝑦 = 𝛼𝑦 + 𝑢
⎪ 𝑡 𝑡 𝑡
⎨
⎪ 𝑦𝑡 = 𝛽𝑧𝑡 + 𝑣𝑡 ,
⎩
com
Suponha-se que Σ′ é conhecida, e seja (𝛼,̂ 𝛽)̂ o estimador SUR de (𝛼, 𝛽).
Recorrendo a (5.86), o erro de amostragem é
𝛼̂ 𝛼
− =
𝛽̂ 𝛽
−
⎡ 1 ∑𝑛 1 𝑛 ⎤ ⎡ 1 ∑𝑛 1 𝑛 ⎤
𝜎 𝑦𝑡 𝜎 ∑𝑡= 𝑦𝑡 𝑧𝑡 𝜎 𝑦𝑡 𝑢𝑡 + 𝜎 ∑𝑡= 𝑦𝑡 𝑣𝑡
⎢ 𝑛 𝑡= 𝑛 ⎥ ⎢ 𝑛 𝑡= 𝑛 ⎥
=⎢ ⎥ ⎢ ⎥.
1 1 𝑛 1 1
⎢ 𝜎 ∑𝑛𝑡= 𝑦𝑡 𝑧𝑡 𝜎 ∑𝑡= 𝑧𝑡 ⎥ ⎢ 𝜎 ∑𝑛𝑡= 𝑧𝑡 𝑢𝑡 + 𝜎 ∑𝑛𝑡= 𝑧𝑡 𝑣𝑡 ⎥
⎣ 𝑛 𝑛 ⎦ ⎣ 𝑛 𝑛 ⎦
Facilmente se verifica que
1 𝑛 1 𝑛 𝑝
𝜎 𝑦𝑡 𝑢𝑡 + 𝜎 𝑦𝑡 𝑣𝑡 → 0.
𝑛 𝑡= 𝑛 𝑡=
1 𝑛 1 𝑛 𝑝
𝜎 𝑦𝑡 𝑢𝑡 + 𝜎 𝑦𝑡 𝑣𝑡 → 𝜎 𝐸(𝑦𝑡 𝑢𝑡 ) + 𝜎 𝐸(𝑦𝑡 𝑣𝑡 ),
𝑛 𝑡= 𝑛 𝑡=
e que 𝐸(𝑦𝑡 𝑢𝑡 ) = 𝐸(𝑣𝑡 𝑢𝑡 ) = 𝜎 , 𝐸(𝑦𝑡 𝑣𝑡 ) = 𝐸(𝑣𝑡 ) = 𝜎 e 𝜎 𝜎 + 𝜎 𝜎 = 0.
Apesar de poder calcular-se o estimador MVIL por meio do procedimento iterativo
de estimações SUR, pode obter-se uma fórmula explícita para aquele estimador. Isto é
possível porque o modelo (8A.9) tem duas características particulares: 1) a estrutura es-
pecial da matriz Γ′ ; não há restrições de exclusão relativamente às variáveis endógenas.
Seja
⎡ 𝑥𝑖• ⎤
⎢ 𝑥 ⎥
𝑋•𝑖 = ⎢ 𝑖• ⎥
⋮
⎢ ⎥
⎣ 𝑥𝑛𝑖• ⎦
[matriz 𝑛 × 𝑘𝑖 dos regressores da equação de interesse];
Modelos de equações simultâneas e o método da máxima verosimilhança 1057
⎡ 𝑦𝑖• ⎤
⎢ 𝑦 ⎥
𝑌𝑖 = ⎢ 𝑖• ⎥
⋮
⎢ ⎥
𝑦
⎣ 𝑛𝑖• ⎦
[matriz 𝑛 × 𝑚𝑖 dos regressores endógenos da equação de interesse];
⎡ 𝑧𝑖• ⎤
⎢ 𝑧 ⎥
𝑍𝑖 = ⎢ 𝑖• ⎥
⋮
⎢ ⎥
𝑧
⎣ 𝑛𝑖• ⎦
[matriz 𝑛 × 𝑞𝑖 dos regressores pré-determinados da equação de interesse];
⎡ 𝑧• ⎤
⎢ 𝑧 ⎥
𝑍 = ⎢ • ⎥
⋮
⎢ ⎥
⎣ 𝑧𝑛• ⎦
[matriz 𝑛 × 𝑞 das observações das variáveis pré-determinadas];
⎡ 𝑦𝑖 ⎤
⎢ 𝑦 ⎥
𝑦•𝑖 = ⎢ 𝑖 ⎥
⋮
⎢ ⎥
𝑦
⎣ 𝑛𝑖 ⎦
[vector 𝑛 × 1 das observações do regressando da equação de interesse].
Considerando as matrizes
𝑑
RV = 𝑛 ln(𝜅) → 𝜒 (𝑞 − 𝑘𝑖 ).
1058 Anexo 8A Sistemas de Equações de Regressão Linear e o Método da MV
𝐹(𝑡, 𝑦𝑡 , Δ𝑦𝑡 , Δ 𝑦𝑡 , … , Δ𝑝 𝑦𝑡 , 𝑤𝑡 ) = 0.
As equações com diferenças que são considerado no capítulo 9 são as equações lineares
de ordem 𝑝 com coeficientes constantes introduzidas na definição 9.1:
1059
1060 Anexo 9A Complementos sobre equações com diferenças
a) 𝑤𝑡 = 𝛼.
𝑝
Para resolver a equação 𝑦𝑡 = 𝛼 + 𝜑𝑦𝑡− , vai ver-se em que condições 𝑦𝑡 = 𝛿 é uma
solução particular. Fazendo a substituição na equação, tem-se
𝛼
𝛿= ,
1−𝜑
𝛼 𝑡−𝑡
𝛼
𝑦𝑡 = 𝑦𝑡 − 𝜑 + .
1−𝜑 1−𝜑
b) 𝑤𝑡 = 𝛼 + 𝛽𝑡.
Para resolver a equação 𝑦𝑡 = 𝛼 + 𝛽𝑡 + 𝜑𝑦𝑡− , vai indagar-se a que condições devem
𝑝
obedecer 𝛿 e 𝛿 para que 𝑦𝑡 = 𝛿 + 𝛿 𝑡 seja uma solução particular. Substituindo
na equação, vem
𝛿 + 𝛿 𝑡 = 𝛼 + 𝛽𝑡 + 𝜑 (𝛿 + 𝛿 (𝑡 − 1)) ,
ou
𝛿 + 𝛿 𝑡 = (𝛼 + 𝜑𝛿 − 𝜑𝛿 ) + (𝛽 + 𝜑𝛿 ) 𝑡.
Então,
⎧ (1 − 𝜑)𝛿 + 𝜑𝛿 = 𝛼
⎪
⎨
⎪ (1 − 𝜑)𝛿 = 𝛽.
⎩
Equações lineares com diferenças e com coeficientes constantes 1061
donde
⎧ 𝛼(1 − 𝜑) − 𝛽𝜑
⎪ 𝛿 =
⎪ (1 − 𝜑)
⎨
⎪ 𝛽
⎪ 𝛿 = .
⎩ 1−𝜑
Conclui-se, portanto, que
𝑝 𝛼(1 − 𝜑) − 𝛽𝜑 𝛽
𝑦𝑡 =
+ 𝑡,
(1 − 𝜑) 1−𝜑
quando 𝜑 ≠ 1.
A solução geral é dada por
𝛼(1 − 𝜑) − 𝛽𝜑 𝛽
𝑦𝑡 = 𝑐𝜑𝑡 +
+ 𝑡.
(1 − 𝜑) 1−𝜑
Com 𝑦𝑡 conhecido, a respectiva solução definida é
𝛼(1 − 𝜑) − 𝛽𝜑 𝛽 𝛼(1 − 𝜑) − 𝛽𝜑 𝛽
𝑦𝑡 = 𝑦𝑡 − − 𝑡 𝜑𝑡−𝑡 + + 𝑡.
(1 − 𝜑) 1−𝜑 (1 − 𝜑) 1−𝜑
Para 𝜑 = 1, a equação reduz-se a 𝑦𝑡 = 𝛼 + 𝛽𝑡 + 𝑦𝑡− . Para resolver esta equação, vai
𝑝
ver-se em que condições 𝑦𝑡 = 𝛿 𝑡 + 𝛿 𝑡 é uma solução particular. Assim, de
𝛿 𝑡 + 𝛿 𝑡 = 𝛼 + 𝛽𝑡 + 𝛿 (𝑡 − 1) + 𝛿 (𝑡 − 1) ,
ou
𝛿 𝑡 + 𝛿 𝑡 = 𝛼 + 𝛽𝑡 + 𝛿 𝑡 − 𝛿 + 𝛿 𝑡 − 2𝛿 𝑡 + 𝛿 ,
vem
(𝛿 − 𝛿 ) + 2𝛿 𝑡 = 𝛼 + 𝛽𝑡.
Donde
⎧ 2𝛼 + 𝛽
⎧𝛿 − 𝛿 = 𝛼 ⎪ 𝛿 =
⎪ ⎪ 2
⎨ ⇔⎨
⎪ 2𝛿 = 𝛽 ⎪ 𝛽
⎩ ⎪ 𝛿 = .
⎩ 2
Então,
𝑝 2𝛼 + 𝛽 𝛽
𝑦𝑡 = 𝑡 + 𝑡 .
2 2
A solução geral é, então,
2𝛼 + 𝛽 𝛽
𝑡 + 𝑡 .
𝑦𝑡 = 𝑐 +
2 2
Para 𝑦𝑡 conhecido, a solução definida respectiva é
2𝛼 + 𝛽 𝛽
𝑦𝑡 = 𝑦𝑡 + (𝑡 − 𝑡 ) + (𝑡 − 𝑡 ).
2 2
1062 Anexo 9A Complementos sobre equações com diferenças
Quando 𝑝 = 2, obtém-se:
a) 𝑤𝑡 = 𝛼.
Para resolver a equação 𝑦𝑡 = 𝛼+𝜑 𝑦𝑡− +𝜑 𝑦𝑡− , propõe-se uma solução particular
𝑝
da forma 𝑦𝑡 = 𝛿. Fazendo a substituição na equação, tem-se
𝛼
𝛿= ,
1 − 𝜑 − 𝜑
𝛼
𝑦𝑡 = 𝑦ℎ𝑡 + ,
1 − 𝜑 − 𝜑
𝑦ℎ𝑡 é a solução geral da respectiva equação homogénea, que depende do caso con-
siderado. Por exemplo, se as raízes são reais e distintas, vem
𝛼
𝑦𝑡 = 𝑐 𝜆𝑡 + 𝑐 𝜆𝑡 + .
1 − 𝜑 − 𝜑
𝑝 𝛼
𝑦𝑡 = − 𝑡 .
2
Para os três casos de raízes da equação característica, fica ao cuidado do leitor a
obtenção da solução geral e da solução definida quando 𝑦 e 𝑦 são conhecidos.
Equações lineares com diferenças e com coeficientes constantes 1063
b) 𝑤𝑡 = 𝛼 + 𝛽𝑡.
Para resolver a equação 𝑦𝑡 = 𝛼+𝛽𝑡+𝜑 𝑦𝑡− +𝜑 𝑦𝑡− , propõe-se a solução particular
𝑝
𝑦𝑡 = 𝛿 + 𝛿 𝑡, e procuram-se determinar os valores de 𝛿 e 𝛿 . Substituindo na
equação, obtém-se a igualdade
(1 − 𝜑 − 𝜑 )𝛼 − (𝜑 + 2 𝜑 )𝛽 𝛽
𝛿 = e 𝛿 = ,
(1 − 𝜑 − 𝜑 ) 1 − 𝜑 − 𝜑
admitindo que 𝜑 + 𝜑 ≠ 1.
Fica ao cuidado leitor obter, quando 𝑦 e 𝑦 são conhecidos, a solução geral e a
solução definida, para os três casos estudados.
Quando 𝜑 + 𝜑 = 1, tem-se a equação 𝑦𝑡 = 𝛼 + 𝛽𝑡 + 𝜑 𝑦𝑡− + (1 − 𝜑 )𝑦𝑡− . A solução
𝑝
particular a ensaiar é 𝑦𝑡 = 𝛿 𝑡 + 𝛿 𝑡 , obtendo-se
Donde
2(2 − 𝜑 )𝛼 − (4 − 3𝜑 )𝛽 𝛽
𝛿 = e 𝛿 = ,
2(1 − 𝜑 ) 2(2 − 𝜑 )
admitindo que 𝜑 ≠ 2.
Fica ao cuidado do leitor obter, para os três casos estudados, a solução geral e a
solução definida (com 𝑦 e 𝑦 conhecidos).
Quando 𝜑 + 𝜑 = 1 e 𝜑 = 2, a equação passa a ser 𝑦𝑡 = 𝛼 + 𝛽𝑡 + 2𝑦𝑡− − 𝑦𝑡− .
𝑝
Considerando como solução particular 𝑦𝑡 = 𝛿 𝑡 + 𝛿 𝑡 , a relação que se obtém a
partir da equação é dada por
Então,
𝛼+𝛽 𝛽
𝛿 = e 𝛿 = .
2 6
Fica ao cuidado do leitor determinar, para os três casos estudados, a solução geral
e a solução definida (quando 𝑦 e 𝑦 são conhecidos).
Para qualquer 𝑝, fica ao cuidado do leitor a obtenção das soluções da equação não ho-
mogénea para as duas situações referidas.
1064 Anexo 9A Complementos sobre equações com diferenças
onde:
(𝑡) (𝑡) (𝑡) (𝑡)
𝑓 , 𝑓 , 𝑓 , … , 𝑓𝑝 são os elementos da primeira linha da matriz 𝐹 𝑡 ;
(𝑡−) (𝑡−) ()
𝑓 , 𝑓 , … , 𝑓 são os elementos da primeira linha e na posição (1,1) das ma-
trizes 𝐹 𝑡− , 𝐹 𝑡− , … , 𝐹 , respectivamente.
Conclui-se, portanto, que 𝑦𝑡 é uma função de 𝑝 valores iniciais (os elementos do vector
𝜉 ), e dos valores 𝑤 , 𝑤 , … , 𝑤𝑡 .
Do mesmo modo que (9.10), vem
𝜉𝑡+𝑠 = 𝐹 𝑠+ 𝜉𝑡− + 𝐹 𝑠 𝑣𝑡 + 𝐹 𝑠− 𝑣𝑡+ + 𝐹 𝑠− 𝑣𝑡+ + ⋯ + 𝐹 𝑣𝑡+𝑠− + 𝑣𝑡+𝑠 , (9A.6)
e
(𝑠+) (𝑠+) (𝑠+) (𝑠+)
𝑦𝑡+𝑠 = 𝑓 𝑦𝑡− + 𝑓 𝑦𝑡− + 𝑓 𝑦𝑡− + ⋯ + 𝑓𝑝 𝑦𝑡−𝑝
(𝑠) (𝑠−) (𝑠−) ()
(9A.7)
𝑦𝑡+𝑠 + 𝑓 𝑤𝑡 + 𝑓 𝑤𝑡+ + 𝑓 𝑤𝑡+ + ⋯ + 𝑓 𝑤𝑡+𝑠− + 𝑤𝑡+𝑠 .
Neste caso, o multiplicador dinâmico é dado por
𝜕 𝑦𝑡+𝑠 (𝑠)
= 𝑓 , (9A.8)
𝜕 𝑤𝑡
(𝑠)
onde, obviamente, 𝑓 representa o elemento (1,1) da matriz 𝐹 𝑠 .
Facilmente se verifica que:
𝜕 𝑦𝑡+ 𝜕 𝑦𝑡+
= 𝜑 ; = 𝜑 + 𝜑 .
𝜕 𝑤𝑡 𝜕 𝑤𝑡
O estudo das soluções e dos multiplicadores dinâmicos pode ser feito a partir dos va-
lores próprios da matriz 𝐹 , ou seja, fazendo |𝐹 − 𝜆𝐼𝑝 | = 0, onde, como se sabe, o de-
terminante é um polinómio, em 𝜆, de grau 𝑝; as p raízes do polinómio são os valores
próprios de 𝐹 .
Por exemplo, para 𝑝 = 2, os valores próprios são dados por
𝜑 − 𝜆 𝜑
= 𝜆 − 𝜑 𝜆 − 𝜑 = 0,
1 −𝜆
𝜑 − 𝜆 𝜑 𝜑 ⋯ 𝜑𝑝− 𝜑𝑝
1 −𝜆 0 ⋯ 0 0
0 1 −𝜆 ⋯ 0 0
|𝐹 − 𝜆𝐼𝑝 | = .
⋮ ⋮ ⋮ ⋮ ⋮
0 0 0 ⋯ −𝜆 0
0 0 0 ⋯ 1 −𝜆
Sabe-se que: por meio de operações elementares sobre as colunas de 𝐹 − 𝜆𝐼𝑝 se pode
obter uma matriz triangular superior com o mesmo determinante; o determinante desta
matriz é igual ao produto dos elementos da diagonal principal.
Verifica-se, sem dificuldade, que os 𝑝 elementos da diagonal principal da matriz
triangular podem ser os seguintes:
𝜑 𝜑 𝜑𝑝
−𝜆 + 𝜑 + + + ⋯ + 𝑝− , −𝜆, … , −𝜆.
𝜆 𝜆 𝜆
Então,
𝜑 𝜑 𝜑𝑝
|𝐹 − 𝜆𝐼𝑝 | = −𝜆 + 𝜑 + + + ⋯ + 𝑝− (−𝜆)𝑝−
𝜆 𝜆 𝜆
= (−1)𝑝− (−𝜆𝑝 + 𝜑 𝜆𝑝− + 𝜑 𝜆𝑝− + 𝜑 𝜆𝑝− + ⋯ + 𝜑𝑝 )
= (−1)𝑝 (𝜆𝑝 − 𝜑 𝜆𝑝− − 𝜑 𝜆𝑝− − 𝜑 𝜆𝑝− − ⋯ − 𝜑𝑝 ) ,
Se os valores próprios são distintos (reais ou complexos), existe uma matriz 𝐵, qua-
drada de ordem 𝑝, não singular, que permite diagonalizar a matriz 𝐹 ,
𝐵− 𝐹 𝐵 = Λ ⇔ 𝐹 = 𝐵Λ𝐵− ,
onde Λ é a matriz diagonal dos valores próprios, Λ = Diag {𝜆 , 𝜆 , … , 𝜆𝑝 }; decorre, sem
dificuldade, que
𝐹 𝑠 = 𝐵Λ𝑠 𝐵− ,
onde Λ𝑠 = Diag {𝜆𝑠 , 𝜆𝑠 , … , 𝜆𝑠𝑝 }.
Equações vectoriais de 1.ª ordem 1067
Se se designar por 𝑏𝑖𝑗 e 𝑏𝑖𝑗 os elementos genéricos das matrizes 𝐵 e 𝐵− , respectiva-
mente, pode verificar-se que o elemento (1,1) de 𝐹 𝑠 é dado por
(𝑠)
𝑓 = (𝑏 𝑏 )𝜆𝑠 + (𝑏 𝑏 )𝜆𝑠 + ⋯ + (𝑏𝑝 𝑏𝑝 )𝜆𝑠𝑝 = ℎ 𝜆𝑠 + ℎ 𝜆𝑠 + ⋯ + ℎ𝑝 𝜆𝑠𝑝 ,
onde ℎ𝑖 = 𝑏𝑖 𝑏𝑖 (𝑖 = 1, 2, … , 𝑝). Note-se que
ℎ + ℎ + ⋯ + ℎ𝑝 = 𝑏 𝑏 + 𝑏 𝑏 + ⋯ + 𝑏𝑝 𝑏𝑝 = 1,
uma vez que é o elemento (1,1) da matriz 𝐵𝐵− .
Pode, então, obter-se o resultado (9.24),
𝜕 𝑦𝑡+𝑠
= ℎ 𝜆𝑠 + ℎ 𝜆𝑠 + ⋯ + ℎ𝑝 𝜆𝑠𝑝 , (9A.9)
𝜕 𝑤𝑡
onde a expressão de cada ℎ𝑖 (𝑖 = 1, 2, … , 𝑝) já é conhecida. Deste modo, o multiplicador
dinâmico é uma média ponderada das potências de expoente 𝑠 dos valores próprios da
matriz 𝐹 .
Sejam 𝜆 , 𝜆 , … , 𝜆𝑞 , os valores próprios da matriz 𝐹 (quadrada de ordem 𝑝), em que
a multiplicidade algébrica de 𝜆𝑖 (𝑖 = 1, 2, … , 𝑞) é 𝑝𝑖 . Facilmente se conclui que 𝑞 ≤ 𝑝 e
que a soma das multiplicidades algébricas é 𝑝: 𝑝 + 𝑝 + ⋯ + 𝑝𝑞 = 𝑝.
Quando 𝑞 = 𝑝, todos os valores próprios são distintos (todas as multiplicidades al-
gébricas são iguais a 1). Neste caso, existem 𝑝 vectores próprios linearmente indepen-
dentes (cada um, associado a um e só um valor próprio), que constituem as colunas
da 𝐵 (matriz quadrada de ordem 𝑝, não singular) diagonalizadora de 𝐹 : 𝐵− 𝐹 𝐵 = Λ
(Λ é a matriz diagonal dos valores próprios).
Quando 𝑞 < 𝑝, há, pelo menos, um valor próprio repetido (pelo menos um deles
tem multiplicidade algébrica maior do que 1). Sendo 𝑚 o número de vectores próprios
linearmente independentes, tem-se 𝑞 ≤ 𝑚 ≤ 𝑝, e duas situações podem ocorrer.
Na primeira, supõe-se que é possível dispor ainda de 𝑝 vectores próprios linear-
mente independentes. Isto consegue-se, quando (e só quando) se podem determinar 𝑝𝑖
vectores próprios linearmente independentes associados a cada valor próprio 𝜆𝑖 . Neste
caso, tem-se 𝑞 < 𝑚 = 𝑝, e continua a ter-se 𝐵− 𝐹 𝐵 = Λ (Λ é matriz diagonal dos 𝑝 valores
próprios, com as repetições dadas pelas multiplicidades algébricas respectivas).
Na segunda situação, tem-se 𝑞 ≤ 𝑚 < 𝑝, e não existem 𝑝 vectores próprios linear-
mente independentes. Nestas condições, não se pode diagonalizar a matriz 𝐹 , de modo
a obter a decomposição 𝐹 = 𝐵Λ𝐵− . No entanto, é possível encontrar outra decomposi-
ção de 𝐹 — que permite determinar uma expressão para o multiplicador dinâmico —,
conhecida pelo nome de decomposição de Jordan.
Qualquer que seja a matriz 𝐹 , pode provar-se que, existe uma matriz 𝐺 (quadrada
de ordem 𝑝, não singular), tal que
𝐹 = 𝐺𝐽 𝐺− ,
1068 Anexo 9A Complementos sobre equações com diferenças
⎡ 𝐽 𝑂 ⋯ 𝑂 ⎤
⎢ 𝑂 𝐽 ⋯ 𝑂 ⎥
𝐽=⎢ ⎥
⋮ ⋮ ⋮
⎢ ⎥
⎣ 𝑂 𝑂 ⋯ 𝐽𝑚 ⎦
⎡ 𝜆𝑖 1 0 ⋯ 0 ⎤
⎢ 0 𝜆𝑖 1 ⋯ 0 ⎥
𝐽ℓ = ⎢ 0 0 𝜆𝑖 ⋯ 0 ⎥ (ℓ = 1, 2, … , 𝑚).
⎢ ⋮ ⋮ ⋮ ⋮ ⎥
⎢ ⎥
⎣ 0 0 0 ⋯ 𝜆𝑖 ⎦
onde
⎡ 𝐽𝑠 𝑂 ⋯ 𝑂 ⎤
⎢ 𝑂 𝐽𝑠 ⋯ 𝑂 ⎥
𝐽𝑠 = ⎢ ⎥,
⋮ ⋮ ⋮
⎢ ⎥
⎣ 𝑂 𝑂 ⋯ 𝐽𝑚𝑠 ⎦
Equações vectoriais de 1.ª ordem 1069
desde que |𝜆𝑖 | < 1/𝛾. Pode, então, provar-se que [Hamilton (1994), pp. 23–24]
𝜕 VA𝑡 +∞ 𝜕 𝑦𝑡+𝑠 1
= 𝛾𝑠 = , (9A.11)
𝜕 𝑤𝑡 𝑠= 𝜕 𝑤𝑡 1 − 𝜑 𝛾 − 𝜑 𝛾 − ⋯ − 𝜑𝑝 𝛾𝑝
+∞ 𝜕 𝑦𝑡+𝑠 1
= . (9A.12)
𝑠= 𝜕 𝑤𝑡 1 − 𝜑 − 𝜑 − ⋯ − 𝜑𝑝
Este valor é também é igual ao efeito de longo prazo sobre o output, quando o input
varia de uma unidade, de forma permanente. Tem-se:
Quadro 10A.1 — Valores críticos para os testes de Dickey-Fuller: DF-𝜑, DF-𝜑𝑐 e DF-𝜑𝑐𝑡
1071
1072 Anexo 10A Valores críticos para testes de raízes unitárias
Quadro 10A.2 — Valores críticos para os testes de Dickey-Fuller: DF-𝜏, DF-𝜏𝑐 e DF-𝜏𝑐𝑡
N.º de regressores
(excluindo o termo independente)
1% 2.5% 5% 10%
(a) Os regressores não têm deriva
1 −3.96 −3.64 −3.53 −3.07
2 −4.31 −4.02 −3.77 −3.45
3 −4.73 −4.37 −4.11 −3.83
4 −5.07 −4.71 −4.45 −4.16
5 −5.28 −4.98 −4.71 −4.43
(b) Os regressores têm deriva
1 −3.96 −3.67 −3.41 −3.13
2 −4.36 −4.07 −3.80 −3.52
3 −4.65 −4.39 −4.16 −3.84
4 −5.04 −4.77 −4.49 −4.20
5 −5.36 −5.02 −4.74 −4.46
Fonte: (a) Phillips e Ouliaris (1990);
(b) linha 1 — Fuller (1996);
(b) linhas 2 a 5 — Phillips e Ouliaris (1990).
Em vez das tabelas anteriores, podem utilizar-se os valores referidos no quadro 10A.4
para calcular valores críticos para efectuar os testes de Dickey-Fuller (na versão rácios-
-𝜏) e os testes de cointegração de Engle-Granger. Para isso, utiliza-se a fórmula de
MacKinnon (1991),
̂
𝐶(𝛼, 𝑛) = 𝛽̂∞ + 𝛽̂ 𝑛− + 𝛽̂ 𝑛− ,
onde 𝛼 é a dimensão do teste e 𝑛 é o número de observações. Neste quadro, 𝑚 repre-
senta o número de variáveis envolvidas no teste (𝑚 = 1para os testes de Dickey-Fuller;
-𝑚 = 2, … , 6 para os testes de Engle-Granger).
1074 Anexo 10A Valores críticos para testes de raízes unitárias
Nas secções 2.3 (estimação dos coeficientes de regressão pelo método dos míni-
mos quadrados), 2.4 (propriedades dos resíduos dos mínimos quadrados), 2.5 (proprie-
dades do estimador dos mínimos quadrados dos coeficientes de regressão), 2.6 (estima-
dor não enviesado da variância das variáveis residuais), 2.7 (coeficiente de determina-
ção) e 2.8 (estimação com restrições lineares sobre os coeficientes de regressão) estuda-
ram-se os aspectos essenciais da álgebra dos mínimos quadrados.
Na presente secção vão abordar-se alguns tópicos adicionais desta álgebra.
~ ~
Considerando a expressão de U T U dada por (2.14), tem-se
~ ~ ~ ~
U TU = (Y − Xβ )T (Y − Xβ )
~ ~ ~ ~
= Y T Y − β T X T Y − Y T Xβ + β T X T Xβ
~ ~ ~
= Y T Y − 2 β T X T Y + β T X T Xβ ,
~ ~
atendendo a que β T X T Y = Y T Xβ . Subtraindo e somando Y T X ( X T X ) −1 X T Y , e notan-
do que X T X ( X T X ) −1 = I k , obtém-se
~ ~ ~ ~ ~
U TU = Y T Y − Y T X ( X T X ) −1 X T Y + β T X T Xβ + Y T X ( X T X ) −1 X T Y − 2β T X T Y
~ ~
= Y T {I n − X ( X T X ) −1 X T } Y + β T X T Xβ + Y T X ( X T X ) −1 X T X ( X T X ) −1 X T Y −
~
− 2β T X T X ( X T X ) −1 X T Y ,
~
de β que minimiza a forma quadrática é aquele que a anula, o que acontece apenas se
~
β − ( X T X )−1 X T Y = 0 ; ou seja, o minimizante é b = ( X T X ) −1 X T Y .
Facilmente se mostra que Uˆ TUˆ = (Y − Xb)T (Y − Xb) [a soma dos quadrados dos
~ ~ ~
resíduos MQ] é o mínimo absoluto de ϕ ( β ) = (Y − Xβ )T (Y − Xβ ) , ou seja,
~ ~ ~
∀β : (Y − Xβ )T (Y − Xβ ) ≥ (Y − Xb)T (Y − Xb) .
Com efeito,
~ ~
{(Y − Xb) + X (b − β )}T {(Y − Xb) + X (b − β )}
~ ~ ~
= (Y − Xb)T (Y − Xb) + 2(b − β )T X T (Y − Xb) + (b − β )T X T X (b − β )
~ ~ .
= (Y − Xb)T (Y − Xb) + (b − β )T X T X (b − β )
≥ (Y − Xb)T (Y − Xb) ,
~ ~
uma vez que X T (Y − Xb) = 0 (equações normais), e que (b − β )T X T X (b − β ) é defini-
da positiva.
Tem-se, então,
b•1 M 11 − M 11 X 1T X 2 ( X 2T X 2 ) −1 X 1T Y
b= = −1 T .
b• 2 − M X 2 X 1 ( X 1 X 1 )
22 T T
M 22 X2 Y
Donde
b ( M 11 X T − M 11 X 1T X 2 ( X 2T X 2 ) −1 X 2T )Y M 11 X 1T P2 Y
b = •1 = 22 1T −1 = 22 T .
b• 2 ( M X 2 − M X 2 X 1 ( X 1 X 1 ) X 1 )Y M X 2 P1Y
22 T T T
Portanto,
Anexo 2A – Álgebra e geometria dos mínimos quadrados 4
b•1 = ( X 1T P2 X 1 ) −1 X 1T P2 Y ,
(2A.2)
b• 2 = ( X 2T P1 X 2 ) −1 X 2T P1Y .
Na secção 2.3 foi apresentada uma interpretação do método dos mínimos qua-
drados para o MRL simples com termo independente, yt = β1 + β 2 xt + ut . Esta interpre-
tação é feita no espaço ℜ2 das variáveis, considerando a “nuvem” de pontos ( xt , yt ) ,
para t = 1, 2,K, n (ver figuras 2.2 e 2.3). Esta abordagem do método MQ poderia ser fa-
cilmente generalizada para qualquer MRL com termo independente, considerando os
vectores ( yt , xt 2 , K , xtk ) do espaço ℜ k das variáveis ( t = 1, 2, K , n ).
A estimação pelo método dos mínimos quadrados é passível de outra interpreta-
ção geométrica muito sugestiva. Esta interpretação é feita no espaço ℜ n das observa-
ções, considera o vector Y e as colunas da matriz X ( x•1 , x•2 ,K, x•k ) como vectores da-
quele espaço.
VARIÁVEIS CENTRADAS
onde
∑ ∑ ∑ ∑
n n n n
yt xt 2 xtk ut
y= t =1
, x2 = t =1
,…, xk = t =1
,u= t =1
,
n n n n
são, respectivamente, a média das observações do regressando, as médias das observa-
ções dos regressores, e a média das variáveis residuais.
Subtraindo ordenadamente cada uma das n igualdades (2B.1), de (2B.2), obtém-
-se
yt − y = β 2 ( xt 2 − x2 ) + L + β k ( xtk − xk ) + (ut − u ) (t = 1, 2, K , n) .
Fazendo
ytc = yt − y , xtc2 = xt 2 − x2 ,..., xtkc = xtk − xk , utc = ut − u (t = 1, 2, K , n) ,
tem-se
ytc = β 2 xtc2 + L + β k xtkc + utc (t = 1, 2, K , n) ,
onde:
− Yc é o vector n × 1 das observações centradas do regressando, ytc ;
Anexo 2B – Variáveis centradas 2
Fazendo
x2
1
X 2 = M = X 2T e ,
n
xk
obtém-se
n n X 2T
X X =
T
.
n X 2 X 2 X 2
T
Notando que
X cT X c = X 2T Pe X 2 = X 2T X 2 − (1 / n) X 2T e eT X 2 = X 2T X 2 − n X 2 X 2T ,
obtém-se
(1 / n) + X 2T ( X cT X c ) −1 X 2 − X 2T ( X cT X c ) −1
( X T X ) −1 = ,
− ( X cT X c ) −1 X 2 ( X cT X c ) −1
obtém-se
ny
X TY = .
X cT Yc + n X 2 y
Anexo 2B – Variáveis centradas 4
Então,
(1 / n) + X 2T ( X cT X c ) −1 X 2 − X 2T ( X cT X c ) −1 ny
b = (X X ) X Y =
T −1 T
,
− ( X cT X c ) −1 X 2 ( X cT X c ) −1 X cT Yc + n X 2 y
ou
y − X 2T ( X cT X c ) −1 X cT Yc y − X 2T bc b1c
b= = = .
−1
bc
T T
( X c X c ) X Y
c c bc
obtém-se
(2B.7) y = b1 + b2 x2 + L + bk xk ,
(2B.10) Cov(bc | X ) = σ 2 ( X cT X c ) −1 ,
(2B.11) Cov(bc , b1 | X ) = −σ 2 ( X cT X c ) −1 X 2 .
− m cyy = m yy − n y 2 .
∑
n
xtc ytc mxyc
− b2 = t =1
= ,
∑
n
( xtc ) 2 mxxc
t =1
− b1 = y − b2 x ,
σ2
− Var(b2 | X ) = ,
mxxc
1 x2
− Var (b1 | X ) = σ 2 + c ,
n mxx
x
− Cov(b1 , b2 | X ) = −σ 2 c ,
mxx
∑
n
uˆt2
− s 2
= t =1
.
n−2
Estes resultados devem ser interpretados de forma conveniente. Por exemplo, a
fórmula da variância (condicionada) do estimador MQ de β 2 mostra que a precisão da
estimação é tanto maior quanto maior for a precisão das variáveis residuais (medida por
σ 2 ), e quanto maior for a dispersão das observações do regressor (medida por mxxc ).
Pode relacionar-se o coeficiente de correlação amostral entre as observações do
regressando e do regressor com a estimativa MQ de β 2 . Tem-se
(mxyc ) 2 c
mxy
(2B.12) r = 2
xy c
= b2 .
mxx m cyy m cyy
∑
n
(2B.13) t =1
uˆt2 = m cyy (1 − rxy2 ) ,
ou seja, a soma dos quadrados dos resíduos MQ é tanto menor quanto maior for o coe-
ficiente de correlação, em valor absoluto, entre os yt e os xt .
Com efeito, notando que yˆ tc = b2 xtc , e atendendo à propriedade 2.10 dos resíduos
MQ e a (2B.12), obtém-se
c
m22 m3c y − m23
c
m2c y
− b3 = ;
c
m22 c
m33 − (m23
c 2
)
− b1 = y − b2 x2 − b3 x3 ;
σ 2 m33c σ2
− Var (b2 | X ) = = ;
c
m22 c
m33 − (m23
c 2
) c
m22 (1 − r232 )
σ 2 m22
c
σ2
− Var (b3 | X ) = = ;
c
m22 c
m33 − (m23
c 2
) c
m33 (1 − r232 )
− σ 2 m23
c
− σ 2 r232
− Cov(b2 , b3 | X ) = c c = c ;
m22 m33 − (m23c 2
) m23 (1 − r232 )
1 x2 m33
c
− 2 x2 x3 m23
c
+ x3 m22
c
Var (b1 | X ) = σ + 2
n c
m22 m33c
− (m23c 2
)
−
σ2
= + x22 Var (b2 | X ) + 2 x2 x3Cov(b2 , b3 | X ) + x32 Var (b3 | X ) ;
n
− σ 2 ( x2 m33
c
− x3m23
c
)
− Cov(b1 , b2 | X ) = = −{x2 Var(b2 | X ) + x3Cov(b2 , b3 | X )} ;
c
m22 c
m33 − (m23
c 2
)
− σ 2 ( x3m22
c
− x3m23
c
)
− Cov(b1 , b3 | X ) = = −{x2Cov(b2 , b3 | X ) + x3Var (b3 | X )} ;
c
m22 c
m33 − (m23
c 2
)
∑
n
uˆt2
− s 2
= t =1
,
n−3
onde r23 é o coeficiente de correlação (amostral) entre as observações dos dois regresso-
res.
É possível apresentar interpretações muito sugestivas das fórmulas anteriores.
Por exemplo, a fórmula da variância condicionada de b2 põe em evidência que a preci-
são da estimação de β 2 é tanto maior quanto maior for a precisão das variáveis resi-
duais (medida por σ 2 ), quanto maior for a dispersão das observações do respectivo re-
c
gressor (medida por m22 ), e quanto menor for o grau de associação linear entre os dois
regressores (medido por r232 ).
Fica ao cuidado do leitor verificar que
COEFICIENTES DE CORRELAÇÃO
∑
n
( xti − xi )( xtj − x j ) mijc mijc
rij = t =1
= = (i, j = 2, K , k ; i ≠ j ) ;
∑t =1 ( xti − xi ) 2 ∑t =1 ( xtj − x j ) 2 n si s j
n n
miic m cjj
∑
n
( xtj − x j )( yt − y ) m cjy m cjy
r jy = t =1
= = ( j = 2, K , k ) ;
∑t =1 ( xtj − x j ) 2 ∑t =1 ( yt − y ) 2 n s j sy
n n
m cjj m cyy
1 n m cjj 1 n m cyy
s 2j = ∑ tj j
n t =1
( x − x ) 2
=
n
( j = 2, K , k ) ; s 2
y = ∑ t
n t =1
( y − y ) 2
=
n
.
Considere-se também a matriz diagonal dos desvios padrão das observações dos
regressores, Dx = diag{s2 , K , sk } .
É possível apresentar o vector bc dos estimadores MQ com variáveis centradas
(ver anexo 2B), em função dos desvios padrão amostrais, s j e s y , e dos coeficientes de
correlação amostrais, rij e rjy . Com efeito, notando que mijc = n si s j rij e m cjy = n s j s y r jy ,
tem-se, respectivamente,
X cT X c = n Dx Rxx Dx e X cT Yc = n s y Dx rxy .
Então,
(2C.2) bc = s y Dx−1 Rxx−1rxy .
Anexo 2C – Coeficientes de correlação 2
Estas fórmulas mostram bem que, por exemplo, o estimador b2 depende não só da
dispersão dos yt e dos xt 2 , e da respectiva correlação, mas também de todas as ou-
tras correlações amostrais que se podem estabelecer entre as observações das variá-
veis do modelo.
(3) y =b x + ~
c
t
c
3y t3 ytc3 ;
(4) xtc3 = b23 xtc2 + ~
xtc3 ;
(5) xc = b xc + ~
t2 32 t 3 xc .
t2
= m2c y − b3 y m23
c
− b32 m3c y + b32b3 y m33
c
= n s2 s y (r2 y − r3 y r23 ) ,
∑ (~
n
t =1
xtc2 ) 2 = n s22 (1 − r232 ) = m22
c
(1 − r232 ) ,
∑ (~
n
t =1
ytc3 ) 2 = n s y2 (1 − r32y ) = m cyy (1 − r32y ) .
Anexo 2C – Coeficientes de correlação 4
Então,
r2 y − r3 y r23
r2 y⋅3 = .
1 − r232 1 − r32y
onde
(k − 1)!
C kj −1 =
j !(k − 1 − j )!
onde:
− O ajustamento (1) considera todos os regressores até à ordem j, separando o regres-
sor xtj dos primeiros j − 1 regressores [as observações do regressor xtj formam o
vector x• j ; as observações dos primeiros j − 1 regressores estão agrupadas na matriz
X 1 , de tipo n × ( j − 1) ; b•1 e b j são os estimadores MQ dos coeficientes de regressão
respectivos].
− O ajustamento (2) permite obter as observações do regressando expurgadas da inf-
~
luência de X 1 (estes valores são os respectivos resíduos, Y 1 ).
− No ajustamento (3) determinam-se as observações do regressor xtj “purificadas” da
influência de X 1 (estas observações são os resíduos ~ x• j ).
− No ajustamento (4) faz-se a regressão dos resíduos obtidos no ajustamento (2) sobre
os resíduos obtidos no ajustamento (3).
Tem-se:
Anexo 2C – Coeficientes de correlação 6
~ ~
x•Tj Y 1 x•T j PX 1Y
(2C.4) r 2
jy ⋅ 23K, j −1 = ~ ~ = ,
~
x•Tj ~
x• j (Y 1 )T Y 1 x•T j PX 1 x• j Y T PX 1Y
onde PX1 = I n − X 1 ( X 1T X 1 ) X 1T .
O teorema de Frisch-Waugh-Lovell (apresentado no final da secção 2.5) permite
interpretar, de outra maneira, os coeficientes de correlação parciais. Considere-se,
para simplificar a exposição, o MRLC com três regressores (genuínos),
yt = β1 + β 2 xt 2 + β 3 xt 3 + β 4 xt 4 + ut .
Facilmente se conclui que r22y , r32y e r42y (os quadrados dos coeficientes de cor-
relação simples) medem, respectivamente, a proporção da variação de yt explicada por
cada xtj isoladamente ( j = 2, 3, 4) ; o coeficiente de determinação, R 2 = ry2⋅234 , permite
conhecer a proporção da variação de yt explicada, conjuntamente, por todos os xtj
( j = 2, 3, 4) . Os outros coeficientes de correlação parciais (de ordem 1 e 2) também po-
dem ser interpretados de forma semelhante. Por exemplo: r22y⋅4 mede a proporção da va-
riação de yt explicada por xt 2 , supondo que xt 4 já tinha sido incluído no modelo; r32y⋅24
calcula a proporção da variação de yt explicada por xt 3 , supondo que xt 2 e xt 4 já ti-
nham sido incluídos no modelo.
Verifica-se assim que as correlações parciais podem dar um contributo para a
decisão de inclusão, ou não, no modelo de mais regressores. Por exemplo, suponha-se
que r32y = 0.95 e r32y⋅2 = 0.02 . Nesta situação, xt 3 isolado apresenta uma forte correlação
com yt , mas a inclusão de xt 3 , depois de xt 2 , pouca ajuda na explicação da variação de
yt . Deste modo, xt 2 pode desempenhar o papel que isoladamente poderia desempenhar
xt 3 .
Uma situação típica ocorre quando os coeficientes de correlação simples (de or-
dem 0) são grandes, mas os coeficientes de correlação parciais (de ordem 1) são peque-
nos. Por exemplo, r22y = 0.97 , r32y = 0.95 , r22y⋅3 = 0.02 e r32y⋅2 = 0.01 . Neste caso, cada re-
gressor pode desempenhar o papel do outro.
Os dois exemplos anteriores podem, eventualmente, sugerir a ideia de que os
coeficientes de correlação simples (de ordem 0) nunca são inferiores aos coeficientes de
correlação parciais (de ordem 1). Contudo, observando, por exemplo, as fórmulas que
relacionam estes coeficientes no modelo yt = β1 + β 2 xt 2 + β 3 xt 3 + ut , facilmente se ve-
rifica que não é verdade. Com efeito, é bem possível ter-se r22y = 0.25 e r22y⋅3 = 0.45 .
Deste modo, xt 2 explica isoladamente 25% da variação de yt , mas xt 2 passa a explicar
45% da mesma variação, quando xt 3 já tinha sido previamente considerado.
O coeficiente de determinação, R 2 = ry2⋅23Kk , pode obter-se exclusivamente a
partir dos coeficientes de correlação simples.
Com efeito, notando que bc = s y Dx−1 Rxx−1rxy e YcT Yc = n s y2 , tem-se
YˆcT Yˆc bcT X cT Yc rxy Rxx Dx X c Yc
T −1 −1 T
R2 = = = .
YcT Yc YcT Yc nsy
Como
Anexo 2C – Coeficientes de correlação 7
1 / s2 0 L 0 m2c y
c
1 −1 T 1 0 1 / s3 L 0 m3 y
Dx X c Yc = = rxy ,
nsy nsy M M M M
c
0 0 L 1 / s mky
k
Em geral, tem-se
(2C.6) 1 − ry2⋅23Kk = (1 − r22y )(1 − r32y⋅2 )(1 − r42y⋅23 ) L (1 − rky2 ⋅23K,k −1 ) .
~
Suponha-se que L(θ | ⋅) > 0 . Como a transformação logarítmica é monótona,
maximizar a função de verosimilhança é equivalente a maximizar o respectivo logarit-
mo,
~ ~
ln{L(θ | w1• , w2• , K , wn • )} = ∑t =1 ln{ f ( wt • | θ )} .
n
(2D.2)
Exemplo 2E.1 – Seja o processo escalar iid, {wt } , onde wt ~ N ( µ~, σ~ 2 ) . Então,
~
~ µ
θ = ~2 ,
σ
e
1 ( w − µ~ ) 2
f ( wt | µ~, σ~ 2 ) = exp− t ~ 2 .
2π σ~ 2 2σ
2 2 2σ t =1
(2D.4) ~
= ∑t =1 ln{ f ( yt | xt • ;θ )} + ∑t =1 ln{ f ( xt • | ψ~ )}.
n n
ou
~ ~ ~ ~
(Y − Xβ )T (Y − Xβ ) = (n − k ) s 2 + (b − β )T X T X (b − β ) ,
a função de verosimilhança pode escrever-se da seguinte maneira:
~ 1 ~ ~
L( β , σ~ 2 | Y , X ) = (2π ) − n / 2 (σ~ 2 ) − n / 2 exp− {(n − k ) s 2 + (b − β )T X T X (b − β )} .
2σ~ 2
Verifica-se, assim, que se tem a factorização,
~ ~
L( β , σ~ 2 | Y , X ) = L1 (Y | X ) L2 ( β , σ~ 2 | b, s 2 , X ) ,
onde
L1 (Y | X ) = (2π ) − n / 2 ,
e
~ 1 ~ ~
L2 ( β , σ~ 2 | b, s 2 , X ) = (σ~ 2 ) − n / 2 exp− {(n − k ) s 2 + (b − β )T X T X (b − β )} .
2σ~ 2
Deste modo, L1 não depende dos parâmetros, e L2 depende de Y através de b e
2
s .
Como se sabe, uma das vantagens em dispor de uma estatística suficiente con-
junta para θ = ( β , σ 2 ) , como é o caso de τ (Y | X ) = (b, s 2 ) , é que ela retira dos dados,
fixada a matriz X, toda a informação relevante sobre os parâmetros.
Outra vantagem resulta da circunstância de b e s 2 serem também estimadores
não enviesados de β e σ 2 , respectivamente. Nestas condições, pode verificar-se que
(b, s 2 ) é o estimador de θ = ( β , σ 2 ) mais eficiente na classe dos estimadores não envie-
sados. Começa por apresentar-se, em termos gerais, a definição de estimador UMVU e
o enunciado do teorema de Rao-Blackwell.
Esta condição significa que o estimador θˆ é o mais eficiente na classe dos esti-
madores não enviesados de θ ( Θ é o espaço-parâmetro).
Recorde-se, a seguir, o enunciado do teorema de Rao-Blackwell.
Anexo 2E – Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR 3
Esta condição significa que o estimador não enviesado θˆ é mais eficiente do que
o estimador não enviesado θ ∗ . Assim, se se tomar um estimador de θ , não enviesado, o
teorema de Rao-Blackwell permite obter um estimador “melhor” (mais eficiente), desde
que seja baseado naquela estatística suficiente. Diz-se, então, que θˆ se obtém por Rao-
-Blackwellização de θ ∗ .
Deve ficar claro que este teorema não resolve inteiramente a questão da obten-
ção de um estimador UMVU para θ , mas aponta o caminho. Com efeito, estabelece, de
forma clara, que se existir um estimador UMVU, ele tem de procurar-se na classe dos
estimadores não enviesados baseados numa estatística suficiente. Se esta classe tem um
único elemento, trata-se evidentemente do estimador UMVU. De facto, é isso que acon-
tece quando o estimador se baseia numa estatística suficiente completa.
Antes de prosseguir, vai apresentar-se este conceito, e o enunciado do teorema
que permite obter o estimador UMVU.
Para definir estatística suficiente completa é indispensável definir previamente o
conceito de família de distribuições completa.
~
A condição P{ψ ( z ) = 0} = 1, ∀θ ∈ Θ , significa que ψ (z ) = 0 excepto, quando
muito, para valores de z pertencentes a um conjunto com probabilidade zero, e para
~
qualquer θ ∈ Θ .
cada componente do score pode ser interpretado como a taxa de variação da função
~
verosimilhança em relação a θ j :
~
~ ∂ L(θ | z ) 1
s j (θ | z ) = ~ ~ .
∂θ j L(θ | z )
Considerando o score como um vector aleatório (em z), pode calcular-se o res-
pectivo valor esperado de cada componente (se existir),
~ ~ ~
E{s j (θ | z )} = ∫ n s j (θ | z ) f ( z | θ ) dz ( j = 1, 2, K , m) .
ℜ
~ ~ ~ ~ ~
Como f ( z | θ ) ≡ L(θ | z ) , tem-se ∇f ( z | θ ) = s (θ | z ) f ( z | θ ) , ou seja,
~
∂ f (z |θ ) ~ ~
~ = s j (θ | z ) f ( z | θ ) .
∂θ j
Como
~
∫ ℜ n
f ( z | θ ) dz = 1 ,
~
qualquer que seja θ , e admitindo a condição de regularidade segundo a qual se po-
dem permutar as operações de derivação e de integração, obtém-se
Anexo 2E – Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR 6
~
∂ f (z |θ ) ∂ ~
∫ ℜ n ~
∂θ j
dz = ~
∂θ j ∫ ℜ n
f ( z | θ ) dz = 0 .
Então,
~
E{s (θ | z )} = 0 .
~
Diz-se que a função de verosimilhança, L(θ | z ) , é regular se e só se o valor es-
perado do score, calculado em θ (verdadeiro valor do parâmetro), é nulo. Assim, vem
E{s(θ | z )} = 0 .
Pode, então, enunciar-se o teorema de Fréchet-Cramér-Rao.
1
Var(θˆ) ≥ ,
I (θ )
onde
d ln{ L(θ | z )} d 2 ln{ L(θ | z )}
I (θ ) = Var ~ = − E ~ .
dθ dθ 2
Como Cov(θˆ) = I (θ ) −1 é uma condição suficiente para que θˆ seja UMVU, um
estimador pode ser UMVU sem que a respectiva matriz das covariâncias atinja o limite
inferior de Fréchet-Crámer-Rao. Neste caso, aquela propriedade do estimador deve ser
provada com outros argumentos, nomeadamente mostrando que o estimador é baseado
numa estatística suficiente completa (ver teorema de Rao-Blackwell).
Considerando o MRLCN, vai provar-se um resultado indispensável para se po-
der aplicar o teorema de Fréchet-Cramér-Rao aos estimadores MQ: dado X, os estima-
dores MQ, b e s 2 , são independentes.
Com efeito, condicionados por X, b − β = ( X T X ) −1 X T U é uma forma linear em
U, e Uˆ T Uˆ = U T PX U (propriedade 2.4 dos resíduos MQ) é uma forma quadrática em U,
em que PX simétrica e idempotente. Então, como U | X ~ N ( n ) (0, σ 2 I ) , e atendendo à
propriedade 5) das distribuições de vectores aleatórios (ver secção 2.10), b − β e Uˆ T Uˆ
são independentes (dado X). Daqui resulta que, dado X, b e s 2 são, também, indepen-
dentes.
Notando que (ver demonstração na secção 2.10)
2σ 4
Var( s | X ) =
2
,
n−k
e que b e s 2 são independentes (dado X), a matriz das covariâncias condicionadas por X
do vector (k + 1) × 1 , θˆ = (b, s 2 ) , é
σ 2 ( X T X ) −1 0
(2E.5) Cov(θˆ | X ) =
2σ 4 .
0
n − k
Vai verificar-se que a função de verosimilhança é regular, ou seja, que o valor
esperado do score, calculado em θ = ( β , σ 2 ) , é nulo. Com efeito, como
~ n n 1 ~ ~
ln{ L( β , σ~ 2 | Y , X )} = − ln (2π ) − ln (σ~ 2 ) − ~ 2 (Y − Xβ )T (Y − Xβ ) ,
2 2 2σ
vem
1
E (∇ β~ ln{ L( β , σ 2 | Y , X )} | X ) = E 2 X T (Y − Xβ ) X = 0
σ
n 1
E (∇σ~ 2 ln{ L( β , σ 2 | Y , X )} | X ) = E − 2 + (Y − Xβ )T (Y − Xβ ) X = 0,
2σ 2σ 4
uma vez que U = Y − Xβ , E (U | X ) = 0 e E (U T U | X ) = nσ 2 .
Anexo 2E – Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR 8
ou
1 T
X X 0
I ( β , σ 2 ) = σ
2
.
n
0
2σ 4
Então, o limite inferior de Fréchet-Cramér-Rao é dado por
σ 2 ( X T X ) −1 0
(2E.6) I ( β , σ 2 ) −1 =
2σ 4 .
0
n
Verifica-se, assim, que a matriz das covariâncias condicionadas de b atinge o
LIFCR, o que mostra, por outra via, que b é UMVU para β . Contudo, a variância
condicionada de s 2 é superior ao respectivo LIFCR. No entanto, como se sabe, este es-
timador é UMVU para σ 2 , devido ao teorema de Lehmann-Scheffé (não há outro esti-
mador não enviesado de σ 2 com variância menor).
Alternativamente, a matriz de informação pode ser obtida utilizando a igualdade
I (θ ) = E{s(θ | Y , X ) s (θ | Y , X )T } , embora os cálculos sejam mais laboriosos.
Com efeito, sabe-se que
1 T
X U
σ 2
s (θ | Y , X ) = .
n 1
− 2 + U TU
2σ 2σ 4
Então, s (θ | Y , X ) s(θ | Y , X )T é igual a
Anexo 2E – Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR 9
1 T n 1
X UU T X − 4 X TU + 6 X TU (U TU )
σ 4
2σ 2σ
2
.
n 1 n 1
− 2σ 4 U X + 2σ 6 (U U )U X − 2 + U U
T T T T
2σ 2σ 4
Pode, então, calcular-se o valor esperado condicionado de cada bloco desta ma-
triz. Verifica-se, sem dificuldade, que
1 1 1
E 4 X TUU T X X = 4 X T E (UU T | X ) X = 2 X T X .
σ σ σ
Relativamente ao bloco (1,2), tem-se
n 1 n 1
E − 4 X TU + 6 X TU (U TU ) X = − 4 X T E (U | X ) + X T E (U (U TU ) | X )
2σ 2σ 2 σ 2σ 6
1
= X T E{U (U TU ) | X } ,
2σ 6
uma vez que E (U | X ) = 0 .
Seja
u1 u13 + u1u22 + L + u1un2
2
u2u1 + u2 + L + u2un
3 2
2 2
u
U (U U ) = (u1 + u2 + L + un ) =
T 2 2
.
M M
un u u 2 + u u 2 + L + u 3
n 1 n 2 n
e que
(U TU ) 2 = (u12 + u22 + L + un2 ) 2 = u14 + u12u22 + L + u12un2
+ u22u12 + u24 + L + u22un2
+L
+ un2u12 + un2u22 + L + un4 .
Como
E (ut4 | X ) = 3σ 4 e E (ut2us2 | X ) = σ 4 (t ≠ s) ,
Anexo 2E – Estatísticas suficientes. Estimadores UMVU. Desigualdade FCR 10
vem
2
n2 n 1 n2 2n 2 3nσ 4 + n(n − 1)σ 4 n
E 4 − 6 U TU + 8 (U TU ) 2 X = − + = .
4σ 2σ 4σ 4σ 4
4σ 4
4σ 8
2σ 4
Como o próprio nome sugere, o teste de uma hipótese paramétrica serve para de-
cidir, com base na informação fornecida pelos dados, se se rejeita, ou não, a hipótese.
Seja z = ( z1 , K , z n ) um vector aleatório com distribuição na família
~ ~
Fθ~ = { f ( z | θ ) : θ ∈ Θ} ,
~ ~
em que θ é o vector m × 1 que percorre o espaço-parâmetro, Θ ⊂ ℜ m : θ ∈ Θ .
Supondo que θ é o vector m × 1 dos parâmetros desconhecidos, qualquer hipó-
tese paramétrica – conjectura sobre θ – estabelece no espaço-parâmetro Θ uma parti-
ção
Θ0 ∪ Θ1 = Θ , Θ0 ∩ Θ1 = ∅ ,
aquela que minimiza de algum modo a probabilidade de cometer o erro de 2.ª espécie,
isto é, aquela que tem maior potência ou capacidade para rejeitar a hipótese nula,
quando falsa, em favor da hipótese alternativa.
Para formalizar esta ideia vai apresentar-se a seguinte definição:
Em geral, quando não existem testes UMP – ou a sua determinação é muito difí-
cil –, utiliza-se um procedimento que faz largo apelo à intuição, permitindo obter, mui-
tas vezes, resultados interessantes. Trata-se do critério ou princípio da razão de verosi-
milhanças (RV) [ver capítulo 8].
Este princípio compara o máximo da função de verosimilhança restringido à hi-
pótese nula,
~
max
~ L(θ | z ) = Lˆ (Θ 0 ) ,
θ ∈Θ0
Seja
Lˆ (Θ)
λ ( z) = ≥ 1.
Lˆ (Θ 0 )
λ ( z ) ≥ λ0 ⇔ T ( z ) ∈ WT .
Então, fixada a dimensão do teste, α , a igualdade
~
P{λ ( z ) ≥ λ0 | θ ∈ Θ0 } = α ,
Neste caso, a hipótese nula é simples, e a hipótese alternativa é composta (tal co-
mo nos três casos anteriores).
As partições do espaço-parâmetro são, respectivamente, as seguintes:
a) Θ 0 = {θ 0 } e Θ1 = (θ 0 ,+∞) ;
b) Θ 0 = {θ 0 } e Θ1 = (−∞,θ 0 ) ;
c) Θ 0 = {θ 0 } e Θ1 = (−∞,θ 0 ) ∪ (θ 0 ,+∞) ;
d) Θ 0 = {θ 0 } e Θ1 = {θ : θ ≠ θ 0 } ⊂ ℜ m .
Com efeito, considerar esta probabilidade para dimensão do teste equivale a dizer
que o valor crítico que define o limiar da região de rejeição é o valor observado da esta-
tística-teste.
Daqui, decorre que:
− A hipótese nula não é rejeitada para esta dimensão do teste, ou para qualquer outra
inferior;
− A hipótese nula é rejeitada quando a dimensão do teste considerada é superior àque-
la probabilidade.
As conclusões para os outros três tipos de teste são semelhantes, variando apenas
o modo de calcular pobs . Assim, tem-se:
Anexo 2F – Considerações gerais sobre teste de hipóteses paramétricas 8
Note-se que:
− Um valor-p grande não pode ser interpretado como evidência forte a favor de H 0 .
De facto, um valor-p elevado pode ocorrer por duas razões: a) H 0 é verdadeira; b)
H 0 é falsa, mas o teste tem potência fraca.
− Quando, por exemplo, 0.01 < pobs ≤ 0.05 há autores que dizem que a evidência con-
tra H 0 não é significativa ao nível de 0.01, mas é significativa ao nível de 0.05. Ou-
tros autores optam por dizer que a hipótese é de rejeitar ao nível de 0.05 mas não é de
rejeitar ao nível de 0.01; muitas vezes, fixa-se antecipadamente o nível α ( 0 < α < 1 )
e rejeita-se H 0 quando sai pobs < α .
ANEXO 2G
σ = σ 2 = Var (u | X ) = λ ω (t = 1, 2, K , n)
tt t t tt
σ
ts = Cov (ut , u s | X ) = λ ωts (t , s = 1, 2, K , n ; t ≠ s ),
Para obter um estimador BLUE para β , vai começar-se por demonstrar que é
possível transformar a relação Y = Xβ + U [onde Cov(U | X ) = Σ ] em Y∗ = X ∗ β +U ∗ ,
onde Cov(U * | X * ) = I n .
Como Σ é simétrica e definida positiva, pode determinar-se uma matriz P, qua-
drada de ordem n, não singular, tal que Σ −1 = P T P . Existem muitas matrizes P que per-
mitem esta decomposição, pouco importando qual delas é que vai ser escolhida. Uma
via possível consiste em calcular os valores próprios de Σ e a matriz ortonormal dos
respectivos vectores próprios. Representando por δ t > 0 ( t = 1, 2, K , n ) cada valor pró-
prio, a respectiva matriz diagonal é dada por
δ 1 0 L 0
0 δ L 0
D= 2 ou D = Diag{δ , δ , K , δ } .
M M M
1 2 n
0 0 L δn
A correspondente matriz ortonormal dos vectores próprios é, então,
C = [c•1 c• 2 L c• n ] ,
onde Cov(Y | X ) = Σ .
Também se demonstra, sem dificuldade, que δˆg = Rbg é BLUE para δ = Rβ e
Cov(δˆg | X ) = R Cov(bg | X ) RT = R ( X T Σ −1 X ) −1 RT .
Cov(b | X ) − Cov(bg | X ) = ( X T X ) −1 X T Σ X ( X T X ) −1 − ( X T Σ −1 X ) −1
é semidefinida positiva.
Quando se considera Σ = λ Ω , facilmente se conclui que o estimador não en-
viesado de λ , utilizando a relação transformada, é s∗2 = Uˆ ∗T Uˆ ∗ /(n − k ) onde Û ∗ é o res-
pectivo vector dos resíduos MQ, Û ∗ = Y∗ − X ∗b∗ . Como Uˆ ∗ = P(Y − X bg ) = P Uˆ , onde
Uˆ = Y − X bg [não confundir com Y − X b ], o estimador não enviesado de λ pode es-
crever-se da seguinte maneira:
Uˆ T Ω −1Uˆ
s g2 = .
n−k
Donde,
^
Cov(bg | X ) = s g2 ( X T Ω −1 X ) −1 .
Quando Σ = λ Ω , tem-se
(δˆg − δ )T {R( X T Σ −1 X ) −1 RT }−1 (δˆg − δ )
~ F (m, n − k ) .
msg2
Cov(U ,U 0 | X , X 0 ) = Σ ∗ .
Assim,
U Σ Σ∗
Cov = T .
U 0 Σ∗ Σ0
~
Seja Y0 um qualquer previsor de Y0 a verificar as duas condições seguintes:
~
− Y0 = CY (linearidade em Y, condicionado por X e X 0 ).
~ ~ ~
− E ( D | X , X 0 ) = 0 , onde D = Y0 − Y0 (não enviesamento).
É possível demonstrar que
Yˆ0 = X 0bg + ΣT∗ Σ −1Uˆ ,
Quando
U Ω Ω∗
Cov = λ T ,
U 0 Ω∗ Ω0
tem-se Cov( D | X , X 0 ) = λ Ψ , e
Ψ = Ω 0 − ΩT∗ Ω −1Ω∗ + ( X 0 − ΩT∗ Ω −1 X )( X T Ω −1 X ) −1 ( X 0 − ΩT∗ Ω −1 X )T .
Donde,
(Y0 − Yˆ0 )T Ψ −1 (Y0 − Yˆ0 )
~ F (r , n − k ) .
r sg2
Quando r = 1 , obtém-se
yn+1 − yˆ n+1
~ t (n − k ) .
sg Ψ
ANEXO 3A
EXEMPLOS SOBRE RUÍDOS BRANCOS
E DIFERENÇA-MARTINGALAS
Contudo, {zt } não é um ruído branco independente, uma vez que zt = cos(t w) e
zs = cos( s w) não são independentes; nem sequer é estritamente estacionário.
Neste anexo faz-se um resumo dos resultados fundamentais sobre os vários tipos
de modelos SER e respectivos estimadores. Os aspectos considerados são os seguintes
(distinguindo, quando for caso disso, aqueles que se referem à população daqueles que
dizem respeito à amostra):
− Tipos de modelos e respectiva formalização (quadros 5A.1 e 5A.2);
− Estruturas matriciais (quadros 5A.3 e 5A.4);
− Segundos momentos referentes a variáveis observáveis (quadros 5A.5 e 5A.6);
− Produtos dos instrumentos pelas variáveis residuais/resíduos (quadros 5A.7 e 5A.8);
− Modelos SER, estimadores e respectivas hipóteses básicas (quadros 5A.9 e 5A.10);
− Quartos momentos que envolvem variáveis residuais e variáveis instrumentais (qua-
dros 5A.11 e 5A.12);
− Estimadores e matrizes de pesos (quadro 5A.13);
− Estimadores, distribuições limite, matrizes das covariâncias assintóticas e respectivos
estimadores (quadro 5A.14).
Bloco- Bloco/
Matrizes/ Contexto For-
diagonal elemento
vectores particular mato
? genérico
~
sxyi = (1 / n)∑t =1 xtT• yti = (1 / n) X T y•i (1 / n)∑t =1 xtj yti
n n
RC k ×1
~
sxy = (1 / n)( I m ⊗ X T )Y RC mk × 1 sxyi
sxi yi = (1 / n)∑t =1 xtiT• yti = (1 / n) X •Ti y•i (1 / n)∑t =1 xtij yti
n n
CC k ×1
sxy = (1 / n) diag( X )T Y CC mk × 1 s xi y i
---------------------------------------------------- Notação B: ----------------------------------------------------
S zx = (1 / n) Z T X = (1 / n)∑t =1 Z tT• X t •
n
p×k Sim S z i xi
S zx = (1 / n) Z T X = (1 / n)∑t =1 ( I m ⊗ ztT• ) X t • IC
n
mq × k Sim S zxi
~
S zx = (1 / n) Z T X = I m ⊗ (1 / n)∑t =1 ztT• xt •
n
IC RC mq × mk Sim S zx
S zx = (1 / n) Z T X = (1 / n)∑t =1 Z tT• X t •
n
CC p×k Não S z i xi
S zx = (1 / n) Z T X = (1 / n)∑t =1 ( I m ⊗ ztT• ) X t • CC IC
n
mq × k Não S zxi
~ ~
S zx = em ⊗ S zx CC IC RC mq × k Não S zx
szy = (1 / n) Z T Y = (1 / n)∑t =1 Z tT• ytT•
n
p ×1 sz i yi
szy = (1 / n) Z T Y = (1 / n)∑t =1 ( I m ⊗ ztT• ) ytT•
n
IC mq × 1 szyi
S zz = (1 / n) Z T Z = (1 / n)∑t =1 Z tT• Z t • p× p
n
Sim S zi zi
~ mq × mq ~
S zz = I m ⊗ S zz IC Sim S zz
S xx = (1 / n) X T X = (1 / n)∑t =1 X tT• X t •
n
k×k Sim S x i xi
~ ~
S xx = I m ⊗ S xx RC mk × mk Sim S xx
S xx = (1 / n)∑t =1 diag( X t • )T X t •
n
CC mk × k Não S x i xi
~ ~
S xx = em ⊗ S xx CC RC mk × k Não S xx
sxy = (1 / n) X T Y = (1 / n)∑t =1 X tT• ytT•
n
k ×1 s xi y i
sxy = (1 / n) X T Y = (1 / n)∑t =1 ( I m ⊗ xtT• ) ytT•
n
RC mk × 1 sxyi
sxy = (1 / n)∑t =1 diag( X t • )T ytT•
n
CC mk × 1 s xi y i
Nos quadros 5A.7 e 5A.8 são apresentados as matrizes e vectores relativos aos
produtos de instrumentos por variáveis residuais ou por resíduos, respectivamente. Para
cada matriz ou vector, são referidos os modelos SER em que podem ser utilizados, o
formato e o bloco/elemento genérico.
No quadro 5A.9 apresenta-se a lista dos estimadores MGM, com os respectivos
símbolos, hipóteses básicas e modelos SER subjacentes.
O quadro 5A.10 refere, para cada modelo SER, a lista dos respectivos estima-
dores MGM, distinguindo se existe ou não homocedasticidade condicionada.
Sim βˆFIVE
M08 Não
Sim βˆMQ3P
∗
; β̂ PMQ
M09 Não
Sim β̂SUR
∗
M10 Não
Sim
Anexo 5A – Tipos de modelos SER e respectivos estimadores 10
Nos quadros 5A.11 e 5A.12 são referidas as matrizes relativas aos quartos mo-
mentos que envolvem duas variáveis instrumentais e duas variáveis residuais ou dois re-
síduos, respectivamente. Para cada matriz, referem-se os modelos SER respectivos, dis-
tinguindo entre heterocedasticidade e homocedasticidade condicionada, o formato e o
bloco ou elemento genérico.
ou Sˆ = (1 / n)∑t =1 Z tT•uˆtT•uˆt • Z t • p× p
n
Ŝil
ou p× p Ŝil
= (1 / n){Z ( I n ⊗ Σˆ ) Z }
T
ou Sˆ = (1 / n)∑t =1 X tT•uˆtT•uˆt • X t •
n
k×k Ŝil
ou k×k Ŝil
= (1 / n){ X T ( I n ⊗ Σˆ ) X }
Sˆil = (1 / n)∑t =1 uˆtiuˆtl ztT• zt •
n
345
q×q (1 / n)∑t =1 uˆtiuˆtl zth zth′
n
8 9 10 Não
= (1 / n)Gˆ iT Gˆ i
Sˆ = (1 / n)∑t =1 (uˆtT•uˆt • ) ⊗ ( ztT• zt • )
n
mq × mq Ŝil
= (1 / n)Gˆ T Gˆ
~
Sˆil = σˆ il (1 / n)∑t =1 ztT• zt • = σˆ il S zz q×q σˆ il (1 / n)∑t =1 zth zth′
n n
Sim
~ mq × mq
Sˆ = Σˆ ⊗ S zz Ŝil
Sˆil = (1 / n)∑t =1 uˆtiuˆtl xtT• xt • = (1 / n)Gˆ iT Gˆ i (1 / n)∑t =1 uˆtiuˆtl xtj xtj ′
n n
6 Não k×k
Sˆ = (1 / n)∑t =1 (uˆtT•uˆt • ) ⊗ ( xtT• xt • )
n
mk × mk Ŝil
= (1 / n)Gˆ T Gˆ
~
Sˆil = σˆ il (1 / n)∑t =1 xtT• xt • = σˆ il S xx σˆ il (1 / n)∑t =1 xtj xtj ′
n n
Sim k×k
~
Sˆ = Σˆ ⊗ S xx mk × mk Ŝil
Nota: σˆ il = (1 / n)Σtn=1uˆtiuˆtl ; Σˆ = (1 / n)Σtn=1uˆtT•uˆt • .
Anexo 5A – Tipos de modelos SER e respectivos estimadores 12
Assim, o produto de Kronecker de duas matrizes é uma matriz em que cada ele-
mento da primeira é multiplicado por todos os elementos da segunda, e estes produtos
são organizados de acordo com (5B.1).
O produto de Kronecker verifica as seguintes propriedades:
a) A ⊗ ( B + C ) = ( A ⊗ B) + ( A ⊗ C ) ;
b) ( A ⊗ C ) + ( B ⊗ C ) = ( A + B) ⊗ C ;
c) ( A ⊗ B) + ( A ⊗ C ) = A ⊗ ( B + C ) ;
d) λ ( A ⊗ B) = (λA) ⊗ B = A ⊗ (λB) ;
e) ( A ⊗ C )( B ⊗ D) = ( AB) ⊗ (CD) ;
f) ( A ⊗ B)T = AT ⊗ BT ;
g) ( A ⊗ B ) −1 = A−1 ⊗ B −1 , onde A e B são matrizes quadradas;
h) tr ( A ⊗ B) = tr ( A) tr ( B) , onde A e B são matrizes quadradas;
i) | A ⊗ B |=| A |m | B |m , onde A e B são matrizes quadradas de ordem m e n, respectiva-
mente;
j) Sejam A e B duas matrizes quadradas em que os pares ( λ j , x• j ) e ( µi , y•i ) represen-
tam, respectivamente, os valores próprios e os vectores próprios associados. Então,
os valores próprios de A ⊗ B são λ j µi , e os respectivos valores próprios são dados
por x• j ⊗ y•i .
Anexo 5B – Produto de Kronecker e vectorização de matrizes 2
7A.1 - Construção do vector dos regressores não constantes a partir do vector z•i
onde e•t (vector p × 1 ) é a coluna t da matriz I p , pode “extrair-se” f ti• de z•Ti , fazendo
fti • = z•Ti J t (t = 1, 2, K , p) .
Seja a matriz pq × k1
J1
M
J = Jt .
M
J
p
Então,
F•i = ( I p ⊗ z•Ti ) J .
Vai demonstrar-se, a seguir, que E (v•i v•Tl | F•1 , F• 2 , K) = O . Como, devido à hipó-
tese a), (v•i , F•i , v• l , F•l ) é independente de F• h , para h ≠ i, l , vem
E (v•i v•Tl | F•1 , F• 2 , K) = E (v•i v•Tl | F•i , F•l ) .
Então,
E (v•i v•Tl | F•i , F•l ) = E{E (v•i v•Tl | F•i , F• l , v•i ) | F•i , F•l }
= E{v•i E (v•Tl | F•i , F• l , v•i ) | F•i , F•l }
= E{v•i E (v•Tl | F• l ) | F•i , F•l },
Em primeiro lugar, vai demonstrar-se que MENO.4 implica que E{( F•ci )T F•ci }
tem inversa. Começa-se por notar que
uma vez que todos os elementos dos fti • estão incluídos em z•i (ver exemplo 7.8).
Como o produto de uma coluna por uma linha é igual ao produto de Kronecker
da linha pela coluna, tem-se z•i fti • = fti • ⊗ z•i . Então,
E{( F•ci )T F•ci } = ∑t =1 ∑s =1 cts E ( f tiT• z•Ti ) Qzz−1 E ( z•i f si• )
p p
ou
E{( F•ci )T F•ci } = E ( F•i ⊗ z•i )T ( Pe ⊗ Qzz−1 ) E ( F•i ⊗ z•i )
= E ( Pe F•i ⊗ z•i )T ( I p ⊗ Qzz−1 ) E ( Pe F•i ⊗ z•i )
= E ( F•ci ⊗ z•i )T ( I p ⊗ Qzz−1 ) E ( F•ci ⊗ z•i )
= (Qzfc )T ( I p ⊗ Qzz−1 )Qzfc ,
onde Qzfc = E ( F•ci ⊗ z•i ) . Logo, E{( F•ci )T F•ci } é não singular.
A seguir vai provar-se que E{( F•ci )T v•ci } = 0 . Com efeito,
pois, devido a (7.54), E ( f tiT•vsi ) = 0 [deve ficar claro que as ortogonalidades cruzadas,
E ( f tiT•vsi ) = 0 para t ≠ s , são indispensáveis para provar a consistência de φˆEF ].
Facilmente se conclui que as hipóteses do modelo implicam (7.66), em que
Cov a (φˆEF ) = E{( F•ci )T F•ci }−1 E {( F•ci )T v•ci (v•ci )T F•ci } E{( F•ci )T F•ci }−1 .
E {( F•ci )T v•ci (v•ci )T F•ci } = E E{( F•ci )T v•ci (v•ci )T F•ci | z•i }
porque z•i abrange todos os elementos dos fti • . Falta demonstrar que E{v•ci (v•ci )T | z•i }
não depende de z•i . Como v•ci = Pev•i = Pe (e pα i + v•i ) = Peu•i = u•ci , tem-se
E{v•ci (v•ci )T | z•i } = E{u•ci (u•ci )T | z•i } = Pe E (u•iu•Ti | z•i ) Pe
= Pe E (u•iu•Ti ) Pe = E{u•ci (u•ci )T } = E{v•ci (v•ci )T }.
Anexo 7A – Complementos 4
A matriz E{v•ci (v•ci )T } é singular. Com efeito, tem-se E{v•ci (v•ci )T } = Pe Σ Pe , onde
v•ci = Pe u•i e Σ = E (u•i u•Ti ) . Então, como Pe é singular, conclui-se que E{v•ci (v•ci )T } tam-
bém é singular.
A seguir, vai demonstrar-se que
E ( F•ci )T E{v•ci (v•ci )T }F•ci = E {( F•ci )T Pe E (u•i u•Ti ) Pe F•ci } = E {( F•ci )T E (u•i u•Ti ) F•ci }
= E {( F•ci )T Σ F•ci } = E ( F•ci ⊗ z•i )T {Σ ⊗ E ( z•i z•Ti ) −1} E ( F•ci ⊗ z•i )
= (Qzfc )T (Σ ⊗ Qzz−1 ) Qzfc .
Como F•ci = Pe F•i , também existe E{( f tic• )T f sic• } . Pode, então, concluir-se que
plim(Vˆ ) = E{v•ci (v•ci )T } .
y
1i
− 1 1 0 L 0 0 0 y2i y2i − y1i
0 −1 1 L 0 0 0 y3i y3i − y2i
A y•i = M
T
M M M M M M = M .
0 0 0 L − 1 1 0 y p − 2,i y p −1,i − y p − 2,i
0 0 0 L 0 − 1 1 y p −1,i y pi − y p −1,i
y pi
Logo,
S a = ( AT ⊗ I q ) E (u•iu•Ti ⊗ z•i z•Ti )( A ⊗ I q ) = ( AT ⊗ I q ) S ( A ⊗ I q ) .
S a = E E {v•ai (v•ai )T } ⊗ ( z•i z•Ti ) | z•i
= E E {v•ai (v•ai )T } | z•i ⊗ ( z•i z•Ti )
= E{Σ a ⊗ ( z•i z•Ti )} = Σ a ⊗ E ( z•i z•Ti ) = Σ a ⊗ Qzz .
Sabe-se que o estimador EA, (7.26), é estimador MGM eficiente, pois corres-
ponde ao estimador SUR com coeficientes constantes (ver capítulo 5). Vai, agora, de-
monstrar-se que o estimador EF de φ , (7.57), é um estimador MGM (ficando tam-
bém provado que é um estimador consistente e assintoticamente normal). Para isso, vai
considerar-se o sistema de p − 1 equações, y•ai = F•aiφ + v•ai , e um estimador MGM de φ
[com o formato (5.15)], considerando
1 m
m ∑i =1 •i
S zfa = ( F a ⊗ z•i ) [média amostral correspondente a Qzfa = E ( F•ai ⊗ z•i ) ],
1 m a
szya =
m ∑ i =1
( y•i ⊗ z•i ) [média amostral correspondente a qzya = E ( y•ai ⊗ z•i ) ],
m m
e, de forma semelhante,
c S −1 L c S −1 1 m z y
1 m 1 m 11 zz 1 p zz ∑
m i =1 •i 1i
( S zfa )T Wˆ szya = ∑i =1 f1Ti• z•Ti L ∑i =1 f piT • z•Ti M M M
m m
c S −1 L c S −1 1
m ∑i =1 •i pi
m
z y
p1 zz pp zz
1 m 1 m
= ∑t =1 ∑ s =1 cts ∑i =1 ftiT• z•Ti S zz−1 ∑i =1 z•i ysi .
p p
m m
Como z•i inclui todos os elementos de F•i , z•i “desaparece”. Assim,
1 m 1 m
( S zfa )T Wˆ S zfa = ∑t =1 ∑ s =1 cts ∑i =1 ftiT• f si • = ∑i =1 ∑t =1 ∑ s =1 cts ftiT• f si • ,
p p p p
m m
1 m 1 m
( S zfa )T Wˆ szya = ∑t =1 ∑ s =1 cts ∑i =1 ftiT• ysi = ∑i =1 ∑t =1 ∑ s =1 cts ftiT• ysi .
p p p p
m m
Usando as fórmulas (ver capítulo 5)
∑ ∑ ∑ ∑
p p p p
t =1
c f fT
s =1 ts ti • si •
= F•Ti Pe F•i e t =1
c f y = F•Ti Pe y•i ,
T
s =1 ts ti • si
obtém-se
1 m 1 m
( S zfa )T Wˆ S zfa = ∑i =1 F•Ti Pe F•i e ( S zfa )T Wˆ szfa = ∑i =1 F•Ti Pe y•i ,
m m
e, portanto, φˆ(Wˆ ) = φˆEF .
Facilmente se conclui que o estimador φˆEF não é eficiente. De facto, como
Cov a (φˆEA
a
) = E{( F•ai )T Σ −a1 F•ai }−1 [ver (7.27)],
−1
^ 1 m
Cov a (φˆ ) = ∑i =1 ( F•ai )T Σˆ a−1 F•ai
a
EA [ver (7.28)].
m
Trata-se, evidentemente, de um estimador consistente e assintoticamente normal.
Vai provar-se que E{( F•ai )T Σ a−1 F•ai } é invertível. Com efeito, basta notar que
E {( F•ai )T Σ −a1 F•ai } = E ( F•ai ⊗ z•i )T {Σ −a1 ⊗ E ( z•i z•Ti ) −1} E ( F•ai ⊗ z•i )
= (Qzfa )T (Σ −a1 ⊗ Qzz−1 ) Qzfa ,
e que r (Qzfa ) = k1 .
Escrutinando a propriedade 5.1, pode provar-se, sem dificuldade, que
1 m
Σˆ a = ∑t =1 ( y•ai − F•ai φˆEF )( y•ai − F•ai φˆEF )T
m
é estimador consistente de Σ . Como φˆ é consistente para φ , e se verificam as hipóte-
a EF
ses MCDP.1 e MCDP.2, basta mostrar que E{( f tia• )T f sia• } existe. Para isso, basta notar
que Qzz = E ( z•i z•Ti ) existe e tem inversa, e que em z•i estão todos os elementos de F•i .
A estatística de Sargan associada com o estimador φˆEF a
é dada por
d
QS = J (φˆEA
a
, Sˆa−1 ) = m( s zya − S zfa φˆEA
a T ˆ −1
) S a ( s zya − S zfa φˆEA
a
) → χ 2 ( pq − k1 ) .
−1
= ∑i =1 ( F•ai )T C (C T Σˆ −a1C ) −1 C T F•ai ∑ ( F•ai )T C (C T Σˆ −a1C ) −1 C T y•ai = φˆEA
m m a
,
i =1
Anexo 7A – Complementos 10
Então,
E{( F•ci )T v•ci (v•ci )T F•ci } = E{J T ( Pe ⊗ I q ) g•i g•Ti ( Pe ⊗ I q ) J } = J T ( Pe ⊗ I q ) S ( Pe ⊗ I q ) J ,
e
F•ci ⊗ z•i = ( Pe ⊗ I p )( F•i ⊗ z•i ) = ( Pe ⊗ I p )( I p ⊗ z•i z•Ti ) J
Então,
Qzfc = ( I p ⊗ Qzz )( Pe ⊗ I p ) J .
0 (t < s ).
vem
0 1 φ φ 2 L φ p −1 φ p −2
0 0 1 φ L φ p − 2 φ p −3
M M M M M M
E (v•i F•Ti ) = ,
0 0 0 0 L 1 φ
0 0 0 0 L 0 1
0 0 0 0 L 0 0
Anexo 7A – Complementos 12
Se σˆ v2 é um estimador de σ v2 , vem
−1
^ 1 m
Cov a (φˆEF ) = σˆ ∑i =1 ( F•ci )T F•ci = mσˆ v2 ( FcT Fc ) −1 ,
2
m v
que é igual a m vezes o estimador da matriz das covariâncias assintóticas quando se ap-
lica o estimador PMQ à amostra ( yc , Fc ) .
A respectiva soma dos quadrados dos resíduos é dada por
SQR
σˆ v2 = .
mp − k1
Para demonstrar que este estimador é consistente, começa-se por provar a con-
sistência de SQR/ (mp − m) . Com efeito, seja
1 m
= m tr ( AT A) −1 ∑i =1 vˆ•ai (vˆ•ai )T .
m
Como
1 m
plim ∑i =1 vˆ•ai (vˆ•ai )T = E{v•ai (v•ai )T } = E ( AT v•i v•Ti A) = AT E (v•i v•Ti ) A = σ v2 AT A ,
m
obtém-se
SQR
plim = m tr [( AT A) −1σ v2 AT A] = ( p − 1)σ v2 ,
m
ou
SQR
plim = σ v2 .
m( p − 1)
Como
SQR SQR m( p − 1)
= ,
m( p − 1) − k1 m( p − 1) m( p − 1) − k1
Como
Σ a = E{v•ai (v•ai )T } = AT E (v•i v•Ti ) A = σ v2 AT A ,
Anexo 7A – Complementos 14
e, portanto,
φˆEA
a
= {( S zfa )T Sˆa−1 S zfa }−1 ( S zfa )T Sˆa−1 s zya
−1
= ( S zfa )T {(σˆ v2 AT A) −1 ⊗ S zz−1}S zfa ( S zfa )T {(σˆ v2 AT A) −1 ⊗ S zz−1}s zya
−1
= ( S zfa )T {( AT A) −1 ⊗ S zz−1}S zfa ( S zfa )T {( AT A) −1 ⊗ S zz−1}s zya
= φˆEF .
onde
I
J k = k1 (matriz de tipo k × k1 ) e Wˆ = Pe ⊗ S zz−1 .
O
Notando que
1 m
S zxT Wˆ S zx = ∑i =1 X •Ti Pe X •i ,
m
e que
F•Ti Pe F•i O
Pe X •i = Pe [ F•i H •i ] = Pe [ F•i e p hi• ] = [ Pe F•i O ], X Pe X •i =
T
•i ,
O O
tem-se
1 m T
S zxT Wˆ S zx = m ∑i =1 •i e •i
F P F O
= S zxT Wˆ S zx J k J kT .
O O
Então,
δˆ = ( J kT S zxT Wˆ S zx J k )−1 J kT S zxT Wˆ szy − ( J kT S zxT Wˆ S zx J k )−1 J kT S zxT Wˆ S zx βˆEA
onde
g •m ( βˆEA ) = s zy − S zx βˆEA .
em que
1 m 1 m
Bˆ = I pq − S zx ( S zxT Sˆ −1S zx ) −1 S zxT Sˆ −1 e g •m = ∑i =1 g •i = ∑i =1 (u•i ⊗ z•i ) .
m m
Como
d
m g •m → N ( pq ) ( 0, S ) , Cov a ( g •m ) = S ,
conclui-se que
d
m δˆ = ( J kT S zxT Wˆ S zx J k ) −1 J kT S zxT Wˆ Bˆ m g• m → N ( k1 ){ 0, Cov a (δˆ)} ,
desde que a matriz Cov a (δˆ) tenha inversa. Neste caso, tem-se
Cov a (δˆ) = ( J kT QzxT W Qzx J k ) −1 J kT QzxT W B S BTW Qzx J k ( J kT QzxT W Qzx J k ) −1 ,
em que z•i “desaparece” porque todos os elementos de F•i estão incluídos em z•i . Co-
mo E ( F•Ti Pe F•i ) tem inversa (ver a demonstração das propriedades do estimador EF),
está garantida a não singularidade de J kT QzxT W Qzx J k .
Fica ao cuidado do leitor provar que BTW Qzx J k , matriz de tipo pq × k1 , tem ca-
racterística igual a k1 . Nestas circunstâncias, conclui-se que Cov a (δˆ) é invertível.
Um estimador consistente de Cov a (δˆ) é
^
Cov a (δˆ ) = ( J kT S zxT Wˆ S zx J k ) −1 J kT S zxT Wˆ Bˆ Sˆ Bˆ TWˆ S zx J k ( J kT S zxT Wˆ S zx J k ) −1 .
Então,
plim(βˆEA ) = β + E ( X •Ti Σ −1 X •i ) −1 E ( X •Ti Σ −1u•i ) ,
onde u•i = e pα i + v•i . A consistência do estimador exige que E ( X •Ti Σ −1u•i ) = 0 . Assim:
desde que se verifique E ( xti •vsi ) = 0 , a condição E ( xti •α i ) = 0 é suficiente para que
E ( X •Ti Σ −1u•i ) = 0 ; contudo, esta condição não é necessária. Deste modo, em rigor, o tes-
te de Hausman não testa E ( xti •α i ) = 0 , mas sim E ( X •Ti Σ −1u•i ) = 0 .
Anexo 7A – Complementos 17
Deve notar-se que a extensão das propriedades do estimador EF ao caso dos pai-
néis não balanceados é mais fácil admitindo a possibilidade de existir heterocedasticida-
de condicionada. No caso de homocedasticidade condicionada, para obter, por exemplo,
a expressão correspondente a (7.67), deve supor-se que
E{v•ci (v•ci )T | z•i , d•i } = E{v•ci (v•ci )T } .
α
δ= ,
1−ϕ
supondo que ϕ ≠ 1 . Então, a solução geral da equação é
α
yt = cϕ t + .
1−ϕ
Uma solução definida quando yt 0 é conhecido é, então,
α t −t0 α
yt = y t 0 − ϕ + .
1−ϕ 1−ϕ
donde
α (1 − ϕ ) − β ϕ
δ 0 = (1 − ϕ ) 2
δ = β .
1 1 − ϕ
α (1 − ϕ ) − β ϕ β α (1 − ϕ ) − β ϕ β
yt = yt0 − 2
− t0 ϕ t −t 0 + 2
+ t.
(1 − ϕ ) 1−ϕ (1 − ϕ ) 1−ϕ
Donde
2α + β
δ 0 −δ 1 = α δ 0 = 2
⇔ .
2δ 1 = β δ = β
1 2
Então,
2α + β β
ytp = t + t2 .
2 2
A solução geral é, então,
2α + β β
yt = c + t + t2 .
2 2
Para yt 0 conhecido, a solução definida respectiva é
2α + β β
yt = yt 0 + (t − t0 ) + (t 2 − t02 ) .
2 2
Quando p = 2 , obtém-se:
a) wt = α .
Para resolver a equação yt = α + ϕ 1 yt −1 + ϕ 2 yt −2 , propõe-se uma solução particular
da forma ytp = δ . Fazendo a substituição na equação, tem-se
α
δ= ,
1 − ϕ1 − ϕ 2
yth é a solução geral da respectiva equação homogénea, que depende do caso con-
siderado. Por exemplo, se as raízes são reais e distintas, vem
α
yt = c1λ1t + c2 λt2 + .
1 − ϕ1 − ϕ 2
Anexo 9A – Complementos sobre equações com diferenças 4
supondo ϕ1 ≠ 2 . Então,
α
ytp = t.
2 − ϕ1
admitindo que ϕ1 + ϕ 2 ≠ 1 .
Fica ao cuidado leitor obter, quando y0 e y1 são conhecidos, a solução geral e a so-
lução definida, para os três casos estudados.
Quando ϕ1 + ϕ 2 = 1 , tem-se a equação yt = α + β t + ϕ 1 yt −1 + (1 − ϕ 1) yt −2 . A solução
particular a ensaiar é ytp = δ 0t + δ 1t 2 , obtendo-se
(2 − ϕ1 )δ 0 − (4 − 3ϕ1 )δ 1 + 2(2 − ϕ1 )δ 1t = α + β t .
Donde
2(2 − ϕ1 )α − (4 − 3ϕ1 ) β β
δ0 = 2
e δ1 = ,
2 (1 − ϕ1 ) 2(2 − ϕ1 )
admitindo que ϕ1 ≠ 2 .
Fica ao cuidado do leitor obter, para os três casos estudados, a solução geral e a so-
lução definida (com y0 e y1 conhecidos).
Anexo 9A – Complementos sobre equações com diferenças 5
Então,
α+β β
δ0 = e δ1 = .
2 6
Fica ao cuidado do leitor determinar, para os três casos estudados, a solução geral e
a solução definida (quando y0 e y1 são conhecidos).
a equação vectorial de 1.ª ordem, (9A.3), não é mais do que outra forma de representar a
equação escalar de ordem p, (9A.2).
Notando que
y0
y
−1
y −2
ξ0 = ,
M
y −( p − 2 )
y−( p−1)
a equação (9A.3) pode resolver-se pelo método da substituição recursiva, tal como se
fez para (9.5), obtendo-se uma solução definida semelhante a (9.6):
(9A.4) ξ t = F tξ 0 + F t −1v1 + F t −2 v2 + L + F vt −1 + vt .
Não é difícil verificar que o primeiro elemento de ξ t , em (9A.4), é dado por
yt = f11(t ) y0 + f12(t ) y−1 + f13(t ) y−2 + L + f1(pt ) y−( p−1)
(9A.5)
+ f11( t −1) w1 + f11( t −2) w2 + L + f11(1) wt −1 + wt ,
onde:
− f11( t ) , f12( t ) , f13(t ) ,K, f1(pt ) são os elementos da primeira linha da matriz F t ;
− f11( t −1) , f11( t −2) , K , f11(1) são os elementos da primeira linha e na posição (1,1) das matri-
zes F t −1 , F t −2 , K , F , respectivamente.
Conclui-se, portanto, que yt é uma função de p valores iniciais (os elementos do
vector ξ 0 ), e dos valores w1 , w2 ,…, wt .
Do mesmo modo que (9.10), vem
(9A.6) ξ t +s = F s +1ξ t −1 + F s vt + F s−1vt +1 + F s −2vt +2 + L + F vt + s−1 + vt + s ,
e
yt + s = f11( s +1) yt −1 + f12( s +1) yt −2 + f13( s +1) yt −3 + L + f1(ps +1) yt − p
(9A.7)
+ f11( s ) wt + f11( s −1) wt +1 + f11( s −2) wt + 2 + L + f11(1) wt + s −1 + wt + s .
O estudo das soluções e dos multiplicadores dinâmicos pode ser feito a partir
dos valores próprios da matriz F, ou seja, fazendo | F − λ I p | = 0 , onde, como se sabe,
Anexo 9A – Complementos sobre equações com diferenças 7
Teorema 9A.1
Os valores próprios da matriz F são as soluções da equação característica, (9.19), da
equação de diferenças linear de ordem p, com coeficientes constantes.
onde Λ é a matriz diagonal dos valores próprios, Λ = Diag {λ1 , λ2 , K , λ p } ; decorre, sem
dificuldade, que
F s = B Λs B −1 ,
onde Λs = Diag {λ1s , λs2 ,K, λsp } .
Se se designar por bij e b ij os elementos genéricos das matrizes B e B −1 , respec-
tivamente, pode verificar-se que o elemento (1,1) de F s é dado por
f11( s ) = (b11b11 )λ1s + (b12b 21 )λs2 + L + (b1 p b p1 )λsp = h1λ1s + h2 λs2 + L + h p λsp ,
F = G J G −1 ,
onde J é também uma matriz quadrada de ordem p, diagonal por blocos,
J1 O L O
O J 2 L O
J =
M M M
O O L Jm
onde
s!
( s ≥ n)
Cns = n!( s − n)!
0 ( s < n) .
Vai ser retomado o estudo, em geral, das equações vectoriais de 1.ª ordem,
(9A.3). Quando os valores próprios da matriz F verificam a condição | λi | < 1 , F s tende
para O quando s → +∞ , e é possível obter uma relação de longo prazo, em que yt é
função de toda a “história” da variável de input. Com efeito, supondo que as sucessões
{ yt } e {wt } são limitadas, fazendo, indefinidamente em (9A.5), a substituição recursi-
va, vem
(9A.10) yt = wt + f11(1) wt −1 + f11( 2 ) wt −2 + f11(3) wt −3 + L .
∂ vt ∂ vt
desde que | λi | < 1 / γ . Pode, então, provar-se que [Hamilton (1994), pp. 23-24]
∂ VA t ∂y 1
= ∑s =0 γ s t + s =
+∞
(9A.11) ,
∂ wt ∂ wt 1 − ϕ1γ − ϕ 2γ 2 − L − ϕ pγ p
Este valor é também é igual ao efeito de longo prazo sobre o output, quando o
input varia de uma unidade, de forma permanente. Tem-se:
∂y ∂y ∂y ∂y 1
(9A.13) lim t + s + t + s + t + s + L + t + s = .
s → +∞
∂ wt ∂ wt +1 ∂ wt + 2 ∂ wt + s 1 − ϕ1 − ϕ2 − L − ϕ p
ANEXO 10A
VALORES CRÍTICOS PARA TESTES DE
RAÍZES UNITÁRIAS E DE COINTEGRAÇÃO
Tabela 10A.2
Valores críticos para os testes de Dickey-Fuller: DF- τ , DF- τ c e DF- τ ct
Probabilidade de a estatística-teste ser menor do que o valor crítico
n 0.01 0.025 0.05 0.10 0.90 0.95 0.975 0.99
Teste DF- τ
25 –2.65 –2.26 –1.95 –1.60 0.92 1.33 1.70 2.15
50 –2.62 –2.25 –1.95 –1.61 0.91 1.31 1.66 2.08
100 –2.60 –2.24 –1.95 –1.61 0.90 1.29 1.64 2.04
250 –2.58 –2.24 –1.95 –1.62 0.89 1.28 1.63 2.02
500 –2.58 –2.23 –1.95 –1.62 0.89 1.28 1.62 2.01
∞ –2.58 –2.23 –1.95 –1.62 0.89 1.28 1.62 2.01
Teste DF- τ c
25 –3.75 –3.33 –2.99 –2.64 –0.37 0.00 0.34 0.71
50 –3.59 –3.23 –2.93 –2.60 –0.41 –0.04 0.28 0.66
100 –3.50 –3.17 –2.90 –2.59 –0.42 –0.06 0.26 0.63
250 –3.45 –3.14 –2.88 –2.58 –0.42 –0.07 0.24 0.62
500 –3.44 –3.13 –2.87 –2.57 –0.44 –0.07 0.24 0.61
∞ –3.42 –3.12 –2.86 –2.57 –0.44 –0.08 0.23 0.60
Teste DF- τ ct
25 –4.38 –3.95 –3.60 –3.24 –1.14 –0.81 –0.50 –0.15
50 –4.16 –3.80 –3.50 –3.18 –1.19 –0.87 –0.58 –0.24
100 –4.05 –3.73 –3.45 –3.15 –1.22 –0.90 –0.62 –0.28
250 –3.98 –3.69 –3.42 –3.13 –1.23 –0.92 –0.64 –0.31
500 –3.97 –3.67 –3.42 –3.13 –1.24 –0.93 –0.65 –0.32
∞ –3.96 –3.67 –3.41 –3.13 –1.25 –0.94 –0.66 –0.32
Fonte: Fuller (1996).
Tabela 10A.3
Valores críticos para os testes
de cointegração de Engle-Granger
N.º de regressores
(excluindo o termo independente)
1% 2.5% 5% 10%
(a) Os regressores não têm deriva
1 –3.96 –3.64 –3.53 –3.07
2 –4.31 –4.02 –3.77 –3.45
3 –4.73 –4.37 –4.11 –3.83
4 –5.07 –4.71 –4.45 –4.16
5 –5.28 –4.98 –4.71 –4.43
(b) Os regressores têm deriva
1 –3.96 –3.67 –3.41 –3.13
2 –4.36 –4.07 –3.80 –3.52
3 –4.65 –4.39 –4.16 –3.84
4 –5.04 –4.77 –4.49 –4.20
5 –5.36 –5.02 –4.74 –4.46
Fonte: (a) Phillips e Ouliaris (1990);
(b) linha 1 – Fuller (1996);
(b) linhas 2 a 5 – Phillips e Ouliaris (1990).
Tabela 10A.4
Estimativas dos parâmetros da fórmula de MacKinnon
para calcular os valores críticos para os testes de
Dickey-Fuller (rácios- τ ) e para os testes de
Cointegração de Engle-Granger
m Variante α β̂ ∞ β̂1 β̂ 2
1 Sem constante 1 –2.5658 –1.960 –10.04
5 –1.9393 –0.398 –0.00
10 –1.6156 –0.181 –0.00
1 Sem tendência 1 –3.4335 –5.999 –29.25
5 –2.8621 –2.738 –8.36
10 –2.5671 –1.438 –4.48
1 Com tendência 1 –3.9638 –8.353 –47.44
5 –3.4126 –4.039 –17.83
10 –3.1279 –2.418 –7.58
2 Sem tendência 1 –3.9001 –10.534 –30.03
5 –3.3377 –5.967 –8.98
10 –3.0462 –4.069 –5.73
2 Com tendência 1 –4.3266 –15.531 –34.03
5 –3.7809 –9.421 –15.06
10 –3.4959 –7.203 –4.01
3 Sem tendência 1 –4.2981 –13.790 –46.37
5 –3.7429 –8.352 –13.41
10 –3.4518 –6.241 –2.79
3 Com tendência 1 –4.6676 –18.492 –49.35
5 –4.1193 –12.024 –13.13
10 –3.8344 –9.188 –4.85
4 Sem tendência 1 –4.6493 –17.188 –59.20
5 –4.1000 –10.745 –21.57
10 –3.8110 –8.317 –5.19
4 Com tendência 1 –4.9695 –22.504 –50.22
5 –4.4294 –14.501 –19.54
10 –4.1474 –11.165 –9.88
5 Sem tendência 1 –4.9587 –22.140 –37.29
5 –4.4185 –13.641 –21.16
10 –4.1327 –10.638 –5.48
5 Com tendência 1 –5.2497 –26.606 –49.56
5 –4.7154 –17.432 –16.50
10 –4.4345 –13.654 –5.77
6 Sem tendência 1 –5.2400 –26.278 –41.65
5 –4.7048 –17.120 –11.17
10 –4.4242 –13.347 –0.00
6 Com tendência 1 –5.5127 –30.735 –52.50
5 –4.9767 –20.883 –9.05
10 –4.6999 –16.445 –0.00
Fonte: MacKinnon (1991).