Você está na página 1de 1021

CAPÍTULO 1

INTRODUÇÃO

1.1 - De que trata a Econometria?

Numa primeira aproximação, pode dizer-se que a Econometria procura fornecer


uma base empírica para o estudo de relações entre variáveis económicas (ou, em ge-
ral, de natureza social). Para atingir este objectivo, a Econometria dedica-se ao desen-
volvimento de métodos estatísticos para estimar e testar tais relações. Em especial, no
campo da Economia, estes métodos devem possibilitar o teste das teorias económicas
que podem estar na base das relações preconizadas, e a avaliação e fundamentação de
decisões de natureza empresarial ou de política económica.
Estas considerações vão ser analisadas nas secções seguintes deste capítulo. Para
motivar a análise que vai ser feita, apresentam-se alguns exemplos.

Exemplo 1.1 – O consumo privado, considerado como agregado macroeconómico, é


uma variável cujo comportamento tem sido amplamente estudado pela teoria macroeco-
nómica. A especificação mais simples é a função consumo keynesiana, onde, para su-
cessivos períodos de tempo, se procura explicar o consumo, cons, a partir do rendimento
disponível, rdisp: cons = h(rdisp) . É habitual propor a função h seguinte:
cons = α 1 + α 2 rdisp ,
onde α1 e α 2 são parâmetros desconhecidos (em particular, α 2 é a propensão marginal
para consumir, a verificar 0 < α 2 < 1 ). Esta função é razoavelmente adequada para anali-
sar a evolução do consumo privado? Se a resposta for afirmativa, é desejável conhecer
uma boa estimativa da propensão marginal a consumir.

Exemplo 1.2 – Para as unidades produtivas que se dedicam ao fabrico de um bem é,


muitas vezes, possível estabelecer, em certas condições, e para um determinado período
de tempo, uma relação funcional h entre a produção, Q, do bem, e determinada combi-
nação de factores produtivos (por exemplo: capital, K, e trabalho, L): Q = h( K , L) . Esta
relação funcional chama-se função de produção. O estudo deste tipo de funções faz
parte de um capítulo muito importante da teoria microeconómica: a teoria da produção.
Uma especificação muito utilizada é a função Cobb-Douglas,
Capítulo 1 – Introdução 2

Q = α1 K α 2 Lα3 ,
onde α1 , α 2 e α 3 são parâmetros positivos ( α 2 e α 3 representam, neste caso, as elasti-
cidades pontuais da quantidade produzida relativamente ao capital e ao trabalho, respec-
tivamente; ver secção 1.4). A análise estatística destas elasticidades (estimação pontual
e por intervalos, teste de hipóteses, etc.) é uma preocupação empírica muito importante.
Outra especificação corrente, na teoria da produção, é a função de produção
CES (elasticidade de substituição constante),
γ

Q = β {(1 − δ ) L− ρ + δ K − ρ } ρ
,
com parâmetros β > 0 , γ > 0 , 0 < δ < 1 e ρ .

Exemplo 1.3 – Quando pretende explicar-se o comportamento, ao longo de vários pe-


ríodos de tempo, das importações portuguesas, a nível agregado, em função de um indi-
cador de preços relativos e de um indicador do nível de actividade, pode estabelecer-se
a relação funcional h,
import = h( prm, pib) ,
onde: import designa as importações portuguesas a preços constantes; prm é o rácio en-
tre o índice de preços implícito nas importações e o índice de preços implícito no PIB;
pib é o produto interno bruto português a preços constantes.
Uma especificação possível da função h é a seguinte:
import = α1 prm α 2 pib α3 (α1 > 0) .
Estabelecida esta relação teórica entre as três variáveis, põe-se a questão de esti-
mar os respectivos parâmetros (nomeadamente as elasticidades pontuais), e de proceder
a outras análises estatísticas.

Exemplo 1.4 – Considere-se as variáveis educ (número de anos de escolaridade de um


trabalhador) e salar (salário mensal médio num determinado ano do mesmo trabalha-
dor), com o objectivo de saber se educ influencia salar. O efeito da escolaridade sobre o
salário chama-se habitualmente retorno da educação.
É consenso na economia do trabalho que exper (número de anos de experiência
profissional do trabalhador), empc (número de anos de trabalho no emprego corrente),
mulher (variável binária que assume o valor 1 quando se trata de uma mulher, e o valor
0 quando é um homem; a discriminação salarial com base no género do trabalhador con-
tinua a ser realidade em muitos sectores de actividade) e aptid (aptidão ou capacidade
inata da pessoa; variável não observável) são variáveis que também podem influenciar o
salário. Tem-se, então,
salar = h(educ, exper, empc, mulher , aptid ) .
Capítulo 1 – Introdução 3

Evidentemente, outros factores – como o número de anos de escolaridade da


mãe, do pai e do cônjuge do trabalhador, e outros antecedentes familiares, o número de
filhos, o estado civil, a localização da habitação, a região onde trabalha, a origem social
ou étnica, a nacionalidade, etc. – poderiam ser acrescentados à relação funcional; facil-
mente se compreende que não é candidato a figurar em h o número de golos que o clube
de futebol da preferência do trabalhador faz em média por mês.
Desprezando a variável aptid, podia propor-se a seguinte especificação:
salar = exp{α1 + α 2 educ + α 3 exper + α 4 empc + α 5 mulher } ,

ou ainda,
lsalar = α1 + α 2 educ + α 3 exper + α 4 empc + α 5 mulher ,

onde lsalar = ln(salar ) . Com facilidade se interpreta o significado dos parâmetros (esta
questão vai ser aprofundada nas próximas secções). Por exemplo: α 2 (multiplicado por
100) mede, aproximadamente, a variação percentual do salário quando um trabalhador
tem mais um ano de escolaridade (em estudos deste tipo é particularmente útil conhecer
uma estimativa deste parâmetro, que representa o retorno da educação); α 5 (multiplica-
do por 100) mede, aproximadamente, a diferença percentual de salário entre uma mu-
lher e um homem.

Exemplo 1.5 – Procura saber-se se a assiduidade às aulas de um aluno de Estatística du-


rante um semestre (assid) é factor explicativo da nota no exame final da unidade curri-
cular (nest). Para isso, considera-se que
nest = h(assid , tae, mis) ,
onde tae (nota obtida num teste geral de aptidão escolar) e mis (média geral das notas já
obtidas até ao início do semestre) são medidas gerais que reflectem a capacidade e os
hábitos de estudo dos alunos. Estas variáveis (conjuntamente com assid) são adequadas
para explicar nest? Talvez não, porque podem não reflectir a aptidão e o interesse do
aluno pela Estatística. Sendo assim, seria importante a inclusão de uma variável que
contemplasse estes aspectos, mas teria o inconveniente de não ser observável.

Exemplo 1.6 – Suponha-se que pretende estimar-se o número diário de viagens de au-
tomóvel (viag) entre os concelhos da Área Metropolitana de Lisboa (AML) situados a
norte do Tejo, por motivo de deslocação para o trabalho, com vista a tomar decisões so-
bre a construção de novas vias rápidas ou alargamento das existentes. Com o objectivo
de melhor entender estes movimentos, decidiu-se propor uma relação funcional, onde os
factores explicativos de viag são a população activa no concelho de origem (pop), o nú-
mero de empresas no concelho de destino (nemp) como sucedâneo do emprego, e a dis-
tância entre as sedes dos concelhos de origem e destino (dist). Assim,
viag = h( pop, nemp, dist ) .
Capítulo 1 – Introdução 4

Podia propor-se a seguinte especificação de h:


viag = α1 popα 2 nempα 3 dist α 4 (α1 > 0) .

Os exemplos seguintes consideram modelos económicos com duas ou mais rela-


ções.

Exemplo 1.7 – Sabe-se da teoria económica que, em muitos casos, o factor principal
que explica a procura mensal de um certo bem, qd , é o respectivo preço, p. Tem-se, en-
tão, a seguinte função procura: qd = hd ( p) .
Como se sabe, a quantidade e o preço de equilíbrio do mercado (respectivamen-
te, q e p∗ ) não podem ser determinados apenas com aquela função. É indispensável

considerar também a função oferta, qs = hs ( p ) , e a relação de equilíbrio, qd = qs , o que


permite determinar simultaneamente q∗ e p∗ . Obtém-se, assim, um modelo de procu-
ra e oferta num mercado em equilíbrio:
qd = hd ( p ) (função procura)

qs = hs ( p) (função oferta )
q = q (equilíbrio de mercado).
 d s

A especificação mais habitual é a seguinte:


qd = α 0 + α1 p (função procura)

qs = β 0 + β1 p (função oferta )
q = q (equilíbrio de mercado).
 d s

Devido à simultaneidade atrás referida, o modelo apresentado tem o grave in-


conveniente de nem sequer permitir estimar a função procura (ou a função oferta), por-
que são observáveis apenas a quantidade e o preço de equilíbrio: muitas funções procura
(oferta) são compatíveis com o par ( q∗ , p∗ ).
Uma especificação mais adequada seria, por exemplo,
qd = α 0 + α1 p + α 2 r (função procura)

qs = β 0 + β1 p + β 2 z (função oferta )
q = q (equilíbrio de mercado).
 d s

onde r é o rendimento médio dos consumidores do bem, e z é um indicador da dimensão


média das empresas que vendem o bem. Este assunto será retomado no capítulo 4.

Exemplo 1.8 – Sabe-se da teoria macroeconómica que a função consumo introduzida


no exemplo 1.1 não deve ser considerada isoladamente, mas integrada num sistema de
equações que traduza as relações entre os agregados macroeconómicos.
Por exemplo, podia considerar-se o seguinte modelo macroeconómico simples:
Capítulo 1 – Introdução 5

cons = β1 + β 2 pnb (função consumo)



 pnb = cons + invest (identidade do PNB),
onde cons é o consumo agregado, pnb é o produto nacional bruto (PNB) ou rendimento
nacional, e invest é o investimento agregado. O parâmetro β 2 desempenha um papel
fundamental neste modelo, já que representa a propensão marginal a consumir a partir
do rendimento ( 0 < β 2 < 1 ).
Outro caso típico é o modelo keynesiano simples da procura agregada, onde
se tem, por exemplo,
cons = β1 + β 2 ( pnb − impd ) + β 2 tjuro

invest = γ 1 + γ 2 tjuro
 pnb = cons + invest + dp,

onde impd é a receita dos impostos directos, tjuro é a taxa de juro, e dp é a despesa púb-
lica.
Podia, também, propor-se o seguinte modelo:
cons = β1 + β 2 ( pnb − impd ) + β 3 tjuro + β 4cons−1

invest = γ 1 + γ 2 tjuro + γ 3 ( pnb − pnb−1 )
 pnb = cons + invest + dp,

onde cons−1 é consumo do período anterior, e pnb−1 é o PNB do período anterior.
O estudo empírico destes pequenos protótipos de funcionamento de uma econo-
mia pode ser particularmente útil para esclarecer certos aspectos das complexas relações
entre as grandezas macroeconómicas.

Exemplo 1.9 – Suponha-se que pretende determinar-se a influência do número de agen-


tes de polícia (pol) existente em cada cidade sobre a respectiva taxa de criminalidade
(crime), admitindo que outro factor explicativo de crime é o rendimento percapita dos
habitantes da cidade (rpc). Assim, tem-se
crime = h1 ( pol , rpc ) .
Mesmo admitindo que esta relação traduz adequadamente o comportamento dos
criminosos, o modelo a considerar não pode ser composto apenas por h1 , pois é admis-
sível que crime e pol sejam interdependentes, e, portanto, determinados simultaneamen-
te. Assim, teria de considerar-se uma segunda relação que reflectisse o comportamento
das autoridades camarárias relativamente a pol. Por exemplo, poderia supor-se que
pol = h2 (crime , imunicip) ,
onde imunicip é a receita de impostos municipais.
Podia, então, especificar-se o seguinte modelo:
crime = β1 + β2 pol + β3 rpc

 pol = γ1 + γ2crime + γ3 imunicip .
Capítulo 1 – Introdução 6

A análise empírica da interdependência entre as variáveis crime e pol pode ser


um objectivo importante do estudo econométrico.

Exemplo 1.10 – Os países de economia mais aberta têm menores taxas de inflação?
Para responder a esta pergunta, considerou-se que
inf = h1 ( ga, rpc ) ,
onde inf é a taxa de inflação, ga é o grau de abertura da economia medido pelo quo-
ciente entre as importações e o PIB, e rpc é o rendimento per capita.
Como é admissível supor que ga também é influenciado por inf (há interdepen-
dência entre as duas variáveis), deve considerar-se uma segunda relação funcional, que,
por exemplo, poderia ser
ga = h1 (inf , rpc, ap ) ,
onde ap é a área do país em quilómetros quadrados.
Fazendo
inf = β1 + β 2 ga + β 3 ln(rpc)

 ga = γ 1 + γ 2inf + γ 3 ln(rpc) + γ 4 ln(ap) ,
é de admitir, por exemplo, que β 2 < 0 (quanto maior é o grau de abertura da economia,
menor a taxa de inflação), e γ 4 < 0 (quanto menor é o país, maior é o grau de abertura).
A interdependência sugerida entre inf e ga deve ser submetida a uma análise em-
pírica adequada.

Ragnar Frisch (economista norueguês, prémio Nobel da Economia em 1969 –


conjuntamente com o economista holandês Jan Tinbergen –, e um dos fundadores da
Econometric Society), apresentou em 1936 (“Note on the term `Econometrics´”, Eco-
nometrica, vol. 4) a primeira definição consistente de Econometria. Trata-se de uma
definição ampla (“ideal”), enunciada nos seguintes termos: “a Econometria é uma disci-
plina que visa estudar a aplicação da Matemática e dos métodos estatísticos à análise
dos dados económicos”. O mesmo economista já afirmava, em 1933, o seguinte: “A ex-
periência tem mostrado que cada um destes três pontos de vista, o da Estatística, o da
Teoria Económica e o da Matemática, é condição necessária, mas não em si suficiente,
para uma verdadeira compreensão das relações quantitativas na vida económica moder-
na. É a unificação dos três pontos de vista que é fecunda e constitui a Econometria”
(Econometrica, Editorial, 1933).
Outra definição célebre deve-se a Samuelson (prémio Nobel em 1970), Koop-
mans (prémio Nobel em 1975) e Stone (prémio Nobel em 1984): “A Econometria pode
ser definida como a análise quantitativa dos fenómenos económicos, baseada na teoria e
na observação, e utilizando os métodos de inferência apropriados”.
Muitos outros autores têm apresentado definições de Econometria. Indicam-se
mais três citações de econometristas proeminentes:
Capítulo 1 – Introdução 7

− “A Econometria pode ser definida como a ciência social em que as ferramentas da


teoria económica, da matemática e da inferência estatística são utilizadas na análise
de fenómenos económicos” (Goldberger).
− “A Econometria preocupa-se com a determinação empírica de leis económicas”
(Theil).
− “A arte do econometrista consiste em procurar o conjunto de hipóteses que são sufi-
cientemente específicas e suficientemente realistas para permitir tirar o melhor parti-
do dos dados disponíveis” (Malinvaud).

Embora se esteja ainda relativamente distante desta situação ideal, a Econome-


tria constitui, actualmente, uma área científica autónoma, que muito tem contribuído
para o avanço da ciência económica. Este avanço está bem patente nos contributos de
alguns econometristas que foram prémios Nobel recentemente. No ano 2000, o prémio
foi atribuído a dois microeconometristas: James Heckman (University of Chicago,
USA) [“for his development of theory and methods for analyzing selective samples”];
Daniel Mc Fadden (University of California, at Berkeley, USA) [“for his development
of theory and methods for analyzing discrete choice”]. Em 2003, os galardoados foram
dois macroeconometristas: Clive Granger (University of California, at San Diego,
USA) [“for methods of analyzing economic time series with common trends (cointegra-
tion)”]; Robert Engle (University of New York, USA) [“for methods of analyzing eco-
nomic time series time-varying volatility (ARCH)”]. A econometria não é, longe disso,
“um conjunto de métodos para medir a altura dos economistas”.
Em termos muito gerais, pode afirmar-se que o progresso da Econometria é re-
levante nos seguintes aspectos: a) nas técnicas de estimação e de análise estatística dos
modelos (nos métodos econométricos); b) nas aplicações; c) e mais recentemente, nas
tentativas de sistematizar os seus fundamentos metodológicos.

1.2 - Modelo teórico

Quando se estuda, com base em dados, um determinado fenómeno de natureza


social (em particular, de índole económica), com o objectivo de descrever, explicar ou
prever o seu comportamento, procura-se conceber, ainda que de forma aproximada ou
simplificada, o mecanismo subjacente ao fenómeno observável. Este mecanismo é desi-
gnado habitualmente por modelo teórico. O modelo é assim adjectivado para salientar
que deve ser baseado numa determinada teoria (construção conceptual fornecedora de
uma descrição idealizada do fenómeno em estudo). No entanto, a teoria subjacente ao
modelo não é necessariamente uma conceptualização matemática formal (como mui-
tas vezes acontece em macroeconomia e em microeconomia), mas pode consistir numa
análise menos formal – em muitos casos apoiada no bom senso e na intuição – com
vista a estabelecer meras relações entre variáveis. Deve enfatizar-se ainda que o mode-
lo a adoptar é objecto de uma teoria, mas também deve ser encarado como a fonte gera-
dora dos dados observáveis.
Capítulo 1 – Introdução 8

Exemplo 1.11 – Retome-se os exemplos anteriores:


a) No exemplo 1.4 sugeriu-se, tendo por base considerações da área da economia do
trabalho, que o modelo teórico a adoptar poderia ser
lsalar = α1 + α 2 educ + α 3 exper + α 4 empc + α 5 mulher .

b) Na sequência do exemplo 1.8, e apoiados na teoria macroeconómica, podia ser ra-


zoável adoptar o modelo teórico
cons = β1 + β 2 ( pnb − impd ) + β 3 tjuro + β 4cons−1

invest = γ 1 + γ 2 tjuro + γ 3 ( pnb − pnb−1 )
 pnb = cons + invest + dp,

para estudar as relações entre os agregados económicos referidos.
c) O exemplo 1.9 sugere que o modelo teórico para estudar as interdependências entre
a taxa de criminalidade e o efectivo policial numa cidade poderia ser
crime = β1 + β2 pol + β3 rpc

 pol = γ1 + γ2crime + γ3 imunicip .
d) Fica ao cuidado do leitor indicar modelos teóricos para estudar os fenómenos referi-
dos nos exemplos 1.1, 1.2, 1.3, 1.5, 1.6, 1.7 e 1.10.

Cada relação do modelo teórico proposto – exceptuando possíveis relações de


equilíbrio ou identidades (ver exemplos 1.7 e 1.8) – procura estabelecer o comporta-
mento de uma variável, z, em função de outras variáveis, w1 , w2 , K , w p . Na relação
funcional considerada, diz-se que z é a variável explicada (a variável dependente ou a
variável resposta), e w1 , w2 , K , w p são as variáveis explicativas (as variáveis indepen-
dentes ou as variáveis controlo). Pode dizer-se que “z é explicado como função de
w1 , w2 , K , w p ”; “os factores explicativos de z são w1 , w2 , K , w p ”.
Assim, tem-se a função h de p variáveis
(1.1) z = h( w1 , w2 , K , wp ) .

Pressupõe-se que (1.1) envolve um conjunto finito de parâmetros desconheci-


dos, α1 , α 2 , K , α k . Diz-se, então, que se tem uma relação paramétrica. O modelo teó-
rico pode ser composto por várias relações de tipo (1.1).
As variáveis que fazem parte de um modelo teórico podem ser consideradas atri-
butos de uma determinada população em estudo. Deste modo, o modelo teórico compor-
ta uma ou mais relações que visa explicar o comportamento de certos atributos da popu-
lação. Por exemplo, a relação (1.1) procura estudar o comportamento do atributo z das
entidades de uma determinada população em função dos atributos w1 , w2 , K , w p das
mesmas entidades. Assim, como para qualquer modelo teórico está subjacente uma po-
pulação, também se diz que este modelo é um modelo da população.
A relação (1.1) também pode ser apresentada na forma seguinte:
z = h(w) ,
Capítulo 1 – Introdução 9

onde, por convenção, w é o vector-linha das variáveis explicativas, e α é o vector-colu-


na dos parâmetros desconhecidos. Assim,
 α1 
α 
w = [ w1 w2 L wp ] e α =  2  .
M
 
α
 k

Exemplo 1.12 – Considerem-se, novamente, os exemplos 1.1, 1.2, 1.4 e 1.5, e as últi-
mas especificações propostas (os outros exemplos da secção 1.1 ficam ao cuidado do
leitor). Tem-se:
a) Exemplo 1.1: z = cons e w = rdisp .
b) Exemplo 1.2: z = Q , w1 = K e w2 = L .
c) Exemplo 1.4: z = lsalar , w1 = educ , w2 = exper , w3 = empc e w4 = mulher .
d) Exemplo 1.5: z = nest , w1 = assid , w2 = tae e w3 = mis .

1.3 - Relações lineares

Um caso particular muito importante das relações de tipo (1.1) é aquele que é
caracterizado pela linearidade relativamente aos parâmetros, isto é, as relações assu-
mem a forma
(1.2) y = β1 x1 + β2 x2 + L + βk xk ,

onde y é a variável explicada ou dependente (ou uma função desta variável), x1 , x2 ,K , xk


são as variáveis explicativas ou independentes (ou determinadas funções destas variá-
veis), e β1 , β 2 , K , β k são os parâmetros.
Muitas vezes, a variável x1 é identicamente igual a 1. Trata-se de uma conven-
ção que permite considerar, na relação linear, um termo independente ou constante.
Na maioria das situações a relação (1.2) tem termo independente, β1 , uma vez que ape-
nas em casos muito especiais se supõe que a nulidade das variáveis explicativas implica
a nulidade de y.
A relação (1.2), também, pode apresentar-se da seguinte maneira:
y = xβ ,
onde
 β1 
β 
x = [ x1 x2 L xk ] e β =  2  .
M 
 
β k 
Em muitas situações, a relação (1.1) não é linear (relativamente aos parâmetros),
mas mediante uma transformação da variável z, g (z ) , consegue obter-se uma relação da
forma (1.2), ou seja, linearizou-se (1.1). Uma relação linear ou linearizável diz-se
intrinsecamente linear (relativamente aos parâmetros).
Capítulo 1 – Introdução 10

Exemplo 1.13 – Retome-se alguns dos dez exemplos da secção 1.1:


a) A função de consumo keynesiana referida no exemplo 1.1, cons = β1 + β 2 rdisp , é li-
near relativamente aos parâmetros. Tem-se: y = cons , x1 = 1 , x2 = rdisp , β1 = α1 e
β2 = α2 .
b) A função de produção Cobb-Douglas (exemplo 1.2), Q = α1 K α 2 Lα3 (α1 > 0) , é li-
nearizável. Com efeito, logaritmizando a expressão anterior, obtém-se uma função,
linear nos parâmetros, equivalente à relação anterior,
ln(Q) = β1 + β 2 ln( K ) + β 3 ln( L) ,

onde: y = ln(Q) , x1 = 1 , x2 = ln( K ) , x3 = ln( L) , β1 = ln(α1 ) , β2 = α2 e β3 = α3 .


Verifica-se, assim, que a função de produção Cobb-Douglas, embora não linear nos
parâmetros, é intrinsecamente linear, pois a transformação logarítmica permite con-
vertê-la numa função linear.
c) A função de produção CES (ver exemplo 1.2) não é intrinsecamente linear nos parâ-
metros, pois não existe qualquer transformação de Q que permita obter uma relação
linear.
d) Considere-se a relação import = α1 prm α 2 pib α3 (α1 > 0) do exemplo 1.3. Logaritmi-
zando esta expressão, obtém-se
ln(import ) = β1 + β 2 ln( prm) + β 3 ln( pib) ,

em que: y = ln(import ) , x1 = 1 , x2 = ln( prm) , x3 = ln( pib) , β1 = ln(α1 ) , β 2 = α 2 e


β3 = α3 .
e) No exemplo 1.4 a relação
salar = exp{α1 + α 2 educ + α 3 exper + α 4 empc + α 5 mulher }

não é linear nos parâmetros. No entanto, facilmente se passa a


lsalar = β1 + β 2 educ + β 3 exper + β 4 empc + β5 mulher ,

onde: y = lsalar , x1 = 1 , x2 = educ , x3 = exper , x4 = empc , x5 = mulher , β1 = α1 ,


β 2 = α 2 , β 3 = α 3 , β 4 = α 4 e β5 = α 5 .
f) Se, no exemplo 1.5, a especificação de nest = h(assid , tae, mis) for
nest = β1 + β 2 assid + β 3 tae + β 4 mis ,

obtém-se uma relação linear relativamente aos parâmetros, onde y = nest , x1 = 1 ,


x2 = assid , x3 = tae e x4 = mis .

É particularmente importante não confundir linearidade relativa aos parâme-


tros com linearidade relativa às variáveis. Por exemplo, uma relação linear nos parâ-
metros, mas não linear nas variáveis, é dada por z = α1 + α2 w + α3 w 2 . Contudo, a relação
z = α 1 + α 2 w2 + α 22 w3 é linear nas variáveis, mas não é linear (nem linearizável) nos pa-
râmetros. A função de produção Cobb-Douglas referida no exemplo 1.2 é intrinseca-
mente linear nos parâmetros, mas não é linear relativamente às variáveis. A relação
Capítulo 1 – Introdução 11

1
z = α1 + ,
α2 + w
não é, nem linear nas variáveis, nem (intrinsecamente) linear nos parâmetros.
Como vai ver-se, para a estimação dos parâmetros de uma relação (intrinseca-
mente) linear, a linearidade relativamente às variáveis tem pouca importância. A expres-
são “a relação é linear” significa que a relação é linear ou linearizável relativamente
aos parâmetros. No entanto, a linearidade, ou não, relativamente às variáveis desem-
penha um papel decisivo para interpretar os parâmetros (ver secção seguinte).

1.4 - Efeitos parciais, elasticidades e semi-elasticidades

Esta secção tem por objectivo apresentar alguns conceitos de grande importância
para a interpretação dos parâmetros – muito particularmente no quadro da Economia –,
o que vai permitir dar conteúdo à última frase da secção anterior (“a linearidade, ou não,
relativamente às variáveis desempenha um papel decisivo para interpretar os parâme-
tros”).
O objectivo de muitos estudos empíricos em Economia (e nas Ciências Sociais,
em geral) é determinar relações de causalidade entre duas variáveis. Trata-se de saber
se a variação de uma variável implica ou causa uma variação noutra variável. Neste
contexto, é crucial a noção de ceteris paribus [“supondo todos os outros factores (rele-
vantes) fixos”].

Exemplo 1.14 – Considere-se as seguintes perguntas:


− Uma variação do rendimento disponível dá lugar a uma variação no consumo (ver
exemplo 1.1)?
− Uma variação da quantidade do factor trabalho altera a quantidade produzida (ver
exemplo 1.2)?
− Uma alteração dos preços relativos (ver a variável prm referida no exemplo 1.3)
causa uma variação nas importações?
− Possuir mais um ano de escolaridade aumenta o salário mensal de um trabalhador
(ver exemplo 1.4)?
− O aumento da taxa de frequência das aulas de Estatística provoca um aumento das
notas dos alunos (ver exemplo 1.5)?
− Como variam entre si a procura (oferta) e o preço (ver exemplo 1.7)?
− O aumento do número de agentes policiais faz diminuir a taxa de criminalidade (ver
exemplo 1.9)? Ou, pelo contrário, a subida da taxa de criminalidade influencia o au-
mento do número de polícias?
− Um acréscimo no grau de abertura de economia de um país implica a diminuição da
taxa de inflação (ver exemplo 1.10)? Ou, pelo contrário, é a diminuição desta taxa
que provoca um aumento do grau de abertura?

Capítulo 1 – Introdução 12

Efeitos parciais

Dado o modelo z = h( w1 , K w j , K , wp ) , a análise ceteris paribus da relação de


causalidade entre cada variável explicativa, w j , e z pretende medir as respostas de z às
alterações de w j , supondo que os factores fixos (também designados por variáveis de
controlo) são as outras variáveis explicativas. Como se admite que estas variáveis estão
controladas (a necessidade de as controlar resulta de haver razões para concluir que w j
está relacionada com outros factores que também influenciam z), a análise visa medir os
efeitos parciais de w j sobre z. Naturalmente, estes efeitos dependem, em geral, dos
valores assumidos por todas as variáveis explicativas e dos valores dos parâmetros.
Suponha-se que as variáveis z e w j são quantitativas (contínuas ou discretas).
Quando o valor de w j passa para w j + ∆w j , o valor da variável z altera-se para
z + ∆ z = h( w1 , K , w j + ∆w j , K , wp ) .

As variações absolutas das duas variáveis são, respectivamente, ∆w j e ∆ z (po-


dem calcular-se estas variações porque as variáveis são quantitativas). Nestas condições,
o efeito parcial de w j sobre z é dado por
∆z
(1.3) .
∆w j

Como este efeito mede, ceteris paribus, a variação (absoluta) de z quando w j


varia de uma unidade, é designado por efeito marginal (parcial), que pode depender das
variáveis explicativas, w1 , w2 , K , w p , e dos parâmetros.
Quando, em particular, as variáveis z e w j são contínuas, e a função h é deri-
vável (pelo menos em relação a w j ), o efeito marginal de w j sobre z pode ser determi-
nado para uma variação infinitesimal de w j . Neste caso, tem-se o efeito marginal pon-
tual, que é dado pela respectiva derivada parcial
∂z ∆z
(1.4) = lim .
∂ w j ∆w j →0 ∆w j

Para ∆w j ≈ 0 , tem-se
∂z ∆z
≈ .
∂ w j ∆w j

Considerem-se os seguintes exemplos:


1) Seja a relação linear nas variáveis, z = α1 + α2 w2 + α3 w3 , onde z, w2 e w3 são variá-
veis contínuas. O efeito marginal (parcial) de w2 sobre z é medido pelo parâmetro
α 2 (constante), isto é,
∂z ∆z
= = α2 .
∂ w2 ∆w2

Neste caso, α 2 é igual à variação de z quando w2 varia de uma unidade.


Capítulo 1 – Introdução 13

2) Seja z = α1 + α2 w + α3 w 2 , relação quadrática entre z e w (variáveis contínuas). O


efeito marginal pontual de w sobre z (para uma variação infinitesimal de w) já não é
medido por α 2 , mas por
dz
= α2 + 2 α3w .
dw

Como este efeito depende linearmente de w, o parâmetro α 3 tem uma interpretação


interessante: o seu sinal permite saber se o efeito marginal de w sobre z é crescente
( α 3 > 0 ) ou decrescente ( α 3 < 0 ), uma vez que
d 2z
= 2 α3 .
d w2

O valor de w que anula a primeira derivada (ponto de estacionaridade) é


α2
w∗ = − .
2 α3

Este valor é maximizante ou minimizante da função conforme o sinal da segunda de-


rivada em w∗ . Por exemplo, no caso de maximizante, a função é côncava, sendo
crescente à esquerda de w∗ , e decrescente à sua direita.
Note-se que
∆z dz dz ∆z
= α2 + 2 α3 w + α 3∆w ≠ e = lim .
∆w d w d w ∆ w→0 ∆ w

3) Suponha-se que a relação (não linear) entre z, w2 e w3 (variáveis contínuas) é dada


por z = α1 + α2 w2 + α3 w3 + α4 w2 w3 , onde existe um termo de interacção entre duas va-
riáveis explicativas. Neste caso, o efeito marginal de w2 sobre z, ceteris paribus, é
medido por
∂z ∆z
= = α 2 + α 4 w3 ,
∂ w2 ∆w2

que depende do valor de w3 (obtém-se um efeito marginal para cada valor fixado pa-
ra w3 ).
4) Seja a relação linear nas variáveis, z = α1 + α2 w2 + α3 w3 , onde z e w3 são variáveis
contínuas, e w2 é uma variável discreta. Suponha-se, para fixar ideias, que a variável
discreta w2 é uma variável de contagem (por exemplo, o número de dias de falta ao
trabalho de determinado trabalhador). Para medir as variações de z quando w2 se al-
tera, não se pode calcular a derivada parcial. Neste caso, quando w2 varia para
w2 + ∆w2 , z passa para z + ∆ z = α1 + α2 ( w2 + ∆w2 ) + α3 w3 . Facilmente se verifica que
∆ z = α2 ∆w2 ou
∆z
= α2 .
∆w2

Pode dizer-se que α 2 mede a variação de z quando w2 varia de uma unidade (por
exemplo, α 2 mede o efeito parcial sobre z de mais uma falta ao trabalho).
Capítulo 1 – Introdução 14

Suponha-se, agora, que a variável z ainda é quantitativa (contínua ou discreta), e


que existe um factor qualitativo explicativo do comportamento de z. Se este factor cor-
responde à realização ou não de determinado acontecimento, ele pode ser representado
por uma variável binária, w j , que assume apenas os valores 1 ou 0. Tem-se: w j = 1 ,
quando se realiza o acontecimento; w j = 0 , no caso contrário. No exemplo 1.4, supõe-se
que o género é um factor qualitativo explicativo dos salários dos trabalhadores. A variá-
vel binária respectiva, mulher, é igual a 1 quando o trabalhador é do género feminino
(igual a 0, quando é um homem). Nestes casos, o efeito parcial de w j sobre z é medido
comparando os valores assumidos por z para os dois valores possíveis de w j (no caso
do exemplo 1.4, quando se comparam homens com mulheres). Este tópico vai ser
aprofundado no capítulo 2, na secção dedicada ao estudo das variáveis artificiais (ver
secção 2.11).
Considerem-se os seguintes exemplos:
1) Seja a relação linear nas variáveis, z = α1 + α2 w2 + α3 w3 , onde z e w3 são variáveis
contínuas, e w2 é uma variável binária. O efeito parcial de w2 sobre z é calculado
fazendo a diferença dos valores de z que correspondem aos dois valores possíveis de
w2 : para w2 = 0 , tem-se z0 = α1 + α3 w3 ; para w2 = 1 , vem z1 = α1 + α2 + α3 w3 . Então,
quando w2 passa de 0 para 1, a variação de z é ∆ z = z1 − z0 = α2 .
2) Nas mesmas condições de 1), seja a relação z = α1 + α2 w2 + α3 w3 + α4 w2 w3 , onde exis-
te um termo de interacção entre a variável contínua, w3 , e a variável binária, w2 .
O efeito marginal pontual de w3 sobre z,
∂z
= α 3 + α 4 w2 ,
∂ w3

depende de w2 . Há um efeito marginal para cada valor de w2 : α 3 , quando w2 = 0 ;


α 3 + α 4 , para w2 = 1 .
Para medir as variações de z quando w2 passa de 0 para 1, começa-se por calcular os
respectivos z1 e z0 :
z1 = α1 + α2 + α3 w3 + α4 w3 e z0 = α1 + α3 w3 .

Então, ∆ z = z1 − z0 = α2 + α4 w3 depende de w3 .

Elasticidades

Admita-se que as variáveis z e w j são quantitativas (contínuas ou discretas).


Quando os valores de w j e z passam, respectivamente, para w j + ∆w j e z + ∆z , verifi-
cam-se as seguintes variações relativas:
∆w j ∆z
e .
wj z

Multiplicando por 100 as variações relativas, obtêm-se as respectivas variações


percentuais (variações em pontos percentuais) ou taxas de variação, que se represen-
tam com os seguintes símbolos:
Capítulo 1 – Introdução 15

∆w j ∆z
%∆w j = 100 e %∆z = 100 .
wj z

A elasticidade de z em relação a w j é dada por


∆z / z %∆ z ∆ z wj
(1.5) EL( z ; w j ) = = = .
∆w j / w j %∆w j ∆w j z

Esta elasticidade mede, ceteris paribus, a variação percentual de z quando w j


varia de um ponto percentual. Obviamente, este efeito pode depender de w1 , w2 , K , w p ,
e dos parâmetros.
O logaritmo pode ser utilizado para fazer várias aproximações. Uma delas, es-
tabelece que ln(1 + x) ≈ x , para x ≈ 0 . A qualidade da aproximação diminui à medida
que x se afasta de zero. Por exemplo, para x igual a 0.015, 0.15 e 0.6 tem-se, respectiva-
mente, ln(1.015) = 0.0149 , ln(1.15) = 0.1398 e ln(1.6) = 0.47 .
Outra aproximação importante que envolve logaritmos é dada por
∆x
∆ ln( x) ≈ ,
x
para x > 0 e pequenas variações relativas. Por exemplo, se x = 600 e x + ∆ x = 606 ,
tem-se ∆ x / x = 0.01 e ∆ ln( x) = ln( x + ∆ x) − ln( x) = 0.00995 . No entanto, se x = 600 e
x + ∆ x = 720 , resulta ∆ x / x = 0.2 e ∆ ln( x) = 0.1823 (a qualidade da aproximação pio-
ra).
Suponha-se que z > 0 e w j > 0 . Para pequenas variações relativas, podem esta-
belecer-se as seguintes aproximações:
%∆w j ≈ 100 ∆ ln(w j ) e %∆ z ≈ 100 ∆ ln( z ) .

Facilmente se conclui que


∆ ln( z )
EL( z ; w j ) ≈ .
∆ ln(w j )

No caso particular em que as variáveis z e w j são contínuas, e a função h é de-


rivável (pelo menos em relação a w j ), a elasticidade de z em relação a w j pode ser de-
finida para uma variação infinitesimal de w j . Neste caso, a elasticidade pontual de z
em relação a w j é dada por
∆z / z ∆ z wj ∂ z wj
(1.6) EL∗ ( z ; w j ) = lim = lim = .
∆w j → 0 ∆w / w ∆w j → 0 ∆w ∂wj z
j j j z

Facilmente se verifica que


EL∗ ( z ; w j ) = lim EL( z ; w j ) .
∆w j → 0

Para ∆w j ≈ 0 , tem-se EL∗ ( z ; w j ) ≈ EL( z ; w j ) .


Quando z > 0 e w j > 0 , pode também demonstrar-se que
Capítulo 1 – Introdução 16

∂ ln( z )
EL∗ ( z ; w j ) = .
∂ ln(w j )

Com efeito, notando que w j = exp{ln(w j )} e que


d wj d eln( w j ) ln( w )
= = e j = wj ,
d ln(w j ) d ln(w j )

aplicando duas vezes a regra da derivada da função composta, obtém-se


∂ ln( z ) d ln( z ) ∂ z d w j 1 ∂z w ∂z
= = wj = j = EL∗ ( z ; w j ) .
∂ ln(w j ) d z ∂ w j d ln(w j ) z ∂ w j z ∂wj

Considerem-se os seguintes exemplos:


1) Seja a relação linear nas variáveis, z = α1 + α2 w , onde z e w são variáveis contínuas.
Dada a variação ∆w , tem-se z + ∆ z = α1 + α2 ( w + ∆w) . A elasticidade de z em relação
a w é dada por
∆z w w
EL( z ; w) = = α2 ,
∆w z α1 + α 2 w
que depende de w. Conclui-se imediatamente que EL∗ ( z ; w) = EL( z ; w) .
2) Seja z = α1 + α2 w2 , relação quadrática entre z e w (variáveis contínuas). Dada a va-
riação ∆w , vem z + ∆ z = α1 + α2 ( w + ∆w) 2 = α1 + α2{w2 + 2 w∆w + (∆w) 2 } . A elastici-
dade de z em relação a w é
∆z w w
EL( z ; w) = = α 2 (2 w + ∆w) .
∆w z α1 + α 2 w 2
Facilmente se verifica que
dz w w
EL∗ ( z ; w) = = 2α 2 w .
dw z α1 + α 2 w 2
Para ∆w → 0 , tem-se EL( z ; w) → EL∗ ( z ; w) .
3) Suponha-se que a relação (não linear) entre z, w2 e w3 (variáveis contínuas) é dada
por z = α1 + α2 w2 + α3 w3 + α4 w2 w3 (a quarta parcela é termo de interacção entre w2 e
w3 ). Dado ∆w2 , obtém-se z + ∆ z = α1 + α2 ( w2 + ∆w2 ) + α3 w3 + α4 ( w2 + ∆w2 ) w3 . Então,
∆ z w2 w2
EL( z ; w2 ) = = (α 2 + α 4 w3 ) = EL∗ ( z ; w2 ) .
∆w2 z α1 + α2 w2 + α3 w3 + α4 w2 w3

Semi-elasticidades

Suponha-se que as variáveis z e w j são quantitativas (contínuas ou discretas).


A semi-elasticidade de z em relação a w j é dada por
∆z / z %∆ z ∆z 1
(1.7) SEL( z ; w j ) = = = .
∆w j 100∆w j ∆w j z
Capítulo 1 – Introdução 17

A semi-elasticidade mede, ceteris paribus, a variação relativa de z quando w j


varia de uma unidade. Obviamente, este efeito pode depender de w1 , w2 , K , w p , e dos
parâmetros.
Facilmente se verifica que
%∆ z
100 × SEL( z ; w j ) =
∆w j

mede, ceteris paribus, a variação percentual de z quando w j varia de uma unidade.


Quando z > 0 , e para pequenas variações relativas, tem-se
∆ ln( z )
SEL( z ; w j ) ≈ .
∆w j

Quando as variáveis z e w j são contínuas, e a função h é derivável (pelo me-


nos em relação a w j ), a semi-elasticidade z em relação a w j pode ser definida para uma
variação infinitesimal de w j . Neste caso, a semi-elasticidade pontual z em relação a
w j é dada por
∆z / z ∆z 1 ∂z 1
(1.8) SEL∗ ( z ; w j ) = lim = lim = .
∆w j → 0 ∆w j ∆w j → 0 ∆w z
j ∂wj z

Resulta imediatamente que


SEL∗ ( z ; w j ) = lim SEL( z ; w j ) .
∆w j → 0

Para ∆w j ≈ 0 , tem-se SEL∗ ( z ; w j ) ≈ SEL( z ; w j ) .


Quando z > 0 , vem
∂ ln( z )
SEL∗ ( z ; w j ) = .
∂wj

Considerem-se os seguintes exemplos:


1) Seja z = α1 + α2 w , onde z e w são variáveis contínuas. A semi-elasticidade de z em re-
lação a w é dada por
∆z 1 α2
SEL( z ; w) = = = SEL∗ ( z ; w) ,
∆w z α1 + α 2 w

que depende de w.
2) Considere-se z = α1 + α2 w2 , onde z e w são variáveis contínuas. A semi-elasticidade
de z em relação a w é
∆ z 1 α 2 (2 w + ∆w)
SEL( z ; w) = = .
∆w z α1 + α 2 w2
A respectiva semi-elasticidade pontual é dada por
dz 1 2α 2 w
SEL∗ ( z ; w) = = .
d w z α1 + α 2 w 2

Para ∆w → 0 , tem-se SEL( z ; w) → SEL∗ ( z ; w) .


Capítulo 1 – Introdução 18

3) Considere-se a relação z = α1 + α2 w2 + α3 w3 + α4 w2 w3 entre variáveis contínuas. Vem


∆z 1 α 2 + α 4 w3
SEL( z ; w2 ) = = = SEL∗ ( z ; w2 ) .
∆w2 z α1 + α2 w2 + α3 w3 + α4 w2 w3

1.5 - Algumas relações linearizáveis

Existe uma grande variedade de relações que se podem estudar sob a capa das
relações lineares. Com o objectivo de aprofundar esta questão, vão apresentar-se alguns
tipos de relações funcionais muito utilizados na prática. Por simplicidade de exposição,
estas relações consideram apenas uma variável explicativa, mas podem ser imediata-
mente generalizadas para duas ou mais variáveis.

a) A relação log-log. Considere-se a função potência (ver figura 1.1)


(1.9) z = γ wα ( w > 0 ; γ > 0) .
Esta função verifica uma propriedade muito importante: a elasticidade pontual
de z em relação a w é constante (igual a α ). Com efeito,
dz w
(1.10) EL∗ ( z ; w) = =α .
dw z

Por esta razão, é também designada por função de elasticidade constante.

0 1 2

Fig. 1.1 – Função potência.

Linearizando (1.9), obtém-se a especificação log-log,


(1.11) ln( z ) = β1 + β2 ln(w) ,
onde β1 = ln (γ ) e β 2 = α .
Capítulo 1 – Introdução 19

Então,
d ln( z ) ∆ ln z ∆ z /z %∆ z
β2 = = ≈ = ,
d ln( w) ∆ ln w ∆ w / w %∆ w

ou seja, β 2 é, aproximadamente, o quociente entre a variação relativa de z e a variação


relativa de w (variação percentual de z quando w varia de um ponto percentual).
Pode, também, escrever-se
%∆ z ≈ β 2 %∆ w .
O valor exacto de %∆ z pode ser calculado sem dificuldade. Suponha-se que o
valor de w passa para w + ∆w . Atendendo a (1.9), tem-se z + ∆ z = γ ( w + ∆ w)α . Então,
α α
∆ z γ {( w + ∆ w)α − wα }  w + ∆ w   ∆w 
= =  − 1 = 1 +  − 1.
z γw α
 w   w 

Multiplicando ambos os membros por 100, obtém-se


 ∆ w α 
%∆ z = 100 × 1 +  − 1 .
w 
 

Então,
α
 ∆w 
1 +  −1
%∆ z  w 
(1.12) EL( z ; w) = = .
%∆ w ∆w
w
O grau de aproximação entre (1.12) e (1.10) é ilustrado a seguir. Por exemplo,
suponha-se que z = w0.33 . O quadro seguinte apresenta os desvios entre β 2 = α = 0.33 e
%∆ z %∆ w :

w ∆w %∆ w %∆ z EL( z ; w) EL∗ ( z ; w) = α Desvios


600 6 1 0.3289 0.3289 0.33 – 0.0011
600 60 10 3.1952 0.3195 0.33 – 0.0105
600 120 20 6.2013 0.3101 0.33 – 0.0199
600 180 30 9.0439 0.3015 0.33 – 0.0285

b) A relação log-lin. Considere-se a função exponencial (ver figura 1.2)


(1.13) z = γ α w (α > 0 ; γ > 0) .
Logaritmizando, obtém-se a relação semi-logarítmica ou log-lin,
(1.14) ln( z ) = β1 + β2 w ,
onde β1 = ln(γ ) e β 2 = ln(α ) .
A semi-elasticidade pontual de z em relação a w é constante (igual a β 2 ). De
facto,
Capítulo 1 – Introdução 20

d z 1 d ln( z )
(1.15) SEL∗ ( z ; w) = = = β2 .
dw z dw

A função dada por (1.13) também é conhecida pela designação de função de se-
mi-elasticidade constante.

-2 -1 0 1 2

Fig. 1.2 – Função exponencial.

Tem-se
d ln( z ) ∆ ln( z ) ∆ z / z %∆ z %∆ z
β2 = = ≈ = ⇔ 100 β 2 ≈ ,
dw ∆w ∆ w 100 ∆ w ∆w

ou seja, β 2 é, aproximadamente, o quociente entre a variação relativa de z e a variação


absoluta de w (se w varia de 1 unidade, z varia, aproximadamente, de 100 β 2 % ).
Pode, também, escrever-se
%∆ z ≈ 100 β 2 ∆ w .
O valor exacto de %∆ z pode ser determinado sem dificuldade. Suponha-se que
o valor de w passa para w + ∆w . Atendendo a (1.13) ou (1.14), tem-se
z + ∆ z = γ α w + ∆ w = exp{β1 + β 2 ( w + ∆w)} .
Então,
∆ z γ (α w + ∆ w − α w ) α w + ∆ w ∆z
= = − 1 = α ∆ w − 1 ou = exp{β 2 ∆ w} − 1 .
z γα w
α w
z

Multiplicando ambos os membros de qualquer destas igualdades por 100, vem


%∆ z = 100 × (α ∆ w − 1) = 100 × (exp{β 2 ∆ w} − 1) .
Então,
%∆ z ∆ z / z α ∆ w − 1 exp{β 2 ∆ w} − 1
(1.16) SEL( z ; w) = = = = .
100 ∆ w ∆w ∆w ∆w
Capítulo 1 – Introdução 21

A aproximação entre (1.16) e (1.15) é ilustrada a seguir. Por exemplo, supondo


que β 2 = 0.094 , o quadro seguinte mostra os desvios entre β 2 e %∆ z (100 × ∆ w) :

∆w %∆ z SEL( z ; w) SEL∗ ( z ; w) = β 2 Desvios


0.1 0.9444 0.0944 0.094 0.0004
0.5 4.8122 0.0962 0.094 0.0022
1.0 9.8560 0.0986 0.094 0.0046
5.0 59.9994 0.1200 0.094 0.0260
10.0 155.9981 0.1560 0.094 0.0620
20.0 555.3505 0.2777 0.094 0.1837

A relação log-lin é particularmente interessante quando a variável explicativa é o


tempo (considerada variável contínua): w = t . Neste caso, tem-se
z = γ α t ⇔ z = γ e β 2 t ⇔ ln( z ) = β1 + β2 t ,
onde β1 = ln( γ ) e β 2 = ln(α ) . Diz-se, então, que z tem tendência exponencial, e ln(z )
tem tendência linear.
Verifica-se que
d ln( z ) d z 1 ∆ ln( z ) %∆ z %∆ z
β2 = = = ≈ ⇔ 100 β 2 ≈ ,
dt dt z ∆t 100 ∆ t ∆t

é a taxa instantânea de variação de z no momento t.


Se o tempo for considerado de forma discreta, a variável z é observada nos mo-
mentos 0,1, 2, K , t , K , e ∆ t = 1 . Pode fazer-se zt = γ (1+ g )t , onde g é a taxa média de
variação de z no período t (entre o momento 0 e o momento t) Com efeito, basta consi-
derar que: para t = 0 , tem-se z0 = γ ; para t = 1 , vem z1 = γ (1 + g ) ; quando t = 2 , resulta
z2 = γ (1 + g ) 2 ; em geral, tem-se zt = γ (1+ g )t . Omitindo o índice t da variável z, pode
escrever-se
z = γ (1+ g )t
onde α = 1 + g , e, portanto, β2 = ln(1 + g ) .
Como ln( z ) = ln(γ ) + ln(1 + g ) t e ∆ t = 1 , vem
∆ ln( z ) = ln(1 + g ) ≈ g ,
para g pequeno. Assim, nestas condições, a variação de ln(z ) (a taxa instantânea de va-
riação de z) é aproximadamente igual à taxa média de variação de z.

c) A relação lin-log é outro tipo de relação semi-logarítmica, mas onde os papéis das
variáveis estão trocados, isto é, a variável explicada é especificada em níveis, e a variá-
vel explicativa, em logaritmos. Tem-se, então (ver figura 1.3),
(1.17) z = β1 + β2 ln( w) ( w > 0) .
Esta relação verifica a propriedade
Capítulo 1 – Introdução 22

dz
(1.18) = β2 .
d ln( w)

Como
d z β2 dz dz dw β
= e = = 2 w,
dw w d ln( w) d w d ln( w) w

também se conclui que


dz
β2 = w.
dw

A partir de (1.18), vem


dz ∆z ∆z 100 ∆ z β ∆z
β2 = = ≈ = ⇔ 2 ≈ .
d ln( w) ∆ ln( w) ∆w / w %∆w 100 %∆w

ou seja, β 2 é, aproximadamente, o quociente entre a variação absoluta de z e a varia-


ção relativa de w. Também se pode dizer que β 2 / 100 é, aproximadamente, o quociente
entre a variação absoluta de z e a variação percentual de w (variação absoluta de z quan-
do w varia de um ponto percentual). Assim,
β2
∆z ≈ %∆w .
100

0 1 2

Fig. 1.3 – Função logarítmica.

Por exemplo, supondo que β 2 = 42.4 , o quadro seguinte mostra os desvios entre
β 2 e (100 × ∆ z ) %∆ w [note-se que ∆ z = β 2{ln( w + ∆w) − ln( w)} ]:

w ∆w %∆ w ∆z (100 × ∆ z ) %∆ w β 2 Desvios
600 6 1 0.4219 42.1894 42.4 – 0.2106
600 60 10 4.0412 40.4115 42.4 – 1.9885
600 120 20 7.7304 38.6522 42.4 – 3.7478
600 180 30 11.1242 37.0808 42.4 – 5.3192
Capítulo 1 – Introdução 23

Esta relação é utilizada quando pretende estudar-se o efeito da variação relativa


de uma variável (por exemplo, a taxa de crescimento da oferta de moeda, m) sobre a va-
riação absoluta de outra variável (por exemplo, o nível do PIB): pib = β1 + β 2 ln(m) .

d) A relação inversa é dada pela função (ver figura 1.4),


1
(1.19) z = β1 + β2 ( w ≠ 0) .
w
Como
dz β d 2 z 2 β2
= − 22 e = ,
dw w d w2 w3

e supondo w > 0 (que corresponde à situação mais habitual para as variáveis económi-
cas), verifica-se facilmente que: se β 2 > 0 , a função é decrescente e convexa, com uma
assíntota horizontal igual a β1 ; se β 2 < 0 , a função é crescente e côncava, com uma
assíntota horizontal igual a β1 .

Fig. 1.4 – Função hiperbólica com w > 0 e β 2 > 0 .

e) A relação polinomial,
(1.20) z = δ 0 + δ1w + δ2 w2 + L + δ p w p ,

é uma relação linear (nos parâmetros) em que as variáveis x j são as sucessivas potên-
cias de w. Por exemplo, quando p = 2 (relação quadrática na variável w), os efeitos
marginais w sobre z são crescentes ou decrescentes conforme o sinal de δ 2 .
Quando w = t , a variável z tem tendência (linear, quando p = 1 ; quadrática,
quando p = 2 ; etc.).
Capítulo 1 – Introdução 24

f) A relação logística (ver figura 1.5) é intrinsecamente não linear,


γ
(1.21) z= ,
1 + β exp{−α w}

onde γ > 0 , β > 0 e α > 0 são os parâmetros.


O estudo desta função mostra que se trata de uma função crescente, convexa en-
tre − ∞ e ln(β ) / α , côncava a partir deste ponto, e com uma assíntota horizontal igual a
γ.

Fig. 1.5 – Função logística ( β = 1) .

1.6 - O valor esperado condicionado estrutural

Embora algumas questões sobre a análise empírica dos modelos, e sobre a natu-
reza dos dados, sejam abordadas mais adiante (ver secções 1.7 e 1.8), é importante, des-
de já, chamar a atenção para duas questões.
A primeira questão tem a ver com o modo como os dados podem ser obtidos
ou gerados. Assim:
a) Nas Ciências da Natureza (Física, Biologia, etc.), sobretudo em ambientes laborato-
riais, os dados resultam, muitas vezes, de uma situação controlada pelo investigador.
Neste caso, os dados dizem-se experimentais.
b) Em Economia (e, em geral, nas Ciências Sociais) os dados decorrem, quase sempre,
de um fenómeno passivamente observado pelo investigador. Nesta situação, os dados
são não experimentais.

Esta distinção é crucial para a Econometria, porque põe a questão da natureza


estocástica das variáveis do modelo, bem como das respectivas observações.
Pode, então, estabelecer-se a premissa básica da Econometria:
Capítulo 1 – Introdução 25

Premissa básica da Econometria


Devido à natureza não experimental dos dados, as variáveis explicadas e as variáveis
explicativas do modelo – e as respectivas observações – são consideradas variáveis
aleatórias.

Esta premissa abrange o caso de as observações de algumas variáveis explicati-


vas serem determinísticas; estas observações são consideradas, então, variáveis aleató-
rias degeneradas.
Porventura, é esta premissa básica que pode justificar que a Econometria tenha
evoluído como uma disciplina científica autónoma (separada da estatística clássica,
que teve a sua génese no tratamento e análise de dados predominantemente experimen-
tais). A Econometria impôs-se como uma disciplina própria a partir do momento em que
se acumularam desenvolvimentos metodológicos que não existiam na estatística clássi-
ca. Por exemplo, embora o modelo de regressão linear (a apresentar nos capítulos se-
guintes) seja muito estudado na estatística clássica, ele tem a sua interpretação própria
na Econometria; os econometristas desenvolveram novas técnicas e métodos para estu-
dar este modelo que têm em conta as suas aplicações (por exemplo, testar as previsões
das teorias económicas) e as complexidades dos dados económicos.
A segunda questão diz respeito à flexibilidade relacional do modelo teórico
que vai ser submetido à análise econométrica.
Quando se considera a relação (1.1), z = h(w) , está subentendido que os únicos
factores explicativos de z são w1 , w2 , K , w p . Contudo, é de esperar (sobretudo, quando
se procura caracterizar fenómenos de natureza social ou económica), que existam mui-
tos outros factores explicativos de z que não estão explicitados (no exemplo 1.4, o loga-
ritmo dos salários dos trabalhadores não é explicado apenas pelos factores explicitados
– educ, exper, empc, mulher, aptid –, mas também por muitos outros, como os referidos
no mesmo exemplo). Deste modo, (1.1) não é operacional porque estabelece uma rela-
ção rígida entre as variáveis do modelo.
A flexibilidade relacional pretendida pode obter-se introduzindo uma variável
adicional, u, que abrange todos os factores que não foram considerados, mas que podem
afectar o comportamento da variável explicada. Em especial, aqueles factores podem
incluir variáveis não observáveis, variáveis omitidas observáveis e erros de medida.
Se u for incorporado de forma aditiva, o modelo teórico passa a ser
(1.22) z = h( w) + u .
A variável u não é observável, chama-se variável residual (erro ou termo per-
turbador), e desempenha um papel fundamental na relação (1.22), como vai ver-se nos
capítulos subsequentes. Desta forma, a variável explicada, z, é decomposta em duas
componentes aditivas: a componente sistemática ou sinal, h(w) ; a componente resi-
dual ou ruído, u. Como vai ver-se, esta especificação é muito útil para fazer um trata-
mento unificado das propriedades estatísticas de vários métodos econométricos.
Do mesmo modo, quando a relação é linear pode escrever-se [ver (1.2)]
Capítulo 1 – Introdução 26

(1.23) y = β1 x1 + β2 x2 + L + βk xk + u = xβ + u .

Para aligeirar as notações é habitual fazer-se em Econometria a seguinte conven-


ção:

Convenção
Vai utilizar-se o mesmo símbolo para representar as variáveis aleatórias e os res-
pectivos valores concretamente observados.

O modelo (1.22) é formado apenas por uma equação que representa uma relação
de causalidade. Nestas condições, diz-se que (1.22) é uma equação estrutural, e os
respectivos parâmetros, α j , chamam-se parâmetros estruturais. Muitas vezes, estes
parâmetros são estimáveis exclusivamente apenas tendo por base a equação estrutural.
Diz-se, então, que a equação estrutural é directamente estimável. Outras vezes, tal não
acontece, sendo necessário combinar hipóteses adicionais sobre outras variáveis com
manipulações algébricas para obter uma equação estimável. Neste caso, é de esperar
que esta equação permita estimar alguns parâmetros estruturais (ou mesmo todos). Além
disso, pode haver motivos para estimar equações não estruturais, que pode ser,
nalguns casos, um passo preliminar para estimar uma equação estrutural.
Muitas vezes, supõe-se que
(1.24) h( w) = E ( z | w) = µ ( w) ,
ou seja, a componente sistemática do modelo é o valor esperado de z condicionado por
w. Daqui resulta que E (u | w) = 0 , isto é, o valor esperado da componente residual con-
dicionado por w é nulo. Neste caso, tem-se que u = z − E ( z | w) = z − µ ( w) , ou seja, a
variável residual não é mais do que o desvio entre z e o seu valor esperado condicionado
por w.
Quando se verifica (1.24), o valor esperado condicionado passa a desempenhar
um papel primordial na análise econométrica, uma vez que E ( z | w) coincide com a
componente sistemática do modelo. De facto, uma parte substancial dos desenvolvimen-
tos metodológicos em Econometria tem a ver com métodos de estimação de valores es-
perados condicionados. Neste contexto, é fundamental apresentar a seguinte definição:

Definição 1.1 – Valor esperado condicionado estrutural.


Considere-se a relação (1.22). Se E ( z | w) = h( w) , então a função µ ( w) : ℜ p → ℜ dada
por
(1.25) µ ( w) = E ( z | w)
designa-se por valor esperado condicionado estrutural.

A função µ (w) tem esta designação porque supõe-se que representa o compor-
tamento médio da variável z (normalmente associada a um certo tipo de agentes eco-
nómicos, ou outros), quando variam as componentes do vector w.
Capítulo 1 – Introdução 27

Considere-se a relação na forma (1.22), admitindo que h(w) é o valor esperado


condicionado estrutural: z = µ ( w) + u . Quando se pretende analisar o efeito parcial de
w j sobre z, o conjunto dos factores fixos ou das variáveis de controlo é formado pelas
outras variáveis explicativas. Para facilitar a exposição, vai utilizar-se o símbolo c para
designar o vector-linha das variáveis de controlo; tem-se w = ( w j , c) . A análise ceteris
paribus pretende medir a resposta média ou esperada – como é habitual em muitas si-
tuações –, estimando o valor esperado de z condicionado por w, µ ( w) = E ( z|w) .
Todas as considerações feitas nas secções 1.4 e 1.5 – a propósito de efeitos par-
ciais, de elasticidades, de semi-elasticidades e de relações linearizáveis – são aplicáveis
neste contexto, desde que se considere a função µ (w) . Por exemplo:
1) Se w j e z são variáveis aleatórias quantitativas, é usual focar a atenção no efeito
marginal médio de w j sobre z, dado por
∆µ ( w) ∆ E ( z|w)
(1.26) = .
∆w j ∆wj

2) Se as variáveis aleatórias w j e z são contínuas, e a função µ (w) é derivável em rela-


ção a w j , pode obter-se o respectivo efeito marginal pontual médio resultante de uma
variação infinitesimal de w j . Tem-se
∂µ ( w) ∂ E ( z|w)
(1.27) = .
∂wj ∂wj

3) A elasticidade pontual média de z em relação a w j é dada por


∂µ ( w) w j ∂ E ( z|w) w j
(1.28) EL∗{µ ( w) ; w j } = = .
∂ w j µ ( w) ∂ w j E ( z|w)

4) Se µ ( w) > 0 e w > 0 (como acontece muitas vezes), tem-se


∂ ln{ µ ( w)} ∂ ln{ E ( z|w)}
(1.29) EL∗{µ ( w) ; w j } = = .
∂ ln( w j ) ∂ ln( w j )

5) Se w j é variável binária, os efeitos parciais médios são calculados comparando


µ (w) para os dois valores possíveis de w j : w j = 0 e w j = 1 .

Quando o modelo tem a forma ln( z ) = g ( w) + u , onde g é uma função de w e


E (u | w) = 0 , é natural definir a elasticidade pontual média de ln(z ) em relação a w j da
seguinte maneira:
∂ E{ln( z )| w}
(1.30) .
∂ ln(w j )

Como se pode comparar (1.30) com (1.29)? Como E{ln( z )| w} ≠ ln{ E ( z|w)} , as
duas elasticidades são diferentes. Contudo, se w e u são independentes, a igualdade é
verificada. Com efeito, notando que z = exp{g ( w) + u} = exp{g ( w)} exp{u} , vem
E ( z | w) = E (exp{g ( w)} exp{u} | w) = δ exp{g ( w)} ,
Capítulo 1 – Introdução 28

onde δ = E (exp{u} | w) = E (exp{u}) , uma vez que exp{u} e w também são independen-
tes. Então,
E{ln( z )| w} = E{g ( w) + u | w} = g ( w) e ln{ E ( z|w)} = ln(δ ) + g ( w)
têm derivadas iguais em relação a ln(w) . Por exemplo, se
ln( z ) = β1 + β 2 ln(w1 ) + β 2 w2 + u ,
e se u tem valor esperado nulo e é independente de ( w1 , w2 ) , a elasticidade de z em rela-
ção a w1 é β 2 , usando qualquer das duas definições.
Se E (u | w) = 0 , mas w e u não são independentes, as duas definições dão resul-
tados diferentes, embora, em muitas situações, as diferenças não sejam significativas,
desde que z > 0 . Contudo, a primeira definição é mais geral porque pode utilizar-se em
casos em que não existe ln(z ) [mas existe ln{ E ( z|w)} ].
Escolher a lista adequada de variáveis de controlo nem sempre é fácil; a utiliza-
ção de listas diferentes pode conduzir a conclusões diferentes sobre a relação de causali-
dade entre z e w j . É por esta razão que estabelecer causalidades pode ser complicado,
pois depende dos factores que se supõem constantes.
Admitindo que se conhece a lista de variáveis de controlo, e supondo que estas
variáveis são observáveis, não é complicado, em geral, estimar o efeito parcial pretendi-
do. Infelizmente, em Economia (nas Ciências Sociais) muitas das variáveis de controlo
não são observáveis.
Podem, ainda, surgir outros problemas que interferem na estimação de relações
de causalidade. Para exemplificar, vão referir-se duas situações:
a) Erros de medida nas variáveis. Mesmo que a lista de variáveis de controlo esteja
correctamente especificada, pode acontecer que não seja possível dispor de medidas
suficientemente rigorosas de w j ou de z;
b) Simultaneidade. As variáveis w j e z são simultaneamente determinadas, e as únicas
observações disponíveis são valores de equilíbrio (como pode acontecer nos casos
dos exemplos 1.7, 1.9 e 1.10).

Em situações como estas, tem-se E (u | w) ≠ 0 ou h( w ) ≠ µ ( w) , isto é, a compo-


nente sistemática do modelo não é um valor esperado condicionado estrutural. No
entanto, embora continue a existir µ (w) , o econometrista não está condições de obter
dados para o estimar. O estudo de situações deste tipo vai ser feito em capítulos poste-
riores.

Exemplo 1.15 – Considere-se as seguintes situações:


a) Retome-se o exemplo 1.4, e suponha-se que procura detectar-se uma relação de cau-
salidade de educ sobre lsalar, em que as variáveis de controlo são exper, empc, mu-
lher e aptid. Embora aptid não seja observável, admita-se que
lsalar = β1 + β 2 educ + β 3 exper + β 4 empc + β 5 mulher + β 6 aptid + u .

Fazendo µ (educ, c) = E (lsalar | educ, c) , com c = [ exper empc mulher aptid ], su-
põe-se que o comportamento médio do logaritmo do salário é dado por
Capítulo 1 – Introdução 29

µ (educ, c) = β1 + β 2 educ + β3 exper + β 4 empc + β5 mulher + β 6 aptid ,


ou seja, a componente sistemática do modelo é o valor esperado condicionado estru-
tural. Tem-se
∂ E (lsalar | educ, c) ∂µ (educ, c)
β2 = = .
∂ educ ∂ educ

Assim, β 2 mede o efeito parcial de educ sobre o valor esperado do logaritmo do sa-
lário condicionado por educ e pelas variáveis de controlo. Este efeito não é estimá-
vel, uma vez que a variável de controlo aptid não é observável.
A semi-elasticidade (pontual) média de salar em relação a educ é, então,
∂µ (educ, c) 1
× .
∂ educ µ (educ, c)
É óbvio que esta semi-elasticidade também não é estimável.
Desprezando a variável não observável, aptid, esta passa a estar incluída na variável
residual, u. Como é de esperar que haja correlação entre aptid e educ, verifica-se
que E (educ × aptid ) ≠ 0 . Então, E (u | educ, c) ≠ 0 , onde o vector das variáveis de
controlo é, agora, c = [ exper empc mulher ]. Neste caso,
E (lsalar | educ, c) = β1 + β 2 educ + β 3 exper + β 4 empc + β 5 mulher + E (u | educ, c) ,

e a componente sistemática do modelo não é um valor esperado condicionado estru-


tural.
b) Suponha-se que pretende estabelecer-se uma relação de causalidade de assid sobre
nest (ver exemplo 1.5). Seja
nest = h(assid , tae, mis) + u .
Suponha-se que
E (nest | assid , c) = µ (assid , c) = h(assid , c) ,
onde c = [ tae mis ] é composto por variáveis observáveis. Embora já se saiba que
estas variáveis são medidas gerais da capacidade e dos hábitos de estudo dos alunos,
pode pôr-se a dúvida sobre a sua adequação para controlar a relação de causalidade,
porque não entram em linha de conta com a aptidão específica e o interesse do aluno
para estudar Estatística. A inclusão em c de uma variável deste tipo pode ser impor-
tante, embora não seja observável.
O efeito parcial de assid sobre E (nest | assid , c) é medido por
∂ E ( nest | assid , c) ∂ µ ( assid , c)
= .
∂ assid ∂ assid

Para terminar esta secção vão apresentar-se algumas propriedades gerais dos va-
lores esperados condicionados (médias, variâncias e covariâncias), envolvendo variá-
veis aleatórias e vectores aleatórios.
Capítulo 1 – Introdução 30

Propriedades dos valores esperados condicionados


Seja a variável aleatória z, e os vectores aleatório x, w e v. Tem-se:
a) Regra do valor esperado total:
E ( z ) = E{E ( z | w)} .
b) Regra do valor esperado iterado:
E ( z | w) = E{E ( z | x) | w} ,
onde w é função de x, w = g (x) .
c) Caso especial da regra do valor esperado iterado:
E ( z | w) = E{E ( z | w, v) | w} .
d) Linearidade do valor esperado condicionado: Considerem-se as funções de w, ai (w)
(i = 1, K , m) e b(w) , e as variáveis aleatórias z1 , K , zm . Então,
E{a1 ( w) z1 + L + am ( w) zm + b( w) | w} = a1 ( w) E ( z1 | w) + L + am ( w) E ( zm | w) + b( w) ,

desde que E (| zi |) < +∞ , E (| ai ( w) zi |) < +∞ e E (| b( w) |) < +∞ .


e) Se u = z − E ( z | w) , então E{h( w) u} = 0 , onde h(w) é uma função (vectorial) de w,
desde que E (| hi ( w) u |) < +∞ [os hi (w) são as componentes de h(w) ] e E (| u |) < +∞ .
Em particular, E (u ) = 0 e Cov( w j , u ) = 0 [os w j são as componentes de w].
f) Desigualdade de Jensen para valores esperados condicionados: se g : ℜ → ℜ é
uma função convexa com domínio ℜ , e E (| z |) < +∞ , então
g{E ( z | w)} ≤ E{g ( z ) | w} .
g) Considerem-se as funções de w, a (w) e b(w) . Então,
Var{a( w) z + b( w) | w} = {a( w)}2 Var( z | w) .
h) Tem-se:
Var( z ) = E{Var( z | w)} + Var{E ( z | w)} .
i) Tem-se:
Var( z | w) = E{Var( z | w, v) | w} + Var{E ( z | w, v) | w} .
j) Se z1 e z2 são variáveis aleatórias, vem
Cov( z1 , z2 ) = E{Cov ( z1 , z2 | w)} + Cov{E ( z1 | w), E ( z2 | w)} .
Considerando dois vectores aleatórios w e z quaisquer, vem:
k) Cov( z ) = E{Cov( z | w)} + Cov{E ( z | w)} , onde: o símbolo Cov(⋅) representa a matriz
das covariâncias de um vector aleatório; o símbolo E (⋅) refere-se ao valor esperado
de uma matriz aleatória ou de um vector aleatório.

Podem fazer-se os seguintes comentários a estas propriedades:


− Em muitos casos, o cálculo directo de E (z ) pode ser complicado. No entanto, se
for conhecido (ou se for relativamente fácil de calcular) E ( z | w) = µ ( w) , a proprie-
dade a) permite determinar E (z ) , calculando o valor esperado de µ (w) . Deste mo-
Capítulo 1 – Introdução 31

do, o problema difícil [o cálculo directo de E (z ) ] pode ser resolvido mediante a re-
solução de dois problemas mais simples: o conhecimento ou a determinação da fun-
ção µ (w) ; o cálculo do respectivo valor esperado.
Apresentam-se dois exemplos simples:
1. Se E ( z | w) = a (constante) então E ( z ) = a. Com efeito,
E ( z ) = E{E ( z | w)} = E (a) = a
Contudo, E ( z ) = a não implica E ( z | w) = a .
2. Seja w é um vector aleatório discreto que assume os valores c•1 , c• 2 , K , c• m com
probabilidades p1 , p2 , K , pm , respectivamente. Então,
E ( z ) = p1E ( z | w = c•1 ) + p2 E ( z | w = c• 2 ) + L + pm E ( z | w = c• m ) ,

isto é, o valor esperado de z é a média ponderada dos E ( z | w = c•i ) , onde os pesos


são as respectivas probabilidades pi .
− A propriedade b) é a versão mais geral que vai considerar-se da regra do valor espe-
rado iterado. Recordando que w = g (x) , a propriedade é dada por
E{z | g ( x)} = E{E ( z | x) | g ( x)} .
Se se fizer µ1 ( x) = E ( z | x) e µ 2 ( w) = E ( z | w) , a propriedade b) estabelece que
µ 2 ( w) = E{µ1 ( x) | w} .
Assim, pode determinar-se µ 2 ( w) , calculando o valor esperado de µ1 ( x) condiciona-
do por w.
Há outra propriedade que parece semelhante à anterior, mas é muito mais simples
de verificar. Trata-se de
E{z | g ( x)} = E ( E{z | g ( x)} | x) ,
ou
E ( z | w) = E{E ( z | w) | x} ⇔ µ2 ( w) = E{µ2 ( w) | x} ,
onde se trocaram as posições de w e x. Com efeito, como w é função de x, conhecer x
implica conhecer w; como µ 2 ( w) = E ( z | w) , o valor esperado de µ 2 ( w) , dado x, é,
obviamente, µ 2 ( w) .
Estas duas propriedades podem resumir-se com a seguinte frase: “o conjunto de in-
formação menor é sempre dominante”. Dito de outro modo: “menos informação do-
mina mais informação”. Aqui, w representa menos informação do que x, uma vez
que conhecer x implica conhecer w (mas não inversamente).
− A propriedade c) é um caso especial da lei do valor esperado iterado. Neste caso,
tem-se x = ( w, v) [como x é o par ( w, v) , obviamente w é função de x]. Fazendo
µ1 ( w, v) = E ( z | w, v) [função de w e v] e µ 2 ( w) = E ( z | w) [função de w], tem-se
µ 2 ( w) = E{µ1 ( w, v) | w} ,
onde o valor esperado do segundo membro, E (⋅ | w) , é calculado em relação a v.
− Vai fazer-se uma interpretação muito interessante da propriedade c). Suponha-se
que num determinado estudo econométrico se admite que as variáveis explicativas
Capítulo 1 – Introdução 32

importantes de z são w e v, o que significa que o interesse da análise incida sobre o


valor esperado condicionado estrutural µ1 ( w, v) = E ( z | w, v) , que é função de w e v.
Se o vector v não é observável, não pode estimar-se µ1 ( w, v) directamente. No entan-
to, se w e z são observáveis pode estimar-se µ 2 ( w) = E ( z | w) , que é função apenas
de w.
Em geral, a obtenção de µ 2 ( w) = E ( z | w) à custa de µ1 ( w, v) = E ( z | w, v) é muito
complicada. Contudo, em muitas situações, a forma de µ1 ( w, v) é suficientemente
simples para que o problema tenha uma resolução fácil, desde que se introduzam al-
gumas hipóteses adicionais. Por exemplo, suponha-se que se começa com o modelo
µ1 ( w1 , w2 , v) = E ( z | w1 , w2 , v) = β 0 + β1w1 + β 2 w2 + β3v + β 4 w1v ,
onde v não é observável. As propriedades c) e d) permite estabelecer que
µ2 ( w1 , w2 ) = E ( z | w1 , w2 ) = E{E ( z | w1 , w2 , v) | w1 , w2 }
= E ( β 0 + β1w1 + β 2 w2 + β 3v + β 4 w1v | w1 , w2 )
= β 0 + β1w1 + β 2 w2 + β 3 E (v | w1 , w2 ) + β 4 w1 E (v | w1 , w2 ) .
O cálculo de E (v | w1 , w2 ) é, em geral, uma tarefa muito complicada, uma vez que
exige o conhecimento da distribuição de v condicionada por w1 e w2 . Contudo, ad-
mitindo a hipótese adicional,
E (v | w1 , w2 ) = δ 0 + δ 1w1 + δ 2 w2 ,

obtém-se
µ2 ( w1 , w2 ) = E ( z | w1, w2 ) = α 0 + α1w1 + α 2 w2 + α 3w12 + α 4 w1w2 ,
onde
α 0 = β 0 + β 3 δ 0
α = β + β δ + β δ
 1 1 3 1 4 0

α 2 = β 2 + β 3 δ 2
α = β δ
 3 4 1

α 4 = β 4 δ 2 .

− A regra do valor esperado iterado [propriedade b)] tem outra implicação importan-
te. Suponha-se que para alguma função vectorial, g (x) , e para alguma função (esca-
lar), h, tem-se E ( z | x) = h{g ( x)} . Então,
E{z | g ( x)} = E ( z | x) = h{g ( x)} .
Com efeito, de acordo com a propriedade b), tem-se
E{z | g ( x)} = E{E ( z | x) | g ( x)} = E{h{g ( x)} | g ( x)} = h{g ( x)} = E ( z | x) .
Este resultado pode ser apresentado de outro modo. Com efeito, fazendo w = g (x) ,
vem E ( z | w) = h( w) .
Pode concluir-se que: se o valor esperado de z condicionado por x é uma função de x,
é redundante condicioná-lo por g (x) ; basta condicioná-lo por x.
Por exemplo, suponha-se que
Capítulo 1 – Introdução 33

 x1 
 
 x2 
g ( x1 , x2 ) = 2 ,
 x2 
 
 x1 x2 

e que E ( z | x1 , x2 ) = h{g ( x1 , x2 )} = β 0 + β1 x1 + β 2 x2 + β 3 x22 + β 4 x1 x2 . Então,


E ( z | x1 , x2 , x22 , x1 x2 ) = β 0 + β1 x1 + β 2 x2 + β3 x22 + β 4 x1 x2 .

Assim, se o valor esperado condicionado por x1 e x2 é função destas variáveis, é re-


dundante condicioná-lo, também, por x22 e por x1 x2 .
Este exemplo pode ser enquadrado numa formalização mais geral. Suponha-se que
E ( z | x) é linear relativamente aos parâmetros,
E ( z | x) = β1 g1 ( x) + β 2 g 2 ( x) + L + β k g k ( x) ,

onde g j (x) ( j = 1, 2, K , k ) são funções de x. Fazendo w j = g j (x) , tem-se


E ( z | w1 , w2 , K , wk ) = β1w1 + β 2 w2 + L + β k wk .

Assim, qualquer valor esperado condicionado linear relativamente aos parâmetros


pode considerar-se, também, como linear relativamente a certas variáveis condicio-
nantes. Quando se considera explicitamente a variável residual u, pode escrever-se
z = β1w1 + β 2 w2 + L + β k wk + u .

Supondo que E (u | x) = 0 , e como w j = g j (x) , pode concluir-se que u não está corre-
lacionado com qualquer w j (e com qualquer função dos w j ).
− A propósito da regra do valor esperado iterado, pode enunciar-se uma outra pro-
priedade muito importante:
− Sejam u, x e w três vectores aleatórios. Se ( u, x ) é independente do vector w, en-
tão E (u | x) = E (u | x, w) .
− Para justificar a propriedade d), basta invocar que nos valores esperados condicio-
nados por w, as funções de w são consideradas constantes.
− Para provar a propriedade e), começa-se por notar que E (u | w) = 0 . Então, devido à
propriedade a), tem-se E{h( w) u} = E ( E{h( w) u | w}) = E{h( w) E (u | w)} = 0 . Fica ao
cuidado do leitor verificar que E (u ) = 0 e que Cov( w j , u ) = 0 .
− Pode referir-se dois casos particulares importantes da propriedade f):
− {E ( z | w)}2 ≤ E ( z 2 | w) ;
− Se z > 0 , então − ln{E ( z | w)} ≤ E{− ln( z ) | w} , ou E{ln( z ) | w} ≤ ln{E ( z | w)} .
− As propriedades h) e j) são passíveis de comentário semelhante ao da propriedade
a): o problema do cálculo directo de Var( z ) ou de Cov ( z1 , z2 ) é decomposto em ou-
tros problemas mais simples. Por exemplo, para determinar Cov ( z1 , z2 ) , primeiro de-
termina-se σ12 ( w) = Cov ( z1 , z2 | w) , µ1 ( w) = E ( z1 | w) e µ 2 ( w) = E ( z2 | w) . Em segui-
da, calcula-se E{σ 12 ( w)} e Cov{µ1 ( w), µ 2 ( w)} .
− Como consequência da propriedade i), pode provar-se que
Capítulo 1 – Introdução 34

(1.31) E{Var( z | w)} ≥ E{Var( z | w, v)} .


Com efeito, atendendo à propriedade i), Var ( z | w) ≥ E{Var( z | w, v) | w} , porquanto
Var{E ( z | w, v) | w} ≥ 0 . Então, devido à propriedade a), tem-se
E{Var( z | w)} ≥ E ( E{Var( z | w, v) | w}) = E{Var( z | w, v)} .
O resultado (1.31) pode ser interpretado da seguinte maneira: em média, a dispersão
de z condicionada por certas variáveis não aumenta quando se acrescentam variáveis
condicionantes. Em particular, quando Var( z | w) e Var( z | w, v) são constantes, vem
Var( z | w)} ≥ Var( z | w, v) .
− A propriedade k), que generaliza as propriedades h) e j), vai ser analisada com de-
talhe. Considerando o vector aleatório
 z1 
z 
z =  2,
M
 
 zm 
a respectiva matriz das covariâncias é dada por
 Var( z1 ) Cov( z1 , z2 ) L Cov( z1 , zm ) 
 Cov( z , z ) Var ( z2 ) L Cov( z2 , zm )
Cov( z ) =  2 1
.
 M M M 
 
Cov( zm , z1 ) Cov( zm , z2 ) L Var( zm ) 
Do mesmo modo, tem-se
 Var( z1 | w) Cov( z1 , z2 | w) L Cov( z1 , zm | w) 
 Cov( z , z | w) Var( z2 | w) L Cov( z2 , zm | w)
Cov( z | w) =  2 1
,
 M M M 
 
Cov( zm , z1 | w) Cov( zm , z2 | w) L Var( zm | w) 
ou
 σ 11 ( w) σ 12 ( w) L σ 1m ( w) 
σ ( w) σ ( w) L σ ( w) 
Cov( z | w) =  21 22 2m ,
 M M M 
 
σ m1 ( w) σ m 2 ( w) L σ mm ( w)
onde σ ij ( w) = Cov( zi , z j | w) , para i, j = 1, 2, K , m . Então,
 E{σ 11 ( w)} E{σ 12 ( w)} L E{σ 1m ( w)} 
 E{σ ( w)} E{σ ( w)} L E{σ ( w)}
E{Cov( z | w)} =  21 22 2m .
 M M M 
 
 E{σ m1 ( w)} E{σ m 2 ( w)} L E{σ mm ( w)}
Capítulo 1 – Introdução 35

Também se tem
 E ( z1 | w)   µ1 ( w) 
 E ( z | w)   µ ( w) 
E ( z | w) =  2 = 2 ,
 M   M 
   
 E ( zm | w)  µ m ( w)
onde µi ( w) = E ( zi | w) , para i = 1, 2, K , m .
Então,
 Var{µ1 ( w)} Cov{µ1 ( w), µ2 ( w)} L Cov{µ1 ( w), µ m ( w)}
 Cov{µ ( w), µ ( w)} Var{µ 2 ( w)} L Cov{µ 2 ( w), µ m ( w)}
Cov{E ( z | w)} =  2 1
.
 M M M 
 
Cov{µ m ( w), µ1 ( w)} Cov{µm ( w), µ 2 ( w)} L Var{µm ( w)} 
Por exemplo, verifica-se imediatamente que
Cov( z2 , z4 ) = E{Cov( z2 , z4 | w)} + Cov{E ( z2 | w), E ( z4 | w)}
= E{σ 24 ( w)} + Cov{µ2 ( w), µ4 ( w)}.

Suponha-se que se pretende analisar os efeitos parciais das variáveis explicati-


vas observáveis (as componentes do vector w) sobre a variável explicada, z, consideran-
do explicitamente factores não observáveis. Seja, então, o valor esperado condicionado
estrutural, µ1 ( w, v) = E ( z | w, v) , onde v representa o vector dos factores não observáveis
(designado por heterogeneidade não observada). Para simplificar a exposição vai su-
por-se que v é um escalar (a análise é imediatamente generalizável quando v é um vec-
tor). A análise vai ser feita para o caso em que w j (componente genérica de w) e z são
variáveis aleatórias contínuas e µ1 (⋅) é derivável pelo menos em relação a w j [fica ao
cuidado do leitor proceder a análise semelhante quando estas variáveis são quantitativas,
mas não necessariamente contínuas; quando w j é binária, os efeitos parciais são obtidos
determinando as diferenças de µ1 (⋅) para os dois valores de w j ].
Para o caso em estudo, e para uma variação infinitesimal de w j , o efeito parcial
médio de w j sobre z é
∂ E ( z | w, v) ∂ µ1 ( w, v)
θ j ( w, v) = = .
∂wj ∂wj

Como, em geral, este efeito parcial depende de v, não é possível estimá-lo. Con-
tudo, em certas condições, é possível determinar o valor esperado de θ j ( w, v ) , a partir
da distribuição de v. Este valor esperado avaliado em w0 (valor assumido por w) é dado
por
δ j ( w0 ) = Ev {θ j ( w0 , v)} .

Supondo que v é contínua, com densidade f v , vem


δ j ( w0 ) = ∫ θ j ( w0 , v) f v (v)dv .

Capítulo 1 – Introdução 36

Note-se que: θ j ( w, v) é o efeito parcial de w j sobre o comportamento médio de


z; δ j ( w0 ) é a média ou o valor esperado deste efeito (em relação a v).
É possível estimar δ j ( w0 ) a partir de um valor esperado condicionado que de-
penda apenas de variáveis condicionantes observáveis? Em geral, a resposta é não. Con-
tudo, estabelecendo hipóteses sobre a relação entre v e w, é possível estimar δ j ( w0 ) .
As hipóteses são as seguintes:
1) Independência condicional. Os factores explicativos v e w são condicionalmente
independentes em relação a um vector q de variáveis observáveis,
F (v, w | q ) = Fv (v | q ) Fw ( w | q) ,

onde F é a função de distribuição conjunta, e Fv e Fw são as respectivas funções de


distribuição marginais. Em muitos casos, o vector q pode ser considerado como um
vector de variáveis proxy. Quando q é vazio, a independência condicional reduz-se
à independência entre v e w.
2) O vector q é redundante ou ignorável no valor esperado condicionado estrutural,
ou seja,
E ( z | w, v, q) = E ( z | w, v) .

Pode provar-se que


 ∂ E ( z | w0 , q ) 
δ j ( w0 ) = Eq  .
 ∂wj 
Com efeito, fazendo µ 2 ( w, q ) = E ( z | w, q ) , tem-se
µ2 ( w, q) = E{E ( z | w, v, q) | w, q} = E{µ1 ( w, v) | w, q} = ∫ µ1 ( w, v) f (v | q)dv ,

onde: a primeira igualdade decorre a lei do valor esperado iterado; a segunda, resulta da
hipótese da redundância; a terceira, é consequência da independência condicional. Deri-
vando parcialmente, e supondo que a derivada parcial é permutável com o integral, vem
∂ µ2 ( w, q )
= ∫ θ j ( w, v) f (v | q )dv .
∂wj ℜ

Para w = w0 , o segundo membro desta igualdade é E{θ j ( w0 , v) | q} . Então,


 ∂ µ ( w0 , q ) 
 = E ( E{θ j ( w , v) | q}) = δ j ( w ) .
0 0
Eq  2
 ∂ w j 
A utilidade deste resultado é a seguinte: a heterogeneidade não observada, v, de-
sapareceu totalmente, e µ2 ( w, q ) = E ( z | w, q ) pode ser estimado porque ( z, w, q) é ob-
servável. Dispondo desta estimativa quando w = w0 , µˆ 2 ( w0 , q ) , a estimação do efeito
parcial médio para w = w0 consiste em determinar a média amostral de
∂ µˆ 2 ( w0 , q )
.
∂wj
Capítulo 1 – Introdução 37

1.7 - Análise empírica

Proposto um modelo teórico para explicar as relações entre as variáveis em estu-


do, é indispensável avaliar a sua adequação à realidade, por meio da estimação dos pa-
râmetros desconhecidos, nomeadamente para explicar ou prever a evolução do fenó-
meno. Então, torna-se necessário dispor de um modelo econométrico que permita proce-
der a uma análise empírica das relações propostas [por exemplo, estimar as funções re-
feridas nos exemplos 1.1 a 1.10 e fazer a respectiva inferência estatística (construir in-
tervalos de confiança; efectuar testes de hipóteses) sobre os respectivos parâmetros].
Como é fácil de compreender, o modelo teórico não está preparado para a análi-
se empírica. Para dar operacionalidade ao modelo teórico é necessário ter em conta,
entre outros, os seguintes aspectos:
1) Especificar as relações funcionais do modelo (propor as respectivas expressões
analíticas), e estabelecer, se for caso disso, restrições sobre os parâmetros.
2) Estabelecer hipóteses sobre o comportamento probabilístico das variáveis, dan-
do especial atenção às variáveis não observáveis.
3) Conhecer ou delimitar a população subjacente ao modelo. Como o modelo diz res-
peito à população em estudo, pode dizer-se que as variáveis consideradas represen-
tam a respectiva população.
4) Adoptar um processo de amostragem (processo para obtenção dos dados), ou esta-
belecer hipóteses sobre o processo de amostragem subjacente ao fenómeno em estu-
do.
5) Dispor de observações das variáveis, que são os dados ou a amostra do modelo.
6) Utilizar os métodos adequados para obter estimativas dos parâmetros.
7) Dispor de técnicas que permitam efectuar inferências estatísticas.

O tópico 1) já foi abordado, ainda que de forma pouco sistemática. No entanto,


nas secções 1.3 e 1.5 deu-se particular relevo a um tipo particular de especificação das
relações funcionais: as relações lineares ou linearizáveis. Também nos exemplos tem
havido, embora parcialmente, este tipo de preocupações [no exemplo 1.4 é proposta
uma especificação para a relação explicativa de lsalar, mas o mesmo não acontece no
exemplo 1.5 a propósito da relação que explica a variável nest; no exemplo 1.1 referiu-
se que o parâmetro α 2 deveria obedecer à condição 0 < α 2 < 1 ; etc.].
Como o tópico 2) tem a ver com as hipóteses que, em cada caso, se propõem so-
bre o comportamento probabilístico das variáveis, é óbvio que, em termos gerais, pouco
há a dizer; o assunto vai ser sistematicamente retomado nos capítulos que se seguem.
Os tópicos 3), 4) e 5) são comentados na próxima secção, a propósito da nature-
za dos dados. Esta abordagem preliminar deve servir para reforçar a ideia de que as
questões relacionadas com a população e com a amostra devem ser uma preocupação
permanente nos desenvolvimentos teóricos dos capítulos seguintes, e nas aplicações
práticas.
Os tópicos 6) e 7) dizem respeito aos métodos econométricos, e serão estudados
aprofundadamente nos restantes capítulos.
Capítulo 1 – Introdução 38

Os comentários anteriores permitem ter uma noção aproximada das caracterís-


ticas que deve ter um modelo econométrico. Pode apresentar-se uma definição preli-
minar, uma vez que está esclarecido o alcance e o sentido da premissa básica da Econo-
metria (as variáveis observáveis, e as respectivas observações, são variáveis aleatórias).

Definição 1.2 – Modelo econométrico


Um modelo econométrico é uma família de distribuições conjuntas das observações das
variáveis explicadas e das variáveis explicativas, a verificar um conjunto de restrições
ou hipóteses.

1.8 - Estruturas de dados

As duas categorias básicas de dados são as seguintes:


a) Dados seccionais. Os dados são seccionais quando as observações se referem a de-
terminadas entidades (unidades seccionais) em certa data (momento ou período de
tempo). Por exemplo: as quantidades produzidas e as quantidades de factores de
produção utilizados nas empresas de uma certa indústria num determinado ano; as
despesas em bens de consumo e as receitas das famílias em determinado mês.
Este tipo de dados pode ser apresentado num quadro onde a chave identificadora é
o nome da unidade seccional (US). Como é habitual, zt (t = 1, 2, K , n) representa a
observação genérica de z, e wtj (t = 1, 2, K , n ; j = 1, 2, K , p) é a observação genérica
da variável explicativa w j (ver quadro 1.1).

Quadro 1.1
Dados seccionais

N.º US z w1 w2 … wp
1 US1 z1 w11 w12 … w1 p
2 US2 z2 w21 w22 … w2 p
M M M M M M
n USn zn wn1 wn 2 … wnp

Nalguns casos, pode acontecer que os dados não correspondam exactamente, para
todas as entidades observadas, à mesma data. No entanto, se os dados se referem a
datas relativamente próximas, pode considerar-se que fazem parte do mesmo con-
junto de dados seccionais. Por exemplo, se há observações de despesas e de recei-
tas de certas famílias realizadas num certo mês, e há observações de outras famílias
feitas no mês seguinte, é lícito, em muitos casos (depende dos meses!), supor que
esta pequena variação temporal não afecta significativamente a análise empírica.
Uma característica fundamental dos dados seccionais é que a ordem das observa-
ções é irrelevante (pouco importa qual é a primeira família observada ou a vigési-
ma quinta!).
Capítulo 1 – Introdução 39

Os dados seccionais são muito utilizados em Economia (e noutras Ciências Sociais),


e, em especial, em certos ramos da microeconomia aplicada (economia do traba-
lho, finanças públicas locais, economia regional e urbana, demografia, economia da
saúde, economia da educação, etc.).
b) Dados temporais. Os dados são temporais ou cronológicos quando as observações
se referem a uma mesma entidade, para várias datas (momentos ou períodos de tem-
po). Por exemplo: as quantidades produzidas por ano e as quantidades de factores de
produção utilizados anualmente numa determinada indústria; o consumo e o rendi-
mento disponível trimestrais num determinado país.
Quando os dados são numéricos, e se pretende descrever a evolução no tempo dos
valores observados, os dados devem, como é evidente, conservar-se associados à da-
ta em que ocorreram, e apresentarem-se sob a forma de série temporal, dando ori-
gem a um gráfico que se chama cronograma.
Facilmente se conclui que a ordem cronológica dos dados é uma característica
essencial das séries temporais, fornecendo informação relevante para o comporta-
mento do fenómeno em estudo. Pode falar-se em passado, presente e futuro, e é
prática comum trabalhar com modelos dinâmicos, nos quais é particularmente im-
portante a análise dos desfasamentos temporais ou lags (certos acontecimentos pas-
sados podem influenciar acontecimentos presentes ou futuros). Por exemplo, o con-
sumo agregado de um determinado país, em certo período, pode ser explicado pelo
consumo do período anterior, e pelo rendimento disponível do período corrente e do
período anterior.
Este tipo de dados representa-se de forma semelhante à dos dados seccionais, mas,
agora, a chave identificadora é a data (ver quadro 1.2).

Quadro 1.2
Dados temporais

N.º Data z w1 w2 … wp
1 Data 1 z1 w11 w12 … w1 p
2 Data 2 z2 w21 w22 … w2 p
M M M M M M
n Data n zn wn1 wn 2 … wnp

Outros aspectos típicos dos dados temporais são os seguintes:


− A frequência temporal das observações. Trata-se de saber se as variáveis de-
vem ser observadas numa base diária, semanal, mensal, trimestral, anual ou ou-
tra.
− A tendência. Muitas vezes, é importante conhecer se certa variável depende sig-
nificativamente do tempo (basta o tempo passar para que a variável se comporte
de uma determinada maneira). Neste caso, diz-se que a variável tem tendência.
− A sazonalidade. É comum verificar que o comportamento de determinada variá-
vel se altera em certos subperíodos de um período mais alargado (por exemplo,
Capítulo 1 – Introdução 40

em determinados meses do ano). Neste caso, diz-se que a variável tem sazonali-
dade.
As séries temporais têm grande importância para o estudo de muitos fenómenos de
natureza económica e, em especial, na macroeconomia aplicada (estudo agregado
do comportamento do consumo, do investimento, das importações, das exportações,
das finanças públicas, da procura de moeda, da inflação, das taxas de juro, etc.).

Além das duas categorias básicas de dados apresentadas, convém referir mais
duas que, de certo modo, são derivadas daquelas.
c) Dados seccionais combinados. Alguns conjuntos de dados têm aspectos seccionais
e temporais. Diz-se que se tem um conjunto de dados seccionais combinados (poo-
led cross sections) quando se juntam vários conjuntos de dados seccionais, cada um
referente a certa data (momento ou período de tempo). Por exemplo, em determina-
do ano tem-se um conjunto de 200 famílias (com as respectivas despesas e receitas),
e cinco anos depois tem-se outro conjunto de 250 famílias. Este tipo de dados pode
ser analisado como se fosse um conjunto de dados seccionais, mas tem a vantagem
de permitir testar se as famílias têm comportamentos diferentes nos dois anos con-
siderados. Obviamente que o primeiro conjunto de 200 famílias não coincide com o
segundo conjunto de 250 famílias (o mais provável é que os dois conjuntos sejam
disjuntos!) Estes dados podem ser apresentados num quadro semelhante ao dos da-
dos seccionais, mas a chave identificadora é formada pela data e pela unidade
seccional (ver quadro 1.3).
Quadro 1.3
Dados seccionais combinados

N.º Data US z w1 w2 … wp
1 Data 1 US1 z1 w11 w12 … w1 p
2 Data 1 US2 z2 w21 w22 … w2 p
M M M M M M M
m Data 1 USm zm wm1 wm 2 … wmp
m +1 Data 2 USm +1 z m+1 wm+1,1 wm+1, 2 … wm+1, p
m+2 Data 2 USm + 2 z m+ 2 wm+2,1 wm+2, 2 … wm+ 2, p
M M M M M M M
n Data 2 USn zn wn1 wn 2 … wnp

d) Dados de painel. Em muitas situações, os dados disponíveis referem-se a um con-


junto fixo de entidades observadas em várias datas (momentos ou períodos de tem-
po). Neste caso, diz-se que se tem um conjunto de dados de painel ou de dados lon-
gitudinais. Por exemplo, as observações das despesas de consumo e das receitas de
um conjunto fixo de famílias ao longo de vários anos.
A característica essencial dos dados de painel é que o conjunto de entidades a ob-
servar é sempre o mesmo para todas as observações temporais, o que, muitas vezes,
Capítulo 1 – Introdução 41

dificulta a sua obtenção. Contudo, pode ter-se omissão de observações para sub-
conjuntos de unidades seccionais em determinadas datas (painéis de dados não ba-
lanceados).
Muitas vezes, a chave identificadora do quadro das observações deste tipo de da-
dos é o par ordenado (unidade seccional, data) [ver quadro 1.4].

Quadro 1.4
Dados de painel

N.º US Data z w1 w2 … wp
1 US1 Data1 z11 w111 w112 … w11 p
2 US1 Data 2 z21 w211 w212 … w21 p
M M M M M M M
q US1 Data q zq1 wq11 wq12 … wq1 p
q +1 US2 Data 1 z12 w121 w122 … w12 p
q+2 US2 Data 2 z 22 w221 w222 … w22 p
M M M M M M M
2q US2 Data q zq 2 wq 21 wq 22 … wq 2 p
M M M M M M M
(m − 1)q + 1 USm Data 1 z1m w1m1 w1m 2 … w1mp
(m − 1)q + 2 USm Data 2 z2 m w2m1 w2m 2 … w2 mp
M M M M M M M
n = mq USm Data q zqm wqm1 wqm 2 … wqmp

A observação genérica da variável explicada é identificada por dois índices: um, re-
fere-se à unidade seccional; o outro, à data. Assim, tem-se zti para i = 1, 2, K , m e
t = 1, 2, K , q . As observações das variáveis explicativas representam-se por wtij [ob-
servação da variável explicativa w j ( j = 1, 2, K , p ) , relativa à unidade seccional i e
à data t].
Noutros casos, é conveniente apresentar os dados com outra chave identificadora,
correspondente ao par ordenado (data, unidade seccional), e obtinha-se um quadro
de dados de painel semelhante ao quadro 1.3.
Embora os dados de painel possam ser encarados como dados seccionais combina-
dos, existem métodos adequados que, com vantagem, tiram partido da sua caracte-
rística essencial (conjunto fixo de entidades a observar). As vantagens têm a ver
com o facto de se dispor de várias observações temporais para a mesma entidade,
e de se poder analisar, em alguns casos, os seus lags de comportamento.

A distinção entre dados seccionais e dados temporais é, como vai ver-se, crucial
para a Econometria. Tendo presente a premissa básica – e supondo que o modelo é
constituído apenas por uma relação (1.22) –, vão fazer-se alguns comentários sobre
os dois tipos fundamentais de dados no que diz respeito aos seguintes aspectos:
Capítulo 1 – Introdução 42

− Definição ou delimitação da população de interesse;


− Hipóteses sobre o processo de amostragem;
− Recolha da amostra.

Dados seccionais

Recorde-se que dados seccionais são observações de certos atributos de certas


entidades em determinada data. Assim, a população é formada por todas as entidades
que podem ser observadas relativamente aos atributos em causa.
Definido o processo de amostragem, pode obter-se uma amostra de dimensão n,
{( zt , wt1 , wt 2 , K , wtp ) : t = 1, 2, K , n} ,

que tanto pode ser encarada como uma sequência de n vectores aleatórios ou de n vec-
tores efectivamente observados.
Muitas vezes, supõe-se que os dados seccionais são obtidos por amostragem ca-
sual. Então, tendo em conta a premissa básica atrás referida, os vectores aleatórios
( zt , wt1 , wt 2 , K , wtp ) são iid (independentes e identicamente distribuídos) [no caso de da-
dos seccionais combinados (pooled cross sections), com amostras casuais obtidas em
diferentes datas (para a mesma população), não é razoável aceitar a hipótese de que os
dados são iid; é mais credível supor que as observações são inid (independentes e não
identicamente distribuídas)].
Noutras situações, pode não ser apropriado estabelecer a hipótese da casualidade
no processo de amostragem, sendo de considerar outros tipos de amostragem (amos-
tragem estratificada, amostragem por conglomerados, etc.).
Por exemplo, se se estiver interessado em estudar os factores que explicam a
acumulação de riqueza por parte das famílias, pode acontecer que grande parte das fa-
mílias mais ricas se recusem a revelar as respectivas riquezas. Neste caso, a amostra
disponível não é uma amostra casual da população.
Outra situação interessante, em que não é adequado supor que o processo de
amostragem é casual, é aquela em que as entidades a serem observadas são poucas e
têm, individualmente, um peso relativamente importante no contexto da respectiva po-
pulação. Por exemplo, se se pretendesse estudar, em função de determinados factores, o
número de empresas novas criadas em certo ano nos vários distritos do continente por-
tuguês, não é razoável admitir a independência de comportamentos em distritos próxi-
mos, pois existe correlação espacial. A população de certos distritos não é suficiente-
mente grande para diluir a influência de cada um sobre os outros (pelo menos, sobre os
mais próximos), ou cada distrito é suficientemente grande para induzir comportamentos
nos distritos vizinhos.
A amostragem por conglomerados (cluster sampling) também induz correla-
ção em dados seccionais. Por exemplo, as poupanças de reforma dos empregados de
uma empresa podem estar correlacionadas devido às características comuns dos traba-
lhadores da empresa (muitas vezes não observáveis) ou devido às características da pró-
pria empresa (por exemplo, o tipo de plano de reformas). Como cada empresa represen-
Capítulo 1 – Introdução 43

ta um grupo (cluster), e a amostra é formada por vários trabalhadores de um número


elevado de empresas, pode estar-se em presença de correlações intra-empresas.
Outro aspecto importante a salientar é que as amostras podem ser escolhidas –
intencionalmente ou não – de modo a serem amostras não casuais da população de in-
teresse. Estes casos abrangem, por exemplo, a amostragem estratificada e a selecção de
amostras (sample selection).

Exemplo 1.16 – Os modelos apresentados nos exemplos 1.2, 1.4, 1.5, 1.6, 1.9 e 1.10
são modelos geradores de dados seccionais.
a) Exemplo 1.2: a população é o conjunto de todas as unidades produtivas de um certo
bem num determinado país ou região, num determinado ano. A amostra casual se-
ria formada por um subconjunto da população. A amostra também podia ser estrati-
ficada em função da dimensão das empresas.
b) Exemplo 1.4: Supondo que a população é constituída por todos os trabalhadores de
uma determinada região e num determinado ano, pode não ser difícil obter uma
amostra casual. No entanto, se a população é formada por todas as pessoas da
mesma região, podem surgir problemas na selecção da amostra, uma vez que podem
ser escolhidas pessoas que não trabalham, e, portanto, o salário não é observável.
Fica a questão de saber qual a população que deve ser considerada para se ter uma
explicação adequada do comportamento dos salários.
c) Exemplo 1.5: a população é formada pelos alunos de Economia e Gestão do ISEG
inscritos na disciplina de Estatística em determinado semestre. No caso de amostra-
gem casual, obtinha-se uma amostra de alunos, sem atender ao curso e às turmas a
que pertencem. No entanto, a amostra podia ser estratificada, escolhendo-se para
factores de estratificação o curso e o facto de o aluno ser repetente ou não.
d) Exemplo 1.6: para estimar viag realizou-se um inquérito, por amostragem casual, à
população activa da AML a norte do Tejo, referido a um dia útil razoavelmente
representativo do tráfego rodoviário.
Cada inquirido tinha que responder a três perguntas:
1) Qual o concelho onde habita?
2) Qual o concelho onde trabalha?
3) Se naquele dia foi de automóvel para o trabalho?
Como existiam, naquela data, nove concelhos da AML a norte do Tejo (Amadora,
Azambuja, Cascais, Lisboa, Loures, Mafra, Oeiras, Sintra e Vila Franca de Xira),
agruparam-se os inquiridos em 72 categorias, tantas quantas os pares de concelhos
(existiam oito destinos possíveis para cada uma das nove origens). Depois de elimi-
nados os casos em que o concelho de habitação coincidia com o concelho de traba-
lho, calculou-se, para cada categoria, a proporção de respostas afirmativas à pergun-
ta 3), a qual, multiplicada pela população activa do respectivo concelho de origem,
permitiu estimar viag, para o dia seleccionado.
Os dados para estimar a relação proposta no exemplo 1.6, depois de logaritmizada,
são formados por 72 observações do seguinte vector de variáveis:
[ ln(viag ) ln( pop) ln(nemp) ln(dist ) ].
Capítulo 1 – Introdução 44

Note-se que não se dispõe das verdadeiras observações de viag, mas das estimativas
obtidas da forma indicada.
A “amostra” assim construída permitiria estimar os parâmetros do modelo. Não é
fácil delimitar a população subjacente a esta amostra. No entanto, pelo menos sabe-
-se que foi seleccionada uma amostra casual da população activa da AML.
e) Exemplo 1.9: a população pode ser formada pelo conjunto de cidades com mais de
100000 habitantes num determinado país ou região, e num certo ano. O subconjunto
de cidades que constitui a amostra podia ser obtido por amostragem casual.
f) Exemplo 1.10: a população corresponde, por exemplo, ao conjunto dos 27 países da
União Europeia, num determinado ano. Neste caso, a amostra podia coincidir com
a população.

Dados temporais

Como é difícil admitir que as observações de uma mesma variável são indepen-
dentes, não se pode supor que os vectores aleatórios ( zt , wt1 , wt 2 , K , wtp ) sejam iid. No
entanto, pode pensar-se, intuitivamente, que cada elemento de uma série temporal é o
valor assumido por certa variável aleatória, uma vez que em cada data não se sabe qual
o valor da variável na data seguinte.
Formalmente, pode considerar-se que a partir de uma sucessão de vectores alea-
tórios,
{( zt , wt1 , wt 2 , K , wtp ) : t = 1, 2, K}

(habitualmente designada por processo estocástico ou aleatório), se pode obter uma se-
quência (finita) de vectores,
{( zt , wt1 , wt 2 , K , wtp ) : t = 1, 2, K , n} ,

que constitui a amostra. Tal como nos dados seccionais, esta sequência tanto pode ser
encarada como uma sequência de n vectores aleatórios ou de n vectores efectivamente
observados.
Diz-se, então, que a amostra efectivamente observada é uma realização finita do
processo estocástico. Assim, os dados disponíveis são interpretados como a única rea-
lização (finita) do processo estocástico, uma vez que não se pode recuar no tempo e re-
começar o processo de novo. Neste contexto, a população em estudo é o conjunto de
todas as realizações possíveis do processo estocástico.

Exemplo 1.17 – Os modelos apresentados nos exemplos 1.1, 1.3, 1.7 e 1.8 podem ser
considerados como modelos geradores de dados temporais.
a) Exemplo 1.1: considere-se a sucessão de vectores aleatórios com duas componentes
(processo estocástico bidimensional), {(const , rdispt ) : t = 1, 2, K} . A população é o
conjunto de todas as realizações possíveis desta sucessão. Quando, por exemplo, se
dispõe de dados sobre estas variáveis de 1970 a 2006, tem-se uma amostra.
b) Exemplo 1.3: considerando o processo estocástico tridimensional,
Capítulo 1 – Introdução 45

{ [ln(importt ), ln( prmt ), ln( pibt )]: t = 1, 2, K},


a população é formada por todas as realizações possíveis desta sucessão de vectores
aleatórios. Admitindo que as observações são trimestrais, a amostra podia ser for-
mada pelas observações desde o primeiro trimestre de 1980 até ao quarto trimestre
de 2008.
c) Exemplo 1.7: seja a sucessão de vectores aleatórios,
{( qt , pt , rt , zt ) : t = 1, 2, K} ,

onde qd = qs = q . A população é constituída pelo conjunto de todas as realizações


possíveis deste processo estocástico. Como as observações são mensais, a amostra
podia ser formada pelas observações de Janeiro de 1995 a Dezembro de 2008.
d) Exemplo 1.8: suponha-se que o processo estocástico é o seguinte:
{(const , investt , pnbt , const −1 , pnbt −1 , impdt , tjurot , dpt ) : t = 2, 3, K} .

A população é formada por todas as realizações possíveis desta sucessão de vecto-


res aleatórios com oito componentes. Quando se recolhem dados sobre estas variá-
veis de 1971 a 2008, tem-se uma amostra.

Capítulo 1 – Introdução 46

PALAVRAS-CHAVE
Amostra Regra do valor esperado total
Amostragem casual Relação de causalidade
Análise ceteris paribus Relação inversa
Análise empírica Relação linear(izável)
Componente residual Relação lin-log
Componente sistemática Relação logística
Dados Relação log-lin
Dados de painel Relação log-log
Dados (não) experimentais Relação polinomial
Dados seccionais (combinados) Relação quadrática
Dados temporais Resposta média
Desfasamento (lag) Sazonalidade
Econometria Semi-elasticidade (pontual)
Efeito marginal (pontual) Série temporal
Efeito parcial Simultaneidade
Elasticidade (pontual) Taxa de variação
Equação estimável Tendência
Equação estrutural Tendência exponencial
Erro de medida Tendência linear
Factor não observável Tendência quadrática
Factor qualitativo Teoria
Heterogeneidade não observada Unidade seccional
Independência condicional Valor esperado condicionado estrutural
Inferência estatística Variação absoluta
Interacção Variação percentual
Linearidade relativa aos parâmetros Variação relativa
Linearidade relativa às variáveis Variável binária
Linearidade (intrínseca) Variável contínua
Macroeconometria Variável de contagem
Microeconometria Variável de controlo
Modelo da população Variável dependente
Modelo econométrico Variável discreta
Modelo teórico Variável explicada
Ordem cronológica Variável explicativa
Parâmetro (estrutural) Variável independente
População Variável qualitativa
Premissa básica da Econometria Variável quantitativa
Processo de amostragem Variável residual
Processo estocástico Variável resposta
Regra do valor esperado iterado Vector redundante (ignorável)
Capítulo 1 – Introdução 47

PERGUNTAS DE REVISÃO

1. Explique o significado da seguinte proposição: “a equação de regressão é intrinse-


camente linear”.
2. Seja z = α 0 + α1 w1 + α 2 ln(w2 ) . Considerem-se as seguintes afirmações: a) a rela-
ção é intrinsecamente linear; b) a relação é linear em relação às variáveis; c) a re-
lação é linear em relação aos parâmetros; d) a relação não é intrinsecamente
linear. Quais das seguintes afirmações são verdadeiras?
3. Considere a relação z = α 0 + (α1 + α 2 w) −1 . Classifique-a quanto à linearidade rela-
tivamente aos parâmetros, e quanto à linearidade relativamente às variáveis.
4. Considere a relação z = α + β e w + γ e − w . Esta relação é intrinsecamente linear? No
caso afirmativo, defina as variáveis e os parâmetros da relação linear respectiva.
5. Considere a relação z = α + β w + γ ln(w) ( w > 0 ). Esta relação é intrinsecamente
linear? No caso afirmativo, defina as variáveis e os parâmetros da relação linear
respectiva.
6. Considere a relação z = 6α + wβ ( w > 0 ). Esta relação é intrinsecamente linear?
No caso afirmativo, defina as variáveis e os parâmetros da relação linear respecti-
va.
7. Considere a relação z = exp{α1wα 2 } ( z > 1 ). Esta relação é intrinsecamente linear?
No caso afirmativo, defina as variáveis e os parâmetros da relação linear respecti-
va.
8. Considere a relação z = α 0 + α1 w + α 2 w 2 . Como interpreta o parâmetro α 2 ?
9. Considere a relação z = α + β e w + γ e − w . Supondo que as variáveis são contínuas,
determine a elasticidade pontual de z em relação a w.
10. Seja z = β 0 + β1 ln( w) + β 2 {ln( w)}2 . Determine a elasticidade pontual de z em re-
lação a w.
11. Considere a relação z = α + β e w + γ e − w . Supondo que as variáveis são contínuas,
determine a semi-elasticidade pontual de z em relação a w.
12. Considere a relação z = α + β e 2 w . Supondo que as variáveis são contínuas, de-
termine a elasticidade pontual de z em relação a w.
13. Seja z = β 0 + β1 ln( w1 ) + β 2 ln(w2 ) + β 3 ln(w1 ) ln( w2 ) . Calcule a expressão da va-
riação absoluta de z quando, ceteris paribus, w1 varia de 3 unidades.
14. Considere a relação z = α1eα 2 w . Supondo que as variáveis são contínuas, determi-
ne a semi-elasticidade pontual de z em relação a w.
15. Considere o modelo log-log, ln( z ) = β1 + β2 ln(w) . Como sabe, β 2 mede, aproxi-
madamente, a variação percentual de z quando w varia de 1%. Assim, tem-se:
%∆ z ≈ β 2 %∆ w . Determine o valor exacto de %∆ z .
16. A premissa básica da Econometria é a seguinte: “todas as variáveis observáveis do
modelo são consideradas variáveis aleatórias”. Esta premissa resulta de: a) os da-
dos poderem ser temporais; b) a estimação dos parâmetros ser feita a partir de
uma amostra; c) a natureza não experimental dos dados; d) o facto de poderem
existir variáveis endógenas. Quais destas afirmações são verdadeiras?
Capítulo 1 – Introdução 48

17. A premissa básica da Econometria é a seguinte: “todas as variáveis observáveis do


modelo são consideradas variáveis aleatórias”. Esta premissa resulta de: a) a teoria
econométrica poder abranger modelos com dados temporais ou com dados seccio-
nais; b) a estimação dos parâmetros ser feita a partir de uma amostra extraída de
uma população; c) a natureza não experimental dos dados; d) as variáveis po-
derem ser exógenas ou endógenas. Quais destas afirmações são verdadeiras?
18. Considere o modelo econométrico z = h( w) + u , onde w é o vector das variáveis
explicativas e u é a variável residual. A que condição deve obedecer u para que
h( w) seja o valor esperado condicionado estrutural?
19. Considere o modelo da população, z = h( w) + u . Seja:
a) E (u | w) = 0 implica que h( w) ≠ E ( z | w) ;
b) h( w) = E ( z | w) implica que E (u | w) ≠ 0 ;
c) E (u | w) ≠ 0 é equivalente a h( w) ≠ E ( z | w) .
Quais destas afirmações são verdadeiras?
20. Seja z = µ ( w) + u , onde µ ( w) = E ( z | w) . Se w j é a componente genérica do
vector w, indique a expressão da semi-elasticidade de µ em relação a w j .
21. Enuncie a regra do valor esperado iterado para o cálculo de E ( z | w) .
22. Apresente a fórmula de cálculo de Var( z ) a partir de Var( z | w) e de E ( z | w) .
23. Apresente a fórmula para calcular de Cov( w, z ) a partir de Cov( w, z | v) , de
E ( w | v) e de E ( z | v) .
24. Considere dois vectores aleatórios w e z. Apresente a fórmula de cálculo da matriz
das covariâncias de z, Cov( z ) , a partir de Cov( z | w) e de E ( z | w) .
25. Prove que Cov( w, z ) = Cov{w, E ( z | w)} .
26. Defina, em termos gerais, a população quando o modelo econométrico envolve
dados temporais.
27. Suponha que está interessado em estudar o comportamento conjunto de várias
taxas de juro: a taxa de juro dos títulos do tesouro a 12 meses, r12t , a 6 meses,
r6 t , e a 3 meses, r3t . As observações são feitas no final do trimestre t, e são
anualizadas. Defina a população quando o modelo envolve estas variáveis.
28. Considere as seguintes afirmações: a) a ordem das observações é relevante para
qualquer tipo de dados; b) no caso de dados temporais, a amostragem casual não é
relevante; c) no caso de dados temporais, a população é formada por todas as
observações possíveis de um vector aleatório; d) no caso de dados temporais, a
amostra efectivamente observada é formada pela única realização finita de um
processo estocástico. Quais destas afirmações são verdadeiras?
29. Como sabe, há diferenças essenciais entre dados seccionais e dados temporais.
Indique quatro aspectos, relativamente aos dados, que são relevantes para o estudo
de modelos com dados temporais, mas que não o são para o estudo de modelos
com dados seccionais.
30. Indique a diferença essencial entre dados de painel e dados seccionais combinados
(pooled cross sections).
CAPÍTULO 2

O MODELO DE REGRESSÃO LINEAR CLÁSSICO

2.1 - Apresentação do modelo de regressão linear

Neste capítulo vai considerar-se que o modelo da população é apenas constituí-


do por uma relação de tipo (1.23): y = β1 x1 + β2 x2 + L + βk xk + u = xβ + u . Para o estudo
econométrico é vantajoso apresentar o modelo explicitando um índice t, para permitir
designar qualquer observação possível. Assim, o modelo passa a escrever-se da seguinte
maneira:
(2.1) yt = β1 xt1 + β 2 xt 2 + L + β k xtk + ut ( t ∈ T ),

onde T é um conjunto de índices.


Quando os dados são seccionais, o índice t designa qualquer unidade seccional
da população. Se a população é finita, tem-se T = {1, 2, K , N } , em que N é a dimensão
da população. Em muitas situações (em especial, quando N é muito grande), a popula-
ção pode ser considerada infinita numerável, ou seja, T = {1, 2, K} = N (conjunto dos
números naturais).
Quando os dados são temporais, o índice t designa qualquer data (período ou
momento). Pode ter-se, por exemplo, T = {1, 2, K} = N , T = { 0,1, 2, K} = N 0 (conjunto
dos números inteiros não negativos) ou T = { 0, ± 1, ± 2, K} = Z (conjunto dos números
inteiros). A escolha do conjunto T depende de conveniências analíticas.
O modelo (2.1) é tradicionalmente conhecido pela designação de modelo de re-
gressão linear (MRL), e é o primeiro caso de modelo econométrico a ser estudado. No
MRL pode utilizar-se a seguinte terminologia: a variável yt designa-se por regressan-
do, e as variáveis xt1 , xt 2 , K , xtk chamam-se regressores. Na prática é indiferente repre-
sentar: o regressando por y ou por yt ; os regressores por x j ou por xtj .
A notação das grandezas (variáveis e parâmetros) do MRL pode resumir-se da
seguinte maneira:
− yt é a variável aleatória que representa a observação t ( t ∈ T ) do regressando y.
− xtj é a variável aleatória que representa a observação t ( t ∈ T ) do regressor x j
( j = 1, 2, K , k ) .
− β j é o coeficiente de regressão do regressor x j ( j = 1, 2, K , k ) . Estes parâmetros
são fixos e desconhecidos.
Capítulo 2 – O Modelo de Regressão Linear Clássico 2

− ut é a variável aleatória não observável, variável residual associada à observação t


( t ∈ T ) do regressando e dos regressores. A variável ut (ou u) não é observável por-
que depende dos coeficientes de regressão que são desconhecidos.

Note-se que: variável explicada ou dependente não é sinónimo de regressando;


variável explicativa ou independente não é sinónimo de regressor. Por exemplo, no mo-
delo ln( zt ) = β1 + β 2 xt + β3 xt2 + ut pode considerar-se que a variável explicada é zt , mas
o regressando é yt = ln( zt ) ; a única variável explicativa (genuína) é xt , embora existam
três regressores, 1, xt e xt2 .
Em alternativa, o modelo de regressão linear (2.1) pode apresentar-se com a se-
guinte notação:
(2.2) yt = xt • β + ut ( t ∈ T ),

onde
 β1 
β 
 2
M
xt • = [ xt1 xt 2 L xtj L xtk ] e β =  
β j 
M
 
 β k 

são, respectivamente, o vector 1 × k dos regressores e o vector k × 1 dos coeficientes de


regressão. Diz-se que xt • β é a componente sistemática ou sinal, e que ut é a compo-
nente residual ou ruído. A componente sistemática também se designa por função de
regressão linear (teórica).

Exemplo 2.1 – Retome-se o modelo referido no exemplo 1.4, considerando a respectiva


variável residual,
lsalar = β1 + β 2 educ + β3 exper + β 4 empc + u .

A escolha deste regressando, lsalar, e destes regressores, pressupõe que a semi-


-elasticidade (pontual) de salar em relação a cada variável explicativa é constante. Por
exemplo, β 2 é a semi-elasticidade (pontual) de salar em relação a educ. Neste caso,
tem-se
%∆ salar ≈ 100 β 2 ∆educ .
O valor exacto de %∆ salar é dado por
%∆ salar = 100 (exp{β 2 ∆educ } − 1) .
Como o crescimento percentual do salário é o mesmo por cada ano adicional de
escolaridade, o acréscimo do salário, devido a mais um ano de escolaridade (o retorno
da educação), cresce quando educ aumenta (por cada ano de escolaridade, os acréscimos
de salários são crescentes).
Capítulo 2 – O Modelo de Regressão Linear Clássico 3

Como vai ver-se na secção seguinte, é crucial conhecer as hipóteses que relacio-
nam a variável residual com as variáveis explicativas. Por exemplo:
− O valor esperado de u, condicionado por educ, exper e empc, é nulo?
− A variância de u, condicionado pelas mesmas variáveis, é constante? Ou depende
dos valores de certas variáveis explicativas?
− A correlação entre u e cada uma das variáveis explicativas é nula? Ou há correlações
significativas entre a variável residual e algumas variáveis explicativas?
As respostas a estas perguntas (e outras) são decisivas para uma adequada análi-
se econométrica do modelo em estudo. Para este efeito (nomeadamente, para a análise
das propriedades dos estimadores dos coeficientes de regressão), é vantajoso explicitar,
para cada variável, um índice t identificador dos trabalhadores que, genericamente, po-
dem ser seleccionadas da população. Assim, tem-se
lsalart = β1 + β 2 educt + β3 expert + β 4 empct + ut .

Este modelo vai ser utilizado para exemplificar as hipóteses básicas do MRL
(ver secção 2.2) e para ilustrar, no presente capítulo, os vários aspectos da análise esta-
tística do MRL.

Dada uma amostra de dimensão n, {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , as n igual-


dades decorrentes do modelo (2.1) podem apresentar-se utilizando a notação matricial.
Com efeito, fazendo
 y1   x11 x12 L x1 j L x1k   u1 
y  x x22 L x2 j L x2 k  u 
 2  21   2
 M  M M M M  M
Y = , X =  , U = ,
y x xt 2 L xtj L xtk u
 t  t1   t
M  M M M M  M
 yn   xn1 xn 2 L xnj L xnk  un 

obtém-se a relação amostral:
(2.3) Y = Xβ + U ,
onde:
− Y é o vector n × 1 das observações (aleatórias) do regressando (por abuso de lingua-
gem, é costume chamar regressando ao vector Y).
− X é a matriz n × k das observações dos regressores. Como em cada coluna desta ma-
triz se encontram as observações de um regressor, é habitual designar X por matriz
dos regressores.
Representando por x• j ( j = 1, 2, K , k ) a coluna das n observações do regressor xtj , e
por x t • (t = 1, 2,K, n) a linha da observação t dos k regressores, tem-se
Capítulo 2 – O Modelo de Regressão Linear Clássico 4

 x1• 
x 
 2• 
 M 
[
X = x•1 x•2 L x• j L x•k ] = .
 xt • 
 M 
 
 xn• 
Quando o modelo tem termo independente (caso muito frequente), tem-se
1
1
x•1 = e =   .
M 

1
− U é o vector n × 1 das variáveis residuais.

Em alternativa, (2.3) pode escrever-se com as notações seguintes:

(2.4) yt = xt • β + ut (t = 1, 2,K, n) ,

ou
(2.5) Y = β1 x•1 + β 2 x• 2 + L + β j x• j + L + β k x• k + U .

Exemplo 2.2 – Retome-se o exemplo 2.1, e suponha-se que se dispõe de observações de


1000 trabalhadores, ou seja, tem-se uma amostra de dados seccionais de dimensão
1000. Então,
lsalart = β1 + β 2 educ t + β 3 expert + β 4 empc t + ut (t = 1, 2, K ,1000) .

Os dados disponíveis foram obtidos por simulação, e podem ser disponibilizados


aos leitores interessados.
Utilizando a notação (2.3), tem-se

 7.53773 1 11 17 11  β1   u1 
6.31180  1 15 8 8     
 u2 
    β
M  , X = M M M M  , β =   , U =  M  .
2
Y =
 β3   u999 
7.05908 1 12 13 2  
7.27514    β 4   
  1 12 15 3 u1000 

O vector-coluna Y tem 1000 elementos, indicando-se os dois primeiros e os dois


últimos, ( lsalar1 , lsalar2 , K , lsalar999 , lsalar1000 ); a matriz X é de tipo 1000 × 4 , explici-
tando-se as duas primeiras e as duas últimas linhas (os dois primeiros valores, e os dois
últimos valores de educ, exper e empc, respectivamente)

Capítulo 2 – O Modelo de Regressão Linear Clássico 5

2.2 - Hipóteses básicas do modelo

Nesta secção vão estabelecer-se as hipóteses básicas do modelo de regressão li-


near. Naturalmente, estas hipóteses referem-se ao modelo da população (2.1), e não à
relação amostral (2.3). A primeira hipótese, REX.1, deve ser entendida como um resu-
mo das considerações feitas na secção anterior (o significado do prefixo REX é esclare-
cido mais adiante). Assim:

Hipótese REX.1 - Linearidade


yt = xt • β + ut ( t ∈ T ), onde: yt é o regressando; xt • = [ xt1 xt 2 L xtk ] é o vector 1 × k
dos regressores; β é o vector k × 1 de parâmetros desconhecidos (coeficientes de re-
gressão), não sujeitos a restrições; ut é a variável residual.

Quando, no enunciado da hipótese REX.1, se postula que os coeficientes de re-


gressão não estão sujeitos a restrições, fica estabelecido que não existe informação a
priori sobre aqueles coeficientes sob a forma de igualdades ou desigualdades. Na fun-
ção de produção Cobb-Douglas [ver os exemplos 1.2 e 1.13-b)] poderia introduzir-se a
seguinte restrição: a soma das elasticidades (pontuais) é igual a 1, ou seja, β 2 + β 3 = 1 .
Trata-se de uma igualdade linear que envolve dois dos coeficientes de regressão, e que
tem um significado económico bem conhecido – os rendimentos de escala são constan-
tes.
A segunda hipótese, a mais importante, refere-se à exogeneidade estrita dos re-
gressores.

Hipótese REX.2 – Exogeneidade estrita


O valor esperado de cada variável residual, condicionado por XT = {xs • : s ∈ T } [con-
junto de todas as observações possíveis dos regressores], é nulo. Assim:
(2.6) E (ut | XT ) = 0 (t ∈ T ) .

Nestas condições, diz-se que os regressores são estritamente exógenos.

Podem fazer-se os seguintes comentários:


a) Por exemplo, se T = {1, 2, K} , tem-se XT = {x1• , x2• , K} .
b) Se o modelo tem termo independente, xt1 = 1 , e E (ut | XT ) = θ (constante), facilmen-
te se converte num modelo a verificar REX.2. Com efeito, fazendo,
yt = β1 + β 2 xt 2 + L + β k xtk + ut = ( β1 + θ ) + β 2 xt 2 + L + β k xtk + (ut − θ ) ,

conclui-se imediatamente que o valor esperado condicionado da nova variável resi-


dual é nulo: E (ut − θ | XT ) = 0 .
c) A condição (2.6) é uma hipótese muito forte, uma vez que, em geral, o valor espe-
rado condicionado, E (ut | XT ) , é função das observações dos regressores; a hipó-
tese REX.2 postula que não é.
Capítulo 2 – O Modelo de Regressão Linear Clássico 6

As propriedades dos valores esperados condicionados apresentadas na secção


1.6 permitem obter algumas consequências da hipótese REX.2:
− O valor esperado não condicionado da variável residual é nulo: E (ut ) = 0 .
Com efeito, com a propriedade a), tem-se E (ut ) = E{E (ut | XT )} = 0 .
− Cada regressor é estritamente exógeno: E (ut | xsj ) = 0 ( t , s ∈ T ; j = 1, 2, K , k ).
Com efeito, utilizando a propriedade c), obtém-se E (ut | xsj ) = E{E (ut | XT ) | xsj } = 0 .
− Do mesmo modo se verifica que E (ut | xs• ) = 0 ( t , s ∈ T ).
− Os regressores são ortogonais às variáveis residuais:
E ( xtj u s ) = 0 ( t , s ∈ T ; j = 1, 2, K , k ).

[esta propriedade pressupõe a seguinte definição: duas variáveis aleatórias são orto-
gonais se e só se o valor esperado do produto é igual a 0].
Com efeito, atendendo às propriedades a) e d),
E ( xtj u s ) = E{E ( xtj u s | xtj )} = E{xtj E (u s | xtj )} = 0 .

Utilizando a notação matricial, tem-se


E ( xt •us ) = 0 ( t , s ∈ T ),

onde 0 é o vector nulo. Este resultado garante que a observação t de cada regressor é
ortogonal, não só à variável residual associada à observação t, mas a qualquer outra
variável residual.
− As covariâncias entre os regressores e as variáveis residuais são nulas:
Cov( xtj , u s ) = 0 ( t , s ∈ T ; j = 1, 2, K , k ).

Com efeito, tem-se


Cov( xtj , us ) = E ( xtj us ) − E ( xtj ) E (us ) = 0 ,

porque E (u s ) = 0 e E ( xtj u s ) = 0 .
Utilizando a notação matricial, vem
Cov( xt • , us ) = 0 ( t , s ∈ T ).

Assim, a observação t de cada regressor não está correlacionada, não só com a variá-
vel residual associada à observação t, mas com qualquer outra variável residual. Dito
de outro modo, não há associação linear entre as respectivas variáveis.
− Qualquer função dos regressores é ortogonal às variáveis residuais:
E{g ( xt • ) us } = 0 ( t , s ∈ T ).

Com efeito,
E{( g ( xt • ) us } = E ( E{g ( xt • ) us | xt • }) = E{g ( xt • ) E (us | xt • )} = 0 .

Daqui resulta que Cov{g ( xt • ), us } = 0 .


Capítulo 2 – O Modelo de Regressão Linear Clássico 7

O facto de a hipótese REX.2 postular a nulidade do valor esperado condicionado,


E (ut | XT ) = 0 , e não a nulidade das covariâncias, Cov( xt • , us ) = 0 ( t , s ∈ T ) [hipóte-
se mais fraca], significa que se estabelece que não há associação (linear ou não)
entre cada xtj e cada u s . Assim, a hipótese pressupõe que a relação funcional entre
o regressando e os regressores está correctamente especificada.
A violação da hipótese REX.2 pode ter origem numa incorrecta especificação do
modelo, que se pode dever, entre outras causas, a uma deficiente escolha da forma
funcional, à omissão de variáveis explicativas relevantes ou a erros de medida nas
variáveis explicativas. Infelizmente como se trata de uma hipótese sobre a população
nunca é possível ter a certeza da sua veracidade [contudo, existem testes estatísticos
(como o teste RESET; ver a secção 3.8 do capítulo 3) que podem mostrar se a evi-
dência empírica é favorável, em certas condições, à especificação do modelo].
− O valor esperado condicionado do regressando é igual à componente sistemática
do modelo:
E ( yt | XT ) = xt • β (t ∈ T ) ,

o que permite interpretar a variável residual ut como o desvio entre o regressando e


o respectivo valor esperado condicionado: ut = yt − E ( yt | XT ) .
Portanto, o MRL, yt = xt • β + ut , pode ser apresentado sob a forma de um valor es-
perado condicionado estrutural:
E ( yt | XT ) = µ ( xt • ) = xt • β (t ∈ T ) .

A função µ (⋅) é adequada para fazer a análise ceteris paribus de relações de causa-
lidade, estudando os respectivos efeitos parciais (ver secção 1.6).
− Quando se dispõe da amostra {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , a condição (2.6)
implica que E (ut | x1• , x2• , K , xn• ) = 0 ou que E (ut | X ) = 0 (t = 1, 2, K , n) . Pode es-
crever-se E (U | X ) = 0 [e, portanto, E (U ) = 0 ]. Também se tem: E (Y | X ) = Xβ .

Convém fazer ainda mais alguns comentários sobre a hipótese REX.2 e a natu-
reza dos dados:
1) Com dados seccionais e amostragem casual é fácil verificar que, pelo facto de os
vectores aleatórios ( yt , xt • ) serem iid, o mesmo sucede com (ut , xt • ) , já que ut é
função de yt e xt • . Então, pouco importa a distinção entre exogeneidade estrita e
exogeneidade para a mesma unidade seccional. De facto, não é necessário explicitar
como a variável residual relativa à unidade seccional t está relacionada com as ob-
servações dos regressores para outras unidades seccionais, porque ut é independente
de xs• ( s ≠ t ) . Neste caso, tem-se sempre
E (ut | XT ) = E (ut | xt • ) (t ∈ T ) ,

e a hipótese REX.2 reduz-se a E (ut | xt• ) = 0 .


2) Se num modelo de regressão linear com dados temporais se verifica a hipótese da
exogeneidade estrita, então as variáveis residuais são ortogonais às (não estão cor-
relacionadas com as) observações, passadas, presentes e futuras dos regressores.
Capítulo 2 – O Modelo de Regressão Linear Clássico 8

Um exemplo típico de modelo que pode verificar REX.2 é o MRL estático,


yt = β1 + β 2 xt + ut ,

tal que E (ut | XT ) = 0 . Neste caso, XT = {x1 , x2 , K} , se T = {1, 2, K} .


Outro exemplo, é o MRL dinâmico,
yt = α + δ 0 xt + δ1 xt −1 + L + δ r xt − r + ut ,

com E (ut | XT ) = 0 . Este modelo é conhecido pela designação de MRL com desfa-
samento escalonado finito de ordem r ou DL(r) [DL significa Distributed Lags].
3) É possível encontrar, com facilidade, exemplos de modelos de regressão linear com
dados temporais, em que a hipótese REX.2 não se verifica. Considere-se o modelo
dinâmico
yt = β1 + β 2 yt −1 + ut ,

onde o regressor é a variável y desfasada de um período. Este modelo é designado


por modelo auto-regressivo de 1.ª ordem ou AR(1).
Mesmo supondo que E (ut | yt −1 ) = 0 [ ⇒ E ( yt −1ut ) = 0 ], é fácil verificar que
E ( yt ut ) = E{( β1 + β 2 yt −1 + ut )ut } = β1 E (ut ) + β 2 E ( yt −1ut ) + E (ut2 ) = E (ut2 ) ≠ 0 .

Então, a observação t + 1 do regressor, yt , está correlacionada com ut . Pode mes-


mo provar-se que yt + h ( h = 1, 2, K ) está correlacionada com ut . Conclui-se, assim,
que não existe correlação contemporânea (e, porventura, passada) entre os regresso-
res e as variáveis residuais, mas existe correlação futura.
Considere-se de novo o MRL estático, yt = β1 + β 2 xt + ut . A hipótese REX.2 exclui
a possibilidade de variações da variável residual (ou do regressando) no presente
provocarem variações futuras do regressor. No entanto, é fácil encontrar modelos
estáticos em que, por exemplo, Cov( xt +1 , ut ) ≠ 0 . Com efeito, suponha-se que numa
exploração agrícola se pretende explicar a produção agrícola, yt , em função da
quantidade de trabalho utilizada, xt . Como os valores desta variável podem ser es-
colhidos pelo agricultor, este pode ajustar a quantidade de trabalho no futuro (por
exemplo, xt +1 ) em função da produção agrícola no presente ou no passado (por
exemplo, yt ).
Em Economia, existem muitas situações deste género (variáveis explicativas que po-
dem variar no futuro em função dos valores assumidos, no presente ou no passado,
pela variável explicada) que tornam pouco realista a adopção da hipótese REX.2
para modelos de regressão linear com dados temporais. É o caso do modelo (com
dados temporais), investt = β1 + β 2 tjurot + ut , em que invest é o investimento e tjuro
é a taxa de juro. É de esperar que exista de feedback de invest sobre tjuro (a taxa de
juro no futuro depende do investimento no presente ou passado).
4) Os exemplos anteriores mostram claramente que, em muitos casos, a exogeneidade
estrita dos regressores não se verifica num modelo de regressão linear com dados
temporais. Contudo, quando se supõe que
E (ut | xt • ) = 0 (t ∈ T ) ,
Capítulo 2 – O Modelo de Regressão Linear Clássico 9

diz-se que os regressores são contemporaneamente exógenos.


Este tipo de exogeneidade permite concluir sem dificuldade que:
− E (ut ) = 0 ;
− E (ut | xtj ) = 0 (cada regressor é contemporaneamente exógeno);
− E ( xt •ut ) = 0 (ortogonalidade contemporânea);
− Cov( xt • , ut ) = 0 (não correlação contemporânea);
− E ( yt | xt • ) = xt • β ;
− ut = yt − E ( yt | xt • ) .

Exemplo 2.3 – Admitindo que os dados são seccionais e a amostragem é casual, supo-
nha-se que era especificado o modelo (ver exemplo 2.1),
lsalart = β1 + β 2 educt + ut ,

omitindo-se as variáveis exper e empc. Assim, a variável residual passa a abranger estes
factores explicativos (para além de outros, como a aptidão, o género, o número de anos
de escolaridade do pai e da mãe do trabalhador, o número de filhos, o local da habita-
ção, etc.).
Como, por exemplo, é de esperar que exper e educ estejam negativamente corre-
lacionados (quando a escolaridade aumenta, a experiência profissional diminui), a variá-
vel residual está correlacionada com educ. Nesta situação, tem-se
E (lsalart | educt ) = β1 + β 2 educt + E (ut | educt ) ,

em que E (ut | educt ) depende de educt . Deste modo, o parâmetro β 2 não mede o efeito
ceteris paribus de educ sobre lsalar, e o modelo não está correctamente especificado.
Note-se que:
∂ E (lsalart | educt ) ∂ E (ut | educt )
= β2 + .
∂ educt ∂ educt

Numa tentativa de melhorar a especificação, inclui-se exper na componente sis-


temática (diz-se, então, que o factor exper é controlado), propondo-se o modelo
lsalart = β1 + β 2 educt + β3 expert + ut ,

onde a variável residual já não inclui exper. Neste caso, deve exigir-se que o valor espe-
rado condicionado, E (ut | educt , expert ) , não dependa dos factores condicionantes. No
entanto, é natural que empc e exper (ou empc e educ) estejam correlacionados, o que
significa que o modelo continua mal especificado (a hipótese REX.2 é violada).
Propõe-se, então,
lsalart = β1 + β 2 educt + β 3 expert + β 4 empct + ut ,

controlando a variável empc.


Se a hipótese REX.2 é verdadeira,
E (ut | educt , expert , empct ) = 0 ,
Capítulo 2 – O Modelo de Regressão Linear Clássico 10

nenhuma das três variáveis (educ, exper, empc) está correlacionada com a variável resi-
dual: os três regressores são exógenos. Ter-se-ia, então, o seguinte valor esperado con-
dicionado estrutural:
E (lsalart | educt , expert , empct ) = β1 + β 2 educt + β3 expert + β 4 empct .

Para garantir a especificação correcta do modelo não basta afirmar, por exemplo,
que a correlação entre a variável residual e exper é nula, uma vez que esta ausência de
correlação estabelece apenas que não há associação linear entre as duas variáveis. Se
houvesse correlação entre a variável residual e exper 2 , o modelo continuava mal espe-
cificado porque E (ut | educt , expert , empct ) dependia de expert . Nestas circunstâncias,
devia fazer-se
lsalart = β1 + β 2 educt + β 3 expert + β 4 expert 2 + β 5 empct + ut .

No entanto, continua a ser possível que educ esteja correlacionado com a variá-
vel residual, porque educ pode depender de aptid (aptidão da pessoa) ou de mulher.
Embora seja imediato controlar o factor género, não teria sentido controlar o factor
aptid (incluindo-o na componente sistemática do modelo), uma vez que se trata de um
factor não observável. Provavelmente deveria manter-se a especificação do modelo, mas
a hipótese REX.2 era violada. Esta questão será retomada no capítulo 4.

A terceira hipótese refere-se às variâncias das variáveis residuais, condiciona-


das por todas as observações possíveis dos regressores.

Hipótese REX.3 – Homocedasticidade condicionada


Tem-se:
(2.7) Var(ut | XT ) = σ 2 > 0 (t ∈ T ) .

Podem fazer-se os seguintes comentários:


a) A condição (2.7) impõe uma restrição muito forte ao modelo, pois, em geral, a va-
riância condicionada, Var(ut | XT ) , é função das observações dos regressores; no
entanto, na hipótese REX.3 supõe-se que é constante.
b) No caso de amostragem casual, verifica-se sempre que
Var(ut | XT ) = Var(ut | xt • ) ,

e a hipótese REX.3 reduz-se a Var(ut | xt • ) = σ 2 > 0 (t ∈ T ) .

Podem obter-se algumas consequências das hipóteses anteriores:


− Tem-se: E (ut2 | XT ) = σ 2 (t ∈ T ) . Com efeito, basta notar que E (ut | XT ) = 0 .
− A variância não condicionada das variáveis residuais é constante:
Var(ut ) = E (ut2 ) = σ 2 (t ∈ T ) .
Capítulo 2 – O Modelo de Regressão Linear Clássico 11

− A variância condicionada das observações do regressando é constante:


Var( yt | XT ) = σ 2 (t ∈ T ) .

Este resultado mostra uma diferença essencial entre as hipóteses REX.2 e REX.3.
Enquanto esta hipótese implica que a variância do regressando, condicionada pelos
regressores, não depende destes, a hipótese REX.2 origina que o valor esperado do
regressando, condicionado pelos regressores, já depende.
Note-se que Var( yt ) ≠ σ 2 . Com efeito, atendendo à propriedade h) dos valores espe-
rados condicionados, tem-se
Var( yt ) = E{Var( yt | XT )} + Var{E ( yt | XT )}
= σ 2 + Var( xt • β ) = σ 2 + β T Cov( xt • ) β ≠ σ 2 .

− Também se verifica que: Var (ut | xsj ) = σ 2 ; Var(ut | xs• ) = σ 2 (t ∈ T ) .


− Quando se dispõe da amostra {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , a condição (2.7)
implica que Var(ut | x1• , x2• , K , xn• ) = σ 2 , ou que Var(ut | X ) = σ 2 (t = 1, 2, K , n) .
Também se tem:
− E (ut | X ) = 0 ⇒ Var(ut | X ) = E (ut2 | X ) = σ 2 ;
− Var( yt | X ) = Var(ut | X ) = σ 2 (a variância das observações do regressando, con-
dicionada por X, é constante).

Como Var(ut | XT ) = Var( yt | XT ) é constante (ou seja, não depende de X T ), a


homocedasticidade condicionada significa que a influência dos factores que condicio-
nam o comportamento do regressando apresenta, na sua globalidade, uma dispersão
constante para as várias observações. Deste modo, cada observação yt (condicionada
por X T ) é portadora da mesma quantidade de informação sobre a relação linear sub-
jacente, xt • β , isto é, cada observação está sujeita à mesma incerteza ou “ruído”. Como
Var(ut | XT ) é constante, também se pode afirmar que os factores não observáveis que
influenciam yt têm, na sua globalidade, dispersão constante.
Quando a homocedasticidade condicionada for considerada uma hipótese dema-
siado restritiva, deve admitir-se a possibilidade de as variâncias condicionadas serem di-
ferentes de observação para observação. Neste caso, a variância condicionada de cada
variável residual é função das observações dos regressores,
(2.8) Var(ut | XT ) = σ 2 (XT ) ,

e tem-se uma situação de heterocedasticidade condicionada.


A heterocedasticidade condicionada é pouco frequente em modelos com dados
temporais, mas é particularmente importante em modelos com dados seccionais. Po-
de ocorrer por dois tipos de razões: a) ser uma evidência de especificação deficiente do
modelo, isto é, a componente residual (o ruído) conter factores que, pelo seu comporta-
mento, deveriam ser incorporados na componente sistemática (no sinal); b) ser inerente
ao fenómeno em estudo, considerando-se o modelo bem especificado. No caso a), deve
procurar-se uma reespecificação mais adequada. No caso b), a heterocedasticidade con-
Capítulo 2 – O Modelo de Regressão Linear Clássico 12

dicionada deve ser encarada como tal, e os parâmetros devem ser estimados utilizando
técnicas apropriadas.

Exemplo 2.4 – Retomando o exemplo 2.3, e continuando a admitir que os dados são
seccionais e a amostragem é casual, a homocedasticidade condicionada significa que
Var(ut | educt , expert , empct ) = σ 2 .

Se, pelo contrário, a variância da variável residual dependesse, por exemplo, dos
valores observados para exper, ter-se-ia
Var(ut | educt , expert , empct ) = σ 2 (expert ) ,

ou seja, uma situação de heterocedasticidade condicionada.


A quarta hipótese refere-se às covariâncias entre as variáveis residuais condi-


cionadas por todas as observações possíveis de todos os regressores.

Hipótese REX.4 – Ausência de autocorrelação


Tem-se:
(2.9) Cov(ut , us | XT ) = 0 (t , s ∈ T ; t ≠ s) .

Demonstra-se sem dificuldade que:


− As hipóteses REX.2 e REX.4 implicam que E (ut us | XT ) = 0 .
− As covariâncias não condicionadas entre as variáveis residuais são nulas:
Cov(ut , u s ) = E (ut u s ) = 0 .

− As covariâncias condicionadas entre as observações do regressando são nulas:


Cov( yt , ys | XT ) = 0 .

Neste caso, tal como acontece com a homocedasticidade condicionada, as covariân-


cias condicionadas entre as observações do regressando não dependem dos regresso-
res.
Como
Cov( yt , ys ) = E{Cov( yt , ys | XT )} + Cov{E ( yt | XT ), E ( ys | XT )}
= 0 + Cov( xt • β , xs • β ) = β T Cov( xt • , xs • ) β ,

resulta Cov( yt , y s ) ≠ 0 , desde que a matriz das covariâncias entre os elementos de


xt • e os elementos de xs • , Cov( xt • , xs • ) , não seja a matriz nula. No caso de amostra-
gem casual, tem-se Cov( xt • , xs • ) = O , e, portanto, Cov( yt , ys ) = 0 .
− Verifica-se que: Cov(ut , u s | xt • , xs• ) = 0 .
Capítulo 2 – O Modelo de Regressão Linear Clássico 13

− Quando se tem a amostra {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , a condição (2.9) imp-


lica que Cov(ut , u s | x1• , x2• , K , xn• ) = 0 ou que Cov(ut , u s | X ) = 0 , para t ≠ s e para
t , s = 1, 2, K , n .
Tem-se:
− E (ut | X ) = 0 ⇒ Cov(ut , u s | X ) = E (ut u s | X ) = 0 ;
− Cov( yt , y s | X ) = Cov(ut , u s | X ) = 0 ;
− Cov(ut , u s | X ) = 0 ⇒ Cov(ut , u s | xt • , xs• ) = 0 .

Como Cov( yt , ys | XT ) = Cov(ut , us | XT ) = 0 , a ausência de autocorrelação (con-


dicionada por X T ) pode ser interpretada como a não existência de influências recípro-
cas entre as observações do regressando. Deste modo, o conhecimento do valor assumi-
do por uma observação yt do regressando não acrescenta qualquer informação sobre o
comportamento de outra observação. Como Cov(ut , us | XT ) = 0 , a ausência de autocor-
relação traduz uma situação em que as variáveis residuais não se influenciam entre si.
Com dados temporais é muito frequente especificar modelos em que existe au-
tocorrelação, isto é,
(2.10) Cov(ut , us | XT ) ≠ 0 (para algum t ≠ s ).

A presença de autocorrelação pode ter, tal como a heterocedasticidade condicio-


nada, dois tipos bem distintos de causas: a) a autocorrelação é uma manifestação de
má especificação do modelo; b) a autocorrelação é inerente ao processo de amostragem,
aceitando-se que o modelo está bem especificado. O tipo de tratamento a dar ao modelo
em cada uma das situações deve ser encarado nos termos referidos para a heterocedasti-
cidade condicionada.
Em modelos com dados seccionais, praticamente não se põe a questão da exis-
tência de autocorrelação. Se, em particular, a amostra for casual fica garantido que não
existe autocorrelação, uma vez que os vectores aleatórios (ut , xt • ) são iid. Neste caso,
verifica-se sempre que
E (ut us | XT ) = E (ut | xt • ) E (us | xs • ) e Cov(ut , us | XT ) = 0 ,

para t ≠ s . Com efeito,


E (ut us | XT ) = E{E (ut us | us , XT ) | XT } = E{us E (ut | us , XT ) | XT } .

Como a amostragem é casual, tem-se E (ut | us , XT ) = E (ut | x´t • ) . Então,


E (ut us | XT ) = E{us E (ut | xt • ) | XT } = E (ut | xt • ) E (us | XT ) = E (ut | xt • ) E (us | xs • ) .

Quando se dispõe da amostra {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , pode determi-


nar-se a matriz das covariâncias de U, condicionada por X:
 Var(u1 | X ) Cov(u1 , u 2 | X ) L Cov(u1 , u n | X ) 
Cov(u , u | X ) Var (u 2 | X ) L Cov(u 2 , u n | X )
Cov(U | X ) =  2 1
.
 M M M 
 
Cov(u n , u1 | X ) Cov(u n , u 2 | X ) L Var (u n | X ) 
Capítulo 2 – O Modelo de Regressão Linear Clássico 14

Atendendo às hipóteses REX.3 e REX.4, facilmente se verifica que


σ 2 0 L 0 
 
 0 σ2 L 0 
Cov(U | X ) = σ I n =
2
,
 M M M 
 
 0 0 L σ 2 

onde I n é a matriz identidade de ordem n. Deste modo, tem-se:


(2.11) Cov(U | X ) = E (UU T | X ) = σ 2 I n .

Facilmente se conclui que


Cov(U ) = E (UU T ) = σ 2 I n .

Também se verifica sem dificuldade que


(2.12) Cov(Y | X ) = σ 2 I n ,

isto é, que as matrizes das covariâncias de U e de Y, respectivamente condicionadas por


X, são iguais.
No entanto, em geral, Cov(Y ) ≠ σ 2 I n . Com efeito, atendendo à propriedade k)
dos valores esperados condicionados, obtém-se
Cov(Y ) = E{Cov(Y | X )} + Cov{E (Y | X )} = σ 2 I n + Cov( Xβ ) ≠ σ 2 I n .

Note-se que o elemento genérico da matriz Cov( Xβ ) é


Cov( xt • β , xs• β ) = β T Cov( xt • , xs• ) β .

Em particular, os elementos da diagonal principal são dados por


Var( xt • β ) = β T Cov( xt • ) β .

A quinta hipótese refere-se apenas aos regressores, e garante que existe a ma-
triz dos valores esperados dos elementos da matriz xtT• xt • , e a respectiva inversa.

Hipótese REX.5 – Condição de característica


A matriz quadrada de ordem k,
(2.13) Qxx = E ( xtT• xt • ) (t ∈ T )

existe e tem inversa.

Comentários:
a) A matriz Qxx = E ( xtT• xt • ) é simétrica, uma vez que
 xt21 xt1 xt 2 K xt1 xtk 
 
x x xt22 L xt 2 xtk 
xt • xt • =  t1 t 2
T
.
 M M M 
 
 xt1 xtk xt 2 xtk L xtk2 
Capítulo 2 – O Modelo de Regressão Linear Clássico 15

b) A hipótese REX.5 implica que Qxx tem característica igual a k, e é definida positi-
va. Pode, então, afirmar-se que a hipótese falha se e só se um dos regressores é com-
binação linear de outros regressores.
Por exemplo se yt = β1 + β 2 ln( xt ) + β3 ln( xt2 ) + ut , tem-se
 1   1 ln( xt ) 2 ln( xt ) 
 
xtT• xt • =  ln( xt )  [ 1 ln( xt ) 2 ln( xt )] =  ln( xt ) {ln( xt )}2 2{ln( xt )}2  ,

2 ln( xt ) 2 ln( xt ) 2{ln( xt )}2 4{ln( xt )}2 

e verifica-se que, por exemplo, a terceira coluna é o dobro da segunda. Em casos co-
mo este, diz-se que o modelo da população tem multicolinearidade exacta ou per-
feita. A condição de característica não exclui a possibilidade de haver correlações en-
tre regressores; contudo, não permite que estas correlações sejam perfeitas.
c) Quando se dispõe da amostra {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , pode concluir-se
que, em certas condições de regularidade (ver capítulo 3), a hipótese REX.5 implica
que a característica da matriz X é igual a k (número de coeficientes de regressão),
r ( X ) = k , com probabilidade 1. Isto significa que, dada a sucessão de acontecimen-
tos {Cn : n = k , k + 1, K} , onde Cn = {numa amostra de dimensão n, r ( X ) = k} , tem-se
lim P(Cn ) = 1 .
n → +∞

Assim, é praticamente certo que as colunas de X são linearmente independentes [a


coluna das observações de um regressor não é, quase certamente, combinação linear
das colunas das observações de outros regressores]. Caso contrário, diz-se que, na
amostra, há multicolinearidade exacta ou perfeita.
d) A hipótese REX.5 também implica que, quase certamente, existe ( X T X ) −1 , o que
tem uma importância decisiva, como vai ver-se, para a estimação dos coeficientes de
regressão pelo método dos mínimos quadrados.
e) Suponha-se que a característica de X é igual a k: r ( X ) = k . Esta condição significa
que, na amostra (e, portanto, na população), não existem relações lineares exactas en-
tre os regressores. Como a matriz X é n × k , decorre que k ≤ n (o número de obser-
vações não pode ser inferior ao número de coeficientes de regressão). A diferença
n − k designa-se por número de graus de liberdade do modelo. O seu significado é
esclarecido mais adiante.

Exemplo 2.5 – Considere-se, de novo, o modelo,


lsalart = β1 + β 2 educt + β 3 expert + β 4 empct + ut .

Como
xt • = [ 1 educt expert empct ],

a matriz Qxx = E ( xtT• xt • ) é dada por


Capítulo 2 – O Modelo de Regressão Linear Clássico 16

 1 E (educt ) E (expert ) E (empct ) 


 E (educ ) 2
E (educt ) E (educt × expert ) E (educt × empct ) 
 t
.
 E (expert ) E (educt × expert ) E (expert 2 ) E (expert × empct )
 
 E (empct ) E (educt × empct ) E (expert × empct ) E (empct2 ) 
Se a população fosse constituída apenas pelos trabalhadores que estão no seu
primeiro emprego, é evidente que REX.5 não se verificava, pois expert = empct [a
matriz Qxx teria característica inferior a 4, uma vez que as terceira e quarta colunas (li-
nhas) seriam iguais], e só se podia estimar β 3 + β 4 .
Numa situação destas, seria aconselhável alterar a especificação do modelo (eli-
minando, por exemplo, o regressor exper) ou redefinir a população (considerando, por
exemplo, o conjunto de todos os trabalhadores da região).
Mesmo para a população de todos os trabalhadores – mantendo a primeira espe-
cificação –, podia ter-se multicolinearidade exacta na amostra se todas as pessoas se-
leccionadas estivessem no primeiro emprego (a matriz X teria duas colunas iguais). Na-
turalmente é muito improvável a ocorrência desta amostra quando a população tem mui-
tos trabalhadores que não estão no primeiro emprego.

A análise feita na presente secção pode resumir-se na seguinte definição:

Definição 2.1 – Modelo de regressão linear clássico


O modelo de regressão que verifica as hipóteses REX.1 a REX.5 é designado por mode-
lo de regressão linear clássico (MRLC). Os parâmetros desconhecidos deste modelo
são β1 , β 2 , K , β k e σ 2 .

As hipóteses são designadas com o prefixo REX para lembrar que os regresso-
res são estritamente exógenos.
O MRLC tem particular vocação para o estudo de relações entre variáveis com
dados seccionais e amostragem casual. No entanto, há situações interessantes em que
o MRLC para séries temporais permite estimar razoavelmente alguns efeitos parciais
relativos a variáveis macroeconómicas. É o caso do efeito da taxa de inflação, ou da
proporção do défice orçamental em relação ao PIB, sobre a taxa de juro.
Habitualmente, a expressão “modelo de regressão linear clássico” estava reser-
vada para designar o “modelo de regressão linear com regressores fixos”, tão conhe-
cido do estudo tradicional da Econometria. Neste modelo, supõe-se que, para a observa-
ção t, se obtém um valor para o regressando, e certos valores para os regressores; se fos-
se possível repetir a experiência, ainda para a observação t, podia obter-se outro valor
para o regressando, mas os valores dos regressores eram os mesmos. Deste modo, para
cada observação, o valor do regressando podia flutuar de amostra para amostra, mas os
valores dos regressores eram constantes.
Facilmente se conclui que esta concepção do modelo pode ser interessante para
gerar dados experimentais, mas não é compatível com o tipo de hipóteses que se po-
Capítulo 2 – O Modelo de Regressão Linear Clássico 17

dem considerar num MRL em Economia. Por exemplo, estaria eliminada, por natureza,
a possibilidade de haver correlação não nula entre a variável residual e qualquer
regressor (admitir que há regressores exógenos pressupõe a possibilidade de existirem,
também, regressores endógenos). Para ilustrar o contra-senso da hipótese dos
regressores fixos, considere-se a seguinte afirmação (que aparece em muitos manuais de
econometria): “ σ 2 = Var(ut ) = Var( yt ) , qualquer que seja t”. Esta afirmação é falsa
quando os regressores são aleatórios, mas é verdadeira quando os regressores são fixos.
Trata-se de uma situação em que a hipótese dos regressores fixos conduz a conclusões
contra-intuitivas. De facto, suponha-se que w é um factor explicativo de y, está incluído
na variável residual e não está correlacionado com os regressores. Quando se dispõe de
observações de w, esta variável pode ser acrescentada à lista dos regressores. Neste ca-
so, a variável residual muda, bem como a respectiva variância (é menor do que a an-
terior). Deste modo, a hipótese dos regressores fixos pressupõe que existe sempre a pos-
sibilidade de aceder a todos os factores explicativos possíveis de controlar; só deste mo-
do fica garantido que não haverá qualquer factor w, inicialmente abrangido pela compo-
nente residual, que possa ser “transferido” para a componente sistemática. Esta especifi-
cação perfeita do modelo é praticamente impossível em grande parte das aplicações eco-
nométricas (não se pode exigir ao analista capacidades que ele quase nunca pode ter).
Como o modelo com regressores fixos não é objecto de estudo neste texto, reser-
va-se a sigla MRLC para designar o modelo de regressão linear com regressores estrita-
mente exógenos.

2.3 - Estimação dos coeficientes de regressão pelo método dos mínimos quadrados

Dada uma amostra de dimensão n, {( yt , xt1 , xt 2 , K , xtk ) : t = 1, 2, K , n} , é possível


estimar o vector dos coeficientes de regressão, β . Para cada observação tem-se, como
se sabe, yt = xt • β + ut . Embora a variável residual não seja observável, porque depende
dos coeficientes de regressão (desconhecidos), é possível calcular os desvios
~
u~t = yt − xt • β ,
~
em que β é um qualquer valor hipotético de β . Ao desvio u~t dá-se o nome de resíduo
~
relativo à observação t quando β = β . Pode escrever-se
 u~1 
u~ 
 2
~ M ~
U =  ~  = Y − Xβ .
u
 t
M
u~n 

O método habitualmente utilizado para estimar os coeficientes de regressão, β ,


consiste em minimizar a soma dos quadrados dos resíduos. Este critério (método dos
mínimos quadrados) impõe uma penalização forte para os resíduos grandes, e escolhe
~
um valor β que evite resíduos elevados para poucas observações à custa de tolerar re-
Capítulo 2 – O Modelo de Regressão Linear Clássico 18

síduos relativamente pequenos para muitas observações. Deste modo, consegue garan-
tir-se um compromisso que permite obter um estimador com propriedades desejáveis
(ver secção 2.5).

Definição 2.2 – Estimador dos mínimos quadrados dos coeficientes de regressão


O estimador dos mínimos quadrados (estimador MQ) de β é aquele que minimiza a so-
~
ma dos quadrados dos resíduos (função de β ),
~ ~ ~ ~ ~
ϕ ( β ) = ∑t =1 u~t2 = U T U = (Y − Xβ )T (Y − Xβ ) .
n
(2.14)

Representando o estimador MQ por b, tem-se


~
b = argmin
~
ϕ ( β ).
β

~ ~
Quando se minimiza ϕ ( β ) em ordem a β está a supor-se, como é evidente, que
~
β varia no respectivo espaço-parâmetro, isto é, que pode ser qualquer ponto deste es-
paço. A relação que existe entre β (vector desconhecido dos coeficientes de regressão),
~
b (a respectiva estimativa MQ de β ) e β (valor hipotético de β ) está ilustrada na figu-
ra 2.1, para o caso em que estas três grandezas são escalares. De acordo com a conven-
ção estabelecida na secção 1.6 do capítulo 1, vai utilizar-se o mesmo símbolo para re-
presentar o estimador e as respectivas estimativas.

Fig. 2.1 – Ilustração do método dos mínimos quadrados.

O estimador b pode ser obtido recorrendo ao cálculo diferencial. Com efeito,


derivando
~ ~ ~ ~ ~ ~ ~ ~
ϕ ( β ) = U T U = (Y − Xβ )T (Y − Xβ ) = Y T Y − 2 β T X T Y + β T X T Xβ ,
Capítulo 2 – O Modelo de Regressão Linear Clássico 19

~
em ordem a β , obtém-se
~ ~
∇ϕ ( β ) = −2 X T Y + 2 X T X β ,
~ ~
onde ∇ϕ ( β ) é o gradiente de ϕ em ordem a β (vector k × 1 das derivadas parciais). O
minimizante b, que resulta da anulação do gradiente, verifica a seguinte igualdade:
(2.15) X T X b = X TY .
Sem dificuldade se verifica que
 ∑ n xt21 ∑
n
x x L ∑
n
x x 
 t =1 t =1 t 1 t 2

t =1 t1 tk

 x x 
∑t =1 xt 2 xt1 ∑ ∑
n n 2 n
x L
X X =
T t =1 t 2 t =1 t 2 tk 
,
 M M M 
 
 n x x 2 
 ∑t =1 tk t1 ∑ ∑t =1 xtk 
n n
x x
t =1 tk t 2
L

onde o elemento genérico desta matriz é Σtn=1 xti xtj (i, j = 1, 2, K , k ) , e


 ∑ n xt1 yt 
 t =1 
 n x y
X TY = 
∑t =1 t 2 t  ,
 M 
 
 n x y
 ∑t =1 tk t 
onde o respectivo elemento genérico é Σtn=1 xtj yt ( j = 1, 2, K , k ) .
No caso particular em que há termo independente, tem-se

∑ ∑ x x = ∑t =1 xtj ( j = 2, K , k ) , ∑ x y = ∑t =1 yt ,
n n n n n
x =n,
2
t =1 t1 t =1 t 1 tj t =1 t 1 t

uma vez que xt1 = 1 (t = 1, 2, K , n) .


Note-se que a igualdade (2.15) é um sistema de k equações lineares – as equa-
ções normais dos mínimos quadrados – nas k incógnitas b j ( j = 1, 2, K , k ) . Pode, en-
tão, escrever-se:
 n 2   n   n 
 ∑t =1 xt1  b1 +  ∑t =1 xt1 xt 2  b2 + L +  ∑t =1 xt1 xtk  bk = ∑t =1 xt1 yt
n

     
 n   n 2  n 
 ∑t =1 xt 2 xt1  b1 +  ∑t =1 xt 2  b2 + L +  ∑t =1 xt 2 xtk  bk = ∑t =1 xt 2 yt
n

(2.16)      
L

 n  b +  n x x  b + L +  n x2  b = n x y .

 ∑ t =1
xtk xt 1  1  ∑t =1 tk t 2  2
  
 ∑t =1 tk  k ∑t =1 tk t
 

Supondo que existe a matriz inversa de X T X , a solução do sistema (2.15) for-
nece o estimador MQ:
Capítulo 2 – O Modelo de Regressão Linear Clássico 20

 b1 
b 
 2
M
(2.17) b =   = ( X T X ) −1 X T Y ,
b
 j
M
bk 

onde cada b j é o estimador MQ do respectivo β j ( j = 1, 2, K , k ) .


~
Trata-se, de facto, do minimizante absoluto de ϕ ( β ) , pois a matriz das segundas
~
derivadas (a hesseana), ∇ 2ϕ ( β ) = 2 X T X , é definida positiva. No anexo 2A é apresen-
tado outro modo de obter o estimador MQ (a técnica “soma e subtrai”). Pode, também,
utilizar-se o símbolo β̂ MQ , em vez de b, para representar o estimador MQ de β .
Recorrendo a algumas das hipóteses do MRLC, o vector β dos coeficientes de
regressão pode ser determinado, de forma unívoca, exclusivamente à custa de momen-
tos da população que envolvem apenas variáveis observáveis. Com efeito, sejam as se-
guintes condições:
− Condição de ortogonalidade: E ( xtT•ut ) = 0 ;
− Condição de característica: r (Qxx ) = k , onde Qxx = E ( xtT• xt • ) .
Considerando a condição de ortogonalidade, e notando que ut = yt − xt • β , vem
E{xtT• ( yt − xt • β )} = E ( xtT• yt ) − E ( xtT• xt • ) β = 0 ,

obtendo-se o sistema de k igualdades


E ( xtT• xt • ) β = E ( xtT• yt ) ,

que mostra a existência de um conjunto de k restrições sobre a distribuição conjunta de


yt e xt • . Atendendo à condição de característica, sai, sem dificuldade,
(2.18) β = {E ( xtT• xt • )}−1 E ( xtT• yt ) = Qxx−1q xy ,

onde Qxx = E ( xtT• xt • ) e q xy = E ( xtT• yt ) . Deste modo, β é univocamente obtido a partir


de valores esperados da população que envolvem apenas variáveis observáveis. Diz-se,
então, que se identificou β [neste contexto, o problema da identificação do vector dos
parâmetros consiste em conhecer uma única forma de exprimir este vector em função de
momentos da população que envolvam apenas variáveis observáveis].
Vale a pena explorar o caso particular do modelo de regressão linear simples
com termo independente: yt = β1 + β 2 xt + ut . As duas restrições são as seguintes:
 β1 + E ( xt ) β 2 = E ( yt )

 E ( xt ) β1 + E ( xt ) β 2 = E ( xt yt ) .
2

Daqui, obtém-se
 E ( xt yt ) − E ( xt ) E ( yt ) Cov( xt , yt )
β 2 = =
(2.19)  E ( xt2 ) − {E ( xt )}2 Var( xt )
β = E ( y ) − β E ( x ) .
 1 t 2 t
Capítulo 2 – O Modelo de Regressão Linear Clássico 21

Uma vez identificado β , é possível encontrar outra via para determinar o res-
pectivo estimador MQ, que consiste em substituir os valores esperados da população,
Qxx e q xy , pelas respectivas médias amostrais:
1 n T 1 n
S xx =
n
∑ x x e s xy = ∑t =1 xtT• yt .
t =1 t • t •
n
Assim, a contrapartida amostral de {E ( xtT• xt • )}−1 E ( xtT• yt ) = Qxx−1qxy é dada por
−1
1 n T  1 n T
 ∑t =1 xt • xt •  ∑ x y = S xx−1sxy .
t =1 t • t
 n  n

Como
∑ ∑
n n
t =1
xtT• xt • = X T X e t =1
xtT• yt = X T Y ,

facilmente se verifica que


b = ( X T X ) −1 X T Y = S xx−1sxy .

Esta via de obtenção de b ilustra um princípio geral de obtenção de estimadores,


conhecido pela designação de princípio da analogia, uma vez que se considera a con-
trapartida amostral de certos momentos da população. Neste caso, trata-se de uma apli-
cação do método dos momentos.
A notação b = ( X T X ) −1 X T Y é mais adequada para o estudo das propriedades
exactas do estimador b; a outra notação, b = S xx−1s xy , é mais interessante para estabelecer
as respectivas propriedades assintóticas (ver capítulo 3).
Notando que
b = ( X T X ) −1 X T Y = ( X T X ) −1 X T ( Xβ + U ) = β + ( X T X ) −1 X T U ,
o desvio entre o estimador MQ e o verdadeiro valor do vector dos coeficientes de re-
gressão é dado por
(2.20) b − β = ( X T X ) −1 X T U .
Este desvio, designado por erro de amostragem, nunca pode ser determinado
de forma exacta porque β é desconhecido (U não é observável).

Exemplo 2.6 – Considerando de novo o exemplo 2.2, tem-se:


 1000 12609 11967 7256  6817.15962 5.815050
     
12609 164983 150520 92005 86283 .13112 0.055383
X T X =  

, X TY =  


, b= .
11967 150520 165085 86177 82060.65240 0.022988
     
 7256 92005 86177 76752  49573.99911 0.003953

Assim:
− A estimativa MQ da semi-elasticidade (pontual) do salário em relação ao número de
anos de escolaridade (retorno da educação) é igual a 0.0554, isto é, se a escolaridade
aumentar de um ano, o salário cresce, ceteris paribus, aproximadamente 5.54%.
Capítulo 2 – O Modelo de Regressão Linear Clássico 22

− A estimativa MQ da semi-elasticidade (pontual) do salário em relação ao número de


anos de experiência profissional é de 0.023. Assim, por cada ano de experiência, o
efeito parcial sobre o salário é de mais 2.3%.
− A estimativa MQ da semi-elasticidade (pontual) do salário em relação ao número de
anos de trabalho no emprego corrente é de 0.004. Portanto, o respectivo efeito par-
cial é, aproximadamente, 0.4%.
− Os sinais das três estimativas coincidem com os sinais esperados para os respectivos
parâmetros.

A seguir vai apresentar-se a fórmula do estimador MQ, (2.17), para alguns casos
particulares:
a) Modelo de regressão linear simples com termo independente:
Como yt = β1 + β 2 xt + ut , tem-se
 n x   n y 
∑ ∑ t
n

− X X = n
T t =1 t
, X T Y =  n t =1  ,
 x   xy
∑t =1 t ∑ ∑t =1 t t 
n 2
x t =1 t

 n x2 − n x 
− (X X ) =
T −1 1  ∑t =1 t ∑t =1 t  .
 
n∑t =1 xt2 −  ∑t =1 xt  − ∑t =1 xt
2 n
n n n

 
Donde
 n x2 − n x   n y 
 ∑t =1 t ∑t =1 t   ∑t =1 t  ,
 b1  1
b= =
−  n x y 
 ∑t =1 t  ∑t =1 t t 
2 n
b2 
  n∑t =1 xt2 −  ∑t =1 xt  x n
n n

 
ou

∑ ∑ ∑ ∑
n n n n
b = t =1
xt
2
t =1
y t − t =1
xt t
xy
=1 t t
,
 1
 
2
n∑t =1 xt −  ∑t =1 xt 
n 2 n

  
(2.21) 
n ∑t =1 xt yt − ∑t =1 xt ∑t =1 yt
n n n

b
 2 = 2
.
 
n∑t =1 xt −  ∑t =1 xt 
n 2 n 
  

Fazendo
1 n 1 n
y=
n ∑ t =1
yt e x = ∑t =1 xt ,
n
facilmente se mostra que

∑ ( xt − x ) 2 = ∑t =1 xt2 − n x 2 , ∑ ( xt − x )( yt − y ) = ∑t =1 xt yt − n x y .
n n n n
t =1 t =1

Então, pode verificar-se que as fórmulas (2.21) são equivalentes às seguintes:


Capítulo 2 – O Modelo de Regressão Linear Clássico 23



n
b = ( xt − x )( yt − y ) s xy sy
t =1
= = r

2 xy
(2.22) 
n
( xt − x ) 2 s x2 sx
t =1

b1 = y − b2 x ,

onde
1 n 1 n 1 n sxy
s y2 = ∑
n t =1
( yt − y ) 2
, s 2
x = ∑
n t =1
( xt − x ) 2
, s xy = ∑
n t =1
( xt − x )( yt − y ) , rxy =
sx s y
.

De acordo com o princípio da analogia, (2.22) é a contrapartida amostral de (2.19).


Note-se, também, que
1 x   y 
S xx =   e sxy =  .
 x (1 / n)∑t =1 xt2  (1 / n)∑t =1 xt yt 
n n

   
b) Modelo de regressão linear simples sem termo independente: yt = β xt + ut .
Tem-se
1
X T X = ∑t =1 xt2 , X T Y = ∑t =1 xt yt , ( X T X ) −1 = n
n n
,
∑t =1 t
x 2

e

n
xy
t =1 t t
(2.23) b= .

n 2
t =1 t
x

c) Modelo de regressão linear simples só com termo independente: yt = β + ut .


Obtém-se
1
X T X = n , X T Y = ∑t =1 yt , ( X T X ) −1 =
n

n
e

n
yt
(2.24) b= t =1
= y.
n
Verifica-se um resultado bem conhecido: o estimador MQ de E ( yt ) = β é a média
das observações do regressando.

Uma vez determinado o estimador MQ dos coeficientes de regressão, podem de-


finir-se os respectivos resíduos e os valores ajustados das observações do regressando.

Definição 2.3 – Resíduos MQ e valores ajustados das observações do regressando


O resíduo dos mínimos quadrados relativo à observação t é dado por
(2.25) uˆt = yt − yˆt ( t = 1, 2, K , n ),

onde yˆt = xt •b = b1 xt1 + b2 xt 2 + L + bk xtk é o valor ajustado da observação t do regressan-


do.
Capítulo 2 – O Modelo de Regressão Linear Clássico 24

O vector n × 1 dos resíduos MQ e o vector n × 1 dos valores ajustados das ob-


servações do regressando são, respectivamente,
 uˆ1   yˆ1 
uˆ   yˆ 
 2  2
M M
Uˆ =   e Yˆ =   = X b .
 uˆt   yˆ t 
M M
   
uˆ n   yˆ n 
É imediato concluir que Ŷ é o estimador do valor esperado de Y, condicionado
por X: Yˆ = Eˆ (Y | X ) .
Tem-se
(2.26) Uˆ = Y − Xb = Y − Yˆ .
É habitual chamar à função em que ŷt depende dos x tj ( j = 1, 2, K , k ) ,
(2.27) yˆ t = b1 xt1 + b2 xt 2 + L + bk xtk ,

função de regressão linear ajustada. Esta designação tem por finalidade salientar o
facto de esta função ter sido estimada e, portanto, de ser conhecida por meio de um pro-
cedimento empírico.
Não se deve confundir a função de regressão linear da população, µ ( xt • ) = xt • β ,
com a função de regressão linear ajustada (amostral), yˆ t = xt •b ; também não se deve
confundir as variáveis residuais, ut , com os resíduos MQ, ût . Facilmente se conclui que
se têm duas formas distintas de decompor yt : yt = µ ( xt • ) + ut e yt = yˆ t + uˆt . A primeira
refere-se à população, e a segunda à amostra.
O critério dos mínimos quadrados pode interpretar-se facilmente no caso do
modelo de regressão linear, yt = β1 + β 2 xt + ut , onde a componente sistemática é dada
por µ ( xt ) = β1 + β 2 xt . Esta componente é a função de regressão linear (recta teórica)
desconhecida, uma vez que os coeficientes de regressão são desconhecidos.
Quando se dispõe de n observações das duas variáveis do modelo, tem-se o res-
pectivo diagrama de dispersão:
{( yt , xt ) ∈ ℜ2 : t = 1,2, K , n } ,

que, por exemplo, corresponde à “nuvem” de pontos da figura 2.2. A função de re-
gressão linear estimada pelo método MQ (recta estimada), yˆt = b1 + b2 xt , é aquela que
“melhor” se ajusta à “nuvem” de pontos de ℜ 2 (ver figura 2.2).
Assim, deve distinguir-se entre (ver figura 2.3):
− O ponto [ xt , µ ( xt ) ], que se encontra sobre a recta teórica;
− O ponto ( xt , yˆt ) , que está sobre a recta estimada;
− O ponto ( xt , yt ) , que corresponde aos valores observados.
Então:
Capítulo 2 – O Modelo de Regressão Linear Clássico 25

− yt − µ ( xt ) = ut é o valor da variável residual (não observável, uma vez que β1 e β 2


são desconhecidos);
− yt − yˆt = uˆt é o resíduo MQ relativo à observação t.

Fig. 2.2 – Diagrama de dispersão.

yt E (Y ) = β 1 + β 2 x
 
 u t
 
û t 
 yˆ = b1 + b2 x


0 xt x
Fig. 2.3 – Rectas teórica e ajustada.

Exemplo 2.7 – Retomando o exemplo 2.6, a respectiva função ajustada é a seguinte:


^
lsalart = 5.81505 + 0.055383 educt + 0.022988 expert + 0.003953 empct .

Os vectores dos valores ajustados das observações do regressando e dos resíduos


(os dois primeiros e os dois últimos) são, respectivamente,
Capítulo 2 – O Modelo de Regressão Linear Clássico 26

6.85855  0.67918
   
 6.86923 − 0.55743
Yˆ =  M  e Uˆ =  M .
   
6.78640  0.27268
 6.83633  0.43881
   
8

7.5

6.5

5.5
0 10 20 30 40 50 60 70 80 90 100

Observado Ajustado

Fig. 2.4 – Primeiras 100 observações de lsalar e respectivos valores ajustados.

1.5

0.5

-0.5

-1

-1.5
0 10 20 30 40 50 60 70 80 90 100

Resíduos

Fig. 2.5 – Primeiros 100 resíduos MQ.

Na figura 2.4 apresenta-se o gráfico das observações do regressando (lsalar) e


dos respectivos valores ajustados, para os primeiros 100 trabalhadores (como os dados
são seccionais, a ordem dos trabalhadores que fazem parte da amostra é irrelevante). Na
figura 2.5 pode ver-se a representação gráfica dos respectivos resíduos.
O primeiro resíduo (0.67918) mostra que o modelo ajustado prevê, para o logari-
tmo do salário o valor 6.85855 que é inferior àquele que foi observado (7.53773). Como
o segundo resíduo é negativo (– 0.55743), o valor previsto (6.86923) é superior ao valor
observado (6.31180).

Capítulo 2 – O Modelo de Regressão Linear Clássico 27

2.4 - Propriedades dos resíduos dos mínimos quadrados

Esta secção destina-se a apresentar as propriedades dos resíduos MQ.

Propriedade 2.1 – A matriz PX = I n − X ( X T X ) −1 X T é simétrica ( PXT = PX ), idempo-


tente ( PX PX = PX2 = PX ), e transforma as observações do regressando nos resíduos MQ,
(2.28) Uˆ = PX Y .

Demonstração: Com efeito, é imediato verificar que PX é simétrica e idempotente. Para


verificar (2.28) faz-se
Uˆ = Y − Xb = Y − X ( X T X ) −1 X T Y = {I n − X ( X T X ) −1 X T }Y = PX Y .
∇∇

Propriedade 2.2 – A matriz PX transforma as variáveis residuais nos resíduos MQ,


(2.29) Uˆ = PX U .

Demonstração: Com efeito,


Uˆ = PX Y = PX ( Xβ + U ) = PX Xβ + PX U .
Como PX X = {I n − X ( X T X ) −1 X T } X = O (matriz nula), obtém-se o resultado
pretendido.
∇∇

As duas propriedades anteriores permitem obter o vector Û a partir do vector Y,


ou do vector U, pré-multiplicando estes vectores pela matriz simétrica, idempotente,
PX . Na demonstração da propriedade 2.2 provou-se, também, que PX X = O .

Propriedade 2.3 - A matriz H X = X ( X T X ) −1 X T = I n − PX é simétrica, idempotente, ve-


rifica H X PX = O e transforma as observações do regressando nos respectivos valores
ajustados,
(2.30) Yˆ = H X Y .

Demonstração: Facilmente se verifica que H X = H XT e H X = H X2 , ficando provado que


H X é simétrica e idempotente. É imediato concluir que H X = I n − PX e H X PX = O .
Para demonstrar (2.30), basta notar que
Yˆ = Xb = X ( X T X ) −1 X T Y = H X Y .
∇∇

A propriedade anterior mostra que pode obter-se o vector Ŷ à custa do vector Y,


pré-multiplicando este vector pela matriz simétrica, idempotente, H X . Facilmente se
mostra que H X X = X .
Capítulo 2 – O Modelo de Regressão Linear Clássico 28

As matrizes H X e PX = I n − H X desempenham um papel fundamental na álge-


bra dos mínimos quadrados. Como estas matrizes são simétricas e idempotente, e como
tr ( H X ) = tr{ X ( X T X ) −1 X T } = tr{ X T X ( X T X ) −1} = tr ( I k ) = k ,

pode concluir-se que:


r ( H X ) = tr ( H X ) = k e r ( PX ) = tr ( PX ) = tr ( I n ) − tr ( H X ) = n − k .

Sejam
ht = xt • ( X T X ) −1 xtT• e pt = 1 − ht (t = 1, 2, K , n)

os elementos da diagonal principal das matrizes H X e PX , respectivamente. Conclui-se


imediatamente que 0 ≤ ht ≤ 1 e 0 ≤ pt ≤ 1 . Também se tem

tr ( H X ) = ∑t =1 ht = k , tr ( PX ) = ∑t =1 pt = n − k e ∑ h + ∑t =1 pt = n .
n n n n
t =1 t

Propriedade 2.4 – A soma dos quadrados dos resíduos MQ é

∑ uˆt2 = Uˆ T Uˆ = Y T PX Y = U T PX U .
n
(2.31) t =1

Demonstração: Com efeito,


Uˆ T Uˆ = Y T PXT PX Y = Y T PX2Y = Y T PX Y .

Da mesma forma se demonstra que Uˆ T Uˆ = U T PX U .


∇∇

Note-se que Uˆ TUˆ = Y T PX Y = Y T {I − X ( X T X ) −1 X T }Y é o mínimo absoluto de


~
ϕ ( β ) [soma dos quadrados dos resíduos].

Propriedade 2.5 – O valor esperado da soma dos quadrados dos resíduos MQ, condi-
cionado por X, é dado por

E  ∑t =1 uˆt2 | X  = E (Uˆ TUˆ | X ) = (n − k )σ 2 .


n
(2.32)
 

Demonstração: Com efeito, notando que tr ( PX ) = n − k , tem-se


E (Uˆ TUˆ | X ) = E (U T PX U | X ) = E{tr (U T PX U ) | X } = E{tr ( PX UU T ) | X }
= tr{E ( PX UU T | X )} = tr{PX E (UU T | X )} = σ 2 tr ( PX ) = (n − k )σ 2 .
∇∇

Facilmente se verifica que

E  ∑t =1 ut2 | X  = E (U TU | X ) = nσ 2 .
n

 
Capítulo 2 – O Modelo de Regressão Linear Clássico 29

Intuitivamente, o valor esperado condicionado de (2.32) não é nσ 2 , como acon-


tece com a soma dos quadrados dos ut , mas sim (n − k )σ 2 , porque houve a necessidade
de estimar previamente os k coeficientes de regressão.
Também se conclui que: E (Uˆ T Uˆ ) = (n − k )σ 2 .

Propriedade 2.6 – A soma dos quadrados dos valores ajustados das observações do re-
gressando é

∑ Yˆ = Yˆ T Yˆ = Y T H X Y .
n 2
(2.33) t =1 t

Demonstração: Com efeito,


Yˆ T Yˆ = Y T H TX H X Y = Y T H X2 Y = Y T H X Y .
∇∇

Propriedade 2.7 – O vector dos resíduos MQ é ortogonal aos regressores,

X TUˆ = 0 ⇔ ∑t =1 xtj uˆt = 0 ( j = 1, 2,K , k ) .


n
(2.34)

Demonstração: Com efeito, X TUˆ = X T PX U = 0 , uma vez que X T PX = O .


∇∇

A relação X TUˆ = 0 constitui um sistema homogéneo de k equações independen-


tes nas n incógnitas uˆ1 , uˆ 2 , K , uˆ n . O grau de indeterminação deste sistema é n − k , o nú-
mero de graus de liberdade do modelo. Isto significa que os resíduos MQ estão su-
jeitos a k restrições lineares, e, portanto, apenas n − k podem variar livremente. Dados
n − k valores para os resíduos, os outros k valores podem ser calculados resolvendo o
sistema X TUˆ = 0 .
O resultado (2.34) também podia ser obtido imediatamente a partir das equações
normais. Com efeito, X T X b = X T Y implica que X T (Y − X b) = X TUˆ = 0 [obviamente,
o mesmo resultado podia ser obtido a partir das k igualdades (2.16)].
Como
1 n
X TUˆ = 0 ⇔ ∑t =1 xt •uˆt = 0 ,
n
facilmente se conclui que as equações normais podem ser interpretadas como a con-
trapartida amostral (empírica) das condições de ortogonalidade, E ( xt •ut ) = 0 .

Propriedade 2.8 – O vector dos resíduos MQ é ortogonal a Ŷ ,

Uˆ T Yˆ = Yˆ T Uˆ = 0 ⇔ ∑t =1 uˆt yˆ t = 0 .
n
(2.35)

Demonstração: Com efeito, devido a (2.34), tem-se Uˆ T X = 0 . Logo,


Yˆ TUˆ = Uˆ T Yˆ = Uˆ T X b = 0 .
∇∇
Capítulo 2 – O Modelo de Regressão Linear Clássico 30

O resultado (2.35) também se pode provar a partir das propriedades 2.1 e 2.3.
Com efeito, basta notar que
Uˆ T Yˆ = Yˆ TUˆ = Y T H X PX Y = 0 .

Propriedade 2.9 - Se o modelo tem termo independente, então a soma dos resíduos MQ
é igual a zero:


n
(2.36) t =1
uˆt = 0 .

Demonstração: Com efeito, como a primeira coluna de X é x•1 = e = [ 1 1 L 1 ] T , e sa-


bendo que X TUˆ = 0 , obtém-se

x•T1Uˆ = 0 ⇔ eT Uˆ = 0 ⇔ ∑t =1 uˆt = 0 .
n

∇∇

Esta propriedade é a contrapartida amostral de E (ut ) = 0 .


Quando o modelo não tem termo independente, a soma dos resíduos MQ, em ge-
ral, não é nula.
O resultado (2.36) pode demonstrar-se directamente a partir da primeira igualda-
de de (2.16), fazendo xt1 = 1. Com efeito, tem-se

∑ uˆ = ∑t =1{ yt − (b1 + b2 xt 2 + b3 xt 3 + L + bk xtk )}


n n
t =1 t

= ∑t =1 yt − n b1 − b2 ∑t =1 xt 2 − b3 ∑t =1 xt 3 − L − bk ∑t =1 xtk = 0 .
n n n n

Sabendo que yt = yˆ t + uˆt , e utilizando a propriedade 2.9, verifica-se imediata-


mente que
∑t =1 yˆ t = ∑t =1 yt .
n n

e, portanto, y = yˆ (a média das observações do regressando é igual à média dos respec-


tivos valores estimados).
Também se conclui sem dificuldade que y = x b , onde x = [ 1 x2 L xk ] é o
vector das médias das observações dos regressores (quando x = x , o valor previsto de y
é y ). Deste modo, o ponto ( y , x2 , x3 , K , xk ) [centro de gravidade da “nuvem” de pon-
tos; ver figura 2.2] verifica a função de regressão ajustada, (2.27). De facto, como
yt = b1 + b2 xt 2 + b3 xt 3 + L + bk xtk + uˆt ( t = 1, 2, K , n ),

vem
∑ yt = n b1 + b2 ∑t =1 xt 2 + b3 ∑t =1 xt 3 + L + bk ∑t =1 xt 3 + ∑t =1 uˆt
n n n n n
i =1

ou, devido a (2.36), y = b1 + b2 x2 + b3 x3 + L + bk xk .


Como
∑t =1 xtj uˆt = ∑t =1 ( xtj − x j ) uˆt ,
n n
Capítulo 2 – O Modelo de Regressão Linear Clássico 31

resulta da propriedade 2.7 que a covariância amostral entre xtj e ût é nula.
Como
∑t =1 uˆt yˆ t = ∑t =1 uˆt ( yˆ t − y ) ,
n n

tem-se, devido à propriedade 2.8, que a covariância amostral entre ût e ŷt é nula.

Propriedade 2.10 – A soma dos quadrados das observações do regressando é igual à


soma dos quadrados dos respectivos valores ajustados mais a soma dos quadrados dos
resíduos MQ,

∑ yt2 = ∑t =1 yˆ t2 + ∑t =1 uˆt2 ⇔ Y T Y = Yˆ T Yˆ + Uˆ T Uˆ .
n n n
(2.37) t =1

Demonstração: Com efeito, notando que Y = Yˆ + Uˆ , tem-se


Y T Y = (Yˆ + Uˆ )T (Yˆ + Uˆ ) = Yˆ T Yˆ + 2 Uˆ T Yˆ + Uˆ T Uˆ .

Então, devido à propriedade 2.8, obtém-se o resultado pretendido.


∇∇

Notando que Uˆ = PX U , conclui-se imediatamente que


E (Uˆ | X ) = E (Uˆ ) = 0 e Cov(Uˆ | X ) = σ 2 PX .
Como a matriz PX é semidefinida positiva (o determinante é nulo), a distribuição
conjunta dos resíduos MQ, condicionada por X, é degenerada (a matriz das cova-
riâncias de Û , condicionadas por X, é singular).
No anexo 2A aprofunda-se a interpretação geométrica do método dos mínimos
quadrados.

2.5 - Propriedades do estimador dos mínimos quadrados dos coeficientes de re-


gressão

Nesta secção vão apresentar-se algumas das propriedades mais importantes do


estimador b (estimador MQ de β ): não enviesamento, linearidade e eficiência. Estas
propriedades costumam designar-se por propriedades exactas, uma vez que são verda-
deiras, qualquer que seja o número n de observações. Diz-se, também, que são proprie-
dades para pequenas amostras ou para amostras de dimensão finita.

Propriedade 2.11 – O estimador MQ de β , b, condicionado ou não por X, é não en-


viesado ou centrado. Assim,
(2.38) E (b | X ) = β ,
e
(2.39) E (b) = β .
Capítulo 2 – O Modelo de Regressão Linear Clássico 32

Demonstração: Com efeito, notando que b = ( X T X ) −1 X T Y e que E (Y | X ) = Xβ , tem-


-se
E (b | X ) = ( X T X ) −1 X T E (Y | X ) = ( X T X ) −1 X T Xβ = β .
Imediatamente se conclui que E (b) = E{E (b | X )} = β .
∇∇

A propriedade (2.38) significa que, se fosse possível obter muitas observações


particulares do vector Y, para a mesma matriz X, obtinham-se outras tantas estimativas
b, que, em média, tenderiam para o verdadeiro valor do vector dos coeficientes, β . Po-
de, então, afirmar-se que o não enviesamento de b garante que este estimador é “correc-
to em média”. Contudo, para a amostra observada, a estimativa obtida, b, não coincide,
em geral, com o verdadeiro valor de β . O maior ou menor afastamento entre b e β de-
pende da amostra.
O resultado (2.39) pode ser interpretado do seguinte modo: se calcular-se b para
todas as amostras possíveis (Y , X ) – variando não só Y, mas também X –, a média dos
valores calculados seria o verdadeiro valor do vector β . Esta conclusão, porventura, é
mais interessante para a Economia do que (2.38), porque as amostras diferem em Y, e
em X.

Propriedade 2.12 – O estimador b, condicionado por X, é linear em Y.

Demonstração: Com efeito, basta notar que b = AY , onde A = ( X T X ) −1 X T , ficando a


linearidade garantida porque a matriz A é fixada.
∇∇

Facilmente se encontra um exemplo de estimador de β , linear e não enviesado,


diferente do estimador b. Seja o modelo de regressão linear, yt = β1 + β 2 xt + ut . Consi-
derando a amostra {( yt , xt ) : t = 1, 2, K , n} , propõe-se o seguinte estimador de β 2 :
y2 − y1
βˆ2 = .
x2 − x1

Este estimador é manifestamente linear em y1 , y 2 , K , yn . Com efeito, basta notar


que β̂ 2 = a1 y1 + a2 y2 + L + an yn , onde
1 1
a1 = − , a2 = , a3 = 0 , ..., an = 0 .
x2 − x1 x2 − x1

Como y2 − y1 = β 2 ( x2 − x1 ) + (u2 − u1 ) , tem-se


u2 − u1
βˆ2 = β 2 + ⇒ E ( βˆ2 | x1 , x2 , K , xn ) = β 2 ,
x2 − x1

provando-se, assim, que o estimador é não enviesado.


Capítulo 2 – O Modelo de Regressão Linear Clássico 33

Para se ter linearidade, é indispensável supor que a matriz X é dada. Caso contrá-
rio, a matriz A é estocástica e o estimador não é linear. Como vai ver-se, há muitos esti-
madores que não são lineares.
A propriedade seguinte vai permitir conhecer as expressões da variância de b j
( j = 1, 2, K, k ) , e da covariância entre bi e b j (i, j = 1, 2, K, k ; i ≠ j ) , todas condiciona-
das por X. Vai determinar-se a matriz das covariâncias de b condicionada por X,
 Var (b1 | X ) Cov(b1 , b2 | X ) L Cov(b1 , bk | X ) 
 
Cov(b2 , b1 | X ) Var (b2 | X ) L Cov(b2 , bk | X )
Cov(b | X ) =  .
M M M
 
Cov(bk , b1 | X ) Cov(bk , b2 | X ) L Var (bk | X ) 

Propriedade 2.13 – A matriz das covariâncias de b, condicionada por X, é


(2.40) Cov(b | X ) = σ 2 ( X T X ) −1 .

Demonstração: Com efeito,


Cov(b | X ) = Cov{( X T X ) −1 X T Y | X }
= ( X T X ) −1 X T Cov(Y | X ) X ( X T X ) −1
= σ 2 ( X T X ) −1 ,

pois Cov( AY | X ) = A Cov(Y | X ) AT e Cov(Y | X ) = σ 2 I .


∇∇

Quando se está interessado apenas num coeficiente de regressão, β j , a proprie-


dade 2.13 permite escrever
(2.41) Var(b j | X ) = σ b2j = σ 2 m jj ( j = 1, 2, K , k ) ,

onde m jj é o elemento diagonal de ordem j da matriz ( X T X ) −1 .


Dada a matriz X, Cov(b | X ) traduz a dispersão ou variabilidade média do esti-
mador b, e, portanto, fornece uma base para a comparação do desempenho do estimador
MQ de β com outros estimadores.
Notando que Cov(b) = E{Cov(b | X )} + Cov{E (b | X )} [propriedade k) dos valo-
res esperados condicionados], e que a matriz das covariâncias de um vector constante é
nula, tem-se
Cov(b) = σ 2 E{( X T X ) −1} .
Verifica-se, assim, que a matriz das covariâncias não condicionadas de b só po-
de ser descrita em termos do comportamento médio de ( X T X ) −1 .
No caso particular do modelo de regressão linear simples com termo indepen-
dente, yt = β1 + β 2 xt + ut , tem-se,
Capítulo 2 – O Modelo de Regressão Linear Clássico 34




n
 x2
t =1 t
 Var (b1 | X ) = σ 2
2
,
 
n∑t =1 xt −  ∑t =1 xt 
n 2 n 
  

 n
Var (b2 | X ) = σ
2
(2.42) 2
,
 
n∑t =1 xt −  ∑t =1 xt 
n 2 n 
  

∑t =1 xt
n

Cov(b1 , b2 | X ) = −σ
2
2
.
 
n∑t =1 xt −  ∑t =1 xt 
n 2 n 
  

Neste caso, a variância de b2 , condicionada por X, pode também ser apresentada


do seguinte modo:
σ2 σ2
(2.43) Var (b2 | X ) = = .
∑t =1 ( xt − x )2
n
n sx2

Este resultado mostra que a precisão na estimação de β 2 é tanto maior quanto


menor for a variância das variáveis residuais (medida por σ 2 ) e quanto maior for a dis-
persão das observações do regressor xt [medida por Σ ( xt − x ) 2 ].
No modelo de regressão linear simples sem termo independente, yt = β xt + ut ,
obtém-se
σ2
(2.44) Var(b | X ) = .

n
x2
t =1 t

No caso do modelo só com termo independente, yt = β + ut , tem-se


σ2
Var (b) = ,
n
resultado já conhecido da estatística clássica.
A seguir, vai estudar-se a propriedade da eficiência.

Propriedade 2.14 – Qualquer que seja o estimador β̂ de β , linear e não enviesado, a


matriz
Cov( βˆ | X ) − Cov(b | X )
é semidefinida positiva.

Demonstração: Com efeito, seja C uma matriz k × n , função de X. Considere-se o esti-


mador de β , β̂ = CY , e suponha-se que este estimador é linear em Y (condicionado por
X), e que E ( βˆ | X ) = β . Sem perda de generalidade, pode fazer-se
C = ( X T X ) −1 X T + D ,
Capítulo 2 – O Modelo de Regressão Linear Clássico 35

onde D é função de X.
Como
E ( βˆ | X ) = C E (Y | X ) = {( X T X ) −1 X T + D} Xβ = β + DXβ ,
conclui-se que
E ( βˆ | X ) = β ⇔ DX = O .
Donde
Cov( βˆ | X ) = C Cov(Y | X ) C T = σ 2{( X T X ) −1 X T + D}{ X ( X T X ) −1 + DT }
= σ 2{( X T X ) −1 + ( X T X ) −1 X T DT + DX ( X T X ) −1 + DDT }
= σ 2{( X T X ) −1 + DDT } ,

pois DX = O . Então,
Cov( βˆ | X ) − Cov(b | X ) = σ 2 DDT .
Como DDT é semidefinida positiva, fica provado que Cov( βˆ | X ) − Cov(b | X )
é semidefinida positiva.
∇∇

Esta propriedade garante que b é, condicionado por X, o estimador mais efi-


ciente na classe dos estimadores lineares não enviesados. Diz-se, então, que b é BLUE
(utilizando a sigla da expressão Best Linear Unbiased Estimator). Este resultado é
conhecido por teorema de Gauss-Markov, e significa que, se a classe dos estimadores
possíveis for restringida à dos estimadores lineares não enviesados, então o estimador
MQ de β é aquele que apresenta melhor desempenho amostral, com base no critério da
minimização da dispersão.
Uma consequência importante da propriedade 2.14 é que a variância de cada b j
( j = 1, 2, K, k ) é menor ou igual à variância do respectivo β̂ j (qualquer estimador de
β j , linear e não enviesado), supondo que ambas as variâncias são condicionadas por X:
Var(b j | X ) ≤ Var( βˆ j | X ) .

Pode demonstrar-se um resultado semelhante ao da propriedade 2.14, utilizando


as matrizes das covariâncias não condicionadas. Vai, então, provar-se que
Cov( βˆ ) − Cov(b)
é semidefinida positiva, quando β̂ está nas mesmas condições da propriedade 2.14.
Com efeito, como
Cov( βˆ ) = E{Cov( βˆ | X )} = σ 2 E{( X T X ) −1 + DDT },

Cov(b) = E{Cov(b | X )} = σ 2 E{( X T X ) −1},


tem-se
Cov( βˆ ) − Cov(b) = σ 2 E ( DD T ) ,
que é semidefinida positiva.
Capítulo 2 – O Modelo de Regressão Linear Clássico 36

Facilmente se propõe um estimador de β , linear e enviesado, com matriz de


covariâncias condicionadas “inferior” à do estimador b. Com efeito, basta considerar
βˆ = β 0 ≠ β . Este estimador apresenta as seguintes características: é trivialmente linear
em Y; é enviesado, uma vez que E ( βˆ | X ) = β 0 ≠ β e Cov( βˆ | X ) = O .
Evidentemente, a questão da escolha dos “melhores” estimadores é mais com-
plexa do que a análise feita pode dar a entender. Com efeito, podem propor-se outros
critérios de escolha, e ou podem considerar-se classes de estimadores mais amplas ou
mais restritas do que a classe dos estimadores lineares não enviesados. Por exemplo, se
a classe de estimadores considerada admitir estimadores enviesados, o critério de esco-
lha pode ser o da minimização do erro quadrático médio. É curioso notar que, em algu-
mas situações, o estimador MQ ainda pode ser o “melhor” estimador, tendo por base
critérios diferentes daquele que conduziu ao estimador BLUE. Este assunto é retomado
mais adiante, a propósito dos estimadores de máxima verosimilhança.
Pode demonstrar-se que
Cov(b, Uˆ | X ) = O ,
onde O é a matriz nula de tipo k × n . Com efeito, como E (b | X ) = β e E (Uˆ | X ) = 0 ,
tem-se
Cov(b, Uˆ | X ) = E{(b − β ) Uˆ T | X } .
Notando que b − β = ( X T X ) −1 X T U e Uˆ = PX U , vem
Cov(b, Uˆ | X ) = E{( X T X ) −1 X TU U T PX | X } = σ 2 ( X T X ) −1 X T PX = O ,
uma vez que X T PX = O .
Quando δ = Rβ , onde R é uma matriz m × k , e δ , um vector m × 1 , têm-se m
combinações lineares dos coeficientes de regressão,
δ 1 = r11 β1 + r12 β 2 + L + r1k β k
δ = r β + r β + L + r β
 2 21 1 22 2 2k k

L
δ m = rm1 β1 + rm 2 β 2 + L + rmk β k .

Sem dificuldade se demonstra que, condicionado por X, o estimador BLUE de


ˆ
δ é δ = Rb , onde b é o estimador MQ de β . Neste caso, o erro de amostragem é dado
por δˆ − δ = R( X T X ) −1 X TU .
Tem-se
(2.45) Cov(δˆ | X ) = σ 2 R( X T X ) −1 RT .
Com efeito,
Cov(δˆ | X ) = Cov( Rb | X ) = R Cov(b | X ) RT = σ 2 R( X T X ) −1 RT .
Por exemplo, se k = 5 e
Capítulo 2 – O Modelo de Regressão Linear Clássico 37

δ1 = 2 β 2 − β 4

δ 2 = β3 + β5 ,

tem-se
0 2 0 − 1 0 δ1 
R=  e δ = .
0 0 1 0 1 δ 2 
  
Então,
δˆ1 = 2b2 − b4

δˆ2 = b3 + b5 .

O cálculo das respectivas variâncias e covariância condicionadas por X é imedia-


to. Obtém-se:
Var (δˆ1 | X ) = Var (2b2 − b4 | X ) = 4 Var (b2 | X ) + Var (b4 | X ) − 4 Cov(b2 , b4 | X ) ,

Var (δˆ2 | X ) = Var(b3 + b5 | X ) = Var (b3 | X ) + Var (b5 | X ) + 2 Cov(b3 , b5 | X ) ,

Cov(δˆ1 , δˆ2 | X ) = Cov(2b2 − b4 , b3 + b5 | X )


= 2 Cov(b2 , b3 | X ) + 2 Cov(b2 , b5 | X ) − Cov(b4 , b3 | X ) − Cov(b4 , b5 | X ).

Apresenta-se, a seguir, um resultado muito importante que permite uma sugesti-


va interpretação dos estimadores MQ dos coeficientes de regressão (para mais por-
menores, ver no anexo 2A, a subsecção “Regressão por blocos”).
Seja
β 
X = [X 1 X 2 ] e β =  •1  ,
 β •2 
onde:
− X 1 é a matriz n × k1 dos primeiros k1 regressores;
− X 2 é a matriz n × k2 dos últimos k2 regressores;
− k1 + k2 = k ;
− β •1 e β •2 são os respectivos vectores dos coeficientes de regressão.
Então, a relação Y = Xβ + U pode escrever-se da seguinte maneira:
Y = X 1 β •1 + X 2 β •2 + U .
Vai provar-se que
b•1 = ( X 1T P2 X 1 ) −1 X 1T P2 Y ,

b• 2 = ( X 2T P1 X 2 ) −1 X 2T P1Y ,

onde P1 = I n − X 1 ( X 1T X 1 ) −1 X 1T e P2 = I n − X 2 ( X 2T X 2 ) −1 X 2T .
Com efeito, a partir das equações normais, X T X b = X T Y , obtém-se
 X 1T X 1b•1 + X 1T X 2b• 2 = X 1T Y
 T
 X 2 X 1b•1 + X 2 X 2b• 2 = X 2 Y .
T T
Capítulo 2 – O Modelo de Regressão Linear Clássico 38

Resolvendo a primeira igualdade em relação a b•1 ,


b•1 = ( X 1T X 1 ) −1 ( X 1T Y − X 1T X 2b•2 ) ,
e substituindo na segunda, vem
X 2T X 1 ( X 1T X 1 ) −1 ( X 1T Y − X 1T X 2b•2 ) + X 2T X 2b•2 = X 2T Y ,
ou
X 2T X 2b•2 − X 2T X 1 ( X 1T X 1 ) −1 X 1T X 2b•2 = X 2T Y − X 2T X 1 ( X 1T X 1 ) −1 X 1T Y ,
ou ainda
X 2T P1 X 2b• 2 = X 2T P1Y ,
obtendo-se o resultado pretendido. Da mesma forma se tem o estimador b•1 (no anexo
2A deduzem-se estes resultados utilizando a técnica da inversão de matrizes por blo-
cos).
Suponha-se que se pretende estimar o efeito ceteris paribus de X 2 sobre Y (isto
é, expurgado das eventuais influências de X 1 ). Para isso, considerem-se as seguintes re-
gressões:
~ ~
a) Y = X 1b•′1 + Y 1 , onde Y 1 = P1Y é o vector dos resíduos;
~ ~
b) X 2 = X 1B1 + X 2 , onde X 2 = P1 X 2 é a matriz dos resíduos destas k2 regressões ( B1 é
matriz k1 × k2 );
~ ~
c) Y 1 = X b∗ + Uˆ 1 .
2 •2

Assim:
− A regressão a) permite obter as observações do regressando expurgadas da influência
~
de X 1 (estes valores são os respectivos resíduos, Y 1 ).
~
− A regressão b) procura determinar X 2 “purificado” da influência de X 1 , isto é, X 2 .
− Em c) faz-se a regressão dos resíduos obtidos em a) sobre os resíduos resultantes de
b). Obtém-se
~ ~ ~ ~
b•∗2 = ( X 2T X 2 ) −1 X 2T Y 1 .

Facilmente se prova que b•∗2 = b•2 (ver anexo 2A). Com efeito, basta notar que
~ ~ ~ ~
b•∗2 = ( X 2T X 2 ) −1 X 2T Y 1 = ( X 2T P1 X 2 ) −1 X 2T P1Y = b• 2 .
Este resultado é conhecido pela designação de teorema de Frisch-Waugh-Lo-
vell (FWL), e tem a seguinte interpretação: a estimativa do efeito ceteris paribus de
X 2 sobre Y (isto é, expurgado das eventuais influências de X 1 ) é dada por b•2 , e ob-
tém-se fazendo a regressão de Y sobre X 1 e X 2 ; esta estimativa não acusa a influência
dos regressores considerados em X 1 desde que tais regressores sejam explicitados no
modelo.
Esta interpretação é simples numa situação com dois regressores. Assim, supo-
nha-se que se procura conhecer o efeito de xt 2 sobre yt , sabendo que tanto xt 2 como
yt são influenciados por xt 3 . Se adoptar-se o modelo yt = α1 + α 2 xt 2 + vt , o parâmetro
α 2 não mede o efeito pretendido, porque aquela influência comum “perturba” a relação
Capítulo 2 – O Modelo de Regressão Linear Clássico 39

entre xt 2 e yt (o regressor omisso, xt 3 , está incluído na variável residual, vt ). A estima-


tiva do efeito “puro” pretendido pode ser conseguida depois de eliminar o efeito do re-
gressor “perturbador”. Para isso, vão fazer-se duas regressões MQ: a regressão de yt
sobre 1 e xt 3 ; a regressão de xt 2 sobre 1 e xt 3 . Os resíduos da primeira regressão, ~ yt ,
representam yt “expurgado” da influência de xt 3 (e do termo independente); os resí-
duos da segunda regressão, ~ xt 2 , representam xt 2 “expurgado” da influência de xt 3 (e do
termo independente). A estimativa do efeito parcial (ceteris paribus) pretendido é, en-
tão, obtida fazendo uma terceira regressão MQ, de ~ yt sobre ~xt 2 (sem termo indepen-
dente).
Considerando o modelo yt = β1 + β 2 xt 2 + β3 xt 3 + ut , o efeito parcial xt 2 sobre yt
pode ser estimado com o yˆt = b1 + b2 xt 2 + b3 xt 3 . O valor de b2 é uma estimativa daquele
efeito “puro”, não sendo necessário obter previamente os resíduos resultantes da correc-
ção da influência de xt 3 , e proceder em seguida à regressão com os resíduos.
Uma situação interessante que ilustra bem aquela interpretação é a seguinte: ad-
mita-se que é proposto o modelo, com dados temporais, yt = β1 + β 2 xt + ut , mas sabe-
-se que, tanto o regressando, yt , como o regressor, xt , têm uma tendência linear. Nes-
tas condições, a estimativa MQ de β 2 mede o efeito de xt sobre yt influenciado pela
tendência. Então, para obter uma estimativa de β 2 expurgada da tendência, é mais ade-
quado considerar o modelo yt = β1 + β 2 xt + β 3 t + ut , onde se explicitou o regressor t.

Exemplo 2.8 – Quando se faz a regressão MQ de lsalar sobre 1, educ, exper e empc,
obtém-se a estimativa do coeficiente de educ: 0.055383. Este valor é também obtido fa-
zendo três regressões. A primeira, é a regressão de lsalar sobre 1, exper e empc, onde os
respectivos resíduos representam os logaritmos dos salários expurgados da influência
das variáveis consideradas na regressão. A segunda tem por objectivo obter os valores
de educ expurgados da influência das mesmas variáveis. Para isso, basta fazer a regres-
são MQ de educ sobre 1, exper e empc, e considerar os respectivos resíduos. A terceira,
consiste em fazer a regressão MQ dos resíduos obtidos com a primeira regressão sobre
os resíduos dados pela segunda regressão (sem termo independente). Pode verificar-se
que a estimativa do coeficiente dos segundos resíduos é ainda 0.055383. Os cálculos fi-
cam ao cuidado do leitor.

2.6 - Estimador não enviesado da variância das variáveis residuais

Como σ 2 = E (ut2 ) – recorde-se que Var(ut2 ) = σ 2 e E (ut ) = 0 –, um estimador


“natural” (não enviesado) de σ 2 seria


n 2
U TU u
σ̂ =
2
= t =1 t
,
n n
uma vez que
1  n 2 1 n
n  ∑t =1 t  n ∑t =1
E (σˆ 2 ) = E u = E (ut2 ) = σ 2 .
Capítulo 2 – O Modelo de Regressão Linear Clássico 40

Como ut não é observável, vai propor-se um estimador não enviesado de σ 2 ,


usando os resíduos MQ, ût , em vez de ut ( ût é observável porque se substitui cada β j
pelo respectivo b j ). Assim, com base na propriedade 2.5 dos resíduos MQ, tem-se:

Uˆ TUˆ ∑t =1 uˆt
2 n

(2.46) s =
2
= .
n−k n−k
Evidentemente, este estimador, condicionado por X, é não enviesado,
(2.47) E (s 2 | X ) = σ 2 .
Com algum abuso de linguagem, pode dizer-se que s 2 é o estimador MQ de σ 2 .
A justificação desta afirmação pouco rigorosa pode encontrar-se no facto de s 2 ser cal-
culado utilizando a soma dos quadrados dos resíduos MQ. Note-se que s 2 é uma forma
quadrática em Y (e em U), porquanto Uˆ T Uˆ = Y T PX Y = U T PX U .
Facilmente se verifica que o valor esperado marginal de s 2 é ainda σ 2 ,
E ( s 2 ) = E{E ( s 2 | X )} = σ 2 .
É habitual designar s por erro padrão da regressão. Note-se que s pode crescer
ou decrescer quando mais um regressor é acrescentado ao modelo (para a mesma amos-
tra). De facto, a presença do novo regressor provoca uma diminuição do numerador de
(2.46) (da soma dos quadrados dos resíduos MQ), mas também uma diminuição do de-
nominador (dos graus de liberdade); não é possível saber, a priori, qual é o efeito que
prevalece.
O estimador não enviesado da matriz das covariâncias de b, condicionada
por X, é
^
(2.48) Cov(b | X ) = s 2 ( X T X ) −1 .
Assim,
^
(2.49) Var (b j | X ) = sb2j = s 2 m jj ,

é o estimador da variância condicionada de b j . É habitual designar sb j por erro padrão


de b j .
Pode verificar-se que o estimador não enviesado de Cov(b) é ainda
^
Cov(b) = s 2 ( X T X ) −1 .
Com efeito,
E{s 2 ( X T X ) −1} = E{E ( s 2 ( X T X ) −1 | X )} = E{σ 2 ( X T X ) −1} = σ 2 E{( X T X ) −1} = Cov(b) .

Exemplo 2.9 – Em relação ao exemplo que está a servir de ilustração, tem-se


n
uˆ = 140.445 e s 2 = 0.141 .
2
t =1 t

O erro padrão da regressão é, então, s = 0.3755 .


Tem-se
Capítulo 2 – O Modelo de Regressão Linear Clássico 41

 0.0051795 − 0.0002984 − 0.0000834 − 0.0000384


 
^
 − 0.0002984 0.0000236 0.0000004 − 0.0000005
Cov(b | X ) =  .
− 0.0000834 0.0000004 0.0000065 0.0000002
 
− 0.0000384 − 0.0000005 0.0000002 0.0000059

Assim, por exemplo,


^
Cov(b2 , b4 | X ) = −0.0000005 .
Os erros padrão dos estimadores MQ dos b j são, respectivamente:
sb1 = 0.071968 , sb2 = 0.004856 , sb3 = 0.002541 e sb4 = 0.002422 .

No anexo 2B faz-se o estudo do método dos mínimos quadrados no MRLC


quando se consideram variáveis centradas (as observações de cada variável são sub-
traídas da respectiva média amostral). Embora este tópico tenha perdido muito do seu
interesse devido às possibilidades proporcionadas pelos meios computacionais moder-
nos, alguns dos resultados obtidos ainda podem ser úteis para facilitar a compreensão e
a demonstração de outros resultados.

2.7 - Coeficiente de determinação

Suponha-se que pretende explicar-se o comportamento de um regressando, yt ,


em função de certos regressores. Dispondo de uma amostra de dimensão n, estimados os
parâmetros com base num determinado método, obtêm-se os valores ajustados, ŷt , das
observações do regressando. Por exemplo, no MRLC tem-se, utilizando o método MQ,
b = ( X T X ) −1 X T Y e Yˆ = X b .
Quando se admite que são válidas as hipóteses do modelo, uma forma grosseira
de avaliar a adequabilidade do modelo aos dados consiste em dispor de um indicador
que permita medir o “grau de ajustamento” entre os yt e os ŷt ( t = 1, 2, K , n ). O indica-
dor habitualmente proposto é o coeficiente de correlação (empírico) entre as observa-
ções do regressando, yt , e os respectivos valores ajustados, ŷt .
Pode, então, apresentar-se a definição de coeficiente de determinação.

Definição 1.4 – Coeficiente de determinação


O coeficiente de determinação é o quadrado do coeficiente de correlação empírico entre
os yt e os ŷt ( t = 1,2, K , n ),
2
 n ( y − y ) ( yˆ − yˆ ) 
 ∑t =1 t t 
(2.50) ry2yˆ =  n  ,
∑t =1 ( yt − y ) ∑t =1 ( yˆt − yˆ )2
2 n

onde y e ŷ são as médias dos yt e dos ŷt , respectivamente.


Capítulo 2 – O Modelo de Regressão Linear Clássico 42

Como 0 ≤ ry2yˆ ≤ 1 , pode concluir-se que quanto mais próximo de 1 estiver o coe-
ficiente de determinação melhor é o “grau de ajustamento”, ou seja, maior é a “proxi-
midade” entre os yt e os ŷt . Por exemplo, observando a figura 2.6 verifica-se que no
gráfico da esquerda se tem uma boa aderência ( ry2ŷ elevado), e que no gráfico da direita
há um afastamento significativo entre os valores de yt e de ŷt ( ry2ŷ baixo). Um valor
negativo de ryyˆ não tem significado, uma vez que traduziria um ajustamento absurdo.

ŷt ŷt

y t yt ry2ŷ elevado yt 2
r yŷ baixo

Fig. 2.6 – Coeficiente de determinação.

Qualquer que seja o MRL (com ou sem termo independente), tem-se sempre, de-
vido à propriedade 2.10 dos resíduos MQ,

∑ yt2 = ∑t =1 yˆ t2 + ∑t =1 uˆt2 ⇔ Y T Y = Yˆ T Yˆ + Uˆ T Uˆ .
n n n
t =1

Quando o modelo tem termo independente, pode obter-se uma relação seme-
lhante, mas considerando os desvios das observações em relação às respectivas médias,

∑ ( yt − y ) 2 = ∑t =1 ( yˆ t − y ) 2 + ∑t =1 uˆt2 .
n n n
(2.51) t =1

Para verificar (2.51), faz-se

∑ ( yt − y ) 2 = ∑t =1 ( yˆt + uˆt − y ) 2 = ∑t =1{( yˆt − y ) + uˆt }2


n n n
t =1

= ∑t =1 ( yˆt − y ) 2 + 2∑t =1{( yˆt − y ) uˆt } + ∑t =1 uˆt2


n n n

= ∑t =1 ( yˆt − y ) 2 + 2∑t =1 yˆt uˆt − 2 y ∑t =1 uˆt + ∑t =1 uˆt2


n n n n

= ∑t =1 ( yˆt − y ) 2 + ∑t =1 uˆt2 ,
n n

devido às propriedades 2.8 e 2.9 dos resíduos MQ.


Fazendo

VT = ∑t =1 ( yt − y ) 2 , VE = ∑t =1 ( yˆt − y ) 2 e VR = ∑t =1 uˆt2 ,
n n n

tem-se
(2.52) VT = VE + VR ,
onde:
Capítulo 2 – O Modelo de Regressão Linear Clássico 43

− VT é a variação total dos yt , ou seja, a soma dos quadrados dos desvios em relação
à média das observações do regressando.
− VE é a variação explicada pela regressão, ou seja, a soma dos quadrados dos des-
vios em relação à média dos valores ajustados das observações do regressando, ob-
tidos com o método dos mínimos quadrados, ŷt .
− VR é a variação residual, ou seja, a soma dos quadrados dos resíduos MQ.

No MRLC com termo independente é habitual definir o coeficiente de determi-


nação, que se representa por R 2 , como sendo igual à proporção entre a variação expli-
cada pela regressão e a variação total,
VE VR
(2.53) R2 = = 1− .
VT VT
Note-se que 0 ≤ R 2 ≤ 1 e que
 R 2 = 1 ⇔ VR = 0,
 2
 R = 0 ⇔ VE = 0 ⇔ VR = VT.

Note-se, também, que


VE = R 2 VT,

VR = (1 − R 2 )VT.

Facilmente se prova que as duas definições são equivalentes, no caso do MRLC


com termo independente, utilizando o critério dos mínimos quadrados para estimar os
coeficientes de regressão. Com efeito, atendendo às propriedades 2.8 e 2.9 dos resíduos
MQ, vem
2 2
 n ( y − y ) ( yˆ − y )   n ( yˆ − y + uˆ ) ( yˆ − y ) 
 ∑t =1 t t   ∑t =1 t t t 

ryyˆ = n
2  =  
∑t =1 ( yt − y ) ∑t =1 ( yˆt − y ) ∑t =1 ( yt − y ) ∑t =1 ( yˆt − y )2
2 n 2 n 2 n

2
 n ( yˆ − y ) 2 + n uˆ yˆ − y n uˆ 
 ∑t =1 t ∑t =1 t t ∑t =1 t  ∑tn=1 ( yˆt − y )2 2
=  = n =R .
∑t =1 t ∑t =1 t ∑t =1 t
n n
( y − y ) 2
( ˆ
y − y ) 2
( y − y ) 2

No caso do MRLC simples, yt = β1 + β 2 xt + ut , facilmente se verifica que


R 2 = rxy2 ,

ou seja, R 2 é o quadrado do coeficiente de correlação empírico entre as observações yt


e xt . Com efeito, como yˆt = b1 + b2 xt e y = b1 + b2 x , vem yˆt − y = b2 ( xt − x ) . Então,
2
∑t =1 ( yˆ t − y )2 ∑t =1 ( xt − x )2
 ∑ n ( xt − x )( yt − y )  ∑
n n n
( xt − x ) 2
R = n
2
= b2
2
=  t =1 n  t =1
,
∑t =1 t ∑t =1 t ∑t =1 t ∑
n n
( y − y ) 2
( y − y ) 2

 ( x − x ) 2
 t =1
( y t − y )2

ou
Capítulo 2 – O Modelo de Regressão Linear Clássico 44

2
 n ( x − x )( y − y ) 
 ∑t =1 t t 

R = n
2  = r2 .
∑t =1 ( xt − x ) ∑t =1 ( y t − y )2
2 n xy

Em Ciências Sociais (e, em particular, em Economia) com dados seccionais é


comum encontrar situações com coeficientes de determinação pequenos (ou mesmo
muito pequenos). É importante salientar que isto não significa necessariamente que as
estimativas MQ dos coeficientes de regressão são inúteis. Pelo contrário, é possível que,
ceteris paribus, as estimativas encontradas sejam boas. Em qualquer caso, esta aprecia-
ção não depende directamente do valor do coeficiente de determinação. Em geral, um
R 2 baixo significa apenas que é difícil, em Ciências Sociais, prever comportamentos
individuais.
Quando o modelo não tem termo independente, a soma dos resíduos MQ não
é nula (ver propriedade 2.9), e o coeficiente de determinação R 2 , dado por (2.53), pode
ser negativo. De facto, notando que

∑ ∑ ( yt − y ) 2 − ∑t =1 uˆt2 ∑ yt2 − n y 2 − ∑t =1 uˆt2


n 2 n n n n

t =1 t
R =1−
2
= t =1
= t =1
,
∑ ∑ ∑
n n n
t =1
( yt − y ) 2 t =1
( yt − y ) 2 t =1
( yt − y ) 2

tem-se, devido à propriedade 2.10 dos resíduos MQ,


n
yˆt2 − n y 2
R 2
= t =1
.

n
t =1
( yt − y ) 2

Este valor pode ser negativo porque a média das observações do regressando,
yt , é diferente da média dos respectivos valores ajustados, ŷt ( y ≠ yˆ ). Contudo, conti-
nua a ter-se R 2 ≤ 1 .
A propriedade 2.10 atrás referida, garante que a igualdade Y T Y = Yˆ T Yˆ + Uˆ T Uˆ se
verifica sempre (quer o modelo tenha termo independente quer não tenha). Pode, então,
escrever-se
(2.54) SQT = SQE + SQR ,
onde:

− SQT = ∑t =1 yt2 é a soma total dos quadrados dos yt .


n

− SQE = ∑t =1 yˆ t2 é a soma dos quadrados explicada pela regressão.


n

− SQR = ∑t =1 uˆt2 é a soma dos quadrados dos resíduos.


n

Nestas condições, pode definir-se outro coeficiente de determinação,


SQE SQR
(2.55) R∗2 = =1− ,
SQT SQT
que se chama coeficiente de determinação não centrado.
Capítulo 2 – O Modelo de Regressão Linear Clássico 45

Assim, enquanto R 2 (coeficiente de determinação centrado) mede a proporção


entre a variação explicada pela regressão e a variação total, R∗2 é igual à proporção entre
a soma dos quadrados explicada pela regressão e a soma total dos quadrados.
Tem-se 0 ≤ R∗2 ≤ 1 , e
 R∗2 = 1 ⇔ SQR = 0,
 2
 R∗ = 0 ⇔ SQE = 0 ⇔ SQR = SQT.

Em geral, R∗2 ≠ ry2yˆ e R∗2 ≠ R 2 (no caso do modelo ter termo independente vem
R 2 ≤ R∗2 , pois VT ≤ SQT ).
Facilmente se verifica a seguinte relação entre R 2 e R∗2 :
 n y2 
R 2 = 1 − (1 − R∗2 ) 1 + n .
 ∑t =1 ( yt − y ) 2 

Considere-se de novo o modelo com termo independente. O coeficiente de deter-


minação R 2 apresenta o seguinte inconveniente (que não se verifica com o erro padrão
da regressão, s): quando se acrescenta ao modelo mais um regressor, qualquer que ele
seja, o R 2 nunca decresce (para a mesma amostra), pois Σ uˆt2 nunca pode crescer.
Notando que
∑ ∑
n n
( yt − y ) 2 uˆ2
t =1 t
s 2
y = t =1
e s 2
uˆ =
n n
são, respectivamente, a variância amostral das observações, yt , do regressando e a va-
riância amostral dos resíduos, tem-se R 2 = 1 − su2ˆ / s y2 . Se utilizarem-se as respectivas va-
riâncias corrigidas pelos graus de liberdade,

∑ ∑
n n
( yt − y ) 2 uˆ2

s′y
2
= t =1
e s 2
= t =1 t
,
n −1 n−k
em vez de s y2 e sû2 , obtém-se o coeficiente de determinação ajustado,
VR /(n − k )
(2.56) R 2 =1− .
VT /(n − 1)
Verifica-se sem dificuldade que
n −1 k −1
R 2 = 1 − (1 − R 2 ) = R 2 − (1 − R 2 ) .
n−k n−k
O inconveniente apontado para R 2 já não se verifica com R 2 . Com efeito,
quando se adiciona mais um regressor, R 2 cresce se a diminuição da soma dos quadra-
dos dos resíduos for suficiente para compensar o decréscimo de uma unidade no deno-
minador de s 2 . Esta comprovação sugere que se pode conferir a R 2 uma característica
de medida de eficácia da regressão relativamente ao número de regressores utilizados, o
que não acontece com R 2 .
Note-se que:
a) R ≤ R 2 ; R 2 = R 2 , se k = 1 ou R 2 = 1 .
2
Capítulo 2 – O Modelo de Regressão Linear Clássico 46

b) R 2 tem o inconveniente de poder ser negativo. Com efeito, se R 2 < (k − 1) /( n − 1)


então 1 − R 2 > (n − k ) /(n − 1) e, portanto, R 2 < 0 . Por exemplo, se k = 3 , n = 21 e
R 2 = 0.08 , tem-se R 2 < 2 / 20 = 0.1 , então R 2 = 1 − 0.92 × (20 / 18) = −0.022 .
c) Como s 2 = (1 − R 2 ) s′y2 , pode concluir-se que R 2 aumenta quando s 2 diminui.

8.5

7.5
Valores ajustados

6.5

5.5
5.5 6 6.5 7 7.5 8 8.5
Valores observados

Fig. 2.7 – Diagrama de dispersão dos valores observados e ajustados de lsalar.

Exemplo 2.10 – No exemplo em estudo, tem-se


R 2 = 0.174 e R 2 = 0.171 .
Assim, o modelo explica 17.4% da variação total do logaritmo do salário. Verifica-se
que R 2 é ligeiramente inferior a R 2 .
Na figura 2.7 encontra-se o diagrama de dispersão dos 1000 pares formados por
cada valor observado e o respectivo valor ajustado de lsalar [com a notação geral, estão
representados os 1000 pontos ( yt , yˆt ) ; a bissectriz do 1.º quadrante corresponde ao con-
junto de pontos em que yt = yˆt ]. A recta representa a “nuvem” para o caso em que
R2 = 1.

No anexo 2C apresentam-se alguns resultados sobre coeficientes de correlação


(amostrais) simples e parciais, e as suas relações com o coeficiente de determinação.
Deve sublinhar-se uma vez mais que, quando se pretende utilizar o coeficiente
de determinação como uma mera medida do “grau de ajustamento” de um modelo, a ex-
pressão (2.50) permite calcular tal medida para qualquer modelo, tenha ou não termo in-
dependente, qualquer que seja o método de estimação dos respectivos parâmetros (míni-
mos quadrados ou outro). Segundo tal perspectiva, pode afirmar-se que R 2 é supérfluo.
No entanto, como vai ver-se mais adiante, R 2 pode ser útil para facilitar a obtenção de
resultados para efectuar alguns testes de hipóteses.
Capítulo 2 – O Modelo de Regressão Linear Clássico 47

Além disso, o cálculo de R 2 em certas regressões pode ser útil para aprofundar a
análise dos factores que contribuem para explicar os valores obtidos para os erros pa-
drão dos b j . Com efeito, considere-se um MRLC com termo independente, e recorde-se
que Var (b j | X ) = σ 2 m jj [ver (2.41)], onde m jj é o elemento diagonal de ordem j da
matriz ( X T X ) −1 .
Vai demonstrar-se que (2.41) é equivalente a
σ2
(2.57) Var (b j | X ) = ,
(1 − R 2j )VT j

onde VT j é a variação total das observações do regressor xtj ,

VT j = ∑t =1 ( xtj − x j ) 2 ,
n

e R 2j é o coeficiente de determinação da regressão auxiliar do regressor xtj sobre os ou-


tros regressores.
Com efeito, seja
X = [ x• j X ( j ) ],

onde x• j é a coluna j da matriz X (colocada em primeiro lugar), e X ( j ) é a submatriz de


X formada pelas restantes k − 1 colunas. Tem-se
 xT x x•T j X ( j ) 
X X = T .
T •j •j

 X ( j ) x• j X (Tj ) X ( j ) 
 
Invertendo esta matriz por blocos, o elemento da matriz inversa situado na pri-
meira linha e na primeira coluna é dado por
( x•Tj Pj x• j ) −1 onde Pj = I n − X ( j ) ( X (Tj ) X ( j ) ) −1 X (Tj ) .

Então,
Var (b j | X ) = σ 2 ( x•Tj Pj x• j ) −1 .

Devido à propriedade 2.4 dos resíduos MQ, verifica-se que x•Tj Pj x• j é igual à so-
ma dos quadrados dos resíduos correspondente à regressão auxiliar, e, portanto,
x•Tj Pj x• j = (1 − R 2j )VT j ,

ficando assim provado (2.57).


Este resultado permite reconhecer os factores que influenciam a variância con-
dicionada do estimador MQ de cada coeficiente de regressão:
a) A variância da variável residual, σ 2 .
A precisão na estimação de β j é tanto maior quanto menor for a variância da variá-
vel residual, uma vez que σ 2 representa a variabilidade do “ruído” do modelo. Co-
mo σ 2 é um parâmetro (desconhecido) da população este factor nada tem a ver com
a dimensão da amostra. A variância da variável residual só pode ser reduzida intro-
duzindo mais regressores no modelo. No entanto, este procedimento nem sempre é
possível, e, mesmo que o seja, nem sempre é desejável (a inclusão de regressores
Capítulo 2 – O Modelo de Regressão Linear Clássico 48

significativamente irrelevantes pode ter consequências negativas na estimação dos


parâmetros).
b) A variação total das observações do regressor xtj , VT j .
A variância condicionada do estimador MQ é tanto menor quanto maior for a dis-
persão das observações do regressor xtj . Embora seja praticamente impossível esco-
lher estas observações, o aumento da dimensão da amostra pode ser uma forma de
aumentar aquela variação total.
c) O grau de associação linear entre o regressor xtj e os outros regressores (medi-
do por R 2j ).
A precisão na estimação de β j é tanto maior quanto menor for R 2j (a proporção da
variação total do regressor xtj que é explicada pelos outros regressores). Como
0 ≤ R 2j ≤ 1 , a situação ideal é que R 2j = 0 [neste caso, (2.57) reduz-se a σ 2 /VT j ]. No
outro caso extremo, R 2j = 1 , tem-se multicolinearidade exacta, pois x j é combina-
ção linear dos outros regressores [notar que Var (b j | X ) → +∞ , quando R 2j → 1 ].
No entanto, a multicolinearidade deve ser analisada não em termos exactos, mas do
ponto de vista do maior ou menor “afastamento” desta situação extrema. Quando se
diz que existe um “problema da multicolineridade” é porque R 2j está “próximo”
de 1, podendo surgir dificuldades significativas no que respeita ao grau de confiança
dos resultados obtidos, bem como ao modo como esses resultados podem ser inter-
pretados. Assim, os coeficientes de determinação R 2j ( j = 2, 3, K, k ) das k − 1 re-
gressões auxiliares possíveis devem ser encarados como indicadores do grau de
multicolinearidade entre os regressores.
No entanto, deve notar-se que, mesmo em situações de elevado grau de multicoli-
nearidade (não exacta), o estimador MQ de β continua a ser BLUE.
Tal como um valor elevado de R 2j pode implicar uma elevada imprecisão na estima-
ção de β j , o mesmo pode acontecer quando a dimensão da amostra é muito pequena
( VT j pode ser muito reduzida). Arthur Goldberger, numa reacção à obsessão dos
econometristas pela multicolinearidade, chamou micronumerosity ao problema da
dimensão da amostra ser pequena.
Como, em geral, os dados são passivamente observados (dados não experimentais),
pouco se pode fazer para reduzir o grau de multicolinearidade, a não ser recolher
mais dados (“combater a micronumerosidade”).
Deve, ainda, fazer-se o seguinte comentário: elevados graus de associação entre
certos regressores pode ser irrelevante para a estimação de outros coeficientes
de regressão. Por exemplo, considere-se que yt = β1 + β 2 xt 2 + β 3 xt 3 + β 4 xt 4 + ut , e
suponha-se que xt 3 e xt 4 estão altamente correlacionados. Neste caso, Var (b3 | X ) e
Var (b4 | X ) são grandes, mas Var (b2 | X ) pode não ser significativamente afectada,
se R22 for relativamente reduzido. Nestas condições, se β 2 for o parâmetro de inte-
resse para analisar, ceteris paribus, o efeito parcial de xt 2 sobre yt , não deve haver
preocupação com aquela correlação elevada. Este comentário é importante porque é
prática corrente dos economistas incluir muitas variáveis explicativas (de controlo)
no modelo para isolar o efeito causal de uma dada variável.
Capítulo 2 – O Modelo de Regressão Linear Clássico 49

Quando em (2.57) se substitui σ 2 por s 2 , obtém-se


^ s2
(2.58) Var (b j | X ) = .
(1 − R 2j )VT j

A fórmula (2.58) põe em evidência os factores que contribuem para a determi-


nação do erro padrão de b j . Assim, além de VT j e R 2j já comentados relativamente a
(2.57), o erro padrão de b j é tanto menor quanto menor for o erro padrão da regressão
(medido por s).
Como s 2 = VR /(n − k ) = (1 − R 2 )VT /(n − k ) , tem-se
^ (1 − R 2 )VT
(2.59) Var (b j | X ) = ,
(n − k ) (1 − R 2j )VT j

que dá uma informação mais precisa sobre os factores que determinam o erro padrão de
b j . Assim, além dos factores já apontados a propósito de (2.58), o erro padrão de b j é
tanto menor quanto menor for a variação dos yt (medida por VT), quanto maior for o
coeficiente de determinação R 2 , e quanto maior for o número de graus de liberdade do
modelo.

Exemplo 2.11 – Sabe-se que s 2 = 0.141 , VT = 169.93349 (variação total das obser-
vações de lsalar), R 2 = 0.174 e n − k = 996 [ver exemplos 2.9 e 2.10].
Como VT2 = 5996.119 (variação total das observações de educ) e R22 = 0.00281
(coeficiente de determinação da regressão MQ de educ sobre 1, exper e empc), tem-se,
devido a (2.58) e (2.59),
^ s2 0.141
Var (b2 | X ) = = = 0.0000236
(1 − R2 )VT2
2
(1 − 0.00281 ) × 5996.119

e
^ (1 − R 2 )VT (1 − 0.174) × 169.93349
Var(b2 | X ) = = = 0.0000236 .
(n − k ) (1 − R2 )VT2
2
996 × (1 − 0.00281) × 5996.119

Do mesmo modo, como VT3 = 21875.911 (variação total das observações de ex-
per) e R32 = 0.00179 (coeficiente de determinação da regressão MQ de exper sobre 1,
educ e empc), vem
^ s2 0.141
Var (b3 | X ) = = = 0.0000065
(1 − R3 )VT3 (1 − 0.00179) × 21875.911
2

e
^ (1 − R 2 )VT (1 − 0.174) × 169.93349
Var (b3 | X ) = = = 0.0000065 .
(n − k ) (1 − R3 )VT3 996 × (1 − 0.00179) × 21875.911
2

Como VT4 = 24102.464 (variação total das observações da variável empc) e


R = 0.00257 (coeficiente de determinação da regressão MQ de empc sobre 1, educ e
2
4
exper), obtém-se
Capítulo 2 – O Modelo de Regressão Linear Clássico 50

^ s2 0.141
Var(b4 | X ) = = = 0.0000059
(1 − R4 )VT4
2
(1 − 0.00257 ) × 24102.464

e
^ (1 − R 2 )VT (1 − 0.174) × 169.93349
Var(b3 | X ) = = = 0.0000059 .
(n − k ) (1 − R3 )VT3
2
996 × (1 − 0.00257) × 24102.464

2.8 - Estimação com restrições lineares sobre os coeficientes de regressão

Nas aplicações práticas encontram-se, com frequência, situações em que a teoria


subjacente impõe certas relações lineares entre os coeficientes de regressão. Por
exemplo, considerando a função de produção Cobb-Douglas, Q = α1 K α 2 Lα3 , a existên-
cia de rendimentos de escala constantes implica a restrição α 2 + α 3 = 1 .
Suponha-se que os coeficientes de regressão estão sujeitos a m restrições linea-
res de igualdade,
Rβ = δ ,
onde R é uma matriz m × k , com característica m ≤ k , e δ é um vector m × 1 .

Exemplo 2.12 – Considere-se o MRLC decorrente da função de produção Cobb-Dou-


glas, ln(Qt ) = β1 + β 2 ln( K t ) + β3ln( Lt ) + ut , com a restrição β 2 + β 3 = 1 (rendimentos de
escala constantes). Esta restrição pode escrever-se da seguinte maneira:
 β1 
[ 0 1 1 ]  β 2  = 1 ,
 β 3 

onde R = [ 0 1 1 ] e δ = 1 .

Exemplo 2.13 – Suponha-se que β é composto por cinco β j e está sujeito às seguintes
condições: β1 = 2 ; a soma dos coeficientes é igual a 1; β 2 e β 3 são iguais; β 4 é o
dobro de β 5 . Tem-se
 2
1 0 0 0 0  
1 1 1 1 1 1 
R=  e δ = 
0 1 −1 0 0 0
 
0 0 0 1 − 2 0

Vai representar-se por br o estimador MQ de β a verificar as m restrições


Rβ = δ . Para determinar este estimador, deve minimizar-se a soma dos quadrados dos
~
resíduos sujeita à condição Rβ = δ . Assim,
Capítulo 2 – O Modelo de Regressão Linear Clássico 51

~ ~ ~
min ϕ ( β ) = (Y − Xβ )T (Y − Xβ )
(2.60)  ~
sujeito a Rβ = δ .

Este problema pode ser resolvido com o clássico método dos multiplicadores de
Lagrange. Seja a função lagrangeana
~ ~ ~ ~
L ( β , λ ) = (Y − Xβ )T (Y − Xβ ) − 2( Rβ − δ )T λ ,
onde λ = [ λ1 λ2 L λm ] T é o vector m × 1 dos multiplicadores de Lagrange. Calculan-
~
do as primeiras derivadas em ordem a β e λ , obtém-se
~ ~
∇ β~ L ( β , λ ) = −2 X T Y + 2 X T Xβ − 2 RT λ
 ~ ~
∇ λ L ( β , λ ) = −2( Rβ − δ ) ,

onde
~ ~
∇ β~ L ( β , λ ) e ∇ λ L ( β , λ )
~
são, respectivamente, o gradiente da lagrangeana em relação a β (vector k × 1 das res-
pectivas derivadas parciais) e o gradiente da lagrangeana em ordem a λ (vector m × 1
das derivadas parciais da lagrangeana em relação aos multiplicadores de Lagrange).
Igualando a zero estes gradientes, obtém-se o seguinte sistema de equações:
 X T Xβ~ − X T Y − RT λ = 0

 ~
 Rβ = δ .

Multiplicando à esquerda a primeira equação por R( X T X ) −1 , vem


~
Rβ − Rb − R ( X T X ) −1 RT λ = 0 .
~
Como Rβ = δ (segunda equação), tem-se
λ = {R( X T X ) −1 RT }−1 (δ − Rb) .
Como da primeira equação se tem
~
β = b + ( X T X ) −1 RT λ ,
vem
~
β = b + ( X T X ) −1 R T {R( X T X ) −1 R T }−1 (δ − Rb) .
Pode, então, concluir-se que o estimador MQ de β , sujeito às restrições impos-
tas, é dado por
(2.61) br = b + ( X T X ) −1 R T {R( X T X ) −1 R T }−1 (δ − Rb) .
Verifica-se, assim, que o estimador com restrições, br , é igual ao estimador sem
restrições, b, mais uma combinação linear das diferenças entre δ = Rβ e o seu estima-
dor sem restrições, Rb .
Deve notar-se que, quase sempre, é mais simples obter br inserindo as restri-
ções directamente no modelo, do que calcular br com a fórmula (2.61). Por exemplo, no
Capítulo 2 – O Modelo de Regressão Linear Clássico 52

modelo correspondente à função de produção Cobb-Douglas, em vez de estimar β1 , β 2


e β 3 a partir de ln(Qt ) = β1 + β 2 ln( K t ) + β3 ln( Lt ) + ut e de β 2 + β 3 = 1 , seria mais sim-
ples fazer β 3 = 1 − β 2 e considerar o modelo reparametrizado,
ln(Qt ) − ln( Lt ) = β1 + β 2{ln( K t ) − ln( Lt )} + ut .

Aplicando o método MQ (sem restrições) a este modelo, estimam-se os parâme-


tros β1 e β 2 . A seguir, estima-se β 3 com a igualdade β 3 = 1 − β 2 .
As considerações anteriores podem ser apresentadas em termos gerais. Como a
matriz R tem característica m ≤ k , existem m colunas linearmente independentes que
formam uma submatriz quadrada de ordem m, não singular. Sem perda de generalidade,
seja
β 
R = [R1 R2 ] e β =  •1  ,
 β •2 
onde: R1 é matriz quadrada de ordem m; R2 é matriz de tipo m × (k − m) ; β •1 é o vector
m × 1 , subvector de β ; β •2 é o vector (k − m) × 1 , subvector de β . As restrições são,
então,
R1 β •1 + R2 β •2 = δ .
Considere-se o modelo sem restrições,
yt = xt(•1) β •1 + xt(•2) β• 2 + ut (t ∈ T ) ,

onde: xt(•1) é o vector 1 × m dos primeiros m regressores; xt(•2) é o vector 1 × (k − m) dos


últimos k − m regressores.
Como β •1 = R1−1 (δ − R2 β •2 ) , tem-se yt − xt(•1) R1−1δ = ( xt(•2 ) − xt(•1) R1−1R2 ) β• 2 + ut . En-
tão, o modelo com restrições é dado por
ytr = xtr• β• 2 + ut (t ∈ T ) ,

onde ytr = yt − xt(•1) R1−1δ e xtr• = xt(•2) − xt(•1) R1−1R2 . Os estimadores dos coeficientes de re-
gressão são
b• 2 = ( X r X r ) X r Yr
r T −1 T

 r
b•1 = R1−1 (δ − R2b•r2 ) ,

onde: Yr é o vector n × 1 das observações do regressando do modelo com restrições (de


elemento genérico ytr ); X r é a matriz n × (k − m) das observações dos regressores do
modelo com restrições (de linha genérica xtr• ). Verifica-se, sem dificuldade, que, juntan-
do os vectores b•r1 e b•r2 , se reconstitui o estimador br já obtido. Naturalmente o cálculo
é invariante com a escolha da submatriz não singular R1 .
O estimador br , condicionado por X, é não enviesado. Com efeito,
E (br | X ) = β + ( X T X ) −1 RT {R( X T X ) −1 RT }−1 E (δ − Rb | X ) = β ,
pois E (b | X ) = β e E ( Rb | X ) = Rβ = δ .
Obtém-se, também,
E (br ) = β .
Capítulo 2 – O Modelo de Regressão Linear Clássico 53

Tal como se fez para o estimador b, pode determinar-se o erro de amostragem


do estimador br . Como b = β + ( X T X ) X TU e δ − Rβ = 0 , tem-se
br = β + ( X T X ) −1 X TU + ( X T X ) −1 RT {R ( X T X ) −1 RT }−1 (δ − Rβ − R ( X T X ) −1 X TU )
= β + ( X T X ) −1 X TU − ( X T X ) −1 RT {R ( X T X ) −1 RT }−1 R( X T X ) −1 X TU
= β + ( I k − ( X T X ) −1 RT {R( X T X ) −1 RT }−1 R( X T X ) −1 X TU .

Então, o erro de amostragem é


br − β = Pr ( X T X ) −1 X TU ,
onde
Pr = I k − ( X T X ) −1 RT {R( X T X ) −1 RT }−1 R

é uma matriz idempotente, não simétrica.


Vai calcular-se, a seguir, a matriz das covariâncias de br , condicionada por X.
Notando que
br = b + ( X T X ) −1 RT {R( X T X ) −1 RT }−1 (δ − Rb)
= Pr b + ( X T X ) −1 RT {R( X T X ) −1 RT }−1δ ,
tem-se
Cov(br | X ) = Pr Cov(b | X ) PrT = σ 2 Pr ( X T X ) −1 PrT .
Atendendo a que
Pr ( X T X ) −1 PrT = ( X T X ) −1 − ( X T X ) −1 RT {R( X T X ) −1 RT }−1 R( X T X ) −1 ,
tem-se
(2.62) Cov(br | X ) = Cov(b | X ) − σ 2 ( X T X ) −1 RT {R( X T X ) −1 RT }−1 R( X T X ) −1 .
Como a matriz
( X T X ) −1 RT {R( X T X ) −1 RT }−1 R( X T X ) −1
é semidefinida positiva, também o é Cov(b | X ) − Cov(br | X ) , o que permite afirmar
que o estimador br é mais eficiente do que b. Facilmente se conclui que br , condiciona-
do por X, é o estimador mais eficiente na classe dos estimadores lineares (em y e δ ),
não enviesados, a satisfazer as restrições Rβ = δ .
Como a matriz idempotente Pr é singular (com característica igual a k − m ), re-
sulta imediatamente que Cov(br | X ) também é singular (com a mesma característica),
e, portanto, br é um vector aleatório degenerado. A singularidade da matriz das cova-
riâncias decorre de β ser estimado, obedecendo a m restrições de igualdade lineares.
Os resíduos MQ, supondo verdadeira a condição Rβ = δ , são os resíduos MQ
com restrições,
(2.63) Uˆ r = Y − X br .
Estes resíduos podem ser obtidos com facilidade, uma vez que são os resíduos
do modelo reparametrizado.
Capítulo 2 – O Modelo de Regressão Linear Clássico 54

Para determinar o estimador não enviesado de σ 2 , supondo verdadeira a condi-


ção Rβ = δ , vai começar-se por obter os resíduos MQ com restrições em função do
vector das variáveis residuais. Tem-se
Uˆ r = ( Xβ + U ) − X {β + Pr ( X T X ) −1 X TU } = {I n − X Pr ( X T X ) −1 X T }U .

Como Pr ( X T X ) −1 PrT = Pr ( X T X ) −1 , conclui-se que I n − X Pr ( X T X ) −1 X T é simé-


trica e idempotente. Então, Uˆ rTUˆ r = U T {I n − XPr ( X T X ) −1 X T }U .
Notando que
 
ˆ T ˆ   T  
E (U r U r | X ) = E tr U {I n − XPr ( X X ) X }U X 
T −1 T
 
 
= σ 2 tr{I n − XPr ( X T X ) −1 X T } = σ 2{n − tr ( Pr )} .
 
= σ 2 n − tr  I k − ( X T X ) −1 RT {R( X T X ) −1 RT }−1 R  
 
 
= σ ( n − k + m) ,
2

o estimador não enviesado de σ 2 , obedecendo à condição Rβ = δ , é dado por


Uˆ rT Uˆ r
(2.64) s =
2
r .
n−k +m
É de esperar que o denominador de (2.64) seja n − k + m , uma vez que o MRLC
que satisfaz as restrições tem menos m coeficientes de regressão, ou seja, o número de
graus de liberdade sobe de n − k para n − (k − m) . Deve referir-se que sr2 pode ser obti-
do directamente, estimando o modelo reparametrizado, onde o número de regressores é
k −m.

Exemplo 2.14 – Suponha-se que no exemplo em estudo se impõe a restrição de que a


semi-elasticidade (pontual) do salário em relação a educ é o dobro da semi-elasticidade
(pontual) do salário em relação a exper, isto é, β 2 = 2β 3 .
O modelo de regressão linear que verifica esta restrição é, então,
lsalart = β1 + β3 (2 × educt + expert ) + β 4 empct + ut .

Fazendo a regressão de lsalar sobre os regressores 1, 2 × educ + exper e empc,


obtém-se:
br1 = 5.84092 ; br 2 = 0.0509 ; br 3 = 0.02545 ; br 4 = 0.004116 ;
Uˆ TUˆ = 140.706 ; s 2 = 0.141129 ; s = 0.375672 .
r r r r

2.9 - O modelo de regressão linear clássico normal. Estimadores de máxima ve-


rosimilhança

Todos os resultados até agora obtidos prescindiram da especificação do modelo


probabilístico subjacente ao MRLC, ou seja, são válidos para qualquer distribuição das
Capítulo 2 – O Modelo de Regressão Linear Clássico 55

variáveis aleatórias envolvidas no modelo. Contudo, no caso de pequenas amostras, o


conhecimento das leis probabilísticas que governam estas variáveis aleatórias é indis-
pensável para fazer inferência estatística (nomeadamente para a construção de intervalos
ou regiões de confiança e para a realização de testes de hipóteses) sobre os parâmetros
do MRLC.
Muitas vezes, a teoria que motivou a equação de regressão também especifica
alguns valores que os coeficientes de regressão devem assumir. Suponha-se, por exem-
plo, que a teoria subjacente ao MRLC sugere que o verdadeiro valor do coeficiente β 2 é
igual a 0.5. Então, se a restrição β 2 = 0.5 é verdadeira, tem-se E (b2 ) = 0.5 . Contudo,
isto não significa que, para uma amostra particular, a estimativa b2 tenha que ser exac-
tamente igual a 0.5; não se pode concluir que a restrição é falsa só porque b2 é diferente
de 0.5. Como a questão reside em saber se o erro de amostragem, b2 − 0.5 , é suficiente-
mente grande para pôr em causa a restrição, é necessário testar a sua veracidade. Para
isso, deve construir-se, a partir do erro de amostragem, uma estatística-teste cuja distri-
buição seja conhecida quando a restrição é verdadeira (na linguagem da teoria dos testes
de hipóteses, a restrição designa-se por hipótese nula).
Como, em geral, o erro de amostragem, b − β = ( X T X ) −1 X T U , depende de X
e de U, seria de esperar que se especificasse a distribuição conjunta de ( X , U ) . No en-
tanto, como vai ver-se mais adiante, a distribuição da estatística-teste pode ser obtida
sem especificar aquela distribuição conjunta, quando a distribuição de U, condicionada
por X, é normal; não é necessário especificar a distribuição de X.
Vai, então, estabelecer-se a seguinte hipótese:

Hipótese REX.6 – Distribuição normal da variável residual


A variável residual ut segue uma distribuição normal, condicionada por XT , com valor
esperado 0 e com variância σ 2 ,
(2.65) ut | XT ~ N (0, σ 2 ) .

Esta hipótese apenas acrescenta às hipóteses anteriores o facto de a distribuição


de ut , condicionada por XT = {xs • : s ∈ T } , ser normal; as hipóteses sobre o valor espe-
rado e a variância já resultavam de REX.2 e de REX.3.
Além da vantagem teórica atrás referida, podem também ser apresentados al-
guns argumentos empíricos a favor desta hipótese: como a variável residual representa
todos os factores que não são capturados pelos regressores, pode invocar-se o teorema
do limite central (TLC) para sugerir a hipótese REX.6; além disso, a variável residual
pode contemplar erros de medida do regressando, os quais seguem, muitas vezes,
uma distribuição normal.
No entanto, a invocação do teorema do limite central é, em muitos casos, um ar-
gumento frágil: a aproximação pela normal pode ser fraca porque depende dos factores
que estão abrangidos pela variável residual, os quais podem ter distribuições muito dife-
renciadas; como o TLC pressupõe que os factores referidos afectam o regressando de
Capítulo 2 – O Modelo de Regressão Linear Clássico 56

forma separada e aditiva, pode acontecer que o conjunto de tais influências seja uma
função mais complicada dos factores não observados.
Muitas vezes, a utilização de uma transformação da variável explicada (em es-
pecial, a logaritmização) pode favorecer a hipótese da normalidade. Por exemplo, é
mais razoável admitir que lsalar tem distribuição aproximadamente normal do que salar
(que teria, então, distribuição lognormal).
Quando os valores possíveis que o regressando pode assumir são poucos, e em
que o valor zero é muito frequente (por exemplo, o número de sinistros num ano por
apólice de seguro automóvel), a hipótese REX.6 é claramente pouco adequada.
Como vai ver-se no capítulo 3, o abandono da hipótese da normalidade não
constitui um problema grave no caso de grandes amostras. Neste caso, as distribuições
necessárias para fazer inferência estatística são assintóticas.
Convém fazer, ainda, os seguintes comentários:
− A distribuição de ut , condicionada por XT , depende apenas de dois parâmetros ca-
racterísticos: o valor esperado e a variância.
− A função densidade em (2.65) é dada por
 u2 
f (ut | XT ) = (2πσ 2 ) −1 / 2 exp− t 2  .
 2σ 
− Antes de prosseguir, convém referir um resultado muito importante:
• Suponha-se que: a variável aleatória (vector aleatório) u depende de um con-
junto de variáveis aleatórias (vectores aleatórios), X ; os parâmetros característi-
cos da distribuição de u condicionada por X não dependem de X . Então, a
distribuição condicionada coincide com a distribuição não condicionada.
Este resultado vai ser utilizado em todas as situações de inferência estatística que vão
estudar-se na secção 2.10.
− Aplicando o resultado anterior, pode concluir-se o seguinte: como os parâmetros ca-
racterísticos da distribuição de ut , condicionada por XT , não dependem de XT , a
distribuição não condicionada (marginal) é a mesma que a distribuição condicionada.
Assim, ut ~ N (0, σ 2 ) e
 u2 
f (ut ) = (2πσ 2 ) −1/ 2 exp− t 2  .
 2σ 
− Se duas variáveis aleatórias são independentes, então a respectiva correlação é nula,
mas a recíproca não é verdadeira. No entanto, no caso da distribuição normal, inde-
pendência e correlação nula são equivalentes.
Neste caso, considerando as hipóteses REX.4 e REX.6, conclui-se imediatamente
que as variáveis ut (t ∈ T ) são iid. Pode, então, escrever-se
ut ~ NIID(0, σ 2 ) (t ∈ T ) ,

para significar que as variáveis aleatórias do conjunto {ut : t ∈ T } são normais e iid.
Capítulo 2 – O Modelo de Regressão Linear Clássico 57

− Qualquer combinação linear de variáveis aleatórias com distribuição conjunta nor-


mal tem ainda distribuição normal.
− Tem-se
(2.66) yt | XT ~ N ( xt • β , σ 2 ) .

Nestas condições, a função densidade respectiva é dada por


 1 
f ( yt | XT ) = (2πσ 2 ) −1 / 2 exp− 2 ( yt − xt • β ) 2  .
 2σ 
Como Cov( yt , ys | XT ) = 0 , para t ≠ s , pode escrever-se
yt | XT ~ NID( xt • β , σ 2 ) (t ∈ T )

para significar que as variáveis aleatórias do conjunto { yt : t ∈ T } , condicionadas por


XT , são normais e independentemente distribuídas.
Note-se que: como E ( yt | XT ) = xt • β (o valor esperado depende de xt • ), a distribui-
ção não condicionada de yt é diferente da distribuição de yt condicionada por XT .

Em termos gerais, chama-se hipótese a manter a um conjunto de suposições so-


bre o comportamento de certas variáveis, desde que estas suposições permitam, na pre-
sença de uma hipótese nula admitida como verdadeira, propor uma estatística-teste com
distribuição conhecida.
No caso presente, quando se junta a hipótese REX.6 às cinco hipóteses anterio-
res, tem-se o modelo de regressão linear clássico normal (MRLCN). Este modelo é a
hipótese a manter porque as seis suposições (REX.1 a REX.6) possibilitam, como vai
ver-se na secção seguinte, fazer testes de hipóteses sobre os parâmetros desconhecidos
do modelo.
Diz-se que o modelo está correctamente especificado se a hipótese a manter é
verdadeira. Convém, então, esclarecer o seguinte: a rejeição de uma hipótese nula num
determinado teste estatístico só é válida se o modelo estiver correctamente especificado;
é possível que a estatística-teste não tenha a distribuição aparentemente suposta quando
a hipótese nula é verdadeira, porque a hipótese a manter é falsa. O mesmo tipo de co-
mentário se pode fazer em relação aos intervalos e às regiões de confiança.
Dispondo da amostra (Y , X ) , a hipótese REX.6 implica imediatamente que o
vector U das variáveis residuais segue uma distribuição normal n-dimensional, condi-
cionada por X, com valor esperado 0 e matriz das covariâncias σ 2 I ,
U | X ~ N ( n ) (0, σ 2 I n ) .

As considerações anteriores permitem concluir que


U ~ N ( n ) (0, σ 2 I n ) ,

e, portanto,
 U TU 
f (U | X ) = f (U ) = (2πσ 2 ) −n / 2 exp− 2 
.
 2σ 
Capítulo 2 – O Modelo de Regressão Linear Clássico 58

Tem-se
Y | X ~ N ( n ) ( Xβ , σ 2 I n ) .

Nestas condições, a função densidade de Y, condicionada por X, é


 1 
f (Y | X ) = (2πσ 2 ) − n / 2 exp− 2 (Y − Xβ )T (Y − Xβ ) .
 2σ 
Uma vez estabelecida a hipótese REX.6, pode utilizar-se o método da máxima
verosimilhança (MV) para estimar os parâmetros do modelo, β e σ 2 . Assim, seja
f (Y , X | φ ) a função densidade conjunta de Y e X, parametrizada pelo vector φ . Esta
~
função, encarada como função de φ (qualquer valor hipotético do vector dos parâme-
~
tros), é a função de verosimilhança: L(φ | Y , X ) . Um estimador de máxima verosi-
milhança (MV) de φ , φˆ , é tal que as respectivas estimativas maximizam a função de
verosimilhança, dado (Y , X ) (ver anexo 2D).
Sabe-se que f (Y , X | φ ) = f (Y | X ;θ ) f ( X |ψ ) , onde φ = (θ ,ψ ) [para simplificar
as notações, utiliza-se o mesmo símbolo f para representar as três funções densidade; em
rigor, deve usar-se fY , X para a função densidade conjunta, fY | X para a função densidade
condicionada, e f X , para a função densidade marginal]. Como no MRLCN o vector
θ = ( β , σ 2 ) não depende do vector ψ , não é necessário conhecer a função densidade
marginal de X para obter o estimador MV do vector dos parâmetros de interesse,
θ = ( β , σ 2 ) . Assim, basta considerar a função de verosimilhança correspondente à dis-
tribuição de Y condicionada por X,
~  1 ~ ~
L( β , σ~ 2 | Y , X ) = (2π σ~ 2 ) − n / 2 exp− ~ 2 (Y − Xβ )T (Y − Xβ ) ,
 2σ 
~
onde β e σ~ 2 representam, respectivamente, quaisquer valores hipotéticos de β e σ 2 .
Os estimadores MV respectivos, β̂ e σ̂ 2 , obtêm-se maximizando esta função de verosi-
~
milhança em ordem a β e σ~ 2 .
A determinação dos maximizantes é feita utilizando o logaritmo da função de
verosimilhança,
~ n 1 ~ ~
ln{ L( β , σ~ 2 | Y , X )} = − ln (2π σ~ 2 ) − ~ 2 (Y − Xβ )T (Y − Xβ ) ,
2 2σ
o que permite simplificar os cálculos.
A obtenção dos estimadores MV de β e σ 2 vai ser feita recorrendo ao cálculo
~
diferencial. Calculando as primeiras derivadas em ordem a β e σ~ 2 , e igualando-as a
zero, obtêm-se as equações de verosimilhança,
 ~ ~2 1 ~
∇ β~ ln{ L( β , σ | Y , X )} = σ~ 2 ( X Y − X X β ) = 0
T T


∇ ~ 2 ln{ L( β~, σ~ 2 | Y , X )} = − n + 1 (Y − Xβ~ )T (Y − Xβ~ ) = 0 .
 σ 2σ~ 2 2σ~ 4
Da primeira equação, vem imediatamente
(2.67) β̂ = b ,
Capítulo 2 – O Modelo de Regressão Linear Clássico 59

ou seja, o estimador MV de β é igual ao respectivo estimador MQ.


~
Substituindo β por b na segunda equação, tem-se o estimador MV de σ 2 ,
Uˆ TUˆ
(2.68) σˆ 2 = .
n
Note-se que β̂ e σ̂ 2 são, de facto, os estimadores MV, pois a matriz hesseana
(das segundas derivadas) de ln( L) é definida negativa.
Conclui-se imediatamente que σ̂ 2 é enviesado. Com efeito,
 (n − k ) s 2  n−k 2
E (σˆ 2 | X ) = E  X  = σ ≠σ2.
 n  n

Estes estimadores podem ser obtidos de outro modo. De facto, é instrutivo maxi-
mizar o logaritmo da função de verosimilhança em dois passos. No primeiro, a maximi-
~
zação é feita em ordem a β , supondo σ~ 2 constante. No segundo passo, maximiza-se
~
em ordem a σ~ 2 , tendo em conta que β , obtido no primeiro passo, pode depender de
σ~ 2 .
Observando a expressão do logaritmo da função de verosimilhança, verifica-se
~
que maximizar esta função em ordem a β é equivalente a minimizar a função
~ ~ ~
ϕ ( β ) = (Y − Xβ )T (Y − Xβ ) ,
já conhecida do método MQ. Assim, obtém-se imediatamente (2.67). Além disso, devi-
do às hipóteses estabelecidas para o MRLCN, este maximizante não depende de σ~ 2 .
~
Substituindo β por b no logaritmo da função de verosimilhança, obtém-se
n n Uˆ TUˆ
ln{L∗ (σ~ 2 | Y , X )} = − ln (2π ) − ln (σ~ 2 ) − ~ 2 ,
2 2 2σ
~
que se chama logaritmo da função de verosimilhança concentrada (em relação a β ).
Trata-se de uma função apenas de σ~ 2 , e a sua maximização permite obter (2.68). Este
cálculo é imediato, uma vez que a soma dos quadrados dos resíduos não depende de
σ~ 2 .
Facilmente se conclui que o máximo do logaritmo da função de verosimilhança
é dado por
~ ~2 n   2π   n
~ ~ 2 ln{ L ( β , σ | Y , X )} = −
max ln   + 1 − ln (Uˆ TUˆ ) .
β ,σ 2   n   2

Então,
−n / 2
~ ~2  2π   n
~ ~ 2 L( β , σ | Y , X ) = 
max  exp  −  (Uˆ TUˆ ) − n / 2 .
β ,σ  n   2
Alternativamente, a concentração da função de verosimilhança pode fazer-se em
~
relação a σ~ 2 , obtendo-se uma função de β . De facto, fazendo γ~ = σ~ 2 no logaritmo da
função de verosimilhança,
Capítulo 2 – O Modelo de Regressão Linear Clássico 60

~ n 1 ~ ~
ln{ L( β , γ~ | Y , X )} = − ln (2π γ~ ) − ~ (Y − Xβ )T (Y − Xβ ) ,
2 2γ

obtém-se
~ n 1 ~ ~
∇γ~ ln{ L( β , γ~ | Y , X )} = − ~ + ~ 2 (Y − Xβ )T (Y − Xβ ) = 0 ,
2γ 2γ

ou
1 ~ ~
γ~ = (Y − Xβ )T (Y − Xβ ) .
n
~
Então, obtém-se a função de β ,
~ n   2π   n ~ ~
ln{ L∗ ( β | Y , X )} = − ln   + 1 − ln{(Y − Xβ )T (Y − Xβ )} ,
2  n   2

que permite obter (2.67).


Supondo verificadas as hipóteses do MRLCN, e as restrições Rβ = δ , os esti-
madores de máxima verosimilhança de β e σ 2 são obtidos maximizando a função de
verosimilhança com as restrições referidas. Obtém-se
Uˆ rT Uˆ r
β̂ r = br e σˆ r2 = .
n
No anexo 2E relacionam-se alguns resultados fundamentais da Estatística (esta-
tísticas suficientes; estimadores UMVU; desigualdade de Fréchet-Crámer-Rao) com os
estimadores MQ dos parâmetros do MRLCN.

2.10 - Inferência estatística

Esta secção tem por objectivo desenvolver o estudo da inferência estatística do


MRLCN, nomeadamente apresentar os resultados que permitem construir intervalos e
regiões de confiança, e realizar testes estatísticos. Estes resultados baseiam-se em certas
distribuições exactas, sendo, portanto, válidos para qualquer dimensão da amostra.
Quando se abandona a hipótese REX.6, as distribuições passam a ser assintóticas, e,
portanto, válidas só para grandes amostras (ver capítulo 3). No anexo 2F apresentam-se
alguns conceitos e resultados fundamentais sobre teste de hipóteses.
As distribuições exactas referidas podem ser obtidas, com mais facilidade, a par-
tir de certas propriedades das distribuições que envolvem um vector aleatório com
distribuição normal multidimensional, e certas formas quadráticas obtidas a partir deste
vector.
Capítulo 2 – O Modelo de Regressão Linear Clássico 61

Propriedades de distribuições de vectores aleatórios


1) A primeira propriedade é bem conhecida (a soma dos quadrados de n variáveis alea-
tórias normais estandardizadas independentes é uma variável aleatória com distri-
buição do qui-quadrado com n graus de liberdade). Trata-se, agora, de apresentá-la
utilizando a notação matricial. Assim,
z ~ N ( n ) (0, I ) ⇒ z T z ~ χ 2 (n) .
2) Quando se pretende generalizar a propriedade anterior, supondo que E ( z ) = µ e
Cov( z ) = V , obtém-se
z ~ N ( n ) ( µ , V ) ⇒ ( z − µ )T V −1 ( z − µ ) ~ χ 2 (n) .
3) Se z ~ N ( n ) (0, σ 2 I ) e A é uma matriz quadrada de ordem n, simétrica e idempotente,
com característica igual a r, então
1
z T A z ~ χ 2 (r ) .
σ2
4) Se z ~ N ( n ) (0, σ 2 I ) , e A e B são matrizes quadradas de ordem n, simétricas e idem-
potentes, tais que AB = O , então z T A z e z T B z são independentes.
5) Se z ~ N ( n ) ( µ , σ 2 I ) , A é uma matriz não aleatória quadrada de ordem n, simétrica e
idempotente, B é uma matriz não aleatória de tipo m × n , e BA = O , então B z e
z T A z são independentes.

Inferência estatística sobre a variância das variáveis residuais

Sabe-se que: Uˆ T Uˆ = U T PX U (ver propriedade 2.4); U | X ~ N ( n ) (0, σ 2 I n ) [con-


sequência da hipótese REX.6]; PX é uma matriz simétrica e idempotente, de caracterís-
tica n − k (ver propriedade 2.1). Então, atendendo à propriedade 3) das distribuições de
vectores aleatórios, tem-se

Uˆ TUˆ (n − k ) s 2
X ~ χ 2 (n − k ) ou X ~ χ 2 (n − k ) .
σ 2
σ 2

O parâmetro característico desta distribuição, condicionada por X, é n − k . Co-


mo este parâmetro não depende de X, a respectiva distribuição não condicionada é dada
por
Uˆ TUˆ (n − k ) s 2
(2.69) q= = ~ χ 2 (n − k ) .
σ 2
σ 2

Conclui-se imediatamente que


2σ 4
Var( s 2 | X ) = Var( s 2 ) = .
n−k
O resultado (2.69) vai permitir construir intervalos de confiança, e fazer testes de
hipóteses sobre o parâmetro σ 2 .
Capítulo 2 – O Modelo de Regressão Linear Clássico 62

Para construir um intervalo de confiança de nível 1 − α para σ 2 , tem-se


 (n − k ) s 2 
P  χ12−α / 2 ≤ ≤ χα2 / 2  = 1 − α ,
 σ 2

onde χα2 é tal que P(q > χα2 ) = α . Os valores de χα2 / 2 (quantil de ordem 1 − α / 2 ) e de
χ12−α / 2 (quantil de ordem α / 2 ) estão tabelados, ou podem ser calculados com o soft-
ware adequado. Vem
 (n − k ) s 2 (n − k ) s 2 
P  ≤ σ 2
≤  = 1−α .
 χα / 2
2
χ12−α / 2 

Então, o intervalo de confiança para σ 2 , de nível 1 − α , é


 (n − k ) s 2 (n − k ) s 2 
(2.70)  ; .
 χ 2
α /2 χ 2
1−α / 2 

Para efectuar testes de hipóteses de dimensão α para o parâmetro σ 2 , a estatís-


tica-teste é construída recorrendo a (2.69), e segue-se o procedimento habitual.
Vai testar-se H 0 : σ 2 = σ 02 contra uma das alternativas seguintes:
a) H 1 : σ 2 > σ 02 ; b) H 1 : σ 2 < σ 02 ; c) H 1 : σ 2 ≠ σ 02 .

A estatística-teste é
(n − k ) s 2
(2.71) q= ~ χ 2 (n − k ) .
σ 2
0

Por exemplo, no caso a), representando por qobs o respectivo valor observado,
este valor vai comparar-se com o valor crítico, χ α2 , e rejeita-se a hipótese nula quando
qobs > χ α2 . O valor-p é P(q > qobs | H 0 ) .
No quadro 2.1 apresentam-se as regiões críticas e os valores-p para os três casos
referidos.
Quadro 2.1
Teste de H 0 : σ 2 = σ 02 contra H 1
H1 Região crítica Valor-p

σ 2 > σ 02 χα2 σ 02 P(q > qobs | H 0 )


q > χα2 ou s 2 >
n−k

σ 2 < σ 02 χ12−α σ 02 P(q < qobs | H 0 )


q < χ12−α ou s 2 <
n−k

q < χ12−α / 2 ∨ q > χα2 / 2 ou


σ ≠σ
2 2
0 duas vezes o
χ12−α / 2 σ 02 χα2 / 2 σ 02 menor dos valores
s <
2
∨s >
2

n−k n−k acima

Nota – χα2 : P(q > χα2 ) = α


Capítulo 2 – O Modelo de Regressão Linear Clássico 63

Deve notar-se que os resultados desta subsecção são, em geral, pouco úteis, uma
vez que não é habitual, nos MRL, fazer inferência estatística sobre σ 2 . Contudo, (2.69)
é importante para fundamentar os resultados necessários para a inferência estatística re-
lativa aos coeficientes de regressão.

Inferência estatística sobre um coeficiente de regressão isolado

Como b = ( X T X ) −1 X T Y e Y | X ~ N ( n ) ( Xβ , σ 2 I ) , obtém-se

b | X ~ N ( k )  β , σ 2 ( X T X ) −1  .
 
Note-se que a distribuição não condicionada de b não é normal k-dimensional,
uma vez que a matriz das covariâncias da distribuição de b, condicionada por X, de-
pende de X.
Em particular,
bj − β j
X ~ N (0,1) ( j = 1, 2,K, k ) ,
σb j

onde σ b2j = σ 2 m jj (a respectiva raiz quadrada é o desvio padrão de b j ), e m jj é o j-ési-


mo elemento da diagonal principal da matriz ( X T X ) −1 . Então,
bj − β j bj − β j
(2.72) = ~ N (0,1) ( j = 1, 2,K, k ) .
σ m jj σb j

Não é possível fazer inferências com (2.72) sobre β j porque o parâmetro σ 2 é


desconhecido (parâmetro perturbador). Vai, então, procurar-se o resultado estatístico
adequado para tal propósito.
Facilmente se verifica que b (ou qualquer b j ) e Û são condicionalmente inde-
pendentes, uma vez que as respectivas distribuições, condicionadas por X, são normais,
e Cov(b, Uˆ | X ) = O (no anexo 2E também se demonstra que b e s 2 são condicional-
mente independentes).
Evidentemente que as duas variáveis aleatórias
bj − β j (n − k ) s 2
e ,
σ m jj σ2
são condicionalmente independentes, porque são funções de b e de Û , respectivamente.
A primeira destas variáveis aleatórias tem distribuição (condicionada por X) nor-
mal estandardizada; a segunda tem distribuição (condicionada por X) do qui-quadrado.
Então, facilmente se conclui que, dividindo a primeira variável aleatória pela raiz qua-
drada da segunda, dividida pelos seus graus de liberdade, se obtém uma variável aleató-
ria, cuja distribuição, condicionada por X, é uma t-Student com n − k graus de liberda-
de. Assim,
Capítulo 2 – O Modelo de Regressão Linear Clássico 64

bj − β j
X ~ t (n − k ) ( j = 1, 2, K , k ) .
s m jj
O parâmetro característico desta distribuição, condicionada por X, é n − k . Co-
mo este parâmetro não depende de X, a respectiva distribuição não condicionada é dada
por
bj − β j bj − β j
(2.73) tj = = ~ t (n − k ) ( j = 1, 2, K , k ) ,
s m jj sb j

onde, como se sabe, sb j é o erro padrão de b j .


Suponha-se que se pretende construir um intervalo de confiança de nível 1 − α
(por exemplo, 1 − α = 0.95 ) para β j . Como o resultado (2.73) fornece uma variável ful-
cral, vem
 bj − β j 
P  − tα / 2 ≤ ≤ tα / 2  = 1 − α ,
 sb j 
 
onde tα / 2 é tal que P(t j > tα / 2 ) = α / 2 .
Então,
P  b j − tα / 2 sb j ≤ β j ≤ b j + tα / 2 sb j  = 1 − α ,
 
e o intervalo de confiança, de nível 1 − α , para β j é
(2.74) [ b j − tα / 2 sb j ; b j + tα / 2 sb j ].

Suponha-se que se pretende fazer o teste de hipóteses H 0 : β j = β 0j contra uma


das três seguintes hipóteses alternativas:
a) H 1 : β j > β 0j ; b) H1 : β j < β 0j ; c) H 1 : β j ≠ β 0j .

Em qualquer dos casos, a estatística-teste é dada pelo rácio-t


b j − β 0j
(2.75) tj = ~ t (n − k ) .
sb j
Por exemplo, no caso c), se t j ,obs é o valor observado da estatística-teste, este
valor vai ser comparado com o valor crítico, tα / 2 , e rejeita-se H 0 quando | t j ,obs | > t a / 2 .
O valor-p é 2 P (t j > | t j , obs | H 0 ) . As três situações referidas estão resumidas no quadro
2.2.
Deve chamar-se a atenção para um aspecto interessante relativo ao cálculo do
valor-p quando a alternativa é unilateral. Suponha-se, por exemplo, que H 1 : β j > β 0j e
que b j < β 0j . Neste caso, não vale a pena calcular o valor-p, pois sabe-se que o seu valor
é superior a 0.50, o que leva sempre a não rejeitar a hipótese nula.
Capítulo 2 – O Modelo de Regressão Linear Clássico 65

Quadro 2.2
Teste de H 0 : β j = β 0j contra H 1

H1 Região crítica Valor-p

β j > β 0j t j > tα ou b j > β 0j + tα sb j P(t j > t j ,obs | H 0 )

β j < β 0j t j < −tα ou b j < β 0j − tα sb j P(t j < t j ,obs | H 0 )

β j ≠ β 0j | t j | > tα / 2 ou 2 P (t j > | t j ,obs | H 0 )


b j < β − tα / 2 sb j ∨ b j > β + tα / 2 sb j
0
j
0
j

Nota – tα : P(t j > tα ) = α

É particularmente importante o caso em que β 0j = 0 , ou seja, considerar a hipó-


tese nula H 0 : β j = 0 . Neste caso, o rácio-t reduz-se a
bj
tj = .
sb j

Se o teste rejeitar a hipótese nula, diz-se que o regressor xtj é estatisticamente


significativo para explicar o comportamento médio de yt ; também pode dizer-se que
xtj tem significância estatística para a finalidade referida.
Por exemplo, se lsalart = β1 + β 2 educt + β3 expert + β 4 empct + ut , rejeitar a hipó-
tese H 0 : β 2 = 0 tem a seguinte interpretação: controlando expert e empct , educt é sig-
nificativo, do ponto de vista estatístico, para explicar o comportamento médio do regres-
sando lsalart .
Antes de retomar o exemplo reservado para a análise empírica, vão fazer-se mais
alguns comentários:
a) Quando se faz um teste de hipóteses, como os indicados anteriormente, é preferível
utilizar a expressão “não rejeitar a hipótese nula” do que “aceitar a hipótese nu-
la”. Considere-se de novo a equação explicativa de lsalar, e que pretendia fazer-
-se o teste de H 0 : β 2 = 0.06 , com dimensão 0.05. Não rejeitar esta hipótese não in-
valida obviamente que também se possa não rejeitar a hipótese H 0 : β 2 = 0.061 . É
absurdo dizer que se aceitam as duas hipóteses, porque as afirmações “ β 2 = 0.06 ” e
“ β 2 = 0.061 ” não podem ser ambas verdadeiras. Tudo o que se pode dizer, é que os
dados não permitem rejeitar qualquer das duas hipóteses ao nível 0.05. Também se
usa a expressão “a evidência estatística é favorável à hipótese nula” quando se
conclui que a hipótese não é rejeitada.
b) Muitas vezes, dá-se toda a ênfase à significância estatística de um regressor, não se
dando a atenção devida à sua significância prática, que tem a ver com a magnitude
da estimativa obtida. Como o rácio-t para fazer o teste de H 0 : β j = 0 é t j = b j / sb j ,
pode haver significância estatística porque b j é “grande”, ou porque sb j , é “peque-
Capítulo 2 – O Modelo de Regressão Linear Clássico 66

no”. Assim, pode ter-se um regressor estatisticamente significativo ( t j é “grande”),


mas sem significado prático ( b j é “pequeno”).
c) No caso de grandes amostras, é importante dar especial atenção à magnitude da es-
timativa obtida para o coeficiente, pois acontece muitas vezes que o regressor é esta-
tisticamente significativo porque o erro padrão é baixo (com grandes amostras os
parâmetros podem ser estimados com mais precisão).
d) Alguns autores preconizam que a dimensão do teste, α , deve diminuir à medida
que a dimensão da amostra, n, cresce, de forma a compensar parcialmente o facto
de os erros padrão se tornarem mais pequenos. Por exemplo, no caso de dados sec-
cionais, se se utiliza o nível de 0.05 quando a dimensão da amostra é de algumas
centenas, deve usar-se o nível de 0.01 quando a dimensão da amostra é de alguns
milhares. Uma dimensão menor para o teste contribui para que as duas significân-
cias (estatística e prática) possam coincidir, embora esta ocorrência não esteja garan-
tida.
e) Recorde-se que erros padrão elevados podem resultar da existência de um forte grau
de multicolinearidade. Nesta situação, as estimativas de alguns coeficientes podem
ser muito imprecisas, levando à conclusão, talvez errada, de que os regressores não
são estatisticamente significativos.
f) Podem dar-se algumas indicações práticas para orientar a discussão relativa à ques-
tão das significâncias estatística e prática de um regressor. Assim:
− Deve analisar-se a significância estatística dos regressores. Se um regressor tem
significância estatística, deve discutir-se a magnitude da estimativa do respectivo
coeficiente para se ter uma ideia da sua importância prática. Neste aspecto, deve
dar-se particular atenção às unidades de medida das variáveis, e à forma como
aparecem no modelo (em níveis, em logaritmos, etc.).
− Mesmo que o regressor não seja estatisticamente significativa aos níveis usuais
(0.10, 0.05 ou 0.01), o seu significado prático pode ainda ser importante porque
pode não ser pequena a magnitude da estimativa do seu coeficiente. Neste caso,
deve ter-se presente o respectivo valor-p, pois, como se sabe, este mede a proba-
bilidade de obter qualquer valor mais desfavorável para a hipótese nula (supon-
do-a verdadeira) do que o valor observado da estatística-teste. Na prática, o va-
lor-p é um indicador da “credibilidade” da hipótese nula.
− Pode acontecer que um regressor é estatisticamente significativo, mas a estimati-
va do respectivo coeficiente, embora sendo elevada, tem o “sinal trocado”. Este
problema não é fácil de resolver, pois resulta muitas vezes de uma deficiente es-
pecificação do modelo (forma funcional, regressores importantes omitidos, erros
de medida nas variáveis, etc.). Em certas aplicações, as dificuldades encontradas
podem ser atenuadas com algum esforço de análise sobre a especificação do mo-
delo, e sobre a natureza dos dados disponíveis.

Exemplo 2.15 – Considere-se de novo o exemplo em estudo. Para analisar a significân-


cia estatística dos três regressores ( educt , expert e empct ), faz-se, separadamente, o tes-
te das seguintes hipóteses nulas: β 2 = 0 ; β 3 = 0 ; β 4 = 0 (as alternativas são bilaterais).
Capítulo 2 – O Modelo de Regressão Linear Clássico 67

Regressores Rácios-t Valores-p


educt 11.40450 0.000
expert 9.04644 0.000
empct 1.63237 0.103

Os valores referidos no quadro anterior permitem concluir que, a nível 0.05, os


regressores educt e expert , individualmente, são estatisticamente significativas [os efei-
tos parciais sobre lsalart são significativos, e os sinais estão correctos]. O regressor
empct não é significativo a 0.10. Contudo, quando a hipótese alternativa é H1 : β 4 > 0
(o sinal esperado deste coeficiente), o valor-p é 0.0515, e empct já é significativo a ní-
vel 0.10.
Suponha-se que se pretenda testar H 0 : β 2 = 0.06 (retorno da educação igual a
6%) contra H1 : β 2 > 0.06 . Como b2 = 0.055383 < 0.06 , não vale a pena calcular o valor
observado da estatística-teste e o valor-p, pois sabe-se que o seu valor é superior a 0.50,
o que leva sempre a não rejeitar a hipótese nula. Calculando, tem-se
b2 − 0.06 0.055383 − 0.06
t2, obs = = = −0.951 ,
sb2 0.004856

e o valor-p é igual a 0.829. Quando a hipótese alternativa é H1 : β 2 < 0.06 , o valor-p é


0.17, não se rejeitando a hipótese nula, mesmo a nível 0.15 (o valor crítico a 0.05 é igual
a –1.646).
Podem construir-se intervalos de confiança a 95% para os coeficientes de regres-
são. Com α = 0.05 e n − k = 996 , vem t0.025 = 1.962 . Utilizando os valores obtidos nos
exemplos 2.6 e 2.9, obtém-se:
β 2 : [ b2 − tα / 2 sb , b2 + tα / 2 sb ] = [0.0459, 0.0649];
2 2

β 3 : [ b3 − tα / 2 sb , b3 + tα / 2 sb ] = [0.018, 0.028];
3 3

β 4 : [ b4 − tα / 2 sb , b4 + tα / 2 sb ] = [–0.0008, 0.0087];
4 4

Facilmente se conclui que a hipótese nula que corresponde a cada um dos valo-
res destes intervalos não é rejeitada a nível 0.05, quando as hipóteses alternativas são
bilaterais. Por exemplo, as hipóteses nulas H 0 : β 2 = 0.05 ou H 0 : β 2 = 0.06 não são re-
jeitadas porque 0.05 e 0.06 pertencem ao intervalo de confiança de β 2 .
Para construir um intervalo de confiança a 95% para a variância das variáveis re-
siduais, tem-se, com α = 0.05 e n − k = 996 , χ 02.025 = 1085.355 e χ 02.975 = 910.4327 . En-
tão,
 (n − k ) s 2 (n − k ) s 2 
σ2:  , 2 = [0.1294, 0.15426].
 χα / 2
2
χ1−α / 2 

Capítulo 2 – O Modelo de Regressão Linear Clássico 68

Inferência estatística sobre uma combinação linear dos coeficientes de regressão

Considere-se a combinação linear dos coeficientes de regressão


δ = c1β1 + c2 β 2 + L + ck β k = cβ ,
onde c é um vector 1 × k de elemento genérico c j .
O estimador MQ de δ é δˆ = cb , e facilmente se conclui que

δˆ | X ~ N  δ , σ 2c( X T X )−1 cT  ,
 
ou
δˆ − δ
X ~ N (0,1) .
σ c( X T X ) −1 cT

Com um procedimento semelhante ao caso anterior, facilmente se chega à conc-


lusão de que
δˆ − δ
X ~ t (n − k ) .
s c( X T X ) −1 c T

Logo,
δˆ − δ δˆ − δ
(2.76) tδˆ = = ~ t (n − k ) ,
s c( X T X ) −1 cT sδˆ

onde
sδˆ = s c( X T X ) −1 c T

é o erro padrão de δˆ = cb .
Para uma melhor compreensão do resultado (2.76), suponha-se, por exemplo,
δ = β 2 + 3β3 . Então, δˆ = b2 + 3b3 , e vem
^ ^ ^ ^
sδ2ˆ = Var(b2 + 3b3 | X ) = Var(b2 | X ) + Var(3b3 | X ) + 2 Cov(b2 ,3b3 | X )
^ ^ ^ ^
= Var(b2 | X ) + 9 Var(b3 | X ) + 6 Cov(b2 , b3 | X ) = sb22 + 9sb23 + 6 Cov(b2 , b3 | X ) ,
e, portanto, de acordo com (2.76), obtém-se
(b2 + 3b3 ) − ( β 2 + 3β 3 )
~ t (n − k ) .
^
s + 9 s + 6 Cov(b2 , b3 | X )
2
b2
2
b3

Evidentemente, esta expressão dá os mesmos resultados numéricos que (2.76),


mas permite, muitas vezes, tirar partido do output fornecido pelo software computacio-
nal, evitando fazer o produto matricial c( X T X ) −1 c T .
Quando a combinação linear dos coeficientes de regressão não envolve o termo
independente β1 , ou seja, quando δ = c2 β 2 + c3β 3 + L + ck β k ( c1 = 0 ), pode calcular-se
Capítulo 2 – O Modelo de Regressão Linear Clássico 69

directamente o erro padrão de δˆ . Com efeito, considere-se, sem perda de generalidade,


que um dos coeficientes c j ( j = 2, 3, K, k ) é igual a 1. Por exemplo, se c2 = 1 , tem-se
δ = β 2 + c3β3 + L + ck β k .
Como
yt = β1 + β 2 xt 2 + β3 xt 3 + L + β k xtk + ut
= β1 + ( β 2 + c3 β3 + L + ck β k ) xt 2 + β 3 ( xt 3 − c3 xt 2 ) + L + β k ( xtk − ck xt 2 ) + ut
= β1 + δ xt 2 + β 3 ( xt 3 − c3 xt 2 ) + L + β k ( xtk − ck xt 2 ) + ut ,

pode estimar-se imediatamente δ (e calcular o erro padrão de δˆ ), fazendo a regressão


MQ de yt sobre 1, xt 2 , xt 3 − c3 xt 2 ,…, xtk − ck xt 2 . Por exemplo, considere-se o modelo
yt = β1 + β 2 xt 2 + β 3 xt 3 + ut ,

onde δ = β 2 + 3β3 . Como


yt = β1 + ( β 2 + 3β 3 ) xt 2 + β 3 ( xt 3 − 3 xt 2 ) + ut = β1 + δ xt 2 + β 3( xt 3 − 3 xt 2 ) + ut ,

δ pode ser estimado fazendo a regressão MQ de yt sobre 1, xt 2 e xt 3 − 3xt 2 ; o erro pa-


drão de δˆ é obtido directamente desta regressão.
Pode obter-se um intervalo de confiança para uma combinação linear dos coe-
ficientes de regressão, ficando ao cuidado do leitor verificar que
(2.77) [ δˆ − tα / 2 sδˆ , δˆ + tα / 2 sδˆ ].

Suponha-se que se pretende fazer o teste de hipóteses H 0 : δ = δ 0 contra uma


das seguintes alternativas:
a) H 1 : δ > δ 0 ; b) H 1 : δ < δ 0 ; c) H 1 : δ ≠ δ 0 .

A estatística-teste é o rácio-t,
δˆ − δ 0
(2.78) tδˆ = ~ t (n − k ) .
sδˆ

Quadro 2.3
Teste de H 0 : δ = δ 0 contra H 1
H1 Região crítica Valor-p

H1 : δ > δ 0 tδˆ > tα ou δˆ > δ 0 + tα sδˆ P (tδˆ > tδˆ ,obs | H 0 )

H1 : δ < δ 0 tδˆ < −tα ou δˆ < δ 0 − tα sδˆ P (tδˆ < tδˆ , obs | H 0 )

H1 : δ ≠ δ 0 | tδˆ | > tα / 2 ou 2 P(tδˆ > | tδˆ ,obs | H 0 )


δˆ < δ 0 − tα / 2 sδˆ ∨ δˆ > δ 0 + tα / 2 sδˆ

Nota – tα : P(tδˆ > tα ) = α


Capítulo 2 – O Modelo de Regressão Linear Clássico 70

As três situações referidas estão apresentadas no quadro 2.3.


Por exemplo, no caso b), representando por tδ ,obs o valor observado da estatísti-
ca-teste, este valor vai ser comparado com o valor crítico, tα , e rejeita-se H 0 quando
tδ ,obs < −ta . O valor-p é P(tδ < tδ ,obs | H 0 ) .

Exemplo 2.16 – Considerando de novo o exemplo em estudo, suponha-se que se preten-


de construir um intervalo de confiança a 95% para δ = β 3 − β 4 . Reformulando o mode-
lo, o cálculo de δˆ e de sδˆ pode ser feito com facilidade. Fazendo β 3 = δ + β 4 , tem-se
lsalart = β1 + β 2 educt + β 3 expert + β 4 empct + ut
= β1 + β 2 educt + (δ + β 4 ) expert + β 4 empct + ut
= β1 + β 2 educt + δ expert + β 4 (expert + empct ) + ut .

Com a regressão MQ de lsalart sobre 1, educt , expert e expert + empct resulta


imediatamente que δˆ = 0.019035 e sδˆ = 0.00346 . Então,
[ δˆ − tα / 2 sδˆ , δˆ + tα / 2 sδˆ ] = [0.0122, 0.0258].

Note-se que δˆ e sδˆ podem ser calculados, utilizando directamente os resultados


já obtidos nos exemplos 2.6 e 2.9. Assim, tem-se
δˆ = b3 − b4 = 0.022988 − 0.003953 = 0.019035 ,

e
^ ^ ^
sδˆ = Var(b3 | X ) + Var(b4 | X ) − 2 Cov(b3 , b4 | X )
= 0.00000646 + 0.00000587 − 2 × 0.000000167 = 0.00346 .
Para testar, a nível 0.05,
H 0 : δ = β3 − β 4 = 0 contra H1 : δ = β3 − β 4 > 0 .

Tem-se
δˆ − 0 0.019035
tδˆ , obs = = = 5.49764 ,
sδˆ 0.00346

a que corresponde o valor-p aproximadamente igual a 0. Então, rejeita-se H 0 .


Suponha-se, agora, que vai testar-se
H 0 : β3 + β 4 = 0.03 contra H1 : β3 + β 4 ≠ 0.03 .

Fazendo δ = β 3 + β 4 − 0.03 , o teste pode ser feito substituindo no modelo origi-


nal β 3 por δ − β 4 + 0.03 . Então,
lsalart = β1 + β 2 educt + β 3 expert + β 4 empct + ut
= β1 + β 2 educt + (δ − β 4 + 0.03) expert + β 4 empct + ut
= β1 + β 2 educt + δ expert + β 4 (empct − expert ) + 0.03 expert + ut ,

ou
Capítulo 2 – O Modelo de Regressão Linear Clássico 71

lsalart − 0.03 expert = β1 + β 2 educt + δ expert + β 4 (empct − expert ) + ut .

Então, testar
H 0 : δ = 0 contra H1 : δ ≠ 0

equivale a testar H 0 : β3 + β 4 = 0.03 contra H1 : β3 + β 4 ≠ 0.03 (no modelo original). Fa-


zendo a regressão de lsalart − 0.03 expert sobre 1, educt , expert e empct − expert , ob-
tém-se δˆ = −0.003058 e sδˆ = 0.003558 . O rácio-t é − 0.859587 , que corresponde ao
valor-p igual a 0.39; a hipótese nula não é rejeitada.

Exemplo 2.17 – É interessante saber se o retorno da educação depende de alguma das


outras variáveis explicativas (por exemplo, expert ). No caso de se pretender averiguar
se o retorno da educação depende do número de anos de experiência profissional, é ne-
cessário acrescentar ao modelo o regressor que representa a interacção entre educt e
expert . A especificação do modelo passa a ser
lsalart = β1 + β 2 educt + β3 expert + β 4 empct + β 5 (educt × expert ) + ut .

Os resultados da estimação são os seguintes:

Regressores Estimativas dos coeficientes Erros padrão Rácios-t Valores-p


constante 5.685180 0.170480 33.34810 0.000
educt 0.065622 0.013116 5.00305 0.000
expert 0.033817 0.013134 2.57476 0.010
empct 0.003924 0.002422 1.62005 0.106
educt × expert –0.000854 0.001017 –0.84035 0.401

Testar que o retorno da educação, β 2 + β5 expert , não depende de expert corres-


ponde a fazer H 0 : β5 = 0 contra H1 : β 5 ≠ 0 . Como o valor-p é 0.401, não se rejeita a hi-
pótese nula. A evidência estatística é favorável a que o retorno da educação não depen-
da do número de anos de experiência profissional.
Vai construir-se o intervalo de confiança a 95% para o retorno da educação
quando expert = 10 , ou seja, para δ = β 2 + 10β 5 . Reformulando o modelo, tem-se
lsalart = β1 + β 2 educt + β 3 expert + β 4 empct + β 5 (educt × expert ) + ut
= β1 + (δ − 10β 5 )educt + β 3 expert + β 4 empct + β 5 (educt × expert ) + ut
= β1 + δ educt + β 3 expert + β 4 empct + β 5 educt × (expert − 10) + ut .

A estimativa de δ é δˆ = 0.057077 . Como sδˆ = 0.005259 , facilmente se verifica


que o intervalo de confiança é [0.046758, 0.067397], que pouco difere do intervalo de
confiança de β 2 do modelo inicial.

Capítulo 2 – O Modelo de Regressão Linear Clássico 72

Inferência estatística sobre combinações lineares dos coeficientes de regressão

Seja δ = Rβ , onde R é uma matriz m × k com característica igual a m ≤ k . Já se


sabe que δˆ = Rb é o estimador MQ de δ . Tem-se, então,

δˆ | X ~ N ( m )  δ , R Cov(b | X ) RT  ,
 
ou
δˆ | X ~ N ( m )  δ , σ 2 R( X T X ) −1 RT  .
 
Atendendo à propriedade 2) das distribuições de vectores aleatórios, obtém-se

1
(δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ ) X ~ χ 2 (m) .
σ2
Utilizando este resultado, e (2.69), é possível obter uma variável aleatória que
segue uma distribuição F-Snedcor. Para isso, basta demonstrar a independência, condi-
cionada por X, entre
Uˆ T Uˆ = U T PX U e (δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ ) = U T S X U ,
onde
δˆ − δ = R( X T X )−1 X TU e S X = X ( X T X )−1 RT {R( X T X ) −1 RT }−1 R ( X T X )−1 X T
é simétrica e idempotente. Com efeito, basta notar que PX S X = O e atender à proprieda-
de 4) das distribuições de vectores aleatórios.
Como (1 / σ 2 ) U T S X U | X ~ χ 2 (m) e (1 / σ 2 ) Uˆ TUˆ | X ~ χ 2 (n − k ) , obtém-se

(δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ ) / m


X ~ F (m, n − k ) ,
Uˆ TUˆ /(n − k )
ou
(δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ )
X ~ F (m, n − k ) .
2
ms

Note-se, também, que


^
Cov(δˆ | X ) = s 2 R( X T X ) −1 R T .
Os parâmetros característicos daquela distribuição, condicionada por X, são m e
n − k . Como estes parâmetros não dependem de X, a respectiva distribuição não condi-
cionada é dada por
(δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ )
(2.79) F= ~ F (m, n − k ) .
ms 2
São de referir três casos particulares importantes de (2.79):
Capítulo 2 – O Modelo de Regressão Linear Clássico 73

1) R = [ 0 L 1 L 0 ], onde 1 se encontra na posição j.


Neste caso, a partir de (2.79), tem-se
(b j − β j ) 2 (b j − β j ) 2
= ~ F (1, n − k ) ( j = 1, 2, K , k ) .
m jj s 2 sb2j

Este resultado permite fazer o teste H 0 : β j = β 0j contra H 1 : β j ≠ β 0j (hipótese al-


ternativa bilateral), mas não quando a hipótese alternativa é unilateral. Tirando par-
tido das relações existentes entre a t-Student e a F-Snedcor, facilmente se obtém
(2.73).
2) R é uma matriz-linha 1 × k , ou seja, R = c .
Neste caso, de (2.79) sai
(δˆ − δ ) 2 (δˆ − δ ) 2
= ~ F (1, n − k )
s 2c ( X T X ) −1 cT sδ2ˆ

Este resultado permite fazer o teste H 0 : δ = δ 0 contra H 1 : δ ≠ δ 0 (hipótese alter-


nativa bilateral), mas não no caso unilateral. Recorrendo uma vez mais à relação en-
tre as distribuições F-Snedcor e t-Student, obtém-se (2.76).
3) R = [ O I k 2 ], onde O é a matriz nula, quadrada de ordem k1 .
Seja
b  β 
b =  •1  e β =  •1  ,
b•2   β •2 
onde: b•1 e β •1 têm k1 elementos; b•2 e β •2 têm k2 elementos ( k1 + k2 = k ).
Seja M = X T X , e
M M 12  −1  M 11 M 12 
M =  11 , M =  21 ,
 M 21 M 22  M M 22 

onde as partições por blocos de M e de M −1 são compatíveis com a partição dos


vectores b e β . Então,
(δˆ − δ )T {R( X T X ) −1 RT }−1 (δˆ − δ ) = (b• 2 − β • 2 )T ( M 22 ) −1 (b• 2 − β• 2 ) ,
onde, atendendo à técnica de cálculo da inversa de matrizes por blocos (ver anexo
2A), ( M 22 ) −1 = M 22 − M 21M 11−1M 12 .
Assim,
(b• 2 − β• 2 )T ( M 22 ) −1 (b• 2 − β• 2 )
~ F (k2 , n − k ) .
k2 s 2

Este resultado serve para fazer inferência estatística sobre


β • 2 = [ β k +1 β k + 2 L β k ] T .
1 1

Retomando o caso geral, note-se que o resultado (2.79) pode ser apresentado de
forma equivalente, utilizando os resíduos MQ com restrições, e evitando o cálculo da
matriz {R( X T X ) −1 RT }−1 . Com efeito, seja
Capítulo 2 – O Modelo de Regressão Linear Clássico 74

Uˆ r = Y − Xbr = Y − X {b + ( X T X ) −1 RT {R( X T X ) −1 RT }−1 (δ − δˆ)}


= Y − Xb − X ( X T X ) −1 RT {R( X T X ) −1 RT }−1 (δ − δˆ )
= Uˆ − X ( X T X ) −1 RT {R( X T X ) −1 RT }−1 (δ − δˆ) .
Então,
T
Uˆ rTUˆ r =  Uˆ − X ( X T X ) −1 RT {R( X T X ) −1 RT }−1 (δ − δˆ) 
 
×  Uˆ − X ( X T X ) −1 RT {R( X T X ) −1 RT }−1 (δ − δˆ ) 
 
= Uˆ TUˆ + (δˆ − δ )T {R ( X T X ) −1 RT }−1 (δˆ − δ ),

pois X TUˆ = 0 .
Pode, assim, dispor-se do seguinte resultado equivalente a (2.79):
Uˆ rTUˆ r − Uˆ TUˆ
(2.80) F= ~ F (m, n − k ) .
m s2

Os resultados anteriores – (2.79) e (2.80) – vão permitir efectuar inferências re-


lativamente a qualquer conjunto de restrições lineares sobre os coeficientes de re-
gressão.
Para determinar uma região de confiança de nível 1 − α para δ = Rβ deve uti-
lizar-se (2.79). Obtém-se
R1−α = {δ : (δˆ − δ )T {R ( X T X ) −1 RT }−1 (δˆ − δ ) ≤ m s 2 Fα } ,

onde Fα é tal que P( F > Fα ) = α .


Um caso particular importante diz respeito à construção de uma região de con-
fiança para alguns coeficientes de regressão, β •2 . Assim, recorrendo ao terceiro caso
particular de (2.79), vem

R1−α = β• 2 : (b• 2 − β• 2 )T ( M 22 ) −1 (b• 2 − β• 2 ) ≤ k2 s 2 Fα  ,


 
obtendo-se um elipsóide centrado em β •2 .
Obviamente, não é equivalente construir, por exemplo, uma região de confiança
de nível 1 − α para o par de coeficientes de regressão ( β 2 , β 3 ) , ou determinar dois in-
tervalos de confiança de nível 1 − α (um para cada coeficiente de regressão). De facto,
facilmente se podem encontrar pares de valores possíveis daqueles coeficientes que per-
tencem à região – à elipse centrada em ( β 2 , β 3 ) –, mas não pertencem ao rectângulo
formado pelos dois intervalos de confiança; ou pares que pertencem ao rectângulo, mas
não pertencem à elipse. Embora o nível de confiança da região (elipse) seja 1 − α , o ní-
vel de confiança do rectângulo é diferente de 1 − α .
Vai ver-se a seguir como utilizar os resultados (2.79) ou (2.80) para efectuar
testes de hipóteses sobre os coeficientes de regressão.
Suponha-se que se pretende testar
H 0 : Rβ = δ 0 contra H1 : Rβ ≠ δ 0 ,
Capítulo 2 – O Modelo de Regressão Linear Clássico 75

onde δ 0 é um valor assumido pelo vector m × 1 , δ . Assim, a hipótese nula a testar é


constituída por m igualdades lineares sobre os coeficientes de regressão,
r11β1 + r12 β 2 + L + r1k β k = δ10
r β + r β + L + r β = δ
 2k k
H 0 :  21 1 22 2 20

 L
rm1β1 + rm 2 β 2 + L + rmk β k = δ m 0 ,

onde cada δ i 0 (i = 1, 2, K , m) é conhecido. A hipótese alternativa, H1 , consiste em ne-


gar H 0 , ou seja, em não se verificar pelo menos uma das igualdades referidas.
A estatística-teste é o rácio-F
(δˆ − δ 0 )T {R( X T X ) −1 RT }−1 (δˆ − δ 0 )
(2.81) F= ~ F (m, n − k ) ,
ms2

onde δˆ = Rb . A obtenção da distribuição deste rácio-F foi feita de acordo com o princí-
pio de Wald (ver capítulo 8), que se baseia no estimador MQ de β sem restrições, b.
Como se sabe, quando a hipótese nula se supõe verdadeira, obtém-se o resultado
equivalente,
Uˆ rTUˆ r − Uˆ TUˆ (VR 0 − VR1 ) / m
(2.82) F= = ~ F (m, n − k ) ,
ms2 VR1 /(n − k )

onde: VR 0 = Uˆ rTUˆ r (variação residual ou soma dos quadrados dos resíduos do modelo
com as restrições impostas pela hipótese nula); VR1 = Uˆ TUˆ (variação residual ou soma
dos quadrados dos resíduos do modelo sem restrições); s 2 = VR1 /(n − k ) .
O resultado (2.82) serve para fazer, nas condições referidas, qualquer teste de
hipóteses sobre um conjunto de igualdades lineares que envolvem os coeficientes de re-
gressão. Trata-se de um resultado de fácil aplicação, desde que se tenham estimado o
modelo sem restrições, e o modelo com as restrições dadas pela hipótese nula. Com
efeito, basta notar que o numerador é a diferença entre a variação residual (a soma dos
quadrados dos resíduos) com as restrições e a variação residual sem restrições, e que o
denominador é o produto do número de restrições, m, pelo estimador da variância das
variáveis residuais do modelo sem restrições.
A mecânica do teste é a seguinte: se o valor observado de F, Fobs , é superior a
Fα rejeita-se a hipótese nula; caso contrário, esta hipótese não é rejeitada. Pode também
reportar-se o resultado do teste indicando o respectivo valor-p: pobs = P( F > Fobs | H 0 ) .

Exemplo 2.18 – Suponha-se que yt = β1 + β 2 xt 2 + β 3 xt 3 + β 4 xt 4 + β 5 xt 5 + ut , e que a hi-


pótese nula considera as seguintes restrições sobre os coeficientes de regressão: a soma
dos coeficientes, excepto o termo independente, é igual a 1; β 2 e β 3 são iguais; β 4 é o
dobro de β 5 . Pode, então, escrever-se
β 2 + β 3 + β 4 + β 5 = 1

H 0 : β 2 − β 3 = 0
 β − 2 β = 0.
 4 5
Capítulo 2 – O Modelo de Regressão Linear Clássico 76

Neste caso, tem-se k = 5 , m = 3 ,


0 1 1 1 1 1 
R = 0 1 − 1 0 0 e δ 0 = 0 .
 
0 0 0 1 − 2 0

A seguir, vai determinar-se o modelo que obedece às restrições estabelecidas na


hipótese nula. Como β 2 = β 3 , β 4 = 2β5 , tem-se 2β3 + 3β5 = 1 ou β 3 = 0.5 − 1.5β5 . En-
tão, obtém-se
yt = β1 + (0.5 − 1.5β 5 )( xt 2 + xt 3 ) + 2 β5 xt 4 + β 5 xt 5 + ut ,

ou
yt − 0.5( xt 2 + xt 3 ) = β1 + β5{−1.5( xt 2 + x3 ) + 2 xt 4 + xt 5} + ut .

Então, o modelo com restrições é dado por


ytr = β1 + β5 xtr + ut ,

onde ytr = yt − 0.5 ( xt 2 + xt 3 ) e xtr = −1.5 ( xt 2 + xt 3 ) + 2 xt 4 + xt 5 .


Neste caso, tem-se
(VR 0 − VR1 ) / 3
F= ~ F (3, n − 5)
VR1 /( n − 5)

Suponha-se que δ 0 = 0 , ou seja, considere-se que o sistema de restrições é ho-


mogéneo, Rβ = 0 . Se as restrições forem inseridas no modelo yt = xt • β + ut , e seguin-
do o mesmo procedimento apresentado na secção 2.8, verifica-se que o regressando do
modelo com restrições continua a ser yt . Neste caso, é possível reformular (2.82). Com
efeito, considerem-se as somas dos quadrados dos resíduos, sem e com restrições,
VR1 = (1 − R 2 )VT e VR 0 = (1 − R02 )VT ,

onde R 2 e R02 são os coeficientes de determinação correspondentes, respectivamente,


aos modelos sem e com restrições. Tem-se: R 2 > R02 .
Substituindo em (2.82), e notando que s 2 = (1 − R 2 )VT /(n − k ) , obtém-se
( R 2 − R02 ) / m
(2.83) ~ F (m, n − k ) ,
(1 − R 2 ) /( n − k )
concluindo-se que o cálculo desta expressão necessita apenas do conhecimento dos coe-
ficientes de determinação referidos.
A distribuição do rácio-F referida em (2.82) foi obtida obedecendo ao princípio
da razão de verosimilhanças (ver capítulo 8), pois baseia-se nos estimadores MQ de
β sem restrições, b, e com restrições, br . Assim, vai verificar-se que rácio-F para testar
a hipótese nula H 0 : Rβ = δ 0 contra a alternativa H1 : Rβ ≠ δ 0 é uma transformação
monótona da razão de verosimilhanças, λ (ver anexo 2F).
Neste caso, tem-se
Capítulo 2 – O Modelo de Regressão Linear Clássico 77

~ ~ ~ ~
Θ = ( β , σ~ 2 ) : β ∈ ℜk , σ~ 2 > 0 , Θ0 = ( β , σ~ 2 ) : Rβ = δ 0 , σ~ 2 > 0 .
   
Então,
 1  n n / 2 exp{−n / 2} ˆ T ˆ − n / 2
Lˆ (Θ) = (2π σˆ 2 ) − n / 2 exp− 2 (Y − Xb)T (Y − Xb) = (U U ) ,
 2σˆ  (2π ) n / 2

onde σˆ 2 = Uˆ T Uˆ / n é o estimador MV de σ 2 (sem restrições), b é o estimador MV de


β (sem restrições) e Uˆ = Y − Xb .
Do mesmo modo,
 1  n n / 2 exp{−n / 2} ˆ T ˆ − n / 2
Lˆ (Θ0 ) = (2π σˆ r2 ) − n / 2 exp− 2 (Y − Xbr )T (Y − Xbr ) = (U r U r ) ,
 2σˆ r  (2π ) n / 2

onde σˆ r2 = Uˆ rT Uˆ r / n é o estimador MV de σ 2 (com restrições), br é o estimador MV de


β (com restrições) e Uˆ r = Y − Xbr .
Donde
−n / 2
Lˆ (Θ)  Uˆ T Uˆ 
λ= =  .
Lˆ (Θ 0 )  Uˆ rT Uˆ r 

Confrontando esta expressão de λ com o rácio-F dado por (2.82), facilmente se


verifica que
n − k 2/ n
F= (λ − 1) .
m
Pode, então, concluir-se que o teste RV e o teste correspondente a (2.82) dão o
mesmo resultado.

Teste de significância global da regressão

Considere-se o MRLCN com termo independente, e suponha-se que se pretende


testar se todos os coeficientes de regressão, excepto o termo independente, são iguais a
zero. Assim,
H 0 : β 2 = β 3 = L = β k = 0 contra H1 : ∃β j ≠ 0 ( j = 2, 3, K , k ) .

Não rejeitar a hipótese nula corresponde a verificar que o modelo proposto não é
adequado, na sua globalidade, para descrever o comportamento do regressando.
Como a hipótese nula corresponde a E ( yt | XT ) = β1 = E ( yt ) , diz-se que se está a
testar a significância global da regressão.
Para obter a estatística-teste, vai considerar-se (2.82) e notar que, neste caso, a
soma dos quadrados dos resíduos a satisfazer as restrições definidas pela hipótese nula
( β 2 = β 3 = L = β k = 0 ) é igual à variação total das observações do regressando,

VR 0 = VT = ∑t =1 ( yt − y ) 2 ,
n
Capítulo 2 – O Modelo de Regressão Linear Clássico 78

ou seja, no modelo sujeito às restrições, a variação total coincide com a variação resi-
dual (a variação explicada é nula). A igualdade anterior é facilmente provada em virtude
de o modelo com restrições ser apenas yt = β1 + ut . Neste caso, tem-se
b1 = y e uˆ rt = yt − y .

Então,
∑ ( yt − y ) 2 − Uˆ TUˆ
n
VT − VR
F= t =1
= ~ F (k − 1, n − k ) ,
(k − 1) s 2
(k − 1) s 2

onde VR é a variação residual do modelo sem restrições.


Como VR = (1 − R 2 )VT , VR = (n − k ) s 2 e VE = VT − VR , obtém-se
R 2 / (k − 1) VE /( k − 1)
(2.84) F= = ~ F (k − 1, n − k ) .
(1 − R ) /( n − k ) VR /( n − k )
2

Note-se que (2.84) pode obter-se de (2.83), fazendo R02 = 0 . Se não se rejeita a
hipótese nula, conclui-se que há evidência de que o conjunto de todos os regressores
não é adequado para explicar o comportamento do regressando. Obviamente, a rejeição
da hipótese nula significa que os regressores, na sua globalidade, explicam alguma va-
riação das observações do regressando. Contudo, isto não quer dizer que o valor de R 2
tenha que ser muito elevado (por exemplo, pode acontecer que o teste rejeite a hipótese
nula, mas o valor de R 2 é igual a 0.04). É por esta razão que se deve fazer o teste de
significância global, e não ter em conta apenas a magnitude de R 2 .

Teste de nulidade conjunta de coeficientes de regressão

Este teste de hipóteses consiste em averiguar se alguns dos coeficientes de re-


gressão são conjuntamente iguais a zero. Trata-se, com efeito, de saber se o regressando
responde ou não, conjuntamente, às variações de alguns regressores. Não rejeitar a hipó-
tese de que, por exemplo, certos β j são iguais a zero significa existir evidência estatísti-
ca que pode levar a concluir que os correspondentes regressores não contribuem para
esclarecer o comportamento do regressando.
Sem perda de generalidade vai supor-se que
yt = xt(•1) β •1 + xt(•2) β • 2 + ut ,

onde xt • = [ xt(•1) xt(•2 ) ], com xt(•1) de tipo 1× k1 e xt(•2) de tipo 1 × k2 . Os subvectores de β ,


β•1 e β • 2 , são de tipo k1 × 1 e k2 × 1 , respectivamente. O teste é o seguinte:
H 0 : β• 2 = 0 contra H1 : β• 2 ≠ 0 .

Trata-se de testar se os regressores correspondentes a estes coeficientes dão uma


contribuição significativa para a explicação do comportamento do regressando. Diz-se,
então, que se está a testar a significância conjunta de alguns regressores. Como a não
rejeição de H 0 significa que há evidência estatística a favor da exclusão daqueles re-
gressores, diz-se também que se está a testar um conjunto de relações de exclusão.
Capítulo 2 – O Modelo de Regressão Linear Clássico 79

Para efectuar o teste pode utilizar-se a distribuição correspondente ao terceiro


caso particular de (2.79). No entanto, é preferível basear o teste em (2.82) ou (2.83),
fazendo as duas regressões seguintes: a primeira, considerando todos os regressores, de
forma a obter a soma dos quadrados dos resíduos sem restrições; a segunda, utilizando
os primeiros k1 regressores, obtendo-se assim a soma dos quadrados dos resíduos com
restrições. O teste é feito com a estatística F dada por (2.82) ou (2.83), com m = k2 .
O teste da significância conjunta de alguns regressores merece os seguintes co-
mentários:
a) Pode acontecer que: o teste de significância separada de cada um destes regressores
(utilizando o respectivo rácio-t) conclua que nenhum deles, isoladamente, é signi-
ficativo; mas, o teste de significância conjunta (utilizando o rácio-F) não exclui
aquele grupo de regressores. A explicação mais frequente para uma situação destas é
a de existência de multicolinearidade entre os regressores sujeitos a teste. Com
efeito, embora as elevadas correlações entre regressores não permita discernir os
efeitos parciais, o efeito global é detectado. Daí que seja útil fazer o teste do rácio-F
de significância conjunta de regressores com sintomas de multicolinearidade.
b) Pode acontecer que: o teste de significância conjunta de alguns regressores conclua
pela sua exclusão; mas, algum regressor, considerado isoladamente, é significativo.
A explicação para esta ocorrência tem a ver com o seguinte: o teste do rácio-F é
adequado para avaliar significâncias conjuntas, mas não é o melhor teste para conc-
luir sobre significâncias isoladas; para isso, existe o teste do rácio-t. Dito de outro
modo: o teste do rácio-F é menos potente que o teste do rácio-t para detectar que
um determinado coeficiente de regressão é diferente de zero. Assim, quando se faz
um teste de significância conjunta também se devem realizar os testes respectivos de
significância isolada, para evitar a situação de o primeiro teste esconder a significân-
cia de um regressor.

Exemplo 2.19 – Considere-se o MRL apresentado no exemplo 2.1. Suponha-se que pre-
tende testar-se a hipótese nula, H 0 : β 2 = β 3 = β 4 = 0 , isto é, procura-se testar se as semi-
-elasticidades (pontuais) são conjuntamente nulas (teste de significância global dos re-
gressores). Recorrendo a (2.84), tem-se
R 2 / (k − 1) 0.173527 / 3
Fobs = = = 69.707 ,
(1 − R ) /(n − k ) (1 − 0.173527) / 996
2

e F0.05 = 2.6138 (valor crítico com 3 e 996 graus de liberdade). Pode concluir-se que
deve rejeitar-se a hipótese nula, quando a dimensão do teste é 0.05; o valor-p é pratica-
mente nulo.
Considere-se o seguinte MRL:
lsalart = β1 + β 2 educt + β 3 expert + β 4 empct + β 5 expert 2 + β 6 empct2 + ut ,

onde se incluíram os regressores que representam o quadrado de expert e de empct .


Os resultados da estimação MQ são os seguintes:
Capítulo 2 – O Modelo de Regressão Linear Clássico 80

Regressores Estimativas dos coeficientes Erros padrão Rácios-t Valores-p


constante 5.907880 0.093984 62.8607 0.000
educt 0.055978 0.004855 11.5310 0.000
expert 0.013606 0.011510 1.18217 0.237
empct – 0.016116 0.008748 – 1.84237 0.066
2
expert 0.000390 0.000474 0.82228 0.411
2
empct 0.001215 0.000514 2.36384 0.018
s = 0.140372 ; R1 = 0.1789 ; VR1 = 139.53 .
2 2

Verifica-se que expert 2 não é estatisticamente significativa (o valor-p é igual a


0.411). Como o valor-p relativo a empct2 é 0.018, esta variável é significativa.
Para testar a significância estatística conjunta dos dois regressores é necessário,
para aplicar (2.82), dispor das variações residuais com e sem restrições, da estimativa
sem restrições da variância residual e do número de restrições. Como VR 0 = 140.445 ,
VR1 = 139.53 , s 2 = 0.140372 e m = 2 , vem
VR 0 − VR1 140.445 − 139.53
Fobs = = = 3.26193 ,
ms 2 2 × 0.140372
ficando ao cuidado do leitor obter o mesmo valor com (2.83). Com graus de liberdade
iguais a 2 e 994, o respectivo valor-p é 0.0387 a nível 0.05, rejeitando-se a hipótese nu-
la: os dois regressores são conjuntamente significativos (o valor crítico é 3.00478).
Considerando o modelo inicial (ver exemplo 2.1), vai agora testar-se, a 0.05,
H 0 : β 2 = 0.06 ∧ β 3 + β 4 = 0.025 contra H1 : β 2 ≠ 0.06 ∨ β 3 + β 4 ≠ 0.025 .

Neste caso, o modelo sem restrições é obviamente o modelo inicial. O modelo


com restrições é dado por
lsalart − 0.06 educt − 0.025 empct = β1 + β 3 (expert − empct ) + ut ,

Tem-se: VR 0 = 140.614 , VR1 = 140.445 , s 2 = 0.141 e m = 2 . Então, recorrendo


a (2.82), sai
VR 0 − VR1 140.614 − 140.445
Fobs = = = 0.59774 .
ms 2 2 × 0.141
Como os graus de liberdade são 2 e 996, o valor-p correspondente ao valor ob-
servado da estatística-teste é 0.55 (o valor crítico é 3.00476): não se rejeita a hipótese
nula.
Fica ao cuidado do leitor verificar que no teste (a nível 0.05)
H 0 : β 2 = 0.06 ∧ β 3 + β 4 = 0.04 contra H1 : β 2 ≠ 0.06 ∨ β3 + β 4 ≠ 0.04 ,

rejeita-se a hipótese nula (tem-se: Fobs = 7.20939 , pobs = 0.00078 ).


No anexo 2G apresenta-se o modelo de regressão linear clássico generalizado


(Aitken), onde se abandonam as hipóteses REX.3 e REX.4.
Capítulo 2 – O Modelo de Regressão Linear Clássico 81

2.11 - Variáveis artificiais

Em muitos casos, certos factores explicativos do comportamento do regressando


não podem ser representados por uma variável quantitativa. Estão nestas condições to-
das as causas de natureza qualitativa, nomeadamente aquelas que se manifestam pela
presença ou pela ausência de certo atributo ou, quando muito, pela presença de uma de
várias situações alternativas possíveis.

Exemplo 2.20 – Considere-se as seguintes situações:


a) Para estudar, com dados seccionais, o comportamento de um conjunto de agrega-
dos familiares relativamente à despesa anual em bens e serviços culturais (cine-
ma, teatro, música, leitura, …) é natural considerar como variáveis explicativas, a
par de certas variáveis quantitativas – como o rendimento disponível ou o número
de elementos do agregado –, variáveis qualitativas como a zona de residência (por
forma a ter em conta a oferta existente), o grupo etário de alguns membros do agre-
gado ou, ainda, o grau de escolaridade global do agregado.
b) Quando pretende explicar-se, com dados seccionais, o comportamento dos salários
dos trabalhadores de uma determinada região apontaram-se, como variáveis ex-
plicativas quantitativas (ver exemplos 1.4 e 2.1), o número de anos de escolaridade
do trabalhador, o número de anos de experiência profissional e o número de anos de
trabalho no emprego corrente, embora se tenha referido uma variável qualitativa, o
género (feminino ou masculino). No entanto, podem indicar-se outros factores quali-
tativos que influenciam o salário: o grau de especialização do trabalhador, o uso de
computador no trabalho, o sector de actividade da empresa, etc.
c) Os modelos com dados temporais também podem considerar variáveis qualitativas
para explicar a evolução de outra variável. Uma das situações mais interessantes, de-
signada por estudo de um acontecimento (event study), é aquela em que se procura
analisar o impacto da ocorrência de um certo acontecimento mais ou menos dura-
douro (uma nova regulamentação, uma catástrofe, uma guerra, um choque energéti-
co, etc.). Obviamente muitos agregados macroeconómicos comportam-se de manei-
ra diferente antes, durante e depois de acontecimentos como os referidos.
d) No caso de um modelo com dados temporais, as variáveis envolvidas podem ter um
comportamento sazonal. Em muitos casos, a integração da sazonalidade no modelo
pode ser feita mediante a consideração de variáveis qualitativas.

Começa por considerar-se a situação em que o factor qualitativo assume apenas


duas modalidades. Exemplos de factores deste tipo são: o género (feminino/masculi-
no); a divisão geográfica em que se faz a distinção apenas entre zonas urbanas e zonas
rurais; possuir ou não computador pessoal.
Para modelar um factor com duas modalidades basta definir uma variável biná-
ria, d, (que, por convenção, assume os valores 0 ou 1), associada a um determinado
acontecimento, A, da seguinte maneira:
Capítulo 2 – O Modelo de Regressão Linear Clássico 82

 1 (se A se verifica),
(2.85) d =
 0 (se A não se verifica).

No caso d = 0 , também se diz que se verifica o acontecimento contrário, A .


A variável d também é designada por variável artificial (dummy na literatura
anglo-saxónica), ou variável zero-um. A escolha dos valores 0 e 1 é arbitrária, mas es-
tes valores têm uma interpretação natural.
É habitual fazer a convenção de o nome da variável binária ser o nome da mo-
dalidade que corresponde ao valor 1. Por exemplo, se A = {o trabalhador é mulher},
tem-se: d = 1 , se o trabalhador é mulher; d = 0 , se o trabalhador é homem. Então, faz-
-se d ≡ mulher .
A forma mais simples de introduzir num modelo de regressão linear a informa-
ção qualitativa trazida pela variável artificial consiste em considerá-la como um regres-
sor. Assim, se se tivesse o modelo yt = β1 + β 2 xt + ut , e se se pretendesse introduzir a
informação qualitativa dada por uma variável artificial, especificava-se o modelo
(2.86) yt = β1 + δ dt + β 2 xt + ut ,

onde, por exemplo, d t assume o valor 1 se se realiza o acontecimento A, e o valor 0, se


não se verifica este acontecimento. Tem-se, então:
 yt = β1 + β 2 xt + ut (para dt = 0)
(2.87) 
 yt = ( β1 + δ ) + β 2 xt + ut (para dt = 1).
Ao formular o modelo (2.86) está a considerar-se que a variável qualitativa tem
efeito apenas no termo independente e não há interacção com o regressor quantitativo,
xt . Além disso, a interpretação dos parâmetros β1 e δ é diferente daquela que se faz
habitualmente: β1 representa o termo independente no caso em que não se realiza o
acontecimento A; β1 + δ é o termo independente quando se verifica o acontecimento A;
δ é a diferença de termos independentes, quando se passa de d t = 0 (não realização de
A) para d t = 1 (realização de A) [Por exemplo, quando se passa de um trabalhador (ho-
mem) para uma trabalhadora (mulher)].
Deste modo, o parâmetro δ tem a seguinte interpretação: representa a variação
ceteris paribus de yt , quando se passa de A ( d t = 0 ) para A ( d t = 1 ). Se δ > 0 , yt
cresce; se δ = 0 , yt não varia; se δ < 0 , yt decresce.
A figura 2.8 ilustra um modelo do tipo (2.86) quando δ > 0 e β1 > 0 .
Fazendo XT = {xs : s ∈ T } , facilmente se conclui que
δ = E ( yt | XT , dt = 1) − E ( yt | XT , dt = 0) ,
uma vez que
E ( yt | XT , dt = 1) = ( β1 + δ ) + β 2 xt e E ( yt | XT , dt = 0) = β1 + β 2 xt .

Pode escrever-se
δ = E ( yt | XT , A) − E ( yt | XT , A ) .
Capítulo 2 – O Modelo de Regressão Linear Clássico 83

d=0 d=1

Fig. 2.8 – Variável artificial com efeito no termo independente.

Como δ mede a variação do valor esperado condicionado de y t , quando se pas-


sa de A para A, diz-se que A é o acontecimento de referência (por exemplo, o acon-
tecimento de referência é A = {o trabalhador é homem}).
A estimação do modelo (2.86), em alternativa à estimação separada dos dois
submodelos dados por (2.87), tem por consequência garantir que o coeficiente β 2 , co-
mum aos dois submodelos, é estimado, de forma única, utilizando toda a informação
disponível. Esta ideia está patente na figura 2.8 pelo facto de as duas rectas serem para-
lelas.
Quando se lida com variáveis artificiais, é necessário evitar situações de multi-
colinearidade exacta, que traduz o facto de um regressor ser combinação linear dos ou-
tros. Se se tivesse introduzido não uma, mas duas variáveis artificiais, d1 e d 2 , defini-
das por
 1 (se A se verifica)
d1 = 
 0 (se A não se verifica)

 1 (se A se verifica)
d2 = 
 0 (se A não se verifica),

e considerado o modelo yt = β1 + β 2 d t1 + β 3 d t 2 + β 4 xt + ut , verifica-se que d t1 + d t 2 = 1


(os trabalhadores só podem ser mulheres ou homens). Neste caso, o modelo reduzir-se-
-ia a
yt = ( β1 + β 3 ) + ( β 2 − β 3 ) d t1 + β 4 xt + ut ,

não sendo possível estimar separadamente os parâmetros β1 , β 2 e β 3 .


Daqui decorre que, dispondo de uma amostra, e em relação ao modelo com mul-
ticolinearidade, yt = β1 + β 2 d t1 + β 3 d t 2 + β 4 xt + ut , não é possível aplicar o método dos
mínimos quadrados uma vez que a matriz X T X não é invertível. É por esta razão que,
para um factor qualitativo com duas modalidades, se deve introduzir apenas uma va-
riável artificial.
Capítulo 2 – O Modelo de Regressão Linear Clássico 84

Quando se trata apenas de um factor qualitativo com duas modalidades, é fácil


evitar a situação de multicolinearidade exacta, que alguns autores chamam a armadilha
das variáveis artificiais. Quando se consideram vários factores qualitativos, alguns
com mais do que duas modalidades, aumenta a possibilidade de cair nesta armadilha.
Querendo manter as duas variáveis artificiais, uma forma de evitar a armadilha
seria considerar a especificação yt = β1d t1 + β 2 d t 2 + β 3 xt + ut (modelo sem termo inde-
pendente), embora se continue a ter d t1 + d t 2 = 1 . É possível estimar separadamente os
três coeficientes de regressão, uma vez que yt = β 2 + ( β1 − β 2 ) d t1 + β 3 xt + ut . No entan-
to, quando se estima o modelo sem termo independente, há dois inconvenientes práti-
cos: é mais difícil, por exemplo, testar a hipótese H 0 : β1 − β 2 = 0 do que H 0 : δ = 0 ;
como formalmente o modelo não tem termo independente, o coeficiente de determina-
ção, R 2 , pode ser negativo e deixa de ter o significado habitual (deve calcular-se o coe-
ficiente de determinação não centrado, R∗2 ?).
Obviamente todas as considerações anteriores são válidas quando o modelo tem
mais do que um regressor quantitativo.

Exemplo 2.21 – Retomando o exemplo 2.20a), suponha-se que procura explicar-se a


despesa anual em bens e serviços culturais, despc, de certos agregados familiares, em
função do rendimento disponível, rdisp, e da dimensão do agregado familiar, daf. Além
disso, podem considerar-se alguns factores explicativos de tipo qualitativo, como sejam:
a existência ou não de crianças de idade inferior a 12 anos; a zona de residência do agre-
gado (urbana/rural); o grau de escolaridade do agregado (alto/médio/baixo).
Numa primeira tentativa de modelação, um sociólogo definiu uma variável arti-
ficial cri12, atribuindo o valor 1 às observações referentes aos agregados com crianças
de idade inferior a 12 anos, e o valor 0 aos restantes. O modelo é o seguinte:
despct = β1 + β 2 rdispt + β3 daft + β 4 cri 12t + ut .

Dispõe-se de uma amostra casual de 209 agregados familiares. Estimado o mo-


delo, obteve-se
^
despct = 14.08 + 0.0486 rdisp t + 6.566 daft + 4.630 cri 12t ,
(0.0015) (1.384) (4.228)

figurando entre parênteses os erros padrão dos estimadores MQ.


Ao efectuar o teste H 0 : β 4 = 0 contra H 1 : β 4 ≠ 0 , não se rejeita, para os níveis
habituais, a hipótese H 0 (o valor-p é 0.275), o que leva a concluir que a variável artifi-
cial cri12 pode ser eliminada da regressão. Assim sendo, não existe, em termos estatísti-
cos, diferenças significativas no comportamento esperado de despc entre as famílias
com ou sem filhos de idade inferior a 12 anos.
A regressão estimada, quando não se inclui a variável artificial, é dada por
^
despct = 15.81 + 0.0485 rdispt + 6.7068 daft ,
(0.0015) (1.379)
Capítulo 2 – O Modelo de Regressão Linear Clássico 85

verificando-se que há significância individual de cada regressor (obviamente também se


tem significância global).
Rejeitado o possível efeito da variável cri12, o sociólogo decidiu investigar a
importância da zona de residência. Para tal, definiu uma nova variável artificial, urb,
atribuindo o valor 1 às observações referentes aos agregados que residem nas zonas ur-
banas de grande ou média dimensões, e o valor 0 a todos os outros casos (áreas rurais).
Estimado o novo modelo, obtém-se
^
despc t = 12.53 + 0.0484 rdisp t + 6.754 daf t + 9.968 urbt .
(0.0014) (1.364) (4.252)

Facilmente se conclui que se rejeita a hipótese de nulidade do parâmetro associa-


do à variável artificial, e, consequentemente, que esta deve ser mantida no modelo.

Considere-se que a variável explicada é expressa em logaritmos,


ln( yt ) = β1 + δ dt + β 2 xt + ut .

Ceteris paribus, o parâmetro δ , multiplicado por 100, representa aproximada-


mente a variação percentual de yt , quando se passa de d t = 0 (realização de A ) para
d t = 1 (realização de A). De facto, seja
δ = ln( yt1 ) − ln( yt0 ) ,
onde yt1 é o valor de yt quando d t = 1 , e yt0 é o valor de yt quando d t = 0 .
Para calcular o valor exacto, tem-se
yt1 − yt0
= exp{δ } − 1 ,
yt0

ou
%∆yt = 100 × (exp{δ } − 1) ,

onde
yt1 − yt0
%∆yt = 100 × .
yt0

Exemplo 2.22 – Considere-se que, no caso do exemplo 2.20b), o modelo é o seguinte:


lsalart = β1 + β 2 educt + β3 expert + β 4 empct + β 5 mulhert + ut .

Ceteris paribus, 100 (exp{β 5} − 1) mede, em média, a variação percentual do sa-


lário, quando se compara um homem com uma mulher. O valor aproximado é 100 β 5 ,
quando β 5 é pequeno. Por exemplo, se β 5 = 0.01 , o valor aproximado da variação per-
centual do salário é 1%; como 100 × (e0.01 − 1) = 1.005 , o valor exacto é 1.005%. Quando
β5 = 0.15 , o valor aproximado é 15%, mas o valor exacto é 16.183%.

Capítulo 2 – O Modelo de Regressão Linear Clássico 86

Existem, no entanto, situações em que o efeito do factor qualitativo se dá no


coeficiente de um regressor quantitativo, e não no termo independente. Numa situa-
ção destas, o modelo adequado é
(2.88) yt = β1 + ( β 2 + δ dt ) xt + ut = β1 + β 2 xt + δ dt xt + ut ,

onde d t xt traduz a interacção entre o regressor quantitativo e o factor qualitativo re-


presentado pela variável artificial (assume o valor 0 quando d t = 0 , e o valor xt quando
d t = 1 ).
O desdobramento do modelo (2.88) origina
 yt = β1 + β 2 xt + ut (para dt = 0)
(2.89) 
 yt = β1 + (δ + β 2 ) xt + ut (para dt = 1).
Interpretando os coeficientes, tem-se o seguinte: β 2 corresponde ao efeito mar-
ginal xt sobre yt quando d t = 0 ; β 2 + δ mede o mesmo efeito para d t = 1 ; δ traduz a
diferença dos dois efeitos.

d=0 d=1

Fig. 2.9 – A variável artificial com impacte no declive.

Verifica-se facilmente que


δ xt = E ( yt | XT , dt = 1) − E ( yt | XT , dt = 0) ,
uma vez que
E ( yt | XT , dt = 1) = β1 + ( β 2 + δ ) xt e E ( yt | XT , dt = 0) = β1 + β 2 xt .

Assim, a variação do valor esperado condicionado de y t não é medida por δ


(não é constante), mas por δ xt (depende de xt ). A figura 2.9 ilustra esta situação quan-
do δ > 0 e β 2 > 0 .
Mantém-se, naturalmente, a recomendação feita para se utilizar apenas uma va-
riável artificial de forma a evitar a multicolinearidade perfeita. Note-se também que po-
dem ser considerados os efeitos do factor qualitativo simultaneamente no termo inde-
pendente e no coeficiente de um regressor.
Capítulo 2 – O Modelo de Regressão Linear Clássico 87

Exemplo 2.23 – No seguimento do exemplo 2.21, suponha-se que urb interage com
rdisp, mas não influencia o termo independente. O modelo é, então,
despct = β1 + β 2 rdisp t + β3 daft + β 4 (urbt × rdisp t ) + ut .

Interpretando os coeficientes, tem-se: β 2 corresponde ao efeito marginal de uma


unidade monetária de rendimento disponível para um agregado que vive numa zona ru-
ral ( urb = 0 ); β 2 + β 4 mede o mesmo efeito para um agregado de uma zona urbana
( urb = 1 ); β 4 traduz a diferença dos dois efeitos.
A estimação do modelo é a seguinte:
^
despc t = 15.50 + 0.0477 rdisp t + 6.752 daf t + 0.00239 (urbt × rdisp t ) .
(0.0015) (1.369) (0.00119)

Pode facilmente verificar-se que se rejeita, para os níveis habituais, a hipótese de


nulidade do coeficiente do regressor urbt × rdispt (embora o valor-p seja 0.045), isto é,
não se rejeita que o factor qualitativo representado pela variável artificial urb tem efeito
sobre o coeficiente de rdisp.
A variação média estimada de despc, quando urb passa de 0 para 1, é dada por
0.00239 rdisp t . Por exemplo, quando rdispt = 2500 , a variação é de 5.975.
Uma vez que não se rejeitou em modelos separados (ver exemplo 2.21) a influ-
ência daquele factor quer no termo independente quer em rdisp, pode ser-se tentado a
concluir, erroneamente, que os dois efeitos são significativos simultaneamente. Para ve-
rificar que, neste caso, tal não é verdade, basta construir o respectivo modelo completo,
e proceder à sua estimação. Obtém-se:
^
despc t = 11.32 + 0.0488 rdisp t + 6.7497 daf t − 0.00125 (urbt × rdisp t ) + 14.13 urbt ,
(0.0017) (1.367) (0.00315) (11.33)

Os testes do rácio-t mostram, separadamente, que os regressores urbt × rdispt e


urbt não são significativos (os valores-p são, respectivamente, 0.692 e 0.214). Quando
se faz o teste conjunto sobre a significância dos dois regressores, o valor observado do
rácio-F é 2.815. Como o valor crítico a nível 0.05 (com 2 e 204 graus de liberdade) é
3.04 (o valor-p é 0.062), pode concluir-se que não se rejeita a nulidade conjunta a 0.05
(a 0.10 a conclusão é oposta).
Assim, tem-se uma situação em que, do ponto de vista estatístico, não se rejei-
tam em modelos separados os efeitos no termo independente e em rdisp, mas rejeitam-
-se quando considerados no mesmo modelo. Esta situação ocorre porque na amostra há
um problema de multicolinearidade, uma vez que há uma forte correlação entre os re-
gressores urbt × rdispt e urbt : o respectivo coeficiente de correlação é igual a 0.9.
Nestas circunstâncias, parece ser aconselhável adoptar o modelo sem a interac-
ção entre urb e rdisp, ou seja,
despct = β1 + β 2 rdisp t + β3 daft + β 4 urbt + ut .

Capítulo 2 – O Modelo de Regressão Linear Clássico 88

Analise-se, agora, a situação em que o factor qualitativo apresenta mais do que


duas modalidades. Neste caso, para evitar a armadilha das variáveis artificiais, consi-
deram-se tantas variáveis binárias quantas as modalidades do factor menos uma.
Suponha-se que existem m modalidades, a que correspondem os acontecimentos
A1 , A2 , K , Am−1 , Am . As variáveis artificiais são as seguintes:
 1 (se A1 se verifica)
d1 = 
 0 (se A1 não se verifica),

 1 (se A2 se verifica)
d2 = 
 0 (se A2 não se verifica),
...
 1 (se Am −1 se verifica)
d m −1 = 
 0 (se Am −1 não se verifica).
Neste caso, o acontecimento de referência é Am .
Uma vez definidas as variáveis artificiais, utiliza-se um procedimento em tudo
semelhante àquele que se seguiu quando se tinha apenas uma variável artificial, ou seja,
é necessário determinar se os efeitos do factor qualitativo afectam o termo independente
ou os coeficientes dos regressores. Os coeficientes associados às variáveis artificiais in-
terpretam-se, agora, como diferenças em relação à alternativa escolhida para referência.

Exemplo 2.24 – Suponha-se que no exemplo da despesa anual em bens e serviços cultu-
rais se define o grau de escolaridade do agregado familiar, distinguindo três modalida-
des: “alto”, “médio” e “baixo”. Torna-se, então, necessário introduzir duas variáveis ar-
tificiais, que se podem definir da seguinte forma:
 1 (grau de escolaridade alto)
educA = 
 0 (caso contrário),

 1 (grau de escolaridade médio)


educM = 
 0 (caso contrário).

Tomou-se como acontecimento de referência aquele que não é referido na defi-


nição das duas variáveis artificiais, ou seja, o de o agregado familiar ter grau de escola-
ridade baixo. Sem dificuldade se redefinem as variáveis artificiais se se desejar escolher
outra modalidade para referência. O quadro seguinte resume a correspondência entre os
três graus de escolaridade e os valores assumidos pelas variáveis artificiais.

Graus de escolaridade educA educM


Baixo 0 0
Médio 0 1
Alto 1 0
Capítulo 2 – O Modelo de Regressão Linear Clássico 89

Supondo que os efeitos do grau de escolaridade do agregado se fazem sentir ape-


nas no termo independente, adoptou-se o seguinte modelo:
despct = β1 + β 2 rdispt + β3 daft + β 4 educAt + β 5 educM t + ut .

A estimação fornece os seguintes resultados:

Regressores Estimativas dos coeficientes Erros padrão


constante 8.3830
rdispt 0.0492 0.0014
daf t 6.6170 1.336
educAt 22.9970 5.895
educM t 7.7945 4.639

Como facilmente se vê, educAt é estatisticamente significativa a 0.05. Quanto à


variável educM t , pode concluir-se que não é significativa a 0.05; contudo, é significati-
va a nível 0.10 (o valor-p é 0.094).
Quando se admite que o factor qualitativo afecta não o termo independente, mas
o coeficiente de rdispt , a estimação MQ fornece os seguintes resultados:

Regressores Estimativas dos coeficientes Erros padrão


Constante 14.6800
rdispt 0.0476 0.00140
daf t 6.4010 1.3330
educAt × rdispt 0.0069 0.0017
educM t × rdispt 0.0023 0.0013

A significância estatística do regressor educM t × rdispt não é clara: como o va-


lor-p é 0.085, rejeita-se a nível 0.10, mas não se rejeita a 0.05.

Factores qualitativos como o género, o estado civil, a zona de residência ou o


uso, ou não, de computador, registam-se numa escala nominal, uma vez que a ordem
não tem significado. Existem outros factores qualitativos, como o grau de escolaridade
ou o grau de especialização profissional, que se registam numa escala ordinal, porque a
ordem das modalidades é importante.
No caso de um factor ordinal, com mais de duas modalidades, é possível codifi-
car numericamente as várias modalidades atribuindo um número a cada uma, e respei-
tando a respectiva ordem. Por exemplo, se o factor em estudo é o grau de especialização
profissional, a codificação podia ser a seguinte:
Trabalhador não especializado: 0
Trabalhador semi-especializado: 1
Trabalhador especializado: 2
Trabalhador muito especializado: 3
Capítulo 2 – O Modelo de Regressão Linear Clássico 90

Este procedimento é o mais adequado para tratar um factor qualitativo ordinal


como explicativo num modelo de regressão linear? A resposta é negativa, porque a nu-
meração das modalidades não significa, por exemplo, que um trabalhador muito espe-
cializado corresponde a três trabalhadores semi-especializados.
O exemplo seguinte esclarece esta questão.

Exemplo 2.25 – Considere-se o modelo


lsalart = β1 + β 2 educt + β 3 expert + δ1 gept1 + δ 2 gept 2 + δ 3 gept 3 + ut ,

onde:
 1 ( trabalhador semi-especializado)
gept1 = 
 0 (caso contrário)

 1 ( trabalhador especializado)
gept 2 = 
 0 (caso contrário)

 1 ( trabalhador muito especializado)


gept 3 = 
 0 (caso contrário) .

O grau de especialização de referência é o de “trabalhador não especializado”.


Este modelo, com três variáveis artificiais, permite estimar o efeito do grau de
especialização profissional sobre os salários.
Se se considerasse, em vez das três variáveis artificiais, a variável gep com a
codificação atrás referida, fazia-se
lsalart = β1 + β 2 educt + β3 expert + β 4 gept + ut ,

onde
0 ( trabalhador não especializado)

1 ( trabalhador semi-especializado)
gept = 
2 ( trabalhador especializado)
3 ( trabalhador muito especializado) .

Este modelo pressupõe que o efeito parcial de gep sobre lsalar é constante.
Fazendo δ 2 = 2δ 1 e δ 3 = 3δ 1 , facilmente se conclui que estas restrições sobre os
coeficientes do primeiro modelo permitem obter o segundo. De facto, inserindo as res-
trições no primeiro modelo, obtém-se
lsalart = β1 + β 2 educt + β3 expert + δ1 ( gept1 + 2 gept 2 + 3 gept 3 ) + ut ,

que não é mais do que o segundo modelo, onde gept = gept1 + 2 gept 2 + 3 gept 3 .
Para testar a hipótese de efeito parcial constante, utiliza-se o teste do rácio-F ha-
bitual, onde o primeiro modelo é o modelo sem restrições, e o segundo, o modelo com
restrições.

Capítulo 2 – O Modelo de Regressão Linear Clássico 91

Sabe-se que num factor com m modalidades (a que correspondem m aconteci-


mentos) se definem m − 1 variáveis artificiais, tomando um dos acontecimentos para re-
ferência. Contudo, quando o número de modalidades do factor qualitativo ordinal é
muito elevado, não é, em geral, adequado definir as variáveis artificiais desta maneira
(por exemplo, se o factor qualitativo fosse o ranking das 1000 maiores empresas portu-
guesas, não se podem definir 999 variáveis artificiais!). Nestes casos, o procedimento
aconselhável é o de agrupar as modalidades por classes (por exemplo, definir cinco clas-
ses de acordo com as classificações no ranking: de 1 a 10; de 11 a 50; de 51 a 200; de
201 a 500; de 501 a 1000).
A introdução de variáveis artificiais não está confinada à consideração de um
único factor qualitativo. No entanto, quando se considera mais do que um factor, é ne-
cessário encontrar solução para um problema que se levanta com frequência: o da pos-
sível existência de interacções dos factores. Entende-se por interacção o facto de uma
modalidade de determinado factor poder ter um efeito diferenciado em função da moda-
lidade de outro factor. Por exemplo, pode considerar-se que o grau de escolaridade do
agregado tem um efeito diferenciado no consumo de bens culturais em função da zona
de residência, uma vez que se admite que o grau de escolaridade influencia a procura,
enquanto a área de residência traduz a oferta.
Por facilidade de exposição, suponha-se que a variável y (por exemplo, o con-
sumo de bens culturais) depende de uma variável quantitativa x (por exemplo, o rendi-
mento disponível), e de dois factores qualitativos: o primeiro, com duas modalidades
(por exemplo, a zona de residência – rural/urbana); o segundo, com três modalidades
(por exemplo, o grau de escolaridade – alto/médio/baixo). As respectivas variáveis arti-
ficiais são dadas por
 1 (zona urbana )
d1 = 
 0 (caso contrário),

 1 (grau de escolaridade alto)


d2 = 
 0 (caso contrário),

 1 (grau de escolaridade médio)


d3 = 
 0 (caso contrário).

A convenção estabelecida permite fazer: d1 ≡ urb , d 2 ≡ educA , d3 ≡ educM .


Admite-se ainda, por simplicidade, que nenhum dos factores influencia o coefi-
ciente do regressor quantitativo. Caso não existam interacções, o modelo é dado por
(2.90) yt = β1 + β 2 xt + β3 dt1 + β 4 dt 2 + β 5 dt 3 + ut .

No quadro 2.4 apresenta-se o termo independente para as seis situações possí-


veis. Verifica-se assim que a diferença entre os termos independentes das duas zonas de
residência é sempre β 3 , qualquer que seja o grau de escolaridade; a passagem do grau
Capítulo 2 – O Modelo de Regressão Linear Clássico 92

baixo para o grau médio (alto) de escolaridade é sempre medida por β 5 ( β 4 ), qualquer
que seja a zona de residência.
Quadro 2.4
Termo independente no modelo sem interacções
Grau de escolaridade
Zona Alto Médio Baixo
Urbana β1 + β 3 + β 4 β1 + β 3 + β 5 β1 + β 3
Rural β1 + β 4 β1 + β 5 β1

Para estabelecer as interacções, torna-se necessário introduzir mais duas variá-


veis artificiais a partir das variáveis artificiais inicialmente definidas. Aquelas variáveis
adicionais são obtidas multiplicando cada variável artificial relativa a um factor por to-
das as variáveis artificiais que dizem respeito ao outro factor. Neste caso, têm-se mais
duas variáveis:
d 4 = d1 × d 2 e d 5 = d1 × d 3 .

O modelo é, então,
(2.91) yt = β1 + β 2 xt + β 3 dt1 + β 4 dt 2 + β 5 dt 3 + β 6 dt 4 + β 7 dt 5 + ut .

Note-se que d t 4 assume o valor 1 apenas quando d t1 = d t 2 = 1 ; comentário se-


melhante pode fazer-se para d t 5 .
A interpretação dos coeficientes é menos óbvia do que no caso de não haver in-
teracções. No entanto, o quadro 2.5 ajuda a clarificar as interacções no que se refere ao
termo independente.
Quadro 2.5
Termo independente no modelo com interacções
Grau de escolaridade
Zona Alto Médio Baixo
Urbana β1 + β 3 + β 4 + β 6 β1 + β 3 + β 5 + β 7 β1 + β 3
Rural β1 + β 4 β1 + β 5 β1

Pode, então, verificar-se que a diferença entre as duas zonas de residência varia
com o grau de escolaridade: β 3 + β 6 para o grau de escolaridade alto; β 3 + β 7 para o
grau médio; β 3 para o grau baixo. Fica ao cuidado do leitor verificar, recorrendo a um
raciocínio semelhante, que as diferenças entre os graus de escolaridade dependem da
zona de residência.

Exemplo 2.26 – Retome-se os exemplos 2.21 e 2.24, e estime-se o modelo com as va-
riáveis artificiais correspondentes aos factores zona de residência – variável urb – e grau
de escolaridade – variáveis educA e educM. Os resultados da estimação dos modelos
com e sem interacções apresentam-se nos quadros seguintes.
Capítulo 2 – O Modelo de Regressão Linear Clássico 93

Modelo com interacções


Regressores Estimativas dos coeficientes Erros padrão
constante 4.959
rdispt 0.049 0.0014
daf t 6.604 1.3380
urbt 10.648 5.4390
educAt 21.850 7.3400
educM t 9.418 5.7030
educAt × urbt 2.689 12.1300
educM t × urbt –4.510 9.6520
R = 0.8609 ; ∑ uˆt = 163861 ; s = 815.229
2 2 2

Modelo sem interacções


Regressores Estimativas dos coeficientes Erros padrão
constante 5.163
rdispt 0.049 0.0014
daf t 6.665 1.3210
urbt 9.807 4.1160
educAt 22.838 5.8290
educM t 7.851 4.5870
R = 0.8607 ; ∑ uˆt = 164142 ; s = 808.581
2 2 2

Analisando estes resultados, vê-se que as interacções não são, individualmente,


estatisticamente significativas (os valores-p são, respectivamente, 0.825 e 0.641).
Efectuando o teste de nulidade conjunta dos coeficientes respectivos – recorren-
do ao resultado (2.82) –, tem-se
164142 − 163861
Fobs = = 0.172 ,
2 × 815.229
valor que indica claramente que, conjuntamente, as duas interacções não são significati-
vas (o valor-p é 0.84; F0.05 = 3.04 , para 2 e 201 graus de liberdade). Deste modo, o mo-
delo mais adequado não deve considerar as interacções.

Em muitas situações, as variáveis que integram um MRL com dados temporais,


apresentam sazonalidade, isto é, têm comportamentos sistemáticos em determinados
subperíodos de um período de tempo mais alargado. São numerosos os exemplos que se
podem apresentar de oscilações em valores observados que são originados por compor-
tamentos semelhantes em meses ou trimestres homólogos de anos sucessivos: a produ-
ção mensal de fruta tem um andamento global fortemente marcado pela posição que o
mês ocupa no ano; o consumo de electricidade para fins domésticos apresenta as mes-
mas características; o consumo de gasolina pode reflectir a influência da época do ano.
Capítulo 2 – O Modelo de Regressão Linear Clássico 94

Contudo, também se podem observar fenómenos de sazonalidade quando se considera


um mês e os dias do mês, ou um dia e as horas do dia.
Existem vários métodos para estudar este fenómeno. Contudo, nesta secção, vai
abordar-se apenas a questão da sazonalidade determinística, utilizando variáveis artifi-
ciais.
Seja m o número de subperíodos em que se divide cada período de tempo sob
observação. Se o período for o ano, e os subperíodos os meses, tem-se m = 12 ; no caso
de trimestres, vem m = 4 . Faz-se m = 30 , quando o período for o mês, e os subperíodos
os dias. Em geral, o número total de observações é n = mp , sendo p o número de perío-
dos.
Sem perda de generalidade, considere-se o modelo de regressão linear simples,
yt = β1 + β 2 xt + ut , e suponha-se que yt e xt são observáveis trimestralmente e apresen-
tam sazonalidade (neste caso, os períodos são anos, e os subperíodos são trimestres).
Como existem quatro trimestres, vão definir-se três variáveis artificiais da seguinte ma-
neira:
 1 (se t ocorre no trimestre i ),
dti = 
 0 (caso contrário),
onde i = 2, 3, 4 (considerou-se que o trimestre de referência é o primeiro).
Pretendendo-se estimar o coeficiente de regressão de xt (o efeito, ceteris pari-
bus de xt sobre yt ) expurgado da sazonalidade, deve considerar-se o modelo de re-
gressão linear,
(2.92) yt = β1 + β 2 xt + δ 2 dt 2 + δ 3 dt 3 + δ 4 dt 4 + ut .

Trata-se de outro exemplo de aplicação do teorema de Frisch-Waugh-Lovell, es-


tudado no final da secção 2.5.
Um teste importante é o da sazonalidade, em que se procura testar se os coefi-
cientes das variáveis artificiais são conjuntamente nulos, ou seja, a hipótese nula é dada
por H 0 : δ 2 = 0, δ 3 = 0, δ 4 = 0 .

2.12 - Testes de alteração da estrutura

Suponha-se que num modelo de regressão linear é possível dividir a população


em grupos de tal modo que se admite a possibilidade de os coeficientes de regressão va-
riarem com o grupo. Admitindo que se pode estimar o modelo para cada um dos grupos,
é razoável testar a variabilidade inter-grupos dos coeficientes de regressão. Os testes
que dão resposta a esta questão são conhecidos pela designação de testes de alteração
da estrutura.

Exemplo 2.27 – Considere-se as seguintes situações:


1) Suponha-se que no modelo de regressão linear com dados seccionais explicativo do
comportamento dos salários dos trabalhadores referido no exemplo 2.1, a população
é dividida em dois grupos: o das mulheres, e o dos homens. Estimando separadamen-
Capítulo 2 – O Modelo de Regressão Linear Clássico 95

te o modelo para as mulheres e para os homens, procura-se testar se os coeficientes


de regressão do grupo das mulheres são diferentes dos do grupo dos homens.
2) Admita-se que num modelo de regressão linear com dados temporais, de frequência
trimestral, se podem considerar três períodos: o primeiro, decorre até ao final do 4.º
trimestre de um determinado ano; o segundo, abrange os trimestres dos 6 anos se-
guintes; o terceiro, começa no 1.º trimestre do ano seguinte ao do último ano do se-
gundo período. Neste caso, os grupos são os três períodos. Estimando separadamente
o modelo para os três períodos, pretende-se testar se os coeficientes de regressão
variam de período para período.
3) Suponha-se que no modelo de regressão linear referido em 1), se consideram duas
populações de trabalhadores: uma, é formada pelos trabalhadores numa determinada
data; a outra, é constituída pelos trabalhadores numa data posterior (por exemplo 5
anos depois). Trata-se, neste caso, de um modelo com dados seccionais combina-
dos, em que a população é a união das duas subpopulações referidas. Neste caso, os
grupos são as duas subpopulações. Estimando o modelo para cada data, o teste pro-
cura saber se os coeficientes de regressão variam entre as duas datas.

Para facilitar a exposição, começa-se por tratar o caso em que número de gru-
pos é igual a 2. O modelo é o seguinte:
 yt = β11 xt1 + β 21 xt 2 + L + β k1 xtk + ut (t ∈ T1 )
(2.93) 
 yt = β12 xt1 + β 22 xt 2 + L + β k 2 xtk + ut (t ∈ T2 ),

onde:
− os coeficientes de regressão, β ji ( j = 1, 2, K k ; i = 1, 2 ), representam-se com dois ín-
dices: o primeiro refere-se ao regressor; o segundo, ao grupo.
− Os conjuntos de índices dos grupos 1 e 2 representam-se, respectivamente, por T1 e
T2 . Estes conjuntos constituem uma partição de T: T1 ∪ T2 = T e T1 ∩ T2 = ∅ .

O modelo (2.93) pode apresentar-se com a seguinte notação:


 yt = xt • β •1 + ut (t ∈ T1 )
(2.94) 
 yt = xt • β • 2 + ut (t ∈ T2 ),

onde β •1 e β • 2 são os vectores k × 1 dos respectivos coeficientes de regressão.


As hipóteses do modelo são as seguintes:
− Em cada grupo verificam-se as hipóteses do MRLC (hipóteses REX.1 a REX.5). Por
exemplo, a exogeneidade estrita no grupo 1 é dada por: E (ut | XT1 ) = 0 , para t ∈ T1 ,
onde XT1 = {xs • : s ∈ T1} . Fica ao cuidado do leitor enunciar as hipóteses básicas para
cada um dos grupos.
− As variáveis residuais referentes a grupos diferentes não estão correlacionadas. Deste
modo, tem-se: Cov(ut , us | XT ) = 0 , para t ∈ T1 e s ∈ T2 .
Capítulo 2 – O Modelo de Regressão Linear Clássico 96

No teste de alteração da estrutura, a hipótese nula é dada por


H 0 : β11 = β12 , β 21 = β 22 , K , β k1 = β k 2 ,

e, naturalmente, a hipótese alternativa estabelece que pelo menos uma destas k igualda-
des não se verifica. Pode, então, escrever-se:
(2.95) H 0 : β •1 = β • 2 contra H1 : β•1 ≠ β • 2 .

O modelo com restrições (que corresponde à hipótese nula) é dado por


(2.96) yt = β1 xt1 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + vt (t ∈ T ) ,

ou
(2.97) yt = xt • β + vt (t ∈ T ) ,

onde β é o respectivo vector dos coeficientes de regressão. Neste caso, β •1 = β • 2 = β .


O modelo sem restrições corresponde a (2.93) ou (2.94).
Dispondo de n1 observações para o grupo 1, e n2 para o grupo 2, a relação
amostral correspondente ao modelo sem restrições, (2.94), é dada por
Y•1 = X 1β •1 + U •1
(2.98) 
Y• 2 = X 2 β• 2 + U • 2 ,

onde, para i = 1, 2 , se tem: Y•i é o vector ni × 1 das observações do regressando no gru-


po i; X i é a matriz ni × k das observações dos regressores no grupo i; U •i é o vector
ni × 1 das variáveis residuais do grupo i.
Verifica-se que:
E (U •i | X i ) = 0 ( i = 1, 2 ); Cov(U •i | X i ) = σ 2 I ni ( i = 1, 2 );
Cov(U •1 , U • 2 | X 1 , X 2 ) = O (matriz nula n1 × n2 ).
Fazendo n = n1 + n2 , a relação (2.98) pode apresentar-se da seguinte maneira:
(2.99) Y = X ∗β∗ + U ,
onde
Y  X O   β •1  U •1 
Y =  •1  , X ∗ =  1  , β∗ =   e U =   .
Y• 2   O X 2   β • 2  U • 2 
Note-se, por exemplo, que a matriz X ∗ tem n linhas e 2k colunas. Naturalmente,
tem-se: E (U | X ∗ ) = 0 ; Cov(U | X ∗ ) = σ 2 I n .
A relação amostral correspondente ao modelo com restrições, (2.97), é
(2.100) Y = Xβ + V ,
onde
X  V 
X =  1  e V =  •1  .
 X 2  V• 2 
Capítulo 2 – O Modelo de Regressão Linear Clássico 97

Neste caso, E (V | X ) = 0 e Cov(V | X ) = σ 2 I n . Obviamente a relação (2.100) é


equivalente a
Y•1 = X 1β + V•1
(2.101) 
Y• 2 = X 2 β + V• 2 .

Supondo que n1 > k e que n2 > k , os coeficientes de regressão do modelo sem


restrições podem ser estimados pelo método MQ. Obtêm-se os seguintes resultados:
b•i = ( X iT X i ) −1 X iT Y•i , Yˆ•i = X ib•i e Uˆ •i = Y•i − Yˆ•i ( i = 1, 2 ).

Fazendo o mesmo para o modelo com restrições, tem-se:


b = ( X T X ) −1 X T Y , Yˆ = X b e Vˆ = Y − Yˆ .
Supondo que se verifica a hipótese REX.6 para os dois modelos (sem e com res-
trições), pode demonstrar-se que
{Vˆ TVˆ − (Uˆ •T1Uˆ •1 + Uˆ •T2Uˆ • 2 )} / k
(2.102) FChow = ~ F ( k , n − 2k ) ,
(Uˆ •T1Uˆ •1 + Uˆ •T2Uˆ • 2 ) /( n − 2k )

se a hipótese nula é verdadeira. O teste de alteração da estrutura baseado na estatística-


-teste dada por (2.102) é conhecido pela designação de teste de Chow.
Com efeito, o resultado (2.102) é um caso particular de (2.82), onde a soma dos
quadrados dos resíduos MQ com restrições é VR 0 = Vˆ TVˆ , o número de restrições é k, a
soma dos quadrados dos resíduos MQ sem restrições é VR1 = Uˆ •T1Uˆ •1 + Uˆ •T2Uˆ • 2 = Uˆ TUˆ e
o número de graus de liberdade do denominador é n − 2k (diferença entre o número to-
tal de observações e o número de coeficientes a estimar). Note-se, também, que as res-
trições assumem a forma Rβ∗ = 0 , onde R = [ I k − I k ].
Quando não se considera a hipótese de normalidade das variáveis residuais, o re-
sultado (2.102) é assintótico, pelo que só é válido para grandes amostras (ver capítulo
3).
O teste de Chow com dois grupos pode ser feito introduzindo a variável artifi-
cial
 1 (t ∈ T1 )
dt = 
 0 (t ∈ T2 ).

Facilmente se verifica que o modelo sem restrições é o MRLC dado por


(2.103) yt = β1 xt1 + δ1dt xt1 + β 2 xt 2 + δ 2 dt xt 2 + L + β k xtk + δ k dt xtk + ut (t ∈ T ) ,

que é equivalente a (2.93). Com efeito, conclui-se imediatamente que:


Grupo 1 – β11 = β1 + δ1 , β 21 = β 2 + δ 2 , K , β k1 = β k + δ k ou β •1 = β + δ ;
Grupo 2 – β12 = β1 , β 22 = β 2 , K , β k 2 = β k ou β • 2 = β ,

onde
Capítulo 2 – O Modelo de Regressão Linear Clássico 98

 β1   δ1 
   
 β2  δ
β= e δ =  2 .
M M
   
 β k  δ k 

Assim, a hipótese nula pode ser formalizada da seguinte maneira:


H 0 : δ1 = 0, δ 2 = 0, K , δ k = 0 ou H 0 : δ = 0 .

O modelo com restrições continua a ser (2.96) ou (2.97).


Na relação amostral correspondente ao modelo sem restrições, a matriz dos
regressores é dada por
 X1 X1 
 .
X O
 2 

Exemplo 2.28 – Retome-se o exemplo 2.2. Suponha-se que se pretende verificar se há


comportamentos diferenciados do salário (em logaritmos) em função do género do tra-
balhador. Deste modo, o objectivo é saber se o padrão é diferente conforme o trabalha-
dor é mulher ou homem (recorde-se que a amostra disponível é composta por 1000 ob-
servações, das quais 381 são mulheres e 619 são homens).
Vai utilizar-se o resultado (2.102) para efectuar o teste da alteração da estrutura,
calculando o valor observado da estatística FChow . Tem-se:
− Soma dos quadrados dos resíduos MQ quando se utilizam as 1000 observações (ver
exemplo 2.9): VR 0 = 140.445 (soma dos quadrados dos resíduos MQ com restri-
ções);
− Soma dos quadrados dos resíduos MQ com as 381 observações que correspondem
às mulheres: 50.1637;
− Soma dos quadrados dos resíduos MQ com as 619 observações relativas aos ho-
mens: 81.3226;
− Logo: VR1 = 50.1637 + 81.3226 = 131.4863 (soma dos quadrados dos resíduos MQ
sem restrições).

Assim, o valor observado da estatística-teste é


(140.445 − 131.4863) / 4
FChow = = 16.898 ,
131.4863 /(1000 − 2 × 4)

que se deve comparar com o respectivo valor crítico da tabela da F-Snedcor com 4 e
992 graus de liberdade. Como este valor é igual 2.38, conclui-se que se rejeita a hipó-
tese de permanência de estrutura (o valor-p é praticamente nulo), ou seja, não se rejeita
a hipótese de existirem diferenças significativas de salários em função do género.
Por curiosidade, referem-se os resultados das três regressões:
Capítulo 2 – O Modelo de Regressão Linear Clássico 99

− Regressão com 1000 observações:


^
lsalart = 5.815 + 0.05538 educ t + 0.02299 expert + 0.00395 empct .
(0.00486) (0.00254) (0.00242)

− Regressão com 381 observações (mulheres):


^
lsalart = 5.6627 + 0.05541 educ t + 0.02398 expert + 0.00663 empct .
(0.00768) (0.004) (0.00379)

− Regressão com 619 observações (homens):


^
lsalart = 5.889 + 0.05573 educ t + 0.02302 expert + 0.00323 empct .
(0.00596) (0.00313) (0.003)

O estudo precedente pode ser generalizado para g grupos. O modelo sem res-
trições passa a ser
 yt = xt • β •1 + ut (t ∈ T1 )

 yt = xt • β • 2 + ut (t ∈ T2 )
(2.104) 
 M
 yt = xt • β • g + ut (t ∈ Tg ),

onde os conjuntos T1 , T2 , K , Tg formam uma partição de T. O modelo com restrições
continua a ser dado por (2.97), onde β •1 = β • 2 = L = β • g = β .
Dispondo de ni observações para o grupo i (i = 1, 2, K , g ) , a relação amostral
correspondente ao modelo sem restrições é semelhante a (2.99), Y = X ∗ β∗ + U , onde
 Y•1   X1 O L O  β•1  U •1 
Y  O X2 L O   β• 2  U 
Y=  •2 
, X∗ =  , β∗ =  eU =
•2 
,
 M  M M M   M   M 
       
Y• g   O O L X g   β• g  U • g 
(note-se que: n = n1 + n2 + L + ng ; X ∗ é uma matriz n × g k ; β∗ é um vector g k × 1 ).
A relação amostral relativa ao modelo com restrições tem a mesma forma que
(2.100), Y = Xβ + V , onde
 X1  V•1 
X  V 
X=  2
e V = .
•2

 M   M 
   
 X g  V• g 
O teste de alteração da estrutura é dado por
H 0 : β•1 = β • 2 = L = β• g contra H1 : ∃(i, l) : β •i ≠ β•l .

Neste caso, as restrições podem apresentar-se na forma Rβ∗ = 0 , com


Capítulo 2 – O Modelo de Regressão Linear Clássico 100

Ik O L O − Ik 
O Ik L O − I k 
R= ,
M M M M 
 
O O L Ik − Ik 

em que R é de tipo ( g − 1)k × g k .


Supondo que ni > k (i = 1, 2, K , g ) , o teste de Chow baseia-se no seguinte re-
sultado:
{Vˆ TVˆ − Uˆ TUˆ } /{( g − 1)k}
(2.105) ~ F  ( g − 1)k , n − g k  ,
Uˆ Uˆ /(n − g k )
T  

onde
Uˆ TUˆ = Uˆ •T1Uˆ •1 + Uˆ •T2Uˆ • 2 + L + Uˆ •TgUˆ • g .

O teste de alteração da estrutura também pode ser feito considerando um MRLC


com variáveis artificiais. Admitindo que, por exemplo, o grupo g é o de referência, vão
definir-se g − 1 variáveis artificiais (uma para cada um dos outros grupos). Assim:

 1 (t ∈ T1 )  1 (t ∈ T2 )  1 (t ∈ Tg −1 )
d t1 =  , dt 2 =  ,..., dt , g −1 =  .
 0 (t ∉ T1 )  0 (t ∉ T2 )  0 (t ∉ Tg −1 )

O conjunto dos regressores do modelo sem restrições é formado pelos regresso-


res originais, xtj ( j = 1, 2, K, k ) , e pelos produtos de cada dti (i = 1, 2, K , g − 1 ) , por ca-
da xtj ( j = 1, 2, K , k ) : dti xtj . Designando por β j o coeficiente de xtj , e por δ ji o coefi-
ciente de dti xtj , facilmente se conclui que
β •1 = β + δ •1 , β • 2 = β + δ • 2 ,..., β •, g −1 = β + δ •, g −1 e β • g = β ,

onde
 β1  δ11  δ12  δ1, g −1 
       
 β2   δ 21   δ 22   δ 2, g −1 
β= ,δ = ,δ = ,..., δ •, g −1 = .
 M  •1  M  • 2  M   M 
       
β
 k 
δ
 k1  δ k 2  δ k , g −1 

O número de regressores deste modelo é ainda g k , e a matriz dos regressores


é dada por
 X1 X1 O L O 
 
 X2 O X2 L O 
 M M M M .
 
 X g −1 O O L X g −1 
 X O O L O 
 g 
A hipótese nula pode ser formalizada da seguinte maneira:
H 0 : δ •1 = δ • 2 = L = δ •, g −1 = 0 .
Capítulo 2 – O Modelo de Regressão Linear Clássico 101

O modelo com restrições continua a ser (2.96) ou (2.97). A relação amostral


do modelo com restrições continua a ser Y = Xβ + V .
A utilização de variáveis artificiais tem a vantagem de permitir a realização de
testes de alteração da estrutura mais flexíveis do que o teste de Chow. De facto, en-
quanto este teste abrange todos os coeficientes de regressão, pode ser vantajoso con-
siderar testes em que apenas alguns coeficientes estão envolvidos. Por exemplo, uma
possibilidade é a de aceitar que o termo independente pode variar com o grupo, e testar
se os outros coeficientes (as inclinações) variam de grupo para grupo. Outra possibilida-
de, é a de manter as inclinações fixas inter-grupos, e testar se o termo independente
não se altera quando se muda de grupo.
Suponha-se, sem perda de generalidade, que os primeiros k1 coeficientes estão
sujeitos a teste, e os restantes k2 coeficientes podem variar de grupo para grupo
( k1 + k2 = k ). O modelo sem restrições corresponde ao caso em que todos os coefi-
cientes podem variar inter-grupos. Este modelo pode ser formalizado da seguinte ma-
neira:
 yt = xt1• β •11 + xt2• β•21 + ut (t ∈ T1 )

 yt = xt • β • 2 + xt • β• 2 + ut (t ∈ T2 )
1 1 2 2


 L
 yt = xt1• β •1g + xt2• β •2g + ut (t ∈ Tg ),

onde: xt1• é o vector 1 × k1 dos primeiros k1 regressores; xt2• é o vector 1 × k2 dos restan-
tes k2 regressores; β •1i (i = 1, 2, K , g ) é o vector k1 × 1 dos coeficientes sujeitos a teste;
β •2i (i = 1, 2, K, g ) é o vector k2 × 1 dos coeficientes não sujeitos a teste (e que podem
variar inter-grupos).
As respectivas relações amostrais são
Y•1 = X 11β•11 + X 12 β•21 + U •1

Y• 2 = X 2 β• 2 + X 2 β• 2 + U • 2
1 1 2 2


L
Y• g = X 1g β•1g + X g2 β•2g + U • g ,

onde: X i1 (i = 1, 2, K , g ) é a matriz ni × k1 dos regressores relativamente ao grupo i, e
aos regressores cujos coeficientes estão sujeitos a teste; X i2 (i = 1, 2, K , g ) é a matriz
ni × k2 dos regressores relativamente ao grupo i, e aos regressores cujos coeficientes não
estão sujeitos a teste.
Pode, também, fazer-se Y = X ∗ β∗ + U , onde
X1 O L O X 2 O L O 
 1 1 
 O X1 L O O X 2 L O 
X* =  ,
2 2

 M M M M M M 
 1 2

 O O L Xg O O L Xg
 
Capítulo 2 – O Modelo de Regressão Linear Clássico 102

e
 β1 
 •1 
β 1 
 •2 
 M 
 1 
 β• g 
β∗ =  2  .
 β•1 
β 2 
 •2 
 M 
 2
 β• g 
 
O teste é, então, H 0 : β•11 = β•12 = L = β•1g = β 1 contra H1 : ∃(i, l) : β•1i ≠ β •1l , onde
 β1 
 
β
β = 2.
1
 M 
 
 β k1 

Como no modelo com restrições apenas os últimos k2 coeficientes podem va-


riar de grupo para grupo, tem-se
 yt = xt1• β 1 + xt2• β •21 + ut (t ∈ T1 )

 yt = xt • β + xt • β • 2 + ut (t ∈ T2 )
1 1 2 2


 L
 yt = xt1• β 1 + xt2• β •2g + ut (t ∈ Tg ).

As respectivas relações amostrais são dadas por
Y•1 = X 11β 1 + X 12 β•21 + V•1

Y• 2 = X 2 β + X 2 β• 2 + V• 2
1 1 2 2


L
Y• g = X 1g β 1 + X g2 β •2g + V• g .

Pode, também, escrever-se Y = Xβ + V , onde
 β1 
 X 11 X 21  
O L O β2 
 1 2
  •1 
X 2 O X2 L O 
X =  e β =  β•22  .
 1
M M M M
  
 X g O
2
O L X g  
  2
 β• g 
Capítulo 2 – O Modelo de Regressão Linear Clássico 103

Se a hipótese nula é verdadeira, obtém-se


{Vˆ TVˆ − Uˆ TUˆ } /{( g − 1)k1}
(2.106) ~ F  ( g − 1)k1 , n − g k  .
Uˆ Uˆ /(n − g k )
T  

Este teste pode ser feito recorrendo a um modelo com variáveis artificiais, tal
como se fez a propósito do teste de Chow (2.105). O modelo sem restrições pode ser
formalizado com apenas uma equação de regressão cujos regressores são
xtj e d ti xtj (i = 1, 2, K , g − 1; j = 1, 2, K , k1 , k1 + 1, K , k ; k2 = k − k1 ) .

Designando os respectivos coeficientes de regressão por β j e por δ ji , tem-se


β•11 = β 1 + δ •11 , β•12 = β 1 + δ •12 ,..., β •1, g −1 = β 1 + δ •1, g −1 , β •1g = β 1 ,

β•21 = β 2 + δ •21 , β•22 = β 2 + δ •22 ,..., β•2, g −1 = β 2 + δ •2, g −1 , β•2g = β 2 ,

onde
 δ11   δ12   δ1, g −1 
     
 δ 21  1  δ 22   δ 2, g −1 
δ •1 =
1
,δ = ,..., δ •, g −1 =
1
,
 M  •2  M   M 
     
δ δ k1 2  δ
 k11   k1 , g −1 
e
 β k +1  δ k +1,1  δ k +1, 2  δ k +1, g −1 
 1   1   1   1 
 β k1 + 2   δ k1 + 2 ,1   δ k1 + 2 , 2   δ k1 + 2, g −1 
β =
2
,δ =
2
,δ =
2
,..., δ •, g −1 =
2
,
 M  •1  M  • 2  M   M 
       
β δ  δ k 2  δ
 k   k1   k , g −1 
A matriz dos regressores é
 X1 X 11 O L O X 12 X 12 O L O 
 11 
 X2 O X 21 L O X 22 O X 22 L O 
 M M M M M M M M .
 1 1 2 
 X g −1 O O L X g −1 X g −1 O O L X g2−1 
 X 1g O O L O X g2 O O L O 
 
A hipótese nula é dada por
H 0 : δ •11 = δ •12 = L = δ •1, g −1 = 0 .

O modelo com restrições é constituído por uma equação de regressão em que


os regressores são
xtj ( j = 1, 2, K , k1 , k1 + 1, K , k ) e dti xtj (i = 1, 2, K , g − 1; j = k1 + 1, k1 + 2, K , k ) .

A matriz dos regressores é dada por


Capítulo 2 – O Modelo de Regressão Linear Clássico 104

 X 11 X 12 X 12 O L O 
 1 
 X2 X 22 O X 22 L O 
 
 M M M M M .
 1 
 X g −1 X g2−1 O O L X g2−1 
 1 
 Xg X g2 O O L O 

Para ilustrar este resultado, vai considerar-se um modelo com termo indepen-
dente e mais dois regressores ( k = 3 ). Suponha-se que existem três grupos ( g = 3 ), e
que se pretende testar se as inclinações são constantes inter-grupos. Assim, o número de
coeficientes sujeitos a teste é k1 = 2 (e, portanto, k2 = 1 ).
Definindo duas variáveis artificiais, dti (i = 1, 2) [o grupo de referência é o ter-
ceiro], o modelo sem restrições é dado por
yt = β1 + δ11dt1 + δ12 dt 2
+ β 2 xt 2 + δ 21dt1 xt 2 + δ 22 dt 2 xt 2
+ β3 xt 3 + δ 31dt1 xt 3 + δ 32 dt 2 xt 3 + ut ,

Como k = 3 , o número de graus de liberdade é n − gk = n − 9 .


A hipótese nula é
δ = δ 22 = 0
H 0 :  21 .
δ 31 = δ 32 = 0.

O modelo com restrições é, então,


yt = β1 + δ11dt1 + δ12 dt 2 + β 2 xt 2 + β 3 xt 3 + vt .

Como k1 = 2 , o número de restrições é ( g − 1)k1 = 4 .


Considere-se, agora, a seguinte situação: os primeiros k1 coeficientes estão su-
jeitos a teste, e os restantes k2 coeficientes mantêm-se constantes inter-grupos.
Neste caso, o modelo sem restrições é dado por
 yt = xt1• β•11 + xt2• β 2 + ut (t ∈ T1 )

 yt = xt • β• 2 + xt • β + ut (t ∈ T2 )
1 1 2 2


 L
 yt = xt1• β•1g + xt2• β 2 + ut (t ∈ Tg ),

onde β 2 é o vector k2 × 1 dos coeficientes não sujeitos a teste (e que não variam inter-
-grupos).
As respectivas relações amostrais são
Y•1 = X 11β •11 + X 12 β 2 + U •1

Y• 2 = X 2 β• 2 + X 2 β + U • 2
1 1 2 2


L
Y• g = X 1g β•1g + X g2 β 2 + U • g .

Capítulo 2 – O Modelo de Regressão Linear Clássico 105

Se se considerar Y = X ∗β∗ + U , tem-se


β1 
X 1 O L O X 2   •1 
 1 1 
β1 
 O X1 L O X 2  •2 
X* =  2 2
 ; β∗ =  M  .
 M M M M   1 
 1 2
 β• g 
 O O L Xg Xg  2
 
 β 

O teste continua a ser H 0 : β•11 = β•12 = L = β •1g = β 1 contra H1 : ∃(i, l) : β•1i ≠ β•1l .
No modelo com restrições os regressores são xtj ( j = 1, 2, K , k ) .
Daqui resulta que as relações amostrais são dadas por
Y•1 = X 11 β 1 + X 12 β 2 + V•1

Y•2 = X 2 β + X 2 β + V•2
1 1 2 2


L
Y = X 1 β 1 + X 2 β 2 + V .
 •g g g •g

Fazendo Y = Xβ + V , tem-se
X1 X 2
 1 1

X 1 X 2 β 1 
X =
2 2
; β = .
 M M  β 2 
 1   
2
X
 g X g
 
Se a hipótese nula é verdadeira, tem-se
{Vˆ TVˆ − Uˆ TUˆ } /{( g − 1)k1}
(2.107) ~ F  ( g − 1)k1 , n − g k1 − k2  .
ˆ T ˆ
U U /(n − g k − k )  
1 2

Utilizando variáveis artificiais, os regressores do modelo sem restrições são


dti xtj ( i = 1, 2, K , g − 1; j = 1, 2, K , k1 ) e xtj ( j = 1, 2, K , k1 , k1 + 1, k1 + 2, K , k ).

Designando ainda os respectivos coeficientes de regressão por β j e por δ ji ,


continua a ter-se β •11 = β 1 + δ •11 , β •12 = β 1 + δ •12 ,..., β •1, g −1 = β 1 + δ •1, g −1 , β •1g = β 1 .
A respectiva matriz dos regressores é, então,
 X 11 X 11 O L O X 12 
 1 
 X2 O X 21 L O X 22 
 
 M M M M M .
 1 
 X g −1 O O L X 1g −1 X g2−1 
 1 
 Xg O O L O X g2 
Capítulo 2 – O Modelo de Regressão Linear Clássico 106

Neste caso, a hipótese nula ainda é H 0 : δ •11 = δ •12 = L = δ •1, g −1 = 0 .


O modelo com restrições não tem variáveis artificiais, e a respectiva matriz
dos regressores é X.
Por exemplo, considere-se de novo um modelo com termo independente, mais
dois regressores ( k = 3 ) e três grupos ( g = 3 ).
Procura testar-se se o termo independente é constante inter-grupos, mantendo a
hipótese de que as inclinações não variam de grupo para grupo. Neste caso, vem k1 = 1 e
k2 = 2 .
O modelo sem restrições é dado por
yt = β1 + δ11d t1 + δ12 d t 2 + β 2 xt 2 + β 3 xt 3 + ut . .

O número de graus de liberdade é n − gk1 − k2 = n − 5 .


A hipótese nula é H 0 : δ11 = δ12 = 0 , a que corresponde o modelo com restrições
yt = β1 + β 2 xt 2 + β3 xt 3 + vt .

Como k1 = 1 , o número de restrições é ( g − 1)k1 = 2 .

Exemplo 2.29 – No exemplo 2.28, embora se rejeite a permanência de estrutura, parece


que as estimativas do retorno da educação pouco diferem entre mulheres e homens. Po-
de, então, fazer-se o teste de o retorno da educação não variar com o género. Como o
modelo sem restrições deve considerar todas as interacções entre a variável mulher e os
outros regressores, tem-se:
lsalart = β1 + δ1 mulhert + β 2 educt + δ 2 (mulhert × educt )
+ β 3 expert + δ 3 (mulhert × expert ) + β 4empct + δ 4 (mulhert × empct ) + ut .
Neste caso, basta testar H 0 : δ 2 = 0 contra H1 : δ 2 ≠ 0 , utilizando o rácio-t.
Os resultados da regressão são os seguintes:

Estimativas Erros
Regressores dos coeficientes padrão Rácios-t Valores-p
constante 5.88936
mulhert – 0.22665 0.14345 – 1.58004 0.114
educt 0.55732 0.00597 9.33295 0.000
mulhert × educt – 0.00032 0.00971 – 0.03330 0.973
expert 0.02302 0.00313 7.34721 0.000
mulhert × expert 0.00096 0.00507 0.19009 0.849
empct 0.00323 0.00300 1.07699 0.282
mulhert × empct 0.00339 0.00483 0.70336 0.482

Conclui-se imediatamente que não se rejeita a hipótese nula, isto é, a evidência


estatística é favorável a que o retorno da educação não varie com o género. Obviamente,
esta conclusão não invalida que não se rejeite a alteração de estrutura atrás testada.

Capítulo 2 – O Modelo de Regressão Linear Clássico 107

2.13 - Previsão e análise dos resíduos

Até aqui, o modelo de regressão linear foi apresentado de acordo com o seguinte
ponto de vista: dispondo de um certo número de observações sobre as variáveis, procu-
ra-se estimar uma relação linear capaz de explicar o comportamento do regressando em
função de certos regressores. Outro ponto de vista é o de encontrar o modo mais eficaz
de utilização do modelo com o objectivo da previsão de observações adicionais do re-
gressando a partir de certos valores assumidos pelos regressores. No entanto, deve subli-
nhar-se que só se deve passar à fase da previsão depois de se adoptar um determinado
modelo estimado, o que pressupõe que as estimações feitas foram submetidas a uma
cuidada análise da especificação.
O “problema da previsão” procura dar resposta a dois tipos de questões:
a) Previsão em média: estimação do valor esperado das observações do regressando
condicionado por uma ou várias combinações de valores assumidos pelos regresso-
res.
b) Previsão pontual (para valores isolados): estimação de valores observados pelo re-
gressando em correspondência com uma ou várias combinações de valores assumi-
dos pelos regressores.

A distinção entre estes dois tipos de previsão é ilustrada pelo exemplo que se se-
gue.

Exemplo 2.30 – Seja


const = β1 + β 2 rdispt + β3 nef 16t + ut ,
onde:
− const é o consumo da família t de certos tipos de bens;
− rdispt é o rendimento real disponível da família t;
− nef 16t é o número de elementos da família t com mais de 16 anos.
Sabendo que nef 16n +1 = 3 e rdispn +1 = 24 , a questão da alínea a) consiste em
prever o consumo médio das famílias com rendimento disponível igual a 24 unidades
monetárias e 3 elementos com idade superior a 16 anos. A questão da alínea b) corres-
ponde à previsão do consumo de uma certa família nas mesmas condições.

Considere-se no MRLCN a relação amostral, Y = Xβ + U , e suponha-se que se


dispõe de r observações adicionais dos regressores. Estas observações vão ser agrupadas
numa matriz X 0 de tipo r × k ,
 xn +1,1 xn +1, 2 L xn +1, k 
 
 xn + 2,1 xn + 2, 2 L xn + 2, k 
X0 =  .
M M M 
 
 xn + r ,1 xn + r , 2 L xn + r , k 
Capítulo 2 – O Modelo de Regressão Linear Clássico 108

No domínio de previsão ( t = n + 1, n + 2, K , n + r ) continuam a verificar-se as


mesmas hipóteses do modelo que se tinha no domínio de estimação ( t = 1, 2, K , n ). Da-
qui resulta que
Y0 = X 0 β + U 0 ,

 E (U 0 | X , X 0 ) = 0,

Cov(U 0 | X , X 0 ) = σ I r ,
2
(2.108)
U | X , X ~ N ( r ) (0, σ 2 I ),
 0 0 r

Cov(U , U 0 | X , X 0 ) = O,

onde
 yn+1   u n+1 
y  u 
Y0 =  n+2 
, U 0 =  n+ 2  ,
 M   M 
   
 yn+r  u n + r 
e Cov(U , U 0 | X , X 0 ) é a matriz n × r das covariâncias, condicionadas por X e X 0 ,
entre as variáveis residuais, ut , relativas ao domínio de estimação e as variáveis resi-
duais, u s , referentes ao domínio de previsão. Assim,
Cov(ut , us | X , X 0 ) = 0 (t = 1, 2, K , n ; s = n + 1, n + 2, K , n + r ) .

Evidentemente não se dispõe de – ou não se consideram as – observações do re-


gressando no domínio de previsão.
Nas condições (2.108), facilmente se verifica que
 E (Y0 | X , X 0 ) = X 0 β ,

Cov(Y0 | X , X 0 ) = σ I r ,
2


Y0 | X , X 0 ~ N ( X 0 β , σ I r ),
(r ) 2

Cov(Y , Y | X , X ) = O.
 0 0

Também se tem, em termos marginais,


 E (U 0 ) = 0,

Cov(U 0 ) = σ I r ,
2


U 0 ~ N (0, σ I r ),
(r ) 2

Cov(U , U ) = O.
 0

Previsão em média

No caso da previsão em média, pretende estimar-se o vector r × 1 ,


θ = E (Y0 | X , X 0 ) = X 0 β ,
Capítulo 2 – O Modelo de Regressão Linear Clássico 109

que não é mais do que um sistema de r combinações lineares dos coeficientes de regres-
são. Naturalmente que
(2.109) θˆ = X 0b
é BLUE para θ = X 0 β , condicionado por X e X 0 .
Tem-se
 E (θˆ | X , X ) = E ( X 0b | X , X 0 ) = X 0 β = θ ,
 0

Cov(θˆ | X , X ) = Cov( X 0b | X , X 0 ) = X 0 Cov(b | X , X 0 ) X 0T


 0
(2.110)  = σ 2 X 0 ( X T X ) −1 X 0T ,

 θˆ | X , X 0 ~ N ( r ) θ , σ 2 X 0 ( X T X ) −1 X 0T  .
  

Como s 2 = Uˆ T Uˆ /(n − k ) é o estimador MQ de σ 2 , tem-se
^ ^
(2.111) Cov(θˆ | X , X 0 ) = Cov( X 0b | X , X 0 ) = s 2 X 0 ( X T X ) −1 X 0T .

Então,

(θˆ − θ )T { X 0 ( X T X ) −1 X 0T }−1 (θˆ − θ )


X , X 0 ~ F (r , n − k ) ,
r s2

e
(θˆ − θ )T { X 0 ( X T X ) −1 X 0T }−1 (θˆ − θ )
(2.112) ~ F (r , n − k ) .
r s2

Este resultado é semelhante a (2.79), onde R foi substituído por X 0 (no entanto,
R é não estocástica e X 0 é matriz aleatória), e permite fazer inferência estatística sobre
θ = X 0 β : construir regiões de confiança (elipsóides de previsão) e testar hipóteses.
Quando se abandona a hipótese REX.6, a distribuição anterior é assintótica, e o resul-
tado (2.112) só é válido para grandes amostras (ver capítulo 3).
Quando se tem apenas uma observação adicional ( r = 1 ), para simplificar, vai
fazer-se
X 0 = c = [ c1 c2 L ck ],

onde c é um vector 1 × k . O parâmetro a estimar e o respectivo estimador são, respecti-


vamente, os seguintes escalares:
θ = E ( y0 | X , c) = cβ = c1β1 + c2 β 2 + L + ck β k ,

θˆ = Eˆ ( y0 | X , c) = cb = c1b1 + c2b2 + L + ck bk .
Recorrendo à distribuição t-Student, obtém-se
θˆ − θ Eˆ ( y0 | X , c) − E ( y0 | X , c)
(2.113) = ~ t (n − k ) ,
sθˆ s c( X T X ) −1 cT
Capítulo 2 – O Modelo de Regressão Linear Clássico 110

onde
sθˆ = s c( X T X ) −1 cT

é o erro padrão da previsão em média.


Este resultado serve para determinar intervalos de confiança (intervalos de previ-
são) para θ , e fazer testes de hipóteses.
Supondo que se pretende construir um intervalo de confiança de grau 1 − α
para θ = cβ , o intervalo é dado por
(2.114) [ θˆ − tα / 2 sθˆ , θˆ + tα / 2 sθˆ ].

Quando o modelo tem termo independente, o cálculo de θˆ e de sθˆ pode ser feito
utilizando uma técnica já conhecida (ver secção 2.10, subsecção “Inferência estatística
sobre uma combinação linear dos coeficientes de regressão”). Com efeito, seja o MRL,
yt = β1 + β 2 xt 2 + L + β k xtk + ut e θ = β1 + β 2c2 + L + β k ck . Como
β1 = θ − β 2c2 − L − β k ck ,
substituindo no modelo, vem
yt = θ + β 2 ( xt 2 − c2 ) + L + β k ( xtk − ck ) + ut .

Então, θˆ e sθˆ são, respectivamente, o estimador do termo independente desta


equação e o respectivo erro padrão.
Como a variância do estimador do termo independente é mínima quando as mé-
dias das observações dos regressores são nulas [ver (2B.9)], o erro padrão da previsão é
mínimo quando x2 = c2 , K , xk = ck .
Considere-se o MRLCN simples, yt = β1 + β 2 xt + ut , e suponha-se que r = 1
(mais uma observação da variável explicativa). Fazendo xn +1 = c , pode deduzir-se, sem
dificuldade, que
θˆ − θ Eˆ ( y0 | X , c) − E ( y0 | X , c)
= ~ t (n − 2) ,
sθˆ 1 (c − x ) 2
s +
n

n
t =1
( xt − x ) 2

onde
θˆ = Eˆ ( y0 | X , c) = b1 + b2 c , θ = E ( y0 | X , c) = β1 + β 2c ,
e
1 (c − x ) 2
sθˆ = s + .
n

n
t =1
( xt − x ) 2

A expressão do erro padrão mostra claramente quais os factores que influem na


maior ou menor confiança que se pode atribuir à previsão, todos eles susceptíveis de
fácil interpretação. Assim, a confiança é tanto maior:
− Quanto menor for a dispersão da variável residual, medida por s;
− Quanto maior for o número de observações, n, utilizadas na estimação;
Capítulo 2 – O Modelo de Regressão Linear Clássico 111

− Quanto mais dispersas forem as observações da variável explicativa, o que é tradu-


zido por Σ( xt − x ) 2 ;
− Quanto mais perto c (observação adicional da variável explicativa) estiver de x
(média das observações da mesma variável no domínio de estimação).

Fazendo variar o valor c, as extremidades do intervalo de confiança também va-


riam, afastando-se da recta b1 + b2c à medida que c se afasta do valor médio das obser-
vações, x . Para cada c, o intervalo de confiança para θ encontra-se entre as duas curvas
que definem as extremidades do intervalo. A região compreendida entre as duas curvas
chama-se manga de previsão para θ .

Previsão pontual

Em muitos casos, especialmente com dados temporais, a previsão em média


não tem interesse, devido à própria natureza dos dados. De facto, em muitas situações
não tem sentido prever o comportamento médio do regressando, estando o investigador
interessado em prever apenas um particular valor do regressando referido a outro perío-
do ou a outro contexto.
Considere-se de novo uma matriz X 0 com r observações adicionais dos regres-
sores, e Y0 = X 0 β + U 0 , onde U 0 verifica as condições referidas em (2.108). Enquanto
na previsão em média se pretendia estimar θ = E (Y0 | X , X 0 ) , agora, procura prever-se
valores assumidos por Y0 (previsão pontual).
Considere-se o seguinte previsor MQ de Y0 ,
(2.115) Yˆ0 = X 0b = X 0 ( X T X ) −1 X T Y ,

e o erro de previsão,
(2.116) D = Y0 − Yˆ0 .

Utilizando o vector aleatório D, vão estudar-se as propriedades estatísticas do


previsor. Como E ( D | X , X 0 ) = E (Y0 − Yˆ0 | X , X 0 ) = 0 , diz-se que Yˆ0 , condicionado por
X e X 0 , é um previsor não enviesado de Y0 . Verifica-se que E (D) = 0 .
A matriz das covariâncias de D, condicionadas por X e X 0 , é dada por
(2.117) Cov( D | X , X 0 ) = σ 2{I r + X 0 ( X T X ) −1 X 0T } .

Com efeito,
Cov( D | X , X 0 ) = Cov(Y0 | X , X 0 ) + Cov(Yˆ0 | X , X 0 ) − 2 Cov(Y0 , Yˆ0 | X , X 0 )
= σ 2 I r + σ 2 X 0 ( X T X ) −1 X 0T − 2 E{(Y0 − X 0 β )(Yˆ0 − X 0 β )T | X , X 0 }
= σ 2 I r + σ 2 X 0 ( X T X ) −1 X 0T − 2 E{U 0 ( X 0b − X 0 β )T | X , X 0 }
= σ 2 I r + σ 2 X 0 ( X T X ) −1 X 0T − 2 E{U 0 (b − β )T X 0T | X , X 0 }
= σ 2 I r + σ 2 X 0 ( X T X ) −1 X 0T − 2 E{U 0U T | X , X 0 } X ( X T X ) −1 X 0T
= σ 2{I r + X 0 ( X T X ) −1 X 0T } ,
Capítulo 2 – O Modelo de Regressão Linear Clássico 112

pois b − β = ( X T X ) −1 X T U , e E (U 0U T | X , X 0 ) = O .
Verifica-se, assim, que a matriz das covariâncias do erro de previsão, condicio-
nadas por X e X 0 , é a soma de duas matrizes:
− A matriz das covariâncias condicionadas de Y0 , que não depende dos dados,
Cov(Y0 | X , X 0 ) = σ 2 I r ;

− A matriz das covariâncias condicionadas de Yˆ0 = X 0b ,

Cov(Yˆ0 | X , X 0 ) = σ 2 X 0 ( X T X ) −1 X 0T .

Como X 0b é BLUE para X 0 β , então diz-se que Yˆ0 = X 0b é o melhor previsor


linear não enviesado (BLUP: Best Linear Unbiased Predictor) para Y0 . Isto significa
~ ~
que, para qualquer outro previsor de Y0 , Y0 , linear em Y ( Y0 = CY ) e não enviesado –
~ ~
E ( D | X , X 0 ) = E (Y 0 − Y 0 | X , X 0 ) = 0 –, tem-se
~
Cov( D | X , X 0 ) − Cov( D | X , X 0 ) é semidefinida positiva.

Facilmente se conclui, utilizando o procedimento habitual, que


(Y 0 − Yˆ 0 )T {I r + X 0 ( X T X ) −1 X 0T }−1 (Y 0 − Yˆ 0 )
(2.118) ~ F (r , n − k ) .
r s2
Quando se abandona a hipótese REX.6, a distribuição anterior é assintótica, e o
resultado (2.118) só é válido para grandes amostras (ver capítulo 3).
Quando se tem apenas uma observação adicional, r = 1 , o erro de previsão é um
escalar, d = y0 − ŷ0 , e verifica-se sem dificuldade que
Var(d | X , c) = Var( y0 | X , c) + Var( yˆ 0 | X , c)
= σ 2 + σ 2c( X T X ) −1 cT
= σ 2{1 + c( X T X ) −1 cT }.
Então,
d y0 − yˆ 0
(2.119) = ~ t (n − k ) ,
sd s 1 + c( X T X ) −1 cT

onde
sd = s 1 + c( X T X ) −1 cT

é o erro padrão do erro de previsão.


Um intervalo de confiança de nível 1 − α para y0 é dado por
(2.120) [ yˆ 0 − tα / 2 sd , yˆ 0 + tα / 2 sd ].

Quando se considera o MRLCN simples e r = 1 , pode deduzir-se, sem dificulda-


de, que
Capítulo 2 – O Modelo de Regressão Linear Clássico 113

d y0 − yˆ 0
= ~ t ( n − 2) ,
sd 1 (c − x ) 2
s 1+ +
n

n
t =1
( xt − x ) 2

onde
1 (c − x ) 2
sd = s 1 + + ,
n

n
t =1
( xt − x ) 2

podendo construir-se os respectivos intervalos de confiança e a manga de previsão.


Para qualquer r, pode verificar-se que
Cov( D | X , X 0 ) − Cov(θˆ | X , X 0 )

é semidefinida positiva. Em particular, considerando r = 1 , tem-se


Var (d | X , c) = σ 2{1 + c( X T X ) −1 cT }
> Var{θˆ | X , c} = σ 2{c( X T X ) −1 cT }.
n +1

Isto significa que, embora cb seja o estimador de cβ na previsão em média e o


previsor de y0 na previsão pontual, as variâncias neste tipo de previsão são maiores do
que as variâncias naquele.

Teste de previsão de Chow

Considere-se o modelo (2.94). Supondo, tal como se fez na secção 2.12, que se
dispõe de n1 observações para o grupo 1, e n2 para o grupo 2, a relação amostral corres-
pondente é dada por (2.98). No teste de Chow de alteração da estrutura, em que se uti-
liza a estatística (2.102), pressupõe-se que n1 > k e que n2 > k , e fazem-se três ajusta-
mentos MQ (com n1 observações, com n2 observações e com n = n1 + n2 observações).
Para efectuar o teste de previsão de Chow, vai adoptar-se outro ponto de vista:
as observações do grupo 1 são utilizadas para estimar os coeficientes de regressão, ob-
tendo-se b•1 = ( X 1T X 1 ) −1 X 1T Y•1 (supõe-se que n1 > k ); as observações do grupo 2 são usa-
das para testar a hipótese (2.95),
H 0 : β •1 = β • 2 contra H1 : β •1 ≠ β • 2 ,

mesmo no caso em que n2 ≤ k .


Para isso, vai utilizar-se o previsor Yˆ• 2 = X 2b•1 de Y• 2 , tal como se fez na previ-
são pontual. Nestas condições, o erro de previsão é dado por D = Y• 2 − Yˆ• 2 = Y• 2 − X 2b•1
ou D = X 2 β • 2 + U • 2 − X 2b•1 = U • 2 − X 2 (b•1 − β • 2 ) . Como D = U • 2 − X 2 (b•1 − β•1 ) sob a
hipótese nula, é imediato verificar que
E ( D | X 1 , X 2 ) = 0 e Cov( D | X 1 , X 2 ) = σ 2{I n2 + X 2 ( X 1T X 1 ) −1 X 2T } ,

obtendo-se uma estatística-teste semelhante a (2.118):


Capítulo 2 – O Modelo de Regressão Linear Clássico 114

(Y• 2 − Yˆ• 2 )T {I n2 + X 2 ( X 1T X 1 ) −1 X 2T }−1 (Y• 2 − Yˆ• 2 ) / n2


(2.121) ~ F (n2 , n1 − k ) ,
Uˆ T Uˆ /(n − k )
•1 •1 1

onde Uˆ •1 é o vector dos resíduos MQ do ajustamento com n1 observações.


Este resultado pode ser obtido de forma equivalente. Com efeito, notando que
Y• 2 = X 2 β • 2 + U • 2 = X 2 β •1 + X 2 ( β • 2 − β•1 ) + U • 2 = X 2 β •1 + γ + U • 2 ,
onde γ = X 2 ( β• 2 − β•1 ) é um vector n2 × 1 , (2.98) pode apresentar-se da seguinte manei-
ra:
Y•1 = X 1β •1 + U •1
(2.122) 
Y• 2 = X 2 β •1 + γ + U • 2 ,
ou
Y•1   X 1 O   β•1  U •1 
 =  + ,
Y 
 •2   X 2 I n   γ  U • 2 
2 

onde γ é um vector n2 × 1 de parâmetros. Facilmente se verifica que H 0 : β•1 = β• 2 é


equivalente a H 0 : γ = 0 .
O estimador MQ dos vectores β•1 e γ é dado por
−1
 βˆ•1   X 1T X 1 + X 2T X 2 X 2T   X 1T Y•1 + X 2T Y• 2 
 =   .
γˆ
   X 2 I n2  
  Y•2 

Invertendo a matriz por blocos, vem


 βˆ•1   ( X 1T X 1 ) −1 − ( X 1T X 1 ) −1 X 2T   X 1T Y•1 + X 2T Y• 2 
 = 
T  ,
 γˆ  − X 2 ( X 1 X 1 ) I n2 + X 2 ( X 1 X 1 ) X 2  
T −1 T −1
Y• 2 
ou
 βˆ•1   ( X 1T X 1 ) −1 X 1T Y•1   b•1  b•1 
 =  =   =  .
 γˆ  Y• 2 − X 2 ( X 1 X 1 ) X 1 Y•1  Y• 2 − X 2b•1   D 
T −1 T

Deste modo, o estimador MQ de β •1 , a partir da relação amostral (2.122), coin-


cide com o estimador MQ de β•1 resultante da primeira relação amostral de (2.98); o
estimador MQ de γ é igual ao erro de previsão.
Os respectivos resíduos MQ são dados por
Uˆ •1 = Y•1 − X 1b•1

Uˆ • 2 = Y• 2 − ( X 2b•1 + D) = 0,

e, portanto, a respectiva soma dos quadrados dos resíduos MQ é Uˆ •T1Uˆ •1 .


Pode fazer-se o teste de H 0 : γ = 0 recorrendo ao resultado geral (2.81). Neste
caso, têm-se n2 restrições e R = [ O I n2 ], onde O é a matriz nula de tipo n2 × k . Então,
Capítulo 2 – O Modelo de Regressão Linear Clássico 115

−1
 X 1T X 1 + X 2T X 2 X 2T   ( X 1T X 1 ) −1 − ( X 1T X 1 ) −1 X 2T   O 
R  RT = O I n2 [ ]   
− X 2 ( X 1 X 1 ) I n2 + X 2 ( X 1 X 1 ) X 2   I n2 
T −1 T −1 T
 X2 I n2 

= I n2 + X 2 ( X 1T X 1 ) −1 X 2T .

O número de graus de liberdade da estimação MQ de (2.122) é igual ao número


de observações, n, menos o número de coeficientes de regressão a estimar k + n2 , isto é,
n − (k + n2 ) = n1 − k . Então, facilmente se verifica que
γˆT {I n + X 2 ( X 1T X 1 )−1 X 2T }−1γˆ / n2
2
~ F (n2 , n1 − k ) ,
Uˆ •T1Uˆ •1 /(n1 − k )
ou seja, obtém-se (2.121) uma vez que γˆ = D = Y• 2 − Yˆ• 2 e a soma dos quadrados dos
resíduos MQ que resulta da estimação de (2.122) é ainda Uˆ •T1Uˆ •1 .
O teste da hipótese nula H 0 : γ = 0 pode, também, fazer-se recorrendo ao resul-
tado (2.82) [equivalente a (2.81)]. A soma dos quadrados dos resíduos MQ sem restri-
ções é Uˆ •T1Uˆ •1 . Quando se verifica γ = 0 , são impostas n2 restrições, (2.122) reduz-se a
(2.100) ou (2.101), e a respectiva soma dos quadrados dos resíduos MQ é igual a Vˆ T Vˆ .
Então, admitindo que a hipótese nula é verdadeira, tem-se
(Vˆ TV − Uˆ •T1Uˆ •1 ) / n2
(2.123) ~ F (n2 , n1 − k ) .
Uˆ •T1Uˆ •1 /(n1 − k )
Quando se abandona a hipótese REX.6, os resultados (2.121) e (2.123) só são
válidos assintoticamente, ou seja, para grandes amostras (ver capítulo 3).
É particularmente interessante o caso particular em que há apenas uma observa-
ção adicional, n2 = 1 . Neste caso, (2.123) reduz-se a
Vˆ TVˆ − Uˆ •T1Uˆ •1
~ F (1, n1 − k ) ,
s2
onde s 2 = Uˆ •T1Uˆ •1 /(n1 − k ) .
Donde,

Vˆ T Vˆ − Uˆ •T1Uˆ •1
(2.124) ~ t (n1 − k ) .
s

Prever y quando ln(y) é o regressando

Quando o MRLCN resulta de uma transformação linearizante de um modelo ini-


cial, as previsões obtidas dizem naturalmente respeito ao modelo transformado. Preten-
dendo-se fazer previsões em termos da variável explicada original, é necessário proce-
der à transformação inversa. Neste contexto, tem particular interesse o caso do regres-
sando ln(y).
Para facilitar a exposição vai utilizar-se a seguinte notação: ly = ln( y ) . Assim, o
MRLCN a considerar é dado por lyt = xt • β + ut , a verificar:
Capítulo 2 – O Modelo de Regressão Linear Clássico 116

E (lyt | X ) = xt • β ;
Var(lyt | X ) = σ 2 ;
Cov(lyt , ly s | X ) = 0 (t ≠ s );
(lyt | X ) ~ NID( xt • β , σ 2 ) .

Como yt = exp{lyt } = exp{xt • β + ut } = exp{xt • β } exp{ut } , tem-se


E ( yt | X ) = E (exp{xt • β } exp{ut } | X ) = exp{xt • β }E (exp{ut } | X ) .

Conclui-se imediatamente que


E (lyt | X ) = xt • β ≠ ln{ E ( yt | X )} = xt • β + ln{ E (exp{ut } | X )} ,

e
exp{E (lyt | X )} = exp{xt • β } ≠ E ( yt | X ) = exp{xt • β }E (exp{ut } | X ) ,

isto é, a transformação inversa do valor esperado condicionado de lyt não conduz ao


valor esperado condicionado de yt .
Pode provar-se que
E ( yt | X ) = exp {xt • β + σ 2 / 2} > exp {xt • β } ,

recorrendo à função geradora dos momentos de variável aleatória com distribuição nor-
mal, e notando que exp {σ 2 / 2} > 1 (porque σ 2 > 0 ).
Nestas condições, o previsor
 ^ 
yˆ 0 = exply 0  = exp{cb} ,
 

é enviesado (o respectivo erro de previsão não tem valor esperado nulo) e inconsistente
(subestima sistematicamente o valor esperado condicionado de y0 ).
Facilmente se verifica que este enviesamento é tanto maior quanto maior for σ 2 .
Na prática, este enviesamento é tanto maior quanto menor for o coeficiente de determi-
nação, ou quanto maior for o erro padrão, s, da regressão de lyt sobre xt • .
Refira-se, ainda, que este problema tem consequências diferentes quando se pre-
tende fazer uma previsão pontual ou quando se efectua uma previsão por intervalos.
Com efeito, na primeira situação, a previsão é enviesada em termos da variável original,
y0 , e deve ser corrigida sempre que possível. No segundo caso, obtém-se uma previsão
com o grau de confiança desejado, embora descentrada em relação ao valor esperado
condicionado de y0 . Em vez de centrar o intervalo de previsão no valor esperado condi-
cionado de y0 , opta-se por utilizar um intervalo de previsão com idêntica probabilidade
à esquerda e à direita.
As considerações anteriores mostram que é necessária uma correcção simples
para prever y0 . O novo previsor é dado por
 s 2   ^   s 2 
(2.125) yˆ 0 = exp exply 0  = exp  exp{cb} ,
 2     2 
Capítulo 2 – O Modelo de Regressão Linear Clássico 117

que continua a ser enviesado, mas é consistente.


Quando não se verifica a hipótese REX.6, (2.125) não pode ser utilizado.
Como E ( yt | X ) = α exp{xt • β } , onde α = E (exp{ut } | X ) , o previsor pode ser
dado por
 ^ 
(2.126) yˆ 0 = αˆ exply 0  = αˆ exp{cb} ,
 

desde que se conheça um estimador consistente, α̂ , de α .


Pode provar-se que, fazendo a regressão auxiliar (sem constante) de
^ 
yt sobre wt = exply t  ( t = 1, 2, K , n ),
 
o estimador do coeficiente de wt é α̂ .
A técnica de estimação do factor α , referido em (2.126), pode servir para obter
um coeficiente de determinação relativo ao modelo lyt = xt • β + ut , comparável com o
R 2 habitual referente ao modelo yt = xt • β + vt . Uma proposta possível de tal coeficien-
te de determinação resume-se a calcular o quadrado do coeficiente de correlação empíri-
co entre os yt e os yˆ t = α̂ wt .

Exemplo 2.31 – Suponha-se que se vai fazer a previsão pontual do salário (previsão
para um determinado trabalhador), quando os regressores assumem os seguintes valo-
res: educt = 14 ; expert = 7 ; empct = 4 . A previsão é a seguinte:
^
lsalar0 = 5.81505 + 14 × 0.055383 + 7 × 0.022988 + 4 × 0.00395 = 6.76714 .

Este valor podia ser obtido fazendo a regressão de lsalart sobre 1, educt − 14 ,
expert − 7 e empct − 4 . A estimativa do termo independente é, então, 6.76714; o respec-
tivo erro padrão é igual a 0.020314. Como

sd = s 2 + sθ2ˆ = 0.141009 + 0.0203142 = 0.37606 ,

e t0.025 = 1.9624 (com 996 graus de liberdade), o intervalo de confiança é dado por
[6.02918, 7.50511].
O valor previsto para o salário (sem correcção do enviesamento) é, então, igual a
exp{ 6.76714 } = 868.82491 . Calculando os anti-logaritmos das extremidades daquele
intervalo, obtém-se
[415.3725, 1817.29631].
Como era de esperar, a amplitude deste intervalo é elevada, uma vez que, tratan-
do-se de previsão pontual, o cálculo dos anti-logaritmos acentua a disparidade de valo-
res.
O valor previsto anteriormente para o salário, 868.82491, pertence a este interva-
lo, mas encontra-se claramente mais perto da extremidade inferior do que da extremida-
Capítulo 2 – O Modelo de Regressão Linear Clássico 118

de superior. Para corrigir este enviesamento, vai determinar-se o factor de correcção, α̂ ,


fazendo a regressão auxiliar (sem termo independente) de
 ^ 
salart sobre explsalart  .
 
Como αˆ = 1.07272 (estimativa do coeficiente do regressor), o valor previsto pa-
ra o salário passa a ser
1.07272 × exp{ 6.76714 } = 932.00229 ,
mais afastado daquela extremidade inferior.

Previsão ex-post

Todos os resultados apresentados nesta secção supõem que se conhece a matriz


X 0 , ou seja, conhecem-se as observações adicionais dos regressores ( X 0 não faz parte
da previsão). Neste caso, a previsão (relativamente a Y0 ) é ex post. Este tipo de pre-
visão deve distinguir-se da previsão ex ante, que inclui a previsão das observações adi-
cionais dos regressores.
Estão disponíveis alguns critérios para avaliar a qualidade das previsões ex post,
desde que se conheça o vector Y0 . São eles:
a) A raiz do erro quadrático médio


n+ r
( yt − yˆ t ) 2
REQM = t = n +1
.
r
b) O erro absoluto médio

n+r
| yt − yˆ t |
EAM = t = n +1
.
r
Estas duas estatísticas têm um problema de escala (dependem da unidade de me-
dida dos yt ). As duas estatísticas seguintes evitam este problema.
c) A estatística U T de Theil


n+ r
( y − yˆ t ) 2
t
UT = t = n +1
.
∑t =n+1 yt
n+ r 2

d) A estatística U T∆ de Theil


n+r

(∆yt − ∆yˆ t ) 2
U = t = n +1
.

T n+ r
t = n +1
(∆yt ) 2

Esta estatística, que pode também ser apresentada em taxas de variação, é uma
variante de U T . Ela permite detectar pontos de viragem (turning points) nas observa-
ções do regressando.
Capítulo 2 – O Modelo de Regressão Linear Clássico 119

Análise dos resíduos

Muitas vezes é útil examinar individualmente as observações para verificar se o


valor efectivamente observado do regressando, yt , é maior ou menor do que o respec-
tivo valor ajustado, ŷt ; ou seja, trata-se de analisar individualmente os resíduos MQ,
ût .

Exemplo 2.32 – Considere-se o modelo de regressão linear (a verificar as hipóteses bá-


sicas do MRLCN),
nestt = β1 + β 2 assidt + β 3 taet + β 4 mist + ut ,

onde as variáveis já são conhecidas do exemplo 1.5.


A estimação MQ deste modelo, com os dados disponíveis, permitiria conhecer
os respectivos resíduos,
^
uˆt = nestt − nestt .

Admitindo que as variáveis de controlo são as mais adequadas para explicar a


nota no exame final de Estatística, o aluno com o maior resíduo negativo é aquele que
teve menor desempenho (em relação a si próprio), porque obteve a diferença máxima
entre a nota prevista pelo modelo e a nota efectivamente verificada. O aluno com o
maior resíduo positivo seria, então, aquele que fez maiores progressos.
Evidentemente as considerações anteriores pressupõem que o modelo está bem
especificado, uma vez que os resíduos poderiam resultar do facto de não serem correcta-
mente seleccionados os controlos de nest. Uma nota substancialmente inferior (superior)
ao valor previsto pelo modelo pode ser indicador de uma especificação deficiente.
Acreditando que o modelo estava bem especificado, podia ter-se a pretensão de
propor um ranking dos alunos baseado na ordem dos resíduos, e não na ordem das notas
obtidas. Isto seria, no mínimo, arriscado, pois poderia acontecer a situação absurda de
alunos com notas baixas ficarem melhor classificados do que alunos com notas altas!
Este ranking seria semelhante a alguns que já se fizeram para estabelecer ran-
kings de escolas básicas e secundárias. Nestes casos, controla-se o desempenho médio
dos alunos em exames nacionais com factores socioeconómicos considerados relevan-
tes. As conclusões absurdas foram óbvias.

Outro aspecto interessante a ter em conta na análise dos resíduos, consiste em


determinar um intervalo de confiança para cada observação, utilizando (2.120). Neste
caso, yt seria considerada a “observação a prever”, os parâmetros seriam estimados
com as outras observações, e o erro de previsão seria d t = yt − yˆ t .
A observação t tem de ser excluída da estimação, pois, caso contrário, a variân-
cia condicionada do resíduo ût (um falso “erro de previsão”) não seria
Var(uˆt | X ) = σ 2{1 + xt • ( X T X ) −1 xtT•} ,
Capítulo 2 – O Modelo de Regressão Linear Clássico 120

mas sim
Var(uˆt | X ) = σ 2{1 − xt • ( X T X ) −1 xtT• } ,

porque Cov(Uˆ | X ) = σ 2 PX (ver secção 2.4). A este propósito, fica ao cuidado do leitor
verificar que Var( yˆ t | X ) = Cov( yt , yˆ t | X ) = σ 2 xt • ( X T X ) −1 xtT• , donde se conclui que
Var(uˆt | X ) = Var( yt − yˆ t | X ) = Var( yt | X ) − Var( yˆ t | X ) ≥ 0 .
Capítulo 2 – O Modelo de Regressão Linear Clássico 121

PALAVRAS-CHAVE
Acontecimento de referência Interacção
Alteração da estrutura Intervalo de confiança
Análise dos resíduos Linearidade
Armadilha das variáveis artificiais Matriz das covariâncias das variáveis re-
siduais
Associação (não) linear Matriz das covariâncias dos estimadores
MQ
Ausência de autocorrelação Matriz dos regressores
Autocorrelação Método da máxima verosimilhança (MV)
Coeficiente de correlação (parcial) Método dos mínimos quadrados (MQ)
Coeficiente de determinação Método dos momentos
Coeficiente de determinação ajustado Modalidades
Coeficiente de determinação não centrado Modelo com restrições
Coeficiente de regressão Modelo de regressão linear (clássico)
Condição de característica Modelo de regressão linear normal
Condição de ortogonalidade Modelo de regressão linear simples
Diagrama de dispersão Modelo sem restrições
Dimensão do teste Multicolinearidade (aproximada)
Distribuição assintótica Multicolinearidade exacta
Distribuição do qui-quadrado Parâmetro característico
Distribuição exacta Parâmetro perturbador
Distribuição F-Snedcor Previsão em média
Distribuição normal Previsão ex-ante
Distribuição t-Student Previsão ex-post
Domínio de estimação Previsão pontual
Domínio de previsão Previsor
Eficiência Previsor BLUP
Enviesamento Princípio da analogia
Equações de verosimilhança Princípio da razão de verosimilhanças
Equações normais Princípio de Wald
Erro de amostragem Rácio-F
Erro de previsão Rácio-t
Erro padrão da previsão em média Região crítica
Erro padrão da regressão Região de confiança
Erro padrão do erro de previsão Regressando
Erro padrão do estimador MQ Regressor
Escala nominal Regressores fixos
Escala ordinal Relação amostral
Estimador BLUE Resíduo MQ com restrições
Estimador de máxima verosimilhança Resíduo (dos mínimos quadrados)
Estimador dos mínimos quadrados Sazonalidade determinística
Capítulo 2 – O Modelo de Regressão Linear Clássico 122

PALAVRAS-CHAVE
Estimador eficiente Significância estatística
Estimador linear Significância prática
Estimador MQ com restrições Soma dos quadrados dos resíduos
Estimador não enviesado Soma dos quadrados explicada
Exogeneidade contemporânea Soma total dos quadrados
Exogeneidade estrita Teorema de Frisch-Waugh-Lovell
Factor qualitativo Teorema de Gauss-Markov
Função de regressão linear ajustada Teorema do limite central
Função de regressão linear (teórica) Teste de Chow
Função de verosimilhança (concentrada) Teste de hipóteses
Grau de multicolinearidade Teste de nulidade conjunta
Graus de liberdade Teste de previsão de Chow
Heterocedasticidade condicionada Teste de significância global
Homocedasticidade condicionada Valor ajustado
Hipótese a manter Valor-p
Hipótese alternativa Variação explicada
Hipótese nula Variação residual
Identificação Variação total
Inferência estatística Variável artificial
Inferência estatística sobre a variância da Variável binária
variável residual
Inferência estatística sobre combinações Variável residual
lineares de coeficientes de regressão
Inferência estatística sobre um coeficiente Variáveis centradas
de regressão isolado
Inferência estatística sobre uma combina-
ção linear de coeficientes de regressão
Capítulo 2 – O Modelo de Regressão Linear Clássico 123

PERGUNTAS DE REVISÃO

1. Considere o modelo de regressão linear, yt = xt • β + ut . Defina regressor estrita-


mente exógeno.
2. Considere o modelo de regressão linear, yt = α + β xt + ut . Em que condições po-
de afirmar que o regressor é estritamente exógeno.
3. Considere o modelo de regressão linear, yt = β1 + β 2 xt 2 + β 3 xt 3 + β 4 xt 4 + ut . De-
monstre que E (ut | xt 2 , xt 3 , xt 4 ) = 0 ⇒ E (ut | xt 2 , xt 3 ) = 0 .
4. Prove que: se um regressor é estritamente exógeno então existe ortogonalidade en-
tre o regressor e as variáveis residuais.
5. Prove que: a exogeneidade estrita dos regressores é equivalente a que o valor es-
perado do regressando condicionado por todas as observações possíveis dos re-
gressores é igual à componente sistemática do modelo.
6. Mostre que no modelo AR(1), yt = β1 + β 2 yt −1 + ut , não existe exogeneidade estri-
ta.
7. Prove que: se um regressor é contemporaneamente exógeno então existe ortogo-
nalidade contemporânea entre o regressor e a variável residual.
8. Considere o MRLC, yt = xt • β + ut , onde xt • é o vector dos regressores, cuja com-
ponente genérica é xtj . Quando se escreve Cov( xsj , ut ) = 0 e E (ut | xsj ) = 0 , que ti-
po de associações se estabelecem, respectivamente, entre o regressor e as variá-
veis residuais.
9. Considere a relação amostral Y = Xβ + U , associada ao modelo de regressão li-
near clássico. Prove que: E (ut | X ) = 0 ⇒ E ( xsj ut ) = 0 .
10. Considere a relação amostral Y = Xβ + U , associada ao modelo de regressão li-
near clássico. Prove que: E (ut | X ) = 0 ⇒ E (ut | x• j ) = 0 , onde x• j é a coluna ge-
nérica da matriz X.
11. Considere um MRLC com dados seccionais, e onde a amostragem é casual. Indi-
que a relação entre Var(ut | xt • ) e Var(ut | X T ) .
12. No caso de regressores estritamente exógenos, enuncie a hipótese de ausência de
autocorrelação.
13. Considere a relação amostral Y = Xβ + U , associada ao modelo de regressão li-
near clássico. Prove que: Cov(ut , u s | X ) = 0 ⇒ E (ut u s ) = 0 .
14. Considere a relação amostral Y = Xβ + U , associada ao modelo de regressão li-
near. De acordo com as hipóteses clássicas, sabe-se que a matriz das covariâncias
de U condicionada por X é dada por Cov(U | X ) = σ 2 I . Determine a respectiva
matriz das covariâncias marginal, Cov(U ) .
15. Considere o modelo de regressão linear, yt = α + β xt + ut . Seja: a) se o regressor
é estritamente exógeno então existe ortogonalidade entre o regressor e a variável
residual; b) se existe ortogonalidade entre o regressor e a variável residual então o
regressor é estritamente exógeno; c) o regressor é estritamente exógeno se e só se
existe ortogonalidade entre o regressor e a variável residual.
Quais destas afirmações são verdadeiras?
Capítulo 2 – O Modelo de Regressão Linear Clássico 124

16. Considere o modelo yt = α + β xt + ut . Quais das seguintes afirmações são verda-


deiras: a) xt é estritamente exógeno se e só se E (ut | X T ) = 0 ; b) xt é estritamente
exógeno se e só se Cov( xt , u s ) = 0 (t ≠ s) .
17. Considere o modelo de regressão linear, yt = α + β xt + ut , e suponha que se veri-
fica a hipótese de ausência de autocorrelação: E (ut u s | xt , xs ) = 0, ∀t ≠ s . Prove
que E (ut u s ) = 0, ∀t ≠ s .
18. Considere o MRL, yt = β 0 + β1 ln( xt ) + β 2 ln( xt2 ) + ut . Construa a matriz Qxx , e ve-
rifique se pode admitir a hipótese da condição de característica.
19. A partir das hipóteses clássicas do MRL, yt = xt • β + ut , deduza a expressão que
permite identificar o vector β .
20. Considere os resíduos MQ no modelo de regressão linear clássico, e as seguintes
afirmações: a) o vector dos resíduos é ortogonal ao vector dos valores ajustados;
b) a soma dos resíduos é sempre nula; c) a soma dos quadrados dos resíduos é
igual ao produto do número de observações pela variância das variáveis residuais;
d) a soma dos quadrados das observações da variável dependente é sempre igual à
soma dos quadrados dos valores ajustados mais a soma dos quadrados dos resí-
duos. Indique quais são verdadeiras, e quais são falsas.
21. Considere a relação amostral Y = Xβ + U associada ao modelo de regressão li-
near clássico. Determine a transformação do vector U de modo a obter o vector
dos resíduos MQ, Û . Quais são as propriedades algébricas da matriz de transfor-
mação?
22. Considere a relação amostral Y = Xβ + U associada ao modelo de regressão li-
near clássico. Deduza a transformação do vector Y de modo a obter o vector dos
valores ajustados, Ŷ . Quais são as propriedades algébricas da matriz de transfor-
mação?
23. Considere a relação amostral Y = Xβ + U associada ao modelo de regressão li-
near clássico. Determine a forma quadrática em Y (em U) que lhe permite obter a
soma dos quadrados dos resíduos MQ. Qual é a matriz da forma quadrática?
24. Considere a relação amostral Y = Xβ + U associada ao modelo de regressão li-
near clássico. Prove a ortogonalidade entre o vector dos resíduos MQ e o vector
dos valores ajustados.
25. Considere a relação amostral Y = Xβ + U associada ao modelo de regressão li-
near clássico. Sabe-se que X T Uˆ = 0 . Utilize este sistema de k equações (em que
as incógnitas são os n resíduos MQ) para justificar a expressão “graus de liberda-
de” do MRL.
26. Considere a relação amostral Y = Xβ + U associada ao modelo de regressão li-
near clássico. Utilize a relação X T Uˆ = 0 para provar que a soma dos resíduos MQ
é nula quando o modelo tem termo independente.
27. Considere a relação amostral Y = Xβ + U associada ao modelo de regressão li-
near clássico. Deduza a relação entre a soma dos quadrados das observações do
regressando, a soma dos quadrados dos respectivos valores ajustados, e a soma
dos quadrados dos resíduos. Indique uma utilização desta relação.
Capítulo 2 – O Modelo de Regressão Linear Clássico 125

28. Considere o modelo de regressão linear, yt = α + β xt + ut . Além disso, suponha


que E (ut | xt ) = 0 . Que pode afirmar sobre o enviesamento do estimador dos mí-
nimos quadrados (MQ) do parâmetro β ? Justifique.
29. Num modelo de regressão linear, yt = xt • β + ut , que hipóteses se devem conside-
rar para que o estimador MQ de β verifique o teorema de Gauss-Markov.
30. Considere o modelo de regressão linear, yt = xt • β + ut , onde xt • é o vector dos
regressores, a verificar as hipóteses clássicas. Indique a expressão da matriz das
covariâncias do estimador dos mínimos quadrados de β condicionada por X.
31. Considere o modelo yt = β 0 + β1 xt1 + β 2 xt 2 + ut com regressores estritamente exó-
genos e com dados temporais. Suponha que xt1 é uma variável com tendência li-
near. Reespecifique o modelo de forma a capturar o efeito, sobre yt , da variação
de xt1 em torno da sua tendência.
32. Considere, no modelo de regressão linear clássico, o erro padrão associado com o
estimador MQ de um coeficiente de regressão. Considere, também, as seguintes
afirmações: a) o erro padrão é tanto maior quanto maior for o erro padrão da re-
gressão; b) o erro padrão é tanto menor quanto maior for a variação total das ob-
servações do respectivo regressor; c) o erro padrão é tanto menor quanto maior for
o grau de associação linear entre este regressor e os outros; d) o erro padrão é tan-
to menor quanto maior for o número de observações.
Indique quais são verdadeiras, e quais são falsas.
33. Considere o MRLC, yt = β1 + β 2 xt 2 + β3 xt 3 + ut . Indique a expressão que permite
relacionar Var (b2 | X ) com a variação total do regressor xt 2 .
34. Para efectuar inferência estatística sobre σ 2 no MRLCN começa-se por obter o
resultado

Uˆ T Uˆ (n − k ) s 2
X ~ χ 2 (n − k ) ou X ~ χ 2 (n − k ) .
σ2 σ2

Apresente a estatística-teste que permite testar H 0 : σ 2 = σ 02 (qualquer que seja a


hipótese alternativa), e justifique a sua obtenção a partir do resultado referido.
35. No MRLCN, obtenha a distribuição de b j | X , onde b j é a componente genérica
de b. A partir deste resultado, obtenha a estatística-teste para testar H 0 : β j = β 0j
(qualquer que seja a hipótese alternativa), e justifique a sua obtenção a partir da
distribuição de b j | X .
36. Suponha que y é explicada por x (variável quantitativa) e por um factor qualitativo
com quatro modalidades. Definindo quatro variáveis artificiais, especifique o
MRL de modo a evitar a “armadilha da multicolinearidade”.
37. Considere o MRL, com dados trimestrais, yt = β1 + β2 xt + ut , como modelo de re-
ferência. Admitindo que pode existir sazonalidade com influência no termo inde-
pendente, este termo seria β11 no 1.º trimestre, β12 no 2.º trimestre, β13 no 3.º tri-
mestre e β14 no 4.º trimestre. Reformule o modelo de referência de modo a con-
templar a possibilidade de sazonalidade.
38. Considere o modelo yt = β 0 + β1 xt + ut , com regressores estritamente exógenos e
com dados trimestrais. Considere que variáveis xt e yt têm sazonalidade trimes-
Capítulo 2 – O Modelo de Regressão Linear Clássico 126

tral. Como sabe β1 não mede o efeito dessazonalizado de xt sobre yt . Reespeci-


fique o modelo de forma a obter uma estimativa daquele efeito.
39. Explique porque se deve dizer estimador BLUE na previsão em média, e previsor
BLUP na previsão pontual.
40. Suponha que, num modelo de regressão linear simples com termo independente,
pretendia fazer previsão pontual para uma observação adicional. Considere as se-
guintes afirmações: a) o erro padrão da previsão é tanto menor quanto menor for o
erro padrão da regressão; b) o erro padrão da previsão é tanto menor quanto maior
for a dispersão das observações da variável explicativa; c) o erro padrão da previ-
são é tanto maior quanto menor for o desvio entre a observação adicional da variá-
vel explicativa e a média das observações desta variável utilizadas na estimação
dos parâmetros; d) o erro padrão da previsão é tanto maior quanto maior for o nú-
mero de observações.
Indique quais são verdadeiras, e quais são falsas.
CAPÍTULO 3
O MODELO DE REGRESSÃO LINEAR
COM REGRESSORES PRÉ-DETERMINADOS

No capítulo 2 estudou-se o modelo de regressão linear clássico, onde impera a


hipótese da exogeneidade estrita dos regressores. Impondo a hipótese de que a variável
residual segue uma distribuição normal, foi possível obter distribuições exactas para os
estimadores MQ, e para as estatísticas-teste necessárias para a inferência estatística. Não
é possível continuar a dispor deste tipo de distribuições quando são violadas as hipóte-
ses do MRLCN, nomeadamente a exogeneidade estrita dos regressores (REX.2) e a nor-
malidade das variáveis residuais (REX.6).
No presente capítulo apresenta-se outro modelo de regressão linear (mantém-se
a hipótese da linearidade), onde os regressores deixam de ser estritamente exógenos. Es-
te simples facto faz com que as distribuições indispensáveis para inferência estatística
passem a ser assintóticas, o que torna inútil a hipótese REX.6 (as distribuições só são
válidas para grandes amostras, quer se mantenha ou não esta hipótese).
Antes de apresentar o MRL em causa, é vantajoso dedicar as duas primeiras sec-
ções ao estudo de alguns conceitos e resultados fundamentais sobre convergência esto-
cástica e sobre processos estocásticos.

3.1 - Convergência estocástica

Considere-se uma sucessão de variáveis aleatórias,


z1 , z 2 , K , z n , K ou {z n } ,

ou de vectores aleatórios,
z•1 , z•2 , K , z•n , K ou {z•n } ,

onde z•n (n = 1, 2, K) é um vector m × 1 , de elemento genérico zin (i = 1, 2, K , m) .

Modos de convergência estocástica

O comportamento limite destas sucessões pode ser analisado segundo vários


modos de convergência estocástica. Nesta subsecção vão estudar-se três modos de
convergência: em probabilidade; em distribuição; em média quadrática.
Capítulo 3 – MRL com Regressores Pré-Determinados 2

Definição 3.1 – Convergência em probabilidade


A sucessão de variáveis aleatórias {z n } converge em probabilidade para a constante c
se e só se, qualquer que seja ε > 0 ,
(3.1) lim P( | zn − c | < ε ) = 1 .
n → +∞

A constante c chama-se o limite em probabilidade da sucessão, e escreve-se


p
plim( zn ) = c ou z n → c .

A sucessão de vectores aleatórios {z•n } converge em probabilidade para o vec-


tor de constantes c se e só se cada elemento de {z•n } converge em probabilidade para o
elemento homólogo do vector c. Neste caso, tem-se
p
plim( z• n ) = c ou z•n → c .

Podem fazer-se os seguintes comentários:


a) Na definição de convergência em probabilidade pode usar-se, em vez de (3.1), a con-
dição
lim P( | zn − c | > ε ) = 0 .
n → +∞

b) É possível apresentar outra definição de convergência em probabilidade no caso vec-


torial. Como
 lim P( | z − c | < ε ) = 1
n → +∞ 1n 1

 lim P( | z2 n − c2 | < ε ) = 1
p

z• n → c ⇔ n → +∞
L
 lim P( | z − c | < ε ) = 1,
n → +∞ mn m

e notando que
( z• n − c)T ( z• n − c) = ( z1n − c1 ) 2 + ( z2 n − c2 ) 2 + L + ( zmn − cm ) 2 ,

facilmente se verifica que


p
z• n → c ⇔ lim P{( z• n − c)T ( z• n − c) < δ } = 1, ∀δ > 0 .
n → +∞

Para vectores aleatórios, a condição correspondente a (3.1) também se pode escrever


na forma
lim P( | z•n − c | < ε ) = 1 ,
n→+∞

onde | z•n − c | representa o módulo da diferença entre os vectores z•n e c (a raiz qua-
drada da distância euclideana). Esta definição adapta-se imediatamente às sucessões
de matrizes aleatórias, notando que uma matriz de tipo m × p pode ser encarada co-
mo um vector mp × 1 .
Capítulo 3 – MRL com Regressores Pré-Determinados 3

c) A convergência de sucessões de números reais é um caso particular da convergên-


cia em probabilidade de sucessões de variáveis aleatórias. De facto, se {z n } é uma
sucessão de números reais, o acontecimento, dado pela condição | zn − c | < ε , é certo
a partir de certa ordem. Então, P( | zn − c | < ε ) = 1 e plim( zn ) = c .

Vai enunciar-se a seguir uma propriedade muito importante da convergência em


probabilidade (teorema de Slutsky) que preserva este tipo convergência para quaisquer
transformações, desde que sejam contínuas.

Preservação da convergência em probabilidade (teorema de Slutsky)


Suponha-se que a função g : ℜ m → ℜ p é contínua em c, e não depende de n. Tem-se
(3.2) plim( z• n ) = c ⇒ plim{g ( z• n )} = g{plim( z• n )} = g (c) .

Os resultados seguintes são consequência imediata desta propriedade. Assim, se


existirem os respectivos limites em probabilidade, obtém-se:

Propriedades da convergência em probabilidade


a) plim(c) = c ;
b) plim ( z• n + w• n ) = plim( z• n ) + plim(w• n ) ;
c) plim (λ z• n ) = λ plim( z• n ) ;
d) plim ( zn wn ) = plim( zn ) plim(wn ) ;
e) Se wn ≠ 0 e plim(wn ) ≠ 0 então plim ( zn / wn ) = plim( zn )/plim(wn ) ;
f) plim ( Z n + Wn ) = plim(Z n ) + plim(Wn ) , onde Z n e Wn são matrizes aleatórias;
g) plim ( Z n Wn ) = plim(Z n ) plim(Wn ) , onde Z n e Wn são matrizes aleatórias;
h) plim ( Z n−1 ) = {plim(Z n )}−1 , onde Z n é uma matriz aleatória invertível.

A partir da definição 3.1 é possível definir convergência em probabilidade pa-


ra uma variável aleatória. Assim,
(3.3) plim( zn ) = z ⇔ plim ( zn − z ) = 0 .

Para o caso de vectores aleatórios, tem-se


plim( z• n ) = z ⇔ plim ( z• n − z ) = 0 ,

onde z é um vector aleatório m × 1 , de elemento genérico zi (i = 1, 2, K , m) .


A propriedade da preservação da convergência em probabilidade continua vá-
lida, bem como as propriedades a) a h) que daí decorrem. Além disso, é possível verifi-
car que:
− plim( zn ) = z ∧ plim( zn ) = w ⇒ P( z = w) = 1 ;
− plim( zn ) = z ⇒ plim( zn w) = z w , onde w é uma variável aleatória.
Capítulo 3 – MRL com Regressores Pré-Determinados 4

Dada a sucessão de variáveis aleatórias, {z n } (escalar), e supondo que existem


E ( zn ) e Var( zn ) , pode demonstrar-se que
(3.4) lim E ( zn ) = c e lim Var( z n ) = 0 ,
n→+∞ n→+∞

são condições suficientes de convergência em probabilidade [ver (3.13)].


Do mesmo modo, quando se considera {z•n } (sucessão de vectores aleatórios),
as respectivas condições suficientes são
(3.5) lim E ( z•n ) = c e lim Cov( z•n ) = O ,
n→+∞ n→+∞

desde que existam E ( z• n ) e Cov( z• n ) .


A seguir, apresenta-se a definição de convergência em distribuição.

Definição 3.2 – Convergência em distribuição


Considere-se a sucessão de variáveis aleatórias, {z n } , e a respectiva sucessão de fun-
ções de distribuição, {Fn } [ Fn ( x) = Pn ( zn ≤ x) ]. A sucessão {z n } converge em distri-
buição para a variável aleatória z, com função de distribuição F [ F ( x) = P( z ≤ x) ], se e
só se
(3.6) lim Fn ( x) = F ( x) ,
n→+∞

em todos os pontos de continuidade de F.


Nestas condições, escreve-se
d
zn → z ,

e diz-se que F é a distribuição limite de z n .

No caso de sucessões de vectores aleatórios {z•n } , tem-se uma definição seme-


lhante. Assim, se {Fn } é a respectiva sucessão de funções de distribuição, diz-se que
{z•n } converge em distribuição para o vector aleatório z, com função de distribuição F,
se e só se a condição (3.6) se verifica em todos os pontos de continuidade de F.
Não se pode definir a convergência em distribuição para sucessões de vectores
aleatórios, considerando os elementos homólogos de z•n e de z. De facto, afirmar que
cada elemento de z•n tende em distribuição para o elemento homólogo de z, não implica
que {z•n } convirja do mesmo modo para z.
Para indicar que {z n } tende em distribuição para z, pode escrever-se
d
zn → z ~ F ,
ou, simplesmente,
d
zn → F ,

quando a função de distribuição de z, F, é bem conhecida.


Quando, por exemplo, z ~ N ( µ , σ 2 ) , escreve-se
Capítulo 3 – MRL com Regressores Pré-Determinados 5

d d
zn → z ~ N ( µ , σ 2 ) ou zn → N ( µ , σ 2 ) ,

ou seja, a distribuição limite de zn é N ( µ , σ 2 ) .


O valor esperado e a variância de z (se existirem) designam-se, respectivamente,
por valor esperado limite e variância limite de z n . No caso vectorial, a matriz das
covariâncias de z (se existir) é a matriz das covariâncias limite de z•n .
Em muitos casos, a variável aleatória z é contínua, mesmo que as variáveis alea-
tórias z n sejam discretas. Tal acontece, por exemplo, com o teorema de De Moivre-La-
place, em que
xn − np
zn = ,
np (1 − p)

onde xn tem distribuição binomial com parâmetros n e p, e z é N (0,1) .


Um caso especial de convergência em distribuição é aquele em que z = c . Nes-
tas condições a distribuição limite é degenerada (toda a massa de probabilidade está
concentrada em c).
Tal como se fez para a convergência em probabilidade, é possível garantir a pre-
servação da convergência em distribuição.

Preservação da convergência em distribuição


Suponha-se que a função g : ℜ m → ℜ p é contínua no seu domínio, e não depende de n.
Tem-se
d d
(3.7) z •n → z ⇒ g ( z •n ) → g ( z ) .

Pode provar-se que a convergência em probabilidade implica a convergência


em distribuição,
p d
(3.8) zn → z ⇒ zn → z .

Obviamente que
p d
(3.9) zn → c ⇔ zn → c .

Tem-se:

Propriedades que relacionam a convergência em probabilidade com a convergên-


cia em distribuição
d p d
a) z•n → z ∧ w•n → c ⇒ ( z•n + w•n ) → z + c .
p d d
b) wn → c ≠ 0 ∧ z•n → z ⇒ ( wn z•n ) → c z .
p d d
c) w• n → 0 ∧ z• n → z ⇒ ( w•Tn z• n ) → 0 .
Capítulo 3 – MRL com Regressores Pré-Determinados 6

d p d
d) z•n → z ∧ An → A ⇒ ( An z•n ) → A z , onde An é matriz aleatória k × m e A matriz não
aleatória do mesmo tipo; em particular, deve considerar-se o caso em que An = A .
d
e) Se, nas condições de d), z ~ N ( m ) ( µ , V ) então ( An z• n ) → N ( k ) ( Aµ , AVAT ) .
d p d
f) z•n → z ∧ An → A ⇒ ( z•Tn An−1 z•n ) → z T A −1 z , se as matrizes An e A tiverem inversa.
d p d
g) z• n → z ~ N ( m ) (0, V ) ∧ Vn → V ⇒ ( z•TnVn−1 z• n ) → z TV −1 z ~ χ 2 (m) , se Vn tiver inversa;
em particular, deve considerar-se o caso em que Vn = V .

Diz-se que as sucessões { y•n } e {z•n } são assintoticamente equivalentes se e


só se têm a mesma distribuição limite:
 a
  d d

 y• n ~ z• n  ⇔  y• n → F ∧ z• n → F  .
   
Suponha-se que na propriedade a) se tem c = 0 . Fazendo y•n = z•n + w•n , conc-
lui-se imediatamente que { y•n } e {z•n } são assintoticamente equivalentes. Este resulta-
do [a propriedade a) com c = 0 ] é conhecido pela designação de lema da equivalência
assintótica.
A vantagem deste lema é a seguinte: suponha-se que é difícil obter a distribuição
limite de z•n ; no entanto, dispõe-se de uma sucessão { y•n } tal que a distribuição limite
de y•n é conhecida (ou é fácil de obter). Se se verificar que
plim ( y• n − z• n ) = 0 ,

pode concluir-se as distribuições limites de y•n e de z•n são iguais.


Suponha-se que
d p
z•n → z ∧ w•n → c .

Então, de acordo com a propriedade c), tem-se


d
( w•Tn z•n − c T z•n ) → 0 ou plim ( w•Tn z•n − cT z•n ) = 0 ,

ou seja,
a
w•Tn z•n ~ cT z•n .

Assim, verifica-se que substituir w•n pelo seu limite em probabilidade, não alte-
ra a distribuição limite de w•Tn z•n , desde que z•n convirja em distribuição para algum
vector aleatório z.
A seguir vai apresentar-se e demonstrar-se um teorema (conhecido pelo nome de
método delta), que permite obter distribuições limite que envolvem uma função (não li-
near) dos vectores de uma sucessão de vectores aleatórios.
Capítulo 3 – MRL com Regressores Pré-Determinados 7

Teorema 3.1 (método delta)


Considere-se uma sucessão de vectores aleatórios m × 1 , {z•n } a verificar
d
plim( z• n ) = θ e n ( z• n − θ ) → z .

Seja a função g : ℜ m → ℜ p , com primeiras derivadas contínuas, e represente-se por


∇ g (θ ) a matriz Jacobiana, de tipo p × m , calculada em θ . Então,
d
(3.10) n{g ( z• n ) − g (θ )} → ∇ g (θ ) z .

Em particular,
d
n ( z• n − θ ) → N ( m ) (0, V ) ⇒
(3.11) d
n{g ( z• n ) − g (θ )} → N ( p )  0, ∇g (θ ) V ∇g (θ )T  .
 

Dem.: De acordo com o teorema dos acréscimos finitos da análise diferencial, existe um
vector w•n entre z•n e θ a verificar
g ( z• n ) − g (θ ) = ∇ g ( w• n )( z• n − θ ) ,
ou
n{g ( z• n ) − g (θ )} = ∇ g ( w• n ) n ( z• n − θ ) .

Como w•n está entre z•n e θ e plim( z• n ) = θ , então também plim(w• n ) = θ . Co-
mo ∇ g é contínua, tem-se, devido a (3.2), plim{∇g ( w• n )} = ∇g (θ ) .
Atendendo a que
d
n ( z• n − θ ) → z ,

e à propriedade d) anterior, obtém-se


d
∇ g ( w• n ) n ( z• n − θ ) → ∇g (θ ) z ,

ficando assim demonstrado (3.10).


Para demonstrar (3.11) basta invocar a propriedade e) das relações entre a con-
vergência em probabilidade e a convergência em distribuição.
∇∇

Como vai ver-se, este teorema permite testar hipóteses não lineares, dada a dis-
tribuição limite de um estimador.
É altura de apresentar a definição de convergência em média quadrática.
Capítulo 3 – MRL com Regressores Pré-Determinados 8

Definição 3.3 – Convergência em média quadrática


A sucessão de variáveis aleatórias {z n } converge em média quadrática para a constan-
te c se e só se
(3.12) lim E{( z n − c) 2 } = 0 ,
n→+∞

supondo que existe E ( z n2 ) . Então, escreve-se


mq
zn → c .

A sucessão de vectores aleatórios {z•n } converge em média quadrática para o


vector de constantes c se e só se cada elemento de z•n converge em média quadrática
para o elemento homólogo do vector c. Neste caso, tem-se
mq
z•n → c .

É possível apresentar outra definição de convergência em média quadrática no


caso vectorial. Sabe-se que
mq
z• n → c ⇔ lim E{( z1n − c1 ) 2 } = 0 ∧ lim E{( z2 n − c2 ) 2 } = 0 ∧ K ∧ lim E{( zmn − cm ) 2 } = 0 .
n → +∞ n → +∞ n → +∞

Notando que
E{( z• n − c)T ( z• n − c)} = E{( z1n − c1 ) 2 } + E{( z2 n − c2 ) 2 } + L + E{( zmn − cm ) 2 } ,

conclui-se imediatamente que


mq
lim E{( z• n − c)T ( z• n − c)} = 0 ⇔ z• n → c .
n → +∞

Facilmente se verifica que a condição necessária e suficiente para a sucessão


{z n } convergir em média quadrática para c é
(3.13) lim E ( z n ) = c e lim Var( z n ) = 0 .
n→+∞ n→+∞

Com efeito, basta notar que

E{( zn − c) 2 } = E {zn − E ( zn ) + E ( zn ) − c}2 


 
= E {zn − E ( zn )}2 + {E ( zn ) − c}2 + 2{zn − E ( zn )}{E ( zn ) − c}
 
= Var ( zn ) + {E ( zn ) − c} .
2

No caso de uma sucessão de vectores aleatórios, a condição necessária e sufi-


ciente escreve-se da seguinte maneira:
(3.14) lim E ( z•n ) = c e lim Cov( z•n ) = O .
n→+∞ n→+∞

É possível provar que a convergência em média quadrática implica a conver-


gência em probabilidade,
Capítulo 3 – MRL com Regressores Pré-Determinados 9

mq p
(3.15) zn → c ⇒ zn → c .

Verifica-se, assim, que as condições (3.13) são apenas condições suficientes de


convergência em probabilidade.
A definição 3.3 pode ser estendida à convergência em média quadrática para
uma variável aleatória. Assim, supondo que existem E ( z n2 ) e E ( z 2 ) ,
mq mq
(3.16) z n → z ⇔ ( z n − z ) → 0 ⇔ lim E{( z n − z ) 2 } = 0 .
n→+∞

Então,
mq p
(3.17) zn → z ⇒ zn → z .

Apresentam-se a seguir três propriedades muito importantes sobre a conver-


gência em média quadrática para uma variável aleatória:
mq
a) z n → z ⇔ lim E{( z m − z n ) 2 } = 0 .
m→+∞
n→+∞
mq
b) zn → z ⇒ lim E ( z n ) = E ( z ) .
n→+∞
mq mq
c) wn → w ∧ z n → z ⇒ lim E ( wn z n ) = E ( w z ) .
n→+∞

No caso de vectores aleatórios, tem-se


mq mq
z• n → z ⇔ ( z• n − z ) → 0 .

As relações de implicação entre os três modos de convergência estocástica estão


resumidas na figura 3.1.

Convergência em ⇒ Convergência ⇒ Convergência


média quadrática em probabilidade em distribuição

Fig. 3.1 - Modos de convergência estocástica.

Estimadores consistentes e assintoticamente normais

Seja ( z1 , K , zn ) uma amostra aleatória com função densidade f ( z1 , K , zn | θ ) ,


onde θ é o vector m × 1 dos respectivos parâmetros desconhecidos. Suponha-se que θˆ•n
é um estimador de θ , baseado na amostra de dimensão n. A sucessão {θˆ•n } é exemplo
de uma sucessão de vectores aleatórios, pelo que os conceitos estudados na subsecção
anterior são aplicáveis a estas sucessões.
Quando a dimensão da amostra aumenta deve exigir-se de um bom estimador
precisão cada vez maior, ou seja, uma probabilidade cada vez mais elevada de pertencer
a uma vizinhança do verdadeiro valor do parâmetro. Em termos formais, se θˆ•n é um es-
Capítulo 3 – MRL com Regressores Pré-Determinados 10

timador de θ ∈ Θ ⊂ ℜ m [ Θ é o espaço-parâmetro de θ ], obtido a partir de uma amostra


de dimensão n, deve ter-se
P ( | θˆ•n − θ | < ε ) < P ( |θˆ•n′ − θ | < ε ) ,

qualquer que seja ε > 0 e n′ > n . Esta condição sugere que θˆ•n deve tender em probabi-
lidade para θ .

Definição 3.4 – Consistência


O estimador θˆ•n é consistente para θ se e só se
(3.18) plim(θˆ• n ) = θ , ∀θ ∈ Θ .

Como não se conhece o verdadeiro valor de θ , a condição (3.18) deve verificar-


-se para qualquer valor de θ no espaço-parâmetro.
O enviesamento assintótico de θˆ•n é definido por
Env a (θˆ• n ) = plim(θˆ• n ) − θ .

Assim, estimador consistente tem enviesamento assintótico nulo (o estimador é


assintoticamente não enviesado).
Um estimador consistente, θˆ•n , tem evidentemente distribuição limite degene-
rada, uma vez que os seus limites em distribuição e em probabilidade são iguais a θ . No
entanto, em muitas situações, é possível encontrar uma transformação de θˆ•n que te-
nha uma distribuição limite adequada.

Definição 3.5 – Estimador assintoticamente normal


Seja θˆ•n um estimador de θ . Quando se tem
d
(3.19) n (θˆ• n − θ ) → N ( m ) (0, V ) ,

diz-se que o estimador θˆ•n é assintoticamente normal ou n -assintoticamente normal.

A matriz das covariâncias limite do vector aleatório n (θˆ•n − θ ) é V, que se de-


signa por matriz das covariâncias assintóticas de θˆ•n . Escreve-se
Cov a (θˆ• n ) = V .

Como o valor esperado limite de n (θˆ•n − θ ) é 0 , diz-se que o valor esperado


assintótico de θˆ•n é θ ,
Ea (θˆ•n ) = θ .

Alguns autores preferem utilizar a matriz (1 / n) V para matriz das covariâncias


assintóticas de θˆ•n (que converge para zero), o que tem a ver com a circunstância de que

Cov  n (θˆ• n − θ )  = n Cov(θˆ• n ) .


 
Capítulo 3 – MRL com Regressores Pré-Determinados 11

No entanto, vai adoptar-se a convenção de que a matriz das covariâncias assintó-


ticas de θˆ•n coincide com a matriz das covariâncias limite de n (θˆ•n − θ ) .
Sem dificuldade se prova que estimador assintoticamente normal é comsis-
tente, ou seja,
 d   
 n (θˆ• n − θ ) → N (0, V ) ⇒ plim(θˆ• n ) = θ  .
( m)

   

Com efeito, como


1  1 
θˆ• n − θ = n (θˆ• n − θ ) e plim  = 0,
n  n
e devido à propriedade c) que relaciona a convergência em probabilidade com a conver-
gência em distribuição, tem-se
 d   
θˆ• n → θ  ⇔ plim(θˆ• n ) = θ  .
   

Vão apresentar-se dois resultados gerais muito usados nos testes de hipóteses
em Econometria:
1) Suponha-se que θˆ•n é um estimador assintoticamente normal de θ , e que R é uma
matriz p × m tal que p ≤ m e r ( R) = p . Então,
d
n R (θˆ• n − θ ) → N ( p ) (0, R V RT ) ,

e
d
n{R (θˆ• n − θ )}T ( R V RT ) −1{R (θˆ• n − θ )} → χ 2 ( p ) .

Se plim (Vˆn ) = V , então


d
n{R (θˆ• n − θ )}T ( R Vˆn RT ) −1{R (θˆ• n − θ )} → χ 2 ( p ) .

Para testar a hipótese nula H 0 : Rθ = δ contra H1 : Rθ ≠ δ , onde δ é um vector co-


nhecido p × 1 , a respectiva estatística-teste tem distribuição limite do qui-quadrado
com p graus de liberdade. Assim,
d
(3.20) ( R θˆ• n − δ )T {R (Vˆn / n) RT }−1 ( R θˆ• n − δ ) → χ 2 ( p) .

2) Suponha-se que θˆ•n é um estimador assintoticamente normal de θ . Seja a função


g : ℜ m → ℜ p , com primeiras derivadas contínuas, e represente-se por ∇ g (θ ) a ma-
triz Jacobiana, de tipo p × m , calculada em θ . O método delta permite concluir que
d
n{g (θˆ• n ) − g (θ )} → N ( p ){0, ∇g (θ ) V ∇g (θ )T } ,

e
d
n{g (θˆ• n ) − g (θ )}T {∇g (θ ) V ∇g (θ )T }−1{g (θˆ• n ) − g (θ )} → χ 2 ( p) .
Capítulo 3 – MRL com Regressores Pré-Determinados 12

Se plim (Vˆn ) = V , e como plim {∇g (θˆ• n )} = ∇g (θ ) , então


d
n{g (θˆ• n ) − g (θ )}T {∇g (θˆ• n ) Vˆn ∇g (θˆ• n )T }−1{g (θˆ• n ) − g (θ )} → χ 2 ( p ) .

Para testar a hipótese nula H 0 : g (θ ) = 0 contra H1 : g (θ ) ≠ 0 , a respectiva estatística-


teste tem distribuição limite do qui-quadrado com p graus de liberdade.
Assim,
d
(3.21) g (θˆ• n )T {∇g (θˆ• n ) (Vˆn / n)∇g (θˆ• n )T }−1 g (θˆ• n ) → χ 2 ( p ) .

Leis dos grandes números

A experiência acumulada ensina que: os acontecimentos com probabilidade mui-


to grande (próxima de 1) realizam-se quase sempre; os acontecimentos com probabili-
dade muito pequena (próxima de 0) raramente ocorrem. Esta circunstância desempenha
um papel fundamental em todas as aplicações práticas que envolvem incerteza, uma vez
que este facto permite considerar como praticamente impossíveis os acontecimentos
com probabilidade muito próxima de 0, e como praticamente certos, os acontecimen-
tos com probabilidade muito próxima de 1. Contudo, não pode responder-se sem ambi-
guidade à seguinte pergunta: qual a probabilidade que permite considerar um aconteci-
mento como praticamente impossível (praticamente certo)?
Como se sabe da teoria da probabilidade, os acontecimentos com probabilidade
próxima de 1 (ou de 0) são de grande importância. De facto, um dos principais proble-
mas daquela teoria é o estabelecimento de regularidades envolvendo probabilidades pró-
ximas de 1; nesta matéria, um papel particular deve ser desempenhado por leis que re-
sultam da sobreposição de um grande número de factores aleatórios independentes ou
com fraco grau de dependência, uns em relação aos outros. A mais importante destas
leis é a lei dos grandes números.
Considere-se um resultado ou efeito de intensidade aleatória que é calculado a
partir das intensidades de um grande número, n, de factores aleatórios, cada um exer-
cendo reduzida influência no resultado, quando considerado individualmente. A intensi-
dade do efeito representa-se por uma variável aleatória yn ; as intensidades aleatórias
dos n factores representam-se por n variáveis aleatórias, z1 , z2 , K , zn ; o facto de a inten-
sidade do efeito ser calculada a partir das intensidades dos n factores, leva a escrever
yn = ϕ ( z1 , z2 , K , zn ) .
A lei dos grandes números deve afirmar a existência de um número cn que,
quando n for suficientemente grande, possa ser tomado como valor aproximado de yn ,
de maneira a ter-se uma certeza prática de que o erro cometido não excede determinada
magnitude. Esta concepção geral e vaga da lei dos grandes números vai ser seguidamen-
te apresentada de uma forma mais precisa, construindo a sucessão das intensidades dos
efeitos a partir das intensidades dos factores.
Considere-se a sucessão de variáveis aleatórias
z1 , z 2 ,K, z n ,K ,
Capítulo 3 – MRL com Regressores Pré-Determinados 13

a partir da qual se constrói outra sucessão,


y1 = ϕ1 ( z1 ), y2 = ϕ 2 ( z1 , z 2 ), K , yn = ϕ n ( z1 , z 2 , K , z n ), K .

Se existem constantes
c1 , c2 , K , cn , K ,

tais que a sucessão { yn − cn } converge em probabilidade para zero, diz-se que a suces-
são {z n } obedece à lei dos grandes números (LGN). É esta convergência estocástica
que, como vai ver-se, dá uma certeza prática de que o valor de yn não se afasta signi-
ficativamente de cn , desde que se considere n suficientemente grande. Assim, tem-se
plim ( yn − cn ) = 0 ⇔ lim P ( | yn − cn | < ε ) = 1 .
n→+∞

Normalmente, as funções ϕ n consideradas são as médias aritméticas das variá-


veis z1 ,K, z n ,
1 n
yn = zn = ∑i=1 zi ,
n
e as constantes cn são os respectivos valores esperados,
1 n
cn = E ( z n ) = ∑ E ( zi ) ,
n i =1
tendo-se, assim, uma concepção mais restrita da lei dos grandes números.
A definição adoptada é, então, a seguinte:

Definição 3.6 – Lei dos grandes números


A sucessão de variáveis aleatórias {z n } obedece à lei dos grandes números se e só se a
sucessão {z n − E ( z n )} converge em probabilidade para zero,
(3.22) plim {zn − E ( zn )} = 0 .

Esta concepção mais restrita é, mesmo assim, suficientemente geral para abran-
ger, como casos particulares, as várias leis clássicas dos grandes números (Bernoulli,
Poisson, etc.).
Vão apresentar-se a seguir alguns teoremas sobre lei dos grandes números que
vão ser úteis para o estudo do modelo de regressão linear considerado neste capítulo.
Estes teoremas estabelecem condições suficientes relativamente a três aspectos
do comportamento da sucessão de variáveis aleatórias:
1) Dependência ou “memória”: supõe-se que as variáveis aleatórias zn (n = 1,2, K)
são independentes? Caso contrário, a dependência está sujeita a algumas comdições?
2) Heterogeneidade: as variáveis aleatórias zn são identicamente distribuídas (homo-
geneidade)? Caso contrário (heterogeneidade), que condições se devem impor?
3) Momentos: que hipóteses se estabelecem sobre os momentos das variáveis aleatórias
zn ?

Assim, os teoremas sobre a lei dos grandes números têm o seguinte formato:
Capítulo 3 – MRL com Regressores Pré-Determinados 14

Teoremas sobre a lei dos grandes números (formato)


Dadas certas restrições sobre a dependência, a heterogeneidade e os momentos da su-
cessão de variáveis aleatórias {z n } , verifica-se que plim {zn − E ( zn )} = 0 .

O primeiro teorema (Khinchine) supõe que a sucessão de variáveis aleatórias é


iid, e que existe o valor esperado.

Teorema 3.2 (Khinchine)


Considere-se a sucessão de variáveis aleatórias iid, {z n } . Se E ( z n ) = µ , então a suces-
são {z n } obedece à lei dos grandes números,
plim {zn − E ( zn )} = plim ( zn − µ ) = 0 .

Chebychev, com base na desigualdade que tem o seu nome, provou uma con-
dição suficiente para que uma sucessão de variáveis aleatórias independentes (mas não
necessariamente identicamente distribuídas), obedeça à lei dos grandes números:

Teorema 3.3 (Chebychev)


Considere-se a sucessão de variáveis aleatórias independentes, {z n } . Se E ( z n ) = µ n e
Var( z n ) ≤ k (as variâncias são limitadas por uma certa constante), então a sucessão
{z n } obedece à lei dos grandes números,
 1 n 
plim {zn − E ( zn )} = plim  zn − ∑i =1 µi  = 0 .
 n 

Posteriormente, Markov notou que um raciocínio semelhante permite obter um


resultado ainda mais geral (em que as variáveis aleatórias da sucessão podem ser depen-
dentes, e pode existir heterogeneidade).

Teorema 3.4 (Markov)


Considere-se a sucessão de variáveis aleatórias, {z n } . Se E ( z n ) = µ n e
2
1  n 
lim {zn − E ( zn )} = lim 2  ∑i =1 zi − ∑i =1 µi  = 0 ,
2 n

n → +∞ n
n → +∞
 
então a sucessão {z n } obedece à lei dos grandes números,
 1 n 
plim {zn − E ( zn )} = plim  zn − ∑i =1 µi  = 0 .
 n 

Na secção seguinte vai apresentar-se outro teorema sobre a lei dos grandes nú-
meros (teorema da ergodicidade), em que se supõe dependência (sob certas condições) e
homogeneidade.
Capítulo 3 – MRL com Regressores Pré-Determinados 15

Estes teoremas sobre as leis dos grandes números podem ser enunciados para su-
cessões de vectores aleatórios, {z•n } , considerando a convergência em probabilidade de
cada elemento de z•n .

Teoremas do limite central

Os teoremas do limite central (TLC) referem-se às distribuições limite de


zn − E ( zn )
,
Var ( zn )
e obedecem ao seguinte formato:

Teoremas do limite central (formato)


Dadas certas restrições sobre a dependência, a heterogeneidade e os momentos da su-
cessão de variáveis aleatórias {z n } , verifica-se que
zn − E ( zn ) d
→ N (0,1) .
Var ( z n )

O único TLC que vai ser enunciado é o conhecido teorema de Lindeberg-Levy.

Teorema 3.5 (Lindeberg-Levy)


Seja {z n } uma sucessão de variáveis aleatórias iid, tal que E ( z n ) = µ e Var ( zn ) = σ 2 .
Como E ( zn ) = µ e Var ( zn ) = σ 2 / n , tem-se
n{zn − µ} 1  zi − µ  d

n
(3.23) =   → N (0,1) .
σ n i =1
 σ 

Este teorema pode ser enunciado para sucessões de vectores aleatórios.

Teorema 3.6 [Lindeberg-Levy (versão vectorial)]


Seja {z•n } uma sucessão de vectores aleatórios (com m componentes) iid.
Se E ( z•n ) = µ e Cov( z• n ) = V então
1 d
∑i =1 ( z•i − µ ) → N ( m) (0,V ) .
n
(3.24) n{z• n − E ( z• n )} =
n

O teorema de Lindeberg-Levy e o método delta podem combinar-se para obter a


distribuição limite relativa a transformações de zn , g ( zn ) . Assim, considere-se, nas
condições daquele teorema, que
d
n ( zn − µ ) → N (0, σ 2 ) .
Capítulo 3 – MRL com Regressores Pré-Determinados 16

Por exemplo, se g ( zn ) = 1 / zn , de acordo com o método delta, obtém-se

 1 1 d  σ 
2
n  −  → N  0, 4  ,

 zn µ   µ 
uma vez que g ( µ ) = 1 / µ e g ′( µ ) = −1 / µ 2 .
Na secção seguinte apresentar-se outro TLC, de grande utilidade para o estudo
do modelo de regressão linear.

3.2 - Alguns conceitos fundamentais sobre processos estocásticos

Nesta secção vão apresentar-se alguns conceitos e resultados básicos sobre pro-
cessos estocásticos (recorde-se que o termo processo estocástico é apenas outro nome
que se pode dar a uma sucessão de variáveis aleatórias). É particularmente importante o
caso em que o índice destas variáveis é interpretado como sendo o tempo, e os termos
da sucessão referem-se a sucessivas datas (períodos ou instantes); diz-se, então, que o
processo estocástico, z1 , z 2 , K , zt , K ou {zt } , é uma série temporal ou sucessão crono-
lógica [note-se que uma série temporal é uma sucessão, e não deve confundir-se com o
conceito matemático de série].
Uma sucessão de valores assumidos pelas variáveis aleatórias zt é uma realiza-
ção da série temporal. Frequentemente usa-se o termo série temporal para designar o
processo estocástico ou qualquer das suas realizações.
Muitas vezes, o processo estocástico a estudar é uma sucessão de vectores alea-
tórios, e não uma sucessão de variáveis aleatórias (escalares). Neste caso, usa-se a no-
tação {z•t } ou z•1 , z•2 , K , z•t , K , onde z•t é um vector aleatório m × 1 . Diz-se, então,
que se tem um processo estocástico vectorial, que não é mais do que um sistema de m
processos estocásticos escalares.
Considerando o processo estocástico {z•t } , admita-se que existe o valor espe-
rado de cada z•t , µ •t = E ( z•t ) , que, em geral, varia com t (cada termo da sucessão tem
o seu valor esperado).
A matriz das autocovariâncias de ordem s na data t é dada por
Γts = Cov( z•t , z•,t − s ) = E{( z•t − µ •t )( z•,t −s − µ •,t − s )T } ( s = 0,1, 2, K) .

Utiliza-se o prefixo “auto” para salientar que os dois vectores aleatórios, z•t e
z•,t −s , pertencem ao mesmo processo estocástico.
Quando o processo estocástico é escalar, {zt } , a autocovariância de ordem s
na data t é
γ ts = Cov( zt , zt −s ) = E{( zt − µ t )( zt −s − µ t −s )} ( s = 0,1, 2, K) .

Estacionaridade

Quando se considera um processo estocástico, {z•t } , a função de distribuição,


F ( z•t ;θ•t ) , depende de t, bem como o vector dos parâmetros, θ•t , que caracteriza a dis-
Capítulo 3 – MRL com Regressores Pré-Determinados 17

tribuição. Assim, o processo estocástico é, em geral, heterogéneo. Nestas circunstân-


cias, a modelação do fenómeno em estudo pode apresentar dificuldades incontornáveis,
porque, geralmente, só se dispõe de uma observação para cada t. Assim, na prática, teria
que se “estimar” θ•t apenas com uma observação, o que é impossível. É necessário im-
por restrições à heterogeneidade do processo estocástico.
Neste sentido, vão definir-se classes importantes de processos estocásticos, que
gozam de considerável homogeneidade, e que podem ser utilizados para modelar fenó-
menos que “convergem para um estado de equilíbrio de longo prazo” (steady-state equi-
librium).

Definição 3.7 – Estacionaridade (em sentido restrito)


Considere-se o processo estocástico {z•t } , onde z•t é um vector aleatório m × 1 . O pro-
cesso {z•t } é estacionário em sentido restrito ou fortemente estacionário se e só se, para
qualquer conjunto finito de p índices, {t1 , t 2 , K , t p } , e qualquer que seja r, são iguais as
distribuições conjuntas de
z•t1 , z•t2 , K , z•t p e z•,t1 + r , z•,t2 + r , K , z•,t p + r ,
ou seja,
F ( z•t1 , z•t 2 , K , z•t p ) = F ( z•t1 + r , z•t 2 + r , K , z•t p + r ) .

A definição anterior significa que o comportamento probabilístico de conjuntos


de vectores aleatórios que compõem o processo estocástico depende apenas das suas po-
sições relativas na sucessão (dos desfasamentos entre eles), e não da posição absoluta.
Por exemplo, a distribuição conjunta de z•7 , z•11 , z•14 é a mesma que a distribuição con-
junta de z•13 , z•17 , z•20 ( r = 6 ) ou de z•3 , z•7 , z•10 ( r = −4 ).
Em particular, o mesmo se passa com os momentos (se existirem) destas distri-
buições conjuntas. Por exemplo (ver definição 3.8):
− O valor esperado dos z•t é constante (não varia com t): E ( z•t ) = µ ;
− A matriz das covariâncias dos z•t é constante (não varia com t): Cov( z•t ) = Γ0 ;
− A matriz das autocovariâncias de ordem s na data t, não varia com t, mas varia com
s: Cov( z•t , z•,t − s ) = Γs .

Também se pode concluir que, se {z•t } é estacionário então {h( z•t )} também é
estacionário, onde h é uma função real (escalar ou vectorial). Por exemplo, {z•t z•Tt } ou
{z•Tt z•t } são estacionários, se {z•t } o for.
Um exemplo típico de processo estocástico estacionário é uma sucessão de va-
riáveis aleatórias iid, {ε t } . Outro exemplo é o processo z1 , z1 , K (as variáveis aleató-
rias da sucessão são todas iguais). Note-se que, no primeiro caso, tem-se uma situação
de ausência de autocorrelação; no segundo, a autocorrelação é máxima.
Evidentemente, se o processo estocástico {z•t } é estacionário, os processos for-
mados pelos elementos homólogos dos vectores z•t são também estacionários. Contudo,
a recíproca não é verdadeira. Com efeito, suponha-se que {ε t } é um processo iid e que
Capítulo 3 – MRL com Regressores Pré-Determinados 18

se constrói um processo bidimensional, {z•t } , tal que z1t = ε t e z 2t = ε1 . Embora os


processos {z1t } e {z 2t } sejam estacionários, o mesmo não se verifica com {z•t } . De fac-
to, por exemplo, as distribuições de
ε  ε 
z•1 =  1  e z•2 =  2 
ε 1  ε1 
são diferentes.
Muitas séries temporais {zt } de variáveis económicas (sobretudo, macroeconó-
micas) são processos não estacionários porque apresentam uma tendência temporal.
Contudo, em muitos casos, é possível transformá-los em processos estacionários, sub-
traindo a cada zt uma função de t (tempo). Nestas condições, diz-se que o processo
{zt } é estacionário em tendência. Pode, também, acontecer que {zt } não seja estacio-
nário, mas o processo das diferenças, {zt − zt −1} , o seja. Neste caso, o processo {zt } diz-
se estacionário em diferenças (este tópico é retomado em capítulo posterior).
A estacionaridade em sentido restrito é, muitas vezes, de difícil verificação. No
entanto, é possível apresentar outro conceito de estacionaridade. No caso de existirem
os momentos de segunda ordem (variâncias e covariâncias), este conceito é mais fraco
(mais amplo) que o anterior. No entanto, embora seja menos exigente, pode utilizar-se
em muitas situações de interesse.

Definição 3.8 – Estacionaridade em covariância


Considere-se o processo estocástico {z•t } , onde z•t é um vector aleatório m × 1 . O
processo {z•t } é estacionário em covariância, estacionário em sentido amplo ou fraca-
mente estacionário se e só se:
− o valor esperado dos z•t é constante (não varia com t), E ( z•t ) = µ ;
− a matriz das covariâncias entre z•t e z•,t − s existe, não varia com t, e varia com s,
Cov( z•t , z•,t − s ) = Γs ( s = 0,1, 2, K) .

Facilmente se conclui que, se existirem os momentos de 2.ª ordem, a estaciona-


ridade em sentido restrito implica a estacionaridade em covariância, mas a recíproca não
é verdadeira.
Quando o processo é estacionário em covariância, a matriz Γs chama-se matriz
das autocovariâncias de ordem s, que, como se sabe, não depende de t. Utiliza-se o
prefixo “auto” para salientar que os dois vectores aleatórios, z•t e z•,t − s pertencem ao
mesmo processo estocástico.
Fazendo Γ− s = Cov( z•t , z•,t + s ) , e notando que
Cov( z•t , z•,t − s ) = Cov( z•,t + s , z•t ) = {Cov ( z•t , z•,t + s )}T ,

verifica-se imediatamente que Γs = Γ−Ts . A matriz das autocovariâncias de ordem 0, Γ0 ,


é a matriz das covariâncias de qualquer z•t : Γ0 = Cov( z•t ) .
Quando se tem um processo estocástico {zt } , as autocovariâncias são escalares,
Capítulo 3 – MRL com Regressores Pré-Determinados 19

γ s = Cov( zt , zt −s ) ( s = 0,1, 2, K) ,
e facilmente se verifica que γ 0 = Var( zt ) , e que γ s = γ −s .
O processo estocástico iid, {ε t } , e o processo z1 , z1 , K , atrás referidos, são dois
exemplos de estacionaridade fraca (em covariância), se existirem as respectivas variân-
cias. No primeiro caso, tem-se γ 0 = Var(ε t ) e γ s = 0 para s = 1, 2, K ; no segundo caso,
γ s = Var( z1 ) para s = 0,1, 2, K
O coeficiente de autocorrelação de ordem s é dado por
γ s Cov( zt , zt −s )
ρs = = ( s = 0,1, 2, K) .
γ0 Var ( zt )

Note-se que ρ 0 = 1 e ρ s = ρ − s . Chama-se correlograma ao gráfico onde se represen-


tam os ρ s em função de s.
Uma classe muito importante de processos estacionários em covariância é a dos
ruídos brancos.

Definição 3.9 – Ruído branco


Considere-se o processo estocástico {ε •t } , onde ε •t é um vector aleatório m × 1 . O pro-
cesso {ε •t } é um ruído branco se e só se:
− E (ε •t ) = 0 ;
− Cov(ε •t ) = Γε (não varia com t);
− Cov(ε •t , ε •,t −s ) = O para s ≠ 0 .

Desta definição facilmente se conclui que um ruído branco é um processo esta-


cionário em covariância. No caso particular em que o ruído branco é uma sucessão de
variáveis aleatórias, os valores esperados são nulos, as variâncias são constantes e as co-
variâncias são nulas.
Um processo iid com valor esperado nulo, em que existem os segundos momen-
tos, é um caso especial de ruído branco, habitualmente chamado ruído branco inde-
pendente. Assim, enquanto um ruído branco, em geral, requer a ausência de auto-
correlação, aquele exige a independência das variáveis aleatórias. No anexo 3A apre-
senta-se um exemplo de um ruído branco que não é independente.
Podem referir-se outros exemplos de processos estocásticos estacionários em co-
variância, que pertencem à família dos processos ARMA. Embora o seu estudo mais
completo seja feito noutro capítulo, vão apresentar-se dois casos particulares:
1) Os processos auto-regressivos de 1.ª ordem.
O processo estocástico {zt } é auto-regressivo de 1.ª ordem se e só se
(3.25) zt = α + ϕ zt −1 + ε t ,

onde {ε t } é um ruído branco. Nestas condições, é habitual escrever, zt ~ AR (1) .


Supondo, para simplificar, que α = 0 , e notando que, zt −1 = ϕ zt −2 + ε t −1 , tem-se
zt = ϕ (ϕ zt −2 + ε t −1 ) + ε t = ϕ 2 zt −2 + ε t + ϕ ε t −1 .
Capítulo 3 – MRL com Regressores Pré-Determinados 20

Como zt −2 = ϕ zt −3 + ε t −2 , vem
zt = ϕ 2 (ϕ zt −3 + ε t −2 ) + ε t + ϕ ε t −1 = ϕ 3 zt −3 + ε t + ϕ ε t −1 + ϕ 2ε t −2 .

Procedendo sucessivamente deste modo, obtém-se


zt = ϕ s zt − s + ε t + ϕ ε t −1 + ϕ 2ε t − 2 + L + ϕ s −1ε t − s +1 .

Fazendo s → +∞ , é fácil verificar que a série obtida converge se e só se | ϕ | < 1 .


Neste caso, tem-se
zt = ε t + ϕ ε t −1 + ϕ 2ε t −2 + L ,

donde se conclui imediatamente que E ( zt ) = 0 .


Facilmente se obtém
σ ε2
Var ( zt ) = σ z2 = ,
1−ϕ2
onde σ ε2 = Var (ε t ) . Com efeito, basta considerar a série atrás obtida, e notar que
{ε t } é um ruído branco. Obtém-se
σ ε2
Var ( zt ) = σ ε2 + ϕ 2 σ ε2 + ϕ 4 σ ε2 + L = σ ε2 (1 + ϕ 2 + ϕ 4 + L) = .
1−ϕ 2
De forma semelhante pode calcular-se
ϕs
Cov( zt , zt − s ) = γ s = σ z2 ϕ s = σ ε2 ; ρ s = ϕ s ( s = 0,1, 2, K) .
1−ϕ 2
Pode, então, concluir-se o seguinte:
− O processo AR(1), zt = ϕ zt −1 + ε t , é estacionário em covariância se e só se
| ϕ | < 1.
2) Os processos de médias móveis de 1.ª ordem.
Diz-se que {zt } é um processo de médias móveis de 1.ª ordem se e só se
(3.26) zt = α + ε t + θ ε t −1 ,

onde {ε t } é um ruído branco. Escreve-se então, zt ~ MA(1) [MA é a sigla para mo-
ving average].
Admitindo, para simplificar, que α = 0 , tem E ( zt ) = 0 , e facilmente se conclui que
Var ( zt ) = σ z2 = σ ε2 (1 + θ 2 ) ,

Cov( zt , zt −1 ) = γ 1 = σ ε2θ , Cov( zt , zt − s ) = γ s = 0 ( s = 2, 3,K) ,


θ
ρ1 = , ρ s = 0 ( s = 2, 3,K) .
1+θ 2
Pode, então, concluir-se o seguinte:
− O processo MA(1), zt = ε t + θ ε t −1 , é sempre estacionário em covariância.
Capítulo 3 – MRL com Regressores Pré-Determinados 21

Ergodicidade

A estacionaridade é um conceito que tem a ver com distribuições conjuntas de


variáveis aleatórias de um processo estocástico (ou alguns aspectos destas distribui-
ções), quando se fazem translações no tempo. Outro ponto de vista, diz respeito à de-
pendência entre variáveis aleatórias do processo, sobretudo quando estão suficiente-
mente afastadas no tempo. No caso típico de uma série económica temporal, encarada
como uma realização particular do processo estocástico {zt } , é de esperar que a depen-
dência entre zt e zt + s tenda a enfraquecer à medida que s cresce. Por exemplo, a depen-
dência entre o PIB de 1998 e o PIB de 1999 é maior do que a dependência entre o PIB
de 1999 e o PIB de 1910. Assim, para a modelação de certos fenómenos económicos in-
troduzem-se restrições sobre a dependência ou memória dos processos estocásticos.
Em termos vagos, diz-se que o processo estocástico estacionário, {zt } , é fraca-
mente dependente se zt e zt + s são “quase independentes”, para s “suficientemente”
grande (duas variáveis aleatórias “suficientemente” afastadas são “quase” independen-
tes). Pode apresentar-se uma noção semelhante para os processos estocásticos não esta-
cionários, onde se supõe que a “quase” independência não depende da data inicial t.
Esta descrição intuitiva da noção de dependência fraca pode ser esmiuçada para
o caso da estacionaridade em covariância. Neste caso, o processo é fracamente depen-
dente se a correlação entre zt e zt + s tende para 0 quando s → +∞ (quanto mais afasta-
das estiverem as variáveis aleatórias, mais “perto” de 0 está a respectiva correlação), e
se esta convergência é “suficientemente” rápida.
Quando se verifica a condição
lim Corr ( zt , zt + s ) = 0 ,
s→+∞

diz-se que o processo estacionário em covariância é assintoticamente não correlacio-


nado. Intuitivamente, é assim que usualmente se descreve a ideia de dependência fraca.
Tecnicamente, é necessário ainda considerar que Corr ( zt , zt + s ) converge para zero de
modo “suficientemente” rápido.
A descrição feita de dependência fraca é, como se referiu, necessariamente vaga,
uma vez que não se pode apresentar uma definição formal que abranja todos os casos
pertinentes. Existem muitos modos de caracterizar a ideia de dependência fraca, que são
outras tantas maneiras de a definir.
Uma forma específica de dependência fraca é dada por uma propriedade muito
importante dos processos estocásticos, a ergodicidade. A definição rigorosa desta pro-
priedade está fora do âmbito deste livro. Para os propósitos do estudo que se vai efec-
tuar do modelo de regressão linear, basta considerar a noção intuitiva de processo fraca-
mente dependente, identificando-a com a de processo estacionário e ergódico.
Quando um processo é estacionário e ergódico, diz-se que verifica a propriedade
da estacionaridade ergódica. Esta propriedade é essencial para o estudo do modelo de
regressão linear que se vai abordar neste capítulo, sobretudo no que se refere às proprie-
dades assintóticas dos estimadores, e respectivas distribuições limite.
O resultado fundamental para este efeito é o seguinte:
Capítulo 3 – MRL com Regressores Pré-Determinados 22

Teorema 3.7 (da ergodicidade)


Considere-se um processo estocástico {z•t } estacionário e ergódico. Se E ( z•t ) = µ , en-
tão o processo obedece à lei dos grandes números,
p
1 n p
z• n − µ → 0 ou z• n = ∑
n t =1
z• t → µ.

Este teorema sobre a lei dos grandes números é uma generalização do teorema
de Kinchine (teorema 3.2). De facto, o teorema da ergodicidade permite a existência de
dependência entre os termos da sucessão, embora ela desapareça a longo prazo.
Também se pode verificar que se {z•t } é estacionário e ergódico, o mesmo acon-
tece com {h( z•t )} , onde h é uma função real (escalar ou vectorial). Por exemplo, os
processos {z•t z•Tt } ou {z•Tt z•t } são estacionários e ergódicos, se {z•t } o for.
Este resultado tem uma importância fundamental, pois permite concluir que um
estimador consistente de qualquer momento (se existir) de um processo estacionário e
ergódico é o respectivo momento amostral. Por exemplo, quando se considera o proces-
so {z•t z•Tt } , um estimador consistente de E ( z•t z•Tt ) é
1 n
n
∑ z zT .
t =1 •t •t

O teorema da ergodicidade garante, em particular, que, se o processo {z•t } é es-


tacionário em covariância, e se ( z•1 , z•2 , K , z•n ) é uma amostra de dimensão n do pro-
cesso estocástico, então a média amostral,
1 n
z•n ≡ ∑ z•t ,
n t =1
converge em probabilidade para µ (que se pode designar por valor esperado do proces-
so). Nestas condições, diz-se que o processo é ergódico em relação à média.
Pode demonstrar-se que um processo é ergódico em relação à média desde que
as autocovariâncias, γ s , convirjam para zero, de forma “suficientemente” rápida. Pode,
também, provar-se que se as autocovariâncias, γ s , de um processo estacionário em co-
variância verificam a condição

+∞
t =1
| γ s | < +∞ ,

então o processo é ergódico em relação à média.


O exemplo mais simples de processo estacionário e ergódico (em relação à mé-
dia) é o dos processos iid (e, em particular, os ruídos brancos independentes).
Outros exemplos importantes são os seguintes:
1) O processo MA(1), zt = ε t + θ ε t −1 .
Com efeito, já se sabe que este processo é estacionário em covariância, e pode veri-
ficar-se que é ergódico (em relação á média). Com efeito, basta notar que γ s = 0 , lo-
go a partir da 2.ª ordem ( s = 2, 3, K ). Obviamente verifica-se que
Capítulo 3 – MRL com Regressores Pré-Determinados 23


+∞
t =1
| γ s | = | γ 1 | = σ ε2 | θ | < +∞ .

2) O processo AR(1), zt = ϕ zt −1 + ε t a verificar | ϕ | < 1 .


Com efeito, este processo é estacionário em covariância, como se viu atrás. Para
mostrar que é ergódico (em relação à média) basta notar que
σ z2
∑t =1 | γ s | = σ z2 ∑t =1 | ϕ |s =
+∞ +∞
γ s = σ z2 ϕ s e < +∞ .
1− | ϕ |

Heuristicamente, facilmente se mostra que ρ s = ϕ s tende rapidamente para 0, quan-


do s → +∞ .
No quadro seguinte apresentam-se os valores de alguns coeficientes de autocorrela-
ção para vários valores de ϕ :

ϕ = 0.20 : Corr ( zt , zt + 3 ) = 0.00800


Corr ( zt , zt + 4 ) = 0.00160
ϕ = 0.50 : Corr ( zt , zt + 7 ) = 0.00781
Corr ( zt , zt + 8 ) = 0.00391
ϕ = 0.90 : Corr ( zt , zt + 44 ) = 0.00970
Corr ( zt , zt + 51 ) = 0.00464
Corr ( zt , zt + 200 ) = 0.00000
ϕ = 0.95 : Corr ( zt , zt + 90 ) = 0.00989
Corr ( zt , zt +104 ) = 0.00482
Corr ( zt , zt + 200 ) = 0.00004
ϕ = 0.99 : Corr ( zt , zt + 459 ) = 0.00992
Corr ( zt , zt + 528 ) = 0.00496
Corr ( zt , zt + 600 ) = 0.00241

Martingalas

A seguir vai apresentar-se a definição de martingala.

Definição 3.10 – Martingala


O processo estocástico {z•t } , a verificar E ( | zit | ) < +∞ ( i = 1, 2, K , m ), é uma martinga-
la se e só se, qualquer que seja t, se tem
(3.27) E ( z•t | z•,t −1 , z•,t −2 , K) = z•,t −1 .

O conjunto {z•,t −1 , z•,t −2 , K} chama-se conjunto de informação em t − 1 .

Seja zit uma componente do vector z•t . O processo {zit } é uma martingala em
relação a {z•t } se e só se
E ( zit | z•,t −1 , z•,t −2 , K) = zi ,t −1 .
Capítulo 3 – MRL com Regressores Pré-Determinados 24

Nestas condições, facilmente se verifica que {zit } é uma martingala,


E ( zit | zi ,t −1 , zi ,t −2 , K) = zi ,t −1 .

Com efeito,
E ( zit | zi ,t −1 , zi ,t −2 , K) = E{E ( zit | z•,t −1 , z•,t −2 , K) | zi ,t −1 , zi ,t −2 , K} = zi ,t −1 .

Um exemplo muito interessante de martingala retirado da teoria macroeconó-


mica é dado pela hipótese de Hall da teoria do consumo. Seja z•t um vector composto
por várias variáveis macroeconómicas (oferta monetária, PNB, etc.), incluindo o consu-
mo agregado, Ct . A hipótese de Hall estabelece que
E (Ct | z•,t −1 , z•,t −2 , K) = Ct −1 ,

ou seja, o valor esperado do consumo no período t, condicionado pelo conjunto de infor-


mação no período t − 1 , de todas as variáveis macroeconómicas consideradas, é igual ao
consumo no período t − 1 . Esta hipótese é conhecida, na teoria económica, pelo nome
de “alisamento do consumo”.
Uma característica interessante das martingalas é a de que
E ( zi ,t + s +1 − zi ,t + s | z•,t −1 , z•,t − 2 , K) = 0 ( s = 0,1, 2, K) ,

ou seja, o valor esperado das variações futuras, condicionadas pelo passado, é nulo
(as martingalas não conseguem prever variações!). Com efeito, supondo que {zit } é uma
martingala em relação a {z•t } , facilmente se conclui que
E ( zi ,t + s +1 | z•,t −1 , z•,t − 2 , K) = E{E ( zi ,t + s +1 | z•,t + s , z•,t + s −1 , K , z•t , z•,t −1 , K) | z•,t −1 , z•,t − 2 , K}
= E ( zi ,t + s | z•,t −1 , z•,t − 2 , K) ,

o que prova o resultado pretendido.


Do mesmo modo se verifica que
E ( zi ,t + s | z•,t −1 , z•,t − 2 , K) = E ( zi ,t + s −1 | z•,t −1 , z•,t − 2 , K) = L = E ( zit | z•,t −1 , z•,t − 2 , K) = zi ,t −1 .

Uma classe importante de martingalas é a dos passeios aleatórios.

Definição 3.11 – Passeio aleatório


Seja {ε •t } um ruído branco independente. O processo {z•t } é um passeio aleatório se e
só se {z•t } é a sucessão das somas acumuladas,
(3.28) z•1 = ε •1 , z•2 = ε •1 + ε •2 ,K, z•t = ε •1 + ε •2 + L + ε •t , K

Facilmente se verifica que


ε •1 = z•1 , ε •2 = z•2 − z•1 ,K, ε •t = z•t − z•,t −1 , K ,

ou seja, o processo das diferenças de um passeio aleatório é um ruído branco indepen-


dente.
Capítulo 3 – MRL com Regressores Pré-Determinados 25

Pode concluir-se, sem dificuldade, que E ( z•t ) = 0 e Cov( z•t , z•,t − s ) = (t − s )Γε ,
onde Γε = Cov(ε •t ) . Deste modo, o passeio aleatório é um processo não estacionário
em covariância.
No caso do passeio aleatório {zt } (escalar), sabendo que σ ε2 = Var (ε t ) , vem
E ( zt ) = 0 ; Var ( zt ) = tσ ε2 ; Cov( zt , zt −s ) = (t − s )σ ε2 ; Cov( zt , zt + s ) = tσ ε2 ;

t−s t
Corr ( zt , zt − s ) = ; Corr ( zt , zt + s ) = .
t t+s

Como os conjuntos {z•,t −1 , K , z•1} e {ε •,t −1 , K , ε •1} contêm a mesma informação,


pode demonstrar-se que um passeio aleatório é uma martingala. Com efeito,
E ( z•t | z•,t −1 , K , z•1 ) = E ( z•t | ε •,t −1 , K , ε •1 )
= E (ε •1 + ε • 2 + L + ε •t | ε •,t −1 , K , ε •1 )
= ε •1 + ε • 2 + L + ε •,t −1 + E (ε •t | ε •,t −1 , K , ε •1 )
= ε •1 + ε • 2 + L + ε •,t −1
= z•,t −1 ,

uma vez que E (ε •t | ε •,t −1 , K , ε •1 ) = 0 , porque {ε •t } é um ruído branco independente.

Definição 3.12 – Diferença-martingala


O processo estocástico {w•t } , a verificar E ( | wit | ) < +∞ ( i = 1, 2, K , m ), é uma diferen-
ça-martingala se e só se
(3.29) E ( w•t | w•,t −1 , w•,t − 2 , K) = 0 .

Este processo é assim chamado porque o processo das somas acumuladas criado
a partir de {w•t } ,
z•1 = w•1 , z•2 = w•1 + w•2 , K , z•t = w•1 + w•2 + L + w•t , K ,

é uma martingala. Com efeito, basta fazer uma demonstração semelhante àquela em que
se provou que um passeio aleatório é uma martingala.
Inversamente, se {z•t } é uma martingala, então o processo das diferenças,
w•1 = z•1 , w•2 = z•2 − z•1 , K , w•t = z•t − z•,t −1 , K ,

é uma diferença-martingala. Com efeito, como os termos da sucessão {w•1 , w• 2 , K} se


podem calcular a partir dos termos da sucessão {z•1 , z• 2 , K} , e inversamente, os conjun-
tos {w•1 , w• 2 , K} e {z•1 , z• 2 , K} partilham a mesma informação. Então,
E ( w•t | w•,t −1 , w•,t − 2 , K) = E ( w•t | z•,t −1 , z•,t − 2 , K)
= E ( z•t − z•,t −1 | z•,t −1 , z•,t − 2 , K) = z•,t −1 − z•,t −1 = 0.

Logo, {w•t } é uma diferença-martingala.


Facilmente se prova também que (3.29) implica E ( w•t ) = 0 .
Capítulo 3 – MRL com Regressores Pré-Determinados 26

Pode provar-se, também, que numa diferença-martingala não existe autocorre-


lação, Cov( w•t , w•,t − s ) = O , para s ≠ t (supondo que existe esta matriz das covariân-
cias). Com efeito, basta demonstrar que E ( w•t w•T,t − s ) = O , porque o valor esperado de
cada w•t é nulo. Então, devido à regra do valor esperado total, e à linearidade do valor
esperado condicionado, tem-se
E ( w•t w•T,t −s ) = E{E ( w•t w•T,t − s | w•,t − s )} = E{E ( w•t | w•,t −s ) w•T,t − s } .

Como s ≥ 1 , ( w•,t −1 , K , w•,t − s , K , w•1 ) inclui w•,t − s . Então, devido à regra do va-
lor esperado iterado, e a (3.29), obtém-se
E ( w•t | w•,t − s ) = E{E ( w•t | w•,t −1 , K , w•,t − s , K , w•1 ) | w•,t − s } = 0 .

Finalmente, vem E ( w•t w•T,t − s ) = O .


Um exemplo óbvio de diferença-martingala é um ruído branco independen-
te. No anexo 3A apresentam-se exemplos das seguintes situações:
− Um ruído branco (não independente) pode não ser uma diferença-martingala;
− Um ruído branco (não independente) pode ser uma diferença-martingala;
− Uma diferença-martingala pode não ser estacionária.

Considere-se o processo { yt } tal que E ( yt | yt −1 , yt − 2 , K) existe. Seja


wt = E ( yt | yt −1 , yt − 2 , K) − E ( yt | yt − 2 , yt − 3 , K) ,

que mede a variação do valor esperado condicionado quando mais uma observação é
incluída no conjunto de informação. Pode provar-se que este processo, {wt } , de revisão
de expectativas é uma diferença-martingala. Com efeito, devido à regra do valor es-
perado iterado, vem
E ( wt | yt − 2 , yt − 3 , K) = E{E ( yt | yt −1 , yt − 2 , K) | yt − 2 , yt − 3 , K}
− E{E ( yt | yt − 2 , yt − 3 , K) | yt − 2 , yt − 3 , K}
= E ( yt | yt − 2 , yt − 3 , K) − E ( yt | yt − 2 , yt − 3 , K) = 0 .

Como {wt −1 , wt − 2 , K} não tem mais informação do que { yt − 2 , yt − 3 , K} , tem-se


E ( wt | wt −1 , wt − 2 , K) = E{E ( wt | yt − 2 , yt − 3 , K) | wt −1 , wt − 2 , K} = 0 ,

o que prova que {wt } é uma diferença-martingala.


Finalmente vai apresentar-se outro teorema do limite central, que estende o
teorema de Lindeberg-Levy ao caso de diferença-martingalas estacionárias e ergódicas.

Teorema 3.8 [do limite central de Billingsley (1961)]


Seja {w•t } uma diferença-martingala, estacionária e ergódica, tal que
Cov( w•t ) = E ( w•t w•Tt ) = Σ .
Então,
d 1 n
n w• n → N ( m ) (0, Σ) , onde w•n = ∑ w•t .
n t =1
Capítulo 3 – MRL com Regressores Pré-Determinados 27

Obviamente o teorema de Billingsley é mais geral do que o teorema de Linde-


berg-Levy. Com efeito, fazendo w•t = z•t − µ , onde {z•t } verifica as hipóteses deste teo-
rema, facilmente se verifica que {w•t } , nestas condições, é um ruído branco indepen-
dente, e, portanto, é uma diferença-martingala estacionária e ergódica.

3.3 - Hipóteses do modelo de regressão linear com regressores pré-determinados

Na secção 1.2 (capítulo 1) foi enfatizado que o modelo adoptado é considerado a


fonte geradora dos dados observáveis. Assim, vai utilizar-se a expressão processo gera-
dor dos dados (PGD) para designar o processo estocástico que gerou a amostra finita
(Y , X ) . Portanto, especificando o PGD, a distribuição conjunta de (Y , X ) pode ser
determinada. Pode, então, apurar-se a definição de modelo econométrico (ver definição
1.2).

Definição 3.13 – Modelo econométrico


Um modelo econométrico é uma família de PGDs das observações das variáveis expli-
cadas e das variáveis explicativas, a verificar um conjunto de restrições ou hipóteses.

Nesta secção vai definir-se um modelo de regressão linear, a verificar um con-


junto de hipóteses que o tornam mais adequado para as aplicações à Economia, sobretu-
do quando os dados são temporais.
A primeira hipótese é a mera reprodução de REX.1 (linearidade), agora designa-
da por hipótese RPD.1, por razões a esclarecer mais adiante. Os comentários feitos para
REX.1 continuam válidos para RPD.1.

Hipótese RPD.1 – Linearidade


yt = xt • β + ut (t ∈ T ) , onde: yt é o regressando; xt • = [ xt1 xt 2 L xtk ] é o vector 1 × k
dos regressores; β é o vector k × 1 de parâmetros desconhecidos (coeficientes de re-
gressão), não sujeitos a restrições; ut é a variável residual.

Os conceitos de estacionaridade e de ergodicidade desempenham um papel deci-


sivo no modelo de regressão linear em discussão.

Hipótese RPD.2 – Estacionaridade ergódica


O processo estocástico ( k + 1 )-dimensional {( yt , xt • ) : t ∈ T } é estacionário e ergódico.

Um caso particular muito importante de estacionaridade ergódica tem-se quando


o processo {( yt , xt • )} é iid. Neste caso, os dados são obtidos por amostragem casual,
ou seja, obtém-se a amostra casual
Capítulo 3 – MRL com Regressores Pré-Determinados 28

 ( y , x ), ( y , x ), K , ( y , x )  .
 1 1• 2 2• n n•

Pode, portanto, considerar-se nesta análise, os modelos com dados seccionais
obtidos de forma casual, como acontece com muitos dados microeconómicos (sobre fa-
mílias, empresas, etc.), em que as observações formam uma amostra casual de uma de-
terminada população.
Como {( yt , xt • )} é estacionário e ergódico, conclui-se imediatamente que o pro-
cesso {ut } , onde ut = yt − xt • β , é também estacionário e ergódico. Então, a hipótese
RPD.2 implica que E (ut2 ) , se existir, não varia com t, ou seja, existe homocedastici-
dade marginal (não condicionada),
(3.30) E (ut2 ) = σ 2 .

Note-se que: em (3.30) não pode escrever-se Var (ut ) = σ 2 , porque não está ga-
rantido que E (ut ) = 0 [a homocedasticidade marginal estabelece que o segundo mo-
mento de ut em relação à origem, E (ut2 ) , é constante]; pode ter-se heterocedasticidade
condicionada, isto é, E (ut2 | xt • ) pode depender de xt • (esta situação vai ser estudada
mais adiante).
A hipótese que vai apresentar-se a seguir é crucial, na medida em que se afasta
da exogeneidade estrita dos regressores (REX.2). Enquanto esta hipótese garante a orto-
gonalidade entre qualquer observação dos regressores e qualquer variável residual,
E ( xtj u s ) = 0 (para qualquer t e s, e para j = 1, 2, K , k ), a hipótese seguinte postula a or-
togonalidade, mas apenas para a mesma observação t, ou seja,
E ( xtj ut ) = 0 (para qualquer t e para j = 1, 2, K , k ).

Definição 3.14 – Regressor pré-determinado


Diz-se que o regressor x j é pré-determinado (RPD) se e só se E ( xtj ut ) = 0 , qualquer
que seja t.

A terceira hipótese estabelece que todos os regressores são pré-determinados.


Daí o prefixo RPD que se utiliza para designar as hipóteses do modelo.

Hipótese RPD.3 – Regressores pré-determinados


Todos os regressores são pré-determinados,
(3.31) E ( xt •ut ) = E ( gt • ) = 0 (t ∈ T ) ,
onde g t • = xt •ut .

Note-se que
gt • = [ gt1 gt 2 L gtk ] = [ xt1ut xt 2ut L xtk ut ] .

Evidentemente, é imediato verificar que qualquer regressor estritamente exóge-


no é pré-determinado, mas a recíproca não é verdadeira.
Capítulo 3 – MRL com Regressores Pré-Determinados 29

No caso em que o modelo tem termo independente ( xt1 = 1 ) – o que acontece


em grande parte das aplicações – verifica-se imediatamente que
E (ut ) = 0 e Cov( xt • , ut ) = 0 .

Quando se consideram modelos com dados temporais, (3.31) significa que há


ortogonalidade contemporânea entre os regressores e as variáveis residuais [ver no
capítulo 2, o comentário 4) à hipótese REX.2]. Quando o modelo tem termo indepen-
dente, também se diz que os regressores não estão contemporaneamente correlacio-
nados com as variáveis residuais.
Ainda considerando modelos com dados temporais, a exogeneidade estrita dos
regressores exclui a possibilidade de a variável residual no período t, ut , estar correla-
cionada com observações futuras dos regressores, xt + s ,• , para s = 1, 2, K . No entanto,
isto pode verificar-se, quando apenas se exige a ausência de correlação contemporânea.
Por exemplo, é o que acontece com o modelo AR(1) [ver no capítulo 2, o comentário 3)
à hipótese REX.2].
Quando se verifica a condição E ( xtj ut ) ≠ 0 , diz-se que o regressor x j é endó-
geno. A hipótese RPD.3 elimina a possibilidade de existirem regressores deste tipo. O
estudo do MRL com regressores endógenos vai ser feito no capítulo 4. No entanto, é
importante desde já fazer uma breve referência a três situações típicas de endogenei-
dade:
a) Omissão de variáveis.
Supondo que os regressores da equação estrutural são xt • (vector 1 × k ) e wt , o valor
esperado condicionado estrutural é da forma E ( yt | xt • , wt ) = xt • β + δ wt . Explicitando
a variável residual vt , vem yt = xt • β + δ wt + vt , onde E (vt | xt • , wt ) = 0 . Fica garanti-
do que os regressores são pré-determinados, ou seja, E ( xtT•vt ) = 0 e E ( wt vt ) = 0 . Se
wt é omisso (por exemplo, não é observável), o regressor x j é endógeno se existir
correlação entre xtj e wt . De facto, incluindo δ wt na componente residual, obtém-se
a equação yt = xt • β + ut , com ut = δ wt + vt ; o regressor x j é endógeno, porque está
correlacionado com a variável residual, ut : E ( xtj ut ) ≠ 0 . Nesta situação, pode sem-
pre estimar-se E ( yt | xt • ) , desde que este valor esperado condicionado não tenha
qualquer relação com E ( yt | xt • , wt ) , quando xt • e wt estão correlacionados.
A correlação entre variáveis observáveis e variáveis não observáveis é, muitas vezes,
devida ao problema da auto-selecção (self-selection): os agentes escolhem xtj , mas
este valor depende de factores que não são observáveis para o analista.
O problema da omissão de variáveis com dados seccionais já foi ilustrado no exem-
plo 2.3 (capítulo 2). No caso de dados temporais, considere-se, por exemplo, o mode-
lo DL(2), yt = α + δ 0 xt + δ1 xt −1 + δ 2 xt − 2 + vt . A omissão de xt −2 , dá lugar à equação
estimável yt = α + δ 0 xt + δ1 xt −1 + ut , sendo natural que se tenha Cov( xt −1 , ut ) ≠ 0 ou
Cov( xt , ut ) ≠ 0 .
b) Erros de medida nas variáveis explicativas.
Suponha-se que pretende medir-se o efeito parcial de xk∗ sobre y, mas a variável exp-
licativa é observada com erro: xtk = xtk∗ + et , onde xtk é o valor observado e et é o
erro de medida. Neste caso, a equação estrutural é
Capítulo 3 – MRL com Regressores Pré-Determinados 30

yt = β1 xt1 + β 2 xt 2 + L + β k −1 xt , k −1 + β k xtk∗ + vt ,

e a equação estimável é
yt = β1 xt1 + β 2 xt 2 + L + β k −1 xt , k −1 + β k xtk + ut ,

onde ut = vt − β k et (a variável residual inclui o erro de medida). O regressor xk é en-


dógeno, porque existe correlação entre xtk e et .
Para concretizar, suponha-se que a equação estrutural é yt = β1 + β 2 xt∗ + vt , onde a
variável explicativa é pré-determinada, mas observável com erro. Os valores obser-
váveis são dados por xt = xt∗ + et , onde et é o erro de medida. Fazendo a substituição,
obtém-se yt = β1 + β 2 xt + ut , onde ut = vt − β 2et . Supondo que Cov(vt , et ) = 0 e que
Cov( xt∗ , et ) = 0 , vem
Cov( xt , ut ) = Cov( xt∗ + et , vt − β 2et ) = − β 2 Var(et ) ≠ 0 .

c) Simultaneidade.
Considere-se a equação
yt1 = β1 + β 2 xt1 + β 3 yt 2 + ut1 ,

onde as variáveis explicativas são xt1 e yt 2 . A simultaneidade ocorre quando pelo


menos um dos regressores (por exemplo, yt 2 ) é determinado conjuntamente com o
regressando, yt1 . Implicitamente, está a admitir-se que, por exemplo,
yt 2 = γ 1 + γ 2 xt 2 + γ 3 yt1 + ut 2 .

Facilmente se verifica que tanto yt1 como yt 2 estão correlacionados com ut1 e ut 2 .
Para isso, basta resolver, em relação a yt1 e yt 2 , o sistema formado pelas duas equa-
ções para pôr em evidência aquelas correlações. Tem-se:
 β1 + β 3γ 1 β2 β 3γ 2 1 β3
 yt1 = 1 − β γ + 1 − β γ xt1 + 1 − β γ xt 2 + 1 − β γ ut1 + 1 − β γ ut 2
 3 3 3 3 3 3 3 3 3 3

 y = β1γ 3 + γ 1 + β 2γ 3 x + γ 2 x + γ 3 u + 1
ut 2 .
 t2
1 − β 3γ 3 1 − β 3γ 3
t1
1 − β 3γ 3
t2
1 − β 3γ 3
t1
1 − β 3γ 3

O problema da simultaneidade é aflorado nos exemplos 1.7 a 1.10 (capítulo 1). Esta
questão será retomada noutro capítulo.

A distinção entre estas três formas possíveis de endogeneidade nem sempre é tão
evidente. De facto, numa mesma equação pode coexistir mais do que um tipo de en-
dogeneidade. Por exemplo, se se quisesse analisar o efeito do consumo de bebidas al-
coólicas (CA) sobre o salário das trabalhadores, é bem possível que CA esteja correla-
cionada com factores abrangidos pela variável residual (por exemplo, factores que têm a
ver com os antecedentes familiares), e tinha-se, então, uma situação de omissão de va-
riáveis. É de admitir, também, que a variável CA seja observada com erro. Finalmente,
é razoável supor que CA depende do salário, havendo, portanto, uma situação de simul-
taneidade.
Capítulo 3 – MRL com Regressores Pré-Determinados 31

Na hipótese RPD.3, em vez de (3.31), podia ter sido considerada a condição


mais forte,
(3.32) E (ut | xt • ) = 0 ,

que, no caso de modelos com dados temporais, significa que os regressores são contem-
poraneamente exógenos. Note-se que (3.32) implica que E (ut ) = 0 (mesmo que o mo-
delo não tenha termo independente); também se verifica que a condição (3.32) é equiva-
lente a E ( yt | xt • ) = xt • β .
Como (3.32) implica (3.31), pode haver alguma vantagem em utilizar (3.32). Po-
de provar-se que (3.32) implica que qualquer função de xt • , g ( xt • ) , é ortogonal a ut .
Com efeito,
E{g ( xt • ) ut } = E{E ( g ( xt • ) ut | xt • )} = E{g ( xt • ) E (ut | xt • )} = 0 ,

o que significa que, tal como se comentou no capítulo 2, a condição (3.32) garante que
não há associação (linear ou outra) entre xtj e ut . Em consequência, pode afirmar-se
que a hipótese (3.32) é mais natural quando a equação estrutural, yt = xt • β + ut , é direc-
tamente estimável, porque está garantido que outras funções dos regressores não contri-
buem para explicar yt . No entanto, como vai ver-se, basta considerar a condição mais
fraca (3.31), na hipótese RPD.3, para estabelecer os resultados indispensáveis para a in-
ferência estatística.
Note-se, também, o seguinte: se ut e xt • são independentes, e se E (ut ) = 0 , en-
tão E (ut | xt • ) = 0 (a recíproca não é verdadeira). Nestas condições, conclui-se imediata-
mente que Var(ut | xt • ) é constante (existe homocedasticidade condicionada).
A quarta hipótese é a condição de característica já conhecida do MRLC (hipóte-
se REX.5).

Hipótese RPD.4 – Condição de característica


A matriz quadrada de ordem k,
(3.33) Qxx = E ( xtT• xt • ) (t ∈ T )

existe e tem inversa.

Nas condições desta hipótese fica garantido, devido ao teorema da ergodicidade,


que o processo {S xx } , onde
1 n T 1
S xx =
n
∑ x x = XTX ,
t =1 t • t •
n
obedece à lei dos grandes números. Assim, verifica-se que
plim(S xx ) = Qxx .

Então, para n suficientemente grande, a matriz dos segundos momentos amos-


trais, S xx , tem inversa, devido às hipóteses RPD.2 e RPD.4. Fica, assim, garantido que
X T X tem inversa, com probabilidade 1, para n suficientemente grande.
Capítulo 3 – MRL com Regressores Pré-Determinados 32

Como as condições de ortogonalidade e de característica permitem a identifica-


ção de β [ver (2.18), capítulo 2], o estimador MQ de β pode ser calculado da maneira
habitual. Assim, tem-se b = S xx−1s xy .
Finalmente, apresenta-se a quinta hipótese do modelo.

Hipótese RPD.5 – Diferença-martingala


O processo {g t • } é uma diferença-martingala
(3.34) E ( gt • | gt −1,• , gt − 2,• , K) = 0 ,

tal que existe a matriz quadrada de ordem k,


(3.35) S = E ( g tT• g t • ) = E (ut2 xtT• xt • ) ,

e a correspondente matriz inversa.

Note-se que
 ut2 xt21 ut2 xt1 xt 2 K ut2 xt1 xtk 
 2 
u x x ut2 xt22 L ut2 xt 2 xtk 
ut xt • xt • =  t t1 t 2
2 T
.
 M M M 
 2 
ut xt1 xtk ut2 xt 2 xtk L ut2 xtk2 

Como vai ver-se, esta hipótese é necessária para obter a distribuição assintótica
de b (estimador MQ de β ). Note-se que RPD.5 é mais forte que RPD.3, uma vez que
(3.34) implica E ( gt • ) = 0 , e, portanto, S = Cov( gt • ) . A condição (3.34) implica, tam-
bém, que não existe autocorrelação no processo {g t • } : Cov( g t • , g t −s ,• ) = O .
Como g t • = xt •ut = xt • ( yt − xt • β ) , verifica-se que {g t • } é estacionário e ergódi-
co. Então, fazendo,
1 n 1 n 1
g •n = ∑t =1 g tT• = ∑t =1 xtT•ut = X T U ,
n n n
e atendendo ao teorema do limite central de Bilingsley (teorema 3.8) tem-se
d
n g• n → N ( k ) (0, S ) ,

onde Ea ( g• n ) = 0 e Cov a ( g •n ) = S .
Note-se que:
1 1 1 T
∑ ∑
n n
n g •n = t =1
g tT• = t =1
xtT•ut = X U.
n n n
Quando o modelo tem termo independente ( xt1 = 1 ), o primeiro elemento do
vector g t • é igual a ut , e E (ut | g t −1,• , g t −2,• ,K) = 0 . Então, de acordo com a regra do va-
lor esperado iterado, tem-se
E (ut | ut −1 , ut −2 , K) = E{E (ut | g t −1,• , g t −2,• , K) | ut −1 , ut −2 , K} = 0 ,
Capítulo 3 – MRL com Regressores Pré-Determinados 33

ou seja, o processo {ut } das variáveis residuais é também uma diferença-martingala.


Portanto, E (ut ) = 0 e Cov(ut , ut −s ) = 0 (não há autocorrelação).
A condição (3.34) relativa aos vectores gt • = xt •ut é difícil de interpretar. Para
melhor esclarecimento, é possível apresentar a condição suficiente de interpretação
mais fácil,
(3.36) E (ut | ut −1 , ut −2 , K , xt • , xt −1,• , xt −2,• , K) = 0 ,

onde o conjunto de informação inclui as variáveis residuais desfasadas e as observações


correntes e desfasadas dos regressores. Esta condição implica que as variáveis residuais
não estão autocorrelacionadas, e que cada variável residual não está correlacionada com
as observações correntes e desfasadas dos regressores (a demonstração é semelhante
àquela que permitiu provar que numa diferença-martingala não existe autocorrelação).
Para demonstrar que (3.36) implica (3.34), basta atender à regra do valor espera-
do iterado e notar que, comparando os conjuntos de informação
{ut −1 , ut −2 , K , xt • , xt −1,• , xt −2,• , K} e {g t −1,• , g t −2,• , K} ,
o primeiro contém toda a informação do segundo, e a informação adicional dada por
xt • . Assim,
E ( gt • | gt −1,• , gt − 2,• , K) = E{E ( gt • | ut −1 , ut − 2 , K , xt • , xt −1,• , xt − 2,• , K) | gt −1,• , gt − 2,• , K}
= E{xt • E (ut | ut −1 , ut − 2 , K , xt • , xt −1,• , xt − 2,• , K) | gt −1,• , g t − 2,• , K}
= 0.

Considere-se o MRL com dados temporais, yt = xt • β + ut , onde xt • pode conter


desfasamentos da variável y. Como ut = yt − xt • β , facilmente se conclui que (3.36) é
equivalente a
E (ut | yt −1 , yt − 2 , K , xt • , xt −1,• , xt − 2,• , K) = 0 .

Estabelecendo esta condição, tem-se


E ( yt | xt • , yt −1 , xt −1,• , yt −2 , K) = E ( yt | xt • ) ,

o que significa que foram considerados os desfasamentos suficientes (mais desfasamen-


tos nas variáveis nada acrescentam para explicar yt ). Diz-se, então, que o modelo é di-
namicamente completo.
Por exemplo, se yt = β1 + β 2 yt −1 + β 3 xt + β 4 xt −1 + ut , e se
E ( yt | yt −1 , yt − 2 , K , xt , xt −1 , xt − 2 , K) = E ( yt | yt −1 , xt , xt −1 ) ,

o MRL é dinamicamente completo, o que significa que um desfasamento em y e outro


em x traduz adequadamente a estrutura dinâmica do comportamento explicativo de yt .
Pode demonstrar-se que num modelo dinamicamente completo não há autocor-
relação condicionada das variáveis residuais. Com efeito, supondo que s < t , tem-se
Cov(ut , us | xt • , xs • ) = E (ut us | xt • , xs • ) = E{E (ut us | xt • , xs • , us ) | xt • , xs •}
= E{us E (ut | xt • , xs • , us ) | xt • , xs •}.

Como s < t , ( xt • , xs• , u s ) é um subconjunto de ( xt • , ut −1 , xt −1,• , ut −2 , K) , e tem-se


Capítulo 3 – MRL com Regressores Pré-Determinados 34

E (ut | xt • , xs• , u s ) = 0 ,
e portanto,
Cov(ut , u s | xt • , xs• ) = 0 .

Os modelos devem ser dinamicamente completos? A resposta é, em princípio,


afirmativa, uma vez que se admite, muitas vezes, que um modelo com autocorrelação
está mal especificado. No entanto, este ponto de vista é demasiado rígido, pois pode
estar-se interessado num modelo estático ou num modelo com desfasamento escalonado
finito.
Finalmente, convém fazer três observações sobre a matriz S:
1. Atendendo a (3.35), facilmente se conclui que S é uma matriz de quartos momentos
[de elemento genérico E (ut2 xti xtj ) ];
2. Devido à hipótese de {g t • } ser uma diferença-martingala, tem-se Cov a ( g •n ) = S
(sem esta hipótese, a matriz das covariâncias assintóticas de g •n é mais complicada,
envolvendo autocovariâncias de g t • );
3. Pode apresentar-se uma expressão alternativa para a matriz S. Com efeito, fazendo
σ 2 ( xt • ) = E (ut2 | xt • ) , tem-se
S = E (ut2 xtT• xt • ) = E{E (ut2 xtT• xt • ) | xt • } = E{E (ut2 | xt • ) xtT• xt • } = E{σ 2 ( xt • ) xtT• xt • } .

4. As hipóteses RPD.1 a RPD.5 não implicam que exista E (ut2 ) , porque um processo
estritamente estacionário pode não ter segundos momentos. No entanto, se o modelo
tem termo independente, o elemento (1,1) da matriz gtT• gt • = ut2 xtT• xt • é ut2 . Logo, de
acordo com a segunda parte de RPD.5, existe E (ut2 ) . Assim, devido a RPD.2, garan-
te-se a homocedasticidade marginal.

O modelo de regressão linear que verifica as cinco hipóteses referidas (RPD.1 a


RPD.5) chama-se modelo de regressão linear com regressores pré-determinados
(MRL-RPD).

3.4 - Propriedades dos estimadores dos mínimos quadrados

As propriedades dos estimadores MQ que vão apresentar-se nesta secção são


propriedades assintóticas ou aproximadas, já que apenas são válidas para grandes
amostras.
No modelo de regressão linear clássico (MRLC) demonstrou-se que b, estimador
MQ de β , é BLUE. Este tipo de caracterização deixa de fazer sentido no modelo de re-
gressão linear com regressores pré-determinados (MRL-RPD) – o teorema de Gauss-
-Markov perde toda a sua importância –, procurando-se antes mostrar que aquele esti-
mador é CAN (consistente e assintoticamente normal).
Notando que b depende da dimensão da amostra, n (para simplificar a notação,
vai continuar a usar-se o símbolo b, e não b•n ), vai demonstrar-se que b é consistente.
Capítulo 3 – MRL com Regressores Pré-Determinados 35

Propriedade 3.1 – As hipóteses RPD.1 a RPD.4 implicam que o estimador MQ de β ,


b, é consistente,
(3.37) plim(b) = β .

Dem.: Com efeito, começa-se por escrever o erro de amostragem, b − β , em termos das
médias amostrais. Assim,
−1 −1
1  1  1 n  1 n 
b − β =  X T X   X T U  =  ∑t =1 xtT• xt •   ∑t =1 xtT•ut  = S xx−1 g •n .
n  n  n  n 
Como, devido à hipótese RPD.2, o processo {( yt , xt • )} é estacionário e ergódi-
co, o mesmo acontece com {xtT• xt • } ; o teorema da ergodicidade (teorema 3.7) permite
concluir que plim(S xx ) = Qxx ; da hipótese RPD.4, e da propriedade da preservação do li-
mite em probabilidade, obtém-se
plim(S xx−1 ) = Qxx−1 .

De forma semelhante: o processo {g t • } , onde g t • = xt •ut = xt • ( yt − xt • β ) , é es-


tacionário e ergódico; o teorema da ergodicidade (teorema 3.7) e a hipótese RPD.3 per-
mitem obter plim ( g• n ) = 0 . Então,
plim (b − β ) = plim ( S xx−1 g• n ) = plim(S xx−1 )plim( g• n ) = Qxx−1 0 = 0 ,

ficando assim provado (3.37).


∇∇

As hipóteses RPD.1 a RPD.4 não permitem provar que o estimador b é não en-
viesado. Contudo, supondo amostragem casual (o processo da hipótese RPD.2 é iid) e
(3.32), [hipótese mais forte do que RPD.3], vai verificar-se que E (b | X ) = β . Com efei-
to, sabe-se que E (b | X ) = β + ( X T X ) −1 X T E (U | X ) . A componente genérica do vector
E (U | X ) é
E (ut | X ) = E (ut | x1• , x2• , K , xt −1,• , xt • , xt +1,• , K , xn • ) = E (ut | xt • , wt • ) ,

onde wt • = [ x1• x2• L xt −1,• xt +1,• L xn • ]. Como o vector ( ut , xt • ) é independente


de wt • , pode concluir-se que E (ut | xt • , wt • ) = E (ut | xt • ) = 0 . [ver os comentários às pro-
priedades dos valores esperados condicionados (capítulo 1)].

Propriedade 3.2 – Verificadas as hipóteses RPD.1 a RPD.5, o estimador MQ de β , b,


é assintoticamente normal,
d
(3.38) n (b − β ) → N ( k ) (0, Qxx−1 S Qxx−1 ) .

Dem.: Com efeito, como


d
n (b − β ) = S xx−1 ( n g •n ) , n g• n → N ( k ) (0, S ) e plim(S xx−1 ) = Qxx−1 ,
Capítulo 3 – MRL com Regressores Pré-Determinados 36

obtém-se imediatamente (3.38), atendendo às propriedades d) e e) que relacionam a


convergência em probabilidade com a convergência em distribuição.
∇∇

O resultado (3.38) permite explicitar o valor esperado assintótico e a matriz das


covariâncias assintóticas de b. Assim:
(3.39) Ea (b) = β ; Cov a (b) = Qxx−1 S Qxx−1 ,

sendo de notar que esta matriz das covariâncias assintóticas de b reflecte o facto de po-
der existir heterocedasticidade condicionada (ver os comentários subsequentes à hipó-
tese RPD.2). Quando se admite a hipótese da homocedasticidade condicionada, a matriz
Cov a (b) é mais simples (ver secção 3.6).
As considerações anteriores mostram que o estimador MQ é caracterizado por
ter boas propriedades assintóticas no contexto de modelo de regressão linear com re-
gressores pré-determinados, o que mantém intacta a importância do método dos míni-
mos quadrados para a Econometria. Como vai ver-se no capítulo 4, quando existem
regressores endógenos, o estimador MQ tem que ser abandonado.
A propósito da hipótese RPD.2, verificou-se que E (ut2 ) = σ 2 , se existir, não va-
ria com t, ou seja, existe homocedasticidade marginal (não condicionada). Quando, o
modelo tem termo independente vem E (ut ) = 0 , podendo concluir-se que σ 2 é a va-
riância marginal das variáveis residuais.
A seguir vai provar-se que o estimador MQ de σ 2 ,
1 Uˆ T Uˆ
∑t =1 uˆt2 =
n
(3.40) s2 = ,
n−k n−k
onde ût é o resíduo MQ relativo à observação t, é estimador consistente.

Propriedade 3.3 – As hipóteses RPD.1 a RPD.4 implicam que s 2 , estimador MQ de


σ 2 , é consistente,
(3.41) plim(s 2 ) = σ 2 .

Dem.: Ver secção 3B.1.


∇∇

No MRL-RPD, os coeficientes de determinação amostrais, R 2 e R 2 , podem


ser encarados como estimadores consistentes do coeficiente de determinação da po-
pulação,
σ u2
ρ2 = 1− ,
σ y2

onde σ u2 = Var(ut ) [variância não condicionada da variável residual], e σ y2 = Var ( yt )


[variância não condicionada do regressando]. Com efeito, basta notar que: VR / n ou
Capítulo 3 – MRL com Regressores Pré-Determinados 37

VR /(n − k ) são estimadores consistentes de σ u2 ; VT / n ou VT /(n − 1) são estimadores


consistentes de σ y2 .
A interpretação das medidas de ajustamento, R 2 e R 2 , não é afectada pela exis-
tência de heterocedasticidade condicionada, uma vez que σ u2 e σ y2 são variâncias da po-
pulação não condicionadas; estas variâncias são estimadas de forma consistente pelos
estimadores atrás referidos, mesmo que Var (ut | xt • ) não seja constante (dependa de
xt • ). Assim, R 2 e R 2 são estimadores consistentes do coeficiente de determinação da
população, com ou sem heterocedasticidade condicionada. Deste modo, é falsa a seguin-
te frase que aparece em alguns manuais de econometria: “na presença de heterocedasti-
cidade, o R 2 da regressão MQ não tem sentido”.

3.5 - Inferência estatística

O resultado (3.38) não é operacional para fazer inferência estatística porque a


matriz das covariâncias assintóticas não é conhecida, uma vez que depende das matrizes
Qxx = E ( xtT• xt • ) e S = E (ut2 xtT• xt • ) . Para dispor de um estimador consistente de
Cov a (b) = Qxx−1 S Qxx−1 ,

é necessário conhecer estimadores consistentes para aqueles parâmetros desconhecidos.


Como um estimador consistente de Qxx−1 é S xx−1 [ plim(S xx−1 ) = Qxx−1 ], basta obter um estima-
dor consistente para S, Ŝ . Uma vez conhecido este estimador, vem
^
(3.42) Cov a (b) = S xx−1 Sˆ S xx−1 .

Se as variáveis residuais fossem observáveis, um estimador consistente para S


seria a média amostral dos ut2 xtT• xt • ,
1 n 2 T
∑ ut xt• xt• .
n t =1
Como ut não é observável, propõe-se o estimador
1 n
Sˆ = ∑t =1 uˆt2 xtT• xt • ,
n
onde uˆt = yt − xt • β̂ , e β̂ é um estimador consistente de β (em particular, se β̂ = b , os
ût são os resíduos MQ).
A propriedade seguinte garante, em certas condições, a consistência de Ŝ .

Propriedade 3.4 – Supondo que existe S = E (ut2 xtT• xt • ) , e que existem os momentos
E{( xti xtj ) 2 } ( i, j = 1, 2, K , k ; qualquer que seja t), as hipóteses RPD.1 e RPD.5 impli-
cam que o estimador
1 n
(3.43) Sˆ = ∑t =1 uˆt2 xtT• xt •
n
é consistente para S.
Capítulo 3 – MRL com Regressores Pré-Determinados 38

Dem.: Ver secção 3B.2.


∇∇

O cálculo de Ŝ pode ser feito com (3.43). Contudo, fazendo gˆ t • = xt •uˆt e


 gˆ1• 
 
 gˆ 2• 
Gˆ =  ,
 M 
ˆ 
 gn• 
obtém-se
1 n 1 n 1
Sˆ = ∑t =1 uˆt2 xtT• xt • = ∑t =1 gˆ tT• gˆ t • = Gˆ T Gˆ .
n n n
Notando que S xx = (1 / n) X T X , pode escrever-se
^
Cov a (b) = n ( X T X ) −1 Gˆ T Gˆ ( X T X ) −1 ,
que é uma expressão alternativa a (3.42). Fazendo
1 n 1
Sˆ = ∑t =1 uˆt2 xtT• xt• = X T Φ
ˆX ,
n n
onde
uˆ12 L 0 
ˆ = M
Φ

M ,

 0 L uˆn2 
 
também se tem
^
ˆ X ( X T X ) −1 .
Cov a (b) = n ( X T X ) −1 X T Φ
Esta última expressão matricial, embora seja útil nalgumas situações, não deve
ser utilizada nos cálculos, porque a ordem, n, da matriz quadrada Φ̂ é, em geral, muito
elevada (n é a dimensão da amostra).
Fazendo
1 n 2 T 1
n
∑ u x x = X T ΦX ,
t =1 t t • t •
n
onde
u12 L 0 
 
Φ= M M ,
 0 L un2 
 
deve ficar bem claro que Φ̂ não é um estimador de Φ , tratando-se apenas de uma nota-
ção para representar estas matrizes diagonais.
Capítulo 3 – MRL com Regressores Pré-Determinados 39

Inferência estatística sobre um coeficiente de regressão isolado

Considerem-se as matrizes
^
Cov a (b) = Qxx−1 S Qxx−1 e Cov a (b) = S xx−1 Sˆ S xx−1 ,

e os elementos de ordem j das respectivas diagonais principais,


^
Vara (b j ) e Vara (b j ) .

A partir de (3.38), facilmente se conclui que


n (b j − β j ) d
→ N (0,1) .
Vara (b j )

Este resultado não permite fazer inferência estatística sobre o parâmetro β j ,


porque Vara (b j ) é desconhecida. Esta dificuldade pode ser contornada, substituindo a
variância assintótica de b j pelo respectivo estimador consistente:
 ^ 
plim  Var a (b j )  = Vara (b j ) .
 
Notando que
n (b j − β j ) n (b j − β j ) Vara (b j )
= ^
^
Vara (b j ) Var a (b j )
Vara (b j )

e que
 
 Vara (b j ) 
plim  ^  =1,
 Var a (b ) 
 j 

atendendo à propriedade b), que relaciona a convergência em probabilidade com a con-


vergência em distribuição, tem-se
n (b j − β j ) bj − β j d
(3.44) = → N (0, 1) ,
^ sb∗ j
Vara (b j )

onde
1 ^
sb∗j = Vara (b j )
n
é o erro padrão heterocedástico-consistente de b j . Este erro padrão também é conhe-
cido pelas designações de erro padrão heterocedástico-robusto ou erro padrão de
White. Esta terminologia justifica-se pelo facto de poder existir heterocedasticidade
condicionada das variáveis residuais.
Conclui-se imediatamente que
Capítulo 3 – MRL com Regressores Pré-Determinados 40

 1 ^   1  ^ 
plim(sb∗ j ) = plim  Vara (b j )  = plim   plim  Vara (b j )  = 0 ,
  
 n   n  
ou seja, o erro padrão robusto de b j degenera no valor zero (como era de esperar, uma
vez que b j é estimador consistente).
Pode demonstrar-se que

n 2 2
^ rˆ uˆ
t =1 tj t
Var (b ) =
a j 2
,
VT j

onde os r̂tj (t = 1, 2, K , n) são os resíduos MQ da regressão de x j sobre os outros re-


gressores, e VT j = Σtn=1 ( xtj − x ) 2 é a variação total do regressor x j .
No caso particular do MRL simples, yt = β1 + β 2 xt + ut , tem-se


n
^ ( xt − x ) 2 uˆt2
Var (b ) =
a 2
t =1
,
VTx2

onde VTx = Σtn=1 ( xt − x ) 2 .


Quando se pretende fazer o teste da hipótese H 0 : β j = β 0j , contra uma alternati-
va unilateral ou bilateral, a estatística-teste é dada por
b j − β 0j d
(3.45) t =

j → N (0, 1) ,
sb∗ j

designando-se t ∗j por rácio-t robusto, para o distinguir dos rácios-t do MRLCN.


Podem referir-se três diferenças essenciais entre este teste, e o teste correspon-
dente no contexto do MRLCN:
1) O rácio-t robusto é diferente do rácio-t clássico (o erro padrão é diferente);
2) O rácio-t robusto tem distribuição limite normal estandardizada;
3) A dimensão exacta do teste não é igual à dimensão nominal, α , embora se possa
ter uma boa aproximação quando a dimensão da amostra é grande. A diferença entre
as dimensões exacta e nominal do teste chama-se distorção da dimensão. Como t ∗j
tem distribuição limite normal estandardizada, esta distorção tende para 0 quando
n → +∞ .

O resultado (3.44) também permite a construção de intervalos de confiança de


nível 1 − α , aproximados.

Inferência estatística sobre combinações lineares dos coeficientes de regressão

Seja δ = Rβ , onde R é uma matriz m × k com característica igual a m ≤ k . Fa-


zendo δˆ = Rb , vai demonstrar-se que
−1
 ^
 d
(3.46) Q = n (δˆ − δ )T  R Cov a (b) R T  (δˆ − δ ) → χ 2 (m) .
 
Com efeito, começa-se por fazer Q = w•TnVn−1w•n , onde
Capítulo 3 – MRL com Regressores Pré-Determinados 41

^
w•n = n (δˆ − δ ) e Vn = R Cov a (b) R T .

Atendendo a (3.38), conclui-se facilmente que


d
w• n → w ~ N ( m ) (0, V ) ,

onde
V = R Cov a (b) R T .

Como plim(Vn ) = V , e as matrizes Vn e V têm inversa, utilizando a propriedade


f) que relaciona a convergência em probabilidade com a convergência em distribuição,
obtém-se
d
Q = w•TnVn−1w•n → wT V −1w .

Como w ~ N ( m ) (0, V ) , atendendo à propriedade 2) sobre distribuições de vecto-


res aleatórios (ver capítulo 2), vem wT V −1w ~ χ 2 (m) . Então, a distribuição limite de Q
é uma qui-quadrado com m graus de liberdade. Fica, assim, provado (3.46).
A expressão (3.46) pode escrever-se da seguinte maneira:
−1
Q = (δˆ − δ )T  R ( X T X ) −1 Gˆ T Gˆ ( X T X ) −1 R T  (δˆ − δ ) → χ 2 (m) .
d

 

Quadro 3.1
Teste de hipóteses no MRLCN e MRL-RPD
Hipótese nula MRLCN
H 0 : β j = β 0j bj − β 0
j
tj = ~ t (n − k )
sb j

H 0 : Rβ = δ 0 F=
(
(δˆ − δ 0 )T R ( X T X ) −1 R T )−1
(δˆ − δ 0 )
~ F (m, n − k )
ms 2
ou
Uˆ rT Uˆ r − Uˆ T Uˆ
F= ~ F (m, n − k )
ms 2
Hipótese nula MRL-RPD
H 0 : β j = β 0j bj − β 0
j
d
t ∗j = → N (0, 1)
sb∗ j
−1
H 0 : Rβ = δ 0  ^
 d
Q = n (δˆ − δ 0 )T  R Cov a (b) RT  (δˆ − δ 0 ) → χ 2 (m)
 

Suponha-se que se pretende testar


H 0 : Rβ = δ 0 contra H1 : Rβ ≠ δ 0 ,

onde δ 0 é um valor assumido pelo vector m × 1 , δ . A estatística-teste é dada por


Capítulo 3 – MRL com Regressores Pré-Determinados 42

−1
 ^  d
(3.47) Q = n (δˆ − δ 0 )T  R Cov a (b) RT  (δˆ − δ 0 ) → χ 2 (m) .
 
 
A obtenção da distribuição da estatística Q foi feita de acordo com o princípio
de Wald (ver secção 8.4 do capítulo 8) porque se baseia nos estimadores sem restrições
(não sujeitos à hipótese nula),
^
b e Cov a (b) .

Os resultados (3.45) e (3.47) diferem dos resultados homólogos referentes ao


MRLCN, dados por (2.75) e (2.81) [ou (2.82)], respectivamente. No quadro 3.1 faz-se o
resumo da aplicação destes resultados a testes de hipóteses.

Teste de hipóteses não lineares

O resultado (3.46) pode ser generalizado para testar um conjunto de restrições


não lineares sobre β .
Seja a função g : ℜ k → ℜ m , com primeiras derivadas contínuas, e ∇g ( β ) a ma-
triz Jacobiana, de tipo m × k , calculada em β , com característica igual ao número de
linhas [ r{∇g ( β )} = m ].
Suponha-se que se pretende testar a hipótese
H 0 : g (β ) = 0 .

Atendendo ao método delta [ver (3.11)] e a (3.38), tem-se


d
n{g (b) − g ( β )} → N ( m )  0, ∇g ( β ) Cov a (b) ∇g ( β )T  .
 
Como plim(b) = β ⇒ plim{∇g(b)} = ∇g ( β ) , e
 ^ 
plim  Cov a (b)  = Cov a (b) ,
 
obtém-se
 ^

plim  ∇g (b) Cov a (b) ∇g (b)T  = ∇g ( β ) Cov a (b) ∇g ( β )T .
 
Donde, atendendo à propriedade f) que relaciona a convergência em probabilidade
com a convergência em distribuição, vem
−1
 ^
 d
(3.48) Q = n {g (b) − g ( β )}  ∇g (b) Cov a (b) ∇g (b)T  {g (b) − g ( β )} → χ 2 (m) .
T

 
Este resultado é uma generalização de (3.46), onde g ( β ) = Rβ − δ .
A estatística-teste é, então, dada por
−1
 ^
 d
(3.49) Q = n g (b)  ∇g (b) Cov a (b) ∇g (b)T  g (b) → χ 2 (m) .
T

 
Capítulo 3 – MRL com Regressores Pré-Determinados 43

A escolha de g para representar um dado conjunto de restrições sobre β não é


única. Por exemplo, a restrição β1 β 2 = 1 pode ser apresentada na forma β1 β 2 − 1 = 0 ou
β1 − 1 / β 2 = 0 . Embora, (3.48) seja válido para qualquer escolha de g, os resultados nu-
méricos podem ser muito diferentes em pequenas amostras.
Suponha-se, por exemplo, que λ = − ln(β j ) , e que se pretende determinar o erro
padrão robusto de λˆ = − ln(b j ) . Devido ao método delta, tem-se
1
Vara (λˆ ) = 2 Vara (b j ) .
βj

Donde
^ 1 ^
Vara (λˆ ) = 2 Vara (b j ) ,
bj

ou
1 1 ^ sb∗ j
sλ̂ =

Vara (b j ) = .
bj n bj

Pequenas amostras

No caso de pequenas amostras, a potência dos testes referidos pode ser clara-
mente inferior a 1, contra certas alternativas. Além disso, a probabilidade do erro de 1.ª
espécie pode ser muito diferente da dimensão escolhida para o teste.
Davidson e MacKinnon (1963) propõem, baseados em estudos de simulação, al-
gumas correcções da matriz Ŝ que podem atenuar o problema da sobre-rejeição da hi-
pótese nula.
As matrizes Ŝ corrigidas podem ser dadas pela seguinte expressão geral:
1 n
n
∑ c uˆ 2 x T x ,
t =1 t t t • t •

onde ct é o factor de correcção.


Os casos propostos são os seguintes:
n 1
⇒ Sˆ1 = ∑
n
1) ct = uˆ 2 x T x (correcção dos graus de liberdade);
t =1 t t • t •
n−k n−k
1 1 n uˆ 2
2) ct = ⇒ Sˆ2 = ∑t =1 t xtT• xt • ;
1 − ht n 1 − ht
1 ˆ =1 n uˆt2
3) ct =
(1 − ht ) 2
⇒ S 3
n
∑t =1
(1 − ht )
xT x ;
2 t• t•

onde ht = xt • ( X T X ) −1 xtT• é o elemento genérico da diagonal principal da matriz H X


(ver propriedade 2.3 dos resíduos MQ).
Deve, ainda, notar-se o seguinte:
− Como as matrizes H X e I n − H X são semidefinidas positivas, conclui-se imediata-
mente que 0 ≤ ht ≤ 1 ;
Capítulo 3 – MRL com Regressores Pré-Determinados 44

− Sabe-se que Var(uˆt | X ) = E (uˆt2 | X ) = σ 2 (1 − ht ) , quando se admite a hipótese de ho-


mocedasticidade condicionada. Então, no caso 2), o factor uˆt2 /(1 − ht ) é um estima-
dor não enviesado de σ 2 ;
− Quando ct = 1 , tem-se a matriz Ŝ (sem correcção);
− Tem-se: plim(Sˆi ) = S ( i = 1, 2, 3 ). Se se utilizarem os respectivos erros padrão corri-
gidos em (3.44), (3.46) e (3.48), mantêm-se as correspondentes distribuições limite.

3.6 - Implicações da homocedasticidade condicionada

Existe uma situação particular em que as estatísticas-teste referidas no quadro


3.1 são numericamente equivalentes: o cálculo do rácio-t clássico, t j , dá o mesmo re-
sultado que o cálculo do rácio-t robusto, t ∗j ; o cálculo do rácio-F clássico dá o mesmo
resultado que o cálculo de Q / m .
Esta situação particular corresponde à introdução da hipótese da homocedastici-
dade condicionada das variáveis residuais.

Hipótese RPD.6 – Homocedasticidade condicionada


As variáveis residuais são condicionalmente homocedásticas,
(3.50) E (ut2 | xt • ) = σ 2 > 0 (t ∈ T ) .

Evidentemente, a homocedasticidade condicionada implica homocedasticidade


marginal [ E (ut2 ) = σ 2 ], mas a recíproca não é verdadeira.
Quando se verifica a hipótese RPD.6, a matriz S de quartos momentos pode ser
expressa como um produto de segundos momentos,
(3.51) S = σ 2 E ( xtT• xt • ) = σ 2Qxx .

Com efeito,
S = E ( gtT• gt • ) = E (ut2 xtT• xt • ) = E{E (ut2 xtT• xt • | xt • )} = E{E (ut2 | xt • ) xtT• xt • } = σ 2 E ( xtT• xt • ) .

Esta igualdade mostra que ut2 não está correlacionado com qualquer elemento
da matriz xtT• xt • , uma vez que E (ut2 xtT• xt • ) = E (ut2 ) E ( xtT• xt • ) .
Devido a RPD.5, a matriz S tem inversa; então, a matriz Qxx também tem inver-
sa. Assim, as hipóteses RPD.5 e RPD.6 implicam a condição de característica (RPD.4).
De (3.51), resulta que
(3.52) Cov a (b) = σ 2 Qxx−1 .

Como plim(S xx ) = Qxx e plim(s 2 ) = σ 2 , tem-se plim ( s 2 S xx ) = σ 2Qxx = S . Donde


se conclui que
(3.53) Sˆ = s 2 S xx .

Então,
Capítulo 3 – MRL com Regressores Pré-Determinados 45

^
(3.54) Cov a (b) = s 2 S xx−1 = n s 2 ( X T X ) −1 .

Nestas condições, o erro padrão robusto coincide com o erro padrão clássi-
co. De facto,
1 ^
sb∗j = Vara (b j ) = s m jj = sb j ,
n
donde se conclui que t ∗j = t j (o rácio-t robusto é igual ao rácio-t clássico).
Assim,
b j − β 0j d
(3.55) t ∗j = t j = → N (0,1) .
sb j

Como
−1
Q = n (δˆ − δ 0 )T  R {n s 2 ( X T X ) −1} RT  (δˆ − δ 0 )
 
ˆ −1 T −1 ˆ
= (δ − δ ) {R ( X X ) R } (δ − δ 0 ) / s 2
0 T T

= (Uˆ TUˆ − Uˆ TUˆ ) / s 2 ,


r r

conclui-se imediatamente que


d
(3.56) Q = mF → χ 2 (m) .
Suponha-se que o MRL tem termo independente, e considere-se a hipótese nula
de que todos os coeficientes são iguais a zero, excepto o termo independente. Vai
provar-se que
d
n R 2 → χ 2 (k − 1) .
Com efeito, sabe-se que
R 2 /(k − 1)
F= ,
(1 − R 2 ) /(n − k )

ou
1
n R2 = (k − 1) F .
n−k 1
+ (k − 1) F
n n
Como
d
(k − 1) F → χ 2 (k − 1) ,
resulta que
1 
plim  (k − 1) F  = 0 ,
n 
e
n−k 1 
plim  + (k − 1) F  = 1 .
 n n 
Capítulo 3 – MRL com Regressores Pré-Determinados 46

Então a distribuição limite de n R 2 é a mesma de (k − 1) F .


Existem algumas variantes de (3.55) e de (3.56), respectivamente, que dão re-
sultados assintoticamente equivalentes. Uma variante possível consiste em substituir s 2
por σˆ 2 = Uˆ T Uˆ / n . Assim, as estatísticas-teste respectivas passam a ser
b j − β 0j Uˆ TUˆ − Uˆ TUˆ
t ′j = e Q′ = r r 2 ,
σˆ b j σˆ

onde σˆ b2j = σˆ 2 m jj e m jj é o elemento diagonal de ordem j da matriz ( X T X ) −1 .


Como plim ( s 2 − σˆ 2 ) = 0 , conclui-se imediatamente que
d d
t ′j → N (0,1) e Q′ → χ 2 (m) .

Outra variante de (3.55) consiste em considerar a distribuição t (n − k ) em vez


de N (0,1) . Como t (n − k ) converge em distribuição para N (0,1) ( n → +∞ , com k fi-
xo), tem-se
b j − β 0j d
(3.57) tj = → t (n − k ) .
sb j

Como F (m, n − k ) converge em distribuição para χ 2 (m) / m ( n → +∞ , com k


fixo), pode considerar-se a seguinte variante de (3.56):
d
(3.58) F → F (m, n − k ) .
Os resultados (3.57) e (3.58) mostram que se podem utilizar no MRL-RPD, com
homocedasticidade condicionada, as estatísticas-teste já conhecidas do MRLCN [no
entanto, note-se que se no modelo clássico não se considerar a hipótese REX.6, da nor-
malidade das variáveis residuais, não se conhecem a distribuições exactas do rácio-t e
do rácio-F, e, portanto, tem que se trabalhar com as respectivas distribuições limite:
(3.55) ou (3.57); (3.56) ou (3.58)].
Quando a amostra disponível é pequena, ou não é muito grande, põe-se a
questão de saber qual das variantes é a mais adequada. Como a distribuição exacta de-
pende do PGD, não há uma regra simples que permita escolher entre as distribuições
N (0,1) ou t (n − k ) , ou escolher entre as distribuições χ 2 (m) ou F (m, n − k ) . No en-
tanto, alguns estudos de simulação dão indicações que parecem suportar a escolha das
distribuições t (n − k ) e F (m, n − k ) , respectivamente.

Exemplo 3.1 – Retome-se o exemplo 1.3, e considere-se o modelo


ln(importt ) = β1 + β 2 ln( prmt ) + β 3 ln( pibt ) + ut ,

onde import designa as importações portuguesas a preços constantes; prm, o rácio entre
o índice de preços implícito nas importações e o índice de preços implícito no PIB; e
pib, o produto interno bruto português a preços constantes. Os dados disponíveis são
anuais e referem-se ao período de 1966 a 1984 (ver quadro 3.2).
A função de regressão ajustada é a seguinte:
Capítulo 3 – MRL com Regressores Pré-Determinados 47

^
ln(import t ) = 0.1296 − 0.3882 ln( prmt ) + 1.2425 ln( pibt ) ( s = 0.08374) .

Os erros padrão dos b j reportam-se no quadro 3.3. Estes resultados permitem


calcular os rácios-t respectivos. Verifica-se que para efectuar o teste de nulidade do coe-
ficiente de ln(prm), os valores-p são, respectivamente, 0.053, 0.009, 0.015, 0.023 e
0.055. No teste de nulidade do coeficiente de ln(pib), os valores-p respectivos são apro-
ximadamente iguais a zero.

Quadro 3.2
Importações, preços relativos e PIB (Portugal)
Anos import prm pib
1966 4.77 78.10 11.97
1967 4.48 85.30 12.87
1968 5.96 70.20 14.02
1969 6.42 63.70 14.31
1970 6.47 74.90 15.62
1971 7.41 72.40 16.65
1972 8.30 69.30 17.99
1973 9.35 72.00 20.00
1974 9.80 87.20 20.23
1975 7.33 86.60 19.35
1976 7.58 84.10 20.69
1977 8.49 86.00 21.85
1978 8.47 86.80 22.59
1979 9.44 96.40 23.99
1980 10.55 100.00 25.07
1981 11.13 107.30 25.17
1982 11.68 103.10 26.05
1983 10.83 106.90 25.97
1984 10.48 111.80 25.53

Quadro 3.3
Erros padrão
Erros padrão robustos, sb∗j , com a matriz
Regressores sb j Ŝ Ŝ1 Ŝ 2 Ŝ 3
Constante 0.59306 0.35984 0.39212 0.40941 0.47192
ln(prm) 0.18599 0.13010 0.14177 0.15485 0.18761
ln(pib) 0.12298 0.09727 0.10600 0.11865 0.14731

Por mera curiosidade indicam-se as matrizes Ŝ :


Capítulo 3 – MRL com Regressores Pré-Determinados 48

0.0059 0.0264 0.0179 0.0070 0.0313 0.0212


Ŝ = 0.0264 0.1180 0.0799 ; S1 =  0.0313 0.1402 0.0949
  ˆ
0.0179 0.0799 0.0542 0.0212 0.0949 0.0644

0.0067 0.0301 0.0203 0.0078 0.0351 0.0234


Sˆ2 =  0.0301 0.1347 0.0907  ; Sˆ3 =  0.0351 0.1567 0.1047 
 
 0.0203 0.0907 0.0612 0.0234 0.1047 0.0703

Quando não se verifica a hipótese RPD.6, sabe-se que Cov a (b) = Qxx−1 S Qxx−1 . Ob-
viamente (3.54) não é estimador consistente desta matriz, uma vez que
plim(s 2 S xx−1 ) = σ 2Qxx−1 .

Além disso, o rácio-t clássico, dado por (3.55), não tem distribuição limite nor-
mal estandardizada; a estatística Q, referente a (3.56), não tem distribuição limite do
qui-quadrado.
Supondo verificada RPD.6, (3.54) é estimador consistente de (3.52). Também se
prova com facilidade que (3.42) estima de forma consistente (3.52). Com efeito, devido
a (3.51),
plim(S xx−1Sˆ S xx−1 ) = Qxx−1S Qxx−1 = σ 2 Qxx−1 = Cov a (b) .

Qual a razão para preferir s 2 S xx−1 a S xx−1 Sˆ S xx−1 para estimar σ 2Qxx−1 ? As proprieda-
des de pequenas amostras de um estimador são, em geral, melhores quanto menor é o
número de parâmetros que é necessário estimar. Para obter s 2 S xx−1 basta estimar um esca-
lar, σ 2 , e uma matriz, Qxx ; para calcular S xx−1 Sˆ S xx−1 é necessário estimar duas matrizes,
Qxx e S; logo, deve preferir-se s 2 S xx−1 .

3.7 - Heterocedasticidade condicionada e amostragem casual

Como se sabe, o MRL-RPD abrange a situação de heterocedasticidade condicio-


nada, isto é, admite-se que E (ut2 | xt • ) = σ t2 seja, em geral, função de xt • Pode conti-
nuar-se a estimar os parâmetros com o método dos mínimos quadrados, e fazer inferên-
cia estatística baseada no estimador MQ (estimador consistente e assintoticamente nor-
mal). Por exemplo, para efectuar testes de hipóteses, podem utilizar-se os rácios-t robus-
tos e a estatística Q, dados, respectivamente por (3.45) e (3.47).
Quando se introduz a hipótese RPD.6 [as variáveis residuais são condicional-
mente homocedásticas, E (ut2 | xt • ) = σ 2 > 0 ], verifica-se uma significativa simplificação
do modelo. Contudo, em muitas situações, sobretudo com dados seccionais, esta hipó-
tese é demasiado restritiva, sendo de admitir que existe heterocedasticidade condiciona-
da. Por exemplo, quando se pretende explicar, com dados seccionais por famílias, a des-
pesa em consumo de certos bens em função do rendimento, é natural supor que a variân-
cia do consumo cresce com o rendimento.
Considere-se um modelo de regressão a verificar as seguintes hipóteses:
Capítulo 3 – MRL com Regressores Pré-Determinados 49

− RPD.1 – Linearidade;
− RPD.2’ – O processo {( yt , xt • )} é iid;
− RPD.3’ – E (ut | xt • ) = 0 , qualquer que seja t;
− RPD.4 – A matriz Qxx = E ( xtT• xt • ) existe e tem inversa;
− RPD.5’ – A matriz S = E ( g tT• g t • ) = E (ut2 xtT• xt • ) existe e tem inversa.
As hipóteses novas, em relação às definidoras de um MRL-RPD, são as hipó-
teses RPD.2’ e RPD.3’:
− Em geral, quando se estuda o problema da heterocedasticidade, é natural introduzir a
hipótese simplificadora RPD.2’, porque, na prática, este problema é típico de mo-
delos com dados seccionais onde o processo de amostragem é casual.
− A hipótese RPD.3’, que já foi referida a propósito dos comentários feitos à hipótese
RPD.3, estabelece que os regressores são exógenos para a mesma observação t;
− A hipótese RPD.5’ é parte de RPD.5.

Facilmente se prova que se está em presença de um MRL-RPD, uma vez que se


verificam as hipóteses RPD.1 a RPD.5. Assim:
− A hipótese RPD.2’ implica RPD.2, uma vez que um processo iid é caso particular de
processo estacionário e ergódico.
− A hipótese RPD.3’ é mais forte que RPD.3 (os regressores são pré-determinados),
porque E (ut | xt • ) = 0 ⇒ E ( xt •ut ) = E ( gt • ) = 0 .
− Tem-se: E (ut | xt • ) = 0 ⇒ E (ut ) = 0 .
− A hipótese RPD.2’ implica que o processo {g t • } , onde g t • = xt •ut , é também iid. En-
tão, resulta imediatamente que este processo é uma diferença-martingala, uma vez
que se tem E ( gt • | gt −1,• , gt − 2,• , K) = E ( gt • ) = E ( xt •ut ) = 0 , devido à hipótese RPD.3.
− Obviamente que as hipóteses RPD.2’ e RPD.5’ implicam RPD.5.

Nas condições estabelecidas, pode concluir-se que:


− Não existe autocorrelação, já que o processo {ut } , onde ut = yt − xt • β , é iid.
− Há homocedasticidade marginal, isto é, E (ut2 ) é constante com t.
− Pode haver heterocedasticidade condicionada [em geral, σ t2 = E (ut2 | xt • ) é função de
xt • ].

Como {ut } é iid, pode escrever-se


E (ut | xt • ) = E (ut | XT ) e Var(ut | xt • ) = Var(ut | XT ) ,

o que significa que o modelo tanto pode ser encarado como um MRLC com heteroce-
dasticidade condicionada (verificam-se as hipóteses REX.1, REX.2, REX.4 e REX.5)
ou como um MRL-RPD (verificam-se as hipóteses RPD.1 a RPD.5).
Dispondo de uma amostra, (Y , X ) , pode construir-se a matriz
Capítulo 3 – MRL com Regressores Pré-Determinados 50

Var(u1 | x1• ) 0 L 0  σ 12 0 L 0 
   
  0 σ2 L 0 
2
 0 Var(u2 | x2• ) L 0
Σ= = M M ,
M M M M 
   
 0 0 L Var(un | xn • )  0 0 L σ n2 
  
onde σ t2 é, em geral, função de xt • : σ t2 = σ t2 ( xt • ) .
Como E (ut | xt• ) = E (ut | X ) e Var(ut | xt • ) = Var(ut | X ) , pode fazer-se
σ 12 0 L 0 
 
 0 σ 22 L 0 
(3.59) Σ = Cov(U | X ) = .
 M M M 
 
 0 0 L σ n2 

Este resultado pode ser obtido sem admitir que E (ut | xt • ) = 0 (RPD.3’), mas
mantendo a hipótese RPD.3, e supondo que o modelo tem termo independente.
Raramente, nas aplicações práticas, o padrão de heterocedasticidade condi-
cionada é conhecido (ver anexo 3C), já que não se conhece o comportamento da va-
riância σ t2 ( xt• ) . Neste caso, o modelo tem n + k parâmetros desconhecidos (os k coefi-
cientes de regressão, β j , e as n variâncias, σ t2 ) e não é possível estimar tantos parâme-
tros com apenas n observações.
No entanto, no caso de amostragem casual (ver as hipóteses RPD.1, RPD.2’,
RPD.3’, RPD.4 e RPD.5’), o modelo verifica as hipóteses clássicas, excepto REX.3. O
estimador MQ de β , b = ( X T X ) −1 X T Y , é linear e não enviesado, sendo também possí-
vel demonstrar que se trata de um estimador consistente. No entanto, não é BLUE, já
que não é o estimador mais eficiente na classe dos estimadores lineares não enviesados.
Devido à presença de heterocedasticidade condicionada, a matriz das covariân-
cias condicionadas de b já não é σ 2 ( X T X ) −1 , mas sim

Cov(b | X ) = ( X T X ) −1 X T Σ X ( X T X ) −1 = ( X T X ) −1 ∑t =1σ t2 xtT• xt• ( X T X ) −1 .


n
(3.60)

Com efeito, basta notar que


Cov(b | X ) = Cov{( X T X ) −1 X T Y | X } = ( X T X ) −1 X T Cov(Y | X ) X ( X T X ) −1 ,
uma vez que Cov(Y | X ) = Cov(U | X ) = Σ . Além disso, tem-se
σ 12 0 L 0   x1• 
  
[ ]  0 σ 2 L 0   x2•  = n σ 2 xT x ,
2
X T Σ X = x1T• x2T• L xnT•
M M M  M 
∑t =1 t t • t •
  
 0 0 L σ n2   xn • 

onde xtT• xt • é uma matriz quadrada de ordem k.


Como a diagonal da matriz Σ é completamente desconhecida, não é possível es-
timar esta matriz, e não é fácil propor outro estimador dos coeficientes de regressão.
Assim, tem de continuar a utilizar-se o estimador MQ de β , apesar da sua ineficiência,
Capítulo 3 – MRL com Regressores Pré-Determinados 51

e de a respectiva matriz das covariâncias condicionadas, dada por (3.60), depender de


Σ.
Quando o modelo é encarado como um MRL-RPD, sabe-se que b é CAN e que
um estimador consistente da matriz das covariâncias assintóticas de b é dado por
−1 −1
^
1  1 n  1 
(3.61) Cov a (b) = S Sˆ S xx−1 =  X T X   ∑t =1 uˆt2 xtT• xt •   X T X  .
−1
xx
n  n  n 
A este propósito, convém notar que
S = E ( gtT• gt • ) = E (ut2 xtT• xt • ) = E{E (ut2 xtT• xt • | xt • )} = E{E (ut2 | xt • ) xtT• xt • } = E (σ t2 xtT• xt • ) ,

uma vez que σ t2 = E (ut2 | xt • ) .

Exemplo 3.2 – Recapitula-se a estimação apresentada nos exemplos 2.6 e 2.9 do mode-
lo explicativo dos salários dos trabalhadores:
^
lsalart = 5.81505 + 0.055383 educt + 0.022988 expert + 0.003953 empct .
( s = 0.3755) .
Os erros padrão dos b j apresentam-se no quadro 3.4. Verifica-se que os erros
padrão robustos pouco diferem dos erros padrão clássicos, o que é sintoma de que a he-
terocedasticidade condicionada, que possivelmente existe, é fraca.
Efectuando os cálculos, conclui-se que, para efectuar os testes de nulidade indi-
vidual dos coeficientes dos três regressores, os valores-p associados a educ e exper são
aproximadamente iguais a zero, e o valor-p correspondente a empc é aproximadamente
0.1.
Quadro 3.4
Erros padrão
Erros padrão robustos, sb∗j , com a matriz
Regressores sb j Ŝ Ŝ1 Ŝ 2 Ŝ 3
Constante 0.07197 0.06600 0.06613 0.06618 0.06636
educ 0.00486 0.00456 0.00457 0.00457 0.00459
exper 0.00245 0.00254 0.00255 0.00255 0.00256
empc 0.00242 0.00239 0.00240 0.00240 0.00240

3.8 - Teste da forma funcional

Nas secções 3.5 (com heterocedasticidade condicionada) e 3.6 (com homocedas-


ticidade condicionada) apresentaram-se os testes habituais relativos aos parâmetros do
MRL-RPD, tendo por base respectiva estimação MQ. Estes testes são válidos apenas no
caso em se supõe verdadeiras as hipóteses respectivas do MRL-RPD (hipótese a man-
ter). Nesta secção e nas secções 3.9 e 3.10 vai estudar-se alguns testes referentes às hi-
póteses do modelo.
Capítulo 3 – MRL com Regressores Pré-Determinados 52

Muitas vezes é necessário dispor de um teste para detectar não linearidades. Um


método muito usado consiste em somar ao modelo certas funções não lineares das variá-
veis, tais como quadrados e produtos de duas variáveis, e testar a significância dos no-
vos regressores. Contudo, antes de se apresentar o teste mais utilizado para a finalidade
referida, vão fazer-se algumas considerações gerais sobre a questão da geração de re-
gressores.
Seja o modelo de regressão linear, yt = xt • β + δ wt + ut , onde wt é uma variável
explicativa não observável (admite-se, para simplificar, que existe apenas uma variável
nestas condições). Suponha-se que wt é função de certas variáveis observáveis, isto é,
wt = h( zt • , α ) , onde h é uma função conhecida, zt • é um vector de variáveis observáveis
e α é um vector de parâmetros desconhecidos (este desconhecimento é a razão pela
qual wt é não observável). Em muitos casos, wt é função linear de zt • e de α . Se α̂ é
um estimador consistente de α , pode fazer-se wˆ t = h( zt • , αˆ ) . Pode, então, substituir-se
wt por ŵt no modelo original, obtendo-se yt = xt • β + δ wˆ t + vt (equação estimável). O
regressor ŵt designa-se por regressor gerado.
É razoável conjecturar que a regressão MQ de yt sobre xt • e ŵt fornece estima-
dores consistentes de β e δ . Que hipóteses se devem estabelecer para garantir a con-
sistência? Como plim(αˆ ) = α , é razoável supor, atendendo à lei dos grandes números,
que
1 n p
1 n p

n ∑t =1 t t n ∑t =1 tj t
ˆ
w u → E ( w u
t t ) e x ˆ
w → E ( xtj wt ) .

A partir destas relações, facilmente se demonstra que a ortogonalidade entre ut e


as variáveis explicativas do modelo original, xt • e wt , e a respectiva condição de carac-
terística são suficientes para que os estimadores MQ de β e δ sejam consistentes. Com
efeito, seguindo o mesmo raciocínio da demonstração da propriedade 3.1 considere-se o
respectivo erro de amostragem,
−1
 b   β  (1 / n)∑t =1 xtT• xt • (1 / n)∑t =1 xtT• wˆ t  (1 / n)∑ n xtT•ut 
n n

 ˆ −   =    ,
t =1

δ  δ   (1 / n)∑t =1 xt • wˆ t (1 / n)∑t =1 wˆ t   (1 / n)∑ wˆ t ut 


n n 2 n
 t =1 
onde os estimadores MQ de β e δ são b e δˆ , respectivamente. Então,
−1
 b   β  p  E ( xtT• xt • ) E ( xtT• wt )  E ( xtT•ut )
 ˆ −   →    =0.
δ  δ   E ( x w
t• t ) E ( w 2
t )   E ( w u )
t t 

A questão da inferência estatística é mais complicada. Os erros padrão e as es-


tatísticas-teste habituais obtidas a partir da equação yt = xt • β + δ wˆ t + vt , são, em geral,
inadequados porque não têm em conta a distribuição probabilística de α̂ . Contudo,
assintoticamente há pelo menos um caso em que esta distribuição pode ser ignorada. De
facto, quando E{∇α h( zt • , α ) ut } = 0 e δ = 0 , a distribuição limite de
 n (b − β ) 
 
 n (δˆ − δ )
Capítulo 3 – MRL com Regressores Pré-Determinados 53

é a mesma para os dois modelos (quer fosse possível utilizar wt como regressor, quer
substituindo wt por ŵt ). Note-se que E (ut | xt • , zt • ) = 0 (hipótese razoável no contexto
da geração de regressores) implica E{∇α h( zt • , α ) ut } = 0 , porque ut é ortogonal a qual-
quer função de xt • e zt • . Quando δ ≠ 0 , a inferência estatística referida nas secções 3.5
e 3.6 não é válida.
Muitas vezes, pretende-se testar H 0 : δ = 0 , para decidir quanto à inclusão do re-
gressor ŵt na equação estimável. Nas condições enunciadas, o rácio-t habitual tem dis-
tribuição limite normal estandardizada quando E (ut2 | xt • , wt ) = σ 2 (homocedasticidade
condicionada). No caso de heterocedasticidade condicionada, pode fazer-se o teste habi-
tual, mas usando o erro padrão robusto.
Retome-se a questão do teste da forma funcional. Como facilmente se compre-
ende, a inserção de quadrados e produtos de variáveis como regressores pode reduzir
drasticamente o número de graus de liberdade. Ramsey (1969) propôs um teste em que
o número de graus de liberdade não depende de k. Para isso, considere-se o modelo
yt = xt • β + ut , com a hipótese E (ut | xt • ) = 0 [ver (3.32) e os respectivos comentários].
Assim, não basta supor a hipótese RPD.3 [ver (3.31)], uma vez que deve garantir-se a
ortogonalidade entre a variável residual e qualquer função de xt • . Em particular, (3.32)
implica que ( xt • β )i , para qualquer i inteiro e positivo, é ortogonal a ut . O teste a efec-
tuar baseia-se, por exemplo, no modelo
yt = xt • β + δ 2 ( xt • β ) 2 + δ 3 ( xt • β )3 + δ 4 ( xt • β ) 4 + ut ,

em que a hipótese nula é a seguinte:


H 0 : δ 2 = 0 ∧ δ3 = 0 ∧ δ 4 = 0 .

Como ( xt • β )i não é observável, vão gerar-se os regressores yˆt2 , yˆt3 e yˆt4 , e con-
siderar a equação estimável,
yt = xt • β + δ 2 yˆt2 + δ 3 yˆt3 + δ 4 yˆt4 + vt ,

onde yˆt = xt •b e b é o estimador MQ de β que resulta da regressão de yt sobre xt • β .


No caso de homocedasticidade condicionada, pode fazer-se o teste habitual do rácio-F
de nulidade conjunta dos coeficientes das potências de ŷt . A distribuição limite deste
rácio é a distribuição do F-Snedcor com 3 e n − k − 3 graus de liberdade, uma vez que
se supõe que os coeficientes dos regressores gerados são nulos, e existe ortogonalidade
entre as potências de xt • β e ut . Quando existe heterocedasticidade condicionada, pode
recorrer-se a um resultado do tipo (3.47), onde a distribuição limite do qui-quadrado
tem 3 graus de liberdade. Os testes agora descritos são conhecidos pela designação de
testes RESET.
O teste RESET não é um teste geral de especificação, porque não é adequado
para testar outros aspectos importantes de especificação como sejam a omissão de variá-
veis, a heterocedasticidade condicionada ou a autocorrelação. Por exemplo, considere-se
o modelo yt = xt • β + δ wt + ut , onde E (ut | xt • , wt ) = 0 . Suponha-se que a variável expli-
cativa wt é omissa, mas se fosse considerada no modelo seria significativa. Quando wt
é omissa e o modelo utilizado para fazer o teste RESET é yt = xt • β + vt , não há qualquer
Capítulo 3 – MRL com Regressores Pré-Determinados 54

possibilidade de o teste concluir que o modelo está bem especificado, uma vez que os
regressores gerados são as potências de yˆt = xt •b (onde: b é o estimador de β quando o
vector dos regressores é xt • ; vˆt = yt − xt •b são os respectivos resíduos MQ), e não as po-
tências de yˆt = xt • βˆ + δˆ wt (onde: βˆ e δˆ são estimadores MQ de β e δ , respectiva-
mente; os resíduos MQ são uˆt = yt − xt • βˆ − δˆ wt ).
Se a variável omitida, wt , está correlacionada com xt • , existem regressores en-
dógenos, e o teste RESET não pode ser utilizado. No entanto, se E ( wt | xt • ) = xt •α (li-
near em xt • ) é imediato verificar que E ( yt | xt • ) é também linear em xt • . Com efeito,
E ( yt | xt • ) = E ( xt • β + δ wt + ut | xt • ) = xt • β + xt • (δ α ) = xt • ( β + δ α ) .

Fazendo wt = xt •α + et , onde E (et | xt • ) = 0 , obtém-se yt = xt • ( β + δ α ) + vt , onde


vt = ut + et e E (vt | xt • ) = 0 . Então, pode fazer-se o teste RESET deste modelo, não sen-
do possível detectar a variável omitida, wt .
A hipótese E ( wt | xt • ) = xt •α permite concluir que wt e xt • estão correlacionados
porque E ( wt xt • ) = E{E ( wt xt • | xt • )} = E{E ( wt | xt • ) xt • } = E{( xt •α ) xt • } ≠ 0 . Contudo, facil-
mente se conclui que a utilização do teste RESET não depende da intensidade (forte ou
fraca) daquela correlação.

Exemplo 3.3 – Retome-se o modelo do exemplo 3.2, onde as variáveis explicativas de


lsalar são educ, exper e empc. Acrescente-se, por exemplo, o quadrado e cubo dos valo-
res ajustados de lsalar. Assim,
^ ^
lsalart = β1 + β 2educt + β 3expert + β 4empct + δ 2 lsalart 2 + δ 3 lsalart3 + vt .

A hipótese nula do teste RESET é H 0 : δ 2 = 0 ∧ δ 3 = 0 . Supondo que existe ho-


mocedasticidade condicionada, o valor observado do rácio-F é 0.4398. Neste caso,
como a distribuição limite é uma F-Snedcor com 2 e 994 graus liberdade, o valor-p é
0.664. Então, não se rejeita a hipótese nula, isto é, a evidência estatística é favorável a
que a forma funcional do modelo original, com as variáveis explicativas consideradas, é
adequada. Se se acrescentasse a potência de expoente 4 dos valores ajustados de lsalar,
a conclusão seria semelhante, porque o valor-p subia para 0.8.
No caso de heterocedasticidade condicionada, o valor observado da estatística Q
[ver (3.47)] é 0.9958, em que a distribuição do qui-quadrado tem 2 graus de liberdade.
Como o respectivo valor-p é 0.608, mantém-se a evidência a favor da adequação do mo-
delo original.
Quando se acrescenta a variável explicativa qi, pode verificar-se que a estimação
MQ do novo modelo mostra que a esta variável é significativa (o rácio-t clássico é 6.6).
É óbvio que os testes RESET atrás efectuados não permitem detectar a omissão da va-
riável qi. Pode apenas testar se a forma funcional adoptada não é rejeitada quando se
consideram as variáveis explicativas educ, exper e empc.

Capítulo 3 – MRL com Regressores Pré-Determinados 55

3.9 - Testes de heterocedasticidade condicionada

Como se sabe, os resultados obtidos no contexto do MRL-RPD (embora assintó-


ticos) permitem continuar a fazer inferência estatística sobre os parâmetros do modelo,
mesmo quando há heterocedasticidade condicionada, e é desconhecido o seu padrão.
Nestas circunstâncias, pode afirmar-se que os testes disponíveis para detectar heteroce-
dasticidade condicionada perdem muito da sua importância.
Apesar disso, nalguns casos é razoável testar a presença de heterocedasticidade
condicionada para fundamentar a escolha dos erros padrão do estimador MQ dos coefi-
cientes de regressão: clássicos ou robustos.
Considere-se o modelo yt = xt • β + ut , com termo independente. Vão manter-se
as hipóteses apresentadas no início da secção 3.7 (RPD.1, RPD.2’, RPD.3’, RPD.4 e
RPD.5’). De notar que a hipótese RPD.3’, E (ut | xt • ) = 0 , é particularmente importante
porque a classe de testes que se vai apresentar não é válida se se considerar a hipótese
mais fraca da ortogonalidade: E ( xt •ut ) = 0 . Assim, supõe-se que o modelo está correcta-
mente especificado, isto é, E ( yt | xt • ) = xt • β .
A formalização de qualquer teste de heterocedasticidade condicionada é a se-
guinte:
H 0 : E (ut2 | xt • ) = σ 2 contra H1 : E (ut2 | xt • ) depende de xt • .

Nestes testes, a hipótese nula contempla sempre o caso de homocedasticidade


condicionada, e a hipótese alternativa refere-se à heterocedasticidade condicionada.
Para testar H 0 vai considerar-se as covariâncias, Cov{h( xt • ), ut2 } , onde
h( xt • ) = [ h2 ( xt • ) h3 ( xt • ) L hq ( xt • ) ]

é uma função vectorial de xt • , com q − 1 componentes. Sob H 0 , estas covariâncias são


nulas, qualquer que seja a escolha de h( xt • ) . O teste é efectuado com base no modelo
ut2 = α1 + ht •α + vt ,

onde ht • = h( xt • ) , α = [ α 2 α 3 L α q ] T é um vector de parâmetros de tipo (q − 1) × 1 e


a característica da matriz Cov(ht • ) é igual a q − 1 (não há multicolinearidade exacta).
Sob H 0 , tem-se E (vt | ht • ) = E (vt | xt • ) = 0 , α = 0 e α1 = σ 2 . Deste modo, qual-
quer teste de heterocedasticidade condicionada resume-se a testar
H 0 : α = 0 contra H1 : α ≠ 0 .

Para usar os testes clássicos é necessário que a variável residual vt seja condi-
cionalmente homocedástica, ou seja, E (vt2 | xt • ) = σ v2 (constante). Sob H 0 , esta condição
implica que E (ut4 | xt • ) seja também constante [com efeito, como ut2 = σ 2 + vt e
ut4 = σ 4 + vt2 + 2σ 2vt , vem E (ut4 | xt • ) = σ 4 + σ v2 = κ 2 ]. A condição E (ut4 | xt • ) = κ 2 cha-
ma-se homokurtosis condicionada, e estabelece que o quarto momento de ut condi-
cionado por xt • é constante. A homokurtosis verifica-se sempre que ut é independente
de xt • . Caso contrário, pode acontecer que E (ut | xt • ) = 0 , E (ut2 | xt • ) = σ 2 e E (ut4 | xt • )
depende de xt • .
Capítulo 3 – MRL com Regressores Pré-Determinados 56

Na prática, não se pode fazer a regressão de ut2 sobre 1 e ht • porque ut não é


observável. Deve, então, substituir-se ut por ût (resíduos MQ do modelo original), e fa-
zer a regressão auxiliar de uˆt2 sobre 1 e ht • . Para testar H 0 : α = 0 , é imediato que po-
de usar-se, de acordo com o princípio de Wald, o rácio-F clássico que tem distribuição
limite F (q − 1, n − q) .
Alternativamente, baseado no princípio do multiplicador de Lagrange, pode
demonstrar-se que a estatística n R 2 , onde R 2 é o coeficiente de determinação da re-
gressão auxiliar, tem distribuição limite χ 2 (q − 1) (ver secção 3B.3). Em resumo, a me-
cânica deste teste é a seguinte:
1) Calcular os resíduos MQ do modelo proposto, yt = xt • β + ut : ût .
2) Fazer a regressão auxiliar MQ de uˆt2 sobre 1 e ht • .
3) A estatística-teste é
d
(3.62) n R 2 → χ 2 (q − 1) ,
onde R 2 é o coeficiente de determinação da regressão auxiliar.

Para esclarecer a importância da hipótese RPD.3’, deve notar-se o seguinte: co-


mo E ( xt •ut ) = 0 não implica E (ut | xt • ) = 0 , a mera hipótese de ortogonalidade não ga-
rante que xt • β seja a especificação correcta de E ( yt | xt • ) . Quando se faz um teste de
heterocedasticidade condicionada nestas condições, mediante a regressão MQ de uˆt2 so-
bre 1 e ht • , a detecção de “heterocedasticidade” pode apenas significar que a forma fun-
cional de E ( yt | xt • ) não está correcta.
Pode referir-se dois casos particulares, muito utilizados nas aplicações práticas,
de testes de heterocedasticidade condicionada: o teste de Breusch-Pagan e o teste de
White.
No teste de Breusch-Pagan (BP), faz-se h( xt • ) = [ xt 2 xt 3 L xtk ] ( q = k ). O
teste é baseado no modelo:
ut2 = α1 + α 2 xt 2 + α 3 xt 3 + L + α k xtk + vt .

A estatística-teste é
d
(3.63) BP = n R 2 → χ 2 (k − 1) ,
onde R 2 é o coeficiente de determinação da regressão auxiliar MQ de uˆt2 sobre xt • .
Este teste é baseado no princípio do multiplicador de Lagrange, mas também po-
dia utilizar-se o rácio-F (princípio de Wald) para testar a nulidade de todos os coeficien-
tes da regressão auxiliar (excepto o termo independente). Pode provar-se que as estatís-
ticas BP e F são assintoticamente equivalentes.
No teste de White, supõe-se que ht • é formado por todos os elementos únicos e
não constantes da matriz xtT• xt • . Por exemplo, se yt = β1 + β 2 xt 2 + β 3 xt 3 + ut , tem-se
ht • = [ xt 2 xt 3 xt22 xt23 xt 2 xt 3 ] ( q = 6 ).

Neste exemplo, o teste é baseado no modelo:


Capítulo 3 – MRL com Regressores Pré-Determinados 57

ut2 = α1 + α 2 xt 2 + α 3 xt 3 + α 4 xt22 + α 5 xt23 + α 6 xt 2 xt 3 + vt .

A estatística-teste é dada por


d
(3.64) W = n R 2 → χ 2 (q − 1) ,
onde R 2 é o coeficiente de determinação da regressão auxiliar MQ de uˆt2 sobre 1 e ht •
(q é o respectivo número de regressores, incluindo o termo independente).
Alternativamente, com base no princípio de Wald, pode utilizar-se o rácio-F pa-
ra testar a nulidade de todos os coeficientes da regressão auxiliar (excepto o termo inde-
pendente), provando-se que as estatísticas W e F são assintoticamente equivalentes.
Os números de graus de liberdade das distribuições do qui-quadrado dos testes
de Breusch-Pagan e de White dependem de k (o número de regressores do modelo origi-
nal). No caso do teste de White, o número de regressores pode tornar-se muito elevado,
o que tende a reduzir a potência do teste. Por exemplo, se no modelo proposto existi-
rem oito regressores (incluindo o termo independente), vem q = 36 . Em geral, tem-se
q = k (k + 1) / 2 . O problema da potência do teste é ilustrado no exemplo 3.4.
Para mitigar este inconveniente, pode propor-se um teste, designado por teste de
White simplificado, que combina aspectos daqueles dois testes, e em que o número de
graus de liberdade não depende de k. Fazendo ht • = [ yˆt yˆt2 ], onde yˆt = xt •b (função li-
near de xt • ), a distribuição do qui-quadrado (distribuição limite da estatística-teste) tem
sempre dois graus de liberdade. Assim, o teste é baseado no modelo
ut2 = α1 + α 2 yˆt + α 3 yˆt2 + vt .

A estatística-teste é
d
Ws = n R 2 → χ 2 (2) ,

onde R 2 é o coeficiente de determinação da regressão auxiliar MQ de uˆt2 sobre 1, ŷt e


yˆ t2 . O facto de se utilizarem os regressores gerados, ŷt e yˆ t2 , não prejudica a validade
do teste porque, sob a hipótese nula, tem-se α 2 = 0 e α 3 = 0 .

Exemplo 3.4 – Retome-se o exemplo 3.2. Pretende-se testar se existe heterocedasticida-


de condicionada. Quando se utiliza o teste de Breusch-Pagan, faz-se a regressão auxiliar
MQ de uˆt2 (quadrados dos resíduos MQ do modelo original) sobre 1, educt , expert e
empct , de forma a obter o respectivo coeficiente de determinação, o único resultado de
interesse para efectuar o teste. Tem-se BP = n R 2 = 1000 × 0.00166176 = 1.66176 . Como
o valor crítico da distribuição do qui-quadrado com 3 graus de liberdade, a 0.05, é 7.81
(o valor-p é 0.64), não se rejeita a hipótese da homocedasticidade condicionada.
No teste de White faz-se a regressão auxiliar MQ de uˆt2 sobre 1, educt , expert ,
empct , educt2 , expert 2 , empct2 , educt × expert , educt × empct e expert × empct . Obtém-
-se W = n R 2 = 1000 × 0.013975 = 13.975 . Como o valor crítico da distribuição do qui-
-quadrado com 9 graus de liberdade (número de coeficientes da regressão auxiliar sem
contar com o termo independente), a 0.05, é igual a 16.92 (o valor-p é aproximadamente
Capítulo 3 – MRL com Regressores Pré-Determinados 58

0.12), pode ainda concluir-se que não se rejeita a hipótese da homocedasticidade con-
dicionada.
No caso do teste de White simplificado, faz-se a regressão auxiliar de
^ ^
uˆt2 sobre 1, lsalart e lsalart 2 ,

obtendo-se Ws = n R 2 = 1000 × 0.00920578 = 9.20578 . Como o valor crítico da distribui-


ção do qui-quadrado com 2 graus de liberdade, a 0.05, é igual a 5.99 (o valor-p é aproxi-
madamente 0.01), a evidência aponta para rejeitar a hipótese da homocedasticidade con-
dicionada.
Na dúvida, a inferência estatística deve basear-se nos erros padrão robustos cal-
culados no exemplo 3.2.

3.10 - Autocorrelação

Quando os dados são temporais pode ter-se uma situação de autocorrelação,


isto é, uma situação em que existe alguma covariância não nula entre as variáveis resi-
duais.
A propósito da hipótese RPD.5 foi observado que, se o modelo tem termo inde-
pendente, o processo {ut } das variáveis residuais é uma diferença-martingala, não ha-
vendo autocorrelação. Assim, a existência de autocorrelação implica que {g t • } , onde
g t • = xt •ut , não é uma diferença-martingala, não se verificando uma das hipóteses bási-
cas do MRL-RPD (RPD.5).
Quando se considera o modelo de regressão linear yt = xt • β + ut , se dispõe de n
observações ( t = 1, 2, K , n ), e se estabelece que Cov(ut , ut −s ) ≠ 0 ( s = 1, 2, K , n − 1) , sem
mais restrições, o número de autocovariâncias desconhecidas pode ser muito elevado,
podendo atingir m = n(n − 1) / 2 (se n = 20 , m = 190 ). Como o número de parâmetros
desconhecidos excede o número de observações, é necessário impor algumas condições
sobre as covariâncias entre as variáveis residuais de forma a reduzir o número de parâ-
metros a estimar.
A hipótese da estacionaridade em covariância permite escrever
γ s = Cov(ut , ut −s ) ,
o que introduz uma redução drástica no número de autocovariâncias desconhecidas.
Com efeito, se existirem n observações, o número de autocovariâncias (coeficientes de
autocorrelação) a estimar é de n − 1 . Tem-se, então,
 γ0 γ1 L γ n −1   1 ρ1 L ρ n −1 
γ γ0 L γ n − 2   ρ 1 L ρ n − 2 
(3.65) Cov(U ) = Σ =  1 2 
= σu 1
.
 M M M   M M M 
   
γ n −1 γ n−2 L γ0   ρ n −1 ρn − 2 L 1 
Capítulo 3 – MRL com Regressores Pré-Determinados 59

Esta redução do número de autocovariâncias ainda não é suficiente, pois existem


agora n + k parâmetros desconhecidos (os k coeficientes de regressão, β j ; a variância,
σ u2 = γ 0 ; as n − 1 autocovariâncias, γ t , t = 1, K , n − 1 ).
Quando existe autocorrelação, podem adoptar-se três procedimentos:
1) A existência de autocorrelação pode ser um sintoma de inadequada especificação
do modelo. Com efeito, quando se estabelece a relação yt = xt • β + ut , e se admite
que todas as variáveis explicativas relevantes estão incluídas na componente siste-
mática do modelo, xt • β , é razoável esperar que as variáveis residuais não estão
autocorrelacionadas. Contudo, se existirem variáveis explicativas relevantes que
não foram explicitadas naquela componente, estas variáveis omitidas estão abrangi-
das pela variável residual. Se alguma daquelas variáveis omitidas estiver autocorre-
lacionada (como sucede com muitas variáveis económicas), obviamente também
existe autocorrelação nas variáveis residuais. Deste modo, a autocorrelação pode
ser um indicador de uma inadequada especificação do modelo. Nestas condições,
é natural que o investigador procure alterar a especificação do modelo, aprofun-
dando a análise do fenómeno em estudo. Em muitos casos, esta reformulação passa
por alterar a estrutura dinâmica do modelo (por exemplo, introduzindo mais desfa-
samentos nas variáveis de forma a obter um modelo dinamicamente completo).
2) Admitir que a autocorrelação é inerente ao fenómeno em estudo, e introduzir mais
restrições sobre as covariâncias, modelando o comportamento das variáveis resi-
duais. Neste caso, procura estabelecer-se um padrão de autocorrelação.
3) Aceitar a existência de autocorrelação sem conhecer o seu padrão, e estimar os pa-
râmetros com o método MQ, calculando os respectivos erros padrão robustos.

Na prática, provavelmente o procedimento mais utilizado é o primeiro. O segun-


do, vai ser explorado nesta subsecção, embora seja a via menos interessante. O terceiro
procedimento vai ser explorado no final desta secção.
O padrão de autocorrelação mais conhecido estabelece que as variáveis ut se-
guem um processo auto-regressivo de primeira ordem,
(3.66) ut = ϕ ut −1 + ε t ,

onde {ε t } é um ruído branco, isto é, qualquer que seja t, E (ε t ) = 0 , Var(ε t ) = σ ε2 , e


quaisquer que sejam t e s, Cov(ε t , ε s ) = 0 para t ≠ s ; escreve-se ut ~ AR (1) .
Como se sabe (ver secção 3.2), este processo é estacionário em covariância se e
só se | ϕ | < 1 . Tem-se:
− ut = ε t + ϕ ε t −1 + ϕ 2ε t −2 + L ;

− E (ut ) = 0 ;
σ ε2
− Var (ut ) = σ = 2
;
1−ϕ 2
u

ϕs
− Cov(ut , ut −s ) = γ s = σ u2 ϕ s = σ ε2 ;
1−ϕ 2
− ρs = ϕ s ( s = 0,1, 2, K) .
Capítulo 3 – MRL com Regressores Pré-Determinados 60

Então,
 1 ϕ L ϕ n −1 
 
1  ϕ 1 L ϕ n−2 
(3.67) Cov(U ) = Σ = σ ε
2
.
1−ϕ2  M M M 
 n −1 n − 2 
ϕ ϕ L 1 

Neste caso, o modelo tem apenas k + 2 parâmetros desconhecidos (os k coefi-
cientes de regressão, β j , a variância de ε t , σ ε2 , e o parâmetro do processo auto-regres-
sivo de primeira ordem, ϕ ).
Outra especificação possível do comportamento das variáveis residuais é dada
pelo processo de médias móveis de primeira ordem,
(3.68) ut = ε t + θ ε t −1 ,

onde {ε t } é um ruído branco. Escreve-se então, ut ~ MA(1) .


Tem-se (ver secção 3.2):
− E (ut ) = 0 ;

− Var(ut ) = σ u2 = σ ε2 (1 + θ 2 ) ;

− Cov(ut , ut −1 ) = γ 1 = σ ε2θ ; Cov(ut , ut − s ) = γ s = 0 ( s = 2, 3,K) ;


θ
− ρ1 = ; ρ s = 0 ( s = 2, 3,K) .
1+θ 2
Então,
1 + θ 2 θ L 0 
 
2 θ 1+θ 2 L 0 
(3.69) Cov(U ) = Σ = σ ε  .
M M M 
 
 0 0 L 1+θ 2

Neste caso, o modelo tem k + 2 parâmetros desconhecidos (os k coeficientes de
regressão, β j , a variância de ε t , σ ε2 , e o parâmetro do processo de médias móveis de
primeira ordem, θ ).
Podem definir-se com facilidade processos AR e MA de ordens superiores à pri-
meira. Assim, tem-se um processo AR(p) quando
ut = ϕ1ut −1 + ϕ 2ut −2 + L + ϕ p ut − p + ε t .

Os processos MA(q) são definidos por


ut = ε t + θ1 ε t −1 + θ 2 ε t −2 + L + θ q ε t −q .

É possível combinar os dois tipos de processos,


ut = ϕ1ut −1 + ϕ 2ut −2 + L + ϕ p ut − p + ε t + θ1 ε t −1 + θ 2 ε t −2 + L + θ q ε t −q ,

obtendo-se os processos ARMA(p,q). Estes processos mais gerais vão ser estudados no
capítulo 9.
Capítulo 3 – MRL com Regressores Pré-Determinados 61

Propriedades do estimador MQ na presença de autocorrelação

De acordo com a propriedade 3.1, as hipóteses RPD.1 a RPD.4 bastam para pro-
var que o estimador MQ de β é consistente, mesmo que haja heterocedasticidade con-
dicionada e autocorrelação.
Quando existe autocorrelação, e o modelo tem termo independente, não se veri-
fica a hipótese RPD.5, e o estimador b não verifica (3.38). Em particular, a respectiva
matriz das covariâncias assintóticas não é dada por (3.39). Deste modo, os resultados
para a inferência estatística apresentados nas secções 3.5 e 3.6 deixam de ser válidos.
Apresentam-se a seguir dois exemplos que ajudam a esclarecer as relações entre
a consistência do estimador MQ e a autocorrelação:
− Considere-se que o valor esperado de yt condicionado por yt −1 é linear, isto é, seja o
modelo
E ( yt | yt −1 ) = α + β yt −1 ,

onde se supõe que | β | < 1 .


Fazendo ut = yt − E ( yt | yt −1 ) = yt − (α + β yt −1 ) , facilmente se verifica que
yt = α + β yt −1 + ut
E (ut | yt −1 ) = 0 .

Como, por construção, este modelo satisfaz a hipótese RPD.3, fica garantido que os
estimadores MQ dos coeficientes de regressão são consistentes, haja ou não haja au-
tocorrelação dos ut . A condição E (ut | yt −1 ) = 0 garante a não correlação de ut com
yt −1 , mas ut e yt −2 podem estar correlacionados.
Neste caso, como ut −1 = yt −1 − (α + β yt − 2 ) , tem-se
Cov(ut , ut −1 ) = E (ut ut −1 ) = E{ut ( yt −1 − α − β yt − 2 )}
= − β E (ut yt − 2 ) = − β Cov(ut , yt − 2 ) ≠ 0 ,

se Cov(ut , yt − 2 ) ≠ 0 . Assim, obtém-se um modelo em que o regressor (a variável ex-


plicada desfasada) é pré-determinado, existe autocorrelação das variáveis residuais,
mas os estimadores MQ dos coeficientes de regressão são consistentes.
− Considere-se, agora, o modelo
yt = α + β yt −1 + ut
ut = ϕ ut −1 + ε t ( | ϕ | < 1)
E (ε t | ut −1 , ut − 2 , K) = E (ε t | yt −1 , yt − 2 , K) = 0 .

Facilmente se conclui que


Cov( yt −1 , ut ) = E ( yt −1ut ) = E{ yt −1 (ϕ ut −1 + ε t )}
= ϕ E ( yt −1ut −1 ) = ϕ Cov( yt −1 , ut −1 ) ≠ 0 ,

isto é, não se verifica a hipótese RPD.3. Neste caso, os estimadores MQ dos coefi-
cientes de regressão não são consistentes.
Capítulo 3 – MRL com Regressores Pré-Determinados 62

Mas qual é o interesse em estimar os coeficientes de regressão do modelo anterior,


quando ut ~ AR (1) ? Considerar o regressor yt −2 implica que a autocorrelação desa-
parece? Com efeito, notando que ut −1 = yt −1 − (α + β yt −2 ) , obtém-se
yt = α + β yt −1 + ut = α + β yt −1 + ϕ ut −1 + ε t = α + β yt −1 + ϕ ( yt −1 − α − β yt − 2 ) + ε t ,

ou
yt = δ 0 + δ1 yt −1 + δ 2 yt − 2 + ε t ,

onde: δ 0 = α (1 − ϕ ) ; δ 1 = β + ϕ ; δ 2 = −ϕ β . Verifica-se, portanto, que a variável yt


segue um processo AR(2), e não há autocorrelação nas variáveis residuais. Neste
caso, os estimadores MQ dos δ j são consistentes.

Testes de autocorrelação

A detecção de autocorrelação é feita por meio de testes de hipóteses, onde a


hipótese nula é sempre a da ausência de autocorrelação.
Nesta subsecção vão estudar-se vários métodos para testar a existência de auto-
correlação, supondo, para simplificar, que o modelo de regressão tem termo indepen-
dente.
Começa por apresentar-se um teste do t para o caso particular em que a hipótese
alternativa é a de que as variáveis residuais seguem um processo AR(1) nos moldes
atrás referidos.
A mecânica do teste, conhecido pela designação de teste de Durbin alternati-
vo, é a seguinte:
1) Obter os resíduos MQ, ût , do modelo de regressão proposto.
2) Fazer a regressão de ût sobre uˆt −1 e os regressores originais do modelo de regres-
são, de modo a obter o estimador ϕ̂ do coeficiente de uˆt −1 . O respectivo rácio-t tem
distribuição limite normal estandardizada,
d
tϕˆ → N (0,1) ,

supondo a hipótese nula verdadeira.


3) Utilizar a estatística tϕ̂ para efectuar o teste, reportando o respectivo valor-p.

A apresentação dos testes de detecção de autocorrelação em geral (no MRL


com regressores pré-determinados) necessita que se faça previamente um estudo mais
geral, considerando um processo estocástico {zt } , estacionário em covariância.
Como se sabe, as autocovariâncias e os coeficientes de autocorrelação de ordem
s são, respectivamente,
γ s Cov( zt , zt −s )
γ s = Cov( zt , zt −s ) e ρ s = = ( s = 0,1, 2, K) .
γ0 Var( zt )
Capítulo 3 – MRL com Regressores Pré-Determinados 63

Dispondo de uma amostra de dimensão n deste processo, {z1 , z2 ,K, z n } , pode


obter-se as respectivas autocovariâncias amostrais, e os respectivos coeficientes de
autocorrelação amostrais de ordem s ( s = 0,1, 2, K) :


n
1 n γˆ ( zt − z n )( zt −s − z n )
(3.70) γˆs = ∑t =s +1 ( zt − z n )( zt −s − z n ) ; ρˆ s = s = t = s +1
,
γˆ0 ∑t =1 ( zt − zn ) 2
n
n
onde
1 n
zn = ∑ zt .
n t =1
Deve notar-se que embora na expressão de γˆ s haja apenas n − s parcelas, a so-
ma é dividida por n, e não por n − s . Esta diferença não é importante no caso de grandes
amostras, mas pode ser substancial quando se tem uma amostra pequena.
Facilmente se prova que se {zt } é estacionário e ergódico, então γˆ s é consisten-
te para γ s ,
(3.71) plim(γˆs ) = γ s ( s = 0,1, 2, K) .

Com efeito, como


γ s = E ( zt zt −s ) − E ( zt ) E ( zt −s ) = E ( zt zt −s ) − µ z2 ,
onde µ z = E ( zt ) = E ( zt −s ) , e
1 n  1 n 1 n n−s 
γˆs =
n
∑ z z −  z n ∑t =s +1 zt −s + z n ∑t =s +1 zt −
t = s +1 t t − s
 n n n
( zn ) 2  ,

tem-se
1 n 
plim  ∑t =s +1 zt zt −s  = E ( zt zt −s ) ,
n 
 1 n 1 n n−s 
plim  z n ∑t =s+1 zt −s + z n ∑t =s +1 zt − ( zn ) 2  = µ z2 + µ z2 − µ z2 = µ z2 ,
 n n n 
ficando, assim, provado (3.71).
Conclui-se imediatamente que
(3.72) plim(ρˆ s ) = ρ s ( s = 0,1, 2, K) .

Em particular, se {zt } é não autocorrelacionado, todos os coeficientes de auto-


correlação convergem em probabilidade para 0. Embora estes resultados sejam impor-
tantes, é necessário conhecer a distribuição assintótica de ρ̂ s . Pode provar-se que:
Capítulo 3 – MRL com Regressores Pré-Determinados 64

Teorema 3.9 [Hall e Heyde (1980)]


Suponha-se que zt = µ + ε t , onde o processo {ε t } é uma diferença-martingala estacio-
nária a verificar E (ε t2 | ε t −1 , ε t −2 , K) = σ 2 > 0 (auto-homocedasticidade condicionada).
Seja:
 γˆ1   ρˆ1 
γˆ   ρˆ 
γˆ =   ; ρˆ =   .
2 2

M  M 
   
γˆ p   ρˆ p 
Então,
d d
(3.73) n γˆ → N ( p ) (0, σ 4 I p ) e n ρˆ → N ( p ) (0, I p ) .

Dem.: Ver secção 3D.3


∇∇

O processo {ε t } considerado no teorema anterior é mais geral do que um ruído


branco independente, mas o segundo momento condicionado tem que ser constante.
Para testar isoladamente se existe autocorrelação de ordem s, a hipótese nula é
H 0 : ρ s = 0 . O teorema anterior garante que a respectiva estatística-teste tem distribui-
ção limite normal estandardizada,
d
(3.74) n ρˆ s → N (0,1) ( s = 1, 2, K , p) .

Tem particular interesse o teste de autocorrelação de 1.ª ordem. Neste caso, a hi-
pótese nula é H 0 : ρ1 = 0 .
Também se pode testar se várias autocorrelações (da ordem 1 até à ordem p) são
conjuntamente nulas: H 0 : ρ = 0 , onde
ρ 
 1
ρ
ρ =  2  .
M
 
 ρ p 

Atendendo a (3.73), os elementos do vector


 n ρˆ1 
 
 n ρˆ 2 
n ρˆ =
 M 
 
 n ρˆ p 

são assintoticamente independentes, e cada um deles tem distribuição limite normal es-
tandardizada,
d
n ρˆ s → N (0,1) ( s = 1, 2, K , p) .
Capítulo 3 – MRL com Regressores Pré-Determinados 65

Fazendo a soma dos quadrados destas variáveis aleatórias, obtém-se a estatística


Q de Box-Pierce, que tem distribuição limite do qui-quadrado com p graus de liberda-
de,
2 d
QBP = n ∑ s =1 ρˆ s2 = ∑ s =1  n ρˆ s  → χ 2 ( p) .
p p
(3.75)
 
Pode dispor-se de uma estatística alternativa a esta, chamada estatística Q de
Ljung-Box, assintoticamente equivalente. Tem-se
ρˆ s2 n+2 
2 d
QLB = n(n + 2) ∑ s =1 = ∑ s =1
p p
(3.76)  n ρ
ˆ s  → χ ( p) .
2
n−s n−s  
Para provar a equivalência assintótica entre (3.75) e (3.76) basta verificar que a
diferença QBP − QLB converge em probabilidade para 0. Seja

p  n + 2   2
QBP − QLB = ∑ s =1 1 − ρ 
s  = a• n w• n ,
T
ˆ
 n − s  
n
  

onde
 n+2  2
1 −   n ρˆ  
 n −1 
  
1
 
1 − n + 2   
2

n − 2   n ρ2  
ˆ
a• n =   e w = 
 •n 
 .

 M   M 
   
1 − n + 2   n ρˆ  
2

 n − p   
  
p

Como
 w1 
 
d w2
lim a• n = 0 e w• n → w =   ,
n → +∞ M 
 
 wp 

com ws ~ χ 2 (1) ( s = 1, 2, K , p) , então, devido à propriedade c) que relaciona a conver-


gência em probabilidade com a convergência em distribuição, conclui-se imediatamente
que plim (QBP − QLB ) = 0 .
Muitas vezes, com pequenas amostras, (3.76) fornece resultados mais aproxima-
dos do que (3.75). Em qualquer dos casos, não se têm indicações para a escolha de p. Se
p é demasiado pequeno, há o perigo de ignorar autocorrelações de ordem superior; se p
é demasiado grande, os resultados, para pequenas amostras, podem deteriorar-se.
Retome-se o MRL-RPD, a verificar as hipóteses RPD.1 a RPD.5, e o processo
{ut } das variáveis residuais. Como se admite que o modelo tem termo independente,
tem-se E (ut ) = 0 . Então,
Capítulo 3 – MRL com Regressores Pré-Determinados 66

γ s E (ut ut −s )
γ 0 = E (ut2 ) = σ 2 ; γ s = E (ut ut −s ) ( s = 1, 2, K) ; ρ s = = .
γ0 σ2
Se as variáveis residuais fossem observáveis, os coeficientes de autocorrelação
amostrais seriam dados por
γ~
(3.77) ρ~s = ~s ( s = 1, 2, K) ,
γ 0

onde
1 n
(3.78) γ~s = ∑ ut ut −s (s = 0,1, 2,K) .
n t = s +1
Como o processo {ut ut − s } é estacionário e ergódico, conclui-se que:
d
− plim(γ~s ) = γ s ; plim( ρ~s ) = ρ s ; n ρ~s → N (0,1) ;

p n+2
2 d 2 d
− QBP = ∑ s =1  n ρ~s  → χ 2 ( p) ; QLB = ∑ s =1  n ρ~s  → χ ( p) .
p 2

  n−s  
Como as variáveis residuais não são observáveis, deve utilizar-se os resíduos
MQ, ût . Assim, tem-se
γˆ s
(3.79) ρˆ s = ( s = 1, 2, K) ,
γˆ0
onde
1 n
(3.80) γˆ s = ∑ uˆt uˆt −s (s = 0,1, 2,K) .
n t = s +1
[Note-se que a soma dos resíduos é nula, pois o modelo tem termo independente].
Quando se utiliza (3.79) em (3.75) e (3.76), põe-se a seguinte questão: as respec-
tivas estatísticas QBP e QLB têm distribuições limite do qui-quadrado, sendo então pos-
sível testar a autocorrelação? A resposta a esta questão é afirmativa no caso em que os
regressores são estritamente exógenos (ver secção 3D.4).
Quando os regressores são pré-determinados, não está garantido que se veri-
fique E ( xt •ut − s ) = 0 e E ( xt − s ,•ut ) = 0 . Logo, as estatísticas Q podem não ter distribuição
limite do qui-quadrado, e, portanto, têm de ser modificadas.
Para este efeito, considerem-se as seguintes condições:
1) E (ut | ut −1 , ut −2 , K , xt • , xt −1,• , K) = 0 ;
2) E (ut2 | ut −1 , ut −2 , K , xt • , xt −1,• , K) = σ 2 > 0 .

A condição 1) é meramente a reprodução de (3.36); é uma hipótese mais forte


de pré-determinação, e implica (3.34) [o processo {g t • } , onde g t • = xt •ut , é uma dife-
rença-martingala]. A condição 2) é uma hipótese mais forte de auto-homocedasticidade
condicionada – comparada com a do teorema de Hall e Heyde –, uma vez que o conjun-
to de variáveis aleatórias condicionantes inclui também as observações correntes e pas-
sadas dos regressores.
Capítulo 3 – MRL com Regressores Pré-Determinados 67

O teorema seguinte permite estabelecer uma modificação da estatística QBP ,


apropriada para testar autocorrelação em modelos com regressores pré-determinados.

Teorema 3.10
Considere-se um modelo de regressão a satisfazer as hipóteses RPD.1, RPD.2, RPD.4 e
as condições 1) e 2). Se ρ̂ s é dado por (3.79) então,
d d
(3.81) n γˆ → N ( p ){ 0, σ 4 ( I p − Φ)} e n ρˆ → N ( p ) (0, I p − Φ ) ,

onde o elemento φsr da matriz quadrada de ordem p, Φ , é dado por


E ( xt •ut − s ) E ( xtT• xt • ) −1 E ( xtT•ut − r )
(3.82) φsr = ( s, r = 1, 2, K , p ) ,
σ2
e os vectores γˆ e ρ̂ são definidos tal como em (3.73).

Dem.: Ver secção 3D.5.


∇∇

De acordo com o teorema da ergodicidade, a matriz Φ̂ é um estimador consis-


tente de Φ , onde
1 n  1 n 
 ∑t = s +1 xt •uˆt − s  S xx−1  ∑t = r +1 xtT•uˆt − r 
n n
(3.83) φˆsr =  
2
 ( s, r = 1, 2, K , p ) ,
s
e
1

n
s2 = uˆ 2 .
t =1 t
n−k
Nestas condições, a estatística Q de Box-Pierce modificada é a seguinte:
d
(3.84) QBP ˆ ) −1 ρˆ → χ 2 ( p ) .
′ = n ρˆ T ( I p − Φ

Embora o cálculo desta estatística não seja difícil, é útil conhecer uma estatísti-
ca assintoticamente equivalente, que pode ser calculada mediante duas regressões
MQ:
1) Regressão de yt sobre xt • (regressão correspondente ao modelo proposto), com o
objectivo de calcular os respectivos resíduos MQ, ût .
2) Regressão auxiliar de ût sobre xt • , uˆt −1 , uˆt −2 , K , uˆt − p , com t = p + 1, p + 2, K , n .
Em alternativa, esta regressão auxiliar pode ser feita com n observações, mas
para isso é necessário atribuir valores aos resíduos uˆ0 , uˆ −1 , K , uˆ − p+1 . Pouco importa
quais são estes valores, pois isso não altera os resultados assintóticos, mas é aconselhá-
vel propor valores iguais aos respectivos valores esperados, ou seja, zero.
A regressão auxiliar do passo 2) permite calcular o rácio-F para testar a hipótese
de nulidade conjunta dos coeficientes de uˆt −1 , uˆt −2 , K , uˆt − p . Atendendo a (3.56), é de es-
perar que
Capítulo 3 – MRL com Regressores Pré-Determinados 68

d
(3.85) pF → χ 2 ( p) .
Esta conjectura é, de facto, verdadeira. Assim, atendendo a (3.84), basta provar
′ e pF são assintoticamente equivalentes (a diferença entre estas duas estatísticas
que QBP
converge em probabilidade para 0).

Teorema 3.11
ˆ ) −1 ρˆ , dada por (3.84), e pF , referida em (3.85), são
′ = n ρˆ T ( I p − Φ
As estatísticas QBP
assintoticamente equivalentes.

Dem.: Ver secção 3D.6.


∇∇

Além disso, é possível demonstrar que as estatísticas pF e (n − p) R 2 , onde R 2 é


o coeficiente de determinação relativo à regressão auxiliar, são assintoticamente equiva-
lentes.
Com efeito, sabe-se que o rácio-F pode ser calculado com uma fórmula seme-
lhante a (2.80) [ver capítulo 2], utilizando as somas dos quadrados dos resíduos MQ
com restrições e sem restrições. Neste caso, a regressão sem restrições é a regressão au-
xiliar, e seja Vˆ TVˆ a respectiva soma dos quadrados dos resíduos MQ. A regressão com
restrições corresponde a fazer a regressão de ût sobre xt • . Como xt • não tem qualquer
poder explicativo nesta regressão, conclui-se que VˆrTVˆr = Uˆ TUˆ .
Então,
Uˆ TUˆ − Vˆ TVˆ R2
pF = (n − k − p ) = ( n − k − p ) ,
Vˆ TVˆ 1 − R2
notando que, neste caso,
Vˆ TVˆ
R2 = 1 − .
Uˆ TUˆ
Resolvendo aquela igualdade em relação a R 2 e multiplicando por n − p , ob-
tém-se
n− p 1
(n − p) R 2 = × pF ,
n − k − p 1 + n−pF
k− p

ou
 n− p 1 
pF − (n − p ) R 2 = 1 − ×  pF .
 n − k − p 1 + pF 
 n−k − p 

Atendendo a (3.85), e como


n− p  pF 
lim = 1 e plim   = 0,
n→+∞ n−k − p n−k − p
vem imediatamente que
Capítulo 3 – MRL com Regressores Pré-Determinados 69

plim{ pF − (n − p) R 2 } = 0 .
Então, tem-se
d
(n− p) R 2 → χ 2 ( p) .
O teste para detectar autocorrelação baseado neste resultado designa-se por teste
de Breusch-Godfrey, e a respectiva estatística-teste é BG = (n − p) R 2 .
Em resumo, o procedimento para efectuar este teste é o seguinte:
1) Calcular os resíduos MQ, ût , do modelo proposto.
2) Fazer a regressão auxiliar dos resíduos MQ sobre os mesmos resíduos desfasados
até à ordem p, uˆt −1 , uˆt −2 , K , uˆt − p , e os regressores considerados no modelo proposto.
3) A estatística-teste é
d
(3.86) BG = (n − p) R 2 → χ 2 ( p) ,
onde R 2 é o coeficiente de determinação da regressão auxiliar; a região de rejeição
encontra-se na aba direita da distribuição.

Quando se faz a regressão auxiliar com as n observações de todas as variáveis, e


se considera que uˆ0 = uˆ −1 = L = uˆ − p +1 = 0 , a estatística BP passa a ser
d
(3.87) BG = nR 2 → χ 2 ( p) .

Exemplo 3.5 – Considere-se que numa empresa monopolista a função custo total (CT)
permite especificar o modelo de regressão linear dado por
CTt = β1 + β 2Qt + β 3Qt2 + ut ,

onde Q é a quantidade produzida. No quadro 3.5 estão disponíveis 48 obervações tri-


mestrais das variáveis do modelo.
Fazendo a respectiva regressão, obtém-se
^
CTt = 742.923 + 13.4 Qt + 0.1872 Qt2 .
(9.005) (0.0275)
Para verificar se existem problemas de autocorrelação é necessário efectuar o
teste de Breusch-Godfrey, onde a hipótese nula corresponde à ausência de autocorre-
lação, e a hipótese alternativa, à presença de autocorrelação de uma certa ordem, p. Fi-
xando esta ordem, faz-se a regressão auxiliar dos resíduos MQ do modelo dado sobre os
mesmos resíduos desfasados até à ordem p, e os regressores do modelo inicial. Como os
dados são trimestrais, é razoável admitir que p = 4 .
Considerando sucessivamente p = 1, 2, 3, 4 , apresentam-se no quadro 3.6 alguns
resultados relativos às quatro regressões auxiliares:
− Coeficientes de determinação;
− Valores da estatística BG e respectivos valores-p [versão (3.86)];
− Valores críticos da distribuição do qui-quadrado correspondentes α = 0.05 ;
Capítulo 3 – MRL com Regressores Pré-Determinados 70

− Valores da estatística pF e respectivos valores-p [versão (3.85)];


− Diferenças entre os respectivos pF e BG.

Quadro 3.5
Observações trimestrais do custo total e da quan-
tidade produzida por uma empresa monopolista
Obs CT Q Obs CT Q
1 11790 206 25 10501 196
2 14503 231 26 6246 138
3 15323 245 27 9419 180
4 3276 96 28 5053 115
5 13523 228 29 8791 173
6 5337 133 30 15690 248
7 8431 178 31 3633 91
8 8960 183 32 9230 177
9 12207 220 33 13459 225
10 14756 244 34 8026 158
11 5923 134 35 7375 151
12 13297 223 36 10517 190
13 8342 161 37 7685 155
14 4593 108 38 5900 129
15 10851 198 39 4393 91
16 5746 138 40 10066 184
17 4925 126 41 3525 73
18 10087 196 42 5580 128
19 13007 226 43 5217 123
20 3449 95 44 6513 141
21 3930 101 45 5638 130
22 9281 183 46 2839 86
23 9463 184 47 8692 187
24 7005 153 48 2151 83

Quadro 3.6
Teste com BG Teste com pF
p R 2
BG Valor-p χ 2
p , 0.05 pF Valor-p pF – BG
1 0.56 26.530 0.00 3.841 55.704 0.00 29.174
2 0.56 25.722 0.00 5.991 51.418 0.00 25.696
3 0.61 27.423 0.00 7.815 59.872 0.00 32.449
4 0.64 28.336 0.00 9.488 65.387 0.00 37.051

No quadro 3.7 apresenta-se o mesmo tipo de resultados quando se consideram as


48 observações para todas as variáveis, e resíduos iniciais nulos.
Capítulo 3 – MRL com Regressores Pré-Determinados 71

Quadro 3.7
Teste com BG Teste com pF
p R 2
BG Valor-p χ 2
p , 0.05 pF Valor-p pF – BG
1 0.56 26.714 0.00 3.841 55.218 0.00 28.504
2 0.56 26.813 0.00 5.991 54.416 0.00 27.603
3 0.57 27.187 0.00 7.815 54.861 0.00 27.654
4 0.57 27.293 0.00 9.488 54.040 0.00 26.747

Observando estes quadros, conclui-se sempre que existe autocorrelação. Nestas


circunstâncias, devia propor-se outra especificação da função custo total.

Exemplo 3.6 – Considere-se os seguintes modelos (ver exemplo 3.1):


Modelo A: ln(importt ) = β1 + β 2 ln( prmt ) + β3 ln( pibt ) + ut .
Modelo B: ln(importt ) = β1 + β 2 ln(importt −1 ) + β3 ln( prmt ) + β 4 ln( pibt ) + ut .

A estimação MQ do modelo A já é conhecida (exemplo 3.1):


^
ln(importt ) = 0.1296 − 0.3882 ln( prmt ) + 1.2425 ln( pibt ) ( s = 0.08374) .

Para efectuar o teste de nulidade de cada coeficiente de regressão, os valores-p


são, respectivamente, 0.053 e 0.000. O teste de autocorrelação, para p = 1 e p = 2 , é
apresentado no quadro 3.8. Verifica-se que há evidência empírica que suporta a exis-
tência de autocorrelação de 1.ª ordem, o que pode ser considerado como um sintoma de
incorrecta especificação do modelo A.
Quadro 3.8

Modelo A Modelo B
p pF Valor-p pF Valor-p
1 3.942 0.047 3.571 0.059
2 3.804 0.149 2.273 0.321

Considere-se o modelo B, introduzindo o regressor ln(importt −1 ) . Estimando


este modelo, obtém-se
^
ln(importt ) = 0.6008 + 0.2976 ln(importt −1 ) − 0.4516 ln( prmt ) + 0.9722 ln( pibt ) .

Os valores-p para testar a nulidade dos coeficientes são 0.115, 0.038 e 0.001,
respectivamente.
Os resultados apresentados no quadro 3.8 mostram que, a 5%, não é de rejeitar a
hipótese da ausência de autocorrelação.

Capítulo 3 – MRL com Regressores Pré-Determinados 72

Utilização do estimador MQ em presença de autocorrelação e inferência robusta

Suponha-se que se tem um modelo de regressão linear com regressores pré-de-


terminados, yt = xt • β + ut . Admita-se que existe autocorrelação (não se verifica a hi-
pótese RPD.5), mas não se conhece a sua estrutura. Que estimador se propõe para o
vector dos coeficientes de regressão? Uma resposta possível é a de continuar a utilizar o
estimador MQ, b, mas dispondo de um estimador consistente para a respectiva matriz
das covariâncias assintóticas, Cov a (b) . Trata-se de um problema semelhante ao que se
estudou no caso da heterocedasticidade condicionada, tendo-se obtido, neste caso, o es-
timador robusto de White daquela matriz.
Embora continue garantida a consistência do estimador b, o abandono da hipóte-
se RPD.5 invalida todos os resultados de inferência estatística obtidos nas secções
3.4, 3.5 e 3.6. Para construir a análise estatística do MRL-RPD com autocorrelação é
necessário substituir RPD.5 por outra hipótese, que, entre outras comdições, redefina a
matriz S [ver no capítulo 9 a condição de Gordin e (9.120)].
Pode provar-se que a distribuição de b é assintoticamente normal (ver capítulo
9), fazendo

S = ∑s=−∞ Γs = Γ0 + ∑s=1 (Γs + ΓsT )


+∞ +∞
(3.88)

onde
Γs = E (ut ut − s xtT• xt −s ,• ) ( s = 0,±1,±2, K ).

[Quando se admite a hipótese RPD.5, tem-se S = Γ0 = E (ut2 xtT• xt • ) ].


Assim:
d
(3.89) n (b − β ) → N ( k ) (0, Qxx−1S Qxx−1 ) ;

(3.90) Ea (b) = β e Cov a (b) = Qxx−1S Qxx−1 .

Para obter um estimador consistente da matriz S, dada por (3.88), é necessário


começar por estimar individualmente as matrizes Γs . Tem-se:
1 n
(3.91) Γˆ s = ∑t = s +1 uˆt uˆt − s xtT• xt − s ,• ( s = 0,1, 2, K , n − 1 ),
n
onde os ût são os resíduos MQ. Newey e West (1987) mostraram que

Sˆ = Γˆ 0 + ∑s =1ω s (Γˆ s + Γˆ sT ) ,
l
(3.92)

onde ω s = 1 − s /(l + 1) , é um estimador consistente de S.


Fazendo Sˆ = (1 / n)Vˆ , facilmente se verifica que

Vˆ = ∑t =1 uˆt2 xtT• xt • + ∑s =1 ∑t = s +1 ω s uˆt uˆt −s ( xtT• xt −s ,• + xtT− s ,• xt • ) .


n l n
(3.93)

A escolha de l depende do tipo de dados temporais: para dados anuais, toma-se


l = 1 , 2 ou 3; com dados trimestrais escolhe-se l = 4 ou 8; se os dados forem mensais
Capítulo 3 – MRL com Regressores Pré-Determinados 73

faz-se l = 12 ou 24. Newey e West recomendam escolher l igual à parte inteira de


4(n / 100) 2 / 9 . Outros autores propõem l igual à parte inteira de n1/ 4 . Por exemplo, para
n = 50 tem-se l = 3 , no primeiro caso, e l = 2 , no segundo.
Note-se que:
1 n
l = 1 ⇒ Vˆ = ∑t =1 uˆt2 xtT• xt • + ∑t = 2 uˆt uˆt −1 ( xtT• xt −1,• + xtT−1,• xt • ) ;
n

2
2 n
l = 2 ⇒ Vˆ = ∑t =1 uˆt2 xtT• xt • + ∑t = 2 uˆt uˆt −1 ( xtT• xt −1,• + xtT−1,• xt • )
n

3
1 n
+ ∑t = 3 uˆt uˆt − 2 ( xtT• xt − 2,• + xtT− 2,• xt • ) ;
3
3 n
l = 3 ⇒ Vˆ = ∑t =1 uˆt2 xtT• xt • + ∑t = 2 uˆt uˆt −1 ( xtT• xt −1,• + xtT−1,• xt • )
n

4
1 n
+ ∑t = 3 uˆt uˆt − 2 ( xtT• xt − 2,• + xtT− 2,• xt • )
2
1 n
+ ∑t = 4 uˆt uˆt − 3 ( xtT• xt − 3,• + xtT−3,• xt • ) ;
4
4 n
l = 4 ⇒ Vˆ = ∑t =1 uˆt2 xtT• xt • + ∑t = 2 uˆt uˆt −1 ( xtT• xt −1,• + xtT−1,• xt • )
n

5
3 n
+ ∑t = 3 uˆt uˆt − 2 ( xtT• xt − 2,• + xtT− 2,• xt • )
5
2 n
+ ∑t = 4 uˆt uˆt − 3 ( xtT• xt − 3,• + xtT− 3,• xt • )
5
1 n
+ ∑t = 5 uˆt uˆt − 4 ( xtT• xt − 4,• + xtT− 4,• xt • ) .
5
Finalmente, obtém-se o estimador consistente de Newey-West de Cov a (b) ,
^
(3.94) Cov a (b) = S xx−1 Sˆ S xx−1 = n ( X T X ) −1Vˆ ( X T X ) −1 .

Este resultado permite continuar a fazer inferência estatística baseada no estima-


dor MQ, mesmo desconhecendo o processo de autocorrelação das variáveis residuais.
Embora os erros padrão robustos possam ser calculados a partir dos elementos
da diagonal principal de (3.94), fazendo
1 ^
sb∗j = Vara (b j ) ,
n
é possível deduzir uma fórmula que relaciona estes erros padrão com os erros padrão
clássicos, sb j . Pode demonstrar-se que
2
 sb 
s =  j

bj

 vˆ ,
 s 
onde:
− s é o erro padrão clássico da regressão;
Capítulo 3 – MRL com Regressores Pré-Determinados 74

− vˆ = ∑t =1 aˆtj2 + 2∑ s =1 ∑t = s +1 ωs aˆtj aˆt − s , j ;


n l n

− aˆtj = rˆtj uˆt ;


− ût são os resíduos MQ da regressão do modelo original;
− r̂tj são os resíduos MQ da regressão auxiliar de xtj sobre os outros regressores do
modelo original;
− ω s = 1 − s /(l + 1) .

Note-se que:

l = 1 ⇒ vˆ = ∑t =1 aˆtj2 + ∑t = 2 aˆtj aˆt −1, j ;


n n

4 n 2 n
l = 2 ⇒ vˆ = ∑t =1 aˆtj2 + ∑ + ∑t = 3 aˆtj aˆt − 2, j ;
n
aˆ aˆ
t = 2 tj t −1, j
3 3
3 n 1 n
l = 3 ⇒ vˆ = ∑t =1 aˆtj2 + ∑ + ∑t = 3 aˆtj aˆt − 2, j + ∑t = 4 aˆtj aˆt − 3, j ;
n n
aˆ aˆ
t = 2 tj t −1, j
2 2
8 n 6 n 4 n 2 n
l = 4 ⇒ vˆ = ∑t =1 aˆtj2 + ∑ + ∑t = 3 aˆtj aˆt − 2, j + ∑t = 4 aˆtj aˆt − 3, j + ∑t = 5 aˆtj aˆt − 4, j .
n
aˆ aˆ
t = 2 tj t −1, j
5 5 5 5
Capítulo 3 – MRL com Regressores Pré-Determinados 75

PALAVRAS-CHAVE
Amostragem casual Matriz das covariâncias assintóticas
Ausência de correlação assintótica Matriz das covariâncias limite
Autocorrelação Memória
Autocovariância Método delta
Coeficiente de autocorrelação Modelo de regressão linear com regresso-
res pré-determinados (MRL-RPD)
Coeficiente de determinação Modelo dinâmicamente completo
Condição de característica Modelo econométrico
Conjunto de informação Momentos
Consistência Omissão de variáveis
Convergência estocástica Ortogonalidade (contemporânea)
Convergência em distribuição Padrão de heterocedasticidade condicio-
nada
Convergência em média quadrática Padrão de autocorrelação
Convergência em probabilidade Passeio aleatório
Correlação contemporânea Preservação da convergência em distri-
buição
Correlograma Preservação da convergência em probabi-
lidade
Dependência Princípio de Wald
Dependência fraca Princípio do multiplicador de Lagrange
Diferença-martingala Processo estocástico
Dimensão exacta (nominal) do teste Processo AR(1)
Distorção da dimensão Processo gerador de dados (PGD)
Distribuição limite Processo MA(1)
Distribuição limite degenerada Rácio-t robusto
Enviesamento assintótico Regressor contemporaneamente exógeno
Equivalência assintótica Regressor endógeno
Ergodicidade (em relação à média) Regressor estritamente exógeno
Erro de medida Regressor gerado
Erro padrão de White Regressor pré-determinado
Erro padrão heterocedástico-robusto Ruído branco (independente)
Erro padrão de Newey-West Série temporal
Erro padrão robusto à autocorrelação Simultaneidade
Especificação inadequada Situação de autocorrelação
Estacionaridade em covariância Teorema da ergodicidade
Estacionaridade ergódica Teorema de Chebychev
Estacionaridade (em sentido restrito) Teorema de Khinchine
Estatística Q de Box-Pierce (modificada) Teorema de Hall e Heyde
Estatística Q de Ljung-Box Teorema de Lindeberg-Levy
Estimador assintoticamente normal Teorema de Markov
Capítulo 3 – MRL com Regressores Pré-Determinados 76

PALAVRAS-CHAVE
Estimador CAN Teorema de Slutsky
Estimador consistente Teorema do limite central de Billingsley
Geração de regressores Teoremas do limite central (formato)
Heterocedasticidade condicionada Teoremas sobre a lei dos grandes núme-
ros (formato)
Homocedasticidade condicionada Teste da forma funcional
Homokurtosis condicionada Teste de autocorrelação
Heterogeneidade Teste de Breusch-Godfrey
Inferência estatística Teste de Breusch-Pagan
Inferência estatística sobre combinações Teste de Durbin alternativo
lineares de coeficientes de regressão
Inferência estatística sobre um coeficiente Teste de heterocedasticidade condiciona-
de regressão isolado da
Intervalo de confiança Teste de hipóteses não lineares
Lei dos grandes números Teste de White (simplificado)
Lema da equivalência assintótica Teste pF
Limite em probabilidade Teste RESET
Linearidade Valor esperado assintótico
Martingala Valor esperado limite
Matriz das autocovariâncias Variância limite
Capítulo 3 – MRL com Regressores Pré-Determinados 77

PERGUNTAS DE REVISÃO

1. Enuncie o lema da equivalência assintótica.


2. Considere o processo estocástico {z t } . Enuncie o teorema da ergodicidade.
3. Considere o processo estocástico {z t } (escalar). Enuncie o teorema do limite cen-
tral de Billingsley.
4. Considere o processo {xt : t = 1,2, K} . Apresente as condições que permitem afir-
mar que o processo é estacionário em covariância.
5. Considere o modelo yt = α + ϕ yt −1 + ε t , onde {ε t } é um ruído branco. A variável
yt é estacionária em covariância? Justifique.
6. Seja xt = ε t + θ1ε t −1 + θ 2ε t − 2 , onde {ε t } é um ruído branco. Em que condições se
pode afirmar que a variável xt é estacionária em covariância.
7. Considere o processo estocástico estacionário {xt : t = 1,2, K} . Apresente a condi-
ção que garante que o processo é assintoticamente não correlacionado.
8. Suponha que yt é AR(1), yt = ϕ yt −1 + ε t , a verificar | ϕ | < 1 . Demonstre que
Corr ( yt , yt + s ) → 0 , quando s → +∞ , sabendo que
yt + s = ϕ s yt + ϕ s −1ε t +1 + L + ϕ ε t + s −1 + ε t + s .

9. Considere as seguintes afirmações: a) um passeio aleatório é um processo estocás-


tico não estacionário; b) num modelo de regressão linear com um regressor apenas
contemporaneamente exógeno, o estimador dos mínimos quadrados do respectivo
coeficiente de regressão é não enviesado.
Indique quais destas afirmações são verdadeiras.
10. Considere o passeio aleatório {z t } . Determine a expressão de Corr ( z t , z t + s ) .
11. Considere o passeio aleatório, yt = yt −1 + ε t . Deduza a fórmula do coeficiente de
autocorrelação entre yt e yt − s ( s > 0) .
12. Prove que estimador assintoticamente normal é consistente.
13. Considere o MRL-RPD, yt = β 0 + β1 xt + β 2 xt2 + ut . Indique o processo estocástico
que verifica a hipótese da estacionaridade ergódica.
14. Suponha que num MRL yt = xt • β + ut , com termo independente, todos os regres-
sores são pré-determinados. Prove que E (ut ) = 0 e que Cov( xtj , ut ) = 0 .
15. Considere o MRL, yt = β 0 + β1 xt + β 2 xt2 + ut . Enuncie, para este modelo, a hipóte-
se da condição de característica.
16. Considere o MRL-RPD, yt = β 0 + β1 xt + β 2 xt2 + ut . Construa, para este modelo, a
matriz S indispensável para a inferência estatística.
17. Considere o MRL-RPD, yt = xt • β + ut , com termo independente. Prove que o
processo {ut } é uma diferença-martingala.
18. Considere o MRL-RPD, yt = xt • β + ut , com termo independente. Sabendo que
{ut } é uma diferença-martingala, prove que o valor esperado das variáveis resi-
duais é nulo, e que não há autocorrelação.
19. Considere o modelo de regressão linear, yt = α + β xt + ut , com dados temporais,
e suponha que o regressor é contemporaneamente exógeno, E (ut | xt ) = 0 . Esta
Capítulo 3 – MRL com Regressores Pré-Determinados 78

condição significa que ut é independente em média de xt . Demonstre que esta in-


dependência em média implica que a covariância entre ut e xt é nula.
20. Considere o MRL, com dados temporais, yt = α + β yt −1 + ut , onde {ut } é um ruí-
do branco. Classifique o regressor yt −1 .
21. Considere o modelo da pergunta anterior, mas supondo que ut ~ AR (1) (estável).
Neste caso, verifica-se, sem dificuldade, que yt −1 é regressor endógeno. Reformu-
le o modelo de forma a eliminar a endogeneidade.
22. Considere o modelo de regressão linear, yt = xt • β + ut , com dados temporais, on-
de xt • é o vector dos regressores.
Quais das seguintes afirmações são verdadeiras: a) os regressores são contempora-
neamente exógenos se e só se E ( yt | xt • ) = xt • β ; b) os regressores são contempo-
raneamente exógenos se e só se ut = yt − E ( yt | xt• ) .
23. Considere o modelo de regressão linear, yt = xt • β + ut , com regressores pré-deter-
minados. Indique as hipóteses que se devem estabelecer para que o estimador MQ
de β seja consistente.
24. Considere o modelo de regressão linear, yt = β 0 + β1 xt1 + β 2 xt 2 + ut . Suponha
que xt1 é estritamente exógeno e xt 2 é contemporaneamente exógeno. Escreva as
respectivas condições de ortogonalidade.
25. Considere o modelo yt = α + β t + ρ yt −1 + ε t , onde | ρ | < 1 e {ε t : t = 1,2, K} é um
ruído branco. A variável yt é estacionária? Justifique.
26. Seja xt = ε t − (1 / 3) ε t −1 + (1 / 3) ε t − 2 , onde {ε t } é um ruído branco. Determine a co-
variância Cov( xt , xt +1 ) .
27. Seja o processo xt = ε t − (1 / 4) ε t −1 + (1 / 2) ε t − 2 , onde {ε t } é um ruído branco.
Quais das seguintes afirmações são verdadeiras: a) o processo é ergódico; b) o
processo é estacionário em covariância; c) o processo é assintoticamente não cor-
relacionado.
28. Considere o modelo yt = α + yt −1 + ε t , onde {ε t : t = 1,2,K} é um ruído branco.
Determine a variância de yt , supondo que y0 = 0 .
29. Considere o MRL, com dados temporais, yt = α + β1 yt −1 + β 2 yt − 2 + β 3 yt − 3 + ut ,
onde {ut } é um processo MA(2). Classifique os regressores.
30. Considere o modelo yt = xt • β + ut onde xt • é o vector dos regressores. Indique a
condição, utilizando valores esperados condicionados de yt , para que o modelo
seja dinamicamente completo.
31. Considere o modelo yt = α + β 0 xt + β1 xt −1 + γ 1 yt −1 + γ 2 yt − 2 + ut . Apresente a con-
dição que garante que o modelo é dinamicamente completo.
32. Considere o modelo de regressão linear, yt = β 0 + β1 xt + β 2 xt −1 + β 3 xt − 2 + ut , su-
pondo que ut = ε t + θ ε t −1 , onde ε t é um ruído branco. O modelo é dinamicamente
completo? Justifique.
33. Considere o modelo yt = xt • β + ut com regressores pré-determinados, e suponha
que a matriz Qxx = E ( xtT• xt • ) existe e tem inversa. Indique um estimador consis-
tente da variância assintótica de b j , estimador MQ de β j .
34. Considere o MRL-RPD, yt = xt • β + ut . Prove a consistência do estimador MQ do
vector dos coeficientes de regressão.
Capítulo 3 – MRL com Regressores Pré-Determinados 79

35. Considere o MRL-RPD, yt = xt • β + ut , e o estimador MQ, b, do vector dos coefi-


cientes de regressão. Demonstre o resultado que permite afirmar que b é assintoti-
camente normal.
36. Considere o MRL-RPD, yt = xt • β + ut , e o estimador MQ, b, do vector dos coefi-
cientes de regressão. Indique um estimador consistente da matriz de covariâncias
assintótica de b.
37. Considere o MRL-RPD, yt = xt • β + ut . Indique um estimador consistente da ma-
triz S = E (ut2 xtT• xt • ) .
38. No caso de pequenas amostras, a matriz Ŝ pode ser corrigida. Indique uma das
propostas possíveis de matriz Ŝ corrigida.
39. Suponha que existe homocedasticidade condicionada. Considere o MRL-RPD,
yt = xt • β + ut . Obtenha a respectiva matriz S a partir de S = E (ut2 xtT• xt • ) .
40. Prove que, no caso de homocedasticidade condicionada, os erros padrão clássico e
robusto são iguais.
41. No caso de homocedasticidade condicionada, prove que Q = mF , onde Q é a esta-
tística para efectuar o teste H 0 : Rβ = δ 0 contra H 1 : Rβ ≠ δ 0 (R é uma matriz
m × k com característica igual a m), e F = (Uˆ rTUˆ r − Uˆ TUˆ ) / ms 2 .
42. Suponha que existe homocedasticidade condicionada. Considere o MRL-RPD,
yt = xt • β + ut , e o estimador MQ, b, do vector dos coeficientes de regressão. Indi-
que um estimador consistente da matriz de covariâncias assintótica de b.
43. Seja ût os resíduos MQ de um modelo de regressão linear com dados temporais.
Considere a regressão de ût sobre uˆt −1 para testar a existência de autocorrelação
de 1.ª ordem. Seja: a) esta regressão permite fazer o teste apenas na condição de
exogeneidade estrita de todos os regressores; b) esta regressão permite fazer o tes-
te apenas na condição de exogeneidade contemporânea de todos os regressores; c)
esta regressão permite fazer o teste apenas quando todos os regressores são esta-
cionários e ergódicos.
Quais destas afirmações são verdadeiras?
44. Considere o modelo yt = α + β xt + γ yt −1 + ut e suponha que pretende testar se a
variável residual segue um processo auto-regressivo de 2.ª ordem. Indique a re-
gressão auxiliar necessária para efectuar este teste, bem como a respectiva estatís-
tica-teste construída a partir do coeficiente de determinação daquela regressão.
45. Considere o modelo yt = α + β xt + γ yt −1 + ut com dados trimestrais. Suponha que
pretende testar se a variável residual segue o processo auto-regressivo sazonal
ut = ρ ut −4 + ε t . Indique a regressão auxiliar necessária para efectuar este teste,
bem como a respectiva estatística-teste.
46. Considere o modelo yt = xt • β + ut onde xt • é o vector dos regressores. Descreva
o teste de Breusch-Godfrey para testar a autocorrelação de 2.ª ordem das variáveis
residuais.
47. Considere o modelo yt = xt • β + ut , com regressores pré-determinados e autocorre-
lação. Sendo b o estimador MQ de β , que estimador deveria utilizar para a matriz
das covariâncias assintóticas de b? [indique apenas o nome do estimador, e não a
sua fórmula]
Capítulo 3 – MRL com Regressores Pré-Determinados 80

48. Descreva a mecânica do teste pF para testar a existência de autocorrelação.


49. Descreva a mecânica do teste BG (Breusch-Godfrey) para testar a existência de
autocorrelação.
50. Considere um MRL-RPD com autocorrelação. Indique o estimador consistente de
Newey-West da matriz das covariâncias assintótica do estimador MQ dos coefici-
entes de regressão.
CAPÍTULO 4

O MODELO DE REGRESSÃO LINEAR


COM REGRESSORES ENDÓGENOS

A hipótese crucial do modelo de regressão linear apresentado no capítulo 3 é a


da ortogonalidade entre os regressores e as variáveis residuais, ficando garantido que os
regressores são pré-determinados (hipótese RPD.3). Esta hipótese é decisiva para a
aplicação do método dos mínimos quadrados, uma vez que, sem ela, o estimador MQ
nem sequer é consistente [como resulta claramente da demonstração de (3.37), proprie-
dade 3.1 dos estimadores MQ].
Este capítulo tem por objectivo essencial estudar o modelo de regressão linear
quando existem regressores que não são pré-determinados, ou seja, quando o modelo
tem regressores endógenos. Como na presença deste tipo de regressores não é possível
estimar, de forma consistente, os parâmetros pelo método MQ, é necessário dispor de
um método mais geral de obtenção de estimadores. Este método dá lugar a uma classe
vasta de estimadores, a classe dos estimadores do método generalizado dos momen-
tos (MGM) [em inglês, generalized method of moments; a sigla consagrada é GMM]. O
estimador MQ é um caso particular de estimador MGM, existindo muitos outros estima-
dores importantes que também pertencem a esta classe (é o caso, entre outros, do esti-
mador de variáveis instrumentais e do estimador dos mínimos quadrados em dois pas-
sos; ver adiante).
O estudo desta classe de estimadores, e suas propriedades, é o objectivo essen-
cial do presente capítulo. No entanto, vão abordar-se, previamente, dois tópicos.
O primeiro (secção 4.1), destina-se a resolver o seguinte problema: suponha-se
que no modelo de regressão linear, yt = xt • β + ut , há regressores que não são pré-deter-
minados (não se verificam as hipóteses RPD.3 e RPD.5), não estando, portanto, garanti-
do que o estimador MQ, b = ( X T X ) −1 X T Y , seja consistente para o vector β dos coefi-
cientes de regressão. Se, apesar disso, se continuar a utilizar este estimador, põe-se a
questão de saber se existe algum outro vector de parâmetros que é estimado de forma
consistente.
O segundo tópico, a tratar na secção 4.2, tem a ver com o papel que desempe-
nham os regressores endógenos em Economia. A sua importância vai ser ilustrada por
meio de vários exemplos, onde surgem naturalmente este tipo de regressores.
Capítulo 4 – MRL com Regressores Endógenos 2

Nas secções seguintes apresentam-se e analisam-se as hipóteses básicas do mo-


delo de regressão linear com regressores endógenos, a classe dos estimadores MGM e
suas propriedades, e as respectivas questões de inferência estatística.

4.1 - A projecção linear dos mínimos quadrados

Antes de dar resposta ao problema atrás referido, vai analisar-se uma situação
mais geral. Considere-se uma variável aleatória (escalar), y, e um vector aleatório de ti-
po 1 × k , x = [ x1 x2 K xk ]. Suponha-se que se pretende prever o valor assumido por y,
conhecendo a distribuição do vector (k + 1) -dimensional, ( y, x) , e o valor de x.
Um previsor de y é uma função de x, h(x) , determinada pela distribuição con-
junta de y e de x. Naturalmente, h(x) deve ser escolhida de acordo com algum critério
que deve ter em conta o erro de previsão, η = y − h(x) . O critério que vai ser adoptado
consiste em minimizar o erro quadrático médio da previsão (EQMP),

E (η 2 ) = E { y − h( x)}2  .
 

Habitualmente, este critério é designado por princípio dos mínimos quadra-


dos, e as variáveis aleatórias que compõem o vector x chamam-se regressores.
Nestas condições, obtém-se o seguinte:

Teorema 4.1
O melhor previsor de y, de acordo com o princípio dos mínimos quadrados, é o valor es-
perado de y condicionado por x: µ ( x) = E ( y | x) .

Dem.: Com efeito, seja


y − h( x ) = y − µ ( x ) + µ ( x ) − h( x ) .
Donde
{ y − h( x)}2 = { y − µ ( x)}2 + 2 { y − µ ( x)} {µ ( x) − h( x)} + {µ ( x) − h( x)}2 .
Notando que

E ({ y − µ ( x)} {µ ( x) − h( x)}) = E  E ({ y − µ ( x)} {µ ( x) − h( x)} | x)


 

= E {µ ( x) − h( x)} E ({ y − µ ( x) | x}) = 0,


 

tem-se
E ({ y − h( x)}2 ) = E ({ y − µ ( x)}2 ) + E ( {µ ( x) − h( x)}2 ) ≥ E ({ y − µ ( x)}2 ) .
Assim, o erro quadrático médio da previsão é limitado inferiormente, e o limite
inferior é obtido quando h( x) = µ ( x) .
∇∇
Capítulo 4 – MRL com Regressores Endógenos 3

A regressão que corresponde à aplicação do princípio dos mínimos quadrados


designa-se por regressão de tipo I.
Quando a relação entre y e x é linear, y = xβ , é óbvio que o melhor previsor de
y é h( x) = xβ , uma vez que E ( y | x) = xβ .
Vai provar-se que o erro de previsão, η , é ortogonal a qualquer função de x,
φ (x) :
E{ηφ ( x)} = 0 .
Com efeito, começa por notar-se que
E (η | x) = E{ y − µ ( x) | x} = E ( y | x) − E{µ ( x) | x} = µ ( x) − µ ( x) = 0 .
Então,
E{ηφ ( x)} = E ( E{ηφ ( x) | x})= E{φ ( x) E (η | x)} = 0 .
Note-se que é necessário conhecer a distribuição de ( y, x) para calcular o previ-
sor h( x) = E ( y | x) , que, em geral, é essencialmente não linear. Impondo a condição de
~ ~
o previsor ser uma função linear de x, h( x) = xβ , onde β é um vector k × 1 , põe-se a
questão de determinar o previsor que minimiza o respectivo erro quadrático médio. Nes-
~
te caso, o erro de previsão é dado por y − xβ , e o critério designa-se, naturalmente, por
princípio dos mínimos quadrados lineares, a que corresponde a regressão de tipo II
(ou regressão linear).
Seja β ∗ o vector que satisfaz a condição de ortogonalidade
E{xT ( y − xβ∗ )} = 0 ou E ( x T x) β ∗ = E ( x T y ) ,
o que pressupõe que existem os respectivos momentos de 2.ª ordem. Se E ( x T x) tem in-
versa, vem
(4.1) β∗ = E ( xT x) −1 E ( xT y ) .
Pode, então, apresentar-se a seguinte definição:

Definição 4.1 – Projecção linear de mínimos quadrados


A função linear de x,
(4.2) E ∗ ( y | x) = xβ∗ ,
onde β ∗ satisfaz (4.1), chama-se projecção linear de mínimos quadrados (projecção li-
near MQ) de y sobre x. O vector β ∗ é o vector dos coeficientes da projecção linear MQ.

Assim, tem-se
E ∗ ( y | x) = xβ∗ = x E ( xT x) −1 E ( xT y ) .
O teorema que permite justificar a escolha do melhor previsor linear é o seguin-
te:
Capítulo 4 – MRL com Regressores Endógenos 4

Teorema 4.2
O melhor previsor linear de y, de acordo com o princípio dos mínimos quadrados linea-
res, é a projecção linear MQ de y sobre x: E ∗ ( y | x) = xβ ∗ .
~
Dem.: Com efeito, considere-se um previsor linear qualquer, xβ , e o respectivo erro
quadrático médio,
~
E{( y − xβ ) 2 } .
Tem-se
~ ~
E{( y − xβ ) 2 } = E ( {( y − xβ∗ ) + x( β∗ − β )}2 )
~ ~
= E {( y − xβ∗ ) 2 } + 2 E{( y − xβ∗ ) x( β∗ − β )} + E ({x( β∗ − β )}2 )
~ ~
= E {( y − xβ∗ ) 2 } + 2 E{( β∗ − β )T xT ( y − xβ∗ )} + E ({x( β∗ − β )}2 )
~ ~
= E {( y − xβ∗ ) 2 } + 2 ( β∗ − β )T E{xT ( y − xβ∗ )} + E ({x( β∗ − β )}2 )
~
= E {( y − xβ∗ ) 2 } + E ({x( β∗ − β )}2 )
≥ E {( y − xβ∗ ) 2 } ,
notando que E{xT ( y − xβ∗ )} = 0 .
Assim, o erro quadrático médio da previsão é limitado inferiormente, e o limite
~
inferior é obtido quando β = β ∗ .
∇∇

Verifica-se, assim, que para calcular o melhor previsor linear, E ∗ ( y | x) = xβ ∗ ,


basta conhecer os segundos momentos, referidos em (4.1), da distribuição de ( y, x) .
A relação E ∗ ( y | x) = xβ ∗ , com o vector β ∗ dado por (4.1), é equivalente a es-
crever y = xβ∗ + u∗ , onde u∗ é o resíduo da projecção linear MQ de y sobre x. Este resí-
duo representa a variável y expurgada da influência de x. Como E ( xT u∗ ) = 0 , a correla-
ção entre x e u∗ é nula, ou seja, a correlação parcial entre x e y (expurgada da influência
de x) é nula. Facilmente se verifica que E ∗ (u∗ | x) = 0 . Com efeito,
E ∗ (u∗ | x) = E ∗ ( y − xβ∗ | x) = x E ( xT x) −1 E{xT ( y − xβ∗ )}
= x E ( xT x) −1 E ( xT y ) − x E ( xT x) −1 E ( xT x) β∗
= x E ( xT x) −1 E ( xT y ) − x β∗ = 0.
Em geral, E ( y | x) ≠ xβ∗ (o previsor obtido que resulta do princípio dos mínimos
quadrados não coincide, em geral, com o previsor que decorre do princípio dos mínimos
quadrados lineares). Então, não é verdade que E (u∗ | x) = 0 , e, muito menos, que u∗ e x
sejam independentes. Em geral, tem-se
E (u∗ | x) = E ( y − xβ∗ | x) = E ( y | x) − xβ∗ ≠ 0 .
Vão apresentar-se algumas propriedades gerais da projecção linear MQ.

Propriedades das projecções lineares MQ


Capítulo 4 – MRL com Regressores Endógenos 5

Seja a variável aleatória y, e os vectores aleatórios x, z. Tem-se:


a) Se E ( y | x) = xβ , então E ∗ ( y | x) = xβ .
b) Linearidade da projecção linear MQ:
E * (α1 y1 + α 2 y2 + L + α m ym | x) = α1E * ( y1 | x) + α 2 E * ( y2 | x) + L + α m E * ( ym | x) ,

onde α i são constantes e yi são variáveis aleatórias ( i = 1, 2, K , m ).


c) Regra da projecção linear MQ iterada:
E ∗ ( y | x) = E ∗{E ∗ ( y | x, z ) | x}
d) Tem-se:
E ∗ ( y | x) = E ∗{E ( y | x, z ) | x} .
Em particular, E ∗ ( y | x) = E ∗{E ( y | x) | x} .
e) Seja E ∗ ( y | x, z ) = xβ∗ + zγ ∗ , r = x − E ∗ ( x | z ) [vector dos resíduos da projecção linear
MQ de x sobre z] e v = y − E ∗ ( y | z ) [resíduo da projecção linear MQ de y sobre z].
Então,
E ∗ (v | r ) = rβ∗ e E ∗ ( y | r ) = rβ∗ ,
onde β∗ = E (r T r ) −1 E (r T v) = E (r T r ) −1 E (r T y ) .

Podem fazer-se os seguintes comentários a estas propriedades:


• A demonstração da propriedade a) é fácil. Com efeito,
E ∗ ( y | x) = x E ( xT x) −1 E ( xT y ) = x E ( xT x) −1 E{E ( xT y | x)}
= x E ( xT x) −1 E{xT E ( y | x)} = x E ( xT x) −1 E ( xT x) β = x β .
A propriedade a) pode generalizar-se da seguinte maneira:
− Se E ( y | x) = β1h1 ( x) + β 2 h2 ( x) + L + β k hk ( x) , então
E ∗ ( y | w1 , w2 , K , wk ) = β1w1 + β 2 w2 + L + β k wk ,

onde w j = h j (x) , com j = 1, 2, K , k .

Esta propriedade estabelece que: se o valor esperado de y condicionado por x é uma


função linear de certas funções de x, esta função linear também representa a projec-
ção linear MQ.
• Uma aplicação interessante da linearidade [propriedade b)] é a seguinte: suponha-
-se que y = xβ + zδ , onde os vectores x, β , z e δ são do tipo 1 × k , k × 1 , 1 × m e
m × 1 , respectivamente. Seja w outro vector, de tipo 1× p . Facilmente se verifica que
E ∗ ( y | w) = E ∗ ( x | w) β + E ∗ ( z | w)δ .
Com efeito,
E ∗ ( y | w) = w E ( wT w) −1 E ( wT y ) = w E ( wT w) −1 E{wT ( xβ + zδ )}
= w E ( wT w) −1 E ( wT x) β + w E ( wT w) −1 E ( wT z )δ .
= E ( x | w) β + E ( z | w)δ .
∗ ∗
Capítulo 4 – MRL com Regressores Endógenos 6

• Demonstração da propriedade c). Com efeito, sabe-se que


E ∗ ( y | x) = xβ∗ = x E ( xT x) −1 E ( xT y ) .
Para determinar E ∗ ( y | x, z ) , começa-se por notar, de acordo com técnica de inversão
de matrizes por blocos,
−1 −1
 E ( xT x ) E ( x T z )  Qxx Qxz   A11 A12 
 T T  = Q Q  =  A A  ,
 E ( z x) E ( z z )   zx zz   21 22 
onde:
− Qxx = E ( xT x) ; Qxz = E ( xT z ) ; Qzx = E ( z T x) ; Qzz = E ( z T z ) ;
− A22 = (Qzz − QzxQxx−1Qxz ) −1 ;
− A11 = Qxx−1 + Qxx−1Qxz A22QzxQxx−1 ;
− A12 = −Qxx−1Qxz A22 ;
− A21 = − A22QzxQxx−1 .

Então,
−1
 E ( x T x ) E ( xT z )   E ( xT y ) 
E ( y | x, z ) = [ x z ] 

T T   T 
 E ( z x) E ( z z )   E ( z y ) 
 A11 A12   E ( xT y )
= [ x z ]  
 A21 A22   E ( z y ) 
T

 A E ( xT y ) + A12 E ( z T y ) 
= [ x z ]  11 
 A21E ( x y ) + A22 E ( z y )
T T

= x{ A11E ( xT y ) + A12 E ( z T y )} + z{ A21E ( xT y ) + A22 E ( z T y )}


= xδ ∗ + zγ ∗ ,
onde δ ∗ = A11E ( xT y ) + A12 E ( z T y ) e γ ∗ = A21E ( xT y ) + A22 E ( z T y ) .
Logo,
E ∗{E ∗ ( y | x, z ) | x} = E ∗ ( xδ ∗ + zγ ∗ | x) = xδ ∗ + E ∗ ( z | x) γ ∗ = xδ ∗ + xQxx−1Qxz γ ∗
= x{ A11E ( xT y ) + A12 E ( z T y )} + xQxx−1Qxz { A21E ( xT y ) + A22 E ( z T y )}
= x{ A11 + Qxx−1Qxz A21}E ( xT y ) + x{ A12 + Qxx−1Qxz A22 }E ( z T y )
= xβ∗ ,
uma vez que A11 + Qxx−1Qxz A21 = Qxx−1 e A12 + Qxx−1Qxz A22 = O .
A regra da projecção linear MQ iterada permite obter um resultado interessante.
Sabe-se que E ∗ ( y | x) = xβ∗ e E ∗{E ∗ ( y | x, z ) | x} = xδ ∗ + E ∗ ( z | x) γ ∗ . Fazendo
Π = Qxx−1Qxz ,

vem E ∗ ( z | x) = xQxx−1Qxz = x Π , e, portanto, β∗ = δ ∗ + Πγ ∗ [este resultado deve ser


comparado com aquele que permite obter o enviesamento das variáveis omiti-
das num modelo de regressão linear; ver adiante].
Capítulo 4 – MRL com Regressores Endógenos 7

• Demonstração da propriedade d). Seja µ ( x, z ) = E ( y | x, z ) e y = µ ( x, z ) + u , onde


E (u | x, z ) = 0 . Então,
E ∗ ( y | x) = E ∗{µ ( x, z ) + u | x} = E ∗{µ ( x, z ) | x} + E ∗ (u | x) = E ∗{µ ( x, z ) | x} ,
porque E ( xT u ) = 0 e E ∗ (u | x) = x E ( xT x) −1 E ( xT u ) = 0 .
• Demonstração da propriedade e). Com efeito, tem-se y = xβ∗ + zγ ∗ + u∗ , a verificar
E ( xT u∗ ) = 0 e E ( z T u∗ ) = 0 . Então, E ∗ ( y | z ) = E ∗ ( x | z ) β∗ + zγ ∗ . Subtraindo ordena-
damente esta igualdade da primeira, tem-se y − E ∗ ( y | z ) = {x − E ∗ ( x | z )}β∗ + u∗ , ou
v = r β∗ + u∗ . Como r é uma combinação linear de x e z, vem E (r T u∗ ) = 0 . Multipli-
cando à esquerda v = r β∗ + u∗ por r T , obtém-se r T v = r T r β∗ + r T u∗ . Portanto,
E (r T v) = E (r T r ) β∗ e β∗ = E (r T r ) −1 E (r T v) ,
supondo que existe E (r T r ) −1 .
Tem-se E (r T v) = E (r T { y − E ∗ ( y | z )}) = E (r T y ) − E{r T E ∗ ( y | z )} . Como r é ortogonal
a z, e como E ∗ ( y | z ) é função linear de z, r também ortogonal a E ∗ ( y | z ) . Então,
E (r T v) = E (r T y ) .
• É importante analisar o significado da propriedade e). Por hipótese, β∗ é o vector
dos coeficientes das variáveis consideradas no vector x, quando se faz a projecção li-
near MQ de y sobre x e z. Como r = x − E ∗ ( x | z ) , o vector dos resíduos r pode ser in-
terpretado como sendo o vector x expurgado da influência de z, em que esta influên-
cia é dada pela projecção linear MQ de x sobre z; da mesma forma, v é considerado o
vector y expurgado da influência de z. A propriedade e) prova que β∗ também pode
obtido fazendo a projecção linear MQ de v sobre r: β∗ é o vector dos coeficientes
desta projecção.

Quando x1 = 1 (um dos regressores é constante), fazendo


x = [ 1 x2 K xk ] = [ 1 x( 2 ) ],

onde x( 2 ) = [ x2 K xk ], obtém-se

 1 x( 2 )   y 
xT x =  T  e x T
y =  T .
 x( 2 ) x(T2) x( 2 )   x( 2 ) y 
 
Considerando
 β 2∗ 
β  ∗
 
β ∗ =   , onde β •∗2 =  M  ,
1

β 

•2  β k∗ 
 
tem-se
E ∗ ( y | x) = E ∗ ( y | 1, x( 2) ) = xβ∗ = β1∗ + x( 2 ) β •∗2 .

Como
Capítulo 4 – MRL com Regressores Endógenos 8

 1 E ( x( 2) )   β1∗   E ( y ) 
E ( x T x ) β ∗ = E ( xT y ) ⇔   = ,
 E ( x(T2 ) ) E ( x(T2 ) x( 2 ) )  β ∗   E ( x(T2) y )
   • 2   

vem
 β1∗ + E ( x( 2 ) ) β •∗2 = E ( y )

 E ( x( 2 ) ) β1 + E ( x( 2 ) x( 2 ) ) β •2 = E ( x( 2) y ) .
T ∗ T ∗ T

Resolvendo a primeira equação em ordem a β1∗ , e substituindo na segunda, ob-


tém-se
 E ( x T x ) − E ( xT ) E ( x )  β ∗ = E ( xT y ) − E ( xT ) E ( y ) .
 ( 2) ( 2) ( 2) ( 2)  • 2 ( 2) ( 2)
 
Deste modo,
β •∗2 = Cov( x( 2 ) ) −1 Cov( x(T2 ) , y )
(4.3)  ∗
β1 = E ( y ) − E ( x( 2 ) ) β • 2 .

Como y = xβ∗ + u∗ , com E ( xT u∗ ) = 0 , a existência de um regressor constante


( x1 = 1 ) implica que E (u∗ ) = 0 . Então, Cov( x j , u∗ ) = E ( x j u∗ ) − E ( x j ) E (u∗ ) = 0. Assim, o
resíduo da projecção linear MQ tem valor esperado nulo e não está correlacionado com
qualquer regressor.
Suponha-se que se pretende determinar E ∗ (ε t | ε t −1 , K , ε t − m ) , quando {ε t } é um
ruído branco. Fazendo
y = ε t e x = [ ε t −1 ε t − 2 L ε t − m ] ,

tem-se
 ε2 ε t −1ε t − 2 L ε t −1ε t − m  ε ε 
 t −1  t −1 t 
 ε ε ε t − 2 L ε t − 2ε t − m
2
  ε t − 2ε t 
xT x =  t − 2 t −1  e x y=
T
.
 M M M   M 
ε ε  ε ε 
 t − m t −1 ε t − mε t − 2 L ε t − m 
2
 t − m t 

Donde
E ( xT x) = σ ε2 I m , E ( xT y ) = 0 e β∗ = (σ ε2 I m ) −1 0 = 0 .

Logo,
E ∗ (ε t | ε t −1 , K , ε t − m ) = 0 .

Do mesmo modo, se prova que


E ∗ (ε t | 1, ε t −1 , K , ε t − m ) = 0 .

Contudo, não fica garantido que E (ε t | ε t −1 , K , ε t − m ) = 0 , porque há ruídos bran-


cos que não são diferença-martingalas; é o caso do processo {ε t } , onde ε t = cos(t w) e
w ~ U (0, 2π ) [ver anexo 3A].
Capítulo 4 – MRL com Regressores Endógenos 9

O modelo de regressão linear com regressores endógenos

Considere-se, de novo, o modelo de regressão linear, yt = xt • β + ut (equação


estrutural). Quando este modelo verifica as hipóteses RPD.3 (todos os regressores são
pré-determinados) e RPD.4 (condição de característica), conclui-se imediatamente que
xt • β é a projecção linear MQ de yt sobre xt • , e β é o respectivo vector dos coeficien-
tes.
Antes de prosseguir, vai formalizar-se a definição de regressor endógeno.

Definição 4.2 – Regressor endógeno


Diz-se que o regressor x j é endógeno se e só se, qualquer que seja t, E ( xtj ut ) ≠ 0 .

Suponha-se que no modelo de regressão linear há pelo menos um regressor en-


dógeno, não se verificando, portanto, a hipótese RPD.3. Quando se considera o vector
β dos verdadeiros valores dos coeficientes de regressão, a condição de ortogonalidade
(4.4) E{xtT• ( yt − xt • β )} = 0

não é verdadeira.
Continuando a supor que o processo {( yt , xt • )} é estacionário e ergódico (hipó-
tese RPD.2) e que Qxx = E ( xtT• xt • ) existe e tem inversa (RPD.4), pode concluir-se que,
tendo em conta as considerações feitas sobre a regressão de tipo II, existe um vector β ∗
que satisfaz as condições de ortogonalidade,
(4.5) E{xtT• ( yt − xt • β∗ )} = 0 .

Assim, E ∗ ( yt | xt • ) = xt• β ∗ é a respectiva projecção linear MQ, e


(4.6) β∗ = E ( xtT• xt • ) −1 E ( xtT• yt ) = Qxx−1 qxy

é o vector dos coeficientes na projecção linear MQ.


Note-se que
β∗ = E ( xtT• xt • ) −1 E{xtT• ( xt • β + ut )} = β + E ( xtT• xt • ) −1 E ( xtT•ut ) ,
e que
E ∗ ( yt | xt • ) = xt • β∗ = xt • β + xt • E ( xtT• xt • ) −1 E ( xtT•ut ) = xt • β + E ∗ (ut | xt • ) .
~
Nestas condições, tem-se yt = xt • β∗ + ut∗ = yt∗ + ut∗ , onde β (valor hipotético de
β ) é igual a β ∗ , ut∗ é o respectivo resíduo e yt∗ = xt • β∗ . Como E ( xtT•ut∗ ) = 0 , é imediato
verificar que E ( yt∗ut∗ ) = 0 . Além disso, não se verifica E ( yt | xt • ) = xt • β , uma vez que
E (ut | xt • ) ≠ 0 ; apenas é possível escrever E ( yt | xt• ) = xt • β + E (ut | xt • ) .
A presença de regressores endógenos implica que o estimador MQ, b, não é
consistente para estimar β . No entanto, atendendo a (4.6) e ao teorema da ergodicida-
de, é imediato que
Capítulo 4 – MRL com Regressores Endógenos 10

−1
1 n  1 n 
b = S s =  ∑t =1 xtT• xt •   ∑t =1 xtT• yt  = ( X T X ) −1 X T Y
−1
xx xy
n  n 
é estimador consistente de β ∗ .
Pode, então, afirmar-se que, existindo regressores endógenos, b não é estimador
consistente de β (vector dos coeficientes de regressão), mas é estimador consistente de
outro vector de parâmetros, o vector β ∗ dos coeficientes na projecção linear MQ. O en-
viesamento assintótico do estimador MQ, quando se pretende estimar β , é dado por
plim(b) − β = β∗ − β = E ( xtT• xt • ) −1 E ( xtT•ut ) ,

que se designa por enviesamento da endogeneidade.


Pode aprofundar-se esta questão, fazendo a separação entre regressores pré-
-determinados e regressores endógenos. Seja o MRL yt = zt • β•1 + xt • β• 2 + ut a verifi-
car: E ( ztT•ut ) = 0 ( zt • é pré-determinado); E ( xtT•ut ) ≠ 0 ( xt • é endógeno); E ( ztT• xt • ) = O
( zt • e xt • não estão correlacionados). Considerando esta partição dos regressores em
endógenos e em pré-determinados, vai demonstrar-se que, na projecção linear MQ de
yt sobre zt • e xt • , o vector dos coeficientes de zt • é β •1 .
Com efeito, fazendo E ∗ ( yt | zt • , xt • ) = zt • β •∗1 + xt • β•∗2 , obtém-se
−1
 β ∗   E ( zT z ) E ( zT x )   E ( z T y )   E ( z T z ) −1 O   E ( zT y )
•1 t• t• t• t• t• t t• t• t• t
β∗ =   =    =  ,
 β•∗2   E ( xt • zt • ) E ( xtT• xt • )
T  E ( xt • yt ) 
T
O E ( xt • xt • ) 1   E ( xtT• yt )
T −
        
ou
 β•∗1   E ( ztT• zt • ) −1 E ( ztT• yt ) 
β∗ =  ∗ 
= .
 β • 2   E ( xt • xt • ) E ( xt • yt )
T −1 T

Como
E ( ztT• yt ) = E{ztT• ( zt • β •1 + xt • β• 2 + ut )} = E ( ztT• zt • ) β •1 ,

E ( xtT• yt ) = E{xtT• ( zt • β •1 + xt • β • 2 + ut )} = E ( xtT• xt • ) β • 2 + E ( xtT•ut ) ,

vem
 β •∗1   β•1 
β∗ =  ∗  =  .
 β • 2   β • 2 + E ( xt • xt • ) E ( xt •ut )
T −1 T

Conclui-se, então, que


E ∗ ( yt | zt • , xt • ) = zt • β•1 + xt • β • 2 + xt • E ( xtT• xt • ) −1 E ( xtT•ut ) .

Pode também calcular-se E ∗ (ut | zt • , xt • ) = zt •δ •∗1 + xt •δ •∗2 .


Tem-se:
Capítulo 4 – MRL com Regressores Endógenos 11

δ ∗   E ( z T z ) −1 O   E ( zT u )
 •1
δ∗ = ∗ =   t• t•
 t• t

δ • 2   O E ( xt • xt • )   E ( xtT•ut )
T −1
    
 E ( z T z ) −1 E ( z T u )   0 
=  t• t• t• t
 =  .
 E ( xtT• xt • ) −1 E ( xtT•ut )  E ( xtT• xt • ) −1 E ( xtT•ut )
   
Então,
E ∗ (ut | zt • , xt • ) = xt • E ( xtT• xt • ) −1 E ( xtT•ut ) ,

e, portanto,
E ∗ ( yt | zt • , xt • ) = zt • β •1 + xt • β • 2 + E ∗ (ut | zt • , xt • ) .

Como ut∗ = yt − E ∗ ( yt | zt • , xt • ) , conclui-se que


ut∗ = yt − E ∗ ( yt | zt • , xt • ) = yt − zt • β •1 − xt • β • 2 − xt • E ( xtT• xt • ) −1 E ( xtT•ut )
= ut − E ∗ (ut | zt • , xt • ),

ou ut = ut∗ + E ∗ (ut | zt • , xt • ) .
No capítulo 3, nos comentários à hipótese RPD.3, fez-se uma referência a três
situações típicas de endogeneidade: omissão de variáveis; erros de medida nas variá-
veis; simultaneidade. Nas duas subsecções seguintes vão analisar-se as duas primeiras
situações. A simultaneidade vai ser abordada na próxima secção.

Omissão de variáveis

Começa-se por analisar o enviesamento da endogeneidade no caso de omissão


de variáveis (regressores). Considere-se a equação estrutural,
E ( yt | xt • , wt • ) = xt • β + wt •δ ,

onde: xt • é um vector 1 × k de regressores; β é o vector k × 1 dos respectivos coefici-


entes; wt • é outro vector 1 × m de regressores; δ é o respectivo vector m × 1 dos coefi-
cientes.
Explicitando a variável residual, vem
yt = xt • β + wt •δ + vt ,

onde E (vt | xt • , wt • ) = 0 . Deste modo, todos os regressores são pré-determinados:


E ( xtT•vt ) = 0 ; E ( wtT•vt ) = 0 .

Em particular, o interesse pode incidir sobre cada parâmetro estrutural β j (as


componentes do vector β ), que mede o efeito parcial de x j sobre y (considerando cons-
tante todos os outros regressores).
Admitindo que os regressores wt • são omitidos (porque, por exemplo, não são
observáveis), a equação estimável (MRL subparametrizado) é
yt = xt • β + ut ,
Capítulo 4 – MRL com Regressores Endógenos 12

onde ut = wt •δ + vt . Se o modelo tem termo independente ( xt1 = 1 ), pode, sem perda de


generalidade, supor-se que E ( wt • ) = 0 . Neste caso, a variável residual da equação esti-
mável tem valor esperado nulo, E (ut ) = 0 .
Como, em geral, Cov( xt • , wt • ) ≠ O , o modelo disponível tem regressores endó-
genos, e o estimador MQ de β não é consistente. Embora E (ut | xt • ) ≠ E (ut ) , cada β j
continua a ter a interpretação estrutural referida, porque β j aparece em yt = xt • β + ut .
Para calcular a projecção linear MQ de yt sobre xt • , faz-se E ∗ ( yt | xt • ) = xt • β∗ , e
tem-se
E ∗ ( yt | xt • ) = E ∗ ( xt • β + wt •δ + vt | xt • )
= E ∗ ( xt • | xt • ) β + E ∗ ( wt • | xt • )δ + E ∗ (vt | xt • )
= xt • β + xt • E ( xtT• xt • ) −1 E ( xtT• wt • )δ + xt • E ( xtT• xt • ) −1 E ( xtT•vt )
= xt • β + xt • E ( xtT• xt • ) −1 E ( xtT• wt • )δ
= xt •{β + E ( xtT• xt • ) −1 E ( xtT• wt • )δ }
= xt • ( β + Γ∗δ ),

onde Γ∗ = E ( xtT• xt • ) −1 E ( xtT• wt • ) . Neste caso, tem-se


β∗ = β + Γ∗ δ .
O resíduo da projecção linear MQ de yt sobre xt • é
ut∗ = yt − E ∗ ( yt | xt • ) = yt − xt • ( β + Γ∗ δ ) ,

que é ortogonal a xt • : E ( xtT•ut∗ ) = 0 [se o modelo tem termo independente, o resíduo ut∗
tem valor esperado nulo e não está correlacionado com xt • ].
Notando que a projecção linear MQ de wt • sobre xt • é
E ∗ ( wt • | xt • ) = xt • E ( xtT• xt • ) −1 E ( xtT• wt • )= xt •Γ∗ ,

pode escrever-se wt • = xt •Γ∗ + rt • , onde E ( xtT•rt • ) = O [se o modelo tem termo indepen-
dente, E (rt • ) = 0 e Cov( xt • , rt • ) = O ]. Então,
yt = xt • β + wt •δ + vt = xt • β + ( xt •Γ∗ + rt • )δ + vt = xt • ( β + Γ∗δ ) + ut∗ ,

em que ut∗ = rt •δ + vt é o resíduo da projecção linear MQ de yt sobre xt • . Daqui, tam-


bém, se conclui que ut = xt •Γ∗δ + ut∗ . Naturalmente, xt •Γ∗δ é a projecção linear MQ de
ut sobre xt • . O cálculo directo confirma este resultado:
E ∗ (ut | xt • ) = E ∗ ( wt •δ + vt | xt • ) = E ∗ ( wt • | xt • )δ = xt •Γ∗δ .

Quando se utiliza o estimador b para estimar β , tem-se


plim(b) = β + Γ∗ δ .
O respectivo enviesamento da endogeneidade, Γ∗ δ , chama-se enviesamento
das variáveis omitidas.
Pode concluir-se o seguinte: quando há variáveis omitidas, os estimadores
MQ de todos os coeficientes de regressão da equação estimável são assintoticamen-
te enviesados.
Capítulo 4 – MRL com Regressores Endógenos 13

Em particular, suponha-se que apenas se tem uma variável omitida, wt , e que a


atenção incide especialmente sobre a correlação entre wt e um dos regressores não omi-
tidos (por exemplo, xtk ). Admitindo que há termo independente, suponha-se que todos
os coeficientes da projecção linear MQ de wt sobre xt • são nulos, excepto o termo inde-
pendente e o coeficiente de xtk , ou seja, wt = γ 1∗ + γ k∗ xtk + rt . Neste caso, plim(b j ) = β j
( j = 2, 3, K , k − 1 ), e
Cov( xtk , wt )
plim(bk ) = β k + δ .
Var ( xtk )

Esta fórmula permite, sem dificuldade, determinar o sinal, e talvez a magnitude,


da inconsistência de bk . Por exemplo, se δ > 0 , e xtk e wt estão positivamente correla-
cionados, o enviesamento assintótico é positivo. Se a variância de xtk (na população) é
grande relativamente à covariância entre xtk e wt , então o enviesamento é pequeno.
Por exemplo, sabe-se que a equação estrutural é
yt = β1 + β 2 xt 2 + β 3 xt 3 + δ wt + vt ,

mas foi omitido wt . A equação estimável é dado por


yt = β1 + β 2 xt 2 + β3 xt 3 + ut .

Tem-se
−1
γ 1∗   1 E ( xt 2 ) E ( xt 3 )   E ( wt ) 
 ∗    
Γ∗ = γ 2  =  E ( xt 2 ) E ( xt22 ) E ( xt 2 xt 3 )  E ( xt 2 wt ) .
 ∗    
γ 3   E ( xt 3 ) E ( xt 2 xt 3 ) E ( xt 3 ) 
2
 E ( xt 3 wt ) 
Então,
E ∗ ( yt | 1, xt 2 , xt 3 ) = β1 + β 2 xt 2 + β 3 xt 3 + δ E ∗ ( wt | 1, xt 2 , xt 3 ) .

Fazendo E ∗ ( wt | 1, xt 2 , xt 3 ) = γ 1∗ + γ 2∗ xt 2 + γ 3∗ xt 3 , obtém-se
E ∗ ( yt | 1, xt 2 , xt 3 ) = β1 + β 2 xt 2 + β3 xt 3 + δ (γ 1∗ + γ 2∗ xt 2 + γ 3∗ xt 3 )
= ( β1 + δ γ 1∗ ) + ( β 2 + δ γ 2∗ ) xt 2 + ( β 3 + δ γ 3∗ ) xt 3 .

Alternativamente, como
wt = γ 1∗ + γ 2∗ xt 2 + γ 3∗ xt 3 + rt ,

onde E (rt ) = 0 , Cov( xt 2 , rt ) = 0 e Cov( xt 2 , rt ) = 0 , tem-se


yt = ( β1 + δ γ 1∗ ) + ( β 2 + δ γ 2∗ ) xt 2 + ( β3 + δ γ 3∗ ) xt 3 + ut∗ ,

onde ut∗ = δ rt + vt é o resíduo da projecção linear de MQ de yt sobre 1, xt 2 e xt 3 . Pode


concluir-se que plim(b1 ) = β1 + δ γ 1∗ , plim(b2 ) = β 2 + δ γ 2∗ e plim(b3 ) = β3 + δ γ 3∗ . Verifi-
ca-se, assim, que os três estimadores sofrem do enviesamento da variável omitida.
Em particular, se, por exemplo, apenas existe uma correlação importante entre
xt 3 e wt , pode fazer-se γ 2∗ = 0 . Então, plim(b2 ) = β 2 e
Capítulo 4 – MRL com Regressores Endógenos 14

Cov( xt 3 , wt )
plim(b3 ) = β 3 + δ .
Var ( xt 3 )

O enviesamento das variáveis omitidas pode ser eliminado, ou atenuado, intro-


duzindo variáveis proxy, isto é, variáveis que podem representar razoavelmente as va-
riáveis omitidas não observáveis. Para facilitar a exposição, vai supor-se que wt (esca-
lar) é a única variável omitida (não observável), e que a equação estrutural tem termo
independente:
yt = xt • β + δ wt + vt = β1 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ wt + vt .

Supõe-se que qt é uma variável proxy de wt . Para isso, é necessário que qt ve-
rifique dois requisitos:
1) A variável proxy qt é redundante (ignorável) na equação estrutural:
E ( yt | xt • , wt , qt ) = E ( yt | xt • , wt ) .

Facilmente se interpreta esta condição: qt é redundante para explicar yt , desde que


se controle xt • e wt . A hipótese da redundância é raramente controversa, pois admi-
te-se que a única razão para haver preocupação com qt é porque wt não é observá-
vel. Por exemplo, seja wt a aptidão do indivíduo t, e qt , o QI; supondo que a aptidão
afecta os salários, o QI não teria importância se fosse possível observar a aptidão.
A condição de redundância poderia ser substituída por outra condição mais fraca, que
estabelece a não correlação entre vt e qt . A utilização da condição mais forte permi-
te cobrir os casos em que qt tem interacções com os xtj .
2) A correlação entre wt e xt • , expurgada da influência de qt , é nula.
Este requisito pode ser apresentado usando o operador de projecção linear MQ:
E ∗ ( wt | xt • , qt ) = E ∗ ( wt | 1, qt ) .

Para melhor se compreender esta condição, seja E ∗ ( wt | 1, qt ) = θ0 + θ1 qt , ou


wt = θ 0 + θ1 qt + rt ,

onde, por definição, E (rt ) = 0 e Cov(qt , rt ) = 0 . Se qt é uma proxy razoável de wt ,


tem-se θ1 ≠ 0 (em geral, θ1 > 0 ). Mas, a segunda condição exige muito mais: é equi-
valente a Cov( xtj , rt ) = 0 , para j = 2, 3, K , k . Esta condição requer que qt esteja sufi-
cientemente correlacionado com wt , para que a correlação parcial entre xtj e wt (ex-
purgada da influência de qt ) seja nula.

Substituindo na equação estrutural wt por θ 0 + θ1 qt + rt , obtém-se a equação es-


timável,
yt = β1 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ (θ 0 + θ1 qt + rt ) + vt
= ( β1 + δ θ 0 ) + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ θ1 qt + (δ rt + vt ),

ou
yt = β10 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ 0 qt + ut ,

onde β10 = β1 + δ θ 0 , δ 0 = δ θ1 e ut = δ rt + vt .
Capítulo 4 – MRL com Regressores Endógenos 15

Deste modo, os regressores xtj não estão correlacionados com ut ; a proxy qt


também não está correlacionada com ut (devido à redundância, a correlação com vt é
nula; por definição, não está correlacionada com rt ). Desta forma, o método MQ forne-
ce estimadores consistentes de β10 , β 2 , β 3 ,..., β k e δ 0 . Assim, podem estimar-se os coe-
ficientes estruturais β j ( j = 2, 3, K , k ) [que permite medir os efeitos parciais dos xtj so-
bre E ( yt | xt • , wt ) ].
Quando qt é uma proxy imperfeita, rt está correlacionado com um ou mais xtj .
Se não se impuser a segunda condição, a projecção linear MQ de wt sobre xt • e qt é
dada por
wt = θ 0 + α 2 xt 2 + α 3 xt 3 + L + α k xtk + θ1 qt + rt .

Então,
yt = β10 + β 20 xt 2 + β 30 xt 3 + L + β k0 xtk + δ 0 qt + ut ,

onde β10 = β1 + δ θ 0 , β 0j = β1 + δ α j ( j = 2, 3, K , k ), δ 0 = δ θ1 e ut = δ rt + vt . Neste caso,


tem-se plim(b j ) = β 0j = β1 + δ α j ( j = 2, 3, K , k ) [o estimador MQ com proxy imperfeita
não é consistente]. Para qt ser uma proxy razoável é de esperar que α j seja pequeno.
Se a inclusão de qt induz multicolinearidade substancial, é mais aconselhável
fazer a regressão sem a variável proxy. Contudo, a inclusão de qt reduz a variância da
variável residual (se θ1 ≠ 0 ): Var (δ rt + vt ) < Var (δ wt + vt ) [porque Var (rt ) < Var ( wt ) ],
e vt não está correlacionado com rt e com wt ].
Pode utilizar-se mais do que uma variável proxy para wt . Por exemplo, fazen-
do wt = θ 0 + θ1 qt1 + θ 2 qt 2 + rt , com Cov( xtj , rt ) = 0 ( j = 2, 3, K , k ), o problema da omis-
são de variáveis fica resolvido.
Quando existem interacções entre regressores observáveis e variáveis explicati-
vas não observáveis, o problema da omissão de variáveis ainda pode ser resolvido com
variáveis proxy. Suponha-se que a equação estrutural é
yt = β1 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ1wt + δ 2 wt xtk + vt ,

onde E (vt | xt • , wt ) = 0 [para simplificar, considerou-se apenas a interacção entre xtk e


wt ].
Supondo que xtk é quantitativa e contínua, o efeito parcial sobre E ( yt | xt • , wt ) é
dado por
∂ E ( yt | xt • , wt )
= β k + δ 2 wt ,
∂ xtk

verificando-se que este efeito depende do nível de wt , e, portanto, não é estimável. Con-
tudo, supondo que E ( wt ) = 0 , o efeito parcial médio (EPM) é E ( β k + δ 2 wt ) = β k . Se
xtk é quantitativa e discreta, pode fazer-se uma interpretação semelhante. Se xtk é uma
variável artificial, o efeito parcial é
E ( yt | xt 2 , xt 3 , K , xt , k −1 ,1, wt ) − E ( yt | xt 2 , xt 3 , K , xt , k −1 , 0, wt ) = β k + δ 2 wt .

Se E ( wt ) = µ w ≠ 0 , o efeito parcial médio é β k + δ 2 µ w .


Capítulo 4 – MRL com Regressores Endógenos 16

A seguir vai analisar-se a questão da estimação da equação estrutural. Começa-


-se por supor que E ( wt | xt • ) = 0 [não há qualquer associação, linear ou não, entre wt e
xt • ]. Neste caso, as parcelas que envolvem a variável não observável vão incluir-se na
componente residual, obtendo-se
yt = β1 + β 2 xt 2 + β3 xt 3 + L + β k xtk + ut ,

onde ut = δ1wt + δ 2 wt xtk + vt . Como E (vt | xt • ) = E{E (vt | xt • , wt ) | xt •} = 0 e


E (ut | xt • ) = δ1 E ( wt | xt • ) + δ 2 xtk E ( wt | xt • ) + E (vt | xt • ) = 0 ,

o estimador MQ de cada β j é consistente [a hipótese E ( wt | xt • ) = 0 é crucial para obter


esta conclusão; não basta exigir que não há correlação entre wt e xt • , pois pode existir
correlação entre wt xtk e xt • ].
Quando wt e xt • estão correlacionados, o estimador MQ de cada β j é consis-
tente, desde que se disponha de uma proxy adequada para wt . Neste caso, os requisitos
a exigir são os seguintes:
1) E ( yt | xt • , wt , qt ) = E ( yt | xt • , wt ) (redundância);
2) E ( wt | xt • , qt ) = E ( wt | qt ) = θ1 qt , com E (qt ) = 0 .

Este segundo requisito é mais forte do que no caso em que não há interacções.
Para obter a equação estimável, começa-se por notar que, devido à redundância,
tem-se E (vt | xt • , wt , qt ) = E (vt | xt • , wt ) = 0 . Então, a regra do valor esperado iterado per-
mite estabelecer que E (vt | xt • , qt ) = 0 . O segundo requisito é equivalente a supor que
E (rt | xt • , qt ) = E (rt | qt ) = 0 , uma vez que wt = θ1 qt + rt . Então, considerando a equação
estrutural, obtém-se
yt = β1 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ1 (θ1 qt + rt ) + δ 2 (θ1 qt + rt ) xtk + vt
= β1 + β 2 xt 2 + β 3 xt 3 + L + β k xtk + δ1θ1 qt + δ 2θ1 qt xtk + δ1rt + δ 2 rt xtk + vt ,

ou
yt = β1 + β 2 xt 2 + β3 xt 3 + L + β k xtk + δ10 qt + δ 20 qt xtk + ut ,

onde δ10 = δ1θ1 , δ 20 = δ 2θ1 e ut = δ1rt + δ 2 rt xtk + vt .


Facilmente se verifica que E (ut | xt • , qt ) = 0 . Com efeito,
E (ut | xt • , qt ) = E (δ1rt + δ 2 rt xtk + vt | xt • , qt )
= δ1E (rt | xt • , qt ) + δ 2 xtk E (rt | xt • , qt ) + E (vt | xt • , qt ) = 0 .

Se E (qt ) ≠ 0 , faz-se E ( wt | qt ) = θ 0 + θ1 qt , e o coeficiente de xtk na equação esti-


mável é β k + δ 2θ 0 . Neste caso, o estimador MQ de β k não é consistente. Como na prá-
tica não se conhece E (qt ) , deve utilizar-se as observações centradas da proxy, qt − q ,
para fazer a interacção com xtk : o regressor passa a ser (qt − q ) xtk , em vez de qt xtk .
Mesmo que não haja heterocedasticidade condicionada na equação estrutural –
Var ( yt | xt • , wt , qt ) = Var( yt | xt • , wt ) = σ 2 –, existe heterocedasticidade condicionada na
equação estimável. De facto, recorrendo à propriedade i) dos valores esperados condi-
cionados (ver capítulo 1), tem-se
Capítulo 4 – MRL com Regressores Endógenos 17

Var ( yt | xt • , qt ) = E{Var ( yt | xt • , wt , qt ) | xt • , qt } + Var{E ( yt | xt • , wt , qt ) | xt • , qt }


= σ 2 + (δ1 + δ 2 xtk ) 2 Var( wt | xt • , qt ).

Assim, existe heterocedasticidade condicionada, mesmo que Var ( wt | xt • , qt ) seja


constante: Var ( yt | xt • , qt ) depende de xtk . Em qualquer caso, devem utilizar-se erros
padrão robustos para fazer inferência estatística.
Suponha-se, agora, que a equação de regressão que se vai estimar tem regresso-
res em excesso. Assim, admita-se que a equação estrutural é dada por
yt = xt • β + vt ,

mas a equação a estimar é (MRL sobreparametrizado)


yt = xt • β + wt •δ + ut .

Considere-se que todas as variáveis são pré-determinadas:


E ( xtT•vt ) = 0 ; E ( wtT•vt ) = 0 .

Notando que ut = vt − wt •δ , verifica-se que wt • é endógeno na especificação dis-


ponível. De facto, tem-se E ( wtT•ut ) = E ( wtT•vt − wtT• wt •δ ) = − E ( wtT• wt • )δ .
Seja
−1
 E ( xtT• xt • ) E ( xtT• wt • )   A11 A12 
A=  = .
 E ( wtT• xt • ) E ( wtT• wt • )  A21 A22 

Para determinar a projecção linear MQ de yt sobre xt • e wt • ,


E ∗ ( yt | xt • , wt • ) = xt • β∗ + wt •δ ∗ ,

tem-se
 A A   E ( xtT• yt ) 
E ∗ ( yt | xt • , wt • ) = [ xt • wt • ]  11 12   
 A21 A22   E ( wt • yt )
T

 A A   E{xtT• ( xt • β + vt )}
= [ xt • wt • ]  11 12   ,
 A21 A22   E{wt • ( xt • β + vt )}
T

ou
 A11 A12   E ( xtT• xt • ) 
E ( y t | xt • , wt • ) = [ xt •

wt • ]   β
 A21 A22   E ( wt • xt • )
T

I 
= [ xt • wt • ]   β = x t • β ,
O 
donde se conclui que β∗ = β e δ * = 0 . Assim,
plim( βˆ ) = β = β
 MQ ∗

plim(δˆMQ ) = δ ∗ = 0,

Capítulo 4 – MRL com Regressores Endógenos 18

ou seja, β̂ MQ é assintoticamente não enviesado, e δˆMQ tem enviesamento assintótico


igual a − δ . Pode, então, concluir-se o seguinte: o excesso de regressores não prejudi-
ca a estimação MQ dos coeficientes da equação estrutural.

Erros de medida nas variáveis

Começa-se por analisar o erro de medida no regressando. Suponha-se que a


equação estrutural é
yt∗ = xt • β + vt

onde yt∗ representa qualquer observação de y sem erro. Supondo que E (vt | xt • ) = 0 , to-
dos os regressores são pré-determinados, E ( xtT•vt ) = 0 , e E (vt ) = 0 . Quando y é observá-
vel com erro, os valores observados representam-se com yt ≠ yt∗ . O erro de medida (na
população) é dado por et = yt − yt∗ .
A equação estimável é, então,
yt = xt • β + ut ,

onde ut = et + vt . Em que condições se pode utilizar o método MQ para obter estimado-


res consistentes dos β j ? Vai supor-se que E (et ) = 0 [caso contrário, apenas se altera o
termo independente da equação estimável]. A hipótese crucial para se ter consistência é
a da ortogonalidade entre os regressores e o erro de medida, E ( xtT•et ) = 0 . Nestas condi-
ções, os regressores da equação estimável continuam a ser pré-determinados. Contudo,
se E ( xtT•et ) ≠ 0 (ao contrário do que é habitual) há regressores endógenos, e o estimador
MQ de algum β j não é consistente.
Se et e vt não estão correlacionados, E (et vt ) = 0 , tem-se
Var (et + vt ) = σ e2 + σ v2 > σ v2 ,

e, portanto, a variância da variável residual é maior quando existe erro de medição do


regressando.
Quando a equação estrutural é ln( yt∗ ) = xt • β + vt , tem-se et = ln( yt ) − ln( yt∗ ) ou
yt = yt at , onde et = ln(at ) (erro de medida multiplicativo).

A questão dos erros de medida nos regressores é mais complexa. Suponha-se


que a equação estrutural é
yt = xt • β + zt∗•δ + vt ,

onde: xt • é um vector 1 × k de regressores; β é o vector k × 1 dos respectivos coefi-


cientes; zt∗• é outro vector 1 × m de regressores; δ é o respectivo vector m × 1 dos coefi-
cientes. Supõe-se que E (vt | xt • , zt∗• ) = 0 . Assim, admite-se que todos os regressores são
pré-determinados [ E ( xtT•vt ) = 0 ; E{( zt∗• )T vt } = 0 ] e E (vt ) = 0 .
Quando zt∗• é observável com erro, os valores observados são dados por
zt • = zt∗• + et • ,

onde et • é o erro de medição (na população).


Capítulo 4 – MRL com Regressores Endógenos 19

Vai admitir-se a hipótese de redundância de zt • ,


E ( yt | xt • , zt∗• , zt • ) = E ( yt | xt • , zt∗• ) .

Esta hipótese não é controversa, porque é razoável supor que zt • não tem efeito
sobre yt , se se controlar zt∗• . Como E (vt | xt • , zt∗• , zt • ) = E (vt | xt • , zt∗• ) = 0 , facilmente se
verifica que E ( ztT•vt ) = 0 . Com efeito,
E ( ztT•vt ) = E{E ( ztT•vt | zt • )} = E{ztT• E (vt | zt • )} = 0 ,

se se provar que E (vt | zt • ) = 0 . De facto, E (vt | zt • ) = E{E (vt | xt • , zt∗• , zt • ) | zt •} = 0 .


Considerando os valores observados, zt • , a equação estimável é a seguinte:
yt = xt • β + zt •δ + ut ,

onde ut = vt − et •δ . Supõe-se que: E (et • ) = 0 [caso contrário, apenas se altera o termo


independente da equação estimável]; E (et •vt ) = 0 ; E ( xtT•et • ) = O .
Facilmente se verifica que
E ( ztT•et • ) = E{( zt∗• + et • )T et • } = E{( zt∗• )T et • } + E (etT•et • ) = E{( zt∗• )T et •} + Cov(et • ) .

Considerem-se os seguintes casos:


1) Se E ( ztT•et • ) = O , e como zt • = zt∗• + et • , resulta que E{( zt∗• )T et •} ≠ O . Neste caso, to-
dos os regressores da equação estimável são pré-determinados, ou seja, E ( xtT•ut ) = 0
e E ( ztT•ut ) = 0 . Então, os vectores β e δ podem ser consistentemente estimados pe-
lo método MQ. Neste caso,
Var(ut ) = Var(vt − et •δ ) = σ v2 + Var(et •δ ) = σ v2 + δ T Cov(et • ) δ > σ v2 .

2) Se E{( zt∗• )T et •} = O , então E ( ztT•et • ) = E{( zt∗• + et • )T et •} = Cov(et • ) ≠ O . Como


E ( ztT•ut ) = E{ztT• (vt − et •δ )} = − Cov(et • ) δ ≠ 0 ,

existem regressores em zt • que são endógenos, e o método MQ fornece estimadores


não consistentes de β e δ . A condição E{( zt∗• )T et • } = O é conhecida como a hipóte-
se clássica dos erros nas variáveis (CEV).

Para obter o enviesamento da endogeneidade neste caso, vai determinar-se a


projecção linear MQ de yt sobre xt • e zt • : E ∗ ( yt | xt • , zt • ) = xt • β∗ + zt •δ ∗ .
Começa-se por fazer
−1
 E ( xtT• xt • ) E ( xtT• zt • )  A11 A12 
A= T T  = .
 E ( zt • xt • ) E ( zt • zt • )   A21 A22 
Então,
E ∗ ( yt | xt • , zt • ) = xt • β + zt •δ + E ∗ (ut | xt • , zt • )
= xt • β + zt •δ + E ∗ (vt | xt • , zt • ) − E ∗ (et • | xt • , zt • )δ ,

ou
Capítulo 4 – MRL com Regressores Endógenos 20

 A A   E ( xtT•vt )
E ∗ ( yt | xt • , zt • ) = xt • β + zt •δ + [ xt • zt • ]  11 12  
 A21 A22   E ( zt •vt ) 
T

 A A   E ( xtT•et • )
− [ xt • zt • ]  11 12   δ
 A21 A22   E ( zt •et • ) 
T

A A   O 
= xt • β + zt •δ − [ xt • zt • ]  11 12   δ
 A21 A22   E ( zt •et • )
T

 A E ( ztT•et • ) 
= xt • β + zt •δ − [ xt • zt • ]  12 T δ
 A22 E ( zt •et • )
= xt •{β − A12 E ( ztT•et • ) δ } + zt •{δ − A22 E ( ztT•et • ) δ }.

Como E ( ztT•et • ) = Cov(et • ) , vem


E ∗ ( yt | xt • , zt • ) = xt •{β − A12Cov(et • ) δ } + zt •{δ − A22Cov(et • ) δ } .

Donde
β∗ = β − A12Cov(et • ) δ

δ ∗ = δ − A22Cov(et • ) δ .
Assim,
plim( βˆ ) = β = β − A Cov(e ) δ
 MQ ∗ 12 t•

plim(δˆMQ ) = δ ∗ = δ − A22Cov(et • ) δ ,

obtendo-se os enviesamentos de erros nos regressores (variáveis explicativas).
A conclusão é a seguinte: quando existem regressores com erro, os estimado-
res MQ de todos os coeficientes de regressão do modelo disponível são assintotica-
mente enviesados.
O estudo do enviesamento de erros nos regressores pode ser aprofundado tirando
partido da projecção linear MQ de zt∗• sobre xt • , e da projecção linear MQ de zt • sobre
xt • . A primeira projecção é dada por
E ∗ ( zt∗• | xt • ) = xt • E ( xtT• xt • ) −1 E ( xtT• zt∗• ) = xt • ∆ ou zt∗• = xt •∆ + rt∗• ,

onde ∆ = E ( xtT• xt • ) −1 E ( xtT• zt∗• ) e rt∗• é o resíduo da projecção [ E ( xtT•rt∗• ) = O ; se existe ter-
mo independente, E (rt∗• ) = 0 e Cov( xt • , rt∗• ) = O ].
Como E ∗ (et • | xt • ) = xt • E ( xtT• xt • ) −1 E ( xtT•et • ) = 0 , a segunda projecção é
E ∗ ( zt • | xt • ) = E ∗ ( zt∗• + et • | xt • ) = xt •∆ ou zt • = xt •∆ + rt • ,

onde rt • é o resíduo desta projecção [ E ( xtT•rt • ) = O ; se existe termo independente, vem


E (rt • ) = 0 e Cov( xt • , rt • ) = O ].
De rt • = zt • − xt •∆ e zt • = zt∗• + et • , resulta imediatamente que
rt • = rt∗• + et • .

Como E ∗ ( yt | xt • , zt • ) = xt • β∗ + zt •δ ∗ e zt • = xt •∆ + rt • , a propriedade e) das projec-


ções lineares MQ permite concluir que E ∗ ( yt | rt • ) = rt •δ ∗ , onde δ ∗ = E (rtT• rt • ) −1 E (rtT• yt ) .
Para obter uma expressão mais interessante para δ ∗ , começa-se por notar que
Capítulo 4 – MRL com Regressores Endógenos 21

E (rtT• yt ) = E{rtT• ( xt • β + zt •δ + vt − et •δ )}
= E (rtT• xt • ) β + E (rtT• zt • )δ + E (rtT• vt ) − E (rtT• et • )δ
= E (rtT• zt • )δ − E (rtT• et • )δ = E{rtT• ( zt • − et • )}δ = E (rtT• zt∗• )δ ,

porque E (rtT• xt • ) = O e E (rtT• vt ) = E{( zt • − xt •∆)T vt } = 0 . Logo, δ ∗ = E (rtT• rt • ) −1 E (rtT• zt∗• )δ .


Como E (rtT• zt∗• ) = E{(rt∗• + et • )T ( xt •∆ + rt∗• )} = E{( rt∗• )T rt∗•} , obtém-se
δ ∗ = E (rtT• rt • ) −1 E{( rt∗• )T rt∗• }δ .
Quando existe termo independente, tem-se
δ ∗ = Cov(rt • ) −1 Cov(rt∗• )δ .
Notando que E{( rt∗• )T et • )} = E{( zt∗• − xt •∆)T et • )} = O , tem-se
E (rtT• rt • ) = E{( rt∗• + et • )T (rt∗• + et • )} = E{( rt∗• )T rt∗•} + Cov(et • ) .

Então,
δ ∗ = {E{( rt∗• )T rt∗•} + Cov(et • )}−1 E{( rt∗• )T rt∗•}δ ,
ou
δ ∗ = E (rtT• rt • ) −1{E (rtT• rt • ) − Cov(et • )}δ .
No caso de existir termo independente, obtém-se
δ ∗ = {Cov(rt∗• ) + Cov(et • )}−1 Cov(rt∗• )δ = Cov(rt • ) −1{Cov(rt • ) − Cov(et • )}δ .
Esta igualdade não é fácil de interpretar para m > 1 . Quando m = 1 [há apenas
uma variável observável com erro; zt = zt∗ + et ], tem-se
Var(rt∗ ) Var(rt ) − Var (et )
plim(δˆMQ ) = δ ∗ = δ= δ.
Var(rt ) + Var (et )

Var(rt )

Como Var(rt∗ ) < Var(rt∗ ) + Var(et ) , conclui-se que | plim(δˆMQ ) | = | δ ∗ | < | δ | . Des-
te modo, em grandes amostras, o efeito parcial de z sobre y (medido por δ ), quando é
estimado pelo método MQ, é atenuado devido à existência de erro de medida no re-
gressor. Se δ > 0 , δˆMQ tende a sub-estimar δ ; se δ < 0 , δˆMQ tende a sobre-estimar δ .
Para ilustrar as considerações anteriores, seja a equação estrutural
yt = β1 + β 2 xt 2 + β3 xt∗3 + vt ,

a verificar E (vt ) = 0 , E ( xt 2vt ) = 0 e E ( xt∗3vt ) = 0 . O regressor xt∗3 é observável com


erro, e, portanto, xt 3 = xt∗3 + et , onde et é o erro de medição (na população). A hipótese
da redundância de xt 3 garante que E ( xt 3vt ) = 0 . A equação estimável é dada por
yt = β1 + β 2 xt 2 + β3 xt 3 + ut ,

onde ut = vt − β3et . Supõe-se que E (et ) = 0 , E (et vt ) = 0 e E ( xt 2et ) = 0 .


Supondo que se verifica a hipótese CEV, E ( xt∗3et ) = 0 , deduz-se que
E ( xt 3et ) = E{( xt∗3 + et ) et } = Var(et ) ≠ 0 ,

e que
Capítulo 4 – MRL com Regressores Endógenos 22

E ( xt 3ut ) = E{xt 3 (vt − β 3et )} = − β 3Var(et ) ≠ 0 ,

ou seja, xt 3 é regressor endógeno (na equação estimável).


Facilmente se verifica que: E ∗ ( xt∗3 | 1, xt 2 ) = δ1 + δ 2 xt 2 ou xt∗3 = δ1 + δ 2 xt 2 + rt∗3 , on-
de E (rt 3 ) = 0 e E ( xt 2 rt∗3 ) = 0 ; E ∗ ( xt 3 | 1, xt 2 ) = δ1 + δ 2 xt 2 ou xt 3 = δ1 + δ 2 xt 2 + rt 3 , a verifi-

car E (rt 3 ) = 0 e E ( xt 2 rt 3 ) = 0 . Logo, rt 3 = rt∗3 + et e


Var(rt∗3 ) Var(rt 3 ) − Var(et 3 )
plim(b3 ) = β 3∗ = β3 = β3 .
Var(rt 3 ) + Var (et )

Var(rt 3 )

Suponha-se, agora, que a equação estrutural é um modelo de regressão linear


simples, yt = β1 + β 2 xt∗ + vt , em que a variável explicativa é pré-determinada, mas é ob-
servável com erro. Neste caso, a equação estimável passa a ser yt = β1 + β 2 xt + ut , em
que xt = xt∗ + et e ut = vt − β 2 et . Com as hipóteses atrás referidas, pode calcular-se os
enviesamentos assintóticos. Seja
−1
 a11 a12   1 E ( xt )  1  E ( xt2 ) − E ( xt )
A= = = .
2 
a21 a22   E ( xt ) E ( xt ) Var( xt ) − E ( xt ) 1 

Então,
 E ( xt )Var (et )
plim(b1 ) = β1∗ = β1 + β2
 Var ( xt )

plim(b ) = β ∗ = β − Var (et ) β .
 2 2 2
Var( xt ) 2

Como
Var ( xt ) − Var(et ) Var ( xt∗ )
plim(b2 ) = β 2∗ = β2 = β
Var ( xt ) Var( xt∗ ) + Var(et ) 2

e Var ( xt∗ ) < Var ( xt ) , tem-se | plim(b2 ) | = | β 2∗ | < | β 2 | ; quanto menor for Var (et ) relativa-
mente a Var ( xt∗ ) , menor é o enviesamento assintótico.
Nalguns casos, a hipótese clássica dos erros nas variáveis pode não ser ver-
dadeira [como E ( ztT•et • ) = E{( zt∗• )T et • } + Cov(et • ) , pode acontecer que E{( zt∗• )T et • } ≠ O
e que E ( ztT•et • ) ≠ O ]. Por exemplo, suponha-se que um dos factores que explica o salário
dos trabalhadores é o consumo de marijuana. Seja marijuana∗ o número de dias por
mês que o trabalhador fuma marijuana, e marijuana o número de dias por mês reporta-
dos pelo trabalhador. Postula-se que marijuana = marijuana∗ + e , e pode mesmo supor-
-se que os trabalhadores tentam reportar a verdade. É obvio que marijuana∗ = 0 implica
marijuana = 0 [o erro de medida para os trabalhadores que não fumam marijuana é ze-
ro]. Quando marijuana ∗ > 0 , é mais provável que marijuana < marijuana∗ , do que o
contrário. Deste modo, há correlação entre o erro de medida e marijuana∗ .
Uma situação geral em que a hipótese CEV é necessariamente falsa é aquela em
que Var ( zt ) < Var ( zt∗ ) ; neste caso, como Var ( zt ) = Var ( zt∗ ) + Var (et ) + 2 Cov( zt∗ , et ) , é
óbvio que Cov( zt∗ , et ) < 0 . Por exemplo, se o número de anos de escolaridade é uma va-
riável explicativa dos salários dos trabalhadores, há tendência para que educ (número
Capítulo 4 – MRL com Regressores Endógenos 23

de anos reportados) seja arredondado em relação a educ∗ (número de anos verificados).


Portanto, Var(educ) < Var (educ∗ ) .

4.2 - Exemplos de modelos económicos com regressores endógenos

Na presente secção vão apresentar-se alguns exemplos, sendo os dois primeiros


dedicados ao enviesamento da simultaneidade.

Um modelo de procura e oferta num mercado em equilíbrio

Considere-se o seguinte modelo de procura e oferta de um certo produto:


qtd = α 0 + α1 pt + utd (equação da procura)
 s
qt = β 0 + β1 pt + ut
s
(4.7) (equação da oferta )
q d = q s (equilíbrio de mercado),
 t t

onde:
qtd - quantidade do produto procurada no período t;
qts - quantidade do produto oferecida no período t;
pt - preço do produto no período t;
utd - variável residual da equação da procura, relativa ao período t;
uts - variável residual da equação da oferta, relativa ao período t.
A variável residual da equação da procura representa os factores que, para além
do preço, influenciam a quantidade procurada (por exemplo, o rendimento dos consumi-
dores); como as variações desta variável provocam deslocamentos da curva da procura
(gráfico que representa a relação entre a quantidade procurada e o preço), a variável re-
sidual utd chama-se shifter da procura (não observável).
A variável residual da equação da oferta diz respeito aos factores que, para além
do preço, influenciam a quantidade oferecida (por exemplo, a dimensão média das em-
presas do mercado); como as variações desta variável implicam deslocamentos da curva
da oferta, a variável residual uts chama-se shifter da oferta (não observável).
Vai supor-se que: E (utd ) = 0 ; E (uts ) = 0 . Fazendo qt = qtd = qts , o modelo pode
escrever-se da seguinte maneira:
qt = α 0 + α1 pt + utd (equação da procura)
(4.8) 
qt = β 0 + β1 pt + ut
s
(equação da oferta ).

Facilmente se verifica que o preço é função das duas variáveis residuais. Com
efeito, resolvendo o sistema anterior em relação ao preço e à quantidade, tem-se
 β 0 − α 0 uts − utd
p
 t = +
 α 1 − β1 α 1 − β 1
(4.9) 
q = α1 β 0 − α 0 β1 + α1ut − β1ut .
s d

 t α1 − β1 α 1 − β1
Capítulo 4 – MRL com Regressores Endógenos 24

Então, como
Cov(utd , uts ) − Var(utd ) Var(uts ) − Cov(utd , uts )
Cov( pt , utd ) = ≠ 0 , Cov( pt , uts ) = ≠ 0,
α1 − β1 α1 − β1
resulta que o preço é endógeno nas duas equações (procura e oferta); a endogeneidade
é consequência do equilíbrio de mercado.
Quando se estabelece que Cov(utd , uts ) = 0 , as covariâncias anteriores simplifi-
cam-se para
Var(utd ) Var(uts )
(4.10) Cov( pt , utd ) = − ≠ 0 , Cov( pt , uts ) = ≠0.
α1 − β1 α 1 − β1
Se, como habitualmente, α1 < 0 (curva da procura decrescente) e β1 > 0 (curva
da oferta crescente) conclui-se que: a correlação entre o preço e o shifter da procura é
positiva; a correlação entre o preço e o shifter da oferta é negativa.
Quando se faz a regressão MQ da quantidade sobre uma constante e o preço, não
se consegue estimar nem a equação da procura nem a equação da oferta, uma vez que o
preço é endógeno nas duas equações.
No entanto, como se viu na secção anterior, o estimador MQ é consistente para o
vector dos coeficientes na projecção linear MQ. Atendendo a (4.3), o coeficiente do pre-
ço, nesta projecção, é dado por
Cov( pt , qt )
(4.11) α1∗ = β1∗ = .
Var( pt )

Considerando a equação da procura, tem-se


Cov( pt , qt ) = α1Var( pt ) + Cov( pt , utd ) ,

e
Cov( pt , utd )
α1∗ = α1 + .
Var( pt )

Representando por α̂1 o estimador MQ de α1 , pode concluir-se que


Cov( pt , utd )
(4.12) plim(αˆ1 ) = α1∗ = α1 + ,
Var( pt )

onde
Cov( pt , utd )
Var( pt )

é o respectivo enviesamento da endogeneidade.


Do mesmo modo, quando se considera a equação da oferta, obtém-se
Cov( pt , uts )
β1∗ = β1 + ,
Var( pt )

e
Capítulo 4 – MRL com Regressores Endógenos 25

s
Cov( pt , ut )
(4.13) plim( βˆ1 ) = β1∗ = β1 + .
Var( pt )

Chega-se, então, à conclusão que para estimar o coeficiente do preço, quer na


equação da procura quer na da oferta, o estimador MQ não é consistente. O enviesamen-
to assintótico obtido, em cada caso, costuma designar-se também por enviesamento da
simultaneidade, porque o regressor e a variável residual estão relacionadas entre si
através de um sistema de equações simultâneas.
No caso extremo em que não há shifters da procura ( utd = 0, ∀t ), verifica-se que:
Cov( pt , utd ) = 0 ; plim(αˆ1 ) = α1 ; a curva da procura não se desloca; todos os pares de
observações ( pt , qt ) pertencem a esta curva, correspondendo a deslocações da curva da
oferta. No outro caso extremo, em que não há shifters da oferta ( uts = 0, ∀t ), tem-se:
Cov( pt , uts ) = 0 ; plim( βˆ1 ) = β1 ; a curva da oferta não se desloca; todos os pares de ob-
servações ( pt , qt ) permitem construir esta curva, à medida que se desloca a curva da
procura.
No caso ge