Você está na página 1de 8

Econometria, 2019/2020

2.2.1 Modelo de regressão múltipla, estimação—resolução dos exercícios das aulas

 Os textos de apoio disponibilizados no Inforestudante, mais directamente indicados para as


resoluções aqui apresentadas são “c221.pdf” e “c221, síntese.pdf”. Nalguns exercícios
refere-se as páginas destes ou outros textos.
 Na resolução do exercício que envolve a utilização do programa GRETL, descreve-se a
sequência de comandos, por separadores e menus, e apresenta-se o respectivo output.

Revisão—álgebra matricial

23
𝒂)
−𝟏
𝑿 ( 𝑿′ 𝑿 ) 𝑿′ = 𝑷
𝑛×(𝑘+1) ⏟(𝑘+1)×𝑛 𝑛×(𝑘+1) (𝑘+1)×𝑛 𝑛×𝑛
(𝑘+1)×(𝑘+1)
−𝟏

𝑰𝒏 − 𝑷 = 𝑰𝒏 − 𝑿 ( 𝑿 𝑿 ) 𝑿′ = 𝑴
𝑛×𝑛 𝑛×(𝑘+1) ⏟(𝑘+1)×𝑛 𝑛×(𝑘+1) (𝑘+1)×𝑛 𝑛×𝑛
⏟ (𝑘+1)×(𝑘+1)
𝑛×𝑛

𝒃)

𝑷′ = [𝑿(𝑿′ 𝑿)−𝟏 𝑿′ ]′ = 𝑿′ [(𝑿′ 𝑿)−𝟏 ]′ 𝑿′ = 𝑿[(𝑿′ 𝑿)′ ]−𝟏 𝑿′ = 𝑿(𝑿′ 𝑿)−𝟏 𝑿′ = 𝑷.
𝑴′ = 𝑰′𝒏 − 𝑷′ = 𝑰𝒏 − 𝑷 = 𝑴.
𝒄)
𝑷𝟐 = 𝑿[(𝑿′ 𝑿)′ ]−𝟏 𝑿′ 𝑿[(𝑿′ 𝑿)′ ]−𝟏 𝑿′ = 𝑿(𝑿′ 𝑿)−𝟏 𝑿′ = 𝑷.
𝑴𝟐 = (𝑰𝒏 − 𝑷)(𝑰𝒏 − 𝑷) = 𝑰𝒏 − 𝟐𝑷 + 𝑷𝟐 = 𝑰𝒏 − 𝟐𝑷 + 𝑷 = 𝑰𝒏 − 𝑷 = 𝑴.
𝒅)
𝑷𝑿 = 𝑿(𝑿′ 𝑿)−𝟏 𝑿′ 𝑿 = 𝑿.
𝒆)
𝑿′ 𝑴 𝒚 = 𝑿′ (𝑰𝒏 − 𝑷)𝒚 = (𝑿′ − 𝑿′ 𝑷)𝒚 = (𝑿′ − 𝑿′ 𝑷′ )𝒚 =
(𝑘+1)×𝑛 𝑛×𝑛 𝑛×1

(𝑘+1)×𝑛

[𝑿′ − (𝑷𝑿)′ ]𝒚 = (𝑿′ − 𝑿′ )𝒚 = 𝟎.

24
Noção básica: valor esperado de uma matriz (v., por ex.: Introdução à Econometria, 2e,
Anexo B.5.2 Momentos de vectores e matrizes; Introductory Econometrics, 6e, Appendix D7a
Expected Value, D7b Variance-Covariance Matrix.).
Dada uma matriz de variáveis aleatórias, 𝑨 = [𝑎𝑖𝑗 ], o valor esperado, E(𝑨), é a matriz cujos
elementos são os valores esperados dos correspondentes elementos de 𝑨. Formalmente,
𝑎11 ⋯ 𝑎1𝑘 E(𝑎11 ) ⋯ E(𝑎1𝑘 )
𝑨=[ ⋮ ⋮ ] ⇒ E(𝑨) = [ ⋮ ⋮ ].
𝑎𝑛1 ⋯ 𝑎𝑛𝑘 E(𝑎𝑛1 ) ⋯ E(𝑎𝑛𝑘 )
Se a matriz é não aleatória (matriz de constantes), uma vez que o valor esperado de uma
constante é a própria constante, tem-se obviamente também E(𝑨) = 𝑨.
Considere-se então o vector
𝑦1
𝒚 = [ ⋮ ],
𝑛×𝑛 𝑦𝑛
com média (vector de médias)
E(𝑦1 ) 𝜇1
E(𝒚) = [ ⋮ ] = [ ⋮ ] = 𝝁 .
E(𝑦𝑛 ) 𝜇𝑛 𝑛×𝑛

A matriz de variâncias-covariâncias (ou simplesmente matriz de covariâncias) do vector 𝒚,


V(𝒚) é a matriz simétrica (𝒏 × 𝒏),
𝑦1 − 𝜇1
V(𝒚) = E[(𝒚 − 𝝁)(𝒚 − 𝝁)′] = E ([ ⋮ ] × [𝑦1 − 𝜇1 ⋯ 𝑦𝑛 − 𝜇𝑛 ]) =
𝑦𝑛 − 𝜇𝑛

E[(𝑦1 − 𝜇1 )2 ] E[(𝑦1 − 𝜇1 )(𝑦2 − 𝜇2 )] ⋯


[E[(𝑦2 − 𝜇2 )(𝑦1 − 𝜇1 )] E[(𝑦2 − 𝜇2 )2 ] ⋯] =
⋮ ⋮ ⋱

V(𝑦1 ) COV(𝑦1 , 𝑦2 ) COV(𝑦1 , 𝑦𝑛 )



COV(𝑦1 , 𝑦2 ) V(𝑦2 ) COV(𝑦2 , 𝑦𝑛 )
[ ] = 𝜮.
⋮ ⋱ ⋮
COV(𝑦1 , 𝑦𝑛 ) COV(𝑦2 , 𝑦𝑛 ) ⋯ V(𝑦𝑛 )

Sejam 𝑨 e 𝒃, respectivamente, uma matriz (𝑚 × 𝑛) e um vector (𝑚 × 1) de constantes.


Então, 𝑨𝒚 + 𝒃 é um vector de dimensão (𝑚 × 1). No enunciado pede-se para verificar o
seguinte resultado:
A matriz de variância-covariâncias do vector 𝑨𝒚 + 𝒃, de dimensão (𝑚 × 𝑚), é
V(𝑨𝒚 + 𝒃) = 𝑨𝜮𝐀′ .
Refira-se que as propriedades do valor esperado de escalares se aplicam a matrizes de modo
quase inalterado, recordando que o produto de matrizes não é comutativo—logo, na
multiplicação de matrizes não se pode trocar a ordem dos factores.
Tem-se E(𝑨𝒚 + 𝒃) = 𝑨E(𝒚) + 𝒃 = 𝑨𝝁 + 𝒃, porque 𝑨 e 𝒃 são (matrizes de) constantes. Em
consequência,
V(𝑨𝒚 + 𝒃) = E{[𝑨𝒚 + 𝒃 − E(𝑨𝒚 + 𝒃)][(𝑨𝒚 + 𝒃 − E(𝑨𝒚 + 𝒃))]′}
= E{[𝑨𝒚 + 𝒃 − (𝑨𝝁 + 𝒃)][(𝑨𝒚 + 𝒃 − (𝑨𝝁 + 𝒃))]′} = E[(𝑨𝒚 − 𝑨𝝁)(𝑨𝒚 − 𝑨𝝁)′] =
E[𝑨(𝒚 − 𝝁)(𝒚 − 𝝁)′𝑨′] = 𝑨E[(𝒚 − 𝝁)(𝒚 − 𝝁)′]𝑨′ = 𝑨V(𝒚)𝑨′ = 𝑨𝜮𝑨′ .
Note-se que o vector 𝒃, que intervém aditivamente, não tem influência na variância.
É interessante notar a expressão correspondente no caso escalar—em que 𝑨 = 𝑎 e 𝒃 = 𝑏
são escalares não aleatórios e 𝒚 = 𝑦 é uma v.a. escalar: V(𝑨𝒚 + 𝒃) = 𝑎V(𝑦)𝑎′ = 𝑎V(𝑦)𝑎 =
𝑎2 V(𝑦)—expressão já conhecida—v. exercício 1𝒅).

Considere-se, a propósito, o modelo GM, 𝒚 = 𝑿𝜷 + 𝒖 (todos os termos com o significado


usual—v. c221, pág. 4) e o estimador OLS do vector de parâmetros 𝜷. Das hipóteses (2)
Amostra casual, e (5) Homoscedasticidade, resulta a matriz de variâncias-covariâncias do
vector dos erros, V(𝒖) = 𝜎 2 𝑰𝒏 (c221, pág. 27). Para obter a matriz de variâncias e
̂ ), reescreva-se o estimador na forma (c221, pág. 21)
covariâncias do estimador OLS, V(𝜷
̂ = 𝜷 + [(𝑿′ 𝑿)−𝟏 𝑿′ ]𝒖.
𝜷
̂ , condicional em 𝑿—isto é, tratando 𝑿 como se fosse uma
Se se considera a variância de 𝜷
̂ está
matriz de constantes—o único termo aleatório é o vector dos erros, 𝒖, e então 𝜷
precisamente na forma referida no exercício:
̂=𝜷
𝜷 ⏟ ′ 𝑿)−𝟏 𝑿′ ] 𝒖,
⏟ + [(𝑿
𝒃 𝑨

em que 𝒃 é constante e 𝑨 é (tratada como) constante. Resulta, de imediato,


̂ |𝑿) = 𝑨V(𝒖|𝑿)𝑨′ = [(𝑿′ 𝑿)−𝟏 𝑿′ ]V(𝒖|𝑿)[(𝑿′ 𝑿)−𝟏 𝑿′ ]′ =
V(𝜷
[(𝑿′ 𝑿)−𝟏 𝑿′ ]V(𝒖)[(𝑿′ 𝑿)−𝟏 𝑿′ ]′ =
[(𝑿′ 𝑿)−𝟏 𝑿′ ]𝜎 2 𝑰𝒏 [(𝑿′ 𝑿)−𝟏 𝑿′ ]′ = 𝜎 2 [(𝑿′ 𝑿)−𝟏 𝑿′ ][(𝑿′ 𝑿)−𝟏 𝑿′ ]′
—dada a hipótese (5), V(𝒖|𝑿) = V(𝒖). Utilizando as propriedades da transposição e inversão

de matrizes, obtém-se finalmente V ( ̂


𝜷 ⏟ ′ 𝑿)−𝟏 (v. c221, pág. 28).
|𝑿) = 𝜎 2 (𝑿
(𝑘+1)×1
(𝑘+1)×(𝑘+1)

27
𝒂)
𝜹 = 𝑮𝜷; ̂ = 𝑮𝜷
𝜹 ̂
Sob as hipóteses GM, o estimador OLS de 𝜷, do modelo 𝒚 = 𝑿𝜷 + 𝒖, é cêntrico; logo
̂|𝑿) = 𝐸(𝑮𝜷
𝐸(𝜹 ̂ |𝑿) = 𝑮𝐸(𝜷
̂ |𝑿) = 𝑮𝜷 = 𝜹.
𝒃)
̂ |𝑿) = 𝜎 2 (𝑿′ 𝑿)−𝟏; logo
Sob as hipóteses GM, V(𝜷
̂|𝑿) = V(𝑮𝜷
V(𝜹 ̂ |𝑿) = 𝑮V(𝜷
̂ |𝑿)𝑮′ = 𝜎 2 𝑮(𝑿′ 𝑿)−𝟏 𝑮′

—v. exercício 24: V(𝑨𝒚 + 𝒃) = 𝑨V(𝒚)𝑨′.

28
A alternativa correcta é C—o coeficiente de 𝑥1 estima a taxa de variação de 𝑦 por acréscimo
unitário de 𝑥1 , cp: se 𝑥1 aumenta uma unidade e 𝑥2 permanece inalterado, estima-se que 𝑦 sofre
um acréscimo relativo de 100%.
(O coeficiente de 𝑥2 estima a elasticidade de 𝑦 por acréscimo unitário de 𝑥2 , cp: se 𝑥2 aumenta
1%, e 𝑥1 permanece inalterado, estima-se que 𝑦 decresce 0,02%.)
(V. c21, págs. 8-10).

29
Da definição das variáveis resulta, para todos os indivíduos, 𝑒𝑠𝑡𝑖 + 𝑠𝑖 + 𝑡𝑟𝑖 + 𝑙𝑖 = 168, ∀𝑖.
𝒂)
Não faz sentido considerar uma variação em qualquer das variáveis explicativas, mantendo
inalteradas as restantes. Quando 𝑒𝑠𝑡 (ou qualquer variável explicativa) varia, as outras (no
mínimo, uma delas) também variam, porque a sua soma é constante. Por exemplo, se o tempo
de estudo (𝑒𝑠𝑡) aumenta 5 horas por semana, o número de horas dedicado semanalmente a
outras actividades—por ex., sono (𝑠)—reduz-se 5 horas.
𝒃)
Pressuposto violado pelo modelo: (3) Ausência de multicolinearidade—as variáveis
explicativas são linearmente independentes. Em termos da matriz das variáveis explicativas, 𝑿,
as suas colunas são linearmente independentes ou seja, sua característica é igual ao número de
colunas (𝑘 + 1).
Neste caso, a matriz 𝑿 é do tipo
1 𝑒1 𝑠1 𝑡1 𝑙1
𝑒2 𝑠2 𝑡2 𝑙2
𝑿 = [1 ⋮ ⋮ ⋮ ]
(𝑛×5) ⋮ ⋮
1 𝑒𝑛 𝑠𝑛 𝑡𝑛 𝑙𝑛
—as suas colunas são linearmente dependentes [ex.: 168𝑐1 − (𝑐2 + 𝑐3 + 𝑐4 + 𝑐5 ) = 0]. Em
consequência, a matriz 𝑿′𝑿 não admite inversa e não se poderia obter o estimador OLS,
(𝑿′ 𝑿)−𝟏 𝑿′ 𝒚. O modelo está mal formulado.
𝒄)
Deve-se excluir uma das variáveis explicativas do modelo. A nova matriz 𝑿 (𝑛 × 4) passa a ter
todas as colunas linearmente independentes.

31
𝒂)
𝛽5 ≤ 0: quanto mais elevado 𝑟𝑎𝑛𝑘, pior a posição da universidade no ranking. Espera-se que
valores mais elevados de 𝑟𝑎𝑛𝑘 correspondam a níveis inferiores dos empregos dos recém-
licenciados, com valores medianos de 𝑠𝑎𝑙 mais baixos.
𝒃)
𝛽1 ≥ 0, 𝛽2 ≥ 0, 𝛽3 ≥ 0, 𝛽4 ≥ 0: efeitos de causalidade positivos.
𝒄)
Para uma média de curso 1 (ponto) superior, cp, estima-se um salário mediano24,8% superior
(variação relativa—𝛽2 é a taxa de variação de 𝑠𝑎𝑙 em ordem a 𝑚𝑓𝑐).
𝒅)
Para um número de livros existentes na biblioteca de uma universidade 1% superior, cp, estima-
se que o salário mediano de um recém-licenciado da universidade é 0,095% superior (𝛽3 é a
elasticidade de 𝑠𝑎𝑙 em relação a 𝑏𝑖𝑏).
𝒆)
Ceteris paribus, parece preferível frequentar universidades mais bem situadas no ranking (𝑟𝑎𝑛𝑘
inferior): estima-se em −0,33% a taxa de variação de 𝑠𝑎𝑙, para acréscimo unitário de 𝑟𝑎𝑛𝑘. Para
uma diferença de 20 posições no 𝑟𝑎𝑛𝑘𝑖𝑛𝑔 (∆𝑟𝑎𝑛𝑘 = 20), estima-se a variação relativa de 𝑠𝑎𝑙,
20 × (−0,33%. ) = −6,6%.

33
𝒂)
Deduz-se o valor esperado do estimador OLS com base num pressuposto relativo ao valor
esperado do erro do modelo—em concreto, a hipótese (4) E(𝑢|𝒙) = 0 (v. c221, págs. 19, 20).
̂ )—logo, para concluir se 𝜷
Para obter E(𝜷 ̂ é ou não cêntrico—não é necessário mencionar nada

a respeito da variância do erro (a qual é objecto da 5ª hipótese). O que significa que a ocorrência
de heteroscedasticidade (ou o seu contrário) não tem qualquer consequência sobre a
centricidade ou enviesamento do estimador.
𝒃)
Se se omite uma variável “importante” (entenda-se: “relevante”) do modelo—isto é, se o modelo
adoptado é sub-especificado—a consequência usual é a de que o erro é correlacionado com as
variáveis explicativas (ou seja, no modelo adoptado, as variáveis explicativas são endógenas).
Formalmente, sendo 𝑢 o erro deste modelo,
COV(𝑢, 𝒙) ≠ 0 ⇒ E(𝑢|𝒙) = ℎ(𝒙)
—a média condicional do erro é função das variáveis explicativas. Em consequência,
̂ |𝑿) = E[𝜷 + (𝑿′ 𝑿)−1 𝑿′ 𝒖|𝑿] = 𝜷 + (𝑿′ 𝑿)−1 𝑿′ E(𝒖|𝑿)
E(𝜷 ⏟ ≠ 𝜷,
≠𝟎

ou seja, o estimador OLS é enviesado.


Notas
 c221, pág. 21—deduz-se a centricidade de OLS na situação contrária, E(𝑢|𝒙) = 0.
 Se a variável omitida não é correlacionada com as variáveis mantidas no modelo (caso raro),
o estimador OLS permanece cêntrico (porque o erro do modelo sub-especificado, que
contém as variáveis omitidas, não é correlacionado com as variáveis mantidas no modelo—
estas continuam exógenas).
 No modelo de regressão simples (modelo adoptado), se se conhece o sinal da correlação
entre a variável explicativa e a variável omitida (modelo populacional: duas variáveis
explicativas) e, também, o sinal do efeito de causalidade da variável omitida sobre a variável
dependente, é possível conhecer o sinal do enviesamento do estimador OLS (não apenas que
o estimador é enviesado). V. c221, págs. 23-25 e exercícios 34, 37.
𝒄)
A hipótese (3) Ausência de multicolinearidade, impede que haja variáveis explicativas
linearmente dependentes entre si. Esta situação corresponde a correlações ±1 entre as
variáveis em causa (modelo mal formulado). Desde que não haja multicolinearidade, nada
impede, do ponto de vista da centricidade do estimador OLS, que as variáveis explicativas
tenham correlações elevadas entre si.
Note-se que, do ponto de vista da precisão (= inverso da variância) dos estimadores OLS, não
é bom que haja correlações elevadas entre variáveis explicativas: quanto maiores estas
correlações (em valor absoluto), menor a precisão dos estimadores (maiores as variâncias—v.
c221, pág. 29). Mas não é este o ponto aqui: o valor esperado de OLS não é afectado por
correlações elevadas (inferiores a 1, em valor absoluto) entre variáveis explicativas.
34
População log 𝑦 = 𝛽0 + 𝛽1 log 𝑥1 + 𝛽2 𝑥2 + 𝑢.
𝒂)

log 𝑥1 = 0 , 𝑥2 = 0): valor médio de log 𝑦 para 𝑥1 = 1 e 𝑥2 = 0.


𝛽0 = 𝐸 (log 𝑦 | ⏟
𝑥1 =1

𝛽1: elasticidade de 𝑦 em relação a 𝑥1 , cp; se 𝑥1 aumenta 1%, cp, a média de 𝑦 varia 𝛽1 %.


𝛽2: taxa de variação de 𝑦 por unidade de acréscimo de 𝑥2 , cp; se 𝑥2 aumenta 1 unidade, cp, a
média de 𝑦 varia 𝛽2 × 100%.
𝛽1 < 0: tudo o resto inalterado, em divisões administrativas mais poluídas, o preço mediano das
casas é mais baixo.
𝛽2 > 0: tudo o resto inalterado, em divisões administrativas em que o número médio de quartos
por casa é superior, o preço mediano das casas é mais elevado.
𝒃)
Em zonas mais poluídas (p. ex. arredores de grandes cidades) as casas poderão ser de menor
qualidade (mais pequenas, com menos quartos, etc.). O que significa que, na população, há
correlação negativa entre 𝑥1 e 𝑥2 .
Condicional nos regressores, o enviesamento do estimador OLS de 𝛽1 na regressão simples de
log 𝑦 sobre log 𝑥1 é dado por
B(𝛽̃1 ) = E(𝛽̃1 ) − 𝛽1 = 𝛽2 𝛿̃1 ,
2
em que 𝛿̃1 = ∑(𝑥𝑖2 − 𝑥̅ 2 )(log 𝑥𝑖1 − ̅̅̅̅̅̅̅
log 𝑥1 )⁄∑(log 𝑥𝑖1 − ̅̅̅̅̅̅̅
log 𝑥1 ) , denota o coeficiente de log 𝑥𝑖1
na regressão de 𝑥𝑖2 sobre uma constante e log 𝑥𝑖1 —v. c221, págs. 23-25.
Se, na população, CORR(𝑥1 , 𝑥2 ) < 0, então é provável que o numerador de 𝛿̃1 também seja
negativo—isto é, 𝛿̃1 é provavelmente negativo. Donde, com 𝛽2 > 0, é provável que o estimador
de 𝛽1 a partir da regressão simples sub-estime o verdadeiro valor, 𝛽1: B(𝛽̃1 ) = 𝛽2 𝛿̃1 < 0.

38
𝒂)
̂ = −19,315 + 0,128𝑠𝑞𝑟𝑓𝑡 + 15,198𝑏𝑑𝑟𝑚𝑠, 𝑛 = 88, 𝑅 2 = 0,632.
𝑝𝑟𝑖𝑐𝑒
GRETL
[Abrir a base de dados HPRICE1.gdt: no painel inicial,
Ficheiro → Abrir Dados → Ficheiro de Exemplos → separador Wooldridge → seleccionar
ficheiro Hprice1 House prices and characteristics.
Estimação do modelo: no painel inicial, após abrir a base de dados,
Modelo → Mínimos Quadrados (“Ordinary Least Squares”) → escolha da Variável dependente e
dos Regressores → OK]
Output da estimação OLS:
Modelo 1: Mínimos Quadrados (OLS), usando as observações 1-88
Variável dependente: price

Coeficiente Erro Padrão rácio-t valor p


const −19,3150 31,0466 −0,6221 0,5355
sqrft 0,128436 0,0138245 9,291 <0,0001 ***
bdrms 15,1982 9,48352 1,603 0,1127

Média var. dependente 293,5460 D.P. var. dependente 102,7134


Soma resíd. quadrados 337845,4 E.P. da regressão 63,04484
R-quadrado 0,631918 R-quadrado ajustado 0,623258
F(2, 85) 72,96353 valor P(F) 3,57e-19
Log. da verosimilhança −487,9989 Critério de Akaike 981,9978
Critério de Schwarz 989,4298 Critério Hannan-Quinn 984,9919
𝒃)
̂ = 15,198 ∆𝑏𝑑𝑟𝑚𝑠
∆𝑝𝑟𝑖𝑐𝑒 ⏟ = 15,198 = 15198 USD.
=1

𝒄)
̂ = 0,128 ∆𝑠𝑞𝑟𝑓𝑡
∆𝑝𝑟𝑖𝑐𝑒 ⏟ + 15,198 ∆𝑏𝑑𝑟𝑚𝑠
⏟ =
=140 =1

0,128 × 140 + 15,198 × 1 = 33,12 = 33120 USD.


𝒅)
𝑅 2 = 63,19%.
GRETL
[No painel de output da estimação OLS: R-quadrado]

𝒆)
𝑝𝑟𝑖𝑐𝑒
̂ = −19,315 + 0,128436 × 2438 + 15,1982 × 4 = 354605USD.
GRETL
[No painel de output da estimação OLS do modelo—v. al. 𝒂),
Análise → Mostrar atual, ajustado, resíduos → seleccionar a primeira linha.]
𝒇)
O valor estimado do preço da primeira casa é 354605—alínea 𝒆). O valor efectivo de venda
(300000) sugere que o comprador pagou um preço inferior ao que se esperaria, de acordo com
o modelo adoptado. Mas, decerto, há muitas outras características de uma casa (algumas das
quais nem são mensuráveis), que afectam o preço mas que não são controladas neste modelo.