2019
1 Introduction
1
2 Econometria I
Tutorial 03
Inicia-se com uma pergunta simples: se eu sei qual o Estado Civil de um in-
divı́duo, qual é a melhor forma de usar esta informação para prever seu salário?
(
10000 se x=1
f (x) =
5000 se x=0
2
para cima, estou de alguma maneira mais correto do que alguém que errou
mil para baixo.
2. Deve ser uma função derivável em todos os pontos.
Embora este seja uma condição mais formal, ela se justifica porque, na
nossa busca pelo ’melhor previsor’, em muitos momentos argumentos de
maximização/minimização serão necessários, de maneira que seria muito
desagradável encontrar uma situação em que não pudéssemos derivar a
função, sendo obrigados a utilizar de técnicas mais complexas. Assim,
talvez por comodidade, busquemos uma função especificada acima.
Qual candidato se eleva? Que tal o quadrado dos erros, como foi visto
em Estatı́stica? Vamos usar algo semelhante, mas não exatamente o mesmo
trabalhado em Estatı́stica, conforme discutiremos em alguns tutoriais mais à
frente.
Por enquanto, vale definir alguns pontos antes. Seja Y uma variável
aleatória. No caso, o seu sampling space é o conjunto de eventos ”Receber o
salário y” e sua imagem são os reais positivos. Neste sentido, y é um valor
especı́fico desta variável aleatória. É fácil notar que o evento ”Receber o salário
y” é imprevisı́vel - o que gera a caracterização de variável aleatória - porque
uma série de forças governam a determinação do salário de alguém, não sendo
possı́vel uma previsão determinı́stica disto.
ε = Y − Ye (1)
Este é o nosso ”erro de previsão”. Obviamente, também é uma variável aleatória,
dado que a substração de outras duas. Seu valor especı́fico é definido como
= y − ye. A partir disso, pode-se definir a nossa métrica como o velho Mean-
Squared-Error que encontramos em estatı́stica. Formalmente:
Z +∞
2
E[ε ] = E[(Y − Ye )2 ] =
2
(y − ye) f ()d
−∞
(2)
3
Com isso definido, deve-se agora passar para a segunda das ”perguntas
essenciais”: qual é o melhor previsor? Para o leitor atento, a resposta, ao menos
em seus termos mais genéricos, deve ser clara: a função cujos elementos do
conjunto imagem, associados com cada indivı́duo i a partir de seu estado civil,
minimizam (2).
Z +∞
E[Y |X = x] = yf (Y = y|X = x)dy (3)
−∞
Dito isso, deve-se provar que, de fato, (3) minimiza (2). Por comodi-
dade, chama-se (3) de Φ.
2 2
E[(Y − Ye ) ] = E[(Y − Φ) + (Φ − Ye )) ] (4)
2 2
= E[(Y − Φ) ] + 2E[(Y − Φ)(Φ − Ye )] + E[(Φ − Ye ) ] (5)
Assim, de (5):
4
ZZ
E[(Y − Φ)(Φ − Ye )] = (y − φ)(φ − ye)f (X = x, Y = y) dx dy
R2
ZZ
= (y − φ)(φ − ye)f (Y = y|X = x)f (X = x) dx dy
R2
Z +∞ Z +∞
= ( (y − φ)f (Y = y|X = x)dy)(φ − ye)f (X = x)dx)
−∞ −∞
E[(Y − Φ)(Φ − Ye )] = 0
2
E[(Y − Ye ) ] = E[(Y − Φ)2 ] + E[(Φ − Ye )2 ] (6)
Tutorial 03-04-05
Correlação x Causalidade
5
Especificamente, em Econometria se está preocupado com o ”efeito
de uma causa”. Mais precisamente, vamos definir o conceito de ”tratamento”:
dado um ente i - indivı́duo, paı́s, instituição, etc. - com certo conjunto de
caracterı́sticas - ou variáveis aleatórias - S, um tratamento em i é um ação que
mude numericamente algum elemento do conjunto S. Por exemplo, se os entes
forem indivı́duos, uma caracterı́stica interessante é ”anos de educação”. Um
tratamento seria, por exemplo, ”fornecer um ano a mais de educação para um
indivı́duo”, por meio de, em ilustração, um programa novo de ensino.
Visto isto, pode-se dar uma possı́vel definição para ”causalidade”. Seja
uma caracterı́stica s1 e outra s2 . Ao mesmo tempo em que se aplica um trata-
mento em s2 , mantém todos os outros elementos de S que não s1 , bem como
qualquer elemento fora de S que possa influenciar em s1 , constante - ceteris
paribus, para o leitor atento. Com isto feito, avalia-se, dado este tratamento
e esta condição de constância, o que ocorreu com s1 , numericamente. Esta
mudança numérica é o efeito causal de s2 em s1 . 1 .
6
MQO simples - Identificação
Como já foi discutido, a nossa melhor previsão, se queremos minimizar o MSE,
é feita a partir de E[Y |X = x]. Também como mencionado, para se ter exata-
mente, para cada x, este valor, seria necessário um nı́vel de informação grande
sobre nossa população.
E[Y |X = x] = β0 + β1 x (8)
E[(Y − βo − β1 X)] = 0
(10)
7
E[(Y − E[Y ] − β1 (X − E[X]))2 ] = E[(Ȳ − β1 X̄)2 ] (12)
Estimação x Identificação
8
Estimação por MQO Simples - Propriedades Algébricas
Talvez a maneira mais intuitiva de, a partir de uma amostra com dados finitos,
chegar-se em uma estimativa para β0 e β1 seja simplesmente replicando o que
foi feito na identificação com os paralelos amostrais.
n
X
(ei )2 (16)
i=0
9
Colocado isto, como se pode encontrar a estimativa? Ora, simples-
mente minimizando (17) de maneira muito semelhante àquela feita na identi-
ficação. Ao se fazer isso, conseguir-se-á as seguintes expressões:
Cov(X,
d Y)
b1 = (17)
V ar(X)
d
b0 = Y̆ − b1 X̆ (18)
Pn
1. i=1 ei = 0
Ou seja, sob o estimador de MQO, a soma dos resı́duos é zero. A prova
disto é simples, bastando olhar para a condição de primeira ordem para
b0 . Isto é, deveriva-se (16) em relação a bo eseigualaazero.T eremos :
Pn
i=1 (yi − β0 − β1 x i ) = 0
Que é exatamente o que gostarı́amos de provar.
2. Cov(X,
d e) = 0
Ou seja, a covariância amostral entre os valores de X - os ”regressores”- e os
resı́duos são zero. Para ver isso, retome a definição de covariância amostral:
Pn
i=1 (xi − x̆)(ei − ĕ) Pn
E a condição de primeira ordem para β1 : i=1 ei xi = 0
Daı́,
Pn como ĕ, do item 1 acima. , é zero, a expressão para a covariância fica:
Pi=1 (xi − x̆)(ei ) P
n n
i=1 (xi )(ei ) − x̆ i=1 ei
10
Que é zero, pela condição de primeira ordem e pelo item 1.
3. Cov(Ŷ , e) = 0
Com Ŷ sendo os valores ”fittados”, isto é, que compõem a reta b0 + b1 xi
Pn ˘ i − ĕ)
(yˆi − ŷ)(e
Pi=1
n ˘ i)
(yˆi − ŷ)(e
Pi=1
n ˘ i)
i=1 (b0P + b1 xi − ŷ)(e
˘ n Pn
(b0 − ŷ) i=1 (ei ) + b1
i=1 ei xi
Que é zero, pelo Item 1 e 2.
4. y̆ = b0 + b1 x̆
Ou seja, a reta com as estimativas inclui o ponto (x̆, y̆) ou, ainda, ela contém o
par ordenado das médias amostrais.
Para ver isso, basta realizar um somatório em ambos os lados:
Pn Pn
i=1 yi = nb0 + b1 i=1 xi
Se dividimos por ”n”, chegamos na demonstração que almejávamos.
5. ŷ˘ = y̆ Ou seja, a média dos valores fitados é igual a média amostral de todos os
valores.
Como se sabe, o valor fittado é dado por:
b0 + b1 xi = yˆi
Se fazemos o mesmo processo que em 4., chega-se em:
ŷ˘ = b0 + b1 x̆
Ao igular a 4., demonstra-se o requerido.
1. R2 enxuto
yi = b0 + b1 xi + ei
yi = ŷ + ei
V ar(Y ) = V ar(Ŷ ) + V ar(e) + Cov(Ŷ , e)
11
Da propriedade algébrica 3., sabemos que a terceira parte é zero. Logo:
V ar(Y ) = V ar(Ŷ ) + V ar(e)
SST = SSE + SSR
A partir disso, o R2 é definido como:
SSE
R2 = SST
De maneira mais clara, o R2 é, simplesmente, a correlação amostral, ao
quadrado, entre os valores de Y fittado e os valores de Y da amostra:
2 Cov(Ŷ , Ŷ + e) 2
d
Cor(Ŷ , Y ) = ( q )
d
V ar(Ŷ )V ar(Y )
d d
Cov(Ŷ , Ŷ ) + Cov(Ŷ , e) 2
d d
=( q )
V ar(Ŷ )V ar(Y )
d d
2
V ar(Ŷ )
d
= (q )
V ar(Ŷ )V ar(Y
d )
d
V ar(Ŷ )2
d
=
V ar(Ŷ )V ar(Y
d )
d
V ar(Ŷ )
d
=
V ar(Y
d )
2. R2 aberto
yi = b0 + b1 xi + ei
Ao colocar aqui a equação (19):
yi − Y̆ = b1 (x − X̆) + ei
P n 2 2 Pn 2
Pn Pn 2
i=1 (yi − y̆) = b 1 i=1 (xi − x̆) + 2b1 i=1 (xi − x̆)ei + i=1 ei
Pn Pn Pn
i=1 (yi − y̆)2 = b1 2 i=1 (xi − x̆)2 + 2
i=1 ei
12
MQO simples - Propriedades estatı́sticas
1. Viés
O viés é uma proposição sobre a esperança da ζ que definimos acima.
Basicamente, estamos perguntando: ”o valor esperado da distribuição do
estimador se aproxima do valor real do parâmetro?”. Se ele É o valor,
então o estimador é não-viesado. Se não, é viesado. Formalmente:
Biasβ1 = E[b1 ] − β1
Naturalmente se, E[b1 ] = β1 , há ausência de viés.
2. Eficiência
O critério de eficiência se refere à variância de ζ. Mais tarde, quando
tratarmos de argumentos assintóticos, vamos refinar o que exatamente
quer dizer um estimador ”eficiente” - dica: Fisher Information. Aqui, con-
tudo, vamos focar em dizer que um estimador θ que possua uma variância
menor que outro estimador Φ é mais eficiente do que este.
3. Consistência
A consistência de um estimador não é, como os dois critérios anteriores,
uma proposição sobre os momentos da distribuição, mas sim sobre a dis-
tribuição ζ - ou, de forma mais rigorosa, sobre TODOS os momentos de
ζ.
No caso, note que, conforme já exaustivamente falado, o estimador b1 é
uma função da amostra e, mais do que isso, uma variável aleatória: liga
a amostra a um valor numérico. Da mesma forma, o parâmetro β1 pode
ser visto também como uma variável aleatória: todo valor de amostra é
associado com o mesmo número, a saber, β1 .
13
A ideia da consistência é dizer que, quando o número da amostra é muito
grande, a probabilidade de que a variável aleatória b1 difira da variável
aleatória β1 tende a zero. Formalmente:
limn−>∞ P [|b1 − β1 | > ] = 0
De maneira mais intuitiva, isto quer dizer que, se o número da amostra
é suficientemente grande (”infinito”), não importa qual amostra da pop-
ulação eu pegue, as estimativas ”sempre” - com uma probabilidade tão
próxima de 1 quanto se queira - serão iguais a β1 . 4
Dito isso, fica claro porque isto é uma proposição sobre a distribuição ζ
como um todo: nesta situação, ela é somente uma ”barra”. Ou, ainda,
uma distribuição com um valor cuja probabilidade de ocorrênia é 1.
14
4. Hipótese RLS - Média condicional zero
Seja a variável aleatória i . De onda ela advém? Ora, seja o modelo
populacional:
Y = β0 + β1 X + ε
Isto também é válido, claro, quando usamos as seguintes variáveis aleatórias,
cujo sample space é o conjunto de todas as amostras possı́veis: 5
yi = β0 + β1 xi + i
Do que vem que:
i = y i − β0 − β1 x i
Agora, vamos imaginar a seguinte situação: vou fixar uma amostra par xi ,
de modo que ele deixa de ser uma variável aleatória e passa a ser somente
um valor. A ideia é como se eu tivesse valores fixos da variável aleatória
X na minha amostra, com somente Y podendo variar. 6 Cabe a atentar,
disto, que por não termos ”fixado” o valor para yi , se eleva o fato de que
i persiste como variável aleatória.
Assim, chega-se, enfim na hipótese: E[i |xi ] = 0, ∀i ∈ [1 : n]
Ou seja, uma vez que eu tenho qualquer valor para a variável aleatória
xi , aesperançadavariávelaleatória é zero. 7
5. Hipótese RLS - Variância constante
Novamente, atentemo-nos para a variável aleatória ε. Ela possui uma
distribuição que, como sabemos, possui valor esperado, condicional a X=x,
zero. Esta hipótese trata sobre a variância desta distribuição.
V ar(i |xi ) = σ 2 , ∀i ∈ [1 : n]
Ou seja, independente do valor de X que condicionamos, o valor da
variância sempre é o mesmo.
6. Hipótese RLS. i , condicional a X=xi )édistribuı́donormalmente
Ouseja, agora, temosumaproposiçãosobreoutrosmomentosdadistribuiçãodeε:
sabe-se que a assimetria é zero e que a curtose é 3, por exemplo.
15
Sendo perspicaz, é óbvio que algumas dessas hipóteses - sobretudo
normalidade - são incrivelmente fortes. Seria muito surpreendente que os erros,
formados a partir de uma hipótese de simplificação linear que fizéssemos, real-
mente fossem normais. No entanto, e isto é importante entender, colocar essas
hipóteses nos permite realizar uma análise mais sistemática das propriedades dos
estimadores e dos próprios argumentos econométricos, por meio da identificação
de falhas e locais que necessitam de mais sustentação.
1. É um estimador linear 8
Ser um estimador linear quer dizer que ele pode ser expresso como uma
combinação linear dos valores da amostra. Neste sentido, retomemos (19):
Cov(X,
d Y)
b1 =
V ar(X)
d
Pn
(x − x̆)(yi − y̆)
= i=1 Pn i
(xi − x̆)2
Pn i=1
i=1 (xi − x̆)(yi )
= P n 2
i=1 (xi − x̆)
n
X
ci yi
i=1
Defina: ci ≡ Pn xi −x̆ 2.
9
Daı́:
i=1 (xi −x̆)
O que nos mostra que o estimador pode ser escrito como combinação linear
entre os valores que temos na amostra. Logo, é um estimador linear. 10
2. É não viesado.
Novamente, retome (18):
Cov(X,
d Y)
b1 =
V ar(X)
d
Pn
(x − x̆)(yi − y̆)
Pn i
= i=1
(xi − x̆)2
Pn i=1 Pn
(xi − x̆)(yi ) − y̆ i=1 (xi − x̆)
= i=1 Pn 2
i=1 (xi − x̆)
8 Esta foi uma pergunta de prova! Fique atento
9 Essa transformação pode parecer despropositada e, até, difı́cil de entender, mas é muito
útil. No denominador, tem-se um número - a variância amostral de X - de modo que estamos
somente realizando o somatório de frações.
10 O estimador para β é análogo. Isto ocorre porque sua diferença para o de β são somente,
0 1
dado a amostra, constantes.
16
Pn
i=1 (xi − x̆)(yi )
= P n 2
(19)
i=1 (xi − x̆)
Pn
i − x̆)(β0 + β1 xi + i )
i=1 (xP
b1 = n 2
i=1 (xi − x̆)
Pn Pn Pn
i=1 β0 (xi − x̆) + P i=1 β1 xi (xi − x̆) + i=1 ei (xi − x̆)
= n 2
i=1 (xi − x̆)
17
Desta forma, pode-se rescrever a equação que estamos focando como:
Pn 2 Pn
E[ i=1 β1 (xi − x̆) + i=1 ei (xi − x̆)|X̄]
E[b1 |X̄] = P n 2
i=1 (xi − x̆)
Pn 2
Pn
β1 (xi − x̆) E[ i=1 ei (xi − x̆)|X̄]
= Pn i=1 2
+ Pn 2
(x
i=1 i − x̆) i=1 (xi − x̆)
Queremos provar, agora, que E[ei |X̄] é igual a zero. Embora os livros omitam
os passos para ser realizar isso, julgo muito danoso para o aprendizado e fran-
camente confuso quando atingimos o assunto de séries temporais. Assim, serei
bem rigoroso nisso.
Precisamos agora da Hipótese RLS 4. No caso, ela afirmava que o erro do
indivı́duo i é independente, em média, da variável explicativa do indivı́duo i.
Formalmente:
E[i |xi ] = 0, ∀i ∈ [1 : n]
Note que isso é diferente do que estamos querendo provar em um aspecto pe-
queno, mas crucial. Afirma-se, aı́, que independência em média somente para
a variável explicativa do indivı́duo que possui o erro . Não se diz nada so-
bre o conjunto de variáveis explicativas de todos os indivı́duos, isto é, X̄ =
(x1 , x2 , . . . , xn ). Isto cabe prova ainda.
Para darmos este passo, nos lembremos da Hipotese RLS.2, que afirmava que
amostragem era aleatória e independente. Isto quer dizer que, dado dois in-
divı́duos, as variáveis de cada um deles são indpendentes entre si. Especifica-
mente para nosso propósito, os erros e as variáveis explicativas são independentes
e as próprias variáveis explicativas são independentes entre si.
f (ei , xj ) = f (i )f (xj ), ∀i 6= j
f (xi , xj ) = f (xi )f (xj ) ∀i 6= j
A partir disso, vamos realizar um argumento indutivo para provar nosso ponto.
Assim, considere como caso base n = 2. Vamos provar um pequeno lema para
18
seguir com a demonstração:
f (x2 , i , x2 )
f (xj |i , xi ) =
f (i , xi )
f (i , xi |xj )f (xj )
=
f (xi , i )
f (i , xi )f (xj )
=
f (i , xi )
= f (xj )
f (i , xi , xj )
f (i |xi , xj ) =
f (xi , xj )
f (xj |i , xi )f (xi , i )
=
f (xi )f (xj )
f (xj )f (xi , i )
=
f (xi )f (xj )
f (xi , i )
=
f (xi )
= f (i |xi )
19
f (1 , x1 , x2 . . . xn∗+1 )
f (1 |x1 , x2 . . . xn∗+1 ) =
f (x1 , x2 . . . xn∗+1 )
f (xn∗+1 |e1 , x1 . . . xn∗ )f (1 , x1 , . . . xn∗ )
=
f (x1 )f (x2 ) . . . f (xn∗+1 )
f (xn∗+1 )f (1 , x1 , . . . xn∗ )
=
f (x1 )f (x2 ), . . . f (xn∗+1 )
f (1 , x1 , . . . xn∗ )
=
f (x1 )f (x2 ), . . . f (xn∗ )
= f (1 |x1 , x2 , . . . xn∗ )
= f (1 |x1 )
Pn
(x − x̆)E[ei |X̄]
E[b1 |X̄] = β1 + Pn i
i=1
2
i=1 (xi − x̆)
= β1
20
Pn
i=1 ci yi
ci ≡ Pn xi(x−x̆
i −x̆)
2
i=1
Como se pode expressar outro esitmador linear? Ora, se ele é diferente deste
acima, então seus coeficientes são diferentes. Assim, se eu realizar a diferença
entre os coeficientes do MQO e o deste outro estimador linear, terei ao menos
um dos resultados diferentes de zero. Mais formalmente:
Ji = ci + Di , ∃i|Di 6= 0
Especificado isto, vamos trabalhar com o seguinte estimador linear, chamado de
b∗1 :
Pn
i=1 Ji yi
Ji ≡ Pn xi(x−x̆
i −x̆)
2 + Di
i=1
n
X n
X
Ji yi = Ji (β0 + β1 xi + i )
i=1 i=1
n
X n
X n
X
= β0 Ji + β1 J i xi + Ji i
i=1 i=1 i=1
n n
X X xi − x̆
Ji = ( Pn 2
+ Di )
i=1 i=1 i=1 (xi − x̆)
n n
X xi − x̆ X
= ( Pn 2
) + Di
i=1 i=1 (xi − x̆) i=1
n
X
= Di
i=1
n n n
(x (x − x̆))
Pni i
X X X
Ji xi = 2
+ xi Di ))
i=1 i=1 i=1 (xi − x̆ ) i=1
n
X
=1+ xi Di
i=1
21
Assim, nossa equação torna:
n
X n
X
Ji yi = Ji (β0 + β1 xi + i )
i=1 i=1
n
X n
X n
X
= β0 Ji + β1 J i xi + Ji i
i=1 i=1 i=1
Xn n
X n
X
= β0 Di + β1 (1 + xi Di ) + Ji i
i=1 i=1 i=1
n
X n
X Xn
E[b∗1 |X̄] = β1 + β0 Di + β1 xi Di + E[ Ji i |X̄]
i=1 i=1 i=1
Se usarmos o mesmo argumento usado para provar não viés, o terceiro termo
se torna zero (tente!). No entanto, os dois termos centrais ainda permanecem,
impedindo que o estimador b∗1 seja não viesado. Então, para garantir o não viés,
colocamos algumas restrições nos Di :
Pn Pn
i=1 Di = i=1 xi Di = 0
Com isso, temos especificações suficientes para analisar agora a variância do
estimador b1 e o de b∗1 .
22
Xn
V ar(b1 |X̄) = V ar( ci yi |X̄)
i=1
n
X n X
X n
= V ar(ci yi |X̄) + Cov(ci yi , cj yj |X̄)
i=1 i=1 j6=i
n
X
= V ar(ci yi |X̄) (RLS.2)
i=1
Xn
= c2i V ar(yi |X̄)
i=1
n
X
= c2i V ar(β0 + β1 Xi + i |X̄)
i=1
n
X
= c2i V ar(i |X̄)
i=1
n
X n
X
= c2i σ 2 = σ 2 c2i
i=1 i=1
(RLS.5)
σ2
= Pn 2
(22)
i=1 (xi − x̆)
23
Agora, resta encontrar a variância b∗1 . Novamente, pularemos algumas etapas.
n
X
V ar(b∗1 |X̄) = V ar( Ji yi |X̄)
i=1
n
X n X
X n
= V ar(Ji yi |X̄) + Cov(Ji yi , Jj yj |X̄)
i=1 i=1 j6=i
n
X
= V ar(Ji yi |X̄) (RLS.2)
i=1
Xn
= Ji2 V ar(yi |X̄)
i=1
n
X
= σ 2 Ji2 (RLS.5)
i=1
n
X
= σ 2 (c2i + 2ci Di + Di2 )
i=1
n
X n
X n
X
= σ2 c2i + 2σ 2 ci Di + σ 2 Di2
i=1 i=1 i=1
n n
2 xi − x̆
X X
= V ar(b1 |X̄) + 2σ Pn D +
2 i
Di2
i=1
(x
i=1 i − x̆) i=1
Pn Pn n
Di xi − x̆ i=1 Di X 2
= V ar(b1 |X̄) + 2σ 2 i=1Pn 2
+ Di
i=1 (xi − x̆) i=1
24
Juntando os três pontos- linear, não-viesado e com menor variância
- chega-se na conclusão que o estimador de MQO é BLUE: Best Linear Un-
biased Estimator. Ou seja, o que intuitivamente vı́amos, agora está provado
rigorosamente!
Tutorial 06
A motivação para isto é que, por mais que nossa estimativa seja difer-
ente de zero, não se pode falar com certeza que o parâmetro o seja: pode ser, por
exemplo, que simplesmente pegamos uma amostra ”especial”, em que o valor
se distanciou de zero por mero acaso. Como se pode garantir que não é este o
caso?
Com isto em mente, tome novamente a equação (20), mas sem a ex-
pectativa condicional - de fato, todos os resultados até ali não dependiam de
haver ou não a expectativa).
11 Aqui, como veremos, não há problema em tratarmos da distribuição condicional, ao invés
25
Pn
(xi − x̆)i
b1 |X̄ = β1 + Pi=1
n 2
|X̄
i=1 (x1 − x̆)
n
X
= β1 + ci (i |X̄)
i=1
Ora, (i |X̄) é uma normal, conforme visto nas hipóteses. Lá, colocávamos
esta hipótese para xi , mas, por um processo parecido com antes, consegue-se
provar que isto funciona para toda amostra.
Ou seja, dado X̄,b1 pode ser expresso como uma combinação linear de
normais que, como demonstrado no apêndice, também uma normal. A
σ2
b1 |X̄ ∼ N (β1 , Pn 2
) (23)
i=1 (x1 − x̆)
σ2
Pode-se, por comodidade, chamar Pn 2 de ”sb2 ”. Ademais, é
i=1 (x1 −x̆)
costume padronizar a normal. Assim:
b1 − β1
|X̄ ∼ N (0, 1) (24)
sb
b1 − β1 b1 − β 1
|X̄ = q |X̄ (25)
ˆ
Pn
sb e2
Pni=1 i 2
n−1 i=1 (x1 −x̆)
26
é, então? Ora, no numerador, ainda temos uma normal, conforme destrinchado
em (23).
yi = β0 + β1 xi + i
yi − b0 − b1 xi = β0 − b0 + (β1 − b1 )xi + i
ei = β0 − b0 + (β1 − b1 )xi + i
Com isso posto, a pergunta agora fica é: qual é a distribuição resultante
da razão entre uma normal e uma qui-quadrada? A distribuição mais próxima
disso é a t-student, que é definida ocmo: ”A razão entre uma normal padronizada
e uma qui-quadrada, independentes entre si”.
b1 −β1
sb
ˆ
|X̄
sb
sb
Note que:
s Pn 2 pPn
ˆ 2
sb i=1 ei i=1 (x1 − x̆)
= Pn 2
sb n − 1 i=1 (x1 − x̆) σ
pPn
2
i=1 ei
=
σ
27
Disto, por fim:
b1 −β1
√Psb
n
|X̄ (26)
i=1 e2i
σ
1. Estatı́stica de teste
A Estatı́stica de teste é a distribuição do nosso estimador. Ao longo da
discussão acima, buscou-se motivar a razão pela qual ela é importante:
para podermos saber a probabilidade com que cada estimativa se realiza.
Também conseguimos ver que essa distribuição é uma t-student com n
graus de liberdade, isto é, o mesmo número de indivı́duos na amostra.
2. Hipótese nula e alternativa
A hipótese nula, colocada de maneira simples e intuitiva, é o valor que
você hipotetiza para o parâmetro e que buscará testar. No nosto caso,
nosso interesse é saber se nosso parâmetro é diferente de zero. Assim,
nossa hipótese nula é que ele é zero, de modo que, por meio do teste de
hipótese, iremos rejeitar ou não-rejeitar este valor para o parâmetro.
A hipótese alternativa é a complementação da nula. Ou seja, ela é existe
para que, por meio do nosso teste, possa-se abarcar outros casos possı́veis
ou de interesse sobre o valor do parâmetro. Seguindo o exemplo do tu-
torial, se a nula é que o parâmetro é zero 12 , a complementação disto e,
pois, a hipótese alternativa, é que o parâmetro é diferente de zero. Outra
possı́vel hipótese alternativa é que o parâmetro é somente maior do que
zero.
Além disso, a especificação da hipótese nula e alternativa é extremamente
relevante porque, à rigor, ela define também a estatı́stica de teste. Se
12 Embora essa, de longe, seja a hipótese mais usada, não é necessário que seja a ûnica.
Podemos colocar como Ho, β0 = 3 por exemplo. Neste caso, devemos usar uma distribuição
t-studente não centralizada, ou seja, cuja média é 3. Isto nos mostra que a padronização da
média não é tão relevante assim.
28
você reparar bem na equação (26), verá que temos todos os valores que a
constituem na amostra, salvo o valor de β1 , que é o parâmetro do nosso
interesse. Sem uma hipótese - a hipótese nula - para o valor dele, não
conseguimos determinar o valor da estatı́stica de teste para nossa amostra
em especı́fico.
Ou seja: a distribuição e o valor da estatistica de teste sempre
existem DADO A AMOSTRA E DADO A HIPÓTESE NULA.
Isto é importantı́ssimo, porque é um conhecimento teórico básico e que a
Cristine cobrará muito.
3. Valor crı́tico e regiões de aceitação e rejeição
Agora que estamos de posse da distribuição e da hipótese nula, podemos
realizar a seguinte pergunta: ”Dado a hipótese nula que o parâmetro real
é zero, qual é a probabilidade de eu ter conseguido a estimativa b1 ?”.
A intuição por trás desta pergunta é que, se o parâmetro de fato for
zero, esperamos que os valores das estimativas fiquem, em algum sentido,
”próximos” disto. Se nossa estimativa for algo como ”100”, posso ter
certeza de que posso rejeitar a hipótese nula e afirmar ”O parâmetro não
é zero”. Se, contudo, for algo como 0.001, talvez eu não possa rejeitar.
Como se pode formalizar isso? A primeira coisa a notar é o seguinte:
mesmo que o parâmetro de fato seja zero, estamos tratando de um evento
probabilı́sitco, então pode ocorrer, como mencionado nas primeiras linhas
da nossa discussão, de conseguirmos, por puro acaso de pegar uma amostra
muito especı́fica, uma estimativa alta e que nos leve a uma inferência erra
sobre o parâmetro.
É possı́vel, por meio da distribuição, saber, para cada estimativa, qual é a
probabilidade desta inglória situação ocorrer. No caso, o pensamento é o
seguinte: sob a hipótese nula β1 = 0, a probabilidade do estimador nos dar
uma estimativa b1 ou maior do que isso é dada por 1−F (b1 ), em que F (b1 )
é a função densidade acumulada avaliada em b1 . Ou seja, para encontrar
esta probabilidade, estamos simplesmente integrando a estatı́stica de teste.
Intuitivamente, o que esta probabilidade está dizendo é: se, com esta
estimativa b1 , você afirmar que o parâmetro é de fato zero, estará errando
em 1 − F (b1 ) das vezes - esta é a porcentagem de amostras que me dariam
valores como b1 ou maiores, se o parâmetro de fato fosse zero. Este é o
chamado ”erro tipo 1”. 13
Cabe a decisão do quanto de tolerância possuı́mos com o erro do tipo
1. Claro, você pode ser sagaz e dizer: ”nunca quero cometer, minha
tolerância é 0 por cento”. Isto é equivalente a, independente da nossa
estimativa, sempre não-rejeitar a hipótese nula - NÃO dizer que ela NÃO
é zero ou, de forma mais clara, mas menos rigorosa, dizer sempre que ela
é diferente de zero. Neste caso, contudo, como visto em estatı́stica, você
13 A probabilidade que uma estimativa b possui de ter um erro Tipo 1 é denominada ”P-
1
value”.
29
estaria cometendo outro tipo de erro: dizer que o parâmetro não é zero
quando, na verdade ele é, o chamado ”erro tipo 2”.
Uma ”regra de ouro” é a tolerância de cinco por cento. Estou disposto a
cometer este erro do tipo 1 em no máximo cinco por cento das vezes. A
partir desta definição, nós podemos criar uma ”região” para rejeitarmos
ou não rejeitarmos a hipótese nula. Como fazer isso? Ora, uma ideia
inicial é a seguinte. De posse da distribuição sob a hipótese nula, posso
buscar qual é o valor da estimativa com a seguinte caracterı́stica: 1 −
F (b∗1 ) = 0, 05. Nesta situação, como a função distribuição acumulada é
estritamente crescente, sei que qualquer b1 ≥ b∗1 terá 1 − F (b1 ) ≤ 0, 05,
de modo que estará na região em que se pode, com tranquilidade interior,
rejeitar a hipótese nula que o parâmetro é zero. De fato, este conjunto de
valores das estimativas para os quais se pode rejeitar a hipótese nula é a
”região de rejeição”. Os demais valores são a ”região de não rejeição”. O
valor crı́tico, que separa as duas, é exatamente b∗1 .
O leitor atento terá percebido um problema na formulação acima: implici-
tamente, estamos aceitando que todas as estimativas são maiores do que
a hipótese nula ou, no nosso caso, maior do que zero. No entanto, não
necessariamente é o caso em muitos momentos. De fato, se a hipótese nula
é zero e eu consigo uma estimativa MUITO abaixo de zero, eu teria que,
pela nossa formulação acima, não rejeitar a hipótese nula, porque ela seria
menor do que b∗1 . Obviamente, isto não faz sentido: estamos preocupados,
em muitos momentos, com alguma espécie de distância que não discrimina
entre valores ”maiores” ou ”menores” do que a nula.
Por isso, é necessário agora dois valores crı́ticos: um para a ”cauda di-
reita” e outro para a ”cauda esquerda”, no chamado ”teste bi-caudal” -
o anterior era ”mono-caudal”. Felizmente, se há simetria, como há na t,
a relação entre esses dois valores crı́ticos é simplesmente de inversão de
sinal. Ademais, se a intenção é manter os cinco por cento de tolerância,
ele é ”distribuı́do entre as caudas”.
Então, estou procurando os valores b1 ∗ e −b1 ∗ nos quais:
F (−b∗1 ) = 0, 025 e 1 − F (b∗1 ) = 0, 025. Obviamente, no fundo, essas
condições são as mesmas, de modo que a restrição só é uma delas. O
importante de ter em mente é que, agora, tem-se três regiões: duas para
rejeição da hipótese nula, localizadas nas caudas, e uma, no centro entre
elas, para não-rejeição.
Após tudo isso ter sido dito, o único trabalho restante é notar em qual
das regiões nossa estimativa, para nossa amostra especı́fica, cai. A partir
disso, pode-se rejeitar ou não rejeitar a hipótese.
30
antes, em um intervalo de confiança de noventa e cinco por cento e na hipótese
nula de zero. Ora, nós sabemos que, dado uma amostra de X, pode-se dizer que
a probabilidade do valor da distribuição (t), sob a hipótese nula, ser maior que
b∗1 ou menor que −b∗1 é de somente 0,05, como estabelecido anteriormente.
b1
P r(| | ≥ b∗1 ) = 0, 05
ˆ
sb
b1
⇐⇒ P r(| | ≤ b∗1 ) = 0, 95
ˆ
sb
ˆ ∗ ≤ b1 ≤ sbb
= P r(−sbb ˆ ∗ ) = 0, 95
1 1
ˆ ∗ , sbb
Ou seja, o intervalo [−sbb ˆ ∗ ] nos dá o intervalo de valores em que,
1 1
se a hipótese nula é verdadeira, a nossa esimativa estará, com noventa e cinco
por cento de probabilidade.
Tutorial 07
1 - Imagine que haja uma variável, que não está no meu modelo, que
tenha relação com a variável dependente e com a variável explicativa. Isto tem
algum efeito para nós?
E[A] = E[A|B]
31
Embora não seja fácil provar isso com as ferramentas da graduação,
também é verdade que:
yi = β0 + β1 xi1 + β2 x2i + µi
32
x2i aqui é a variável que vamos omitir no nosso modelo, mas que possui
correlação tanto com yi quanto com xi1 . Ademais, µi é o erro que advém de de
yi ter sido explicado conjuntamente por xi1 e xi2 . 14 .
Dito isso, vamos fazer o mesmo processo que fizemos para provar o
não-viés:
Cov(Xd1 , Y )
b1 =
V ar(X
d 1)
Pn
(xi1 − x˘1 )(yi − y̆)
= i=1Pn
(xi − x̆)2
Pn i=1 Pn
i=1 (xi1 − Px˘1 )(yi ) − y̆ i=1 (xi1 − x˘1 )
= n 2
i=1 (xi1 − x̆)
Pn
i=1 (xi1 − x˘1 )(yi )
= P n
(xi1 − x̆)2
Pn i=1
(xi1 − x˘1 )(β0 + β1 xi1 + β2 x2i + µi )
= i=1 Pn 2
i=1 (xi − x̆)
Pn
i=1 (xi1 − x˘1 )x2i (xi1 − x˘1 )µi
= β1 + β2 P n 2
+ Pn 2
i=1 (xi − x̆) i=1 (xi − x̆)
33
Então, basta fazer o seguinte:
Pn
i=1 (xi1 − x˘1 )x2i (xi1 − x˘1 )E[µi |X̄]
E[b1 |X̄] = β1 + β2 E[ P n 2
|X̄] + Pn 2
(xi − x̆) i=1 (xi − x̆)
Pn i=1
i=1 (xi1 − x˘1 )x2i
= β1 + β2 E[ P n 2
|X̄]
i=1 (xi − x̆)
Pn
i=1 (xi1 −x˘1 )x2i ˆ e levando em consideração que
Se definirmos P n 2 ≡ rho,
i=1 (xi −x̆)
ele advém da regressão de x2i em xi1 e, com as hipóteses satisfeitas, ele é não
viesado, sei que: E[ρ̂] = E[ρ̂|X̄] = ρ, que é o parâmetro da regressão. Então:
E[b1 ] = β1 + β2 ρ (27)
34
logo β2 ≥ 0. Ademais, espera-se, também, que, se há mais habilidade inata,
o indivı́duo possua mais educação. Neste sentido, o coeficiente de regredir X1
em X2 é diferente de zero. Note que, para desenvolver o raciocı́no anterior,
estávamos sempre regredindo X2 em X1 . Mas não há grande problema: o
coeficiente de regressão de X1 em X2 é dado por Cov(X 1 ,X2 )
V ar(X2 ) , se determinarmos
que o coeficiente de regressão é maior do que zero, então Cov(X1 , X2 ) > 0, o
que faz com que Cov(X 1 ,X2 )
V ar(X1 ) ≡ ρ > 0. Assim, o viés é positivo.
Tutorial 08 - 09 - 10 - 11
Y = β0 + β1 X1 + β2 X2 + . . . βk Xk + ε (28)
Como antes, aqui temos uma relação entre variáveis aleatórias. Pode-
se fazer, também, uma relação entre valores especı́ficos delas. Valores que es-
tarão na amostra também são valores especı́ficos das variáveis aleatórias, assim,
também se pode escrever:
yi = βo + β1 xi1 + β2 x2i + . . . βk xki + i (29)
~ 0β + ε
Y =X (30)
35
1
X1
~ (k+1)x1
Em que: X ≡ .
..
Xk
β0
β1
β(k+1)x1 ≡ .
..
βk
~ 0 β)2 ]
E[ε2 ] = E[(Y − X
~ 0 Y β + (X
E[Y 2 − 2X ~ 0 β)2 ] (31)
36
∂(β0 +β1 X1 +β2 X2 +...βk Xk )
∂β0 1
0
∂(β0 +β1 X1 +β2 X2 +...βk Xk ) X1
~ β)
∂(X ∂β1 ~
≡ = . =X
..
..
∂β
.
∂(β0 +β1 X1 +β2 X2 +...βk Xk ) Xk
∂βk
~ 0 ) (1)
(X (X1 ) ... (Xk )
~ 1 )0 (X1 )
(XX (X12 ) . . . (Xk X1 )
=
.. .. .. .. ..
. . . . .
0 2
~ k)
(XX (Xk ) (X1 Xk ) . . . (Xk )
(1)
(X1 )
= . (1) (X1 ) . . . (Xk )
..
(Xk )
=X~X~0
37
0
~X
β = E[X ~ ]−1 E[XY
~ ] (32)
Uma vez que se conseguiu a identificação, pode-se passar para estimar o parâmetro
β, por meio de uma amostra com n indivı́duos. Como antes, o estimador - que
agora chamaremos de ”b” - precisa estar em função de todos os valores da
amostra. Realizar isso algébrica é extremamente complicado. Assim, passamos
para uma notação matricial.
38
maneira que precisamos estimar. A ideia é fazer uma estimativa, b, em que se
minimize os resı́duos. Disto, vem:
0 0 0 0 0 0
e e = (Y − Xb) (Y − Xb) = Y Y − Y Xb − (Xb) Y + (Xb) (Xb) (34)
0 0 0 0
= Y Y − 2Y Xb + b X Xb (35)
0
Note que Y Xb é um escalar: (1xn)x(nxk)(kx1) = 1x1. Deste modo,
notando que as parcelas centrais são transpostas em relação uma a outra, e
que o transposto de um escalar é o próprio escalar, elas se referem ao mesmo
número, do que vem o termo central da segunda equação.
1 1 ... 1 1 x21 ... xk1 b1
0 0 x
21
x22 ... x2n 1 x22 ... xk2 b2
b X Xb = b1 b2 ... bk .
.. .. .. .. .. .. .. ..
.. . . . . . . . .
xk1 xk2 ... xkn 1 x2n ... xkn bk
Pn Pn
Pn n Pi=1
n
x2i
2
... Pn i=1 xki b1
0 0 i=1 x2i i=1 x2i ... i=1 x 2i x ki
b2
b X Xb = b1 b2 ... bk
.. .. .. .. ..
.
Pn . Pn . Pn . 2
.
i=1 xki i=1 x2i xki ... i=1 xki bk
b1
b2
0 0
b X Xb = a1 a2 ... ak .
..
bk
Pn Pn
a1 ≡ nb1 + ( i=1 x2i )b2 · · · + ( i=1 xki )bk
Pn Pn Pn
a2 ≡ ( i=1 x2i )b1 + ( i=1 x22i )b2 + · · · + ( i=1 x2i xki )bk
Pn Pn Pn
ak ≡ (( i=1 xki )b1 + ( i=1 x2i xki )b2 · · · + ( i=1 x2ki )bk
39
Ou, de maneira genérica:
Xn n
X n
X Xn
2
aj ≡ ( xji )b1 + ( x2i xji )b2 · · · + ( xji )bj + . . . ( xji xki )bk , j ∈ [1 : k]
i=1 i=1 i=1 i=1
k
X
a1 b1 + a2 b2 + · · · + ak bk = aj bj
j=1
k
X n
X n
X n
X Xn
2 2
= (( xji )b1 bj + ( x2i xji )b2 bj · · · + ( xji )bj + . . . ( xji xki )bk bj )
j=1 i=1 i=1 i=1 i=1
Xn n
X n
X Xn
h:( x(h)i )b1 bh + ( x2i x(h)i )b2 bh · · · + ( x2(h)i )b2h + . . . ( xki x(h)i )bk bh )
i=1 i=1 i=1 i=1
Note que isso funciona para qualquer g e h diferentes entre si, dado
que fizemos genericamente. Ou seja, durante o somatória de 1 até k, para cada
par (g, h) ter se uma parcela de igual valor. Assim, pode-se reduzir a expressão
para algo muito mais digerı́vel:
40
k
X
a1 b1 + a2 b2 + · · · + ak bk = a j bj
j=1
k
X n
X n
X n
X Xn
2 2
= (( xji )b1 bj + ( x2i xji )b2 bj · · · + ( xji )bj + . . . ( xji xki )bk bj )
j=1 i=1 i=1 i=1 i=1
k X
X n k X
X Xn
= ( x2ji )b2j ) + 2(( x(h)i x(g)i )bh bg )
j=1 i=1 g=1 h6=g i=1
∂ Pk aj bj
j=1 Pn Pn
2( i=1 x21i )b1 ) + 2 h6=1 (( i=1 x(h)i x(1)i )bh )
P
k P ∂b1
Pk ∂ j=1 aj bj 2( ni=1 x22i )b2 ) + 2 h6=2 (( ni=1 x(h)i x(2)i )bh )
P P P
∂ j=1 aj bj ∂b2
= =
.. ..
∂b
P .
.
n n
2
P P P
k
∂ j=1 aj bj 2( i=1 xki )bk ) + 2 h6=k (( i=1 x(h)i x(k)i )bh )
∂bk
Pn Pn Pn
(x21i )b1 + ( i=1
Pi=1 x2i x1i )b2 + · · · + ( Pi=1 x1i xki )bk
( n x2i x1i )b1 + ( n (x21i )b2 + · · · + ( n x2i xki )bk
P
i=1 i=1 i=1
= 2
..
Pn Pn . Pn
2
( i=1 x1i xki )b1 + ( i=1 x2i xki )b2 ) + · · · + i=1 (xki )bk
Pn 2
Pn Pn
Pni=1 (x1i ) ( Pi=1 x2i x1i ) . . . ( Pi=1 x1i xki )
n 2 n
b1
( x 2i x 1i ) (x 1i ) . . . ( x 2i x ki
b2
i=1 i=1 i=1
= 2
.. .. .. .. ..
. . . . .
Pn Pn Pn 2
( i=1 x1i xki ) ( i=1 x2i xki ) . . . (x
i=1 ki ) bk
0
= 2X Xb
0 0 0 0
∂(Y Y − 2Y Xb + b X Xb) 0 0 0 0
= −2X Y + 2X Xb = X Y − X Xb = 0
∂b
0 −1 0
b = (X X) XY (36)
41
Note que precisamos de uma propriedade, que quase sempre é ver-
0
dadeira, de que X X é inversı́vel. Vamos tratar disso mais a frente.
Pn
1. i=1 ei =0
2. Cov(X
dk , e) = 0
42
4. 4 - Cov(ŷ,
d e) = 0
Com y) sendo os ”valores fittados”. Ora, veja:
˘ i ) = ŷ 0 ei
d e) = Pn (ŷi − ŷ)(e
Cov(ŷ, i=1
0 0 0
Ora, ˆ(y) = Xb. Logo, tem-se: (Xb) e = b X e = 0
0
Pois X e = 0, como se viu na propriedade 2.
43
0
de X e = 0 vem o fato que a soma dos resı́duos é zero. Ora, a soma dos resı́duos
0
ser zero pode ser exposto justamente como l e = 0. Assim, chega-se facilmente
que N e = e.
0 0 0
Ademais, notemos que N é uma matriz simétrica: (I − ll ) ) = (I − ll )
0
Com isso em mente, vamos abrir a expressão Y N Y
0 0 0 0 0
(Xb + e) N (Xb + e) = b X 0 N Xb + b X 0 N e + e N Xb + e e
0 0 0 0 0
= b X 0 N Xb + b X 0 e + (N e) Xb + e e
0 0 0
= b X 0 N Xb + e Xb + e e
0 0 0
= b X 0 N Xb + X eb + e e
0 0
= b X 0 N Xb + e e
0
b X 0 N Xb
(37)
Y 0NY
44
múltiplo de outro, não conseguimos saber qual é o efeito de ao menos um deles
na nossa variável dependente. Por exemplo, tome, no exemplo abaixo X2 = 2X1
Y = bo + b1 X1 + b2 X2 + e
= bo + b1 X1 + 2b2 X1 + e
= bo + (b1 + 2b2 )X1 + e
Ademais, lembremos que provamos que , que E[i |xi ] = E[i |X̄] = 0,
ou seja, se condicionarmos a um conjunto de valores de x, ainda ficamos com o
resultado zero, em decorrência da propriedade RLS. 2.
45
Novamente, aqui, estamos condicionando somente a um valor especı́fico,
mas se poderia realizar para todos os valores da amostra, conjuntamente:
V ar(i |X) = σ 2
21
1 12 ... 1 n
0
2 1 2
22 ... 2 n
E[ |X] = E[ . 1 2 ... n |X] = E[ . .. |X]
.. ..
.. .. . . .
n 1 n 2 n ... 2n
E[21 |X]
E[12 |X] ... E[1 n |X]
E[1 2 |X] E[22 |X] ... E[2 n |X]
=
.. .. .. ..
. . . .
E[1 n |X] E[2 n |X] . . . E[2n |X]
2
σ 0 ... 0
0 σ2 . . . 0
= .
.. .. ..
.. . . .
0 0 ... σ2
= σ2 I
RLM 6 - Normalidade
|X ∼ N (0, σ 2 I)
Dito tudo isso, pode-se, enfim, passar para a prova que o estimador
multivariado é BLUE.
1. É um estimador linear
Novamente, isto quer dizer que pode ser exposto como uma combinação
linear dos valores da amostra. Neste sentido, tome novamente:
0 0
(X X)−1 X Y
46
0
Vamos
focar por um momento,
no termo (X X)
1 1 ... 1 1 x21 . . . xk1
x21 x22 . . . x2n 1 x22 . . . xk2
: .
.. .. .. .. .. .. ..
.. . . . . . . .
xk1 xk2 . . . xkn 1 xk2 . . . xkn
1
x2i
~i =
Defina X ..
.
xki
Assim:
~0
0
~1 ~2 ~ X2 Pn ~ ~ 0
XX = X X ... Xn .. = i=1 Xi Xi
.
~0
X n
n n
X 0 X
b=( ~ ~ −1
Xi Xi ) ( ~ i yi )
X (38)
i=1 i=1
2. É não viesado
0 0
b = (X X)−1 X Y
0 0
= (X X)−1 X (Xβ + )
0 0
= β + (X X)−1 X
0 0
E[b|X] = E[β|X] + E[(X X)−1 X |X]
0 0
= β + (X X)−1 X E[|X]
=β
47
3. Possui menor variância entre os estimadores lineares
Defina um outro estimador linear, ou seja, uma outra combinação linear de
Y, comf D uma matriz (kxn) inversı́vel , cujo valor depende somente
da matriz X - daı́, ser um coeficiente:
0 0
b∗ = (X X)−1 X + D)Y
0 0
E[b∗ |X] = E[(X X)−1 X Y |X] + E[DY |X]
= β + E[DXβ + D|X]
= β + DXβ + DE[|X]
= β + DXβ
Disto, vê-se que, para este estimador linear novo ser não-viesado, DX deve
ser igual a zero - note a semelhança da argumentação com o que fizemos
no caso simples. Formalizando:
DX = 0
Daı́, para prosseguir no argumento, façamos a variância para o estimador
de MQO:
0 0
V ar(b|X) = V ar((X X)−1 X Y |X)
0 0
= V ar(β + (X X)−1 X |X)
0 0
= V ar(X X)−1 X |X)
0 0
= V ar(A|X), A ≡ (X X)−1 X
0
= E[(A − E[A|X])(A − E[A|X]) |X]
0 0 0 0
= E[(A − AE[|X])( A − E[|X] A )|X]
0 0
= AE[( − E[|X])( − E[|X]) )|X]A
0
= AE[ |X]
0
= AV ar(|X)A
0
= Aσ 2 IA
0 0 0
= (X X)−1 X σ 2 X(X X)−1
0 0 0
= σ 2 (X X)−1 (X X)(X X)−1
0
= σ 2 (X X)−1
48
Cabe notar que σ 2 é um escalar e, por isso, pode se ”mover livremente”
pelas matrizes. A matriz ”I” sumiu porque é a identidade, de modo que é
o elemento neutro da multiplicação de matrizes.
Dito isso, vamos avaliar a variância de b∗ :
0 0
V ar(b∗ |X) = V ar((X X)−1 X + D)Y |X)
0 0 0 0
= (X X)−1 X + D)V ar(Xβ + |X)(X(X X)−1 + D )
0 0 0 0
= (X X)−1 X + D)(V ar(|X))(X(X X)−1 + D )
0 0 0 0
= σ 2 I(X X)−1 X + D)(X(X X)−1 + D )
0 0 0 0 0 0 0 0
= σ 2 I((X X)−1 X X(X X)−1 ) + (X X)−1 X D ) + DX(X X)−1 + DD ))
0
= σ 2 (X X)−1 + Dσ 2 D0
Agora, note que Dσ 2 D0 é uma matriz positiva definida. Isto é, para qual-
0
quer z que seja um vetor determı́stico (kx1) não-nulo, há que: z Dσ 2 D0 z ≥
0. A prova disto é bem simples.
0 0 0
z Dσ 2 D0 z = σ 2 (D z) (D0 z) = ||D0 z||
Ora, ||D0 z|| ≥ 0, pois é módulo, o que nos dá a prova necessária. Esta
definição de matriz positiva é o que nos garante que a variância de b∗ é
maior ou igual ao do estimador b: é semelhante ao fato de termos um
termo positivo ou nulo somado, no caso simples.
Tutorial 12
Vamos por partes. Primeiramente, será que, como no caso simples, deixar de
lado variáveis que são correlacionadas com a variável dependente nos dá um
viés? A partir do conhecimento adquirido com o caso simples, esperamos que
o viés só apareça quando a variável omitida possua correlação com a variável
dependente e, ao mesmo tempo, a independente que está explı́cita no modelos.
Tentemos provar isto.
49
0 0
~ 1 β1 + X
Y =X ~ 2 β2 + (39)
yi = X~1i β1 + X~2i β2 + i
~ = X1 br + e
Y
0 0
~
br = (X1 X1 )−1 X1 Y
0 0
= (X1 X1 )−1 X1 (X1 β1 + X2 β2 + )
0 0 0 0
= β1 + (X1 X1 )−1 X1 X2 β2 + (X1 X1 )−1 X1
50
x11 x12 ... x1n x(k1 +1)1 x(k1 +2)1 ... x(k2 )1
x21 x22 ... x2n
0
x(k1 +1)2 x(k1 +2)2 ... x(k2 )2
X1 X2 = . .. = 0
.. .. .. .. .. ..
.. . . . . . . .
xk1 1 xk 1 2 ... xk1 n x(k1 +1)n x(k1 +2)n ... x(k2 )n
~ 0X
Note, então, que: X ~ Pn
i j = a=1 xia xja
Daı́, tome:
~0 ~0 ~ ~ 0X ~ ~ 0X ~
X1 X1 Xk1 +1 X 1 k1 +2 ... X 1 k2
~0
X X~ 0X
~ k +1 ~ 00
X2 X ~ k +2 ... ~ 0
X2 X ~k
0 2 ~ ~ k +2 ~k = 2 . 1 1 2
X1 X2 = . Xk1 +1 X ... X
.. ..
.. 1 2
..
... . .
X~0 ~ 0
~
X Xk +1 ~0 X
X ~ ... ~0 X
X ~k
k1 n1 1 n1 k1 +2 n1 2
Se esta matriz for zero, quer dizer que a correlação entre quaisquer
uma das variáveis de X1 com X2 é zero, que é a interpretação que querı́amos
0
para X1 X2
51
~ = X1 β1 +
Y (40)
~ = Xb + e
Estimado: Y
Assim, logo se vê que quanto maior maior será este intervalo. Lembre-
mos que o intervalo de confiança, também nos diz qual é a região de aceitação,
ou seja, em que não negamos a hipótese nula. Neste caso, quanto maior , tem-se
a tendência de não-rejeitar a hipótese nula com cada vez mais frequência. Com
isso, comete-se menos o erro de tipo 1, no entanto, cada vez mais se comete o
erro de tipo 2: não rejeitar a hipótese nula quando, na verdade, ela é falsa. Isto
simboliza uma diminuição no poder do nosso teste. Assim, sempre queremos
ter a menor variância possı́vel.
52
O que ocorre com a variância quando temos variáveis redundantes?
Para isso, vamos retomar nossa equação para estimação, (41), em que inserimos
as variáveis redundantes:
~ = X1 b1 + X2 b2 + e
Y
0 0
Assim, pré-multiple a equação (41) por (X1 X1 )−1 X1 :
0 0
br = b1 + (X1 X1 )−1 X1 X2 b2 (42)
Ou: 0 0
b1 = (X1 X1 )−1 X1 X2 b2 − br (43)
Precisa-se tratar o terceiro termo, porque ele pode ser tanto positivo
quanto negativo, o que complica a análise. Então, vamos definir outra matriz,
0 0
M1 = I − X1 (X1 X1 )−1 X1 . A interpretação dela é que estamos regredindo em
X1 . Tente ver o motivo.
53
~ = M1 X1 b1 + M1 X2 b2 + M1 e
M1 Y
0 0
= X1 b1 − X1 (X1 X1 )−1 X1 X1 b1 + M1 X2 b2 + M1 e
= X1 b1 − X1 b1 + M1 X2 b2 + M1 e
= M1 X2 b2 + M1 e
0 0
~
b2 = (X2 M1 X2 )−1 X2 M1 0 Y (44)
0 0
b2 = β2 + (X2 M1 X2 )−1 X2 M1 0 (45)
54
0
Cov(br , b2 ) = E[(br − E[br |X])(b2 − E[b2 |X]) |X]
0
= E[(br − β1 )(b2 − β2 ) |X]
0 0 0 0 0
= E[((X1 X1 )−1 X1 )((X2 M1 X2 )−1 X2 M1 0 ) |X]
0 0 0 0
= E[(X1 X1 )−1 X1 M1 X2 (X2 M1 X2 )−1 |X]
0 0 0
= E[σ 2 I(X1 X1 )−1 X1 M1 X2 (X2 M1 X2 )−1 |X]]
0 0 0
= E[σ 2 I(X1 X1 )−1 (M1 X1 ) M1 X2 (X2 M1 X2 )−1 |X]]
=0
0 0 0
V ar(b2 |X) = V ar(β2 + (X2 M1 X2 )−1 X2 M1 |X)
0 0 0 0
= (X2 M1 X2 )−1 X2 M1 V ar(|X)M1 X2 (X2 M1 X2 )−1
0 0 0 0
= σ 2 I(X2 M1 X2 )−1 X2 M1 M1 X2 (X2 M1 X2 )−1
0 0 0
= σ 2 I(X2 M1 X2 )−1 X2 M1 X2 (X2 M1 X2 )−1
0
= σ 2 (X2 M1 X2 )−1
0
Agora, vamos notar que é fácil provar que X2 M1 X2 é positivo-definido.
De fato, basta notar:
0 0
X2 M1 X2 = (M1 X2 ) (M1 X2 )
55
Daı́, faremos uma demonstração muito parecida com a que fizemos
para o caso simples:
0 0 0
z2 (M1 X2 ) (M1 X2 )z2 = (M1 X2 z2 ) (M1 X2 z2 )
= ||M1 X2 z2 || > 0
Tutorial 13 - 14
Além dos testes de hipótese, que tratamos mais a frente, este tutorial possui uma
discussão sobre quando há uma ”forte correlaçã” entre as variáveis explicativas.
Ora, sabe-se que, se há uma correlação perfeita entre as variáveis, ou seja, elas
são combinações lineares umas das outras, tem-se que a matriz X não possui
0
rank cheio e que X X não é invertı́vel. No entanto, quando a correlação é
”forte” - mas não perfeita, veja - haveria algum problema?
~1 + λ2 X
λ1 X ~2 + · · · + λk X~k = ~v
ou
λ1 v1
2 v2
λ
~1
X ~2
X ... X~k .. = ..
. .
λk vn
X ~λ = ~v
56
Quando ~v é exatamente zero, tem-se a multicolineariedade perfeita,
gerando a falta de inversão. Como se pode expressar o fato de haveru ma
”multicolineariedade forte”, mas não perfeita? Ora, dizendo que ~v é ”próximo”
0
de zero. Isto, no fundo, é fazer uma afirmação sobre o módulo do vetor: ~v ~v .
Ele estar próximo de zero é o que nos dá a ideia de que as variáveis são ”quase”
combinações lineares uma das outras.
~1 + λ2 X
λ1 X ~2 + · · · + λk X~k = ~v ⇐⇒ ~v − λ1 X~1 = λ2 X
~2 + · · · + λk X~k
~v ~ ~
=− +X ~1 = − λ2 X2 + · · · + λk Xk
λ1 λ1 λ1
~ ~
⇐⇒ X ~1 = λ2 X2 + · · · + λk Xk + ~v
λ1 λ1 λ1
λ−1
= X−1 + ~g
λ1
λ1
λ2
..
.
Em que λ−j ≡ λ
j−1
λj+1
.
..
λk
~
v
E ~g ≡ λj
57
minimiza o erro ao quadrado é o vetor de combinação linear. Faz sentido, não?
0
Afinal, estamos com um v com módulo pequeno, isto é, v v, que é exatamente
2
a soma dos erros ao quadrado. Assim, o R da equação acima, como se sabe,
pode ser apresentado da seguinte forma:
2
b−j X−j N X−j b−j
(Rj ) =
V ar(Xj )
0
(X−j b−j ) N X−j b−j
=
V ar(Xj )
~ 0 ~
(X−j λλ1 ) N (X−j λλ1 )
=
V ar(Xj )
~ j − ~g )0 N (X
(X ~ j − ~g )
=
V ar(Xj )~
V ar(X~ j − ~g )
=
V ar(X ~j )
~ j ) + V ar(~g ) − 2Cov(X
V ar(X ~ j , ~g )
=
V ar(X ~j )
V ar(Xj ) + V ar(~g ) − 2Cov(X−j + ~g , ~g )
=
V ar(Xj )
~
V ar(Xj ) + V ar(~g ) − 2Cov(X−j , ~g ) − 2V ar(~g )
=
~j )
V ar(X
V ar(X~ j ) − V ar(~g )
=
V ar(X ~j )
0
~j ) −
V ar(X ~v ~
v
(λ2j )
=
~j )
V ar(X
58
seguinte modelo, em que bj é um escalar. Ou seja, separou-se somente uma das
colunas da matriz X. Obviamente isto não é feito ingenuamente: queremos fazer
aquele R2 aparecer de alguma forma.
~ =X
Y ~ j bj + X−j b∗ + e
−j
0 0
~ j M−j X
bj = (X ~ j )−1 X
~j Y
~
0
~ j M−j X
V ar(bj |X) = (X ~ j )−1 σ 2
0
0 0
~ j (I − X−j (X−j
V ar(bj |X) = (X ~ j )σ 2
X−j )−1 X−j )X
0
0 0
~j X
V ar(bj |X) = (X ~j − X
~ j X−j (X−j ~ j )σ 2
X−j )−1 X−j X
0
0 0
~j X
V ar(bj |X) = (X ~j − X
~ j X−j (X−j ~ j )−1 σ 2
X−j )−1 X−j X
0 0
~j X
= (X ~j − X
~ j X−j (b−j ))−1 σ 2
0 0
~j X
= (X ~j − X
~ j (X
~ j − ~g ))−1 σ 2
0 0 0
~j X
= (X ~j − X
~j X
~j + X
~ j ~g )−1 σ 2
0
~ j ~g )−1 σ 2
= (X
0
~ j ~g é a co-
Se as variáveis estão padronizadas (média zero), então (X
~
variância entre Xj e ~g . Inclusive, é um escalar.
0
~ j ~g )−1 σ 2
V ar(bj |X) = (X
σ2
=
V ar(g)
σ2
=
~ j )(1 − (Rj )2 )
V ar(X
59
~j )−V ar(~
V ar(X g)
A última linha segue porque Rj2 = V ar(X~j ) . Então, fica óbvio
o seguinte: quanto maior perto o Rj2 estiver de 1, maior será a variância do
estimar bj ; no mais, quanto maior a colineariedade presente na matriz X, mais
próximo de 1 é o Rj . Logo, a conclusão é, após essas cansativas demonstrações:
quanto mais colineares as colunas da matriz X, maior é a variância
de cada um do estimadores individuais bj . Note que isso é extremamente
genérico, valendo para qualquer j.
Teste t
60
Pj
N (0, a211 )1 + N (0, a212 )2 + · · · + N (0, a21j )j N (0, i=1 a21i )
N (0, a221 )1 + N (0, a222 )2 + · · · + N (0, a22j )j N (0, Pj a2 )
i=1 2i
= =
.. ..
. .
2 2 2 j
N (0, an1 )1 + N (0, an2 )2 + · · · + N (0, anj )j 2
P
N (0, i=1 ani )
0
17
Pode-se, ainda, escrever que Aw ∼ N (0, AA ).
0 0
2. Pense em uma matriz Q, quadrada j x j,na qual Q = Q e Q Q = Q. Assuma
que essa matriz não é a identidade. No apêndice B, demonstra-se que, se ela não
é a identidade, então ela não possui inversa. Ou seja, ela é ranking deficiente.
Chamaremos seu ranking de ”r”.
Assuma, ainda, que essa matriz pode ser escrita decomposta em função de uma
matriz U que é j x r:
0 0
Q = U U , onde U U = I.
Sobre esta segunda propriedade,Pisto pode ser expresso de uma forma que será
0 r 2
mais útil para nós: U U = I ⇒ i=1 Uki = 1, ∀k ∈ [1 : r]
Se isto é verdade, analise a seguinte expressão:
0
z1 = w Qw
0 0
= w UU w
0 0
= (U w) (U w)
Vamos abri-la:
Pr 2
N (0, Pi=1 U1i )
r 2
0 0 Pr 2
Pr 2
Pr 2 N (0, i=1 U2i )
(U w) (U w) = N (0, i=1 U1i ) N (0, i=1 U2i ) . . . N (0, i=1 Uji ) ..
P.r
2
N (0, i=1 Uji )
Pr Pj 2 2
Pr
= k=1 (N (0, i=1 Uki )) = k=1 (N (0, 1)2 )P araoleitoratento, f icaclaroquez1
é uma soma de normais independentes padronizadas ao quadrado, isto é, uma
qui-quadrada, com graus de liberdade igual ao rank da matriz Q: r. No apêndice
B, prova-se que o rank de uma matriz é igual ao seu traço - soma dos valores
da diagonal, dando-nos o resultado de que o grau de liberdade dw z1 é o traço
da matriz Q.
Com esses dois resultados muito genéricos, pode-se agora ”dar nome
aos bois”. Então:
17 Notavelmente, mesmo que os componentes do vetor w sejam independentes entre si, os
componentes do vetor Aw, que são combinações lineares dos valores de w NÃO são indepen-
dentes entre si. Com uma reflexão rápida, consegue-se ver a razão: em todos os termos ,
temos as mesmas distribuições de probabilidades apenas combinadas de formas diferentes! É
óbvio que haverá covariância.
61
• w é o vetor σ. De RLM.6, sabe-se que ele se adequa na definição de w.
0
• A é a matriz (X X)−1 X 0 . A única condição para A era ser possı́vel de
0
multiplicar w. De fato, (X X)−1 X 0 é bem definido/
0
• Q é a matriz M ≡ I − X(X X)−1 X 0 . Não é difı́cil ver que ela é simétrica
e idempotente (MM = M). Ademais, no geral, ela não é identidade.
Resta saber se ela pode ser decomposta da forma apresentada. Novamente,
esta discussão está no apêndice e a conclusão é ”sim”.
0 0
Notando que, como não poderia deixar de ser: AA = σ 2 (X X)−1 .
Outro resultado:
~ = M (Xb + e)
MY
0 0
= Xb − X(X X)−1 X 0 Xb + e − X(X X)−1 X 0 e = e
~ = M (Xβ + ) = M
MY
M = e
Seja, também:
0 0 0
ee MMe e 0
= = M = w Qw ∼ (tr(Q))
σ2 σ2 σ σ
bj − β j
√
σ ajj
62
Exatamente igual no caso simples, não temos como saber σ, de modo
que usamos a soma dos resı́duos ao quadrado, divido pelos graus de liberdade,
para obter um estimador não viesado. Assim, a estatı́stica de teste se torna:
bj −βj
√
cjj
q
e0 e
n−k
bj −βj
√
σ (ajj )
q (46)
e0 e
σ 2 (n−k)
Daı́, claro, para notar um valor especı́fico, basta colocar este como
hipótese nula, isto é, colocar um valor para βj , como já discutido no caso simples.
63
Teste F
64
Para chegar no mesmo, voltemos para nosso modelo particionado:
~ = X1 β1 + X2 β2 +
Y
V −1/2 b2 ∼ N (0, I)
Ou seja, não só temos uma normal padronizada mas também elimi-
namos a covariância que existia entre os termos - sacou aonde estamos indo?
Já foi demonstrado em outras situações que a seguinte expressão nos dá uma
qui-quadrada:
0 0
(V −1/2 b2 ) V −1/2 b2 = b2 V −1/2 V −1/2 b2
0
= b2 V −1 b2
0 0
= b2 (σ 2 (X2 M1 X2 )−1 )−1 b2
0 0
b2 (X2 M1 X2 )b2
= ∼ χ(g)
σ2
0 0
b2 (X2 M1 X2 )b2
e0 e
n−k
65
0 0
b2 (X2 M1 X2 )b2
g
∼ F (g, n − k) (47)
e0 e
n−k
Rβ = r
66
0 0
Rb − r ∼ N (Rβ − r, σ 2 R(X X)−1 R )
0 0
(G−1/2 (Rb − r)) G−1/2 (Rb − r) = (Rb − r) G−1 (Rb − r)
0 0
(Rb − r) (R(X X)−1 R)−1 (Rb − r)
= ∼ χ(g)
σ2
0 0 0
(Rb−r) (R(X X)−1 R) (Rb−r)
g
(48)
e0 e
n−k
E, também, de:
0 0
M1 = I − X1 (X1 X1 )−1 X1
~ = X1 br + er ⇐⇒ er = Y
Y ~ − X1 br
=Y~ − X1 (X 0 X1 )−1 X 0 Y
1 1
= M1 Y
67
Então:
~ = er = M1 X1 b1 + M1 X2 b2 + M1 e
M1 Y
= M1 X2 b2 + M1 e
0 0 0 0
Assim, er = b2 X2 b2 + e M1 .
0 0 0 0
er er = b2 0 (X2 M1 X2 )b2 + b2 X2 0 e + e M1 X2 b2 + e0 M1 e
68
Dito isso, uma propriedade que também nos será útil é a seguinte:
0 0 0 0 0
e M 1 = e − e X1 (X1 X1 )−1 X1
0 0 0 0
= e − (X1 e)(X1 X1 )−1 X1
0
=e
0 0 0 0
er er = b2 0 (X2 M1 X2 )b2 + b2 X2 0 e + e M1 X2 b2 + e0 M1 e
0 0
= b2 0 (X2 M1 X2 )b2 + e X2 b2 + e0 e
0 0 0
= b2 0 (X2 M1 X2 )b2 + (X2 e) b2 + e0 e
0
= b2 0 (X2 M1 X2 )b2 + e0 e
0 0 0 0
b2 (X2 M1 X2 )b2 er er −e0 e er er −e0 e 1−(Rr )2 −1+R2
g g yN y g g
= = =
e0 e e0 e yN y e0 e 1−R2
n−k n−k n−k n−k
(R)2 −Rr 2
g
1−R2
(49)
n−k
69
Tutorial 15
Aquilo que usamos para estimar, então, é, com foco especial na con-
stante. Escreveremos o modelo, primeiramente, com variáveis aleatórias e, de-
pois, para a forma de estimação
~ = β0 + Xmasc
Y ~ βmasc + Xf~em βf em + Xk βk +
X ~λ = −~1 + Xmasc
~ + Xf~em = −~1 + ~1 = 0
70
haver um par (0,0) ou (1,0), mas somente (1,0) ou (0,1). Assim, para evitar que
essa situação ocorra, há duas opções: ter somente uma das variáveis qualitativas
ou realizar a regressão sem a constante.
Mais importante ainda: a diferença aqui é só nas médias ou, ainda,
sendo mais intuitivo, nas intersecções. Por exemplo, se o indivı́duo é uma mulher
com Xk nulo (ou seja, sem educação, pais com salário zero e qualquer outra
caracterı́stica relevante), ela teria um salário de 0 . Um homem, contudo, teria
um salário de β0 +β1 . No entando, quando eles ganham, por exemplo, um ano a
mais de educação, o aumento no salário é idêntico para ambos (dado por algum
βeduc dentro de βk ), pelo modelo dado. A inclinação é a mesma, no caso.
71
Como é o modelo masculino, ou seja, onde Xmasc = 1?
Tutorial 16-17
72
que teremos uma vida mais fácil. E, de fato, de um ponto de vista puramente
mecânico, é verdade. Contudo, a teoria se torna progressivamente complicada.
Vamos demonstrar alguns desses resultados, os quais serão utilı́ssimos muito em
breve.
Sua derivação é simples. Seja X uma variável aleatória que só toma
valores positivos qualquer.
Z ∞
E[X] = Xf (x)
−∞
Z a Z ∞ Z ∞ Z ∞ Z ∞
= Xf (x) + Xf (x) ≥ Xf (x) > af (x) =a f (x)
0 a a a a
= aP (X ≥ a)
E[X]
P (X ≥ a) ≤ (52)
a
V ar(Y )
P [|Y − E[Y ]| ≥ a] ≤ (53)
a2
73
são variáveis aleatórias. Então, esta média amostral também é uma variável
aleatória. Mais formalmente:
Z1 + Z2 + · · · + Zn
Z̄ =
n
E[Z1 + Z2 + · · · + Zn ]
E[Z̄] =
n
E[Z1 ] + E[Z2 ] + · · · + E[Zn ]
=
n
nE[Z]
=
n
= E[Z]
V ar(Z1 + Z2 + · · · + Zn )
V ar[Z̄] =
n2
V ar(Z1 ) + V ar(Z2 ) + · · · + V ar(Zn )
=
n2
nV ar(Z)
=
n2
V ar(Z)
=
n
V ar(Z)
P [|Z̄ − E[Z]| ≥ a] ≤ (54)
n2 a 2
P [|Z̄ − E[Z]| ≥ a] ≤ 0
74
Como uma probabilidade só pode ser positiva ou nula, chega-se na
conclusão que:
P [|Z̄ − E[Z]| ≥ a] = 0
75
Com tudo isto disto, tome a seguinte sequência de variável aleatórias,
com todos os Xi independentes entre si e identicamente ditribuı́das. Elas pos-
suem média e variância. A saber, E[Xi ] = µeV ar(Xi )=σ 2
[X1 , X1 +X
2
2 X1 +X2 +X3
, 3 , . . . , X1 +X2n+···+Xn ]
√ d
n(Sn − µ) ⇒ N (0, σ 2 ) (55)
Também um dos teoremas que mais vamos usar daqui para frente. Basicamente,
é um conjunto de resultados. Eu não os demonstrarei, mas tão somente os
deixarei explı́citos e os explicarei.
Primeiramente:
P P
Xn ⇒ X → g(Xn ) ⇒ g(X)
Em especı́fico,
se pensarmos em um vetor de sequência de variáveis
aleatórias Xn Yn , nos quais ambos possuem convergência em probabilidade,
X e Y, isto também é vlaido para este valor. Ou seja:
76
P P
Xn Yn ⇒ X Y → g( Xn Yn ) ⇒ g( X Y
Isto vale, claro, para funções como g( Xn Yn ) = Xn +Yn ou g( Xn Yn ) =
Xn Yn .
P D D
Xn ⇒ X, Zn ⇒ Z → Xn Zn ⇒ XY
Embora o teorema seja mais extenso do que isto, estes resultados nos
bastam.
O MQO Assintótico
~ + .
Y = Xβ
RLM 4 - Ortogonalidade
~ i i ] = 0
E[X
77
Então, há duas mudanças. Primeiramente, substituı́mos a esperança
condicional zero pela ”ortogonalidade”. Depois, a premissa de normalidade não
está mais presente. Tudo isso será discutido mais profundamente ao longo desta
seção.
0 0
b = (X X)−1 X Y ~
Xn 0 n
X
=( ~ iX
X ~ i )−1 ~ i Yi
X
i=1 i=1
0
Pn ~ iX
~i Pn ~
X
i=1 −1 i=1 Xi Yi
=( )
n n
Pn ~ ~ 0 Pn ~ ~ 0
Xi Xi −1 i=1 Xi (Xi β + i )
= ( i=1 )
n n
Pn ~ ~ 0 Pn ~
Xi Xi −1 i=1 Xi i
= β + ( i=1 )
n n
Por meio dela, nós sabemos que a média amostral converge, em proba-
bilidade, para a esperança da distribuição das variáveis aleatórias que a compõem,
quanto n tende ao infinito. Formalmente, no nosso caso:
Pn ~ i i
i=1 X P ~ i i ] = 0
⇒ E[X (56)
n
78
A igualdade final advém de RLM 4. Interessantemente, imagine que
tı́vessemos a mesma RLM 4 que havia antes: E[i |Xi ] = 0. Veja:
~ i i ] = E[E[X
E[X ~ i i ]|X
~ i ] = E[X
~ i E[i |Xi ]] = E[0|Xi ] = 0
0
Pn ~ iX
~i 0
X P ~ iX
~ i ])−1
( i=1
)−1 ⇒ (E[X (57)
n
0
~ iX
Pode-se ter certeza que o valor (E[X ~ i ])−1 existe, em decorrência da
hipótese RLM 3.
0 0
P ~ iX
~ i ])−1 E[X
~ i i ] = β + (E[X
~ iX
~ i ])−1 0 = β
b ⇒ β + (E[X
Testes de hipótese
79
Para isso, derivemos qual é a distribuição do estimador. Como é de se
esperar, um resultado muito relevante será o Teorema Central do Limite.
√
Para isso, multipliquemos b por n, algo que, como já discutido, cer-
tamente não altera sua distribuição.
0
Pn ~ ~ Pn ~
√ i=1 Xi Xi −1 i=1 Xi i
√
n(b − β) = ( ) n
n n
Pn ~ √
X
Foque no termo i=1n i i n. Pode-se aplicar o Teorema Central do
Limite nele? Ora, este afirma que: se Sn é a média amostral entre variáveis
independentes, então:
√ d
n(Sn − µ) ⇒ N (0, σ 2 )
Pn ~
X
O primeiro ponto a notar que, pela RLM 2, i=1n i i é uma soma de
variáveis independentes, dado que estamos somando diversos indivı́duos. Disto,
P n ~ i i
X
vem que, neste caso, Sn ≡ i=1
n .
0
~ i i ) = E[(X
V ar(X ~ i i )(X
~ i i ) ]
0
~ i i 0 X
= E[(X ~
i i ]
0
~ i i 0i X
= E[E[(X ~ i |X]]
0
~ i E[i 0i |X]
~ iX
= E[(X
0
~ iX
= σ 2 E[X ~i ]
80
Com isso:
Pn ~ i i √ 0
X d ~ iX
~ i ])
i=1
n ⇒ N (0, σ 2 E[X (58)
n
0
~ iX
Dito isso, agora só multiplicar por: (E[X ~ i ])−1 que é o limite, em
0
Pn
X~i X
~i
probabilidade, de i=1
n )−1 . Assim, há que:
√ d
0 0 0 0 0
~ iX
n(b − β) ⇒ (E[X ~ i ])−1 N (0, σ 2 E[X
~ iX
~ i ]) = N (0, E[X
~ iX
~ i ])−1 σ 2 E[X
~ iX
~ i ]E[X
~ iX
~ i ]−1 )
0
~ iX
= N (0, E[X ~ i ])−1 σ 2 )
Esta conclusão pode parecer banal, porque já havı́amos chegado antes.
Mas ela é diferente: antes, concluı́mos isso ao aceitar que e possuı́a uma dis-
tribuição normal. Era uma distribuição exata. Agora, sem esta hipótese, esta-
mos somente usando uma aproximação.
√
(b − β) n(b − β)
√ ∗ =
σ a∗jj
p
σ ajj
√
n
81
√ √
√ n(b−β) n(b−β)
√ √
n(b − β) a∗
jj σ a∗ jj
q 0 p = q 0 =q 0
e e e e e e
n−k a∗jj n−k σ 2 (n−k)
Nada de novo até aqui. O que é devemos chamar atenção, então, é para
o seguinte: como n é muito grande - ”infinito” - tanto faz dividirmos por (n-k)
ou por n, considerandoPque n é muito maior do que k. Com isto em em mente,
0 n
e2i
tome nota de: ene = i=1 n . Se considerarmos e2i = zi temos exatamente o
cenário ideal para o uso da lei dos grandes números. Para onde isto converge?
Para chegar a esta resposta, lembremos que e = M .
0 0
ee M
=
n n
0 0 0 0
− X(X X)−1 X
=
n
0 0
Pn 2 Pn ~ Pn X ~ ~ Pn ~
i=1 i i=1 i Xi i=1 i Xi −1 i=1 Xi i
= − ( )
n n n n
0
0 0
ee P ~ i ]E[X
~ iX
~ i ]−1 E[X
~ i i ] = E[2i ]
⇒ E[2i ] − E[i X
n
Pela RLM. 5, E[2i |X] = σ 2 . Assim, pela Lei das Expectativas Iteradas,
E[2i ] = σ 2 . Portanto:
0
ee P 2
⇒σ
n
√ √ √
n(b−β) n(b−β) n(b−β) √
√ √ √
σ a∗ jj σ a∗ jj σ a∗ jj n(b − β)
= q = =
σ a∗jj
q q p
e0 e e0 e σ2
σ 2 (n−k) σ 2 (n) σ2
82
Este último resultado é somente uma normal padronizada! De forma
relevante, o test T NÃO existe no mundo assintótico. Nós usamos, simples-
mente, um teste ”Z”, em que nossa estatı́stica de teste é uma normal. De
muitas maneiras, é um resultado muito interessante: o test t só surge porque
temos uma amostra pequena!
0 0 0
(Rb − r) (R(X X)−1 R )−1 (Rb − r)
∼ χ(g)
σ2
83
A reflexão final é que inferência é um bicho difı́cil de lidar: de qualquer
forma, com muitos ou poucos indivı́duos na amostra, precisa-se de uma série de
hipóteses :P
Tutorial 18
0
~ i ei ) = E[(X
V ar(X ~ i ei )(X
~ i ei ) ]
0
0
~ i ei e X
= E[(X ~
i i ]
0
~ i σi2 X
= E[X ~i ]
0
E é isso. Antes, como ei ei = σ 2 , conseguı́amos deixar isso mais enxuto,
o que era extremamente mais útil. Veja, agora, a distribuição do estimador fica
0
√ d
0 0 0 0 0
~ iX
n(b − β) ⇒ (E[X ~ i ])−1 N (0, E[X
~ i σi2 X
~ i ]]) = N (0, E[X
~ iX
~ i ])−1 E[X
~ i σi2 X
~ i ]E[X
~ iX
~ i ]−1 )
0
= N (0, Q−1 ~ 2~ −1
xx E[Xi σi Xi ]Qxx )
Certo, como tratar com isso? Isto é, como estimar essa variância?
84
Analisaremos duas situações. Novamente, vamos expressar as esperanças por
meio das médias amostrais, porque nunca, realmente, estamos no mundo assintótico.
0
0 0 0
Pn Pn ~ 0
~ iX
X ~i X i i ~ i Pn X
X ~ iX~i
( i=1
)−1 i=1 i
)( i=1 )−1 =
n n n
0 Pn ~ 2 ~ 0 0
XX −1 i=1 X i σi Xi XX −1
( ) ( )
n n n
Este termo do centro está muito destoante. Será que consigo escrevê-lo
também em forma de matriz? Demonstremos:
0
~1
X
Pn 0 0
X ~i
~ i σ2 X 1 ~ 2 X
~2
i=1
= X1 σ1 ~2 σ 2
X ... X~n σn .
2
2
n n .
.
0
X~n
0
2
σ1 0 ...
~
X
0 10
1 ~ 0
σ22 ... 0 ~
X 2
= X1 ~2
X ... X~n .. .. .. .. .
n
. . . . .
.
0 0 ... σn2 0
X~n
0
X ΩX
=
n
0 0 0
X X −1 X ΩX X X −1
( ) ( )
n n n
O leitor atento notará que não temos como saber a matriz Ω. Então,
usamos um estimador para ela:
2
e1 0 . . . 0
2
0 e2 . . . 0
Ω̂ = .
.. . . ..
.. . . .
0 0 ... e2n
85
Se pensarmos que só temos uma amostra - como geralmente é o caso,
estamos estimando somente com um dado: o resı́duo do indivı́duo elevado ao
quadrado. É o melhor que podemos fazer. O Estimador da variância, por fim,
se torna:
0 0 0
X X −1 X Ω̂X X X −1
( ) ( ) (59)
n n n
Testes de hipótese
~ =X
Y ~ j bj + X−j b−j + e
Do que:
0 0
~ j M−j X
bj = (X ~ j )−1 X
~ j M−j Y
~
0 0
~ j M−j X
bj = β j + ( X ~ j )−1 X
~ j M−j )
Queremos padronizar este estimador. Para isso, qual será que é seu
desvio padrão? Antes de fazermos isso, nprestemos atenção na regressão auxiliar
que nos será muito útil:
~ j = b−j X−j + ~g
X
0 0
E que M−j = I − X−j (X−j X−j )−1 X−j
86
0 0
~ j M−j X
V ar(bj |X) = V ar(X ~ j )−1 X
~ j M−j |X)
0 0 0 0
0
~ j M−j X
= E[(X ~ j )−1 X
~ j M−j )(X
~ j M−j X
~ j )−1 X
~ j M−j ) |X]
0 0 0
0
~ j M−j X
= E[(X ~ j )−1 X
~ j M−j M−j X
~ j (X
~ j M−j X
~ j )−1 |X]
0 0 0
~ j M−j X
= E[(X ~ j M−j 0 M−j X
~ j )−1 X ~ j (X
~ j M−j X
~ j )−1 |X]
0 0 0 0 0
0 0
~j X
= E[(X ~j − X
~ j X−j (X−j Xj )−1 X−j X ~ j M−j 0 M−j X
~ j )−1 X ~ j (X
~j X
~j − X 0
~ j X−j (X−j 0
~
Xj )−1 X−j X
0 0 0 0 0
~j X
= E[(X ~j − X ~ j M−j 0 M−j
~ j X−j b−j )−1 X 0
~ j (X
X ~j X
~j − X
~ j X−j b−j )−1 |X]
0 0 0 0 0
= E[(X ~j − X
~j X ~ j M−j 0 M−j X
~ j − ~g )−1 X
~ j (X ~ j (X ~j − X
~j X ~ j − ~g )−1 |X]
~ j (X
0 0 0
0
~ j ~g )−1 X
= E[(X ~ j M−j M−j X
~ j ((X
~ j ~g )−1 )|X]
0 0
= E[(X ~ j 0 X
~ j ~g )−2 X ~ j |X]
0 0
0
~ j ~g )−2 X
= E[(X ~ j M−j M−j X
~ j |X]
0
bj − β j bj − βj
rP = r Pn 2
n g e2
i=1gi2 e2i i=1 i i
n
n2 V ar(g)2
d
nV ar(g)2
d
√
n(bj − βj )
= r Pn 2 2
g e
i=1 i i
n
V ar(g)2
d
87
Quando n tende ao infinito, pode-se usara a lei dos grandes números,
lembrando que o estimador da variância é consistente.
√
n(b − β )
q j 2 2j (60)
E[gi ei ]
V ar(g)2
Teste F
0 0 0 0
R( XnX )−1 X nΩ̂X ( XnX )−1 R
(Rb − r) ∼ N (0, )
n
0 0 0 0
N (0, R(X X)−1 X Ω̂X(X X)−1 )R )
0 0 0 0
Se definirmos F ≡ R(X X)−1 X Ω̂X(X X)−1 )R . Pode-se usar, como
já fizemos ao menos três vezes, F −1/2 para padronizar a normal. Defina ainda:
0 0 0
V̂ ≡ (X X)−1 X Ω̂X(X X)−1
0
No final, ao se fazer (F −1/2 (Rb−r)) (F −1/2 (Rb−r)) ter-se-á o seguinte,
para realizar o teste:
0 0
(Rb − r) (RV R )−1 (Rb − r) ∼ χ(g) (61)
88
Tutorial 19
Endógena
Imagine que:
yi∗ + ui = yi
~ ∗ = Xβ + ⇐⇒ Y
Y ~ = Xβ + µ + (62)
0 0
b = (X X)−1 X Y~
0 0
= (X X)−1 X (Xβ + µ + )
0 0
= β + (X X)−1 X (µ + )
Pn ~ ~ 0 Pn ~ Pn ~ ~ 0 Pn ~
i=1 Xi Xi −1 i=1 Xi µi Xi Xi −1 Xi i
=β+( ) ( ) + ( i=1 ) ( i=1 )
n n n n
0 0
P ~ iX
~ i ]−1 E[X
~ i µi ] + E[X
~ iX
~ i ]−1 E[X
~ i i ]
b ⇒ β + E[X
0
P ~ iX
~ i ]−1 E[X
~ i µi ]
b ⇒ β + E[X
89
que as covariância entre as variáveis explicativas e os erros de medida são zero.
Ou seja, não há nenhuma relação linear entre as variáveis. Uma óbvia forma de
garantir isso é que as variáveis explicativas e os erros de medida sejam indepen-
dentes entre si.
0 0 0 0
V ar(b|X) = V ar(β + (X X)−1 X µ + (X X)−1 X |X)
0 0 0 0 0 0 0 0
= V ar((X X)−1 X µ|X) + V ar((X X)−1 X |X) + Cov((X X)−1 X µ, (X X)−1 X |X)
0 0 0 0 0 0 0 0
= V ar((X X)−1 X µ|X) + V ar((X X)−1 X |X) + Cov((X X)−1 X µ, (X X)−1 X |X)
0 0 0 0 0 0 0
= V ar((X X)−1 X µ|X) + V ar((X X)−1 X |X) + (X X)−1 X Cov(µ, |X)X(X X)−1
0 0 0 0
= V ar((X X)−1 X µ|X) + V ar((X X)−1 X |X)
0 0 0 0 0 0
= (X X)−1 X V ar(|X)X(X X)−1 + (X X)−1 X V ar(µ|X)X(X X)−1
0 0 0 0 0 0
= (X X)−1 X (σ 2 )IX(X X)−1 + (X X)−1 X (σµ2 )IX(X X)−1
0 0
= σ2 (X X)−1 + σµ2 (X X)−1
Exógena
~ i ∗ + µi = X
X ~i
90
∗
X1i µ1i X1i
X2i∗
µ2i X2i
.. + .. = ..
. . .
∗
Xki µki Xki
~ = X ∗β +
Y
0
u1
u0
2
Notando que: u = .
..
0
un
0 0
b = (X X)−1 X (X ∗ β + )
0 0
= (X X)−1 X ((Xβ + µβ + )
0 0 0 0
= β + β(X X)−1 X (µ) + β(X X)−1 X ()
0
P ~ iX
b ⇒ β + βE[X ~ i µ0 ]
~ i ]−1 E[X
i
Assim, uma hipótese muito simples que poderı́amos fazer para que o
~ i µi ] = 0. Contudo, isso é muito difı́cil de
estimador fosse consistente é dizer E[X
91
ser verdade. Quer dizer... A variável observada é literalmente somar o erro de
medida ao valor real. Como eles não possuem covariância? Assim, façamos uma
0
hipótese mais refinada, semelhante ao caso da variável endógena: E[X~i∗ µi ] = 0.
Ou seja, é a variável real, não a observada, que não possuo correlação.
0 0
b = [(X ∗ + u) (X ∗ + u)]−1 (X ∗ + u) (X ∗ β + )
0 0 0 0 0
= [(X ∗ ) X ∗ + X ∗ u + u X ∗ + u u]−1 (X ∗ + u) (X ∗ β + )
0 0 0 0 0
(X ∗ ) X ∗ + X ∗ u + u X ∗ + u u −1 (X ∗ + u) (X ∗ β + )
=[ ]
n n
0 0 0 0 0 0 0 0
(X ∗ ) X ∗ + X ∗ u + u X ∗ + u u −1 (X ∗ X ∗ β + X ∗ + µ X ∗ β + µ )
=[ ]
n n
0 0 0
P ~ i ∗ X~ ∗ ]+E[X~ ∗ u0i ]+E[ui X~ ∗ ]+E[ui u0i ])−1 (E[X~ ∗ X~ ∗ ]β+E[X~ ∗ i ]+E[ui X~∗ 0 ]β+E[ui ei ])
b ⇒ (E[X i i i i i i i
0
Com a hipótese de que E[X~i∗ ui ] = 0, feita acima, conseguimos eliminar
dois termos. Pode-se fazer mais algumas hipóteses simplificadoras. A saber,
E[µi i ] = 0, que é plausı́vel dep ensar e já usada em outro momento, e também
dizer E[X ~ i ∗ i ] = 0 que uma simples consequência de RLM.4 e da penúltima
hipótese. Nisto, chega-se, enfim, em:
0 0
P ~ i ∗ X~ ∗ ] + E[ui u0i ])−1 (E[X~ ∗ X~ ∗ ]β)
b ⇒ (E[X i i i
P V ar(Xi∗ )
b⇒ β
V ar(Xi∗ ) + V ar(u∗i )
92
Tutorial 19 - 20 - 21
Proxy
Nós sabemos que se deixarmos de fora uma variável que possua correlação tanto
com a variável endógena quanto com as demais explicativas, teremos um viés
de variável omitida. Assim, o econometrista zeloso sempre garantirá que todas
as variáveis relevantes - e somente elas - estejam expostas no modelo.
~ = Xj βj + X−j β−j +
Y
Ora, imagine que seja ”inteligência”. Mesmo que não saibamos com
precisão o que é uma proxy, nosso intuito é, em algum nı́vel, ”substituir” a
variável, parece evidente que uma variável ”fios de cabelo” parece péssima para
este propósito. Assim, desta intuição, sabe-se que podem existir proxys boas e
ruins. O que diferencia um grupo do outro? Tome a seguinte regressão, com
Xp a variável candidata a proxy.
Xj = Xp γp + X−j γ−j + µ
Listemos as condições.
1. γp 6= 0
Ou seja, tudo mais constante, uma correlação entre a variável e aquilo
que está servindo como proxy. Ou, ainda, a proxy não é irrelevante para
explicar Xj . É por isso, inclusive, que ”fios de cabelo” é uma proxy ruim.
2. γ−j = 0
Uma vez que estamos mantendo constante a proxy - ”controlando pela
proxy”, todas as outras variáveis não colaboram em nada para a explicação
de Xj . De maneira mais lúdica, tudo o que X−j explicaria está inteira-
mente contido na proxy.
93
~ i i ] = 0
3. E[X
Esta é a hipótese de ortogonalidade comum. Fiquemos atento, somente,
para o fato que ela implica que todas as variáveis explicativas, quando
multiplicadas pelo erro, dão zero.
E[X~1i i ]
0
E[X~ ] 0
2i i
.. ..
. .
=
E[X~ji i ] 0
.
..
.
.
.
E[X~ki i ] 0
~ = Xj βj + X−j β−j +
Y
= (Xp γp + µ)βj + X−j β−j +
= Xp (γp βj ) + X−j β−j + µβj +
= Xp (βj∗ ) + X−j β−j + ∗
94
~ = Mp X−j β−j + ∗
Mp Y
Do que vem:
0 0
~
b−j = (X−j Mp X−j )−1 X−j Mp Y
0 0
= β−j + (X−j Mp X−j )−1 X−j Mp ∗
0 0 0 0 0
= β−j + ((X−j X−j − X−j Xp (Xp Xp )−1 (Xp ) X−j )−1 X−j Mp ∗
0 0 0 0 0 0 0 0
= β−j + ((X−j X−j − X−j Xp (Xp Xp )−1 (Xp ) X−j )−1 (X−j ∗ − X−j Xp (Xp Xp )−1 Xp ∗ )
0
0 0 0 0 0
~ −ji X
β−j + (E[X ~ −ji ] − E[X
~ −ji Xpi ]E[Xpi Xpi ]−1 E[Xpi X~−ji ])−1 (E[X~−ji ∗i ] − E[X~−ji Xpi ]E[(Xpi Xpi )−1 E[Xpi ∗i
Da mesma forma:
95
Tutorial 23-24-25
Novamente, imaginemos que há uma situação em que temos certeza que há uma
variável que possui correlação com as outras variáveis explicativas e também com
a endógena. Para evitar viés, não podemos deixá-la de fora do modelo.
Y = X1 β1 +
3. E[Zi i ] = 0
Esta aqui está de acordo com o que foi dito na intuição. O instrumento
tem sim relação com a variável X, contudo estamos interessados na parte
não correlacionada de X, que é exatamente o que se tem aqui.
Aqui, tem-se garantido que o instrumento é ”forte”.
96
OUTRO estimador para realizar isso, embora estejamos estimando exatamente
o mesmo parâmetro. Chamaremos-lo de bIV .
Cov(Zi , Yi )
(64)
Cov(Zi , X1i )
Cov(Z
di , Yi )
biv = (65)
Cov(Z
d i , X1i )
97
Pn
(Zi )(Yi )
biv = ni=1
P
(Z i )(X1i )
Pni=1
(Z )(X1i β1 + )
= i=1Pn i
(Zi )(X1i )
Pni=1 Pn
i=1 (Z i )(X1i ) (Zi )(i )
= β1 Pn + Pni=1
i=1 (Zi )(X1i ) i=1 (Zi )(X1i )
Pn
(Zi )(i )
= β1 + Pni=1
i=1 (Z i )(X1i )
Pn
i=1 (Zi )(i )
n P E[Zi i ]
= β1 + Pn ⇒ β1 +
i=1 (Zi )(X1i ) E[Zi X1i ]
n
= β1
Pn √ Pn
√ i=1 (Zi )(X1i ) −1 n i=1 (Zi )(i )
n(biv − β1 ) = ( ) ( )
n n
0 0
V ar(Zi i |) = E[(Zi Zi |X, Z]
0 0
= E[Zi Zi E[ |Z]]
0
= σ 2 E[Zi Zi ]
= σ 2 V ar(Zi )
= σ 2 V ar(Z)
√ D σ 2 V ar(Zi )
( n(biv − β1 ) ⇒ N (0,
Cov(Zi , X1i )2
Cov(A,B)
Dadas quaisquer variáveis A,B, Corr(A, B) = ρA,B = σA σB
98
Assim:
√ P σ 2 V ar(Zi ) σ2
( n(biv − β1 ) ⇒ N (0, 2 2 σ2 ) = N (0, 2 )
ρZ,X σZ X ρ2Z,X σX
Vamos agora para um mundo multivariado. Isto quer dizer duas coisas: primeira-
mente, nossas variáveis explicativas são mais do que uma; depois, nossos instru-
mentos são mais do que um, também.
1. Z é i.i.d
~i i ] = 0, ∀i ∈ [1 : n]
2. E[Z
99
Novamente, esta é a condição de exogeneidade. Ao formular esta hipótese,
estamos, novamente, indexando no indivı́duo, ou seja: Z
Agora, contudo, todos os intrumentos devem ser exógenos.
0
3. (Z X) possui rank cheio.
0 0 0
Z~1 X~1 Z~1 X ~2 . . . Z~1 X~k
0 0 0
Z~ X
0 2 ~1 Z~2 X ~2 . . . Z~2 X~k
ZX = .
. .
.. .. ..
. . .
0 0 0
100
0
~i i ] = E[Z
E[Z ~i (Yi − X
~ i β)] = 0
0
~i X
⇐⇒ β = E[Z ~ i ]−1 E[Z
~i Yi ]
0 0
(Z X)−1 Z Y (66)
No caso:
Pn ~i X
~i
0
√ Pn ~
√ i=1 Z −1 n i=1 Zi i
n(biv − β) = ( ) ( ) (67)
n n
0
Pn
Z ~i
~i X P
Sabe-se que: ( i=1
)−1 ⇒ E[Z ~ i ]−1 = Q−1
~i X
n ZX
0 0
~ i i 0 Z
~i i ) = E[Z ~ ~ ~ 0
Também sabemos que: V ar(Z i i ] = E[Zi Zi E[i i |Z] =
0
~i Z
σ 2 E[Z ~i ] = σ 2 QZZ
Antes, a forma que criávamos a matriz Z forçava ela ser quadrada: para cada
variável, avaliámos se era endógena ou exógena e atribuı́mos para ela um, e
somente um instrumento especı́fico. A questão é que não necessariamente isto
precisa ser feito.
101
Antes disso, contudo, temos uma problemática. Não podemos simples-
0 0
mente escrever o estimador como (Z X)−1 Z Y porque, agora que temos mais
potencialmente mais de um instrumento para cada variável explicativa de X,
0
nosso Z é uma matriz nxm. De modo que Z X é mxk, ou seja, potencialmente
0
não quadrada. Não faz sentido nenhum, então, escrever (Z X). Precisaremos
de outro estimador.
Podemos, então, com esses valores fittados, usá-los como variáveis ex-
plicativas para a regressão com a variável Y. Daı́, conseguiremos o estimador.
X = Zλ + v (68)
X é n x k, Z é n x m, λ é m x k, v é n x k.
No caso:
~1 ~2 X~k = Z λ~1 λ~2 λ~k + v~1
X X ... ... v~2 . . . v~k
~1 = Z λ~1 + v~1
X ~2 = Z λ~2 + v~2
X ... X~k = Z λ~k + v~k
102
0 0
(Z Z)−1 Z X
b = Zλ = Z(Z 0 Z)−1 Z 0 X = PZ X
X (69)
~ = Xb
Y b TS + µ (70)
b 0 X)
bT S = (X b0Y
b −1 X ~
b 0 X)
= (X b 0 (Xβ + )
b −1 X
0 0 0 0 0 0 0 0
= (X Z(Z Z)−1 Z Z(Z Z)−1 Z X)−1 X Z(Z Z)−1 Z (Xβ + )
0 0 0 0 0 0 0 0 0 0 0 0
= (X Z(Z Z)−1 Z X)−1 X Z(Z Z)−1 Z Xβ + (X Z(Z Z)−1 Z X)−1 X Z(Z Z)−1 Z
0 0 0 0 0 0
= β + (X Z(Z Z)−1 Z X)−1 X Z(Z Z)−1 Z
n 0 n 0 n n 0 n 0 n
X X X 0 X X X
= β + (( ~ iZ
X ~i )( ~i Z
Z ~i )−1 ( ~i x~i ))−1 (
Z ~ iZ
X ~i )( ~i Z
Z ~i )−1 ( ~ i i )
Z
i=1 i=1 i=1 i=1 i=1 i=1
0 0 0 0 0
Pn ~ ~ Pn ~ ~ Pn ~ ~ Pn ~ ~ Pn ~ ~ Pn ~
i=1 Xi Zi i=1 Zi Zi −1 i=1 Zi Xi i=1 Xi Zi i=1 Zi Zi −1 Z i i
= β + (( )( ) ( ))−1 ( )( ) ( i=1 )
n n n n n n
0
~i Z
Se aceitarmos que E[Z ~i ] possui rank cheio, conseguimos o seguinte
resultado:
0 0 0 0 0
P ~ iZ
~i ]E[Z
~i Z
~i ]−1 ]E[Z
~i X
~ i ])−1 E[X
~ iZ
~i ]E[Z
~i Z
~i ]−1 E[Z
~i i ] (71)
bT S ⇒ β + (E[X
P
bT S ⇒ β + (QXZ Q−1
ZZ QZX )
−1
QXZ Q−1 ~
ZZ E[Zi i ]
103
Resta a distribuição. Não há muito segredo, sendo muito parecido com
o que foi feito anteriormente.
√ D
n(bT S − β) ⇒ (QXZ Q−1
ZZ QZX )
−1
QXZ Q−1 2
ZZ N (0, σ QZZ )
= N (0, (QXZ Q−1
ZZ QZX )
−1
QXZ Q−1 2 −1 −1
ZZ σ QZZ QZZ QZX (QZX QZZ QXZ )
−1
)
= N (0, σ 2 (QXZ Q−1
ZZ QZX )
−1
QXZ Q−1 −1
ZZ QZX (QZX QZZ QXZ )
−1
)
= N (0, σ 2 (QZX Q−1
ZZ QXZ )
−1
)
Tutorial 26
Hi = β0 + β1 Wi + β2 Gi + i (72)
W i = λ 0 + λ 1 Hi + v i (73)
104
E[Wi i ] = E[(λ0 + λ1 Hi + β2 Gi + vi )]
= E[(λ0 + λ1 (β0 + β1 Wi + β2 Gi + i ) + vi )i ]
= E[(λ0 i )] + E[β2 Gi ] + E[λ1 (β0 i )] + E[β1 Wi i ] + E[2i ] + E[vi i ]
= λ0 E[i ] + β1 E[Wi i ] + β2 E[Gi i ] + λ1 β0 E[i ] + E[2i ] + E[vi i ]
σ2
E[Wi i ] = 6= 0 (74)
1 − β1
W i = λ 0 + λ 1 Hi + v i
= λ0 + λ1 β0 + λ1 β1 Wi + λ1 β2 Gi + λ1 i + vi
λ0 + λ1 β0 + λ1 β2 Gi + λi i + vi
⇐⇒ Wi =
1 − λ 1 β1
β0 + β1 λ0 + β2 Gi + β1 i + vi
Hi =
1 − λ 1 β1
105
Cov(W
di , Hi )
b1 =
V ar(W
d i)
Cov(W
di , i )
= β1 +
V ar(W
d i)
Cov(λ0 +λ1 β0 +λ
di i +λ1 β2 Gi +vi ,i )
1−λ1 β1
= β1 +
Vd
ar(λ0 +λ1 β0 +λi i +λ1 β2 Gi +vi )
(1−λ1 β1 )2
λ1 Cov(
d i , i )
= β1 + (1 − λ1 β1 )
λ21 Vd
ar(i ) + (λ1 β2 )2 Vd
ar(Gi ) + Vd
ar(vi )
2
P λ1 σ
⇒ β1 + (1 − λ1 β1 ) 2 2 2
λ1 σ + (λ1 β2 ) V ar(Gi ) + V ar(vi )
c1 = Cov(W i, Hi)
d
λ
Vdar(Hi )
Cov(v
d i , Hi )
= λ1 +
Vdar(Hi )
P β1 σ 2
⇒ λ1 + (1 − λ1 β1 )
β12 σ 2 + β22 V ar(Gi ) + V ar(vi )
Assumindo, E[Gi vi ] = 0.
Uma proxy, neste caso, também não no seria muito útil. Lembremos
que, se escolhermos uma proxy, jamais teremos uma medida para para o efeito
da variável em si, somente uma composição dela com o efeito da variável proxy
- voltar ao tutorial sobre o assunto.
E[Zi Hi ] 6= 0
106
E[Zi vi ] = 0
Cov(G
d i , Wi )
λIV =
Cov(G
d i , Hi )
Simultaneidade - no geral
Vamos tentar imaginar o que seria um sistema ideal, em que todas as variáveis
poderiam ser instrumentalizadas. Imagine que neste sistema simultâneo, haja G
variáveis endógenas. Elas seriam aquelas que aparecem, em uma equação, como
variável dependente e, nas outras, como variável explicativa. São os nossos Hi
e Wi de antes.
107
Seja uma equação especı́fica destas G. Uma primeira condição para que
esse sistema seja identificável - e assim, que todos possam ser estimados - é que
só haja, no lado direito desta equação G - 1 variáveis endógenas. Isto é óbvio
porque a que sobrou é exatamente a variável dependente. Esta é a ”condição
de rank.”
Tutorial 27 - 28 - 29 - 30
108
~ i , β)
E[Yi |Xi ] = f (X (75)
Formalmente, se β1 6= β2
~ i , β2 ) 6= f (X
f (X ~ i , β1 ) (76)
0 0
0
~ i , β) = (X
O que é um exemplo que quebra isso? Seja f (X ~ i β) (X
~ i β).
0
0
~ iX
Para β1 e −β1 , há que o resultado é o mesmo: (β1 X ~ i β1 ).
Por que isso é tão ruim? Ora, lembremos que, para realizar a identi-
ficação do parâmetro β, no modelo linear, fizemos a minimização dos mı́nimos
quadrados. No caso, tomando as variáveis aleatórias:
∂f (X, β) ∂f (X, β)
E[−2Y + 2f (X, β) ]=0 (78)
∂β ∂β
Como antes, o nosso estimador não-linear, bnls , virá de analogia com a identi-
ficação. Então, bnls é aquele que minimiza a seguinte expressão:
Pn ~ i , bnls ))2
i=1 (Yi − f (X
(79)
n
109
Ou, ainda, que está de acordo com a condição de primeira ordem:
n ~ i , bnls )
X ∂f (X ~ i , bnls )) = 0
2 (Yi − f (X (80)
i=1
∂bnls
Isto pode parecer meio bobo, imagino. Antes, tı́nhamos uma fórmula
fechada e analı́tica para o estimador. Agora, só temos uma propriedade meque-
trefe. Mas é a vida. O estimador linear é uma estrela justamente por ser mais
simples de expressar, estimar e derivar propriedades.
Aqui, para ter um valor numérico para o estimador bnls , precisa-se usar
métodos numéricos. Basicamente, chutar valores e ver qual deles dá a menor
soma de resı́duos.
Como hipótese, foi colocado, em analogia direta com antes, uma ”condição
de ortogonalidade” que garanta que o segundo termo seja zero. Não é fácil, sem
a forma funcional direta, saber qual condição é esta. Mas, genericamente, o
termo do meio sumirá.
Isto só ocorre para bnls = β, Ou seja, no assintótico, aquilo que min-
imiza a média dos resı́duos é exatamente o parâmetro real, do que vem a con-
sistência.
110
é realmente bem indireto. Para chegar nele, foquemos na única coisa que real-
mente define o estimador bnls :
n ~ i , bnls ) n
X ∂f (X ~ i , bnls )) = 2
X 0
~ i , bN LS )(Yi − f (X
~ i , bnls )) = 0
2 (Yi − f (X f (X
i=1
∂bnls i=1
0 f (b) − f (a)
f (c) = (81)
b−a
0 G(bN LS ) − G(β)
G (b∗ ) = (82)
bN LS − β
0
(bN LS − β) = −G (b∗ )−1 (G(β))
0
G (b∗ ) −1 G(β)
= −( ) ( )
n n
√
Se, para evitarmos que a variância colapse, multiplacamos por n,
podemos chegar na distribuição. Os resultados relevantes são:
0 n 00
~ i , b∗ )) − f 0 (X
~ i , b∗ )(Yi − f (X ~ i , b∗ )f 0 (X
~ i , b∗ )T )
G (b∗ ) X f (X
= ( )
n i=1
n
P 00 0 0
⇒ E[f (X~ i , β)i ] − E[f (X ~ i , β)f (X
~ i , β)T ]
0
= −E[f (X~ i , β)f 0 (X
~ i , β)T ]
111
Vários pontos para notar aqui. Primeiramente, na primeira linha, note
a regra do produto. Depois, note que, quando passamos para a convergência de
probabilidade, tem-se que b∗ se tornou β. Isso é verdade porque bN LS é consis-
tente e o intervalo [bN LS , β] colapsa para, somente, β, de modo que todos os pon-
tos entre eles, como b∗ , também se tornam β. Ainda, (Yi −f (X ~ i , b∗ ). Em adição,
um detalhe menor é que, para não se confundir com o sı́mbolo da derivada, o
transposto se transformou em T . Por fim, sabe-se que E[f (X ~ i , β)i ] = 0. Assim,
pensando que pode-se passar a derivada ”para dentro” - teorema de Leibniz -
todas as derivadas também são zero.
0
~ i , β)i ) = E[f 0 (X
V ar(f (X ~ i , β)i Ti f 0 (X
~ i , β)T ]
0
= E[[f (X ~ i , β)X
~ i , β)T E[i Ti |Xi ]
0 0
~ i , β)f (X
= σ 2 E[f (X ~ i , β)T ]
E a esperança:
0
~ i , β)i ] = 0
E[f (X
√ 0
P
n(bN LS − β) ⇒ −E[f (X ~ i , β)f 0 (X~ i , β)T ]−1 N (0, σ 2 E[f 0 (X
~ i , β)f 0 (X
~ i , β)T ])
0 0
= N (0, σ 2 E[f (X ~ i , β)f (X ~ i , β)T ]−1 )
Probit e Logit
Imagine que nossa variável dependente, Y, possua somente dois valores possı́veis:
1 e 0. Ou seja, é categórica. Mais do que isso, vamos assumir que ela dado valores
de X, possui uma distribuição de probabilidade de Bernoulli: com probabilidade
p, assume valor 1 e, com 1-p, valor 0.
112
E[Y |X] = 1p + 0(1 − p) = p
Se é o caso, e vamos modelar, como antes, E[Y |X], faz sentido realizar
isso de uma maneira linear? Claramente não. Se fizermos combinações lineares
dos valores de X, não garantiremos que estaremos dentro do limite entre 0 e 1,
que deve ser atendido, dado que p é uma probabilidade e, como tal, está entre
0 e 1.
~ i ] = Φ(X
E[Yi |X ~ i β) (83)
~ i β + i
Yi∗ = X
113
Daı́:
~ i = 1] ⇐⇒ P [Yi∗ ≥ 0] ⇐⇒ P [i ≥ −X
P [Yi |X ~ i β] = P [i ≤ X
~ i β] = Φ(X
~ i β)
~ i] = 1
E[Yi |X 0 (84)
~ i β)
1 + exp(−X
Por fim, note que, em uma regressão linear, os valores de β podem ser
vistos como derivadas parciais de da esperança de Y em relação a uma variável
explicativa ou, em um sentido mais relevante, é o efeito marginal da variável
explicativa. Em uma regressão não linear, este não é o caso. De maneira mais
0
~ i ] = f (X
formal, se E[Yi |X ~ i β), então:
~ i]
∂E[Yi |X ~ i β)βj
= f 0 (X (85)
∂Xj
114
Tutorial 31-32-33
Máxima verossimilhança
Ou, ainda:
~ ∼ fθ (Yi , X
Y |X ~ i) (86)
0
Onde θ0 é o vetor de parâmetros reais que a distribuição possui. Para cada valor
~ i , possui-se um valor de probabilidade. Estamos assumindo
especı́fico de Yi e X
que conhecemos isto.
n
Y
L(θ) = ~ i)
fθ (Yi , X (87)
i=1
115
Infelizmente, este produtório é muito difı́cil de maximizar. Mas se
pode realizar uma transformação monotônica nele sem interferir em qual esti-
mativa maximiza a probabilidade. Assim, ”passemos” o log! Outra ponto é
que vamos dividir por n - imagino que você saiba o motivo. No caso, defina:
~ i )n ≡ log(fθ (Yi ,X~i )) . Também, e isto será mais relevante lá na frente,
gθ (Yi , X n
definiremos também gθ (Yi , X ~ i ) ≡ log(fθ (Yi , X
~ i )), isto é, sem o n.
n
X
l(θ) = ~ i )n
gθ (Yi , X (88)
i=1
n ~ i)
∂l(θM LE ) X ∂gθM LE (Yi , X
=
∂θ i=1
∂θ
Pn ~i ))
∂log(fθM LE (Yi ,X
i=1 ∂θ
=
n
Pn ~i ))
∂fθM LE (Yi ,X
1
i=1 (fθ (Y i ,X~i ) ∂θ
M LE
= =0
n
Pn ~i ))
∂fθM LE (Yi ,X
1
i=1 (fθ ~i )
(Yi ,X ∂θ P 1 ~ i ))
∂fθM LE (Yi , X
M LE
⇒ E[ ]=0
n ~ i)
(fθM LE (Yi , X ∂θ
116
~ i )) Z ∞ Z ∞ ~ i ))
1 ∂fθ (Yi , X 1 ∂fθ (Yi , X ~ i) = 0
E[ ]= fθ0 (Yi , X
~ i)
(fθ (Yi , X ∂θ −∞ −∞ ~ i)
(fθ (Yi , X ∂θ
Novamente, veja Leibniz sendo usado para integrar uma derivada. Isto
prova a consistência, como gostarı́amos.
117
A matriz de informação de Fisher é exatamente está relacionada com
esta segunda derivada/achatamento. Relacionada como, exatamente? Ora,
a todo tempo estamos dizendo que todo este raciocı́nio é ”dado a amostra”.
De fato: dado n pares ordenados [Yi , X ~ i ], pode-se avaliar a probabilidade de
cada um deles e achar o parâmetro que maximiza. Então, para cada amostra,
terı́amos um parâmetro maximizador e, também, um achatamento/velocidade
de inclinação/segunda derivada em torno dele.
n n ~ i ))
X
~ i )n =
X log(fθ (Yi , X
l(θ) = gθ (Yi , X
i=1 i=1
n
n ~i ))
log(fθM LE (Yi ,X Pn ~i ))
∂log(fθM LE (Yi ,X
∂l(θM LE ) X ∂ n i=1 ∂θ∂θ 0
= =
∂θ∂θ0 i=1
∂θ∂θ0 n
P
~ i ))
∂log(fθ0 (Yi , X
⇒ E[ 0 ]
∂θ∂θ
Mais explicitamente:
~ i ))
∂log(fθ0 (Yi , X ∂gθ (Yi , X~ i)
I(θ0 ) = E[ 0 ] = E[ 0 ] (89)
∂θ∂θ ∂θ∂θ
118
afirma que qualquer estimador que funcione por máxima-verossimilhança tem,
como variância mı́nima, o inverso da sua matriz de Fisher:
∂l(θM LE )
∂l(θ∗ ) ∂θ − ∂l(θ
∂θ
0)
=
∂θ∂θ0 θM LE − θ0
− ∂l(θ
∂θ
0)
=
θM LE − θ0
−1
∂l(θ∗ ) ∂l(θ0 )
⇐⇒ θM LE − θ0 =
∂θ∂θ0 ∂θ
Primeiramente, notemos:
Pn ~ i)
∂l(θ∗ ) ∂ i=1 gθ∗ (Yi , X
0 = 0
∂θ∂θ ∂θ∂θ
n ~ i)
X ∂gθ∗ (Yi , X
= 0
i=1
∂θ∂θ
n ~
X ∂ log(fθ∗ (Yi ,Xi ))
n
=
i=1
∂θ∂θ0
Pn ~i ))
∂log(fθ∗ (Yi ,X
i=1 ∂θ∂θ 0
=
n
P
~ i ))
∂log(fθ0 (Yi , X
⇒ E[ 0 ] = I(θ0 )
∂θ∂θ
119
Então, isto converge, no assintótico, exatamente para a matriz de in-
formação de Fisher. Isto já é um resultado notável por si só. No entanto, quer-se,
ainda, encontrar uma outra forma de escrever este resultado. Prepara-se, pois
a conta é imensa.
Pn ~ ))
∂fθ ∗ (Yi ,X
1 i
∗ ∂l(θ ∗ ) i=1 (f ∗ (Y ,X
i
~ )
i
∂θ
∂l(θ ) ∂θ ∂( θ
n )
= =
∂θ∂θ0 ∂θ0 ∂θ0
f ∗ ~ ) ~ )) ∂f ∗ (Y ,X~ ))
θ (Yi ,X ∂fθ ∗ (Yi ,X
Pn 0
i ~i ))−
(fθ∗ (Yi ,X i θ i
0
i
∂θ∂θ ∂θ ∂θ
i=1 f 2∗ ~ )
θ (Yi ,Xi
=
n
fθ ~i )) ∂fθ (Yi ,X
∂fθ0 (Yi ,X ~i ))
~
0 (Yi ,Xi )
0
~
(fθ0 (Yi , Xi )) − 0
P ∂θ∂θ ∂θ ∂θ 0
⇒ E[ ]
fθ0 (Yi , X~ i )2
~i )
fθ0 (Yi ,X ∂fθ (Yi ,X~i )) ∂fθ (Yi ,X~i ))
0 0
∂θ∂θ 0 ∂θ ∂θ 0
= E[ ] − E[ ]
~ i)
fθ0 (Yi , X ~ i )2
fθ0 (Yi , X
Z ∞ Z ∞ fθ0 (Yi ,X~i ) ∂fθ0 (Yi ,X~i )) ∂fθ (Yi ,X
0
~i ))
∂θ∂θ 0 ~ i ) − E[ ∂θ ∂θ 0
= fθ0 (Yi , X ]
−∞ −∞ ~ i)
fθ0 (Yi , X fθ0 (Yi , X ~ i )2
~i )) ∂fθ (Yi ,X
∂fθ0 (Yi ,X ~i ))
Z ∞ Z ∞ ~ i) 0
fθ0 (Yi , X ∂θ ∂θ 0
= 0 − E[ ]
−∞ −∞ ∂θ∂θ fθ0 (Yi , X~ i )2
R∞ R∞ ∂fθ (Yi ,X~i )) ∂fθ (Yi ,X ~i ))
~ i)
fθ0 (Yi , X 0 0
−∞ −∞ ∂θ ∂θ 0
= 0 − E[ ]
∂θ∂θ ~ i )2
fθ0 (Yi , X
~i )) ∂fθ (Yi ,X
∂fθ0 (Yi ,X ~i ))
0
∂1 ∂θ ∂θ 0
= − E[ ]
∂θ∂θ0 fθ0 (Yi , X~ i )2
∂fθ0 ~i )) ∂fθ (Yi ,X
(Yi ,X ~i ))
0
0
∂θ ∂θ
= −E[ ]
fθ0 (Yi , X~ i )2
~ i ) ∂gθ (Yi , X
∂gθ (Yi , X ~ i)
= −E[ 0 ]
∂θ ∂θ
0
~ i ) ∂gθ (Yi , X
∂gθ (Yi , X ~ i)
= −E[ ]
∂θ ∂θ
∂l(θ ∗ ) P ~i ))
∂log(fθ0 (Yi ,X ~
1- ∂θ∂θ 0
⇒ E[ ∂θ∂θ 0
] = E[ ∂gθ∂θ∂θ
(Yi ,Xi )
0 ] = I(θ0 )
0
∂l(θ ∗ ) P ~ ~
2- ∂θ∂θ 0
⇒ −E[ ∂gθ (Y
∂θ
i ,Xi ) ∂gθ (Yi ,Xi )
∂θ ]
120
De 1 e 2, vem que:
Pn Pn ~i ))
log(fθ (Yi ,X
√ ∂l(θ0 ) √ ∂ ~ √ ∂
i=1 gθ (Yi , Xi )n i=1 n
n = n = n
∂θ ∂θ ∂θ
Pn ~i ))
log(fθ (Yi ,X
√ i=1 ∂ ∂θ
= n
n
P
~ i ))
log(fθ (Yi , X ~ i ))
log(fθ (Yi , X
⇒ N (E[∂ ], V ar(∂ ))
∂θ ∂θ
~ i )) Z ∞Z ∞ ~ i ))
log(fθ (Yi , X log(fθ (Yi , X ~ i)
E[∂ ]= ∂ fθ0 (Yi , X
∂θ −∞ −∞ ∂θ
Z ∞Z ∞ ~ i)
1 ∂fθ0 (Yi , X ~ i)
= fθ0 (Yi , X
~
−∞ −∞ fθ0 (Yi , Xi ) ∂θ
Z ∞Z ∞ ~ i)
∂fθ0 (Yi , X
=
−∞ −∞ ∂θ
R∞ R∞
∂ ~ i)
fθ0 (Yi , X ∂1
= −∞ −∞ = =0
∂θ ∂θ
E, no caso da variância:
~ i ))
log(fθ (Yi , X gθ (Yi , X~ i)
V ar(∂ ) = V ar(∂ )
∂θ ∂θ
0
~ i ) ∂gθ (Yi , X
∂gθ (Yi , X ~ i)
= E[ ]
∂θ ∂θ
= −I(θ0 )
121
√ D
n(θM LE − θ0 ) ⇒ I(θ0 )−1 N (0, I(θ0 )) = N (0, I(θ0 )−1 )
Funções caracterı́sticas
Z ≡ c1 X1 + c2 X2 · · · + cn Xn
18 FORTEMENTE recomendo o vı́deo do 3b1b sobre o assunto:
https://www.youtube.com/watch?v=spUNpyF58BY
122
Ao aplicar a transformada de Fourier:
Z +∞ Z +∞ Z +∞
φZ (t) = E[eit(c1 X1 +c2 X2 ···+cn Xn )] = ··· eit(c1 x1 +c2 x2 ···+cn xn ) f (x1 , x2 . . . xn )dx1 dx2 . . . dxn
−∞ −∞ −∞
Z +∞ Z +∞ Z +∞
= ··· eitc1 x1 eitc2 x2 . . . eitcn xn f (x1 )f (x2 ) . . . f (xn )dx1 dx2 . . . dxn
−∞ −∞ −∞
Z +∞ Z +∞ Z +∞
= eitc1 x1 dx1 eitc2 x2 dx2 · · · eitcn xn dxn
−∞ −∞ −∞
= φc1 X1 (t)φc2 X2 (t) . . . φcn Xn (t)
ec1 itµ− 2
Note que isto é uma equação única: somente a normal possui esta
função caracterı́stica. Nesta, há que µ e σ 2 são os parâmetros da normal. O que
seria, então, a soma de variáveis aleatórias independentes? Ora, vamos definir
que:
19
19 Eu não sei exatamente qual é a história disso, mas me parece que o caminho ”cronológico”
deve ter sido algo como: percebeu-se que a soma de normais independentes possuı́a uma
fórmula fechada, a qual chamaram de ”Qui-quadrada”. Aqui, por didatismo, realizamos o
caminho ”contrário”: primeiro deixamos a PDF explcı́ta para depois provar as propriedades
123
Primeiramente, define-se o que é uma distribuição qui-quadrada, por
meio de sua pdf:
n x
fX (x) = cx 2 −1 e 2
1
c≡
2n/2 Γ(n/2)
Z +∞
Γ(z) = xz−1 e( −x)dx
0
Com isso definido, prova-se dois lemas a partir dos quais se torna óbvio
nossa proprosição principal.
Pk
− i=1 ki
φZ1 (t)φZ2 (t) . . . φZk (t) = (1 − 2it) 2
FX (x) = P (X ≤ x)
= P (Z 2 ≤ x)
√ √
= P (− x ≤ Z ≤ x)
Z +√x
1 1 2
= √ p e2z
− x (2π)
124
A partir daqui, queremos chegar na função densidade de probabili-
dade e, esperamos, provar que é a mesma da Qui-Quadrada. Então, usando o
teorema fundamental do cálculo, realizamos a derivada de Fx (X). Vou deixar
claro o processo, mas omitir os cálculos. Tome fz como a função densidade de
probabilidade de uma normal.
R +√x 1 2
d( √
− x
√1 e2z )
dFX (x) (2π)
=
dx dx
d(x1/2 ) d(x−1/2 )
= fz (x 1/2
) − fz (x−1/2 )
dx dx
1 1
= x−1/2 e− 2 x
21/2 π 1/2
Daı́, notemos o seguinte: Γ(1/2) = sqrtπ. Para ver isso, que omitirei
aqui, basta fazer por mudança de variável, colocando x = u2 . Desta forma,
conseguimos concluir que:
1 1 1 1
x( − 1/2)e− 2 x = x( − 1/2)e− 2 x
21/2 π 1/2 21/2 Γ(1/2)
E isto é exatamente a PDF de uma qui-quadrada, conforme definida. Então, de
fato, a PDF de uma normal ao quadrado é a PDF de uma qui-quadrada com
um grau de liberdade.
AA = A
125
A = A−1 A = I
Para isso, provemos um lemma: o traço de uma matriz é igual à soma dos
seus autovalores.
A = P −1 DP , com D diagonal.
Ocorre que, embora eu não vá provar isto aqui, a matriz D possui o
mesmo traço e os mesmos autovalores de A. Assim, obviamente, a soma dos
autovalores é o traço de A, pois este é o traço de D.
126
Ou seja, a matriz de Jordan e a matriz ”jornalizada” possuem o mesmo
traço. A propriedade ”comutativa” usada acima é fácil de derivar.
Ora, no enunciado, afirma-se que A, uma matriz positiva definida, possui in-
versa.
y T A−1 y = xT AT A−1 Ax = xT AT x = xT Ax
127