Você está na página 1de 23

Notas de Aula 6 – Modelos de Regressão

Estatı́stica
Curso Cecı́lia Menon
Regressão Linear (Parte 1/2)

1 Regressão Linear Simples


1.1 Introdução
Uma regressão pode ser definida como:
“A análise de regressão diz respeito ao estudo da dependência de uma variável, a
variável dependente, em relação a uma ou mais variáveis, as variáveis explanatórias,
visando estimar e/ou prever o valor médio (da população) da primeira em termos
dos valores conhecidos ou fixados (em amostragens repetidas) das segundas.” (Gu-
jarati e Porter, 5a edição, pag. 39).

O objetivo da análise de regressão é estabelecer uma reta que melhor descreva uma relação
linear entre variáveis.

Por exemplo, sabe-se que em geral quanto mais alto é um indivı́duo, mais pesado ele será,
na média. Portanto, o peso aumenta com a altura. Se tomarmos 20 alturas diferentes, e
aleatoriamente escolhermos um indivı́duo de cada uma dessas alturas, teremos uma relação
crescente.

Suponha duas variáveis, y, a variável dependente, e x, a variável independente (por exemplo,


consumo e renda), relacionadas de maneira linear :

y = β1 + β2 x .

O modelo estatı́stico que se relaciona com o modelo acima é:

yi = β1 + β2 xi + ε ,

onde ε é chamado erro e o subscrito i denota a observação i das variáveis y e x, de um total


de n observações (i = 1, 2, . . . , n).

O conteúdo do modelo está principalmente nas hipóteses que fazemos sobre o termo erro
(também chamado distúrbio). Uma hipótese comum é:

E[εi | x1 , . . . , xn ] = 0

ou seja, dado x = x1 , . . . , xn , o erro ε tem valor esperado zero. Note que isto implica:

E[yi | x] = E[β1 + β2 xi + εi | x] = β1 + β2 xi .

Logo,
yi = E[yi | x] + εi ,
ou seja, no modelo estatı́stico, não temos mais uma relação linear entre y e x e sim uma relação
linear entre o valor esperado E[yi | x] e xi .

1
Exemplo 1: Considere os dados coletados sobre peso e altura de um grupo de indivı́duos,
descritos na Tabela 1 abaixo.

Tabela 1: Dados de Peso e Altura

Indivı́duo Altura (metros) Peso (Kg)


1 1,50 45
2 1,53 45
3 1,55 55
4 1,56 60
5 1,60 58
6 1,62 75
7 1,65 73
8 1,67 50
9 1,69 67
10 1,70 75
11 1,71 67
12 1,75 80
13 1,77 82
14 1,80 70
15 1,83 79
16 1,84 87
17 1,90 100
18 1,94 155
19 2,03 110
20 2,04 105

Digamos que uma boa descrição da relação entre peso e altura dos indivı́duos seja a seguinte:
Peso = 100 × Altura − 100.

Trata-se de uma relação linear que pode ser representada como uma reta. Esta reta é uma
descrição aproximada dessa relação, ou seja, um indivı́duo que tenha 2 metros de altura, na
média vai ter 100 kg de peso.
Embora nossa relação estabeleça que um indivı́duo de 2 metros de altura terá 100 quilos, é
pouco provável que ao selecionarmos aleatoriamente uma pessoa com 2 metros de altura, ela
tenha exatamente 100 quilos. Digamos que uma pessoa de 2 metros é selecionada ao acaso, e
verifica-se que ela tem 107 quilos. Essa diferença de 7 quilos entre o valor observado na amostra
e o valor predito pela equação é conhecido como “erro”.
Graficamente, o erro é a distância vertical entre cada um dos pontos (que representam as
observações que compõem a amostra) e a reta. Portanto, para cada reta que traçarmos no
diagrama de dispersão dos dados, teremos um conjunto diferente de erros.
O objetivo da análise de regressão é então escolher a melhor reta, dentre todas as retas possı́veis.
Mas como definir o critério de “melhor”? Existem vários critérios possı́veis. O método da
regressão linear utiliza o critério dos mı́nimos quadrados ordinários. Ou seja, a reta escolhida
é a que minimiza a soma dos quadrados dos erros.
Porque não minimizar a soma dos erros, sem elevá-los ao quadrado? O problema é que como
alguns erros são positivos e outros negativos, esse não seria um bom critério, porque os erros
poderiam se anular.

2
Além disso, a minimização da soma dos quadrados leva em consideração os tamanhos de cada
erro, dando peso maior às observações mais distantes da reta estimada, no processo de mini-
mização.

Queremos então estimar a seguinte reta:

y i = β 1 + β 2 xi + εi , i = 1, . . . , n ,

onde a terminologia usada é:

• n: número de observações ou tamanho da amostra, em que o subscrito i denota a i-ésima


observação, para i = 1, 2, . . . , n.

• yi : variável dependente, regressando, variável explicada, variável endógena;

• xi : variável independente, regressor, variável explicativa, variável exógena;

• β1 + β2 x: reta de regressão da população ou função de regressão da população;

• β1 : intercepto da reta de regressão da população;

• β2 : inclinação (ou declividade) da reta de regressão da população;

• εi : erro ou distúrbio.

No Exemplo 1 acima, yi representa o peso e xi a altura multiplicada por 100. Nesse exemplo
não vamos impor que a constante seja 100 e sim estimá-la.

Os parâmetros β1 e β2 definem a reta de regressão. Portanto, obter estimativas desses parâmetros


significa estimar a reta de regressão populacional. Para o Exemplo 1 acima, temos 20 ob-
servações para o peso (y1 , y2 , . . . , y20 ), e 20 observações para a altura (x1 , x2 , . . . , x20 ).

Denote as estimativas para β1 e β2 por, respectivamente, β̂1 e β̂2 . Então, para cada valor
observado xi , temos um valor predito ŷi = β̂1 + β̂2 xi . O resı́duo ei = ε̂i é a diferença entre o
valor observado yi e o valor predito ŷi para a variável independente, ou seja:

ei = yi − ŷi = yi − (β̂1 + β̂2 xi ) ,

onde o resı́duo ei é o erro associado à observação i.

A questão é que estatı́sticas β̂1 e β̂2 usamos para estimar os parâmetros populacionais β1 e β2 . O
método do mı́nimos quadrados ordinários (MQO) obtém estimadores para β1 e β2 minimizando
a soma dos erros quadrados. Portanto, devemos resolver o seguinte problema de otimização:
n
X
min (yi − (b1 + b2 xi ))2
b1 ,b2
i=1

As condições de primeira ordem (CPOs) para um ponto ótimo resultam em:


n
X
(b1 ) : − 2 (yi − β̂1 − β̂2 xi ) = 0
i=1
n
X
(b2 ) : − 2 (yi − β̂1 − β̂2 xi )xi = 0
i=1

3
Obtemos então as seguintes equações, chamadas equações normais:
X n n
X
yi = nβ̂1 + β̂2 xi
i=1 i=1
n
X n
X n
X
yi xi = β̂1 xi + β̂2 x2i
i=1 i=1 i=1
Resolvendo as equações normais acima, encontramos as seguintes expressões para as estimativas
β̂1 e β̂2 : Pn
(x − x̄)(yi − ȳ)
β̂1 = ȳ − β̂2 x̄ e Pn i
β̂2 = i=1 2
,
i=1 (xi − x̄)
onde ȳ = (1/n) ni=1 yi e x̄ = (1/n) ni=1 xi denotam as médias amostrais de y1 , . . . , yn e
P P
x1 , . . . , xn , respectivamente.
Chamamos β̂1 e β̂2 de estimadores de mı́nimos quadrados ordinários (MQO) dos parâmetros
β1 e β2 , respectivamente. Os estimadores de MQO geram a “melhor ” reta de regressão, no
sentido de ser a reta cuja soma dos erros quadrados é mı́nima. Observe que estimadores são
estatı́sticas, ou seja, funções da amostra aleatória observada para as variáveis consideradas.
Continuando o exemplo acima, obtemos a seguinte tabela:

Tabela 2: Calculando a Regressão

Obs. yi xi yi − ȳ xi − x̄ (yi − ȳ)(xi − x̄) (xi − x̄)2


1 45 150 -31,9 -23,4 746,46 547,56
2 45 153 -31,9 -20,4 650,76 426,16
3 55 155 -21,9 -18,4 402,96 338,56
4 60 156 -16,9 -17,4 294,06 302,76
5 58 160 -18,9 -13,4 253,26 179,56
6 75 162 -1,9 -11,4 21,66 129,96
7 73 165 -3,9 -8,4 32,76 70,56
8 50 167 -26,9 -6,4 172,16 40,96
9 67 169 -9,9 -4,4 43,56 19,36
10 75 170 -1,9 -3,4 6,46 11,56
11 67 171 -9,9 -2,4 23,76 5,76
12 80 175 3,1 1,6 4,96 2,56
13 82 177 5,1 3,6 18,36 12,96
14 70 180 -6,9 6,6 -45,54 43,56
15 79 183 2,1 9,6 20,16 92,16
16 87 184 10,1 10,6 107,06 112,36
17 100 190 23,1 16,6 383,46 275,56
18 155 194 78,1 20,6 1608,86 424,36
19 110 203 33,1 29,6 979,76 876,16
20 105 204 28,1 30,6 859,86 936,36
Média: 76,9 173,4 Soma: 6.584,80 4.838,80

Logo, temos que:


P20
(xi − x̄)(yi − ȳ) 6.584,80
β̂2 = i=1
P20 = = 1,36
i=1 (x i − x̄)2 4.838,80
β̂1 = ȳ − β̂1 x̄ = 76,9 − 1,36 × 173,4 = −159,07

4
Portanto, a reta estimada é:

Peso = −159,07 + 1,36 × (100.Altura)

Ressaltando uma vez mais, os estimadores de MQO são estatı́sticas, ou seja, funções da amostra
aleatória. Logo, são variáveis aleatórias que assumem valores diferentes para amostras dife-
rentes. Já as estimativas β̂1 = −159,07 e β̂2 = 1,36 são os valores que os estimadores assumem
para uma dada amostra aleatória observada. Como de costume, se usa a notação β̂i tanto para
denotar os estimadores como as estimativas de βi .

1.2 Indicadores de Ajustamento da Regressão


Podemos dividir a variação total de y em uma parte explicada pela regressão e outra não
explicada (porque os pontos estão fora da reta estimada). A regressão será tanto melhor
quanto maior for a parcela da variação total de y que é explicada pela regressão.

Em nosso exemplo peso versus altura, sabemos que uma parte da variação observada no peso
das pessoas se deve à sua altura. Entretanto, a altura não é a única variável que explica o
peso de um indivı́duo. Há uma série de outras variáveis que explicam o peso, mas que não
foram incluı́das na regressão. Por exemplo, a ingestão de calorias diárias; a quantidade de
calorias queimadas diariamente em exercı́cios fı́sicos; o sexo, uma vez que em geral homens
pesam mais que mulheres da mesma altura; a velocidade do metabolismo determinada pela
genética, etc. Todas essas variáveis que afetam o peso mas que não estão incluı́das na regressão
estão consolidadas no termo erro. Elas são responsáveis por uma parcela da variação em y que
não é explicada pela regressão.

Definição: Coeficiente de Determinação (R2 ). O coeficiente de determinação, denotado


por R2 , captura a proporção da variação de y que é explicada pela regressão. Seus valores
variam de zero (caso em que a regressão não explica nada) a um (caso em que todas as
observações situam-se sobre a reta de regressão, e 100% da variação em Y é explicada pela
regressão).

1.3 Testes de Hipóteses


Existem dois tipos básicos de testes que são feitos para regressões: testes individuais e testes
conjuntos. O primeiro usa a distribuição t de Student. O segundo, a distribuição F .

Testes Individuais

Com frequência, em problemas envolvendo regressões lineares queremos saber se uma variável
afeta significativamente o comportamento de outra. Por exemplo, queremos saber se a altura de
um indivı́duo é uma variável estatisticamente relevante para se explicar o peso desse indivı́duo.
Dito de outra forma, queremos saber se o coeficiente estimado para essa variável (o termo β2 )
é significativamente diferente de zero.

Para responder a essa questão, realizamos um teste de significância de β2 . Testamos a hipótese


nula de que β2 = 0, contra a alternativa de que β2 é diferente de zero. Se β2 = 0, então a
variável altura não é útil estatisticamente para explicar o comportamento do peso. Se, por
outro lado, β2 for diferente de zero, então variações de altura ajudam a explicar variações de
peso. Logo, testes de significância estatı́stica podem ser colocados do seguinte modo:

H0 : βi = 0 vs. H1 : βi 6= 0 .

5
Evidentemente, o teste exige que hipóteses sejam feitas sobre o comportamento dos erros ε.
Para amostras pequenas, isso é fundamental. No caso de amostras grandes, o Teorema Central
do Limite permite supor hipóteses mais fracas sobre a distribuição do erro ε.

O procedimento do teste segue o padrão de testes de hipóteses: fixa-se um nı́vel de significância


α, computa-se uma estatı́stica do teste, compara-se essa estatı́stica com o valor crı́tico, definido
pelas hipóteses feitas sobre a distribuição do erro e pelo nı́vel de significância adotado. Se o
valor da estatı́stica do teste for menor em valor absoluto do que o valor crı́tico, aceita-se a
hipótese nula e o parâmetro estimado não é significante para a amostra observada, ao nı́vel de
sigificância adotado. Caso contrário, aceita-se a hipótese alternativa.

Evidentemente, o teste pode ser feito de modo unicaudal, ou a decisão pode ser tomada em
termos de p-valores ou de intervalos de confiança, de modo similar ao que vimos anteriormente.

Testes Conjuntos

Neste tipo de teste, queremos testar uma hipótese conjunta sobre os betas. Usualmente, o
seguinte teste de hipóteses é realizado:

H0 : β1 = β2 = 0 vs. H1 : β1 6= 0 e/ou β2 6= 0

O teste acima é diferente de testar separadamente se β1 e β2 são significantes. Logo, pode


ocorrer de encontrarmos que os dois parâmetros são significantes em testes individuais, mas
não em um teste conjunto.

EXERCÍCIOS ANPEC

RESOLVER: QUESTÃO 6, EXAME 2017; QUESTÃO 1, EXAME 2014.

6
2 O Modelo de Regressão Linear Múltiplo
2.1 Modelo
O modelo de regressão múltipla estende o modelo de regressão simples, permitindo que mais
de uma variável independente seja considerada. Vamos supor que temos os seguintes dados:

yi , xi1 , xi2 , . . . , xiK , i = 1, 2, . . . , n .

O modelo de regressão linear múltipla toma a seguinte forma:

yi = β1 xi1 + β2 xi2 + · · · + βK xiK + εi , i = 1, . . . , n .

Dizemos que y é a variável dependente, xj é a j-ésima variável independente, de um total


de K variáveis independentes. O subscrito i denota a i-ésima observação, de um total de n
observações. O termo ε é chamado erro ou distúrbio.

Podemos representar a função de regressão acima em termos matriciais:

y = Xβ + ε ,

em que:
         
y1 x11 x12 · · · x1K x01 β1 ε1
 y2   x21 x22 · · · x2K   x02   β2   ε2 
y =  .. , X= = , β= , ε=
         
 .. .. .. .. ..  ..  .. 
 .   . . . .   .   .   . 
yn n×1
xn1 xn2 · · · xnK x0n n×K
βK K×1
εn n×1

Logo, para cada observação i, temos que:

yi = x0i β + εi , i = 1, 2, . . . , n .

Observe que estamos denotando vetores coluna em caixa baixa e em negrito e matrizes em
caixa alta e em negrito. Além disso, estamos denotando por xi , i = 1, . . . , n, o vetor coluna de
tamanho K, relacionado à observação i. Logo, a sua transposta é:

x0i = xi1 xi2 · · · xiK .


 

O modelo de regressão linear clássico assume uma série de hipóteses. Vamos listar essas
hipóteses de modo conciso e discuti-las individualmente com mais detalhe abaixo, explicando
a notação adotada. O objetivo é estimar e realizar inferências estatı́sticas sobre o vetor de
parâmetros β.

Hipóteses do modelo MQO:


MQO1: Linearidade.

MQO2: Rank(X) = K.

MQO3: E(ε | X) = 0.

MQO4: Ω = E(εε0 | X) = σ 2 I.

MQO5: ε | X ∼ N (0, Ω).

7
2.2 Hipóteses
A primeira hipótese é a de linearidade. Ela pode ser descrita do modo abaixo.

Hipótese MQO1: Linearidade. A relação entre a variável dependente e os regressores é


linear:
yi = β1 xi1 + β2 xi2 + · · · + βK xiK + εi , i = 1, . . . , n , (1)
| {z }
função de regressão

tal que βk , k = 1, . . . , K, são parâmetros a serem estimados e εi é o erro não-observável com


certas propriedades a serem especificadas. Note que podemos incluir o intercepto fazendo com
que xi1 = 1 para toda observação i.

Logo, o modelo deve ser linear ou possı́vel de ser linearizado. Por exemplo, para y = Axβ eε , se
aplicarmos logaritmos, obtemos que ln(y) = ln(A) + β ln(x) + ε. Este é um modelo log-linear.

Exemplo 2 (Equação de Salário). Uma versão de uma equação de salário é a seguinte:


ln(Salarioi ) = β0 + β1 Edui + β2 Idadei + β3 M ulheri + εi ,
em que Edui representa o número de anos de estudo do indivı́duo i, Idadei é a idade do
indivı́duo i em anos e M ulheri é uma variável dummy igual a 1 se o indivı́duo i for do sexo
feminino e igual a 0 se for do sexo masculino. Dizemos que essa equação é semi-log. A equação
é derivada da seguinte relação entre o nı́vel salarial e os regressores:
Salarioi = exp(β0 ) exp(β1 Edui ) exp(β2 Idadei ) exp(β3 M ulheri ) exp(εi )
Os coeficientes na forma semi-log são interpretados como mudanças percentuais, não mudanças
em nı́veis.

No Exemplo 2 acima, vemos que certas formas de não-linearidades podem ser implementadas
em um modelo linear. Por exemplo, suponha que o efeito marginal da educação sobre o salário
aumenta mais que proporcionalmente à medida que a educação fica maior. Isto pode ser
capturado incluindo um regressor Edu2 na equação de salário, por meio de β4 Edu2i . Desse
modo, o efeito marginal da educação no salário em log será:
∂ ln(Salario)
= β2 + 2β4 Edu
∂Edu

Portanto, a hipótese de linearidade admite especificações bem gerais, em que o crucial é manter
a linearidade da equação com relação aos parâmetros a serem estimados.

Além disso, o modelo permite diversos tipos de regressores: que variam de modo contı́nuo, que
variam de modo discreto, ou que assumem um valor binário, como uma variável dummy, que
será igual a 1 se a observação tiver determinada caracterı́stica, zero caso contrário.

Hipótese MQO2: Ausência de Perfeita Multicolinearidade. O rank da matriz de dados


n × k, X, é k com probabilidade 1.

Para a hipótese MQO2 ser satisfeita, devemos ter: 1) pelo menos n = k observações, e 2) as
colunas de X devem ser linearmente independentes. Portanto, nenhuma variável independente
pode ser escrita de modo linear como uma combinação de outras variáveis independentes.

A hipótese MQO2 permite a identificação de β. Se o rank da matriz X for menor do que k,


isso significa que existe um vetor c ∈ Rk tal que Xc = 0. Mas isso implica que se y = Xβ + ε,
então y = X(β + c) + ε e até mesmo que y = X(β + rc) + ε, para toda constante r ∈ R.

8
Quando perfeita multicolinearidade ocorre, temos um modelo mal especificado. Muitas vezes
devemos reformular o modelo de modo que permita estimar uma função linear dos parâmetros.

Exemplo (Greene, Example 6.6). Em um modelo com duas variáveis e uma constante,
a hipótese MQO2 equivale à existência de alguma variação no regressor x. A falha desta
hipótese não necessariamente invalida o modelo, pode ser apenas um problema dos dados. Ou
seja, poderı́amos ter obtido uma amostra com variação em x, mas este não foi o caso. O modelo
então ainda é válido, porém os dados que temos não ajudam a estimá-lo.

Hipótese MQO3: Exogeneidade Estrita. Vamos supor que:

E(εi | X) = 0 para todo i = 1, . . . , n . (2)

A expectativa é condicional nos regressores para todas as observações.

A hipótese MQO3 é crucial para o modelo. Ela significa que as variáveis independentes não
carregam nenhuma informação útil para predizer ε. Note que sempre é possı́vel escrever yi =
x0i β + εi , bastando fazer εi = yi − x0i β.

A hipótese MQO3 tem como consequência que:


1. E(εi ) = 0, para i = 1, . . . , n.

2. E(εi | xj ) = 0, para i, j = 1, . . . , n.

3. Cov(εi , xj ) = 0, para i, j = 1, . . . , n.

4. E(y | X) = Xβ.

Estas implicações são todas consequências da Lei da Expectativa Iterada. Por exemplo,

E(εi ) = E [E(εi | X)] = E(0) = 0 .

Casos tı́picos em que MQO3 é violada são:


• Erro de mensuração em X,

• X contém variáveis “defasadas”,

• y e X são simultaneamente determinados (por exemplo, preço e quantidade em modelos


de equações simultâneas de demanda e oferta),

• Forma funcional errada,

• Variáveis omitidas.

Se o momento E(xy) de duas variáveis aleatórias x e y for zero, então dizemos que x é ortogonal
à y. Sob exogeneidade estrita os regressores são ortogonais ao termo de erro para todas as
observações, i.e.,
E(xjk εi ) = 0 i, j = 1, . . . , n; k = 1, . . . , K
ou  
E(xj1 εi )
 E(xj2 εi ) 
E(xj εi ) =   = 0
 
..
 . 
E(xjK εi )

9
Como a média do termo de erro é zero, as condições de ortogonalidade são equivalentes a
condições de correlação zero, já que:
Cov(εi , xjk ) = E(xjk εi ) − E(xjk )E(εi ) = E(xjk εi ) = 0 .

Hipótese MQO4: Variância do Erro Esférica. Suponha que:


Ω = E(εε0 | X) = σ 2 I ,
onde In×n é a matriz identidade de dimensão n.

Esta hipótese limita a generalidade do modelo. Observe que o elemento (i, j) da matriz εε0
(n × n) é εi εj . A hipótese MQO4 pode então ser dividida em duas partes:
1. Homocedasticidade (variância do termo erro constante):
E(ε2i | X) = σ 2 > 0 i = 1, . . . , n . (3)

2. Não autocorrelação entre observações:


E(εi εj | X) = 0 i, j = 1, . . . , n; i 6= j . (4)

A hipótese de homocedasticidade diz que o segundo momento condicional é uma constante


para todo termo erro εi . Pela definição da variância condicional:
Var (εi | X) = E ε2i | X − E (εi | X)2


A hipótese de exogeneidade estrita (MQO3), E(εi |X) = 0, implica que:


Var (εi |X) = E ε2i |X


Note que a hipótese de não-correlação entre observações é equivalente a:


Cov(εi , εj | X) = 0 i, j = 1, . . . , n; i 6= j.
i.e., na distribuição conjunta de (εi , εj ) condicional a X, a covariância entre estes termos é zero.

Finalmente, temos que a variância incondicional do termo erro é:


Var(ε) = E [Var (ε | X)] + Var [E (ε | X)] = E σ 2 I | X = σ 2 I .
 

Hipótese MQO5: Normalidade. Vamos supor que:


ε | X ∼ N (0, Ω) .

A hipótese MQO5 é útil para inferência estatı́stica, como veremos mais à frente.

Observação: Uma outra hipótese utilizada em livros e na ANPEC é assumir que os regressores
xk são não estocásticos ou determinı́sticos (ou seja, fixos). Se este for o caso, então as hipóteses
MQO3, MQO4 e MQO5 podem ser escritas sem “condicionar em X”. Apesar de essa hipótese
facilitar a notação, ela é problemática em alguns casos. Por exemplo, perde-se de vista a
possibilidade de o termo erro ser correlacionado com os regressores, o que pode trazer problemas
para o método MQO.

10
2.3 Derivação do Estimador MQO de β
Queremos estimar o vetor de parâmetros β. O método mais tradicional é dos mı́nimos qua-
drados ordinários que iremos analisar nesta subseção.

Embora não observemos o termo de erro podemos calcular o seu valor a partir de um valor
hipotético, b, de β como:
ei = yi − x0i b
Chamamos ei o resı́duo para a observação i. O vetor de resı́duos, avaliado em b e denotado
por e, é:
e = y − Xb,

A soma do quadrado dos resı́duos (SQR) é definida como:


n
X
SQR(b) = (yi − x0i b)2 = (y − Xb)0 (y − Xb)
i=1

O método dos mı́nimos quadrados ordinários (MQO), que resulta no estimador β̂, de β, é
o procedimento em que encontramos b que minimiza a soma dos quadrados dos resı́duos.
Podemos escrever a soma dos quadrados dos resı́duos como:

SQR(β̃) = (y − Xb)0 (y − Xb) = y0 y − 2y0 Xb + b0 X0 Xb .

Logo, o problema de minimizar a soma dos quadrados dos resı́duos pode ser reescrito como:

min y0 y − 2y0 Xb + b0 X0 Xb
b∈Rn

As CPOs em b desse problema resultam nas equações normais de MQO:

−2y0 X + 2X0 Xβ̂ = 0 ⇒ X0 Xβ̂ = X0 y

A hipótese MQO2 implica que a matriz de coeficientes X0 X é positiva definida e, portanto,


não singular. Nesse caso, as equações normais podem ser solucionadas para encontrar β̂. Pré-
multiplicando ambos os lados da equação à direita acima por (X0 X)−1 resulta em:

β̂ = (X0 X)−1 X0 y ,

onde (X0 X)−1 denota a matriz inversa de X0 X. Note que a condição de segunda ordem (CSO)
é satisfeita para um mı́nimo, já que a matriz 2X0 X é positiva definida.

Finalmente, temos que a regressão da população é E[yi | xi ] = x0i β. A estimativa de E[yi | xi ]


será denotada por ŷi , como veremos na subseção seguinte.

11
2.4 Algumas Definições e Resultados
O valor ajustado para a observação i (ou valor previsto), denotado por ŷi , é definido como:

ŷi = x0i β̂

Em termos vetoriais: ŷ = Xβ̂.

O resı́duo associado à observação i, denotado por ei , é a diferença do valor observado yi do seu


valor previsto ŷi : ei = yi − ŷi . O vetor de resı́duos, denotado por en×1 , é igual a y− ŷ = y−Xβ̂.

Pela definição do valor ajustado, vale que:

ei = yi − ŷi = yi − xi β̂ .

Logo, pelas definições acima, temos que:

yi = x0i β + εi e yi = x0i β̂ + ei

Observe que β é um vetor de parâmetros populacionais desconhecidos da distribuição de pro-


babilidade de y, que estimamos usando uma amostra aleatória. Temos então um problema de
inferência estatı́stica.

Voltando às equações normais:

X0 Xβ̂ − X0 y = 0 ⇒ X0 (y − Xβ̂) = 0 ⇒ X0 e = 0

Então para toda coluna xj da matriz X, temos que x0j e = 0. Assumindo que a regressão
inclui um termo constante, vale que:
1. A soma dos resı́duos da regressão MQO é 0 :
X
x01 e = 10 e = ei = 0 ,
i

onde 1 denota um vetor em que todas as n coordenadas são iguais a 1 (observe que esta
propriedade não será válida caso a regressão não inclua uma constante).

2. O item anterior implica que a reta de regressão passa pelos pontos médios dos dados:

ȳ = x̄0 β̂ ,
Pn
onde ȳ = (1/n) i=1 yi e x̄ é calculado de modo similar, onde agora temos um vetor.

3. O item anterior mostra que a média dos valores ajustados ŷ é igual à média dos valores
observados y:

ȳ = (1/n)10 y = (1/n)10 (X0 β̂ + e) = (1/n)10 X0 β̂ + (1/n)10 e = (1/n)10 X0 β̂ = ŷ¯ ,

já que (1/n)10 e = 0, pelo primeiro item.

Nenhum dos três resultados acima necessariamente será válido caso a regressão não inclua uma
constante.

12
Vamos definir as seguintes matrizes:
• A matriz de projeção P = X(X0 X)−1 X0 . P é simétrica (P = P0 ) e idempotente (P2 = P).
Se pré-multiplicarmos o vetor y pela matriz P , obtemos os valores previstos de y:
Py = X(X0 X)−1 X0 y = Xβ̂ = ŷ .
Além disso, PX = X.
• A matriz de resı́duos M = I − P. A matriz de resı́duos é simétrica e idempotente. Se
pré-multiplicarmos o vetor y pela matriz M, obtemos os resı́duos da regressão MQO de
y em X:
My = y − X(X0 X)−1 X0 y = y − ŷ = e .
Além disso, MX = 0.

Observe que o método de MQO particiona y em duas partes: 1) os valores ajustados ŷ e 2) os


resı́duos e. Como MX = 0, essas duas partes são ortogonais (ŷ0 e = 0). Além disso, temos que
MP = (I − P)P = P − P2 = P − P = 0. Evidentemente, vale também que PM = 0.
Usando uma vez mais as matrizes P e M e suas propriedades, obtemos que os vetores dos
valores ajustados ŷ e dos resı́duos e são ortogonais:
ŷ0 e = e0 ŷ = y0 MPy = 0 .

As definições das matrizes P e M implicam que:


y = Xβ̂ + e = Py + My .
Obtemos então uma interpretação geométrica para o método MQO: Py representa a projeção
de y sobre o subespaço linear gerado por X e My representa o resı́duo. A figura abaixo ilustra
graficamente essa decomposição.

Figura 1: Projeção

Usando novamente as propriedades das matrizes P e M vistas acima, obtemos:


Xn
yi2 = y0 y = (Py + My)0 (Py + My) = y0 P0 Py + y0 P0 My + y0 M0 Py + y0 M0 My
i=1
= y0 PPy + y0 PMy + y0 MPy + y0 MMy = y0 P0 Py + y0 M0 My = y
b0 y
b + e0 e
Xn n
X
2
= ŷi + e2i .
i=1 i=1

13
2.5 O Coeficiente de Determinação (R2 )
A matriz M0 = I − (1/n)110 de dimensão n × n é usada para transformar variáveis em desvios
da média. Essa matriz também é simétrica (M00 = M0 ) e idempotente (M0 2 = M0 ).

Por exemplo, é fácil observar que M0 y = y −P


ȳ, onde ȳ é o vetor n × 1 constante cujos todos
termos são iguais ao valor médio ȳ = (1/n) ni=1 yi . Vamos usar essa matriz nas definições
abaixo.

Definição. Vamos definir os seguintes conceitos:


• A soma dos quadrados total (SQT):
n
X
0
SQT = y M00 M0 y 0
= y M0 y = (yi − ȳ)2
i=1

• A soma dos quadrados explicados (SQE):


n
X
SQE = β̂ 0 X0 M00 M0 Xβ̂ = β̂ 0 X0 M 0 Xβ̂
0
= ŷ M0 ŷ = (ŷi − ȳ)2
i=1

• A soma dos quadrados dos resı́duos (SQR):


n
X
0
SQR = e M00 M0 e 0
= e M0 e = e e = 0
e2i ,
i=1

onde para a SQR usamos o fato de que o valor médio dos resı́duos é zero.

Observe que y = Xβ̂ + e = ŷ + e implica que:

M0 y = M0 Xβ̂ + M0 e = M0 ŷ + M0 e .

Definição: Coeficiente de Determinação (R2 ). O coeficiente de determinação R2 mede


quanto da variação de y é explicada pela variação nos regressores:
Pn
2 Variação em y explicada por X (ŷi − ȳ)2 SQE
R = = Pni=1 2
= .
Variação total em y i=1 (yi − ȳ) SQT

O coeficiente de determinação R2 pode ser definido de outro modo equivalente, usando a matriz
M0 definida acima e suas propriedades:

SQT = (M0 y)0 M0 y = (M0 ŷ + M0 e)0 (M0 ŷ + M0 e) = (ŷ0 M00 + e0 M00 )(M0 ŷ + M0 e)
= ŷ0 M0 0 M0 ŷ + ŷ0 M00 M0 e + e0 M00 M0 ŷ + e0 M00 M0 e = ŷ0 M0 ŷ + 2ŷ0 M0 e + e0 e
= ŷ0 M0 ŷ + e0 e = SQE + SQR ,

pois ŷ0 M0 e = e0 M0 ŷ = 0. Para ver isso, note que:


n
X n
X n
X n
X
0
ŷ M0 e = (ŷi − ȳ) ei = ŷi ei − ȳ ei = x0i β̂ei = y0 e = 0
i=1 i=1 i=1 i=1

14
Portanto, mostramos que SQT = SQE + SQR, ou seja, que:
n
X n
X n
X
2 2
(yi − ȳ) = (ŷi − ȳ) + e2i
i=1 i=1 i=1

A soma dos quadrados dos resı́duos (SQR) captura a parte da variação total de y que não é
explicada pela variação das variáveis independentes.

Dada esta decomposição, o R2 pode ser escrito também como:


Pn 2
e SQR
R = 1 − Pn i=1 i 2 = 1 −
2

i=1 (yi − ȳ) SQT

O coeficiente de determinação R2 está sempre em 0 e 1 e mede a proporção da variação total


na variável dependente y que é explicada pela variação nos regressores. Ele será igual a zero se
a regressão for uma linha horizontal. Ou seja, se todos os coeficientes, menos o da constante,
forem iguais a zero. Neste caso, o valor ajustado de y será sempre a sua média ȳ e variação nos
regressores não gera diferentes predições para y. No outro extremo, se R2 = 1, então os valores
de x e de y estão todos sobre a mesma reta de regressão, de modo que todos os resı́duos são
iguais a zero.

Se a regressão não contiver uma constante, então é possı́vel mostrar que R2 ≤ 1, mas
não que R2 ≥ 0 (ou seja, pode ocorrer neste caso que R2 seja negativo, se definirmos R2 como
1 − SQR/SQT).

Finalmente, para o caso de uma regressão simples, é possı́vel mostrar que o coeficiente de
determinação R2 é igual à correlação amostral elevada ao quadrado entre a variável dependente
y e a variável independente x e também igual à correlação amostral elevada ao quadrado entre
a variável observada y e a variável ajustada ŷ:
Pn Pn Pn
2 SQE i=1 (ŷi − ȳ)2 i=1 (β̂1 + β̂2 xi − β̂1 − β̂2 x̄)2 2 i=1 (xi − x̄)
2
R = = Pn 2
= P n 2
= β̂2 × Pn 2
SQT i=1 (yi − ȳ) i=1 (yi − ȳ) i=1 (yi − ȳ)
Pn 2 P n 2
i=1 (xi − x̄)(yi − ȳ) i=1 (xi − x̄)
= Pn 2
× P n 2
i=1 (xi − x̄) i=1 (yi − ȳ)
" #2
(1/n) ni=1 (xi − x̄)(yi − ȳ)
P
= p ,
(1/n) ni=1 (xi − x̄)2 (1/n) ni=1 (yi − ȳ)2
P p P

em que o último termo denota a correlação amostral entre x e y. Lembrando que:

ŷi − ȳ = (β̂1 + β̂2 xi − β̂1 − β̂2 x̄) = β̂2 (xi − x̄) ,

ou seja, (xi − x̄) = (ŷi − ȳ)/β̂2 , obtemos:


" Pn #2
(1/β̂2 )(1/n) (ŷ
i=1 i − ȳ)(y i − ȳ)
R2 =
(1/β̂2 ) (1/n) i=1 (yi − ȳ) (1/n) ni=1 (ŷi − ȳ)2
p Pn 2
p P
" #2
(1/n) ni=1 (ŷi − ȳ)(yi − ȳ)
P
= p ,
(1/n) ni=1 (ŷi − ȳ)2 (1/n) ni=1 (yi − ȳ)2
P p P

ou seja, a última igualdade significa que R2 é também igual à correlação entre a variável
observada y e o valor predito ŷ.

15
O R2 tem um problema: é possı́vel mostrar que toda vez que acrescentarmos um novo regressor
à reta de regressão, ele irá aumentar (ou permanecer o mesmo, mas nunca diminuir).

O R2 ajustado, denotado por R̄2 , adapta o coeficiente de determinação R2 de tal modo que ele
pode diminuir quando uma nova variável for incluı́da na regressão.

Definição: R2 ajustado. Lembrando que n denota o número de observações e K o número


de regressores, o R2 ajustado é definido como:

(1/(n − K)) ni=1 e2i


P
2
R̄ = 1 − .
(1/(n − 1)) ni=1 (yi − ȳ)2
P

O R2 ajustado pode diminuir quando um novo regressor é adicionado à reta de regressão. Mais
ainda, ele pode ser negativo em alguns casos. Para ver isso, observe que pela definição acima,
temos que R̄2 e R2 se relacionam do seguinte modo:
n−1
R̄2 = 1 − (1 − R2 )
n−K
Logo, se R2 = 0, então R̄2 = (1 − K)/(n − K), que será menor do que zero se n > K e K > 1.

Para que R̄2 aumente, o novo regressor deve trazer nova variação para explicar y de modo que
a redução na soma dos quadrados explicados compense a perda de grau de liberdade.

É possı́vel mostrar que o R̄2 irá aumentar (diminuir) quando adicionamos uma nova variável
se a razão t associada a esta variável for maior (menor) do que 1 . Uma crı́tica
comum ao R̄2 é que o ajustamento feito sobre R2 para punir a inclusão de novas variáveis é
arbitrário.

Observação: A fórmula do R2 descrita acima é adequada quando a regressão contém um


termo constante. Se este não for o caso, quando calcularmos:
Pn 2
e
R = 1 − Pn i=1 i 2 ,
2

i=1 (yi − ȳ)

os resultados são imprevisı́veis. Ele nunca será maior e pode ser muito menor do que o R2 da
mesma regressão, agora com o termo constante. Além disso ele pode ser negativo. Neste caso,
existem algumas alternativas ao R2 acima. Porém nenhuma delas é sem problemas.

16
2.6 Propriedades de Amostra Pequena
A proposição abaixo deriva uma série de resultados sobre o estimador MQO β̂. Para obter
esses resultados, vamos ter que supor que algumas das hipóteses estabelecidas acima sejam
válidas.

Proposição 1. Valem os seguintes resultados:


(a) (Ausência de Viés) Sob as hipóteses MQO1-MQO3, E(β̂ | X) = β e E(β̂) = β. Logo, o
estimador de MQO β̂ de β é não tendencioso.
Prova: Observe que:
E(β̂ | X) = E (X0 X)−1 X0 y | X = (X0 X)−1 X0 E (y | X)


= (X0 X)−1 X0 E (Xβ + ε | X)


= (X0 X)−1 X0 XE (β | X)
= β,

onde a primeira igualdade é consequência de MQO2 (identificação de β̂, a igualdade


da segunda linha é consequência da hipótese de linearidade (MQO1) e a igualdade da
terceira linha é consequência da hipótese de exogeneidade estrita (MQO3). Finalmente,
a lei das expectativas iteradas implica que:
E(β̂) = E(E(β̂ | X)) = E(β) = β .

(b) (Variância do estimador ) Sob


 as hipóteses MQO1-MQO4, vale também que Var(β̂ | X) =
2 0 −1 2 0 −1 
σ (X X) , Var(β̂) = σ E (X X) , e Cov(β̂, e | X) = 0.
Prova: Observe que:
  0    0 
0 −1 0 0 −1 0
Var(β̂ | X) = E β̂ − β β̂ − β | X = E (X X) X ε (X X) X ε | X
h i
−1 −1 −1 −1
= E (X X) X εε X (X X) | X = (X0 X) X0 E [εε0 | X] X (X0 X)
0 0 0 0

−1 −1 −1 −1 −1
= (X0 X) X0 σ 2 I X (X0 X) = σ 2 (X0 X) X0 X (X0 X) = σ 2 (X0 X)
 

onde a segunda igualdade é consequência de MQO2 (identificação de β̂, a primeira igual-


dade da terceira linha é consequência da hipótese MQO4. Observe que quanto maior for
a variância em X, menor será a variância do estimador de MQO β̂.
(c) Sob as hipóteses MQO1-MQO5, vale também que β̂ | X ∼ N (β, σ 2 (X0 X)−1 ).

Além disso, se valem MQO1-MQO5, é possı́vel mostrar que β̂ é o estimador de máxima ve-
rossimilhança de β e também é o estimador não tendencioso de menor variância de β (esse
resultado é mais forte do que o Teorema de Gauss-Markov, descrito abaixo, que assume apenas
MQO1-MQO4).

Considere um outro estimador linear não-viesado de β, dado por b b = Cy. Condicionando-se


com relação a X, temos que:
h i
E b b | X = E [Cy | X] = E [C (Xβ + ε) | X] = E [CXβ | X] + E [Cε | X]

= E [CXβ | X] + CE [ε | X] = CXβ + 0 = β ,

onde a última igualdade ocorre porque assumimos que b


b é um estimador não-viesado. Logo,
devemos ter que CX = I.

17
Existe uma classe grande de estimadores lineares não viesados de β. Um resultado fundamental
é que sob as hipóteses MQO1-MQO4, o estimador MQO β̂ é eficiente na classe de estimadores
lineares não-viesados. Isto é, para qualquer estimador não-viesado b linear em y, temos que:

Var(β̂ | X) ≤ Var(b | X) ,

no sentido matricial : a matriz Var(b | X) − Var(β̂ | X) é positiva semidefinida para todo


estimador b linear não-viesado de β. Neste caso, dizemos que o estimador de MQO β̂ é o
melhor estimador linear não-viesado de β (ou seja, é BLUE : best linear unbiased estimator ).
Abaixo enunciamos esse resultado, denominado Teorema de Gauss-Markov.

Teorema de Gauss-Markov. No modelo de regressão linear clássico com matriz de regresso-


res X e em que as hipóteses MQO1 a MQO4 são satisfeitas, o estimador de mı́nimos quadrados
ordinários β̂ é o estimador linear não-viesado de variância mı́nima de β (considerando a classe
dos estimadores que, condicionais em X, são lineares e não-viesados).

Além disso, o Teorema de Gauss-Markov mostra que para qualquer vetor de contantes w, o
estimador de mı́nima variância de w0 β no modelo clássico de regressão é w0 β̂, onde β̂ é o
estimador de mı́nimos quadrados ordinários. Logo, w0 β̂ é o estimador “BLUE” de w0 β.

Acima obtivemos um estimador para a variância de β̂:


h i
d β̂ | X = σ 2 (X0 X)−1
Var

Esta estimativa pressupõe que conhecemos a variância dos distúrbios populacionais, Var(εi ) =
σ 2 . Porém, na prática raramente teremos essa informação. Logo, em muitos problemas temos
que estimar também o parâmetro σ 2 .

Definição. O estimador MQO da variância σ 2 do erro ε, representado por s2 , é:


n
2 SQR e0 e 1 X 2
s = = = e .
n−k n−k n − k i=1 i

A raiz quadrada de s2 é o desvio-padrão do erro da regressão ou desvio-padrão do erro da


equação.

Proposição. Sob as hipóteses MQO1-MQO4, E(s2 | X) = σ 2 . Usando a lei das expectativas


iteradas, E(s2 ) = σ 2 . Portanto, s2 é um estimador não-viesado da variância do erro εi .

Então, sob MQO1-MQO4, é possı́vel mostrar que um estimador não viesado da variância
Var(β̂ | X) = σ 2 (X0 X)−1 é:
d β̂ | X) = s2 (X0 X)−1 .
Var(

Isto significa que a variância do coeficiente β̂k relativo à variável xk é dada pelo k-ésimo elemento
da diagonal principal da matriz estimada de variância-covariância de β̂:
 
−1
Var β̂k = s2 (X0 X)kk ,
d

onde (X0 X)−1


kk denota o elemento de posição (k, k) da matriz
0 −1
  (X X) (ou seja, o k-ésimo
elemento diagonal dessa matriz). A raiz quadrada de Var
d β̂k é chamada erro padrão de β̂k
e denotada por SE(βˆk ).

18
2.7 Testes de Hipóteses
Vamos adicionar a hipótese MQO5, de normalidade do erro, que assume que a distribuição de
ε condicional a X é uma normal multivariada:

ε | X ∼ N (0, Ω) = N (0, σ 2 I) ,

às outras hipóteses do modelo (MQO1-MQO4). Logo, a distribuição condicional de ε não


depende dos regressores X.

Isto implica que:

• y | X ∼ N (xi β, σ 2 )

• β̂ | X ∼ N (β, σ 2 (X0 X)−1 )

• β̂k | X ∼ N (βk , σ 2 (X0 X)−1


kk )

A figura abaixo ilustra a consequência de que y | X ∼ N (xi β, σ 2 ).

Figura 2: Normalidade

Vamos utilizar estes resultados para desenvolver testes de hipóteses para os estimadores de
MQO. Para os testes abaixo, o nı́vel de significância selecionado é denotado por α.

Testes Individuais com Variância Conhecida

Considere o seguinte teste de hipóteses bicaudal sobre o k-ésimo coeficiente:

H0 : βk = bk vs H1 : βk 6= bk , (5)

em que bk é o valor especificado pela hipótese nula para βk .

19
Muitos dos testes fazem H0 : βk = 0, ou seja, testam se o regressor xk tem algum efeito sobre
a variável y. Se rejeitarmos a hipótese nula, dizemos que βk é estatisticamente significativo ou
estatisticamente significante (ao nı́vel α).

Sob a hipótese nula, temos que

(β̂k − bk ) | X ∼ N 0, σ 2 (X0 X)−1


 
kk
.

A estatı́stica zk do teste é calculada como:

β̂k − bk
zk = q ,
σ 2 (X0 X)−1
kk

que, sob as hipóteses assumidas, possui distribuição normal padrão. Dado o nı́vel de signi-
ficância α escolhido, obtemos o valor crı́tico zc associado. Se |zk | ≤ |zc |, aceitamos a hipótese
nula. Caso contrário, a rejeitamos. Testes unicaudais são feitos de modo usual.

Testes Individuais com Variância Desconhecida

Suponha que as hipóteses MQO1-MQO5 continuam válidas. Se não conhecemos σ 2 , podemos


utilizar a sua estimativa s2 . Nesse caso, a estatı́stica para o teste (5) acima, dada por:

β̂k − bk β̂k − bk
tk = =p , (6)
SE(β̂k ) s2 ((X0 X−1 ))kk

possui distribuição t de Student com n − K graus de liberdade, onde o denominador da es-


tatı́stica tk do teste é chamado erro padrão da estimativa MQO de βk :
q q
2 0 −1 d β̂ | X).
SE(β̂k ) = s (X X)kk = elemento (k, k) da matriz Var(

A regra de decisão do teste é dada por:

1. Se a estatı́stica do teste tk for menor em valor absoluto que o valor crı́tico tα/2;(n−k) ,
aceitamos H0 ao nı́vel de significância α.

2. Se |tk | > |tα/2;(n−k) |, rejeitamos H0 .

Um tipo de questão muito comum na ANPEC é testar se o valor estimado β̂k é diferente de zero
para um determinado nı́vel de significância. Muitas questões apresentam a reta de regressão
estimada do seguinte modo (por exemplo questão 4 de 2014):

ln(salario) = 0,30 + 0,10 escol + 0,03 idade − 0,15 mulher − 0,05 (mulher × escol) ,
(0,10) (0,04) (0,03) (0,05) (0,05)

onde abaixo do valor estimado para o beta considerado está o erro padrão da estimativa. Logo,
a estatı́stica do teste de hipóteses desejado é obtida apenas dividindo o valor estimado para o
coeficiente β considerado pelo seu erro padrão. Por exemplo, para a reta de regressão acima,
tescol = 0,10/0,04 = 2,5. Sabendo que o valor do tc crı́tico ao nı́vel de 5% para um teste
bicaudal, o adequado neste teste, é 2,086 (assumindo 20 graus de liberdade), então podemos
rejeitar a hipótese nula e dizer que βescol é estatisticamente diferente de zero.

20
Note que a regra de decisão acima pode ser adaptada de modo usual para p-valores. Lembre-se
que o p-valor do teste é a seguinte probablidade:
p = p(t < −|tk |) + p(t > |tk |) = 2p(t > |tk |)
Se o p-valor for maior do que o nı́vel de significância α, aceitamos H0 . Se o p-valor for menor
do que o nı́vel de significância α, rejeitamos H0 .

Intervalo de Confiança

Considere a regra de decisão em termos da estatı́stica do teste e valor crı́tico para o teste (5)
com variância desconhecida. Vimos que aceitamos H0 quando:
β̂k − bk
−tα/2;(n−K) < < tα/2;(n−K)
SE(β̂k )
ou seja, quando:
β̂k − SE(β̂k )tα/2;(n−K) < bk < β̂k + SE(β̂k )tα/2;(n−K)
Então
h aceitamos H0 se, e somente se, o valor i bk dado pela hipótese nula cair no intervalo
β̂k − SE(β̂k )tα/2;(n−K) , β̂k + SE(β̂k )tα/2;(n−K) , chamado intervalo de confiança ao nı́vel 1 − α.

Hipóteses Conjuntas Lineares

A hipótese nula pode não ser uma restrição sobre um regressor individualmente. Podemos ter
uma hipótese que se refere a combinações lineares de regressores. A hipótese nula neste caso
pode ser formulada como:
H0 : Rβ = r.
tal que os valores da matriz R de dimensão s×K e do vetor r de s coordenadas são conhecidos e
especificados a priori. Logo, temos s equações que consistem em restrições sobre os coeficientes,
de modo que rank(R) = s.

Exemplo: Equação de Salário. Considere a seguinte regressão:


ln(W AGEi ) = β1 + β2 Si + β3 T EN U REi + β4 EXP Ri + εi
Suponha que o teste desejado seja:
H0 : β2 = β3 vs H1 : β2 6= β3
Note que s = 1 e podemos escrever esse teste no formato: Rβ = r fazendo:
   
R = 0 1 −1 0 e r= 0 .
Como realizamos este tipo de teste em geral? Podemos usar testes de máxima verossimilhança,
estimando regressões onde assumimos que a hipótese nula é verdadeira. Esse tipo de teste pode
ser complicado.

Para o caso acima de apenas testar se dois coeficientes são iguais (ou seja, que a diferença deles
é igual a zero, β3 − β2 = 0), é possı́vel mostrar que a estatı́stica do teste é:
β̂3 − β̂2 β̂3 − β̂2
t= =q
SE(β̂3 − β̂2 ) Var(β̂3 ) + Var(β̂2 ) − 2 Cov(β̂2 , β̂3 )
e que a estatı́stica do teste segue a distribuição t de Student. Logo, para realizarmos o teste,
é necessário conhecermos a covariância entre β̂2 e β̂3 .

21
O teste F

O teste conjunto mais comum consiste em testar a significância da regressão como um todo.
Neste caso, testamos a hipótese conjunta de que todos os coeficientes, exceto o termo constante,
são nulos:

H0 : β2 = β3 = . . . = βK = 0 vs H1 : pelo menos um βk é não-nulo.

Se H0 for verdadeira, estamos praticamente calculando a média de y e dizendo que y é igual à


sua média mais um termo aleatório ε. Neste caso, não há correlação entre y e as variáveis em
X, e temos R2 = 0. Podemos então construir o teste usando o coeficiente de determinação R2 .

A estatı́stica do teste acima é:


R2 /(K − 1)
F (K − 1, n − K) =
(1 − R2 )/(n − K)

É possı́vel mostrar que a estatı́stica acima é uma razão de duas variáveis com distribuição χ2
com graus de liberdade K − 1 e n − K, respectivamente. Portanto, F (K − 1, n − K) tem
distribuição F com K − 1 graus de liberdade no numerador e n − K graus de liberdade no
denominador.

O procedimento para o teste consiste em, escolhido o nı́vel de significância do teste, obter
o valor crı́tico Fc apropriado. Se F (K − 1, n − K) ≤ Fc , aceitamos a hipótese nula. Caso
contrário, rejeitamos a hipótese nula.

Pode ocorrer que a hipótese nula do teste F , de todos os coeficientes serem nulos, seja rejeitada,
mas que os testes t individuais para cada coeficiente aceitem a hipótese nula de cada coeficiente
ser igual a zero. Isto usualmente é um indicativo de problema de multicolinearidade imperfeita,
que analisaremos na próxima nota de aula.

22
2.8 Propriedades de Amostras Grandes
As propriedades de amostras grandes referem-se à teoria assintótica, ou seja, o que ocorre
quando o número de observações n tende para infinito. Essa teoria é complicada e evidente-
mente faz uso de resultados como a Lei dos Grandes Números e, principalmente, do Teorema
Central do Limite.

Para efeitos do exame de estatı́stica da ANPEC, boa parte da importância da teoria assintótica
está no fato de que quando o número de observações n for grande, podemos usar a distribuição
normal para realizar testes de hipóteses sobre os coeficientes β’s da regressão.

Além disso, a teoria assintótica permite inferir sob que condições os estimadores de MQO serão
consistentes. Neste caso, as hipóteses MQO precisam ser modificadas se estamos assumindo
que os regressores são estocásticos.

Novamente, para a ANPEC, assume-se que os regressores não são estocásticos. Assumindo
isto, podemos mostrar o seguinte resultado:

Proposição. Suponha que os regressores não são estocásticos, que valem as hipóteses MQO1-
MQO4 (com σ 2 < ∞) e que:
(X0 X)−1 −→ 0 ,
n→∞

então o estimador MQO β̂ é consistente, ou seja, β̂ converge em probabilidade para β quando


n tende a infinito.

Vamos desenvolver a intuição do resultado acima. Vimos que sob MQO1-MQO3, o estimador
MQO é não viesado:
E(β̂) = β .
Além disso, vimos que sob MQO1-MQO4, a variância do estimador de MQO é:
 
−1 −1
Var β̂ = σ 2 E (X0 X) = σ 2 (X0 X) ,

onde a última igualdade é consequência da hipótese de regressores não estocásticos. Finalmente,


a hipótese de que a matriz (X0 X)−1 converge a zero quando n tende a infinito implica, pela
equação acima, que Var(β̂) tende a zero quando n tende a infinito. Logo, obtemos que β̂
converge em probabilidade para β.

EXERCÍCIOS ANPEC

RESOLVER: QUESTÕES 11 e 13, EXAME 2018; QUESTÕES 1 e 8, EXAME 2016; QUESTÕES


8 e 13, EXAME 2015; QUESTÕES 4 e 6, EXAME 2014; QUESTÕES 4 e 15, EXAME 2013;
QUESTÕES 3 e 12, EXAME 2012; QUESTÕES 5, 10, 13 e 14, EXAME 2011; QUESTÃO
10, EXAME 2010; QUESTÕES 11 e 14, EXAME 2009; QUESTÃO 6, 2008; QUESTÃO 15,
EXAME 2007; QUESTÃO 9, EXAME 2006; QUESTÕES 11 e 12, EXAME 2005; QUESTÃO
14, EXAME 2004; QUESTÕES 6 e 7, EXAME 2003.

QUESTÕES DE EXAMES MAIS ANTIGOS: QUESTÃO 5, EXAME 2002; QUESTÕES


3, 6 e 7, EXAME 2001; QUESTÕES 5 e 9, EXAME 2000; QUESTÕES 7 e 10, EXAME 1999;
QUESTÃO 9, EXAME 1998; QUESTÕES 11 e 12, EXAME 1997; QUESTÃO 8, EXAME
1996; QUESTÕES 9, 13 e 14, EXAME 1995; QUESTÕES 7, 8 e 10, EXAME 1994.

23