Você está na página 1de 157

Modelos de Regressão Linear Clássicos

Celso Rômulo Barbosa Cabral

TEXTO PARA A DISCIPLINA


ANÁLISE DE REGRESSÃO – IEE632

UNIVERSIDADE FEDERAL DO AMAZONAS


DEPARTAMENTO DE ESTATÍSTICA

Manaus, 24 de novembro de 2004. Atualizado até a página 111


ii

Dedicatória

A Fábio Amaral, que partiu antes

que as coisas começassem a acontecer.


iii

Agradecimentos

À estudante Themis da Costa Abensur pela digitação da primeira versão deste


texto.
iv
Conteúdo

1 Modelos de Regressão Linear 1

1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Relações Determinı́sticas, Probabilı́sticas e Modelos Estatı́sticos . . . . 2

1.2.1 Relações Determinı́sticas e Probabilı́sticas . . . . . . . . . . . . 2

1.2.2 Modelos Estatı́sticos . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 Regressão Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3.1 O Modelo de Regressão Linear Simples . . . . . . . . . . . . . . 5

1.3.2 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3.3 A Distribuição dos Estimadores de Máxima Verossimilhança . . 16

1.3.4 Teste para Hipótese β1 = 0 . . . . . . . . . . . . . . . . . . . . . 20

1.3.5 Estimação da Média da Variável Resposta . . . . . . . . . . . . 25

v
vi

1.3.6 Previsão de uma Observação Futura da Variável Resposta . . . 28

1.3.7 Alguns Comentários Sobre a Adequação do Modelo de Regressão


Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

1.3.8 E Quando os Valores da Variável Regressora não Puderem ser


Pré-fixados? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

1.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2 O Modelo de Regressão Linear Múltipla 47

2.1 Notação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.2 O Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.3 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2.3.1 Pontos Crı́ticos da Função de Verossimilhança . . . . . . . . . . 50

2.3.2 Existência e Unicidade de Soluções da Equação Normal . . . . . 52

2.3.3 Pontos de Máximo Global da Função de Verossimilhança . . . . 53

2.3.4 Uma Outra Abordagem para a Estimação de Máxima Verossimi-


lhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

2.4 Propriedades dos Estimadores de Máxima Verossimilhança . . . . . . . 56


vii

2.5 Previsão da Média da Variável Resposta para Valores Fixados das Variáveis
Regressoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

2.6 O Teste F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

2.6.1 A Tabela de Análise de Variância . . . . . . . . . . . . . . . . . 77

2.6.2 O Coeficiente de Determinação . . . . . . . . . . . . . . . . . . 81

2.7 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

3 Análise de Resı́duos 87

3.1 Influência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

3.2 Outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

3.3 Variância não Constante (ou Heterocedasticidade) . . . . . . . . . . . . 94

3.4 Não-Linearidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

3.5 Gráficos de Resı́duos Parciais . . . . . . . . . . . . . . . . . . . . . . . 100

3.6 Um Algoritmo para a Análise de Resı́duos . . . . . . . . . . . . . . . . 104

4 Análise de Variância 107

4.1 Análise de Variância com Um Fator . . . . . . . . . . . . . . . . . . . . 107

A Algumas Definições e Resultados em Estatı́stica Multivariada 113


viii

B A Distribuição Normal Multivariada 115

B.1 A Densidade Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

B.2 Uma Definição Abrangente de Normalidade . . . . . . . . . . . . . . . 116

C Álgebra Linear 121

D Diferenciação de Matrizes 133

E A Distribuição Normal Multivariada 135

E.1 A Densidade Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

F Matrizes em Blocos 137

G Demonstração dos Teoremas (2.5) e (2.6) 141

H A Distribuição da Estatı́stica F 147


Capı́tulo 1

Modelos de Regressão Linear

1.1 Introdução

Um Modelo de Regressão 1 é um modelo estatı́stico para descrever relações entre


variáveis. Neste texto estamos especificamente interessados em relações lineares. Os
objetivos principais são identificar a relação e fazer inferências em torno dos parâmetros
do modelo, o que nos permitirá, por exemplo, fazer previsões de uma variável dado um
valor de outra.

A seguir apresentamos algumas situações práticas que podem ser analisadas através
de modelos de regressão linear.

1
O nome regressão é devido a Francis Galton, que em 1885 publicou um trabalho intitulado “Re-
gression Toward Mediocrity in Hereditary Study”, onde analisava a relação entre os pesos dos filhos e
o peso médio dos pais (Johnson e Bhattacharyya, 1996, Pág 461), concluindo que: (i) a altura de filhos
de pais muito altos estava geralmente entre a média e o máximo das alturas entre o pai e a mãe e (ii)
a altura de filhos de pais muito baixos estava geralmente entre o mı́nimo e a média das alturas entre
o pai e a mãe. Isto significa que a altura dos filhos tende mais para a média do que para os extremos.

1
2

1. O gerente de marketing de uma empresa está interessado na relação entre o di-


nheiro gasto em publicidade e o correspondente aumento nas vendas.

2. Em radioterapia, é importante estudar o nı́vel de dano às células induzido pela


duração e intensidade de exposição à radiação.

3. Em ciência polı́tica, pode ser de interesse relacionar a probabilidade de uma admi-


nistração ser considerada ótima/boa com variáveis como nı́vel de educação, ganho
médio mensal, idade, sexo etc.

4. Em avaliação educacional, com o objetivo de comparar a evolução dos estudantes,


é de interesse relacionar as notas dos alunos em um curso de lı́nguas, obtidas em
um pré-teste e em um pós-teste (testes feitos antes e após o curso).

5. Em experimentos agrı́colas, é importante analisar os nı́veis de produção de uma


determinada fruta como função da quantidade de fertilizante utilizada.

1.2 Relações Determinı́sticas, Probabilı́sticas e Mo-


delos Estatı́sticos

1.2.1 Relações Determinı́sticas e Probabilı́sticas

Existem relações entre variáveis que podem ser descritas por uma expressão ma-
temática exata. Por exemplo, se x dólares são colocados em uma aplicação financeira
a uma taxa anual de remuneração r, temos que o total y na conta em n anos será dado
por

y = x(1 + r)n .
3

E se t é o tempo que uma bola de metal leva para atingir a superfı́cie terrestre quando
a mesma é solta de uma altura h temos, pela lei fı́sica da gravidade, que

t = (2h/g)1/2 ,

onde g é a constante gravitacional. Estas relações são determinı́sticas, no sentido de


que é possı́vel saber de antemão o valor de uma variável envolvida no experimento
dado um valor da outra. Ou seja, dado um valor x de dinheiro aplicado você sabe
exatamente quanto receberá em n anos. Se você soltar a bola a uma altura h você saberá
o tempo exato que esta levará até atingir o solo. Ao contrário disto, neste texto estamos
particularmente interessados no caso em que pelo menos uma das variáveis envolvidadas
é aleatória, de modo que os resultados da experimentação só serão conhecidos após a
sua realização. É o que ocorre nos exemplos da seção 1.1 e nos exemplos a seguir

Exemplo 1.1 Para combater a poluição automobilı́stica, cientistas estão interessados


em determinar a quantidade de um aditivo que será acrescentado à gasolina, a fim de
melhorar a qualidade da emissão de gases poluentes. Vários automóveis novos farão
parte de um estudo experimental (estes constituirão o que chamamos usualmente de
unidades experimentais, ou seja, aquelas que serão objeto de observação). A quantidade
de óxido de nitrogênio emitida por cada carro é medida primeiro sem o aditivo e depois
com uma quantidade x de aditivo. A redução de óxido de nitrogênio y é anotada.

Exemplo 1.2 Seja y a produção de tomates em um experimento agrı́cola. Suponha


que queremos estudá-la em relação à dosagem x de um certo fertilizante. (Observe que
outros fatores podem influenciar na produção como, por exemplo, o nı́vel de irrigação
do solo, mas vamos supor que estes, dentro do possı́vel, são mantidos constantes, em
nı́veis fixados). O experimento consiste em aplicar diferentes dosagens de fertilizante (de
acordo com o interesse especı́ficos dos beneficiados pela pesquisa) em lotes de plantação
e então verificar a produção de cada lote.

Exemplo 1.3 A aptidão de um operador novato em executar um serviço novo depende


da duração do treinamento. Para avaliar a eficácia do programa, é conduzido um
4

estudo experimental da relação entre a melhora na execução do serviço y e a duração


do treinamento x.

1.2.2 Modelos Estatı́sticos

Para descrever relações entre variáveis aleatórias, é necessário que tenhamos bem
claro o conceito de Modelo Estatı́stico. O ato de fazer inferência estatı́stica pode ser
descrito da seguinte maneira: deseja-se obter informação sobre algum parâmetro des-
conhecido relacionado à distribuição de alguma caracterı́stica de uma população. Com
este objetivo, uma amostra é extraı́da desta população e espera-se que esta traga uma
boa qualidade de informação sobre a distribuição populacional. O modelo estatı́stico
é constituı́do pela amostra em conjunto com a sua distribuição de probabilidade. Por
exemplo, se desejamos estimar a probabilidade de cara de uma moeda, que vamos de-
notar por θ0 , consideramos observações resultantes de n lançamentos independentes da
moeda, o que constitui a amostra, e obtemos uma indicação sobre o valor de θ0 obser-
vando a variável X dada pelo número de caras obtidas, que é uma função da amostra.
Como desejamos testar hipóteses (como, por exemplo, se a moeda é honesta), devemos
conhecer a distribuição de X para calcular nı́veis de significância, etc.

Vamos adotar então a seguinte definição

Definição 1.1 Um Modelo Estatı́stico é definido por uma amostra X = (X1 , . . . , Xn )


e pelo conjunto {Pθ , θ ∈ Θ}, formado pelas possı́veis distribuições de probabilidade de
X. O conjunto Θ é denominado Espaço Paramétrico associado ao modelo

Nesta definição, Pθ é uma notação que indica a dependência da distribuição de


probabilidade em relação a θ, que é um elemento do conjunto Θ. A cada ponto θ ∈ Θ
corresponde uma distribuição Pθ plausı́vel para o experimento em questão. Considere-
5

mos o exemplo do inı́cio desta seção. A amostra (X1 , . . . , Xn ) é dada por


(
1 se o resultado do i − ésimo lançamento é cara
Xi =
0 caso contrário,
Pn
i = 1, . . . , n, de modo a distribuição de X = i=1 Xi é binomial com probabilidade de
sucesso (desconhecida) que denominaremos por θ. Os possı́veis valores para θ estão no
intervalo Θ = [0, 1], de modo que este é o espaço paramétrico. Mas somente um ponto
em Θ é a probabilidade de cara associada à moeda considerada no experimento — este
valor é θ0 e é referenciado em geral como O Verdadeiro Valor do Parâmetro.

Assim, o procedimento inferencial consiste em escolher um ponto θ no conjunto Θ


como sendo o verdadeiro valor do parâmetro. É claro que esta tarefa deve ser baseada
na observação de X.

No decorrer deste texto a notação X ∼ Pθ indicará que X tem distribuição de


probabilidade P com parâmetro associado θ. Notações especı́ficas serão utilizadas para a
distribuição normal com média µ e variância σ 2 ( N (µ, σ 2 )), a distribuição qui-quadrado
com n graus de liberdade (χ2n ) e a distribuição t de Student com n graus de liberdade
(tn ).

1.3 Regressão Linear Simples

1.3.1 O Modelo de Regressão Linear Simples

O objetivo geral de nosso estudo é analisar o caso em que a distribuição popu-


lacional associada a observação de uma determinada variável – doravante denominada
variável resposta – é normal e tem uma média que possivelmente depende de um parti-
cular valor pré-fixado x de uma outra variável – doravante denominada variável regres-
6

sora 2 . Especificamente, trataremos o caso em que esta dependência é linear. Alguns


objetivos especı́ficos são

1. Responder se realmente existe uma dependência linear entre a média e x;

2. Estimar a média;

3. Testar hipóteses relacionadas à média.

Assim, o tipo de experimento que estamos interessados a fim de contruir um modelo


estatı́stico útil para atingir os objetivos acima consiste em tomar observações indepen-
dentes da variável resposta para um determinado nı́vel fixado x da variável regressora.

Para motivar, consideremos novamente o exemplo 1.1. Na tabela 1.1 temos ob-
servações, tomadas independentemente, relativas a 10 carros. A quantidade de aditivo
adicionada é definida – isto significa dizer que esta variável é controlada pelo expe-
rimentador – e então a redução para aquele carro é observada. Observe que foram
consideradas replicações para alguns nı́veis da variável quantidade de aditivo: a quan-
tidade igual a 1 foi adicionada ao tanque de dois carros distintos, por exemplo.

Neste exemplo 1.1 a variável regressora é a quantidade de aditivo e a variável


resposta é a redução.

O nosso objetivo é definir um modelo estatı́stico que relacione a média da variável


resposta com os valores da variável regressora para, por exemplo, no exemplo 1.1,
respondermos questões do tipo
2
A variável cujos nı́veis são controlados recebe diferentes nomes na literatura como, por exemplo,
variável regressora, preditora, explicativa, explanadora, independente. Para a variável a ser observada,
termos comuns são variável predita, resposta ou dependente. Acreditamos que a combinação variável
independente-variável dependente é a menos recomendada, pois pode levar a confusões com o conceito
de independência estocástica.
7

Tabela 1.1: Quantidade de aditivo e redução


de óxido de nitrogênio em 10 carros.
Carro no Quant. aditivo redução
1 1 2.1
2 1 2.5
3 2 3.1
4 3 3.0
5 4 3.8
6 4 3.2
7 5 4.3
8 6 3.9
9 6 4.4
10 7 4.8

1. Um aumento na quantidade de aditivo representa um aumento na redução média


de emissão do poluente? Se sim, qual é a taxa de aumento?

2. Fixada uma quantidade de aditivo, qual é a previsão de redução média na emissão


do poluente?

Seja xi um nı́vel fixado da variável regressora e definamos Yi como sendo a ob-


servação da resposta a ser feita correspondente a este nı́vel, i = 1, . . . , n (n é o tamanho
da amostra). Ao valor observado de Yi denotaremos por yi . Na tabela 1.1 temos n = 10,
x1 = 1 e y1 = 2.1, por exemplo. A seguir definimos o tipo de modelo que será discutido
neste capı́tulo.

Definição 1.2 O Modelo de Regressão Linear Simples é definido por variáveis Y1 , . . . , Yn


independentes – correspondentes às observações da variável resposta – tais que

Yi ∼ N (µi , σ 2 ),

onde σ 2 > 0,
µi = β0 + β1 xi , (1.1)
8

e xi são valores fixados da variável regressora, i = 1, . . . , n.

Notemos que cada Yi representa uma amostra de tamanho 1 a ser obtida de uma
população que tem distribuição N (µi , σ 2 ). No caso em que há replicações, ou seja,
quando para cada xi é observada uma amostra desta população de tamanho ni , uma
notação mais conveniente seria Yij ∼ N (µi , σ 2 ), j = 1, . . . , ni , i = 1, . . . , n, mas a
notação da definição 1.2 é suficiente para os propósito desta exposição inicial. β0 e β1
são parâmetros que devem ser estimados a partir da amostra Y1 , . . . , Yn . Observe que
esta é uma definição legı́tima de modelo estatı́stico, de acordo com a definição 1.1. O
espaço paramétrico associado é o conjunto

Θ = {(β0 , β1 , σ 2 ); β0 ∈ R, β1 ∈ R, σ 2 > 0}. (1.2)

A questão é saber se este modelo é adequado para descrever os fenômenos que nos
interessam, como o do exemplo 1.1 e outros.

Vamos tomar como guia o exemplo 1.1. Neste caso, será que é razoável considerar
que a variável relativa à observação de cada carro tem distribuição normal? E se
isto ocorrer, é razoável supor que a sua média é da forma dada em (1.1)? E que as
variâncias são todas iguais (a σ 2 )? Caso a resposta seja sim a todas estas questões,
podemos considerar o modelo de regressão linear simples como adequado para descrever
o fenômeno. Mais tarde veremos mecanismos que são úteis para decidirmos se o modelo
é ou não adequado, um processo que usualmente é denominado validação.

Observemos que no modelo de regressão linear simples o par (xi , µi ) pertence ao


gráfico da função f (x) = β0 + β1 x, x ∈ R. Para exemplificar, considere a figura 1.1,
que representa um diagrama de dispersão para pontos (xi , yi ), onde xi são pontos no
conjunto {1, . . . , 10} gerados em computador. Para cada xi , gera-se uma observação yi
de uma variável com distribuição normal com média µi = 1 + 2xi e variância igual a 1.
Assim, uma primeira evidência de que o modelo de regressão linear simples é (ou não)
adequado para descrever a relação entre as variáveis pode ser obtida através de um
9

Figura 1.1: Diagrama de dispersão para obervações geradas de


acordo com o modelo Y ∼ N (1 + 2x, 1)

diagrama de dispersão: um diagrama como o da figura 1.1 deve indicar uma tendência
linear de crescimento ou de decrescimento. Para consolidar o entendimento, a figura 1.2
apresenta as curvas normais associadas a cada variável Yi com média µi = β0 +β1 xi e faz
a representação dos pontos (xi , µi ) no gráfico da função f (x) = β0 + β1 x, x ∈ R. Para
os dados do exemplo 1.1 o diagrama de dispersão é apresentado na figura 1.3 e notamos
uma tendência linear, um indicativo de que o modelo de regressão linear simples pode
ser adequado para a descrição dos dados.

Um último comentário quanto à definição do modelo de regressão linear simples:


o termo linear na definição 1.2 refere-se à média das observações vista como função do
vetor (β0 , β1 ), que é uma função linear. Assim, modelos da forma µi = β0 + β1 x2i e
µi = β0 + β1 exp xi também são lineares, pois podem ser reduzidos à forma apresentada
na definição considerando zi = x2i e zi = exp xi , i = 1, . . . , n como valores de uma nova
variável regressora no primeiro e no segundo caso, respectivamente.
10

Figura 1.2: As médias das respostas como função linear dos valores
dos regressores

Figura 1.3: Diagrama de dispersão dos dados na tabela 1.1

1.3.2 Estimação

Para fazer a estimação dos parâmetros no modelo de regressão linear simples


— a saber: β0 , β1 e σ 2 , utilizaremos o método da máxima verossimilhança ver, por
11

exemplo, Bolfarine e Sandoval (2001, Pág 35). Como Yi ∼ N (β0 + β1 xi , σ 2 ), temos que
a densidade de Yi é dada por
 
2 −1/2
 1 2
f (yi ) = 2πσ exp − 2 (yi − β0 − β1 xi ) , yi ∈ R, ı = 1, . . . , n.

Seja y1 , . . . , yn uma amostra observada. Como sabemos, a verossimilhança as-


sociada à esta amostra é a densidade conjunta de Y1 , . . . , Yn , vista como função de
β0 , β1 e σ 2 . Como Y1 , . . . , Yn são independentes, temos que o logaritmo da função de
verossimilhança é dado por
n
n 1 X
2 2
(yi − β0 − β1 xi )2 , (β0 , β1 ) ∈ R2 , σ 2 > 0.

L β0 , β1 , σ = − log(2πσ ) − 2
2 2σ ı=1
(1.3)

Para encontrar o máximo desta função em β0 , β1 e σ 2 , podemos utilizar o seguinte


método: fixar σ 2 e maximizar a função parcial (em β0 e β1 ),

(β0 , β1 ) 7→ L(β0 , β1 , σ 2 ), (β0 , β1 ) ∈ R2 (1.4)

e, após encontrar os pontos β̂0 e β̂1 que maximizam esta função, maximizar a função

σ 2 7→ L(β̂0 , β̂1 , σ 2 ), σ 2 > 0. (1.5)

Isto pode ser feito por que as variações de (β0 , β1 ) e σ 2 são independentes. Este método
é denominado Princı́pio do Supremo Iterado.3
3
O princı́pio, conforme Bartle (1983, Pág 51), é o seguinte: Sejam X e Y conjuntos não-vazios e
seja f : X × Y → R com contradomı́nio limitado. Sejam

f1 (x) = sup{f (x, y); y ∈ Y } e f2 (y) = sup{f (x, y); x ∈ X}.

Então

sup{f (x, y); x ∈ X y ∈ Y } = sup{f1 (x); x ∈ X}


= sup{f2 (y); y ∈ Y }.
12

Maximizar a função parcial em (1.4) é equivalente a minimizar a função


n
X
(β0 , β1 ) 7→ (yi − β0 − β1 xi )2 , (β0 , β1 ) ∈ R2 . (1.6)
ı=1

As estimativas obtidas a partir daı́ recebem então o sugestivo nome de Estimativas de


Mı́nimos Quadrados que, é claro, coincidem com as estimativas de máxima verossimi-
lhança para β0 e β1 .

Consideremos então o problema de encontrar um ponto de máximo global para


a função em (1.4) ou, o que é equivalente, encontrar um ponto de mı́nimo global para
(1.6). Temos que

yi − β0 − β1 xi = yi − β0 − ȳ + ȳ − β1 xi − β1 x̄ + β1 x̄
= (yi − ȳ) − β1 (xi − x̄) + (ȳ − β0 − β1 x̄)

de tal maneira que


n
X n
X
2
(yi − β0 − β1 xi ) = [(yi − ȳ) − β1 (xi − x̄) + (ȳ − β0 − β1 x̄)]2
ı=1 ı=1
n
X n
X n
X
2 2
= (yi − ȳ) + β12 (xi − x̄) + (ȳ − β0 − β1 x̄)2
ı=1 ı=1 ı=1
n
X n
X
−2β1 (xi − x̄) (yi − ȳ) − 2β1 (ȳ − β0 − β1 x̄) (xi − x̄)
ı=1 ı=1
n
X
+2 (ȳ − β0 − β1 x̄) (yi − ȳ) .
ı=1

Observe que
n
X n
X
(xi − x̄) = (yi − ȳ) = 0.
ı=1 ı=1

Fazendo
n
X n
X n
X
2 2
Sx2 = (xi − x̄) , Sy2 = (yi − ȳ) e Sxy = (xi − x̄) (yi − ȳ) ,
ı=1 ı=1 ı=1
13

obtemos
n
X
(yi − β0 − β1 xi )2 = n (ȳ − β0 − β1 x̄)2 + β12 Sx2 − 2β1 Sxy + Sy2 .
ı=1

Podemos rearranjar a expressão e completar o quadrado, obtendo


n 2  2
Sxy Sxy
X 
2 2
(yi − β0 − β1 xi ) = n (ȳ − β0 − β1 x̄) + β1 Sx − 2β1 Sxy + 2 + Sy2 − 2
2 2

ı=1
Sx Sx
2 2
Sxy
  
2 Sxy
= n (ȳ − β0 − β1 x̄) + β1 Sx − + Sy2 − 2 (1.7)
Sx Sx

Observe que a última parcela nesta soma não depende de β0 e β1 . A soma das
outras duas parcelas é uma soma de termos ao quadrado, cujo mı́nimo é zero, e é
atingido quando as parcelas são iguais a zero, ou seja, quando
Sxy
ȳ − β0 − β1 x̄ = 0 e β1 Sx − = 0.
Sx

A solução deste sistema de equações é


Sxy
β̂0 = ȳ − β̂1 x̄ e β̂1 = . (1.8)
Sx2
Estas são, portanto, as estimativas de máxima verossimilhança (de mı́nimos quadrados)
para β0 e β1 , obtidas a partir da amostra y = (y1 , . . . , yn ). Os estimadores respectivos
são obtidos substituindo Y = (Y1 , . . . , Yn ) no lugar de y em (1.8). No entanto, neste
caso, utilizaremos a mesma notação para estimador e estimativa, ou seja, β̂0 e β̂1 .

Antes de tratarmos da estimação do parâmetro σ 2 , vamos definir alguns conceitos


importantes.

Definição 1.3 Consideremos uma amostra observada e sejam β̂0 e β̂1 as respectivas
estimativas de mı́nimos quadrados para β0 e β1 . A função
µ̂(x) = βˆ0 + β̂1 x, x∈R (1.9)
é denominada reta de regressão estimada.
14

Para cada x ∈ R temos que, pelo princı́pio da invariância do estimador de máxima


verossimilhança, µ̂(x) é uma estimativa de máxima verossimilhança para

µ(x) = β0 + β1 x,

(ver Zacks, 1971, Teorema 5.1.1). Observemos que, mesmo que x não seja um dos
valores fixados xi , µ̂(x) é um legı́timo estimador de máxima verossimilhança. Tra-
dicionalmente µ̂(xi ) recebe a denominação Valor Ajustado Correspondente à i-ésima
Observação e é denotado por ŷi embora, particularmente, consideremos estas termino-
logia e notação inadequadas, pela confusão que pode ocorrer com o conceito de Previsão
de uma Observação, que é completamente diferente, conforme veremos na seção 1.3.6.

A seguir vamos definir um conceito fundamental no instante em que formos tratar


da validação do modelo de regressão linear.

Definição 1.4 A variável aleatória

Ei = Yi − µ̂(xi ), (1.10)

é denominada resı́duo associado à ı-ésima observação, ı = 1, . . . , n.

Por (1.7) temos que, para uma amostra (y1 , . . . , yn ) com resı́duos observados
(e1 , . . . , en ),
( n ) n  2
ˆ
X 2
X
2
min (yi − β0 − β1 xi ) ; (β0 , β1 ) ∈ R = yi − β0 − β̂1 xi
ı=1 ı=1
Xn
= [(yi − µ̂(xi )]2
i=1
n
X
= e2i
i=1
2
Sxy
= Sy2 −
Sx2
= Sy2 − β̂12 Sx2 ,
15

uma quantidade adequadamente denominada Soma dos Quadrados dos Resı́duos. Para
citações posteriores, vamos enunciar a

Definição 1.5 Definimos a Soma dos Quadrados dos Resı́duos por


n
X n
X
SQres = e2i = [yi − µ̂(xi )]2 = Sy2 − β̂12 Sx2 .
ı=1 ı=1

Voltando agora ao processo de estimação: o estimador de máxima verossimilhança


para σ 2 é obtido maximizando-se a função de verossimilhança em (1.5). Ou seja, deve-
mos encontrar σ̂ 2 tal que
n   o  
max L βˆ0 , β̂1 , σ 2 ; σ 2 > 0 = L βˆ0 , β̂1 , σ̂ 2

Temos que
n
∂L (β0 , β1 , σ 2 ) n 1 1 X
2
=− · 2
· 2π + 4 (yi − β0 − β1 xi )2 .
∂σ 2 2πσ 2σ ı=1

Igualando a zero, temos que


n
1 X 2 1
2
σ̂ = Yi − βˆ0 − β̂1 xi = SQres (1.11)
n ı=1 n

é a estimativa de máxima verossimilança para σ 2 . Finalmente, é possı́vel mostrar que a


função definida em (1.5) tem derivada negativa para todo σ 2 > 0 e, portanto, σ̂ 2 é um
 
ponto de máximo global. Assim, concluimos que βˆ0 , β̂1 , σ̂ 2 é um ponto de máximo
global da função de verossimilhança.

Exemplo 1.4 De volta aos dados da tabela 1.1. Neste caso, temos x̄ = 3.9, ȳ = 3.51,
s2x = 40.9, s2y = 6.85, sxy = 15.81, β̂ = 0.387, βˆ0 = 2.00 e SQres = 0.74. A reta de
regressão estimada, obtida a partir destes valores, é dada por

µ̂(x) = 2.0024 + 0.3865x.


16

Assim, a estimativa da média de redução na emissão de óxido de nitrogênio correspon-


dente à adição de 3.2 unidades de aditivo é dada por

2.0024 + 0.3865 × 3.2 = 3.2392.

Estas estimativas podem ser obtidas utilizando qualquer software estatı́stico.

A figura 1.4 mostra um gráfico com os dados e a reta de regressão. Observe


também a representação dos valores observados dos resı́duos.

Figura 1.4: Diagrama de dispersão e reta de regressão para os dados


da tabela 1.1

1.3.3 A Distribuição dos Estimadores de Máxima Verossimi-


lhança

Nesta seção apresentaremos a distribuição dos estimadores obtidos anteriormente.


A partir daı́ será possı́vel elaborar testes para algumas hipóteses de interesse, como a
não influência dos valores da variável regressora na média da variável resposta.
17

Observemos que, no modelo de regressão linear simples, β1 = 0 significa que a


média da variável resposta não depende dos particulares valores da variável regressora.
Os testes para esta hipótese que serão considerados aqui baseiam-se nos estimadores de
máxima verossimilhança e, portanto, necessitamos estabelecer resultados concernentes
às suas distribuições de probabilidade.

Teorema 1.1 Seja (β̂0 , β̂1 , σ̂ 2 ) o estimador de máxima verossimilhança para o modelo
de regressão linear simples. Então

    
1. βˆ0 ∼ N β0 , σ 2 n1 + x̄2 2
Sx2
e β̂1 ∼ N β1 , Sσ 2
x

SQres
2. σ2
∼ χ2n−2

3. SQres é independente de βˆ0 e β̂1 .

A demonstração deste teorema será apresentada no capı́tulo 2, onde trataremos de um


modelo mais geral. Como conseqüência, temos o

Corolário 1.1 Seja


SQres
QMres =
n−2
o Quadrado Médio dos Resı́duos. Então

β̂1 −β1 βˆ0 −β0


1. (QMres/Sx2 )1/2
∼ tn−2 e    1/2 ∼ tn−2 .
1 2
QMres n + x̄2
Sx

2. QMres é um estimador não viciado para σ 2 .

Demonstração do Corolário:
18

1. (Somente a parte concernente a β1 . A outra parte é completamente análoga.)


Como
σ2
 
β̂1 ∼ N β1 , 2 ,
Sx
temos que
β̂1 − β1
∼ N (0, 1).
σ/Sx

Pelo item 3 do teorema, temos que

β̂1 − β1 SQres
e
σ/Sx σ2

são independentes. Pelo item 2 e pela definição da distribuição t de Student vem


que !  1/2
β̂1 − β1 SQres
÷ ∼ tn−2 ,
σ/Sx (n − 2)σ 2

e o resultado segue pela definição de QMres.

2. Temos que  
SQres 1
E (QMres) = E = E (SQres) .
n−2 n−2
Como, pelo item 2 no teorema,

SQres
∼ χ2n−2 ,
σ2

resulta que
E (SQres) = σ 2 (n − 2).

Assim, concluimos que E(QMres) = σ 2 e, portanto, QMres é um estimador não


viciado para σ 2 .

Observe também que, pelo teorema 1.1, β̂0 e β̂1 são estimadores não viciados para
β0 e β1 , respectivamente.
19

Utilizando o resultado no item 1 do corolário 1.1 podemos obter intervalos de


confiança para β0 e β1 . Seja Tk uma variável aleatória com distribuição t de Student
com k graus de liberdade e seja tk;α tal que

P (Tk > tk;α ) = α,

onde 0 < α < 1 (veja a figura 1.5). Então,

Figura 1.5: Área à direita do ponto tk,α .

!
β̂1 − β1
P −tn−2; α2 < < tn−2; α2 = 1 − α,
(QMres/Sx2 )1/2

de modo que
h 1/2 1/2 i
P β̂1 − t n−2; α
2
QMres/Sx2 < β1 < β̂1 + t n−2; α
2
QMres/Sx2 =1−α

e, portanto,
1/2
β̂1 ± tn−2; α2 QMres/Sx2 (1.12)
20

é um intervalo de confiança para β1 com coeficiente 1 − α. De forma análoga podemos


obter um intervalo de confiança para β0 , que é dado por
1/2
x2
 
1
β̂0 ± tn−2; α2 QMres + .
n Sx2

Exemplo 1.5 Para as observações na tabela 1.1 temos n = 10. Para obter um intervalo
com coeficiente 95% para β1 devemos utilizar t8;0.025 = 2.3060 na fórmula (1.12), obtendo
o intervalo (0.2770, 0.4960).

1.3.4 Teste para Hipótese β1 = 0

Se a hipótese
H0 : β1 = 0 (1.13)

for verdadeira, a média da variável resposta não depende de qualquer valor da variável
regressora, como pode ser visto pela definição do modelo de regressão. No caso do
exemplo 1.1, isto significa dizer que a redução média na emissão de poluente não depende
de valores especı́ficos da quantidade de aditivo, sendo a mesma qualquer que seja esta
quantidade. Nesta seção vamos tratar de um teste para a hipótese H0 . Testar a hipótese
H0 é popularmente conhecido como “testar a significância da variável regressora no
modelo”.

Na exposição que segue vamos considerar a situação mais geral dada por

H0 : β1 = β ∗ ,

onde β ∗ é conhecido (a hipótese em (1.13) corresponde ao caso β ∗ = 0). É natural


basearmos um teste para H0 nos valores observados do estimador (não viciado) de β1 ,
β̂1 .
21

Consideremos como estatı́stica de teste


Sx (βˆ1 − β ∗ )
T = .
(QMres)1/2
A distribuição de T supondo que H0 é verdadeira é, pelo Corolário 1.1, t de Student
com n − 2 graus de liberdade4 e, com este resultado, podemos calcular a probabilidade
de erro do tipo I para uma determinada regra de decisão baseada em T . Para uma
hipótese alternativa
H1 : β1 6= β ∗

podemos rejeitar H0 , por exemplo, para grandes valores de | T |, o que significa encon-
trar um valor crı́tico c e definir a regra de decisão por

Rejeitar H0 se e somente se | T |> c. (1.14)

Para um teste de nı́vel de significância α, c deve ser escolhido de tal maneira que

Pβ1 =β ∗ (| T |> c) = α,

de modo que c = tn−2; α2 .

Seja t o valor observado da estatı́stica T . O teste também pode ser efetuado


através da observação da Probabilidade de Significância – ou p-value (pv ), como é mais
conhecida, que é definida como sendo a probabilidade, sob H0 , de erro tipo I quando c
é igual a t, ou seja,
pv = Pβ1 =β ∗ (| T |> t).

Esta probabilidade corresponde ao menor nı́vel de significância possı́vel para um valor


crı́tico que leva à rejeição de H0 , com base no valor observado t.
4
Observemos que os pontos do espaço paramétrico que estão em H0 constituem o subconjunto
dado por {θ = (β0 , β1 , σ 2 ); β0 ∈ R, β1 = β ∗ , σ 2 > 0}, de modo que H0 é uma hipótese composta.
Pelo Corolário 1.1 temos que a distribuição de T é a mesma para qualquer ponto em H0 que seja
tomado como verdadeiro valor do parâmetro, ou seja, esta distribuição não depende de θ. Isto não é a
regra geral, não é o que ocorre com a maioria dos testes para parâmetros em outros tipos de modelos
estatı́sticos. Estamos, portanto, diante de um fato que ocorre com rara felicidade.
22

Este teste é conhecido na literatura tradicional da área como Teste t Bilateral. Na


seção 2.6 provaremos que este teste é equivalente ao teste da razão de verossimilhança
para H0 contra a hipótese H1 : β1 6= β ∗ .

É importante também discutir a função poder do teste. Seja Θ o espaço pa-


ramétrico associado ao modelo de regressão linear simples, dado em (1.2). A função
poder associada ao teste t bilateral é dada por

ψ(θ) = Pθ (| T |> c), θ ∈ Θ, (1.15)

ou seja, ψ(θ) é a probabilidade de rejeitar H0 quando assumimos que θ é o verdadeiro


valor do parâmetro. Se θ está em H0 , temos que ψ(θ) é uma probabilidade de erro
do tipo I (rejeitar a hipótese nula quando esta é verdadeira). Se θ está na hipótese
alternativa, então ψ(θ) é conhecido como o Poder do Teste Contra a Alternativa θ.
Para determinar este poder necessitamos, portanto, da distribuição de T em pontos de
H1 . Vamos apresentar a distribuição no Teorema 1.2, mas antes precisamos definir a
Distribuição t Não Central.

Definição 1.6 Sejam Z ∼ N (ξ, 1) e W ∼ χ2k variáveis aleatórias independentes. A


distribuição de
Z
T =
(W/k)1/2
é denominada t Não Central com k Graus de Liberdade e Parâmetro de Não Centrali-
dade ξ.

Observe que o caso ξ = 0 corresponde à distribuição t usual. Utilizaremos a notação

T ∼ t(k,ξ) .

Teorema 1.2 A distribuição da estatı́stica T é t não central com n − 2 graus de liber-


dade e parâmetro de não centralidade
Sx (β1 − β ∗ )
ξ= . (1.16)
σ
23

Demonstração: Pelo Teorema 1.1, temos que


σ2
 
β̂1 − β1 ∼ N 0, 2 .
Sx
Assim, como
β̂1 − β ∗ = β̂1 − β1 + β1 − β ∗ ,

resulta que
σ2
 
∗ ∗
β̂1 − β ∼ N β1 − β , 2 ,
Sx
implicando em
Sx (β̂1 − β ∗ ) Sx (β1 − β ∗ )
 
∼N ,1 . (1.17)
σ σ
Ainda pelo Teorema 1.1, temos que SQres e β̂1 − β ∗ são independentes. Basta então
fazer a razão entre a variável em (1.17) e
 1/2
QMres
,
σ2
e utilizar o item 2 do Teorema 1.1 mais a definição da distribuição t não central para
obter o resultado.

Assim, para um θ = (β0 , β1 , σ 2 ) qualquer (não necessariamente em H0 ou H1 ),


resulta que que a função poder definida em (1.15) é dada por

ψ(θ) = Pθ (| T |> c)
= Pθ (T > c) + Pθ (T < −c)
= P (t(n−2,ξ) > c) + P (t(n−2,ξ) < −c), (1.18)

onde ξ é dado em (1.16). Observemos também que ξ = 0 se e somente se β1 = β ∗ ,


ou seja, se a hipótese H0 for verdadeira. Assim, neste caso e somente neste, T tem
distribuição t central.

Um fato interessante é que, vista como função somente de β1 (ou seja, fixando os
outros parâmetros), a função ψ em (1.18) é tal que

ψ(β1 + β ∗ ) = ψ(−β1 + β ∗ )
24

para todo β1 ∈ R. Isto quer dizer que, vista somente como função de β1 , ψ é simétrica
em torno de β ∗ . Uma sugestão de demonstração deste resultado está no exercı́cio 9.

Exemplo 1.6 Considere o teste t bilateral para testar H0 : β1 = 0. A função poder do


teste é dada em (1.18), com
Sx β1
ξ= .
σ
Para os dados do exemplo 1.1, temos Sx2 = 0.49. Utilizando como estimativa para σ a
raiz do valor observado de QMres (σ̂ = 0.0962) e um nı́vel de significância igual a 5%,
obtemos a tabela 1.2 com valores de ψ(β1 ).

Tabela 1.2: Valores da Função Poder do


Teste t Bilateral para H0 : β1 = 0. Dados
da Tabela 1.1.
β1 ψ(β1 )
0.00 0.0500
0.02 0.0710
0.04 0.1325
0.06 0.2393
0.08 0.3844
0.10 0.5486

Finalmente, suponha que definamos a hipótese alternativa como

H1 : β1 > β ∗ .

Neste caso é intuitivo utilizarmos uma regra de decisão unilateral, ou seja,

Rejeitar H0 se e somente se T > c

e tomar como valor crı́tico


c = tn−2;α ,

a fim de obter um teste com nı́vel se significância α. Caso a hipótese alternativa seja

H1 : β1 < β ∗ ,
25

tomamos como regra de decisão para um teste de nı́vel α,

Rejeitar H0 se e somente se T < −tn−2;α .

Exemplo 1.7 No caso da emissão de poluentes, temos que o valor observado de QMres
é 0.74/8 = 0.0925, de tal forma que o valor observado da estatı́stica T é
 1/2
sx β̂ 40.9
= × 0.387 = 8.14.
(QMres)1/2 0.0925

Neste caso é natural supormos que a redução média na emissão de poluente não
diminui quando aumentamos a quantidade de aditivo, de modo que podemos considerar
como hipótese alternativa H1 : β1 > 0. Para um teste unilateral de nı́vel α = 0.05, temos
t8;5% = 1.86, de modo que rejeitamos H0 : β1 = 0. A probabilidade de significância é

pv = P (t8 > 8.14) ∼


= 0.

Assim, os dados fornecem evidências de uma redução significativa nos nı́veis médios de
óxido de nitrogênio quando o aditivo é utilizado.

1.3.5 Estimação da Média da Variável Resposta

Seja x um valor da variável regressora. Pela discussão apresentada após a definição


1.3, temos que o estimador de máxima verossimilhança para a média µ(x) é dado por

µ̂ (x) = βˆ0 + βˆ1 x.

Observe que µ̂(x) é um estimador não viciado para µ(x), pois

E (µ̂ (x)) = β0 + β1 x = µ (x) .

O teorema a seguir mostra a distribuição de µ̂(x).


26

Teorema 1.3 " !#


2
1 (x − x̄)
µ̂ (x) ∼ N µ (x) , σ 2 +
n Sx2

Corolário 1.2
µ̂ (x) − µ (x)
r h 2
i ∼ tn−2
(x−x̄)
QMres n1 + S 2
x

A demonstração do teorema fica para o capı́tulo 2, onde todos os teoremas vistos


até aqui serão enunciados de um forma mais geral. A demonstração do corolário segue
as mesmas linhas da demonstração do Corolário 1.1. Como corolário do Corolário 1.2
temos o seguinte resultado:

Corolário 1.3 Um intervalo com coeficiente de confiança (1 − α)100% para µ(x) é


dado por
" !#1/2
1 (x − x̄)2
µ̂ (x) ± tn−2;α QMres + . (1.19)
n Sx2

Exemplo 1.8 Em relação aos dados da tabela 1.1, a redução esperada correspondente
à quantidade de aditivo x = 4 é estimada por

µ̂ (x) = βˆ0 + βˆ1 x = 2 + 0.387 × 4 = 3.548.

Temos que x̄ = 3.9, s2x = 40.9 e t8;0.025 = 2.306. Assim, um intervalo de confiança a
95% para µ(4) é dado por
s
(4 − 3.9)2

1
3.548 ± 2.306 × 0.0925 × +
10 40.9

= [3.33; 3.77].
27

Suponha que desejamos também estimar a redução média em x = 7.5. Seguindo


os mesmo passos, temos que a estimativa pontual de µ(7.5) é

µ̂(7.5) = 2 + 0.387 × 7.5 = 4.9

e um intervalo de confiança para µ(7.5) a 95% é dado por


s
(7.5 − 3.9)2

1
4.9 ± 2.306 × 0.304 × + = [4.45; 5.35]
10 40.9

O comprimento do intervalo de confiança (1.19) (ou seja, o extremo superior do


intervalo menos o extremo inferior) é dado por
" !#1/2
1 (x − x̄)2
2tn−2;α QMres + . (1.20)
n Sx2

Observando este comprimento como função de x, vemos que este atinge o seu mı́nimo
quando x = x̄ e aumenta conforme aumenta a distância entre x e x̄. Isto mostra que
a previsão da média é mais precisa próximo de x̄ e torna-se crescentemente imprecisa
quando nos afastamos de x̄ (veja os comprimentos dos dois intervalos obtidos no exemplo
acima em x = 4 e em x = 7.5). Em particular não é recomendável obter previsões
para valores x distantes de mı́n{x1 , . . . , xn } ou máx{x1 , . . . , xn }. Equivalentemente,
podemos notar que o comprimento em (1.20) é diretamente proporcional ao desvio
padrão estimado de µ̂(x), apresentado no Teorema 1.3. O aumento de imprecisão na
estimação é então equivalente ao aumento na variabilidade do estimador.

Para ter uma visão clara sobre como pode ser uma má idéia obter estimativas da
média da variável resposta muito afastadas do “padrão”das observações, observemos
a figura 1.6, onde um modelo de regressão linear é adequado para descrever a relação
entre as variáveis no intervalo de valores da variável regressora que vai de 5 a 10. No
entanto, se a reta estimada fosse estendida para estimar a resposta média em x = 20,
terı́amos uma estimativa absurdamente irreal.
28

Figura 1.6: O Risco de uma Previsão Afastada

1.3.6 Previsão de uma Observação Futura da Variável Res-


posta

Trataremos agora de uma questão similar, mas não equivalente, à da seção ante-
rior, onde obtivemos um estimador para a média da variável resposta em um determi-
nado nı́vel da variável regressora. Nesta seção, desejamos prever uma futura observação
da variável resposta para um determinado valor x da variável regressora. Esta questão
é diferente da anterior, pois envolve uma inferência sobre uma observação ainda não re-
alizada da variável resposta. Se as condições experimentais permitirem podemos obter
futuramente a observação. Isto é totalmente diferente de estimar a média µ(x), uma
vez que possivelmente jamais saberemos o seu verdadeiro valor.

Vamos assumir que as observações disponı́veis Y1 , . . . , Yn , são independentes da


futura observação Y ∗ correspondente a um valor da variável regressora x∗ e que a
distribuição de Y ∗ é normal com média µ(x∗ ) e variância σ 2 . Como os estimadores βˆ0
29

e β̂1 dependem somente de Y1 , . . . , Yn , vem que Y ∗ é independente de (βˆ0 , β̂1 ). Como


µ̂(x∗ ) = βˆ0 + β̂1 x∗ , temos que Y ∗ e µ̂(x∗ ) também são independentes, além de terem
distribuição normal com a mesma média µ(x∗ ). Além disso,
" #
∗ ∗ ∗ ∗ 2 2 1 (x∗ − x̄)2
V ar (Y − µ̂(x )) = V ar (Y ) + V ar (µ̂(x )) = σ + σ + .
n Sx2
Demonstramos então o seguinte teorema:

Teorema 1.4
Y ∗ − µ̂(x∗ )
h i1/2 ∼ N (0, 1),
1 (x∗ −x̄)2
σ 1+ n
+ Sx2

que implica no

Corolário 1.4
Y ∗ − µ̂(x∗ )
n h io1/2 ∼ tn−2 .
1 (x∗ −x̄)2
QMres 1 + n + S 2
x

Assim, o intervalo aleatório


( " #)1/2
1 (x∗ − x̄)2
µ̂(x∗ ) ± tn−2,α/2 QMres 1 + +
n Sx2
é um intervalo de previsão para Y ∗ com coeficiente de confiança 1 − α

Exemplo 1.9 Para os dados da tabela 1.1, suponha que desejamos prever a redução
de óxido de nitrogênio para a quantidade de x∗ = 4.5 unidades de aditivo. A estimativa
da redução média é
µ̂(4.5) = 2 + 0.387 × 4.5 = 3.74
e o intervalo de previsão a 95% é dado por
s
1 (4.5 − 3.9)2
3.74 ± 2.306 × 0.304 1 + +
10 40.9
= (3.00; 4.48).
30

1.3.7 Alguns Comentários Sobre a Adequação do Modelo de


Regressão Linear Simples

A aplicabilidade dos procedimentos vistos até agora depende da validade das su-
posições feitas na definição do modelo de regressão linear. Estimações pontuais, por
intervalo e testes de hipóteses só fazem sentido quando estas suposições se verificam.
Portanto, é essencial uma análise cuidadosa dos dados com o objetivo de detectar al-
guma violação destas suposições. Didaticamente, podemos listá-las da seguinte maneira,
conforme a definição 1.2:

1. As variáveis Y1 , . . . , Yn são independentes;

2. As variáveis Y1 , . . . , Yn têm a mesma variância;

3. A distribuição de Yi é normal, ı = 1, . . . , n;

4. A média da variável resposta é uma função linear de (β0 , β1 ) e uma função afim
da variável regressora.

Boa parte dos procedimentos para verificação da validade destas suposições utiliza
como elemento básico os resı́duos Ei , definidos em (1.10). Nesta seção vamos tratar
somente da análise dos resı́duos para verificar a validade da suposição de normalidade.
A análise para a validação das outras hipóteses será vista com detalhes no capı́tulo 3,
que é exclusivamente dedicado à este tema.

Em relação à distribuição dos resı́duos, temos o

Teorema 1.5 " !#


1 (xi − x̄)2
Ei ∼ N 0, σ 2 1− − .
n Sx2
31

Este teorema não será demonstrado agora. Isto será feito em um contexto bem
mais geral, no capı́tulo 3.

Observe que, pelo teorema 1.5, a variância de Ei tende para σ 2 quando n → ∞ e


Sx2 → ∞.

O resı́duo Ei é conhecido como Resı́duo Ordinário. Para os nossos propósitos é


mais interessante trabalhar com os Resı́duos Padronizados, que são definidos por
Ei
Ri = q (1.21)
1 (xi −x̄)2
σ 1− n
− Sx2

e que, é claro, têm distribuição normal padrão. Também é possı́vel mostrar que, sob
certas condições que serão vistas no capı́tulo 3, estes resı́duos são aproximadamente
não correlacionados. Se isto ocorre, podemos tratar R1 , . . . , Rn como uma amostra
aleatória proveniente de uma distribuição normal padrão5 . Daı́ vem a idéia de verificar
a suposição de normalidade das observações através da inspeção da distribuição dos
resı́duos padronizados. Se todas as outras suposições forem mantidas (ou seja, lineari-
dade, independência e variância constante) então espera-se, pelo que discutimos acima,
que os resı́duos padronizados constituam uma amostra aleatória de uma normal padrão.
Se isto não ocorrer, é por quê a distribuição associada às observações não é normal.

Para verificar se uma determinada amostra aleatória é proveniente de uma po-


pulação com distribuição normal utilizaremos um Gráfico de Probabilidade Normal (ou,
em inglês, Normal Probability Plot). Se os resı́duos tiverem distribuição normal padrão e
forem aproximadamente independentes, o gráfico deve apresentar uma tendência linear,
uma reta passando pela origem. A seguir daremos a justificativa para esta metodologia.

O gráfico de probabilidade normal é uma forma visual de obtermos alguma evidência


contra a hipótese da ocorrência conjunta de duas suposições: i) a amostra R1 , . . . , Rn é
5
Uma Amostra Aletória Proveniente de Uma População com determinada distribuição é um vetor
de variáveis aleatórias independentes e identicamente distribuı́das.
32

aleatória e ii) ela é proveniente de uma população normal. Supondo que i) é verdadeira,
seja F a função de distribuição de cada Ri , que é desconhecida. Devemos então estimá-
la com o objetivo de compará-la com a distribuição normal. Um estimador natural é a
Função de Distribuição Empı́rica, F̂n (x), definida da seguinte maneira: seja
(
1 se Ri ≤ x
Zi = .
0 se Ri > x
Então n
1X
F̂n (x) = Zi . (1.22)
n i=1

Assim, para cada x ∈ R, F̂n (x) é uma variável aleatória6 que é observada verificando-se
quantos dentre os resı́duos observados r1 , . . . , rn são menores ou iguais a x.

Seja Φ a função de distribuição normal padrão. Caso Ri tenha distribuição normal


com média µ e variância σ 2 obtemos, para x ∈ R,
   
Ri − µ x−µ x−µ
F (x) = P (Ri ≤ x) = P ≤ =Φ ,
σ σ σ
de modo que o gráfico da função definida por
x−µ
λ(x) = Φ−1 (F (x)) = , x∈R
σ
é uma reta. A idéia é que este comportamento se reproduza caso substituamos F (x)
por F̂n (x).

Sejam r(1) , . . . , r(n) os resı́duos colocados em ordem crescente. Temos que


 i
F̂n r(i) = , ı = 1, . . . , n
n
6
Observe que cada Zi tem distribuição de Bernoulli com probabilidade de sucesso P (Ri ≤ x) =
F (x). Como conseqüência imediata, podemos provar, utilizando a Lei Forte dos Grandes Números e o
Teorema Central do Limite, que
1. Quando n tende para o infinito, F̂n (x) → F (x) com probabilidade 1
2. Para n grande, a distribuição de F̂n (x) é aproximadamente normal com média F (x) e variância
F (x)[1 − F (x)]/n.
33

e assim  
−1
 
−1 i
Φ F̂n (r(i) ) = Φ .
n
Assim, se a distribuição dos resı́duos for igual a Φ, teremos que uma representação
gráfica dos pontos
     
i
−1 −1
r(i) , Φ F̂n (r(i) ) = r(i) , Φ (1.23)
n

deve apresentar uma tendência linear.

Observe que temos um problema no caso em que ı = n, pois


 
−1 i
Φ = Φ−1 (1) = ∞.
n

Devido a isto, é usual marcar no gráfico os pontos


  
−1 i − 1/2
ri , Φ ,
n

em vez dos pontos em (1.23).

Exemplo 1.10 Na figura 1.7 temos um gráfico de probabilidade normal para os resı́duos
padronizados no caso dos dados da tabela 1.1. Claramente não existe uma tendência
linear. Mas talvez fosse necessário obter mais observações para podermos detectar a
violação da hipótese de normalidade.

1.3.8 E Quando os Valores da Variável Regressora não Pude-


rem ser Pré-fixados?

Na análise que apresentamos até agora está incorporada a hipótese de que os


valores da variável regressora são pré-fixados, ou seja, no modelo de regressão linear

Yi ∼ N (β0 + β1 xi , σ 2 ) ı = 1, . . . , n
34

Figura 1.7: Gráfico de Probabilidade Normal para os Dados na


tabela 1.1

temos que x1 , . . . , xn são constantes pré-estabelecidas: o experimentador determina o


valor xi da variável regressora e observa o respectivo valor yi da variável resposta. Este
tipo de procedimento é apropriado em muitos experimentos. Além dos exemplos que
já vimos, podemos citar os seguintes:

• Na área médica, um pesquisador pode estar interessado no estudo da relação entre


doses de ingestão de carboidrato e o conseqüente ganho de peso. As doses devem
ser pré-fixadas pelo pesquisador;

• Na agricultura, um problema relevante é determinar a dosagem ideal de ferti-


lizante necessária para otimizar a produção de uma determinada cultura. Os
diferentes nı́veis de dosagem são pré-estabelecidos e o correspondente nı́vel de
produção é observado;

• Ainda na área médica, mais especificamente em neurofisiologia, é de interesse


estudar a relação existente entre a magnitude de um determinado estı́mulo visual,
35

com nı́veis fixados a priori, e o tempo de reação a estı́mulos.

Ocorre que em muitas situações não é possı́vel fazer o controle dos valores da
variável regressora. Por exemplo, em um curso de lı́nguas é de interesse relacionar os
escores dos estudantes em um teste antes do curso com os escores obtidos em um teste
após o curso. É claro que estes valores não podem ser pré-fixados, devem ser observados.

O que precisamos neste momento é de uma reformulação do nosso modelo es-


tatı́stico com o objetivo de englobar situações como esta. Consideremos então a questão
prever uma variável aleatória Y a partir da observação de uma variável aleatória X.
Vamos definir um Preditor de Y como sendo qualquer variável aleatória da forma ϕ(X).
Seja
EQM[ϕ(X)] = E [Y − ϕ(X)]2

o Erro Quadrático Médio na Previsão de Y por ϕ(X). Temos então o seguinte teorema

Teorema 1.6 Existe uma única função ϕ∗ tal que

EQM[ϕ∗ (X)] ≤ EQM[ϕ(X)]

para toda função ϕ. Temos que

ϕ∗ (X) = E(Y |X).

Demostração: Observemos que

E [Y − ϕ(X)]2 = E [Y − ϕ∗ (X) + ϕ∗ (X) − ϕ(X)]2


= E [Y − ϕ∗ (X)]2 + E [ϕ∗ (X) − ϕ(X)]2 . (1.24)

A segunda igualdade é uma conseqüência de

E {[Y − ϕ∗ (X)] [ϕ∗ (X) − ϕ(X)]} = 0.


36

Para ver que isto é verdade, façamos H(X) = ϕ∗ (X) − ϕ(X). Então,

E {[Y − ϕ∗ (X)] H(X)} = E {H(X)E {[Y − ϕ∗ (X)] |X}} = 0,

pois

E {[Y − ϕ∗ (X)] |X} = E(Y |X) − E [ϕ∗ (X)|X]


= E(Y |X) − ϕ∗ (X) = 0.

Por (1.24) vem então que

E [Y − ϕ(X)]2 ≥ E [Y − ϕ∗ (X)]2 (1.25)

para todo preditor ϕ(X). A demonstração da unicidade fica como exercı́cio (exercı́cio
12).

Pelo Teorema 1.6 temos que E(Y |X) é o preditor com menor erro quadrático
médio7 .

A abordagem a seguir mostra a conexão entre esta teoria e os modelos de regressão.


Dizemos que um vetor aleatório (X, Y ) tem Distribuição Normal Bivariada quando tiver
densidade
1
f (x, y) = p
2πσx σy 1 − ρ2
( " 2     2 #)
1 x − µx x − µx y − µy y − µy
× exp − − 2ρ + ,
2 (1 − ρ2 ) σx σx σy σy
7
Observemos que o conjunto L2 formado por todas as variáveis aleatórias definidas em um mesmo
espaço de probabilidade e com segundo momento finito é um espaço vetorial sobre R (Brockwell e
Davis, 1991, Pág 46). Definamos neste espaço a norma

k X k2 = E(X 2 ),

de modo que a desigualdade em (1.25) pode ser escrita como

k Y − ϕ(X) k2 ≥ k Y − ϕ∗ (X) k2 . (1.26)

Seja X ∈ L2 . O conjunto M(X) formado por todas as variáveis aleatórias em L2 da forma ϕ(X) é
um subespaço vetorial de L2 . A desigualdade (1.26) significa que ϕ∗ (X) minimiza a distância de Y a
M(X). Ou seja, E(Y |X) é a projeção de Y sobre M(X).
37

(x, y) ∈ R2 . Pode-se mostrar que o vetor de médias e a matriz de covariância de (X, Y )


são dados, respectivamente, por

µ = [E(X), E(Y )] = [µx , µy ]

e " # " #
Var(X) Cov(X, Y ) σx2 ρσx σy
Σ= = ,
Cov(X, Y ) Var(Y ) ρσx σy σy2
onde Cov(X, Y ) é a covariância e ρ é o coeficiente de correlação entre X e Y . Escrevemos
então
(X, Y ) ∼ N2 (µ, Σ). (1.27)

Teorema 1.7 Seja (X, Y ) um vetor aleatório com distribuição normal bivariada como
em (1.27). Então a distribuição condicional de Y dado que X = x é

N β0 + β1 x, σ 2 ,
 

onde
σy σy
σ 2 = σy2 1 − ρ2 .

β0 = µy − ρ · µx , β1 = ρ · e
σx σx

A demonstração pode ser encontrada em diversas referências que tratam de inferência


multivariada como, por exemplo, Rao (1973, Pág 202). Assim, quando o vetor (X, Y )
tem distribuição normal bivariada, a função de X que minimiza o erro quadrático médio
é8
ϕ(X) = E(Y |X) = β0 + β1 X. (1.28)

Se β0 e β1 forem conhecidos, o problema da previsão de Y baseado em X está resolvido.


Caso contrário, é necessário estimar estes parâmetros. Seja x um valor observado de
X. Como vimos no Teorema 1.7, β0 e β1 são parâmetros associados à distribuição
8
No caso em que a distribuição de (X, Y ) não é normal não há razão para supor que E(Y |X) é
uma função linear de X, como em (1.28). A projeção de Y sobre o espaço vetorial formado pelas
combinações lineares da forma a + bX é denominada O Melhor Preditor Linear de Y em Termos de
X. O erro quadrático médio do melhor preditor linear é sempre menor ou igual que o erro quadrático
médio de E(Y |X), pela definição de projeção. No caso da distribuição normal, os erros são iguais.
38

condicional de Y |X = x, que é N (β0 + β1 x, σ 2 ). Para estimar estes parâmetros, basta


então tomar uma amostra de uma população com esta distribuição. Temos então que o
modelo estatı́stico a ser considerado é equivalente ao modelo na Definição 1.2, adequado
para o caso em que um valor x da variável regressora é pré-fixado.

Concluimos então que, o modelo estatı́stico utilizado com o objetivo de obter uma
previsão de Y a partir de um valor observado x do regressor X é equivalente ao modelo
para o caso em que fixamos o valor x, de modo que todas as técnicas de estimação e
testes que utilizamos antes podem ser utilizadas no contexto desta seção.

Exemplo 1.11 Os dados a seguir são relativos à performance de corredoras na prova


de 10 km rasos. Deseja-se estudar o comportamento da variável Y que é o tempo (em
segundos) para completar a prova com base nos valores observados da variável X que
é o poder aeróbico máximo (ou seja, o volume máximo de oxigênio absorvido, VO2 ).

Tabela 1.3: Caracterı́sticas Fı́sicas e Perfor-


mance de 14 Corredoras.
X 61.32 55.29 52.83 57.94 53.31
Y 39.37 39.80 40.03 41.32 42.03
X 51.32 52.18 52.37 57.91 53.93
Y 42.37 43.93 44.90 44.90 45.12
X 47.88 47.41 47.17 51.05
Y 45.60 46.03 47.83 48.55

Fonte: Conley, D.L., G.S. Krahenbuhl, L.n. Burkett and A.L. Millar (1981).
Phisiological Correlates of Female Road Racing Performance . Res. Quart. Exercise
Sport, 52,. 441-448.

Na figura 1.8 temos o diagrama de dispersão para as observações. Aparentemente


um modelo de regressão linear simples é adequado para descrevê-las. A reta de regressão
estimada é
µ̂(x) = 68.5 − 0.468x
39

Figura 1.8: Tempo para Completar a Prova dos 10 km rasos por


Capacidade Aeróbica Máxima

Observe que

µ̂(x) − µ̂(x + 1) = 68.5 − 0.468x − 68.5 + 0.468x + 0.468 = 0.468

de modo que um aumento de uma unidade na capacidade aeróbica implica em uma


redução no tempo de prova de 0.468 segundos.

Na figura 1.9 temos um gráfico de probabilidade normal para os resı́duos padro-


nizados. Aparentemente não há violação da hipótese de normalidade.

Como já discutimos antes, os procedimentos de estimação e testes só serão confiáveis
se as hipóteses do modelo de regressão linear estiverem satisfeitas. Neste ponto ainda
precisarı́amos checar as outras hipóteses (variância constante, independência etc). Não
vimos ainda as técnicas necessárias para isto, de modo que o exemplo com o qual
estamos trabalhando serve de simples ilustração.
40

Figura 1.9: Gráfico de Probabilidade Normal para os Dados da


Tabela 1.3

Antes de testarmos a significância da variável poder aeróbico máximo observemos


que é natural supor que que um atleta com maior capacidade aeróbica necessariamente
completará a prova em um tempo menor, de modo que podemos restringir o espaço
paramétrico do nosso modelo considerando β1 ≤ 0. Para testar

H0 : β1 = 0 contra H1 : β < 0

podemos utilizar o teste t unilateral. O valor observado da estatı́stica de teste

(Sx β̂1 )/(QMres)1/2

é -3.04 (note que o valor observado de SQres é 63.72, e temos 14 − 2 = 12 graus de


liberdade associados à distribuição da estatı́stica de teste sob a hipótese nula).

A probabilidade de significância associada ao valor observado da estatı́stica de


teste é
P (t12 < −3.04) = 0.0051
41

indicando a rejeição de H0 . Para o teste bilateral a probabilidade de significância


associada ao teste de H0 contra H1 : β1 6= 0 é dada por

P (|t12 | > 3.04) = 2 × 0.0051 = 0.0102.

Assim, existem evidências de associação linear entre as variáveis.

Para uma capacidade aeróbica máxima x = 56, temos uma estimativa da média
igual a µ̂(56) = 42.292, com desvio padrão estimado 0.769, e respectivo intervalo de
confiança a 95% dado por (40.617; 43.967). O intervalo de previsão da observação futura
relativa a este valor é (37.012; 47.572), com coeficiente 95%.
42

1.4 Exercı́cios

1. Considere o modelo de regressão linear simples e os resı́duos Ei , i = 1, . . . , n:

(a) Mostre que Ei = Yi − Y − β̂1 (xi − x), i = 1, . . . , n;

(b) Mostre que ni=1 Ei = 0;


P

(c) Mostre que, para i 6= j,

σ 2 (xi − x)(xj − x)
Cov[Yi , β̂1 (xj − x)] = Cov[β̂1 (xi − x), β̂1 (xj − x)] = ;
Sx2

(d) Utilize estes resultados para mostrar que


 
2 1 (xi − x)(xj − x)
Cov(Ei , Ej ) = −σ + .
n Sx2

2. Verifique que, quando fixados β0 e β1 , o estimador σ̂ 2 definido em (1.11) maximiza


a função de verossimilhança no modelo de regressão linear simples.

3. Demonstre o Corolário 1.2.

4. Mostre que, para x ∈ R a seqüência de estimadores {F̂n (x)} definida em (1.22)


satisfaz
F̂n (x) → F (x)

com probabilidade 1, quando n tende para o infinito.

5. Demonstre o Teorema 1.7.

6. Gere em computador observações de um modelo de regressão linear simples, mas


substituindo a distribuição normal das observações por outra distribuição contı́nua
que você achar conveniente;

(a) Faça um gráfico de probabilidade normal e comente;


43

(b) Repita o procedimento de geração 1000 vezes, fixando os valores dos parâmetros
β0 e da variância das observações em todas as amostras geradas. Para cada
amostra, teste a hipótese H0 : β1 = 0 utilizando o teste definido em (1.14).
Obtenha a proporção de rejeições de H0 para diversos valores de β1 ; comente
os resultados.

7. Considere que em um experimento conduzido por um agrônomo, com o objetivo


de modelar a relação entre doses de fertilizante (x) e produção de uma espécie de
milho (Y ), foram obtidas as seguintes quantidades: n = 15; x = 10, 8; y = 122, 7;
Sx2 = 70, 6; Sy2 = 98, 5; Sxy = 68, 3. Supondo que o modelo de regressão linear
simples é adequado para descrever a relação

(a) Encontre a reta de regressão estimada;

(b) Construa um intervalo de confiança para a produção esperada correspondente


a x = 12;

(c) Construa um intervalo de previsão para uma nova observação correspondente


a x = 15.

(d) O agrônomo conjectura que o aumento de uma unidade de fertilizante pro-


voca um aumento médio na produção maior que 0,6. Os dados fornecem
evidências de que esta afirmação é correta?

8. Uma loja de carros importados oferece algumas unidades de um modelo de um


determinado fabricante. Os preços estão listados na tabela abaixo, e são acompa-
nhados da idade do carro.
44

Idade (em anos) Preço (em $1000)


1 39,9
2 32,0
4 25,0
5 20,0
6 16,0
6 20,0
10 13,0
11 13,7
11 11,0
12 12,0
12 20,0
12 9,0
12 9,0
13 12,5
15 7,0

(a) Construa um diagrama de dispersão;

(b) Obtenha a reta de regressão ajustada;

(c) Comente sobre a possiblidade de utilizar o modelo de regressão linear simples


para descrever a relação entre idade e preço;

(d) Supondo a adequabilidade do modelo, teste a hipótese de que a média de


preço depende da idade do carro;

(e) Obtenha uma previsão para um carro com 19 anos de idade. Comente sobre
os riscos de fazer esta previsão.

9. Considere o teste t bilateral para a hipótese H0 : β1 = β ∗ contra a alternativa


H1 : β1 6= β ∗ . Mostre que, vista como função somente de β1 , a função poder do
teste é simétrica em torno de β ∗ . (Sugestão: observe que os parâmetros de não
centralidade para calcular ψ(β1 + β ∗ ) e ψ(−β1 + β ∗ ) são iguais a ξ = β1 /(σSx ) e
δ = −β1 /(σSx ), respectivamente. A partir daı́ deduza que tξ = −tδ .)
45

10. Considere o modelo de regressão linear definido por variáveis aleatórias indepen-
dentes Y1 , . . . , Yn tais que
Yi ∼ N (βxi , σ 2 ),

onde xi , i = 1, . . . , n são valores fixados da variável regressora e σ 2 > 0. Sejam β̂


e σ̂ 2 os EMV’s e SQres a soma dos quadrados dos resı́duos.

(a) Escreva a função de verossimilhança associada ao modelo;

(b) Encontre β̂ e σ̂ 2 ;
Sugestão: use derivadas.
Pn
(c) Pode-se mostrar que β̂ ∼ N (β, σ 2 / i=1 x2i ), que SQres/σ 2 ∼ χ2n−1 e que esta
última variável é independente de β̂. Com base nisto encontre um intervalo
de confiança com coeficiente 1 − α para β;

(d) Defina um teste para a hipótese β = 0 contra a alternativa β > 0;

(e) Encontre a função poder do teste definido no item anterior.

11. Na área de quı́mica existe um interesse em uma propriedade do plutônio cha-


mada solubilidade, que depende da temperatura. Os dados a seguir referem-se a
mensurações de pó de plutônio em uma mistura fundida. Para diferentes nı́veis
de temperatura x (em 1000/temperatura em graus centı́grados) foi observada a
variável Y = − log10 (solubilidade).

x 1,68 1,74 1,85 1,92 1,99 1,82 1,69 1,60 1,52


Y 0,33 0,41 0,57 0,65 0,77 0,57 0,35 0,18 0,14

Utilizando o modelo de regressão linear:

(a) Encontre a estimativa da média da variável Y para cada valor x;

(b) Teste a hipótese de que a solubilidade depende da temperatura;

(c) Encontre um intervalo de previsão para uma nova mensuração correspon-


dente à 714 graus centı́grados.
46

12. Mostre que ϕ(X) = E(Y |X) é a única função de X que satisfaz a desigualdade
(1.25).
Sugestão: Seja ξ(X) também satisfazendo a desigualdade (1.25). Então, necessa-
riamente
EQM(ϕ(X)) = EQM(ξ(X)).

Prove então que E(ϕ(X) − ξ(X))2 = 0 utilizando o fato (que também deve ser
demonstrado) de que
 2
2 ϕ(X) + ξ(X)
+2 E(ϕ(X) − Y )2 + E(ξ(X) − Y )2
 
E(ϕ(X)−ξ(X)) = −4E −Y
2
Capı́tulo 2

O Modelo de Regressão Linear


Múltipla

2.1 Notação

Para denotar que uma matriz A tem ordem n × m utilizaremos a notação A :


n × m. O termo Vetor Coluna n- Dimensional refere-se a uma matriz de ordem n ×
1. A′ denota a transposta da matriz A e |A| o determinante de A. In é a matriz
identidade de ordem n × n.O Vetor de Médias de um vetor aleatório Y = (Y1 , . . . , Yn )′
é o vetor E(Y ) = (E(Y1 ), . . . , E(Yn ))′ . A matriz de covariâncias de Y é a matriz Σ =
Cov(Y ) : n × n tal que Σij = Cov(Yi , Yj ). Serão utilizados alguns resultados relativos
à álgebra linear, esperança, matriz de covariâncias, diferenciação de funcões vetoriais e
distribuição normal multivariada que estão nos apêndices C, A, D e E. De fundamental
importância é a noção de Produto Interno Entre Dois Vetores x e y, definido por x′ y.

A Norma (Euclideana) do Vetor x é então dada por kxk = x′ x.

47
48

2.2 O Modelo

O problema a ser tratado neste capı́tulo é da mesma natureza do que foi abordado
no capı́tulo anterior, só que com a possibilidade de mais de uma variável regressora no
modelo. Especificamente, suponhamos que para a i-ésima unidade amostral tenhamos
valores fixados
xi1 , xi2 , . . . , xi(p−1)

de p − 1 variáveis regressoras (p > 1) e observamos o valor de uma variável resposta Yi ,


i = 1, . . . , n, n < p.

Definição 2.1 O Modelo de Regressão Linear Múltipla é definido por observações in-
dependentes Y1 , . . . , Yn tais que

Yi ∼ N (µi , σ 2 ),

onde

µi = β0 + β1 xi1 + β2 xi2 + · · · + β(p−1) xi(p−1) , ı = 1, . . . , n (2.1)

e σ 2 > 0.

Antes de prosseguirmos com estimações e testes de hipóteses, um comentário sobre


o caso em que os valores dos regressores devem ser observados, ou seja, não têm nı́veis
fixados. Seja X = (X1 , . . . , Xp−1 ) o vetor de variáveis regressoras e definamos um
Preditor de Y Baseado em X como sendo qualquer variável aleatória da forma ϕ(X),
exatamente como na seção 1.3.8. Seja

EQM(ϕ(X)) = E[Y − ϕ(X)]2

o Erro Quadrático Médio na Previsão de Y por ϕ(X). O teorema a seguir mostra que,
no caso de distribuição normal, esta situação é equivalente ao caso de nı́veis fixados.
49

Teorema 2.1 Suponha que


(Y, X1 , . . . , X(p−1) )
tem distribuição normal p-variada. Então existem β0 , β1 , . . . , βp−1 tais que

1. E(Y |X) = β0 + β1 X1 + . . . + βp−1 Xp−1 ;

2. E(Y |X) tem o menor erro quadrático médio entre todos os preditores de Y base-
ados em X.

Assim, podemos tratar o caso em que o vetor (Y, X1 , . . . , X(p−1) ) é observado da


mesma maneira que o caso em que valores dos regressores são pré-fixados.

A notação mais adequada para a abordagem teórica das propriedades do modelo


de regressão linear múltipla é a notação matricial. Seja

Y = (Y1 , . . . , Yn )′ (2.2)

o vetor de observações. Como Y1 , . . . , Yn são independentes, temos que a densidade


conjunta destas variáveis aleatórias (que é a densidade de Y ) é dada por
( n
)
1 1 X
f (y1 , . . . , yn ) = exp − 2 (yi − µi )2
(2πσ 2 )n/2 2σ i=1
 
1 1 ′ 2
−1
= · exp − (y − µ) σ In (y − µ) , (2.3)
(2π)n/2 |σ 2 In |1/2 2

onde y = (y1 , . . . , yn )′ e µ = (µ1 , . . . , µn )′ . Pela definição do modelo temos que

µ = Xβ,

onde  
1 x11 . . . x1(p−1)
 1 x21 . . . x2(p−1) 
X= (2.4)
 
.. .. ... .. 
 . . . 
1 xn1 . . . xn(p−1)
50

e
′
β = β0 , β1 , . . . , β(p−1) . (2.5)

Assim, a densidade em (2.3) é a de uma distribuição normal multivariada com vetor de


médias µ = Xβ e matriz de covariâncias σ 2 In . Ou seja, o modelo de regressão linear
múltipla pode ser redefinido por

Y ∼ Nn (Xβ, σ 2 In ), (2.6)

onde Nn denota a distribuição normal n-variada. Uma suposição adicional ao modelo


de regressão linear será a de que as colunas da matriz X são linearmente independentes.
Em alguns textos esta matriz recebe a denominação de Matriz de Planejamento.

2.3 Estimação

2.3.1 Pontos Crı́ticos da Função de Verossimilhança

Os estimadores de máxima verossimilhança para os parâmetros β e σ 2 são ob-


tidos maximizando o logaritmo da função de verossimilhança associada à amostra
y = (y1 , . . . , yn )′ , dado por
n 1
l(β, σ 2 ) = − log(2πσ 2 ) − 2 (y − Xβ)′ (y − Xβ), β ∈ Rp , σ 2 > 0. (2.7)
2 2σ
Para maximizar em β, consideramos σ 2 fixado e maximizamos a função parcial

β → l(β, σ 2 ), β ∈ Rp ,

o que é equivalente a minimizar

D (β) = (Y − Xβ)′ (Y − Xβ) , β ∈ Rp . (2.8)

Um ponto crı́tico de D é solução de


∂D (β)
= 0, ı = 0, . . . , p − 1 (2.9)
∂βi
51

de modo que precisamos obter estas derivadas parciais. Primeiramente, vamos reescre-
ver

D (β) = (Y ′ − β ′ X ′ ) (Y − Xβ)
= Y ′ Y − Y ′ Xβ − β ′ X ′ Y + β ′ X ′ Xβ
= Y ′ Y − 2β ′ X ′ Y + β ′ X ′ Xβ,

já que Y ′ Xβ tem dimensão 1 × 1 – pois as dimensões de Y , X e β são n × 1, n × p e


p × 1, respectivamente – implicando em

Y ′ Xβ = (Y ′ Xβ)′ = β ′ X ′ Y.

Seja  ′
∂D(β) ∂D(β) ∂D(β)
= ,..., .
∂β ∂β0 ∂β(p−1)
Utilizando resultados do Apêndice D, temos que
∂D(β)
= −2X ′ Y + 2X ′ Xβ.
∂β
As equações em (2.9) são equivalentes a
∂D(β)
= 0,
∂β
ou seja,
X ′ Xβ = X ′ Y. (2.10)

Esta equação é denominada Equação Normal. Assim, pontos crı́ticos de D devem


necessariamente ser solução de (2.10), se estas existirem. Se a matriz X ′ X for invertı́vel,
temos que a equação normal tem solução única, dada por

−1
β̂ = (X ′ X) X ′ Y. (2.11)

Uma condição suficiente para que X ′ X seja invertı́vel é que as colunas de X sejam
linearmente independentes. Este resultado é demonstrado na próxima seção.
52

2.3.2 Existência e Unicidade de Soluções da Equação Normal

A seguir apresentaremos dois resultados gerais que serão úteis na discussão sobre
a existência e unicidade de soluções da equação normal. Em particular, o Teorema 2.2
mostra que a equação normal sempre tem solução. Note que, para mostrar a existência
de soluções, em nenhum instante é utilizada a suposição de independência linear entre as
colunas de X. Note também que a primeira coluna de X não precisa ter necessariamente
todos os elementos iguais a 1.

Lema 2.1 O espaço gerado pelas colunas de X ′ X é igual ao espaço gerado pelas colunas
de X ′ .

Demonstração: Vamos mostrar que [span(X ′ X)]⊥ = [span(X ′ )]⊥ e usar o resultado
(C.7). Seja então z um vetor em [span(X ′ )]⊥ . Por definição, temos que z é ortogonal
às colunas de X ′ , ou seja, z ′ X ′ = 0. Transpondo, obtemos Xz = 0. Multiplicando por
X ′ nos dois lados desta igualdade temos X ′ Xz = 0 ou, transpondo, z ′ X ′ X = 0. Assim,
z é ortogonal às colunas de X ′ X, implicando que z ∈ [span(X ′ X)]⊥ . Isto prova que
[span(X ′ X)]⊥ ⊃ [span(X ′ )]⊥ . Para provar a inclusão contrária, tome z ∈ [span(X ′ X)]⊥ .
Então z ′ X ′ X = 0. Multiplicando os dois lados da igualdade por z, temos z ′ X ′ Xz = 0,
ou ainda, (Xz)′ Xz = 0. Como o único vetor ortogonal a ele mesmo é o vetor nulo,
resulta que Xz = 0, ou seja, z ′ X ′ = 0, concluindo a demonstração.

Teorema 2.2 A equação normal tem pelo menos uma solução ou, equivalentemente,
a função D tem pelo menos um ponto crı́tico.

Demonstração: Primeiramente, observe que o vetor X ′ Y está no espaço gerado pelas


colunas de X ′ – veja (C.4) – e, portanto, pelo Lema 2.1 resulta que X ′ Y está no espaço
gerado pelas colunas de X ′ X. Por definição de espaço vetorial gerado, existe então β
tal que X ′ Y = X ′ Xβ.
53

Teorema 2.3 X ′ X é invertı́vel se e somente se as colunas de X são linearmente inde-


pendentes.

Demonstração: Suponha que as colunas de X sejam linearmente independentes.


Então a dimensão do espaço gerado pelas colunas de X é p, que também é igual a
dimensão do espaço gerado pelas linhas de X. Esse espaço, por sua vez, é igual ao
espaço gerado pelas colunas de X ′ que por sua vez é igual ao espaço gerado pelas co-
lunas de X ′ X. Assim, a dimensão desse espaço é p, implicando que X ′ X é invertı́vel
(veja o Teorema C.3).

Como já discutimos antes, caso X ′ X tenha inversa a equação normal possui
solução única, dada em (2.11).

2.3.3 Pontos de Máximo Global da Função de Verossimilhança

Seja β̂ uma solução qualquer da equação normal – tendo X ′ X inversa ou não.


Esta solução será uma estimativa de máxima verossimilhança para β, se provarmos
que ela é um ponto de mı́nimo global da função D. Isto pode ser visto pelo seguinte
argumento:

D (β) = (Y − Xβ)′ (Y − Xβ)


 ′  
= Y − X β̂ + X β̂ − Xβ Y − X β̂ + X β̂ − Xβ
h  i′ h  i
= Y − X β̂ + X β̂ − β Y − X β̂ + X β̂ − β
 ′    ′  
= Y − X β̂ Y − X β̂ + Y − X β̂ X β̂ − β
 ′    ′  
′ ′
+ β̂ − β X Y − X β̂ + β̂ − β X X β̂ − β
 ′    ′  
= Y − X β̂ Y − X β̂ + β̂ − β X ′ X β̂ − β ,
54

pois, como β̂ é solução da equação normal, vale X ′ Y = X ′ X β̂. Observemos que a


primeira parcela na última expressão acima não depende de β e que a segunda parcela
é sempre não negativa, pois
 ′  
β̂ − β X ′ X β̂ − β = kX(β̂ − β)k2 .

Esta norma ao quadrado é igual a zero se e somente X(β̂ − β) = 0, pois o vetor


nulo é o único que possui norma igual a zero. Como as colunas de X são linearmente
independentes, temos que isto ocorre se e somente se β̂ − β = 0. Ou seja, o mı́nimo de
D(β) é atingido em β = β̂. Este mı́nimo, é claro, é igual a (Y − X β̂)′ (Y − X β̂).

O estimador de máxima verossimilhança do parâmetro µ = Xβ é

µ̂ = X β̂, (2.12)

que em geral recebe a denominação de Vetor de Valores Ajustados, embora não adote-
mos esta terminologia aqui. O vetor

E = Y − µ̂ = Y − X β̂

é o Vetor de Resı́duos, e a variável aleatória


 ′  
SQres = Y − X β̂ Y − X β̂ = min {(Y ′ − Xβ) (Y − Xβ) ; β ∈ Rp } (2.13)

é a Soma dos Quadrados dos Resı́duos. Observe que


 ′   n
X
Y − X β̂ ′
Y − X β̂ = (Y − µ̂) (Y − µ̂) = (Yi − µ̂i )2 ,
ı=1

onde
µ̂i = β̂0 + β̂1 xi1 + · · · + β̂(p−1) xi(p−1) , (2.14)

é o valor ajustado correspondente à ı-ésima observação, ou seja, o estimador de máxima


verossimilhança para µi .
55

Para obter o estimador de máxima verossimilhança para σ 2 , consideremos o loga-


ritmo da função de verossimilhança parcial, dado por
  n 1  ′  
log l β̂0 , β̂1 , . . . , β̂(p−1) , σ 2 = − log 2πσ 2 − 2 y − X β̂ σ 2 > 0.

y − X β̂ ,
2 2σ

Derivando em relação a σ 2 e igualando o resultado a zero, obtemos como ponto


crı́tico desta função
1 ′   1
σ̂ 2 = Y − X β̂ Y − X β̂ = SQres. (2.15)
n n
Pode-se provar que σ̂ 2 é o estimador de máxima verosiimilhança para σ 2 (ou seja, é o
máximo global da função). Este é o Exercı́cio 1.

Exemplo 2.1 O modelo de regressão linear simples definido em (1.2) é um caso par-
ticular do modelo de regressão linear múltipla. Aqui temos p = 2 e
" #
′ 1 1 ... 1
X = , (2.16)
x1 x2 . . . xn
de modo que
 
" # 1 x1 " #
Pn
′ 1 1 ... 1  1 x2  n x i
XX= = Pn Pnı=1 2 (2.17)
 
.. .. 
x1 x2 . . . xn x ı=1 xi

 . .  ı=1 i

1 xn
e
 
" # Y1 " P #
n
1 1 ... 1  Y2  Y
X ′Y = = Pnı=1 i .
 
..
x1 x2 . . . xn x Y

 .  ı=1 i i

Yn
Assim, a equação normal é dada por
" Pn #" # " P #
n
n x β0 Yi
Pn Pnı=1 2i = Pnı=1 . (2.18)
ı=1 xi ı=1 xi β ı=1 xi Yi

Fica como exercı́cio para o leitor resolver a equação normal e verificar que a
solução obtida é aquela apresentada em (1.8). Este é o Exercı́cio 2.
56

2.3.4 Uma Outra Abordagem para a Estimação de Máxima


Verossimilhança

Observe que a função D definida em (2.8) pode ser escrita como

D(β) =k Y − Xβ k2 , β ∈ Rp ,

de modo que minimizá-la é equivalente a encontrar pontos da forma Xβ, com β percor-
rento todo o espaço Rp , de tal forma que a distância entre Y e estes pontos seja mı́nima.
Observe que o conjunto formado por estes pontos nada mais é do que o subespaço ve-
torial span(X). O ponto que minimiza a distância entre Y e os pontos deste espaço é a
projeção de Y sobre span(X), veja o apêndice C. Então, temos que X β̂ = Πspan(X) (Y ).
O vetor Y − X β̂ é ortogonal a todos os vetores de span(X). Em particular, esse vetor é
ortogonal a X β̂ e a todas as colunas da matriz X. Assim, X ′ (Y − X β̂) = 0 implicando
em X ′ Y = X ′ X β̂, mostrando que β̂ é solução da equação normal. Observe também
que, como a projeção é única, temos que X β̂ é sempre o mesmo, seja qual for a solução
β̂ para as equações normais.

A soma dos quadrados dos resı́duos, definida em (2.13), pode ser escrita como

SQres = (Y − X β̂)′ (Y − X β̂) =k Y − X β̂ k2 .

2.4 Propriedades dos Estimadores de Máxima Ve-


rossimilhança

Por (B.3) no apêndice E temos que a distribuição de β̂ é normal p-variada com


  h i
−1 −1
E β̂ = E (X ′ X) X ′ Y = (X ′ X) X ′ E(Y )
−1
= (X ′ X) X ′ Xβ = β,
57

de modo que β̂ é um estimador não viciado para β e


  h i
−1
Cov β̂ = Cov (X ′ X) X ′ Y
−1 −1
= (X ′ X) X ′ [Cov(Y )] X (X ′ X)
−1 −1
= (X ′ X) X ′ σ 2 In X (X ′ X)
−1 −1
= σ 2 (X ′ X) (X ′ X) (X ′ X)
−1
= σ 2 (X ′ X) .

Temos então o

Teorema 2.4  
−1
β̂ ∼ Np β, σ 2 (X ′ X) .

Como corolário deste teorema temos o item 1 do Teorema 1.1, que será enunciado
mais uma vez para, em seguida, ser demonstrado.

Corolário 2.1 Considere o modelo de regressão linear simples, dado pelas variáveis
aleatórias independentes

Yi ∼ (β0 + β1 xi , σ 2 ) ı = 1, . . . , n.

Então,

h  i
x̄2
1. β̂0 ∼ N β0 , σ 2 n1 + Sx2
 2

2. β̂1 ∼ N β1 , Sσ 2
x

Demonstração: utilizando a expressão de X ′ X definida em (2.16) e omitindo ı́ndices


nos somatórios para simplificar a notação, temos
" P P #
 
−1 σ2 x2i − xi
Cov β̂ = σ 2 (X ′ X) = .
n x2i − ( xi )2
P
− xi n
P P
58

Como
" #
  V ar(β̂0 ) Cov(β̂0 , β̂1 )
Cov β̂ =
Cov(β̂0 , β̂1 ) V ar(β̂1 )

e observando que Sx2 = x2i − nx̄2 , resulta que


P

σ 2 x2i σ 2 (Sx2 + nx̄2 ) σ 2 σ 2 x̄2


  P
V ar β̂0 = P 2 = = + 2
n xi − ( xi )2 nSx2 n Sx
P

e
  nσ 2
V ar β̂1 = ,
nSx2
completando a demonstração.

Também como corolário, obtemos a covariância entre β̂0 e β̂1 .

Corolário 2.2   x̄σ 2


Cov β̂0 , β̂1 = − 2 .
Sx

Utilizando o próximo teorema, vamos mostrar que σ̂ 2 é um estimador viciado para


σ 2 . O mesmo teorema será útil para determinar um estimador não viciado. O resultado
é uma extensão do item 2 do Teorema 1.1.

Teorema 2.5 A distribuição de SQres/σ 2 é qui-quadrado com n−p graus de liberdade.

A demonstração deste teorema está no apêndice G. A esperança de uma variável


aleatória com distribuição qui-quadrado é igual ao número de graus de liberdade. Assim,
 
SQres
E = n − p,
σ2
implicando em  
SQres
E = σ2.
n−p
59

Desta forma, o estimador definido por


SQres
QMres = , (2.19)
n−p
denominado Quadrado Médio dos Resı́duos, é não viciado para σ 2 . Utilizando o mesmo
resultado provamos facilmente que o estimador de máxima verossimilhança σ̂ 2 é viciado
para σ 2 .

Observe que o denominador n − p em (2.19) é igual ao número de observações,


que é n, menos o número de “parâmetros β” do modelo, que é p.

O teorema a seguir também está demonstrado no apêndice G. Ele é uma extensão


do último item do Teorema 1.1.

Teorema 2.6 SQres e β̂ são independentes.

Pelo teorema 2.4, temos que

β̂i ∼ N βi , σ 2 cii ,

ı = 0, . . . , p − 1 (2.20)

onde cii é o ı-ésimo elemento da diagonal principal da matriz


−1
C = (X ′ X) .

Este resultado, mais os teoremas 2.5 e 2.6 permitem-nos demonstrar o próximo teorema.

Teorema 2.7
β̂i − βi
∼ tn−p , ı = 0, . . . , p − 1
(cii · QM Res )1/2

Este teorema é uma extensão do corolário 1.1 e, para ı = 0, . . . , p − 1, é útil na


elaboração de testes para a hipótese H0i : βi = βi∗ , utilizando como estatı́stica de teste
β̂i − βi∗
Ti = . (2.21)
(cii · QMres)1/2
60

Se a hipótese alternativa for H1i : βi > 0 rejeitamos H0i se Ti > c. Assim, para obtermos
um teste de nı́vel α desta hipótese contra a alternativa H1i : βi > 0, utilizamos como
regra de decisão

Rejeitar H0i se e somente se Ti > tn−p; α2 .

Se a alternativa for H1i : βi < 0 então substituimos < por > na regra de decisão. Se
for H1i : βi 6= 0 rejeitamos H0i se e somente se |Ti | > tn−p; α2 .

Se a hipótese H0k : βk = 0 for verdadeira, então a média da variável resposta nos


nı́veis xi1 , . . . , xi(p−1) das variáveis regressoras é dada por

µi = β0 + β1 xi1 + . . . + β(k−1) xi(k−1) + β(k+1) xi(k+1) + . . . + β(p−1) xi(p−1) , ı = 1, . . . , n

ou seja, o vetor de médias da variável resposta não depende dos valores associados do
“regressor 1”, x11 , x21 , . . . , xn1 . Dizemos então que esta variável regressora não contribui
significativamente no modelo.

Utilizando o teorema 2.7 podemos também obter um intervalo de confiança para


βi , que é dado por

β̂i ± tn−p; α2 (cii · QM Res )1/2 , i = 0, . . . , p − 1.

Exemplo 2.2 (Dobson, 2002, Pág. 91) Os dados na tabela 2.1 representam porcen-
tagens do total de calorias obtido a partir de um complexo de carboidratos, para 20
diabéticos dependentes de insulina. Os indivı́duos são do sexo masculino e foram sub-
metidos a uma dieta rica em carboidratos durante 6 meses. Suspeita-se que esta variável
resposta esteja relacionada com a idade (em anos), peso (relativo ao peso ideal para a
altura do indivı́duo) e a porcentagem de calorias proveniente de proteı́nas.

O vetor de respostas é o vetor y cujas coordenadas estão na primeira coluna da


tabela. A matriz X é dada por

X = [X0 X1 X2 X3 ] ,
61

Tabela 2.1: Porcentagem de Calorias Obtidas a Partir de Um Com-


plexo de Carboidratos, Idade, Peso Relativo e Porcentagem de Ca-
lorias Obtidas a partir de Proteı́na para 20 Indivı́duos do Sexo
Masculino, Diabéticos e Dependentes de Insulina
Porcentagem de Idade (X1 ) Peso (X2 ) Porcentagem de
Calorias (Carb.) (Y ) Calorias (Prot.) (X3 )
33 33 100 14
40 47 92 15
37 49 135 18
27 35 144 12
30 46 140 15
43 52 101 15
34 62 95 14
48 23 101 17
30 32 98 15
38 42 105 14
50 31 108 17
51 61 85 19
30 63 130 19
36 40 127 20
41 50 109 15
42 64 107 16
46 56 117 18
24 61 100 13
35 48 118 18
37 28 102 14

onde Xi é um vetor com coordenadas dadas pela ı-ésima coluna na tabela, ı = 1, 2, 3 e


X0 = [1 . . . 1]′ é um vetor com 20 coordenadas iguais a 1. Temos que

β = [β0 β1 β2 β3 ]′ .

A estimativa para σ 2 é
SQres 567.66
QMres = = = 35.4787
n−p 20 − 4
As estimativas dos desvios padrões dos estimadores β̂i – ou seja, (cii · QMR es)1/2 – estão
na tabela 2.2.
62

Tabela 2.2: Estimativas para os Desvios dos Estimadores dos


Parâmetros do Modelo de Regressão, Dados da Tabela 2.1
Estimativa Estimativa do Desvio Padrão
β̂0 13.07000
β̂1 (idade) 0.10930
β̂2 (peso) 0.08329
β̂3 (proteı́na) 0.63490

Para testar a hipótese β1 = 0 (ou seja, a variável idade não é significativa no


modelo), temos como valor observado de T1
−0.1137
T1 = = −1.04026.
0.1093
A probabilidade de significância para o teste desta hipótese contra a alternativa β1 6= 0

P (|t16 | > 1.04026) = 0.3136,

o que significa que não há evidência suficiente para a rejeição de β1 = 0. Assim,
podemos retirar a variável idade do modelo. Probabilidades de significância para testar
a significância de outras variáveis são apresentadas na tabela 2.3. Assim, há evidências

Tabela 2.3: Probabilidades de Significância, Dados da Tabela 2.1


Hipótese Nula Hipótese Alternativa Probabilidade de
de Significância
β2 = 0 β2 6= 0 0.015
β3 = 0 β3 6= 0 0.007

para a rejeição de hipótese β2 = 0 e também para a rejeição de β3 = 0. Assim,


somente o peso relativo e a porcentagem de calorias obtidas a partir de proteı́na parecem
influenciar a média da variável resposta.

Lembremos que os métodos aplicados acima só têm validade quando as hipóteses
relativas ao modelo de regressão linear forem satisfeitas. Como já havı́amos comentado
63

no Capı́tulo 1, existem procedimentos, baseados na análise dos resı́duos, que podem


ser úteis na verificação da validade destas suposições e que serão vistos com detalhes
no Capı́tulo 3. Por enquanto apresentamos um gráfico de probabilidade normal, cuja
interpretação é exatamente a mesma do caso da regressão linear simples, veja a seção
1.3.7. Aparentemente não há violação da hipótese de normalidade.

Figura 2.1: Gráfico de Probabilidade Normal para os Dados da


Tabela 2.1

O modelo com as duas variáveis regressoras restantes é dado por

µi = β0 + β2 xi2 + β3 xi3 , ı = 1, . . . , 20.

O vetor de respostas continua sendo y e a matriz X é dada por

X = [X0 X2 X3 ] .

As estimativas dos parâmetros, os respectivos desvios estimados, valores das estatı́sticas


para testar βi = 0 e respectivas probabilidades de significância são apresentados na
tabela 2.4. Tudo indica que β2 6= 0 e β3 6= 0, implicando que os regressores correspon-
64

Tabela 2.4: Estimativas para os Parâmetros, Desvios, Estatı́sticas


de Teste e Probabilidades de Significância, Dados da Tabela 2.1,
Modelo sem a Variável Idade
Parâmetro Estimativa Desv. Pad. T Prob. de Sig.
β0 33.13000 12.57000 2.64000 0.01700
β2 -0.22165 0.08326 -2.66000 0.01600
β3 1.82430 0.62330 2.93000 0.00900

dentes devem ficar no modelo. A reta de regressão ajustada é então dada por

µ̂ = 33.13 − 0.2216x2 + 1.8243x3 .

Uma aplicação interessante deste resultado é dada quando, para um valor fixado de peso
relativo x2 , desejamos avaliar a diferença entre a média da variável resposta quando a
porcentagem de calorias proveniente de proteı́nas é x3 e a média quando esta é x3 + 1
– um aumento em uma unidade nesta porcentagem. Se o modelo de regressão linear
simples sem a variável idade for adequado para descrever o fenômeno, temos que estas
médias são dadas respectivamente por

µ = β0 + β2 x2 + β3 x3

µ∗ = β0 + β2 x2 + β3 (x3 + 1)
= β0 + β2 x2 + β3 x3 + β3

Portanto,
µ − µ∗ = β3 .

Assim, a estimativa desta diferença é β̂3 = 1.8243. Então, um aumento em uma unidade
da porcentagem de calorias proveniente de proteı́nas representa um aumento estimado
de 1.8243 na porcentagem média de calorias proveniente de carboidratos, quando fixa-
mos um peso relativo.
65

Na tabela 2.5 temos intervalos de confiança para os parâmetros β0 , β1 e β2 . Uma


evidência de que estes parâmetros não são nulos é que os intervalos não contêm o zero.

Tabela 2.5: Intervalos de Confiança com coeficiente 95% para


Parâmetros do Modelo de Regressão linear Simples, Dados da Ta-
bela 2.1, Modelo sem a Variável Idade.
Parâmetro Intervalo de Confiança
β0 (6.4829,59.7771);
β2 (-0.3981,-0.0451)
β3 (0.5030,3.1456)

2.5 Previsão da Média da Variável Resposta para


Valores Fixados das Variáveis Regressoras

Apresentaremos agora uma extensão da teoria apresentada na seção 1.3.6, consi-


derando regressão múltipla. Seja
′
x = 1, x1 , . . . , x(p−1) (2.22)

um vetor tal que xj correspondente a um valor fixado associado à -ésima variável re-
gressora,  = 1, . . . , p−1. Não necessariamente xj é um dos valores fixados que constam
no conjunto original de observações. Seja µ(x) = x′ β a média da variável resposta cor-
respondente ao vetor x e seja µ̂(x) = x′ β̂ o seu estimador de máxima verossimilhança.
Este estimador pontual é denominado A Previsão da Média da Variável Resposta dado
o Vetor x de Valores Fixados das Variáveis Regressoras. Para obter uma estimativa
por intervalo, relembremos que pelo Teorema 2.4
 
2 ′ −1
β̂ ∼ Np β, σ (X X) .
66

Por (B.3) no apêndice A, vem que x′ β̂ tem distribuição normal (univariada), com média
   
E x′ β̂ = x′ E β̂ = x′ β

e matriz de covariâncias
   
−1
Var x′ β̂ = x′ Var β̂ x = σ 2 x′ (X ′ X) x.

Assim, temos o

Teorema 2.8 Seja x um vetor de valores fixados das variáveis regressoras. Seja µ̂(x) =
x′ β̂ o estimador da média da variável resposta correspondente a x. Então
 
−1
µ̂ (x) ∼ N x′ β, σ 2 x′ (X ′ X) x .

Corolário 2.3
µ̂(x) − x′ β
1/2 ∼ tn−p
QMres · x′ (X ′ X)−1 x

Assim, um intervalo de confiança com coeficiente 1 − α para µ(x) é dado por


 1/2
−1
µ̂(x) ± tn−p; α2 QMres · x′ (X ′ X) x (2.23)

De maneira análoga podemos encontrar um intervalo de previsão para uma ob-


servação futura da variável resposta, o que é uma extensão do assunto tratado no
capı́tulo 1, veja a seção 1.3.6.

Considere então um vetor x como em (2.22) e suponha que desejamos obter um


intervalo de previsão para uma observação futura correspondente a x. Denotemos esta
observação por Y ∗ . Como já foi dito no capı́tulo 1, Y ∗ é independente das observações
disponı́veis Y1 , . . . , Yn e, portanto, Y ∗ é independente de µ̂(x) = x′ β̂, que é uma variável
67

aleatória que depende somente de Y = (Y1 , . . . , Yn ). Assim,

Var (Y ∗ − µ̂(x)) = Var (Y ∗ ) + Var (µ̂(x))


−1
= σ 2 + σ 2 x′ (X ′ X) x
 
−1
= σ 2 1 + x′ (X ′ X) x .

Como Y ∗ e µ̂(x) são independentes e têm distribuição normal, temos que Y ∗ − µ̂(x)
também tem distribuição normal. Temos então o

Teorema 2.9   
−1
Y ∗ − µ̂(x) ∼ N 0, σ 2 1 + x′ (X ′ X) x .

Corolário 2.4
Y ∗ − µ̂(x)
1/2 1/2 ∼ tn−p .
(QMres) 1+ x′ (X ′ X)−1 x

Assim, um intervalo de previsão para Y ∗ , definido de tal forma que a probabilidade


deste conter a observação futura seja 1 − α é dado por

1/2
µ̂(x) ± tn−p; α2 (QMres)1/2 (1 + x′ (X ′ X) x) (2.24)

Exemplo 2.3 (Continuando o exemplo 2.2). Lembremos que a reta de regressão ajus-
tada é dada por
µ̂(x) = 33.13 − 0.2216x2 + 1.8243x3 .

Considere um indivı́duo com x2 = 112 de peso relativo e x3 = 16% de calorias proveni-


entes de proteı́nas. Temos que

µ̂(x) = 33.13 − 0.22165 × 112 + 1.8243 × 16 = 37.494

é a porcentagem média estimada de calorias obtidas a partir do complexo de carboi-


dratos. Através de um programa de computador encontramos QMres = 35.65 e uma
68

estimativa do desvio padrão de µ̂(x) igual a 1.34. Assim, um intervalo de confiança


para µ(x) com coeficiente 95% é dado por

37.494 ± 2.1098 × 1.34 = (34.6669; 40.3211) .

Um intervalo de previsão para a observação futura correspondente a x pode ser obtido


utilizando a fórmula (2.24). Temos que a estimativa do desvio padrão nesta fórmula é
dada por
 1/2 1/2
−1
QMres + QMres · x′ (X ′ X) x = 35.65 + (1.34)2 = 6.1193

Assim, o intervalo de previsão é dado por

37.494 ± 2.1098 × 6.1193 = (24.5835; 50.4045)

2.6 O Teste F

Na seção 2.4 apresentamos um teste para a hipótese H0 : βi = 0. Vimos que se


esta hipótese for verdadeira, então a estatı́stica de teste tem distribuição t de Student
com n − p graus de liberdade. Com isto, encontramos um teste para H0 com nı́vel de
significância igual a α. Nesta seção trataremos do problema de testar a hipótese

H0 : βk = βk+1 = . . . = βp−1 = 0 (2.25)

onde 0 ≤ k ≤ p − 1. Se H0 for verdadeira então a média da resposta dependerá somente


das variáveis regressoras até o ı́ndice k − 1, ou seja, teremos

µi = E (Yi ) = β0 + β1 xi1 + · · · + βk−1 xi(k−1) , ı = 1, . . . , n, (2.26)

de modo que os outros regressores não são significativos no modelo. Ou seja, um


teste para H0 é um teste da significância conjunta destes regressores. No exemplo 2.2
poderı́amos testar, por exemplo, a hipótese

H0 : β1 = β2 = β3 = 0,
69

que, se verdadeira, implica na retirada das variáveis idade, peso e proteı́na do modelo.
Desta forma, se H0 for verdadeira, teremos que a média da resposta não é “explicada”
por estas variáveis.

Para obter um teste para a hipótese H0 utilizaremos o teste da razão de verossi-


milhança – veja Bolfarine e Sandoval (2001, Pág. 103). A estatı́stica de teste é dada
por
supH0 L
Λ= ,
sup L
onde L é a função de verossimilhança, sup L é o supremo desta função e supH0 L é o
supremo de L com o domı́nio restrito ao subconjunto do espaço paramétrico definido
pela hipótese H0 . Rejeitamos a hipótese nula para pequenos valores desta estatı́stica.

O máximo da função L é L(β̂, σ̂ 2 ), onde β̂ e σ̂ 2 são os estimadores de máxima


verossimilhança para β e σ 2 respectivamente, ou seja,
 ′  
Y − X β̂ Y − X β̂
−1
β̂ = (X ′ X) X ′Y e σ̂ 2 = .
n

Se vale H0 , temos que a média das observações é dada em (2.26) e o vetor de médias
µ = (µ1 , . . . , µn )′ , em notação matricial, é dado por

µ = Zφ, (2.27)

onde
 
1 x11 . . . x1(k−1)
 1 x21 . . . x2(k−1)   ′
Z=  e φ = β0 β1 . . . βk−1 .
 
.. .. ..
 . . . 
1 xn1 . . . xn(k−1)

Assim, se H0 é verdadeira, o estimador de máxima verossimilhança para φ é dado por

−1
φ̃ = (Z ′ Z) Z ′Y (2.28)
70

e o estimador de máxima verossimilhança para σ 2 é


 ′  
Y − Z φ̃ Y − Z φ̃
σ̃ 2 = .
n
O máximo da função L supondo a veracidade de H0 é L(φ̃, σ̃ 2 ). A estatı́stica da razão
de verossimilhança para o teste de H0 é então dada por
 
2
L β̃, σ̃
Λ=  .
L φ̂, σ̂ 2

Temos então que, para uma amostra observada y = (y1 , . . . , yn )′ ,


  ′  
2 −n/2 1
(2πσ̃ ) exp − 2σ̃2 y − X β̃ y − X β̃
Λ =   ′  
2 −n/2 1
(2πσ̂ ) exp − 2σ̂2 y − X φ̂ y − X φ̂
 ′   n/2
2 n/2
 y − X β̂ y − X β̂ 
 
σ̂
= = ′   . (2.29)
σ̃ 2 y − Z φ̃ y − Z φ̃

Um fato interessante é que a estatı́stica Λ é uma função monótona da razão


entre as somas dos quadrados dos resı́duos. O numerador, nada mais é que a soma
dos quadrados dos resı́duos usual, utilizando todos os regressores e o denominador é a
soma dos quadrados dos resı́duos obtida quando ajustamos o modelo de regressão linear
múltipla somente com as variáveis regressoras X1 , X2 , . . . , Xk−1 . Assim, na prática, se
quisermos obter o valor observado de Λ, basta ajustarmos dois modelos de regressão:
um com todos os regressores – ou seja, X1 , X2 , . . . , Xp−1 – e outro só com os regressores
X1 , X2 , . . . , Xk−1 . O valor observado de Λ é uma função da razão entre as duas somas
de quadrados de resı́duos obtidas.

Para efetivarmos o teste para a hipótese H0 precisamos estabelecer uma regra


para a rejeição da hipótese. Pela maneira como o teste da razão de verossimilhança é
definido, temos que a regra deve ser da forma
71

Rejeitar H0 se e somente se Λ < c,

onde c é uma constante determinada de acordo com o nı́vel de significância que dese-
jamos, ou seja, c depende da probabilidade do erro tipo I que especificarmos. Assim, é
necessário conhecer a distribuição de Λ quando H0 é verdadeira.

Em vez de encontrar a distribuição de Λ, vamos encontrar a distribuição de uma


função monótona de Λ, a chamada Estatı́stica F , definida por
 ′  
X β̂ − Z φ̃ X β̂ − Z φ̃ / (p − k)
F =  ′   .
Y − X β̂ Y − X β̂ / (n − p)

O próximo teorema mostra que podemos escrever Λ = g(F ), onde g é uma função
real estritamente decrescente e invertı́vel. Note que a inversa g −1 também é uma função
estritamente decrescente. Como Λ < c se e somente se F = g −1 (Λ) > g −1 (c) resulta
que a regra de decisão para H0 pode ser colocada na forma “rejeitar H0 para grandes
valores de F ”.

Teorema 2.10  −n/2


p−k
Λ= 1+ ·F .
n−p

Demonstração: Por (2.29) temos que


!−n/2
k Y − Z φ̃ k2
Λ= . (2.30)
k Y − X β̂ k2

Observe que
Y − Z φ̃ = Y − X β̂ + X β̂ − Z φ̃.

O vetor Y − X β̂ é ortogonal a qualquer vetor em span(X). Em particular, é ortogonal


ao vetor X β̂ − Z φ̃, que está em span(X), pois as colunas de Z também são colunas
72

de X, e a diferença de dois vetores em um subespaço vetorial ainda é um vetor do


subespaço. Assim, por (C.5) resulta que

k Y − Z φ̃ k2 =k Y − X β̂ k2 + k X β̂ − Z φ̃ k2 . (2.31)

Substituindo em (2.30) obtemos


!−n/2
k Y − X β̂ k2 + k X β̂ − Z φ̃ k2
Λ =
k Y − X β̂ k2
!−n/2
k X β̂ − Z φ̃ k2
= 1+
k Y − X β̂ k2
 −n/2
p−k
= 1+ ·F ,
n−p
concluindo a demonstração.

A vantagem em usar F em vez de Λ é que conhecemos a distribuição de F quando


vale H0 . Esta distribuição é dada no teorema (2.11). Para a demonstração, são ne-
cessários alguns conhecimentos de álgebra linear que estão no apêndice C.

Teorema 2.11 Se H0 for verdadeira, então F ∼ F(p−k),(n−p) .

Demonstração: Sejam E1 = span(X0 , . . . , Xk−1 ) e E2 = span(X0 , . . . , Xp−1 ), onde


X0 = 1n . Temos que E1 ⊂ E2 . Sejam E2⊥ o complementar ortogonal de E2 e E2 ⊖ E1
o complementar ortogonal de E1 dentro de E2 . Observe que podemos escrever Rn =
E2 ⊕ E2⊥ e E2 = E1 ⊕ (E2 ⊖ E1 ), de modo que

Rn = E1 ⊕ (E2 ⊖ E1 ) ⊕ E2⊥ .

Suponha que desejamos definir um teste com nı́vel de significância igual a α.


Então, basta escolhermos c tal que

P F(p−k),(n−p) > c = α, (2.32)
73

onde F(p−k),(n−p) é uma variável aleatória com distribuição F de Snedecor com p − k e


n − p graus de liberdade. Denotamos c que satisfaz (2.32) por F(p−k),(n−p);α .

Figura 2.2: Gráfico da Densidade F .

Na figura 2.3.2 temos um gráfico de uma densidade associada à distribuição F ,


com a respectiva representação de F(p−k),(n−p);α .

Assim, um teste de nı́vel α para H0 é dado por:

Rejeitar H0 se e somente se F > F(p−k),(n−p);α .

Um fato importante é que a hipótese H0 é composta, ou seja, existem infinitos


vetores de parâmetros em H0 . Qualquer vetor de parâmetros na forma
′
θ = β0 , β1 , . . . , β(p−1) , σ 2

com βk = . . . = βp−1 = 0 está em H0 . Ou seja, β0 , β1 , . . . , βk−1 e σ 2 variam livremente.


Apesar disto, para qualquer um dos pontos em H0 a distribuição de F é a mesma, ou
seja, F ∼ F(p−k),(n−p) . Ou seja, se θ está em H0 a distribuição de F não depende de θ.
74

A fórmula (2.30) está expressa em termos dos vetores de valores ajustados X β̂


e Z φ̃. A seguir apresentaremos uma expressão alternativa para a estatı́stica F que é
mais conveniente em termos de aplicação, pois está colocada em termos das somas dos
quadrados dos resı́duos, que são apresentadas diretamente nas saı́das dos programas de
computador.

Observe que podemos escrever

k X β̂ − Z φ̃ k2 /(p − k)
F =
k Y − X β̂ k2 /(n − p)
 
k Y − Z φ̃ k2 − k Y − X β̂ k2 /(p − k)
= ,
k Y − X β̂ k2 /(n − p)

onde a última igualdade é conseqüência de (2.31). Note que no numerador dessa ex-
pressão temos a diferença entre a soma dos quadrados dos resı́duos resultante do ajuste
do modelo com os regressores X1 , . . . , Xk−1 e a resultante do ajuste do modelo com
X1 , . . . , Xp−1 . Denotaremos estas somas por SQres (X1 , . . . , Xk−1 ) e SQres (X1 , . . . , Xp−1 ),
respectivamente. Notações análogas serão utilizadas para os quadrados médios dos
resı́duos. Assim, podemos escrever
[SQres(X1 , . . . , Xk−1 ) − SQres(X1 , . . . , Xp−1 )] /(p − k)
F = .
QMres(X1 , . . . , Xp−1 )

Para concluir, duas observações. Primeiramente, note que p e k representam o


número de “parâmetros β” possivelmente não nulos no modelo com todos os regressores
e no modelo definido por H0 , respectivamente. E também note que, na definição de H0 ,
impusemos que os últimos p − k parâmetros seriam iguais a zero. É claro que podemos
estender toda a teoria vista acima para a situação onde a hipótese nula é defininida por
um subconjunto de p − k parâmetros β – excluindo β0 – iguais a zero.

Exemplo 2.4 (Healy, 1988, Pág 19) A tabela 2.6 apresenta dados relacionados ao
número de espécies de pássaros em ilhas próximas à costa das ilhas britânicas. São 43
75

ilhas e sete variáveis, sendo o número de espécies (espéc) a variável resposta e os seis
regressores:

• dist: distância em relação ao continente (em km);

• lat: latitude norte (em graus);

• long: longitude oeste (em graus);

• área: área da ilha (em hectares);

• hab: número de habitats;

• elev: elevação máxima (em metros).

As estimativas dos parâmetros associados às variáveis e os respectivos valores das


estimativas dos desvios padrões, das estatı́sticas dos testes de significância e probabi-
lidades de significância são apresentados na tabela 2.7. O valor t refere-se ao valor
observado da estatı́stica para o teste da hipótese βi = 0,

β̂i
T = .
(cii · QMRes )1/2

– veja (2.21). A probabilidade de significância – ou p- value – é o valor P (|t(n−p) | > t),


onde t(n−p) é uma variável aleatória distribuição t de Student com (n−p) = (43−7) = 36
graus de liberdade, neste caso. Um comentário importante: por motivos que veremos
mais adiante, o teste t somente deve ser utilizado para a remoção de uma variável do
modelo de cada vez. Por exemplo, temos que a probabilidade de significância associada
à variável latitude é 0.889, sugerindo então a sua exclusão do modelo. Se decidirmos por
isto, devemos então reestimar os parâmetros sem a variável latitude, observar novos p-
values, retirar mais uma variável (se for necessário) e assim por diante. Nunca devemos
utilizar o teste t para retirar mais de uma variável de uma única vez. O teste adequado
para esta tarefa é o teste F .
76

A tabela 2.7 indica que, individualmente, as variáveis latitude, longitude e máxima


elevação são candidatas a serem retiradas do modelo. Será, que em conjunto, poderemos
retirá-las? Vamos então utilizar o teste F para testar a hipótese de que no modelo de
regressão linear com média

µ = β0 + β1 (dist) + β2 (lat) + β3 (long) + β4 (área) + β5 (hab) + β6 (elev)

os parâmetros β2 , β3 e β6 são nulos, ou seja, testar

H0 : β2 = β3 = β6 = 0.

Temos que SQres (X1 , X4 , X5 ) = 1541.6, SQres(X1 , . . . , X6 ) = 1481.7, p = 7 e k = 4,


de modo que a estatı́stica F assume valor

43 − 7 1541.6 − 1481.7
F = · = 0.4851.
7−4 1481.7

A probabilidade de significância vale

P (F3;36 > 0.4851) = 0.6947

e assim optamos por não rejeitar H0 e retirar latitude, longitude e máxima elevação do
modelo.

Assim, um novo ajuste deve ser feito com as variáveis regressoras restantes, con-
siderando o modelo

µ = β0 + β1 (dist) + β4 (área) + β5 (hab).

Os resultados estão na tabela 2.8. As probabilidades de significância indicam que os


três regressores devem permanecer no modelo. A média da variável número de espécies
é então estimada por

µ̂ = −5.8350 − 0.05857(dist) + 0.0012(área) + 2.2071(hab).


77

Considere, por exemplo, uma hipotética população de ilhas a 23 km do continente, com


área igual a 100 ha e número de habitats igual a 18. Então o número de espécies médio
estimado é

µ̂ = −5.835 − 0.0586 × 23 + 0.0012 × 100 + 2.2071 × 18 = 32.65,

com um intervalo de confiança a 95% de (28.877; 36.449).

Na figura 2.3 temos um gráfico de probabilidade normal para os resı́duos resul-


tantes do ajuste deste modelo.

Figura 2.3: Gráfico de Probabilidade Normal para os Resı́duos.

2.6.1 A Tabela de Análise de Variância

Uma das utilizações mais freqüentes do teste F é testar a Significância Conjunta


de Todas as Variáveis Regressoras. No exemplo 2.4, supondo que a média da resposta
78

é dada por

µ = β0 + β1 (dist) + β2 (lat) + β3 (long) + β4 (área) + β5 (hab) + β6 (elev),

podemos ter interesse em testar a hipótese

H0 : β1 = β2 = . . . = β6 = 0.

Se não rejeitarmos H0 não há mais nada a fazer, pois µ não dependeria dos regressores
em questão.

Consideremos então o modelo de regresão linear múltipla, ou seja,

Y ∼ Nn (Xβ, σ 2 I),

onde Y , X e β estão definidos (2.2), (2.4) e (2.5), respectivamente e considere a hipótese

H0 : β1 = . . . = βp−1 = 0, (2.33)

que é a hipótese em (2.25) com k = 1. Se H0 é verdadeira, temos então que

Yi ∼ N (β0 , σ 2 ), i = 1, . . . , n. (2.34)

Assim, as respostas constituem uma amostra aleatória de uma população com distri-
buição normal, e a solução para o problema da estimação de máxima verossimilhança de
β0 e σ 2 é amplamente conhecida, sendo os estimadores de β0 e σ 2 dados respectivamente
por
n
1X
β̂0 = Y e σˆ2 = (Yi − Y )2 .
n i=1

Podemos obter o mesmo resultando utilizando a abordagem matricial para mode-


los de regressão. Note que podemos reescrever (2.34) como

Y ∼ Nn (Zβ0 , σ 2 I),
79

onde Y = (Y1 , . . . , Yn )′ e Z = (1, . . . , 1)′ . Então este é um modelo de regressão linear


múltipla como definido em (2.6), com matriz de planejamento Z. Assim, caso H0 seja
verdadeira temos, por (2.11), que
−1
β̂0 = (Z ′ Z) Z ′ Y
  −1  
  1   Y1
=  1 . . . 1  . . .  1 ... 1  ... 
    
1 Yn
n
1X
= Yi = Ȳ
n ı=1
é o estimador de máxima verossimilhança para β0 . A soma dos quadrados dos resı́duos
é dada por
 ′    ′
SQres(0) = Y − Z β̂0 Y − Z β̂0 = Y1 − Ȳ , . . . , Yn − Ȳ Y1 − Ȳ , . . . , Yn − Ȳ
n
X 2
= Yi − Ȳ .
ı=1

Esta soma de quadrados é tradicionalmente conhecida como Soma de Quadrados


Total. Assim, a soma de quadrados total nada mais é do que a soma dos quadrados dos
resı́duos associada ao ajuste do modelo (2.34). A denotaremos por SQT otal . O teorema
a seguir mostra a relação entre SQT otal e a soma dos quadrados dos resı́duos oriunda
do ajuste com todos os regressores. Antes, precisamos definir a Soma de Quadrados de
Regressão, dada por

SQReg = (µ̂ − Y 1′ )′ (µ̂ − Y 1′ ) =k µ̂ − Y 1′ k2


Xn
= (µ̂i − Y )2 ,
i=1

onde µ̂ = (µ̂1 , . . . , µ̂n )′ = X β̂ e 1 = (1, . . . , 1)′ . SQres(X1 , . . . , X(p−1) ) representa a soma


dos quadrados de resı́duos usual, oriunda do ajuste do modelo com todos os regressores,
ou seja,
n
X
SQres(X1 , . . . , X(p−1) ) =k Y − µ̂ k2 = (Yi − µ̂i )2 .
i=1
80

Teorema 2.12 SQT otal = SQres(X1 , . . . , X(p−1) ) + SQReg .

Demonstração: Note que

Y − Y 1′ = Y − X β̂ + X β̂ − Y 1′ .

Observe que 1′ é a primeira coluna da matriz X. Assim, o vetor Y 1′ está no espaço


gerado pelas colunas de X. Como conseqüência, o vetor X β̂ − Y 1′ também está neste
espaço. Como o vetor Y − X β̂ é ortogonal a todos os vetores em span(X), resulta que
ele é ortogonal também a X β̂ − Y 1′ . Assim, por (C.5), temos que

k Y − Y 1′ k2 =k Y − X β̂ k2 + k X β̂ − Y 1′ k2 ,

concluindo a demonstração.

Assim, para testar a hipótese em (2.33), temos que a estatı́stica F assume a forma

(SQT otal − SQres(X1 , . . . , Xp−1 )) /(p − 1)


F =
QMres(X1 , . . . , X(p−1) )
SQReg /(p − 1)
= .
QMres(X1 , . . . , X(p−1) )

A quantidade SQReg /(p − 1) é denominada Quadrado Médio de Regressão e é denotada


por QMreg. Assim, podemos escrever de forma resumida

QMReg
F = ,
QMres

ficando bem claro que QMres refere-se ao ajuste com todos os regressores. A probabi-
lidade de significância para o teste de H0 é dada por

P F(p−1),(n−p) > f ,

onde f é o valor observado da estatı́stica F e F(p−1),(n−p) denota uma variável aleatória


com distribuição F de Snedecor com p − 1 e n − p graus de liberdade.
81

A maioria dos softwares estatı́sticos apresenta em suas saı́das relativas ao ajuste de


um modelo de regressão uma tabela denominada Tabela de Análise de Variância. Nesta
tabela aparecem elementos suficientes para testar a hipótese de significância conjunta
dos regressores. O exemplo a seguir mostra uma tabela de análise de variância para o
exemplo 2.4.

Exemplo 2.5 Em relação ao exemplo 2.4, vamos testar a hipótese

H0 : β1 = β2 = . . . = β6 = 0.

Em um programa de computador obtemos a tabela de análise de variância 2.9, oriunda


do ajuste do modelo com todos os regressores.

A tabela é auto explicativa. Como o valor observado da estatı́stica F é f = 33.88,


temos que a probabilidade de significância é

P (F6;36 > 33.88) ∼


= 0,

implicando a rejeição de H0 . Assim, tudo indica que pelo menos um regressor é sig-
nificativo. Observe que na coluna Graus de Liberdade temos o número de graus de
liberdade associados à distribuição da estatı́stica de teste sob H0 .

2.6.2 O Coeficiente de Determinação

O Coeficiente de Determinação, definido por


SQReg
R2 =
SQT otal
é apresentado em geral como uma medida da qualidade do ajuste do modelo de regressão
linear. A justificativa para a sua utilização como tal reside na igualdade dada no
Teorema 2.12. Por este resultado vemos que 0 ≤ R2 ≤ 1 e que R2 = 1 se e somente
se SQres(X1 , . . . , X(p−1) ) = 0, o que ocorre se e somente se Yi = µ̂i para i = 1, . . . , n.
Isto dá a idéia do “ajuste perfeito” , no sentido de que todas observações estão na reta
82

de regressão ajustada. Assim, um bom ajuste seria aquele onde o valor de R2 estivesse
próximo de 1. Para os dados do exemplo 2.4 temos, no caso do modelo com todos os
regressores, R2 = 0.85. Para o modelo somente com as variáveis dist, área e hab, temos
R2 = 0.84.

Ocorre que quanto mais regressores em um modelo menor será a soma dos qua-
drados dos resı́duos associada e, portanto, um modelo com mais regressores terá ne-
cessariamente um R2 associado maior. Este resultado será demonstrado no Teorema
2.13. Este fato é um ponto negativo para o coeficiente de determinação, pois podemos
aumentar o coeficiente artificialmente introduzindo regressores, mesmo que estes novos
regressores não sejam relevantes para o problema em questão.

Teorema 2.13 Quanto mais regressores no modelo, menor será a soma dos quadrados
dos resı́duos.

Demonstração: A demonstração é basicamente uma aplicação direta da definição de


projeção, dada em (C.8). Seja X = (1, X1 · · · Xp−1 ) uma matriz de planejamento e
seja Z = (1, X1 · · · Xp−1 , Xp ), onde Xp é um vetor de ordem n × 1. Assim, um modelo
tendo Z como matriz de planejamento representa a inclusão de mais um regressor.
Sejam ΠX (Y ) e ΠZ (Y ) as projeções de Y sobre span(X) e span(Z), respectivamente.
Observe que todo vetor em span(X) também está em span(Z). Em particular, ΠX (Y ) ∈
span(Z). Por (C.8), vem que

SQres(X1 , . . . , X(p−1) , Xp ) =k Y − ΠZ (Y ) k2 ≤k Y − ΠX (Y ) k2 = SQres(X1 , . . . , X(p−1) ).

2.7 Exercı́cios

1. Prove que o estimador de máxima verossimilhança para σ 2 é σ̂ 2 dado em (2.15).


83

2. Prove, resolvendo o sistema (2.18), que os estimadores de máxima verossimilhança


para β0 e β1 no modelo de regressão linear simples são dados em (1.8).
84

Tabela 2.6: espécies de pássaros em ilhas


próximas à costa das ilhas britânicas.
espéc dist lat long area hab elev
4 49.9 49.54 6.22 21.4 8 18.0
45 3.2 52.46 4.48 179.8 19 167.0
7 5.2 56.05 2.38 2.8 8 82.0
36 35.4 54.03 4.50 249.5 18 127.9
51 15.7 56.10 6.46 7418.1 22 103.3
17 35.4 58.54 2.39 85.1 16 51.2
2 4.8 56.03 3.12 6.5 7 5.1
2 4.8 51.24 2.51 0.8 3 3.7
19 0.8 58.32 4.20 187.9 14 75.2
26 249.4 60.37 0.50 4011.5 20 158.4
8 6.1 51.22 3.08 21.1 7 18.3
2 54.7 57.59 7.24 19.0 9 32.0
5 3.5 55.17 5.37 5.7 4 27.1
6 44.5 49.54 6.19 38.6 11 24.7
3 64.4 57.42 7.36 13.8 6 37.5
10 0.4 52.05 -1.80 108.5 11 7.6
6 1.1 55.39 4.56 6.9 6 3.1
8 3.4 56.00 3.13 1.4 7 14.6
35 0.2 55.41 2.47 541.9 17 21.0
4 0.4 51.26 5.14 1.8 5 33.5
41 8.1 56.50 6.10 642.3 21 137.4
13 225.3 60.24 0.44 265.3 11 51.8
14 0.8 53.19 4.02 28.3 6 49.7
27 0.8 51.53 5.21 243.0 19 135.9
29 45.1 49.54 6.20 109.4 16 24.1
2 1.0 51.36 4.44 5.6 7 39.0
31 2.6 55.16 5.34 18.6 10 123.4
24 0.4 52.58 -0.19 334.1 9 12.2
42 1.2 51.45 5.18 292.4 18 78.9
4 49.9 59.04 4.24 13.8 3 12.2
53 25.7 56.31 6.51 7652.9 24 140.1
2 15.7 53.55 10.17 0.8 4 4.9
28 4.8 52.05 10.30 631.0 16 292.8
40 6.4 51.26 9.37 639.1 20 133.4
25 2.8 54.41 5.32 32.0 11 33.2
9 3.2 53.34 10.07 639.1 7 62.8
6 11.3 51.48 10.33 17.8 8 13.7
1 0.8 54.48 8.34 4.9 4 17.4
33 4.2 53.32 10.18 961.5 12 89.0
2 3.2 54.34 8.33 1.2 3 13.7
16 3.2 54.06 10.09 360.4 7 70.1
16 6.4 54.28 8.40 84.6 11 26.5
19 11.3 55.16 7.12 331.4 12 82.3
85

Tabela 2.7: Estimativas do Parâmetros e


Testes de Significância. Dados da tabela 2.6
Estimativa Desvio Padrão t p-valor
Constante -8.3200 23.5200 -0.3500 0.7260
dist -0.0611 0.0233 -2.6200 0.0130
lat 0.0593 0.4222 0.1400 0.8890
long -0.0415 0.3755 -0.1100 0.9130
área 0.0012 0.0008 1.5600 0.1260
hab 2.0115 0.2736 7.3500 0.0000
elev 0.0277 0.0247 1.1500 0.2600

Tabela 2.8: Estimativas do Parâmetros e


Testes de Significância. Dados da tabela 2.6,
Modelo sem Latitude, Longitude e Máxima
Elevação
Estimativa Desvio Padrão t p-value
Constante -5.8350 2.2270 -2.6200 0.0120
dist -0.0586 0.0194 -3.0000 0.0050
área 0.0012 0.0007 1.6400 0.1100
hab 2.2071 0.1992 11.0800 0.0000

Tabela 2.9: Tabela de Análise de Variância.


Dados da tabela 2.6.
Fonte Graus de Somas de Quadrados F Probabilidade de
Liberdade Quadrados Médios Significância
Regressão 6 8365.30 1394.20 33.88 0.00
Resı́duos 36 1481.70 41.20
Total 42 9847.00
86
Capı́tulo 3

Análise de Resı́duos

A idéia básica na análise de resı́duos é o estudo de gráficos que envolvem os


resı́duos com o objetivo de verificar a adequação de um determinado modelo no ajuste
aos dados.

Consideremos o modelo de regressão linear múltipla

Y ∼ Nn (Xβ, σ 2 )

e relembremos que o Vetor de Resı́duos Ordinários é definido por

E = Y − µ̂ = (Y1 − µ̂1 , Y2 − µ̂2 , . . . , Yn − µ̂n )′ , (3.1)

onde µ̂ = (µ̂1 , . . . , µ̂n )′ = X β̂ é o estimador da média µ = Xβ. Vamos encontrar a


distribuição de E. Temos que
−1
E = Y − X β̂ = Y − X (X ′ X) X ′ Y
 
′ −1 ′
= I − X (X X) X Y = (I − H)Y,

onde
−1
H = X (X ′ X) X ′.

87
88

Como E é o produto de uma matriz de constantes de dimensão n × n por um vetor


aleatório Y com distribuição normal n-variada resulta, pelo Teorema B.2, que E tem
distribuição normal n-variada, com vetor de médias
   
E (E) = E Y − X β̂ = E (Y ) − E X β̂ = Xβ − Xβ = 0.

e matriz de covariâncias

Cov (E) = (I − H) σ 2 · I (I − H)′ = σ 2 (I − H) (I − H)′


= σ 2 (I − H) ,

onde a última igualdade é conseqüência de termos

(I − H)′ = I − H e (I − H) (I − H) = I − H

(dizemos que I − H é Simétrica por satisfazer a primeira condição e Idempotente por


satisfazer a segunda). Demonstramos então o

Teorema 3.1
E ∼ Nn 0, σ 2 (I − H) .


Denotando por hii o i-ésimo elemento da diagonal principal de H e escrevendo E


em função de suas coordenadas, ou seja,

E = (E1 , . . . , En )′ ,

temos que
Var(Ei ) = σ 2 (1 − hii ).

Assim, vale o seguinte corolário do teorema (3.1).

Corolário 3.1
Ei ∼ N 0, σ 2 (1 − hii ) ,

ı = 1, . . . , n
89

Observe que este corolário é uma extensão do Teorema 1.5. Pelo Teorema 3.1
podemos perceber que

1. Os resı́duos não são identicamente distribuı́dos, já que Var(Ei ) = σ 2 (1 − hii );

2. Os resı́duos são correlacionados (em geral).

Para confirmar esta última afirmação, observe que

Cov (Ei , Ej ) = −σ 2 hij .

Assim, o coeficiente de correlação entre Ei e Ej é

Cov (Ei , Ej ) −σ 2 hij


Corr (Ei , Ej ) = p p =p p
Var (Ei ) Var (Ej ) σ 2 (1 − hii ) σ 2 (1 − hjj )
−hij
= p . (3.2)
(1 − hii ) (1 − hjj )

Os métodos de análise de resı́duos que estudaremos necessitam fortemente da


hipótese de que estes são não correlacionados e que têm a mesma variância. Este
último problema pode ser resolvido definindo os resı́duos padronizados,

Ei
Ri = p , ı = 1, . . . , n.
(1 − hii )

Observe então que


Ri ∼ N 0, σ 2 .

(3.3)

Além disso, temos que


Corr (Ri , Rj ) = Corr (Ei , Ej ) ,

de modo que os resı́duos padronizados são correlacionados, em geral.

Observe então que


90

1. Se as correlações em (3.2) são pequenas, então os resı́duos padronizados são apro-


ximadamente independentes;

2. Por (3.3) temos que os resı́duos padronizados têm a mesma variância, diferente-
mente dos resı́duos ordinários.

Podemos então aplicar, por exemplo, a teoria dos gráficos de probabilidade normal
para verificar a normalidade dos resı́duos. Relembrando: se o modelo de regressão linear
for adequado, o gráfico de probabilidade normal deve aproximar-se de uma reta.

3.1 Influência

Nesta seção vamos mostrar como mensurar a influência de uma observação Yi na


obtenção do estimador da média de Yi , ou seja, µ̂i .

Como µ̂ = X β̂ = X(X ′ X)X ′ Y , vem que

µ̂ = HY, (3.4)

de modo que a i-ésima coordenada de µ̂ pode ser escrita como

µ̂i = hi1 Y1 + hi2 Y2 + · · · + hin Yn , ı = 1, . . . , n,

onde hij é o elemento (i, j) da matriz H.

Pelo Corolário 3.1, temos que

σ 2 (1 − hii ) ≥ 0,

pois σ 2 (1 − hii ) é a variância de Ei e variâncias são sempre não negativas. Isto significa
que 1 − hii ≥ 0 e assim hii ≤ 1. Por (A.4), vem que

Cov (µ̂) = HCov (Y ) H ′ = σ 2 HIH ′ = σ 2 H,


91

uma vez que Var(Y ) = σ 2 I e pode-se verificar facilmente que H é simétrica e idempo-
tente. Assim,
0 ≤ Var (µ̂i ) = σ 2 hii ,

implicando em σ 2 hii ≥ 0 e, portanto, hii ≥ 0. Assim, mostramos que

0 ≤ hii ≤ 1, i = 1, . . . , n.

Podemos chegar ao mesmo resultado de uma outra forma, obtendo o coeficiente


de correlação entre Yi e µ̂i . A covariância entre Yi e µ̂i é dada por

Cov (Yi , µ̂i ) = Cov (Yi , hi1 Y1 + · · · + hin Yn )

– veja (3.4). Mas esta última covariância é igual a

Cov (Yi , hi1 Yi ) + · · · + Cov (Yi , hii Yi ) + · · · + Cov (Yi , hin Yn ) = hii Cov (Yi , Yi ) = σ 2 hii ,

pois Yi e Yj são independentes para i 6= j. O coeficiente de correlação entre Yi e µ̂i é


então dado por

Cov (Yi , µ̂i ) σ 2 hii p


Corr (Yi , µ̂i ) = p p = 1/2
= hii . (3.5)
Var (Yi ) Var (µ̂i ) σ · σhii

Como −1 ≤ Corr(Yi , µ̂i ) ≤ 1, vem que (Corr(Yi , µ̂i ))2 ≤ 1, implicando em 0 ≤ hii ≤ 1.

Por (3.5) temos que, se hii = 1 então Corr(Yi , µ̂i ) = 1. Observe que µ̂i é uma
combinação linear de Y1 , Y2 , . . . , Yn . Se a correlação entre Yi e µ̂i é 1 então, com proba-
bilidade 1,
µ̂i = aYi

onde a é uma constante. Assim, neste caso, somente Yi contribui para a estimação de
µi . Assim, concluimos que quando hii está próximo de 1 temos um indicativo de que
Yi exerce grande influência na obtenção µ̂i . Em inglês este fenômeno é conhecido como
leverage (alavanca em português).
92

3.2 Outliers

Um Outlier (ou Observação Discrepante) é uma observação cuja distribuição não


é a distribuição populacional especificada pelo modelo de regressão linear. Nesta seção
trataremos o caso em que existe uma observação Ym que tem média igual a uma
combinação linear dos regressores mais uma constante. Ou seja, vamos assumir que
Ym ∼ N (µm + δ, σ 2 ), com

µm = β0 + β1 xm1 + · · · + β(p−1) xm(p−1) .

Se tivermos δ 6= 0 poderemos encarar esta observação como um outlier. Para i =


1, . . . , n, i 6= m assumiremos que Yi ∼ N (µi , σ 2 ).

Observe que o vetor de médias E(Y ) = µ = (µ1 , . . . , µn )′ pode ser escrito como

µ = Zφ,

onde
 
Z= 1 X1 . . . X(p−1) Xp , φ = (β0 , β1 , . . . , β(p−1) , δ)′

e
Xp = (0, . . . , 1, . . . , 0)′ ,

o elemento 1 em Xp estando na m-ésima posição. Xi é um vetor coluna n-dimensional


com os valores do i-ésimo regressor, i = 1, . . . , p − 1. Assim, temos um modelo de
regressão linear múltipla definido por Y ∼ Nn (Zφ, σ 2 I).

Desta forma, podemos obter estimadores para os parâmetros e fazer testes de


hipóteses da maneira usual. Em particular nos interessa elaborar um teste para a
hipótese
H0 : δ = 0 (3.6)
93

Se H0 for verdadeira, a m-ésima observação não é um outlier. É possı́vel mostrar (veja


o apêndice E) que o estimador de máxima verossimilhança para δ é
em
δ̂ = , (3.7)
1 − hmm
onde em é o m-ésimo resı́duo obtido a partir do ajuste do modelo de regressão linear
com δ = 0, ou seja, o modelo
Y = Xβ + ε, (3.8)

com
   
X= X0 X1 . . . X(p−1) β= β0 β1 . . . β(p−1)

e hmm é o m-ésimo elemento da diagonal principal de H = X(X ′ X)−1 X ′ . Além disso,


pode-se provar – veja novamente o apêndice E – que
σ2
 
δ̂ ∼ N δ, . (3.9)
1 − hmm
Assim, se H0 : δ = 0 for verdadeira, temos que
σ2
 
δ̂ ∼ N 0, .
1 − hmm
Assim,
δ̂
∼ N (0, 1).
σ/ (1 − hmm )1/2
2
Seja σ̂(i) o quadrado médio dos resı́duos obtido através do ajuste do modelo de regressão
2
sem a m-ésima observação. Pode-se provar que σ̂(i) é o quadrado médio dos resı́duos
2
obtido a partir do modelo em (??). Pelo teorema do apêndice B, vem que σ̂(i) e δ̂ são
independentes. Assim, sob H0 ,
δ̂
e∗m = q ∼ t(n−p−1)
2
σ̂(m) (1 − hmm )

Por (3.7) temos que


em
e∗m = q (3.10)
2
σ̂(m) (1 − hmm )
e um teste para H0 é dado por
94

Rejeitar H0 se e somente se |e∗m | for grande.

Seja e∗m o valor observado da estatı́stica de teste. A probabilidade de significância


é dada por

P t(n−p−1) > |e∗m | .


e∗m é conhecido como resı́duo estudentizado. Na prática verificamos se |e∗m | > 2. Em


caso afirmativo, tomamos a m-ésima observação como um outlier.

3.3 Variância não Constante (ou Heterocedastici-


dade)

Uma suposição básica do modelo de regressão linear é a de que os erros de ob-


servação têm a mesma variância, ou seja,

V ar (εi ) = σ 2 , ı = 1, . . . , n.

Conseqüentemente excluı́mos situações onde a variância de εi depende dos valores de al-


gum regressor, tais como V ar(εi ) = σ 2 xi1 , ou quando depende da média da observação,
ou seja, V ar(εi ) = σ 2 µ1 , etc.

Suponha, por exemplo, que em vez de termos Yi com distribuição normal temos
Yi com distribuição de Poisson com média µi = E(Yi ). Como a variância de uma v.a.
com distribuição de Poisson é igual a média, temos que V ar(Yi ) = µi , ı = 1, . . . , n e
portanto as observações não têm a mesma variância.

Um gráfico de resı́duo que pode revelar variâncias não constantes é o gráfico das
estimativas µ̂i pelos resı́duos padronizados. Primeiramente suponha que o modelo de
95

regressão com todas as suposições básicas é válido. Temos que

Cov (µ̂i , ei ) = Cov (µ̂i , Yi − µ̂i )


= Cov (µ̂i , Yi ) − Cov (µ̂i , µ̂i )
= σ 2 hii − σ2 hii = 0

(veja (??) e o cálculo de Cov(Yi , µ̂i ) na página 84). Assim um gráfico de µ̂i × ei revela
um padrão de ausência de correlação (caso o modelo seja adequado).

A figura a seguir mostra um gráfico de µ̂i × ei obtido a partir da simulação de 500


observações Yi , onde
Yi ∼ N µi , σ 2 ,

ı = 1, . . . , 500, (3.11)

µi = 7.3 + 4.98xi , σ 2 = 16 e x1 , . . . , x500 são observações provenientes de uma população


com distribuição N (0, 1)

Figura 3.1: Resı́duos por Valores Ajustados.

Na prática utilizamos o resı́duo padronizado


ei
ri = p
σ̂ 2 (1 − hii )
96

em vez do resı́duo ordinário ei . A principal razão é que, pelo corolário do teorema (??)
(página 80),
ei ∼ N 0, σ 2 (1 − hii )


e portanto
ei
p ∼ N (0, 1). (3.12)
σ 2 (1 − hii )
Substituindo-se σ 2 por um estimador σ̂ 2 obtém-se o resı́duo padronizado e esperamos,
devido a (3.12), que estes resı́duos tenham variâncias com valores próximos. Trabalhar
com resı́duos que têm a mesma variância é mais razoável por algumas razões. Por
exemplo, você nunca saberá se um valor alto de ei (o resı́duo ordinário) é devido ao
fato da observação Yi ser discrepante ou devido ao fato da variância de ei ser grande.
Se todos os resı́duos têm a mesma variância este problema desaparece. A seguir temos
um gráfico com resı́duos padronizados obtido a partir dos dados gerados de acrodo com
(3.11).

Figura 3.2: Resı́duos Padronizados por Valores Ajustados.

Este é o ideal de gráfico de resı́duos × valores ajustados. Espera-se que quase a


totalidade dos resı́duos padronizados esteja entre -3 e 3 – pois isto acontece com valores
97

oriundos de uma população normal padrão. Também espera-se um comportamento que


evidencie a não existência de correlação entre os resı́duos e os valores ajustados, devido
ao que mostramos na página 88. Quando o gráfico não apresenta este padrão, pode ser
que alguma(s) hipótese(s) necessária(s) para a definição do modelo de regressão linear
não estejam satisfeitas. Primeiramente vamos discutir o caso em que as observações
não têm todas a mesma variância.

A figura abaixo mostra um gráfico de resı́duos × valores ajustados, obtido a partir


do ajuste do modelo de regressão linear simples utilizando observações simuladas em
computador. As observações seguem

Yi = 3.4 + 9.78xi + εi , ı = 1, . . . , 500, (3.13)

onde εi ∼ N (0, x4i ). Assim, V ar(εi ) = x4i . Portanto a suposı́ção de variâncias iguais é
violada neste caso.

Para estes dados simulados foi ajustado o modelo de regressão linear simples usual,
supondo que εi ∼ N (0, σ 2 ) – ou seja, erros com a mesma variância.

Observe que o gráfico apresenta um formato de ”megafone”. Isto é um indicativo


de que a variância dos resı́duos padronizados aumenta conforme aumenta o valor da
média das observações. Observe no gráfico: para valores menores de µ̂ a variabilidade
dos ri′ s é menor do que para valores maiores.

O gráfico de valores ajustados × resı́duos padronizados é então uma ferramenta


útil para a detecção de violação na hipótese de variância constante. A ausência é a
seguinte se o modelo de regressão fosse adequado para descrever o fenômeno, o gráfico
de resı́duos teria a forma apresentada na página 90. Pode-se provar que caso a variância
de εi dependa de µi , então a variâncoa de ri também dependerá de µi . O caso que
analisamos encontra-se nesta categoria, pois µi = 3.4 + 9.78xi , implicando em xi =
98

Figura 3.3: Resı́duos por Valores Ajustados.

(µi − 3.4)/9.78 e portanto


 4
µi − 3.4
V ar (Yi ) = x4i = .
9.78

3.4 Não-Linearidade

Nesta seção vamos simular uma situação onde a média da variável resposta não
é uma função linear dos regressores, como supõe o modelo de regressão linear simples.
Considere que tentemos ajustar este modelo a observações que seguem a estrutura

Yi = β0 + β1 xi + β2 x2i + εi , ı = 1, . . . , 500 (3.14)

onde εi ∼ N (0, σ 2 ). Para efeito deste exemplo vamos utilizar β0 = 2, β1 = 3.68,


β2 = −7.36 e σ 2 = 1. O regressor é gerado de acordo com uma distribuição ξ32 .

O gráfico a seguir mostra o diagrama de dispersão para as variáveis resposta e


99

regressora e a reta de regressão ajustada. Lembre-se que esta reta é oriunda do ajuste
do modelo

Yi = β0 = β1 xi + εi (3.15)

que, obviamente, é um modelo inadequado para a situação


100

Figura 3.4: Ajuste para uma Relação Não-Linear.

Observe para que valores de x próximos de zero o resı́duo é positivo, diminuindo


conforme aumenta o valor de e, depois passa a ser negativo, é decrescente em uma
região, crescente em outra, etc. Este comportamento dos resı́duos pode ser melhor
observado no gráfico de resı́duos padronizados × valores ajustados apresentado a seguir

Assim, se um gráfico de resı́duos oriundo do ajuste de um modelo de regressão


linear como em (3.15) apresenta um comportamento como o do gráfico (2.9.8), é sinal
de que termos devem ser incluı́dos no modelo. No caso, sabemos que a inclusão dos
valores x2i é necessária, pela forma como foram geradas as observações.

3.5 Gráficos de Resı́duos Parciais

Os gráficos de resı́duos parciais são úteis para que possamos conjecturar a verda-
deira relação entre a média da variável resposta e um particular regressor xj .
101

Figura 3.5: Resı́duos por Valores Ajustados.

Suponha então que temos, como é usual, n observações da variável resposta,


Y1 , . . . , Yn e (p − 1) regressores. Para o regressor j temos os valores x1j , x2j , . . . , xnj .
Suponha que o ajuste do modelo de regressão

Yi = β0 + β1 xi1 + · · · + β(p−1) xi(p−1) + εi

é feito e são obtidos os respectivos estimadores β̂0 , β̂1 , . . . , β̂(p−1) e os resı́duos ordinários
e1 , . . . , en . O resı́duo parcial é definido por
 
rij = Yi − β̂0 + β̂1 xi1 + · · · + β̂(j−1) xi(j−1) + β̂(j+1) xi(j+1) + · · · + β̂(p−1) xi(p−1) .

Observe que a expressão em parênteses nada mais é do que µ̂i − β̂j xij , ou seja, o valor
ajustado menos a contribuição do -ésimo regressor a este valor ajustado. Temos então
que rij = Yi − µ̂i + β̂j xij , ou seja,

rij = ei + β̂j xij . (3.16)

Assim, para encontrar os resı́duos parciais correspondentes ao -ésimo regressor, ou seja,


o vetor
 ′
rj = r1j r2j . . . rnj ,
102

basta calcularmos
rj = e + β̂j xj , (3.17)

onde xj é a -ésima coluna da matriz X, ou seja,


 ′
xj = x1j x2j . . . xnj .

A fórmula (3.17) facilita a obtenção de rj no computador.

Se a relação
Yi = β0 + β1 xi1 + · · · + β(p−1) xi(p−1) + εi

for adequada teremos, como já vimos antes,

E (ei ) = E (Yi − µ̂i ) = µi − µi = 0

e portanto
 
E (rij ) = E (ei ) + E β̂j xij = βi xij . (3.18)

Um gráfico de resı́duos parciais é um gráfico de rij por xij , ı = 1, . . . , n. Por (3.18)


vemos que, se a média da resposta for uma função linear no regressor j, então este
gráfico será uma reta passando pela origem.

A questão é: e se a verdadeira relação não for linear? Pode-se mostrar que, neste
caso, o gráfico dará uma idéia da relação entre µi e xij . Vamos exemplificar isto através
de dados simulados.

Geramos observações do modelo

Yi = 2 + 3xi1 + 4 log xi2 + εi , (3.19)

onde os valores xi1 foram gerados a partir de uma distribuição χ23 e xi2 de acordo com
uma distribuição χ25 .

Ajustamos o modelo

Yi = β0 + β1 xi1 + β2 xi2 + εi
103

Figura 3.6: Regressor 2 por Resı́duos Parciais.

e obtivemos β̂1 = 3.00 e β̂2 = 0.813. Temos, por exemplo, e1 = −2.38502, x11 = 1.9879
e x12 = 7.7535. Assim,

r11 = e1 + β̂1 x11


= −2.38502 + (3 × 1.9879)
= 3.5786

r12 = e1 + β̂2 x12


= −2.38502 + (0.813 × 7.7535)
= 3.9186

Analogamente calculamos r21 , . . . , rn1 e r22 , . . . , rn2 . Na figura (2.10.10) temos um


gráfico de xi2 por ri2 , claramente indicando que a relação entre µi e xi2 é logarı́tmica.
104

Figura 3.7: Regressor 1 por Resı́duos Parciais.

O gráfico desta página mostra que a relação entre µi e xi1 é linear (este gráfico é de xi1
por ri1 ).

Resumindo: um gráfico como o da página 96 indica que o termo log(xi2 ) deve ser
incluı́do no modelo.

3.6 Um Algoritmo para a Análise de Resı́duos

A seguir apresentaremos uma seqüência que julgamos adequada para que possa-
mos obter sucesso no processo de análise de resı́duos.

* 1o Passo: Faça um gráfico de resı́duos padronizados × valores ajustados. Isto


pode revelar que:
105

1. A variância dos erros não é constantes e/ou

2. A média da variável resposta não é uma função linear dos regressores.

Caso haja evidências da ocorrência de (1) podemos aplicar uma transformação na


variável resposta com o objetivo de tornar a variância constante. Neste caso é re-
comendável

• Aplicar logaritmo (log Y ), quando a variância cresce a medida que µ̂ cresce

• Obter Y 2 , quando a variância decresce a medida que µ̂ cresce

• Obter 1/Y , quando a maioria das observações está próxima de zero e existem
observações (poucas) com valor muito alto.

• Obter arcsin Y , se Yi representa uma proporção.

Caso ocorra (2) uma possı́vel solução é a inclusão de termos no modelo, como uma
potência de um regressor (x2 , x4 , etc). Esta não linearidade é melhor detectada nos
gráficos de resı́duos parciais.

* 2o Passo: Faça um gráfico de resı́duos parciais para cada variável regressora.


Isto pode ajudar a estabelecer a relação entre µ̂ e o regressor (veja a página 94). pode-
mos também obter um gráfico de resı́duos padronizados pelos regressores.

* 3o Passo: Faça um gráfico de resı́duos estudentizados (e∗i ) por hii . Isto pode
revelar outliers (se e∗i for grande) ou pontos influentes (se hii for grande). Um e∗i será
considerado grande se
|e∗i | > t(n−p−1); α2 .

A observação ı será influente se


2p
hii > .
n
106

* 4o Passo: Faça um gráfico de probabilidade normal para os resı́duos padroni-


zados. Este gráfico deve ficar para o final, depois que as outras pendências nos estágios
anteriores forem resolvidas. Caso a falta de normalidade seja evidenciada, as trans-
formações de 1o passo podem ser utilizadas e um novo gráfico de probabilidade normal
deve ser feito.

Estes gráficos devem ser feitos na seqüência recomendada. Deve-se resolver as


questões pendentes em um estágio e somente assim passar para o próximo. Por exemplo:
não faz sentido trabalhar com gráficos de resı́duos parciais se a variância ainda não foi
estabilizada. A razão é que uma transformação como log(Y ) altera a relação entre a
média da resposta e os regressores, esta não sendo mais linear. Também não faz sentido
procurar outliers ou não-normalidade até que a não-linearidade seja removida.
Capı́tulo 4

Análise de Variância

4.1 Análise de Variância com Um Fator

Nesta seção colocaremos o clássico problema de testar a hipótese de igualdade


entre médias de populações normais independentes no contexto do modelo de regressão
linear múltipla.

Seja então Yi = (Yi1 , . . . , Yini ) uma amostra aleatória (de tamanho ni ) proveniente
de uma população com distribuição N (βi , σ 2 ), i = 1, . . . , k. Suponhamos que estas k
amostras sejam independentes. O modelo definido desta forma é conhecido como Modelo
de Análise de Variância com Um Fator, por motivos que ficarão claros mais tarde. A
questão é testar a hipótese H de que as k médias populacionais são iguais, ou seja,
testar

H : β1 = · · · = βk .

Soluções para o caso k = 2 aparecem com razoável freqüência em textos de introdução


à inferência estatı́stica, como em Johnson e Bhattacharyya (1996, Cap. 10).

107
108

Para ilustrar, consideremos o seguinte exercı́cio retirado de Montgomery (1984).

Exemplo 4.1 Suponha que um experimento foi feito com o propósito de determinar se
quatro diferentes temperaturas quando aplicadas a um certo composto quı́mico afetam
a sua densidade. Foram pré-fixados quatro nı́veis de temperatura em graus centı́grados
(100, 125, 150 e 175). Para cada nı́vel foi observada a densidade do composto, com
replicações. As amostras para os diferentes nı́veis foram tomadas independentemente.
Os dados obtidos estão apresentados a seguir

Temperatura Densidade
100 21,8 21,9 21,7 21,6 21,7
125 21,7 21,4 21,5 21,4
150 21,9 21,8 21,8 21,6 21,5
175 21,9 21,7 21,8 21, 4

Para cada nı́vel de temperatura é observada uma amostra aleatória proveniente de uma
população com média da densidade desconhecida. A questão é decidir se estas médias
são iguais ou não. Neste caso particular temos k = 4 (ou seja, 4 amostras), n1 = n3 = 5
e n2 = n4 = 4.

A variável que define cada população é denominada Fator. No exemplo 4.1 o fator
é a variável temperatura.

Observe que uma questão delicada para a aplicação do modelo estatı́stico definido
no inı́cio desta seção é a hipótese de que as variâncias são iguais para as diferentes
populações.

O modelo de análise de variância com um fator é, na realidade, um modelo de


regressão linear múltipla. Relembremos que o modelo de regressão linear múltipla é
definido por
Y ∼ Nn (Xβ, σ 2 I), (4.1)
109

ou seja, o vetor de n observações Y tem distribuição normal n− variada com vetor de


médias na forma µ = Xβ e matriz de covariância σ 2 I, onde I é a matriz identidade
de ordem n. Vamos mostrar que o modelo de análise de variância pode ser escrito na
forma (4.1).

No caso do modelo de análise de variância o vetor de observações é dado por

Y = (Y1′ , . . . , Yk′ )′ .

O tamanho amostral é n = n1 + · · · + nk , de modo que a dimensão de Y é n × 1.


Consideremos os vetores de dimensão ni ,

1′ni = (1, . . . , 1)′ e 0′ni = (0, . . . , 0)′ ,

com todas as coordenadas iguais a 1 e 0, respectivamente. Temos que

E(Yi ) = [E(Yi1 ), . . . , E(Yini )]′ = (βi , . . . , βi )′ = βi 1′ni , i = 1, . . . , k.

Assim,

µ = E(Y ) = (E(Y1′ ), . . . , E(Yk′ ))′


= (β1 1′n1 , . . . , βk 1′nk )
= β1 (1′n1 , 0′n2 , . . . , 0′nk ) + β2 (0′n1 , 1′n2 , 0′n3 , . . . , 0′nk ) + · · · + βk (0′n1 , . . . , 0′n(k−1) , 1′nk ).

Denominando por ci o vetor de ordem n correspondente a βi na combinação linear


acima, obtemos
µ = β1 c1 + . . . + βk ck = Xβ,

onde X é a matriz de ordem n × k dada por

X = [c1 , . . . , ck ]

e
β = (β1 , . . . , βk )′ ,
110

mostrando que o modelo de análise de variância com um fator é da forma (4.1).

Vamos encontrar os estimadores para β e σ 2 . Primeiramente, observe que


(
ni se i = j
c′i cj =
0 se i 6= j,

ou seja, as colunas de X são vetores ortogonais e, além disso, a i-ésima coluna tem norma
ao quadrado igual ao número de observações obtidas na i-ésima população. Como c′i cj
é o elemento (i, j) da matriz X ′ X, resulta que X ′ X = diag {n1 , . . . , nk } ou seja, X ′ X é
uma matriz diagonal tendo na diagonal principal os elementos n1 , . . . , nk , nesta ordem.
Portanto, temos que  
′ −1 1 1
(X X) = diag ,..., .
n1 nk
Definindo ni
X
Yi = Yij , i = 1, . . . , k,
j=1

vem que

X ′ Y = (c′1 Y, . . . , c′k Y ) = (Y1, . . . , Yk)′ .

Agregando os resultados acima obtemos o estimador de máxima verossimilhança para


β, dado por
β̂ = (X ′ X)−1 X ′ Y = (Y 1, . . . , Y k),

onde ni
1 X
Y i = Yij .
ni j=1

Ou seja, o estimador de máxima verossimilhança para βi é dado por

β̂i = Y i, i = 1, . . . , k,

a média da amostra da i-ésima população, i = 1, . . . , k 1 .


1
O mesmo resultado poderia ser encontrado a partir da maximização direta da função de verossimi-
lhança associada ao modelo. Seja Li a função de verossimilhança para a i-ésima amostra, que depende
somente de βi . Por independência, temos que a verossimilhança conjunta é dada por L = L1 ×· · · ×Lk ,
111

O estimador não viciado para σ 2 é dado por


1 1
QMres = k Y − X β̂ k2 = k Y − (Y 1c1 + · · · + Y 1ck ) k2
n−k n−k
1
= k (Y11 − Y 1, . . . , Y1n1 − Y 1, . . . , Yk1 − Y k, . . . , Yknk − Y k)′ k2
n−k
k ni
1 XX
= (Yini − Y i)2 .
n − k i=1 j=1

de modo que log L = log L1 + · · · + log Lk . Assim, maximizar L em relação a βi é a mesma coisa que
maximizar log Li com relação a βi , que significa obter o estimador de máxima verossimilhança para βi
utilizando a i-ésima amostra. Pelos cursos introdutórios de inferência, sabemos que este estimador é
exatamente Y i .
112
Apêndice A

Algumas Definições e Resultados


em Estatı́stica Multivariada

Nesta seção assumimos que todos os momentos relacionados às variáveis existem
e são finitos. Seja X = (X1 , . . . , Xp )′ um vetor aleatório. Definimos a esperança de X
por
E (X) = (E (X1 ) , . . . , E (Xp ))′ , (A.1)

ou seja, E(X) é um vetor cuja a ı-ésima coordenada é igual a esperança da ı-ésima


coordenada de X, ı = 1, . . . , n. A matriz de covariâncias de X é definida como sendo
 
Var (X1 ) Cov (X1 , X2 ) . . . Cov (X1 , Xp )
 Cov (X2 , X1 ) Var (X2 ) . . . Cov (X2 , Xp ) 
Cov (X) =  (A.2)
 
.
. .
. .
. 
 . . . 
Cov (Xp , X1 ) Cov (Xp , X2 ) . . . Var (Xp )

ou seja, o elemento (i, j) de Cov(X) é a covariância entre Xi e Xj (observe que a


covariância entre Xi e Xi é a variância de Xi ).

Como Cov(Xi , Xj ) = Cov(Xj , Xi ), temos que Cov(X) é uma matriz simétrica.


Observe também que a ordem desta matriz é p × p. A esperança e a variância de X

113
114

têm as seguintes propriedades:

Teorema A.1 Seja B uma matriz de ordem q × p. Então

E (BX) = BE (X) (A.3)

e
Cov (BX) = BCov (X) B ′ . (A.4)

Observe que BX é uma matriz de ordem q×1, ou seja, um vetor aleatório de dimensão q.
Observe também que para o caso p = q = 1, ou seja, quando B e X são unidimensionais,
temos que (A.4) reduz-se a
Var (BX) = B 2 Var (X)

que é um resultado clássico da teoria das probabilidades.

Sejam X e Y vetores aleatórios de mesma ordem. Então, pela definição de espe-


rança,
E (X + Y ) = E (X) + E (Y ) . (A.5)

Se C é um vetor de constantes com a mesma dimensão de X, então

Cov (X + C) = Cov (X) . (A.6)

O elemento de ordem (i, j) da matriz Cov(X) é

Cov(Xi , Xj ) = E{[Xi − E(Xi )][Xj − E(Xj )]}.

O termo entre chaves é o elemento (i, j) da matriz

[X − E (X)] [X − E (X)]′ ,

de modo que
Cov (X) = E [X − E (X)] [X − E (X)]′ .

(A.7)
Apêndice B

A Distribuição Normal
Multivariada

B.1 A Densidade Normal

Relembremos que se X é uma variável aleatória com distribuição normal com


média µ e variância σ 2 > 0 então X tem densidade
 
2 −1/2
 1 2
f (x) = 2πσ exp − 2 (x − µ) , x ∈ R. (B.1)

É possı́vel estender a definição de distribuição normal para o caso multivari-


ado. Dizemos que o vetor aleatório p-dimensional X tem distribuição normal p-variada
quando a sua densidade é dada por
 
−p/2 −1/2 1 ′ −1
f (x) = (2π) |Σ| exp − (x − µ) Σ (x − µ) , x ∈ Rp . (B.2)
2
Nesta definição, temos que µ ∈ Rp e Σ : p × p é uma matriz positiva definida (ou
seja, a′ Σa > 0 para todo a ∈ Rp ). Observe que quando p = 1 (ou seja, quando X é
univariado) então (E.2) reduz-se a (E.1).

115
116

A definição da distribuição normal multivariada pode ser feita de uma maneira


bem mais geral do que simplesmente através da densidade (E.2). É possı́vel defini-la
de tal maneira que sejam englobados casos onde não há a existência de uma densidade
— aliás, vamos mostrar que existe a densidade se e somente se a matriz de covariâncias
é positiva definida.

B.2 Uma Definição Abrangente de Normalidade

Lembremos que, dado um vetor aleatório X = (X1 , . . . , Xn ) uma combinação li-


near das coordenadas de X é uma variável aleatória da forma a′ X, onde a = (a1 , . . . , an )′ .

Definição B.1 Dizemos que X tem Distribuição Normal n-variada quando qualquer
combinação linear das coordenadas de X tiver distribuição normal univariada.

Vamos determinar agora a função caracterı́stica de um vetor X com distribuição


normal n-variada. Antes de tudo, relembremos que

1. A função caracterı́stica de uma variável aleatória X com distribuição normal


univariada com média µ e variância σ 2 é dada por
 
1 2 2
ϕX (t) = exp itµ − t σ , t ∈ R;
2

2. A função caracterı́stica associada a cada combinação linear a′ X é dada por

ϕa′ X (t) = E[exp(ita′ X)], t ∈ R.

Fazendo t = 1, podemos construir a função

a → ϕa′ X (1) = E[exp(ia′ X)], a ∈ Rn ,


117

que é justamente a função caracterı́stica de X. Ou seja, para determinarmos a


função caracterı́stica de X, é suficiente conhecermos as funções caracterı́sticas de
a′ X para todo a1 .

Observe que a i-ésima coordenada do vetor X tem, por definição, distribuição


normal univariada pois, como

Xi = (1, 0, . . . , 0)X

temos que Xi é uma combinação linear das coordenadas de X, i = 1, . . . , n. Assim, a


esperança e a variância de Xi são finitas. Como as variâncias de Xi e Xj são finitas,
resulta que Cov(Xi , Xj ) também é finita. Seja a = (a1 , . . . , ap )′ . Então, por (A.3) e
(A.4),
E(a′ X) = a′ E(X) e Cov(a′ X) = a′ Cov(X)a.

Assim, a′ X tem distribuição normal com a média e a variância dadas acima, que vamos
chamar de µ e Σ, respectivamente. Assim, a função caracterı́stica de a′ X é dada por
 
′ 1 2 ′
ϕa′ X (t) = exp ita µ − t a Σa , t ∈ R.
2

Fazendo t = 1, temos a função caracterı́stica de X, que é dada por


 
1 ′
ϕX (a) = exp ia µ − a Σa , a ∈ Rn .

2

Demonstramos o

Teorema B.1 A função caracterı́stica de um vetor X com distribuição normal p-


variada com vetor de médias µ e matriz de covariâncias Σ é dada por
 
1 ′
ϕX (a) = exp ia µ − a Σa , a ∈ Rn .

2
1
Este resultado é devido a Cramér e Wold.
118

Observe que, como a função caracterı́stica especifica completamente uma distri-


buição, o teorema B.1 implica que basta conhecermos o vetor de médias e a matriz de
covariâncias para determinarmos uma distribuição normal n-variada. Devido a isto,
utilizamos a notação X ∼ Nn (µ, Σ).

O teorema a seguir mostra que uma transformação afim de um vetor com distri-
buição normal ainda é um vetor com distribuição normal.

Teorema B.2 Sejam X ∼ Nn (µ, Σ), A : m × n, b : m × 1 e Y = AX + b. Então

Y ∼ Nm (Aµ + b, AΣA′ ) . (B.3)

Demonstração: Por definição, devemos mostrar que a′ Y tem distribuição normal


univariada, onde a tem dimensão m × 1. Temos que

a′ Y = a′ AX + a′ b.

Observe que A′ a é um vetor de dimensão n × 1, de modo que a′ AX é uma combinação


linear das coordenadas de X e, portanto, tem distribuição normal univariada. Somando
com a constante a′ b, ainda temos uma distribuição normal univariada. Isto conclui a
demonstração.

No teorema a seguir mostramos que, se a matriz de covariâncias Σ for diagonal


então as coordenadas de X são independentes.

Teorema B.3 Seja X = (X1 , . . . , Xn ) ∼ Nn (µ, Σ), onde µ = (µ1 , . . . , µn )′ e Σ =


diag {σ11 , . . . , σnn }. Então as coordenadas de Xi , i = 1, . . . , n são independentes, com
Xi ∼ N (µi , σii2 ).
119

Demonstração: Seja a = (a1 , . . . , an )′ . Usando o Teorema B.1, vemos que a função


caracterı́stica de X neste caso é dada por
 
1 2 2 1 2 2
ϕX (a) = exp ia1 µ1 + · · · + ian µn − a1 σ11 − · · · − an σnn
2 2
   
1 2 2 1 2 2
= exp ia1 µ1 − a1 σ11 × · · · × exp ian µn − a1 σnn .
2 2
Então a função caracterı́stica de X é o produto de n fatores, sendo o i-ésimo fator a
função caracterı́stica de uma distribuição N (µi , σii2 ), i = 1, . . . , n. E esta é justamente
a função caracterı́stica conjunta de distribuições independentes N (µi , σii2 ), i = 1, . . . , n.

Sejam X1 , . . . , Xp variáveis aleatórias independentes, com Xi ∼ N (µ), σ 2 , ı =


1, . . . , p, sabemos que a densidade conjunta de X1 , . . . , Xp é igual ao produto das den-
sidades marginais, que são todas iguais a (??). Seja f esta densidade conjunta. Então
p
( )
−p/2 1 X
f (x1 , . . . , xp ) = 2πσ 2 (xi − µ)2

exp − 2
2σ ı=1
 
−p/2 2 −1/2
1 ′ 2
−1
= (2π) σ I exp − (x − µ) σ I (x − µ) .
2

Assim, comparando com (??), vemos que a distribuição conjunta de X1 , . . . , Xp é


Np (µ∗ , Σ∗ ), onde µ∗ = (µ, . . . , µ)′ e Σ∗ = σ 2 I.
120
Apêndice C

Álgebra Linear

Neste apêndice apresentamos algumas definições e resultados em álgebra linear que


são utilizados ao longo do texto. A exposição é bastante resumida e tem como objetivo
servir de fonte de consulta rápida. Em particular, demonstrações dos resultados não são
apresentadas. Como referência para maiores aprofundamentos, podemos citar o livro
de Lima (2001).

Um Espaço Vetorial é um conjunto E não vazio onde estão definidas duas operações,
respectivamente denominadas Soma e Multiplicação por Escalar, tais que:

1. A soma associa a cada par x e y de elementos de E o elemento x + y ∈ E;

2. A multiplicação por escalar associa a cada número real λ e a cada x ∈ E o


elemento λx ∈ E.

Os elementos de um espaço vetorial são denominados Vetores. Por definição, temos que
um espaço vetorial E deve satisfazer

121
122

1. Para todos x e y em E temos x + y = y + x;

2. Para todos x, y e z em E e λ, γ números reais,

(x + y) + z = x + (y + z) e (λγ)x = λ(γx);

3. Existe um elemento de E chamado Vetor Nulo, denotado por 0, que satisfaz


0 + x = x para todo x ∈ E;

4. Para todo x ∈ E existe −x ∈ E tal que x + (−x) = 0;

5. Para todos λ e γ reais e x e y em E

(λ + γ)x = λx + γx e λ(x + y) = λx + λy;

6. Para todo x ∈ E, 1x = x.

Um Subespaço Vetorial de um espaço vetorial E é um subconjunto de E que


também é um espaço vetorial, com as mesmas operações definidas em E. Facilmente
vemos que a interseção de subespaços vetoriais também é um subespaço vetorial.

O espaço vetorial mais popular é, com certeza, o Espaço Euclideano de dimensão
n, denotado por Rn . Um elemento x de Rn é dado pela n-upla x = (x1 , . . . , xn ), onde xi ,
i = 1, . . . , n são números reais denominados Coordenadas de x. Sejam x = (x1 , . . . , xn )
e y = (y1 , . . . , yn ) vetores em Rn e λ um número real. As operações definidas em Rn
que o fazem espaço vetorial são dadas por

x + y = (x1 + y1 , . . . , xn + yn ) e λx = (λx1 , . . . , λxn ).

O conjunto dos números reais é então denotado por R. Neste texto trabalhamos somente
com subespaços vetoriais de Rn .

Teorema C.1 Um subconjunto A ⊂ E é um subespaço vetorial do espaço vetorial E


se e somente se
123

i. O vetor nulo 0 é um elemento de A e

ii. para todo λ ∈ R e x, y vetores em E, λx + y ainda é um elemento de E.

Uma Base de um Espaço Vetorial E é um conjunto de vetores em E, {a1 , . . . , an },


que satisfaz as seguintes condições:

1. a1 , . . . , an são linearmente independentes. Isto significa que qualquer combinação


linear nula destes vetores tem coeficientes nulos. Mais especificamente, sempre
que tivermos
γ1 a1 + · · · + γ n an = 0

teremos γ1 = γ2 = . . . = γn = 0.

2. a1 , . . . , an geram o espaço E. Isto significa que todo vetor em E pode ser escrito
como combinação linear de a1 , . . . , an . Ou seja, para todo vetor x ∈ E, existem
números reais γ1 , . . . , γn tais que

x = γ 1 a1 + · · · + γ n an . (C.1)

γ1 , . . . , γn são denominados Coordenadas de a na base {a1 , . . . , an }.

O número de vetores em qualquer base de E é sempre o mesmo. Este número é


denominado dimensão de E e será denotado por dim(E). O espaço Euclidiano Rn tem
dimensão n. Uma base para Rn é dada por

a1 = (1, 0, 0, . . . , 0)′
a2 = (0, 1, 0, . . . , 0)′
.. (C.2)
.
an = (0, 0, . . . , 0, 1)′

ou seja, a ı-ésima coordenada de ai é 1 e as demais são iguais a zero. Esta base é


denominada base canônica de Rn , mas é somente uma entre tantas outras que existem.
124

Seja p ≤ n. O Subespaço Vetorial Gerado Pelos Vetores x1 , . . . , xp é o conjunto


de todas as combinações lineares destes vetores. Ou seja, é o conjunto dado por

span(x1 , . . . , xn ) = {β1 x1 + · · · + βp xp ; β1 , . . . , βp ∈ R} . (C.3)

Neste texto identificamos um vetor x ∈ Rn como uma matriz coluna de ordem


n × 1 dada por
x = (x1 , . . . , xn )′ ,

onde x1 , . . . , xn são as coordenadas de x na base canônica de Rn .

Seja X uma matriz de ordem n × p. Podemos escrever


h i
X= x1 · · · x p ,

onde x1 , . . . , xp são os vetores em Rn que representam as p colunas de X. Observe que,


para β = (β1 , . . . , βp )′ ,
β1 x1 + · · · + βp xp = Xβ,

de modo que, de acordo com (C.3), o espaço gerado pelas colunas de X pode ser escrito
como
span(X) = {Xβ; β ∈ Rp }. (C.4)

De forma análoga definimos o espaço gerado pelos vetores linha de uma matriz.
Observe que para uma matriz de ordem n × p o subespaço gerado pelas colunas é um
subespaço de Rn e o subespaço gerado pelas linhas é um subespaço de Rp . Mesmo para
o caso em que p = n não ocorre necessariamente a igualdade entre os subespaços.

Teorema C.2 A dimensão do espaço gerado pelas linhas é igual a dimensão do espaço
gerado pelas colunas.
125

Teorema C.3 Quando p = n – ou seja, quando a matriz é quadrada – temos que esta
possui inversa se e somente a dimensão do espaço gerado pelas colunas (ou pelas linhas)
é igual a p.

Vamos considerar somente espaços vetoriais munidos do Produto Interno Canônico,


que associa a cada par de vetores x e y o produto x′ y. A norma proveniente deste pro-
duto interno associa a cada vetor x o número

kxk = x′ x.
p
A Distância Entre os Vetores x e y é dada então por kx − yk.

Dizemos que dois vetores x e y em um espaço vetorial são Ortogonais quando



x y = 0, ou seja, quando o produto interno entre eles é igual a zero. Neste caso vale o
Teorema de Pitágoras
k x + y k2 =k x k2 + k y k2 . (C.5)

Uma base {a1 , . . . , an } de um espaço vetorial E é ortonormal quando os vetores


são ortogonais e têm norma igual a 1. Ou seja, quando
(
0 se i 6= j
a′i aj =
1 se ı = j.

Todo subespaço vetorial E ⊂ Rn de dimensão m possui uma base ortonormal {a1 , . . . , am }.


Se m < n então é possı́vel encontrar vetores am+1 , . . . , an tais que

{a1 , . . . , am , am+1 , . . . , an }

é uma base ortonormal de Rn . Dizemos então que estamos completando a base de E a


fim de obter uma base ortonormal para Rn .

Note que, para que um vetor z seja ortogonal a todos os vetores em um subespaço
vetorial com base {a1 , . . . , ap } basta que z seja ortogonal a cada vetor na base. Neste
126

caso, temos x = λ1 a1 + · · · + λp ap e

z ′ x = λ1 z ′ a1 + · · · + λp z ′ ap = 0.

Sejam A e B subespaços vetoriais tais que A ∩ B = {0}. O conjunto

A ⊕ B = {a + b; a ∈ A, b ∈ B}

é denominado Soma Direta de A com B.

Seja A um conjunto não vazio, não necessariamente um subespaço vetorial. O


conjunto A⊥ formado por todos os vetores em Rn que são ortogonais a todos os vetores
de A, ou seja,
A⊥ = {x ∈ Rn ; x′ y = 0 para todo y ∈ A}

é denominado Complementar Ortogonal de A. Pode-se mostrar que A⊥ é um subespaço


vetorial e que, além disso, se A é um subespaço vetorial,

Rn = A ⊕ A⊥ . (C.6)

Assim, todo vetor z ∈ Rn pode ser escrito como z = x + y, onde x ∈ A e y é ortogonal


a x. Dado z ∈ Rn existe um e somente um par de vetores x, y, com x ∈ A e y ∈ A⊥ , tal
que z é a soma de x com y. Ou seja, a decomposição de z é única. Outras propriedades
do complementar ortogonal no caso em que A é um subespaço vetorial de Rn são

n = dim(A⊥ ) + dim(A) e (A⊥ )⊥ = A. (C.7)

Seja z um ponto em Rn e E ⊂ Rn um subespaço vetorial de dimensão m. A


projeção de z sobre E é definida como sendo o ponto Π(z) em E tal que Π(z) minimiza
a distância entre z e os pontos de E. Ou seja, Π(z) satisfaz

k z − Π(z) k2 = mı́n{k z − x k2 ; x ∈ E}. (C.8)


127

Uma propriedade trivial é que, se z é um elemento de E, então a projeção de z


sobre E é o próprio vetor z. Além disso, se z ∈ E ⊥ então Π(z) = 0. Isto é conseqüência
de termos
k z − x k2 =k z k2 + k x k2

para todo x ∈ E, de modo que o mı́nimo da função x →k z − x k2 é atingido em x = 0.

Algumas outras propriedades: Π(z) sempre existe, é única e, se {a1 , . . . , am } é


uma base ortogonal de E, então
m
X a′j z
Π (z) = ′
· aj .
=1
a j a j

Se a base for ortonormal, teremos


m
X
a′j z aj .

Π (z) = (C.9)
=1

A partir desta igualdade, mostra-se diretamente o

Teorema C.4 O vetor z − Π(z) é ortogonal a todos os vetores em E; Além disso,


função
z 7−→ Π(z), z ∈ Rn

que associa a cada z ∈ Rn a projeção Π(z), denominada Projeção Sobre E, é linear, ou


seja, para cada par de vetores x, y em E e λ ∈ R temos

Π(λx + y) = λΠ(x) + Π(y).

Seja z ∈ Rn , seja E um subespaço vetorial de Rn e sejam ΠE e ΠE ⊥ as projeções


sobre E e E ⊥ , respectivamente. Escrevendo

z = z − ΠE (z) + ΠE (z)
128

Figura C.1: Projeção de z sobre E.

e usando a linearidade da função projeção, temos que

ΠE ⊥ (z) = ΠE ⊥ (z − ΠE (z)) + ΠE ⊥ (ΠE (z))


= z − ΠE (z), (C.10)

pois, sendo z − ΠE (z) um elemento de E ⊥ , ele é a sua própria projeção sobre este
espaço. Além disso, como ΠE (z) ∈ E, vem que a sua projeção sobre E ⊥ é o vetor nulo.

Como Π(z) ∈ E, temos que Π(z) e z − Π(z) são vetores ortogonais e, como
consequência,

k z k2 = k Π (z) + z − Π (z) k2
= k Π (z) k2 + k z − Π (z) k2 .

Sejam E1 e E2 subespaços vetoriais tais que E1 ⊂ E2 . O Complementar Ortogonal


de E1 Dentro de E2 é, por definição, o conjunto formado por todos os vetores que,
ao mesmo tempo, estão em E2 e são ortogonais a todos os vetores de E1 . Assim,
129

este subespaço vetorial é igual a E1⊥ ∩ E2 . Vamos determinar a projeção de z ∈ Rn


sobre este subespaço. As projeções sobre E1 e E2 serão denotadas por Π1 (z) e Π2 (z),
respectivamente. Escrevendo

z = Π1 (z) + Π2 (z) − Π1 (z) + z − Π2 (z)

e denotando E1⊥ ∩ E2 por E, vem que

ΠE (z) = ΠE (Π1 (z)) + ΠE (Π2 (z) − Π1 (z)) + ΠE (z − Π2 (z)).

Como Π1 (z) ∈ E1 , resulta que a sua projeção sobre E é o vetor nulo, pois para todo
x ∈ E = E1⊥ ∩ E2 ,
k Π1 (z) − x k2 =k Π1 (z) k2 + k x k2

e o mı́nimo é atingido em x = 0. Como z − Π2 (z) ∈ E2⊥ temos, pelo mesmo motivo,


que ΠE (z − Π2 (z)) = 0. Finalmente, observe que o vetor Π2 (z) − Π1 (z) está em E2 —
pois Π1 (z) e Π2 (z) estão em E2 — e, além disso, está em E1⊥ , pois

Π2 (z) − Π1 (z) = Π2 (z) − z + z − Π1 (z)

e os vetores Π2 (z) − z e z − Π1 (z) estão em E1⊥ . Assim, vemos que o vetor Π2 (z) − Π1 (z)
está em E, implicando em ΠE (Π2 (z) − Π1 (z)) = Π2 (z) − Π1 (z), e mostramos que

ΠE1⊥ ∪E2 (z) = Π2 (z) − Π1 (z). (C.11)

É muito comum utilizar-se a notação E1⊥ ∪ E2 = E2 ⊖ E1 .

O teorema a seguir é o mais importante deste texto e mostra uma estreita conexão
entre álgebra linear e probabilidade. No enunciado utilizamos uma extensão natural da
definição de soma direta de subespaços vetoriais E1 , . . . , Ek tais que Ei ∩ Ej = {0} para
todo i 6= j, dada pelo conjunto

E1 ⊕ · · · ⊕ Ek = {x1 + · · · + xk ; x1 ∈ E1 , . . . , xk ∈ Ek }.
130

Além disso, vamos definir os subespaços Ei i = 1, . . . , k como ortogonais quando, para


todo par i, j, com i 6= j, tivermos que todo vetor de Ei é ortogonal a todo vetor de Ej .
Finalmente, vamos utilizar uma versão estendida do teorema de Pitágoras: se x1 , . . . , xk
são vetores ortogonais dois a dois então
n
X k
X
k xi k2 = k xi k2 .
i=1 i=1

Teorema C.5 Seja Z ∼ Nn (0, σ 2 I), com σ 2 > 0. Sejam E1 , . . . , Ek subespaços vetori-
ais ortogonais de Rn tais que

Rn = E1 ⊕ · · · ⊕ Ek .

Seja Πi a função projeção sobre Ei , i = 1, . . . , k. Então Πi (Z), i = 1, . . . , k são variáveis


aleatórias independentes, com
k Πi (Z) k2
∼ χ2di ,
σ2
onde di é a dimensão de Ei , i = 1, . . . , k.

Demonstração: É possı́vel escolher uma base ortonormal para Rn , {ξ1 , . . . , ξn }, de


tal maneira que {ξ1 , . . . , ξd1 } é uma base ortonormal de E1 , que {ξd1 +1 , . . . , ξd1 +d2 } seja
uma base ortonormal de E2 , etc. Ou seja, {ξd1 +···+dj−1 +1 , . . . , ξd1 +···+dj } é uma base para
Ej . Cada observação do vetor Z pode ser escrita como combinação linear dos vetores
nesta base, ou seja, existem variáveis aleatórias γ1 , . . . , γn tais que

Z = γ1 ξ1 + · · · + γn ξn = Aγ, (C.12)

onde a i- ésima coluna de A é ξi , i = 1, . . . , n e γ = (γ1 , . . . , γn )′ . Observe que a matriz


A é ortonormal, ou seja,
A′ A = AA′ = I,

de modo que A−1 = A′ . Assim, temos que

γ = A−1 Z.
131

Como Z ∼ Nn (0, σ 2 I), temos que γ também tem distribuição normal n-variada, com
vetor de médias 0 e matriz de covariâncias
′
Cov (γ) = A−1 Cov (Z) (A)−1
= A−1 σ 2 IA = σ 2 I

— veja o Teorema B.2, o que significa dizer que γ1 , . . . , γn são independentes e identi-
camente distribuı́das como N (0, σ 2 ). Por (C.9), vem que
d1 +···+dj
X
Πj (Z) = (Z ′ ξi )ξi .
i=d1 +···+dj−1 +1

Observe que, por (C.12),

Z ′ ξi = γ1 ξ1′ ξi + · · · + γi ξi′ ξi + · · · γn ξn′ ξi = γi ,

de modo que
d1 +···+dj
X
Πj (Z) = γi ξi .
i=d1 +···+dj−1 +1

Assim, Πj (Z), j = 1, . . . , k são funções de grupos disjuntos de variáveis aleatórias inde-


pendentes e, portanto, também são independentes. Omitindo os ı́ndices do somatório
acima e utilizando o Teorema de Pitágoras — lembre-se que os vetores ξ1 , . . . , ξn são
ortonormais , vem que

k Πj (Z) k2 γi ξi k2 γi2 k ξi k2 X  γi 2
P P
k i i
2
= = = .
σ σ2 σ2 i
σ

Como γi /σ ∼ N (0, 1), i = 1, . . . , k, temos que k Πj (Z) k2 /σ 2 é a soma dos quadrados


de dj variáveis aleatórias normais padrão independentes, ou seja,

k Πj (Z) k2
∼ χ2dj ,
σ2
concluindo a demonstração.
132
Apêndice D

Diferenciação de Matrizes

Seja f : M → R uma função definida em M , um subconjunto do espaço vetorial


formado pelas matrizes de ordem p × 1 e suponha a existência das derivadas parciais
∂f
∂x i
, i = 1, . . . , p. Definimos o Vetor de Derivadas Parciais de f como sendo o vetor
∂f
∂x
cuja ı-ésima coordenada é dada por
∂f
, ı = 1, . . . , p
∂xi

Exemplo D.1 Sejam x = (x1 , x2 )′ e


!
A11 A12
A =
A21 A22

e seja
f (x) = x′ Ax
! !
  A11 A12 x1
= x1 x2
A21 A22 x2
= x21 A11 + (A12 + A21 ) x1 x2 + x22 A22 .

133
134

∂f
Por definição, temos que a primeira coordenada de ∂x

∂f
= 2x1 A11 + (A12 + A21 ) x2
∂x1
e a segunda coordenada é dada por
∂f
= (A12 + A21 ) x1 + 2x2 A22 .
∂x2

As seguintes propriedades podem ser obtidas diretamente da definição.

Teorema D.1 Seja a : p × 1 e f (x) = a′ x. Então

∂f
= a. (D.1)
∂x

Teorema D.2 Seja A : p × p uma matriz simétrica e f (x) = x′ Ax. Então

∂f
= 2Ax. (D.2)
∂x
Apêndice E

A Distribuição Normal
Multivariada

E.1 A Densidade Normal

Relembremos que se X é uma variável aleatória com distribuição normal com


média µ e variância σ 2 > 0 então X tem densidade
 
2 −1/2
 1 2
f (x) = 2πσ exp − 2 (x − µ) , x ∈ R. (E.1)

É possı́vel estender a definição de distribuição normal para o caso multivari-


ado. Dizemos que o vetor aleatório p-dimensional X tem distribuição normal p-variada
quando a sua densidade é dada por
 
−p/2 −1/2 1 ′ −1
f (x) = (2π) |Σ| exp − (x − µ) Σ (x − µ) , x ∈ Rp . (E.2)
2
Nesta definição, temos que µ ∈ Rp e Σ : p × p é uma matriz positiva definida (ou
seja, a′ Σa > 0 para todo a ∈ Rp ). Observe que quando p = 1 (ou seja, quando X é
univariado) então (E.2) reduz-se a (E.1).

135
136

A definição da distribuição normal multivariada pode ser feita de uma maneira


bem mais geral do que simplesmente através da densidade (E.2). É possı́vel defini-la
de tal maneira que sejam englobados casos onde não há a existência de uma densidade
— aliás, vamos mostrar que existe a densidade se e somente se a matriz de covariâncias
é positiva definida.
Apêndice F

Matrizes em Blocos

Muitas vezes é conveniente particionarmos uma matriz A : m × n em blocos, que


são submatrizes de A. Por exemplo, considere uma matriz de ordem 4 × 4,
 
a11 a12 a13 a14
 a
 21 a22 a23 a24 
A =  .

 a31 a32 a33 a34 
a41 a42 a43 a44

Uma partição possı́vel em submatrizes de A é


" #
B C
A = , (F.1)
D E

onde
" # " # " # " #
a11 a12 a13 a14 a31 a32 a33 a34
B = , C= , D= e E= .
a21 a22 a23 a24 a41 a42 a43 a44

Observe que, necessariamente, o número de linhas de B deve ser igual ao número de


linhas de C e o número de colunas de B deve ser igual ao número de colunas de D

137
138

Seja A uma matriz qualquer particionada como em (F.1). É simples mostrar que
" #
′ ′
B C
A′ = . (F.2)
D′ E ′

Uma caracterı́stica interessante das matrizes particionadas é que um produto entre duas
matrizes deste tipo segue as mesmas regras do produto usual de matrizes. Assim, seja
" #
G H
F = .
I J

Então,
" #
(BG + CI) (BH + CJ)
AF = . (F.3)
(DG + EI) (DH + EJ)

É claro que assumimos acima uma compatibilidade nas ordens das matrizes envolvidas,
de tal modo que os produtos façam sentido.

O produto de matrizes em bloco é muito utilizado na teoria da regressão linear


múltipla. Considere, por exemplo, a matriz de planejamento X,
 
1 x11 . . . x1(p−1)
 1 x21 . . . x2(p−1) 
X =  . .
 
.
 . . . .
. 
. 
1 xn1 . . . xn(p−1) ,

que aparece no texto em (2.4). Cada coluna de X pode ser encarada como uma sub-
matriz de X. Seja Xi a ı-ésima coluna da matriz X, ı = 0, 1, . . . , p − 1. Fazendo
h i′
X0 = 1 1 ... 1 .

Então, podemos escrever


h i
X = X0 X1 . . . X(p−1) .

Seja
h i
β = β0 β1 . . . β(p−1)
139

o vetor de coeficientes no modelo de regressão (veja (??), página 44, novamente). Pela
regra em (F.3) temos que

Xβ = β0 X0 + β1 X1 + · · · + β(p−1) X(p−1) . (F.4)

Um produto como em (??) está presente várias vezes na teoria. Por exemplo, o próprio
modelo de regressão linear pode ser colocado na forma

Y = β0 X0 + β1 X1 + · · · + β(p−1) X(p−1) + ε. (F.5)

O vetor de valores ajustados (ver (2.12) na página 48) pode, com esta notação, ser
colocado na forma

µ̂ = X β̂ = β̂0 X0 + β̂1 X1 + · · · + β̂(p−1) X(p−1) . (F.6)

Também pode ser conveniente fazermos uma partição de X em submatrizes da


forma
h i
X = XA XB , (F.7)

onde
h i
XA = X0 X1 . . . Xk

é composta pelas primeiras k colunas de X e


h i
XB = X(k+1) . . . X(p−1)

é formada pelas colunas restantes. Em conformidade com esta pertição podemos par-
ticionar o vetor β como
" #
βA
β = , (F.8)
βB

onde
h i′
βA = β0 β1 . . . βk
140

e
h i′
βB = β(k+1) . . . β(p−1) .

Pela regra em (F.3) temos que

Xβ = βA XA + βB XB . (F.9)
Apêndice G

Demonstração dos Teoremas (2.5) e


(2.6)

Na demonstração destes teoremas necessitamos de alguns resultados básicos de


Álgebra Linear, que podem ser revisados com mais profundidade em bons textos da
área como, por exemplo, Lima (2001). Todos estão também descritos no apêndice C.

Relembremos que maximizar a função de verossimilhança no modelo de regressão


linear múltipla é equivalente a minimizar a função

D (β) = (Y − Xβ)′ (Y − Xβ) =k Y − Xβ k2 , β ∈ Rp ,

ver (2.8). Assim, o objetivo é encontrar β̂ que minimiza a distância entre Y e os pontos
do conjunto
Span (X) = {Xβ; β ∈ Rp } ,

que é um subespaço vetorial de Rn . Ou seja,

k Y − X β̂ k2 = min k Y − Xβ k2 ; β ∈ Rp

(G.1)

e X β̂ é a projeção de Y sobre Span(X). (G.1) é a Soma dos Quadrados dos Resı́duos,


denotada por SQres e já definida em (2.13).

141
142

No que segue vamos supor que as p colunas da matriz X, a saber X0 , . . . , Xp−1 , são
vetores em Rn linearmente independentes. Como todo vetor em Span(X) é da forma

Xβ = β0 X0 + β1 X1 + · · · + βp−1 Xp−1

para algum β = (β0 , β1 , . . . , βp−1 )′ resulta que {X0 , X1 , . . . , Xp−1 } é uma base para
Span(X) e, portanto, a dimensão de Span(X) é p.

A partir deste instante Π(Y ) denota a projeção de Y sobre Span(X). Antes das
demonstrações dos teoremas objetos principais deste apêndice, um último comentário:
como o vetor Y − Π(Y ) é ortogonal às colunas de X, temos que

(Y − X β̂)′ X = 0,

implicando em X ′ X β̂ = X ′ Y . Lembrando que X ′ X é invertı́vel, temos a expressão


para o estimador de máxima verossimilhança para β,

β̂ = (X ′ X)−1 X ′ Y.

Teorema G.1 SQres/σ 2 tem distribuição qui-quadrado com n − p graus de liberdade.

Demonstração: Como Y ∼ N (Xβ, σ 2 I) podemos escrever

Y = Xβ + ε,

onde ε = (ε1 , . . . , εn )′ tem distribuição Nn (0, σ 2 I). Seja {ξ0 , ξ1 , . . . , ξ(p−1) } uma base
ortonormal de Span(X). Completando esta base, seja

ξ0 , . . . , ξ(p−1) , ξp , . . . , ξn−1

uma base ortonormal de Rn . Cada observação do vetor ε pode ser escrita como com-
binação linear dos vetores nesta base, ou seja, existem variáveis aleatórias γ0 , γ1 , . . . , γn−1
tais que
ε = γ0 ξ0 + γ1 ξ1 + · · · + γn−1 ξn−1 = Aγ, (G.2)
143

onde a i- ésima coluna de A é ξi , i = 0, . . . , n − 1 e γ = (γ0 , . . . , γn−1 )′ . Observe que a


matriz A é ortonormal, ou seja,

A′ A = AA′ = I,

de modo que A−1 = A′ . Por (G.2), temos que

γ = A−1 ε.

Como ε ∼ Nn (0, σ 2 I), temos que γ também tem distribuição normal n-variada, com
vetor de médias 0 e matriz de covariâncias

′
Cov (γ) = A−1 Cov (ε) (A)−1
= A−1 σ 2 IA = σ 2 I,

o que significa dizer que γ0 , γ1 , . . . , γn−1 são independentes e identicamente distribuı́das


como N (0, σ 2 ). Seja Π a função projeção sobre Span(X). Como Π é linear temos que

X β̂ = Π(Y ) = Π(Xβ + ε) = Π(Xβ) + Π(ε),

de modo que

SQres = k Y − X β̂ k2 =k Xβ + ε − Π (Xβ) − Π (ε) k2


= k Xβ + ε − Xβ − Π (ε) k2
= k ε − Π (ε) k2
= k ε k2 − k Π (ε) k2 , (G.3)

pois Π(Xβ) = Xβ, devido ao fato de que Xβ ∈ Span(X). Temos que

n−1
X
k ε k2 = ε′ ε = γ ′ A′ Aγ = γ ′ γ = γj2 .
=0
144

Pela fórmula (C.9), vem que


n−1
X
Π (ε) = (ξj′ ε)ξj
j=0
n−1
X
ξj′ (γ0 ξ0 + γ1 ξ1 + · · · + γp−1 ξp−1 ) ξj
 
=
j=0
n−1 p−1
X X
= (γj ξj′ ξj )ξj = γj ξj . (G.4)
j=0 =0

Assim,
p−1
X
2
k Π (ε) k = γj2 .
=0

Por (G.3) resulta que


p−1
n−1
! n−1
SQres 1 X X X 1
2
= 2 γj2 − γj2 = 2
· γj2 . (G.5)
σ σ =0 =0 =p
σ

Observe que γi /σ, ı = 1, . . . , n são independentes e identicamente distribuı́das conforme


uma normal padrão. Pela definição da distribuição qui-quadrado, temos então que

SQres
2
∼ χ2n−p ,
σ

concluindo a demonstração do teorema.

Teorema G.2 SQres e β̂ são independentes.

Demonstração: Primeiramente vamos mostrar que X β̂ e SQres são independentes.


Por (G.4), temos que

X β̂ = Π (Y ) = Π (Xβ + ε) = Π (Xβ) + Π (ε)


p−1
X
= Xβ + Π (ε) = Xβ + γj ξj .
=0
145

Por (G.5) vem que


n−1
X
SQres = γj2 .
=p

Assim, X β̂ é uma função de γ0 , γ1 , . . . , γ(p−1) e SQres é uma função de γp , . . . , γ(n−1) .


Como γ0 , γ1 , . . . , γ(n−1) são independentes, temos que (γ0 , γ1 , . . . , γ(p−1) )′ é independente
de (γp , . . . , γ(n−1) )′ . Assim, SQres e X β̂ são independentes.

Agora vamos mostrar que β̂ e SQres são independentes. Para isso, considere a
função
f : Span (X) → Rp ,

definida da seguinte forma: seja y ∈ Span(X). Temos que y = Xβ, para algum β ∈ Rp .
Então
f (y) = β.

Observe que f é uma legı́tima função. Ou seja, a cada ponto de Span(X) corresponde
um único ponto de Rp . Isto é fácil de verificar: suponha que existam β e β ∗ tais que
y = Xβ e y = Xβ ∗ . Então
Xβ = Xβ ∗ ,

implicando em X(β − β ∗ ) = 0. Como as colunas de X são L.I., isto implica em


β − β ∗ = 0, ou ainda, β = β ∗ . Assim, como
 
β̂ = f X β̂

e X β̂ é independente de SQres, resulta que β̂ é independente de SQres.


146
Apêndice H

A Distribuição da Estatı́stica F

147
148
Bibliografia

Bartle, R. G. (1983). Elementos de Análise Real . Editora Campus, Rio de Janeiro.

Bolfarine, H. e Sandoval, M. C. (2001). Introdução à Inferência Estatı́stica. Sociedade


Brasileira de Matemática, Rio de Janeiro.

Brockwell, P. J. e Davis, R. A. (1991). Time Series: Theory and Methods. Springer,


second edition.

Dobson, A. (2002). An Introduction to Generalized Linear Models. Chapman and Hall,


New York, second edition.

Healy, M. J. R. (1988). GLIM: An Introduction. Clarendon Press, Oxford.

Johnson, R. e Bhattacharyya, G. (1996). Statistics: Principles and Methods. John


Wiley and Sons, New York, third edition.

Lima, E. (2001). Álgebra Linear . IMPA, Rio de Janeiro, fifth edition.

Montgomery, D. C. (1984). Design and Analysis of Experiments. John Wiley and Sons,
second edition.

Rao, C. R. (1973). Linear Statistical Inference and its Applications. John Wiley and
Sons, New York, second edition.

Zacks, S. (1971). The Theory of Statistical Inference. John Wiley and Sons, New York.

149