Explorar E-books
Categorias
Explorar Audiolivros
Categorias
Explorar Revistas
Categorias
Explorar Documentos
Categorias
ESALQ - USP
João L. F. Batista
Piracicaba
– 2004 –
“Twice two equals four: ’tis true,
But too empty, too trite.
What I look for is a clue
To some matters not so light.”
W. Busch, 1909
S UMÁRIO
i
1.4.4 Estimador da Variância do Erro . . . . . . . . . . . . . . . . . . . 1-29
1.4.5 Desigualdade de Gauss . . . . . . . . . . . . . . . . . . . . . . . . 1-31
1.4.6 Inferência sobre os Coeficientes . . . . . . . . . . . . . . . . . . . 1-32
1.4.7 Inferências sobre os Valores Ajustados . . . . . . . . . . . . . . . . 1-33
1.4.8 Exemplo de Aplicação . . . . . . . . . . . . . . . . . . . . . . . . 1-38
1.4.9 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1-40
1.5 MLEG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1-42
1.5.1 Estrutura e Pressuposições . . . . . . . . . . . . . . . . . . . . . . 1-42
1.5.2 Propriedades dos EQM e Inferência . . . . . . . . . . . . . . . . . 1-44
1.5.3 Valor Ajustado e Intervalos . . . . . . . . . . . . . . . . . . . . . . 1-48
1.5.4 Intervalos Simultâneos e Bandas de Confiança . . . . . . . . . . . 1-49
1.5.5 Qualidade do Ajuste . . . . . . . . . . . . . . . . . . . . . . . . . 1-53
1.5.6 Aplicação do MLEG . . . . . . . . . . . . . . . . . . . . . . . . . 1-58
1.5.7 Exemplo de Aplicação 1 . . . . . . . . . . . . . . . . . . . . . . . 1-59
1.5.8 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1-61
ii
2.4 Razão de Verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . 2-75
2.4.1 Intervalo de Verossimilhança . . . . . . . . . . . . . . . . . . . . . 2-75
2.5 Modelo Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2-76
2.5.1 EMV no Modelo Linear Simples . . . . . . . . . . . . . . . . . . . 2-78
2.5.2 Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2-79
2.6 Aplicando o Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2-82
2.6.1 Modelo e Inferência . . . . . . . . . . . . . . . . . . . . . . . . . 2-82
2.6.2 Resposta Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2-82
2.6.3 Intervalos de Predição . . . . . . . . . . . . . . . . . . . . . . . . 2-85
2.7 Qualidade do Ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2-87
2.7.1 Verossimilhança do Modelo Ajustado . . . . . . . . . . . . . . . . 2-87
2.7.2 Ajuste e Razão de Verossimilhança . . . . . . . . . . . . . . . . . 2-88
2.7.3 Critério de Akaike . . . . . . . . . . . . . . . . . . . . . . . . . . 2-91
2.7.4 AIC e Qualidade de Ajuste . . . . . . . . . . . . . . . . . . . . . . 2-91
2.8 Exemplo: Árvores Dominantes . . . . . . . . . . . . . . . . . . . . . . . 2-93
2.9 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2-96
iii
3.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3-109
iv
5.3.2 Lei do Cosseno . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5-155
5.3.3 Projeção de Vetores . . . . . . . . . . . . . . . . . . . . . . . . . . 5-157
5.3.4 Valor Ajustado e Resíduo como Projeções Vetoriais . . . . . . . . . 5-157
5.3.5 Propriedades Vetoriais do Modelo Linear . . . . . . . . . . . . . . 5-159
5.4 Modelo Linear Múltiplo Gaussiano . . . . . . . . . . . . . . . . . . . . . . 5-160
5.4.1 Erros Esféricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5-160
v
7.1.3 Desdobramento da SQM para Diversas Variáveis . . . . . . . . . . 7-188
7.2 Teste F Parcial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7-190
7.2.1 Teste F Seqüencial . . . . . . . . . . . . . . . . . . . . . . . . . . 7-190
7.2.2 Exemplo: Modelagem da Produção em Floresta de E. grandis . . . 7-192
7.2.3 Outras Formas de Teste F Parcial . . . . . . . . . . . . . . . . . . 7-194
7.2.4 Coeficiente de Determinação Parcial . . . . . . . . . . . . . . . . . 7-196
7.2.5 Teste F Parcial como Perda de Ajuste . . . . . . . . . . . . . . . . 7-198
7.3 Restrições Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7-199
7.3.1 Combinação Linear dos Coeficientes de Regressão . . . . . . . . . 7-199
7.3.2 Restrições Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . 7-200
7.3.3 Teste de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7-201
7.3.4 Exemplo: Modelagem da Produção em E. grandis . . . . . . . . . 7-203
7.3.5 Revendo o Teste t dos Coeficientes de Regressão . . . . . . . . . . 7-205
7.3.6 Exemplo: Modelagem da Produção em Floresta de E. grandis . . . 7-207
7.4 Mudança Estrutural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7-208
7.4.1 Teste por Restrições Lineares . . . . . . . . . . . . . . . . . . . . 7-208
7.4.2 Exemplo: Modelagem da Produção em Floresta de E. grandis . . . 7-209
7.4.3 Teste de Wald para Mudança Estrutural . . . . . . . . . . . . . . . 7-210
7.4.4 Exemplo: Modelagem da Produção em Floresta de E. grandis . . . 7-211
7.5 Procedimento Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7-212
7.5.1 Modelo Completo versus Modelo Reduzido . . . . . . . . . . . . . 7-212
7.5.2 Exemplos do Procedimento Geral . . . . . . . . . . . . . . . . . . 7-213
7.5.3 Aplicação do Critério de Informação de Akaike (AIC) . . . . . . . 7-214
7.6 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7-215
vi
8.2 Regressão Padronizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8-217
8.2.1 Transformação das Variáveis . . . . . . . . . . . . . . . . . . . . . 8-217
8.2.2 Os Coeficientes de Regressão . . . . . . . . . . . . . . . . . . . . 8-218
8.2.3 Matrizes na Regressão Padronizada . . . . . . . . . . . . . . . . . 8-219
8.2.4 Algumas Propriedades da Regressão Ponderada . . . . . . . . . . . 8-221
8.3 Análise de Caminhamento . . . . . . . . . . . . . . . . . . . . . . . . . . 8-222
8.3.1 Correlação e Causa: Esquemas Causais . . . . . . . . . . . . . . . 8-222
8.3.2 Exemplo: Modelagem da Produção de E. grandis . . . . . . . . . . 8-224
8.3.3 Análise de Caminhamento: Exemplo Aternativo na Modelagem da
Produção de E. grandis . . . . . . . . . . . . . . . . . . . . . . . . 8-226
vii
10.2 Observações Discrepantes . . . . . . . . . . . . . . . . . . . . . . . . . . 10-236
10.3 Observações influentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10-237
10.3.1 Usando a Matrix de Projeção (“Hat Matrix”) . . . . . . . . . . . . 10-237
10.3.2 Regras Práticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10-239
10.4 Discrepância em y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10-240
10.4.1 Resíduos Studentizados Cancelados . . . . . . . . . . . . . . . . . 10-241
10.5 Influência em Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10-241
10.6 Medidas Remediadoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10-244
10.7 Multicolinearidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10-245
10.7.1 Efeitos da Multicolinearidade . . . . . . . . . . . . . . . . . . . . 10-245
10.7.2 Diagnose Informal da Multicolinearidade . . . . . . . . . . . . . . 10-246
10.7.3 VIF - Fator de Inflação da Variância . . . . . . . . . . . . . . . . . 10-246
viii
C APÍTULO 1
M ODELOS L INEARES S IMPLES
"descrições"
"explicações"
"predições"
"controle"
1-1
M ODELOS L INEARES S IMPLES 1.2. ESTRUTURA GERAL
A relação estatística:
• Não é “perfeita”.
2. Existe um efeito estocástico que causa uma variação ou dispersão das observações
ao redor da porção sistemática da modelo.
=⇒ E RRO A LEATÓRIO (ε)
O que gera esse efeito estocástico?
3. A relação entre variável resposta (Y ), variável preditora (X) e erro aleatório (ε) é
sempre aditiva.
=⇒ M ODELO L INEAR NOS PARÂMETROS
1-2
M ODELOS L INEARES S IMPLES 1.2. ESTRUTURA GERAL
25
20
Altura Total (m)
15
10
10 15 20
DAP (cm)
Figura 1.1: Relação entre DAP (diâmetro à altura do peito) e altura total de árvores de Eu-
calyptus saligna. Floresta com idade desconhecida que sofreu várias colheitas sem manejo
adequado, região de Itatinga, SP.
Utilizaremos com freqüência definições formais dos modelos nesse curso, pois as
características dos modelos lineraes e as distinção entre os modelos são mais claramente
compreendidas através da definição formal.
No caso da estrutura geral dos modelos lineares a definição é:
Y = β0 + β1 X + ε
1-3
M ODELOS L INEARES S IMPLES 1.2. ESTRUTURA GERAL
Essa expressão implica que a variável aleatória Y é uma função linear da variável
aleatória ε.
2. Para cada nível de X, Y segue uma distribuição estatística, pois é uma variável
aleatória.
Ainda mais formalmente: condicional a X = x, Y segue uma distribuição
estatística.
1-4
M ODELOS L INEARES S IMPLES 1.2. ESTRUTURA GERAL
Distribuição de Y|X=x
X
x3
Função de Regressão
x2
x1
Y
Figura 1.2: Esquema da definição formal dos modelos lineares simples. Note que a posição
dos eixos X e Y está invertida para enfatizar o aspecto de Y ser uma variável aleatória.
A definição formal da estrtura geral dos modelos lineares simples deixa clara algumas
implicações desses modelos.
O fato desses modelos serem representados geometricamente por uma reta tem algumas
implicações matemáticas:
1-5
M ODELOS L INEARES S IMPLES 1.2. ESTRUTURA GERAL
Terceira Ordem: Y = β0 + β1 X + β2 X 2 + β3 X 3 + ε ⇒
∂Y
⇒ = β1 + 2β2 X + 3β3 X 2
∂X
3. Os coeficientes de regressão têm interpretação matemática e teórica clara:
• β0 é o intercepto da reta, i.e., o ponto em que a reta cruza o eixo das
ordenadas (Y ).
Pode ter interpretação teórica ou não.
• β1 é o coeficiente de inclinação da reta.
Ele significa que uma alteração unitária em X, resultará numa alteração de β1
em Y .
1-6
M ODELOS L INEARES S IMPLES 1.3. MLEA
Na população: Y = β0 + β1 X + ε
Na amostra: yi = β0 + β1 xi + εi
onde
Como essa definição formal será repetida muitas vêzes (com acréscimos), utilizaremos
uma notação mais sintética para apresentá-la:
1.3.2 Pressuposição
O MLEA tem uma única pressuposição: que, para cada nível da variável preditora
(X = x), o valor esperado do erro aleatório é zero (média zero para o erro aleatório):
E {ε|X = x} = 0.
1-7
M ODELOS L INEARES S IMPLES 1.3. MLEA
E {Y |X = xi } = E {β0 + β1 xi + εi }
= β0 + β1 xi + E {εi |X = xi }
= β0 + β1 xi
O MLEA assume que as médias da variável resposta em cada nível da variável preditora
estão alinhadas sobre a reta de regressão.
E{Y|X=x} = β0 + β1 xi
εi
yi
x1 x2 x3 X
Figura 1.3: Gráfico demonstrando onde passa a reta de regressão do MLEA como decor-
rência da pressuposição E {ε|X = x} = 0.
1-8
M ODELOS L INEARES S IMPLES 1.3. MLEA
• Algum conceito de optimização deve ser utilizado para ajustar a linha de regressão
aos dados.
• Podemos definir “perda” de diversas formas:
P
[desvios]2
P
[desvios absolutos]
[desvio absoluto máximo]
P
• O M ÉTODO DOS Q UADRADOS M ÍNIMOS define [desvios]2 como o critério para
estimar β0 e β1 .
P
• A utilização de [desvios]2 como a função de perda não é tão arbitrária como
parece.
– As estimativas obtidas por este critério têm propriedades estatísticas
desejáveis.
– O método faz uma poderação de modo a dar maior ênfase aos grandes desvios.
A perda é maior para um grande desvio do que para uma série de pequenos
desvios.
Q é uma função quadrática com relação às estimativas dos coeficientes de regressão (b0 e
b1 ), assim podemos encontrar o seu máximo ou mínimo através das derivadas parciais:
Xn Xn
∂Q
= 2 (yi − b0 − b1 xi ) (−1) = −2 (yi − b0 − b1 xi )
∂b0 i=1 i=1
Xn Xn
∂Q
= 2 (yi − b0 − b1 xi ) (−xi ) = −2 xi (yi − b0 − b1 xi )
∂b1 i=1 i=1
1-9
M ODELOS L INEARES S IMPLES 1.3. MLEA
E QUAÇÕES N ORMAIS
P P
y = nb0 +b1 xi
(1.2) P i P P
xi yi = b0 xi +b1 x2i
onde:
1-10
M ODELOS L INEARES S IMPLES 1.3. MLEA
E {b0 } = β0 e E {b1 } = β1 .
Prova:
( " # )
X (xi − x)
E {b1 } = E P 2
yi
(xi − x)
³ X ´X
= 1/ (xi − x)2 [(xi − x)] E {yi }
³ X ´X
= 1/ (xi − x)2 [(xi − x)] (β0 + β1 xi )
³ X ´ hX X i
= 1/ (xi − x)2 xi (β0 + β1 xi ) − x (β0 + β1 xi )
³ X ´· X ³X ´2 ¸
2
= 1/ (xi − x) β0 nx + β1 x2i − β0 nx − β1 xi /n
³ X ´ ·X ³X ´2 ¸
= β1 1/ (xi − x)2 x2i − xi /n
= β1
1-11
M ODELOS L INEARES S IMPLES 1.3. MLEA
E {b0 } = E {y − b1 x}
( n )
X
= E yi /n − xβ1
i=1
( n )
X
= (1/n)E (β0 + β1 xi ) − β1 x
i=1
n
X
= (1/n) (E {β0 + β1 xi }) − β1 x
i=1
à n
!
X
= (1/n) nβ0 + β1 xi − β 1 x
i=1
= β0 + β1 x − β1 x
= β0
N OTA I MPORTANTE :
Y = β0 + β1 X + ε ⇒ ε = Y − (β0 + β1 X) ⇒ ε = Y − E {Y }
Vejamos agora as propriedades do modelos ajustado pelo método dos quadrados mínimos:
1-12
M ODELOS L INEARES S IMPLES 1.3. MLEA
E {ybi } = E {b0 + b1 xi }
= β 0 + β 1 xi
= E {Y |X = xi }
Não leve a sérios softwares de regressão que apresentem a soma dos resíduos como
critério de qualidade de ajuste de um modelo linear.
4. A soma dos valores ajustados é igual a soma dos valores observados na amostra:
X X
ybi = yi .
b0 = y − b1 x ⇒ y = b0 + b1 x
1-13
M ODELOS L INEARES S IMPLES 1.3. MLEA
ybi = b0 + b1 xi
= b0 + b1 xi + (b1 x − b1 x)
= (b0 + b1 x) + b1 (xi − x)
(1.6) E {Y |X = x} = E {Y } + β1 (x − x)
Como exemplo de aplicação utilizaremos dados de altura total (variável resposta) e DAP
(variável preditora) de 36 árvores de E. saligna (tabela 1.1).
O objetivo é obter um modelo que permita saber a altura total das árvores com base
apenas na medida do DAP (relação hipsométrica).
• EQM:
725.6075
b1 = = 0.6787725
944.72
1-14
M ODELOS L INEARES S IMPLES 1.3. MLEA
Tabela 1.1: Dados de altura total (variável resposta) e DAP (variável preditora) de 36 ár-
vores de E. saligna.
1-15
M ODELOS L INEARES S IMPLES 1.3. MLEA
µ ¶ µ ¶
486.30 465.60
b0 = − [0.6787725] = 13.50833 − [0.6787725]12.93333
36 36
b0 = 4.729542
• Valores ajustados:
P P P
– Note a validade das propriedades ei = 0 e yi = ybi .
1-16
M ODELOS L INEARES S IMPLES 1.3. MLEA
30
25
20
15
y
10
0
0 5 10 15 20 25 30
x
6 6
4 4
2 2
0 0
e
−2 −2
−4 −4
−6 −6
0 5 10 15 20 25 30 0 5 10 15 20 25 30
x y^
1-17
M ODELOS L INEARES S IMPLES 1.3. MLEA
40
30
Altura Total
20
10
0
0 10 20 30 40 50
DAP (cm)
1-18
M ODELOS L INEARES S IMPLES 1.3. MLEA
1.3.9 Exercícios
1.3-1. Analise os modelos abaixo e responda se eles são modelos lineares de primeira
ordem e se o MLEA pode ser aplicado no ajuste deles.
(a) Y = β0 + β1 X 3 + ε;
(b) Y = β0 + β1 log(X) + ε;
(c) (1/Y ) = β0 + β1 log(X) + ε;
1.3-2. Faça uma interpretação teórica dos coeficientes de regressão dos modelos abaixo:
1.3-4. Que argumentos teóricos podem ser levantados para afirmar que a pressuposição
fundamental do MLEA (E {ε|X = x} = 0) é realista?
1-19
M ODELOS L INEARES S IMPLES 1.3. MLEA
i xi yi xi yi yi2 x2i
1 105 45 4725 2025 11025
2 113 63 7119 3969 12769
3 125 86 10750 7396 15625
4 137 118 16166 13924 18769
5 141 112 15792 12544 19881
6 153 169 25857 28561 23409
7 165 201 33165 40401 27225
8 177 237 41949 56169 31329
9 188 263 49444 69169 35344
10 198 268 53064 71824 39204
P
1502 1562 258031 305982 234580
(a) Encontrar os valores ajustados para os comprimentos: 50, 100, 150, 200,
250 cm;
(b) Comente o “realismo” dos valores ajustados encontrados.
1-20
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
1. Os erros são homocedásticos, i.e., têm variância homogênea. A variância dos erros
é constante para todos os níveis da variável preditora. Utilizaremos a seguinte
notação matemática:
Var{ε|X = x} = Var{ε} = σ 2
2. Os erros são independentes, i.e., a correlação entre dois erros é sempre nula:
Cov{εi , εj } = 0
(1.7) MLEAHI: Y = β0 + β1 X + ε,
onde:
1-21
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
Veremos, mais adiante, como tratar os casos em que a homocedasticidade não pode
ser assumida.
1-22
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
Os EQM são os mesmos do MLEA (equações 1.3 e 1.4), que podem ser resumidamente
apresentadas como
P
(xi − x)(yi − y) Sxy
b1 = P 2
= e b0 = y − b1 x.
(xi − x) Sxx
1. EQM são funções lineares dos valores observados de Y . Com foi visto no MLEA:
P X
b1 = P(xi −x) 2 yi = ki yi
(x −x)
i
· ¸ X
P 1
b0 = n
− Px(xi −x)
(xi −x)2
yi = ki∗ yi
2. EQM são estimadores não viciados dos coeficientes de regressão. Com foi visto no
MLEA:
E {b0 } = β0 e E {b1 } = β1 .
3. As variâncias dos EQM são proporcionais à variância do erro (σ 2 ):
1
(1.8) Var{b1 } = σ 2 P
(xi − x)2
" #
2 1 x2
(1.9) Var{b0 } = σ +P
n (xi − x)2
1-23
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
portanto,
" #2
X X 1 x(xi − x)
Var{b0 } = ki∗2 Var{yi }
= −P σ2
n (xi − x)2
" #
2
X 1 2 x(xi − x) x2 (xi − x)2
= σ −P + P
n2 (xi − x)2 [ (xi − x)2 ]2
" #
2 n 2x X x2 X
2
= σ −P (xi − x) + P (xi − x)
n2 (xi − x)2 [ (xi − x)2 ]2
" #
2 1 x2
Var{b0 } = σ +P
n (xi − x)2
1-24
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
30
25
20
15
Y
10
0 5 10 15 20 25 30
X
1-25
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
−σ 2 x
Cov{b0 , b1 } = P
(xi − x)2
30
25
20
15
Y
10
0 5 10 15 20 25 30
X
Figura 1.5: Gráfico mostrando o efeito da covariância entre os EQM sobre a reta de re-
gressão.
ybi = y + b1 (xi − x)
1-26
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
Comentário:
ybi = y + b1 (xi − x)
X1 X (xj − x)
= yj + (xi − x) P y
2 j
j n j j (xj − x)
1-27
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
" #
X 1 (xi − x)(xj − x)
= + P 2
yj
j n j (xj − x)
X
ybi = kij yj
j
σ2
Var{ybi |xi = x} =
n
que é o valor mínimo da variância dos valores esperados, sendo igual à variância da média
para variável resposta.
Assim, à medida que nos afastamos da região central dos dados (x, y), a variância dos
valores esperados aumenta.
1-28
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
30
25
20
15
Y
10
0 5 10 15 20 25 30
X
1-29
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
1-30
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
D ESIGUALDADE DE G AUSS
ou seja, para a variável aleatória Z existe uma probabilidade de no máximo 11% de que
uma observação assuma valores que se distanciem 2 desvios padrão (2σ) da moda.
De modo reverso, há uma probabilidade de no mínimo 89% de que os valores de Z
fiquem na faixa de mais ou menos 2 desvios padrão ao redor da moda.
A desigualdade de Gauss permite a construção de Intervalos de Confiança Aproximados
para qualquer variável aleatória que satisfaça a duas condições:
1-31
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
σ2
Var{b1 } = P ,
(xi − x)2
d {b } = P QM R .
Var 1
(xi − x)2
1-32
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
Os valores ajustados por um modelo de regressão linear podem ter interpretações bastante
diversas durante a aplicação do modelo.
E {ybi } = E {Y |X = xi } .
1-33
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
E{Y|X=x} = β0 + β1 xi
εi
yi
x1 x2 x3 X
Figura 1.7: Gráfico esquemático dos modelos lineares simples.
1-34
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
ybh = b0 + b1 xh .
• Que é uma variável aleatória contínua com densidade simétrica em relação à sua
moda (E {Y |X = xh }): Desigualdade de Gauss se aplica.
Entretanto, nós não conhecemos os valores dos parâmetros, mas somente temos
estimativas deles.
Portanto, a variabilidade de uma nova observação terá duas fontes de incerteza:
1-35
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
O Intervalo de Predição Aproximado (IPA) de 90% para uma nova observação é dado
por v
u " #
u 1 (xh − x)2
t
ybh ± 2 QM R 1 + + P .
n (xi − x)2
Em algumas situações especiais o modelo linear pode ser utilizado para inferir sobre o
valor de uma média amostral de um conjunto de m novas observações.
É importante lembrarmos que a média amostral é uma variável aleatória com algumas
propriedades importantes em relação à distribuição da variável original.
1-36
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
30
25
20
15
Y
10
0 5 10 15 20 25 30
X
1-37
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
É interessante ressaltar que o Teorema Central do Limite também se aplica a esse caso,
pois se fizermos o tamanho de amostra m das novas observações crescer, teremos no
limite a seguintes situação:
" #
Var{Y |X = xh }
lim Var{ybm } = lim Var{yb} + = Var{yb}
m→∞ m→∞ m
Modelo: a vazão (l/s) do rio como variável resposta e precipitação (mm) como variável
preditora.
1-38
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
yb = 18.08209
⇒ 18.1 ± 2(0.3919499) ⇒ 18.1 ± 0.78(l/s)
IPA de 90% para vazão do rio no caso de uma chuva (precipitação) de 50 mm:
ybh = 18.08209
⇒ 18.1 ± 2(4.842894) ⇒ 18.1 ± 9.7(l/s)
IPA de 90% para vazão média do rio num mês que ocorram 3 chuvas (precipitações) de
50 mm:
ybm = 18.08209
⇒ 18.1 ± 2(2.814301) ⇒ 18.1 ± 5.6(l/s)
40
35
30
Vazão (l/s)
25
20
15
10
1-39
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
1.4.9 Exercícios
1.4-1. Utilizando os dados do peixe esturjão (exercício 1.3-6, na página 1-19) realize as
seguintes inferências com base no MLEAHI:
1-40
M ODELOS L INEARES S IMPLES 1.4. MLEAHI
Discuta a situação.
1-41
M ODELOS L INEARES S IMPLES 1.5. MLEG
(1.15) MLEG: Y = β0 + β1 X + ε,
onde:
que significa:
1-42
M ODELOS L INEARES S IMPLES 1.5. MLEG
Distribuição Gaussiana e
Teorema Central do Limite
1-43
M ODELOS L INEARES S IMPLES 1.5. MLEG
Os EQM são os mesmos do MLEA e do MLEAHI (equações 1.3 e 1.4), que podem ser
resumidamente apresentadas como
P
(xi − x)(yi − y) Sxy
b1 = P 2
= e b0 = y − b1 x.
(xi − x) Sxx
1. EQM são funções lineares dos valores observados da variável resposta (MLEA).
2. EQM são estimadores não viciados dos coeficientes de regressão (MLEA).
3. As variâncias dos EQM são proporcionais à variância do erro (σ 2 ) (MLEAHI).
4. Os EQM são correlacionados (MLEAHI).
5. Estimadores de Variância Mínima (Teorema de Gauss, MLEAHI).
média: E {b1 } = β1
σ2
variância: Var{b1 } = P .
(xi − x)2
1-44
M ODELOS L INEARES S IMPLES 1.5. MLEG
d {b } = P QM R
Var 1
(xi − x)2
1-45
M ODELOS L INEARES S IMPLES 1.5. MLEG
1-46
M ODELOS L INEARES S IMPLES 1.5. MLEG
Hipótese Nula H0 : β0 = θ0
Hipótese Alternativa Hα : β0 6= θ0
utilizando a estatística
b0 − θ0
t∗ =
S{b0 }
com regressa de decisão (nível de significância de α):
1-47
M ODELOS L INEARES S IMPLES 1.5. MLEG
Assim como os EQM dos coeficientes de regressão, também foi demonstrado que o valor
ajustado é uma função linear das observações da variável resposta.
Se assumirmos que o erro tem distribuição Gaussiana, isso resulta que os valores
ajustados (ybi ), como estimativas do valor esperado da variável resposta (E {Y |X = xi }),
também terão distribuição Gaussiana com média igual a
E {ybi } = E {Y |X = xi } .
No caso da resposta média (linha de regressão), visto que a variância da estimativa era
" #
1 (xi − x)2
Var{ybi } = σ 2 +P ,
n (xi − x)2
No caso de uma nova observação (predição), visto que a variância é obtida por
" #
1 (xh − x)2
Var{ybh } = σ 2 1+ + P ,
n (xi − x)2
1-48
M ODELOS L INEARES S IMPLES 1.5. MLEG
Todos intervalos relacionados com o valor esperado até o momento se referem a intervalos
individuais, i.e., somente um único nível da variável preditora é considerado.
Para podermos considerar vários níveis da variável preditora simultaneamente devemos
construir:
1-49
M ODELOS L INEARES S IMPLES 1.5. MLEG
D ESIGUALDADE DE B ONFERRONI
ybi ± Bg S{ybi }
onde: Ã !
α
Bg = t 1 − ; n − 2
2g
1-50
M ODELOS L INEARES S IMPLES 1.5. MLEG
Número de α = 0.05; n − 2 = 8
Níveis de X Bonferroni Working-Hotteling
g B W B/W
1 2.306 2.986 0.77
2 2.752 2.986 0.92
3 3.016 2.986 1.01
4 3.206 2.986 1.07
5 3.355 2.986 1.12
10 3.833 2.986 1.28
20 4.334 2.986 1.45
1-51
M ODELOS L INEARES S IMPLES 1.5. MLEG
30
25
20
15
Y
10
0 5 10 15 20 25 30
X
Figura 1.10: Gráfico comparando a Banda de Confiança de 95% (em vermelho) para a
resposta média (construida pelo método Working-Hotelling) e Intervalos de Confiança in-
dividuais (em azul).
1-52
M ODELOS L INEARES S IMPLES 1.5. MLEG
Embora a pressuposição de erros Gaussianos não seja essencial para estudar a qualidade
do ajuste dos modelos lineares, ela permite a realização de testes formais.
A variabilidade da variável resposta ao redor da sua média pode ser vista como formada
por dois componentes independentes:
X X X
Syy = (yi − y)2 = [yi − y + ybi − ybi ]2 = [(ybi − y) + (yi − ybi )]2
Xh i
= (ybi − y)2 + 2(ybi − y)(yi − ybi ) + (yi − ybi )2
X X X
= (ybi − y)2 + 2 (ybi − y)(yi − ybi ) + (yi − ybi )2
X hX X i X
= (ybi − y)2 + 2 ybi (yi − ybi ) + y(yi − ybi ) + (yi − ybi )2
X hX X i X
= (ybi − y)2 + 2 ybi ei + y ei + (yi − ybi )2
X X
= (ybi − y)2 + (yi − ybi )2
onde:
1-53
M ODELOS L INEARES S IMPLES 1.5. MLEG
Y
yi
yi yi y i = b0 + b1 xi
yi y
yi y
y
X
Figura 1.11: Gráfico esquemático mostrando como a Soma de Quadrados Total (SQT ) é
particionada em Soma de Quadrados do Modelo (SQM ) e Soma de Quadrados do Resíduo
(SQR).
Coeficiente de Determinação
1-54
M ODELOS L INEARES S IMPLES 1.5. MLEG
• Note que 0 ≤ r2 ≤ 1.
• O r2 é interpretado como:
• Não existe uma escala absoluta para analisar o r2 , os limites para os quais se
considera o ajuste “bom” dependem muito do tipo de dados e situação em que se
aplica a regressão.
Por exemplo, para equações de volume de árvores individuais em florestas plantadas
espera-se r2 superiores a 0.90. Já para modelos de produção de florestas plantadas é
comum se considerar bons valores de r2 acima de 0.70 ou 0.60.
Coeficiente de Correlação
Teste F do Modelo
1-55
M ODELOS L INEARES S IMPLES 1.5. MLEG
Sendo essa estatística uma razão de variáveis Qui-Quadrado, ele remete à distribuição F .
Ela pode ser utilizada para testar as hipóteses:
H0 : β1 = 0
Hα : β1 6= 0.
1-56
M ODELOS L INEARES S IMPLES 1.5. MLEG
Sob H0 teríamos P
∗ σ 2 + (0) (xi − x)2 σ2
F ≈ = = 1,
σ2 σ2
e, portanto,
F ∗ ∼ Distribuição F (ν1 = 1; ν2 = n − 2) .
• se F ∗ ≥ F (1 − α; 1; n − 2) rejeita-se H0 ; e
• se F ∗ < F (1 − α; 1; n − 2) não se rejeita H0 .
1-57
M ODELOS L INEARES S IMPLES 1.5. MLEG
1-58
M ODELOS L INEARES S IMPLES 1.5. MLEG
H0 : βk = 0 contra Hα : βk 6= 0.
11.759777
b0 : t∗ = = 21.95, |21.95| ≥ 1.974535 ⇒ rejeita H0 .
0.535745
0.126446
b1 : t∗ = = 12.73, |12.733| ≥ 1.974535 ⇒ rejeita H0 .
0.009931
• I.C. individuais de 95% para resposta média nos níveis de 50 e 100 mm de
precipitação:
yb50 : 18.08209 ± 1.974535(0.3919499) = 18.08 ± 0.77;
yb100 : 24.40441 ± 1.974535(0.7164615) = 24.40 ± 1.42.
• I.C. simultâneos de 95% para resposta média nos níveis de 50 e 100 mm de
precipitação:
Bonferroni: t(1 − 0.05/(2 ∗ 2); 164) = t(0.9875; 164) = 2.262168
yb50 : 18.08209 ± 2.262168(0.3919499) = 18.08 ± 0.89;
yb100 : 24.40441 ± 2.262168(0.7164615) = 24.40 ± 1.62.
• I.P. individuais de 95% para uma nova observação nos níveis de 50 e 100 mm de
precipitação:
1-59
M ODELOS L INEARES S IMPLES 1.5. MLEG
• Coeficiente de Determinação: 0.4971, embora não muito alto é razoável para esse
tipo de relação.
• Teste F do modelo:
)
F ∗ = 162.1
⇒ 162.1 > 3.8988 ⇒ rejeita-se H0
F (0.95; 1; 164) = 3.898787
Note que:
q " √ #
t(0.975, 164) = F (0.95; 1; 164) t∗ (H0 : β1 = 0) = √ F ∗
√
1.974535 = 3.898787 12.73 = 162.13
1-60
M ODELOS L INEARES S IMPLES 1.5. MLEG
1.5.8 Exercícios
1.5-1. Utilizando os dados do peixe esturjão (exercício 1.3-6, na página 1-19) realize as
seguintes inferências com base no MLEG:
1-61
C APÍTULO 2
A A BORDAGEM DE V EROSSIMILHANÇA NO
M ODELO L INEARE S IMPLE
• A diferença pode parecer sutil, mas tem sérias implicações na aplicação dos
modelos estatísticos.
e−µ µy
P (Y = y) =
y!
2-62
A BORDAGEM DE V EROSSIMILHANÇA 2.1. CONCEITO DE VEROSSIMILHANÇA
e−µ µ24
L{µ|X = 24} =
24!
0.08
0.06
Verossimilhanca
0.04
0.02
0.00
10 20 30 40 50
µ
Figura 2.1: Função de verossimilhança para uma variável Poisson com observação Y = 24.
2-63
A BORDAGEM DE V EROSSIMILHANÇA 2.1. CONCEITO DE VEROSSIMILHANÇA
• Note que nesse caso temos dois parâmetros, de modo que o gráfico da
verossimilhança tem que ser estudado em três dimensões:
4.0
3.5
3.0
2.5
σ
2.0
1.5
1.0
22 23 24 25 26
Figura 2.2: Função de verossimilhança para uma variável Gaussiana com uma única obser-
vação Y = 24.
2-64
A BORDAGEM DE V EROSSIMILHANÇA 2.1. CONCEITO DE VEROSSIMILHANÇA
2-65
A BORDAGEM DE V EROSSIMILHANÇA 2.1. CONCEITO DE VEROSSIMILHANÇA
Uma vez que os valores da função de densidade são sempre menores que um, a
função de verossimilhança rapidamente se aproxima do zero, o que é problemático
no uso de computadores.
22 23 24 25 26
µ
Figura 2.3: Função de log-verossimilhança negativa para uma variável Gaussiana com
múltiplas observações.
2-66
A BORDAGEM DE V EROSSIMILHANÇA 2.2. MÁXIMA VEROSSIMILHANÇA
• E, portanto, o EMV de λ é:
b= Pn
λ .
n
i=1 yi
2-67
A BORDAGEM DE V EROSSIMILHANÇA 2.2. MÁXIMA VEROSSIMILHANÇA
d2 L{λ} n
2
= 2,
dλ λ
b é de fato o EMV, pois minimiza L{λ}.
concluí-se que λ
51100
Log−verossimilhança Negativa
51000
50900
50800
2-68
A BORDAGEM DE V EROSSIMILHANÇA 2.2. MÁXIMA VEROSSIMILHANÇA
• É importante notar que o EMV da variância não divide a soma de quadrados pelos
graus de liberdade (n − 1), mas pelo tamanho da amostra (n).
Logo, ele não é um estimador não-viciado da variância populacional:
( ) ( )
n o 1X n
1X n h i
E σc2 = E b 2 =E
(yi − µ) yi2 − 2yi µb + µb 2
n i=1 n i=1
(" P P #)
1 X ( yi )2 ( yi )2
= E yi2 − 2 +
n n n
(" P #) · ¸
1 X
2 ( yi )2
1 X n 2o 1 n X 2o
= E yi − = E yi − E ( yi )
n n n n
·X ³ ´ ³ X nX o ´¸
1 2 1
= Var{yi } + (E {yi }) − Var{ yi } + (E yi )2
n n
· ´¸
1 ³ 2 ´ 1³ 2
= nσ + nµ2 − nσ + n2 µ2
n n
1h 2 i
= nσ + nµ2 − σ 2 − nµ2
n
n−1 2
= σ
n
2-69
A BORDAGEM DE V EROSSIMILHANÇA 2.2. MÁXIMA VEROSSIMILHANÇA
• Mas note que a medida que n cresce, σc2 tende ao valor do parâmetro:
n o
lim E c2 = lim n − 1 σ 2 = σ 2
σ
n→∞ n→∞ n
Como foi visto os EMV podem ser viciados ou não-viciados, mas eles possuem uma série
de propriedades que os torna “altamente confiáveis”.
Greene (2000) apresenta as propriedades dos EMV da seguinte maneira:
2-70
A BORDAGEM DE V EROSSIMILHANÇA 2.2. MÁXIMA VEROSSIMILHANÇA
– O EQM da variância é não-viciado, mas isso não garante que o EQM do erro
padrão também seja.
– Já no caso dos EMV, temos certeza que:
q
σbMV = σc2 MV
1. As três primeiras derivadas de fY (x, θ) com relação a θ são finitas para todos
valores de x.
2-71
A BORDAGEM DE V EROSSIMILHANÇA 2.3. FUNÇÃO DE VEROSSIMILHANÇA
Existe uma classe de distribuições estatísticas para as quais as condições acima sempre
são verdadeiras.
A Família Exponencial de Distribuições são distribuições estatísticas cuja
log-verossimilhança pode ser fatorada da seguinte forma:
k
X
L{θ|Y} = a(Y) + b(θ) + cj (Y)sj (θ)
j=1
• Existem várias técnicas para lidar com essa situação, mas abordaremos apenas duas.
2-72
A BORDAGEM DE V EROSSIMILHANÇA 2.3. FUNÇÃO DE VEROSSIMILHANÇA
Log−Verossimilhança Negativa
450
400
350
300
250
200
20 22 24 26 28 30
µ
Figura 2.5: Função de log-verossimilhança negativa estimada para a média de uma dis-
tribuição Gaussiana, applicada a dados do DAP médio por parcela em floresta nativa do
Maranhão.
2-73
A BORDAGEM DE V EROSSIMILHANÇA 2.3. FUNÇÃO DE VEROSSIMILHANÇA
450
Log−Verossimilhança Negativa
400
350
300
250
200
20 22 24 26 28 30
µ
2-74
A BORDAGEM DE V EROSSIMILHANÇA 2.4. RAZÃO DE VEROSSIMILHANÇA
HA : θ = θA e HB : θ = θB .
• A Razão de Verossimilhança
L{θA }
L{θB }
pode ser interpretada como a força de evidência com que os dados favorecem a
hipótese A vis-a-vis a hipótese B.
2-75
A BORDAGEM DE V EROSSIMILHANÇA 2.5. MODELO LINEAR SIMPLES
Razão de 1/8
Razão de 1/32
0.0
−3 −2 −1 0 1 2 3
Variável Gaussiana Padronizada
MLEG: Y = β0 + β1 X + ε,
2-76
A BORDAGEM DE V EROSSIMILHANÇA 2.5. MODELO LINEAR SIMPLES
Diferença de ln(32)
3
Diferença de ln(8)
2
1
0
−3 −2 −1 0 1 2 3
Variável Gaussiana Padronizada
onde:
2-77
A BORDAGEM DE V EROSSIMILHANÇA 2.5. MODELO LINEAR SIMPLES
n
∂L{β0 , β1 , σ 2 } 1 X
= − (yi − β0 − β1 xi )xi = 0
∂β1 σ 2 i=1
n
X
⇒ (yi − β0 − β1 xi )xi = 0
i=1
X ³X ´ ³X ´
⇒ y i xi = xi β0 + x2i β1
n
∂L{β0 , β1 , σ 2 } n 1 X
= − 4 (yi − β0 − β1 xi )2 = 0
∂σ 2 σ 2 σ i=1
n
1 X
⇒ +n − (yi − β0 − β1 xi )2 = 0
σ 2 i=1
• Note no caso desse modelo (MLEG), os EMV (βb0 , βb1 ) são idênticos aos EQM (b0 ,
b1 ).
2-78
A BORDAGEM DE V EROSSIMILHANÇA 2.5. MODELO LINEAR SIMPLES
10 11 12 13
β0
2-79
A BORDAGEM DE V EROSSIMILHANÇA 2.5. MODELO LINEAR SIMPLES
10 11 12 13
β0
12
Log−Verossimilhança Negativa Relativa
0 2 4 6 8 10
2-80
A BORDAGEM DE V EROSSIMILHANÇA 2.5. MODELO LINEAR SIMPLES
2-81
A BORDAGEM DE V EROSSIMILHANÇA 2.6. APLICANDO O MODELO
• O estimador da resposta média pode ser visto como uma função dos estimadores
dos coeficientes de regressão:
onde: " #
d {yb } = σ 1 (xk − x)2
Var k b2 +P .
n (xi − x)2
• Note que os únicos elementos que variam nessa função são
– xk : valores condicionantes da variável preditora, que geram alteração em ybk ; e
– yk : valores da variável resposta sobre os quais se deseja obter L{ybk } (não são
valores observados).
2-82
A BORDAGEM DE V EROSSIMILHANÇA 2.6. APLICANDO O MODELO
Precipitação (mm)
• Entretanto, não é isso que geralmente queremos ao fazer inferência sobre a resposta
média.
2-83
A BORDAGEM DE V EROSSIMILHANÇA 2.6. APLICANDO O MODELO
Precipitação (mm)
2-84
A BORDAGEM DE V EROSSIMILHANÇA 2.6. APLICANDO O MODELO
6
Log−Verossimilhança Negativa
1 2 0 3 4 5
22 23 24 25 26 27
Vazão (l/s)
ybh = b0 + b1 xh
e variância " #
2 1 (xh − x)2
Var{ybh } = σ 1+ + P .
n (xi − x)2
2-85
A BORDAGEM DE V EROSSIMILHANÇA 2.6. APLICANDO O MODELO
0 10 20 30 40 50
Vazão (ls)
Figura 2.15: Gráfico da distribuição Gaussiana para a predição de uma nova observação
pelo MLEG para o nível da variável preditora X = 100.
2-86
A BORDAGEM DE V EROSSIMILHANÇA 2.7. QUALIDADE DO AJUSTE
60
50
40
Vazão (l/s)
30
20
10
0
Precipitação (mm)
Figura 2.16: Gráfico das linhas de intervalo de predição individuais, com base na dis-
tribuição Gaussiana para a predição de uma nova observação pelo MLEG. Exemplo: rio
Tinga.
2-87
A BORDAGEM DE V EROSSIMILHANÇA 2.7. QUALIDADE DO AJUSTE
n
n n 1 X
L{MLEG.1} = ln(2π) + ln(σb 2 ) + 2
(yi − βb0 − βb1 xi )2
2 2 2σ i=1
b
n n 1
= ln(2π) + ln(σb 2 ) + SQR
2 2 2σb 2
• Note que para uma dada amostra o único termo que pode variar se diferentes
modelos forem aplicados à amostra é o termo que envolve a SQR, pois todos os
demais dependem do tamanho da amostra n.
QM M SQM/1
F∗ = =
QM R SQR/(n − 2)
2-88
A BORDAGEM DE V EROSSIMILHANÇA 2.7. QUALIDADE DO AJUSTE
H0 : β1 = 0 contra Hα : β1 6= 0.
MA : E {Y |X = xk } = β0 + β1 xk ,
MB : E {Y |X = xk } = β0 = E {Y } = µ,
• Podemos comparar esses modelos pela razão de verossimilhança (ou pela diferença
da log-verossimilhança negativa):
L{MA }
⇒ L{MB } − L{MA }
L{MB }
n n n n
L{MA } = ln(2π) + − ln(n) + ln (SQRA )
2 2 2 2
n n n n ³X ´
= ln(2π) + − ln(n) + ln (yi − βb0 − βb1 xi )2
2 2 2 2
n n n n
= ln(2π) + − ln(n) + ln (SQRM LEG )
2 2 2 2
2-89
A BORDAGEM DE V EROSSIMILHANÇA 2.7. QUALIDADE DO AJUSTE
n n n n
L{MB } = ln(2π) + − ln(n) + ln (SQRB )
2 2 2 2
n n n n ³X ´
= ln(2π) + − ln(n) + ln (yi − y)2
2 2 2 2
n n n n
= ln(2π) + − ln(n) + ln (SQTM LEG )
2 2 2 2
• Ou seja:
2-90
A BORDAGEM DE V EROSSIMILHANÇA 2.7. QUALIDADE DO AJUSTE
AIC(MCOMPLETO ) = n ln (SQR) + 6
AIC(MREDUZIDO ) = n ln (SQT ) + 4
2-91
A BORDAGEM DE V EROSSIMILHANÇA 2.7. QUALIDADE DO AJUSTE
20 40 60 80 100
Tamanho de Amostra (n)
2-92
A BORDAGEM DE V EROSSIMILHANÇA 2.8. EXEMPLO: ÁRVORES DOMINANTES
3 4 5 6 7 8
Idade (anos)
• Algumas estatísticas:
P
n = 60; (x − x)2 = 154.5698;
P i
x = 5.368333; (y − y)2 = 759.7539;
P i
y = 20.85983; (xi − x)(yi − y) = 277.8607.
2-93
A BORDAGEM DE V EROSSIMILHANÇA 2.8. EXEMPLO: ÁRVORES DOMINANTES
3.0
Log−Verossimilhança Negativa Relativa
0.0 0.5 1.0 1.5 2.0 2.5
9 10 11 12 13
β0
6
Log−Verossimilhança Negativa Relativa
0 1 2 3 4 5
2-94
A BORDAGEM DE V EROSSIMILHANÇA 2.8. EXEMPLO: ÁRVORES DOMINANTES
6
Log−Verossimilhança Negativa
1 2 3 0 4 5
2-95
A BORDAGEM DE V EROSSIMILHANÇA 2.9. EXERCÍCIOS
2.9 Exercícios
Para as situações abaixo, ajuste o MLEG encontrando:
2.9-1. Relação entre o diâmetro médio das árvores (variável resposta, em cm) e a idade
(variável preditora, em anos) em povoamentos de Eucalyptus grandis:
P
n = 60; (x − x)2 = 154.5698;
P i
x = 5.368333; (y − y)2 = 101.9314;
P i
y = 9.576167; (xi − x)(yi − y) = 88.58172.
2.9-2. Relação entre o incremnto médio anual (variável resposta, em m3 ha−1 ) e a idade
(variável preditora, em anos) em povoamentos de Eucalyptus grandis:
P
n = 60; (x − x)2 = 154.5698;
P i
x = 5.368333; (y − y)2 = 1996.933;
P i
y = 22.46667; (xi − x)(yi − y) = 14.08667.
2-96
C APÍTULO 3
M ISCELÂNEA SOBRE M ODELOS L INEARES
Nesse capítulo trataremos de dois temas não diretamente ligados entre si mas que são
elementos importantes da utilização do Modelo Linear simples:
1. o modelo reduzido e
2. o modelo completo.
3-97
M ISCELÂNEA SOBRE M ODELOS L INEARES 3.1. TESTE DA FALTA DE AJUSTE
µm
µ3
µ2
µ1
x1 x2 x3 xm X
Figura 3.1: Modelo Linear Simples (MLEG) como um modelo reduzido, onde as médias
se alinha ao longo da reta de regressão.
• Ao ajustar o modelo pelo método de quadrados mínimos (ou MMV) obtermos como
modelo ajustado:
ybij = b0 + b1 xi ,
onde b0 e b1 são as EQM dos coeficientes de regressão.
• A variância do erro nesse modelo será estimada pela soma de quadrado de resíduos:
X ni
m X ni
m X
X
SQRM.REDUZIDO = (yij − ybij )2 = (yij − b0 − b1 xi )2 ,
i=1 j=1 i=1 j=1
3-98
M ISCELÂNEA SOBRE M ODELOS L INEARES 3.1. TESTE DA FALTA DE AJUSTE
E {Y |X = xi } = µi .
• Ajustando esse modelo pelo método de quadrados mínimos (ou MMV) obtemos o
seguinte modelo ajustado:
ybij = y i ,
onde y i é a média amostral de Y para cada um dos níveis de X.
• A variância do erro nesse modelo será estimada pela soma de quadrado de resíduos:
X ni
m X ni
m X
X
SQRM.COMPLETO = (yij − ybij )2 = (yij − y i )2 .
i=1 j=1 i=1 j=1
3-99
M ISCELÂNEA SOBRE M ODELOS L INEARES 3.1. TESTE DA FALTA DE AJUSTE
µm
µ1
µ2
µ3
x1 x2 x3 xm X
Figura 3.2: Modelo completo no teste da falta de ajuste, onde as médias seguem uma função
desconhecida.
Note que
X ni
m X m
X ni
X
(yij − y i ) (y i − ybi ) = (y − ybi ) (yij − y i ) = 0
i
i=1 j=1 i=1 j=1
Pni
pois j=1 (yij − y i ) = 0 para todo j.
3-100
M ISCELÂNEA SOBRE M ODELOS L INEARES 3.1. TESTE DA FALTA DE AJUSTE
• Assim a SQR no modelo reduzido (MLEG) pode ser interpretada como tendo dois
componentes:
X ni
m X ni
m X
X
SQRM.REDUZIDO = (yij − y i )2 + (y i − ybi )2
i=1 j=1 i=1 j=1
Pm Pni
– i=1 (yij − y i )2 é a soma de quadrados do resíduo do modelo completo,
j=1
que é chamada de Soma de Quadrados do Resíduo Puro (SQRP ).
Pm Pni
– i=1 j=1(y i − ybi )2 é a soma de quadrados dos desvios do modelo reduzido
em relação ao modelo completo, que é chamada de Soma de Quadrados da
Falta de Ajuste (SQF A).
• No contexto do modelo linear simples (MLEG) temos então que
SQR = SQRP + SQF A ⇒ SQF A = SQR − SQRP.
• No caso de H0 ser verdadeira, a SQF A será bem pequena, mas no caso de H0 falsa
ela será grande.
• Para construirmos um teste, devemos associar graus de liberdade (gl) com as somas
de quadrados:
SQRM.REDUZDIO = SQR ⇒ glM.REDUZIDO = n − 2
SQRM.COMPLETO = SQRP ⇒ glM.COMPLETO = n − m
SQF A = SQR − SQRP ⇒ glFA = (n − 2) − (n − m) = m − 2
3-101
M ISCELÂNEA SOBRE M ODELOS L INEARES 3.1. TESTE DA FALTA DE AJUSTE
3-102
M ISCELÂNEA SOBRE M ODELOS L INEARES 3.1. TESTE DA FALTA DE AJUSTE
• Se ∆FALTA AJUSTE = ln(8) ≈ 2 for fixado como nível a partir do qual as diferenças
passam a ser consideradas marcantes, temos a seguinte relação
à !
SQF A
2 > n ln 1 + + 2(p − m)
SQRP
" #
SQF A 2 + 2(p − m)
> 1 − exp
SQRP n
1.0
n = 50
0.8
Razão SQFA / SQRP
0.6 n = 100
0.4 n = 200
0.2
n = 500
0.0
0 10 20 30 40 50 60 70
Diferença no Número de Parâmetros (m − p)
SQF A
Figura 3.3: Gráfico mostrando a como a razão SQRP deve mudar em função da diferença do
número de parâmetros entre o modelo completo e reduzido para razão de verossimilhança
de ln(8).
3-103
M ISCELÂNEA SOBRE M ODELOS L INEARES 3.1. TESTE DA FALTA DE AJUSTE
3 4 5 6 7 8
Idade (anos)
Figura 3.4: Relação entre a altura média das árvores dominantes e idade em povoamentos
de Eucalyptus grandis na região central do Estado de São Paulo. Linha azul: modelo linear
simples; linha vermelha: médias por classes de idade arredonda para ano; linha violeta:
médias por classes de idade arredonda para décimo de ano.
3-104
M ISCELÂNEA SOBRE M ODELOS L INEARES
3.2. VARIÁVEL PREDITORA ESTOCÁSTICA
onde
E {ε|X = x} = 0
Var{ε|X = x} = σ 2
Cov{εi , εi } = 0
iid
(ε|X = x) ∼ N (0, σ 2 )
3-105
M ISCELÂNEA SOBRE M ODELOS L INEARES
3.2. VARIÁVEL PREDITORA ESTOCÁSTICA
• Ao assumirmos que os modelos definidos até aqui são condicionais aos valores
observados da variável preditora (X = x), não ocorre nenhuma mudança na forma
de obter os EQM (e também os EMV).
b0 ⇒ (b0 |X = x)
b1 ⇒ (b1 |X = x)
Var{b0 } ⇒ Var{b0 |X = x}
Var{b1 } ⇒ Var{b1 |X = x}
3-106
M ISCELÂNEA SOBRE M ODELOS L INEARES 3.3. ERRO DE MENSURAÇÃO
onde:
y ∗ é a medida verdadeira da variável resposta;
3-107
M ISCELÂNEA SOBRE M ODELOS L INEARES 3.3. ERRO DE MENSURAÇÃO
y = β 0 + β 1 x∗ + ε + v
= β 0 + β 1 x∗ + ε ∗
ou seja, qualquer erro de mensuração na variável resposta pode ser absorvido pelo
termo do erro aleatório, sendo válido a teoria desenvolvida até o momento.
y = β0 + β1 x∗ + ε
= β0 + β1 (x − u) + ε
= β0 + β1 x − β1 u + ε
= β0 + β1 x + [ε − β1 u]
= β0 + β1 x + w
• O problema nesse caso é que a variável preditora (x) e o erro aleatório (w) não são
independentes:
y = β0 + β1 x + θu + ε.
3-108
M ISCELÂNEA SOBRE M ODELOS L INEARES 3.4. EXERCÍCIOS
3.4 Exercícios
Dados de povoamentos de Eucalyptus grandis na região central do Estado de São Paulo.
3-109
M ISCELÂNEA SOBRE M ODELOS L INEARES 3.4. EXERCÍCIOS
3-110
C APÍTULO 4
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS
Toda a teoria apresentada assume que as pressuposições dos modelos lineares simples são
realistas para o conjunto de observações nos quais a análise de regressão será aplicada.
Embora tenham sido mostrados modelos com vários graus de exigência em termos de
pressuposições, o Modelo Linear de Erros Gaussianos é o que nos permite maior gama de
inferências. Ao aplicar esse modelo, entretanto, é prudente verificar se as pressuposições
assumidas são de fato realistas para os dados em mãos. Para isso discutiremos várias
técnicas de diagnóstico.
Frequentemente, algumas das pressuposições não são realistas, tornando o modelo
inapropriado, mas algumas medidas podem ser tomadas para solucionar o problema.
Chamaremos tais medidas de medidas remediadoras.
4-111
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
– assimetria;
– curtose; e
– observações discrepantes.
20
Densidade
0.04
15
0.02
10
0.00
0 5 10 15 20 25 30
4-112
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
*
,~
Observacoes
* Discrepantes
*
*
Terceiro Quartil
Primeiro Quartil
Figura 4.1: Figura que mostra a estrutura do gráfico de caixa (“box-plot”). A caixa é de-
limitada pelo primeiro e terceiro quartil, tendo como a mediana como uma linha interior.
As linhas que saem da caixa se expandem até 1, 5 vêzes a distância interquartil ou até a
observação mais extrema. A partir dessa distância, as observações são marcadas individ-
ualmente como observações discrepantes. O conceito de observação discrepante pode ser
mudado alterando-se a distância até onde a linhas se expandem. Para se representar também
o tamanho da amostra, a largura da caixa pode ser proporcional ao número de observações.
4-113
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
O gráfico cronológico não mostra nenhuma tendência marcante nos dados, indicando
ausência de dependência temporal.
25
20
Altura Total (m)
15
10
0 5 10 15 20 25 30 35
Ordem das Observações
A altura média das árvores dominantes se mostra bastante simétrica e com curtose
adequada.
26
0.08
24
Densidade
0.06
22
20
0.04
18
0.02
16
0.00
14
10 15 20 25 30
4-114
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
O gráfico revela a existência de tendência tempora fruto do fato dos dados resultarem de
parcelas que foram re-medidas ao longo do tempo, denotando assim o padrão de
crescimento dos povoamentos com a idade.
28
Altura Média das Árvores Dominantes (m)
26
24
22
20
18
16
14
0 10 20 30 40 50 60
Ordem das Observações
200
150
Densidade
100
50
0
4-115
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
Elimando-se as duas observações discrepantes, nota-se que a variável vazão tem forma
bastante assimétrica à esquerda, com tendência a platicurtose na região central dos valores.
40
0.06
35
30
Densidade
0.04
25
20
0.02
15
10
0.00
10 20 30 40
Como os dados de vazão são de quinzenas sucessivas, a ordem dos dados representa uma
ordem cronológica e os dados mostram claramente uma dependência temporal.
40
35
Vazão Média (ls)
30
25
20
15
10
0 50 100 150
Ordem das Observações
4-116
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
1200
0.0030
1000
800
0.0020
Densidade
600
0.0010
400
200
0.0000
0 500 1000
4-117
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
4.1.3 O Resíduo
• Para diagnóstico de problemas com as pressuposições no modelo linear, o resíduo é
o elemento fundamental pois ele representa a estimativa do termo de erro do
modelo, que é o elemento sobre qual as pressuposições são colocadas.
ei = yi − ybi
e erro aleatório
εi = yi − E {Y |X = xi } .
PROPRIEDADES DO RESÍDUO
• Isso deve ser considerado para não confundirmos tais propriedades com aquilo que
esperamos observar no resíduo por ele ser um estimador do erro do modelo.
P
Média: como ei = 0, temos que
P
ei
e= = 0.
n
Qualquer diferença em relação ao valor nulo na média do resíduo resulta de
erros de arredondamento.
Note que a pressuposição E {εi } = 0, não pode ser verificada por essa via.
Não independência: os resíduos não são independentes entre si, pois:
ei = yi − ybi = yi − (b0 + b1 xi ),
4-118
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
RESÍDUO PADRONIZADO
4-119
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
4-120
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
2
Resíduo
−2
−4
−6
5 10 15 20 25 30 35
Valor Ajustado
4-121
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
• Exemplos do que pode acontecer quando a relação entre variável resposta e variável
preditora não é linear:
yi = β0 + β1 xi + β2 x2i + εi
120
100
80
Variável yResposta
60
40
20
0
5 10 15 20 25 30 35 40
Variável Preditora
30
20
10
Resíduo
−10
−20
−30
20 40 60 80
Valor Ajustado
4-122
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
yi = β0 + β1 ln(xi ) + εi
30
Variável yResposta
20
10
0
5 10 15 20 25 30 35 40
Variável Preditora
15
10
5
Resíduo
−5
−10
−15
14 16 18 20 22
Valor Ajustado
4-123
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
ln(yi ) = β0 + β1 xi + εi
40
30
Variável yResposta
20
10
0
−10
−20
5 10 15 20 25 30 35 40
Variável Preditora
30
20
10
Resíduo
−10
−20
−30
5 10 15 20
Valor Ajustado
4-124
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
ln(yi ) = β0 + β1 ln(xi ) + εi
300
250
Variável yResposta
200
150
100
50
5 10 15 20 25 30 35 40
Variável Preditora
60
40
20
Resíduo
−20
−40
50 100 150 200 250
Valor Ajustado
4-125
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
• Exemplos do que pode acontecer quando a relação entre variável resposta e variável
preditora não linear, mas a variância não é constante:
Var{εi } = k xi
200
100
Resíduo
−100
−200
10 20 30 40
Valor Ajustado
Var{εi } = k (1/xi )
1.0
0.5
Resíduo
0.0
−0.5
−1.0
10 20 30 40
Valor Ajustado
4-126
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
P (|Z| ≥ 2) × 60 ≈ 0.05 × 60 = 3.
• Observa-se no gráfico 3 observações além do limite |2|, o que sugere que tais
observações não são discrepantes.
1
Resíduo Padronizado
−1
−2
18 20 22 24
Valor Ajustado
4-127
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
4
Resíduo Padronizado
−2
−4
0 200 400 600 800 1000 1200
Valor Ajustado
GRÁFICO CRONOLÓGICO
Objetivo: o objetivo de grafar o resíduo contra a ordem cronológica dos dados ou contar
a seqüência das observações (1, 2, . . . , n) é tentar detectar dependências temporais
4-128
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
1
Resíduo Padronizado
−1
−2
0 10 20 30 40 50 60
Seqüência das Observações (1 a n)
• Foi detectado um padrão temporal bem claro na variável resposta: por tratar-se
de quinzenas sucessivas.
• Detecta-se no resíduo padronizado duas observações extremamente
discrepantes.
4-129
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
10
8
Resíduo Padronizado
0 50 100 150
Seqüência das Observações (1 a n)
1.0
0.5
Resíduo Padronizado
0.0
−0.5
−1.0
0 50 100 150
Seqüência das Observações (1 a n)
4-130
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
Quantis empíricos do resíduo: ordena-se o resíduo em ordem crescente, sendo que cada
valor observado ordenado e[i] é definido como sendo o quantil o iésimo quantil.
Gráfico: grafa-se Z[i] (nas abscissas) contra e[i] (nas ordenadas). Se o erro segue a
distribuição Gaussiana, os quantis devem se alinhar ao longo de uma reta.
20
Quantis Empíricos do Resíduo
10
−10
−20
−2 −1 0 1 2
Quantis Teóricos da Distribuição Gaussiana
4-131
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
20
Quantis Empíricos do Resíduo
10
−10
−20
−2 −1 0 1 2
Quantis Teóricos da Distribuição Gaussiana
6
0.30
4
0.20
Densidade
2
0.15
0.10
0
0.05
−2
0.00
−4 −2 0 2 4 6 8 −3 −2 −1 0 1 2 3
Resíduo Quantis Teóricos da Distribuição Gaussiana
4-132
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
0.25
0
0.15
Densidade
−2
0.10
−4
0.05
−6
−8
0.00
−8 −6 −4 −2 0 2 4 −3 −2 −1 0 1 2 3
Resíduo Quantis Teóricos da Distribuição Gaussiana
15
0.8
10
0.6
Densidade
5
0.4
0
0.2
0.0
−5
−10 0 10 20 −3 −2 −1 0 1 2 3
Resíduo Quantis Teóricos da Distribuição Gaussiana
4-133
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
60
0.08
40
20
0.04
0
0.02
−20
−40
0.00
−40 −20 0 20 40 −4 −2 0 2 4
Resíduo Quantis Teóricos da Distribuição Gaussiana
0.4
Quantis Empíricos do Resíduo
0.8
0.2
Densidade
0.6
0.0
0.4
−0.2
0.2
−0.4
0.0
4-134
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
15
10
e
4-135
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.1. DIAGNÓSTICOS DE PROBLEMAS
Sete−Barras
Peruibe
Pariquera−acu
Paraty
Iguape
Cananeia
Resíduos
Região C
Região B
Região A
Resíduos
4-136
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.2. MEDIDAS REMEDIADORAS
Os erros não são independentes. Não há medida remediadora para esse problema.
A única solução é aplicar modelos que incorporrem a dependência na estrutura dos
erros, utilizando o Método de Quadrados Mínimos Generalizados.
4-137
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.2. MEDIDAS REMEDIADORAS
Freqüentemente isso não é possível! A solução nesse caso é utilizar modelos não
Gaussianos, ou seja, Modelos Lineares Generalizados.
• Os dois conjuntos de dados abaixo sugerem uma relação funcional semelhante entre
X eY:
E {yi } = β0 xβi 1 .
Y
Dados A Y
Dados B
400 400
300 300
200 200
100 100
0 0
40 50 60 70 80 90 100 40 50 60 70 80 90 100
X X
4-138
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.2. MEDIDAS REMEDIADORAS
• Mas o que ocorre com a estrutura dos erros quando ajustamos o modelo na escala
logarítmica ?
yi∗ = β0∗ + β1 x∗i + ε∗i =⇒ yi = β0 xβi 1 εi
onde
ε∗i = ln(εi ) ⇒ εi = exp(ε∗i )
ε∗i ∼ Gaussiana(0, σ 2 ) ⇒ εi ∼ Lognormal
Dados A Dados B
log(Y) log(Y)
6 6
5 5
4 4
3 3
2 2
3.8 4.0 4.2 4.4 4.6 3.8 4.0 4.2 4.4 4.6
log(X) log(X)
4-139
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.2. MEDIDAS REMEDIADORAS
Conclusão
yi = β0 xβi 1 εi
A transformação logarítimica
yi = β0 xβi 1 + εi εi ∼ N (0, σ 2 )
yi = β0 xβi 1 + εi εi ∼ N (0, xm 2
i σ )
4-140
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.2. MEDIDAS REMEDIADORAS
150
y = exp(β1x)
Variável Resposta
100
50
y = β1x2
0
20 40 60 80 100
Variável Preditora
10
8
y= x
Variável Resposta
4
y = log(x)
20 40 60 80 100
Variável Preditora
4-141
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.2. MEDIDAS REMEDIADORAS
1.0
y = exp(− β1x)
0.8
Variável Resposta
0.6
0.4 y = β1(1 x)
0.2
0.0
20 40 60 80 100
Variável Preditora
4-142
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.3. REGRESSÃO PONDERADA
dY
= kdt
Z
Y Z
1
dY = kdt
Y
log(Y ) = kt + c
log(Y ) = b0 + b1 t
Y = eb0 eb1 t
Y = αeb1 t
4-143
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.3. REGRESSÃO PONDERADA
X X X
wi xi yi = b0 wi xi + b1 wi x2i
4-144
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.3. REGRESSÃO PONDERADA
• Conclusão:
– Quadrados mínimos ponderados implica numa transformação da escala da
variável resposta.
– Para se corrigir heteroscedasticidade é freqüentemente necessário testar
diversos valores de m (wi = x−mi ), para se encontrar o peso que de fato
homogeniza as variâncias.
– Em geral testa-se valores na amplitude de m = −4, . . . , 0, . . . , 4, sendo m = 0
é o modelo não ponderado.
– O teste é realizado vizualmente analisando-se
∗ o gráfico de dispersão do resíduo ou
∗ o gráfico de dispersão da raiz do resíduo absoluto.
4-145
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.3. REGRESSÃO PONDERADA
m=0
300
15
200
100
10
ei wi
ei wi
0
5
−100
−200
m=1
1.5
2.0
1.5
1.0
1.0
ei wi
ei wi
0.5
0.0
0.5
−0.5
−1.0
0.0
4-146
D IAGNÓSTICO E M EDIDAS R EMEDIADORAS 4.3. REGRESSÃO PONDERADA
m=2
0.15
0.02
0.01
0.10
ei wi
ei wi
0.00
0.05
−0.01
−0.02
0.00
m=3
0.04
0.0000 0.0005 0.0010 0.0015
0.03
ei wi
ei wi
0.02
0.01
−0.0010
0.00
4-147
C APÍTULO 5
R EGRESSÃO L INEAR POR M ATRIZES
y i = β 0 + β 1 xi + ε i
iid
onde εi ∼ N (0, σ 2 ).
y = Xβ + ε
onde:
5-148
R EGRESSÃO L INEAR POR M ATRIZES 5.1. MODELO LINEAR SIMPLES
X = [i x1 ]
X0 Xb = X0 y
X0 Xb = X0 y
−1 −1
[X0 X] X0 Xb = [X0 X] X0 y
−1
Ib = [X0 X] X0 y
−1
b = [X0 X] X0 y
5-149
R EGRESSÃO L INEAR POR M ATRIZES 5.2. MODELO LINEAR MÚLTIPLO
" P P P P #
1 x2i yi − xi xi yi
= P P P P
n (xi − x)2 − xi yi + n xi y i
" P P P P #
1 x2i yi − xi xi yi
= P P P P
n (xi − x)2 n xi y i − xi yi
P
(xi − x)(yi − y)
⇒ b1 = P
(xi − x)2
P 2P P P P P P P
xi yi − xi xi yi + ( xi )2 yi − ( xi )2 yi
⇒ b0 = P 2 n (xi − x)
P P P P P P P P
( x2i yi − ( xi )2 yi ) − ( xi xi yi − ( xi )2 yi )
⇒ b0 = P
n (xi − x)2
P 2 P 2 P P P P P
(
xi − ( xi ) ) yi ( xi yi − xi yi ) xi
⇒ b0 = P − P
(xi − x)2 n (xi − x)2 n
⇒ b0 = y − b1 x
y = Xβ + ε.
5-150
R EGRESSÃO L INEAR POR M ATRIZES 5.2. MODELO LINEAR MÚLTIPLO
5-151
R EGRESSÃO L INEAR POR M ATRIZES 5.2. MODELO LINEAR MÚLTIPLO
b0 = [b0 b1 b2 · · · bp ],
y
b = Xb.
= y0 (y − y b 0 (y − y
b) − y b)
= y 0 y − 2y
b 0y + y
b 0y
b
= y0 y − 2b0 X0 y + b0 X0 Xb
5-152
R EGRESSÃO L INEAR POR M ATRIZES 5.2. MODELO LINEAR MÚLTIPLO
⇒ X0 Xb = X0 y
5-153
R EGRESSÃO L INEAR POR M ATRIZES 5.2. MODELO LINEAR MÚLTIPLO
– (X0 X) > 0.
– O que implica que a matrix (X0 X) deve ser definida positiva.
– O que implica que todos auto-valores de (X0 X) devem ser positivos.
A apresentação das EQM nos permite redefinir, em termos matriciais, o vetor de valores
ajustados e o vetor de resíduos:
de forma que o vetor de valores ajustados pode ser definida pelo produto
matricial
y
b = P y.
X [X0 X]−1 X0
(n × p) (p × p) (p × n)
– simétrica
−1 −1
P0 = (X[X0 X] X0 )0 = X[X0 X] X0 = P
– idempotente.
−1 −1
PP = (X[X0 X] X0 ) (X[X0 X] X0 )
−1 −1
= X[X0 X] (X0 X) [X0 X] X0
−1
= X[X0 X] X0
= P
5-154
R EGRESSÃO L INEAR POR M ATRIZES 5.3. PROJEÇÃO NO ESPAÇO VETORIAL
Resíduo: o vetor dos resíduos foi definido como o vetor das diferenças entre valor
observado e valor ajustado:
e = y−y b
= y − Py
= (I − P)y
= My
M0 = (I − P)0 = I0 − P0 = I − P = M;
– idempotente
MM = (I − P) (I − P)
= (I − P)I − (I − P)P
= (I − P) − (IP − PP)
= (I − P) − (P − P)
= I−P
= M
MP = (I − P) P = IP − PP = P − P = 0.
5-155
R EGRESSÃO L INEAR POR M ATRIZES 5.3. PROJEÇÃO NO ESPAÇO VETORIAL
Segunda
Coordenada
v2 v
u2 u
θ
θu θv
v1 u1 Primeira
Coordenada
Figura 5.1: Ilustração da lei do cosseno que define o ângulo entre dois vetores: v e u.
5-156
R EGRESSÃO L INEAR POR M ATRIZES 5.3. PROJEÇÃO NO ESPAÇO VETORIAL
Segunda
Coordenada
θ u*
Primeira
Coordenada
• A figura 5.2 ilustra a projeção do vetor v sobre o vetor u num espaço vetorial
bi-dimensional.
• O modelo linear também pode ser entendido como uma projeção vetorial.
• A figura 5.3 ilustra essa projeção vetorial num espaço tridimensional (apenas três
observações), com duas variáveis preditoras: x0 (vetor unitário) e x1 .
5-157
R EGRESSÃO L INEAR POR M ATRIZES 5.3. PROJEÇÃO NO ESPAÇO VETORIAL
x0
y
x1
Primeira
Coordenada
Terceira Coordenada
Figura 5.3: Ilustração da projeção vetorial do vetor de observações (y) sobre o espaço
gerado pelas colunas da matrix de delineamento (X).
5-158
R EGRESSÃO L INEAR POR M ATRIZES 5.3. PROJEÇÃO NO ESPAÇO VETORIAL
e=y−y
b ⇒ y = y
b +e
||y||2 = b ||2 + ||e||2
||y
y0 y = b 0y
y b + e0 e
y0 y − n(y)2 = b 0y
y b − n(y)2 + e0 e
1 1 0 2
y0 y − n( y0 i)2 = b 0y
y b − n( y b i) + e0 e
n n
1 1 0 0
y0 Iy − y0 ii0 y = b 0 Iy
y b− y b + e0 e
b ii y
n n
1 1
y0 [I − ii0 ]y = b 0 [I − ii0 ]y
y b + e0 e
n n
y0 M0 y = b 0 M0 y
y b + e0 e
y0 M0 y = b0 X0 M0 Xb + e0 e
X0 e = X0 (y − y
b)
= X0 y − X0 yb
0 0
= X y − X Xb
−1
= X0 y − X0 X(X0 X X0 y)
= X0 y − X0 y
= 0
5-159
R EGRESSÃO L INEAR POR M ATRIZES
5.4. MODELO LINEAR MÚLTIPLO GAUSSIANO
e0 y
b = (y − y b )0 y
b
= y0 yb −yb 0yb
= y Py − (Py)0 Py
0
= y0 Py − yP0 Py
= y0 Py − yPy
= 0
5-160
R EGRESSÃO L INEAR POR M ATRIZES
5.4. MODELO LINEAR MÚLTIPLO GAUSSIANO
E {εε0 |X} = σ 2 I
5-161
C APÍTULO 6
I NTERPRETAÇÃO E I NFERÊNCIA NO M ODELO
L INEAR M ÚLTIPLO
y = Xβ + ε,
onde
y é o vetor da variável resposta;
X é a matrix das variáveis preditoras, matrix de delineamento;
β é o vetor dos coeficientes de regressão a serem estimados; e
ε é o vetor do erro aleatório.
Pressuposição 1: a relação funcional linear é ”verdadeira”, i.e., a relação
y = Xβ + ε
6-162
I NTERPRETAÇÃO E I NFERÊNCIA 6.1. MODELO LINEAR MÚTLIPLO
X = [i x1 x2 · · · xp ]
Cov{εi , X} = 0;
E {y|X} = Xβ.
Var{εi |X} = σ 2 , i = 1, 2, . . . , n
Cov{εi , εj } = 0, i 6= j.
6-163
I NTERPRETAÇÃO E I NFERÊNCIA 6.2. INTERPRETAÇÃO DO MLM
• O que foi assumido para o Modelo Linear Simples é generalizado para todas
variáveis preditoras no Modelo Linear Múltiplo.
• Essa pressuposição é essencialmente uma conveniência para simplificar as
demonstrações, uma vez que para vários resultados elas pode ser relaxada.
• Somente em situações experimentais é que é possível garantir totalmente que
as variáveis preditoras serão de fato não-estocásticas.
1. y = Xβ + ε;
3. E {ε|X} = 0;
4. E {εε0 |X} = σ 2 I;
6-164
I NTERPRETAÇÃO E I NFERÊNCIA 6.2. INTERPRETAÇÃO DO MLM
• Se p = 1, temos
E {Y |X0 = 1, X1 = xk1 } = β0 + β1 xk1
que é o modelo linear simples, onde a interpretação geométrica da relacional
funcional é de uma reta no espaço bidimensional (Y, X1 ).
• Se p = 2, temos
E {Y |X0 = 1, X1 = k, X2 = xk2 } −
−E {Y |X0 = 1, X1 = (k + 1), X2 = xk2 } =
= (β0 + β1 (k) + β2 xk2 ) − (β0 + β1 (k + 1) + β2 xk2 )
= β1
6-165
I NTERPRETAÇÃO E I NFERÊNCIA 6.2. INTERPRETAÇÃO DO MLM
p = é a ordem do polinômio;
Xk = X k
E {Y |X = xi } = β0 + β1 xi + β2 x2i + β3 x3i + · · · + βp xpi
E {Y |X = xi } = β0 + β1 xi + β2 x2i
β0 ⇒ intercepto;
6-166
I NTERPRETAÇÃO E I NFERÊNCIA 6.2. INTERPRETAÇÃO DO MLM
β2 ⇒ concavidade da parábola :
⇒ β2 > 0 parab. convexa,
⇒ β2 < 0 parab. côncova;
β1
x= ⇒ vértice da parábola;
2β2
3β 2 + 4β2 β0
y= 1 ⇒ máximo ou mínimo da parábola.
4β2
• Para se realizar o ajuste do modelo, a interação entra no modelo como uma terceira
variável preditora X3 = X1 X2 :
E {Y |X1 = xi1 , X2 = xi2 , X3 = xi3 = xi1 xi2 } = β0 + β1 xi1 + β2 xi2 + β3 xi3 .
Para X2 = k
E {Y |X1 = xi1 , X2 = k} = (β0 + β2 k) + β1 xi1
= β00 + β1 xi1 .
6-167
I NTERPRETAÇÃO E I NFERÊNCIA 6.2. INTERPRETAÇÃO DO MLM
50
40
30
z
20
10
0 10
2 8
4 6
x y
6 4
8 2
10 0
40
X2 = 6
35
X2 = 4
30
X2 = 2
25
Y
20
15
10
5
0 2 4 6 8 10
X1
6-168
I NTERPRETAÇÃO E I NFERÊNCIA 6.2. INTERPRETAÇÃO DO MLM
Para X2 = k
E {Y |X1 = xi1 , X2 = k} = (β0 + β2 k) + (β1 + β3 k) xi1
= β00 + β10 xi1 .
+β6 (x2i1 xi2 ) + β7 (xi1 x2i2 ) (interações de primeira por segunda ordem)
6-169
I NTERPRETAÇÃO E I NFERÊNCIA 6.2. INTERPRETAÇÃO DO MLM
150
100
z
50
0 10
2 8
4 6
x y
6 4
8 2
10 0
100
X2 = 6
80
X2 = 4
60
Y
X2 = 2
40
20
0 2 4 6 8 10
X1
6-170
I NTERPRETAÇÃO E I NFERÊNCIA 6.2. INTERPRETAÇÃO DO MLM
800
600
400
z
200
10
8
0
6
0
2
4
y
4
6 2
x
8
0
10
700
600
X2 = 2
500
Y
X2 = 4
400
X2 = 6
300
0 2 4 6 8 10
X1
6-171
I NTERPRETAÇÃO E I NFERÊNCIA 6.2. INTERPRETAÇÃO DO MLM
O Modelo Inverso é uma relação não-linear que pode ser aproximado pela
transformação da variável resposta
1
y =
β0 + β1 x1 + β2 x2 + · · · + βp xp + ε
1
= β 0 + β 1 x1 + β 2 x2 + · · · + β p xp + ε
y
6-172
I NTERPRETAÇÃO E I NFERÊNCIA 6.3. INFERÊNCIA
Xβb = y
b = (X0 X) X0 y −1
(Estimativas de Máxima Verossimilhança) β
6-173
I NTERPRETAÇÃO E I NFERÊNCIA 6.3. INFERÊNCIA
• A variância fica
−1
Var{b} = Var{β + (X0 X) X0 ε}
−1
= Var{(X0 X) X0 ε}
6-174
I NTERPRETAÇÃO E I NFERÊNCIA 6.3. INFERÊNCIA
−1 −1
= (X0 X) X0 Var{ε}X(X0 X)
−1 −1
= (X0 X) X0 (σ 2 I) X(X0 X)
−1 −1
= σ 2 (X0 X) X0 X(X0 X)
−1
= σ 2 (X0 X)
H0 : βk = βk0 ,
utilizamos a estatística
bk − βk0
t∗ = q ,
d {b }
Var k
6-175
I NTERPRETAÇÃO E I NFERÊNCIA 6.3. INFERÊNCIA
6-176
I NTERPRETAÇÃO E I NFERÊNCIA 6.3. INFERÊNCIA
• Uma vez que a resposta média é uma estimativa, seu vetor de valores esperados será
E {y
b h } = E {Xh b}
= Xh E {b}
= Xh β,
Var{y
b h } = Var{Xh b}
= Xh Var{b} Xh 0
³ ´
−1
= Xh σ 2 (X0 X) Xh 0
³ ´
−1
= σ 2 Xh (X0 X) Xh 0
portanto
³ h i´
−1
b h ∼ N Xh β , σ 2 Xh (X0 X) Xh 0
y .
6-177
I NTERPRETAÇÃO E I NFERÊNCIA 6.3. INFERÊNCIA
onde
q
W = (p + 1) F (1 − α; p; n − p − 1).
• No caso de predições, sabemos que o vetor de predição será igual ao vetor das
respostas médias, mas a variância deve incluir a incerteza sobre onde está a
superfície de regressão e a incerteza intrinseca à variável resposta que possui
variância igual a σ 2 I.
Assim, a variância do vetor de predições é
h i
−1
b h = σ 2 I + σ 2 Xh (X0 X) Xh 0
y
h i
−1
= σ 2 I + Xh (X0 X) Xh 0
sendo que a variância de uma predição em particular (ybk ) será dada pelo késimo
¯
elemento da diagonal dessa matrix
h i
d {yb } = QM R I + X (X0 X) X 0 −1
Var k h h .
kk
6-178
I NTERPRETAÇÃO E I NFERÊNCIA 6.4. QUALIDADE DO AJUSTE
y0 M0 y = y0 Py +y0 (I − P)y
• Associados a cada soma de quadrados temos os seus graus de liberdade, o que nos
permite obter os quadrados médios:
SQM
Quadrado Médio do Modelo: QM M =
p
SQR
Quadrado Médio do Resíduo: QM M = .
n−p−1
• Esses quadrados médios são estimativas da variância do erro
E {QM R} = σ 2
E {QM M } = σ 2 + β 0 X0 Xβ.
6-179
I NTERPRETAÇÃO E I NFERÊNCIA 6.5. EXERCÍCIOS
SQM y0 Py
R2 = = 0 0
SQT yM y
SQR y0 My
R2 = 1 − =1− 0 0
SQT yM y
6.5 Exercícios
6.5-1. Um florestal ajustou o seguinte modelo a dados de 60 parcelas de E. grandis em
primeira rotação:
onde:
6-180
I NTERPRETAÇÃO E I NFERÊNCIA 6.5. EXERCÍCIOS
Pede-se:
6-181
C APÍTULO 7
T ESTE DE H IPÓTESES NO M ODELO L INEAR
M ÚLTIPLO
7-182
T ESTE DE H IPÓTESES 7.1. DESDOBRAMENTO DA SQM
– o acréscimo na SQM
– a redução na SQR
• Lembremos que:
yi = β0 + β1 xi1 + β2 xi2 + ε
7-183
T ESTE DE H IPÓTESES 7.1. DESDOBRAMENTO DA SQM
e x1
y = Xb
x2 SQ Extra X 2 |X 1
x1
Primeira
b* x1 Coordenada
1
Terceira Coordenada
Figura 7.1: Interpretação vetorial da Soma de Quadrados Extra X2 |X1 , num espaço ve-
torial tridimensional.
7-184
T ESTE DE H IPÓTESES 7.1. DESDOBRAMENTO DA SQM
• Pela figura podemos perceber que o vetor da SQ Extra pode (vX2 |X1 ) ser
representado por duas diferenças de projeções:
Projeções de y sobre X e x1 :
– Xb é a projeção de y sobre o plano gerado pelas colunas de X = [x1 x2 ].
– b∗1 x1 é a projeção de y sobre x1 .
– A SQ Extra é a diferença dessas projeções:
0 = eX 0 X
= eX 0 [x1 x2 ]
= [eX 0 x1 eX 0 x2 ]
= [0 0]
7-185
T ESTE DE H IPÓTESES 7.1. DESDOBRAMENTO DA SQM
• A SQ Extra também pode ser vista ela própria como uma projeção:
7-186
T ESTE DE H IPÓTESES 7.1. DESDOBRAMENTO DA SQM
7-187
T ESTE DE H IPÓTESES 7.1. DESDOBRAMENTO DA SQM
y e
Segunda
Coordenada
x2
SQ Extra X 1|X 2
b2 x2
Xb SQ Extra X 2|X 1
x1
b1 x1 Primeira
Coordenada
Terceira Coordenada
Figura 7.2: Interpretação vetorial da Soma de Quadrados Extra para um modelo com duas
variáveis preditoras ortogonais, num espaço vetorial tridimensional.
7-188
T ESTE DE H IPÓTESES 7.1. DESDOBRAMENTO DA SQM
7-189
T ESTE DE H IPÓTESES 7.2. TESTE F PARCIAL
yi = β0 + β1 xi1 + εi
yi = β0 + β1 xi1 + β2 xi2 + εi
yi = β0 + β1 xi1 + β2 xi2 + β3 xi3 + εi
.. ..
. .
yi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip + εi .
7-190
T ESTE DE H IPÓTESES 7.2. TESTE F PARCIAL
7-191
T ESTE DE H IPÓTESES 7.2. TESTE F PARCIAL
• Uma vez que a SQM foi decomposta ortogonalmente nas soma de quadrados
marginais, os testes F seqüenciais não são redundantes.
7-192
T ESTE DE H IPÓTESES 7.2. TESTE F PARCIAL
5.5
5.0
log(Producao)
4.5
4.0
0.30
0.25
1/Idade
0.20
0.15
26
22
Sítio
18
14
20
Área Basal
15
10
Figura 7.3: Gráficos de dispersão das variáveis utilizadas para a modelagem da produção
de floresta de E. grandis em primeira rotação na região central do Estado de São Paulo.
– Por fim, a densidade, medida pela área basal, é uma variável que tem poder
explicativo desde que a a idade da floresta e sua capacidade produtiva sejam as
mesmas sendo, conseqüentemente, a última variável preditora a ser incluida no
modelo.
• Esse fundamento sugere que essa seja uma ordem apropriada para se testar a entrada
das variáveis preditoras no modelo de produção.
7-193
T ESTE DE H IPÓTESES 7.2. TESTE F PARCIAL
• O teste F seqüencial desse modelo comprova que as três variáveis preditoras são
importantes para o modelo de produção:
• Uma forma que pode ter grande utilidade é o teste de grupos de variáveis preditoras
que representam um mesmo tipo de influência sobre a variável resposta.
7-194
T ESTE DE H IPÓTESES 7.2. TESTE F PARCIAL
7-195
T ESTE DE H IPÓTESES 7.2. TESTE F PARCIAL
Mas, nesse caso, os testes seriam totalmente redundantes, pois os graus de liberdade
dos testes somam mais que os graus de liberdade do modelo.
7-196
T ESTE DE H IPÓTESES 7.2. TESTE F PARCIAL
• Como o Coef. de Determinação Parcial tem uma relação direta com a SQ Extra,
vale as mesmas generalizações:
SQM (X1|X2)
RY2 2|1 6= RY2 1|2 =
SQR(X2 )
SQM (X3 |X1 , X2)
RY2 3|12 =
SQR(X1 , X2 )
SQM (X3 , X4 |X1 , X2)
RY2 34|12 =
SQR(X1 , X2 )
7-197
T ESTE DE H IPÓTESES 7.2. TESTE F PARCIAL
H0 : β4 = β5 = β6 = β7 = 0| (β1 6= 0, β2 6= 0, β3 6= 0)
pode ser testada pela estatística F definida a partir dos coeficientes de determinação:
" #
[SQR(X1 , X2 , X3 ) − SQR(X1 , X2 , X3 , X4 , X5 , X6 , X7 )] /4 SQT
F =
SQR(X1 , X2 , X3 , X4 , X5 , X6 , X7 )/(n − 8) SQT
{[SQR(X1 , X2 , X3 )/SQT ] − [SQR(X1 , X2 , X3 , X4 , X5 , X6 , X7 )/SQT ]} /4
=
[SQR(X1 , X2 , X3 , X4 , X5 , X6 , X7 )/SQT ]/(n − 8)
{[1 − RY2 123 ] − [1 − RY2 1234567 ]} /4
=
(1 − RY2 1234567 )/(n − 8)
(RY2 1234567 − RY2 123 )/4
=
(1 − RY2 1234567 )/(n − 8)
• Essa última expressão sugere o que teste F parcial pode ser visto como um teste da
importância da perda de ajuste ocasionada no modelo com as 7 variáveis
preditoras, quando as variáveis X4 , X5 , X6 e X7 são excluídas do modelo.
7-198
T ESTE DE H IPÓTESES 7.3. RESTRIÇÕES LINEARES
H0 : βk = β0
Hα : βk 6= β0
bk − β0
t = q
d {b }
Var k
• Suponha agora que, num modelo com duas variáveis preditoras, deseja-se tesar a
hipótese nula
H0 : β1 = β2 ⇒ H0 : β1 − β2 = 0
contra a hipótese alternativa
Hα : β1 6= β2 .
• Note que essas são hipóteses sobre uma “combinação linear dos coeficientes de
regressão do modelo.
θ = β1 − β2
H0 : θ = θ0
Hα : θ 6= θ0
7-199
T ESTE DE H IPÓTESES 7.3. RESTRIÇÕES LINEARES
Var b
d {θ} d {b } + Var
= Var d {b } + 2Cov
d {b , b }
1 2 1 2
−1 −1 −1
= QM R [(X X) ]22 + QM R [(X0 X) ]33 + QM R [(X0 X) ]23
0
• Sendo θb uma combinação linear das EQM b1 e b2 , ela também terá distribuição
Gaussiana de forma que a estatística
θb − θ0
t= q
b
d {θ}
Var
yi = β0 + β1 xi1 + β1 xi2 + ε
= β0 + β1 (xi1 + xi2 ) + ε
• Essa restrição linear pode ser representada na forma de uma combinação linear de
todos os coeficientes de regressão do modelo original
H0 : 0β0 + β1 − β2 = 0,
H0 : r0 β = 0
h β0 i
H0 : 0 1 −1 β1
=0
β2
H0 : r0 β = θ0 ,
7-200
T ESTE DE H IPÓTESES 7.3. RESTRIÇÕES LINEARES
• Alguns exemplos de restrições lineares num modelo linear múltiplo com p variáveis
preditoras:
h i
H0 : βk = 0 ⇒ r0 = 0 · · · 0 1 0 · · · 0
θ0 = 0
h i
H0 : βj = βk ⇒ r0 = 0 · · · 0 1 0 · · · 0 −1 0 · · · 0
θ0 = 0
h i
H0 : β2 + β3 − 2β4 = 5 ⇒ r0 = 0 0 1 1 −2 0 · · · 0
θ0 = 5
• Por exemplo, num modelo com seis variáveis preditoras, deseja-se testar
simultaneamente as restrições
H0 : β2 + β3 = 2; β4 + β6 = 0; β5 − β6 = 3
contra a alternativa
7-201
T ESTE DE H IPÓTESES 7.3. RESTRIÇÕES LINEARES
H0 : Rβ = θ 0
é definida como
m = Rb − θ 0 ,
onde b é o vetor das EQM (ou EMV).
• Já foi visto uma outra estatística que envolve a variância do erro e tem distribuição
Qui-quadrado
(n − p − 1) QM R
,
σ2
que possui (n − p − 1) graus de liberdade.
• A razão dessas duas estatísticas Qui-quadrado gera uma estatística que pode ser
testada
h i
m0 [Var{m}]−1 m / m
F =
{[(n − p − 1) QM R] / σ 2 } / (n − p − 1)
h i
(Rb − θ 0 )0 [σ 2 R(X0 X)−1 R0 ]−1 (Rb − θ 0 ) / m
=
{[(n − p − 1) QM R] / σ 2 } / (n − p − 1)
7-202
T ESTE DE H IPÓTESES 7.3. RESTRIÇÕES LINEARES
χ2 [m]/m
F =
χ2 [n − p − 1]/(n − p − 1)
Rβ = θ 0 ⇒ Rb − θ 0 = Rb − Rβ = R(b − β),
– idade e sítio têm a mesma influência relativa, pois são variáveis medidas em
escalas lineares: ano e metro, respectivamente;
– área basal tem o dobro de influência relativa de idade e sitio, pois é uma
variável medida em escala bidimensional: m2 /ha.
• Para medir a influência relativa não se pode utilizar o modelo linear ajustado
diretamente sobre as variáveis, pois os coeficientes de regressão estão nas unidades
de medição:
β0 : 3 log(m) − log(ha).
7-203
T ESTE DE H IPÓTESES 7.3. RESTRIÇÕES LINEARES
X1 = 1/(idade) em ano−1 :
3 log(m) − log(ha)
β1 : = (3 log(m) − log(ha))ano
ano−1
X2 = sítio em m:
3 log(m) − log(ha)
β2 :
m
X3 = g em m2 ha−1 :
3 log(m) − log(ha) ha(3 log(m) − log(ha))
β3 : 2 −1
=
m ha m2
• Para contornar esse problema é necessário padronizar as variáveis e ajustar o
modelo sobre as variáveis padronizadas:
yi − y xi1 − x1 xi2 − x2 xi3 − x3
yi∗ = q x∗i1 = q x∗i2 = q x∗i3 = q
d {y}
Var d {x }
Var d {x }
Var d {x }
Var
1 2 3
7-204
T ESTE DE H IPÓTESES 7.3. RESTRIÇÕES LINEARES
C OEFICIENTES DE R EGRESSÃO
Estimativa Erro Padrão
β1 -0.20773 0.04067
β2 0.28770 0.05020
β2 0.57465 0.04004
H0 : β1 + β2 = 0; 2β1 + β3 = 0; 2β2 − β3 = 0.
• Uma vez que no modelo linear múltiplo temos diversas variáveis preditoras
correlacionadas surgem algumas questões:
7-205
T ESTE DE H IPÓTESES 7.3. RESTRIÇÕES LINEARES
• Já foi apresentado que, num modelo linera com p variáveis preditoras, a hipótese
sobre um único parâmetro
H0 : βk = 0
pode ser realizada na forma de uma restrição linear
H0 : r0 β = 0
7-206
T ESTE DE H IPÓTESES 7.3. RESTRIÇÕES LINEARES
• Essa forma de apresentação mostra que cada teste t dos coeficientes de regressão
testa a contribuição resultante da inclusão da variável preditora correspondente ao
coeficiente, dado que todas as demais variáveis preditoras já estão no modelo.
7-207
T ESTE DE H IPÓTESES 7.4. MUDANÇA ESTRUTURAL
• Calculando o teste F parcial para cada variável preditora, assumindo que as demais
estão no modelo temos:
7-208
T ESTE DE H IPÓTESES 7.4. MUDANÇA ESTRUTURAL
H0 : Rβ = θ,
onde R = [I : −I] e θ = 0.
7-209
T ESTE DE H IPÓTESES 7.4. MUDANÇA ESTRUTURAL
é igual a F = 2.45821.
• No caso de grandes amostras, há uma alternativa que é valida tanto no caso das
variâncias serem as mesmas, quanto no caso de serem diferentes.
• Lembremos que as EQM no modelo linear múltiplo de erros esféricos são também
estimativas de máxima verossimilhança e, conseqüentemente, têm distribuição
assintótica Gaussiana.
7-210
T ESTE DE H IPÓTESES 7.4. MUDANÇA ESTRUTURAL
QM R1 = 0.006190343
QM R2 = 0.03104989
7-211
T ESTE DE H IPÓTESES 7.5. PROCEDIMENTO GERAL
• Por exemplo, o teste F seqüencial não pode ser colocado na forma de restrições
lineares, e restrições lineares que envolvem contrastes não nulos (θ 6= 0) geralmente
não podem ser testadas via SQ Extra.
• Cada um desses modelos terá uma Soma de Quadrados do Resíduo (SQR) que são
estimadores da mesma variância σ 2 do erro.
E {SQR(completo)} = σ 2
E {SQR(reduzido)} = σ 2
SQR(completo) ∼ χ2 [n − p − 1]
SQR(reduzido) ∼ χ2 [n − p − 1 + k],
onde k é
7-212
T ESTE DE H IPÓTESES 7.5. PROCEDIMENTO GERAL
• O modelo completo terá, geralmente, uma SQR menor pois envolve um número
maior de coeficientes de regressão ou variáveis preditoras.
Tecnicamente, a SQR do modelo reduzido será no mínimo igual a do modelo
completo:
SQR(completo) ≤ SQR(reduzido).
[SQR(reduzido) − SQR(completo)] / k
F∗ = ,
SQR(completo) / (n − p − 1)
que sob hipótese nula terá distribuição F com k por (n − p − 1) graus de liberdade.
Modelo 1: yi = β0 + β1 xi1 + εi
Modelo 2: yi = β0 + β1 xi1 + β2 xi2 + εi
Modelo 3: yi = β0 + β1 xi1 + β2 xi2 + β3 xi3 + εi
··· ···
Modelo p: yi = β0 + β1 xi1 + β2 xi2 + β3 xi3 + · · · + βp xip + εi .
7-213
T ESTE DE H IPÓTESES 7.5. PROCEDIMENTO GERAL
• Modelo Reduzido:
Teste de Restrições Lineares: qualquer restrição linear pode ser testada definindo os
modelos como
Modelo Completo: modelo sem as restrições lineares;
Modelo Reduzido: modelo com as restrições lineares.
Exemplo: para testar as restrições lineares:
H0 : β2 = −7; β3 = 10
temos:
7-214
T ESTE DE H IPÓTESES 7.6. EXERCÍCIOS
7.6 Exercícios
7.6-1. Um modelo de índice de sítio freqüentemente utilizado por Florestais em florestas
plantadas é o seguinte:
log(mhdom) = β0 + β1 1/(idade) + ε
Com base nos resultados apresentados abaixo, realize o teste da mudança estrutural
do modelo comparando as duas rotações:
(a) Pelo Teste das Restrições Lineares;
(b) Pelo Teste de Wald;
Dados:
QM R = 0.06227067, QM R1 = 0.01490523, QM R2 = 0.05390036;
n1 = 342; n2 = 232;
" # " #
342.0000 101.52803 232.0000 72.21240
X01 X1 = X02 X2 =
101.5280 37.52819 72.2124 24.94308
" # " #
3.560655 3.215512
b1 = b2 =
−1.984775 −2.042366
7-215
C APÍTULO 8
R EGRESSÃO PADRONIZADA
E
A NÁLISE DE C AMINHAMENTO
Erros computacionais :
8-216
R EGRESSÃO PADRONIZADA 8.2. REGRESSÃO PADRONIZADA
onde k = 1, 2, . . . , p.
2. Controle do Tamanho√ de Amostra: as variáveis padronizadas são
multiplicadas por 1/ n − 1.
µ ¶
1 yi − y yi − y
Z: zi = √ = qP
n−1 sY (yi − y)2
µ ¶
1 xik − xk xik − xk
Wk : wik = √ = qP
n−1 sk (xik − xk )2
• A transformação, ao subtrair a média e dividir pela raiz quadrada da soma de
quadrados, implica, portanto, em tornar todas as variáveis com média zero e
variância igual a 1/(n − 1).
8-217
R EGRESSÃO PADRONIZADA 8.2. REGRESSÃO PADRONIZADA
• Os coeficientes da regressão padronizada (αk ) são números puros, i.e., sem unidades
de medida.
• Os coeficentes de regressão tradicionais são obtidos multiplicando os coeficientes
da regressão padronizada pela razão dos desvios padrão da variável resposta (sY ) e
da respectiva variável preditora (sk ), resultando em coeficientes com a magnitude
compatível com a variável preditora e a unidade de medida apropriada.
• Note também que o termo de erro εi é transformado:
√ εi εi
εi = sY n − 1 ηi ⇒ ηi = √ = qP
sY n − 1 (yi − y)2
σ2
Var{εi } = σ 2 ⇒ Var{ηi } = P
(yi − y)2
8-218
R EGRESSÃO PADRONIZADA 8.2. REGRESSÃO PADRONIZADA
• A matrix de delineamento é
w11 w12 · · · w1p
w21 w22 · · · w2p
W=
.. .. ... ..
. . .
wn1 wn2 · · · wnp
e, portanto, a matrix simétrica W0 W tem o formato
P 2 P P
wi1 w w ··· w w
P P i1 2 i2 P i1 ip
wi2 wi1 wi2 ··· wi2 wip
W0 W =
... .. ... .. .
. .
P P P
wip wi1 wip wi2 ··· wip wip
= rkl
8-219
R EGRESSÃO PADRONIZADA 8.2. REGRESSÃO PADRONIZADA
= ryk .
8-220
R EGRESSÃO PADRONIZADA 8.2. REGRESSÃO PADRONIZADA
Var{α}
b = Var{R−1 0
xx W z}
= R−1 0
xx W [Var{z}] W Rxx
−1
· ¸
1
= R−1
xx W
0
I W R−1
xx
n−1
1
= R−1 W0 W R−1
n − 1 xx xx
1
= R−1 .
n − 1 xx
b ∼ N (α, [1/(n − 1)]R−1
Logo: α xx ).
8-221
R EGRESSÃO PADRONIZADA 8.3. ANÁLISE DE CAMINHAMENTO
Lembrando que a SQM é definida matricialmente por [y0 X(X0 X)−1 X0 y], o
coeficiente de determinação pode ser obtido pela expressão
R2 = z0 W [R−1
xx ] W z
0
0
= ryx [R−1
xx ] ryx .
SQRZ = 1 − R2 .
Rxx α = ryx
1 r12 · · · r1p α1 ry1
r21 1 ··· r2p
α2
ry2
. .. .. = ..
. .. . . .
. . . . . .
rp1 rp2 · · · 1 αp ryp
8-222
R EGRESSÃO PADRONIZADA 8.3. ANÁLISE DE CAMINHAMENTO
X1
α1
r12
r13
α2 X2
r23 r1p
α3
Y X3
r2p
. . .
αε αp r3 p
ε Xp
Figura 8.1: Esquema causal para regressão padronizada, assumindo p variáveis preditoras.
8-223
R EGRESSÃO PADRONIZADA 8.3. ANÁLISE DE CAMINHAMENTO
• Por fim, é necessário considerar que nem todo comportamento da variável resposta
é explicado pelo esquema causal, existindo causas desconhecidos sobre o efeito
estudado.
No esquema da figura 8.1, as causas desconhecidas são designadas pelo termo ε, e a
influência dessas causas pelo coeficiente αε .
Como no modelo linear múltiplo, a variação não esplicada pelo é dada pela soma de
quadrados do resíduo, podemos estimar esse coeficiente por
q √
b ε = SQRZ = 1 − R2 .
α
• Sendo uma regressão padronizada esses coeficientes representam o efeito direto das
variáveis preditoras sobre a variável resposta.
• Para completarmos o equema causal (figura 8.1) necessitamos da matrix de
correlações:
• O esquema causal da figura 8.1 pode ser traduzido diretamente num sistema de
equações (Equações Normais) utilizando-se a matrix de correlação:
−0.8074 = α1 + −0.7935α2 + −0.6463α3
0.9042 = −0.7935α1 + α2 + 0.7860α3
0.9351 = −0.6463α1 + 0.7860α2 + α3
8-224
R EGRESSÃO PADRONIZADA 8.3. ANÁLISE DE CAMINHAMENTO
com solução
α
c1 −0.20773
α
c2 = 0.28770 .
α
c3 0.57465
√
α
bε = 1 − R2 = 0.1865
1/IDADE
−0,2077
−0,7935
0,2877
log(PRODUCAO) SITIO −0,6464
0,7860
0,1865
0,5746
AREA BASAL
ε
8-225
R EGRESSÃO PADRONIZADA 8.3. ANÁLISE DE CAMINHAMENTO
1/IDADE
α1
−0,6463
α3
log(PRODUCAO) AREA BASAL −0,7935
αε 0,7860
α2
SITIO
ε
• Nesse esquema alternativa a área basal é efeito de sítio e idade que são, em última
análise, as causas.
• Esse esquema não segue mais a estrutura da regressão padronizada, mas o que é
geralmente chamado de Análise de Caminhamento.
8-226
R EGRESSÃO PADRONIZADA 8.3. ANÁLISE DE CAMINHAMENTO
• Se o sistema for coerente, a solução matricial será obtida da mesma forma que na
regressão padronizada:
−0.8074 1.0000 −0.8074 −0.022609 α1
0.9042 = −0.8074 1.0000
1.298840 α2
0.9351 0 0 1.0000 α3
α
c1 −2.978499
α
c
2 = −2.715185
α
c3 0.935100
• Note que nesse esquema causal a influência direta do sítio (α2 ) se torna negativa.
−1
h i1.0000 −0.8074 −0.022609 −0.8074
R2 = −0.8074 0.9042 0.9351 −0.8074 1.0000 1.298840
0.9042
0 0 1.0000 0.9351
R2 = 0.8241815
√
α
bε = 1 − 0.8241815 = 0.1758185
• Note que o esquema casual alternativo tem um poder explicativo inferior à regressão
padronizada.
8-227
C APÍTULO 9
VARIÁVEIS P REDITORAS Q UALITATIVAS
• Até agora vimos modelos de regressão onde as variáveis preditoras são todas
quantitativas
9-228
VARIÁVEIS Q UALITATIVAS 9.1. UMA VARIÁVEL PREDITORA QUALITATIVA
9-229
VARIÁVEIS Q UALITATIVAS 9.1. UMA VARIÁVEL PREDITORA QUALITATIVA
Portanto
• A redução pela metade da cobertura do cipó resultam num aumento mais que
proporcional no crescimento.
H0 : β1 = β0 contra Hα : β1 > β0
H0 : β2 = 2β1 contra Hα : β2 > 2β1
9-230
VARIÁVEIS Q UALITATIVAS 9.2. MODELOS COM EFEITOS DE INTERAÇÃO
Portanto, a rotação interagindo com a altura das dominantes influencia não somente
o intercepto mas também a inclinação da curva de regressão:
1a¯ rotação: E {Y } = β0 + β1 X
2a¯ rotação: E {Y } = (β0 + β2 ) + (β1 + β3 )X
9-231
VARIÁVEIS Q UALITATIVAS
9.4. COMPARAÇÃO DE DUAS OU MAIS FUNÇÕES DE REGRESSÃO
Classe x1
Baixo impacto 1
Médio impacto 2
Alto impacto 3
9-232
VARIÁVEIS Q UALITATIVAS 9.5. CONSIDERAÇÕES FINAIS
Classe E {Y }
Baixo impacto β0 + β1 (1) = β0 + β1
Médio impacto β0 + β1 (2) = β0 + 2β1
Alto impacto β0 + β1 (3) = β0 + 3β1
Classe x1 x2
Baixo impacto 0 0
Médio impacto 1 0
Alto impacto 0 1
temos o modelo
yi = β0 + β1 xi1 + β2 xi2 + εi
onde β1 mede
E {Y | médio impacto } − E {Y | baixo impacto }
enquanto que β2 mede
E {Y | alto impacto } − E {Y | baixo impacto }
9-233
VARIÁVEIS Q UALITATIVAS 9.5. CONSIDERAÇÕES FINAIS
yi = β0 + β1 xi + β2 I + εi
9-234
C APÍTULO 10
D IAGNÓSTICO E M ULTICOLINEARIDADE
4. existência de multicolinearidade.
10-235
D IAGNÓSTICO E M ULTICOLINEARIDADE 10.2. OBSERVAÇÕES DISCREPANTES
Figura 10.1: Exemplo de gráfico de regressão parcial quando a variável xk acrescenta poder
explicativo ao modelo.
10-236
D IAGNÓSTICO E M ULTICOLINEARIDADE 10.3. OBSERVAÇÕES INFLUENTES
3
Y 1
2
4
Y 5
X X
Figura 10.2: exemplo de gráfico de regressão mostrando observações discrepantes (nume-
radas de 1 a 5) segundo diferentes critérios.
• Quanto temos duas ou mais variáveis preditoras torna-se difíficil detectar variáveis
discrepantes utilizando apenas gráficos.
e = y−y
b
10-237
D IAGNÓSTICO E M ULTICOLINEARIDADE 10.3. OBSERVAÇÕES INFLUENTES
= y − Xb
= y − X[X0 X]−1 X0 y
= y − Py
= [I − P]y
Var{e} = σ 2 [I − P]
Var{ei } = σ 2 [1 − Pii ]
– é um valor entre 0 e 1.
Como P é uma matrix idempotente de posto p + 1 temos que
X
Pii = p + 1, portanto, 0 ≤ Pii ≤ 1.
• O alavancamento Pii pode ser considerado como uma medida da distância da iésima
¯
observação do valor médio das n observações de Xi .
– a iésima
¯ observação é influente;
– esta observação exerce considerável influência (alavancamento = leverage) na
determinação do valor esperado ybi .
10-238
D IAGNÓSTICO E M ULTICOLINEARIDADE 10.3. OBSERVAÇÕES INFLUENTES
X2
Alavancamento ALTO
x2
Alavancamento BAIXO
x1 X1
Figura 10.3: Exemplo de “alavancamento” de observações indivdiduais num modelo com
duas variáveis preditoras.
1. Os valores esperados são yb = Py, ou seja, cada ybi é uma combinação linear
dos valores observados yi .
Os Pii são os pesos na determinação dos valores esperados.
Conclusão: quanto maior Pii , mais influente é a observação i.
2. Como Var{ei } = σ 2 (1 − Pii ), temos que quanto maior Pii , tanto menor
Var{ei } e, conseqüentemente, mais próximo o valor ajustado (ybi ) estará do
valor observado (yi ).
10-239
D IAGNÓSTICO E M ULTICOLINEARIDADE 10.4. DISCREPÂNCIA EM Y
isto é, se
µ ¶
p+1
Pii > 2 ,
n
então Pii é grande.
2. Existe um grande “salto” entre a magnitude da maioria dos Pii e a magnitude de
alguns poucos Pii ?
Assim, temos
ei
q ∼ t(n − p)
d {e }
Var i
10-240
D IAGNÓSTICO E M ULTICOLINEARIDADE 10.5. INFLUÊNCIA EM Y
• Note que:
– se a observação não é influente não haverá muita diferença entre ei e di , ou
entre ei e d∗i .
– se a observação for muito influente haverá uma grande mudança de ei para e∗i
ou d∗i .
10-241
D IAGNÓSTICO E M ULTICOLINEARIDADE 10.5. INFLUÊNCIA EM Y
Y Z
com Z
sem Z
X
Figura 10.4: Exemplo de gráfico de regressão com observação influente, cuja influência
pode ser detectado através do resíduo deletado.
10-242
D IAGNÓSTICO E M ULTICOLINEARIDADE 10.5. INFLUÊNCIA EM Y
onde
(b − β)0 X0 X(b − β)
F (p, n − p) =
p · QM R
onde b(i) é o vetor das estimativas dos coeficientes de regressão quando a iésima
¯
observação é cancelada.
Di não segue a distribuição F , mas
10-243
D IAGNÓSTICO E M ULTICOLINEARIDADE 10.6. MEDIDAS REMEDIADORAS
10-244
D IAGNÓSTICO E M ULTICOLINEARIDADE 10.7. MULTICOLINEARIDADE
10.7 Multicolinearidade
Multicolinearidade = correlação entre as variáveis preditoras.
1. As estimativas dos parâmetros para uma dada variável não dependem de quais
outras variáveis estão no modelo.
2. A soma de quadrados extra para qualquer variável preditora é igual a SQM
para a regressão linear simples com esta variável.
Efeitos da Multicolinearidade :
10-245
D IAGNÓSTICO E M ULTICOLINEARIDADE 10.7. MULTICOLINEARIDADE
• uma variável preditora pode ser função de duas ou mais outras variáveis
preditoras,
• correlações triplas, quádruplas, etc.
Var{b0 } = (σ 0 )2 R−1
xx
onde:
• R−1
xx é a matrix de correlação entre as variáveis preditoras.
Note que:
h i
Var{bk0 } = (σ 0 )2 R−1
xx kk
10-246
D IAGNÓSTICO E M ULTICOLINEARIDADE 10.7. MULTICOLINEARIDADE
• VIFk ≥ 1
• À medida que a relação entre Xk e as demais variáveis preditoras X tende à
perfeição
⇒ Rk2 → 1
⇒ VIFk → ∞
⇒ Var{b0k } → ∞
Regra prática: Se VIF > 10, então existe clara indicação de que a multicolinearidade
está influenciando a precisão das estimativas de quadrados mínimos.
O valor médio dos VIF também é importante.
10-247
C APÍTULO 11
S ELEÇÃO DE VARIÁVEIS E M ODELOS
4. Validação do modelo.
11-248
S ELEÇÃO DE VARIÁVEIS E M ODELOS 11.2. “TODAS-REGRESSÕES-POSSÍVEIS”
11.2 “Todas-Regressões-Possíveis”
Objetivo: identificar um subconjunto pequeno de modelos alternativos (em geral 5 a 10).
Criétrios: vários critérios podem ser utilizados para comparar os modelos e gerar o
melhor subconjunto:
• Cp de Mallow (Cp ),
11-249
S ELEÇÃO DE VARIÁVEIS E M ODELOS 11.2. “TODAS-REGRESSÕES-POSSÍVEIS”
Notação:
• CRITÉRIO (k) = valor do critério para o modelo com k variáveis preditoras, i.e.,
estima k + 1 parâmetros (inclue o intercepto).
• 0≤k≤p
• O objetivo é encontrar o ponto onde o acréscimo de mais uma variável não resulta
num aumento substancial de R2 .
• Neste critério, observa-se quão rapidamente QM R(k) ou Rα2 são reduzidos com
aumento de variáveis preditoras.
11-250
S ELEÇÃO DE VARIÁVEIS E M ODELOS 11.2. “TODAS-REGRESSÕES-POSSÍVEIS”
• Note que o QM R pode aumentar à medida que k cresce, caso a redução na soma
de quadrados do resíduo não compense a redução nos graus de liberdade:
SQR
QM R =
n−k+1
11.2.3 Critério Cp
• Considere que o com p variáveis preditoras potenciais (modelo completo com p + 1
parâmetros) foi cuidadosamente escolhido de modo que
QM R(X1 , . . . , Xk )
• Então
SQR(k)
Cp (k) = − (n − 2(k + 1))
QM R(X1 , . . . , Xk )
deve ser igual a k + 1 se o modelo com k variáveis preditoras não possuir nenhum
viés.
• Note que se
então
SQR(k)
E {Cp (k)} = − (n − 2(k + 1))
QM R(X1 , . . . , Xk )
(n − k − 1)σ 2
= − (n − 2(k + 1))
σ2
= n − k − 1 − n + 2k + 2
= k + 1 (número de parâmetros).
11-251
S ELEÇÃO DE VARIÁVEIS E M ODELOS 11.2. “TODAS-REGRESSÕES-POSSÍVEIS”
Logo:
SQR(k)
Cp (k) = − (n − 2(k + 1))
QM R(X1 , . . . , Xk )
1. Cp ≈ k + 1,
2. Cp pequeno (Princípio da Parsimônia).
11-252
S ELEÇÃO DE VARIÁVEIS E M ODELOS
11.3. REGRESSÃO PASSO-A-PASSO (“STEPWISE”)
11-253
S ELEÇÃO DE VARIÁVEIS E M ODELOS
11.3. REGRESSÃO PASSO-A-PASSO (“STEPWISE”)
(4) Se ambas Xa e Xb são mantidas no modelo, repete-se o passo (2) para uma terceira
variável.
Sempre seguindo a regra:
• inclui a variável de fora do modelo com o maior Fk∗ (se maior que o limite
Fentra );
• exclui a variável de dentro do modelo com o menor Fk∗ (se menor que o limite
Fsai ).
(5) Segue-se os passos (2) a (4) até que nenhuma inclusão/exclusão possa ocorrer.
O modelo resultante é o modelo “passo-a-passo”.
11-254
S ELEÇÃO DE VARIÁVEIS E M ODELOS 11.4. VALIDAÇÃO DE MODELOS
11-255