Escolar Documentos
Profissional Documentos
Cultura Documentos
Analise de Dados Modelo Linear
Analise de Dados Modelo Linear
2 de novembro de 2014
Introdu
c
ao
2.1
Sele
c
ao
Uma primeira inspec
ao dos dados
2
1.6
1.8
2.0
x2
1.0
1.2
1.4
1.6
1.8
2.0
50
30
20
60
40
1.0
1.2
1.4
x1
20
30
40
50
60
2.2
Modelo
Modelo: Regress
ao Linear Simples
Yi = 0 + 1 Xi1 + 2 Xi2 + ei
para i = 1, ..., 90, onde:
Yi : variavel resposta na i-esima observacao
Xi1 : variavel explicativa discreta na i-esima observacao tomando apenas valores em 1 e 2
Xi2 : variavel explicativa continua na i-esima observacao
= (0 , 1 , 2 ) : coeficientes de regress
ao
ei : erro da i-esima observac
ao
n = 90 : N
umero de observac
oes (tamanho da amostra)
Sera suposto que:
(a) ei N (0, 2 ) i, consequentemente e N (0, 2 I) e y N (X, 2 I)
(b) o modelo assumido e aditivo pois n
ao sera incluida a interacao entre X1 e X2 .
Estima
c
ao
Estimativa
Erro padrao
valor t
pvalor
Sig
0
1
2
15.8926
17.8132
5.3904
1.7063
0.6378
0.3188
9.314
29.927
16.909
1.02 1016
2 1016
2 1016
***
***
***
Crtica
Ajuste do modelo
factvel analisar o ajuste do modelo aos dados atraves do coeficiente de determinacao (R2 ) e o
E
2 ). Para obt
coeficiente de determinac
ao ajustado (Raj
e-los sao precisas as somas de quadrados:
SQT otal = 10174, SQResidual = 777 e SQRegr = 9397. Entao:
R2 = 1
777
SQResidual
=1
= 0.9236
SQT otal
10174
2
Raj
=1
SQResidual
np
SQT otal
n1
=1
777
903
10174
901
= 0.9219
Sample Quantiles
0
1
Sample Quantiles
Theoretical Quantiles
Theoretical Quantiles
0.4
0.2
0.0
0.2
ACF
0.6
0.8
1.0
10
15
Lag
Figura 3: Func
ao de autocorrelacao dos residuos Studentizados
Teste de Box-Pierce: Este teste nao contradiz `a funcao de autocorrelacao pois nao acha
nenhuma autocorrelac
ao (pvalor = 0.4787).
Teste de Durbin Watson: N
ao obtemos evidencia de que haja correlacao serial pois o pvalor
para a hip
otese nula (autocorrelacao = 0) e 0.1968 e ela pode ser aceita.
4
40
2
0
2
50
Fitted values
Theoretical Quantiles
ScaleLocation
Residuals vs Leverage
20
30
40
50
29 20
50
22
85
85
Cook's distance
30
22
50
85
Standardized residuals
22
50
20
Standardized residuals
Normal QQ
Standardized residuals
0
10
Residuals
Residuals vs Fitted
85
0.00
Fitted values
0.04
0.5
0.08
Leverage
Figura 5: Gr
aficos para o diagnostico do modelo
Em sntese, foram detectados dois problemas no modelo proposto para o conjunto de dados:
1. Heteroscedasticidade dos erros
2. Efeitos nao aditivos
Sera apresentada uma revis
ao do modelo a fim de resolver os problemas supracitados, assim:
Sera incluido o termo de interac
ao entre as covariaveis X1 e X2
Sera construida uma matriz de pesos W, diagonal, dando peso aprox. 0 `as observacoes cujos
residuais studentizados s
ao maiores que 2 (85, 50, 22, 36, 51, 23, 26).
4.1
Revis
ao do modelo
o
Selec
a
A modelagem ser
a feita com as mesmas covariaveis mas sera incluido o termo da interacao X1 X2 .
Alem disso, agora ser
a suposto que ei N (0, 2 wi ), por tanto e N (0, 2 W)
Yi = 0 + 1 Xi1 + 2 Xi2 + 12 Xi1 Xi2 + ei
para i = 1, ..., 90
o
Estimac
a
Coeficientes
Estimativa
Erro padrao
valor t
pvalor
Sig
0
1
2
12
6.8518
3.9233
0.0846
3.3968
2.1095
1.2670
0.4943
0.2964
3.248
3.096
0.171
11.46
0.00166
0.00264
0.86446
2 1016
**
**
***
11
20
30
40
56
50
1 2
60
Normal QQ
Standardized residuals
0
4 2
Residuals
Residuals vs Fitted
60
60
56
11
20
30
40
50
60
0 1 2
11
60
Residuals vs Leverage
56
Standardized residuals
0.5
1.0
1.5
11
Theoretical Quantiles
ScaleLocation
0.0
Standardized residuals
Fitted values
0.00
Fitted values
20
Cook's
56 distance
0.05
0.10
0.5
0.15
Leverage
Figura 6: Gr
aficos para o diagnostico do modelo 2
0.4
0.2
0.0
0.2
ACF
0.6
0.8
1.0
10
15
Lag
Figura 7: Func
ao de autocorrelacao dos resduos Studentizados do modelo 2
Os residuais n
ao apresentan correlacao serial segundo a Figura 7 e o teste de Box-Pierce pois os
p-valores obtido para a hip
otese nula de ausencia de autocorrelacao foi 0.9348.
Ao observar as Figuras 6 e 8, os resduos nao apresentam mais os padroes detectados no modelo
inicial, com excepc
ao de 2 observacoes atpicas (provavelmente outliers): 11 e 56.
Infer
encia
Logo que os problemas foram resolvidos, pode-se indicar que nosso modelo esta pronto para fazer
inferencia.
Interpretac
ao dos par
ametros
Modelo parametrico: Yi = 0 + 1 Xi1 + 2 Xi2 + 12 Xi1 Xi2 + ei
Modelo estimado: Ybi = 0 + 1 Xi1 + 2 Xi2 + 12 Xi1 Xi2
0 = 6.8518 : Quando as vari
aveis X1 e X2 tomam o valor 0 (zero), a media da variavel resposta
Y e 6.85 unidades.
a inclinac
1 = 3.9233 : E
ao de X1 quando X2 = 0, isto e, o aumento de uma unidade na vari
avel
X1 leva ao aumento de 3.9233 unidades na media da variavel resposta quando X2 = 0. Em geral,
1 + 12 X2 e a inclinac
ao de X1 (variacao media na variavel resposta) para X2 constante.
a inclinac
2 = 0.0846 : E
ao de X2 quando X1 = 0, isto e, o aumento de uma unidade na
variavel X2 leva `
a diminuic
ao de 0.0846 unidades na media da variavel resposta quando X1 = 0,
porem segundo os dados e duvidoso afirmar que X1 toma o valor zero. Entao, em geral, 2 +12 X1
e a inclinac
ao de X2 para X1 constante, mas ja que sabemos que X1 toma os valores 1 e 2, temos:
(a) Quando X1 = 1, a variac
ao media na variavel resposta e 0.0846+3.3968 = 3.2834 unidades,
e (b) Quando X1 = 2 essa variac
ao e 0.0846 + 2 3.968 = 6.6514 unidades, ou seja a vari
avel
X2 tem um maior efeito positivo (aumento) sobre a media da variavel resposta quando X1 = 2, o
qual pode ser observado na Figura 9. Porem, tem-se que conferir, atraves dos testes de hipotese,
se o efeito e significativo.
Relao entre Y e X2
40
17 71
39
74
79
82
45
34
23 61 24
63
64
83
46
38
18
21
3310
616
30
25
11
445437
6853
15 70
31
19
42 965
67
50
3
36
26
77 62
30
50
60
20
85
66
20
47
29
4 32
87
80 56
35
89
84 12
28
72
57
28675 49
14
76
90
78
73
2752
58
41
8
55
7
48 59
69
51
43
22
60
3
88
13
1
81
40
x2
Testes de Hip
otesis
As questoes de interesse s
ao: X1 contribui significativamente ao modelo? X2 contribui tambem?
E a interac
ao?
Para X1 :
H0 : 1 = 0
H1 : 1 6= 0
pvalor = 0.00264
Com un nvel de significancia de 0.01 e possvel afirmar que a variavel X1 contribui de maneira
significativa ao modelo.
Para X2 :
H0 : 2 = 0
H1 : 2 6= 0
pvalor = 0.86446
Com un nvel de significancia de 0.01 nao e possvel afirmar que a variavel X2 contribui de
maneira significativa ao modelo. Entao, nao contribui independentemente de X1 mas est
a
faltando verificar se contribui quando interage com X1 .
A seguir, um gr
afico da regi
ao de 99% de confianca (elipse) dos coeficientes da variavel X1 e X2 :
0.0
1.5
1.0
0.5
0.5
1.0
1.5
10
Para a interac
ao:
H0 : 12 = 0
H1 : 12 6= 0
pvalor = 2 1016
Com un nvel de significancia de 0.01 e possvel afirmar que a interacao das variaveis aleat
orias
X1 e X2 contribui de maneira significativa ao modelo. Entao, foi demonstrado que X2 n
ao
contribui independentemente de X1 mas sim quando interage com X1 .
Mais uma quest
ao de interesse poderia ser: A variancia da variavel resposta e maior que 2.5?
2
H0 : 2.5
H1 : 2 > 2.5
2
O estatstico neste caso e: (np)S
| 2 2(np) , sendo Se = (n p)s2 .
2
Entao: 2calc = 157.944
= 62.976 286
2.5
Logo, p valor = P (286 > 62.976) = 0.97
Assim, com un nvel de significancia de 0.01 nao e possvel afirmar que a variancia da vari
avel
resposta e maior que 2.5
Previsao
A modelagem foi feita com 90% dos dados e reservou-se o 10% restante para realizar previs
oes
pontuales e por intervalo. Segundo a Figura 10, nove dos dez valores reais ficam dentro dos
intervalos de previs
ao de 99%.
Valor Real
19.1468
44.0627
41.9382
28.6067
50.0013
26.4387
29.7656
19.3516
21.1281
31.2299
Previs
ao
Lim. inferior
Lim. superior
19.0357
15.2815
22.7899
44.5378
40.9281
48.1474
40.4001
36.7895
44.0108
29.6746
25.941
33.4073
46.64071
43.0216
50.2598
27.5286
23.8666
31.1906
29.0029
25.2913
32.7145
20.86161
17.1812
24.5420
26.1796
21.5570
28.8022
32.1654
28.2866
36.0442
50
Previses
20
30
40
previso pontual
previso por intervalo (99%)
valor real
Index
11
10