Analise de Dados Modelo Linear

Universidade Federal do Rio de Janeiro
Modelos Lineares Generalizados

Modelo Linear General: An
alise de dados
Jes
us Eduardo Gamboa U
Professor: Dani Gamerman
2 de novembro de 2014
Introdu
c
ao
Nesta analise e apresentada a modelagem de um conjunto de dados simulados seguindo o enfoque

classico. Assim, o proceso a seguir e:
Selec
ao Estimacao Crtica Inferencia
Isto e, no inicio (na fase de sele
c
ao) sera apresentado o modelo: sua abordagem, caractersticas
e pressupostos. Uma vez estabelecido o modelo, vao ser obtidos os estimadores de maxima
verossimilhanca dos par
ametros de interesse, porem sera preciso verificar se o modelo cumple com
as suposicoes propostas na fase de selec
ao: se nao for assim, serao aplicadas medidas corretivas afim
de obter um modelo concorde com os seus pressupostos, uma vez feito isso (se foi necessario), o
u
ltimo passo e fazer infer
encia, ou seja interpretar os resultados obtidos, testar hipoteses ou construir
intervalos de confianca, e fazer previs
oes.
2.1
Sele
c
ao
Uma primeira inspec
ao dos dados
2
1.6
1.8
2.0
x2
1.0
1.2
1.4
1.6
1.8
2.0
50
30
20
60
40
1.0
1.2
1.4
x1
20
30
40
50
60
Figura 1: Relacao entre as variaveis do modelo

Os graficos parecem indicar uma relac
ao positiva entre a variavel resposta e cada uma das covari
aveis,
mas este fato ser
a confirmado na fase de inferencia. Alem disso tem-se que analisar a relacao entre
as covariaveis: se elas estivessem muito relacionadas e mesmo assim sao incluidas na modelagem, o
modelo tera o problema de colinearidade. Parece que tal relacao nao existe pois nao e observado
nenhum padrao entre estas vari
aveis X1 e X2 , alias a correlacao entre estas variaveis e apenas 0.046.
Entao vai ser considerado que n
ao est
a presente o problema de colinearidade.
2.2
Modelo
Modelo: Regress
ao Linear Simples
Yi = 0 + 1 Xi1 + 2 Xi2 + ei
para i = 1, ..., 90, onde:
Yi : variavel resposta na i-esima observacao
Xi1 : variavel explicativa discreta na i-esima observacao tomando apenas valores em 1 e 2
Xi2 : variavel explicativa continua na i-esima observacao
= (0 , 1 , 2 ) : coeficientes de regress
ao
ei : erro da i-esima observac
ao
n = 90 : N
umero de observac
oes (tamanho da amostra)
Sera suposto que:
(a) ei N (0, 2 ) i, consequentemente e N (0, 2 I) e y N (X, 2 I)
(b) o modelo assumido e aditivo pois n
ao sera incluida a interacao entre X1 e X2 .
Estima
c
ao
Sob a suposicao de normalidade e possvel obter os estimadores de maxima verossimilhanca (e ainda

nao viciados) dos coeficientes de regress
ao, os quais sao:
Coeficientes
Estimativa
Erro padrao
valor t
pvalor
Sig
0
1
2
15.8926
17.8132
5.3904
1.7063
0.6378
0.3188
9.314
29.927
16.909
1.02 1016
2 1016
2 1016
***
***
***
Tabela 1: Estimativas no modelo de regressao linear multipla inicial

Alem disso, e obtido o estimador n
ao viciado para a variancia:
2 = 2.9882 = 8.93
Crtica
Ajuste do modelo
factvel analisar o ajuste do modelo aos dados atraves do coeficiente de determinacao (R2 ) e o
E
2 ). Para obt
coeficiente de determinac
ao ajustado (Raj
e-los sao precisas as somas de quadrados:
SQT otal = 10174, SQResidual = 777 e SQRegr = 9397. Entao:
R2 = 1
777
SQResidual
=1
= 0.9236
SQT otal
10174
2
Raj
=1
SQResidual
np
SQT otal
n1
=1
777
903
10174
901
= 0.9219
A desvantagem do coeficiente de determinacao e a sua tendencia para crescer quando o n

umero
de variaveis aumenta, e e ai que o coeficiente de determinacao ajustado tem o papel de diminuir
essa tendencia. Porem, para esta an
alise de dados, ja que tem-se apenas 2 covariaveis, os valores
2
2
de R e Raj s
ao quase os mesmos, e o ajuste do modelo aos dados continua sendo muito bom
pois o valor do coeficiente de determinacao fica proximo de 1.
Verificacao do pressuposto de normalidade dos erros
Nao e possvel analisar propriamente os erros mas pode-se trabalhar com os residuais (erros
estimados), assim devem-se obter qqplots para os residuais padronizados (segundo uma
distribuica
o normal mas com vari
ancia desconhecida) e para os residuais studentizados (segundo
a distribuic
ao t padr
ao).
Na Figura 2, o padr
ao obtido nos dois casos e o mesmo, pois a distribuicao t de Student converge
para a distribuic
ao Normal quando o n
umero de grados de liberade e grande, o qual acontece para
o modelo pois tem n p = 100 3 = 97 grados de liberdade. Assim, os pontos ficam bem perto
da linha reta e entre os valores de 2 e 2, com excecao de 4 pontos na parte inferior e um ponto
na parte superior, na Figura 5 e possvel ver, em detalhe, que 3 desses pontos correspondem as
observacoes 85, 50 e 22, os quais s
ao provavelmente outliers. Daqui para a frente, serao utilizados
este tipo de gr
aficos para analisar o pressuposto de normalidade dos erros pois o qqplot Normal
e uma boa aproximac
ao do qqplot da distribuicao t de Student.
3
qqplot para os residuos studentizados
qqplot para os residuos padronizados
Sample Quantiles
0
1
Sample Quantiles
Theoretical Quantiles
Figura 2: QQplots para os residuos padronizados e Studentizados

Verificacao do pressuposto de independencia dos erros
Sera verificada a ausencia de correlacao serial atraves de:
A func
ao de autocorrelac
ao dos resduos Studentizados: Na Figura 3 nao existe nenhum
lag significativo, indicativo de que nao existe correlacao serial.
0.4
0.2
0.0
0.2
ACF
0.6
0.8
1.0
Funo de autocorrelao para os residuais Studentizados
10
15
Lag
Figura 3: Func
ao de autocorrelacao dos residuos Studentizados
Teste de Box-Pierce: Este teste nao contradiz `a funcao de autocorrelacao pois nao acha
nenhuma autocorrelac
ao (pvalor = 0.4787).
Teste de Durbin Watson: N
ao obtemos evidencia de que haja correlacao serial pois o pvalor
para a hip
otese nula (autocorrelacao = 0) e 0.1968 e ela pode ser aceita.
4
Verificacao do pressuposto de homoscedasticidade

Na Figura 4 aparecem os gr
aficos dos residuais Studentizados versus as covariaveis e a vari
avel
resposta. Respecto a X1 observa-se um padrao de maior variabilidade na medida que o valor
de X1 aumenta; respecto a X2 n
ao e possvel determinar um padrao especfico mas respecto
a Y existe um padr
ao em forma de funil. Estas evidencias indicam que os erros nao sao
homosced
asticos, isto e a sua vari
ancia nao e constante. Note-se que as observacoes 85, 50 e 22
aparecem mais uma vez como possveis outliers.
Figura 4: Comportamento dos residuos Studentizados versus as variaveis do modelo

Verificacao do pressuposto de aditividade dos efeitos
Ja que os resduos apresentam tendencia com a variavel X1 e possvel que os efeitos aditivos
nao tinham sido suficientes para a modelagem. Ademais, na parte superior esquerda da Figura
5 e apresentado o gr
afico de residuais versus valores ajustados, no qual os pontos nao est
ao
distribuidos aleatoriamente sobre a linha horizontal, bem pelo contrario apresenta um padr
ao
em forma de V, e mais um indcio de que o efeito linear aditivo foi suficiente. Uma sugest
ao
pode ser incluir uma interac
ao.
Outliers e Observac
oes influentes
Da Figura 5, na parte inferior direita tem-se que as observacoes 20 e 29 apresentan leverages
um pouco altos e ao mesmo tempo residuais maiores que 2. A observacao 85 nao apresenta
leverage alto mas sim o maior residual. A distancia de Cook nao e maior que 0.5 para nenhuma
observacao, o qual garante em certa medida a ausencia de valores influentes. Porem, tem-se
alguns outliers, por exemplo, as observacoes 85, 50 e 22.
40
2
0
2
50
Fitted values
ScaleLocation
Residuals vs Leverage
20
30
40
50
29 20
50
22
85
85
Cook's distance
0.0 0.5 1.0 1.5 2.0
30
22
50
85
Standardized residuals
22
50
20
Normal QQ
0
10
Residuals
Residuals vs Fitted
85
0.00
Fitted values
0.04
0.5
0.08
Leverage
Figura 5: Gr
aficos para o diagnostico do modelo
Em sntese, foram detectados dois problemas no modelo proposto para o conjunto de dados:
1. Heteroscedasticidade dos erros
2. Efeitos nao aditivos
Sera apresentada uma revis
ao do modelo a fim de resolver os problemas supracitados, assim:
Sera incluido o termo de interac
ao entre as covariaveis X1 e X2
Sera construida uma matriz de pesos W, diagonal, dando peso aprox. 0 `as observacoes cujos
residuais studentizados s
ao maiores que 2 (85, 50, 22, 36, 51, 23, 26).
4.1
Revis
ao do modelo
o
Selec
a
A modelagem ser
a feita com as mesmas covariaveis mas sera incluido o termo da interacao X1 X2 .
Alem disso, agora ser
a suposto que ei N (0, 2 wi ), por tanto e N (0, 2 W)
Yi = 0 + 1 Xi1 + 2 Xi2 + 12 Xi1 Xi2 + ei
para i = 1, ..., 90
o
Estimac
a
Coeficientes
Estimativa
Erro padrao
valor t
pvalor
Sig
0
1
2
12
6.8518
3.9233
0.0846
3.3968
2.1095
1.2670
0.4943
0.2964
3.248
3.096
0.171
11.46
0.00166
0.00264
0.86446
2 1016
**
**
***
Tabela 2: Estimativas no modelo de regressao linear multipla ponderado e com interacao

Alias, e obtido o estimador n
ao viciado para a variancia:
2 = 1.3552 = 1.836, esse valor e o 20% da
variancia estimada no modelo inicial.
Crtica
Para este segundo modelo:
Previsivelmente, o ajuste de modelo continua sendo bom ja que foi adicionado mais um termo
2 = 0.9828 (valores mais altos do que no
regressor. Assim, foram obtidos R2 = 0.9834 e Raj
modelo inicial).
Observando na Figura 6, parece que a normalidade e afeitada pelas observacoes 11 e 56, mas estes
residuais s
ao apenas maiores que 3, ao contrario do modelo inicial, com uma observacao cujo
residual padronizado era aprox. 4. Os dados sao simulados, mas se nao fossem, o pesquisador
deveria verificar se houve algum erro na coleta de dados, se foi assim, e plausvel eliminar esses
valores ou imput
a-los.
11
20
30
40
56
50
1 2

60
Normal QQ
0
4 2
Residuals
Residuals vs Fitted
60
60
56
11
20
30
40
50
60
0 1 2
11
60
Residuals vs Leverage
56
0.5
1.0
1.5
11
ScaleLocation
0.0
Fitted values
0.00
Fitted values
20
Cook's
56 distance
0.05
0.10
0.5
0.15
Leverage
Figura 6: Gr
aficos para o diagnostico do modelo 2
0.4
0.2
0.0
0.2
ACF
0.6
0.8
1.0
Funo de autocorrelao para os residuais Studentizados
10
15
Lag
Figura 7: Func
ao de autocorrelacao dos resduos Studentizados do modelo 2
Os residuais n
ao apresentan correlacao serial segundo a Figura 7 e o teste de Box-Pierce pois os
p-valores obtido para a hip
otese nula de ausencia de autocorrelacao foi 0.9348.
Ao observar as Figuras 6 e 8, os resduos nao apresentam mais os padroes detectados no modelo
inicial, com excepc
ao de 2 observacoes atpicas (provavelmente outliers): 11 e 56.
Figura 8: Comportamento dos residuos Studentizados versus as variaveis do modelo 2

O modelo n
ao e mais aditivo (pois inclui a interacao das covariaveis e ela contribui
significativamente ao modelo) mas e linear ja que os padroes dos residuos com a media da
variavel resposta foram eliminados.
8
Infer
encia
Logo que os problemas foram resolvidos, pode-se indicar que nosso modelo esta pronto para fazer
inferencia.
Interpretac
ao dos par
ametros
Modelo parametrico: Yi = 0 + 1 Xi1 + 2 Xi2 + 12 Xi1 Xi2 + ei
Modelo estimado: Ybi = 0 + 1 Xi1 + 2 Xi2 + 12 Xi1 Xi2
0 = 6.8518 : Quando as vari
aveis X1 e X2 tomam o valor 0 (zero), a media da variavel resposta
Y e 6.85 unidades.
a inclinac
1 = 3.9233 : E
ao de X1 quando X2 = 0, isto e, o aumento de uma unidade na vari
avel
X1 leva ao aumento de 3.9233 unidades na media da variavel resposta quando X2 = 0. Em geral,
1 + 12 X2 e a inclinac
ao de X1 (variacao media na variavel resposta) para X2 constante.
a inclinac
2 = 0.0846 : E
ao de X2 quando X1 = 0, isto e, o aumento de uma unidade na
variavel X2 leva `
a diminuic
ao de 0.0846 unidades na media da variavel resposta quando X1 = 0,
porem segundo os dados e duvidoso afirmar que X1 toma o valor zero. Entao, em geral, 2 +12 X1
e a inclinac
ao de X2 para X1 constante, mas ja que sabemos que X1 toma os valores 1 e 2, temos:
(a) Quando X1 = 1, a variac
ao media na variavel resposta e 0.0846+3.3968 = 3.2834 unidades,
e (b) Quando X1 = 2 essa variac
ao e 0.0846 + 2 3.968 = 6.6514 unidades, ou seja a vari
avel
X2 tem um maior efeito positivo (aumento) sobre a media da variavel resposta quando X1 = 2, o
qual pode ser observado na Figura 9. Porem, tem-se que conferir, atraves dos testes de hipotese,
se o efeito e significativo.
Relao entre Y e X2
40
17 71
39
74
79
82
45
34
23 61 24
63
64
83
46
38
18
21
3310
616
30
25
11
445437
6853
15 70
31
19
42 965
67
50
3
36
26
77 62
30
50
60
20
85
66
20
47
29
4 32
87
80 56
35
89
84 12
28
72
57
28675 49
14
76
90
78
73
2752
58
41
8
55
7
48 59
69
51
43
22
60
3
88
13
1
81
40
x2
Figura 9: Comportamento dos residuos Studentizados versus as variaveis do modelo 2

As observac
oes que ficam na parte inferior (linha azul) correspondem a aquelas com X1 = 1, e
as demais (parte superior com linha vermelha), quando X1 = 2.
9
Testes de Hip
otesis
As questoes de interesse s
ao: X1 contribui significativamente ao modelo? X2 contribui tambem?
E a interac
ao?
Para X1 :
H0 : 1 = 0
H1 : 1 6= 0
pvalor = 0.00264
Com un nvel de significancia de 0.01 e possvel afirmar que a variavel X1 contribui de maneira
significativa ao modelo.
Para X2 :
H0 : 2 = 0
H1 : 2 6= 0
pvalor = 0.86446
Com un nvel de significancia de 0.01 nao e possvel afirmar que a variavel X2 contribui de
maneira significativa ao modelo. Entao, nao contribui independentemente de X1 mas est
a
faltando verificar se contribui quando interage com X1 .
A seguir, um gr
afico da regi
ao de 99% de confianca (elipse) dos coeficientes da variavel X1 e X2 :
0.0
1.5
1.0
0.5
0.5
1.0
1.5
Regio de confiana para os coeficientes de X1 e X2
Figura 10: Regiao de confianca para 1 e 2

O ponto (0, 0) n
ao est
a includo na elipse, marginalmente o ponto 0 nao pertence ao intervalo
para 1 mas sim para 2 .
10
Para a interac
ao:
H0 : 12 = 0
H1 : 12 6= 0
pvalor = 2 1016
Com un nvel de significancia de 0.01 e possvel afirmar que a interacao das variaveis aleat
orias
X1 e X2 contribui de maneira significativa ao modelo. Entao, foi demonstrado que X2 n
ao
contribui independentemente de X1 mas sim quando interage com X1 .
Mais uma quest
ao de interesse poderia ser: A variancia da variavel resposta e maior que 2.5?
2
H0 : 2.5
H1 : 2 > 2.5
2
O estatstico neste caso e: (np)S
| 2 2(np) , sendo Se = (n p)s2 .
2
Entao: 2calc = 157.944
= 62.976 286
2.5
Logo, p valor = P (286 > 62.976) = 0.97
Assim, com un nvel de significancia de 0.01 nao e possvel afirmar que a variancia da vari
avel
resposta e maior que 2.5
Previsao
A modelagem foi feita com 90% dos dados e reservou-se o 10% restante para realizar previs
oes
pontuales e por intervalo. Segundo a Figura 10, nove dos dez valores reais ficam dentro dos
intervalos de previs
ao de 99%.
Valor Real
19.1468
44.0627
41.9382
28.6067
50.0013
26.4387
29.7656
19.3516
21.1281
31.2299
Previs
ao
Lim. inferior
Lim. superior
19.0357
15.2815
22.7899
44.5378
40.9281
48.1474
40.4001
36.7895
44.0108
29.6746
25.941
33.4073
46.64071
43.0216
50.2598
27.5286
23.8666
31.1906
29.0029
25.2913
32.7145
20.86161
17.1812
24.5420
26.1796
21.5570
28.8022
32.1654
28.2866
36.0442
Tabela 3: Tabela de previsoes
50
Previses
20
30
40
previso pontual
previso por intervalo (99%)
valor real
Index
Figura 11: Previsoes versus valores reais
11
10

Analise de Dados Modelo Linear

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Analise de Dados Modelo Linear

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade Federal do Rio de Janeiro

Modelos Lineares Generalizados

Nesta analise e apresentada a modelagem de um conjunto de dados simulados seguindo o enfoque

Figura 1: Relacao entre as variaveis do modelo

Sob a suposicao de normalidade e possvel obter os estimadores de maxima verossimilhanca (e ainda

Tabela 1: Estimativas no modelo de regressao linear multipla inicial

A desvantagem do coeficiente de determinacao e a sua tendencia para crescer quando o n

qqplot para os residuos studentizados

qqplot para os residuos padronizados

Figura 2: QQplots para os residuos padronizados e Studentizados

Funo de autocorrelao para os residuais Studentizados

Verificacao do pressuposto de homoscedasticidade

Figura 4: Comportamento dos residuos Studentizados versus as variaveis do modelo

0.0 0.5 1.0 1.5 2.0

Tabela 2: Estimativas no modelo de regressao linear multipla ponderado e com interacao

Funo de autocorrelao para os residuais Studentizados

Figura 8: Comportamento dos residuos Studentizados versus as variaveis do modelo 2

Figura 9: Comportamento dos residuos Studentizados versus as variaveis do modelo 2

Regio de confiana para os coeficientes de X1 e X2

Figura 10: Regiao de confianca para 1 e 2

Tabela 3: Tabela de previsoes

Figura 11: Previsoes versus valores reais

Você também pode gostar