Você está na página 1de 11

Universidade Federal do Rio de Janeiro

Modelos Lineares Generalizados


Modelo Linear General: An
alise de dados
Jes
us Eduardo Gamboa U
Professor: Dani Gamerman

2 de novembro de 2014

Introdu
c
ao

Nesta analise e apresentada a modelagem de um conjunto de dados simulados seguindo o enfoque


classico. Assim, o proceso a seguir e:
Selec
ao Estimacao Crtica Inferencia
Isto e, no inicio (na fase de sele
c
ao) sera apresentado o modelo: sua abordagem, caractersticas
e pressupostos. Uma vez estabelecido o modelo, vao ser obtidos os estimadores de maxima
verossimilhanca dos par
ametros de interesse, porem sera preciso verificar se o modelo cumple com
as suposicoes propostas na fase de selec
ao: se nao for assim, serao aplicadas medidas corretivas afim
de obter um modelo concorde com os seus pressupostos, uma vez feito isso (se foi necessario), o
u
ltimo passo e fazer infer
encia, ou seja interpretar os resultados obtidos, testar hipoteses ou construir
intervalos de confianca, e fazer previs
oes.

2.1

Sele
c
ao
Uma primeira inspec
ao dos dados
2

1.6

1.8

2.0

x2

1.0

1.2

1.4

1.6

1.8

2.0

50

30

20

60

40

1.0

1.2

1.4

x1

20

30

40

50

60

Figura 1: Relacao entre as variaveis do modelo


Os graficos parecem indicar uma relac
ao positiva entre a variavel resposta e cada uma das covari
aveis,
mas este fato ser
a confirmado na fase de inferencia. Alem disso tem-se que analisar a relacao entre
as covariaveis: se elas estivessem muito relacionadas e mesmo assim sao incluidas na modelagem, o
modelo tera o problema de colinearidade. Parece que tal relacao nao existe pois nao e observado
nenhum padrao entre estas vari
aveis X1 e X2 , alias a correlacao entre estas variaveis e apenas 0.046.
Entao vai ser considerado que n
ao est
a presente o problema de colinearidade.

2.2

Modelo

Modelo: Regress
ao Linear Simples
Yi = 0 + 1 Xi1 + 2 Xi2 + ei
para i = 1, ..., 90, onde:
Yi : variavel resposta na i-esima observacao
Xi1 : variavel explicativa discreta na i-esima observacao tomando apenas valores em 1 e 2
Xi2 : variavel explicativa continua na i-esima observacao
= (0 , 1 , 2 ) : coeficientes de regress
ao
ei : erro da i-esima observac
ao
n = 90 : N
umero de observac
oes (tamanho da amostra)
Sera suposto que:
(a) ei N (0, 2 ) i, consequentemente e N (0, 2 I) e y N (X, 2 I)
(b) o modelo assumido e aditivo pois n
ao sera incluida a interacao entre X1 e X2 .

Estima
c
ao

Sob a suposicao de normalidade e possvel obter os estimadores de maxima verossimilhanca (e ainda


nao viciados) dos coeficientes de regress
ao, os quais sao:
Coeficientes

Estimativa

Erro padrao

valor t

pvalor

Sig

0
1
2

15.8926
17.8132
5.3904

1.7063
0.6378
0.3188

9.314
29.927
16.909

1.02 1016
2 1016
2 1016

***
***
***

Tabela 1: Estimativas no modelo de regressao linear multipla inicial


Alem disso, e obtido o estimador n
ao viciado para a variancia:
2 = 2.9882 = 8.93

Crtica
Ajuste do modelo
factvel analisar o ajuste do modelo aos dados atraves do coeficiente de determinacao (R2 ) e o
E
2 ). Para obt
coeficiente de determinac
ao ajustado (Raj
e-los sao precisas as somas de quadrados:
SQT otal = 10174, SQResidual = 777 e SQRegr = 9397. Entao:
R2 = 1

777
SQResidual
=1
= 0.9236
SQT otal
10174

2
Raj
=1

SQResidual
np
SQT otal
n1

=1

777
903
10174
901

= 0.9219

A desvantagem do coeficiente de determinacao e a sua tendencia para crescer quando o n


umero
de variaveis aumenta, e e ai que o coeficiente de determinacao ajustado tem o papel de diminuir
essa tendencia. Porem, para esta an
alise de dados, ja que tem-se apenas 2 covariaveis, os valores
2
2
de R e Raj s
ao quase os mesmos, e o ajuste do modelo aos dados continua sendo muito bom
pois o valor do coeficiente de determinacao fica proximo de 1.
Verificacao do pressuposto de normalidade dos erros
Nao e possvel analisar propriamente os erros mas pode-se trabalhar com os residuais (erros
estimados), assim devem-se obter qqplots para os residuais padronizados (segundo uma
distribuica
o normal mas com vari
ancia desconhecida) e para os residuais studentizados (segundo
a distribuic
ao t padr
ao).
Na Figura 2, o padr
ao obtido nos dois casos e o mesmo, pois a distribuicao t de Student converge
para a distribuic
ao Normal quando o n
umero de grados de liberade e grande, o qual acontece para
o modelo pois tem n p = 100 3 = 97 grados de liberdade. Assim, os pontos ficam bem perto
da linha reta e entre os valores de 2 e 2, com excecao de 4 pontos na parte inferior e um ponto
na parte superior, na Figura 5 e possvel ver, em detalhe, que 3 desses pontos correspondem as
observacoes 85, 50 e 22, os quais s
ao provavelmente outliers. Daqui para a frente, serao utilizados
este tipo de gr
aficos para analisar o pressuposto de normalidade dos erros pois o qqplot Normal
e uma boa aproximac
ao do qqplot da distribuicao t de Student.
3

qqplot para os residuos studentizados

qqplot para os residuos padronizados

Sample Quantiles

0
1

Sample Quantiles

Theoretical Quantiles

Theoretical Quantiles

Figura 2: QQplots para os residuos padronizados e Studentizados


Verificacao do pressuposto de independencia dos erros
Sera verificada a ausencia de correlacao serial atraves de:
A func
ao de autocorrelac
ao dos resduos Studentizados: Na Figura 3 nao existe nenhum
lag significativo, indicativo de que nao existe correlacao serial.

0.4
0.2

0.0

0.2

ACF

0.6

0.8

1.0

Funo de autocorrelao para os residuais Studentizados

10

15

Lag

Figura 3: Func
ao de autocorrelacao dos residuos Studentizados
Teste de Box-Pierce: Este teste nao contradiz `a funcao de autocorrelacao pois nao acha
nenhuma autocorrelac
ao (pvalor = 0.4787).
Teste de Durbin Watson: N
ao obtemos evidencia de que haja correlacao serial pois o pvalor
para a hip
otese nula (autocorrelacao = 0) e 0.1968 e ela pode ser aceita.
4

Verificacao do pressuposto de homoscedasticidade


Na Figura 4 aparecem os gr
aficos dos residuais Studentizados versus as covariaveis e a vari
avel
resposta. Respecto a X1 observa-se um padrao de maior variabilidade na medida que o valor
de X1 aumenta; respecto a X2 n
ao e possvel determinar um padrao especfico mas respecto
a Y existe um padr
ao em forma de funil. Estas evidencias indicam que os erros nao sao
homosced
asticos, isto e a sua vari
ancia nao e constante. Note-se que as observacoes 85, 50 e 22
aparecem mais uma vez como possveis outliers.

Figura 4: Comportamento dos residuos Studentizados versus as variaveis do modelo


Verificacao do pressuposto de aditividade dos efeitos
Ja que os resduos apresentam tendencia com a variavel X1 e possvel que os efeitos aditivos
nao tinham sido suficientes para a modelagem. Ademais, na parte superior esquerda da Figura
5 e apresentado o gr
afico de residuais versus valores ajustados, no qual os pontos nao est
ao
distribuidos aleatoriamente sobre a linha horizontal, bem pelo contrario apresenta um padr
ao
em forma de V, e mais um indcio de que o efeito linear aditivo foi suficiente. Uma sugest
ao
pode ser incluir uma interac
ao.
Outliers e Observac
oes influentes
Da Figura 5, na parte inferior direita tem-se que as observacoes 20 e 29 apresentan leverages
um pouco altos e ao mesmo tempo residuais maiores que 2. A observacao 85 nao apresenta
leverage alto mas sim o maior residual. A distancia de Cook nao e maior que 0.5 para nenhuma
observacao, o qual garante em certa medida a ausencia de valores influentes. Porem, tem-se
alguns outliers, por exemplo, as observacoes 85, 50 e 22.

40

2
0
2

50

Fitted values

Theoretical Quantiles

ScaleLocation

Residuals vs Leverage

20

30

40

50

29 20

50
22

85

85

Cook's distance

0.0 0.5 1.0 1.5 2.0

30

22

50

85

Standardized residuals

22
50

20

Standardized residuals

Normal QQ

Standardized residuals

0
10

Residuals

Residuals vs Fitted

85

0.00

Fitted values

0.04

0.5

0.08

Leverage

Figura 5: Gr
aficos para o diagnostico do modelo
Em sntese, foram detectados dois problemas no modelo proposto para o conjunto de dados:
1. Heteroscedasticidade dos erros
2. Efeitos nao aditivos
Sera apresentada uma revis
ao do modelo a fim de resolver os problemas supracitados, assim:
Sera incluido o termo de interac
ao entre as covariaveis X1 e X2
Sera construida uma matriz de pesos W, diagonal, dando peso aprox. 0 `as observacoes cujos
residuais studentizados s
ao maiores que 2 (85, 50, 22, 36, 51, 23, 26).

4.1

Revis
ao do modelo

o
Selec
a
A modelagem ser
a feita com as mesmas covariaveis mas sera incluido o termo da interacao X1 X2 .
Alem disso, agora ser
a suposto que ei N (0, 2 wi ), por tanto e N (0, 2 W)
Yi = 0 + 1 Xi1 + 2 Xi2 + 12 Xi1 Xi2 + ei
para i = 1, ..., 90

o
Estimac
a
Coeficientes

Estimativa

Erro padrao

valor t

pvalor

Sig

0
1
2
12

6.8518
3.9233
0.0846
3.3968

2.1095
1.2670
0.4943
0.2964

3.248
3.096
0.171
11.46

0.00166
0.00264
0.86446
2 1016

**
**
***

Tabela 2: Estimativas no modelo de regressao linear multipla ponderado e com interacao


Alias, e obtido o estimador n
ao viciado para a variancia:
2 = 1.3552 = 1.836, esse valor e o 20% da
variancia estimada no modelo inicial.
Crtica
Para este segundo modelo:
Previsivelmente, o ajuste de modelo continua sendo bom ja que foi adicionado mais um termo
2 = 0.9828 (valores mais altos do que no
regressor. Assim, foram obtidos R2 = 0.9834 e Raj
modelo inicial).
Observando na Figura 6, parece que a normalidade e afeitada pelas observacoes 11 e 56, mas estes
residuais s
ao apenas maiores que 3, ao contrario do modelo inicial, com uma observacao cujo
residual padronizado era aprox. 4. Os dados sao simulados, mas se nao fossem, o pesquisador
deveria verificar se houve algum erro na coleta de dados, se foi assim, e plausvel eliminar esses
valores ou imput
a-los.

11

20

30

40

56

50

1 2


60

Normal QQ

Standardized residuals

0
4 2

Residuals

Residuals vs Fitted

60

60

56
11

20

30

40

50

60

0 1 2

11

60

Residuals vs Leverage

56

Standardized residuals

0.5

1.0

1.5

11

Theoretical Quantiles

ScaleLocation

0.0

Standardized residuals

Fitted values

0.00

Fitted values

20

Cook's
56 distance

0.05

0.10

0.5

0.15

Leverage

Figura 6: Gr
aficos para o diagnostico do modelo 2

0.4
0.2

0.0

0.2

ACF

0.6

0.8

1.0

Funo de autocorrelao para os residuais Studentizados

10

15

Lag

Figura 7: Func
ao de autocorrelacao dos resduos Studentizados do modelo 2
Os residuais n
ao apresentan correlacao serial segundo a Figura 7 e o teste de Box-Pierce pois os
p-valores obtido para a hip
otese nula de ausencia de autocorrelacao foi 0.9348.
Ao observar as Figuras 6 e 8, os resduos nao apresentam mais os padroes detectados no modelo
inicial, com excepc
ao de 2 observacoes atpicas (provavelmente outliers): 11 e 56.

Figura 8: Comportamento dos residuos Studentizados versus as variaveis do modelo 2


O modelo n
ao e mais aditivo (pois inclui a interacao das covariaveis e ela contribui
significativamente ao modelo) mas e linear ja que os padroes dos residuos com a media da
variavel resposta foram eliminados.
8

Infer
encia

Logo que os problemas foram resolvidos, pode-se indicar que nosso modelo esta pronto para fazer
inferencia.
Interpretac
ao dos par
ametros
Modelo parametrico: Yi = 0 + 1 Xi1 + 2 Xi2 + 12 Xi1 Xi2 + ei
Modelo estimado: Ybi = 0 + 1 Xi1 + 2 Xi2 + 12 Xi1 Xi2
0 = 6.8518 : Quando as vari
aveis X1 e X2 tomam o valor 0 (zero), a media da variavel resposta
Y e 6.85 unidades.
a inclinac
1 = 3.9233 : E
ao de X1 quando X2 = 0, isto e, o aumento de uma unidade na vari
avel
X1 leva ao aumento de 3.9233 unidades na media da variavel resposta quando X2 = 0. Em geral,
1 + 12 X2 e a inclinac
ao de X1 (variacao media na variavel resposta) para X2 constante.
a inclinac
2 = 0.0846 : E
ao de X2 quando X1 = 0, isto e, o aumento de uma unidade na
variavel X2 leva `
a diminuic
ao de 0.0846 unidades na media da variavel resposta quando X1 = 0,
porem segundo os dados e duvidoso afirmar que X1 toma o valor zero. Entao, em geral, 2 +12 X1
e a inclinac
ao de X2 para X1 constante, mas ja que sabemos que X1 toma os valores 1 e 2, temos:
(a) Quando X1 = 1, a variac
ao media na variavel resposta e 0.0846+3.3968 = 3.2834 unidades,
e (b) Quando X1 = 2 essa variac
ao e 0.0846 + 2 3.968 = 6.6514 unidades, ou seja a vari
avel
X2 tem um maior efeito positivo (aumento) sobre a media da variavel resposta quando X1 = 2, o
qual pode ser observado na Figura 9. Porem, tem-se que conferir, atraves dos testes de hipotese,
se o efeito e significativo.
Relao entre Y e X2

40

17 71
39
74
79
82
45
34
23 61 24
63
64
83
46
38
18
21
3310
616
30
25
11
445437
6853
15 70
31
19
42 965
67
50
3
36
26
77 62

30

50

60

20

85

66
20

47
29

4 32
87
80 56

35
89
84 12
28
72
57
28675 49
14
76
90
78
73
2752
58
41
8
55
7
48 59
69
51
43
22
60
3

88
13

1
81

40

x2

Figura 9: Comportamento dos residuos Studentizados versus as variaveis do modelo 2


As observac
oes que ficam na parte inferior (linha azul) correspondem a aquelas com X1 = 1, e
as demais (parte superior com linha vermelha), quando X1 = 2.
9

Testes de Hip
otesis
As questoes de interesse s
ao: X1 contribui significativamente ao modelo? X2 contribui tambem?
E a interac
ao?
Para X1 :
H0 : 1 = 0
H1 : 1 6= 0
pvalor = 0.00264
Com un nvel de significancia de 0.01 e possvel afirmar que a variavel X1 contribui de maneira
significativa ao modelo.
Para X2 :
H0 : 2 = 0
H1 : 2 6= 0
pvalor = 0.86446
Com un nvel de significancia de 0.01 nao e possvel afirmar que a variavel X2 contribui de
maneira significativa ao modelo. Entao, nao contribui independentemente de X1 mas est
a
faltando verificar se contribui quando interage com X1 .
A seguir, um gr
afico da regi
ao de 99% de confianca (elipse) dos coeficientes da variavel X1 e X2 :

0.0

1.5

1.0

0.5

0.5

1.0

1.5

Regio de confiana para os coeficientes de X1 e X2

Figura 10: Regiao de confianca para 1 e 2


O ponto (0, 0) n
ao est
a includo na elipse, marginalmente o ponto 0 nao pertence ao intervalo
para 1 mas sim para 2 .

10

Para a interac
ao:
H0 : 12 = 0
H1 : 12 6= 0
pvalor = 2 1016
Com un nvel de significancia de 0.01 e possvel afirmar que a interacao das variaveis aleat
orias
X1 e X2 contribui de maneira significativa ao modelo. Entao, foi demonstrado que X2 n
ao
contribui independentemente de X1 mas sim quando interage com X1 .
Mais uma quest
ao de interesse poderia ser: A variancia da variavel resposta e maior que 2.5?
2
H0 : 2.5
H1 : 2 > 2.5
2
O estatstico neste caso e: (np)S
| 2 2(np) , sendo Se = (n p)s2 .
2
Entao: 2calc = 157.944
= 62.976 286
2.5
Logo, p valor = P (286 > 62.976) = 0.97
Assim, com un nvel de significancia de 0.01 nao e possvel afirmar que a variancia da vari
avel
resposta e maior que 2.5
Previsao
A modelagem foi feita com 90% dos dados e reservou-se o 10% restante para realizar previs
oes
pontuales e por intervalo. Segundo a Figura 10, nove dos dez valores reais ficam dentro dos
intervalos de previs
ao de 99%.
Valor Real

19.1468

44.0627

41.9382

28.6067

50.0013

26.4387

29.7656

19.3516

21.1281

31.2299

Previs
ao
Lim. inferior
Lim. superior

19.0357
15.2815
22.7899

44.5378
40.9281
48.1474

40.4001
36.7895
44.0108

29.6746
25.941
33.4073

46.64071
43.0216
50.2598

27.5286
23.8666
31.1906

29.0029
25.2913
32.7145

20.86161
17.1812
24.5420

26.1796
21.5570
28.8022

32.1654
28.2866
36.0442

Tabela 3: Tabela de previsoes

50

Previses

20

30

40

previso pontual
previso por intervalo (99%)
valor real

Index

Figura 11: Previsoes versus valores reais

11

10

Você também pode gostar