Você está na página 1de 18

COMPUTAO 2

Antonio Ponce de Leon





It would be illogical to assume that all conditions remain
stable
Spock, "The Enterprise Incident", stardata 5027.3


When I see articles with lots of significance tests, I say
that the statisticians are p-ing on the research.
Herman Friedmann (by recollection, he said this in class)




Aula 8: Modelos de regresso para contagens (count
data)



Exemplo 1: Em estudos epidemiolgicos a anlise estatstica do nmero de
admisses hospitalares frequentemente abordada. Variaes deste nmero
ao longo do tempo podem ser explicadas, em parte, por caractersticas da
rotina dos servios de sade (e.g. dias da semana possuem diferenas na
propenso de internao), da poca do ano (sazonalidade), etc. Abaixo a
srie temporal do nmero dirio de internaes hospitalares por doenas
respiratrias em crianas at cinco anos de idade, na cidade do Rio de
Janeiro, em 2001, est representada. Em seguida, os mesmo valores esto
representados em um grfico de barras.



Nos dois grficos abaixo, as internaes esto representadas apenas para os
domingos e as segundas, respectivamente.


Claramente, as quantidades de internaes realizadas aos domingos so
bem menores do que as realizadas s segundas. Ou seja, a taxa (ou
incidncia) de casos de DAR em crianas at 5 anos de idade que
demandam internaes hospitalares varia de acordo com o dia da semana.
Esta taxa especfica pode ser estimada diretamente a partir da mdia das
contagens de eventos, como mostra a Tabela 1.
Tabela 1: Mdia de internaes de crianas at 5 anos por DAR, de acordo
com o dia da semana, Rio de Janeiro, 2011
Dia da semana Mdia de internaes
Domingo
Segunda-feira
Tera-feira
Quarta-feira
Quinta-feira
Sexta-feira
Sbado
10,4231
21,3774
19,8461
20,5577
18,8846
19,5192
11,3654
A constatao da existncia do efeito do dia da semana sugere ajustar um
modelo de regresso de Poisson, considerando a varivel dia da semana
como covariada. O ajuste deste modelo est mostrado no quadro abaixo.













Aps o ajuste do modelo que considera o dia da semana, os riscos de
internaes por dia da semana comparado referncia (domingo) e seus
respectivos intervalos de confiana so calculados, simplesmente
aplicando-se a funo exponencial aos estimadores pontuais e respectivos
Call:
glm(formula = ITRESP5 ~ as.factor(dds), family = poisson(link = log))

Deviance Residuals:
Min 1Q Median 3Q Max
-3.8053 -1.2883 -0.3012 1.1116 4.3659

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.34402 0.04295 54.571 <2e-16 ***
as.factor(dds)quarta-feira 0.67921 0.05273 12.881 <2e-16 ***
as.factor(dds)quinta-feira 0.59433 0.05351 11.107 <2e-16 ***
as.factor(dds)sbado 0.08655 0.05947 1.455 0.146
as.factor(dds)segunda-feira 0.71831 0.05223 13.754 <2e-16 ***
as.factor(dds)sexta-feira 0.62738 0.05320 11.793 <2e-16 ***
as.factor(dds)tera-feira 0.64399 0.05305 12.140 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 1443.0 on 364 degrees of freedom
Residual deviance: 1039.2 on 358 degrees of freedom
AIC: 2725.5

Number of Fisher Scoring iterations: 4
intervalos de confiana assintticos obtidos a partir dos erros-padres
dispostos no quadro acima.

Dados de internaes ao longo do tempo possuem, em geral, padres de
autocorrelao que precisam ser levados em considerao na anlise
estatstica. Este tpico vai alm dos temas cobertos neste curso e
abordado em modelos para Sries Temporais.

Exerccio: Ajuste um modelo de regresso idntico ao acima, exceto com
relao ao pressuposto de distribuio do desfecho. Ao invs de Poisson
assuma normalidade para a distribuio dos desfechos e utilize a
transformao logartmica para o desfecho. Compare as estimativas e
comente sobre as diferenas observadas nos resultados.

RR Razo.z LI_IC95 LS_IC95
(Intercept) 10.423077 54.571204 9.5814936 11.338580
as.factor(dds)quarta-feira 1.972325 12.880962 1.7786633 2.187072
as.factor(dds)quinta-feira 1.811808 11.106793 1.6314115 2.012153
as.factor(dds)sbado 1.090406 1.455288 0.9704294 1.225215
as.factor(dds)segunda-feira 2.050964 13.753752 1.8514075 2.272031
as.factor(dds)sexta-feira 1.872694 11.792863 1.6872606 2.078506
as.factor(dds)tera-feira 1.904059 12.139938 1.7160338 2.112686
Exemplo 2: Nmero mensal de internaes hospitalares de homens e
mulheres devido a ferimentos por armas de fogo no estado do Rio de
Janeiro no perodo 2002 a 2006.
O objetivo avaliar se houve alguma reduo no nmero de internaes
aps o recolhimento voluntrio de armas que ocorreu no ano de 2004. Os
dados da tabela esto disponveis no arquivo aih_af_rj.csv.
Os grficos temporais das internaes de homens e mulheres so mostrados
a seguir. A linha vertical representa o momento da interveno.


H no banco de dados aih_af_rj.csv uma varivel denominada
recolhimento que contm os nmeros de armas recolhidas nos sete
primeiros meses da interveno. A partir desta varivel pode-se criar uma
nova varivel indicadora (dummy) para demarcar todo o perodo do
estudo aps a interveno. O efeito (coeficiente de regresso) associado a
esta varivel ir determinar se houve, ou no, mudana na mdia da srie
temporal de internaes por armas de fogo entre os homens ou entre as
mulheres.

inicio = min(mes[recolhimento>0]) # obtm o 1
o
ms da interveno
interv = ifelse(mes >= inicio,1,0) # define a varivel dummy
table(interv) # tabula a varivel de interveno

Como j foi introduzido na aula terica precedente, um modelo bsico
adequado a este problema assume uma tendncia temporal linear e inclui
uma varivel indicadora para cada ms (referncia janeiro) como forma
de ajustar a sazonalidade da srie temporal. Finalmente a varivel
indicadora da interveno includa junto com as covariadas do modelo
bsico, resultando na estimao do efeito da interveno, ajustado por
tendncia e sazonalidade. Os comandos abaixo implantam estes passos para
os dados dos homens.

mes_calend = as.factor(substr(mesano,1,2))
m1 = glm(int.masc ~ mes + mes_calend + interv, family = poisson(link=log))
summary(m1)

Call:
glm(formula = int.masc ~ mes + mes_calend + interv, family = poisson(link
= log))

Deviance Residuals:
Min 1Q Median 3Q Max
-3.3678 -0.6481 -0.0709 0.6915 2.7027

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 4.903533 0.046689 105.026 < 2e-16 ***
mes 0.007507 0.001611 4.660 3.16e-06 ***
mes_calend02 0.008914 0.057331 0.155 0.8764
mes_calend03 0.023953 0.057082 0.420 0.6748
mes_calend04 -0.049367 0.058135 -0.849 0.3958
mes_calend05 0.046444 0.056841 0.817 0.4139
mes_calend06 -0.022742 0.057895 -0.393 0.6945
mes_calend07 -0.012979 0.057900 -0.224 0.8226
mes_calend08 -0.115961 0.059329 -1.955 0.0506 .
mes_calend09 -0.070264 0.058586 -1.199 0.2304
mes_calend10 -0.074322 0.058638 -1.267 0.2050
mes_calend11 -0.111525 0.059225 -1.883 0.0597 .
mes_calend12 -0.126149 0.059520 -2.119 0.0341 *
interv -0.124674 0.045728 -2.726 0.0064 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 94.891 on 47 degrees of freedom
Residual deviance: 51.794 on 34 degrees of freedom
AIC: 407.82

Number of Fisher Scoring iterations: 4

Aplicando novamente a funo exponencial de forma a obter os riscos
associados aos dias da semana comparados referncia (domingo), os
seguintes resultados so calculados.











Exerccio: Faa o ajuste para os dados das mulheres.
RR Razo.z LI_IC95 LS_IC95
(Intercept) 134.7650192 105.0258952 122.9801084 147.6792519
mes 1.0075348 4.6600544 1.0043588 1.0107209
mes_calend02 1.0089540 0.1554846 0.9017163 1.1289451
mes_calend03 1.0242420 0.4196204 0.9158267 1.1454914
mes_calend04 0.9518318 -0.8491805 0.8493267 1.0667081
mes_calend05 1.0475395 0.8170884 0.9371011 1.1709931
mes_calend06 0.9775145 -0.3928181 0.8726540 1.0949754
mes_calend07 0.9871048 -0.2241639 0.8812073 1.1057285
mes_calend08 0.8905096 -1.9545555 0.7927513 1.0003231
mes_calend09 0.9321478 -1.1993194 0.8310267 1.0455736
mes_calend10 0.9283725 -1.2674646 0.8275766 1.0414451
mes_calend11 0.8944688 -1.8830828 0.7964380 1.0045658
mes_calend12 0.8814832 -2.1194334 0.7844212 0.9905554
interv 0.8827846 -2.7264192 0.8071053 0.9655601
Exemplo 3: Em quatro ou cinco dias de Dezembro de 1991, um pouco
antes das festas natalinas, em Londres, ocorreu um episdio de alta
poluio do ar no qual os nveis de NO
2
(dixido de nitrognio) atingiram
valores extremos. Para avaliar o efeito deste poluente na sade
(mortalidade e morbidade), Anderson et al (1995) analisaram as diferenas
nas contagens de bitos e internaes hospitalares (por todas as causas e
por grupos de causas especficas), comparando a semana do episdio de
poluio com a semana imediatamente anterior ao episdio no mesmo ano,
bem como nos quatro anos antes do ano do episdio. Por exemplo, o
nmero de internaes hospitalares devido a asma em crianas at 14 anos
nas semanas estudadas, na rea central de Londres (inner London) esto
resumidos abaixo (Tabela 2). Os dados da Tabela 2 esto dispostos no
arquivo episodio NO2 Londres - internaes.csv.

Tabela 2: Nmero de mortes por DPOC e Asma na semana do episdio e
semanas anteriores. Londres, 1987-1991.
Semana de 5/12 Semana de 12/12
1987 34 38
1988 59 48
1989 66 48
1990 42 56
1991 84 90

Dois modelos foram ajustados aos dados da Tabela 2. O primeiro consistiu
de um modelo de efeitos principais, dos anos e das semanas, reservando o
primeiro ano e a primeira semana como referncias. Em seguida um
modelo de efeitos principais e uma interao foi ajustado. A interao
correspondeu segunda semana do ltimo ano, quando ocorreu o episdio
de poluio extrema de NO
2
.
Os comandos para ajustar os dois modelos esto mostrados abaixo.

attach(episodio)
mprinc=glm(numero~as.factor(ano)+as.factor(semana), family=poisson(link=log))
summary(mprinc)
sem.epis = ifelse(semana==2 & ano==1991,1,0)
mepis=glm(numero~as.factor(ano)+as.factor(semana)+sem.epis, family=poisson())
summary(mepis)
detach(episodio)

Os relatrios dos modelos ajustados acima esto mostrados nos quadros a
seguir.





Call:
glm(formula = numero ~ as.factor(ano) + as.factor(semana), family =
poisson(link = log))

Deviance Residuals:
1 2 3 4 5 6 7 8
9 10
-0.3889 0.6740 1.0943 -1.0856 -0.4053 0.3841 -0.7016 -1.1605
1.0411 0.4031

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.59233 0.12501 28.736 < 2e-16 ***
as.factor(ano)1988 0.39616 0.15243 2.599 0.00935 **
as.factor(ano)1989 0.45953 0.15054 3.053 0.00227 **
as.factor(ano)1990 0.30830 0.15522 1.986 0.04701 *
as.factor(ano)1991 0.88239 0.14013 6.297 3.03e-10 ***
as.factor(semana)2 -0.01770 0.08414 -0.210 0.83340
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 54.1582 on 9 degrees of freedom
Residual deviance: 6.3788 on 4 degrees of freedom
AIC: 76.657

Number of Fisher Scoring iterations: 4

Exerccio: Calcule os riscos relativos ao ltimo modelo e interprete-os.
Call:
glm(formula = numero ~ as.factor(ano) + as.factor(semana) + sem.epis,
family = poisson())

Deviance Residuals:
1 2 3 4 5 6 7 8
9 10
-0.5022 0.5323 0.9469 -1.2157 0.0000 0.5023 -0.5614 -1.0172
1.1809 0.0000

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.61126 0.12770 28.280 < 2e-16 ***
as.factor(ano)1988 0.39616 0.15243 2.599 0.00935 **
as.factor(ano)1989 0.45953 0.15054 3.053 0.00227 **
as.factor(ano)1990 0.30830 0.15522 1.986 0.04701 *
as.factor(ano)1991 0.81955 0.16796 4.879 1.06e-06 ***
as.factor(semana)2 -0.05628 0.10118 -0.556 0.57806
sem.epis 0.12527 0.18236 0.687 0.49210
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 54.1582 on 9 degrees of freedom
Residual deviance: 5.9066 on 3 degrees of freedom
AIC: 78.185

Number of Fisher Scoring iterations: 4





0
1
0
2
0
3
0
4
0
I
T
R
E
S
P
5
0 100 200 300 400
TEMPO
Rio de Janeiro - 2001
Internaes dirias de crianas at 5 anos por DAR