Escolar Documentos
Profissional Documentos
Cultura Documentos
ANÁLISE DE DADOS
CATEGÓRICOS
2006
Conteúdo
Prefácio v
1 Conceitos Introdutórios 1
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Escalas de Mensuração . . . . . . . . . . . . . . . . . . . . . 2
1.3 Esquemas ou Delineamentos Amostrais . . . . . . . . . . . . 5
1.3.1 Modelo Produto de Binomiais independentes . . . . 5
1.3.2 Modelo Multinomial . . . . . . . . . . . . . . . . . . 7
1.3.3 Modelo Produto de Poisson . . . . . . . . . . . . . . 7
1.3.4 Modelo Hipergeométrico . . . . . . . . . . . . . . . . 9
1.3.5 Considerações sobre os delineamentos amostrais . . . 9
1.4 Estudos clı́nicos e modelos associados . . . . . . . . . . . . 10
1.4.1 Estudos Descritivos . . . . . . . . . . . . . . . . . . 11
1.4.2 Estudos de Coorte . . . . . . . . . . . . . . . . . . . 11
1.4.3 Estudos Caso-Controle . . . . . . . . . . . . . . . . . 14
1.4.4 Ensaios clı́nicos aleatorizados . . . . . . . . . . . . . 16
1.4.5 Estudos tranversais ou cross-sectional . . . . . . . . 18
1.5 Incidência e prevalência . . . . . . . . . . . . . . . . . . . . 20
1.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
i
ii CONTEÚDO
2 Estratégias de Análise 25
2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Análise de Tabelas de Contingência 2 × 2 . . . . . . . . . . 25
2.2.1 Estatı́sticas de Teste . . . . . . . . . . . . . . . . . . 26
2.2.2 Medidas de Associação . . . . . . . . . . . . . . . . . 28
2.2.3 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.4 Sensibilidade e Especificidade . . . . . . . . . . . . . 35
2.2.5 Teste de McNemar . . . . . . . . . . . . . . . . . . . 37
2.3 Análise de Tabelas de Contingência 2 × r . . . . . . . . . . 38
2.3.1 Escolha dos Escores . . . . . . . . . . . . . . . . . . 40
2.4 Análise de Tabelas de Contingência s × 2 . . . . . . . . . . 41
2.5 Análise de Tabelas de Contingência s × r . . . . . . . . . . 43
2.5.1 Associação geral em tabelas s × r . . . . . . . . . . . 43
2.5.2 Teste exato para associação geral em tabelas s × r . 45
2.5.3 Medidas de associação em tabelas s × r . . . . . . . 46
2.5.4 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . 47
2.6 Análise Estratificada . . . . . . . . . . . . . . . . . . . . . . 51
2.6.1 Teste de Mantel-Haenszel . . . . . . . . . . . . . . . 53
2.6.2 Medidas de associação . . . . . . . . . . . . . . . . . 54
2.6.3 Análise estratificada em tabelas s × r (s, r > 2) . . . 59
2.7 Concordância entre observadores . . . . . . . . . . . . . . . 59
2.7.1 Estatı́stica Kappa . . . . . . . . . . . . . . . . . . . 59
2.7.2 Estatı́stica Kappa ponderada . . . . . . . . . . . . . 61
2.7.3 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.8 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3 Regressão Logı́stica 71
3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.2 Regressão Logı́stica Dicotômica . . . . . . . . . . . . . . . . 71
CONTEÚDO iii
Apêndice 133
Bibliografia 153
Prefácio
v
Capı́tulo 1
Conceitos Introdutórios
1.1 Introdução
1
2 Capı́tulo 1. Conceitos Introdutórios Giolo, S.R.
em obeso e não-obeso ou, ainda, em intervalos tais como < 60, [60, 100),
[100, 150) e ≥ 150kg. As variáveis, que não a resposta, são denominadas,
entre outros, de fatores, variáveis explanatórias ou covariáveis.
Dados em que a variável resposta e as covariáveis são categóricas, ou
foram categorizadas, são, em geral, apresentados nas, assim denominadas,
tabelas de contingência. Essas tabelas são apresentadas no decorrer deste
e dos demais capı́tulos.
Note, dos exemplos de variáveis resposta e covariáveis citados, que há
algumas diferenciações entre elas. Por exemplo, algumas apresentam so-
mente duas categorias, outras três ou mais, bem como algumas apresentam
uma ordenação natural das categorias e outras não. Formalmente, essas
covariáveis podem ser classificadas de acordo com sua respectiva escala de
mensuração. Por exemplo, as com somente duas categorias são denomi-
nadas dicotômicas, as com mais de duas categorias que apresentam uma
ordenação natural são ditas ordinais e, assim por diante. Na Seção 1.2, são
descritas e ilustradas as escalas de mensuração de variáveis categóricas.
Melhora
Medicamento Sim Não Total
Novo 40 20 60
Placebo 16 48 64
Melhora
Sexo Tratamento Acentuada Alguma Nenhuma Total
Feminino Ativo 16 5 6 27
Feminino Placebo 6 7 19 32
Masculino Ativo 5 2 7 14
Masculino Placebo 1 0 10 11
Categorias de resposta
Categorias da covariável C1 C2 Totais
A1 n11 n12 n1+
A2 n21 n22 n2+
Totais n+1 n+2 n
2
( 2 n )
Y Y pijij
P (N11 = n11 , N21 = n21 ) = ni+ ! . (1.1)
nij !
i=1 j=1
Nos casos em que a variável resposta apresentar mais do que duas ca-
tegorias (r > 2), a distribuição associada será o produto de multinomias
independentes, uma multinomial associada a cada linha da tabela.
Note, que este esquema amostral corresponde a um processo de amos-
tragem estratificada, em que para cada estrato (nesse caso A 1 e A2 ) é
selecionada uma amostra aleatória simples.
1.3. Esquemas ou Delineamentos Amostrais 7
2
X 2
X
sendo nij ≥ 0, nij = n e pij = 1.
i,j=1 i,j=1
Sexo
Armadilha Machos Fêmeas Total
Alaranjada 246 17 263
Amarela 458 32 490
Total 704 49 753
Note, nesse experimento, que o número de insetos que chegam às ar-
madilhas, sejam estes machos ou fêmeas, é um número (contagem) aleatório,
caracterizando, assim, a distribuição Poisson. Assumindo Nij (i, j = 1, 2)
independentes (o que pode gerar alguma controvérsia) com distribuição
Poisson de média µij = t λij , sendo λij a taxa média por unidade de tempo
e t a duração do experimento, tem-se associado à Tabela 1.4 a distribuição
produto de Poisson com função de probabilidade:
P
i) (N11 + · · · + N22 ) ∼ Pois( i,j µij ) e
Os estudos de coorte são menos propensos aos vı́cios que podem ocorrer
nos estudos caso-controle e são os mais indicados para o estudo de riscos,
quando a experimentação não é possı́vel. As principais dificuldades para
a realização de um estudo de coorte são: (a) é um estudo mais demorado
e que envolve custos elevados pelos recursos necessários para acompanhar
muitos indivı́duos ao longo do tempo estabelecido; (b) não disponibiliza
resultados a curto prazo; (c) os indivı́duos sob estudo vivem livremente e
não sob controle do pesquisador e (d) não é viável para doenças raras.
Câncer de Pulmão
Fumante Sim Não Totais
Sim 75 45 120
Não 21 56 77
Totais 197
14 Capı́tulo 1. Conceitos Introdutórios Giolo, S.R.
Grupos
Fumante Casos: com câncer Controles: sem câncer Totais
Sim 75 45
Não 21 56
Totais 96 101 197
Resposta
Tratamento Favorável Não favorável Totais
Novo 29 16 45
Padrão 14 31 45
Totais 43 47 90
Fase III - Avaliação em larga escala do tratamento. Após a droga ter sido
considerada como razoavelmente efetiva, deve-se compará-la com o(s) trata-
mento(s) padrão disponı́vel, o que é feito em um ensaio clı́nico envolvendo
um número suficientemente grande de pacientes.
Sintomas
Sexo Sim Não Totais
Feminino 355 125 480
Masculino 410 190 600
Totais 765 315 1080
20 Capı́tulo 1. Conceitos Introdutórios Giolo, S.R.
1.6 Exercı́cios
(b) Com base somente nos valores observados, diria existir algum
indı́cio de que haja diferentes opiniões entre homens e mulheres?
Capı́tulo 2
Estratégias de Análise
2.1 Introdução
25
26 Capı́tulo 2. Estratégias de Análise Giolo, S.R.
(ni+ ) (n+j )
E(Nij | H0 ) = = mij
n
e a variância:
(n11 − m11 )2
Q= (2.1)
v11
e a variância:
π11 (1 − π11 ) π21 (1 − π21 )
V [p11 − p21 ] = + ,
n1+ n2+
para a qual um estimador não-viciado é:
p11 (1 − p11 ) p21 (1 − p21 )
v[p11 − p21 ] = + ,
n1+ − 1 n2+ − 1
tem-se o seguinte intervalo para (π11 −π21 ), a um nı́vel de confiança (1-α)%:
!!
√ 1 1 1
d ± zα/2 v + + ,
2 n1+ n2+
2.2.3 Exemplos
RRnovo|placebo = 2, 67
OR = 1, 011
OR = 4, 44
Q = 4, 0803 (p = 0, 0434)
Qp = 4, 084 (p = 0, 0433)
Q = 9, 9085 (p = 0, 0016)
Qp = 10, 02 (p = 0, 0015)
RR(novo | padrão) = 2, 07
Resultado do exame
Status + - Totais
Doença presente 52 8 60
Doença ausente 20 100 120
52 100
Sensibilidade = = 0, 867 e Especificidade = = 0, 833.
60 120
dos 108 resultados negativos apresentados pelo exame, 100 estavam corre-
tos fornecendo, assim, para o poder preditivo negativo do exame, um valor
de 100/108 = 0,926 (92,6%).
Seria, desse modo, recomendável que o teste fosse realizado mais de
uma vez, em cada paciente, para evitar que um paciente doente não seja
tratado ou que, um paciente livre da doença seja tratado indevidamente.
Se, contudo, o medicamento a ser utilizado não apresentar efeitos adver-
sos, recomenda-se um segundo teste somente para os pacientes que apre-
sentarem resultado negativo. Como cada doença apresenta suas peculiari-
dades, deve-se analisar, para cada uma delas, o que é de fato relevante. Em
determinadas situações, por exemplo, há um interesse maior em testes com
alta sensibilidade e, especificidade, relativamente inferior.
n+1 n1+
H0 : = .
n n
Após
Antes Aprova Reprova Totais
Aprova 20 5 25
Reprova 10 10 20
Totais 30 15 45
Melhora
Tratamento Nenhuma Alguma Acentuada Totais
Ativo 13 7 21 41
Placebo 29 7 7 43
Totais 42 14 28 84
Note que a variável resposta é ordinal e, então, para se fazer uso desta
caracterı́stica ordinal da resposta, são, em geral, assumidos escores para
suas categorias. Obtém-se, assim, escores médios (um para cada linha da
tabela) que são, então, comparados. O escore médio para a i-ésima linha
(i = 1, 2) da Tabela 2.3 é definido por:
3
X aj nij
f¯i = i = 1, 2,
ni+
j=1
e a variância:
(n − n1+ ) X
3 n (n − n ) v
+j 1+ a
V (f¯1 | H0 ) = (aj − µa )2 =
n1+ (n − 1) n n1+ (n − 1)
j=1
P3
2 n+j
sendo va = j=1 (aj − µa ) n .
40 Capı́tulo 2. Estratégias de Análise Giolo, S.R.
(f¯1 − µa )2
QS = h i
(n − n1+ )/(n1+ (n − 1)) va
3 X
X 2
ci aj nij
f¯ = ,
n
i=1 j=1
em que, sob H0 ,
3
X n X
2 n
i+ +j
E(f¯ | H0 ) = ci aj = µ c µa
n n
i=1 j=1
e
( )
3
X n X
2
(aj − µa )2 (n+j /n)
i+
V (f¯ | H0 ) = (ci − µc ) 2
.
n (n + 1)
i=1 j=1
2.5. Análise de Tabelas de Contingência s × r 43
(f¯ − µc µa )2
QCS =
V ar(f¯ | H0 )
hP P i2
3 2
(n − 1) i=1 j=1 i(c − µ c )(a j − µ a ) n ij
hP ih P 2
i = (n − 1) rac
= ,
3 2 2 2
i=1 (c i − µ c ) n i+ j=1 (a j − µ a ) n +j
(n − 1)
Q= QP
n
qui-quadrado com (s−1) graus de liberdade, uma vez que os escores médios
de s grupos estão sendo comparados.
2
QCS = (n − 1) rac
2.5.4 Exemplos
Local de Moradia
Partido Polı́tico A B C D Totais
Democrata 221 160 360 140 881
Independente 200 291 160 311 962
Republicano 208 106 316 97 727
Totais 629 557 836 548 2570
Horas de alı́vio
Tratamento 0 1 2 3 4 Totais
Placebo 6 9 6 3 1 25
Padrão 1 4 6 6 8 25
Novo 2 5 6 8 6 27
Totais 9 18 18 17 15 77
Limpeza
Tratamento Baixa Média Alta Totais
Água pura 27 14 5 46
Água + trat. padrão 10 17 26 53
Água + dose dupla trat. padrão 5 12 50 67
Totais 42 43 81 166
Ambas as variáveis são, nesse caso, ordinais e como foi visto, a es-
tatı́stica da correlação QCS é indicada. Tomando-se, desse modo, os es-
cores a = (1, 2, 3) e c = (1, 2, 3) para as categorias das variáveis limpeza e
tratamento, respectivamente, obteve-se QCS = 50,6 (p < 0,0001, g.l.= 1).
50 Capı́tulo 2. Estratégias de Análise Giolo, S.R.
Anúncio publicitário
Tipo de carro TV Revista Jornal Radio Totais
Sedan 4 0 0 2 6
Esportivo 0 3 3 4 10
Utilitário 5 5 2 2 14
Totais 9 8 5 8 30
Resposta
Centro Tratamento Favorável Não favorável Totais
1 Novo 29 16 45
1 Padrão 14 31 45
Totais 43 47 90
2 Novo 37 8 45
2 Padrão 24 21 45
Totais 61 29 90
Coluna
Linha A B Totais
A nh11 nh12 nh1+
B nh21 nh22 nh2+
Totais nh+1 nh+2 nh
em que:
P
2 h (nh11 + nh22 )(nh11 nh22 )/n2h
b
σ = P 2
2( h (nh11 nh22 )/nh )
P h i
h (n h11 + n h22 )(n h12 n h21 ) + (n h12 + n h21 )(n h11 n h22 ) /n2h
+ P P
2( h (nh11 nh22 )/nh )( h (nh12 nh21 )/nh )
P
h (nh12 + nh21 )(nh12 nh21 )/n2h
+ P .
2( h (nh12 nh21 )/nh )2
ORM H = 4, 028
Ajustado por centro, tem-se, portanto, que a chance (odds) dos pacientes
que receberam o novo tratamento apresentarem melhora é, em média, 4
vezes a chance (odds) dos que receberam placebo. Essa chance varia, ao
nı́vel de 95% de confiança, entre 2,1 e 7,7 vezes.
Melhora
Sexo Tratamento Nenhuma Alguma Acentuada Totais
Feminino Ativo 6 5 16 27
Feminino Placebo 19 7 6 32
Totais 25 12 22 59
Masculino Ativo 7 2 5 14
Masculino Placebo 10 0 1 11
Totais 17 2 6 25
3
X
em que: ahj nh1j
f¯h1 =
nh1+
j=1
e variância,
2
X (nh1+ ) (nh − nh1+ )
V (f+1 | H0 ) = vh = v ∗ ,
(nh − 1)
h=1
3 3
!
X (ahj ) (nh+j ) X nh+j
em que µh = e vh = (ahj − µh )2 .
nh nh
j=1 j=1
P2 P3
Se os tamanhos amostrais n+i+ = h=1 j=1 nhij forem suficiente-
mente grandes, então f+1 terá distribuição aproximadamente normal e a
quantidade:
(f+1 − µ∗ )2
QSM H =
v∗
distribuição aproximadamente qui-quadrado com 1 grau de liberdade. A
estatı́stica QSM H é conhecida como estatı́stica escore médio de Mantel-
Haenszel estendida, sendo eficiente para detectar padrões de diferenças
quando (f¯h1 − f¯h2 ) apresentarem predominantemente o mesmo sinal.
Para os dados da Tabela 2.12, e considerando-se os escores a = (1, 2, 3),
obteve-se QSM H = 14,63 (p < 0,001). Os tamanhos amostrais n+1+ = 41 e
n+2+ = 43 sendo suficientemente grandes, asseguram que QSM H apresenta
uma boa aproximação para a distribuição qui-quadrado, de modo que é
possı́vel concluir que o tratamento e o grau de melhora, controlando-se
para sexo, apresentam-se associados.
Pai usa Consciência do risco Não usa tabaco Usa tabaco Totais
Não Mı́nima 59 25 84
Não Moderada 169 29 198
Não Substancial 196 9 205
Totais 424 63 487
Sim Mı́nima 11 8 19
Sim Moderada 33 11 44
Sim Substancial 22 2 24
Totais 66 21 87
Para esses dados, tanto a resposta (uso de tabaco) quanto o fator uso
de tabaco pelo pai, são dicotômicas. O fator consciência do risco é ordi-
nal. Também aqui, as três variáveis podem ser consideradas ordinais, uma
vez que é comum associar os escores 0 e 1 às categorias de uma variável
dicotômica.
Mantel (1963) propôs também uma estatı́stica de teste para a associação
de duas variáveis que são ordinais em um conjunto de tabelas s× 2, baseada
nos escores a e c assumidos para as colunas e linhas das tabelas. Esta
estatı́stica é expressa por:
" " #2
Pq 2 Pq
¯ ¯ )1/2 r
h=1 nh fh − E(fh | H0 ) h=1 nh (vhc vha ac.h
QCSM H = Pq = P h i
h=1 n2h var(f¯h | H0 ) q
n2h vhc vha /(nh − 1)
h=1
PP 2
b )2
B = (1 − κ i6=j pij (p+1 )(pj+ ) . Um intervalo de confiança para κ
pode, portanto, ser obtido por:
p
b ± zα/2
κ vd
ar(b
κ)
Ps Ps P P
Π0 (w) − Πe (w) i=1 pij − si=1 sj=1 wij (pi+ )(p+j )
j=1 wij
bw =
κ = P P ,
1 − Πe (w) 1 − si=1 sj=1 wij (pi+ )(p+j )
| escore(i) − escore(j) |
wij = 1 −
escore(dim) − escore(1)
2.7.3 Exemplo
Neurologista 1
Neurologista 2 1 2 3 4 Totais
1 38 5 0 1 44
2 33 11 3 0 47
3 10 14 5 6 35
4 3 7 3 10 23
Totais 84 37 11 17 149
((38 + 11 + 5 + 10)/149) − (((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17))/149 2 )
b
κ =
1 − (((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17)/149 2 ))
b
κ = 0, 2079.
Ainda, var(b
κ) = 0, 00255 e, portanto, IC0,95 (b
κ) = (0,109; 0,3068). De
bw = 0, 3797, var(b
forma análoga, κ κw ) = 0, 002673 e IC0,95 (b
κw ) = (0,2785;
0,4810). Tais resultados indicam uma concordância fraca entre os neurol-
ogistas. No software R, os intervalos de confiança diferem dos aqui apre-
sentados devido essencialmente às variâncias assintóticas serem obtidas de
forma ligeiramente diferenciada.
2.8. Exercı́cios 63
2.8 Exercı́cios
(a) Pode-se dizer que sexo é um fator de risco? Ou seja, será que pes-
soas do sexo feminino são mais ou menos prováveis a terem alergia do
64 Capı́tulo 2. Estratégias de Análise Giolo, S.R.
a) medial e lateral;
b) anterior e posterior;
10. (a) Para avaliar a concordância dos diagnósticos emitidos por médicos
residentes e médicos cursando especialização, quanto ao grau de gravi-
dade de crianças atendidas na Dermatopediatria do HC de Curitiba-
PR, foi realizada uma pesquisa com 100 crianças, selecionadas aleato-
riamente, obtendo-se os resultados apresentados na Tabela 2.23. O
que é possı́vel concluir a respeito da concordância dos diagnósticos
emitidos por esses profissionais?
Regressão Logı́stica
3.1 Introdução
71
72 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.
Doença coronária
Idade (X = x) Não (Y = 0) Sim (Y = 1) Totais E(Y | x)
20-29 9 1 10 0,10
30-34 13 2 15 0,13
35-39 9 3 12 0,25
40-44 10 5 15 0,33
45-49 7 6 13 0,46
50-54 3 5 8 0,63
55-59 4 13 17 0,76
60-69 2 8 10 0,80
Totais 57 43 100 0,43
0.8
0.7
0.6
0.5
E[Y|x]
0.4
0.3
0.2
0.1
30 40 50 60
Idade(em anos)
1 exp{x}
F (x) = = ,
1 + exp{−x} 1 + exp{x}
0.6
0.4
0.2
0.0
−20 −10 0 10 20
! p
θ(x) X
log = β0 + β k xk
1 − θ(x)
k=1
tem-se um modelo linear para o logito, isto é, para o logaritmo neperiano
da razão entre θ(x) e 1 − θ(x). O logito é, na realidade, o logaritmo de
uma odds e, este fato, permitirá que odds ratios sejam obtidas a partir do
modelo (será tratado em detalhes mais adiante).
No contexto de modelos lineares generalizados, uma função, monótona
e derivável, que relaciona a média ao preditor linear é denominada função
θ(x)
de ligação. Assim, η = log 1−θ(x) , é a função de ligação canônica para o
modelo binomial.
Além de apresentar uma forma linear, o modelo logı́stico apresenta a
P
propriedade útil de que todos os valores (β0 + pk=1 βk xk ), pertencentes
ao intervalo (-∞, + ∞), têm um correspondente, no intervalo (0, 1), para
θ(x). Probabilidades preditas por este modelo são, desse modo, restritas a
assumirem valores entre 0 e 1. O modelo, portanto, não produz probabili-
dades negativas, bem como probabilidades maiores que 1.
Outra diferença importante entre o modelo de regressão linear e o mo-
delo de regressão logı́stica, refere-se à distribuição condicional da variável
resposta. No modelo de regressão linear é assumido que uma observação
da variável resposta pode ser expressa por y = E(Y | x) + ε, em que a
quantidade ε é chamada erro e é assumida ter distribuição normal com
média zero e variância constante. Este não é o caso quando a resposta é
dicotômica (Y = 1 ou 0). Nesta situação, ε tem distribuição com média
zero e variância dada por θ(x) 1 − θ(x) , isto é, a distribuição condicional
da variável resposta segue uma distribuição binomial com probabilidade
dada pela média condicional θ(x).
76 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.
n h
Y i yi h i1−yi
L(β) = θ(xi ) 1 − θ(xi ) . (3.2)
i=1
n
X h i h i
l(β) = log L(β) = yi log θ(xi ) + (1 − yi ) log 1 − θ(xi ) .
i=1
para j, l = 0, 1, .., p.
A matriz contendo o negativo dos termos apresentados nas equações
(3.3) e (3.4) será denotada por I(β) e é chamada matriz de informação.
As variâncias e covariâncias dos coeficientes estimados serão obtidas pela
inversa dessa matriz e será denotada por Σ(β) = [I(β)]−1 . O j-ésimo
78 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.
e
θ(x1 )(1 − θ(x1 )) 0 ··· 0
0 θ(x1 )(1 − θ(x2 )) · · · 0
V =
.. .. .. ..
.
. . . .
0 0 ··· θ(xn )(1 − θ(xn ))
T RV = 2 log(LCC ) − 2 log(LSC ).
mij b
= ni+ θ(x) para j = 1
mij b
= ni+ (1 − θ(x)) para j = 2.
Esses resı́duos são conhecidos como resı́duos de Pearson, uma vez que
a soma deles ao quadrado resulta em QP . Exame dos valores residuais ci
auxiliam a determinar quão bem o modelo se ajusta aos grupos individuais.
Freqüentemente, resı́duos excedendo o valor |2, 0| (ou |2, 5|) indicam falta de
ajuste. Similarmente, a deviance residual é um componente da estatı́stica
deviance e é expressa por:
" ! !#1/2
ni1 ni+ − ni1
di = sinal(ni1 − ybi1 ) 2 ni1 log + 2(ni+ − ni1 ) log ,
ybi1 ni+ − ybi1
em que ybi1 = (ni+ ) θbi1 . A soma das deviances residuais ao quadrado resulta
na estatı́stica deviance QL . A partir do exame dos resı́duos deviance pode-
se observar a presença de resı́duos não usuais (demasiadamente grandes),
bem como a presença de outliers ou, ainda, padrões sistemáticos de variação
indicando, possivelmente, a escolha de um modelo não muito adequado.
Para os dados da Tabela 3.1 obtiveram-se os resı́duos de Pearson e
deviance apresentados a seguir.
0.4
0.2
0.0
30 40 50 60
idade
θ(xi )
Observe que exp{logito(θ(xi ))} = = odds (tratada anterior-
(1 − θ(xi ))
mente). Pode-se, então, obter a odds ratio para, por exemplo, indivı́duos
com idades 65 e 26 anos, isto é,
3.2.7 Exemplos
Pode-se, desse modo, obter a odds ratio para pacientes do sexo mas-
culino versus as do sexo feminino por:
deviance resı́duos
θi1 θbi1 (θi1 - θbi1 ) residual de Pearson
0,2666667 0,2360103 0,03065632 0.2756894 0.2796124
0,4444444 0,4699914 -0,02554693 -0.2174355 -0.2171644
0,5000000 0,5255469 -0,02554693 -0.2169146 -0.2170564
0,7777778 0,7607465 0,01703129 0.2091855 0.2074342
Tem-se, então, que a odds ratio dos pacientes do sexo masculino versus
a dos pacientes do sexo feminino pode ser estimada, como visto anterior-
d (m/f ) = e1,277 = 3,586. Logo, a chance (odds) dos homens
mente, por OR
apresentarem doença coronária arterial é 3,5 vezes a das mulheres. De
modo análogo, estima-se que a odds ratio de ECG ≥ 0,1 versus a de ECG
d = e1,0545 = 2,871. Então, a chance (odds) dos pacientes com
< 0,1 é OR
ECG ≥ 0,1 apresentarem doença coronária arterial é de aproximadamente
3 vezes a daqueles pacientes com ECG < 0,1. De modo geral, pacientes do
sexo masculino e com ECG ≥ 0,1 são os mais propensos a apresentarem
3.2. Regressão Logı́stica Dicotômica 91
Observe que um, dentre três tratamentos, foi administrado a cada pa-
ciente que apresentou no diagnóstico infecção urinária complicada ou não
de ser curada. A resposta é portanto dicotômica, a covariável diagnóstico
apresenta duas categorias e a covariável tratamento, três categorias. É im-
portante notar que uma covariável com L categorias deve ser representada
em um modelo por (L - 1) parâmetros.
Para esse estudo, o modelo de regressão logı́stica com os efeitos prin-
cipais (diagnóstico e tratamento) e a interação entre eles, é representado
92 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.
matricialmente por:
logit(θ11 ) 1 1 1 0 1 0 β0
logit(θ21 ) 1 1 0 1 0 1 β1
logit(θ31 ) 1 1 0 0 0 0 β2
= .
logit(θ41 ) 1 0 1 0 0 0 β3
logit(θ51 ) 1 0 0 1 0 0 β4
logit(θ61 ) 1 0 0 0 0 0 β5
Uma vez que o modelo considerado é o saturado, isto é, seu número
de parâmetros é igual ao número de linhas da tabela de dados, o teste de
qualidade de ajuste não se aplica a este modelo porque não existem graus
de liberdade disponı́veis. Ajustar esse modelo possibilita, contudo, a análise
do efeito da interação. Na Tabela 3.12 pode-se observar as diferenças de
deviance dos modelos seqüenciais ajustados.
aos dados. Ainda, dos valores observados e dos valores preditos a partir do
modelo, bem como da deviance residual e dos resı́duos de Pearson, apresen-
tados na Tabela 3.15, nota-se que os resı́duos encontram-se-se satisfatórios,
podendo-se, desse modo, concluir que o modelo escolhido, e expresso por:
di = deviance ci = resı́duos
θi1 θbi1 residual de Pearson
0,7358491 0,7391443 -0,07715904 -0,07726359
0,9017857 0,8826267 0,64598342 0,62995503
0,5964912 0,6122501 -0,34450962 -0,34533240
0,8888889 0,8811267 0,16244931 0,16088958
0,9152542 0,9516237 -1,18234402 -1,30201030
0,8500000 0,8050871 0,74055971 0,71706568
b
outro lado, a odds de ser curado com o tratamento A é de eβ2 = 1,79 vezes
a de ser curado com tratamento C, bem como, a odds de ser curado com
b
o tratamento B é de eβ3 = 4,76 vezes a de ser curado com tratamento C.
b b
Por fim, a chance (odds) de cura com o tratamento B é de eβ3 −β2 = 2,65
vezes a de ser curado com o tratamento A. Chances maiores de cura são
observadas, portanto, para aqueles pacientes com infecções urinárias diag-
nosticadas como sendo não complicadas e que recebam o tratamento B.
Tabela 3.16: Logitos e odds obtidos a partir do modelo de regressão logı́stica ajustado.
Observe que diversos valores da covariável idade são únicos, o que im-
plica que na construção de uma tabela de contingência considerando-se as
três covariáveis, existirão diversas caselas com somente uma observação.
96 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.
Tabela 3.18: Tabela das diferenças de deviance dos modelos de regressão logı́stica
seqüências ajustados ao estudo sobre doenças coronárias.
Deviance Diferenças de
Modelos g.l. Residual Deviance Diferença g.l.
Nulo 77 107,926 – –
X1 76 101,840 6,086 1
X1 e X 2 75 95,080 6,760 1
X1 , X 2 e X 3 74 86,811 8,626 1
X1 , X2 , X3 + int. duplas 71 85,522 1,289 3
X1 , X2 , X3 + int. duplas e tripla 70 85,414 0,108 1
A partir da Tabela 3.18 tem-se que o teste relativo a hipótese nula de que
a interação tripla não é significativa, o que equivale a testar H 0 : β7 = 0,
resultou em T RV = 0,108 (p = 0,7424, g.l.= 1). Desse modo, não há
evidências para a rejeição de H0 . De modo análogo, para o teste da hipótese
H0 : β4 = β5 = β6 = 0 (interações duplas) foi obtido T RV = 1,289 (p =
0,7317, g.l. = 3), o que mostra não haver evidências para a rejeição desta
98 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.
2
residuos de Pearson
deviance residual
1
1
0
0
−1
−1
−2
−2
0 20 40 60 80 0 20 40 60 80
Index Index
A odds ratio para sexo, ajustada para ECG e idade, é, nesse estudo,
d = e1,3564 = 3,882. Assim, a chance (odds) de pacientes do
estimada por OR
sexo masculino apresentarem doença coronária é 3,882 vezes a dos pacientes
do sexo feminino. De modo análogo, a odds ratio para ECG, ajustada para
d = e0,8732 = 2,395. Isto significa que a
sexo e idade, é estimada por OR
chance de pacientes com ECG = 1 apresentarem doença coronária é 2,395
vezes a daqueles com ECG = 0, bem como a odds dos pacientes com ECG
= 2 apresentarem doença coronária é 2,395 vezes a odds dos pacientes com
ECG = 1. Ainda, a odds ratio para a idade, ajustada para sexo e ECG,
d = e0,0929 = 1,097, significa que a chance (odds) de doença
dada por OR
coronária de um paciente com x+1 anos é 1,097 vezes a de um paciente com
x anos. Para, por exemplo, dois pacientes do mesmo sexo e mesmo ECG,
d = e0,0929∗(40−30)
mas em que um deles tenha 30 anos e outro 40, tem-se OR
= 2,53, ou seja, a chance de doença coronária do paciente com 40 anos é
de 2,53 vezes a daquele com 30 anos.
tado do ECG, bem como que os pacientes do sexo masculino são mais
propensos a apresentá-la.
Q−Q Plot
2
1
Deviance
0
−1
−2
−2 −1 0 1 2
Percentis
31+25
a) valor preditivo do modelo = 78 = 0, 7179
102 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.
31 25
b) valor preditivo + = 43 = 0, 7209 e valor preditivo - = 35 = 0, 7143
12 10
c) falsos positivos = 37 = 0, 3243 e falsos negativos = 41 = 0, 2439
31
d) sensibilidade do modelo = 41 = 0, 7561
25
e) especificidade do modelo = 37 = 0, 6757
Grau de melhora
Sexo Tratamento Acentuada Alguma Nenhuma Totais
F A 16 5 6 27
F Placebo 6 7 19 32
M A 5 2 7 14
M Placebo 1 0 10 11
104 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.
Uma possı́vel estratégia de análise desses dados seria criar uma variável
resposta dicotômica combinando duas das categorias de respostas. Con-
tudo, visto que existe uma ordem natural das categorias de resposta, faz
sentido considerar uma estratégia que leve em conta essa ordenação. Con-
sidere, desse modo, as quantidades:
πhi1 = θhi1
πhi3 = 1 − θhi2 .
ou, ainda,
n o
exp βb0k + 1, 3187 sexo + 1, 7973 tratamento
θbhik = n o , k = 1, 2.
1 + exp βb0k + 1, 3187 sexo + 1, 7973 tratamento
Tabela 3.27: Fórmulas das odds obtidas para o modelo de odds proporcionais ajustado.
Preferência aprendizado
Escola Perı́odo Individual Grupo Sala Aula Totais
1 Padrão 10 17 26 53
1 Integral 5 12 50 67
2 Padrão 21 17 26 64
2 Integral 16 12 36 64
3 Padrão 15 15 16 46
3 Integral 12 12 20 44
em que k indexa os 2 logitos. Note, que para cada logito desse modelo, exis-
tem diferentes interceptos e diferentes conjuntos de parâmetros de regressão
β k . Assim, enquanto para o modelo de odds proporcionais estimam-se
múltiplos parâmetros de interceptos, mas um único conjunto de parâmetros
associado às covariáveis, para o modelo de logitos generalizados estimam-se
múltiplos conjuntos de parâmetros, tanto para o intercepto quanto para as
covariáveis.
Como múltiplas funções resposta (logitos) estão sendo modeladas para
cada subpopulação (linha da tabela de contingência), existe um número
maior de graus de liberdade associado a cada efeito. A forma matricial
do modelo é, também, um tanto mais complicada devido à necessidade
112 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.
X1 = escola, X2 = perı́odo
logit111 1 0 1 0 0 0 1 0
logit112 0 1 0 1 0 0 0 1
logit121 1 0 1 0 0 0 −1 0 β01
logit122 0 1 0 1 0 0 0 −1 β02
logit211 1 0 0 0 1 0 1 0 β11
logit212 0 1 0 0 0 1 0 1 β12
= .
logit221 1 0 0 0 1 0 −1 0 β21
logit222 0 1 0 0 0 1 0 −1 β22
logit311 1 0 −1 0 −1 0 1 0 β31
logit312 0 1 0 −1 0 −1 0 1 β32
logit321 1 0 −1 0 −1 0 −1 0
logit322 0 1 0 −1 0 −1 0 −1
114 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.
Erro Qui-
Efeito Parâmetro Estimativa Padrão Quadrado valor p
Intercepto β01 -0,7979 0,1465 29,65 < 0, 0001
β02 -0,6589 0,1367 23,23 < 0, 0001
escola β11 -0,7992 0,2198 13,22 0,0003
β12 -0,2786 0,1867 2,23 0,1356
β21 0,2836 0,1899 2,23 0,1352
β22 -0,0985 0,1892 0,27 0,6028
perı́odo β31 0,3737 0,1410 7,03 0,0080
β32 0,3713 0,1353 7,53 0,0061
Odds
Escola Perı́odo Individual/Sala aula Grupo/Sala aula
β01 +β11 +β31
1 Padrão e eβ02 +β12 +β32
1 Integral eβ01 +β11 −β31 eβ02 +β12 −β32
2 Padrão eβ01 +β21 +β31 eβ02 +β22 +β32
2 Integral eβ01 +β21 −β31 eβ02 +β22 −β32
3 Padrão eβ01 −β11 −β21 +β31 eβ02 −β12 −β22 +β32
3 Integral eβ01 −β11 −β21 −β31 eβ02 −β12 −β22 −β32
b b
β01 +β11 +β31 b
d P/I = e
i) entre perı́odos: OR
b
= e2∗β31 = 2,11
b01 +βb11 −βb31
β
e
b b
β01 +β21 +β31 b
ii) entre escolas: d 2/1 = e
OR
b b
= eβ21 −β11 = 2,95
b01 +βb11 +βb31
β
e
b b b
β01 −β11 −β21 +β31 b
d 3/1 = e
OR
b b
= e−2∗β11 −β21 = 3,72
b01 +βb11 +βb31
β
e
b b b
β01 −β11 −β21 +β31 b
d 3/2 = e
OR
b b
= e−2∗β21 −β11 = 1,26.
b b b
eβ01 +β21 +β31
Assim, a odds (chance) dos alunos nas escolas com perı́odo escolar
padrão preferirem o aprendizado individual ao aprendizado em sala de aula
116 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.
é 2,11 vezes a dos alunos nas escolas com perı́odo escolar integral. Ainda, a
odds dos alunos da escola 2 preferirem o aprendizado individual ao apren-
dizado em sala de aula é 2,95 vezes a dos alunos da escola 1.
De modo análogo, as odds ratios de aprendizado em grupo, em relação
ao aprendizado em sala de aula, são:
b b b
β02 +β12 +β32
d P/I = e
i) entre perı́odos: OR
b
= e2∗β32 = e2∗0,3713 = 2,10
b02 +βb12 −βb32
β
e
b b b
β02 +β22 +β32
ii) entre escolas: d 2/1 = e
OR
b b
= eβ22 −β12 = 1,19
b02 +βb12 +βb32
β
e
b b b b
β02 −β12 −β22 +β32
d 3/1 = e
OR
b b
= e−2∗β12 −β22 = 1,93
b02 +βb12 +βb32
β
e
b b b b
β02 −β12 −β22 +β32
d 3/2 = e
OR
b b
= e−2∗β22 −β12 = 1,61.
b02 +βb22 +βb32
β
e
Logo, a chance (odds) dos alunos nas escolas com perı́odo escolar padrão
preferirem o aprendizado em grupo ao aprendizado em sala de aula é 2,10
vezes a dos alunos nas escolas com perı́odo escolar integral. Também, os
alunos da escola 3, em relação aos da escola 1, preferem o aprendizado em
grupo ao em sala de aula. A odds dessa preferência entre os alunos da
escola 3 é 1,93 vezes a dos alunos da escola 1. Já os alunos da escola 2,
em relação aos da escola 1, apresentam razão de odds muito próxima de 1,
indicando não ter havido, para os alunos dessas duas escolas, preferência
diferenciada entre esses dois métodos de aprendizado.
e
1 exp{αi + γ 0 zi2 }
P [yi1 = 0]P [yi2 = 1] = . ,
1 + exp{αi + βγ 0 zi1 } 1 + exp{αi + γ 0 zi2 }
q
( )yi1 (1−yi2 )
Y exp{β + γ 0 (zi1 − zi2 )}
L(β, γ) =
1 + exp{β + γ 0 (zi1 − zi2 )}
i=1
( )(1−yi1 )yi2
1
(3.8)
1 + exp{β + γ 0 (zi1 − zi2 )}
Ainda, (zi1 − zi2 ) são as diferenças dos valores das covariáveis para o pa-
ciente tratado e o paciente placebo. Como a função de verossimilhança
é condicionada nos pares discordantes, os pares concordantes ((y i1 = 1,
yi2 = 1) e (yi1 = 0, yi2 = 0)) são não-informativos e podem ser, assim,
ignorados.
A função de verossimilhança (3.8) pode, ainda, ser reescrita como:
q
( )yi1 (1−yi2 )
Y exp{β + γ 0 zi1 }
L(β, γ) =
exp{β + γ 0 zi1 } + exp{γ 0 zi2 }
i=1
( )(1−yi1 )yi2
exp{β + γ 0 zi2 }
exp{β + γ 0 zi1 } + exp{γ 0 zi2 }
1.0
0.5
residuos
0.0
−0.5
−1.0
0 50 100 150
3.5 Exercı́cios
CHD
CAT IDADE ECG Sim Não Total
0 0 0 17 257 274
0 1 0 15 107 122
0 0 1 7 52 59
0 1 1 5 27 32
1 0 0 1 7 8
1 1 0 9 30 39
1 0 1 3 14 17
1 1 1 14 44 58
BRC
SMK SES IDADE Sim Não Total
0 1 0 38 73 111
0 1 1 48 86 134
0 0 0 28 67 95
0 0 1 40 84 124
1 1 0 84 89 173
1 1 1 102 46 148
1 0 0 47 96 143
1 0 1 59 53 112
V1 V2 V3 V4 V5 V6 V1 V2 V3 V4 V5 V6
1 1 0 27 0 1 1 0 0 32 0 2
2 1 0 41 1 3 2 0 0 47 0 1
3 1 1 19 1 4 3 0 1 31 0 4
4 1 1 55 1 1 4 0 1 24 1 3
5 1 0 51 1 4 5 0 0 44 0 2
6 1 1 23 0 1 6 0 0 44 1 3
7 1 1 31 1 2 7 0 0 39 0 2
8 1 1 22 0 1 8 0 1 54 1 4
9 1 1 37 1 3 9 0 1 63 0 2
10 1 1 33 0 3 10 0 0 43 0 3
11 1 0 32 1 1 11 0 1 33 0 3
12 1 1 47 1 4 12 0 1 24 0 4
13 1 1 55 1 3 13 0 0 38 1 1
14 1 0 33 0 1 14 0 0 28 1 2
15 1 0 48 1 1 15 0 0 42 0 1
16 1 1 55 1 3 16 0 1 52 0 1
17 1 1 30 0 4 17 0 1 48 1 4
18 1 0 31 1 2 18 0 1 27 1 3
19 1 1 66 1 3 19 0 0 54 0 1
20 1 0 45 0 2 20 0 0 66 1 2
21 1 1 19 1 4 21 0 0 20 1 4
22 1 1 34 1 4 22 0 0 31 0 1
23 1 0 46 0 1 23 0 1 30 1 2
24 1 1 48 1 3 24 0 0 62 0 4
25 1 1 50 1 4 25 0 1 45 1 4
26 1 1 57 1 3 26 0 0 43 0 3
27 1 0 13 0 2 27 0 1 22 1 3
28 1 1 31 1 1 28 0 0 21 0 1
29 1 1 35 1 3 29 0 1 35 1 3
30 1 0 36 1 3 30 0 0 37 0 3
31 1 0 45 0 1 31 0 0 41 1 1
32 1 1 13 1 2 32 0 1 42 0 1
33 1 1 14 0 4 33 0 0 22 1 2
34 1 0 15 1 2 34 0 1 24 0 1
35 1 0 19 1 3 35 0 0 31 0 1
36 1 1 20 0 2 36 0 1 32 1 3
37 1 1 23 1 3 37 0 0 35 0 1
38 1 0 23 0 1 38 0 1 21 1 1
39 1 1 24 1 4 39 0 1 30 1 3
40 1 1 57 1 3 40 0 0 43 1 3
Apêndice 135
A.1 Continuação.
V1 V2 V3 V4 V5 V6 V1 V2 V3 V4 V5 V6
41 1 0 13 1 2 41 0 1 22 0 3
42 1 1 31 1 1 42 0 0 21 1 3
43 1 0 19 1 3 43 0 1 35 1 3
44 1 1 31 1 3 44 0 0 37 0 2
45 1 0 44 0 1 45 0 0 41 1 1
46 1 1 41 1 2 46 0 1 41 0 1
47 1 1 41 1 2 47 0 0 21 0 4
48 1 0 51 1 2 48 0 1 22 1 1
49 1 0 62 1 3 49 0 0 32 0 3
50 1 1 21 0 1 50 0 1 34 0 1
51 1 1 55 1 3 51 0 0 35 1 2
52 1 0 61 0 1 52 0 1 19 0 1
53 1 1 43 1 2 53 0 1 31 0 2
54 1 0 44 1 1 54 0 0 41 1 1
55 1 1 67 1 2 55 0 1 41 0 1
56 1 1 41 0 2 56 0 1 21 1 4
57 1 0 51 1 3 57 0 1 51 0 2
58 1 1 62 1 3 58 0 1 54 1 3
59 1 1 22 0 1 59 0 0 22 0 1
60 1 1 42 1 2 60 0 0 29 1 2
61 1 0 51 1 1 61 0 0 31 0 1
62 1 1 27 0 2 62 0 1 32 1 2
63 1 1 31 1 1 63 0 0 21 0 1
64 1 1 35 0 3 64 0 1 33 1 3
65 1 1 67 1 2 65 0 1 19 0 1
66 1 1 41 0 2 66 0 1 62 1 4
67 1 0 31 1 2 67 0 1 45 1 3
68 1 1 34 1 1 68 0 0 54 0 1
69 1 0 21 0 1 69 0 1 34 1 4
70 1 1 64 1 3 70 0 1 51 0 1
71 1 0 61 1 3 71 0 1 34 1 3
72 1 1 33 0 1 72 0 0 43 0 1
73 1 0 36 0 2 73 0 1 37 0 3
74 1 1 21 1 1 74 0 1 55 0 1
75 1 0 47 0 2 75 0 0 42 1 3
76 1 0 51 1 4 76 0 1 44 0 2
77 1 0 23 1 1 77 0 1 41 1 3
78 1 1 31 0 2 78 0 0 23 1 4
79 1 1 22 0 1 79 0 1 19 1 4
par cc id est hvb hip nes par cc id est hvb hip nes
1 1 74 1 0 0 1 20 1 66 1 0 1 1
1 0 75 0 0 0 0 20 0 66 1 0 0 1
2 1 67 1 0 0 1 21 1 77 1 0 0 1
2 0 67 0 0 1 1 21 0 77 1 1 1 1
3 1 76 1 0 1 1 22 1 66 1 0 1 1
3 0 76 1 0 1 1 22 0 67 0 0 1 1
4 1 71 1 0 0 0 23 1 71 1 0 1 0
4 0 70 1 1 0 1 23 0 72 0 0 0 0
5 1 69 1 1 0 1 24 1 80 1 0 0 1
5 0 69 1 0 1 1 24 0 79 0 0 0 0
6 1 70 1 0 1 1 25 1 64 1 0 0 1
6 0 71 0 0 0 0 25 0 64 1 0 0 1
7 1 65 1 1 0 1 26 1 63 1 0 0 1
7 0 65 0 0 0 0 26 0 63 1 0 1 1
8 1 68 1 1 1 1 27 1 72 0 1 0 1
8 0 68 0 0 1 1 27 0 72 0 0 1 0
9 1 61 0 0 0 1 28 1 57 1 0 0 0
9 0 61 0 0 0 1 28 0 57 1 0 1 1
10 1 64 1 0 0 1 29 1 74 0 1 0 1
10 0 65 0 0 0 0 29 0 74 0 0 0 1
11 1 68 1 1 0 1 30 1 62 1 0 1 1
11 0 69 1 1 0 0 30 0 62 1 0 0 1
12 1 74 1 0 0 1 31 1 73 1 0 1 1
12 0 74 1 0 0 0 31 0 72 1 0 0 1
13 1 67 1 1 0 1 32 1 71 1 0 1 1
13 0 68 1 0 1 1 32 0 71 1 0 1 1
14 1 62 1 1 0 1 33 1 64 0 0 1 1
14 0 62 0 1 0 0 33 0 65 1 0 0 1
15 1 71 1 1 0 1 34 1 63 1 0 0 1
15 0 71 1 0 1 1 34 0 64 0 0 0 1
16 1 83 1 0 1 1 35 1 79 1 1 1 1
16 0 82 0 0 0 0 35 0 78 1 1 1 1
17 1 70 0 0 0 1 36 1 80 1 0 0 1
17 0 70 0 0 1 1 36 0 81 0 0 1 1
18 1 74 1 0 0 1 37 1 82 1 0 1 1
18 0 75 0 0 0 0 37 0 82 0 0 0 1
19 1 70 1 0 0 1 38 1 71 1 0 1 1
19 0 70 0 0 0 0 38 0 71 0 0 1 1
Apêndice 137
A.2 Continuação.
par cc id est hvb hip nes par cc id est hvb hip nes
39 1 83 1 0 1 1 52 1 72 1 0 1 1
39 0 83 0 0 0 1 52 0 72 1 0 1 1
40 1 61 1 0 1 1 53 1 65 1 0 1 1
40 0 60 0 0 0 1 53 0 67 0 0 0 0
41 1 71 1 0 0 1 54 1 67 1 0 1 1
41 0 71 0 0 0 0 54 0 66 1 0 0 1
42 1 69 1 0 1 1 55 1 64 1 1 0 1
42 0 69 0 1 0 1 55 0 63 0 0 0 1
43 1 77 1 0 0 1 56 1 62 1 0 0 0
43 0 76 1 0 1 1 56 0 63 0 0 0 0
44 1 64 1 0 0 0 57 1 83 0 1 1 1
44 0 64 1 0 0 0 57 0 83 0 1 0 0
45 1 79 0 1 0 0 58 1 81 1 0 0 1
45 0 82 1 0 0 1 58 0 79 0 0 0 0
46 1 72 1 0 0 1 59 1 67 1 0 0 1
46 0 72 1 0 0 1 59 0 66 1 0 1 1
47 1 82 1 1 1 1 60 1 73 1 1 1 1
47 0 81 0 0 0 0 60 0 72 1 0 0 1
48 1 73 1 0 1 1 61 1 67 1 1 0 1
48 0 74 1 0 0 1 61 0 67 1 1 0 1
49 1 69 1 0 0 1 62 1 74 1 0 1 1
49 0 68 0 0 0 1 62 0 75 0 0 0 1
50 1 79 1 0 1 1 63 1 68 1 1 0 1
50 0 79 0 0 0 1 63 0 69 1 0 0 1
51 1 72 1 0 0 0
51 0 71 1 0 1 1
hvb = histórico vesı́cula biliar (1 se sim e 0 se não), hip = hipertensão (1 se sim e 0 se não),
> help(dchisq)
> x<-1:40
> plot(x,x*0,pch="",ylim=range(c(0,0.15)),xlim=range(c(0,40)),
xlab="x",ylab="f(x)",bty="n")
> lines(dchisq(x,1),lty=1,c=1)
> lines(dchisq(x,5),lty=2,c=2)
> lines(dchisq(x,12),lty=3,c=3)
> lines(dchisq(x,25),lty=4,c=4)
> lines(dchisq(x,30),lty=5,c=5)
> pchisq(3.84,1)
> 1-pchisq(3.84,1)
> qchisq(0.95,1)
> gera<-sort(rchisq(5000,5))
> plot(dchisq(gera,5))
> dados<-matrix(c(40,16,20,48),nc=2)
> dados
> Qp<-chisq.test(dados,correct=F)
> Qp
> n<-sum(dados)
> Q<-((n-1)/n)*Qp$statistic
> Q
> p<-1-pchisq(Q,1)
> p
> dados<-matrix(c(40,16,20,48),nc=2)
> dados
> p11<-(dados[1,1]/(sum(dados[1,])))
140 Apêndice
> p21<-(dados[2,1]/(sum(dados[2,])))
> d<-p11-p21
> d
> vd<- ((p11*(1-p11))/(sum(dados[1,])-1)) + ((p21*(1-p21))/(sum(dados[2,])-1))
> dvd<-sqrt(vd)
> z<-qnorm(0.975)
> corr<-0.5*((1/(sum(dados[1,]))) + (1/(sum(dados[2,]))))
> li<- d - ((z*dvd) + corr)
> li
> ls<- d + ((z*dvd) + corr)
> ls
> dados<-matrix(c(16,40,48,20),nc=2)
> dados
> OR<-(dados[1,1]*dados[2,2])/(dados[1,2]*dados[2,1])
> OR
> vf<-(1/dados[1,1])+(1/dados[1,2])+(1/dados[2,1]+(1/dados[2,2]))
> vf
> dpf<-sqrt(vf)
> dpf
> z<-qnorm(0.975)
> li<-exp(log(OR)-z*dpf)
> li
> ls<-exp(log(OR)+z*dpf)
> ls
> dados<-matrix(c(40,16,20,48),nc=2)
> dados
> p11<-(dados[1,1]/(sum(dados[1,])))
> p21<-(dados[2,1]/(sum(dados[2,])))
> RR<-p11/p21
> RR
> vf1<-((1-p11)/(sum(dados[1,])*p11)) + ((1-p21)/(sum(dados[2,])*p21))
> dpf1<-sqrt(vf1)
> z<-qnorm(0.975)
> li<-exp(log(RR)-z*dpf1)
Apêndice 141
> li
> ls<-exp(log(RR)+z*dpf1)
> ls
7. Teste de Mcnemar
> dados<-matrix(c(20,10,5,10),nc=2)
> dados
> mcnemar.test(dados,correct=F)
> dados<-matrix(c(13,29,7,7,21,7),nc=3)
> dados
> escore<-c(1,2,3)
> fb1<-(sum(dados[1,]*escore))/sum(dados[1,])
> fb2<-(sum(dados[2,]*escore))/sum(dados[2,])
> esp<-(c(sum(dados[,1]),sum(dados[,2]),sum(dados[,3])))/sum(dados)
> mua<-sum(escore*esp)
> va<-sum((escore-mua)^2*esp)
> vbf1<-((sum(dados) - sum(dados[1,]))/(sum(dados[1,])*(sum(dados)-1)))*va
> QS = ((fb1-mua)^2)/vbf1
> QS
> gl<-nrow(dados)-1
> p<-1-pchisq(QS,gl)
> p
> x<-c(rep(1,84),rep(2,198),rep(3,205))
> y<-c(rep(0,59),rep(1,25),rep(0,169),rep(1,29),rep(0,196),rep(1,9))
> rac<-cor(y,x)
> n<-length(x)
> QCS<-(n-1)*rac^2
> QCS
> p<-1-pchisq(QCS,1)
> tab<-array(c(29,14,16,31,37,24,8,21),dim=c(2,2,2))
> mantelhaen.test(tab, correct=F)
142 Apêndice
> dados<-matrix(c(6,19,7,10,5,7,2,0,16,6,5,1),nc=3)
> dados
> escore<-c(0,1,2)
> fb11<-(sum(dados[1,]*escore))/sum(dados[1,])
> fb21<-(sum(dados[3,]*escore))/sum(dados[3,])
> c(fb11,fb21)
> fm1<-sum(c(sum(dados[1,]),sum(dados[3,]))*c(fb11,fb21))
> esp1<-(c(sum(dados[1:2,1]),sum(dados[1:2,2]),sum(dados[1:2,3])))/sum(dados[1:2,])
> mu1<-sum(escore*esp1)
> esp2<-(c(sum(dados[3:4,1]),sum(dados[3:4,2]),sum(dados[3:4,3])))/sum(dados[3:4,])
> mu2<-sum(escore*esp2)
> mu<-sum(c(sum(dados[1,]),sum(dados[3,]))*c(mu1,mu2))
> v1<- sum(((escore-mu1)^2)*esp1)
> v2<- sum(((escore-mu2)^2)*esp2)
> vfma<-(sum(dados[1,])*sum(dados[2,])*v1)/(sum(dados[1:2,])-1)
> vfmb<-(sum(dados[3,])*sum(dados[4,])*v2)/(sum(dados[3:4,])-1)
> vfm<- sum(c(vfma,vfmb))
> QSMH<-((fm1-mu)^2)/vfm
> p<-1-pchisq(QSMH,1)
> round(c(QSMH,p),digits=5)
> require(vcd)
> x<-c(38,5,0,1,33,11,3,0,10,14,5,6,3,7,3,10)
> x<-matrix(x,4,4)
> Kappa(x)
> Kappa(x, conf.level = 0.90)
> resim<-c(1,2,3,5,6,5,13,8)
> resnao<-c(9,13,9,10,7,3,4,2)
> idade<-c(25,32,38,43,47,53,57,65)
> dados<-cbind(resim, resnao,idade)
Apêndice 143
> dados
> dados<-as.data.frame(dados)
> attach(dados)
> ajust<-glm(as.matrix(dados[,c(1,2)])~idade,family=binomial, data=dados)
> ajust<-glm(as.matrix(dados[,c(1,2)])~idade,family=binomial(link="logit"),data=dados)
> ajust
> anova(ajust)
> anova(ajust,test="Chisq")
> summary(ajust)
> ajust$fitted.values
> ajust$y
> ajust$residuals
> dev<-residuals(ajust,type=’deviance’)
> dev
> QL<-sum(dev^2)
> QL
> p1<-1-pchisq(QL,6)
> p1
> rpears<-residuals(ajust,type=’pearson’)
> rpears
> QP<-sum(rpears^2)
> QP
> p2<-1-pchisq(QP,6)
> p2
> theta<-resim/(resim+resnao)
> plot(idade,theta,ylim=range(0,0.9),xlab="idade",ylab="E(Y|x)",pch=16)
> idade<-20:70
> modajust<-(exp(-5.123+0.1058*idade))/(1+ exp(-5.123+0.1058*idade))
> modajust
> lines(idade,modajust)
> resim<-c(4,8,9,21)
> resnao<-c(11,10,9,6)
> sexo<-c(0,0,1,1)
> ecg<-c(0,1,0,1)
> dados<-cbind(resim, resnao,sexo,ecg)
> dados
> dados<-as.data.frame(dados)
> attach(dados)
144 Apêndice
> ajust<-glm(as.matrix(dados[,c(1,2)])~sexo+ecg,
family=binomial(link="logit"),data=dados)
> ajust
> summary(ajust)
> anova(ajust,test="Chisq")
> names(ajust)
> ajust$fitted.values
> ajust$y
> ajust$residuals
> dev<-residuals(ajust,type=’deviance’)
> dev
> QL<-sum(dev^2)
> QL
> p1<-1-pchisq(QL,1)
> p1
> rpears<-residuals(ajust,type=’pearson’)
> rpears
> QP<-sum(rpears^2)
> QP
> p2<-1-pchisq(QP,1)
> p2
> ajust1<- glm(as.matrix(dados[,c(1,2)])~sexo+ecg+sexo*ecg,
family=binomial(link="logit"),data=dados)
> ajust1
> anova(ajust1, test = "Chisq")
> resim<-c(78,101,68,40,54,34)
> resnao<-c(28,11,46,5,5,6)
> diag<-c(1,1,1,0,0,0)
> tratA<-c(1,0,0,1,0,0)
> tratB<-c(0,1,0,0,1,0)
> int1<-diag*tratA
> int2<-diag*tratB
> dados<-cbind(resim, resnao,diag,tratA,tratB,int1,int2)
> dados
> dados<-as.data.frame(dados)
> attach(dados)
> ajust1<-glm(as.matrix(dados[,c(1,2)])~diag+tratA+tratB+int1+int2,
family=binomial(link="logit"),data=dados)
Apêndice 145
> ajust1
> summary(ajust1)
> anova(ajust1)
> ajust<-glm(as.matrix(dados[,c(1,2)])~diag+tratA+tratB,
family=binomial(link="logit"),data=dados)
> ajust
> ajust$fitted.values
> ajust$y
> dev<-residuals(ajust,type=’deviance’)
> dev
> QL<-sum(dev^2)
> QL
> p1<-1-pchisq(QL,2)
> p1
> rpears<-residuals(ajust,type=’pearson’)
> rpears
> QP<-sum(rpears^2)
> QP
> p2<-1-pchisq(QP,2)
> p2
> logito<-log(ajust$fitted.values/(1-ajust$fitted.values))
> logito
> odds<-ajust$fitted.values/(1-ajust$fitted.values)
> odds
> dc<-c(0,0,0,1,0,1,0,0,0,0,0,0,1,0,1,1,0,0,0,0,1,1,0,0,0,0,1,1,0,0,1,1,0,0,1,1,1,0,1,
1,0,1,0,0,0,1,1,0,1,1,0,1,1,0,0,1,1,0,0,0,1,1,1,1,1,1,1,1,1,0,1,1,1,1,0,1,1,1)
> sexo<-c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1)
> ecg<-c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,2,2,2,2,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2)
> idade<-c(28,34,38,41,44,45,46,47,50,51,51,53,55,59,60,32,33,35,39,40,42,44,45,46,48,50,
52,52,54,55,59,59,32,37,38,38,42,43,43,44,46,48,49,49,52,53,54,55,57,46,48,57,
60,30,34,36,38,39,42,45,45,45,46,48,57,57,59,60,63,35,37,43,47,48,49,58,59,60)
> ajust1<-glm(dc~sexo+ecg+idade+sexo*ecg+sexo*idade+ecg*idade+sexo*ecg*idade,
family=binomial(link="logit"))
> ajust1
> summary(ajust1)
> anova(ajust1,test="Chisq")
146 Apêndice
> ajust2<-glm(dc~sexo+ecg+idade,family=binomial(link="logit"))
> ajust2
> summary(ajust2)
> anova(ajust2, test="Chisq")
> cbind(dc,sexo,ecg,idade,ajust2$fitted.values)
> dev<-residuals(ajust2,type=’deviance’)
> dev
> plot(dev)
> rpears<-residuals(ajust2,type=’pearson’)
> rpears
> plot(rpears)
> require(MASS)
> melhora<-rep(c("ac","alg","nenh"),4)
> sexo<-c(1,1,1,1,1,1,0,0,0,0,0,0)
> trat<-c(1,1,1,0,0,0,1,1,1,0,0,0)
> Freq<-c(16,5,6,6,7,19,5,2,7,1,0,10)
> artrite<-cbind(melhora,sexo,trat)
> artrite<-as.data.frame(artrite)
> attach(artrite)
> options(contrasts = c("contr.treatment", "contr.poly"))
> ajust1 <- polr(melhora ~ sexo + trat + sexo*trat, weights = Freq, data=artrite)
> ajust1
> summary(ajust1)
> ajust2 <- polr(melhora ~ sexo + trat, weights= Freq, data = artrite)
> ajust2
> summary(ajust2)
> ajust2$fitted.values
*******************************************************************************
* Obs: inverter sinais dos par^
ametros dos efeitos e manter os dos interceptos *
*******************************************************************************
148 Apêndice
14.2 Exemplo: modelo de logitos generalizados (obs: executar no sof tware SAS)
data school;
input escola periodo $ pref $ count @@;
datalines;
1 pad ind 10 1 pad gr 17 1 pad aula 26
1 int ind 5 1 int gr 12 1 int aula 50
2 pad ind 21 2 pad gr 17 2 pad aula 26
2 int ind 16 2 int gr 12 2 int aula 36
3 pad ind 15 3 pad gr 15 3 pad aula 16
3 int ind 12 3 int gr 12 3 int aula 20
;
run;
proc catmod order=data;
weight count;
model pref = escola periodo escola*periodo;
run;
proc catmod order=data;
weight count;
model pref = escola periodo;
run;
proc catmod order=data;
weight count;
model pref = escola;
run;
proc catmod order=data;
weight count;
model pref = ; run;
> skin<-read.table("http://www.est.ufpr.br/~suely/CE073/Dados/skin.txt",h=T)
> attach(skin)
> require(survival)
> model1<-clogit(melhora~trat+sexo+idade+grauini+strata(clinica))
> model1
> summary(model1)
> plot(model1$residuals, pch=16)
> model2<-clogit(melhora~trat+grauini+strata(clinica))
Apêndice 149
> model2
> summary(model2)
> plot(model2$residuals, pch=16,ylab="residuos",xlab="i")
> cross<-read.table("http://www.est.ufpr.br/~suely/CE073/Dados/cross.txt",h=T)
> attach(cross)
> resB<-c(rep(c(0,0),50),rep(c(0,1),50),rep(c(0,0),50),
rep(c(0,1),50),rep(c(0,0),50),rep(c(0,0),50))
> cross4$resB<-resB
> attach(cross4)
> resp<-rep(0,600)
> for(i in 1:600){
> ifelse(p1[i]==1 & p2[i]==1, resp[i]<-1,resp[i])
> ifelse(p1[i]==1 & p2[i]==2 & periodo[i]==1, resp[i]<-1,resp[i])
> ifelse(p1[i]==1 & p2[i]==2 & periodo[i]==0, resp[i]<-0,resp[i])
> ifelse(p1[i]==2 & p2[i]==1 & periodo[i]==1, resp[i]<-0,resp[i])
> ifelse(p1[i]==2 & p2[i]==1 & periodo[i]==0, resp[i]<-1,resp[i])
> ifelse(p1[i]==2 & p2[i]==2, resp[i]<-0, resp[i])}
> cross4$resp<-resp
> gpidade<-periodo*idade;
> cross4$gpidade<-gpidade
> match<-read.table("http://www.est.ufpr.br/~suely/CE073/Dados/match.txt",h=T)
Apêndice 151
> attach(match)
> require(survival)
> model1<-clogit(cc~hvb+est+hip+id+nest+strata(par),data=match)
> model1
> model2<-clogit(cc~hvb+est+strata(par),data=match)
> model2
> summary(model2)
> plot(model2$residuals, pch=16)
Bibliografia
AGRESTI, A. Categorical data Analysis. New York: John Wiley & Sons,
1990.
153
154 Bibliografia
MANTEL, N. FLEISS, J. Minimum expected cell size requirements for the Mantel-
Haenszel one-degree of freedom chi-square test and a related rapid proce-
dure, American Journal of Epidemiology, v.112, p.129-143, 1980.
SEMENYA, K.A., KOCH, G.G. Linear models analysis for rank functions ordinal
categorical data. Proceedings of the Statistical Computing Section
of the American Statistical Association, p.271-276, 1980.
SILVEIRA NETO, S., NAKANO, O., BARBIN, D., VILLA NOVA, N.A. Ma-
nual de Ecologia dos Insetos. São Paulo: Agronômica Ceres, 1976,
419p.
de Pearson, 27 multinomial, 7
caso-controle, 14
odds ratio, 29
clı́nico aleatorizado, 16
cross-sectional, 18 pareamento, 126
crossover, 122 prevalência, 20
de coorte, 11
descritivos, 11 QQplot com envelope simulado, 100
155
razão de chances, 29
regressão logı́stica
condicional, 117
dicotômica, 71
politômica, 103
resı́duos
de Pearson, 84
deviance, 84
risco relativo, 30
sensibilidade, 35
teste
da razão de verossimilhanças, 79
de Mantel-Haenszel, 53
de McNemar, 37
exato, 45
variáveis
dicotômicas, 2
nominais, 4
ordinais, 3