UNIVERSIDADE FEDERAL DO PARAN

´
A
DEPARTAMENTO DE ESTAT
´
ISTICA
AN
´
ALISE DE DADOS DISCRETOS
Suely Ruiz Giolo
C U R I T I B A
Estado do Paran´ a - Brasil
2004
Pref´acio
Este material baseia-se em v´ arios livros e artigos citados e tem como objetivo apre-
sentar um texto introdut´ orio sobre a An´ alise de Dados Discretos. Ele pode ser usado
em cursos de Bacharelado em Estat´ıstica, bem como em outros cursos de gradua¸ c˜ ao
e de p´ os-gradua¸ c˜ ao, em que os alunos tenham conhecimentos b´ asicos de probabili-
dade, inferˆencia e regress˜ ao bem como tenham, tamb´em, no¸ c˜ oes de alguns testes n˜ ao-
par´ ametricos.
O texto se originou de notas de aulas da disciplina An´ alise de Dados Discretos,
ministrada no curso de Bacharelado em Estat´ıstica da Universidade Federal do Paran´ a,
com o prop´ osito de apresentar m´etodos para a descri¸ c˜ ao, an´ alise e modelagem de dados
em que a vari´ avel resposta de interesse seja categ´ orica. Diversos exemplos s˜ ao apresen-
tados e discutidos no decorrer do texto a fim de facilitar o entendimento dos conceitos,
m´etodos e modelos apresentados.
O manuscrito foi preparado usando o LaTex e as ilustra¸ c˜ oes e resultados es-
tat´ısticos foram obtidos no pacote estat´ıstico R. O texto n˜ ao est´ a livre de erros e
imperfei¸ c˜ oes e, desse modo, coment´ arios, cr´ıticas e sugest˜ oes dos leitores, que possam
contribuir para uma futura edi¸ c˜ ao revisada do mesmo, s˜ ao bem-vindos.
Suely Ruiz Giolo
Curitiba, mar¸ co de 2004.
SUM
´
ARIO
P´ agina
1 INTRODUC¸
˜
AO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Escalas de Mensura¸ c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Dados Obtidos nos Delineamentos Amostrais . . . . . . . . . . . . . . . . . 4
1.2.1 Dados hist´ oricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Dados experimentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.3 Dados de levantamentos amostrais . . . . . . . . . . . . . . . . . . . . . . 5
2 TABELAS DE CONTING
ˆ
ENCIA 2 × 2 . . . . . . . . . . . . . . . . . . . . 6
2.1 Modelo produto de Binomiais independentes . . . . . . . . . . . . . . . . . 6
2.2 Modelo Multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Modelo Produto de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4 Modelo Hipergeom´etrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5 Estudos freq¨ uentes e modelos probabil´ısticos associados . . . . . . . . . . . 9
2.5.1 Estudos de Coorte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.2 Estudos Caso-Controle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5.3 Estudos cross-sectional ou tranversais . . . . . . . . . . . . . . . . . . . . 14
2.5.4 Ensaios cl´ınicos aleatorizados . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6 Estat´ısticas de teste e Medidas de Associa¸ c˜ ao . . . . . . . . . . . . . . . . . 16
2.6.1 Estat´ısticas Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.6.2 Testes Exatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.6.3 Diferen¸ ca nas propor¸ c˜ oes . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.6.4 Risco relativo e odds ratio (raz˜ ao de chances) . . . . . . . . . . . . . . . 19
ii
2.6.5 Sensibilidade e Especificidade . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6.6 Teste de McNemar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3 TABELAS DE CONTING
ˆ
ENCIA: OUTRAS DIMENS
˜
OES . . . . . . . . . 27
3.1 Conjunto de tabelas de contingˆencia 2 × 2 . . . . . . . . . . . . . . . . . . 27
3.1.1 Teste de Mantel-Haenszel . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.2 Medidas de associa¸ c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Conjunto de tabelas de contingˆencia 2 × r . . . . . . . . . . . . . . . . . . 30
3.2.1 Associa¸ c˜ ao em uma ´ unica tabela de contingˆencia 2 × r . . . . . . . . . . 31
3.2.1.1 Escolha dos escores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.2 Associa¸ c˜ ao em um conjunto de tabelas de contingˆencia 2 × r . . . . . . . 34
3.3 Conjunto de tabelas de contingˆencia s ×2 . . . . . . . . . . . . . . . . . . . 35
3.3.1 Associa¸ c˜ ao em uma ´ unica tabela de contingˆencia s ×2 . . . . . . . . . . 36
3.3.2 Associa¸ c˜ ao em um conjunto de tabelas de contingˆencia s × 2 . . . . . . 37
3.4 Tabelas de contingˆencia s ×r . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4.1 Testes para associa¸ c˜ ao geral em tabelas s ×r . . . . . . . . . . . . . . . . 38
3.4.1.1 Situa¸ c˜ ao 1: vari´ avel resposta nominal . . . . . . . . . . . . . . . . . . . 38
3.4.1.2 Situa¸ c˜ ao 2: vari´ avel resposta ordinal . . . . . . . . . . . . . . . . . . . . 39
3.4.1.3 Situa¸ c˜ ao 3: ambas as vari´ aveis ordinais . . . . . . . . . . . . . . . . . . 39
3.4.2 Teste exato para associa¸ c˜ ao geral em tabelas s ×r . . . . . . . . . . . . . 40
3.4.3 Medidas de associa¸ c˜ ao em tabelas s ×r . . . . . . . . . . . . . . . . . . . 40
3.4.4 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.4.1 Local de moradia e afilia¸ c˜ oes pol´ıtico partid´ arias . . . . . . . . . . . . . 41
3.4.4.2 Medicamentos para dor de cabe¸ ca e per´ıodo sem dor . . . . . . . . . . . 41
3.4.4.3 Produtos de limpeza de roupas e intensidade da limpeza . . . . . . . . . 43
3.4.4.4 Tipo de ve´ıculo adquirido e fonte de propaganda. . . . . . . . . . . . . . 43
3.4.5 Concordˆ ancia entre observadores . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.5.1 Estat´ıstica Kappa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.5.2 Exemplo: concordˆ ancia entre o diagn´ ostico de dois neurologistas . . . . 46
3.5 Conjunto de tabelas de contingˆencia s ×r . . . . . . . . . . . . . . . . . . . 47
iii
4 REGRESS
˜
AO LOG
´
ISTICA DICOT
ˆ
OMICA . . . . . . . . . . . . . . . . . . 48
4.1 Estima¸ c˜ ao dos parˆ ametros . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2 Significˆ ancia das vari´ aveis no modelo . . . . . . . . . . . . . . . . . . . . . 54
4.2.1 An´ alise de Deviance e sele¸ c˜ ao de modelos . . . . . . . . . . . . . . . . . . 56
4.3 Qualidade do modelo ajustado . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.1 O modelo ajustado e interpreta¸ c˜ oes . . . . . . . . . . . . . . . . . . . . . 59
4.4 Diagn´ ostico da regress˜ ao log´ıstica . . . . . . . . . . . . . . . . . . . . . . . 59
4.5 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.5.1 Exemplo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.5.1.1 Resultados e conclus˜ oes obtidas para os dados do exemplo 1 . . . . . . . 64
4.5.2 Exemplo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.5.3 Exemplo 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.5.4 M´etodos auxiliares no diagn´ otico do modelo ajustado . . . . . . . . . . . 73
4.5.4.1 QQplot com envelope simulado . . . . . . . . . . . . . . . . . . . . . . . 73
4.5.4.2 Poder preditivo do modelo e outras medidas auxiliares . . . . . . . . . . 74
5 REGRESS
˜
AO LOG
´
ISTICA POLIT
ˆ
OMICA . . . . . . . . . . . . . . . . . . 76
5.1 Resposta ordinal: modelo de odds proporcionais . . . . . . . . . . . . . . . 76
5.1.1 Regress˜ ao log´ıstica politˆ omica ajustada aos dados sobre artrite . . . . . . 78
5.2 Resposta nominal: modelo de logitos generalizados . . . . . . . . . . . . . . 82
5.2.1 Logitos generalizados ajustados aos dados do programa escolar . . . . . . 84
BIBLIOGRAFIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
1 INTRODUC¸
˜
AO
Analistas de dados freq¨ uentemente se deparam com experimentos cujas respos-
tas de interesse s˜ ao, por natureza, categ´ oricas e refletem, portanto, categorias de in-
forma¸ c˜ ao em vez da usual escala intervalar. Dados categ´ oricos s˜ ao, em geral, apresenta-
dos na forma de tabelas, conhecidas como tabelas de contingˆencia. A an´ alise de dados
categ´ oricos (ou discretos) trata, portanto, da an´ alise de experimentos em que a vari´ avel
resposta ´e categ´ orica. Quanto as vari´ aveis explanat´ orias (covari´ aveis), estas podem ser
tanto categ´ oricas quanto cont´ınuas.
Observar a escala de mensura¸ c˜ ao (dicotˆ omica, ordinal, nominal etc.) das vari´ aveis
categ´ oricas e identificar o delineamento amostral que produziu os dados, s˜ ao fatores
muito importantes para a determina¸ c˜ ao de uma an´ alise apropriada e, conseq¨ uentemente,
das poss´ıveis inferˆencias.
Na se¸ c˜ ao 1.1 s˜ ao, portanto, descritas e ilustradas v´ arias escalas de mensura¸ c˜ ao
das vari´ aveis categ´ oricas e, na se¸ c˜ ao 1.2, s˜ ao descritos os delineamento amostrais mais
freq¨ uentes.
1.1 Escalas de Mensura¸ c˜ao
A escala de mensura¸ c˜ ao de uma vari´ avel categ´ orica ´e um elemento chave para
a escolha de uma estrat´egia de an´ alise. N˜ ao consider´ a-la pode, portanto, implicar na
escolha inapropriada de uma estrat´egia que pode levar a conclus˜ oes errˆ oneas.
De um modo geral, vari´ aveis resposta categ´ oricas podem ser:
• dicotˆ omica
• ordinal
• nominal
• contagens discretas.
Giolo, S. R. An´ alise de Dados Discretos 2
Respostas dicotˆ omicas s˜ ao aquelas que apresentam duas possibilidades de res-
posta. O objetivo, por exemplo, de um ensaio cl´ınico realizado para testar um novo
medicamento ´e saber se o paciente obteve, ou n˜ ao, uma melhora. Nesses casos, ´e comum
a representa¸ c˜ ao dos dados em uma tabela de contingˆencia 2 × 2, como mostrado na
Tabela 1.
Tabela 1. Resposta ao novo medicamento.
Melhora
Medicamento Sim N˜ ao Total
Novo 40 20 60
Placebo 16 48 64
A resposta, nesse exemplo, ´e dicotˆ omica e a an´ alise investiga a rela¸ c˜ ao entre a
resposta e o medicamento.
Vari´ aveis categ´ oricas com mais do que duas possibilidades de resposta, e
que apresentam uma certa ordena¸ c˜ ao natural, s˜ ao tamb´em freq¨ uentes. Tais vari´ aveis,
ditas apresentarem um escala ordinal de mensura¸ c˜ ao, podem, por exemplo, resultar de
quest˜ oes tais como: i) A nova grade curricular produziu pequeno, algum ou grande
entusiasmo entre os estudantes? ii) A ´ agua exibe baixo, m´edio ou alto grau de pureza?
Observe, nesses exemplos, que h´ a uma ordem clara das categorias de resposta, mas
n˜ ao existe, contudo, ind´ıcios quanto ` as distˆ ancias relativas entre os n´ıveis. Note em ii)
que existe uma poss´ıvel distˆ ancia entre os n´ıveis: m´edio pode significar 2 vezes mais
puro do que baixo e alto 3 vezes mais puro do que baixo. Algumas vezes a distˆ ancia
encontra-se mais clara. A Tabela 2 mostra um exemplo de um experimento com
resposta categ´ orica ordinal.
Observe que vari´ aveis resposta categ´ oricas podem ser tratadas de diferentes
modos. Pode-se, por exemplo, combinar as colunas com as respostas “Acentuada”
e “Alguma” da Tabela 2 para produzir uma resposta dicotˆ omica: “melhora” versus
Giolo, S. R. An´ alise de Dados Discretos 3
Tabela 2. Resultado de um ensaio cl´ınico realizado com pacientes do sexo feminino
e masculino para investigar um tratamento para artrite reumat´ oide.
Melhora
Sexo Tratamento Acentuada Alguma Nenhuma Total
Feminino Ativo 16 5 6 27
Feminino Placebo 6 7 19 32
Masculino Ativo 5 2 7 14
Masculino Placebo 1 0 10 11
“n˜ ao melhora”. Grupar categorias ´e usual durante uma an´ alise se, ´e claro, a resposta
dicotˆ omica resultante for tamb´em de interesse.
Se, no entanto, existirem mais do que duas categorias de resposta e ne-
nhuma ordena¸ c˜ ao para estas categorias, tem-se uma escala de mensura¸ c˜ ao nominal.
Por exemplo, i) preferˆencia de local para passar as f´erias: praia, montanha ou fazenda,
ii) candidato de sua preferˆencia: A, X, Y ou Z. Observe, em ambos os exemplos, que
n˜ ao existe nenhuma aparente maneira de ordenar as categorias de resposta.
Vari´ aveis resposta categ´ oricas podem tamb´em apresentar contagens discretas.
Em vez de categorias tais como “sim e n˜ ao” ou “baixo, m´edio e alto”, as respostas
s˜ ao n´ umeros. Alguns exemplos s˜ ao: i) tamanho da ninhada: 1, 2, 3, 4 ou 5 membros;
ii) n´ umero de televisores em uma casa: 1, 2, 3 ou 4. Em tais situa¸ c˜ oes poder-se-ia
pensar na usual estrat´egia de analisar a contagem m´edia. No entanto, as suposi¸ c˜ oes
exigidas para o modelo linear padr˜ ao, usado para dados cont´ınuos, n˜ ao s˜ ao, em geral,
atendidas com contagens discretas que tˆem uma amplitude pequena, contagens que
n˜ ao s˜ ao normalmente distribu´ıdas e podem, ainda, n˜ ao apresentar variˆ ancia homogˆenea.
Em algumas situa¸ c˜ oes vari´ aveis cont´ınuas s˜ ao, por interesse do pesquisador,
Giolo, S. R. An´ alise de Dados Discretos 4
categorizadas em intervalos e tratadas, ent˜ ao, como vari´ aveis categ´ oricas. A vari´ avel
peso, por exemplo, pode ser categorizada em “obeso” e “n˜ ao-obeso” ou, ainda, em
intervalos tais como < 60kg, [60, 100)kg, [100, 150)kg e ≥ 150kg.
1.2 Dados Obtidos nos Delineamentos Amostrais
Em um problema estat´ıstico ´e, inicialmente, conveniente diferenciar os tipos de
vari´ aveis observadas entre (i) vari´ aveis resposta e (ii) vari´ aveis explanat´ orias ou fatores
(as quais afetam a resposta). Em um dado problema fazer essa distin¸ c˜ ao depende do
delineamento e do prop´ osito da investiga¸ c˜ ao.
Os estudos observacionais, estudos experimentais e levantamentos amostrais s˜ ao,
de um modo geral, os delineamentos amostrais mais comuns e estes conduzem, respec-
tivamente, a obten¸ c˜ ao de: a) dados hist´ oricos, b) dados experimentais e c) dados de
levantamentos amostrais.
1.2.1 Dados hist´ oricos
Dados hist´ oricos s˜ ao dados observacionais o que significa que a popula¸ c˜ ao em
estudo tem uma defini¸ c˜ ao geogr´ afica ou circunstancial. Dados dessa natureza s˜ ao, por
exemplo, todas as ocorrˆencias de uma doen¸ ca em uma regi˜ ao espec´ıfica ou, todas as
crian¸ cas que freq¨ uentam uma particular escola prim´ aria.
Os dados hist´ oricos n˜ ao envolvem aleatoriza¸ c˜ ao para a sua obten¸ c˜ ao e, sendo
assim, ´e dif´ıcil assumir que eles sejam representativos de uma dada popula¸ c˜ ao.
1.2.2 Dados experimentais
Dados experimentais s˜ ao obtidos de estudos que envolvam a aloca¸ c˜ ao aleat´ oria
dos indiv´ıduos a, por exemplo, diferentes tratamentos. Outros exemplos s˜ ao: estudos
em que diferentes fertilizantes (ou diferentes dosagens de um fertilizante) s˜ ao aplicados
em ´ areas distintas de uma cultura ou, ainda, estudos em que diferentes dosagens de
uma droga terapˆeutica s˜ ao aplicadas a grupos distintos de indiv´ıduos.
Giolo, S. R. An´ alise de Dados Discretos 5
1.2.3 Dados de levantamentos amostrais
Em estudos dessa natureza, indiv´ıduos s˜ ao aleatoriamente escolhidos de uma
grande popula¸ c˜ ao de interesse. O censo por amostragem, em que a cada 10 casas
entrevistadas, 1 delas responde a um question´ ario mais detalhado, ´e um exemplo desse
tipo de estudo.
Alguns delineamentos amostrais podem tamb´em ser a combina¸ c˜ ao de um
levantamento amostral e um estudo experimental. Pesquisadores podem, por exemplo,
selecionar aleatoriamente uma popula¸ c˜ ao e, ent˜ ao, designar aleatoriamente tratamentos
aos indiv´ıduos sob estudo. Note que a unidade de aleatoriza¸ c˜ ao pode ser, dentre
outros, um indiv´ıduo ou um grupo de indiv´ıduos.
Al´em da escala de mensura¸ c˜ ao e do delineamento amostral, deve-se tamb´em
considerar se os dados s˜ ao suficientes para assegurar a teoria assint´ otica exigida por
muitos testes. Muitas vezes pode-se ter um total amostral muito pequeno ou, ent˜ ao,
um n´ umero grande de caselas com contagens zeros, ou muito pequenas, que tornam as
suposi¸ c˜ oes assint´ oticas question´ aveis.
Algumas estrat´egias de an´ alise de dados categ´ oricos ser˜ ao, portanto, tratadas
nesse material. Ser´ a considerado, inicialmente, a an´ alise de tabelas de contingˆencia
2 × 2, estendendo-se, ent˜ ao, para tabelas s × 2, 2 × r e s × r. Ser´ a visto que muitas
quest˜ oes sobre dados categ´ oricos podem ser respondidas por meio do estabelecimento
de hip´ oteses de associa¸ c˜ ao. Para, no entanto, descrever a natureza dessa associa¸ c˜ ao,
quando presente nos dados, bem como os padr˜ oes dessa associa¸ c˜ ao, modelos estat´ısticos
ser˜ ao usados. Dentre os poss´ıveis modelos, utilizados na an´ alise de dados categ´ oricos,
encontram-se: os modelos log-lineares, a regress˜ ao log´ıstica e a regress˜ ao Poisson.
2 TABELAS DE CONTING
ˆ
ENCIA 2 × 2
Considere a tabela de contingˆencia apresentada na Tabela 3, a qual ´e uma maneira
comum de resumir e representar dados categ´ oricos.
Tabela 3. Tabela de contingˆencia s = 2 × r = 2.
Coluna
Linha A B Totais
A n
11
n
12
n
1+
B n
21
n
22
n
2+
Totais n
+1
n
+2
n
Pela Tabela 3 pode-se observar freq¨ uˆencias, representadas por n
11
, · · · , n
22
,
n
1+
, · · · , n
+2
e n, associadas ` as diversas caselas. Os totais n
1+
, n
2+
, n
+1
e n
+2
s˜ ao
denominados totais marginais e n total ou tamanho amostral. Esses totais, ao serem
considerados no delineamento amostral como fixos ou aleat´ orios, indicam o modelo
probabil´ıstico a ser considerado.
2.1 Modelo produto de Binomiais independentes
Se, por exemplo, o experimento for realizado de modo que n
1+
e n
2+
sejam
amostras aleat´ orias obtidas de dois grupos independentes e de tamanhos fixos (isto ´e, de
tamanhos estabelecidos antes da execu¸ c˜ ao do experimento), tem-se duas distribui¸ c˜ oes
binomiais independentes associadas ` a Tabela 3, uma para cada linha. O modelo proba-
bil´ıstico associado ` a Tabela 3, nessa situa¸ c˜ ao, ser´ a, portanto, o modelo produto de
binomiais independentes de modo a ter-se:
Giolo, S. R. An´ alise de Dados Discretos 7
i) uma vari´ avel aleat´ oria N
11
com distribui¸ c˜ ao Bin(n
1+
, p
11
) associada a 1
a
linha da
tabela e,
ii) outra vari´ avel aleat´ oria N
21
, independente da primeira, com distribui¸ c˜ ao
Bin(n
2+
, p
21
) associada a 2
a
linha desta mesma tabela
em que, p
11
´e a probabilidade de qualquer indiv´ıduo pertencente ` a 1
a
linha ser classi-
ficado na 1
a
coluna e, analogamente, p
21
´e a probabilidade de qualquer indiv´ıduo per-
tencente ` a 2
a
linha ser classificado na 1
a
coluna. Observe que
2
¸
j=1
p
1j
= 1 e
2
¸
j=1
p
2j
= 1.
Assim, tem-se que a distribui¸ c˜ ao associada ` a Tabela 3 ´e o produto de Binomias inde-
pendentes descrita pela fun¸ c˜ ao de probabilidade:
P(N
11
= n
11
, N
21
= n
21
) =
2
¸
i=1

n
i+
!
2
¸
j=1
p
n
ij
ij
n
ij
!
¸
. (1)
2.2 Modelo Multinomial
Se, no entanto, o experimento for realizado de modo que apenas n seja uma
amostra aleat´ oria de tamanho fixo tem-se, associado ` a Tabela 3, a distribui¸ c˜ ao Multi-
nomial descrita pela fun¸ c˜ ao de probabilidade:
P(N
11
= n
11
, N
12
= n
12
, N
21
= n
21
, N
22
= n
22
) = P(N
ij
= n
ij
)
= n!
2
¸
i,j=1
p
n
ij
ij
n
ij!
(2)
sendo,
2
¸
i,j=1
n
ij
= n e
2
¸
i,j=1
p
ij
= 1.
2.3 Modelo Produto de Poisson
Em alguns experimentos pode ocorrer de nenhum dos tamanhos amostrais serem
fixos. Um exemplo, desses experimentos, ´e o da coleta de insetos em armadilhas adesivas
de duas cores, descrito em Silveira Neto et al. (1976) e Dem´etrio (2001), e apresentado
na Tabela 4, em que os indiv´ıduos coletados de uma determinada esp´ecie foram sexados,
Giolo, S. R. An´ alise de Dados Discretos 8
com o fim de se verificar a influˆencia da cor da armadilha sobre a atra¸ c˜ ao de machos e
fˆemeas dessa esp´ecie.
Tabela 4. N´ umero de insetos coletados em armadilhas e sexados
Sexo
Armadilha Machos Fˆemeas Total
Alaranjada 246 17 263
Amarela 458 32 490
Total 704 49 753
Nesse experimento, o n´ umero de insetos que chegam ` as armadilhas, seja macho
ou fˆemea, ´e um n´ umero (contagem) aleat´ orio, caracterizando, assim, a distribui¸ c˜ ao de
Poisson. Assume-se, ent˜ ao, que N
ij
∼ Poisson(λ
ij
) independentes, i, j = 1, 2, de modo
que associado ` a Tabela 4, tem-se a distribui¸ c˜ ao Produto de Poisson descrita pela fun¸ c˜ ao
de probabilidade:
P(N
ij
= n
ij
) =
2
¸
i=1
2
¸
j=1
e
−λ
ij
λ
n
ij
ij
n
ij
!
(3)
em que λ
ij
> 0.
2.4 Modelo Hipergeom´etrico
O modelo hipergeom´etrico ´e comum, por exemplo, em experimentos em que
pacientes s˜ ao alocados aleatoriamente a dois tratamentos considerados equivalentes
observando-se, nesses pacientes, uma resposta bin´ aria (dicotˆ omica). Sob a hip´ otese
de que os efeitos dos dois tratamentos s˜ ao iguais para cada paciente, a distribui¸ c˜ ao
hipergeom´etrica ´e considerada. Nessas situa¸ c˜ oes considera-se, portanto, que n
1+
, n
2+
e n
+1
s˜ ao fixos. A fixa¸ c˜ ao de ambas as margens da tabela provocada pelo condiciona-
mento em n
1+
, n
2+
e n
+1
, leva a que qualquer uma, por exemplo n
11
, das 4 freq¨ uˆencias
determine as restantes. Assim, N
11
tem distribui¸ c˜ ao Hipergeom´etrica com fun¸ c˜ ao de
probabilidade expressa por:
Giolo, S. R. An´ alise de Dados Discretos 9
P(N
11
= n
11
) =
C
n
1+
n
11
C
n
2+
n
21
C
n
n
+1
=
2
¸
i=1
n
i+
!
2
¸
j=1
n
+j
!
n!
2
¸
i=1
2
¸
j=1
n
ij
!
. (4)
Em s´ıntese tem-se:
Tabela 5. Modelos probabil´ısticos associados ` as tabelas de contingˆencia 2 × 2.
Tamanho amostral Totais marginais Totais marginais Modelo probabil´ıstico
n n
i+
n
+j
associado
aleat´ orio aleat´ orios aleat´ orios Produto de Poisson
fixo aleat´ orios aleat´ orios Multinomial
fixo fixos aleat´ orios Produto de Binomias
fixo fixos fixos Hipergeom´etrico
(por hip´ otese)
Na se¸ c˜ ao 2.5 s˜ ao apresentados alguns estudos freq¨ uentes e respectivos modelos
probabil´ısticos associados.
2.5 Estudos freq¨ uentes e modelos probabil´ısticos associados
2.5.1 Estudos de Coorte
Ao conduzir um estudo de Coorte, muito comum em medicina, o pesquisador
tem por interesse, por exemplo, verificar se indiv´ıduos expostos a um determinado fator
tem, ou n˜ ao, mais propens˜ ao a desenvolver determinada doen¸ ca. Ao contr´ ario do estudo
Caso-Controle, descrito adiante, em que s˜ ao escolhidos um grupo de indiv´ıduos com a
doen¸ ca e outro grupo de indiv´ıduos livres da mesma, um estudo de Coorte ´e constitu´ıdo,
em seu in´ıcio, de um grupo de indiv´ıduos, denominada Coorte, em que todos est˜ ao
livres da doen¸ ca sob investiga¸ c˜ ao. Os indiv´ıduos dessa Coorte s˜ ao ent˜ ao classificados
em expostos e n˜ ao-expostos ao fator de interesse, obtendo-se assim dois grupos (ou
duas Coortes de compara¸ c˜ ao) que ser˜ ao ent˜ ao observados por um per´ıodo de tempo
Giolo, S. R. An´ alise de Dados Discretos 10
verificando-se quais indiv´ıduos desenvolveram a doen¸ ca em quest˜ ao. Os indiv´ıduos
expostos e n˜ ao-expostos devem ser compar´ aveis, ou seja, semelhantes quanto aos demais
fatores, que n˜ ao o de interesse, para que os resultados obtidos sejam confi´ aveis.
O termo Coorte ´e ent˜ ao usado para descrever um grupo de indiv´ıduos que tˆem
algo em comum ao serem reunidos e que s˜ ao observados por um determinado per´ıodo
para que se possa verificar o que ocorre com eles.
´
E importante que todos os indiv´ıduos sejam observados por todo o per´ıodo de
seguimento, j´ a que informa¸ c˜ oes de uma Coorte incompleta podem distorcer o verdadeiro
estado das coisas. Por outro lado, o per´ıodo de tempo em que os indiv´ıduos ser˜ ao
observados deve ser significativo na hist´ oria natural da doen¸ ca em quest˜ ao para que
haja tempo suficiente de o risco se manifestar. Doen¸ cas com per´ıodo de latˆencia longa
exigir˜ ao per´ıodos longos de observa¸ c˜ ao. Entenda-se por hist´ oria natural da doen¸ ca sua
evolu¸ c˜ ao sem interven¸ c˜ ao m´edica e por per´ıodo de latˆencia o tempo entre a exposi¸ c˜ ao
ao fator e as primeiras manifesta¸ c˜ oes da doen¸ ca. Outros nomes, geralmente usados para
os estudos de Coorte s˜ ao:
• longitudinal: enfatizando que os indiv´ıduos s˜ ao acompanhados ao longo do tempo;
• prospectivo: subentendendo a dire¸ c˜ ao em que os indiv´ıduos s˜ ao acompanhados;
• de incidˆencia: chamando aten¸ c˜ ao para a medida b´ asica de novos eventos de doen¸ ca
no tempo de seguimento.
Quanto ` a forma de coleta das informa¸ c˜ oes dos indiv´ıduos pertencentes ` a Coorte
sob investiga¸ c˜ ao, pode-se ainda classificar os estudos de Coorte em: estudos de Coorte
Contemporˆ aneo e estudos de Coorte Hist´ orica. Em um estudo de Coorte Contem-
porˆ aneo, os indiv´ıduos s˜ ao escolhidos no presente e acompanhados no futuro. Em uma
Coorte Hist´ orica, os indiv´ıduos s˜ ao escolhidos em registros do passado e acompanhados
daquele per´ıodo at´e o presente. Informa¸ c˜ oes provenientes de Coortes Hist´ oricas s˜ ao
freq¨ uentemente coletadas com outros objetivos que n˜ ao especificamente o de interesse
e podem portanto n˜ ao ter a qualidade suficiente para uma pesquisa rigorosa. O mesmo
Giolo, S. R. An´ alise de Dados Discretos 11
n˜ ao ocorre com um estudo de Coorte Contemporˆ aneo, uma vez que os dados s˜ ao co-
letados especificamente para atender aos objetivos do estudo. Os estudos de Coorte
s˜ ao menos propensos aos v´ıcios que podem ocorrer nos estudos Caso-Controle e s˜ ao os
mais indicados para o estudo de riscos quando a experimenta¸ c˜ ao n˜ ao ´e poss´ıvel. Nos
estudos de Coorte ´e poss´ıvel responder a seguinte quest˜ ao: ”quantas vezes a probabi-
lidade de os indiv´ıduos expostos adquirirem a doen¸ ca ´e maior do que a probabilidade
de os indiv´ıduos n˜ ao-expostos adquirirem a doen¸ ca?”. As principais dificuldades para a
realiza¸ c˜ ao de um estudo de Coorte s˜ ao: (a) ´e um estudo mais demorado e que envolve
custos elevados pelos recursos necess´ arios para acompanhar muitos indiv´ıduos ao longo
do tempo estabelecido; (b) n˜ ao disponibiliza resultados a curto prazo; (c) os indiv´ıduos
sob estudo vivem livremente e n˜ ao sob controle do pesquisador e; (d) n˜ ao ´e vi´ avel para
doen¸ cas raras.
Na Tabela 6 encontra-se o resultado de um estudo de coorte realizado para
pesquisar a associa¸ c˜ ao de cˆ ancer de pulm˜ ao ao tabagismo.
Tabela 6. Resultado de um estudo de coorte realizado para pesquisar a associa¸ c˜ ao
do tabagismo e cˆ ancer de pulm˜ ao
Cˆ ancer de Pulm˜ ao
Fumante Sim N˜ ao Totais
Sim 75 45 120
N˜ ao 21 56 77
Totais 197
Note que os totais marginais n
1+
e n
2+
s˜ ao fixos e, portanto, tem-se associado ` a
Tabela 6 o modelo produto de Binomiais independentes, uma Binomial para cada linha
da tabela.
Giolo, S. R. An´ alise de Dados Discretos 12
2.5.2 Estudos Caso-Controle
Embora o objetivo de um estudo Caso-Controle seja o mesmo de um estudo de
Coorte, ou seja, descobrir se a exposi¸ c˜ ao a um determinado fator est´ a associada ao
desenvolvimento da doen¸ ca sob estudo, os mesmos diferem essencialmente quanto ` a
forma de sele¸ c˜ ao e coleta de informa¸ c˜ oes dos indiv´ıduos.
Nestes estudos, o pesquisador seleciona um grupo de indiv´ıduos com uma deter-
minada doen¸ ca de interesse, denominados “casos”, e outro grupo de indiv´ıduos livre
da doen¸ ca, os “controles”. Fatores associados a um risco aumentado de adoecer s˜ ao
denominados “fatores de risco”; exposi¸ c˜ ao a um fator de risco significa que uma pessoa,
antes de adoecer, esteve em contato com o fator em quest˜ ao ou o manifestou. A vali-
dade dos resultados destes estudos est´ a condicionada principalmente ` a forma de sele¸ c˜ ao
dos indiv´ıduos. Os casos devem ser preferencialmente novos e n˜ ao os j´ a existentes e os
controles devem ser compar´ aveis aos casos, isto ´e, todas as diferen¸ cas importantes, que
n˜ ao o fator de interesse, devem ser controladas quando da escolha desses indiv´ıduos.
Em outras palavras, casos e controles devem parecer ter tido chances iguais de terem
sido expostos ao fator em quest˜ ao.
Os controles s˜ ao, em geral, escolhidos segundo alguma estrat´egia que possa mi-
nimizar os v´ıcios de sele¸ c˜ ao. Uma dessas estrat´egias ´e a dos casos emparelhados aos
controles, isto ´e, para cada caso, um ou mais controles com caracter´ısticas comuns aos
casos s˜ ao selecionados.
´
E comum emparelhar por caracter´ısticas demogr´ aficas (idade,
sexo, ra¸ ca), por´em deve-se tamb´em emparelhar por outras reconhecidamente impor-
tantes. O emparelhamento apresenta contudo um risco, a de o pesquisador emparelhar
por um fator que est´ a relacionado ` a exposi¸ c˜ ao. Outra estrat´egia poss´ıvel ´e escolher
mais de um grupo de controle. A compara¸ c˜ ao dos resultados dos casos com cada um
dos grupos de controle selecionados pode trazer ` a tona potenciais v´ıcios pois, se resul-
tados diferentes forem observados na compara¸ c˜ ao dos casos com os diferentes grupos
controle, h´ a evidˆencias de que os grupos s˜ ao n˜ ao compar´ aveis. Muita aten¸ c˜ ao e cuidado
s˜ ao necess´ arios quando da sele¸ c˜ ao dos casos e controles para que a comparabilidade
entre os grupos possa ser assegurada. Aten¸ c˜ ao tamb´em deve ser dada ao n´ umero de
Giolo, S. R. An´ alise de Dados Discretos 13
indiv´ıduos sob estudo. Este deve ser suficiente para que o acaso n˜ ao interfira em de-
masia nos resultados. Uma vez selecionados os casos e controles verifica-se, para cada
indiv´ıduo, sua exposi¸ c˜ ao, ou n˜ ao, ao fator sob investiga¸ c˜ ao. O pesquisador geralmente
se utiliza para este fim de informa¸ c˜ oes passadas, dependendo assim da disponibilidade e
qualidade dos registros (protocolos) ou da mem´ oria dos pacientes. Evidentemente, isto
pode ocasionar v´ıcios no estudo. Por utilizar-se de informa¸ c˜ oes passadas, os estudos
Caso-Controle s˜ ao tamb´em denominados retrospectivos. As principais vantagens destes
estudos s˜ ao o custo e o tempo envolvidos para a obten¸ c˜ ao da resposta. Estes s˜ ao re-
lativamente pequenos quando comparados aos de outros estudos, como por exemplo, o
estudo de Coorte discutido anteriormente. Por outro lado, tais estudos apresentam um
particular problema, o de resultados propensos a v´ıcios devido principalmente a poss´ıvel
manipula¸ c˜ ao, pelos investigadores, dos grupos de compara¸ c˜ ao e por a exposi¸ c˜ ao ao fator
de interesse ser medida por meio de informa¸ c˜ oes passadas. Se aten¸ c˜ ao apropriada for
dada ` as poss´ıveis fontes de v´ıcios, estudos Caso-Controle podem ser v´ alidos e eficientes
para responder a muitas quest˜ oes cl´ınicas, em particular aquelas envolvendo doen¸ cas
raras.
Do ponto de vista te´ orico, os estudos de coorte s˜ ao mais adequados do que os
de caso-controle. Os estudos caso-controle s˜ ao, contudo, mais usados por envolverem
menor custo e menor tempo para a coleta das informa¸ c˜ oes.
Na Tabela 7 encontram-se os resultados do mesmo estudo apresentado na Tabela 6
realizado, no entanto, como um estudo caso-controle.
Tabela 7. Resultados de um estudo caso-controle realizado para pesquisar a asso-
cia¸ c˜ ao do tabagismo e cˆ ancer de pulm˜ ao
Grupos
Fumante Casos: com cˆ ancer Controles: sem cˆ ancer Totais
Sim 75 45
N˜ ao 21 56
Totais 96 101 197
Giolo, S. R. An´ alise de Dados Discretos 14
Observe que, comparativamente ao estudo de Coorte, um estudo caso-controle
apresenta os totais marginais n
+1
e n
+2
fixos em vez de n
1+
e n
2+
. Para a Tabela 7 tem-
se, tamb´em, o modelo Produto de Binomiais independentes, uma Binomial, contudo,
para cada coluna da respectiva tabela.
2.5.3 Estudos cross-sectional ou tranversais
Em estudos transversais coletam-se simultaneamente, de um grupo ou popula¸ c˜ ao
de indiv´ıduos, informa¸ c˜ oes sobre uma variedade de caracter´ısticas que s˜ ao posterior-
mente cruzadas em uma tabela de contingˆencia. Esta coleta ´e realizada em um ´ unico
ponto no tempo e, freq¨ uentemente, o pesquisador n˜ ao sabe o que ocorreu antes deste
ponto. A obten¸ c˜ ao da prevalˆencia da doen¸ ca, ou seja, da propor¸ c˜ ao do grupo com a
doen¸ ca no ponto em que se realizou a coleta ´e um dos objetivos destes estudos. Cons-
titui outro interesse, em geral, a investiga¸ c˜ ao de potenciais rela¸ c˜ oes causais entre os
fatores suspeitos serem de risco e a doen¸ ca.
Os estudos transversais podem ser vistos como avalia¸ c˜ oes fotogr´ aficas de grupos
ou popula¸ c˜ oes de indiv´ıduos. O termo transversal ´e usado para indicar que os indiv´ıduos
s˜ ao estudados em um ponto no tempo (corte transversal). O interesse est´ a em avaliar a
associa¸ c˜ ao entre as respostas obtidas. Nesses estudos ´e comum considerar algumas das
vari´ aveis como “fatores”.
Um exemplo ´e o de um estudo realizado com crian¸ cas para determinar se elas
apresentavam sintomas de doen¸ cas respirat´ orias. Um total de n = 1080 crian¸ cas foram
examinadas anotando-se, para cada uma, o sexo e se apresentavam, ou n˜ ao, os sintomas.
Os resultados s˜ ao mostrados na Tabela 8.
Note que apenas n ´e fixo e, desse modo, tem-se a distribui¸ c˜ ao multinomial asso-
ciada ` a Tabela 8
2.5.4 Ensaios cl´ınicos aleatorizados
Esses estudos s˜ ao realizados com o objetivo de comparar tratamentos. Os in-
div´ıduos s˜ ao alocados aleatoriamente ou ao grupo controle (tratamento padr˜ ao) ou ao
Giolo, S. R. An´ alise de Dados Discretos 15
Tabela 8. Resultado de um estudo transversal sobre doen¸ cas respirat´ orias em
crian¸ cas.
S´ıntomas
Sexo Sim N˜ ao Totais
Feminino 355 125 480
Masculino 410 190 600
Totais 765 315 1080
grupo tratamento (tratamento alternativo). Um exemplo ´e mostrado na Tabela 9.
Tabela 9. Resultados de um ensaio cl´ınico realizado para comparar dois medicamen-
tos usados no tratamento de infec¸ c˜ oes respirat´ orias severas.
Resposta
Tratamento Favor´ avel N˜ ao favor´ avel Totais
Novo 29 16 45
Padr˜ ao 14 31 45
Totais 43 47 90
Observe que nos ensaios cl´ınicos o pesquisador interfere deliberadamente no
curso natural dos acontecimentos, ou seja, imp˜ oe um tratamento. Nos outros tipos
de estudos (coorte, caso-controle e transversal) o pesquisador n˜ ao interfere no curso
natural dos acontecimentos, apenas observa. Como n
1+
e n
2+
s˜ ao fixos, a distribui¸ c˜ ao
produto de Binomias independentes est´ a associada ` a Tabela 9.
Nos estudos de Coorte e nos ensaios cl´ınicos os indiv´ıduos apresentam no
in´ıcio do experimento a mesma condi¸ c˜ ao cl´ınica. S˜ ao ent˜ ao acompanhados por um
per´ıodo de tempo para observa¸ c˜ ao de ocorrˆencia de casos novos (por exemplo, de
doen¸ ca, de cura etc). Nesses estudos (coorte e ensaios cl´ınicos) ´e poss´ıvel a obten¸ c˜ ao
de uma medida denominada incidˆencia. A incidˆencia (seja de doen¸ ca, de cura etc.) ´e
Giolo, S. R. An´ alise de Dados Discretos 16
definida como a propor¸ c˜ ao de indiv´ıduos em um determinado grupo que desenvolve a
resposta de interesse ao longo do tempo de observa¸ c˜ ao, isto ´e,
Incidˆencia =
indiv´ıduos que apresentaram resposta positiva no per´ıodo de observa¸ c˜ ao
total de indiv´ıduos no in´ıcio do experimento
.
Nos estudos transversais, indiv´ıduos s˜ ao, em um ´ unico ponto no tempo, investi-
gados quanto a uma determinada resposta de interesse. Alguns dos indiv´ıduos neste
ponto do tempo apresentar˜ ao a resposta e outros n˜ ao. N˜ ao ´e observado portanto casos
novos ao longo do tempo. A medida adequada aqui ´e a prevalˆencia, isto ´e, a propor¸ c˜ ao
de indiv´ıduos do grupo com resposta positiva naquele ponto espec´ıfico do tempo, isto
´e,
Prevalˆencia =
indiv´ıduos com a resposta em determinado ponto no tempo
indiv´ıduos pesquisados em determinado ponto no tempo
.
2.6 Estat´ısticas de teste e Medidas de Associa¸ c˜ao
Considere os dados apresentados na Tabela 1 referente a um ensaio cl´ınico
aleatorizado realizado para comparar dois medicamentos. A quest˜ ao de interesse,
nesse caso, ´e se as taxas de melhora para o placebo e para o novo medicamento s˜ ao as
mesmas. Essa quest˜ ao pode ser respondida testando se existe associa¸ c˜ ao entre o tipo
de tratamento e a resposta do paciente, ou seja, testando-se a hip´ otese nula:
H
0
: N˜ ao existe associa¸ c˜ ao entre tratamento e resposta do paciente.
Existem v´ arias maneiras (m´etodos) de se testar a hip´ otese H
0
, muitas de-
las baseadas na distribui¸ c˜ ao Qui-quadrado, outras na distribui¸ c˜ ao hipergeom´etrica ou,
ainda, em outras distribui¸ c˜ oes. Esses m´etodos s˜ ao tratados nas se¸ c˜ oes a seguir.
Giolo, S. R. An´ alise de Dados Discretos 17
2.6.1 Estat´ısticas Qui-Quadrado
No estudo experimental que produziu os dados da Tabela 1, os totais marginais n
1+
e n
2+
s˜ ao fixos pois, 60 pacientes foram alocados aleatoriamente a um dos tratamentos
(placebo) e 64 ao outro tratamento. Sob a hip´ otese nula de n˜ ao existˆencia de diferen¸ ca
entre os tratamentos, os totais marginais n
+1
e n
+2
s˜ ao tamb´em considerados fixos e,
portanto, sob H
0
, a distribui¸ c˜ ao de probabilidade associada ´e a hipergeom´etrica. Assim,
o valor esperado de n
ij
´e:
E(N
ij
| H
0
) =
(n
i+
) (n
+j
)
n
= m
ij
e a variˆ ancia:
V (N
ij
| H
0
) =
(n
1+
) (n
2+
) (n
+1
) (n
+2
)
n
2
(n −1)
= v
ij
.
Para uma amostra suficientemente grande, n
11
tem aproximadamente uma dis-
tribui¸ c˜ ao Normal, o que implica que:
Q =
(n
11
−m
11
)
2
v
11
(5)
tem aproximadamente uma distribui¸ c˜ ao Qui-quadrado com um grau de liberdade. N˜ ao
importa como as linhas e colunas s˜ ao arranjadas, Q assumir´ a sempre o mesmo valor
uma vez que:
| n
11
−m
11
| = | n
ij
−m
ij
| =
| n
11
n
22
−n
12
n
21
|
n
.
Uma estat´ıstica relacionada a Q ´e a estat´ıstica de Pearson dada por:
Q
P
=
2
¸
i=1
2
¸
j=1
(n
ij
−m
ij
)
2
m
ij
=
n
(n −1)
Q. (6)
Se as contagens (freq¨ uˆencias) nas caselas forem suficientemente grandes, Q
P
segue a distribui¸ c˜ ao Qui-quadrado com um grau de liberdade. Ainda, quando n
cresce, Q
P
e Q convergem. Uma regra ´ util para determinar o tamanho amostral
adequado para Q e Q
P
´e que o valor esperado m
ij
seja maior que 5 para todas as caselas.
Giolo, S. R. An´ alise de Dados Discretos 18
Obs: As estat´ısticas Q e Q
p
s˜ ao tamb´em apropriadas para testar a hip´ otese
nula de n˜ ao associa¸ c˜ ao em estudos em que se tenham asssociados os modelos
probabil´ısticos Multinomial e produto de Poisson.
2.6.2 Testes Exatos
Muitas vezes, contudo, as freq¨ uˆencias observadas nas caselas da tabela s˜ ao muito
pequenas inviabilizando, assim, o uso da distribui¸ c˜ ao Qui-quadrado. M´etodos exatos
baseados na distribui¸ c˜ ao hipergeom´etrica s˜ ao usados, nessas situa¸ c˜ oes, para testar a
hip´ otese de associa¸ c˜ ao.
O teste exato de Fisher, em que o valor p ´e determinado somando-se as probabi-
lidades das tabelas que s˜ ao pouco prov´ aveis, dado que as marginais s˜ ao fixas, ´e, ent˜ ao,
utilizado.
2.6.3 Diferen¸ ca nas propor¸ c˜ oes
Estabelecida a associa¸ c˜ ao entre as linhas e colunas de uma tabela de contingˆencia
2 × 2, pode-se ter interesse em descrever essa associa¸ c˜ ao. Por exemplo, estimar as
diferen¸ cas de propor¸ c˜ oes, somente poss´ıvel nas tabelas em que as marginais n
1+
e n
2+
s˜ ao fixas.
Assim, se os dois grupos s˜ ao amostras aleat´ orias com probabilidades de sucesso π
11
e π
21
, respectivamente, e h´ a interesse em estimar a diferen¸ ca de propor¸ c˜ oes d = p
11
−p
21
,
em que o valor esperado ´e:
E[p
11
−p
21
] = π
11
−π
21
e a variˆ ancia
V [p
11
−p
21
] =
π
11
(1 −π
11
)
n
1+
+
π
21
(1 −π
21
)
n
2+
,
para a qual um estimador n˜ ao-viciado ´e:
v[p
11
−p
21
] =
p
11
(1 −p
11
)
n
1+
−1
+
p
21
(1 −p
21
)
n
2+
−1
,
Giolo, S. R. An´ alise de Dados Discretos 19
tem-se o seguinte intervalo para (π
11
−π
21
), a um n´ıvel de confian¸ ca (1-α)%:
d ±

z
α/2

v +
1
2

1
n
1+
+
1
n
2+

.
em que z
α/2
denota o 100(1 −α/2) percentil da distribui¸ c˜ ao Normal padr˜ ao.
Exemplo: Para os dados da Tabela 1 tem-se: Q = 21,53 (p < 0,0001) e Q
p
= 21,7
(p < 0,0001). Ambas as estat´ısticas s˜ ao claramente significativas e, portanto, h´ a uma
forte associa¸ c˜ ao entre o tratamento e a resposta do paciente. Como se trata de um
experimento em que as marginais n
1+
e n
2+
s˜ ao fixas, tem-se que a diferen¸ ca estimada
entre as propor¸ c˜ oes ´e de d = 0, 667 − 0, 25 = 0, 417 com correspondente intervalo,
ao n´ıvel de 95% de confian¸ ca, dado por: I.C.
95%
(d) = 0,417 ± 0,177 = (0,24; 0,594).
Conclui-se, portanto, que o novo tratamento ´e significativamente superior ao placebo.
2.6.4 Risco relativo e odds ratio (raz˜ao de chances)
A odds ratio (OR) ´e uma medida que descreve o “grau”(intensidade) de asso-
cia¸ c˜ ao em uma tabela 2 × 2 e ´e calculada por:
OR =
n
11
/n
12
n
21
/n
22
=
n
11
n
22
n
12
n
21
.
Esta medida pode ser usada em qualquer tipo de estudo e varia de 0 a infinito.
Quando OR = 1, n˜ ao existe associa¸ c˜ ao entre as vari´ aveis. Se, no entanto, OR > 1, o
grupo 1 apresenta chance (odds) maior de ter a resposta do que o grupo 2. Conseq¨ uen-
temente, se OR < 1, o grupo 1 apresenta chance menor de ter a resposta do que o
grupo 2. Para a obten¸ c˜ ao de um I.C. para a OR, toma-se o logaritmo da mesma (na
base e), isto ´e, f = log(OR), cuja variˆ ancia estimada ´e:
V (f) =

1
n
11
+
1
n
12
+
1
n
21
+
1
n
22

.
Assim, um I.C. para a OR, ao n´ıvel 100(1-α)% de confian¸ ca ´e dado por:
I.C.(OR) = exp

f ±z
α/2

V (f)

em que z
α/2
denota o 100(1 −α/2) percentil da distribui¸ c˜ ao Normal padr˜ ao.
Giolo, S. R. An´ alise de Dados Discretos 20
Para estudos prospectivos (Coorte e ensaios cl´ınicos), uma outra quantidade
chamada risco relativo pode tamb´em ser obtida. O risco relativo (RR) fornece o
risco de desenvolvimento de uma determinada condi¸ c˜ ao (freq¨ uentemente uma doen¸ ca)
para um grupo comparado a outro grupo. Esta medida ´e expressa por:
RR =
p
11
p
21
e pode ser mostrado que:
RR = OR ×
¸
1 + (n
21
/n
22
)
1 + (n
11
/n
12
)
¸
.
Logo, a OR se aproxima do RR quando n
11
e n
21
s˜ ao pequenos relativamente a
n
12
e n
22
, respectivamente. Essa situa¸ c˜ ao se verifica para o caso de doen¸ cas raras.
Um I.C. para o RR ´e tamb´em obtido tomando-se o logaritmo do RR (na base e),
isto ´e, f

= log(RR) = log(p
11
) −log(p
21
) cuja variˆ ancia ´e dada por:
V (f

) =
(1 −p
11
)
(n
1+
) (p
11
)
+
(1 −p
21
)
(n
2+
) (p
21
)
e, portanto, um I.C. para o RR, ao n´ıvel 100(1-α)% de confian¸ ca ´e dado por:
I.C.(RR) = exp

f

±z
α/2

V (f

)

em que, z
α/2
denota o 100(1 −α/2) percentil da distribui¸ c˜ ao Normal padr˜ ao.
Exemplos: Para os dados apresentados na:
(i) Tabela 1: referente a um estudo realizado para testar um novo medicamento, em
que 2 amostras aleat´ orias foram selecionadas, e estabeleceu-se a hip´ otese nula H
0
: n˜ ao
existe associa¸ c˜ ao entre tratamento e a resposta do paciente, tem-se.
Q = 21, 53 (p < 0, 0001) e Q
p
= 21, 7 (p < 0, 0001)
d
(novo−placebo)
= (0, 667 −0, 25) = 0, 417
IC(d)
(95%)
= (0, 24; 0, 594)
RR
novo|placebo
= 2, 67
IC(RR)
(95%)
= (1, 68; 4, 22)
Giolo, S. R. An´ alise de Dados Discretos 21
Com base nesses resultados pode-se concluir, portanto, que tratamento e resposta
do paciente est˜ ao associados e, desse modo, as taxas de melhora para o placebo e para
o novo medicamento n˜ ao s˜ ao as mesmas. Para o novo medicamento estima-se que
41,7% a mais dos pacientes, em rela¸ c˜ ao ao placebo, apresentem melhora, estimativa
esta que pode variar, ao n´ıvel de confian¸ ca de 95%, entre 24% e 59,4%. Pode-se,
ainda, concluir que os pacientes submetidos ao novo medicamento s˜ ao 2,67 vezes mais
prov´ aveis a apresentarem melhora do que os pacientes que recebem placebo, podendo
esta estimativa, ao n´ıvel de confian¸ ca de 95%, variar entre 1,68 a 4,22 vezes. O novo
medicamento ´e, portanto, recomend´ avel.
(ii) Tabela 4: referente a um estudo realizado para verificar a influˆencia da
cor da armadilha sobre a atra¸ c˜ ao de machos e fˆemeas de modo que H
0
: n˜ ao existe
associa¸ c˜ ao entre a cor da armadilha e sexo, tem-se:
Q = 0, 0013 (p = 0, 9718) e Q
p
= 0, 0013 (p = 0, 9718)
OR = 1, 011
IC(OR)
(95%)
= (0, 55; 1, 857)
N˜ ao h´ a, portanto, evidˆencias estat´ısticas para a rejei¸ c˜ ao da hip´ otese nula e, desse
modo, pode-se concluir que a atra¸ c˜ ao de machos e fˆemeas n˜ ao ´e influenciada pela cor
da armadilha. A atra¸ c˜ ao de machos e fˆemeas, da esp´ecie coletada, ´e semelhante tanto
usando-se armadilhas alaranjadas quanto armadilhas amarelas sendo que, os machos,
apresentam, em m´edia, atra¸ c˜ ao maior ` as armadilhas do que as fˆemeas.
(iii) Tabela 6: referente a um estudo de coorte realizado para pesquisar a as-
socia¸ c˜ ao do tabagismo e cˆ ancer de pulm˜ ao em que H
0
: n˜ ao existe associa¸ c˜ ao entre
tabagismo e cˆ ancer de pulm˜ ao, tem-se.
Q = 23, 18 (p < 0, 0001) e Q
p
= 23, 29 (p < 0, 0001)
d
(fumantes - n˜ ao fumantes)
= (0, 625 −0, 2777) = 0, 3523
IC(d)
(95%)
= (0, 21; 0, 495)
Giolo, S. R. An´ alise de Dados Discretos 22
RR
(fumantes | n˜ ao fumantes)
= 2, 29
IC(RR)
(95%)
= (1, 55; 3, 38)
A conclus˜ ao, nesse exemplo, ´e de que existe associa¸ c˜ ao entre tabagismo e cˆ ancer
de pulm˜ ao. Para os fumantes estima-se que 35,23% a mais deles, em rela¸ c˜ ao aos n˜ ao
fumantes, desenvolver˜ ao cˆ ancer de pulm˜ ao, estimativa esta que pode variar, ao n´ıvel de
confian¸ ca de 95%, entre 21% e 49,5%. Pode-se, ainda, concluir que indiv´ıduos fumantes
s˜ ao 2,29 vezes mais prov´ aveis a apresentarem cˆ ancer de pulm˜ ao do que os n˜ ao fumantes
podendo esta estimativa, ao n´ıvel de confian¸ ca de 95%, variar entre 1,55 a 3,38 vezes.
O tabagismo pode, portanto, ser considerado um fator de risco para o cˆ ancer de pulm˜ ao.
(iv) Tabela 7: referente a um caso-controle realizado para pesquisar a asso-
cia¸ c˜ ao do tabagismo e cˆ ancer de pulm˜ ao em que H
0
: n˜ ao existe associa¸ c˜ ao entre
tabagismo e cˆ ancer de pulm˜ ao.
Q = 23, 18 (p < 0, 0001) e Q
p
= 23, 29 (p < 0, 0001)
OR = 4, 44
IC(OR)
(95%)
= (2, 37; 8, 28)
Conclui-se, portanto, que tabagismo e cˆ ancer de pulm˜ ao est˜ ao associados, ou
seja, as taxas de desenvolvimento de cˆ ancer de pulm˜ ao para fumantes e n˜ ao fumantes
diferem. A chance dos indiv´ıduos que fumam apresentarem a doen¸ ca ´e 4,44 vezes
maior do que a chance dos que n˜ ao fumam, chance esta que, ao n´ıvel de confian¸ ca de
95%, pode variar entre 2,37 e 8,28 vezes.
(v) Tabela 8: referente a um estudo transversal sobre doen¸ cas respirat´ orias
realizado com crian¸ cas em que deseja-se saber se sexo e doen¸ cas respirat´ orias est˜ ao
associadas. A hip´ otese nula a ser considerada ´e H
0
: n˜ ao existe associa¸ c˜ ao entre sexo e
doen¸ cas respirat´ orias e, para test´ a-la, obteve-se:
Giolo, S. R. An´ alise de Dados Discretos 23
Q = 4, 0803 (p = 0, 0434) e Q
p
= 4, 084 (p = 0, 0433)
OR
(feminino|masculino)
= 1, 3161
IC(OR)
(95%)
= (1, 008; 1, 718)
Com base nos resultados obtidos, e considerando-se um n´ıvel de significˆ ancia de
5%, pode-se concluir que existe associa¸ c˜ ao entre sexo e doen¸ cas respirat´ orias, ou seja,
as taxas de doen¸ cas respirat´ orias em crian¸ cas do sexo feminino e masculino diferem.
Observe, contudo, que a OR estimada n˜ ao se encontra t˜ ao distante do valor 1 (que
indicaria chances iguais para ambos os sexos). Este fato mostra que a chance das
crian¸ cas do sexo feminino apresentarem doen¸ cas respirat´ orias, n˜ ao ´e t˜ ao maior do que
a das crian¸ cas do sexo masculino. Essa chance ´e de 1,31 vezes podendo, ao n´ıvel de
confian¸ ca de 95%, variar entre 1,008 e 1,718 vezes.
(vi) Tabela 9: referente a um ensaio cl´ınico realizado para comparar dois medica-
mentos usados no tratamento de infec¸ c˜ oes severas. Para esse estudo tem-se H
0
: n˜ ao
existe associa¸ c˜ ao entre tratamento e a resposta do paciente. Para test´ a-la, os seguintes
resultados das estat´ısticas de teste e medidas de associa¸ c˜ ao foram obtidos:
Q = 9, 9085(p = 0, 0016) e Q
p
= 10, 02(p = 0, 0015)
d
(novo - padr˜ ao)
= (0, 6444 −0, 3111) = 0, 3333
IC(d)
(95%)
= (0, 114; 0, 552)
RR
(novo | padr˜ ao)
= 2, 07
IC(RR)
(95%)
= (1, 27; 3, 36).
Pode-se concluir, portanto, que existe associa¸ c˜ ao entre o tratamento e a resposta
do paciente o que implica que as taxas de respostas favor´ aveis para os tratamentos
novo e padr˜ ao diferem. Estima-se que 33,33% a mais dos pacientes que receberam
o novo tratamento, em rela¸ c˜ ao aos que receberam o tratamento padr˜ ao, apresentar˜ ao
resposta favor´ avel, estimativa esta que pode variar, ao n´ıvel de confian¸ ca de 95%, entre
11,4% e 55,2%. Conclui-se, ainda, que pacientes que receberam o novo tratamento s˜ ao
Giolo, S. R. An´ alise de Dados Discretos 24
2,07 vezes mais prov´ aveis a apresentarem resposta favor´ avel do que os que receberam
o tratamento padr˜ ao, podendo esta estimativa, ao n´ıvel de confian¸ ca de 95%, variar
entre 1,27 a 3,36 vezes. O novo medicamento ´e, desse modo, prefer´ıvel ao medicamento
padr˜ ao.
2.6.5 Sensibilidade e Especificidade
A sensibilidade e especificidade s˜ ao outras medidas usadas em particular quando
se deseja determinar a efic´ acia de um exame (teste) realizado para detectar a presen¸ ca,
ou n˜ ao, de uma doen¸ ca ou outro evento qualquer. O exame de DNA realizado para
saber se o indiv´ıduo ´e, ou n˜ ao, pai de uma crian¸ ca ´e um exemplo desses testes. Outro
exemplo ´e o do exame de AIDS realizado para saber se o sujeito ´e, ou n˜ ao, soro positivo.
As medidas citadas determinam a eficiˆencia desses testes em detectar a verdade.
A sensibilidade ´e definida como a propor¸ c˜ ao de resultados positivos que um teste apre-
senta quando realizado em sujeitos conhecidos terem a doen¸ ca, ou seja, ´e a propor¸ c˜ ao de
verdadeiros positivos. A especificidade, por outro lado, ´e definida como a propor¸ c˜ ao
de resultados negativos que um teste apresenta quando realizado em sujeitos conheci-
dos estarem livres da doen¸ ca (propor¸ c˜ ao de verdadeiros negativos). O desejado de um
exame (teste) ´e que ele tenha, simultˆ aneamente, alta sensibilidade e especificidade.
A sensibilidade e especificidade s˜ ao tamb´em usadas para testar se um novo exame,
alternativo ao j´ a existente, mas de custo inferior, ´e t˜ ao eficiente quanto aquele tido como
o melhor na literatura. O melhor teste ´e, geralmente, referenciado na literatura como
“teste ouro” ou “teste padr˜ ao”.
Considere a Tabela 10 representando os resultados positivos e negativos apresen-
tados em um exame realizado em 180 pacientes.
Para esses dados a sensibilidade e especificidade estimadas s˜ ao, respectivamente,
dadas por:
Sensibilidade =
52
60
= 0, 867 e Especificidade =
100
120
= 0, 833.
O exame usado apresenta, portanto, boa sensibilidade e especificidade detectando
Giolo, S. R. An´ alise de Dados Discretos 25
Tabela 10. Resultados de um exame realizado em 180 pacientes para verificar a
presen¸ ca, ou n˜ ao, de uma doen¸ ca de pele.
Resultado do exame
Status + - Totais
Doen¸ ca presente 52 8 60
Doen¸ ca ausente 20 100 120
em torno de 87% dos casos positivos e 83% dos casos negativos. O exame deixou,
contudo, de detectar em torno de 13% dos casos positivos (taxa de falsos negativos =
8/60 = 0,1333) e em torno de 17% dos casos apresentou resultado positivo erronea-
mente (taxa de falsos positivos = 20/120 = 0,1667). A taxa bruta de concordˆ ancia
(poder preditivo) do exame foi de 152/180 = 0.844 (84.4%). Dos 72 resultados posi-
tivos apresentados pelo exame, 52 estavam corretos, ou seja, o poder preditivo positivo
do exame foi de 52/72 = 0,7222 (72,2%). Por outro lado, dos 108 resultados nega-
tivos apresentados pelo exame, 100 estavam corretos fornecendo, assim, para o poder
preditivo negativo do exame, um valor de 100/108 = 0,926 (92,6%).
Seria, desse modo, recomend´ avel que o teste fosse realizado mais de uma vez,
em cada paciente, para evitar que um paciente doente n˜ ao seja tratado ou que, um
paciente livre da doen¸ ca seja tratado indevidamente. Se, contudo, o medicamento a
ser utilizado n˜ ao apresenta efeitos colaterais, recomenda-se um segundo teste somente
para os pacientes que apresentarem resultado negativo. Como cada doen¸ ca apresenta
suas peculiaridades, deve-se analisar, para cada uma delas, o que ´e de fato relevante.
Em determinadas situa¸ c˜ oes, por exemplo, h´ a um interesse maior em testes com alta
sensibilidade e, especificidade, relativamente inferior.
2.6.6 Teste de McNemar
As tabelas de contingˆencia 2 × 2 contˆem, em algumas situa¸ c˜ oes, informa¸ c˜ oes
pareadas. Por exemplo, situa¸ c˜ oes em que s˜ ao realizadas duas perguntas relacionadas
Giolo, S. R. An´ alise de Dados Discretos 26
ou, a mesma pergunta ´e feita para um par de indiv´ıduos relacionados (casal, gˆemeos
etc.) ou, ainda, informa¸ c˜ oes tomadas antes e ap´ os algum acontecimento (uso de um
medicamento, campanha publicit´ aria etc).
Nesses casos o interesse ´e testar se a propor¸ c˜ ao dos pares respondendo sim para
a pergunta 1 ´e a mesma dos que respondem sim para a pergunta 2, ou seja, testar a
hip´ otese nula:
H
0
:
n
+1
n
=
n
1+
n
.
McNemar (1947) desenvolveu um teste qui-quadrado baseado na distribui¸ c˜ ao bi-
nomial para testar a hip´ otese citada. Ele mostra que somente os elementos fora da
diagonal s˜ ao importantes para determinar se existe diferen¸ ca nessas propor¸ c˜ oes. A
estat´ıstica do teste ´e dada por:
Q
M
=
(n
12
− n
21
)
2
(n
12
+ n
21
)
e tem aproximadamente distribui¸ c˜ ao qui-quadrado com 1 grau de liberdade.
Exemplo: Considere a taxa de aprova¸ c˜ ao de um determinado pol´ıtico, antes e
ap´ os o an´ uncio de certas medidas, descrita na Tabela 11.
Tabela 11. Resultados de um pesquisa realizada para verificar a taxa de aprova¸ c˜ ao
de um pol´ıtico antes e ap´ os o an´ uncio de certas medidas.
Ap´ os
Antes Aprova Reprova Totais
Aprova 20 5 25
Reprova 10 10 20
Totais 30 15 45
O teste da hip´ otese H
0
: propor¸ c˜ ao de aprova¸ c˜ ao do candidato antes e ap´ os o
an´ uncio das medidas ´e a mesma, resultou em Q
M
= 1,67 (valor p = 0,1967). Assim,
n˜ ao se rejeita H
0
e, desse modo, n˜ ao ´e poss´ıvel dizer que a taxa de aprova¸ c˜ ao desse
pol´ıtico se alterou ap´ os o an´ uncio das medidas.
3 TABELAS DE CONTING
ˆ
ENCIA: OUTRAS DIMENS
˜
OES
3.1 Conjunto de tabelas de contingˆencia 2 × 2
Considere os dados da Tabela 12 provenientes de um ensaio cl´ınico realizado para
comparar dois medicamentos usados no tratamento de infec¸ c˜ oes respirat´ orias severas,
medicamentos estes que foram testados em dois centros m´edicos.
Tabela 12. Resultados de um ensaio cl´ınico realizado para comparar dois medica-
mentos usados no tratamento de infec¸ c˜ oes respirat´ orias severas.
Resposta
Centro Tratamento Favor´ avel N˜ ao favor´ avel Totais
1 Novo 29 16 45
1 Padr˜ ao 14 31 45
Totais 43 47 90
2 Novo 37 8 45
2 Padr˜ ao 24 21 45
Totais 61 29 90
Note que a tabela acima ´e, na realidade, um conjunto de duas tabelas de con-
tingˆencia 2 × 2 e em que, as mesmas quest˜ oes de uma ´ unica tabela, s˜ ao de interesse.
Ou seja, existe associa¸ c˜ ao entre tratamento e a resposta do paciente e, se existe, qual a
intensidade dessa associa¸ c˜ ao?
Como o interesse concentra-se na associa¸ c˜ ao global entre o tratamento e a resposta,
poder-se-ia pensar em somar as freq¨ uˆencias das linhas correspondentes a cada trata-
mento obtendo-se, assim, uma ´ unica tabela de contingˆencia 2 × 2. Os pesquisadores
Giolo, S. R. An´ alise de Dados Discretos 28
notaram, contudo, que os pacientes apresentaram comportamentos acentuadamente di-
ferentes em cada centro e que este deveria ser, portanto, considerado na an´ alise. Em
alguns casos, a estratifica¸ c˜ ao pode ter sido planejada, em outros surge ap´ os a coleta dos
dados.
Uma an´ alise estratificada ´e, desse modo, a estrat´egia a ser adotada nessas
situa¸ c˜ oes. Em tal an´ alise, examina-se a associa¸ c˜ ao entre as duas vari´ aveis de interesse
controlando-se, ou ajustando-se, para o efeito de centro.
3.1.1 Teste de Mantel-Haenszel
Um m´etodo para verificar a associa¸ c˜ ao global das vari´ aveis de interesse, con-
trolando (ou ajustando) para o fator de estratifica¸ c˜ ao, foi proposto por Mantel-Haenszel
(1959). Para a obten¸ c˜ ao da estat´ıstica de teste proposta por esses autores, considera-se,
para cada uma das q tabelas 2 × 2 que comp˜ oem a tabela geral, a nota¸ c˜ ao apresentada
na Tabela 13.
Tabela 13. h-´esima tabela de contingˆencia 2 × 2.
Coluna
Linha A B Totais
A n
h11
n
h12
n
h1+
B n
h21
n
h22
n
h2+
Totais n
h+1
n
h+2
n
h
Sob a hip´ otese nula de n˜ ao diferen¸ ca entre os tratamentos, o valor esperado de
n
h11
e sua respectiva variˆ ancia s˜ ao:
E(N
h11
| H
0
) =
n
h1+
n
h+1
n
h
= m
h11
V (N
h11
| H
0
) =
(n
h1+
)(n
h2+
)(n
h+1
)(n
h+2
)
n
2
h
(n
h
−1)
= v
h11
.
Assim, a estat´ıstica de teste proposta por Mantel-Haenszel ´e dada por:
Giolo, S. R. An´ alise de Dados Discretos 29
Q
MH
=

q
¸
h=1
n
h11

q
¸
h=1
m
h11

2
q
¸
h=1
v
h11
=

q
¸
h=1
(n
h1+
n
h2+
)
n
h
(p
h11
−p
h21
)

2
q
¸
h=1
v
h11
em que p
hi1
= n
hi1
/n
hi+
e Q
MH
tem distribui¸ c˜ ao aproximadamente qui-quadrado com 1
grau de liberdade quando
¸
q
h=1
n
h
for suficientemente grande (> 30). Em um certo sen-
tido, essa estrat´egia de an´ alise ´e similar a uma an´ alise de variˆ ancia de um experimento
fatorial em blocos aleatorizados.
Q
MH
´e eficaz para determinar padr˜ oes de associa¸ c˜ ao quando existir uma forte
tendˆencia de a maioria das diferen¸ cas (p
h11
− p
h21
) apresentar o mesmo sinal. Assim,
Q
MH
pode falhar em detectar a associa¸ c˜ ao quando as diferen¸ cas estiverem em dire¸ c˜ oes
opostas (sinais diferentes) e apresentarem magnitudes similares.
Mantel e Fleiss (1980) propuseram um crit´erio para determinar se a aproxima¸ c˜ ao
qui-quadrado ´e apropriada para a distribui¸ c˜ ao da estat´ıstica de Mantel-Haenszel para
q tabelas. Este crit´erio ´e dado por:
C
MF
= min
¸
q
¸
h=1
m
h11

q
¸
h=1
(n
h11
)
L
¸
,
¸
q
¸
h=1
(n
h11
)
U

q
¸
h=1
(m
h11
)
¸¸
> 5
em que (n
h11
)
L
= max(0, (n
h1+
− n
h11
)) e (n
h11
)
U
= min(n
h+1
, n
h1+
).
Para os dados da Tabela 12 tem-se: Q
MH
= 18, 41 (p < 0,0001). Assim,
existe uma forte associa¸ c˜ ao entre tratamento e a resposta do paciente, ajus-
tado para centro. Conclui-se, portanto, que o medicamento novo apresenta uma
taxa de resposta favor´ avel significativamente maior do que a do placebo. Ainda,
C
MF
= min

(52 − 16), (88 − 52)
¸
= 16 ≥ 5 mostrando que, para esses dados, a
aproxima¸ c˜ ao qui-quadrado ´e apropriada para Q
MH
.
3.1.2 Medidas de associa¸ c˜ao
Para um conjunto de q tabelas 2 × 2 pode-se calcular a m´edia das odds ratios.
Se as odds ratios s˜ ao homogˆeneas, o estimador de Mantel-Haenszel para a odds ratio
Giolo, S. R. An´ alise de Dados Discretos 30
comum ´e dado por:
OR
MH
=
¸
q
h=1
n
h11
n
h22
n
h
¸
q
h=1
n
h12
n
h21
n
h
.
O intervalo de confian¸ ca a 100(1-α)% para a OR
MH
´e:

OR
MH
exp(z
α/2
ˆ σ), OR
MH
exp(−z
α/2
ˆ σ)

em que,
ˆ σ
2
=
¸
h
(n
h11
+n
h22
)(n
h11
n
h22
)/n
2
h
2(
¸
h
(n
h11
n
h22
)/n
h
)
2
+
¸
h

(n
h11
+n
h22
)(n
h12
n
h21
) + (n
h12
+n
h21
)(n
h11
n
h22
)

/n
2
h
2(
¸
h
(n
h11
n
h22
)/n
h
)(
¸
h
(n
h12
n
h21
)/n
h
)
+
¸
h
(n
h12
+n
h21
)(n
h12
n
h21
)/n
2
h
2(
¸
h
(n
h12
n
h21
)/n
h
)
2
.
No exemplo apresentado na Tabela 12 tem-se que as odds ratios s˜ ao ho-
mogˆeneas (OR
1
= 4, 01 e OR
2
= 4, 04) e, sendo assim, a odds ratio comum estimada
bem como seu respectivo I.C, ao n´ıvel de confian¸ ca de 95%, s˜ ao:
OR
MH
= 4, 028
IC(OR
MH
)
(95)%
= (2, 106; 7, 701).
Portanto, aqueles pacientes que receberam o novo tratamento apresentam, em
m´edia, uma chance (odds) de apresentarem melhora de em torno de 4 vezes maior, em
rela¸ c˜ ao a odds dos que receberam placebo. Essa chance varia, ao n´ıvel de confian¸ ca de
95%, entre 2,1 e 7,7 vezes.
3.2 Conjunto de tabelas de contingˆencia 2 × r
Considere os dados da Tabela 14, referente a um ensaio cl´ınico duplo-cego reali-
zado para investigar um novo tratamento para artrite reumat´ oide, em que a resposta
Giolo, S. R. An´ alise de Dados Discretos 31
Tabela 14. Resultado de um ensaio cl´ınico realizado com pacientes do sexo feminino
e masculino para investigar um tratamento para artrite reumat´ oide.
Melhora
Sexo Tratamento Nenhuma Alguma Acentuada Totais
Feminino Ativo 6 5 16 27
Feminino Placebo 19 7 6 32
Totais 25 12 22 59
Masculino Ativo 7 2 5 14
Masculino Placebo 10 0 1 11
Totais 17 2 6 25
considerada foi se existiu nenhuma, alguma ou acentuada melhora nos s´ıntomas da
doen¸ ca.
Os dados s˜ ao, portanto, um conjunto de duas tabelas de contingˆencia 2 × 3 em
que o interesse est´ a na associa¸ c˜ ao entre tratamento e o grau de melhora, ajustado para
sexo. O grau de melhora ´e uma resposta ordinal uma vez que nenhuma, alguma e
acentuada s˜ ao grada¸ c˜ oes de melhora.
Mantel (1963) propˆ os uma extens˜ ao da estrat´egia de Mantel-Haenszel para a
an´ alise de tabelas 2 ×r quando a resposta ´e ordinal. Essa extens˜ ao envolve escores
m´edios para a resposta e usa diferen¸ cas destes escores no c´ alculo de uma estat´ıstica de
teste adequada.
Antes, por´em, de discutir as estrat´egias usadas para acessar a associa¸ c˜ ao em um
conjunto de tabelas 2 ×r, faz-se necess´ ario discutir tal associa¸ c˜ ao em uma ´ unica tabela
2 ×r que apresenta resposta ordinal.
3.2.1 Associa¸ c˜ao em uma ´ unica tabela de contingˆencia 2 × r
Considere a Tabela 14 agrupando-se as freq¨ uˆencias dos sexos feminino e masculino,
respectivamente. A Tabela 15 mostra esse agrupamento.
Giolo, S. R. An´ alise de Dados Discretos 32
Tabela 15. Resultado de um ensaio cl´ınico realizado com pacientes do sexo feminino
e masculino para investigar um tratamento para artrite reumat´ oide.
Melhora
Tratamento Nenhuma Alguma Acentuada Totais
Ativo 13 7 21 41
Placebo 29 7 7 43
Totais 42 14 28 84
Como ´e desej´ avel usar na estat´ıstica de teste a informa¸ c˜ ao de que a vari´ avel
resposta ´e ordinal, s˜ ao assumidos escores para os n´ıveis dessa vari´ avel. Obt´em-se,
assim, m´edias (uma para cada linha da tabela) que s˜ ao, ent˜ ao, comparadas. A m´edia
para a i-´esima linha (i = 1, 2) da Tabela 15 ´e definida como:
¯
f
i
=
3
¸
j=1
a
j
n
ij
n
i+
i = 1, 2
em que a = (a
1
, a
2
, a
3
) ´e o vetor de escores assumidos para os n´ıveis da vari´ avel resposta.
Se a hip´ otese H
0
´e de n˜ ao associa¸ c˜ ao entre tratamento e grau de melhora, o que
significa que as freq¨ uˆencias s˜ ao similares para todos os n´ıveis, ent˜ ao,
E(
¯
f
1
| H
0
) =
3
¸
j=1

a
j
n
1+
n
+j
n
1+
n

=
3
¸
j=1
a
j
n
+j
n
= µ
a
em que a variˆ ancia:
V (
¯
f
1
| H
0
) =
(n − n
1+
)
n
1+
(n −1)
3
¸
j=1
(a
j
−µ
a
)
2

n
+j
n

=
(n − n
1+
) v
a
n
1+
(n −1)
sendo v
a
=
¸
3
j=1
(a
j
−µ
a
)
2

n
+j
n

.
A quantidade
¯
f
1
tem distribui¸ c˜ ao aproximadamente Normal, pelo teorema central
do limite, de modo que a quantidade:
Q
S
=
(
¯
f
1
−µ
a
)
2

(n − n
1+
)/(n
1+
(n −1))

v
a
tem distribui¸ c˜ ao aproximadamente qui-quadrado com um grau de liberdade. Q
S
´e
chamada estat´ıstica escore m´edio. Por usar a informa¸ c˜ ao ordinal da vari´ avel resposta,
Giolo, S. R. An´ alise de Dados Discretos 33
Q
S
pode indicar onde as mudan¸ cas ocorrem. Assim, as estat´ısticas Q e Q
p
s˜ ao ´ uteis para
detectar tipos gerais de associa¸ c˜ ao, mas n˜ ao s˜ ao t˜ ao eficientes quanto Q
S
em detectar
a localiza¸ c˜ ao dessas mudan¸ cas.
Usando os escores a = (1, 2, 3) para os n´ıveis de melhora nenhum, algum e
acentuada, respectivamente, obteve-se Q
S
= 12,859 (p = 0,0003). Conclui-se, desse
modo, que os tratamentos diferem e que o tratamento “Ativo” apresentou desempenho
melhor (grau de melhora mais acentuado) do que o placebo, uma vez que
¯
f
A
= 2, 195
e
¯
f
P
= 1, 488.
3.2.1.1 Escolha dos escores
As estrat´egias de an´ alise de dados ordinais requerem a escolha dos escores a serem
atribu´ıdos aos n´ıveis da vari´ avel resposta. Dentre as v´ arias maneiras que tais escores
podem ser escolhidos, as duas mais usuais s˜ ao:
i) escores inteiros: estes s˜ ao definidos como a
j
= j, para j = 1, 2, · · · , r, e s˜ ao
´ uteis quando os n´ıveis da vari´ avel resposta s˜ ao categorias ordenadas vistas como
igualmente espa¸ cadas. S˜ ao tamb´em ´ uteis, quando os n´ıveis da vari´ avel resposta
correspondem a contagens inteiras. Os escores inteiros (0, 1, · · ·) e (1, 2, · · ·), em
termos de conclus˜ oes, produzem resultados similares.
ii) escores padronizados (midranks): estes s˜ ao restritos a valores entre 0 e 1 e
s˜ ao definidos por:
a
j
=
2

¸
j
k=1
n
+k

−n
+j
+ 1
2(n + 1)
.
A vantagem desses escores sobre os escores inteiros ´e que o analista n˜ ao se respon-
sabiliza diretamente pela sele¸ c˜ ao dos escores. Ele usa os dados para obtˆe-los.
Para muitos conjuntos de dados, a escolha dos escores apresentam pequeno efeito
nos resultados. Escolhas diferentes de escores inteiros usualmente fornecem resultados
similares. Isso pode, contudo, n˜ ao acontecer quando os dados s˜ ao muito desbalanceados,
tal como quando algumas categorias apresentam muito mais observa¸ c˜ oes do que outras.
Giolo, S. R. An´ alise de Dados Discretos 34
Com os escores padronizados (midranks) isso tamb´em ocorre, uma vez que aquelas
categorias apresentando poucas observa¸ c˜ oes, em rela¸ c˜ ao as demais, apresentar˜ ao escores
muito pr´ oximos. A conseq¨ uˆencia disto ´e que as distˆ ancias entre os n´ıveis da vari´ avel
resposta podem vir a ser consideradas muito mais pr´ oximas do que elas realmente s˜ ao.
Como pode ser visto, a escolha dos escores n˜ ao ´e uma tarefa t˜ ao simples. Agresti
(1990, 1996) recomenda que os dados sejam analisados usando diversos razo´ aveis con-
juntos de escores para determinar se conclus˜ oes importantes dependem das escolhas
feitas. O pesquisador ´e, sem d´ uvida, de fundamental importˆ ancia para o entendimento
das distˆ ancias entre os n´ıveis da vari´ avel resposta e conseq¨ uente escolha adequada dos
escores.
3.2.2 Associa¸ c˜ao em um conjunto de tabelas de contingˆencia 2 × r
A associa¸ c˜ ao em um conjunto de tabelas 2 × r em que a resposta ´e ordinal tamb´em
envolve o c´ alculo de m´edias baseadas em um conjunto de escores.
Considere a
h
= (a
h1
, a
h2
, · · · , a
hr
) o conjunto de escores assumidos para os r n´ıveis
da vari´ avel resposta na h-´esima tabela 2 × r. Assim, considerando-se as duas tabelas
2 × 3 da Tabela 14, tem-se para o tratamento “Ativo” a seguinte soma de escores:
f
+1
=
2
¸
h=1
3
¸
j=1
a
hj
n
h1j
=
2
¸
h=1
n
h1+
¯
f
h1
em que
¯
f
h1
=
3
¸
j=1
a
hj
n
h1j
n
h1+
´e o escore m´edio para o tratamento Ativo na h-´esima tabela. Sob a hip´ otese nula de
n˜ ao associa¸ c˜ ao f
+1
tem valor esperado dado por:
E(f
+1
| H
0
) =
2
¸
h=1
n
h1+
µ
h
= µ

e variˆ ancia,
V (f
+1
| H
0
) =
2
¸
h=1
n
h1+
(n
h
−n
h1+
)
(n
h
−1)
v
h
= v

em que µ
h
=
3
¸
j=1
(a
hj
n
h+j
)
n
h
e v
h
=
3
¸
j=1
(a
hj
−µ
h
)
2

n
h+j
n
h

.
Giolo, S. R. An´ alise de Dados Discretos 35
Se os tamanhos amostrais n
+i+
=
¸
2
h=1
¸
3
j=1
n
hij
s˜ ao suficientemente grandes,
ent˜ ao f
+1
tem distribui¸ c˜ ao aproximadamente normal e a quantidade
Q
SMH
=
(f
+1
−µ

)
2
v

tem distribui¸ c˜ ao aproximadamente qui-quadrado com 1 grau de liberdade.
Q
SMH
´e conhecida como a estat´ıstica escore m´edio de Mantel-Haenszel esten-
dida e ´e eficiente para detectar padr˜ oes de diferen¸ cas quando (
¯
f
h1

¯
f
h2
) apresentarem
predominantemente o mesmo sinal.
Para os dados da Tabela 14 e considerando-se os escores a = (1, 2, 3), obteve-se
Q
SMH
= 14,63 (p < 0,001). Os tamanhos amostrais n
+1+
= 41 e n
+2+
= 43 s˜ ao tamb´em
suficientemente grandes, o que assegura que Q
SMH
apresenta uma boa aproxima¸ c˜ ao da
distribui¸ c˜ ao qui-quadrado, de modo que, pode-se concluir que tratamento e o grau de
melhora, controlando para sexo, s˜ ao associados.
3.3 Conjunto de tabelas de contingˆencia s ×2
Os dados apresentados na Tabela 16 referem-se a um estudo sobre o uso de tabaco
por adolescentes (Bauman et al., 1989). O interesse concentrou-se em fatores que
influenciam o uso do tabaco. Note, nesse exemplo, que a Tabela 16 ´e formada por um
conjunto de duas tabelas de contingˆencia 3 × 2 e que, o interesse, ´e testar a existˆencia,
ou n˜ ao, de associa¸ c˜ ao entre a vari´ avel resposta (uso de tabaco) e o fator consciˆencia do
risco do uso do tabaco pelo adolescente controlando pelo fator uso de tabaco pelo pai.
Para esses dados observam-se, a vari´ avel resposta (uso de tabaco) e o fator uso de
tabaco pelo pai, como sendo dicotˆ omicas e o fator consciˆencia do risco, como ordinal.
Na pr´ atica, as trˆes vari´ aveis podem ser consideradas ordinais, uma vez que ´e comum
associar os escores 0 e 1 aos n´ıveis de uma vari´ avel dicotˆ omica.
Para acessar a associa¸ c˜ ao de interesse, ser´ a, inicialmente, considerado uma ´ unica
tabela de contingˆencia 3 × 2 para, ent˜ ao, estender a id´eia para um conjunto de tabelas
de contingˆencia 3 × 2.
Giolo, S. R. An´ alise de Dados Discretos 36
Tabela 16. Resultado de um estudo realizado com adolescentes para investigar fa-
tores que afetam o uso do tabaco.
Pai usa Consciˆencia do risco N˜ ao usa tabaco Usa tabaco Totais
N˜ ao M´ınima 59 25 84
N˜ ao Moderada 169 29 198
N˜ ao Substancial 196 9 205
Totais 424 63 487
Sim M´ınima 11 8 19
Sim Moderada 33 11 44
Sim Substancial 22 2 24
Totais 66 21 87
3.3.1 Associa¸ c˜ao em uma ´ unica tabela de contingˆencia s ×2
Considere somente a primeira tabela de contingˆencia 3 × 2 (relativa aos adoles-
centes cujos pais n˜ ao fumam) apresentada anteriormente. Como no caso das tabelas
de contingˆencia 2 × s, escores c = (c
1
, c
2
, c
3
) s˜ ao assumidos para os n´ıveis (m´ınima,
moderada e substancial) do fator ordinal “consciˆencia do risco”. Para a vari´ avel res-
posta assume-se, como j´ a mencionado, os escores a = (a
1
, a
2
) = (0, 1) para as respostas
“n˜ ao usa” e “usa” tabaco, respectivamente. Assim, tem-se:
¯
f =
3
¸
i=1
2
¸
j=1
c
i
a
j
n
ij
n
em que, sob H
0
,
E(
¯
f | H
0
) =
3
¸
i=1
c
i

n
i+
n

2
¸
j=1
a
j

n
+j
n

= µ
c
µ
a
e
V (
¯
f | H
0
) =

3
¸
i=1
(c
i
−a
j
)
2

n
i+
n

2
¸
j=1
(a
j
−µ
a
)
2
(n
+j
/n)
(n + 1)
¸
A quantidade
¯
f tem distribui¸ c˜ ao aproximadamente Normal para grandes amostras
Giolo, S. R. An´ alise de Dados Discretos 37
de modo que, para essas situa¸ c˜ oes, usa-se a estat´ıstica de teste:
Q
CS
=
(
¯
f −µ
c
µ
a
)
2
V ar(
¯
f | H
0
)
=
(n −1)

¸
3
i=1
¸
2
j=1
(c
i
−µ
c
)(a
j
−µ
a
) n
ij

2

¸
3
i=1
(c
i
−µ
c
)
2
n
i+

¸
2
j=1
(a
j
−µ
a
)
2
n
+j

= (n −1) r
2
ac
em que r
ac
´e o coeficiente de correla¸ c˜ ao de Pearson. Por este fato Q
CS
´e denominada
estat´ıstica da correla¸ c˜ ao. Ainda, Q
CS
tem distribui¸ c˜ ao aproximada Qui-quadrado com
1 grau de liberdade.
Para os dados da primeira tabela de contingˆencia 3 × 2 da Tabela 16 obteve-
se Q
CS
= 34, 28 (p < 0,0001), concluindo-se, portanto, haver uma forte associa¸ c˜ ao
(correla¸ c˜ ao) entre consciˆencia do risco de fumo e uso de tabaco.
3.3.2 Associa¸ c˜ao em um conjunto de tabelas de contingˆencia s × 2
Mantel (1963) tamb´em propˆ os uma estat´ıstica de teste para a associa¸ c˜ ao de duas
vari´ aveis que s˜ ao ordinais em um conjunto de tabelas s × 2, baseada nos escores a e c
assumidos para as colunas e linhas das tabelas. Esta estat´ıstica ´e expressa por:
Q
CSMH
=
¸
¸
q
h=1
n
h

¯
f
h
−E(
¯
f
h
| H
0
)

2
¸
q
h=1
n
2
h
var(
¯
f
h
| H
0
)
=
¸
¸
q
h=1
n
h
(v
hc
v
ha
)
1/2
r
ca.h
¸
2
¸
q
h=1

n
2
h
v
hc
v
ha
/(n
h
−1)

e ´e chamada estat´ıstica da correla¸ c˜ ao de Mantel-Haenszel estendida. Q
CSMH
segue a distribui¸ c˜ ao Qui-quadrado com 1 grau de liberdade quando o tamanho
amostral combinado das tabelas s× 2 for suficientemente grande, isto ´e,
¸
q
h=1
n
h
≥ 40.
Para os dados da Tabela 16, tomando-se os escores inteiros c = (1, 2, 3),
obteve-se Q
CSMH
= 40,6639 (p < 0,0001). Existe, portanto, uma forte associa¸ c˜ ao
(correla¸ c˜ ao) entre consciˆencia do risco de fumar e uso de tabaco pelo adolescente,
controlando pelo fator uso de tabaco pelo pai.
Giolo, S. R. An´ alise de Dados Discretos 38
3.4 Tabelas de contingˆencia s ×r
Os conceitos de associa¸ c˜ ao e medidas de associa¸ c˜ ao em tabelas 2 × 2 e associa¸ c˜ ao
em tabelas de contingˆencia 2 × r e s ×2 foram apresentados e discutidos at´e o momento.
Nessa se¸ c˜ ao tais conceitos s˜ ao estendidos para as tabelas s × r.
3.4.1 Testes para associa¸ c˜ao geral em tabelas s ×r
A nota¸ c˜ ao de uma tabela de contingˆencia s × r, em que tem-se duas vari´ aveis,
uma delas com s categorias e a outra com r categorias ´e apresentada na Tabela 17.
Tabela 17. Tabela de contingˆencia s × r.
Categorias da vari´ avel resposta
Grupos 1 2 · · · r Totais
1 n
11
n
12
· · · n
1r
n
1+
2 n
21
n
22
· · · n
2r
n
2+
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
s n
s1
n
s2
· · · n
sr
n
s+
Totais n
+1
n
+2
· · · n
+r
n
Para testar a hip´ otese nula de n˜ ao existˆencia de associa¸ c˜ ao geral em uma tabela
de contingˆencia s × r pode-se usar:
3.4.1.1 Situa¸ c˜ao 1: vari´avel resposta nominal
i) a estat´ıstica qui-quadrado de Pearson, como definida para uma tabela de con-
tingˆencia 2 × 2, isto ´e,
Q
P
=
s
¸
i=1
r
¸
j=1
(n
ij
−m
ij
)
2
m
ij
.
que, quando todas as caselas apresentarem valores esperados maiores que 5, tem
distribui¸ c˜ ao aproximada Qui-quadrado com (s -1)(r - 1) graus de liberdade.
Giolo, S. R. An´ alise de Dados Discretos 39
ii) a estat´ıstica Q que, como para uma tabela de contingˆencia 2 × 2, ´e obtida por:
Q =
(n −1)
n
Q
P
e tˆem, nesse caso, distribui¸ c˜ ao aproximada Qui-quadrado com (s -1)(r - 1) graus
de liberdade.
3.4.1.2 Situa¸ c˜ao 2: vari´avel resposta ordinal
As estat´ısticas Q e Q
P
s˜ ao adequadas para a detec¸ c˜ ao de associa¸ c˜ ao geral. N˜ ao
s˜ ao, no entanto, t˜ ao adequadas quando a vari´ avel resposta ´e ordinal e ´e de interesse
levar em conta tal ordena¸ c˜ ao. Assim como para tabelas 2× r, a estat´ıstica escore m´edio,
Q
S
, pode ser tamb´em usada para tabelas s × r, de modo que Q
S
´e expressa por:
Q
S
=
(n −1)
¸
s
i=1
n
i+
(
¯
f
i
−µ
a
)
2
n v
a
em que
¯
f
i
=
¸
r
j=1
a
j
n
ij
n
i+
, µ
a
= E[
¯
f
i
| H
0
] =
¸
r
j=1
a
j
n
+j
n
e v
a
=
¸
r
j=1
(a
j
− µ
a
)
2

n
+
j
n

.
Nesses casos, Q
S
tem distribui¸ c˜ ao aproximada Qui-quadrado com (s - 1) graus de
liberdade uma vez que os escores m´edios de s grupos est˜ ao sendo comparados.
3.4.1.3 Situa¸ c˜ao 3: ambas as vari´aveis ordinais
Esta situa¸ c˜ ao ocorre, por exemplo, quando a vari´ avel resposta ´e ordinal e os
tratamentos sendo comparados s˜ ao, na realidade, dosagens diferentes de um mesmo
medicamento. Em tais situa¸ c˜ oes, escores s˜ ao assumidos para os n´ıveis da vari´ avel
resposta e, tamb´em, para os n´ıveis do fator de interesse.
A estat´ıstica de teste apropriada para esta situa¸ c˜ ao, como visto para tabelas de
contingˆencia s × 2, ´e a estat´ıstica da correla¸ c˜ ao Q
CS
que, independente da dimens˜ ao
da tabela, ter´ a sempre distribui¸ c˜ ao aproximada Qui-quadrado com 1 grau de liberdade.
Tal estat´ıstica ´e expressa por:
Q
CS
= (n −1) r
2
ac
em que r
ac
´e o coeficiente de correla¸ c˜ ao de Pearson (ver pgs. 36 e 37).
Giolo, S. R. An´ alise de Dados Discretos 40
3.4.2 Teste exato para associa¸ c˜ao geral em tabelas s ×r
Em alguns casos o tamanho amostral, em uma tabela de contingˆencia s × r,
n˜ ao ´e suficientemente grande e ocorrem diversos valores esperados menores que 5. As
estat´ısticas qui-quadrado discutidas anteriormente n˜ ao s˜ ao, portanto, recomend´ aveis.
Nessas situa¸ c˜ oes, uma alternativa ´e o teste exato de Fisher para tabelas s × r. Esse
m´etodo segue os mesmos princ´ıpios do teste exato de Fisher para uma tabela de con-
tingˆencia 2 ×2, exceto que as probabilidades s˜ ao assumidas serem provenientes de uma
distribui¸ c˜ ao Hipergeom´etrica multivariada, isto ´e.
P(N
ij
= n
ij
) =
s
¸
i=1
n
i+
!
r
¸
j=1
n
+j
!
n!
s
¸
i=1
r
¸
j=1
n
ij
!
.
3.4.3 Medidas de associa¸ c˜ao em tabelas s ×r
Algumas medidas de associa¸ c˜ ao encontram-se dispon´ıveis quando h´ a interesse em
se obter a intensidade da associa¸ c˜ ao em uma tabela s × r. A escolha por uma dessas
medidas, depender´ a da escala de mensura¸ c˜ ao das vari´ aveis.
i) Medidas de associa¸ c˜ao ordinal
Nos casos em que as categorias exibidas nas linhas e colunas de uma tabela de
contingˆencia s × r estiverem em uma escala intervalar ou apresentarem escores
que s˜ ao igualmente espa¸ cados, recomenda-se (Stokes et al., 2000), como medida
de associa¸ c˜ ao, o coeficiente de correla¸ c˜ ao de Pearson. Nos casos, contudo, em
que as categorias s˜ ao de natureza ordinal mas n˜ ao apresentarem uma escala de
distˆ ancia ´ obvia, sugere-se, ent˜ ao, o coeficiente de correla¸ c˜ ao de Spearman o qual
baseia-se nos ranks das categorias.
ii) Medidas de associa¸ c˜ao nominal
Medidas de associa¸ c˜ ao nos casos em que uma, ou ambas, as vari´ aveis de uma
tabela de contingˆencia s × r estiverem em uma escala de mensura¸ c˜ ao nominal,
s˜ ao mais dif´ıceis. Dois coeficientes propostos na literatura para essas situa¸ c˜ oes
Giolo, S. R. An´ alise de Dados Discretos 41
s˜ ao: o coeficiente de incerteza (uncertainty coefficient) e o coeficiente lambda.
Agresti (1990) discute algumas dessas medidas.
3.4.4 Exemplos
3.4.4.1 Local de moradia e afilia¸ c˜ oes pol´ıtico partid´arias
Os dados apresentados na Tabela 18 referem-se a um estudo sobre a afilia¸ c˜ ao
partid´ aria em uma determinada cidade (Stokes et al., 2000). O interesse ´e saber se
existe associa¸ c˜ ao entre partido pol´ıtico e local (bairros) de moradia.
Tabela 18. Distribui¸ c˜ ao pol´ıtico partid´ aria nos bairros da cidade.
Local de Moradia
Partido Pol´ıtico A B C D Totais
Democrata 221 160 360 140 881
Independente 200 291 160 311 962
Republicano 208 106 316 97 727
Totais 629 557 548 836 2570
Para esses dados, ambas as vari´ aveis encontram-se na escala de mensura¸ c˜ ao nomi-
nal e, desse modo, para testar a hip´ otese nula de n˜ ao associa¸ c˜ ao entre partido pol´ıtico e
local de moradia pode-se usar a estat´ıstica qui-quadrado de Pearson (Q
P
) bem como a
estat´ıstica Q. Os resultados obtidos para elas foram: Q
P
= 273,92 (p < 0,0001, g.l = 6)
e Q = 273, 81 (p < 0,0001, g.l. = 6). Note que Q e Q
P
forneceram valores muito
pr´ oximos, o que j´ a era esperado uma vez que o tamanho amostral (n = 2570) ´e grande.
Dos resultados apresentados, conclui-se haver associa¸ c˜ ao entre partido pol´ıtico e local
de moradia.
3.4.4.2 Medicamentos para dor de cabe¸ ca e per´ıodo sem dor
Os dados desse exemplo, que encontram-se apresentados na Tabela 19, s˜ ao de
um estudo sobre um novo medicamento utilizado para aliviar dores de cabe¸ ca. Os
Giolo, S. R. An´ alise de Dados Discretos 42
pesquisadores compararam tal medicamento com o tratamento padr˜ ao e um placebo
e mediram, para cada um deles, o n´ umero (em horas) de substancial al´ıvio da dor de
cabe¸ ca.
Tabela 19. Estudo de um novo medicamento para o tratamento de dores de cabe¸ ca.
Horas de al´ıvio
Tratamento 0 1 2 3 4 Totais
Placebo 6 9 6 3 1 25
Padr˜ ao 1 4 6 6 8 25
Novo 2 5 6 8 6 27
Totais 9 18 18 17 15 77
Claramente, n´ umero de horas ´e uma vari´ avel resposta ordinal. Nesses casos, o teste
escore m´edio, como visto anteriormente, ´e indicado para testar a hip´ otese nula de n˜ ao
associa¸ c˜ ao entre medicamento e a intensidade do al´ıvio de dor de cabe¸ ca. Utilizando-se,
portanto, os escores a = (0, 1, 2, 3, 4) obteve-se Q
S
= 13, 7346 ( p = 0,00104, g.l = 2).
Assim, h´ a evidˆencias estat´ısticas de associa¸ c˜ ao entre tratamento e o n´ umero de horas
de dor de cabe¸ ca. Pode-se, desse modo, concluir que pelo menos dois tratamentos
diferem entre si. Quais deles diferem? Observe que
¯
f
1
= 1, 36,
¯
f
2
= 2, 64 e
¯
f
3
= 2, 41
fornecendo ind´ıcios de que o placebo difere dos tratamentos novo e padr˜ ao. N˜ ao parece
haver ind´ıcios, contudo, de diferen¸ cas entre os tratamentos novo e padr˜ ao.
Considerando-se, ent˜ ao, a tabela com somente as linhas correspondentes aos trata-
mentos padr˜ ao e novo tem-se Q
S
= 0,465 (p = 0,495, g.l. = 1). Conclui-se, desse modo,
que os tratamentos novo e padr˜ ao n˜ ao diferem entre si. Para as demais compara¸ c˜ oes
obtiveram-se: i) placebo versus novo: Q
S
= 8, 6 (p = 0,0034, g.l. = 1)
ii) placebo versus padr˜ ao: Q
S
= 11, 66 ( p = 0,0006, g.l. = 1).
Observe, neste exemplo, que existe v´ arias caselas com n´ umero esperado menores
que 5 o que inviabiliza a utiliza¸ c˜ ao das estat´ısticas Q e Q
P
, mas n˜ ao inviabiliza o uso da
estat´ıstica Q
S
. Este ´e, portanto, um exemplo que mostra a vantagem em se considerar
a escala ordinal dos dados utilizando-se uma estat´ıstica de teste mais apropriada.
Giolo, S. R. An´ alise de Dados Discretos 43
3.4.4.3 Produtos de limpeza de roupas e intensidade da limpeza
Uma companhia de tratamento de ´ agua realizou um estudo para pesquisar como
os aditivos adicionados ` a ´ agua afetam a limpeza das roupas. O estudo considerou:
´ agua sem nenhum aditivo, ´ agua com tratamento padr˜ ao e ´ agua com dose dupla do
tratamento padr˜ ao. Os resultados obtidos encontram-se na Tabela 20
Tabela 20. Influˆencia de aditivos na ´ agua sobre limpeza das roupas.
Limpeza
Tratamento Baixa M´edia Alta Totais
´
Agua pura 27 14 5 46
´
Agua + trat. padr˜ ao 10 17 26 53
´
Agua + dose dupla trat. padr˜ ao 5 12 50 67
Totais 42 43 81 166
Ambas as vari´ aveis s˜ ao, nesse caso, ordinais e como foi visto, a estat´ıstica da
correla¸ c˜ ao Q
CS
´e indicada. Tomando-se, desse modo, os escores a = (1, 2, 3) e c = (1,
2, 3) para as categorias das vari´ aveis limpeza e tratamento, respectivamente, obteve-se
Q
CS
= 50,6 (p < 0,0001, g.l.= 1). Conclui-se, portanto, que o tratamento e limpeza
est˜ ao associados e que a limpeza aumenta com a dosagem de aditivo adicionado ` a agua.
3.4.4.4 Tipo de ve´ıculo adquirido e fonte de propaganda.
Os dados desse exemplo referem-se a um estudo realizado para saber se o tipo
de carro que as pessoas tinham comprado nos ´ ultimos meses em uma determinada
concession´ aria estava associada com o tipo de an´ uncio publicit´ ario dos mesmos. O
resultado do estudo encontra-se apresentado na Tabela 21.
Pode-se notar que os dados n˜ ao satisfazem as condi¸ ccoes de aplicabilidade dos
testes usuais Q e Q
P
pois existem caselas com freq¨ uˆencia zero bem como algumas delas
com freq¨ uˆencias esperadas menores do que 5. O teste exato de Fisher para testar a
hip´ otese nula de n˜ ao associa¸ c˜ ao ´e, desse modo, a estrat´egia indicada. Utilizando-se
Giolo, S. R. An´ alise de Dados Discretos 44
Tabela 21. Escolha do carro e an´ uncio publicit´ ario
An´ uncio publicit´ ario
Tipo de carro TV Revista Jornal Radio Totais
Sedan 4 0 0 2 6
Esportivo 0 3 3 4 10
Utilit´ ario 5 5 2 2 14
Totais 9 8 5 8 30
tal teste para os dados desse exemplo obteve-se um valor p = 0,0473 (bilateral). N˜ ao
existe teste exato de Fisher unilateral para tabelas s ×r. Conclui-se, nesse caso, haver
evidˆencias de associa¸ c˜ ao ao n´ıvel de significˆ ancia de 5%. Para n´ıveis de significˆ ancia
menores n˜ ao ´e poss´ıvel concluir pela existˆencia de associa¸ c˜ ao entre o tipo de carro
comprado e tipo de an´ uncio publicit´ ario.
3.4.5 Concordˆancia entre observadores
3.4.5.1 Estat´ıstica Kappa
Pesquisadores nas ´ areas de medicina, epidemiologia, psiquiatria, psicologia etc.
tˆem, ou deveriam ter, consciˆencia de que o observador ´e uma poss´ıvel fonte de erro de
medi¸ c˜ ao. Em muitos casos, diferentes observadores, ou um mesmo observador em dife-
rentes tempos, podem, por exemplo, examinar um raio X, ou realizar um exame f´ısico,
e chegarem a diferentes conclus˜ oes (diagn´ osticos).
´
E importante, desse modo, avaliar
a concordˆ ancia entre os observadores. Os dados, em um estudo desse tipo, produzem,
em geral, uma tabela de contingˆencia s × s em que os n´ıveis nas colunas representam
a resposta de um observador e os n´ıveis nas linhas a resposta do outro observador. As
caselas na diagonal representam os casos em que os observadores concordam.
Certamente as estat´ısticas tratadas anteriormente para testar a associa¸ c˜ ao, ou n˜ ao,
entre as respostas dos observadores poderiam ser usadas. Com os resultados obtidos
n˜ ao se poderia, contudo, quantificar a concordˆ ancia dos observadores. Medidas de
Giolo, S. R. An´ alise de Dados Discretos 45
concordˆ ancia foram, ent˜ ao, propostas.
O coeficiente Kappa, proposto por Cohen (1960), ´e uma dessas medidas e ´e
definido por:
ˆ κ =
Π
0
−Π
e
1 −Π
e
sendo Π
0
=
¸
s
i=1
p
ii
=
¸
s
i=1
n
ii
n
a probabilidade de concordˆ ancia com, p
ii
a probabi-
lidade de um indiv´ıduo ser classificado na categoria i por ambos os observadores e,
Π
e
=
¸
s
i=1
(p
i+
)(p
+i
) =
¸
s
i=1
n
i+
n
n
+i
n
a probabilidade de concordˆ ancia sob H
0
em que
H
0
: n˜ ao h´ a concordˆ ancia entre os observadores.
Como Π
0
= 1 quando existir concordˆ ancia perfeita (todos os elementos fora da
diagonal s˜ ao iguais a zero), κ ser´ a igual a 1 quando existir concordˆ ancia perfeita entre
os observadores e, κ ser´ a igual a 0 quando a concordˆ ancia for aquela esperada sob
H
0
. Assim quanto mais pr´ oximo de 1 for o valor de κ, maior concordˆ ancia existir´ a
entre os observadores.
´
E poss´ıvel obter valores negativos para κ mas isto, raramente
ocorre. Considera-se, em geral, κ < 0,4 como concordˆ ancia fraca, κ entre [0,4; 0,8)
como concordˆ ancia moderada e κ ≥ 0,8 como concordˆ ancia forte.
A variˆ ancia assint´ otica do coeficiente Kappa pode ser estimada por:
var(ˆ κ) =
(A +B −C)
((1 −Π
e
)
2
n)
em que A =
¸
i
p
ii

1 − (p
i+
+ p
+i
)(1 − ˆ κ)

2
, B = (1 − ˆ κ)
2
)
¸¸
i=j
p
ij
(p
+1
p
j+
)
2
e
C =

ˆ κ−Π
e
(1 −ˆ κ)

2
. Um intervalo de confian¸ ca para κ pode, portanto, ser obtido por:
ˆ κ ±z
α/2

(var(ˆ κ))
em que z
α/2
´e o 100(1-α/2) percentil da distribui¸ c˜ ao normal padr˜ ao.
Para os casos em que a resposta ´e ordinal uma forma ponderada da estat´ıstica
Kappa foi proposta e esta ´e definida por:
ˆ κ
w
=
Π
0
(w) −Π
e
(w)
1 −Π
e
(w)
=
¸
s
i=1
¸
s
j=1
w
ij
p
ij

¸
s
i=1
¸
s
j=1
w
ij
p
i+
p
+j
1 −
¸
s
i=1
¸
s
j=1
w
ij
p
i+
p
+j
Giolo, S. R. An´ alise de Dados Discretos 46
em que w
ij
s˜ ao pesos com valores entre 0 e 1. Um poss´ıvel conjunto de pesos ´e dado
por:
w
ij
= 1 −
| escore
(i)
−escore
(j)
|
escore
(dim)
−escore
(1)
em que escore
(i)
´e o escore para a i-´esima linha, escore
(j)
´e o escore para a j-´esima coluna
e dim ´e a dimens˜ ao da tabela s ×s.
A variˆ ancia assint´ otica do coeficiente Kappa ponderado pode ser estimada por:
var(ˆ κ
w
) =
¸
i
¸
j
p
ij

w
ij
−( ¯ w
i+
+ ¯ w
+j
)(1 − ˆ κ
w
)

2

ˆ κ
w
−Π
e
(w)(1 − ˆ κ
w
)

2
(1 −Π
e
(w))
2
n
em que ¯ w
i+
=
¸
j
p
+j
w
ij
e ¯ w
+j
=
¸
j
p
i+
w
ij
.
Um intervalo de confian¸ ca para ˆ κ
w
pode, portanto, ser obtido por:
ˆ κ(w) ±z
α/2

var(ˆ κ
w
)
em que z
α/2
´e o 100(1-α/2) percentil da distribui¸ c˜ ao normal padr˜ ao.
3.4.5.2 Exemplo: concordˆancia entre o diagn´ ostico de dois neurologistas
Os dados apresentados na Tabela 22 referem-se a classifica¸ c˜ ao de pacientes com
esclerose m´ ultipla, em 4 classes de diagn´ ostico, por dois neurologistas.
Tabela 22. Concordˆ ancia dos diagn´ osticos de dois neurologistas
Neurologista 1
Neurologista 2 1 2 3 4 Totais
1 38 5 0 1 44
2 33 11 3 0 47
3 10 14 5 6 35
4 3 7 3 10 23
Totais 84 37 11 17 149
Giolo, S. R. An´ alise de Dados Discretos 47
Para esses dados obteve-se:
ˆ κ =
((38 + 11 + 5 + 10)/149) −(((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17))/149
2
)
1 −(((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17)/149
2
))
ˆ κ = 0, 2079.
Ainda, var(ˆ κ) = 0, 00255 e, portanto, IC
0,95
(ˆ κ) = (0,109; 0,3068). De forma
an´ aloga, ˆ κ
w
= 0, 3797, var(ˆ κ
w
) = 0, 002673 e IC
0,95
(ˆ κ
w
) = (0,2785; 0,4810). Tais
resultados indicam uma fraca concordˆ ancia entre os neurologistas.
3.5 Conjunto de tabelas de contingˆencia s ×r
Para um conjunto de tabelas s ×r tem-se, para testar as associa¸ c˜ oes de interesse,
as extens˜ oes das estat´ısticas:
i) Q
MH
, quando as vari´ aveis forem nominais;
ii) Q
SMH
, quando os n´ıveis da vari´ avel resposta forem ordinais e,
iii) Q
CSMH
, quando ambas as vari´ aveis forem ordinais.
4 REGRESS
˜
AO LOG
´
ISTICA DICOT
ˆ
OMICA
Neste cap´ıtulo, o modelo de regress˜ ao log´ıstica ser´ a apresentado para descrever a
natureza da associa¸ c˜ ao entre um conjunto de fatores e a vari´ avel resposta por meio de
um n´ umero parcimonioso de parˆ ametros.
A regress˜ ao log´ıstica ´e freq¨ uentemente apropriada para vari´ aveis respostas
categ´ oricas e descreve a rela¸ c˜ ao entre esta vari´ avel resposta e um conjunto de vari´ aveis
explanat´ orias (covari´ aveis). A vari´ avel resposta ´e usualmente dicotˆ omica (tipicamente
sim e n˜ ao), mas pode tamb´em ser usada para vari´ aveis resposta com mais do que duas
categorias (regress˜ ao log´ıstica politˆ omica). As vari´ aveis explanat´ orias, em regress˜ ao
log´ıstica, podem ser categ´ oricas ou cont´ınuas. Vari´ aveis dummy s˜ ao usadas para a
incorpora¸ c˜ ao de vari´ aveis qualitativas no modelo de regress˜ ao log´ıstica.
Considere, como exemplo inicial, os dados da Tabela 24 em que a rela¸ c˜ ao entre
idade e doen¸ ca coron´ aria est´ a sendo estudada. Pelos resultados apresentados nesta
tabela, observa-se que com o acr´escimo da idade, cresce tamb´em a probabilidade de
ocorrˆencia de doen¸ ca coron´ aria. A Figura 1 apresenta graficamente tais resultados
considerando-se o ponto m´edio de cada intervalo de idade.
Uma diferen¸ ca importante entre o modelo de regress˜ ao log´ıstica e o modelo de
regress˜ ao linear pode ser notada e, esta, diz respeito ` a natureza da rela¸ c˜ ao entre a
vari´ avel resposta e as vari´ aveis independentes. Em qualquer problema de regress˜ ao a
quantidade sendo modelada ´e o valor m´edio da vari´ avel resposta dado os valores das
vari´ aveis independentes. Esta quantidade ´e chamada m´edia condicional e ser´ a expressa
por E(Y | x) em que Y denota a vari´ avel resposta e x denota os valores das vari´ aveis
independentes. Em regress˜ ao linear tem-se - ∞ < E(Y | x) < + ∞ e, em regress˜ ao
log´ıstica, devido ` a natureza da vari´ avel resposta, 0 ≤ E(Y | x) ≤ 1 como pode ser
Giolo, S. R. An´ alise de Dados Discretos 49
Tabela 23. Dados sobre doen¸ ca coron´ aria por intervalo de idade
Doen¸ ca coron´ aria
Idade (X = x) N˜ ao (Y = 0) Sim (Y = 1) Totais E(Y | x)
20-29 9 1 10 0,10
30-34 13 2 15 0,13
35-39 9 3 12 0,25
40-44 10 5 15 0,33
45-49 7 6 13 0,46
50-54 3 5 8 0,63
55-59 4 13 17 0,76
60-69 2 8 10 0,80
Totais 57 43 100 0,43
30 40 50 60
0
.
1
0
.
2
0
.
3
0
.
4
0
.
5
0
.
6
0
.
7
0
.
8
Idade(em anos)
E
[
Y
|
x
]
Figura 1: E(Y | x) versus idade.
observado na Figura 1. Observe ainda, nesta mesma figura, que a mudan¸ ca em E(Y | x)
por unidade de mudan¸ ca em x torna-se progressivamente menor quando E(Y | x) torna-
se pr´ oxima de zero ou de um. A curva em forma de “S” lembra a distribui¸ c˜ ao acumulada
de uma vari´ avel aleat´ oria, o que motivou o uso da distribui¸ c˜ ao log´ıstica para fornecer
um modelo para E(Y | x).
Giolo, S. R. An´ alise de Dados Discretos 50
A fun¸ c˜ ao de distribui¸ c˜ ao log´ıstica ´e descrita por:
F(x) =
1
1 + exp{−x}
=
exp{x}
1 + exp{x}
em que, para x = - ∞e x = + ∞, tem-se F(- ∞) = 0 e F(+ ∞) = 1. Sua correspondente
representa¸ c˜ ao gr´ afica ´e mostrada na Figura 2.

−20 −10 0 10 20
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
1
.
2
x
F
(
x
)
Figura 2: Fun¸ c˜ ao de distribui¸ c˜ ao log´ıstica.
A fun¸ c˜ ao de distribui¸ c˜ ao log´ıstica toma valores entre zero e um; assume o valor
zero em uma parte do dom´ınio das vari´ aveis explicativas, um em outra parte do dom´ınio
e cresce suavemente na parte intermedi´ aria possuindo uma particular curva em forma
de “S”. Se comparada a Figura 1 pode-se notar as similaridades.
Outras fun¸ c˜ oes de distribui¸ c˜ ao possuem as caracter´ısticas acima mencionadas. A
fun¸ c˜ ao log´ıstica foi escolhida, no entanto, basicamente por duas raz˜ oes: (i) do ponto
de vista matem´ atico ´e extremamente flex´ıvel e f´ acil de ser usada e, (ii) conduz a in-
terpreta¸ c˜ oes simples. Para descrever a varia¸ c˜ ao entre os θ(x) = E(Y | x), foi, ent˜ ao,
proposto o modelo de regress˜ ao log´ıstico expresso por:
θ(x) = P(Y = 1 | x) =
1
1 + exp

β
0
+
p
¸
k=1
β
k
x
k

¸
=
exp

β
0
+
p
¸
k=1
β
k
x
k
¸
1 + exp

β
0
+
p
¸
k=1
β
k
x
k
¸
(7)
Giolo, S. R. An´ alise de Dados Discretos 51
em que Y
i
= 1 significa a presen¸ ca da resposta, x representa as covari´ aveis (fatores de
risco), isto ´e, x = (x
1
, x
2
, · · · , x
p
), o parˆ ametro β
0
´e o intercepto, e β
k
(k = 1, · · · , p)
s˜ ao os p parˆ ametros de regress˜ ao. Observe que este modelo retornar´ a uma estima-
tiva da probabilidade do indiv´ıduo ter a resposta dado que o mesmo possui, ou n˜ ao,
determinados fatores de risco. Conseq¨ uentemente,
1 −θ(x) =
exp

β
0
+
p
¸
k=1
β
k
x
k

¸
1 + exp

−β
0
+
p
¸
k=1
β
k
x
k

¸
=
1
1 + exp

β
0
+
p
¸
k=1
β
k
x
k
¸
retornar´ a uma estimativa da probabilidade do indiv´ıduo n˜ ao ter a resposta dado que o
mesmo possui ou n˜ ao determinados fatores de risco.
Observe, ainda, que fazendo-se:
log

θ(x)
1 −θ(x)

= β
0
+
p
¸
k=1
β
k
x
k
tem-se um modelo linear para o logito, isto ´e, para o logaritmo neperiano da raz˜ ao entre
θ(x) e 1 - θ(x). O logito ´e, na realidade, o logaritmo de uma odds e, este fato, permitir´ a
que odds ratios sejam, portanto, obtidas pelo modelo (ser´ a tratado em detalhes mais
adiante).
No contexto de modelos lineares generalizados, uma fun¸ c˜ ao, mon´ otona e deriv´ avel,
que relaciona a m´edia ao preditor linear ´e denominada de fun¸ c˜ao de liga¸ c˜ao. Assim,
η = log

θ(x)
1−θ(x)

, ´e a fun¸ c˜ ao de liga¸ c˜ ao canˆ onica para a modelo Binomial.
Al´em de apresentar uma forma linear, o modelo log´ıstico apresenta a propriedade
´ util de que todos os valores (β
0
+
¸
p
k=1
β
k
x
k
), pertencentes ao intervalo (-∞, + ∞),
terem um correspondente, no intervalo (0, 1), para θ(x). Probabilidades preditas por
este modelo s˜ ao, desse modo, restritas a assumirem valores entre 0 e 1. O modelo,
portanto, n˜ ao produz probabilidades negativas bem como probabilidades maiores que 1.
Giolo, S. R. An´ alise de Dados Discretos 52
Outra diferen¸ ca importante entre um modelo de regress˜ ao linear e o modelo de
regress˜ ao log´ıstico refere-se ` a distribui¸ c˜ ao condicional da vari´ avel resposta. No modelo
de regress˜ ao linear ´e assumido que uma observa¸ c˜ ao da vari´ avel resposta pode ser ex-
pressa por y = E(Y | x) + ε em que a quantidade ε ´e chamada erro e ´e assumida ter
distribui¸ c˜ ao Normal com m´edia zero e variˆ ancia constante. Este n˜ ao ´e o caso quando
a resposta ´e dicotˆ omica ( Y = 1 ou 0 ). O valor da vari´ avel resposta dado x ´e expresso
por y = θ(x) + ε e, como a quantidade ε pode assumir somente um de dois poss´ıveis
valores, isto ´e, ε = 1 - θ(x) para y = 1 ou, ε = - θ(x) para y = 0, segue que ε tem
distribui¸ c˜ ao com m´edia zero e variˆ ancia dada por θ(x)

1- θ(x)

, isto ´e, a distribui¸ c˜ ao
condicional da vari´ avel resposta segue uma distribui¸ c˜ ao Binomial com probabilidade
dada pela m´edia condicional θ(x).
4.1 Estima¸ c˜ao dos parˆametros
A estima¸ c˜ ao dos parˆ ametros em regress˜ ao log´ıstica ´e, em geral, feita pelo m´etodo
da m´ axima verossimilhan¸ ca. Para aplica¸ c˜ ao deste m´etodo ´e necess´ ario construir ini-
cialmente a fun¸ c˜ ao de verossimilhan¸ ca a qual expressa a probabilidade dos dados ob-
servados como uma fun¸ c˜ ao dos parˆ ametros desconhecidos. Os estimadores de m´ axima
verossimilhan¸ ca dos parˆ ametros ser˜ ao os valores que maximizam esta fun¸ c˜ ao.
Para encontrar esses valores no modelo de regress˜ ao log´ıstico, considere a vari´ avel
resposta Y codificada como zero ou um. Da express˜ ao (7) pode-se, ent˜ ao, obter a
probabilidade condicional de que Y seja igual a 1 dado x, isto ´e, θ(x) = P(Y = 1 | x)
e, em conseq¨ uˆencia, a probabilidade condicional de que Y seja igual a zero dado x,
isto ´e, 1 - θ(x) = P(Y = 0 | x). Assim, θ(x
i
) ser´ a a contribui¸ c˜ ao para a fun¸ c˜ ao de
verossimilhan¸ ca dos pares (y
i
, x
i
) em que y
i
= 1 e 1 - θ(x
i
), a contribui¸ c˜ ao dos pares
em que y
i
= 0.
Assumindo-se que as observa¸ c˜ oes s˜ ao independentes tem-se a seguinte express˜ ao
para a fun¸ c˜ ao de verossimilhan¸ ca:
L(β) =
n
¸
i=1

θ(x
i
)

y
i

1 −θ(x
i
)

1−y
i
(8)
Giolo, S. R. An´ alise de Dados Discretos 53
As estimativas de β ser˜ ao os valores que maximizam a fun¸ c˜ ao de verossimilhan¸ ca
dada em (8). Algebricamente ´e mais f´ acil trabalhar com o logaritmo desta fun¸ c˜ ao, isto
´e, com:
l(β) = log L(β) =
n
¸
i=1
y
i
log

θ(x
i
)

+ (1 −y
i
) log

1 −θ(x
i
)

Para obter os valores de β que maximizam l(β) basta diferenciar a respectiva
fun¸ c˜ ao com respeito a cada parˆ ametro β
j
(j = 0, 1,.., p) obtendo-se, assim, o sistema
de p + 1 equa¸ c˜ oes,
n
¸
i=1

y
i
−θ(x
i
)

= 0
n
¸
i=1
x
ij

y
i
−θ(x
i
)

= 0 j = 1, · · · , p
que, quando igualadas a zero, produzem como solu¸ c˜ ao as estimativas de m´ axima
verossimilhan¸ ca de β. Os valores ajustados para o modelo de regress˜ ao log´ıstico s˜ ao,
portanto, obtidos substituindo-se as estimativas de β em (7).
As p + 1 equa¸ c˜ oes s˜ ao chamadas equa¸ c˜ oes de verossimilhan¸ ca e por serem n˜ ao-
lineares nos parˆ ametros β
j
(j = 0, 1,.., p), requerem m´etodos especiais para suas
solu¸ c˜ oes. Os m´etodos iterativos de Newton-Raphson e o escore de Fisher s˜ ao algoritmos
num´ericos comumente utilizados com esta finalidade. Uma discuss˜ ao geral de m´etodos
implementados em v´ arios softwares pode ser encontrada em McCullagh e Nelder (1983).
O m´etodo de estima¸ c˜ ao das variˆ ancias-covariˆ ancias dos coeficientes estimados
seguem da teoria de estima¸ c˜ ao de m´ axima verossimilhan¸ ca a qual estabelece que os
estimadores s˜ ao obtidos pela matriz das derivadas parciais de segunda ordem do loga-
ritmo da fun¸ c˜ ao de verossimilhan¸ ca. Essas derivadas tˆem a seguinte forma geral:

2
log L(β)
∂β
2
j
= −
n
¸
i=1
x
2
ij
θ(x
i
)

1 −θ(x
i
)

(9)

2
log L(β)
∂β
j
∂β
l
= −
n
¸
i=1
x
ij
x
il
θ(x
i
)

1 −θ(x
i
)

(10)
para j, l = 0, 1, .., p.
A matriz contendo o negativo dos termos dados nas equa¸ c˜ oes (9) e (10) ser´ a
denotada por I(β) e ´e chamada matriz de informa¸ c˜ ao. As variˆ ancias e covariˆ ancias
Giolo, S. R. An´ alise de Dados Discretos 54
dos coeficientes estimados ser˜ ao obtidas pela inversa dessa matriz e ser´ a denotada por
Σ(β) = I
−1
(β). O j-´esimo elemento da diagonal dessa matriz, denotado por σ
2

j
),
corresponde a variˆ ancia de
ˆ
β
j
e, o elemento na j-´esima linha e l-´esima coluna, dessa
matriz, denotado por σ(β
j
, β
l
), corresponde a covariˆ ancia entre
ˆ
β
j
e
ˆ
β
l
. Os estimadores
das variˆ ancias e covariˆ ancias, denotados por
ˆ
Σ(
ˆ
β), s˜ ao obtidos por avaliar Σ(β) em
ˆ
β.
Em nota¸ c˜ ao matricial, a matriz de informa¸ c˜ ao I(β) = X’VX em que X ´e uma
matriz com n linhas e p + 1 colunas contendo um vetor de uns e as covari´ aveis
dos indiv´ıduos, e V ´e uma matriz diagonal de n linhas e n colunas com elementos
θ(x)(1 − θ(x)) na diagonal. Isto ´e,
X =

1 x
11
· · · x
1p
1 x
21
· · · x
2p
.
.
.
.
.
.
.
.
.
.
.
.
1 x
n1
· · · x
np
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
e
V =

θ(x
1
)(1 −θ(x
1
)) 0 · · · 0
0 θ(x
1
)(1 −θ(x
2
)) · · · 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 · · · θ(x
n
)(1 −θ(x
n
))
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
.
Considerando-se o ponto m´edio para cada intervalo de idade, isto ´e, x = 25, 32,
38, 43, 47, 53, 57 e 65, e ajustando-se o modelo de regress˜ ao log´ıstica para os dados
da Tabela 23 foram obtidas as estimativas
ˆ
β
0
= -5,123 (s.e. = 1,110) e
ˆ
β
1
= 0,1058
(s.e. = 0,023).
4.2 Significˆancia das vari´aveis no modelo
Ap´ os obten¸ c˜ ao das estimativas dos coeficientes β
j
(j = 0, 1,..., p) faz-se necess´ ario
avaliar a adequa¸ c˜ ao do modelo ajustado.
O primeiro interesse est´ a em acessar a significˆ ancia das covari´ aveis presentes no
modelo. O princ´ıpio em regress˜ ao log´ıstica ´e o mesmo usado em regress˜ ao linear, ou
Giolo, S. R. An´ alise de Dados Discretos 55
seja, comparar os valores observados da vari´ avel resposta com os valores preditos pelos
modelos com, e sem, a covari´ avel sob investiga¸ c˜ ao.
Em regress˜ ao linear esta compara¸ c˜ ao ´e feita por meio de uma tabela chamada
an´ alise de variˆ ancia em que aten¸ c˜ ao ´e dada ` a soma de quadrados devida a regress˜ ao.
Um grande valor da soma de quadrados da regress˜ ao sugere que pelo menos uma, ou
talvez todas as vari´ aveis independentes, sejam importantes. Em regress˜ ao log´ıstica a
compara¸ c˜ ao pode ser feita utilizando-se testes tal como, dentre outros, o teste da raz˜ ao
de verossimilhan¸ cas em que, a fun¸ c˜ ao de verossimilhan¸ ca do modelo sem as covari´ aveis
(L
SC
) ´e comparada com a fun¸ c˜ ao de verossimilhan¸ ca do modelo com as covari´ aveis
(L
CC
). Formalmente, o teste ´e expresso por:
RV = −2 log
¸
verossimilhan¸ ca do modelo sem as covari´ aveis
verossimilhan¸ ca do modelo com as covari´ aveis
¸
= −2 log
¸
L
SC
L
CC
¸
= 2 log(L
CC
) −2 log(L
SC
)
Note que a raz˜ ao das verossimilhan¸ cas ´e multiplicada por −2 log. Isto ´e feito para
que se obtenha uma quantidade cuja distribui¸ c˜ ao ´e conhecida (no caso a distribui¸ c˜ ao
qui-quadrado) de modo que, tal quantidade, possa ser usada para a realiza¸ c˜ ao de testes
de hip´ oteses. Em regress˜ ao log´ıstica a estat´ıstica:
D = −2 log
¸
verossimilhan¸ ca do modelo sob estudo
verossimilhan¸ ca do modelo saturado
¸
´e chamada deviance, em que, para um melhor entendimento, ´e conceitualmente ´ util
pensar um valor observado da vari´ avel resposta como sendo tamb´em um valor pre-
dito resultante do modelo saturado. Um modelo saturado ´e aquele que cont´em tantos
parˆ ametros quanto dados existirem. Assim, a estat´ıstica RV apresentada anterior-
mente, pode ser vista como a diferen¸ ca de duas deviances, isto ´e,
RV = Deviance do modelo sem covari´ aveis −Deviance do modelo com covari´ aveis
= −2 log
¸
verossimilhan¸ ca do modelo sem covari´ aveis
verossimilhan¸ ca do modelo saturado
¸

¸
−2 log
¸
verossimilhan¸ ca do modelo com as covari´ aveis
verossimilhan¸ ca do modelo saturado
¸¸
Giolo, S. R. An´ alise de Dados Discretos 56
o que resulta em:
RV = 2 log(L
CC
) −2 log(L
SC
).
Sob a hip´ otese nula de que os p coeficientes associados ` as covari´ aveis no modelo
s˜ ao iguais a zero, a distribui¸ c˜ ao de RV ser´ a Qui-Quadrado com p graus de liberdade.
Rejei¸ c˜ ao da hip´ otese nula neste caso tem interpreta¸ c˜ ao an´ aloga ` aquela em regress˜ ao
linear, ou seja, pode-se concluir que pelo menos um, ou talvez todos, os p coeficientes
s˜ ao diferentes de zero.
4.2.1 An´alise de Deviance e sele¸ c˜ao de modelos
Uma tabela, similar ` a obtida em regress˜ ao linear, para a an´ alise de deviance
(ANODEV) pode ser constru´ıda. A ANODEV ´e uma generaliza¸ c˜ ao da an´ alise de
variˆ ancia visando obter, a partir de uma seq¨ uˆencia de modelos encaixados, os efeitos de
fatores, covari´ aveis e suas intera¸ c˜ oes.
Para uma seq¨ uˆencia de modelos encaixados, tendo estes a mesma distribui¸ c˜ ao e
fun¸ c˜ ao de liga¸ c˜ ao, utiliza-se a deviance como uma medida de discrepˆ ancia do modelo e
pode-se, ent˜ ao, construir uma tabela das diferen¸ cas de deviances, como, por exemplo, a
apresentada na Tabela 24 em que ´e considerado um experimento com duas covari´ aveis
cont´ınuas X
1
e X
2
.
Tabela 24. Exemplo de uma tabela de Diferen¸ ca de Deviances para um experimento com duas
covari´ aveis cont´ınuas X
1
e X
2
.
Modelo g.l. Deviance Residual Diferen¸ ca Deviances Diferen¸ ca g.l.
Nulo g.l.
N
D
N
X
1
g.l.
N
- 1 D
X
1
D
N
- D
X
1
1
X
1
e X
2
g.l.
N
- 2 D
X
1
+X
2
D
X
1
- D
X
1
+X
2
1
X
1
, X
2
e X
1
∗ X
2
g.l.
N
- 3 D
X
1
∗X
2
D
X
1
+X
2
- D
X
1
∗X
2
1
Saturado 0 0
A partir das deviances e suas diferen¸ cas pode-se, ent˜ ao, usando-se o teste da
Giolo, S. R. An´ alise de Dados Discretos 57
raz˜ ao de verossimilhan¸ cas, descrito anteriormente, testar a significˆ ancia da inclus˜ ao de
determinadas covari´ aveis bem como intera¸ c˜ oes no modelo. Em outras palavras, pode-
se avaliar o quanto da varia¸ c˜ ao dos dados ´e explicada pela inclus˜ ao de termos no modelo.
Para o exemplo apresentado na Tabela 23 em que deseja-se verificar a rela¸ c˜ ao
entre idade e doen¸ ca coron´ aria tem-se:
Tabela 25. Tabela de diferen¸ ca de deviances para os dados sobre doen¸ ca coron´ aria.
Modelo g.l. Deviance residual Dif. Deviance Dif. g.l.
Nulo 7 28,7015
X
1
: idade 6 0,5838 28,1177 1
bem como a correspondente an´ alise de deviance (ANODEV),
Tabela 26. An´ alise de deviance para os dados sobre doen¸ ca coron´ aria.
Causa de varia¸ c˜ ao g.l. Deviances RV valor p
Regress˜ ao 1 28,1177 28,1177 1,142e-07
Res´ıduos 6 0,5838
Total 7 28,7015
Portanto, RV = 28,1177 (p = 1.142e-07) e, desse modo, rejeita-se a hip´ otese
H
0
: β
1
= 0 concluindo-se, ent˜ ao, que idade est´ a altamente associada a doen¸ ca coron´ aria
e deve, portanto, permanecer no modelo.
4.3 Qualidade do modelo ajustado
Uma vez selecionado o modelo, dentre os analisados, deseja-se avaliar o qu˜ ao
bem ele se ajusta aos dados, ou seja, qu˜ ao pr´ oximo os valores preditos pelo modelo
encontram-se de seus correspondentes valores observados. As estat´ısticas de teste usadas
para essa finalidade s˜ ao, em geral, denominadas estat´ısticas de qualidade do ajuste
Giolo, S. R. An´ alise de Dados Discretos 58
e comparam, de alguma maneira apropriada, as diferen¸ cas entre os valores observados
e preditos.
Duas estat´ısticas tradicionais de qualidade do ajuste s˜ ao: a qui-quadrado de
Pearson, Q
P
, que ´e baseada nos res´ıduos de Pearson e a qui-quadrado da raz˜ ao de
verossimilhan¸ cas, Q
L
, tamb´em conhecida como deviance por basear-se nos res´ıduos
deviance, e estas s˜ ao expressas, respectivamente, por:
Q
P
=
¸
i,j

n
ij
−m
ij

2
m
ij
e
Q
L
=
¸
i,j
2n
ij
log

n
ij
m
ij

em que m
ij
s˜ ao as quantidades preditas pelo modelo e definidas por:
m
ij
= n
i+
ˆ
θ(x) para j = 1
m
ij
= n
i+
(1 −
ˆ
θ(x)) para j = 2.
Sob a hip´ otese H
0
de que o modelo se ajusta bem aos dados, Q
P
e Q
L
s˜ ao aproxi-
madamente qui-quadrado com graus de liberdade igual ao n´ umero de linhas na tabela
de dados menos o n´ umero de parˆ ametros no modelo. Na pr´ atica, essas estat´ısticas ser˜ ao
aproximadamente qui-quadrado se:
• cada n
i+
> 10
• 80% das contagens preditas s˜ ao pelo menos 5
• todas as outras contagens esperadas s˜ ao maiores que 2, e nenhuma contagem ´e 0.
Para o modelo ajustado aos dados de doen¸ ca coron´ aria obtiveram-se: Q
p
= 0.59
(p = 0.9965, g.l. = 6) e Q
L
= 0.58 (p = 0.9967, g.l. = 6). Conclui-se, desses resultados,
pela n˜ ao rejei¸ c˜ ao da hip´ otese H
0
e, portanto, pode-se dizer que o modelo escolhido se
ajusta satisfatoriamente aos dados.
Giolo, S. R. An´ alise de Dados Discretos 59
4.3.1 O modelo ajustado e interpreta¸ c˜ oes
Para os dados da Tabela 23, foi ajustado, e considerado satisfat´ orio, o modelo:
ˆ
θ(x) =
exp

−5, 123 + 0, 1058 ∗ idade
¸
1 + exp

−5, 123 + 0, 1058 ∗ idade
¸
podendo-se, ent˜ ao, obter, a partir deste, algumas estimativas, tais como, por exemplo:
Tabela 27. Estimativas obtidas pelo modelo ajustado.
Idade (x
i
)
ˆ
θ(x
i
) 1 −
ˆ
θ(x
i
) logito
26 0,0853 0,9147 -2,3724
27 0,0939 0,9061 -2,2669
65 0,8524 0,1476 1,7535
Observe que exp{logito(θ(x
i
))} =
θ(x
i
)
(1 −θ(x
i
))
= odds (tratada anteriormente).
Pode-se, ent˜ ao, obter a odds ratio para, por exemplo, os indiv´ıduos com idades 65 e 26
anos, isto ´e,
ˆ
OR =
odds(65 anos)
odds(26 anos)
=
exp{1, 7535}
exp{−2, 3724}
= 61, 9
concluindo-se, assim, que indiv´ıduos com 65 anos de idade tem odds 61,9 vezes maior
de doen¸ ca coron´ aria do que a odds dos indiv´ıduos com 26 anos.
4.4 Diagn´ ostico da regress˜ao log´ıstica
As estat´ısticas Q
p
e Q
L
, descritas na se¸ c˜ ao anterior e usadas para verificar a
qualidade de ajuste do modelo de regress˜ ao log´ıstica, fornecem um ´ unico n´ umero o qual
resume a concordˆ ancia entre os valores observados e os ajustados. O problema com essas
estat´ısticas ´e que um ´ unico n´ umero ´e usado para resumir uma quantidade consider´ avel
de informa¸ c˜ ao. Portanto, antes de considerar que o modelo ajustado ´e satisfat´ orio,
´e importante que outras medidas sejam examinadas para que se possa averiguar se
Giolo, S. R. An´ alise de Dados Discretos 60
o ajuste ´e v´ alido sobre todo o conjunto de padr˜ oes (combina¸ c˜ oes das categorias) das
covari´ aveis.
Pregibon (1981) estendeu os m´etodos de diagn´ ostico de regress˜ ao linear para a
regress˜ ao log´ıstica e argumenta que, como as estat´ısticas qui-quadrado de Pearson (Q
p
)
e deviance (Q
L
) s˜ ao duas medidas usadas para verificar a qualidade do modelo ajustado,
faz sentido analisar os componentes individuais dessas estat´ısticas uma vez que estes
componentes s˜ ao fun¸ c˜ oes dos valores observados e preditos pelo modelo
Assim, se em uma tabela de contingˆencia s×2, tem-se para cada uma das s linhas
n
i+
sujeitos dos quais n
i1
apresentam a resposta de interesse (sucesso) e
ˆ
θ
i1
denota a
probabilidade predita de sucesso para a i-´esima linha (grupo), define-se o i-´esimo res´ıduo
por:
c
i
=
n
i1
−((n
i+
)
ˆ
θ
i1
)

(n
i+
)
ˆ
θ
i1
(1 −
ˆ
θ
i1
)
i = 1, · · · , s.
Esses res´ıduos s˜ ao conhecidos como res´ıduos de Pearson, uma vez que a soma
deles ao quadrado resulta em Q
P
. Exame dos valores residuais c
i
auxiliam a deter-
minar qu˜ ao bem o modelo se ajusta aos grupos individuais. Freq¨ uentemente, res´ıduos
excedendo o valor 2,0 (ou 2,5) indicam falta de ajuste.
Similarmente, a deviance residual ´e um componente da estat´ıstica deviance e ´e
expressa por:
d
i
= sinal(n
i1
− ˆ y
i1
)
¸
2 n
i1
log

n
i1
ˆ y
i1

+ 2(n
i+
−n
i1
) log

n
i+
−n
i1
n
i+
− ˆ y
i1
¸
1/2
em que ˆ y
i1
= (n
i+
)
ˆ
θ
i1
. A soma das deviances residuais d
i
ao quadrado resulta na
estat´ıstica deviance Q
L
. A partir do exame dos res´ıduos deviance pode-se observar a
presen¸ ca de res´ıduos n˜ ao usuais (demasiadamente grandes) bem como a presen¸ ca de
outliers ou, ainda, padr˜ oes sistem´ aticos de varia¸ c˜ ao indicando, possivelmente, a escolha
de um modelo n˜ ao muito adequado.
Para os dados da Tabela 23 obtiveram-se os res´ıduos de Pearson e res´ıduos
deviance apresentados a seguir.
Giolo, S. R. An´ alise de Dados Discretos 61
Covariavel Pearson Deviance Residual
IDADE Residual Value
1 25.0000 0.2677 | * | 0.2570 | | * |
2 32.0000 -0.1763 | * | -0.1791 | * | |
3 38.0000 0.0070 | * | 0.0070 | * |
4 43.0000 -0.2169 | * | -0.2182 | * | |
5 47.0000 -0.0051 | * | -0.0051 | * |
6 53.0000 0.0375 | * | 0.0376 | |* |
7 57.0000 0.4774 | * | 0.4870 | | * |
8 65.0000 -0.4662 |* | -0.4465 | * | |
Uma an´ alise dos res´ıduos mostram que os mesmos apresentam-se satisfat´ orios,
podendo-se, ent˜ ao, concluir que o modelo escolhido ajusta-se bem aos dados.
As estat´ısticas de diagn´ ostico apresentadas permitem, ao analista, identificar aque-
les padr˜ oes de covari´ aveis que est˜ ao com um ajuste pobre. Depois destes padr˜ oes
serem identificados, pode-se, ent˜ ao, avaliar a importˆ ancia que eles tˆem na an´ alise. Esta
avalia¸ c˜ ao ´e similar ao que ´e feito em regress˜ ao linear, ou seja, retira-se o(s) padr˜ ao(˜ oes)
com ajuste pobre e verifica-se o impacto causado nas estimativas dos parˆ ametros bem
como nas estat´ısticas Q
P
e Q
L
, usadas para verificar a qualidade de ajuste do modelo.
Na Figura 3 encontram-se apresentados os valores observados e preditos pelo mo-
delo de regress˜ ao log´ıstico ajustado.
30 40 50 60
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
idade
E
(
Y
|
x
)
Figura 3: Valores observados e preditos pelo modelo.
Giolo, S. R. An´ alise de Dados Discretos 62
4.5 Exemplos
4.5.1 Exemplo 1
Os dados apresentados na Tabela 28 referem-se a um estudo realizado com pa-
cientes que procuraram uma determinada cl´ınica para serem submetidos a um eletro-
cardiagrama (ECG). A vari´ avel resposta, presen¸ ca ou ausˆencia de doen¸ ca coron´ aria
arterial, bem como as covari´ aveis sexo e ECG, s˜ ao dicotˆ omicas.
Tabela 28. Estudo sobre doen¸ ca coron´ aria arterial.
Sexo (x
1
) ECG (x
2
) Presen¸ ca doen¸ ca Ausˆencia doen¸ ca Total
Feminino < 0,1 ST 4 11 15
Feminino ≥ 0,1 ST 8 10 18
Masculino < 0,1 ST 9 9 18
Masculino ≥ 0,1 ST 21 6 27
Assumindo-se que a vari´ avel resposta apresenta distribui¸ c˜ ao binomial (uma para
cada linha da tabela) de modo que tem-se, associado a tabela, o modelo produto de
binomias independentes, pode-se utilizar o modelo de regress˜ ao log´ıstico para descrever
a varia¸ c˜ ao entre os θ
i1
(x), isto ´e,
θ
i1
(x) =
exp

β
0

1
x
1

2
x
2
¸
1 + exp

β
0

1
x
1

2
x
2
¸
em que β
0
´e o intercepto e, β
1
e β
2
, s˜ ao os parˆ ametros desconhecidos associados ` as
covari´ aveis sexo e ECG, respectivamente.
Assim, tem-se que:
log

θ
i1
(x)
1 −θ
i1
(x)

= logit(θ
i1
(x)) = β
0

1
x
1

2
x
2
(11)
o, que matricialmente corresponde a:
Giolo, S. R. An´ alise de Dados Discretos 63

logit(θ
11
)
logit(θ
21
)
logit(θ
31
)
logit(θ
41
)
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
=

β
0
β
0
+ β
2
β
0
+ β
1
β
0
+ β
1
+ β
2
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
=

1 0 0
1 0 1
1 1 0
1 1 1
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸

β
0
β
1
β
2
¸
¸
¸
¸
¸
¸
¸
Esse tipo de parametriza¸ c˜ ao ´e freq¨ uentemente denominada “parametriza¸ c˜ ao de
efeito incremental”. Como a combina¸ c˜ ao sexo feminino e ECG < 0,1 s˜ ao descritas
pelo intercepto, esse grupo ´e conhecido, nessa parametriza¸ c˜ ao, como a combina¸ c˜ ao de
referˆencia. O parˆ ametro β
1
´e o incremento no logito para o sexo masculino e β
2
´e o
incremento no logito para ECG ≥ 0,1. As probabilidades e odds preditas para esse
modelo s˜ ao, portanto, as apresentadas na Tabela 29
Tabela 29. Probabilidades e odds preditas para o modelo.
Sexo (x
1
) ECG (x
2
) θ
i1
Odds de doen¸ ca
Feminino < 0,1 e
β
0
/(1 + e
β
0
) e
β
0
Feminino ≥ 0,1 e
β
0

2
/(1 + e
β
0

2
) e
β
0

2
Masculino < 0,1 e
β
0

1
/(1 + e
β
0

1
) e
β
0

1
Masculino ≥ 0,1 e
β
0

1
/(1 + e
β
0

1

2
) e
β
0

1

2
Pode-se, desse modo, obter a odds ratio para pacientes do sexo masculino versus
as do sexo feminino por:
e
β
0

1
e
β
0
= e
β
1
ou
e
β
0

1

2
e
β
0

2
= e
β
1
.
Similarmente, a odds ratio para alto ECG versus baixo ECG ´e determinado por:
e
β
0

1

2
e
β
0

1
= e
β
2
ou
e
β
0

2
e
β
0
= e
β
2
.
Em regress˜ ao log´ıstica, as odds ratio s˜ ao, portanto, fun¸ c˜ oes dos parˆ ametros do
modelo. Para modelos com somente efeitos principais, cada odds, que comp˜ oem a odds
Giolo, S. R. An´ alise de Dados Discretos 64
ratio, ´e obtida simplesmente exponenciando as estimativas dos parˆ ametros. Contudo,
diferentemente das odds ratio obtidas de tabelas 2 × 2, estas s˜ ao ajustadas para todas
as outras covari´ aveis no modelo.
4.5.1.1 Resultados e conclus˜ oes obtidas para os dados do exemplo 1
As estimativas de m´ axima verossimilhan¸ ca do modelo apresentado em (11) e
obtidas para os dados do exemplo 1 foram:
ˆ
β
0
= -1,1747 (s.e.= 0,4854),
ˆ
β
1
= 1,277
(s.e.= 0,4980) e
ˆ
β
2
= 1,0545 (s.e.= 0,4980).
A Tabela 30 apresenta as diferen¸ cas de deviances e mostra a significˆ ancia das
vari´ aveis sexo (p = 0,00762) e ECG (p = 0,03108).
Tabela 30. Tabela de diferen¸ ca de deviances para os dados do exemplo 1.
Modelos seq¨ uenciais g.l. Deviance residual Dif. Deviance Dif. g.l. valor p
Nulo 3 11,9835
X
1
: sexo 2 4,8626 7,1209 1 0,00762
X
2
: ECG 1 0,2141 4,6485 1 0,03108
A ANODEV apresentada na Tabela 31 mostra que o modelo de regress˜ ao log´ıstico,
com as covari´ aveis sexo e ECG, apresentou uma redu¸ c˜ ao na deviance residual de 11,7694
(de um total de 11,9835) evidenciando que ambas as covari´ aveis est˜ ao associadas a
vari´ avel resposta e devem, portanto, permanecer no modelo uma vez que estas explicam
grande parte da variabilidade total dos dados.
Tabela 31. An´ alise de deviance para os dados do exemplo 1.
Causa de varia¸ c˜ ao g.l. Deviances RV valor p
Regress˜ ao 2 11,7694 11,7694 0,00278
Res´ıduos 1 0,2141
Total 3 11,9835
Giolo, S. R. An´ alise de Dados Discretos 65
Para o modelo ajustado e expresso por:
logit(
ˆ
θ
i1
(x)) = −1, 1747 + 1, 277 sexo + 1, 0545 ECG
obtiveram-se Q
P
= 0,2155 (p = 0,6425) e Q
L
= 0,2141 (p = 0,6436) e, sendo assim,
n˜ ao se rejeita a hip´ otese nula H
0
de que o modelo ajustado ´e satisfat´ orio.
Os valores θ
i1
observados e preditos pelo modelo bem como a deviance residual e
res´ıduos de Pearson s˜ ao apresentados na Tabela 32. Nota-se, desses resultados, que os
res´ıduos apresentam-se satisfat´ orios, podendo-se, ent˜ ao, concluir que o modelo escolhido
ajusta-se bem aos dados.
Tabela 32. Valores θ
i1
observados e preditos pelo modelo, deviance residual e res´ıduo de Pearson.
θ
i1
ˆ
θ
i1

i1
-
ˆ
θ
i1
) d
i
= deviance res. c
i
= res. de Pearson
0,2666667 0,2360103 0,03065632 0.2756894 0.2796124
0,4444444 0,4699914 -0,02554693 -0.2174355 -0.2171644
0,5000000 0,5255469 -0,02554693 -0.2169146 -0.2170564
0,7777778 0,7607465 0,01703129 0.2091855 0.2074342
Tem-se, ent˜ ao, que a odds ratio dos pacientes do sexo masculino versus a dos
pacientes do sexo feminino pode ser estimada, como visto anteriormente, por
ˆ
OR
(m/f)
=
e
1,277
= 3,586. Homens, nesse estudo, tˆem, portanto, odds 3,5 vezes maior de doen¸ ca
coron´ aria arterial do que a odds das mulheres. De modo an´ alogo, a odds ratio estimada
de ECG ≥ 0,1 versus a de ECG < 0,1 ´e de
ˆ
OR = e
1,0545
= 2,871. Ent˜ ao, pacientes com
ECG ≥ 0,1 tˆem odds aproximadamente 3 vezes maior de doen¸ ca coron´ aria arterial do
que a odds daqueles pacientes com ECG < 0,1. De um modo geral, pacientes do sexo
masculino e com ECG ≥ 0,1 s˜ ao os mais propensos a apresentaram doen¸ ca coron´ aria
arterial.
Intervalos de confian¸ ca para as odds ratio podem ser obtidos usando-se as pro-
priedades assint´ oticas de
ˆ
β
i
. Assim, por exemplo, o I.C.
95%
para
ˆ
OR
(m/f)
´e dado por
(e
(1,277−1,96∗0,498)
, e
(1,277+1,96∗0,498)
) = (1,35; 9,51). Analogamente, para a odds ratio de
ECG ≥ 0,1 versus ECG < 0,1, tem-se o intervalo, a 95% de confian¸ ca, de (1,082; 7,618).
Giolo, S. R. An´ alise de Dados Discretos 66
A intera¸ c˜ ao entre sexo e ECG, quando inclu´ıda no modelo, mostrou-se n˜ ao signi-
ficativa com correspondente valor p, associado ao teste da raz˜ ao de verossimilhan¸ cas,
de 0,6436.
4.5.2 Exemplo 2
Neste exemplo dados de um estudo sobre infec¸ c˜ oes urin´ arias (Koch et al., 1985),
que encontram-se apresentados na Tabela 33, ser˜ ao analisados.
Tabela 33. Estudo sobre tratamento de infec¸ c˜ oes urin´ arias.
Diagn´ ostico(x
1
) Tratamento (x
2
) Curado N˜ ao curado Total
Infec¸ c˜ ao complicada A 78 28 106
Infec¸ c˜ ao complicada B 101 11 112
Infec¸ c˜ ao complicada C 68 46 114
Infec¸ c˜ ao n˜ ao complicada A 40 5 45
Infec¸ c˜ ao n˜ ao complicada B 54 5 59
Infec¸ c˜ ao n˜ ao complicada C 34 6 40
Observe que trˆes tratamentos foram aplicados aos pacientes que apresentaram,
no diagn´ ostico, infec¸ c˜ ao urin´ aria complicada, ou n˜ ao, de ser curada. A resposta ´e,
portanto, dicotˆ omica, a covari´ avel diagn´ ostico apresenta duas categorias e a covari´ avel
tratamento trˆes categorias.
´
E importante notar que uma covari´ avel com L categorias
deve ser representada por (L - 1 ) parˆ ametros.
O modelo com os efeitos principais (diagn´ ostico e tratamento) e a intera¸ c˜ ao entre
eles ser´ a, portanto, representado matricialmente por:

logit(θ
11
)
logit(θ
21
)
logit(θ
31
)
logit(θ
41
)
logit(θ
51
)
logit(θ
61
)
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
=

1 1 1 0 1 0
1 1 0 1 0 1
1 1 0 0 0 0
1 0 1 0 0 0
1 0 0 1 0 0
1 0 0 0 0 0
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸

β
0
β
1
β
2
β
3
β
4
β
5
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
Giolo, S. R. An´ alise de Dados Discretos 67
Uma vez que o modelo considerado ´e o saturado, isto ´e, seu n´ umero de parˆ ametros
´e igual ao n´ umero de grupos (linhas) da tabela de dados, o teste de qualidade de ajuste
n˜ ao se aplica a este modelo porque n˜ ao existem graus de liberdade dispon´ıveis. Ajustar
esse modelo, contudo, permite que seja determinada a existˆencia, ou n˜ ao, do efeito
da intera¸ c˜ ao. Na Tabela 34 ´e apresentado as diferen¸ cas de deviances dos modelos
seq¨ uenciais ajustados.
Tabela 34. Tabela de Diferen¸ ca de Deviances para o estudo sobre infec¸ c˜ oes urin´ arias.
Modelo g.l. Deviance Residual Diferen¸ ca Deviances Diferen¸ ca g.l.
Nulo 5 44,473
X
1
4 30,628 13,844 1
X
1
e X
2
2 2,515 28,114 2
X
1
, X
2
e X
1
∗ X
2
0 0,000 2,515 2
Da tabela de diferen¸ ca das deviances tem-se, portanto, que o teste da RV , relativo
a hip´ otese nula de que a intera¸ c˜ ao ´e n˜ ao significativa, o que eq¨ uivale a testar a hip´ otese
H
0
: β
4
= β
5
= 0, resultou em RV = 2,515 (p = 0,2843, g.l.= 2). Desse modo, n˜ ao h´ a
evidˆencias para a rejei¸ c˜ ao da hip´ otese H
0
. O modelo sem a intera¸ c˜ ao entre diagn´ ostico
e tratamento ser´ a, ent˜ ao, a seguir analisado.
Para saber se h´ a, ou n˜ ao, efeito da covari´ avel tratamento, o que eq¨ uivale a testar
a hip´ otese nula H
0
: β
2
= β
3
= 0, usou-se, novamente, o teste da RV obtendo-se
RV = 28,114 (p = 7,85e-07, g.l. = 2). A conclus˜ ao ´e, portanto, de que h´ a evidˆencias
de efeito dos tratamentos. Analogamente obteve-se, para o teste do efeito da covari´ avel
diagn´ ostico (H
0
: β
1
= 0), RV = 13,844 (p = 0,000198, g.l.= 1) concluindo-se, tamb´em,
haver evidˆencias de efeito do diagn´ ostico.
O modelo a ser ajustado ser´ a, portanto, aquele que considera os efeitos principais
de diagn´ ostico e tratamento. Os respectivos parˆ ametros estimados, para este modelo,
encontram-se apresentados na Tabela 35.
Giolo, S. R. An´ alise de Dados Discretos 68
Tabela 35. Estimativas dos parˆ ametros obtidas para o modelo ajustado.
Parˆ ametros Estimativas e.p.
β
0
: intercepto 1,4184 0,2986
β
1
: diag = infec¸ c˜ ao complicada -0,9616 0,2997
β
2
: tratamento A 0,5847 0,2641
β
3
: tratamento B 1,5608 0,3158
A ANODEV para esse modelo encontra-se na Tabela 36 e, desta tabela, pode-se
observar que as covari´ aveis diagn´ ostico e tratamento s˜ ao altamente associadas a vari´ avel
resposta (cura, ou n˜ ao, da infec¸ c˜ ao urin´ aria).
Tabela 36. An´ alise de deviance para os dados do exemplo 2.
Causa de varia¸ c˜ ao g.l. Deviances RV valor p
Regress˜ ao 3 41,958 41,958 4.09e-09
Res´ıduos 2 2,515
Total 5 44,473
As estat´ısticas de qualidade de ajuste do modelo considerado resultaram em
Q
L
= 2,515 (p = 0,2844, g.l. = 2) e Q
P
= 2,7574 (p = 0,2519 g.l. = 2) fornecendo,
assim, evidˆencias de que o modelo apresenta ajuste satisfat´ orio aos dados. Ainda, dos
valores observados e preditos pelo modelo bem como da deviance residual e dos res´ıduos
de Pearson, apresentados na Tabela 37, nota-se que os res´ıduos apresentaram-se satis-
fat´ orios, podendo-se, desse modo, concluir que o modelo escolhido, e expresso por:
logit(
ˆ
θ
i1
) = 1, 4184 −0, 9616 diag + 0, 5847 tratA + 1, 5608 tratB
em que diag = 1 se infec¸ c˜ ao urin´ aria foi diagnosticada como complicada e 0 em caso
contr´ ario, tratA = 1 e tratB = 0 se o tratamento A foi utilizado, tratA = 0 e tratB = 1
se o tratamento B foi utilizado e tratA = tratB = 0 se o tratamento C foi utilizado,
ajusta-se bem aos dados.
Giolo, S. R. An´ alise de Dados Discretos 69
Tabela 37. Valores observados e preditos, deviance residual e res´ıduo de Pearson.
θ
i1
ˆ
θ
i1
d
i
= deviance res. c
i
= res. de Pearson
0,7358491 0,7391443 -0,07715904 -0,07726359
0,9017857 0,8826267 0,64598342 0,62995503
0,5964912 0,6122501 -0,34450962 -0,34533240
0,8888889 0,8811267 0,16244931 0,16088958
0,9152542 0,9516237 -1,18234402 -1,30201030
0,8500000 0,8050871 0,74055971 0,71706568
Do modelo ajustado pode-se, ent˜ ao, obter as odds, apresentadas na Tabela 48,
para que se possa tirar algumas conclus˜ oes de interesse do pesquisador.
Tabela 38. Logitos e odds obtidos a partir do modelo de regress˜ ao log´ıstico ajustado.
diagn´ ostico tratamento logito odds de cura
inf. complicada A
ˆ
β
0
+
ˆ
β
1
+
ˆ
β
2
= 1,0415 e
1,0415
= 2,8335
inf. complicada B
ˆ
β
0
+
ˆ
β
1
+
ˆ
β
3
= 2,0175 e
2,0175
= 7,5198
inf. complicada C
ˆ
β
0
+
ˆ
β
1
= 0,4567 e
0,4567
= 1,5789
inf. n˜ ao complicada A
ˆ
β
0
+
ˆ
β
2
= 2,0031 e
2,0031
= 7,4123
inf. n˜ ao complicada B
ˆ
β
0
+
ˆ
β
3
= 2,9791 e
2,9791
= 19,671
inf. n˜ ao complicada C
ˆ
β
0
= 1,4184 e
1,4184
= 4,1305
Pela Tabela 48 tem-se, por exemplo, que a odds ratio de diagn´ ostico de infec¸ c˜ ao
complicada versus a de infec¸ c˜ ao n˜ ao complicada ´e de
ˆ
OR = e
ˆ
β
1
= 0,3822 e, portanto, a
odds de cura, se a infec¸ c˜ ao for diagnosticada como n˜ ao complicada, ´e de (1/0,3822) = 2,6
vezes maior do que a odds de cura no caso de infec¸ c˜ oes diagnosticadas como complicadas.
Ainda, a odds de ser curado com o tratamento A, quando comparado ao tratamento C, ´e
de e
ˆ
β
2
= 1,79 vezes maior bem como, a odds de ser curado com o tratamento B, quando
comparado ao tratamento C, ´e de e
ˆ
β
3
= 4,76 vezes maior. De modo an´ alogo, tem-se que
a odds de cura com o tratamento B, comparado ao tratamento A, ´e de e
ˆ
β
3

ˆ
β
2
= 2,65
vezes maior.
Giolo, S. R. An´ alise de Dados Discretos 70
4.5.3 Exemplo 3
Neste exemplo ser˜ ao analisados os dados apresentados na Tabela 39 referente a
um estudo sobre doen¸ ca coron´ aria, similar ao analisado previamente no exemplo 1,
considerando-se, no entanto, al´em das covari´ aveis sexo e eletrocardiograma (ECG), a
covari´ avel idade (em anos). Ainda, a covari´ avel ECG ´e considerada, nesse estudo, em
trˆes categorias: < 0,1, [0,1; 0,2) e ≥ 0,2 e foi considerada nos modelos como uma
vari´ avel ordinal em que foram assumidos, para as categorias citadas, os escores 0, 1 e
2, respectivamente.
Tabela 39. Dados de pacientes observados em um estudo sobre doen¸ ca coron´ aria.
sexo ECG idade dc sexo ECG idade dc sexo ECG idade dc sexo ECG idade dc
0 0 28 0 1 0 42 1 0 1 46 0 1 1 45 0
0 0 34 0 1 0 44 1 0 1 48 1 1 1 45 1
0 0 38 0 1 0 45 0 0 1 49 0 1 1 45 1
0 0 41 1 1 0 46 0 0 1 49 0 1 1 46 1
0 0 44 0 1 0 48 0 0 1 52 0 1 1 48 1
0 0 45 1 1 0 50 0 0 1 53 1 1 1 57 1
0 0 46 0 1 0 52 1 0 1 54 1 1 1 57 1
0 0 47 0 1 0 52 1 0 1 55 0 1 1 59 1
0 0 50 0 1 0 54 0 0 1 57 1 1 1 60 1
0 0 51 0 1 0 55 0 0 2 46 1 1 1 63 1
0 0 51 0 1 0 59 1 0 2 48 0 1 2 35 0
0 0 53 0 1 0 59 1 0 2 57 1 1 2 37 1
0 0 55 1 1 1 32 0 0 2 60 1 1 2 43 1
0 0 59 0 1 1 37 0 1 0 30 0 1 2 47 1
0 0 60 1 1 1 38 1 1 0 34 0 1 2 48 1
0 1 32 1 1 1 38 1 1 0 36 1 1 2 49 0
0 1 33 0 1 1 42 1 1 0 38 1 1 2 58 1
0 1 35 0 1 1 43 0 1 0 39 0 1 2 59 1
0 1 39 0 1 1 43 1 1 0 42 0 1 2 60 1
0 1 40 0 1 1 44 1
sexo = 0 se feminino e sexo = 1 se masculino; ECG = 0 se < 0,1, ECG = 1 se ∈ [0, 1; 0, 2) e ECG = 2 se ≥ 0,2;
dc = 1 se doen¸ ca coron´ aria presente e dc = 0 em caso contr´ ario.
Observe que diversos valores da covari´ avel idade s˜ ao ´ unicos o que implica que, na
constru¸ c˜ ao de uma tabela de contingˆencia considerando-se as 3 covari´ aveis, existir˜ ao
diversas caselas com somente uma observa¸ c˜ ao. Isso significa que o tamanho amostral
requerido pelas estat´ısticas de teste Q
L
e Q
P
n˜ ao ser˜ ao atendidos e n˜ ao poder˜ ao, desse
modo, serem calculadas. Este fato ´e muito comum quando se tem a presen¸ ca de co-
vari´ aveis cont´ınuas. Para esses casos, estrat´egias alternativas encontram-se dispon´ıveis.
Um modelo de interesse para os dados apresentados ´e aquele com os termos sexo,
Giolo, S. R. An´ alise de Dados Discretos 71
ECG e idade e, possivelmente, as intera¸ c˜ oes entre eles. Um cuidado que se deve ter,
no entanto, ´e quanto ao n´ umero de parˆ ametros envolvidos. Alguns analistas sugerem
que haja pelo menos 5 observa¸ c˜ oes, da resposta que ocorre com menor freq¨ uˆencia, para
cada parˆ ametro sendo considerado. Nesse estudo tem-se 37 indiv´ıduos que apresentaram
resposta n˜ ao e 41 que apresentaram resposta sim. Assim, tem-se 37/5 = 7,4 o que sugere
que em torno de 7 a 8 parˆ ametros podem ser considerados.
Na Tabela 40 ´e apresentado as diferen¸ cas de deviances dos modelos seq¨ uenciais
ajustados para os dados do estudo descrito.
Tabela 40. Tabela das diferen¸ cas de deviances dos modelos de regress˜ ao log´ıstica seq¨ uˆencias
ajustados ao estudo sobre doen¸ cas coron´ arias.
Modelo g.l. Deviance Residual Diferen¸ ca Deviances Diferen¸ ca g.l.
Nulo 77 107,926
X
1
76 101,840 6,086 1
X
1
e X
2
75 95,080 6,760 1
X
1
, X
2
e X
3
74 86,811 8,626 1
X
1
, X
2
, X
3
+ int. duplas 71 85,522 1,289 3
X
1
, X
2
, X
3
+ int. duplas e tripla 70 85,414 0,108 1
X
1
= sexo; X
2
= ECG e X
3
= idade.
Pela tabela de diferen¸ ca das deviances tem-se, portanto, que o teste da RV , rela-
tivo a hip´ otese nula de que a intera¸ c˜ ao tripla ´e n˜ ao significativa, o que eq¨ uivale a testar
a hip´ otese H
0
: β
7
= 0, resultou em RV = 0,108 (p = 0,7424, g.l.= 1). Desse modo,
n˜ ao h´ a evidˆencias para a rejei¸ c˜ ao da hip´ otese H
0
. De modo an´ alogo, para o teste da
hip´ otese nula H
0
: β
4
= β
5
= β
6
= 0 (intera¸ c˜ oes duplas) tem-se RV = 1,289 (p =
0,7317, g.l. = 3) e, assim, n˜ ao h´ a evidˆencias para a rejei¸ c˜ ao da hip´ otese nula. Como h´ a
evidˆencias de que as intera¸ c˜ oes tripla e duplas n˜ ao s˜ ao necess´ arias no modelo, testou-se
as hip´ oteses:
a) H
0
: β
3
= 0 em que RV = 8,626 (p = 0,0033, g.l.= 1)
b) H
0
: β
2
= 0 em que RV = 6,760 (p = 0,0093, g.l.= 1)
c) H
0
: β
1
= 0 em que RV = 6,086 (p = 0,0136, g.l.= 1)
Giolo, S. R. An´ alise de Dados Discretos 72
concluindo-se, portanto, haver evidˆencias para rejeitar as trˆes hip´ oteses nulas testadas.
O modelo a ser ajustado ser´ a, portanto, aquele que considera os efeitos princi-
pais de sexo, ECG e idade. Os respectivos parˆ ametros estimados, para este modelo,
encontram-se apresentados na Tabela 41.
Tabela 41. Estimativas dos parˆ ametros do modelo ajustado.
Parˆ ametros Estimativas e.p.
β
0
: intercepto -5,6417 1,8026
β
1
: sexo = masculino 1,3564 0,5458
β
2
: ECG 0,8732 0,3839
β
3
: idade 0,0928 0,0350
O modelo estimado ficou expresso, portanto, por:
logit(θ
i1
) = −5, 6417 + 1, 3564 sexo + 0, 8732 ECG + 0, 0928 idade.
Para avaliar a qualidade do modelo ajustado, na presen¸ ca de vari´ aveis cont´ınuas,
Hosmer e Lemeshow (1989) propuseram uma estat´ıstica, denotada aqui por Q
HL
, que
considera as contagens esperadas e observadas, para as respostas dc = 1 e dc = 0, em
cada decil das probabilidades preditas. Para esse estudo, tal estat´ıstica resultou em
4,776 (p = 0,7812, g.l. = 8 (# decis -2)).
´
E poss´ıvel, desse modo, concluir que o modelo
considerado ajusta-se satisfatoriamente aos dados. Os res´ıduos (deviance e de Pearson)
apresentaram-se, tamb´em, satisfat´ orios como pode ser observado na Figura 4.
0 20 40 60 80

2

1
0
1
2
Index
r
e
s
i
d
u
o
s

d
e

P
e
a
r
s
o
n
0 20 40 60 80

2

1
0
1
2
Index
d
e
v
i
a
n
c
e

r
e
s
i
d
u
a
l
Figura 4: Res´ıduos de Pearson e deviance residual.
Giolo, S. R. An´ alise de Dados Discretos 73
A odds ratio para sexo, ajustado para ECG e idade, ´e, nesse estudo, estimada
por OR = e
1,3564
= 3,882. Assim, a odds de doen¸ ca coron´ aria dos pacientes do sexo
masculino ´e de 3,882 vezes maior do que a odds de doen¸ ca coron´ aria dos pacientes do
sexo feminino. De modo an´ alogo, a odds ratio para ECG, ajustado para sexo e idade,
´e estimada por OR = e
0,8732
= 2,395. Isto significa que a odds de doen¸ ca coron´ aria de
pacientes com ECG = 1 ´e 2,395 vezes maior do que a odds daqueles com ECG = 0 bem
como que, a odds dos pacientes com ECG = 2 ´e de 2,395 vezes maior do que a odds dos
pacientes com ECG = 1. Ainda, a odds ratio para a idade, ajustado para sexo e ECG,
dada por OR = e
0,0929
= 1,097 significa que a odds de doen¸ ca coron´ aria de um paciente
com x+1 anos ´e 1,097 vezes maior do que a odds de um paciente com x anos. Para, por
exemplo, dois pacientes do mesmo sexo e mesmo ECG, mas em que um deles tenha 30
anos e outro 40, tem-se OR = e
0,0929∗(40−30)
= 2,53, ou seja, a odds de doen¸ ca coron´ aria
do paciente com 40 anos ´e de 2,53 vezes maior do que a odds do paciente com 30 anos.
De um modo geral pode-se concluir, desse estudo, que a presen¸ ca de doen¸ ca
coron´ aria encontra-se positivamente associada com a idade e com o resultado do ECG
bem como que, os pacientes do sexo masculino s˜ ao mais propensos a apresent´ a-la.
4.5.4 M´etodos auxiliares no diagn´ otico do modelo ajustado
4.5.4.1 QQplot com envelope simulado
No caso em que a vari´ avel resposta ´e assumida ser normalmente distribu´ıda, ´e
comum que afastamentos s´erios da distribui¸ c˜ ao Normal sejam verificados por meio do
gr´ afico de probabilidades Normal dos res´ıduos. No contexto de modelos lineares gene-
ralizados, em que distribui¸ c˜ oes diferentes da Normal s˜ ao tamb´em consideradas, gr´ aficos
similares com envelopes simulados podem ser tamb´em constru´ıdos com os res´ıduos ge-
rados a partir do modelo ajustado. A inclus˜ ao do envelope simulado no QQplot auxilia
a decidir se o pontos diferem significativamente de uma linha reta (Atkinson, 1985).
Paula (2000) apresenta c´ odigos em linguagem Splus, que podem ser utilizados no pa-
cote estat´ıstico R, para gerar tais gr´ aficos em: regress˜ ao gama, log´ıstica, Poisson e
Binomial Negativa, al´em da Normal. Para que o modelo ajustado seja considerado
Giolo, S. R. An´ alise de Dados Discretos 74
satisfat´ orio, faz-se necess´ ario que as deviances residuais caiam dentro do envelope si-
mulado. Para os dados desse exemplo, o QQplot obtido encontra-se apresentado na
Figura 5. Desta figura ´e poss´ıvel observar que n˜ ao ocorreram afastamentos s´erios da
distribui¸ c˜ ao Binomial para a vari´ avel resposta uma vez que as deviances encontram-se
dentro do envelope.
−2 −1 0 1 2

2

1
0
1
2
Normal Q−Q Plot
Percentis
D
e
v
i
a
n
c
e
Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot
Figura 5: QQplot com envelope simulado para os dados do exemplo 3.
4.5.4.2 Poder preditivo do modelo e outras medidas auxiliares
O poder preditivo do modelo pode, ainda, ser obtido com a finalidade de avaliar
a qualidade do modelo ajustado. Para isso, faz-se necess´ ario estabelecer uma probabi-
lidade, denominada “ponto de corte”, a partir da qual se estabele¸ ca que:
- a vari´ avel resposta receba o valor 1, isto ´e, Y = 1 para probabilidades estimadas
pelo modelo maiores ou iguais a esse ponto de corte e, ainda, que
- a vari´ avel resposta receba o valor 0, isto ´e, Y = 0 para probabilidades estimadas
pelo modelo menores do que esse ponto de corte.
Giolo, S. R. An´ alise de Dados Discretos 75
Estabelecendo o ponte de corte pc = 0.50 obteve-se para os dados do exemplo 3,
os resultados apresentados na Tabela 42. Desta tabela tem-se que:
a) valor preditivo do modelo =
31+25
78
= 0, 7179
b) valor preditivo + =
31
43
= 0, 7209 e valor preditivo - =
25
35
= 0, 7143
c) falsos positivos =
12
37
= 0, 3243 e falsos negativos =
10
41
= 0, 2439
d) sensibilidade do modelo =
31
41
= 0, 7561
e) especificidade do modelo =
25
37
= 0, 6757
Tabela 42. Classifica¸ c˜ oes pelo modelo para pc = 0.5 vs. observado.
Classificado pelo modelo
Observado dc = 1 (+) dc = 0 (-) Totais
dc = 1 (+) 31 10 41
dc = 0 (-) 12 25 37
Totais 43 35 78
De um modo geral, e dos resultados apresentados, pode-se concluir que o modelo
ajustado apresenta-se satisfat´ orio.
5 REGRESS
˜
AO LOG
´
ISTICA POLIT
ˆ
OMICA
A regress˜ ao log´ıstica tamb´em se aplica, como mencionado no cap´ıtulo anterior, a
situa¸ c˜ oes em que a vari´ avel resposta apresenta mais do que duas categorias (respostas
politˆ omicas), podendo, as categorias, serem ordinais ou nominais.
5.1 Resposta ordinal: modelo de odds proporcionais
Para tratar a situa¸ c˜ ao em que a resposta ´e ordinal, considere os dados apresentados
na Tabela 43 em que pacientes do sexo feminino e masculino receberam o tratamento
A, ou um placebo, para suas dores de artrite. A resposta, nesse estudo, foi a o grau de
melhora das dores: nenhuma, alguma e melhora acentuada.
Tabela 43. Dados sobre tratamentos para artrite
Grau de melhora
Sexo Tratamento Acentuada Alguma Nenhuma Totais
F A 16 5 6 27
F Placebo 6 7 19 32
M A 5 2 7 14
M Placebo 1 0 10 11
Uma poss´ıvel estrat´egia de an´ alise desses dados seria criar uma vari´ avel resposta
dicotˆ omica combinando duas das categorias de respostas. Contudo, visto que existe
uma ordem natural das categorias de resposta, faz sentido considerar uma estrat´egia
que leve em conta essa ordena¸ c˜ ao. Considere, desse modo, as quantidades:
θ
hi1
= π
hi1
e θ
hi2
= π
hi1

hi2
Giolo, S. R. An´ alise de Dados Discretos 77
em que π
hi1
denota a probabilidade de melhora acentuada, π
hi2
a probabilidade de
alguma melhora e π
hi3
a probabilidade de nenhuma melhora (h = 1 para sexo feminino,
h = 2 para sexo masculino, i = 1 para tratamento A e i = 2 para placebo). Assim, θ
hi1
´e a probabilidade de melhora acentuada e θ
hi2
´e a probabilidade de melhora acentuada
ou alguma melhora, ou seja, ´e uma probabilidade acumulada.
Para uma resposta dicotˆ omica foi visto que, uma ´ unica fun¸ c˜ ao logito ´e considerada
para cada subpopula¸ c˜ ao (cada linha da tabela de contingˆencia). J´ a para uma resposta
ordinal com L > 2 categorias, L − 1 logitos cumulativos, baseados nas probabilidades
acumuladas, s˜ ao considerados para cada subpopula¸ c˜ ao. Para trˆes categorias de resposta,
como ´e o caso do exemplo apresentado na Tabela 43, os dois logitos cumulativos s˜ ao
expressos por:
logit(θ
hi1
) = log
¸
π
hi1
π
hi2

hi3
¸
e logit(θ
hi2
) = log
¸
π
hi1

hi2
π
hi3
¸
.
Esses logitos s˜ ao, respectivamente, o log(odds) de melhora acentuada para alguma
ou nenhuma melhora e o log(odds) de melhora acentuada ou alguma melhora para
nenhuma melhora. O modelo de odds proporcionais leva em considera¸ c˜ ao ambas as
odds citadas.
Assumindo-se que os totais marginais n
hi+
s˜ ao fixos, tem-se, associado a cada
subpopula¸ c˜ ao (cada linha da tabela de contingˆencia), a distribui¸ c˜ ao multinomial em
que
¸
3
j=1
π
hij
= 1. Um modelo, que se aplica a ambos os logitos simultaneamente, para
cada combina¸ c˜ ao de sexo e tratamento, poderia, ent˜ ao, ser escrito por:
logit(θ
hik
) = β
0k

k
x
hi
em que k = 1, 2 indexa os dois logitos. Nesse modelo, os interceptos s˜ ao distintos bem
como existem diferentes conjuntos de parˆ ametros de regress˜ ao para cada logito.
Com a suposi¸ c˜ ao de odds proporcionais tem-se que β
k
= β para todo k, simpli-
cando, assim, o modelo para:
logit(θ
hik
) = β
0k

x
hi
Giolo, S. R. An´ alise de Dados Discretos 78
que tamb´em pode ser expresso por:
θ
hik
=
exp

β
0k

x
hi
¸
1 + exp

β
0k

x
hi
¸
=
exp

β
0k
+
¸
p
g=1
x
hig
¸
1 + exp

β
0k
+
¸
p
g=1
x
hig
¸
em que g = 1, ..., p refere-se as covari´ aveis. Esse modelo ´e similar ao modelo de regress˜ ao
log´ıstica dicotˆ omico e ´e tamb´em ajustado por m´etodos de m´ axima verossimilhan¸ ca.
Os valores para π
hij
podem, usando-se esse modelo, ser determinados por meio
das apropriadas subtra¸ c˜ oes de θ
hik
, ou seja:
π
hi1
= θ
hi1
π
hi2
= θ
hi2
−θ
hi1
π
hi3
= 1 −θ
hi2
.
5.1.1 Regress˜ao log´ıstica politˆ omica ajustada aos dados sobre artrite
Sob a suposi¸ c˜ ao de odds proporcionais, o modelo de efeitos principais ´e um apro-
priado ponto de partida para a an´ alise dos dados sobre artrite e, este modelo, em
nota¸ c˜ ao matricial, ´e expresso por:

logit(θ
111
)
logit(θ
112
)
logit(θ
121
)
logit(θ
122
)
logit(θ
211
)
logit(θ
212
)
logit(θ
221
)
logit(θ
222
)
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
=

β
01
+ β
1
+ β
2
β
02
+ β
1
+ β
2
β
01
+ β
1
β
02
+ β
1
β
01
+ β
2
β
02
+ β
2
β
01
β
02
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
=

1 0 1 1
0 1 1 1
1 0 1 0
0 1 1 0
1 0 0 1
0 1 0 1
1 0 0 0
0 1 0 0
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸

β
01
β
02
β
1
β
2
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
Esse modelo ´e muito similar aos modelos descritos anteriormente, exceto pela
existˆencia de dois parˆ ametros de intercepto, correspondendo as duas fun¸ c˜ oes logito
sendo modeladas para cada subpopula¸ c˜ ao. O parˆ ametro β
01
´e o intercepto do primeiro
logito cumulativo e o parˆ ametro β
02
´e o intercepto do segundo logito cumulativo, β
1
´e
Giolo, S. R. An´ alise de Dados Discretos 79
o efeito (incremento) do sexo feminino e β
2
´e o efeito (incremento) do tratamento A.
Sexo masculino e o placebo compreendem a casela de referˆencia.
Na Tabela 44 s˜ ao apresentadas as diferen¸ cas de deviances dos modelos seq¨ uenciais
ajustados, podendo-se observar, desta tabela, que a intera¸ c˜ ao entre sexo e tratamento
´e n˜ ao significativa uma vez que RV = 0,3084 (p = 0,5786, g.l. = 1). J´ a para os efeitos
principais de sexo e tratamento obtiveram-se RV = 3,8053 (p = 0,051) e RV = 16,0812
(p = 6,06e
−7
), respectivamente, podendo-se, desse modo, concluir que ambos os efeitos
s˜ ao significativos e devem, portanto, permanecer no modelo.
Tabela 44. Tabela de Diferen¸ ca de Deviances para os dados sobre artrite.
Modelo Deviance Residual Diferen¸ ca Deviances Diferen¸ ca g.l.
Nulo 169,9159
X
1
166,1106 3,8053 1
X
1
e X
2
150,0294 16,0812 1
X
1
, X
2
e X
1
∗ X
2
149,7210 0,3084 1
X
1
= sexo, X
2
= tratamento
Os respectivos parˆ ametros estimados, para o modelo com as covari´ aveis sexo e
tratamento, encontram-se apresentados na Tabela 45.
Tabela 45. Estimativas dos parˆ ametros obtidas para o modelo ajustado.
Parˆ ametros Estimativas e.p.
β
01
: intercepto 1 -2,6672 0,6065
β
02
: intercepto 2 -1,8128 0,5654
β
1
: sexo feminino 1,3187 0,5381
β
2
: tratamento A 1,7973 0,4718
A avalia¸ c˜ ao da qualidade de ajuste do modelo de odds proporcionais ´e similar
a realizada para o modelo de regress˜ ao log´ıstica dicotˆ omica. Se pelo menos 80% das
contagens observadas nas caselas for 5, ent˜ ao pode-se usar as estat´ısticas Q
L
e Q
P
Giolo, S. R. An´ alise de Dados Discretos 80
as quais, sob H
0
, tˆem distribui¸ c˜ ao Qui-Quadrado com ((r − 1)(s − 1) − p) g.l. em
que r = n´ umero de categorias da vari´ avel resposta, s = n´ umero de subpopula¸ c˜ oes e
p ´e o n´ umero de covari´ aveis. Para os dados desse exemplo obtiveram-se Q
L
= 2,7121
(p = 0,6071, g.l. = 4) e Q
P
= 1,9099 (p = 0,7523, g.l. = 4) e, desse modo, conclui-se
que o modelo ajusta-se satisfatoriamente aos dados. O modelo ajustado ´e, portanto,
expresso por:
logit(
ˆ
θ
hik
) =
ˆ
β
0k
+ 1, 3187 sexo + 1, 7973 tratamento
ou, ainda,
ˆ
θ
hik
=
exp

ˆ
β
0k
+ 1, 3187 sexo + 1, 7973 tratamento
¸
1 + exp

ˆ
β
0k
+ 1, 3187 sexo + 1, 7973 tratamento
¸
, k = 1, 2.
As probabilidades cumulativas preditas por tal modelo e, conseq¨ uentemente, as
probabilidades n˜ ao-cumulativas, encontram-se apresentadas na Tabela 46.
Tabela 46. Probabilidades cumulativas (θ
hik
) e n˜ ao-cumulativas (π
hij
) preditas pelo modelo.
Sexo Tratamento
ˆ
θ
hi1
ˆ
θ
hi2
ˆ π
hi1
=
ˆ
θ
hi1
ˆ π
hi2
=
ˆ
θ
hi2
-
ˆ
θ
hi1
ˆ π
hi3
= 1 -
ˆ
θ
hi2
F A 0,6104 0,7864 0,6104 0,1760 0,2136
F Placebo 0,2061 0,3789 0,2061 0,1728 0,6211
M A 0,2953 0,4961 0,2953 0,2008 0,5039
M Placebo 0,0649 0,1403 0,0649 0,0754 0,8597
Note, ainda, que as probabilidades observadas e preditas pelo modelo, apresen-
tadas na Tabela 5.1.1, encontram-se bastante pr´ oximas umas das outras indicando que
o modelo ajustado apresenta-se satisfat´ orio.
As odds ratio s˜ ao, tamb´em, obtidas de modo similar ` a regress˜ ao log´ıstica di-
cotˆ omica. Na Tabela 48 s˜ ao apresentadas as odds para o modelo de odds proporcionais
ajustado. Desta tabela, pode-se, por exemplo, observar que a odds de melhora acen-
tuada versus alguma ou nenhuma melhora para pacientes do sexo feminino comparada
com a odds dos pacientes do sexo masculino ´e de OR =
exp(β
01

1

2
)
exp(β
01

2
)
=
exp(β
01

1
)
exp(β
01
)
=
Giolo, S. R. An´ alise de Dados Discretos 81
Tabela 47. Probabilidades observadas e preditas pelo modelo.
observadas preditas (observadas - preditas)
0.5925926 0.61036848 -0.017775889
0.1851852 0.17601388 0.009171310
0.2222222 0.21361764 0.008604579
0.1875000 0.20612474 -0.018624743
0.2187500 0.17281504 0.045934963
0.5937500 0.62106022 -0.027310220
0.3571429 0.29527688 0.061865982
0.1428571 0.20084884 -0.057991694
0.5000000 0.50387429 -0.003874287
0.0909091 0.06493692 0.025972174
0.0000000 0.07536270 -0.075362704
0.9090909 0.85970038 0.049390531
exp(β
1
). Assim, pacientes do sexo feminino tˆem odds e
1,3187
= 3, 738 vezes maior de
mostrar melhora acentuada do que pacientes do sexo masculino. Ainda, pacientes re-
cebendo o tratamento A tˆem odds e
ˆ
β
2
= e
1,8128
= 6,13 vezes maior de mostrar melhora
acentuada do que os pacientes recebendo placebo e, pela suposi¸ c˜ ao de odds propor-
cionais assumida para o modelo ajustado, esta ´e tamb´em a odds ratio para melhora
acentuada ou alguma melhora versus nenhuma melhora.
Tabela 48. F´ ormulas das odds obtidas para o modelo de odds proporcionais ajustado.
Melhora acentuada versus Melhora acentuada ou alguma
Sexo Tratamento alguma ou nenhuma versus nenhuma
F A exp{β
01

1

2
} exp{β
02

1

2
}
F Placebo exp{β
01

1
} exp{β
02

1
}
M A exp{β
01

2
} exp{β
02

2
}
M Placebo exp{β
01
} exp{β
02
}
Observe que a suposi¸ c˜ ao de odds proporcionais ´e necess´ aria para o uso do modelo
aqui apresentado. Assim, a hip´ otese de que existe um vetor comum de β, em vez de
distintos β
k
, deve ser testada, isto ´e, deve-se testar a hip´ otese nula H
0
: β
k
= β. Se esta
hip´ otese for rejeitada, uma outra abordagem deve ser considerada. Uma abordagem
Giolo, S. R. An´ alise de Dados Discretos 82
sugerida, nesses casos, ´e considerar os dados como nominais e, ent˜ ao, ajustar um modelo
para os logitos generalizados (tratado na pr´ oxima se¸ c˜ ao).
Para o exemplo considerado, o teste da hip´ otese nula citada resultou em
Q
RS
= 1,8833 (p = 0,39, g.l. = ((r − 1)(s − 1) − p) = 2), concluindo-se, portanto,
que a suposi¸ c˜ ao de odds proporcionais ´e razo´ avel para esses dados.
5.2 Resposta nominal: modelo de logitos generalizados
Um modelo de regress˜ ao log´ıstica tamb´em pode ser usado para modelar os dados
quando a vari´ avel resposta for nominal. Nesses casos, contudo, ajusta-se um modelo
para os logitos generalizados e n˜ ao para os logitos cumulativos.
Para tratar este modelo, considere os dados apresentados na Tabela 49 referente
a um estudo realizado com crian¸ cas para determinar qual programa de aprendizado
elas preferem bem como se, tal preferˆencia, estaria associada com a escola e o per´ıodo
escolar (padr˜ ao ou com atividades em tempo integral).
Tabela 49. Dados sobre programa escolar.
Preferˆencia aprendizado
Escola Per´ıodo Individual Grupo Sala Aula Totais
1 Padr˜ ao 10 17 26 53
1 Integral 5 12 50 67
2 Padr˜ ao 21 17 26 64
2 Integral 16 12 36 64
3 Padr˜ ao 15 15 16 46
3 Integral 12 12 20 44
Uma vez que as categorias da vari´ avel resposta n˜ ao apresentam uma ordena¸ c˜ ao,
o modelo de odds proporcionais n˜ ao ´e apropriado. Assim, o logito generalizado, usado
nessas situa¸ c˜ oes, ´e definido como:
logit
hij
= log
¸
π
hij
π
hir
¸
Giolo, S. R. An´ alise de Dados Discretos 83
para j = 1, 2, · · · , (r − 1). Cada logito ´e, portanto, formado com a probabilidade de
cada categoria sobre a ´ ultima categoria de resposta. Os logitos generalizados para uma
resposta com trˆes categorias, como ´e o caso do exemplo sobre o programa escolar, s˜ ao
expressos, portanto, por:
logit
hi1
= log
¸
π
hi1
π
hi3
¸
, logit
hi2
= log
¸
π
hi2
π
hi3
¸
para h = 1, 2, 3 (escolas) e i = 1, 2 (per´ıodos padr˜ ao e integral, respectivamente).
Desse modo, o modelo a ser ajustado para os logitos generalizados ´e expresso por:
logit
hij
= β
0k

k
x
hi
em que k indexa os 2 logitos. Note que para cada logito desse modelo, existem diferentes
interceptos e diferentes conjuntos dos parˆ ametros de regress˜ ao β
k
. Assim, enquanto
para o modelo de odds proporcionais estimam-se m´ ultiplos parˆ ametros de interceptos
para os logitos cumulativos mas um ´ unico conjunto de parˆ ametros correspondendo ` as
covari´ aveis, para o modelo de logitos generalizados estimam-se m´ ultiplos conjuntos de
parˆ ametros tanto para o intercepto quanto para as covari´ aveis.
Como m´ ultiplas fun¸ c˜ oes resposta (logitos) est˜ ao sendo modeladas para cada sub-
popula¸ c˜ ao (cada linha da tabela de contingˆencia), existe um n´ umero maior de graus
de liberdade associados a cada efeito. A forma matricial do modelo ´e, tamb´em, um
tanto mais complicada devido ` a necessidade de se levar em considera¸ c˜ ao tais fun¸ c˜ oes
m´ ultiplas. Contudo, o procedimento de modelagem ´e o usual, isto ´e, ajusta-se o modelo,
examinam-se as estat´ısticas de qualidade de ajuste do modelo ajustado e, se necess´ ario,
reduz-se o modelo. Note que, como mais de um logito est´ a sendo predito por subpo-
pula¸ c˜ ao, o tamanho amostral necessita ser grande o suficiente para acomodar o n´ umero
de logitos sendo modelados. Problemas de estima¸ c˜ ao dos parˆ ametros ser˜ ao certamente
encontrados em situa¸ c˜ oes em que n˜ ao existem dados suficientes para justificar a an´ alise
de logitos generalizados. Em tais situa¸ c˜ oes, simplificar a estrutura da vari´ avel resposta
para uma razo´ avel resposta dicotˆ omica e proceder a uma an´ alise de regress˜ ao log´ıstica
dicotˆ omica pode ser uma alternativa plaus´ıvel.
Giolo, S. R. An´ alise de Dados Discretos 84
5.2.1 Logitos generalizados ajustados aos dados do programa escolar
Os logitos generalizados, nesse exemplo, ser˜ ao constru´ıdos considerando-se a pro-
babilidade de preferˆencia de aprendizado individual com respeito ao aprendizado em
sala de aula (π
hi1

hi3
) e a probabilidade de preferˆencia de aprendizado em grupo com
respeito ao aprendizado em sala de aula (π
hi2

hi3
).
Na Tabela 50 s˜ ao apresentadas as diferen¸ cas de deviances dos modelos seq¨ uenciais
ajustados, podendo-se observar, desta tabela, que a intera¸ c˜ ao entre escola e per´ıodo ´e
n˜ ao significativa uma vez que RV = 1,7776 (p = 0,78, g.l. = 4). J´ a para os efeitos
principais de escola e per´ıodo obtiveram-se RV = 17,3765 (p = 0,0016, g.l. = 4 ) e
RV = 11,094 (p = 0,0039, g.l.= 2 ), respectivamente, podendo-se, desse modo, concluir
que ambos os efeitos s˜ ao significativos e devem, portanto, permanecer no modelo.
Tabela 50. Tabela de Diferen¸ ca de Deviances para os dados do programa escolar.
Modelo g.l. Deviance Residual Diferen¸ ca Deviances Diferen¸ ca g.l.
Nulo 2 695,4043
X
1
6 678,0278 17,3765 (6-2) = 4
X
1
e X
2
8 666,9338 11,0940 (8-6) = 2
X
1
, X
2
e X
1
∗ X
2
12 665,1562 1,7776 (12-8) = 4
X
1
= escola, X
2
= per´ıodo
Note que os graus de liberdade para modelar dois logitos s˜ ao duas vezes os graus de
liberdade esperados ao modelar-se um ´ unico logito. Isso ocorre porque simultaneamente
s˜ ao modeladas duas fun¸ c˜ oes resposta (logitos) em vez de uma e, conseq¨ uentemente, o
n´ umero de parˆ ametros a serem estimados s˜ ao duplicados. Assim, em um modelo de
logitos generalizados, os graus de liberdade associados aos efeitos s˜ ao determinados
multiplicando-se por (r -1) o n´ umero de graus de liberdade esperado para modelar um
logito, sendo r o n´ umero de categorias da vari´ avel resposta.
Como a intera¸ c˜ ao apresentou-se n˜ ao significativa, o modelo de efeitos principais,
Giolo, S. R. An´ alise de Dados Discretos 85
em nota¸ c˜ ao matricial, fica expresso por:

logit
111
logit
112
logit
121
logit
122
logit
211
logit
212
logit
221
logit
222
logit
311
logit
312
logit
321
logit
322
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
=

1 0 1 0 0 0 1 0
0 1 0 1 0 0 0 1
1 0 1 0 0 0 −1 0
0 1 0 1 0 0 0 −1
1 0 0 0 1 0 1 0
0 1 0 0 0 1 0 1
1 0 0 0 1 0 −1 0
0 1 0 0 0 1 0 −1
1 0 −1 0 −1 0 1 0
0 1 0 −1 0 −1 0 1
1 0 −1 0 −1 0 −1 0
0 1 0 −1 0 −1 0 −1
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸

β
01
β
02
β
11
β
12
β
21
β
22
β
31
β
32
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
Observe, na representa¸ c˜ ao matricial do modelo, que as linhas ´ımpares correspon-
dem ao primeiro logito e as linhas pares ao segundo logito. Similarmente, as colunas
´ımpares correspondem aos parˆ ametros do primeiro logito e as pares aos do segundo lo-
gito. As estimativas dos parˆ ametros correspondente ao modelo ajustado encontram-se
apresentadas na Tabela 51 e, na Tabela 52, estes s˜ ao apresentados de acordo ao logito
a que se referem.
Tabela 51. Estimativas dos parˆ ametros do modelo ajustado.
Erro Chi-
Efeito Parˆ ametro Estimativa Padr˜ ao Quadrado valor p
Intercepto β
01
-0,7979 0,1465 29,65 < 0, 0001
β
02
-0,6589 0,1367 23,23 < 0, 0001
escola β
11
-0,7992 0,2198 13,22 0,0003
β
12
-0,2786 0,1867 2,23 0,1356
β
21
0,2836 0,1899 2,23 0,1352
β
22
-0,0985 0,1892 0,27 0,6028
per´ıodo β
31
0,3737 0,1410 7,03 0,0080
β
32
0,3713 0,1353 7,53 0,0061
Giolo, S. R. An´ alise de Dados Discretos 86
Tabela 52. Estimativas dos parˆ ametros do modelo ajustado por logito.
logito(indiv./sala aula) logito(grupo/sala de aula)
Covari´ avel Coeficiente e.p. Coeficiente e.p.
Intercepto -0,7979 0,1465 -0,6589 0,1367
Escola 1 -0,7992 0,2198 -0,2786 0,1867
Escola 2 0,2836 0,1899 -0,0985 0,1892
Per´ıodo 0,3737 0,1410 0,3713 0,1353
Pela Tabela 52 ´e poss´ıvel observar que a escola 1 apresenta o maior efeito dentre
as escolas, particularmente para o logito comparando aprendizado individual ao apren-
dizado em sala de aula. O per´ıodo escolar apresenta efeitos similares em ambos os
logitos.
As odds ratios tamb´em podem ser usadas nos modelos de logitos generalizados para
facilitar a interpreta¸ c˜ ao do modelo. Para o modelo considerado, as odds encontram-se
apresentadas na Tabela 53.
Tabela 53. Odds preditas pelo modelo de logitos generalizados.
Odds
Escola Per´ıodo Individual/Sala aula Grupo/Sala aula
1 Padr˜ ao e
β
01

11

31
e
β
02

12

32
1 Integral e
β
01

11
−β
31
e
β
02

12
−β
32
2 Padr˜ ao e
β
01

21

31
e
β
02

22

32
2 Integral e
β
01

21
−β
31
e
β
02

22
−β
32
3 Padr˜ ao e
β
01
−β
11
−β
21

31
e
β
02
−β
12
−β
22

32
3 Integral e
β
01
−β
11
−β
21
−β
31
e
β
02
−β
12
−β
22
−β
32
As odds ratio de aprendizado individual, em rela¸ c˜ ao ao aprendizado em sala de
aula, de interesse s˜ ao:
i) entre per´ıodos: OR
P/I
=
e
β
01

11

31
e
β
01

11
−β
31
= e
2∗β
31
= 2,11
Giolo, S. R. An´ alise de Dados Discretos 87
ii) entre escolas: OR
2/1
=
e
β
01

21

31
e
β
01

11

31
= e
β
21
−β
11
= 2,95
OR
3/1
=
e
β
01
−β
11
−β
21

31
e
β
01

11

31
= e
−2∗β
11
−β
21
= 3,72
OR
3/2
=
e
β
01
−β
11
−β
21

31
e
β
01

21

31
= e
−2∗β
21
−β
11
= 1,26
Assim, a odds de preferˆencia pelo aprendizado individual sobre a de aprendizado
em sala de aula foi de 2,11 vezes maior nas escolas com per´ıodo escolar padr˜ ao do que
nas escolas com per´ıodo escolar integral. Ainda, por exemplo, os alunos da escola 2, em
rela¸ c˜ ao aos da escola 1, preferem o aprendizado individual ao em sala de aula sendo,
esta preferˆencia, 2,95 vezes maior entre os alunos da escola 2 do que entre os alunos da
escola 1.
De modo an´ alogo tem-se que as odds ratio de aprendizado em grupo, em rela¸ c˜ ao
ao aprendizado em sala de aula, s˜ ao:
i) entre per´ıodos: OR
P/I
=
e
β
02

12

32
e
β
02

12
−β
32
= e
2∗β
32
= e
2∗0,3713
= 2,10
ii) entre escolas: OR
2/1
=
e
β
02

22

32
e
β
02

12

32
= e
β
22
−β
12
= 1,19
OR
3/1
=
e
β
02
−β
12
−β
22

32
e
β
02

12

32
= e
−2∗β
12
−β
22
= 1,93
OR
3/2
=
e
β
02
−β
12
−β
22

32
e
β
02

22

32
= e
−2∗β
22
−β
12
= 1,61
Desse modo, tem-se que a odds de preferˆencia pelo aprendizado em grupo sobre a
de aprendizado em sala de aula foi de 2,10 vezes maior nas escolas com per´ıodo escolar
padr˜ ao do que nas escolas com per´ıodo escolar integral. Os alunos, por exemplo, da
escola 3, em rela¸ c˜ ao aos da escola 1, preferem o aprendizado em grupo ao em sala de
aula sendo, esta preferˆencia, 1,93 vezes maior entre os alunos da escola 3 do que entre
os alunos da escola 1.
Note, a partir dos resultados apresentados na Tabela 54, que as probabilidades
observadas e preditas pelo modelo encontram-se consideravelmente pr´ oximas, indicando
Giolo, S. R. An´ alise de Dados Discretos 88
que o modelo ajustado apresenta-se satisfat´ orio.
Tabela 54. Maximum Likelihood Predicted Values for Probabilities
--------------------------------------------------------------------------------------------
--------Observed------- -------Predicted-------
Standard Standard
escola periodo pref Probability Error Probability Error Residual
---------------------------------------------------------------------------------------------
1 pad ind 0.1887 0.0537 0.158 0.0403 0.0306
gr 0.3208 0.0641 0.3049 0.0527 0.0159
aula 0.4906 0.0687 0.5371 0.056 -0.047
1 int ind 0.0746 0.0321 0.0989 0.0279 -0.024
gr 0.1791 0.0468 0.1917 0.0393 -0.013
aula 0.7463 0.0532 0.7095 0.0459 0.0368
2 pad ind 0.3281 0.0587 0.3409 0.0515 -0.013
gr 0.2656 0.0552 0.2667 0.0469 -0.001
aula 0.4063 0.0614 0.3924 0.0509 0.0139
2 int ind 0.25 0.0541 0.2372 0.0444 0.0128
gr 0.1875 0.0488 0.1864 0.0389 0.0011
aula 0.5625 0.062 0.5764 0.0518 -0.014
3 pad ind 0.3261 0.0691 0.3436 0.0587 -0.017
gr 0.3261 0.0691 0.3429 0.0582 -0.017
aula 0.3478 0.0702 0.3136 0.0536 0.0343
3 int ind 0.2727 0.0671 0.2545 0.0521 0.0183
gr 0.2727 0.0671 0.2552 0.0517 0.0176
aula 0.4545 0.0751 0.4904 0.0608 -0.036
---------------------------------------------------------------------------------------------
BIBLIOGRAFIA
AGRESTI, A. Categorical data Analysis. New York: John Wiley & Sons, 1990.
AGRESTI, A. An Introduction to Categorical data Analysis. New York: John
Wiley & Sons, 1996.
BAUMAN, K.E., KOCH, G.G., LENTZ, M. Parent characteristics, perceived health
risk, and smokeless tobacco use among white adolescent males, NI Mono-
graphs 8, p.43-48, 1989.
DEM
´
ETRIO, C.G.B. Modelos Lineares Generalizados em Experimenta¸ c˜ ao
Agronˆ omica. Piracicaba: Minicurso 46
a
Rbras e 9
o
SEAGRO, 2001.
FREEMAN, D. Applied Categorical Data Analysis. New York: Marcel Dekker,
1987.
HOSMER JR, D.W., LEMESHOW, S. Applied Logistic Regression. New York:
John Wiley & Sons, 1989.
McCULLACH, P., NELDER, J.A. Generalized Linear Models. London: Chapman
and Hall, 1989.
MANTEL, N. Chi-square tests with one degree of freedom: Extensions of the Mantel-
Haenszel procedure, Journal of the American Statistical Association, v.58,
p.690-700, 1963.
MANTEL, N., HAENSZEL, W. Statistical Aspects of the analysis of data from retro-
spective studies of disease, Journal of the National Cancer Institute, v.22,
p.719-748, 1959.
Giolo, S. R. An´ alise de Dados Discretos 90
MANTEL, N. FLEISS, J. Minimum expected cell size requirements for the Mantel-
Haenszel one-degree of freedom ch-square test and a related rapid procedure,
American Journal of Epidemiology, v.112, p.129-143, 1980.
PAULA, G. An´alise de Regress˜ao. 2000.
PREGIBON, D. Logistic regression diagnostics, Annals of Statistics, v.9, p.705-724,
1981.
SILVEIRA NETO, S., NAKANO, O., BARBIN, D., VILLA NOVA, N.A. Manual de
Ecologia dos Insetos. S˜ ao Paulo: Agronˆ omica Ceres, 1976, 419p.
STOKES, M. E., DAVIS, C. S., KOCH, G. G. Categorical Data Analysis using
the SAS System. SAS Institute Inc., Cary, NC. USA, 2000.

Sign up to vote on this title
UsefulNot useful