Você está na página 1de 95

UNIVERSIDADE FEDERAL DO PARANÁ

DEPARTAMENTO DE ESTATÍSTICA

ANÁLISE DE DADOS DISCRETOS

Suely Ruiz Giolo

CURITIBA
Estado do Paraná - Brasil
2004
Prefácio

Este material baseia-se em vários livros e artigos citados e tem como objetivo apre-
sentar um texto introdutório sobre a Análise de Dados Discretos. Ele pode ser usado
em cursos de Bacharelado em Estatı́stica, bem como em outros cursos de graduação
e de pós-graduação, em que os alunos tenham conhecimentos básicos de probabili-
dade, inferência e regressão bem como tenham, também, noções de alguns testes não-
parámetricos.
O texto se originou de notas de aulas da disciplina Análise de Dados Discretos,
ministrada no curso de Bacharelado em Estatı́stica da Universidade Federal do Paraná,
com o propósito de apresentar métodos para a descrição, análise e modelagem de dados
em que a variável resposta de interesse seja categórica. Diversos exemplos são apresen-
tados e discutidos no decorrer do texto a fim de facilitar o entendimento dos conceitos,
métodos e modelos apresentados.
O manuscrito foi preparado usando o LaTex e as ilustrações e resultados es-
tatı́sticos foram obtidos no pacote estatı́stico R. O texto não está livre de erros e
imperfeições e, desse modo, comentários, crı́ticas e sugestões dos leitores, que possam
contribuir para uma futura edição revisada do mesmo, são bem-vindos.

Suely Ruiz Giolo


Curitiba, março de 2004.
SUMÁRIO

Página

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Escalas de Mensuração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Dados Obtidos nos Delineamentos Amostrais . . . . . . . . . . . . . . . . . 4
1.2.1 Dados históricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Dados experimentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.3 Dados de levantamentos amostrais . . . . . . . . . . . . . . . . . . . . . . 5
2 TABELAS DE CONTINGÊNCIA 2 × 2 . . . . . . . . . . . . . . . . . . . . 6
2.1 Modelo produto de Binomiais independentes . . . . . . . . . . . . . . . . . 6
2.2 Modelo Multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Modelo Produto de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4 Modelo Hipergeométrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5 Estudos freqüentes e modelos probabilı́sticos associados . . . . . . . . . . . 9
2.5.1 Estudos de Coorte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.2 Estudos Caso-Controle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5.3 Estudos cross-sectional ou tranversais . . . . . . . . . . . . . . . . . . . . 14
2.5.4 Ensaios clı́nicos aleatorizados . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6 Estatı́sticas de teste e Medidas de Associação . . . . . . . . . . . . . . . . . 16
2.6.1 Estatı́sticas Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.6.2 Testes Exatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.6.3 Diferença nas proporções . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.6.4 Risco relativo e odds ratio (razão de chances) . . . . . . . . . . . . . . . 19
ii
2.6.5 Sensibilidade e Especificidade . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6.6 Teste de McNemar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3 TABELAS DE CONTINGÊNCIA: OUTRAS DIMENSÕES . . . . . . . . . 27
3.1 Conjunto de tabelas de contingência 2 × 2 . . . . . . . . . . . . . . . . . . 27
3.1.1 Teste de Mantel-Haenszel . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.2 Medidas de associação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Conjunto de tabelas de contingência 2 × r . . . . . . . . . . . . . . . . . . 30
3.2.1 Associação em uma única tabela de contingência 2 × r . . . . . . . . . . 31
3.2.1.1 Escolha dos escores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.2 Associação em um conjunto de tabelas de contingência 2 × r . . . . . . . 34
3.3 Conjunto de tabelas de contingência s × 2 . . . . . . . . . . . . . . . . . . . 35
3.3.1 Associação em uma única tabela de contingência s × 2 . . . . . . . . . . 36
3.3.2 Associação em um conjunto de tabelas de contingência s × 2 . . . . . . 37
3.4 Tabelas de contingência s × r . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4.1 Testes para associação geral em tabelas s × r . . . . . . . . . . . . . . . . 38
3.4.1.1 Situação 1: variável resposta nominal . . . . . . . . . . . . . . . . . . . 38
3.4.1.2 Situação 2: variável resposta ordinal . . . . . . . . . . . . . . . . . . . . 39
3.4.1.3 Situação 3: ambas as variáveis ordinais . . . . . . . . . . . . . . . . . . 39
3.4.2 Teste exato para associação geral em tabelas s × r . . . . . . . . . . . . . 40
3.4.3 Medidas de associação em tabelas s × r . . . . . . . . . . . . . . . . . . . 40
3.4.4 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.4.1 Local de moradia e afiliações polı́tico partidárias . . . . . . . . . . . . . 41
3.4.4.2 Medicamentos para dor de cabeça e perı́odo sem dor . . . . . . . . . . . 41
3.4.4.3 Produtos de limpeza de roupas e intensidade da limpeza . . . . . . . . . 43
3.4.4.4 Tipo de veı́culo adquirido e fonte de propaganda. . . . . . . . . . . . . . 43
3.4.5 Concordância entre observadores . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.5.1 Estatı́stica Kappa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.5.2 Exemplo: concordância entre o diagnóstico de dois neurologistas . . . . 46
3.5 Conjunto de tabelas de contingência s × r . . . . . . . . . . . . . . . . . . . 47
iii

4 REGRESSÃO LOGÍSTICA DICOTÔMICA . . . . . . . . . . . . . . . . . . 48


4.1 Estimação dos parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2 Significância das variáveis no modelo . . . . . . . . . . . . . . . . . . . . . 54
4.2.1 Análise de Deviance e seleção de modelos . . . . . . . . . . . . . . . . . . 56
4.3 Qualidade do modelo ajustado . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.1 O modelo ajustado e interpretações . . . . . . . . . . . . . . . . . . . . . 59
4.4 Diagnóstico da regressão logı́stica . . . . . . . . . . . . . . . . . . . . . . . 59
4.5 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.5.1 Exemplo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.5.1.1 Resultados e conclusões obtidas para os dados do exemplo 1 . . . . . . . 64
4.5.2 Exemplo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.5.3 Exemplo 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.5.4 Métodos auxiliares no diagnótico do modelo ajustado . . . . . . . . . . . 73
4.5.4.1 QQplot com envelope simulado . . . . . . . . . . . . . . . . . . . . . . . 73
4.5.4.2 Poder preditivo do modelo e outras medidas auxiliares . . . . . . . . . . 74
5 REGRESSÃO LOGÍSTICA POLITÔMICA . . . . . . . . . . . . . . . . . . 76
5.1 Resposta ordinal: modelo de odds proporcionais . . . . . . . . . . . . . . . 76
5.1.1 Regressão logı́stica politômica ajustada aos dados sobre artrite . . . . . . 78
5.2 Resposta nominal: modelo de logitos generalizados . . . . . . . . . . . . . . 82
5.2.1 Logitos generalizados ajustados aos dados do programa escolar . . . . . . 84
BIBLIOGRAFIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
1 INTRODUÇÃO

Analistas de dados freqüentemente se deparam com experimentos cujas respos-


tas de interesse são, por natureza, categóricas e refletem, portanto, categorias de in-
formação em vez da usual escala intervalar. Dados categóricos são, em geral, apresenta-
dos na forma de tabelas, conhecidas como tabelas de contingência. A análise de dados
categóricos (ou discretos) trata, portanto, da análise de experimentos em que a variável
resposta é categórica. Quanto as variáveis explanatórias (covariáveis), estas podem ser
tanto categóricas quanto contı́nuas.
Observar a escala de mensuração (dicotômica, ordinal, nominal etc.) das variáveis
categóricas e identificar o delineamento amostral que produziu os dados, são fatores
muito importantes para a determinação de uma análise apropriada e, conseqüentemente,
das possı́veis inferências.
Na seção 1.1 são, portanto, descritas e ilustradas várias escalas de mensuração
das variáveis categóricas e, na seção 1.2, são descritos os delineamento amostrais mais
freqüentes.

1.1 Escalas de Mensuração

A escala de mensuração de uma variável categórica é um elemento chave para


a escolha de uma estratégia de análise. Não considerá-la pode, portanto, implicar na
escolha inapropriada de uma estratégia que pode levar a conclusões errôneas.
De um modo geral, variáveis resposta categóricas podem ser:
• dicotômica
• ordinal
• nominal
• contagens discretas.
Giolo, S. R. Análise de Dados Discretos 2
Respostas dicotômicas são aquelas que apresentam duas possibilidades de res-
posta. O objetivo, por exemplo, de um ensaio clı́nico realizado para testar um novo
medicamento é saber se o paciente obteve, ou não, uma melhora. Nesses casos, é comum
a representação dos dados em uma tabela de contingência 2 × 2, como mostrado na
Tabela 1.

Tabela 1. Resposta ao novo medicamento.

Melhora
Medicamento Sim Não Total
Novo 40 20 60
Placebo 16 48 64

A resposta, nesse exemplo, é dicotômica e a análise investiga a relação entre a


resposta e o medicamento.

Variáveis categóricas com mais do que duas possibilidades de resposta, e


que apresentam uma certa ordenação natural, são também freqüentes. Tais variáveis,
ditas apresentarem um escala ordinal de mensuração, podem, por exemplo, resultar de
questões tais como: i) A nova grade curricular produziu pequeno, algum ou grande
entusiasmo entre os estudantes? ii) A água exibe baixo, médio ou alto grau de pureza?
Observe, nesses exemplos, que há uma ordem clara das categorias de resposta, mas
não existe, contudo, indı́cios quanto às distâncias relativas entre os nı́veis. Note em ii)
que existe uma possı́vel distância entre os nı́veis: médio pode significar 2 vezes mais
puro do que baixo e alto 3 vezes mais puro do que baixo. Algumas vezes a distância
encontra-se mais clara. A Tabela 2 mostra um exemplo de um experimento com
resposta categórica ordinal.
Observe que variáveis resposta categóricas podem ser tratadas de diferentes
modos. Pode-se, por exemplo, combinar as colunas com as respostas “Acentuada”
e “Alguma” da Tabela 2 para produzir uma resposta dicotômica: “melhora” versus
Giolo, S. R. Análise de Dados Discretos 3

Tabela 2. Resultado de um ensaio clı́nico realizado com pacientes do sexo feminino


e masculino para investigar um tratamento para artrite reumatóide.

Melhora
Sexo Tratamento Acentuada Alguma Nenhuma Total
Feminino Ativo 16 5 6 27
Feminino Placebo 6 7 19 32
Masculino Ativo 5 2 7 14
Masculino Placebo 1 0 10 11

“não melhora”. Grupar categorias é usual durante uma análise se, é claro, a resposta
dicotômica resultante for também de interesse.

Se, no entanto, existirem mais do que duas categorias de resposta e ne-


nhuma ordenação para estas categorias, tem-se uma escala de mensuração nominal.
Por exemplo, i) preferência de local para passar as férias: praia, montanha ou fazenda,
ii) candidato de sua preferência: A, X, Y ou Z. Observe, em ambos os exemplos, que
não existe nenhuma aparente maneira de ordenar as categorias de resposta.

Variáveis resposta categóricas podem também apresentar contagens discretas.


Em vez de categorias tais como “sim e não” ou “baixo, médio e alto”, as respostas
são números. Alguns exemplos são: i) tamanho da ninhada: 1, 2, 3, 4 ou 5 membros;
ii) número de televisores em uma casa: 1, 2, 3 ou 4. Em tais situações poder-se-ia
pensar na usual estratégia de analisar a contagem média. No entanto, as suposições
exigidas para o modelo linear padrão, usado para dados contı́nuos, não são, em geral,
atendidas com contagens discretas que têm uma amplitude pequena, contagens que
não são normalmente distribuı́das e podem, ainda, não apresentar variância homogênea.

Em algumas situações variáveis contı́nuas são, por interesse do pesquisador,


Giolo, S. R. Análise de Dados Discretos 4
categorizadas em intervalos e tratadas, então, como variáveis categóricas. A variável
peso, por exemplo, pode ser categorizada em “obeso” e “não-obeso” ou, ainda, em
intervalos tais como < 60kg, [60, 100)kg, [100, 150)kg e ≥ 150kg.

1.2 Dados Obtidos nos Delineamentos Amostrais

Em um problema estatı́stico é, inicialmente, conveniente diferenciar os tipos de


variáveis observadas entre (i) variáveis resposta e (ii) variáveis explanatórias ou fatores
(as quais afetam a resposta). Em um dado problema fazer essa distinção depende do
delineamento e do propósito da investigação.
Os estudos observacionais, estudos experimentais e levantamentos amostrais são,
de um modo geral, os delineamentos amostrais mais comuns e estes conduzem, respec-
tivamente, a obtenção de: a) dados históricos, b) dados experimentais e c) dados de
levantamentos amostrais.

1.2.1 Dados históricos

Dados históricos são dados observacionais o que significa que a população em


estudo tem uma definição geográfica ou circunstancial. Dados dessa natureza são, por
exemplo, todas as ocorrências de uma doença em uma região especı́fica ou, todas as
crianças que freqüentam uma particular escola primária.
Os dados históricos não envolvem aleatorização para a sua obtenção e, sendo
assim, é difı́cil assumir que eles sejam representativos de uma dada população.

1.2.2 Dados experimentais

Dados experimentais são obtidos de estudos que envolvam a alocação aleatória


dos indivı́duos a, por exemplo, diferentes tratamentos. Outros exemplos são: estudos
em que diferentes fertilizantes (ou diferentes dosagens de um fertilizante) são aplicados
em áreas distintas de uma cultura ou, ainda, estudos em que diferentes dosagens de
uma droga terapêutica são aplicadas a grupos distintos de indivı́duos.
Giolo, S. R. Análise de Dados Discretos 5
1.2.3 Dados de levantamentos amostrais

Em estudos dessa natureza, indivı́duos são aleatoriamente escolhidos de uma


grande população de interesse. O censo por amostragem, em que a cada 10 casas
entrevistadas, 1 delas responde a um questionário mais detalhado, é um exemplo desse
tipo de estudo.

Alguns delineamentos amostrais podem também ser a combinação de um


levantamento amostral e um estudo experimental. Pesquisadores podem, por exemplo,
selecionar aleatoriamente uma população e, então, designar aleatoriamente tratamentos
aos indivı́duos sob estudo. Note que a unidade de aleatorização pode ser, dentre
outros, um indivı́duo ou um grupo de indivı́duos.
Além da escala de mensuração e do delineamento amostral, deve-se também
considerar se os dados são suficientes para assegurar a teoria assintótica exigida por
muitos testes. Muitas vezes pode-se ter um total amostral muito pequeno ou, então,
um número grande de caselas com contagens zeros, ou muito pequenas, que tornam as
suposições assintóticas questionáveis.

Algumas estratégias de análise de dados categóricos serão, portanto, tratadas


nesse material. Será considerado, inicialmente, a análise de tabelas de contingência
2 × 2, estendendo-se, então, para tabelas s × 2, 2 × r e s × r. Será visto que muitas
questões sobre dados categóricos podem ser respondidas por meio do estabelecimento
de hipóteses de associação. Para, no entanto, descrever a natureza dessa associação,
quando presente nos dados, bem como os padrões dessa associação, modelos estatı́sticos
serão usados. Dentre os possı́veis modelos, utilizados na análise de dados categóricos,
encontram-se: os modelos log-lineares, a regressão logı́stica e a regressão Poisson.
2 TABELAS DE CONTINGÊNCIA 2 × 2

Considere a tabela de contingência apresentada na Tabela 3, a qual é uma maneira


comum de resumir e representar dados categóricos.

Tabela 3. Tabela de contingência s = 2 × r = 2.

Coluna
Linha A B Totais
A n11 n12 n1+
B n21 n22 n2+
Totais n+1 n+2 n

Pela Tabela 3 pode-se observar freqüências, representadas por n11 , · · · , n22 ,


n1+ , · · · , n+2 e n, associadas às diversas caselas. Os totais n1+ , n2+ , n+1 e n+2 são
denominados totais marginais e n total ou tamanho amostral. Esses totais, ao serem
considerados no delineamento amostral como fixos ou aleatórios, indicam o modelo
probabilı́stico a ser considerado.

2.1 Modelo produto de Binomiais independentes

Se, por exemplo, o experimento for realizado de modo que n1+ e n2+ sejam
amostras aleatórias obtidas de dois grupos independentes e de tamanhos fixos (isto é, de
tamanhos estabelecidos antes da execução do experimento), tem-se duas distribuições
binomiais independentes associadas à Tabela 3, uma para cada linha. O modelo proba-
bilı́stico associado à Tabela 3, nessa situação, será, portanto, o modelo produto de
binomiais independentes de modo a ter-se:
Giolo, S. R. Análise de Dados Discretos 7
i) uma variável aleatória N11 com distribuição Bin(n1+ , p11 ) associada a 1a linha da
tabela e,

ii) outra variável aleatória N21 , independente da primeira, com distribuição


Bin(n2+ , p21 ) associada a 2a linha desta mesma tabela

em que, p11 é a probabilidade de qualquer indivı́duo pertencente à 1a linha ser classi-


ficado na 1a coluna e, analogamente, p21 é a probabilidade de qualquer indivı́duo per-
2
X 2
X
tencente à 2a linha ser classificado na 1a coluna. Observe que p1j = 1 e p2j = 1.
j=1 j=1
Assim, tem-se que a distribuição associada à Tabela 3 é o produto de Binomias inde-
pendentes descrita pela função de probabilidade:

2 2 n
pijij
( )
Y Y
P (N11 = n11 , N21 = n21 ) = ni+ ! . (1)
i=1 j=1 nij !

2.2 Modelo Multinomial

Se, no entanto, o experimento for realizado de modo que apenas n seja uma
amostra aleatória de tamanho fixo tem-se, associado à Tabela 3, a distribuição Multi-
nomial descrita pela função de probabilidade:

P (N11 = n11 , N12 = n12 , N21 = n21 , N22 = n22 ) = P (Nij = nij )
2 n
Y pijij
= n! (2)
i,j=1 nij!

2
X 2
X
sendo, nij = n e pij = 1.
i,j=1 i,j=1

2.3 Modelo Produto de Poisson

Em alguns experimentos pode ocorrer de nenhum dos tamanhos amostrais serem


fixos. Um exemplo, desses experimentos, é o da coleta de insetos em armadilhas adesivas
de duas cores, descrito em Silveira Neto et al. (1976) e Demétrio (2001), e apresentado
na Tabela 4, em que os indivı́duos coletados de uma determinada espécie foram sexados,
Giolo, S. R. Análise de Dados Discretos 8
com o fim de se verificar a influência da cor da armadilha sobre a atração de machos e
fêmeas dessa espécie.

Tabela 4. Número de insetos coletados em armadilhas e sexados

Sexo
Armadilha Machos Fêmeas Total
Alaranjada 246 17 263
Amarela 458 32 490
Total 704 49 753

Nesse experimento, o número de insetos que chegam às armadilhas, seja macho
ou fêmea, é um número (contagem) aleatório, caracterizando, assim, a distribuição de
Poisson. Assume-se, então, que Nij ∼ Poisson(λij ) independentes, i, j = 1, 2, de modo
que associado à Tabela 4, tem-se a distribuição Produto de Poisson descrita pela função
de probabilidade:
n
2 Y
Y 2
e−λij λijij
P (Nij = nij ) = (3)
i=1 j=1 nij !

em que λij > 0.

2.4 Modelo Hipergeométrico

O modelo hipergeométrico é comum, por exemplo, em experimentos em que


pacientes são alocados aleatoriamente a dois tratamentos considerados equivalentes
observando-se, nesses pacientes, uma resposta binária (dicotômica). Sob a hipótese
de que os efeitos dos dois tratamentos são iguais para cada paciente, a distribuição
hipergeométrica é considerada. Nessas situações considera-se, portanto, que n1+ , n2+
e n+1 são fixos. A fixação de ambas as margens da tabela provocada pelo condiciona-
mento em n1+ , n2+ e n+1 , leva a que qualquer uma, por exemplo n11 , das 4 freqüências
determine as restantes. Assim, N11 tem distribuição Hipergeométrica com função de
probabilidade expressa por:
Giolo, S. R. Análise de Dados Discretos 9

2
Y 2
Y
ni+ ! n+j !
C n1+ C n2+ i=1 j=1
P (N11 = n11 ) = n11 n n21 = 2 2
. (4)
Cn+1 YY
n! nij !
i=1 j=1

Em sı́ntese tem-se:

Tabela 5. Modelos probabilı́sticos associados às tabelas de contingência 2 × 2.

Tamanho amostral Totais marginais Totais marginais Modelo probabilı́stico


n ni+ n+j associado

aleatório aleatórios aleatórios Produto de Poisson


fixo aleatórios aleatórios Multinomial
fixo fixos aleatórios Produto de Binomias
fixo fixos fixos Hipergeométrico
(por hipótese)

Na seção 2.5 são apresentados alguns estudos freqüentes e respectivos modelos


probabilı́sticos associados.

2.5 Estudos freqüentes e modelos probabilı́sticos associados

2.5.1 Estudos de Coorte

Ao conduzir um estudo de Coorte, muito comum em medicina, o pesquisador


tem por interesse, por exemplo, verificar se indivı́duos expostos a um determinado fator
tem, ou não, mais propensão a desenvolver determinada doença. Ao contrário do estudo
Caso-Controle, descrito adiante, em que são escolhidos um grupo de indivı́duos com a
doença e outro grupo de indivı́duos livres da mesma, um estudo de Coorte é constituı́do,
em seu inı́cio, de um grupo de indivı́duos, denominada Coorte, em que todos estão
livres da doença sob investigação. Os indivı́duos dessa Coorte são então classificados
em expostos e não-expostos ao fator de interesse, obtendo-se assim dois grupos (ou
duas Coortes de comparação) que serão então observados por um perı́odo de tempo
Giolo, S. R. Análise de Dados Discretos 10
verificando-se quais indivı́duos desenvolveram a doença em questão. Os indivı́duos
expostos e não-expostos devem ser comparáveis, ou seja, semelhantes quanto aos demais
fatores, que não o de interesse, para que os resultados obtidos sejam confiáveis.
O termo Coorte é então usado para descrever um grupo de indivı́duos que têm
algo em comum ao serem reunidos e que são observados por um determinado perı́odo
para que se possa verificar o que ocorre com eles.
É importante que todos os indivı́duos sejam observados por todo o perı́odo de
seguimento, já que informações de uma Coorte incompleta podem distorcer o verdadeiro
estado das coisas. Por outro lado, o perı́odo de tempo em que os indivı́duos serão
observados deve ser significativo na história natural da doença em questão para que
haja tempo suficiente de o risco se manifestar. Doenças com perı́odo de latência longa
exigirão perı́odos longos de observação. Entenda-se por história natural da doença sua
evolução sem intervenção médica e por perı́odo de latência o tempo entre a exposição
ao fator e as primeiras manifestações da doença. Outros nomes, geralmente usados para
os estudos de Coorte são:

• longitudinal: enfatizando que os indivı́duos são acompanhados ao longo do tempo;

• prospectivo: subentendendo a direção em que os indivı́duos são acompanhados;

• de incidência: chamando atenção para a medida básica de novos eventos de doença


no tempo de seguimento.

Quanto à forma de coleta das informações dos indivı́duos pertencentes à Coorte


sob investigação, pode-se ainda classificar os estudos de Coorte em: estudos de Coorte
Contemporâneo e estudos de Coorte Histórica. Em um estudo de Coorte Contem-
porâneo, os indivı́duos são escolhidos no presente e acompanhados no futuro. Em uma
Coorte Histórica, os indivı́duos são escolhidos em registros do passado e acompanhados
daquele perı́odo até o presente. Informações provenientes de Coortes Históricas são
freqüentemente coletadas com outros objetivos que não especificamente o de interesse
e podem portanto não ter a qualidade suficiente para uma pesquisa rigorosa. O mesmo
Giolo, S. R. Análise de Dados Discretos 11
não ocorre com um estudo de Coorte Contemporâneo, uma vez que os dados são co-
letados especificamente para atender aos objetivos do estudo. Os estudos de Coorte
são menos propensos aos vı́cios que podem ocorrer nos estudos Caso-Controle e são os
mais indicados para o estudo de riscos quando a experimentação não é possı́vel. Nos
estudos de Coorte é possı́vel responder a seguinte questão: ”quantas vezes a probabi-
lidade de os indivı́duos expostos adquirirem a doença é maior do que a probabilidade
de os indivı́duos não-expostos adquirirem a doença?”. As principais dificuldades para a
realização de um estudo de Coorte são: (a) é um estudo mais demorado e que envolve
custos elevados pelos recursos necessários para acompanhar muitos indivı́duos ao longo
do tempo estabelecido; (b) não disponibiliza resultados a curto prazo; (c) os indivı́duos
sob estudo vivem livremente e não sob controle do pesquisador e; (d) não é viável para
doenças raras.
Na Tabela 6 encontra-se o resultado de um estudo de coorte realizado para
pesquisar a associação de câncer de pulmão ao tabagismo.

Tabela 6. Resultado de um estudo de coorte realizado para pesquisar a associação


do tabagismo e câncer de pulmão

Câncer de Pulmão
Fumante Sim Não Totais
Sim 75 45 120
Não 21 56 77
Totais 197

Note que os totais marginais n1+ e n2+ são fixos e, portanto, tem-se associado à
Tabela 6 o modelo produto de Binomiais independentes, uma Binomial para cada linha
da tabela.
Giolo, S. R. Análise de Dados Discretos 12
2.5.2 Estudos Caso-Controle

Embora o objetivo de um estudo Caso-Controle seja o mesmo de um estudo de


Coorte, ou seja, descobrir se a exposição a um determinado fator está associada ao
desenvolvimento da doença sob estudo, os mesmos diferem essencialmente quanto à
forma de seleção e coleta de informações dos indivı́duos.
Nestes estudos, o pesquisador seleciona um grupo de indivı́duos com uma deter-
minada doença de interesse, denominados “casos”, e outro grupo de indivı́duos livre
da doença, os “controles”. Fatores associados a um risco aumentado de adoecer são
denominados “fatores de risco”; exposição a um fator de risco significa que uma pessoa,
antes de adoecer, esteve em contato com o fator em questão ou o manifestou. A vali-
dade dos resultados destes estudos está condicionada principalmente à forma de seleção
dos indivı́duos. Os casos devem ser preferencialmente novos e não os já existentes e os
controles devem ser comparáveis aos casos, isto é, todas as diferenças importantes, que
não o fator de interesse, devem ser controladas quando da escolha desses indivı́duos.
Em outras palavras, casos e controles devem parecer ter tido chances iguais de terem
sido expostos ao fator em questão.
Os controles são, em geral, escolhidos segundo alguma estratégia que possa mi-
nimizar os vı́cios de seleção. Uma dessas estratégias é a dos casos emparelhados aos
controles, isto é, para cada caso, um ou mais controles com caracterı́sticas comuns aos
casos são selecionados. É comum emparelhar por caracterı́sticas demográficas (idade,
sexo, raça), porém deve-se também emparelhar por outras reconhecidamente impor-
tantes. O emparelhamento apresenta contudo um risco, a de o pesquisador emparelhar
por um fator que está relacionado à exposição. Outra estratégia possı́vel é escolher
mais de um grupo de controle. A comparação dos resultados dos casos com cada um
dos grupos de controle selecionados pode trazer à tona potenciais vı́cios pois, se resul-
tados diferentes forem observados na comparação dos casos com os diferentes grupos
controle, há evidências de que os grupos são não comparáveis. Muita atenção e cuidado
são necessários quando da seleção dos casos e controles para que a comparabilidade
entre os grupos possa ser assegurada. Atenção também deve ser dada ao número de
Giolo, S. R. Análise de Dados Discretos 13
indivı́duos sob estudo. Este deve ser suficiente para que o acaso não interfira em de-
masia nos resultados. Uma vez selecionados os casos e controles verifica-se, para cada
indivı́duo, sua exposição, ou não, ao fator sob investigação. O pesquisador geralmente
se utiliza para este fim de informações passadas, dependendo assim da disponibilidade e
qualidade dos registros (protocolos) ou da memória dos pacientes. Evidentemente, isto
pode ocasionar vı́cios no estudo. Por utilizar-se de informações passadas, os estudos
Caso-Controle são também denominados retrospectivos. As principais vantagens destes
estudos são o custo e o tempo envolvidos para a obtenção da resposta. Estes são re-
lativamente pequenos quando comparados aos de outros estudos, como por exemplo, o
estudo de Coorte discutido anteriormente. Por outro lado, tais estudos apresentam um
particular problema, o de resultados propensos a vı́cios devido principalmente a possı́vel
manipulação, pelos investigadores, dos grupos de comparação e por a exposição ao fator
de interesse ser medida por meio de informações passadas. Se atenção apropriada for
dada às possı́veis fontes de vı́cios, estudos Caso-Controle podem ser válidos e eficientes
para responder a muitas questões clı́nicas, em particular aquelas envolvendo doenças
raras.
Do ponto de vista teórico, os estudos de coorte são mais adequados do que os
de caso-controle. Os estudos caso-controle são, contudo, mais usados por envolverem
menor custo e menor tempo para a coleta das informações.
Na Tabela 7 encontram-se os resultados do mesmo estudo apresentado na Tabela 6
realizado, no entanto, como um estudo caso-controle.

Tabela 7. Resultados de um estudo caso-controle realizado para pesquisar a asso-


ciação do tabagismo e câncer de pulmão

Grupos
Fumante Casos: com câncer Controles: sem câncer Totais
Sim 75 45
Não 21 56
Totais 96 101 197
Giolo, S. R. Análise de Dados Discretos 14
Observe que, comparativamente ao estudo de Coorte, um estudo caso-controle
apresenta os totais marginais n+1 e n+2 fixos em vez de n1+ e n2+ . Para a Tabela 7 tem-
se, também, o modelo Produto de Binomiais independentes, uma Binomial, contudo,
para cada coluna da respectiva tabela.

2.5.3 Estudos cross-sectional ou tranversais

Em estudos transversais coletam-se simultaneamente, de um grupo ou população


de indivı́duos, informações sobre uma variedade de caracterı́sticas que são posterior-
mente cruzadas em uma tabela de contingência. Esta coleta é realizada em um único
ponto no tempo e, freqüentemente, o pesquisador não sabe o que ocorreu antes deste
ponto. A obtenção da prevalência da doença, ou seja, da proporção do grupo com a
doença no ponto em que se realizou a coleta é um dos objetivos destes estudos. Cons-
titui outro interesse, em geral, a investigação de potenciais relações causais entre os
fatores suspeitos serem de risco e a doença.
Os estudos transversais podem ser vistos como avaliações fotográficas de grupos
ou populações de indivı́duos. O termo transversal é usado para indicar que os indivı́duos
são estudados em um ponto no tempo (corte transversal). O interesse está em avaliar a
associação entre as respostas obtidas. Nesses estudos é comum considerar algumas das
variáveis como “fatores”.
Um exemplo é o de um estudo realizado com crianças para determinar se elas
apresentavam sintomas de doenças respiratórias. Um total de n = 1080 crianças foram
examinadas anotando-se, para cada uma, o sexo e se apresentavam, ou não, os sintomas.
Os resultados são mostrados na Tabela 8.
Note que apenas n é fixo e, desse modo, tem-se a distribuição multinomial asso-
ciada à Tabela 8

2.5.4 Ensaios clı́nicos aleatorizados

Esses estudos são realizados com o objetivo de comparar tratamentos. Os in-


divı́duos são alocados aleatoriamente ou ao grupo controle (tratamento padrão) ou ao
Giolo, S. R. Análise de Dados Discretos 15

Tabela 8. Resultado de um estudo transversal sobre doenças respiratórias em


crianças.

Sı́ntomas
Sexo Sim Não Totais
Feminino 355 125 480
Masculino 410 190 600
Totais 765 315 1080

grupo tratamento (tratamento alternativo). Um exemplo é mostrado na Tabela 9.

Tabela 9. Resultados de um ensaio clı́nico realizado para comparar dois medicamen-


tos usados no tratamento de infecções respiratórias severas.

Resposta
Tratamento Favorável Não favorável Totais
Novo 29 16 45
Padrão 14 31 45
Totais 43 47 90

Observe que nos ensaios clı́nicos o pesquisador interfere deliberadamente no


curso natural dos acontecimentos, ou seja, impõe um tratamento. Nos outros tipos
de estudos (coorte, caso-controle e transversal) o pesquisador não interfere no curso
natural dos acontecimentos, apenas observa. Como n1+ e n2+ são fixos, a distribuição
produto de Binomias independentes está associada à Tabela 9.

Nos estudos de Coorte e nos ensaios clı́nicos os indivı́duos apresentam no


inı́cio do experimento a mesma condição clı́nica. São então acompanhados por um
perı́odo de tempo para observação de ocorrência de casos novos (por exemplo, de
doença, de cura etc). Nesses estudos (coorte e ensaios clı́nicos) é possı́vel a obtenção
de uma medida denominada incidência. A incidência (seja de doença, de cura etc.) é
Giolo, S. R. Análise de Dados Discretos 16
definida como a proporção de indivı́duos em um determinado grupo que desenvolve a
resposta de interesse ao longo do tempo de observação, isto é,

indivı́duos que apresentaram resposta positiva no perı́odo de observação


Incidência = .
total de indivı́duos no inı́cio do experimento

Nos estudos transversais, indivı́duos são, em um único ponto no tempo, investi-


gados quanto a uma determinada resposta de interesse. Alguns dos indivı́duos neste
ponto do tempo apresentarão a resposta e outros não. Não é observado portanto casos
novos ao longo do tempo. A medida adequada aqui é a prevalência, isto é, a proporção
de indivı́duos do grupo com resposta positiva naquele ponto especı́fico do tempo, isto
é,

indivı́duos com a resposta em determinado ponto no tempo


Prevalência = .
indivı́duos pesquisados em determinado ponto no tempo

2.6 Estatı́sticas de teste e Medidas de Associação

Considere os dados apresentados na Tabela 1 referente a um ensaio clı́nico


aleatorizado realizado para comparar dois medicamentos. A questão de interesse,
nesse caso, é se as taxas de melhora para o placebo e para o novo medicamento são as
mesmas. Essa questão pode ser respondida testando se existe associação entre o tipo
de tratamento e a resposta do paciente, ou seja, testando-se a hipótese nula:

H0 : Não existe associação entre tratamento e resposta do paciente.

Existem várias maneiras (métodos) de se testar a hipótese H0 , muitas de-


las baseadas na distribuição Qui-quadrado, outras na distribuição hipergeométrica ou,
ainda, em outras distribuições. Esses métodos são tratados nas seções a seguir.
Giolo, S. R. Análise de Dados Discretos 17
2.6.1 Estatı́sticas Qui-Quadrado

No estudo experimental que produziu os dados da Tabela 1, os totais marginais n1+


e n2+ são fixos pois, 60 pacientes foram alocados aleatoriamente a um dos tratamentos
(placebo) e 64 ao outro tratamento. Sob a hipótese nula de não existência de diferença
entre os tratamentos, os totais marginais n+1 e n+2 são também considerados fixos e,
portanto, sob H0 , a distribuição de probabilidade associada é a hipergeométrica. Assim,
o valor esperado de nij é:

(ni+ ) (n+j )
E(Nij | H0 ) = = mij
n

e a variância:

(n1+ ) (n2+ ) (n+1 ) (n+2 )


V (Nij | H0 ) = = vij .
n2 (n − 1)

Para uma amostra suficientemente grande, n11 tem aproximadamente uma dis-
tribuição Normal, o que implica que:

(n11 − m11 )2
Q= (5)
v11

tem aproximadamente uma distribuição Qui-quadrado com um grau de liberdade. Não


importa como as linhas e colunas são arranjadas, Q assumirá sempre o mesmo valor
uma vez que:

| n11 n22 − n12 n21 |


| n11 − m11 | = | nij − mij | = .
n

Uma estatı́stica relacionada a Q é a estatı́stica de Pearson dada por:

2
2 X
X (nij − mij )2 n
QP = = Q. (6)
i=1 j=1 mij (n − 1)

Se as contagens (freqüências) nas caselas forem suficientemente grandes, QP


segue a distribuição Qui-quadrado com um grau de liberdade. Ainda, quando n
cresce, QP e Q convergem. Uma regra útil para determinar o tamanho amostral
adequado para Q e QP é que o valor esperado mij seja maior que 5 para todas as caselas.
Giolo, S. R. Análise de Dados Discretos 18

Obs: As estatı́sticas Q e Qp são também apropriadas para testar a hipótese


nula de não associação em estudos em que se tenham asssociados os modelos
probabilı́sticos Multinomial e produto de Poisson.

2.6.2 Testes Exatos

Muitas vezes, contudo, as freqüências observadas nas caselas da tabela são muito
pequenas inviabilizando, assim, o uso da distribuição Qui-quadrado. Métodos exatos
baseados na distribuição hipergeométrica são usados, nessas situações, para testar a
hipótese de associação.
O teste exato de Fisher, em que o valor p é determinado somando-se as probabi-
lidades das tabelas que são pouco prováveis, dado que as marginais são fixas, é, então,
utilizado.

2.6.3 Diferença nas proporções

Estabelecida a associação entre as linhas e colunas de uma tabela de contingência


2 × 2, pode-se ter interesse em descrever essa associação. Por exemplo, estimar as
diferenças de proporções, somente possı́vel nas tabelas em que as marginais n1+ e n2+
são fixas.
Assim, se os dois grupos são amostras aleatórias com probabilidades de sucesso π11
e π21 , respectivamente, e há interesse em estimar a diferença de proporções d = p11 −p21 ,
em que o valor esperado é:

E[p11 − p21 ] = π11 − π21

e a variância

π11 (1 − π11 ) π21 (1 − π21 )


V [p11 − p21 ] = + ,
n1+ n2+

para a qual um estimador não-viciado é:

p11 (1 − p11 ) p21 (1 − p21 )


v[p11 − p21 ] = + ,
n1+ − 1 n2+ − 1
Giolo, S. R. Análise de Dados Discretos 19
tem-se o seguinte intervalo para (π11 − π21 ), a um nı́vel de confiança (1-α)%:

!!
1 1 1
d ± zα/2 v+ + .
2 n1+ n2+
em que zα/2 denota o 100(1 − α/2) percentil da distribuição Normal padrão.

Exemplo: Para os dados da Tabela 1 tem-se: Q = 21,53 (p < 0,0001) e Qp = 21,7


(p < 0,0001). Ambas as estatı́sticas são claramente significativas e, portanto, há uma
forte associação entre o tratamento e a resposta do paciente. Como se trata de um
experimento em que as marginais n1+ e n2+ são fixas, tem-se que a diferença estimada
entre as proporções é de d = 0, 667 − 0, 25 = 0, 417 com correspondente intervalo,
ao nı́vel de 95% de confiança, dado por: I.C.95% (d) = 0,417 ± 0,177 = (0,24; 0,594).
Conclui-se, portanto, que o novo tratamento é significativamente superior ao placebo.

2.6.4 Risco relativo e odds ratio (razão de chances)

A odds ratio (OR) é uma medida que descreve o “grau”(intensidade) de asso-


ciação em uma tabela 2 × 2 e é calculada por:
n11 /n12 n11 n22
OR = = .
n21 /n22 n12 n21
Esta medida pode ser usada em qualquer tipo de estudo e varia de 0 a infinito.
Quando OR = 1, não existe associação entre as variáveis. Se, no entanto, OR > 1, o
grupo 1 apresenta chance (odds) maior de ter a resposta do que o grupo 2. Conseqüen-
temente, se OR < 1, o grupo 1 apresenta chance menor de ter a resposta do que o
grupo 2. Para a obtenção de um I.C. para a OR, toma-se o logaritmo da mesma (na
base e), isto é, f = log(OR), cuja variância estimada é:
!
1 1 1 1
V (f ) = + + + .
n11 n12 n21 n22
Assim, um I.C. para a OR, ao nı́vel 100(1-α)% de confiança é dado por:
 q 
I.C.(OR) = exp f ± zα/2 V (f )

em que zα/2 denota o 100(1 − α/2) percentil da distribuição Normal padrão.


Giolo, S. R. Análise de Dados Discretos 20
Para estudos prospectivos (Coorte e ensaios clı́nicos), uma outra quantidade
chamada risco relativo pode também ser obtida. O risco relativo (RR) fornece o
risco de desenvolvimento de uma determinada condição (freqüentemente uma doença)
para um grupo comparado a outro grupo. Esta medida é expressa por:
p11
RR =
p21
e pode ser mostrado que:
" #
1 + (n21 /n22 )
RR = OR × .
1 + (n11 /n12 )

Logo, a OR se aproxima do RR quando n11 e n21 são pequenos relativamente a


n12 e n22 , respectivamente. Essa situação se verifica para o caso de doenças raras.
Um I.C. para o RR é também obtido tomando-se o logaritmo do RR (na base e),
isto é, f ∗ = log(RR) = log(p11 ) − log(p21 ) cuja variância é dada por:
(1 − p11 ) (1 − p21 )
V (f ∗ ) = +
(n1+ ) (p11 ) (n2+ ) (p21 )
e, portanto, um I.C. para o RR, ao nı́vel 100(1-α)% de confiança é dado por:
 q 
I.C.(RR) = exp f ∗ ± zα/2 V (f ∗ )

em que, zα/2 denota o 100(1 − α/2) percentil da distribuição Normal padrão.

Exemplos: Para os dados apresentados na:

(i) Tabela 1: referente a um estudo realizado para testar um novo medicamento, em


que 2 amostras aleatórias foram selecionadas, e estabeleceu-se a hipótese nula H0 : não
existe associação entre tratamento e a resposta do paciente, tem-se.

Q = 21, 53 (p < 0, 0001) e Qp = 21, 7 (p < 0, 0001)

d(novo−placebo) = (0, 667 − 0, 25) = 0, 417

IC(d)(95%) = (0, 24; 0, 594)

RRnovo|placebo = 2, 67

IC(RR)(95%) = (1, 68; 4, 22)


Giolo, S. R. Análise de Dados Discretos 21
Com base nesses resultados pode-se concluir, portanto, que tratamento e resposta
do paciente estão associados e, desse modo, as taxas de melhora para o placebo e para
o novo medicamento não são as mesmas. Para o novo medicamento estima-se que
41,7% a mais dos pacientes, em relação ao placebo, apresentem melhora, estimativa
esta que pode variar, ao nı́vel de confiança de 95%, entre 24% e 59,4%. Pode-se,
ainda, concluir que os pacientes submetidos ao novo medicamento são 2,67 vezes mais
prováveis a apresentarem melhora do que os pacientes que recebem placebo, podendo
esta estimativa, ao nı́vel de confiança de 95%, variar entre 1,68 a 4,22 vezes. O novo
medicamento é, portanto, recomendável.

(ii) Tabela 4: referente a um estudo realizado para verificar a influência da


cor da armadilha sobre a atração de machos e fêmeas de modo que H0 : não existe
associação entre a cor da armadilha e sexo, tem-se:

Q = 0, 0013 (p = 0, 9718) e Qp = 0, 0013 (p = 0, 9718)

OR = 1, 011

IC(OR)(95%) = (0, 55; 1, 857)

Não há, portanto, evidências estatı́sticas para a rejeição da hipótese nula e, desse
modo, pode-se concluir que a atração de machos e fêmeas não é influenciada pela cor
da armadilha. A atração de machos e fêmeas, da espécie coletada, é semelhante tanto
usando-se armadilhas alaranjadas quanto armadilhas amarelas sendo que, os machos,
apresentam, em média, atração maior às armadilhas do que as fêmeas.

(iii) Tabela 6: referente a um estudo de coorte realizado para pesquisar a as-


sociação do tabagismo e câncer de pulmão em que H0 : não existe associação entre
tabagismo e câncer de pulmão, tem-se.

Q = 23, 18 (p < 0, 0001) e Qp = 23, 29 (p < 0, 0001)

d(fumantes - não fumantes) = (0, 625 − 0, 2777) = 0, 3523

IC(d)(95%) = (0, 21; 0, 495)


Giolo, S. R. Análise de Dados Discretos 22
RR(fumantes | não fumantes) = 2, 29

IC(RR)(95%) = (1, 55; 3, 38)

A conclusão, nesse exemplo, é de que existe associação entre tabagismo e câncer


de pulmão. Para os fumantes estima-se que 35,23% a mais deles, em relação aos não
fumantes, desenvolverão câncer de pulmão, estimativa esta que pode variar, ao nı́vel de
confiança de 95%, entre 21% e 49,5%. Pode-se, ainda, concluir que indivı́duos fumantes
são 2,29 vezes mais prováveis a apresentarem câncer de pulmão do que os não fumantes
podendo esta estimativa, ao nı́vel de confiança de 95%, variar entre 1,55 a 3,38 vezes.
O tabagismo pode, portanto, ser considerado um fator de risco para o câncer de pulmão.

(iv) Tabela 7: referente a um caso-controle realizado para pesquisar a asso-


ciação do tabagismo e câncer de pulmão em que H0 : não existe associação entre
tabagismo e câncer de pulmão.

Q = 23, 18 (p < 0, 0001) e Qp = 23, 29 (p < 0, 0001)

OR = 4, 44

IC(OR)(95%) = (2, 37; 8, 28)

Conclui-se, portanto, que tabagismo e câncer de pulmão estão associados, ou


seja, as taxas de desenvolvimento de câncer de pulmão para fumantes e não fumantes
diferem. A chance dos indivı́duos que fumam apresentarem a doença é 4,44 vezes
maior do que a chance dos que não fumam, chance esta que, ao nı́vel de confiança de
95%, pode variar entre 2,37 e 8,28 vezes.

(v) Tabela 8: referente a um estudo transversal sobre doenças respiratórias


realizado com crianças em que deseja-se saber se sexo e doenças respiratórias estão
associadas. A hipótese nula a ser considerada é H0 : não existe associação entre sexo e
doenças respiratórias e, para testá-la, obteve-se:
Giolo, S. R. Análise de Dados Discretos 23

Q = 4, 0803 (p = 0, 0434) e Qp = 4, 084 (p = 0, 0433)

OR(f eminino|masculino) = 1, 3161

IC(OR)(95%) = (1, 008; 1, 718)

Com base nos resultados obtidos, e considerando-se um nı́vel de significância de


5%, pode-se concluir que existe associação entre sexo e doenças respiratórias, ou seja,
as taxas de doenças respiratórias em crianças do sexo feminino e masculino diferem.
Observe, contudo, que a OR estimada não se encontra tão distante do valor 1 (que
indicaria chances iguais para ambos os sexos). Este fato mostra que a chance das
crianças do sexo feminino apresentarem doenças respiratórias, não é tão maior do que
a das crianças do sexo masculino. Essa chance é de 1,31 vezes podendo, ao nı́vel de
confiança de 95%, variar entre 1,008 e 1,718 vezes.

(vi) Tabela 9: referente a um ensaio clı́nico realizado para comparar dois medica-
mentos usados no tratamento de infecções severas. Para esse estudo tem-se H0 : não
existe associação entre tratamento e a resposta do paciente. Para testá-la, os seguintes
resultados das estatı́sticas de teste e medidas de associação foram obtidos:

Q = 9, 9085(p = 0, 0016) e Qp = 10, 02(p = 0, 0015)

d(novo - padrão) = (0, 6444 − 0, 3111) = 0, 3333

IC(d)(95%) = (0, 114; 0, 552)

RR(novo | padrão) = 2, 07

IC(RR)(95%) = (1, 27; 3, 36).

Pode-se concluir, portanto, que existe associação entre o tratamento e a resposta


do paciente o que implica que as taxas de respostas favoráveis para os tratamentos
novo e padrão diferem. Estima-se que 33,33% a mais dos pacientes que receberam
o novo tratamento, em relação aos que receberam o tratamento padrão, apresentarão
resposta favorável, estimativa esta que pode variar, ao nı́vel de confiança de 95%, entre
11,4% e 55,2%. Conclui-se, ainda, que pacientes que receberam o novo tratamento são
Giolo, S. R. Análise de Dados Discretos 24
2,07 vezes mais prováveis a apresentarem resposta favorável do que os que receberam
o tratamento padrão, podendo esta estimativa, ao nı́vel de confiança de 95%, variar
entre 1,27 a 3,36 vezes. O novo medicamento é, desse modo, preferı́vel ao medicamento
padrão.

2.6.5 Sensibilidade e Especificidade

A sensibilidade e especificidade são outras medidas usadas em particular quando


se deseja determinar a eficácia de um exame (teste) realizado para detectar a presença,
ou não, de uma doença ou outro evento qualquer. O exame de DNA realizado para
saber se o indivı́duo é, ou não, pai de uma criança é um exemplo desses testes. Outro
exemplo é o do exame de AIDS realizado para saber se o sujeito é, ou não, soro positivo.
As medidas citadas determinam a eficiência desses testes em detectar a verdade.
A sensibilidade é definida como a proporção de resultados positivos que um teste apre-
senta quando realizado em sujeitos conhecidos terem a doença, ou seja, é a proporção de
verdadeiros positivos. A especificidade, por outro lado, é definida como a proporção
de resultados negativos que um teste apresenta quando realizado em sujeitos conheci-
dos estarem livres da doença (proporção de verdadeiros negativos). O desejado de um
exame (teste) é que ele tenha, simultâneamente, alta sensibilidade e especificidade.
A sensibilidade e especificidade são também usadas para testar se um novo exame,
alternativo ao já existente, mas de custo inferior, é tão eficiente quanto aquele tido como
o melhor na literatura. O melhor teste é, geralmente, referenciado na literatura como
“teste ouro” ou “teste padrão”.
Considere a Tabela 10 representando os resultados positivos e negativos apresen-
tados em um exame realizado em 180 pacientes.
Para esses dados a sensibilidade e especificidade estimadas são, respectivamente,
dadas por:

52 100
Sensibilidade = = 0, 867 e Especificidade = = 0, 833.
60 120

O exame usado apresenta, portanto, boa sensibilidade e especificidade detectando


Giolo, S. R. Análise de Dados Discretos 25

Tabela 10. Resultados de um exame realizado em 180 pacientes para verificar a


presença, ou não, de uma doença de pele.

Resultado do exame
Status + - Totais
Doença presente 52 8 60
Doença ausente 20 100 120

em torno de 87% dos casos positivos e 83% dos casos negativos. O exame deixou,
contudo, de detectar em torno de 13% dos casos positivos (taxa de falsos negativos =
8/60 = 0,1333) e em torno de 17% dos casos apresentou resultado positivo erronea-
mente (taxa de falsos positivos = 20/120 = 0,1667). A taxa bruta de concordância
(poder preditivo) do exame foi de 152/180 = 0.844 (84.4%). Dos 72 resultados posi-
tivos apresentados pelo exame, 52 estavam corretos, ou seja, o poder preditivo positivo
do exame foi de 52/72 = 0,7222 (72,2%). Por outro lado, dos 108 resultados nega-
tivos apresentados pelo exame, 100 estavam corretos fornecendo, assim, para o poder
preditivo negativo do exame, um valor de 100/108 = 0,926 (92,6%).
Seria, desse modo, recomendável que o teste fosse realizado mais de uma vez,
em cada paciente, para evitar que um paciente doente não seja tratado ou que, um
paciente livre da doença seja tratado indevidamente. Se, contudo, o medicamento a
ser utilizado não apresenta efeitos colaterais, recomenda-se um segundo teste somente
para os pacientes que apresentarem resultado negativo. Como cada doença apresenta
suas peculiaridades, deve-se analisar, para cada uma delas, o que é de fato relevante.
Em determinadas situações, por exemplo, há um interesse maior em testes com alta
sensibilidade e, especificidade, relativamente inferior.

2.6.6 Teste de McNemar

As tabelas de contingência 2 × 2 contêm, em algumas situações, informações


pareadas. Por exemplo, situações em que são realizadas duas perguntas relacionadas
Giolo, S. R. Análise de Dados Discretos 26
ou, a mesma pergunta é feita para um par de indivı́duos relacionados (casal, gêmeos
etc.) ou, ainda, informações tomadas antes e após algum acontecimento (uso de um
medicamento, campanha publicitária etc).
Nesses casos o interesse é testar se a proporção dos pares respondendo sim para
a pergunta 1 é a mesma dos que respondem sim para a pergunta 2, ou seja, testar a
hipótese nula:
n+1 n1+
H0 : = .
n n
McNemar (1947) desenvolveu um teste qui-quadrado baseado na distribuição bi-
nomial para testar a hipótese citada. Ele mostra que somente os elementos fora da
diagonal são importantes para determinar se existe diferença nessas proporções. A
estatı́stica do teste é dada por:
(n12 − n21 )2
QM =
(n12 + n21 )
e tem aproximadamente distribuição qui-quadrado com 1 grau de liberdade.

Exemplo: Considere a taxa de aprovação de um determinado polı́tico, antes e


após o anúncio de certas medidas, descrita na Tabela 11.

Tabela 11. Resultados de um pesquisa realizada para verificar a taxa de aprovação


de um polı́tico antes e após o anúncio de certas medidas.

Após
Antes Aprova Reprova Totais
Aprova 20 5 25
Reprova 10 10 20
Totais 30 15 45

O teste da hipótese H0 : proporção de aprovação do candidato antes e após o


anúncio das medidas é a mesma, resultou em QM = 1,67 (valor p = 0,1967). Assim,
não se rejeita H0 e, desse modo, não é possı́vel dizer que a taxa de aprovação desse
polı́tico se alterou após o anúncio das medidas.
3 TABELAS DE CONTINGÊNCIA: OUTRAS DIMENSÕES

3.1 Conjunto de tabelas de contingência 2 × 2

Considere os dados da Tabela 12 provenientes de um ensaio clı́nico realizado para


comparar dois medicamentos usados no tratamento de infecções respiratórias severas,
medicamentos estes que foram testados em dois centros médicos.

Tabela 12. Resultados de um ensaio clı́nico realizado para comparar dois medica-
mentos usados no tratamento de infecções respiratórias severas.

Resposta
Centro Tratamento Favorável Não favorável Totais
1 Novo 29 16 45
1 Padrão 14 31 45
Totais 43 47 90
2 Novo 37 8 45
2 Padrão 24 21 45
Totais 61 29 90

Note que a tabela acima é, na realidade, um conjunto de duas tabelas de con-
tingência 2 × 2 e em que, as mesmas questões de uma única tabela, são de interesse.
Ou seja, existe associação entre tratamento e a resposta do paciente e, se existe, qual a
intensidade dessa associação?
Como o interesse concentra-se na associação global entre o tratamento e a resposta,
poder-se-ia pensar em somar as freqüências das linhas correspondentes a cada trata-
mento obtendo-se, assim, uma única tabela de contingência 2 × 2. Os pesquisadores
Giolo, S. R. Análise de Dados Discretos 28
notaram, contudo, que os pacientes apresentaram comportamentos acentuadamente di-
ferentes em cada centro e que este deveria ser, portanto, considerado na análise. Em
alguns casos, a estratificação pode ter sido planejada, em outros surge após a coleta dos
dados.
Uma análise estratificada é, desse modo, a estratégia a ser adotada nessas
situações. Em tal análise, examina-se a associação entre as duas variáveis de interesse
controlando-se, ou ajustando-se, para o efeito de centro.

3.1.1 Teste de Mantel-Haenszel

Um método para verificar a associação global das variáveis de interesse, con-


trolando (ou ajustando) para o fator de estratificação, foi proposto por Mantel-Haenszel
(1959). Para a obtenção da estatı́stica de teste proposta por esses autores, considera-se,
para cada uma das q tabelas 2 × 2 que compõem a tabela geral, a notação apresentada
na Tabela 13.

Tabela 13. h-ésima tabela de contingência 2 × 2.

Coluna
Linha A B Totais
A nh11 nh12 nh1+
B nh21 nh22 nh2+
Totais nh+1 nh+2 nh

Sob a hipótese nula de não diferença entre os tratamentos, o valor esperado de


nh11 e sua respectiva variância são:

nh1+ nh+1
E(Nh11 | H0 ) = = mh11
nh

(nh1+ )(nh2+ )(nh+1 )(nh+2 )


V (Nh11 | H0 ) = = vh11 .
n2h (nh − 1)

Assim, a estatı́stica de teste proposta por Mantel-Haenszel é dada por:


Giolo, S. R. Análise de Dados Discretos 29

q q !2 q !2
X X X (nh1+ nh2+ )
nh11 − mh11 (ph11 − ph21 )
h=1 h=1 h=1 nh
QM H = q = q
X X
vh11 vh11
h=1 h=1

em que phi1 = nhi1 /nhi+ e QM H tem distribuição aproximadamente qui-quadrado com 1


Pq
grau de liberdade quando h=1 nh for suficientemente grande (> 30). Em um certo sen-
tido, essa estratégia de análise é similar a uma análise de variância de um experimento
fatorial em blocos aleatorizados.
QM H é eficaz para determinar padrões de associação quando existir uma forte
tendência de a maioria das diferenças (ph11 − ph21 ) apresentar o mesmo sinal. Assim,
QM H pode falhar em detectar a associação quando as diferenças estiverem em direções
opostas (sinais diferentes) e apresentarem magnitudes similares.
Mantel e Fleiss (1980) propuseram um critério para determinar se a aproximação
qui-quadrado é apropriada para a distribuição da estatı́stica de Mantel-Haenszel para
q tabelas. Este critério é dado por:
(" q
X q
X
# " q
X q
X
#)
CM F = min mh11 − (nh11 )L , (nh11 )U − (mh11 ) >5
h=1 h=1 h=1 h=1

em que (nh11 )L = max(0, (nh1+ − nh11 )) e (nh11 )U = min(nh+1 , nh1+ ).

Para os dados da Tabela 12 tem-se: QM H = 18, 41 (p < 0,0001). Assim,


existe uma forte associação entre tratamento e a resposta do paciente, ajus-
tado para centro. Conclui-se, portanto, que o medicamento novo apresenta uma
taxa de resposta favorável significativamente maior do que a do placebo. Ainda,
n o
CM F = min (52 − 16), (88 − 52) = 16 ≥ 5 mostrando que, para esses dados, a
aproximação qui-quadrado é apropriada para QM H .

3.1.2 Medidas de associação

Para um conjunto de q tabelas 2 × 2 pode-se calcular a média das odds ratios.


Se as odds ratios são homogêneas, o estimador de Mantel-Haenszel para a odds ratio
Giolo, S. R. Análise de Dados Discretos 30
comum é dado por:
Pq nh11 nh22
h=1 nh
ORM H = Pq nh12 nh21 .
h=1 nh

O intervalo de confiança a 100(1-α)% para a ORM H é:


 
ORM H exp(zα/2 σ̂), ORM H exp(−zα/2 σ̂)

em que,

h (nh11 + nh22 )(nh11 nh22 )/n2h


P
2
σ̂ =
2( h (nh11 nh22 )/nh )2
P
P h i
h (nh11 + nh22 )(nh12 nh21 ) + (nh12 + nh21 )(nh11 nh22 ) /n2h
+
2( h (nh11 nh22 )/nh )( h (nh12 nh21 )/nh )
P P

2
h (nh12 + nh21 )(nh12 nh21 )/nh
P
+ .
2( h (nh12 nh21 )/nh )2
P

No exemplo apresentado na Tabela 12 tem-se que as odds ratios são ho-


mogêneas (OR1 = 4, 01 e OR2 = 4, 04) e, sendo assim, a odds ratio comum estimada
bem como seu respectivo I.C, ao nı́vel de confiança de 95%, são:

ORM H = 4, 028

IC(ORM H )(95)% = (2, 106; 7, 701).

Portanto, aqueles pacientes que receberam o novo tratamento apresentam, em


média, uma chance (odds) de apresentarem melhora de em torno de 4 vezes maior, em
relação a odds dos que receberam placebo. Essa chance varia, ao nı́vel de confiança de
95%, entre 2,1 e 7,7 vezes.

3.2 Conjunto de tabelas de contingência 2 × r

Considere os dados da Tabela 14, referente a um ensaio clı́nico duplo-cego reali-


zado para investigar um novo tratamento para artrite reumatóide, em que a resposta
Giolo, S. R. Análise de Dados Discretos 31

Tabela 14. Resultado de um ensaio clı́nico realizado com pacientes do sexo feminino
e masculino para investigar um tratamento para artrite reumatóide.

Melhora
Sexo Tratamento Nenhuma Alguma Acentuada Totais
Feminino Ativo 6 5 16 27
Feminino Placebo 19 7 6 32
Totais 25 12 22 59
Masculino Ativo 7 2 5 14
Masculino Placebo 10 0 1 11
Totais 17 2 6 25

considerada foi se existiu nenhuma, alguma ou acentuada melhora nos sı́ntomas da


doença.
Os dados são, portanto, um conjunto de duas tabelas de contingência 2 × 3 em
que o interesse está na associação entre tratamento e o grau de melhora, ajustado para
sexo. O grau de melhora é uma resposta ordinal uma vez que nenhuma, alguma e
acentuada são gradações de melhora.
Mantel (1963) propôs uma extensão da estratégia de Mantel-Haenszel para a
análise de tabelas 2 × r quando a resposta é ordinal. Essa extensão envolve escores
médios para a resposta e usa diferenças destes escores no cálculo de uma estatı́stica de
teste adequada.
Antes, porém, de discutir as estratégias usadas para acessar a associação em um
conjunto de tabelas 2 × r, faz-se necessário discutir tal associação em uma única tabela
2 × r que apresenta resposta ordinal.

3.2.1 Associação em uma única tabela de contingência 2 × r

Considere a Tabela 14 agrupando-se as freqüências dos sexos feminino e masculino,


respectivamente. A Tabela 15 mostra esse agrupamento.
Giolo, S. R. Análise de Dados Discretos 32

Tabela 15. Resultado de um ensaio clı́nico realizado com pacientes do sexo feminino
e masculino para investigar um tratamento para artrite reumatóide.

Melhora
Tratamento Nenhuma Alguma Acentuada Totais
Ativo 13 7 21 41
Placebo 29 7 7 43
Totais 42 14 28 84

Como é desejável usar na estatı́stica de teste a informação de que a variável


resposta é ordinal, são assumidos escores para os nı́veis dessa variável. Obtém-se,
assim, médias (uma para cada linha da tabela) que são, então, comparadas. A média
para a i-ésima linha (i = 1, 2) da Tabela 15 é definida como:
3
aj nij
f¯i =
X
i = 1, 2
j=1 ni+

em que a = (a1 , a2 , a3 ) é o vetor de escores assumidos para os nı́veis da variável resposta.


Se a hipótese H0 é de não associação entre tratamento e grau de melhora, o que
significa que as freqüências são similares para todos os nı́veis, então,
3 3
!
n1+ n+j n+j
E(f¯1 | H0 ) =
X X
aj = aj = µa
j=1 n1+ n j=1 n
em que a variância:
3
(n − n1+ ) X n 
+j (n − n1+ ) va
V (f¯1 | H0 ) = (aj − µa )2 =
n1+ (n − 1) j=1 n n1+ (n − 1)
 
P3 n+j
sendo va = j=1 (aj − µa )2 n
.
A quantidade f¯1 tem distribuição aproximadamente Normal, pelo teorema central
do limite, de modo que a quantidade:
(f¯1 − µa )2
QS = h i
(n − n1+ )/(n1+ (n − 1)) va
tem distribuição aproximadamente qui-quadrado com um grau de liberdade. QS é
chamada estatı́stica escore médio. Por usar a informação ordinal da variável resposta,
Giolo, S. R. Análise de Dados Discretos 33
QS pode indicar onde as mudanças ocorrem. Assim, as estatı́sticas Q e Qp são úteis para
detectar tipos gerais de associação, mas não são tão eficientes quanto QS em detectar
a localização dessas mudanças.
Usando os escores a = (1, 2, 3) para os nı́veis de melhora nenhum, algum e
acentuada, respectivamente, obteve-se QS = 12,859 (p = 0,0003). Conclui-se, desse
modo, que os tratamentos diferem e que o tratamento “Ativo” apresentou desempenho
melhor (grau de melhora mais acentuado) do que o placebo, uma vez que f¯A = 2, 195
e f¯P = 1, 488.

3.2.1.1 Escolha dos escores

As estratégias de análise de dados ordinais requerem a escolha dos escores a serem


atribuı́dos aos nı́veis da variável resposta. Dentre as várias maneiras que tais escores
podem ser escolhidos, as duas mais usuais são:

i) escores inteiros: estes são definidos como aj = j, para j = 1, 2, · · · , r, e são


úteis quando os nı́veis da variável resposta são categorias ordenadas vistas como
igualmente espaçadas. São também úteis, quando os nı́veis da variável resposta
correspondem a contagens inteiras. Os escores inteiros (0, 1, · · ·) e (1, 2, · · ·), em
termos de conclusões, produzem resultados similares.

ii) escores padronizados (midranks): estes são restritos a valores entre 0 e 1 e


são definidos por:
P 
j
2 k=1 n+k − n+j + 1
aj = .
2(n + 1)

A vantagem desses escores sobre os escores inteiros é que o analista não se respon-
sabiliza diretamente pela seleção dos escores. Ele usa os dados para obtê-los.

Para muitos conjuntos de dados, a escolha dos escores apresentam pequeno efeito
nos resultados. Escolhas diferentes de escores inteiros usualmente fornecem resultados
similares. Isso pode, contudo, não acontecer quando os dados são muito desbalanceados,
tal como quando algumas categorias apresentam muito mais observações do que outras.
Giolo, S. R. Análise de Dados Discretos 34
Com os escores padronizados (midranks) isso também ocorre, uma vez que aquelas
categorias apresentando poucas observações, em relação as demais, apresentarão escores
muito próximos. A conseqüência disto é que as distâncias entre os nı́veis da variável
resposta podem vir a ser consideradas muito mais próximas do que elas realmente são.
Como pode ser visto, a escolha dos escores não é uma tarefa tão simples. Agresti
(1990, 1996) recomenda que os dados sejam analisados usando diversos razoáveis con-
juntos de escores para determinar se conclusões importantes dependem das escolhas
feitas. O pesquisador é, sem dúvida, de fundamental importância para o entendimento
das distâncias entre os nı́veis da variável resposta e conseqüente escolha adequada dos
escores.

3.2.2 Associação em um conjunto de tabelas de contingência 2 × r

A associação em um conjunto de tabelas 2 × r em que a resposta é ordinal também


envolve o cálculo de médias baseadas em um conjunto de escores.
Considere ah = (ah1 , ah2 , · · · , ahr ) o conjunto de escores assumidos para os r nı́veis
da variável resposta na h-ésima tabela 2 × r. Assim, considerando-se as duas tabelas
2 × 3 da Tabela 14, tem-se para o tratamento “Ativo” a seguinte soma de escores:
3
2 X 2
nh1+ f¯h1
X X
f+1 = ahj nh1j =
h=1 j=1 h=1
3
em que ahj nh1j
f¯h1 =
X

j=1 nh1+

é o escore médio para o tratamento Ativo na h-ésima tabela. Sob a hipótese nula de
não associação f+1 tem valor esperado dado por:
2
X
E(f+1 | H0 ) = nh1+ µh = µ∗
h=1

e variância,
2
X nh1+ (nh − nh1+ )
V (f+1 | H0 ) = vh = v ∗
h=1 (nh − 1)
3 3
!
(ahj nh+j ) nh+j
(ahj − µh )2
X X
em que µh = e vh = .
j=1 nh j=1 nh
Giolo, S. R. Análise de Dados Discretos 35
P2 P3
Se os tamanhos amostrais n+i+ = h=1 j=1 nhij são suficientemente grandes,
então f+1 tem distribuição aproximadamente normal e a quantidade

(f+1 − µ∗ )2
QSM H =
v∗

tem distribuição aproximadamente qui-quadrado com 1 grau de liberdade.


QSM H é conhecida como a estatı́stica escore médio de Mantel-Haenszel esten-
dida e é eficiente para detectar padrões de diferenças quando (f¯h1 − f¯h2 ) apresentarem
predominantemente o mesmo sinal.
Para os dados da Tabela 14 e considerando-se os escores a = (1, 2, 3), obteve-se
QSM H = 14,63 (p < 0,001). Os tamanhos amostrais n+1+ = 41 e n+2+ = 43 são também
suficientemente grandes, o que assegura que QSM H apresenta uma boa aproximação da
distribuição qui-quadrado, de modo que, pode-se concluir que tratamento e o grau de
melhora, controlando para sexo, são associados.

3.3 Conjunto de tabelas de contingência s × 2

Os dados apresentados na Tabela 16 referem-se a um estudo sobre o uso de tabaco


por adolescentes (Bauman et al., 1989). O interesse concentrou-se em fatores que
influenciam o uso do tabaco. Note, nesse exemplo, que a Tabela 16 é formada por um
conjunto de duas tabelas de contingência 3 × 2 e que, o interesse, é testar a existência,
ou não, de associação entre a variável resposta (uso de tabaco) e o fator consciência do
risco do uso do tabaco pelo adolescente controlando pelo fator uso de tabaco pelo pai.
Para esses dados observam-se, a variável resposta (uso de tabaco) e o fator uso de
tabaco pelo pai, como sendo dicotômicas e o fator consciência do risco, como ordinal.
Na prática, as três variáveis podem ser consideradas ordinais, uma vez que é comum
associar os escores 0 e 1 aos nı́veis de uma variável dicotômica.
Para acessar a associação de interesse, será, inicialmente, considerado uma única
tabela de contingência 3 × 2 para, então, estender a idéia para um conjunto de tabelas
de contingência 3 × 2.
Giolo, S. R. Análise de Dados Discretos 36

Tabela 16. Resultado de um estudo realizado com adolescentes para investigar fa-
tores que afetam o uso do tabaco.

Pai usa Consciência do risco Não usa tabaco Usa tabaco Totais
Não Mı́nima 59 25 84
Não Moderada 169 29 198
Não Substancial 196 9 205
Totais 424 63 487
Sim Mı́nima 11 8 19
Sim Moderada 33 11 44
Sim Substancial 22 2 24
Totais 66 21 87

3.3.1 Associação em uma única tabela de contingência s × 2

Considere somente a primeira tabela de contingência 3 × 2 (relativa aos adoles-


centes cujos pais não fumam) apresentada anteriormente. Como no caso das tabelas
de contingência 2 × s, escores c = (c1 , c2 , c3 ) são assumidos para os nı́veis (mı́nima,
moderada e substancial) do fator ordinal “consciência do risco”. Para a variável res-
posta assume-se, como já mencionado, os escores a = (a1 , a2 ) = (0, 1) para as respostas
“não usa” e “usa” tabaco, respectivamente. Assim, tem-se:
2
3 X
ci aj nij
f¯ =
X

i=1 j=1 n

em que, sob H0 ,
3 n 2 n
i+ +j
E(f¯ | H0 ) =
X X 
ci aj = µ c µa
i=1 n j=1 n

e
3 2
(aj − µa )2 (n+j /n)
( )
n
i+
V (f¯ | H0 ) =
X
2
X
(ci − aj )
i=1 n j=1 (n + 1)

A quantidade f¯ tem distribuição aproximadamente Normal para grandes amostras


Giolo, S. R. Análise de Dados Discretos 37
de modo que, para essas situações, usa-se a estatı́stica de teste:
hP i2
(f¯ − µc µa )2 (n − 1) 3i=1 2j=1 (ci − µc )(aj − µa ) nij
P
2
QCS = = h P3 i = (n − 1) rac
V ar(f¯ | H0 )
ih P
2 2 2
i=1 (ci − µc ) ni+ j=1 (aj − µa ) n+j

em que rac é o coeficiente de correlação de Pearson. Por este fato QCS é denominada
estatı́stica da correlação. Ainda, QCS tem distribuição aproximada Qui-quadrado com
1 grau de liberdade.
Para os dados da primeira tabela de contingência 3 × 2 da Tabela 16 obteve-
se QCS = 34, 28 (p < 0,0001), concluindo-se, portanto, haver uma forte associação
(correlação) entre consciência do risco de fumo e uso de tabaco.

3.3.2 Associação em um conjunto de tabelas de contingência s × 2

Mantel (1963) também propôs uma estatı́stica de teste para a associação de duas
variáveis que são ordinais em um conjunto de tabelas s × 2, baseada nos escores a e c
assumidos para as colunas e linhas das tabelas. Esta estatı́stica é expressa por:

" " #2
 2
f¯h − E(f¯h | H0 )
Pq  Pq 1/2
h=1 nh h=1 nh (vhc vha ) rca.h
QCSM H = = Pq
n2h var(f¯h | H0 )
Pq h i
h=1 h=1 n2h vhc vha /(nh − 1)

e é chamada estatı́stica da correlação de Mantel-Haenszel estendida. QCSM H


segue a distribuição Qui-quadrado com 1 grau de liberdade quando o tamanho
Pq
amostral combinado das tabelas s × 2 for suficientemente grande, isto é, h=1 nh ≥ 40.

Para os dados da Tabela 16, tomando-se os escores inteiros c = (1, 2, 3),


obteve-se QCSM H = 40,6639 (p < 0,0001). Existe, portanto, uma forte associação
(correlação) entre consciência do risco de fumar e uso de tabaco pelo adolescente,
controlando pelo fator uso de tabaco pelo pai.
Giolo, S. R. Análise de Dados Discretos 38

3.4 Tabelas de contingência s × r

Os conceitos de associação e medidas de associação em tabelas 2 × 2 e associação


em tabelas de contingência 2 × r e s × 2 foram apresentados e discutidos até o momento.
Nessa seção tais conceitos são estendidos para as tabelas s × r.

3.4.1 Testes para associação geral em tabelas s × r

A notação de uma tabela de contingência s × r, em que tem-se duas variáveis,


uma delas com s categorias e a outra com r categorias é apresentada na Tabela 17.

Tabela 17. Tabela de contingência s × r.

Categorias da variável resposta


Grupos 1 2 ··· r Totais
1 n11 n12 ··· n1r n1+
2 n21 n22 ··· n2r n2+
.. .. .. .. .. ..
. . . . . .
s ns1 ns2 ··· nsr ns+
Totais n+1 n+2 ··· n+r n

Para testar a hipótese nula de não existência de associação geral em uma tabela
de contingência s × r pode-se usar:

3.4.1.1 Situação 1: variável resposta nominal

i) a estatı́stica qui-quadrado de Pearson, como definida para uma tabela de con-


tingência 2 × 2, isto é,
r
s X
X (nij − mij )2
QP = .
i=1 j=1 mij

que, quando todas as caselas apresentarem valores esperados maiores que 5, tem
distribuição aproximada Qui-quadrado com (s -1)(r - 1) graus de liberdade.
Giolo, S. R. Análise de Dados Discretos 39
ii) a estatı́stica Q que, como para uma tabela de contingência 2 × 2, é obtida por:

(n − 1)
Q= QP
n

e têm, nesse caso, distribuição aproximada Qui-quadrado com (s -1)(r - 1) graus


de liberdade.

3.4.1.2 Situação 2: variável resposta ordinal

As estatı́sticas Q e QP são adequadas para a detecção de associação geral. Não


são, no entanto, tão adequadas quando a variável resposta é ordinal e é de interesse
levar em conta tal ordenação. Assim como para tabelas 2× r, a estatı́stica escore médio,
QS , pode ser também usada para tabelas s × r, de modo que QS é expressa por:

ni+ (f¯i − µa )2
Ps
(n − 1) i=1
QS =
n va

em que f¯i = rj=1 µa = E[f¯i | H0 ] =


 
aj nij Pr aj n+j Pr n+ j
, e va = j=1 (aj − µa )2 .
P
ni+ j=1 n n

Nesses casos, QS tem distribuição aproximada Qui-quadrado com (s - 1) graus de


liberdade uma vez que os escores médios de s grupos estão sendo comparados.

3.4.1.3 Situação 3: ambas as variáveis ordinais

Esta situação ocorre, por exemplo, quando a variável resposta é ordinal e os


tratamentos sendo comparados são, na realidade, dosagens diferentes de um mesmo
medicamento. Em tais situações, escores são assumidos para os nı́veis da variável
resposta e, também, para os nı́veis do fator de interesse.
A estatı́stica de teste apropriada para esta situação, como visto para tabelas de
contingência s × 2, é a estatı́stica da correlação QCS que, independente da dimensão
da tabela, terá sempre distribuição aproximada Qui-quadrado com 1 grau de liberdade.
Tal estatı́stica é expressa por:

2
QCS = (n − 1) rac

em que rac é o coeficiente de correlação de Pearson (ver pgs. 36 e 37).


Giolo, S. R. Análise de Dados Discretos 40
3.4.2 Teste exato para associação geral em tabelas s × r

Em alguns casos o tamanho amostral, em uma tabela de contingência s × r,


não é suficientemente grande e ocorrem diversos valores esperados menores que 5. As
estatı́sticas qui-quadrado discutidas anteriormente não são, portanto, recomendáveis.
Nessas situações, uma alternativa é o teste exato de Fisher para tabelas s × r. Esse
método segue os mesmos princı́pios do teste exato de Fisher para uma tabela de con-
tingência 2 × 2, exceto que as probabilidades são assumidas serem provenientes de uma
distribuição Hipergeométrica multivariada, isto é.
s
Y r
Y
ni+ ! n+j !
i=1 j=1
P (Nij = nij ) = s Y
Y r .
n! nij !
i=1 j=1

3.4.3 Medidas de associação em tabelas s × r

Algumas medidas de associação encontram-se disponı́veis quando há interesse em


se obter a intensidade da associação em uma tabela s × r. A escolha por uma dessas
medidas, dependerá da escala de mensuração das variáveis.

i) Medidas de associação ordinal


Nos casos em que as categorias exibidas nas linhas e colunas de uma tabela de
contingência s × r estiverem em uma escala intervalar ou apresentarem escores
que são igualmente espaçados, recomenda-se (Stokes et al., 2000), como medida
de associação, o coeficiente de correlação de Pearson. Nos casos, contudo, em
que as categorias são de natureza ordinal mas não apresentarem uma escala de
distância óbvia, sugere-se, então, o coeficiente de correlação de Spearman o qual
baseia-se nos ranks das categorias.

ii) Medidas de associação nominal


Medidas de associação nos casos em que uma, ou ambas, as variáveis de uma
tabela de contingência s × r estiverem em uma escala de mensuração nominal,
são mais difı́ceis. Dois coeficientes propostos na literatura para essas situações
Giolo, S. R. Análise de Dados Discretos 41
são: o coeficiente de incerteza (uncertainty coefficient) e o coeficiente lambda.
Agresti (1990) discute algumas dessas medidas.

3.4.4 Exemplos

3.4.4.1 Local de moradia e afiliações polı́tico partidárias

Os dados apresentados na Tabela 18 referem-se a um estudo sobre a afiliação


partidária em uma determinada cidade (Stokes et al., 2000). O interesse é saber se
existe associação entre partido polı́tico e local (bairros) de moradia.

Tabela 18. Distribuição polı́tico partidária nos bairros da cidade.

Local de Moradia
Partido Polı́tico A B C D Totais
Democrata 221 160 360 140 881
Independente 200 291 160 311 962
Republicano 208 106 316 97 727
Totais 629 557 548 836 2570

Para esses dados, ambas as variáveis encontram-se na escala de mensuração nomi-


nal e, desse modo, para testar a hipótese nula de não associação entre partido polı́tico e
local de moradia pode-se usar a estatı́stica qui-quadrado de Pearson (QP ) bem como a
estatı́stica Q. Os resultados obtidos para elas foram: QP = 273,92 (p < 0,0001, g.l = 6)
e Q = 273, 81 (p < 0,0001, g.l. = 6). Note que Q e QP forneceram valores muito
próximos, o que já era esperado uma vez que o tamanho amostral (n = 2570) é grande.
Dos resultados apresentados, conclui-se haver associação entre partido polı́tico e local
de moradia.

3.4.4.2 Medicamentos para dor de cabeça e perı́odo sem dor

Os dados desse exemplo, que encontram-se apresentados na Tabela 19, são de


um estudo sobre um novo medicamento utilizado para aliviar dores de cabeça. Os
Giolo, S. R. Análise de Dados Discretos 42
pesquisadores compararam tal medicamento com o tratamento padrão e um placebo
e mediram, para cada um deles, o número (em horas) de substancial alı́vio da dor de
cabeça.

Tabela 19. Estudo de um novo medicamento para o tratamento de dores de cabeça.

Horas de alı́vio
Tratamento 0 1 2 3 4 Totais
Placebo 6 9 6 3 1 25
Padrão 1 4 6 6 8 25
Novo 2 5 6 8 6 27
Totais 9 18 18 17 15 77

Claramente, número de horas é uma variável resposta ordinal. Nesses casos, o teste
escore médio, como visto anteriormente, é indicado para testar a hipótese nula de não
associação entre medicamento e a intensidade do alı́vio de dor de cabeça. Utilizando-se,
portanto, os escores a = (0, 1, 2, 3, 4) obteve-se QS = 13, 7346 ( p = 0,00104, g.l = 2).
Assim, há evidências estatı́sticas de associação entre tratamento e o número de horas
de dor de cabeça. Pode-se, desse modo, concluir que pelo menos dois tratamentos
diferem entre si. Quais deles diferem? Observe que f¯1 = 1, 36, f¯2 = 2, 64 e f¯3 = 2, 41
fornecendo indı́cios de que o placebo difere dos tratamentos novo e padrão. Não parece
haver indı́cios, contudo, de diferenças entre os tratamentos novo e padrão.
Considerando-se, então, a tabela com somente as linhas correspondentes aos trata-
mentos padrão e novo tem-se QS = 0,465 (p = 0,495, g.l. = 1). Conclui-se, desse modo,
que os tratamentos novo e padrão não diferem entre si. Para as demais comparações
obtiveram-se: i) placebo versus novo: QS = 8, 6 (p = 0,0034, g.l. = 1)
ii) placebo versus padrão: QS = 11, 66 ( p = 0,0006, g.l. = 1).
Observe, neste exemplo, que existe várias caselas com número esperado menores
que 5 o que inviabiliza a utilização das estatı́sticas Q e QP , mas não inviabiliza o uso da
estatı́stica QS . Este é, portanto, um exemplo que mostra a vantagem em se considerar
a escala ordinal dos dados utilizando-se uma estatı́stica de teste mais apropriada.
Giolo, S. R. Análise de Dados Discretos 43
3.4.4.3 Produtos de limpeza de roupas e intensidade da limpeza

Uma companhia de tratamento de água realizou um estudo para pesquisar como


os aditivos adicionados à água afetam a limpeza das roupas. O estudo considerou:
água sem nenhum aditivo, água com tratamento padrão e água com dose dupla do
tratamento padrão. Os resultados obtidos encontram-se na Tabela 20

Tabela 20. Influência de aditivos na água sobre limpeza das roupas.

Limpeza
Tratamento Baixa Média Alta Totais
Água pura 27 14 5 46
Água + trat. padrão 10 17 26 53
Água + dose dupla trat. padrão 5 12 50 67
Totais 42 43 81 166

Ambas as variáveis são, nesse caso, ordinais e como foi visto, a estatı́stica da
correlação QCS é indicada. Tomando-se, desse modo, os escores a = (1, 2, 3) e c = (1,
2, 3) para as categorias das variáveis limpeza e tratamento, respectivamente, obteve-se
QCS = 50,6 (p < 0,0001, g.l.= 1). Conclui-se, portanto, que o tratamento e limpeza
estão associados e que a limpeza aumenta com a dosagem de aditivo adicionado à agua.

3.4.4.4 Tipo de veı́culo adquirido e fonte de propaganda.

Os dados desse exemplo referem-se a um estudo realizado para saber se o tipo


de carro que as pessoas tinham comprado nos últimos meses em uma determinada
concessionária estava associada com o tipo de anúncio publicitário dos mesmos. O
resultado do estudo encontra-se apresentado na Tabela 21.
Pode-se notar que os dados não satisfazem as condiçcoes de aplicabilidade dos
testes usuais Q e QP pois existem caselas com freqüência zero bem como algumas delas
com freqüências esperadas menores do que 5. O teste exato de Fisher para testar a
hipótese nula de não associação é, desse modo, a estratégia indicada. Utilizando-se
Giolo, S. R. Análise de Dados Discretos 44

Tabela 21. Escolha do carro e anúncio publicitário

Anúncio publicitário
Tipo de carro TV Revista Jornal Radio Totais
Sedan 4 0 0 2 6
Esportivo 0 3 3 4 10
Utilitário 5 5 2 2 14
Totais 9 8 5 8 30

tal teste para os dados desse exemplo obteve-se um valor p = 0,0473 (bilateral). Não
existe teste exato de Fisher unilateral para tabelas s × r. Conclui-se, nesse caso, haver
evidências de associação ao nı́vel de significância de 5%. Para nı́veis de significância
menores não é possı́vel concluir pela existência de associação entre o tipo de carro
comprado e tipo de anúncio publicitário.

3.4.5 Concordância entre observadores

3.4.5.1 Estatı́stica Kappa

Pesquisadores nas áreas de medicina, epidemiologia, psiquiatria, psicologia etc.


têm, ou deveriam ter, consciência de que o observador é uma possı́vel fonte de erro de
medição. Em muitos casos, diferentes observadores, ou um mesmo observador em dife-
rentes tempos, podem, por exemplo, examinar um raio X, ou realizar um exame fı́sico,
e chegarem a diferentes conclusões (diagnósticos). É importante, desse modo, avaliar
a concordância entre os observadores. Os dados, em um estudo desse tipo, produzem,
em geral, uma tabela de contingência s × s em que os nı́veis nas colunas representam
a resposta de um observador e os nı́veis nas linhas a resposta do outro observador. As
caselas na diagonal representam os casos em que os observadores concordam.
Certamente as estatı́sticas tratadas anteriormente para testar a associação, ou não,
entre as respostas dos observadores poderiam ser usadas. Com os resultados obtidos
não se poderia, contudo, quantificar a concordância dos observadores. Medidas de
Giolo, S. R. Análise de Dados Discretos 45
concordância foram, então, propostas.
O coeficiente Kappa, proposto por Cohen (1960), é uma dessas medidas e é
definido por:

Π0 − Π e
κ̂ =
1 − Πe
Ps Ps nii
sendo Π0 = i=1 pii = i=1 n a probabilidade de concordância com, pii a probabi-
lidade de um indivı́duo ser classificado na categoria i por ambos os observadores e,
Ps Ps ni+ n+i
Πe = i=1 (pi+ )(p+i ) = i=1 n n
a probabilidade de concordância sob H0 em que
H0 : não há concordância entre os observadores.
Como Π0 = 1 quando existir concordância perfeita (todos os elementos fora da
diagonal são iguais a zero), κ será igual a 1 quando existir concordância perfeita entre
os observadores e, κ será igual a 0 quando a concordância for aquela esperada sob
H0 . Assim quanto mais próximo de 1 for o valor de κ, maior concordância existirá
entre os observadores. É possı́vel obter valores negativos para κ mas isto, raramente
ocorre. Considera-se, em geral, κ < 0,4 como concordância fraca, κ entre [0,4; 0,8)
como concordância moderada e κ ≥ 0,8 como concordância forte.
A variância assintótica do coeficiente Kappa pode ser estimada por:

(A + B − C)
var(κ̂) =
((1 − Πe )2 n)
h i2
em que A = pii 1 − (pi+ + p+i )(1 − κ̂) , B = (1 − κ̂)2 ) pij (p+1 pj+ )2 e
P PP
i i6=j
h i2
C = κ̂ − Πe (1 − κ̂) . Um intervalo de confiança para κ pode, portanto, ser obtido por:
q
κ̂ ± zα/2 (var(κ̂))

em que zα/2 é o 100(1-α/2) percentil da distribuição normal padrão.


Para os casos em que a resposta é ordinal uma forma ponderada da estatı́stica
Kappa foi proposta e esta é definida por:
Ps Ps
wij pij − si=1 sj=1 wij pi+ p+j
P P
Π0 (w) − Πe (w) i=1 j=1
κ̂w = =
1 − Πe (w) 1 − si=1 sj=1 wij pi+ p+j
P P
Giolo, S. R. Análise de Dados Discretos 46
em que wij são pesos com valores entre 0 e 1. Um possı́vel conjunto de pesos é dado
por:

| escore(i) − escore(j) |
wij = 1 −
escore(dim) − escore(1)

em que escore(i) é o escore para a i-ésima linha, escore(j) é o escore para a j-ésima coluna
e dim é a dimensão da tabela s × s.
A variância assintótica do coeficiente Kappa ponderado pode ser estimada por:
h i2 h i2
pij wij − (w̄i+ + w̄+j )(1 − κ̂w ) − κ̂w − Πe (w)(1 − κ̂w )
P P
i j
var(κ̂w ) =
(1 − Πe (w))2 n

em que w̄i+ = p+j wij e w̄+j = pi+ wij .


P P
j j

Um intervalo de confiança para κ̂w pode, portanto, ser obtido por:


κ̂(w) ± zα/2 var(κ̂w )

em que zα/2 é o 100(1-α/2) percentil da distribuição normal padrão.

3.4.5.2 Exemplo: concordância entre o diagnóstico de dois neurologistas

Os dados apresentados na Tabela 22 referem-se a classificação de pacientes com


esclerose múltipla, em 4 classes de diagnóstico, por dois neurologistas.

Tabela 22. Concordância dos diagnósticos de dois neurologistas

Neurologista 1
Neurologista 2 1 2 3 4 Totais
1 38 5 0 1 44
2 33 11 3 0 47
3 10 14 5 6 35
4 3 7 3 10 23
Totais 84 37 11 17 149
Giolo, S. R. Análise de Dados Discretos 47
Para esses dados obteve-se:

((38 + 11 + 5 + 10)/149) − (((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17))/149 2 )
κ̂ =
1 − (((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17)/1492 ))
κ̂ = 0, 2079.

Ainda, var(κ̂) = 0, 00255 e, portanto, IC0,95 (κ̂) = (0,109; 0,3068). De forma


análoga, κ̂w = 0, 3797, var(κ̂w ) = 0, 002673 e IC0,95 (κ̂w ) = (0,2785; 0,4810). Tais
resultados indicam uma fraca concordância entre os neurologistas.

3.5 Conjunto de tabelas de contingência s × r

Para um conjunto de tabelas s × r tem-se, para testar as associações de interesse,


as extensões das estatı́sticas:
i) QM H , quando as variáveis forem nominais;
ii) QSM H , quando os nı́veis da variável resposta forem ordinais e,
iii) QCSM H , quando ambas as variáveis forem ordinais.
4 REGRESSÃO LOGÍSTICA DICOTÔMICA

Neste capı́tulo, o modelo de regressão logı́stica será apresentado para descrever a


natureza da associação entre um conjunto de fatores e a variável resposta por meio de
um número parcimonioso de parâmetros.
A regressão logı́stica é freqüentemente apropriada para variáveis respostas
categóricas e descreve a relação entre esta variável resposta e um conjunto de variáveis
explanatórias (covariáveis). A variável resposta é usualmente dicotômica (tipicamente
sim e não), mas pode também ser usada para variáveis resposta com mais do que duas
categorias (regressão logı́stica politômica). As variáveis explanatórias, em regressão
logı́stica, podem ser categóricas ou contı́nuas. Variáveis dummy são usadas para a
incorporação de variáveis qualitativas no modelo de regressão logı́stica.
Considere, como exemplo inicial, os dados da Tabela 24 em que a relação entre
idade e doença coronária está sendo estudada. Pelos resultados apresentados nesta
tabela, observa-se que com o acréscimo da idade, cresce também a probabilidade de
ocorrência de doença coronária. A Figura 1 apresenta graficamente tais resultados
considerando-se o ponto médio de cada intervalo de idade.
Uma diferença importante entre o modelo de regressão logı́stica e o modelo de
regressão linear pode ser notada e, esta, diz respeito à natureza da relação entre a
variável resposta e as variáveis independentes. Em qualquer problema de regressão a
quantidade sendo modelada é o valor médio da variável resposta dado os valores das
variáveis independentes. Esta quantidade é chamada média condicional e será expressa
por E(Y | x) em que Y denota a variável resposta e x denota os valores das variáveis
independentes. Em regressão linear tem-se - ∞ < E(Y | x) < + ∞ e, em regressão
logı́stica, devido à natureza da variável resposta, 0 ≤ E(Y | x) ≤ 1 como pode ser
Giolo, S. R. Análise de Dados Discretos 49

Tabela 23. Dados sobre doença coronária por intervalo de idade

Doença coronária
Idade (X = x) Não (Y = 0) Sim (Y = 1) Totais E(Y | x)
20-29 9 1 10 0,10
30-34 13 2 15 0,13
35-39 9 3 12 0,25
40-44 10 5 15 0,33
45-49 7 6 13 0,46
50-54 3 5 8 0,63
55-59 4 13 17 0,76
60-69 2 8 10 0,80
Totais 57 43 100 0,43
0.8
0.7
0.6
0.5
E[Y|x]

0.4
0.3
0.2
0.1

30 40 50 60

Idade(em anos)

Figura 1: E(Y | x) versus idade.

observado na Figura 1. Observe ainda, nesta mesma figura, que a mudança em E(Y | x)
por unidade de mudança em x torna-se progressivamente menor quando E(Y | x) torna-
se próxima de zero ou de um. A curva em forma de “S” lembra a distribuição acumulada
de uma variável aleatória, o que motivou o uso da distribuição logı́stica para fornecer
um modelo para E(Y | x).
Giolo, S. R. Análise de Dados Discretos 50
A função de distribuição logı́stica é descrita por:
1 exp{x}
F (x) = =
1 + exp{−x} 1 + exp{x}
em que, para x = - ∞ e x = + ∞, tem-se F(- ∞) = 0 e F(+ ∞) = 1. Sua correspondente
representação gráfica é mostrada na Figura 2.

1.2
1.0
0.8
F(x)

0.6
0.4
0.2
0.0

−20 −10 0 10 20

Figura 2: Função de distribuição logı́stica.

A função de distribuição logı́stica toma valores entre zero e um; assume o valor
zero em uma parte do domı́nio das variáveis explicativas, um em outra parte do domı́nio
e cresce suavemente na parte intermediária possuindo uma particular curva em forma
de “S”. Se comparada a Figura 1 pode-se notar as similaridades.
Outras funções de distribuição possuem as caracterı́sticas acima mencionadas. A
função logı́stica foi escolhida, no entanto, basicamente por duas razões: (i) do ponto
de vista matemático é extremamente flexı́vel e fácil de ser usada e, (ii) conduz a in-
terpretações simples. Para descrever a variação entre os θ(x) = E(Y | x), foi, então,
proposto o modelo de regressão logı́stico expresso por:
1
θ(x) = P (Y = 1 | x) = (
 p 
)
X
1 + exp − β0 + β k xk
k=1
( p
X
)
exp β0 + β k xk
k=1
= ( p ) (7)
X
1 + exp β0 + β k xk
k=1
Giolo, S. R. Análise de Dados Discretos 51
em que Yi = 1 significa a presença da resposta, x representa as covariáveis (fatores de
risco), isto é, x = (x1 , x2 , · · · , xp ), o parâmetro β0 é o intercepto, e βk (k = 1, · · · , p)
são os p parâmetros de regressão. Observe que este modelo retornará uma estima-
tiva da probabilidade do indivı́duo ter a resposta dado que o mesmo possui, ou não,
determinados fatores de risco. Conseqüentemente,
(
 p
X 
)
exp − β0 + β k xk
k=1
1 − θ(x) = (
 p 
)
X
1 + exp − β0 + β k xk
k=1
1
= ( p )
X
1 + exp β0 + β k xk
k=1

retornará uma estimativa da probabilidade do indivı́duo não ter a resposta dado que o
mesmo possui ou não determinados fatores de risco.
Observe, ainda, que fazendo-se:

! p
θ(x) X
log = β0 + β k xk
1 − θ(x) k=1

tem-se um modelo linear para o logito, isto é, para o logaritmo neperiano da razão entre
θ(x) e 1 - θ(x). O logito é, na realidade, o logaritmo de uma odds e, este fato, permitirá
que odds ratios sejam, portanto, obtidas pelo modelo (será tratado em detalhes mais
adiante).
No contexto de modelos lineares generalizados, uma função, monótona e derivável,
que relaciona a média ao preditor linear é denominada de função de ligação. Assim,
 
θ(x)
η = log 1−θ(x)
, é a função de ligação canônica para a modelo Binomial.
Além de apresentar uma forma linear, o modelo logı́stico apresenta a propriedade
Pp
útil de que todos os valores (β0 + k=1 βk xk ), pertencentes ao intervalo (-∞, + ∞),
terem um correspondente, no intervalo (0, 1), para θ(x). Probabilidades preditas por
este modelo são, desse modo, restritas a assumirem valores entre 0 e 1. O modelo,
portanto, não produz probabilidades negativas bem como probabilidades maiores que 1.
Giolo, S. R. Análise de Dados Discretos 52
Outra diferença importante entre um modelo de regressão linear e o modelo de
regressão logı́stico refere-se à distribuição condicional da variável resposta. No modelo
de regressão linear é assumido que uma observação da variável resposta pode ser ex-
pressa por y = E(Y | x) + ε em que a quantidade ε é chamada erro e é assumida ter
distribuição Normal com média zero e variância constante. Este não é o caso quando
a resposta é dicotômica ( Y = 1 ou 0 ). O valor da variável resposta dado x é expresso
por y = θ(x) + ε e, como a quantidade ε pode assumir somente um de dois possı́veis
valores, isto é, ε = 1 - θ(x) para y = 1 ou, ε = - θ(x) para y = 0, segue que ε tem
 
distribuição com média zero e variância dada por θ(x) 1- θ(x) , isto é, a distribuição
condicional da variável resposta segue uma distribuição Binomial com probabilidade
dada pela média condicional θ(x).

4.1 Estimação dos parâmetros

A estimação dos parâmetros em regressão logı́stica é, em geral, feita pelo método
da máxima verossimilhança. Para aplicação deste método é necessário construir ini-
cialmente a função de verossimilhança a qual expressa a probabilidade dos dados ob-
servados como uma função dos parâmetros desconhecidos. Os estimadores de máxima
verossimilhança dos parâmetros serão os valores que maximizam esta função.
Para encontrar esses valores no modelo de regressão logı́stico, considere a variável
resposta Y codificada como zero ou um. Da expressão (7) pode-se, então, obter a
probabilidade condicional de que Y seja igual a 1 dado x, isto é, θ(x) = P(Y = 1 | x)
e, em conseqüência, a probabilidade condicional de que Y seja igual a zero dado x,
isto é, 1 - θ(x) = P(Y = 0 | x). Assim, θ(xi ) será a contribuição para a função de
verossimilhança dos pares (yi , xi ) em que yi = 1 e 1 - θ(xi ), a contribuição dos pares
em que yi = 0.
Assumindo-se que as observações são independentes tem-se a seguinte expressão
para a função de verossimilhança:
n 
Y  yi  1−yi
L(β) = θ(xi ) 1 − θ(xi ) (8)
i=1
Giolo, S. R. Análise de Dados Discretos 53
As estimativas de β serão os valores que maximizam a função de verossimilhança
dada em (8). Algebricamente é mais fácil trabalhar com o logaritmo desta função, isto
é, com:
n
X    
l(β) = log L(β) = yi log θ(xi ) + (1 − yi ) log 1 − θ(xi )
i=1

Para obter os valores de β que maximizam l(β) basta diferenciar a respectiva


função com respeito a cada parâmetro βj (j = 0, 1,.., p) obtendo-se, assim, o sistema
de p + 1 equações,
n 
X 
yi − θ(xi ) = 0
i=1
n
X  
xij yi − θ(xi ) = 0 j = 1, · · · , p
i=1

que, quando igualadas a zero, produzem como solução as estimativas de máxima


verossimilhança de β. Os valores ajustados para o modelo de regressão logı́stico são,
portanto, obtidos substituindo-se as estimativas de β em (7).
As p + 1 equações são chamadas equações de verossimilhança e por serem não-
lineares nos parâmetros βj (j = 0, 1,.., p), requerem métodos especiais para suas
soluções. Os métodos iterativos de Newton-Raphson e o escore de Fisher são algoritmos
numéricos comumente utilizados com esta finalidade. Uma discussão geral de métodos
implementados em vários softwares pode ser encontrada em McCullagh e Nelder (1983).
O método de estimação das variâncias-covariâncias dos coeficientes estimados
seguem da teoria de estimação de máxima verossimilhança a qual estabelece que os
estimadores são obtidos pela matriz das derivadas parciais de segunda ordem do loga-
ritmo da função de verossimilhança. Essas derivadas têm a seguinte forma geral:
n
∂ 2 log L(β) X
2
 
= − x ij θ(x i ) 1 − θ(x i ) (9)
∂βj2 i=1
n
∂ 2 log L(β) X  
= − xij xil θ(xi ) 1 − θ(xi ) (10)
∂βj ∂βl i=1

para j, l = 0, 1, .., p.
A matriz contendo o negativo dos termos dados nas equações (9) e (10) será
denotada por I(β) e é chamada matriz de informação. As variâncias e covariâncias
Giolo, S. R. Análise de Dados Discretos 54
dos coeficientes estimados serão obtidas pela inversa dessa matriz e será denotada por
Σ(β) = I −1 (β). O j-ésimo elemento da diagonal dessa matriz, denotado por σ 2 (βj ),
corresponde a variância de β̂j e, o elemento na j-ésima linha e l-ésima coluna, dessa
matriz, denotado por σ(βj , βl ), corresponde a covariância entre β̂j e β̂l . Os estimadores
das variâncias e covariâncias, denotados por Σ̂(β̂), são obtidos por avaliar Σ(β) em β̂.
Em notação matricial, a matriz de informação I(β) = X’VX em que X é uma
matriz com n linhas e p + 1 colunas contendo um vetor de uns e as covariáveis
dos indivı́duos, e V é uma matriz diagonal de n linhas e n colunas com elementos
θ(x)(1 − θ(x)) na diagonal. Isto é,
 
 1 x11 · · · x1p 
 

 1 x21 · · · x2p 

X=
 .. .. .. .. 


 . . . .  
 
1 xn1 · · · xnp
e
 
 θ(x1 )(1 − θ(x1 )) 0 ··· 0 
 

 0 θ(x1 )(1 − θ(x2 )) · · · 0 

V =
 .. .. .. ..
.


 . . . . 

 
0 0 · · · θ(xn )(1 − θ(xn ))

Considerando-se o ponto médio para cada intervalo de idade, isto é, x = 25, 32,
38, 43, 47, 53, 57 e 65, e ajustando-se o modelo de regressão logı́stica para os dados
da Tabela 23 foram obtidas as estimativas β̂0 = -5,123 (s.e. = 1,110) e β̂1 = 0,1058
(s.e. = 0,023).

4.2 Significância das variáveis no modelo

Após obtenção das estimativas dos coeficientes βj (j = 0, 1,..., p) faz-se necessário


avaliar a adequação do modelo ajustado.
O primeiro interesse está em acessar a significância das covariáveis presentes no
modelo. O princı́pio em regressão logı́stica é o mesmo usado em regressão linear, ou
Giolo, S. R. Análise de Dados Discretos 55
seja, comparar os valores observados da variável resposta com os valores preditos pelos
modelos com, e sem, a covariável sob investigação.
Em regressão linear esta comparação é feita por meio de uma tabela chamada
análise de variância em que atenção é dada à soma de quadrados devida a regressão.
Um grande valor da soma de quadrados da regressão sugere que pelo menos uma, ou
talvez todas as variáveis independentes, sejam importantes. Em regressão logı́stica a
comparação pode ser feita utilizando-se testes tal como, dentre outros, o teste da razão
de verossimilhanças em que, a função de verossimilhança do modelo sem as covariáveis
(LSC ) é comparada com a função de verossimilhança do modelo com as covariáveis
(LCC ). Formalmente, o teste é expresso por:
" #
verossimilhança do modelo sem as covariáveis
RV = −2 log
verossimilhança do modelo com as covariáveis
" #
LSC
= −2 log = 2 log(LCC ) − 2 log(LSC )
LCC

Note que a razão das verossimilhanças é multiplicada por −2 log. Isto é feito para
que se obtenha uma quantidade cuja distribuição é conhecida (no caso a distribuição
qui-quadrado) de modo que, tal quantidade, possa ser usada para a realização de testes
de hipóteses. Em regressão logı́stica a estatı́stica:
" #
verossimilhança do modelo sob estudo
D = −2 log
verossimilhança do modelo saturado

é chamada deviance, em que, para um melhor entendimento, é conceitualmente útil


pensar um valor observado da variável resposta como sendo também um valor pre-
dito resultante do modelo saturado. Um modelo saturado é aquele que contém tantos
parâmetros quanto dados existirem. Assim, a estatı́stica RV apresentada anterior-
mente, pode ser vista como a diferença de duas deviances, isto é,

RV = Deviance do modelo sem covariáveis − Deviance do modelo com covariáveis


" #
verossimilhança do modelo sem covariáveis
= −2 log −
verossimilhança do modelo saturado
" " ##
verossimilhança do modelo com as covariáveis
− 2 log
verossimilhança do modelo saturado
Giolo, S. R. Análise de Dados Discretos 56
o que resulta em:

RV = 2 log(LCC ) − 2 log(LSC ).

Sob a hipótese nula de que os p coeficientes associados às covariáveis no modelo


são iguais a zero, a distribuição de RV será Qui-Quadrado com p graus de liberdade.
Rejeição da hipótese nula neste caso tem interpretação análoga àquela em regressão
linear, ou seja, pode-se concluir que pelo menos um, ou talvez todos, os p coeficientes
são diferentes de zero.

4.2.1 Análise de Deviance e seleção de modelos

Uma tabela, similar à obtida em regressão linear, para a análise de deviance


(ANODEV) pode ser construı́da. A ANODEV é uma generalização da análise de
variância visando obter, a partir de uma seqüência de modelos encaixados, os efeitos de
fatores, covariáveis e suas interações.
Para uma seqüência de modelos encaixados, tendo estes a mesma distribuição e
função de ligação, utiliza-se a deviance como uma medida de discrepância do modelo e
pode-se, então, construir uma tabela das diferenças de deviances, como, por exemplo, a
apresentada na Tabela 24 em que é considerado um experimento com duas covariáveis
contı́nuas X1 e X2 .

Tabela 24. Exemplo de uma tabela de Diferença de Deviances para um experimento com duas
covariáveis contı́nuas X1 e X2 .

Modelo g.l. Deviance Residual Diferença Deviances Diferença g.l.


Nulo g.l.N DN
X1 g.l.N - 1 D X1 D N - D X1 1
X1 e X 2 g.l.N - 2 DX1 +X2 DX1 - DX1 +X2 1
X1 , X2 e X 1 ∗ X 2 g.l.N - 3 DX1 ∗X2 DX1 +X2 - DX1 ∗X2 1
Saturado 0 0

A partir das deviances e suas diferenças pode-se, então, usando-se o teste da


Giolo, S. R. Análise de Dados Discretos 57
razão de verossimilhanças, descrito anteriormente, testar a significância da inclusão de
determinadas covariáveis bem como interações no modelo. Em outras palavras, pode-
se avaliar o quanto da variação dos dados é explicada pela inclusão de termos no modelo.

Para o exemplo apresentado na Tabela 23 em que deseja-se verificar a relação


entre idade e doença coronária tem-se:

Tabela 25. Tabela de diferença de deviances para os dados sobre doença coronária.

Modelo g.l. Deviance residual Dif. Deviance Dif. g.l.


Nulo 7 28,7015
X1 : idade 6 0,5838 28,1177 1

bem como a correspondente análise de deviance (ANODEV),

Tabela 26. Análise de deviance para os dados sobre doença coronária.

Causa de variação g.l. Deviances RV valor p


Regressão 1 28,1177 28,1177 1,142e-07
Resı́duos 6 0,5838
Total 7 28,7015

Portanto, RV = 28,1177 (p = 1.142e-07) e, desse modo, rejeita-se a hipótese


H0 : β1 = 0 concluindo-se, então, que idade está altamente associada a doença coronária
e deve, portanto, permanecer no modelo.

4.3 Qualidade do modelo ajustado

Uma vez selecionado o modelo, dentre os analisados, deseja-se avaliar o quão


bem ele se ajusta aos dados, ou seja, quão próximo os valores preditos pelo modelo
encontram-se de seus correspondentes valores observados. As estatı́sticas de teste usadas
para essa finalidade são, em geral, denominadas estatı́sticas de qualidade do ajuste
Giolo, S. R. Análise de Dados Discretos 58
e comparam, de alguma maneira apropriada, as diferenças entre os valores observados
e preditos.
Duas estatı́sticas tradicionais de qualidade do ajuste são: a qui-quadrado de
Pearson, QP , que é baseada nos resı́duos de Pearson e a qui-quadrado da razão de
verossimilhanças, QL , também conhecida como deviance por basear-se nos resı́duos
deviance, e estas são expressas, respectivamente, por:
 2
X nij − mij
QP = e
i,j mij
!
X nij
QL = 2nij log
i,j mij

em que mij são as quantidades preditas pelo modelo e definidas por:

mij = ni+ θ̂(x) para j = 1

mij = ni+ (1 − θ̂(x)) para j = 2.

Sob a hipótese H0 de que o modelo se ajusta bem aos dados, QP e QL são aproxi-
madamente qui-quadrado com graus de liberdade igual ao número de linhas na tabela
de dados menos o número de parâmetros no modelo. Na prática, essas estatı́sticas serão
aproximadamente qui-quadrado se:

• cada ni+ > 10

• 80% das contagens preditas são pelo menos 5

• todas as outras contagens esperadas são maiores que 2, e nenhuma contagem é 0.

Para o modelo ajustado aos dados de doença coronária obtiveram-se: Qp = 0.59


(p = 0.9965, g.l. = 6) e QL = 0.58 (p = 0.9967, g.l. = 6). Conclui-se, desses resultados,
pela não rejeição da hipótese H0 e, portanto, pode-se dizer que o modelo escolhido se
ajusta satisfatoriamente aos dados.
Giolo, S. R. Análise de Dados Discretos 59
4.3.1 O modelo ajustado e interpretações

Para os dados da Tabela 23, foi ajustado, e considerado satisfatório, o modelo:


( )
exp − 5, 123 + 0, 1058 ∗ idade
θ̂(x) = ( )
1 + exp − 5, 123 + 0, 1058 ∗ idade

podendo-se, então, obter, a partir deste, algumas estimativas, tais como, por exemplo:

Tabela 27. Estimativas obtidas pelo modelo ajustado.

Idade (xi ) θ̂(xi ) 1 − θ̂(xi ) logito


26 0,0853 0,9147 -2,3724
27 0,0939 0,9061 -2,2669
65 0,8524 0,1476 1,7535

θ(xi )
Observe que exp{logito(θ(xi ))} = = odds (tratada anteriormente).
(1 − θ(xi ))
Pode-se, então, obter a odds ratio para, por exemplo, os indivı́duos com idades 65 e 26
anos, isto é,

odds(65 anos) exp{1, 7535}


ÔR = = = 61, 9
odds(26 anos) exp{−2, 3724}

concluindo-se, assim, que indivı́duos com 65 anos de idade tem odds 61,9 vezes maior
de doença coronária do que a odds dos indivı́duos com 26 anos.

4.4 Diagnóstico da regressão logı́stica

As estatı́sticas Qp e QL , descritas na seção anterior e usadas para verificar a


qualidade de ajuste do modelo de regressão logı́stica, fornecem um único número o qual
resume a concordância entre os valores observados e os ajustados. O problema com essas
estatı́sticas é que um único número é usado para resumir uma quantidade considerável
de informação. Portanto, antes de considerar que o modelo ajustado é satisfatório,
é importante que outras medidas sejam examinadas para que se possa averiguar se
Giolo, S. R. Análise de Dados Discretos 60
o ajuste é válido sobre todo o conjunto de padrões (combinações das categorias) das
covariáveis.
Pregibon (1981) estendeu os métodos de diagnóstico de regressão linear para a
regressão logı́stica e argumenta que, como as estatı́sticas qui-quadrado de Pearson (Q p )
e deviance (QL ) são duas medidas usadas para verificar a qualidade do modelo ajustado,
faz sentido analisar os componentes individuais dessas estatı́sticas uma vez que estes
componentes são funções dos valores observados e preditos pelo modelo
Assim, se em uma tabela de contingência s × 2, tem-se para cada uma das s linhas
ni+ sujeitos dos quais ni1 apresentam a resposta de interesse (sucesso) e θ̂i1 denota a
probabilidade predita de sucesso para a i-ésima linha (grupo), define-se o i-ésimo resı́duo
por:

ni1 − ((ni+ ) θ̂i1 )


ci = q i = 1, · · · , s.
(ni+ ) θ̂i1 (1 − θ̂i1 )

Esses resı́duos são conhecidos como resı́duos de Pearson, uma vez que a soma
deles ao quadrado resulta em QP . Exame dos valores residuais ci auxiliam a deter-
minar quão bem o modelo se ajusta aos grupos individuais. Freqüentemente, resı́duos
excedendo o valor 2,0 (ou 2,5) indicam falta de ajuste.
Similarmente, a deviance residual é um componente da estatı́stica deviance e é
expressa por:
" ! !#1/2
ni1 ni+ − ni1
di = sinal(ni1 − ŷi1 ) 2 ni1 log + 2(ni+ − ni1 ) log
ŷi1 ni+ − ŷi1

em que ŷi1 = (ni+ ) θ̂i1 . A soma das deviances residuais di ao quadrado resulta na
estatı́stica deviance QL . A partir do exame dos resı́duos deviance pode-se observar a
presença de resı́duos não usuais (demasiadamente grandes) bem como a presença de
outliers ou, ainda, padrões sistemáticos de variação indicando, possivelmente, a escolha
de um modelo não muito adequado.

Para os dados da Tabela 23 obtiveram-se os resı́duos de Pearson e resı́duos


deviance apresentados a seguir.
Giolo, S. R. Análise de Dados Discretos 61
Covariavel Pearson Deviance Residual
IDADE Residual Value
1 25.0000 0.2677 | * | 0.2570 | | * |
2 32.0000 -0.1763 | * | -0.1791 | * | |
3 38.0000 0.0070 | * | 0.0070 | * |
4 43.0000 -0.2169 | * | -0.2182 | * | |
5 47.0000 -0.0051 | * | -0.0051 | * |
6 53.0000 0.0375 | * | 0.0376 | |* |
7 57.0000 0.4774 | * | 0.4870 | | * |
8 65.0000 -0.4662 |* | -0.4465 | * | |

Uma análise dos resı́duos mostram que os mesmos apresentam-se satisfatórios,


podendo-se, então, concluir que o modelo escolhido ajusta-se bem aos dados.
As estatı́sticas de diagnóstico apresentadas permitem, ao analista, identificar aque-
les padrões de covariáveis que estão com um ajuste pobre. Depois destes padrões
serem identificados, pode-se, então, avaliar a importância que eles têm na análise. Esta
avaliação é similar ao que é feito em regressão linear, ou seja, retira-se o(s) padrão(ões)
com ajuste pobre e verifica-se o impacto causado nas estimativas dos parâmetros bem
como nas estatı́sticas QP e QL , usadas para verificar a qualidade de ajuste do modelo.
Na Figura 3 encontram-se apresentados os valores observados e preditos pelo mo-
delo de regressão logı́stico ajustado.
0.8
0.6
E(Y|x)

0.4
0.2
0.0

30 40 50 60

idade

Figura 3: Valores observados e preditos pelo modelo.


Giolo, S. R. Análise de Dados Discretos 62

4.5 Exemplos

4.5.1 Exemplo 1

Os dados apresentados na Tabela 28 referem-se a um estudo realizado com pa-


cientes que procuraram uma determinada clı́nica para serem submetidos a um eletro-
cardiagrama (ECG). A variável resposta, presença ou ausência de doença coronária
arterial, bem como as covariáveis sexo e ECG, são dicotômicas.

Tabela 28. Estudo sobre doença coronária arterial.

Sexo (x1 ) ECG (x2 ) Presença doença Ausência doença Total


Feminino < 0,1 ST 4 11 15
Feminino ≥ 0,1 ST 8 10 18
Masculino < 0,1 ST 9 9 18
Masculino ≥ 0,1 ST 21 6 27

Assumindo-se que a variável resposta apresenta distribuição binomial (uma para


cada linha da tabela) de modo que tem-se, associado a tabela, o modelo produto de
binomias independentes, pode-se utilizar o modelo de regressão logı́stico para descrever
a variação entre os θi1 (x), isto é,
( )
exp β0 + β1 x1 + β2 x2
θi1 (x) = ( )
1 + exp β0 + β1 x1 + β2 x2

em que β0 é o intercepto e, β1 e β2 , são os parâmetros desconhecidos associados às


covariáveis sexo e ECG, respectivamente.
Assim, tem-se que:
!
θi1 (x)
log = logit(θi1 (x)) = β0 + β1 x1 + β2 x2 (11)
1 − θi1 (x)

o, que matricialmente corresponde a:


Giolo, S. R. Análise de Dados Discretos 63

     
 logit(θ11 )   β0  1 0 0 
 
  β0 

    
 logit(θ21 )   β0 + β2   1 0 1 
     

 = =  β

       1 
 logit(θ )  β + β1  1 1 0  
31  0
 
 
 β2
   
    
logit(θ41 ) β0 + β 1 + β2 1 1 1

Esse tipo de parametrização é freqüentemente denominada “parametrização de


efeito incremental”. Como a combinação sexo feminino e ECG < 0,1 são descritas
pelo intercepto, esse grupo é conhecido, nessa parametrização, como a combinação de
referência. O parâmetro β1 é o incremento no logito para o sexo masculino e β2 é o
incremento no logito para ECG ≥ 0,1. As probabilidades e odds preditas para esse
modelo são, portanto, as apresentadas na Tabela 29

Tabela 29. Probabilidades e odds preditas para o modelo.

Sexo (x1 ) ECG (x2 ) θi1 Odds de doença


Feminino < 0,1 eβ0 /(1 + eβ0 ) e β0
Feminino ≥ 0,1 eβ0 +β2 /(1 + eβ0 +β2 ) eβ0 +β2
Masculino < 0,1 eβ0 +β1 /(1 + eβ0 +β1 ) eβ0 +β1
Masculino ≥ 0,1 eβ0 +β1 /(1 + eβ0 +β1 +β2 ) eβ0 +β1 +β2

Pode-se, desse modo, obter a odds ratio para pacientes do sexo masculino versus
as do sexo feminino por:

eβ0 +β1 eβ0 +β1 +β2


= e β1 ou = e β1 .
e β0 eβ0 +β2

Similarmente, a odds ratio para alto ECG versus baixo ECG é determinado por:

eβ0 +β1 +β2 eβ0 +β2


= e β2 ou = e β2 .
eβ0 +β1 e β0

Em regressão logı́stica, as odds ratio são, portanto, funções dos parâmetros do


modelo. Para modelos com somente efeitos principais, cada odds, que compõem a odds
Giolo, S. R. Análise de Dados Discretos 64
ratio, é obtida simplesmente exponenciando as estimativas dos parâmetros. Contudo,
diferentemente das odds ratio obtidas de tabelas 2 × 2, estas são ajustadas para todas
as outras covariáveis no modelo.

4.5.1.1 Resultados e conclusões obtidas para os dados do exemplo 1

As estimativas de máxima verossimilhança do modelo apresentado em (11) e


obtidas para os dados do exemplo 1 foram: β̂0 = -1,1747 (s.e.= 0,4854), β̂1 = 1,277
(s.e.= 0,4980) e β̂2 = 1,0545 (s.e.= 0,4980).
A Tabela 30 apresenta as diferenças de deviances e mostra a significância das
variáveis sexo (p = 0,00762) e ECG (p = 0,03108).

Tabela 30. Tabela de diferença de deviances para os dados do exemplo 1.

Modelos seqüenciais g.l. Deviance residual Dif. Deviance Dif. g.l. valor p
Nulo 3 11,9835
X1 : sexo 2 4,8626 7,1209 1 0,00762
X2 : ECG 1 0,2141 4,6485 1 0,03108

A ANODEV apresentada na Tabela 31 mostra que o modelo de regressão logı́stico,


com as covariáveis sexo e ECG, apresentou uma redução na deviance residual de 11,7694
(de um total de 11,9835) evidenciando que ambas as covariáveis estão associadas a
variável resposta e devem, portanto, permanecer no modelo uma vez que estas explicam
grande parte da variabilidade total dos dados.

Tabela 31. Análise de deviance para os dados do exemplo 1.

Causa de variação g.l. Deviances RV valor p


Regressão 2 11,7694 11,7694 0,00278
Resı́duos 1 0,2141
Total 3 11,9835
Giolo, S. R. Análise de Dados Discretos 65
Para o modelo ajustado e expresso por:

logit(θ̂i1 (x)) = −1, 1747 + 1, 277 sexo + 1, 0545 ECG

obtiveram-se QP = 0,2155 (p = 0,6425) e QL = 0,2141 (p = 0,6436) e, sendo assim,


não se rejeita a hipótese nula H0 de que o modelo ajustado é satisfatório.
Os valores θi1 observados e preditos pelo modelo bem como a deviance residual e
resı́duos de Pearson são apresentados na Tabela 32. Nota-se, desses resultados, que os
resı́duos apresentam-se satisfatórios, podendo-se, então, concluir que o modelo escolhido
ajusta-se bem aos dados.

Tabela 32. Valores θi1 observados e preditos pelo modelo, deviance residual e resı́duo de Pearson.

θi1 θ̂i1 (θi1 - θ̂i1 ) di = deviance res. ci = res. de Pearson


0,2666667 0,2360103 0,03065632 0.2756894 0.2796124
0,4444444 0,4699914 -0,02554693 -0.2174355 -0.2171644
0,5000000 0,5255469 -0,02554693 -0.2169146 -0.2170564
0,7777778 0,7607465 0,01703129 0.2091855 0.2074342

Tem-se, então, que a odds ratio dos pacientes do sexo masculino versus a dos
ˆ (m/f ) =
pacientes do sexo feminino pode ser estimada, como visto anteriormente, por OR
e1,277 = 3,586. Homens, nesse estudo, têm, portanto, odds 3,5 vezes maior de doença
coronária arterial do que a odds das mulheres. De modo análogo, a odds ratio estimada
ˆ = e1,0545 = 2,871. Então, pacientes com
de ECG ≥ 0,1 versus a de ECG < 0,1 é de OR
ECG ≥ 0,1 têm odds aproximadamente 3 vezes maior de doença coronária arterial do
que a odds daqueles pacientes com ECG < 0,1. De um modo geral, pacientes do sexo
masculino e com ECG ≥ 0,1 são os mais propensos a apresentaram doença coronária
arterial.
Intervalos de confiança para as odds ratio podem ser obtidos usando-se as pro-
ˆ (m/f ) é dado por
priedades assintóticas de β̂i . Assim, por exemplo, o I.C.95% para OR
(e(1,277−1,96∗0,498) , e(1,277+1,96∗0,498) ) = (1,35; 9,51). Analogamente, para a odds ratio de
ECG ≥ 0,1 versus ECG < 0,1, tem-se o intervalo, a 95% de confiança, de (1,082; 7,618).
Giolo, S. R. Análise de Dados Discretos 66
A interação entre sexo e ECG, quando incluı́da no modelo, mostrou-se não signi-
ficativa com correspondente valor p, associado ao teste da razão de verossimilhanças,
de 0,6436.

4.5.2 Exemplo 2

Neste exemplo dados de um estudo sobre infecções urinárias (Koch et al., 1985),
que encontram-se apresentados na Tabela 33, serão analisados.

Tabela 33. Estudo sobre tratamento de infecções urinárias.

Diagnóstico(x1 ) Tratamento (x2 ) Curado Não curado Total


Infecção complicada A 78 28 106
Infecção complicada B 101 11 112
Infecção complicada C 68 46 114
Infecção não complicada A 40 5 45
Infecção não complicada B 54 5 59
Infecção não complicada C 34 6 40

Observe que três tratamentos foram aplicados aos pacientes que apresentaram,
no diagnóstico, infecção urinária complicada, ou não, de ser curada. A resposta é,
portanto, dicotômica, a covariável diagnóstico apresenta duas categorias e a covariável
tratamento três categorias. É importante notar que uma covariável com L categorias
deve ser representada por (L - 1 ) parâmetros.
O modelo com os efeitos principais (diagnóstico e tratamento) e a interação entre
eles será, portanto, representado matricialmente por:

    
logit(θ11 ) 1 1 1 0 1 0 β0
    
logit(θ21 )   1 1 0 1 0 1  β1 
    

    
logit(θ31 )   1 1 0 0 0 0  β2 
    

 =  
logit(θ41 )   1 0 1 0 0 0  β3 
    

    
logit(θ51 )   1 0 0 1 0 0  β4 
    

    
logit(θ61 ) 1 0 0 0 0 0 β5
Giolo, S. R. Análise de Dados Discretos 67

Uma vez que o modelo considerado é o saturado, isto é, seu número de parâmetros
é igual ao número de grupos (linhas) da tabela de dados, o teste de qualidade de ajuste
não se aplica a este modelo porque não existem graus de liberdade disponı́veis. Ajustar
esse modelo, contudo, permite que seja determinada a existência, ou não, do efeito
da interação. Na Tabela 34 é apresentado as diferenças de deviances dos modelos
seqüenciais ajustados.

Tabela 34. Tabela de Diferença de Deviances para o estudo sobre infecções urinárias.

Modelo g.l. Deviance Residual Diferença Deviances Diferença g.l.


Nulo 5 44,473
X1 4 30,628 13,844 1
X1 e X 2 2 2,515 28,114 2
X1 , X2 e X 1 ∗ X 2 0 0,000 2,515 2

Da tabela de diferença das deviances tem-se, portanto, que o teste da RV , relativo


a hipótese nula de que a interação é não significativa, o que eqüivale a testar a hipótese
H0 : β4 = β5 = 0, resultou em RV = 2,515 (p = 0,2843, g.l.= 2). Desse modo, não há
evidências para a rejeição da hipótese H0 . O modelo sem a interação entre diagnóstico
e tratamento será, então, a seguir analisado.
Para saber se há, ou não, efeito da covariável tratamento, o que eqüivale a testar
a hipótese nula H0 : β2 = β3 = 0, usou-se, novamente, o teste da RV obtendo-se
RV = 28,114 (p = 7,85e-07, g.l. = 2). A conclusão é, portanto, de que há evidências
de efeito dos tratamentos. Analogamente obteve-se, para o teste do efeito da covariável
diagnóstico (H0 : β1 = 0), RV = 13,844 (p = 0,000198, g.l.= 1) concluindo-se, também,
haver evidências de efeito do diagnóstico.
O modelo a ser ajustado será, portanto, aquele que considera os efeitos principais
de diagnóstico e tratamento. Os respectivos parâmetros estimados, para este modelo,
encontram-se apresentados na Tabela 35.
Giolo, S. R. Análise de Dados Discretos 68

Tabela 35. Estimativas dos parâmetros obtidas para o modelo ajustado.

Parâmetros Estimativas e.p.


β0 : intercepto 1,4184 0,2986
β1 : diag = infecção complicada -0,9616 0,2997
β2 : tratamento A 0,5847 0,2641
β3 : tratamento B 1,5608 0,3158

A ANODEV para esse modelo encontra-se na Tabela 36 e, desta tabela, pode-se


observar que as covariáveis diagnóstico e tratamento são altamente associadas a variável
resposta (cura, ou não, da infecção urinária).

Tabela 36. Análise de deviance para os dados do exemplo 2.

Causa de variação g.l. Deviances RV valor p


Regressão 3 41,958 41,958 4.09e-09
Resı́duos 2 2,515
Total 5 44,473

As estatı́sticas de qualidade de ajuste do modelo considerado resultaram em


QL = 2,515 (p = 0,2844, g.l. = 2) e QP = 2,7574 (p = 0,2519 g.l. = 2) fornecendo,
assim, evidências de que o modelo apresenta ajuste satisfatório aos dados. Ainda, dos
valores observados e preditos pelo modelo bem como da deviance residual e dos resı́duos
de Pearson, apresentados na Tabela 37, nota-se que os resı́duos apresentaram-se satis-
fatórios, podendo-se, desse modo, concluir que o modelo escolhido, e expresso por:

logit(θ̂i1 ) = 1, 4184 − 0, 9616 diag + 0, 5847 tratA + 1, 5608 tratB

em que diag = 1 se infecção urinária foi diagnosticada como complicada e 0 em caso


contrário, tratA = 1 e tratB = 0 se o tratamento A foi utilizado, tratA = 0 e tratB = 1
se o tratamento B foi utilizado e tratA = tratB = 0 se o tratamento C foi utilizado,
ajusta-se bem aos dados.
Giolo, S. R. Análise de Dados Discretos 69

Tabela 37. Valores observados e preditos, deviance residual e resı́duo de Pearson.

θi1 θ̂i1 di = deviance res. ci = res. de Pearson


0,7358491 0,7391443 -0,07715904 -0,07726359
0,9017857 0,8826267 0,64598342 0,62995503
0,5964912 0,6122501 -0,34450962 -0,34533240
0,8888889 0,8811267 0,16244931 0,16088958
0,9152542 0,9516237 -1,18234402 -1,30201030
0,8500000 0,8050871 0,74055971 0,71706568

Do modelo ajustado pode-se, então, obter as odds, apresentadas na Tabela 48,


para que se possa tirar algumas conclusões de interesse do pesquisador.

Tabela 38. Logitos e odds obtidos a partir do modelo de regressão logı́stico ajustado.

diagnóstico tratamento logito odds de cura


inf. complicada A β̂0 + β̂1 + β̂2 = 1,0415 e1,0415 = 2,8335
inf. complicada B β̂0 + β̂1 + β̂3 = 2,0175 e2,0175 = 7,5198
inf. complicada C β̂0 + β̂1 = 0,4567 e0,4567 = 1,5789
inf. não complicada A β̂0 + β̂2 = 2,0031 e2,0031 = 7,4123
inf. não complicada B β̂0 + β̂3 = 2,9791 e2,9791 = 19,671
inf. não complicada C β̂0 = 1,4184 e1,4184 = 4,1305

Pela Tabela 48 tem-se, por exemplo, que a odds ratio de diagnóstico de infecção
ˆ = eβ̂1 = 0,3822 e, portanto, a
complicada versus a de infecção não complicada é de OR
odds de cura, se a infecção for diagnosticada como não complicada, é de (1/0,3822) = 2,6
vezes maior do que a odds de cura no caso de infecções diagnosticadas como complicadas.
Ainda, a odds de ser curado com o tratamento A, quando comparado ao tratamento C, é
de eβ̂2 = 1,79 vezes maior bem como, a odds de ser curado com o tratamento B, quando
comparado ao tratamento C, é de eβ̂3 = 4,76 vezes maior. De modo análogo, tem-se que
a odds de cura com o tratamento B, comparado ao tratamento A, é de eβ̂3 −β̂2 = 2,65
vezes maior.
Giolo, S. R. Análise de Dados Discretos 70
4.5.3 Exemplo 3

Neste exemplo serão analisados os dados apresentados na Tabela 39 referente a


um estudo sobre doença coronária, similar ao analisado previamente no exemplo 1,
considerando-se, no entanto, além das covariáveis sexo e eletrocardiograma (ECG), a
covariável idade (em anos). Ainda, a covariável ECG é considerada, nesse estudo, em
três categorias: < 0,1, [0,1; 0,2) e ≥ 0,2 e foi considerada nos modelos como uma
variável ordinal em que foram assumidos, para as categorias citadas, os escores 0, 1 e
2, respectivamente.

Tabela 39. Dados de pacientes observados em um estudo sobre doença coronária.


sexo ECG idade dc sexo ECG idade dc sexo ECG idade dc sexo ECG idade dc
0 0 28 0 1 0 42 1 0 1 46 0 1 1 45 0
0 0 34 0 1 0 44 1 0 1 48 1 1 1 45 1
0 0 38 0 1 0 45 0 0 1 49 0 1 1 45 1
0 0 41 1 1 0 46 0 0 1 49 0 1 1 46 1
0 0 44 0 1 0 48 0 0 1 52 0 1 1 48 1
0 0 45 1 1 0 50 0 0 1 53 1 1 1 57 1
0 0 46 0 1 0 52 1 0 1 54 1 1 1 57 1
0 0 47 0 1 0 52 1 0 1 55 0 1 1 59 1
0 0 50 0 1 0 54 0 0 1 57 1 1 1 60 1
0 0 51 0 1 0 55 0 0 2 46 1 1 1 63 1
0 0 51 0 1 0 59 1 0 2 48 0 1 2 35 0
0 0 53 0 1 0 59 1 0 2 57 1 1 2 37 1
0 0 55 1 1 1 32 0 0 2 60 1 1 2 43 1
0 0 59 0 1 1 37 0 1 0 30 0 1 2 47 1
0 0 60 1 1 1 38 1 1 0 34 0 1 2 48 1
0 1 32 1 1 1 38 1 1 0 36 1 1 2 49 0
0 1 33 0 1 1 42 1 1 0 38 1 1 2 58 1
0 1 35 0 1 1 43 0 1 0 39 0 1 2 59 1
0 1 39 0 1 1 43 1 1 0 42 0 1 2 60 1
0 1 40 0 1 1 44 1

sexo = 0 se feminino e sexo = 1 se masculino; ECG = 0 se < 0,1, ECG = 1 se ∈ [0, 1; 0, 2) e ECG = 2 se ≥ 0,2;

dc = 1 se doença coronária presente e dc = 0 em caso contrário.

Observe que diversos valores da covariável idade são únicos o que implica que, na
construção de uma tabela de contingência considerando-se as 3 covariáveis, existirão
diversas caselas com somente uma observação. Isso significa que o tamanho amostral
requerido pelas estatı́sticas de teste QL e QP não serão atendidos e não poderão, desse
modo, serem calculadas. Este fato é muito comum quando se tem a presença de co-
variáveis contı́nuas. Para esses casos, estratégias alternativas encontram-se disponı́veis.
Um modelo de interesse para os dados apresentados é aquele com os termos sexo,
Giolo, S. R. Análise de Dados Discretos 71
ECG e idade e, possivelmente, as interações entre eles. Um cuidado que se deve ter,
no entanto, é quanto ao número de parâmetros envolvidos. Alguns analistas sugerem
que haja pelo menos 5 observações, da resposta que ocorre com menor freqüência, para
cada parâmetro sendo considerado. Nesse estudo tem-se 37 indivı́duos que apresentaram
resposta não e 41 que apresentaram resposta sim. Assim, tem-se 37/5 = 7,4 o que sugere
que em torno de 7 a 8 parâmetros podem ser considerados.
Na Tabela 40 é apresentado as diferenças de deviances dos modelos seqüenciais
ajustados para os dados do estudo descrito.

Tabela 40. Tabela das diferenças de deviances dos modelos de regressão logı́stica seqüências
ajustados ao estudo sobre doenças coronárias.

Modelo g.l. Deviance Residual Diferença Deviances Diferença g.l.


Nulo 77 107,926
X1 76 101,840 6,086 1
X1 e X 2 75 95,080 6,760 1
X1 , X 2 e X 3 74 86,811 8,626 1
X1 , X2 , X3 + int. duplas 71 85,522 1,289 3
X1 , X2 , X3 + int. duplas e tripla 70 85,414 0,108 1

.
X1 = sexo; X2 = ECG e X3 = idade

Pela tabela de diferença das deviances tem-se, portanto, que o teste da RV , rela-
tivo a hipótese nula de que a interação tripla é não significativa, o que eqüivale a testar
a hipótese H0 : β7 = 0, resultou em RV = 0,108 (p = 0,7424, g.l.= 1). Desse modo,
não há evidências para a rejeição da hipótese H0 . De modo análogo, para o teste da
hipótese nula H0 : β4 = β5 = β6 = 0 (interações duplas) tem-se RV = 1,289 (p =
0,7317, g.l. = 3) e, assim, não há evidências para a rejeição da hipótese nula. Como há
evidências de que as interações tripla e duplas não são necessárias no modelo, testou-se
as hipóteses:
a) H0 : β3 = 0 em que RV = 8,626 (p = 0,0033, g.l.= 1)
b) H0 : β2 = 0 em que RV = 6,760 (p = 0,0093, g.l.= 1)
c) H0 : β1 = 0 em que RV = 6,086 (p = 0,0136, g.l.= 1)
Giolo, S. R. Análise de Dados Discretos 72
concluindo-se, portanto, haver evidências para rejeitar as três hipóteses nulas testadas.
O modelo a ser ajustado será, portanto, aquele que considera os efeitos princi-
pais de sexo, ECG e idade. Os respectivos parâmetros estimados, para este modelo,
encontram-se apresentados na Tabela 41.

Tabela 41. Estimativas dos parâmetros do modelo ajustado.

Parâmetros Estimativas e.p.


β0 : intercepto -5,6417 1,8026
β1 : sexo = masculino 1,3564 0,5458
β2 : ECG 0,8732 0,3839
β3 : idade 0,0928 0,0350

O modelo estimado ficou expresso, portanto, por:

logit(θi1 ) = −5, 6417 + 1, 3564 sexo + 0, 8732 ECG + 0, 0928 idade.

Para avaliar a qualidade do modelo ajustado, na presença de variáveis contı́nuas,


Hosmer e Lemeshow (1989) propuseram uma estatı́stica, denotada aqui por QHL , que
considera as contagens esperadas e observadas, para as respostas dc = 1 e dc = 0, em
cada decil das probabilidades preditas. Para esse estudo, tal estatı́stica resultou em
4,776 (p = 0,7812, g.l. = 8 (# decis -2)). É possı́vel, desse modo, concluir que o modelo
considerado ajusta-se satisfatoriamente aos dados. Os resı́duos (deviance e de Pearson)
apresentaram-se, também, satisfatórios como pode ser observado na Figura 4.
2

2
residuos de Pearson

deviance residual
1

1
0

0
−1

−1
−2

−2

0 20 40 60 80 0 20 40 60 80

Index Index

Figura 4: Resı́duos de Pearson e deviance residual.


Giolo, S. R. Análise de Dados Discretos 73
A odds ratio para sexo, ajustado para ECG e idade, é, nesse estudo, estimada
por OR = e1,3564 = 3,882. Assim, a odds de doença coronária dos pacientes do sexo
masculino é de 3,882 vezes maior do que a odds de doença coronária dos pacientes do
sexo feminino. De modo análogo, a odds ratio para ECG, ajustado para sexo e idade,
é estimada por OR = e0,8732 = 2,395. Isto significa que a odds de doença coronária de
pacientes com ECG = 1 é 2,395 vezes maior do que a odds daqueles com ECG = 0 bem
como que, a odds dos pacientes com ECG = 2 é de 2,395 vezes maior do que a odds dos
pacientes com ECG = 1. Ainda, a odds ratio para a idade, ajustado para sexo e ECG,
dada por OR = e0,0929 = 1,097 significa que a odds de doença coronária de um paciente
com x + 1 anos é 1,097 vezes maior do que a odds de um paciente com x anos. Para, por
exemplo, dois pacientes do mesmo sexo e mesmo ECG, mas em que um deles tenha 30
anos e outro 40, tem-se OR = e0,0929∗(40−30) = 2,53, ou seja, a odds de doença coronária
do paciente com 40 anos é de 2,53 vezes maior do que a odds do paciente com 30 anos.
De um modo geral pode-se concluir, desse estudo, que a presença de doença
coronária encontra-se positivamente associada com a idade e com o resultado do ECG
bem como que, os pacientes do sexo masculino são mais propensos a apresentá-la.

4.5.4 Métodos auxiliares no diagnótico do modelo ajustado

4.5.4.1 QQplot com envelope simulado

No caso em que a variável resposta é assumida ser normalmente distribuı́da, é


comum que afastamentos sérios da distribuição Normal sejam verificados por meio do
gráfico de probabilidades Normal dos resı́duos. No contexto de modelos lineares gene-
ralizados, em que distribuições diferentes da Normal são também consideradas, gráficos
similares com envelopes simulados podem ser também construı́dos com os resı́duos ge-
rados a partir do modelo ajustado. A inclusão do envelope simulado no QQplot auxilia
a decidir se o pontos diferem significativamente de uma linha reta (Atkinson, 1985).
Paula (2000) apresenta códigos em linguagem Splus, que podem ser utilizados no pa-
cote estatı́stico R, para gerar tais gráficos em: regressão gama, logı́stica, Poisson e
Binomial Negativa, além da Normal. Para que o modelo ajustado seja considerado
Giolo, S. R. Análise de Dados Discretos 74
satisfatório, faz-se necessário que as deviances residuais caiam dentro do envelope si-
mulado. Para os dados desse exemplo, o QQplot obtido encontra-se apresentado na
Figura 5. Desta figura é possı́vel observar que não ocorreram afastamentos sérios da
distribuição Binomial para a variável resposta uma vez que as deviances encontram-se
dentro do envelope.

Normal Q−Q Plot


2
1
Deviance

0
−1
−2

−2 −1 0 1 2

Percentis

Figura 5: QQplot com envelope simulado para os dados do exemplo 3.

4.5.4.2 Poder preditivo do modelo e outras medidas auxiliares

O poder preditivo do modelo pode, ainda, ser obtido com a finalidade de avaliar
a qualidade do modelo ajustado. Para isso, faz-se necessário estabelecer uma probabi-
lidade, denominada “ponto de corte”, a partir da qual se estabeleça que:

- a variável resposta receba o valor 1, isto é, Y = 1 para probabilidades estimadas


pelo modelo maiores ou iguais a esse ponto de corte e, ainda, que

- a variável resposta receba o valor 0, isto é, Y = 0 para probabilidades estimadas


pelo modelo menores do que esse ponto de corte.
Giolo, S. R. Análise de Dados Discretos 75
Estabelecendo o ponte de corte pc = 0.50 obteve-se para os dados do exemplo 3,
os resultados apresentados na Tabela 42. Desta tabela tem-se que:

31+25
a) valor preditivo do modelo = 78
= 0, 7179

31 25
b) valor preditivo + = 43
= 0, 7209 e valor preditivo - = 35
= 0, 7143

12 10
c) falsos positivos = 37
= 0, 3243 e falsos negativos = 41
= 0, 2439

31
d) sensibilidade do modelo = 41
= 0, 7561

25
e) especificidade do modelo = 37
= 0, 6757

Tabela 42. Classificações pelo modelo para pc = 0.5 vs. observado.

Classificado pelo modelo


Observado dc = 1 (+) dc = 0 (-) Totais
dc = 1 (+) 31 10 41
dc = 0 (-) 12 25 37
Totais 43 35 78

De um modo geral, e dos resultados apresentados, pode-se concluir que o modelo


ajustado apresenta-se satisfatório.
5 REGRESSÃO LOGÍSTICA POLITÔMICA

A regressão logı́stica também se aplica, como mencionado no capı́tulo anterior, a


situações em que a variável resposta apresenta mais do que duas categorias (respostas
politômicas), podendo, as categorias, serem ordinais ou nominais.

5.1 Resposta ordinal: modelo de odds proporcionais

Para tratar a situação em que a resposta é ordinal, considere os dados apresentados


na Tabela 43 em que pacientes do sexo feminino e masculino receberam o tratamento
A, ou um placebo, para suas dores de artrite. A resposta, nesse estudo, foi a o grau de
melhora das dores: nenhuma, alguma e melhora acentuada.

Tabela 43. Dados sobre tratamentos para artrite

Grau de melhora
Sexo Tratamento Acentuada Alguma Nenhuma Totais
F A 16 5 6 27
F Placebo 6 7 19 32
M A 5 2 7 14
M Placebo 1 0 10 11

Uma possı́vel estratégia de análise desses dados seria criar uma variável resposta
dicotômica combinando duas das categorias de respostas. Contudo, visto que existe
uma ordem natural das categorias de resposta, faz sentido considerar uma estratégia
que leve em conta essa ordenação. Considere, desse modo, as quantidades:

θhi1 = πhi1 e θhi2 = πhi1 + πhi2


Giolo, S. R. Análise de Dados Discretos 77
em que πhi1 denota a probabilidade de melhora acentuada, πhi2 a probabilidade de
alguma melhora e πhi3 a probabilidade de nenhuma melhora (h = 1 para sexo feminino,
h = 2 para sexo masculino, i = 1 para tratamento A e i = 2 para placebo). Assim, θhi1
é a probabilidade de melhora acentuada e θhi2 é a probabilidade de melhora acentuada
ou alguma melhora, ou seja, é uma probabilidade acumulada.
Para uma resposta dicotômica foi visto que, uma única função logito é considerada
para cada subpopulação (cada linha da tabela de contingência). Já para uma resposta
ordinal com L > 2 categorias, L − 1 logitos cumulativos, baseados nas probabilidades
acumuladas, são considerados para cada subpopulação. Para três categorias de resposta,
como é o caso do exemplo apresentado na Tabela 43, os dois logitos cumulativos são
expressos por:
" # " #
πhi1 πhi1 + πhi2
logit(θhi1 ) = log e logit(θhi2 ) = log .
πhi2 + πhi3 πhi3

Esses logitos são, respectivamente, o log(odds) de melhora acentuada para alguma


ou nenhuma melhora e o log(odds) de melhora acentuada ou alguma melhora para
nenhuma melhora. O modelo de odds proporcionais leva em consideração ambas as
odds citadas.
Assumindo-se que os totais marginais nhi+ são fixos, tem-se, associado a cada
subpopulação (cada linha da tabela de contingência), a distribuição multinomial em
P3
que j=1 πhij = 1. Um modelo, que se aplica a ambos os logitos simultaneamente, para
cada combinação de sexo e tratamento, poderia, então, ser escrito por:

logit(θhik ) = β0k + β 0k xhi

em que k = 1, 2 indexa os dois logitos. Nesse modelo, os interceptos são distintos bem
como existem diferentes conjuntos de parâmetros de regressão para cada logito.
Com a suposição de odds proporcionais tem-se que β k = β para todo k, simpli-
cando, assim, o modelo para:

logit(θhik ) = β0k + β 0 xhi


Giolo, S. R. Análise de Dados Discretos 78
que também pode ser expresso por:
n o n Pp o
exp β0k + β 0 xhi exp β0k + g=1 xhig
θhik = n o = n Pp o
1 + exp β0k + β 0 xhi 1 + exp β0k + g=1 xhig

em que g = 1, ..., p refere-se as covariáveis. Esse modelo é similar ao modelo de regressão


logı́stica dicotômico e é também ajustado por métodos de máxima verossimilhança.
Os valores para πhij podem, usando-se esse modelo, ser determinados por meio
das apropriadas subtrações de θhik , ou seja:

πhi1 = θhi1

πhi2 = θhi2 − θhi1

πhi3 = 1 − θhi2 .

5.1.1 Regressão logı́stica politômica ajustada aos dados sobre artrite

Sob a suposição de odds proporcionais, o modelo de efeitos principais é um apro-


priado ponto de partida para a análise dos dados sobre artrite e, este modelo, em
notação matricial, é expresso por:
     
 logit(θ111 )   β01 + β1 + β2   1 0 1 1 
     
logit(θ112 ) β02 + β1 + β2   0 1 1 1 
     
  
      
     

 logit(θ121 ) 

 β
 01 + β1 

 1
 0 1 0  β
  01 
      
logit(θ122 ) β02 + β1  0 1 1 0   β02
      
    
= =
      
  
logit(θ211 )  β01 + β2   1 0 0 1   β1
      
  
      
     

 logit(θ212 ) 


 β02 + β2  

 0 1 0 1 
 β2
     
logit(θ221 )  β01  1 0 0 0
     
   
     
     
logit(θ222 ) β02 0 1 0 0

Esse modelo é muito similar aos modelos descritos anteriormente, exceto pela
existência de dois parâmetros de intercepto, correspondendo as duas funções logito
sendo modeladas para cada subpopulação. O parâmetro β01 é o intercepto do primeiro
logito cumulativo e o parâmetro β02 é o intercepto do segundo logito cumulativo, β1 é
Giolo, S. R. Análise de Dados Discretos 79
o efeito (incremento) do sexo feminino e β2 é o efeito (incremento) do tratamento A.
Sexo masculino e o placebo compreendem a casela de referência.
Na Tabela 44 são apresentadas as diferenças de deviances dos modelos seqüenciais
ajustados, podendo-se observar, desta tabela, que a interação entre sexo e tratamento
é não significativa uma vez que RV = 0,3084 (p = 0,5786, g.l. = 1). Já para os efeitos
principais de sexo e tratamento obtiveram-se RV = 3,8053 (p = 0,051) e RV = 16,0812
(p = 6,06e−7 ), respectivamente, podendo-se, desse modo, concluir que ambos os efeitos
são significativos e devem, portanto, permanecer no modelo.

Tabela 44. Tabela de Diferença de Deviances para os dados sobre artrite.

Modelo Deviance Residual Diferença Deviances Diferença g.l.


Nulo 169,9159
X1 166,1106 3,8053 1
X1 e X 2 150,0294 16,0812 1
X1 , X2 e X 1 ∗ X 2 149,7210 0,3084 1

X1 = sexo, X2 = tratamento

Os respectivos parâmetros estimados, para o modelo com as covariáveis sexo e


tratamento, encontram-se apresentados na Tabela 45.

Tabela 45. Estimativas dos parâmetros obtidas para o modelo ajustado.

Parâmetros Estimativas e.p.


β01 : intercepto 1 -2,6672 0,6065
β02 : intercepto 2 -1,8128 0,5654
β1 : sexo feminino 1,3187 0,5381
β2 : tratamento A 1,7973 0,4718

A avaliação da qualidade de ajuste do modelo de odds proporcionais é similar


a realizada para o modelo de regressão logı́stica dicotômica. Se pelo menos 80% das
contagens observadas nas caselas for 5, então pode-se usar as estatı́sticas QL e QP
Giolo, S. R. Análise de Dados Discretos 80
as quais, sob H0 , têm distribuição Qui-Quadrado com ((r − 1)(s − 1) − p) g.l. em
que r = número de categorias da variável resposta, s = número de subpopulações e
p é o número de covariáveis. Para os dados desse exemplo obtiveram-se QL = 2,7121
(p = 0,6071, g.l. = 4) e QP = 1,9099 (p = 0,7523, g.l. = 4) e, desse modo, conclui-se
que o modelo ajusta-se satisfatoriamente aos dados. O modelo ajustado é, portanto,
expresso por:

logit(θ̂hik ) = β̂0k + 1, 3187 sexo + 1, 7973 tratamento

ou, ainda,
n o
exp β̂0k + 1, 3187 sexo + 1, 7973 tratamento
θ̂hik = n o, k = 1, 2.
1 + exp β̂0k + 1, 3187 sexo + 1, 7973 tratamento

As probabilidades cumulativas preditas por tal modelo e, conseqüentemente, as


probabilidades não-cumulativas, encontram-se apresentadas na Tabela 46.

Tabela 46. Probabilidades cumulativas (θhik ) e não-cumulativas (πhij ) preditas pelo modelo.

Sexo Tratamento θ̂hi1 θ̂hi2 π̂hi1 = θ̂hi1 π̂hi2 = θ̂hi2 - θ̂hi1 π̂hi3 = 1 - θ̂hi2
F A 0,6104 0,7864 0,6104 0,1760 0,2136
F Placebo 0,2061 0,3789 0,2061 0,1728 0,6211
M A 0,2953 0,4961 0,2953 0,2008 0,5039
M Placebo 0,0649 0,1403 0,0649 0,0754 0,8597

Note, ainda, que as probabilidades observadas e preditas pelo modelo, apresen-


tadas na Tabela 5.1.1, encontram-se bastante próximas umas das outras indicando que
o modelo ajustado apresenta-se satisfatório.
As odds ratio são, também, obtidas de modo similar à regressão logı́stica di-
cotômica. Na Tabela 48 são apresentadas as odds para o modelo de odds proporcionais
ajustado. Desta tabela, pode-se, por exemplo, observar que a odds de melhora acen-
tuada versus alguma ou nenhuma melhora para pacientes do sexo feminino comparada
exp(β01 +β1 +β2 ) exp(β01 +β1 )
com a odds dos pacientes do sexo masculino é de OR = exp(β01 +β2 )
= exp(β01 )
=
Giolo, S. R. Análise de Dados Discretos 81

Tabela 47. Probabilidades observadas e preditas pelo modelo.

observadas preditas (observadas - preditas)


0.5925926 0.61036848 -0.017775889
0.1851852 0.17601388 0.009171310
0.2222222 0.21361764 0.008604579
0.1875000 0.20612474 -0.018624743
0.2187500 0.17281504 0.045934963
0.5937500 0.62106022 -0.027310220
0.3571429 0.29527688 0.061865982
0.1428571 0.20084884 -0.057991694
0.5000000 0.50387429 -0.003874287
0.0909091 0.06493692 0.025972174
0.0000000 0.07536270 -0.075362704
0.9090909 0.85970038 0.049390531

exp(β1 ). Assim, pacientes do sexo feminino têm odds e1,3187 = 3, 738 vezes maior de
mostrar melhora acentuada do que pacientes do sexo masculino. Ainda, pacientes re-
cebendo o tratamento A têm odds eβ̂2 = e1,8128 = 6,13 vezes maior de mostrar melhora
acentuada do que os pacientes recebendo placebo e, pela suposição de odds propor-
cionais assumida para o modelo ajustado, esta é também a odds ratio para melhora
acentuada ou alguma melhora versus nenhuma melhora.

Tabela 48. Fórmulas das odds obtidas para o modelo de odds proporcionais ajustado.
Melhora acentuada versus Melhora acentuada ou alguma
Sexo Tratamento alguma ou nenhuma versus nenhuma
F A exp{β01 + β1 + β2 } exp{β02 + β1 + β2 }
F Placebo exp{β01 + β1 } exp{β02 + β1 }
M A exp{β01 + β2 } exp{β02 + β2 }
M Placebo exp{β01 } exp{β02 }

Observe que a suposição de odds proporcionais é necessária para o uso do modelo


aqui apresentado. Assim, a hipótese de que existe um vetor comum de β, em vez de
distintos β k , deve ser testada, isto é, deve-se testar a hipótese nula H0 : β k = β. Se esta
hipótese for rejeitada, uma outra abordagem deve ser considerada. Uma abordagem
Giolo, S. R. Análise de Dados Discretos 82
sugerida, nesses casos, é considerar os dados como nominais e, então, ajustar um modelo
para os logitos generalizados (tratado na próxima seção).
Para o exemplo considerado, o teste da hipótese nula citada resultou em
QRS = 1,8833 (p = 0,39, g.l. = ((r − 1)(s − 1) − p) = 2), concluindo-se, portanto,
que a suposição de odds proporcionais é razoável para esses dados.

5.2 Resposta nominal: modelo de logitos generalizados

Um modelo de regressão logı́stica também pode ser usado para modelar os dados
quando a variável resposta for nominal. Nesses casos, contudo, ajusta-se um modelo
para os logitos generalizados e não para os logitos cumulativos.
Para tratar este modelo, considere os dados apresentados na Tabela 49 referente
a um estudo realizado com crianças para determinar qual programa de aprendizado
elas preferem bem como se, tal preferência, estaria associada com a escola e o perı́odo
escolar (padrão ou com atividades em tempo integral).

Tabela 49. Dados sobre programa escolar.

Preferência aprendizado
Escola Perı́odo Individual Grupo Sala Aula Totais
1 Padrão 10 17 26 53
1 Integral 5 12 50 67
2 Padrão 21 17 26 64
2 Integral 16 12 36 64
3 Padrão 15 15 16 46
3 Integral 12 12 20 44

Uma vez que as categorias da variável resposta não apresentam uma ordenação,
o modelo de odds proporcionais não é apropriado. Assim, o logito generalizado, usado
nessas situações, é definido como:
" #
πhij
logithij = log
πhir
Giolo, S. R. Análise de Dados Discretos 83
para j = 1, 2, · · · , (r − 1). Cada logito é, portanto, formado com a probabilidade de
cada categoria sobre a última categoria de resposta. Os logitos generalizados para uma
resposta com três categorias, como é o caso do exemplo sobre o programa escolar, são
expressos, portanto, por:
" # " #
πhi1 πhi2
logithi1 = log , logithi2 = log
πhi3 πhi3

para h = 1, 2, 3 (escolas) e i = 1, 2 (perı́odos padrão e integral, respectivamente).


Desse modo, o modelo a ser ajustado para os logitos generalizados é expresso por:

logithij = β0k + β 0k xhi

em que k indexa os 2 logitos. Note que para cada logito desse modelo, existem diferentes
interceptos e diferentes conjuntos dos parâmetros de regressão β k . Assim, enquanto
para o modelo de odds proporcionais estimam-se múltiplos parâmetros de interceptos
para os logitos cumulativos mas um único conjunto de parâmetros correspondendo às
covariáveis, para o modelo de logitos generalizados estimam-se múltiplos conjuntos de
parâmetros tanto para o intercepto quanto para as covariáveis.
Como múltiplas funções resposta (logitos) estão sendo modeladas para cada sub-
população (cada linha da tabela de contingência), existe um número maior de graus
de liberdade associados a cada efeito. A forma matricial do modelo é, também, um
tanto mais complicada devido à necessidade de se levar em consideração tais funções
múltiplas. Contudo, o procedimento de modelagem é o usual, isto é, ajusta-se o modelo,
examinam-se as estatı́sticas de qualidade de ajuste do modelo ajustado e, se necessário,
reduz-se o modelo. Note que, como mais de um logito está sendo predito por subpo-
pulação, o tamanho amostral necessita ser grande o suficiente para acomodar o número
de logitos sendo modelados. Problemas de estimação dos parâmetros serão certamente
encontrados em situações em que não existem dados suficientes para justificar a análise
de logitos generalizados. Em tais situações, simplificar a estrutura da variável resposta
para uma razoável resposta dicotômica e proceder a uma análise de regressão logı́stica
dicotômica pode ser uma alternativa plausı́vel.
Giolo, S. R. Análise de Dados Discretos 84
5.2.1 Logitos generalizados ajustados aos dados do programa escolar

Os logitos generalizados, nesse exemplo, serão construı́dos considerando-se a pro-


babilidade de preferência de aprendizado individual com respeito ao aprendizado em
sala de aula (πhi1 /πhi3 ) e a probabilidade de preferência de aprendizado em grupo com
respeito ao aprendizado em sala de aula (πhi2 /πhi3 ).
Na Tabela 50 são apresentadas as diferenças de deviances dos modelos seqüenciais
ajustados, podendo-se observar, desta tabela, que a interação entre escola e perı́odo é
não significativa uma vez que RV = 1,7776 (p = 0,78, g.l. = 4). Já para os efeitos
principais de escola e perı́odo obtiveram-se RV = 17,3765 (p = 0,0016, g.l. = 4 ) e
RV = 11,094 (p = 0,0039, g.l.= 2 ), respectivamente, podendo-se, desse modo, concluir
que ambos os efeitos são significativos e devem, portanto, permanecer no modelo.

Tabela 50. Tabela de Diferença de Deviances para os dados do programa escolar.

Modelo g.l. Deviance Residual Diferença Deviances Diferença g.l.


Nulo 2 695,4043
X1 6 678,0278 17,3765 (6-2) = 4
X1 e X 2 8 666,9338 11,0940 (8-6) = 2
X1 , X2 e X 1 ∗ X 2 12 665,1562 1,7776 (12-8) = 4

X1 = escola, X2 = perı́odo

Note que os graus de liberdade para modelar dois logitos são duas vezes os graus de
liberdade esperados ao modelar-se um único logito. Isso ocorre porque simultaneamente
são modeladas duas funções resposta (logitos) em vez de uma e, conseqüentemente, o
número de parâmetros a serem estimados são duplicados. Assim, em um modelo de
logitos generalizados, os graus de liberdade associados aos efeitos são determinados
multiplicando-se por (r -1) o número de graus de liberdade esperado para modelar um
logito, sendo r o número de categorias da variável resposta.
Como a interação apresentou-se não significativa, o modelo de efeitos principais,
Giolo, S. R. Análise de Dados Discretos 85
em notação matricial, fica expresso por:
   
logit111 1 0 1 0 0 0 1 0
   
logit112   0 1 0 1 0 0 0 1 
   

    
logit121   1 0 1 0 0 0 −1 0  β01
   

    
logit122   0 1 0 1 0 0 0 −1   β02 
    

    
logit211   1 0 0 0 1 0 1 0  β11 
    

    
logit212   0 1 0 0 0 1 0 1  β12 
    

 =  
logit221   1 0 0 0 1 0 −1 0  β21 
    

    
logit222   0 1 0 0 0 1 0 −1   β22 
    

    
logit311   1 0 −1 0 −1 0 1 0  β31 
    

    
logit312   0 1 0 −1 0 −1 0 1  β32
   

   
logit321   1 0 −1 0 −1 0 −1 0 
   

   
logit322 0 1 0 −1 0 −1 0 −1

Observe, na representação matricial do modelo, que as linhas ı́mpares correspon-


dem ao primeiro logito e as linhas pares ao segundo logito. Similarmente, as colunas
ı́mpares correspondem aos parâmetros do primeiro logito e as pares aos do segundo lo-
gito. As estimativas dos parâmetros correspondente ao modelo ajustado encontram-se
apresentadas na Tabela 51 e, na Tabela 52, estes são apresentados de acordo ao logito
a que se referem.

Tabela 51. Estimativas dos parâmetros do modelo ajustado.

Erro Chi-
Efeito Parâmetro Estimativa Padrão Quadrado valor p
Intercepto β01 -0,7979 0,1465 29,65 < 0, 0001
β02 -0,6589 0,1367 23,23 < 0, 0001
escola β11 -0,7992 0,2198 13,22 0,0003
β12 -0,2786 0,1867 2,23 0,1356
β21 0,2836 0,1899 2,23 0,1352
β22 -0,0985 0,1892 0,27 0,6028
perı́odo β31 0,3737 0,1410 7,03 0,0080
β32 0,3713 0,1353 7,53 0,0061
Giolo, S. R. Análise de Dados Discretos 86

Tabela 52. Estimativas dos parâmetros do modelo ajustado por logito.

logito(indiv./sala aula) logito(grupo/sala de aula)


Covariável Coeficiente e.p. Coeficiente e.p.
Intercepto -0,7979 0,1465 -0,6589 0,1367
Escola 1 -0,7992 0,2198 -0,2786 0,1867
Escola 2 0,2836 0,1899 -0,0985 0,1892
Perı́odo 0,3737 0,1410 0,3713 0,1353

Pela Tabela 52 é possı́vel observar que a escola 1 apresenta o maior efeito dentre
as escolas, particularmente para o logito comparando aprendizado individual ao apren-
dizado em sala de aula. O perı́odo escolar apresenta efeitos similares em ambos os
logitos.
As odds ratios também podem ser usadas nos modelos de logitos generalizados para
facilitar a interpretação do modelo. Para o modelo considerado, as odds encontram-se
apresentadas na Tabela 53.

Tabela 53. Odds preditas pelo modelo de logitos generalizados.

Odds
Escola Perı́odo Individual/Sala aula Grupo/Sala aula
1 Padrão eβ01 +β11 +β31 eβ02 +β12 +β32
1 Integral eβ01 +β11 −β31 eβ02 +β12 −β32
2 Padrão eβ01 +β21 +β31 eβ02 +β22 +β32
2 Integral eβ01 +β21 −β31 eβ02 +β22 −β32
3 Padrão eβ01 −β11 −β21 +β31 eβ02 −β12 −β22 +β32
3 Integral eβ01 −β11 −β21 −β31 eβ02 −β12 −β22 −β32

As odds ratio de aprendizado individual, em relação ao aprendizado em sala de


aula, de interesse são:
eβ01 +β11 +β31
i) entre perı́odos: ORP/I = = e2∗β31 = 2,11
eβ01 +β11 −β31
Giolo, S. R. Análise de Dados Discretos 87

eβ01 +β21 +β31


ii) entre escolas: OR2/1 = = eβ21 −β11 = 2,95
eβ01 +β11 +β31

eβ01 −β11 −β21 +β31


OR3/1 = = e−2∗β11 −β21 = 3,72
eβ01 +β11 +β31

eβ01 −β11 −β21 +β31


OR3/2 = β +β +β
= e−2∗β21 −β11 = 1,26
e 01 21 31

Assim, a odds de preferência pelo aprendizado individual sobre a de aprendizado


em sala de aula foi de 2,11 vezes maior nas escolas com perı́odo escolar padrão do que
nas escolas com perı́odo escolar integral. Ainda, por exemplo, os alunos da escola 2, em
relação aos da escola 1, preferem o aprendizado individual ao em sala de aula sendo,
esta preferência, 2,95 vezes maior entre os alunos da escola 2 do que entre os alunos da
escola 1.
De modo análogo tem-se que as odds ratio de aprendizado em grupo, em relação
ao aprendizado em sala de aula, são:
eβ02 +β12 +β32
i) entre perı́odos: ORP/I = = e2∗β32 = e2∗0,3713 = 2,10
eβ02 +β12 −β32
eβ02 +β22 +β32
ii) entre escolas: OR2/1 = β +β +β
= eβ22 −β12 = 1,19
e 02 12 32

eβ02 −β12 −β22 +β32


OR3/1 = = e−2∗β12 −β22 = 1,93
eβ02 +β12 +β32

eβ02 −β12 −β22 +β32


OR3/2 = = e−2∗β22 −β12 = 1,61
eβ02 +β22 +β32
Desse modo, tem-se que a odds de preferência pelo aprendizado em grupo sobre a
de aprendizado em sala de aula foi de 2,10 vezes maior nas escolas com perı́odo escolar
padrão do que nas escolas com perı́odo escolar integral. Os alunos, por exemplo, da
escola 3, em relação aos da escola 1, preferem o aprendizado em grupo ao em sala de
aula sendo, esta preferência, 1,93 vezes maior entre os alunos da escola 3 do que entre
os alunos da escola 1.
Note, a partir dos resultados apresentados na Tabela 54, que as probabilidades
observadas e preditas pelo modelo encontram-se consideravelmente próximas, indicando
Giolo, S. R. Análise de Dados Discretos 88
que o modelo ajustado apresenta-se satisfatório.

Tabela 54. Maximum Likelihood Predicted Values for Probabilities


--------------------------------------------------------------------------------------------
--------Observed------- -------Predicted-------
Standard Standard
escola periodo pref Probability Error Probability Error Residual
---------------------------------------------------------------------------------------------
1 pad ind 0.1887 0.0537 0.158 0.0403 0.0306
gr 0.3208 0.0641 0.3049 0.0527 0.0159
aula 0.4906 0.0687 0.5371 0.056 -0.047

1 int ind 0.0746 0.0321 0.0989 0.0279 -0.024


gr 0.1791 0.0468 0.1917 0.0393 -0.013
aula 0.7463 0.0532 0.7095 0.0459 0.0368

2 pad ind 0.3281 0.0587 0.3409 0.0515 -0.013


gr 0.2656 0.0552 0.2667 0.0469 -0.001
aula 0.4063 0.0614 0.3924 0.0509 0.0139

2 int ind 0.25 0.0541 0.2372 0.0444 0.0128


gr 0.1875 0.0488 0.1864 0.0389 0.0011
aula 0.5625 0.062 0.5764 0.0518 -0.014

3 pad ind 0.3261 0.0691 0.3436 0.0587 -0.017


gr 0.3261 0.0691 0.3429 0.0582 -0.017
aula 0.3478 0.0702 0.3136 0.0536 0.0343

3 int ind 0.2727 0.0671 0.2545 0.0521 0.0183


gr 0.2727 0.0671 0.2552 0.0517 0.0176
aula 0.4545 0.0751 0.4904 0.0608 -0.036
---------------------------------------------------------------------------------------------
BIBLIOGRAFIA

AGRESTI, A. Categorical data Analysis. New York: John Wiley & Sons, 1990.

AGRESTI, A. An Introduction to Categorical data Analysis. New York: John


Wiley & Sons, 1996.

BAUMAN, K.E., KOCH, G.G., LENTZ, M. Parent characteristics, perceived health


risk, and smokeless tobacco use among white adolescent males, NI Mono-
graphs 8, p.43-48, 1989.

DEMÉTRIO, C.G.B. Modelos Lineares Generalizados em Experimentação


Agronômica. Piracicaba: Minicurso 46a Rbras e 9o SEAGRO, 2001.

FREEMAN, D. Applied Categorical Data Analysis. New York: Marcel Dekker,


1987.

HOSMER JR, D.W., LEMESHOW, S. Applied Logistic Regression. New York:


John Wiley & Sons, 1989.

McCULLACH, P., NELDER, J.A. Generalized Linear Models. London: Chapman


and Hall, 1989.

MANTEL, N. Chi-square tests with one degree of freedom: Extensions of the Mantel-
Haenszel procedure, Journal of the American Statistical Association, v.58,
p.690-700, 1963.

MANTEL, N., HAENSZEL, W. Statistical Aspects of the analysis of data from retro-
spective studies of disease, Journal of the National Cancer Institute, v.22,
p.719-748, 1959.
Giolo, S. R. Análise de Dados Discretos 90
MANTEL, N. FLEISS, J. Minimum expected cell size requirements for the Mantel-
Haenszel one-degree of freedom ch-square test and a related rapid procedure,
American Journal of Epidemiology, v.112, p.129-143, 1980.

PAULA, G. Análise de Regressão. 2000.

PREGIBON, D. Logistic regression diagnostics, Annals of Statistics, v.9, p.705-724,


1981.

SILVEIRA NETO, S., NAKANO, O., BARBIN, D., VILLA NOVA, N.A. Manual de
Ecologia dos Insetos. São Paulo: Agronômica Ceres, 1976, 419p.

STOKES, M. E., DAVIS, C. S., KOCH, G. G. Categorical Data Analysis using


the SAS System. SAS Institute Inc., Cary, NC. USA, 2000.