Você está na página 1de 160

INTRODUÇÃO À

ANÁLISE DE DADOS
CATEGÓRICOS

Suely Ruiz Giolo


Departamento de Estatı́stica - UFPR

2006
Conteúdo

Prefácio v

1 Conceitos Introdutórios 1
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Escalas de Mensuração . . . . . . . . . . . . . . . . . . . . . 2
1.3 Esquemas ou Delineamentos Amostrais . . . . . . . . . . . . 5
1.3.1 Modelo Produto de Binomiais independentes . . . . 5
1.3.2 Modelo Multinomial . . . . . . . . . . . . . . . . . . 7
1.3.3 Modelo Produto de Poisson . . . . . . . . . . . . . . 7
1.3.4 Modelo Hipergeométrico . . . . . . . . . . . . . . . . 9
1.3.5 Considerações sobre os delineamentos amostrais . . . 9
1.4 Estudos clı́nicos e modelos associados . . . . . . . . . . . . 10
1.4.1 Estudos Descritivos . . . . . . . . . . . . . . . . . . 11
1.4.2 Estudos de Coorte . . . . . . . . . . . . . . . . . . . 11
1.4.3 Estudos Caso-Controle . . . . . . . . . . . . . . . . . 14
1.4.4 Ensaios clı́nicos aleatorizados . . . . . . . . . . . . . 16
1.4.5 Estudos tranversais ou cross-sectional . . . . . . . . 18
1.5 Incidência e prevalência . . . . . . . . . . . . . . . . . . . . 20
1.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

i
ii CONTEÚDO

2 Estratégias de Análise 25
2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Análise de Tabelas de Contingência 2 × 2 . . . . . . . . . . 25
2.2.1 Estatı́sticas de Teste . . . . . . . . . . . . . . . . . . 26
2.2.2 Medidas de Associação . . . . . . . . . . . . . . . . . 28
2.2.3 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.4 Sensibilidade e Especificidade . . . . . . . . . . . . . 35
2.2.5 Teste de McNemar . . . . . . . . . . . . . . . . . . . 37
2.3 Análise de Tabelas de Contingência 2 × r . . . . . . . . . . 38
2.3.1 Escolha dos Escores . . . . . . . . . . . . . . . . . . 40
2.4 Análise de Tabelas de Contingência s × 2 . . . . . . . . . . 41
2.5 Análise de Tabelas de Contingência s × r . . . . . . . . . . 43
2.5.1 Associação geral em tabelas s × r . . . . . . . . . . . 43
2.5.2 Teste exato para associação geral em tabelas s × r . 45
2.5.3 Medidas de associação em tabelas s × r . . . . . . . 46
2.5.4 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . 47
2.6 Análise Estratificada . . . . . . . . . . . . . . . . . . . . . . 51
2.6.1 Teste de Mantel-Haenszel . . . . . . . . . . . . . . . 53
2.6.2 Medidas de associação . . . . . . . . . . . . . . . . . 54
2.6.3 Análise estratificada em tabelas s × r (s, r > 2) . . . 59
2.7 Concordância entre observadores . . . . . . . . . . . . . . . 59
2.7.1 Estatı́stica Kappa . . . . . . . . . . . . . . . . . . . 59
2.7.2 Estatı́stica Kappa ponderada . . . . . . . . . . . . . 61
2.7.3 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.8 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3 Regressão Logı́stica 71
3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.2 Regressão Logı́stica Dicotômica . . . . . . . . . . . . . . . . 71
CONTEÚDO iii

3.2.1 Estimação dos parâmetros . . . . . . . . . . . . . . . 76


3.2.2 Significância das variáveis no modelo . . . . . . . . . 78
3.2.3 Análise de deviance e seleção de modelos . . . . . . 80
3.2.4 Qualidade do modelo ajustado . . . . . . . . . . . . 82
3.2.5 Diagnóstico da regressão logı́stica . . . . . . . . . . . 83
3.2.6 O modelo ajustado e interpretações . . . . . . . . . . 85
3.2.7 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . 86
3.2.8 Métodos auxiliares no diagnótico do modelo ajustado 100
3.2.9 Outros modelos com resposta dicotômica . . . . . . 102
3.3 Regressão Logı́stica Politômica . . . . . . . . . . . . . . . . 103
3.3.1 Resposta ordinal: modelo de odds proporcionais . . . 103
3.3.2 Resposta nominal: modelo de logitos generalizados . 110
3.4 Regressão Logı́stica Condicional . . . . . . . . . . . . . . . . 117
3.4.1 Estudos prospectivos: contagem pequena nos estratos 118
3.4.2 Estudos crossover . . . . . . . . . . . . . . . . . . . . 122
3.4.3 Estudos retrospectivos com observações pareadas . . 126
3.5 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

Apêndice 133

Bibliografia 153
Prefácio

Este material apresenta um texto introdutório sobre análise de dados ca-


tegóricos em que o principal objetivo é oferecer um texto, em português,
que possa servir de apoio em cursos de graduação em Estatı́stica. De modo
geral, a apresentação de conceitos, metodologias e modelos estatı́sticos é
feita sob um enfoque mais aplicado do que essencialmente teórico. Vários
livros que apresentam este assunto, e o fazem em diferentes nı́veis, ênfases e
abordagens, foram utilizados na composição do texto. Para as análises es-
tatı́sticas foi adotado o software R. Em alguns casos, contudo, foi necessário
utilizar o software SAS. Noções básicas de probabilidade, inferência, re-
gressão e alguns testes não-paramétricos, são conhecimentos úteis para com-
preensão do conteúdo apresentado.
Vários alunos de graduação em Estatı́stica da Universidade Federal
do Paraná tiveram acesso a este material, ou parte dele. Agradecimen-
tos àqueles que, direta ou indiretamente, contribuı́ram para a versão atual
do texto, que foi editado no LATEX. Visto que o mesmo não se encontra livre
de erros e imperfeições, comentários, crı́ticas e sugestões são bem-vindos.

Suely Ruiz Giolo


junho de 2006.

v
Capı́tulo 1

Conceitos Introdutórios

1.1 Introdução

Muitos analistas freqüentemente se deparam com experimentos em que as


respostas de interesse são categóricas, refletindo, assim, categorias de in-
formação em vez da usual escala intervalar. Exemplos de variáveis resposta
categóricas são, dentre outros, melhora do paciente (sim ou não), sintomas
de uma doença (sim ou não), desempenho do candidato (bom, regular ou
péssimo) e horas de alı́vio de dor de cabeça (0, 1, 2, 3 ou 4).
A análise de experimentos em que a variável resposta é por natureza
categórica é denominada análise de dados categóricos ou, também, análise
de dados discretos, isto porque distribuições discretas de probabilidade
encontram-se associadas às variáveis resposta. As demais variáveis envolvi-
das nestes experimentos, as quais, em geral, se tem interesse em verificar se
estariam associadas com a variável resposta, podem ser tanto categóricas
quanto contı́nuas. Em alguns casos, variáveis contı́nuas são categorizadas
por interesse do pesquisador. A idade, por exemplo, pode ser categorizada
em faixas etárias, bem como o resultado de um exame médico, catego-
rizado em normal ou anormal. O peso, por sua vez, pode ser categorizado

1
2 Capı́tulo 1. Conceitos Introdutórios Giolo, S.R.

em obeso e não-obeso ou, ainda, em intervalos tais como < 60, [60, 100),
[100, 150) e ≥ 150kg. As variáveis, que não a resposta, são denominadas,
entre outros, de fatores, variáveis explanatórias ou covariáveis.
Dados em que a variável resposta e as covariáveis são categóricas, ou
foram categorizadas, são, em geral, apresentados nas, assim denominadas,
tabelas de contingência. Essas tabelas são apresentadas no decorrer deste
e dos demais capı́tulos.
Note, dos exemplos de variáveis resposta e covariáveis citados, que há
algumas diferenciações entre elas. Por exemplo, algumas apresentam so-
mente duas categorias, outras três ou mais, bem como algumas apresentam
uma ordenação natural das categorias e outras não. Formalmente, essas
covariáveis podem ser classificadas de acordo com sua respectiva escala de
mensuração. Por exemplo, as com somente duas categorias são denomi-
nadas dicotômicas, as com mais de duas categorias que apresentam uma
ordenação natural são ditas ordinais e, assim por diante. Na Seção 1.2, são
descritas e ilustradas as escalas de mensuração de variáveis categóricas.

1.2 Escalas de Mensuração

A escala de mensuração de uma variável resposta categórica é um elemento


importante para a escolha de uma estratégia de análise. Não considerá-
la pode, portanto, implicar na escolha inapropriada de uma estratégia
que pode levar a conclusões errôneas. De modo geral, variáveis resposta
categóricas podem ser classificadas em: dicotômicas, ordinais, nominais ou
contagens discretas.
As dicotômicas são aquelas que apresentam duas possibilidades de
resposta. O objetivo, por exemplo, de um ensaio clı́nico realizado para se
testar um novo medicamento é saber se o paciente obteve, ou não, uma
melhora. Nesses casos, é comum a representação dos dados em uma tabela
1.2. Escalas de Mensuração 3

de contingência 2 × 2, como mostrado na Tabela 1.1. A resposta, nesse


exemplo, é dicotômica e a análise investiga a relação entre a resposta e o
medicamento.

Tabela 1.1: Resposta ao novo medicamento.

Melhora
Medicamento Sim Não Total
Novo 40 20 60
Placebo 16 48 64

Variáveis categóricas com mais do que duas possibilidades de resposta, e


que apresentam uma certa ordenação natural, são também freqüentes. Tais
variáveis, ditas apresentarem uma escala de mensuração ordinal, podem,
por exemplo, resultar de questões tais como: i) a nova grade curricular
produziu pequeno, algum ou grande entusiasmo entre os estudantes? ou,
ainda, ii) a água exibe baixo, médio ou alto grau de pureza? Observe,
nesses exemplos, que há uma ordem clara das categorias de resposta, mas
não existe, contudo, indı́cios quanto às distâncias relativas entre os nı́veis.
Em ii) pode-se até pensar em uma possı́vel distância entre os nı́veis. Por
exemplo, médio pode significar 2 vezes mais puro do que baixo e alto 3 vezes
mais puro do que baixo. Essas distâncias não estão, contudo, explı́citas. Em
algumas situações tais distâncias encontram-se mais claras. Um exemplo de
experimento com resposta categórica ordinal é apresentado na Tabela 1.2.
Observe que variáveis resposta categóricas podem ser tratadas de dife-
rentes modos. Pode-se, por exemplo, combinar as categorias de resposta
acentuada e alguma, apresentadas na Tabela 1.2, para produzir uma res-
posta dicotômica: melhora versus não melhora. Grupar categorias é usual
durante uma análise se, é claro, a resposta dicotômica resultante for de
interesse.
4 Capı́tulo 1. Conceitos Introdutórios Giolo, S.R.

Tabela 1.2: Resultados de um ensaio clı́nico realizado com pacientes de


ambos os sexos para investigar um tratamento para artrite reumatóide.

Melhora
Sexo Tratamento Acentuada Alguma Nenhuma Total
Feminino Ativo 16 5 6 27
Feminino Placebo 6 7 19 32
Masculino Ativo 5 2 7 14
Masculino Placebo 1 0 10 11

Se, no entanto, existirem mais do que duas categorias de resposta e ne-


nhuma ordenação para estas categorias, tem-se uma escala de mensuração
nominal. Por exemplo, i) preferência de local para passar as férias: praia,
montanha ou fazenda; ii) candidato de sua preferência: A, X, Y ou Z.
Observe, em ambos os exemplos, que não existe nenhuma aparente maneira
de ordenar as categorias de resposta.
Variáveis resposta categóricas podem, também, apresentar contagens
discretas. Em vez de categorias, tais como sim e não ou baixo, médio e
alto, as respostas são números. Alguns exemplos são: i) tamanho da ninha-
da: 1, 2, 3, 4 ou 5; ii) número de televisores em casa: 1, 2, 3 ou 4. Em
tais situações poder-se-ia pensar na usual estratégia de analisar a contagem
média. No entanto, as suposições exigidas para o modelo linear usual, uti-
lizado para dados contı́nuos, não são, em geral, atendidas com contagens
discretas que têm: uma amplitude pequena, contagens que não são normal-
mente distribuı́das e podem, ainda, não apresentar variância homogênea.

Além de observar a escala de mensuração das variáveis, em particular da


variável resposta, é também importante identificar o delineamento amostral
que produziu os dados, isto para que se possa determinar uma análise
apropriada e, conseqüentemente, se fazer as inferências de interesse. Na
1.3. Esquemas ou Delineamentos Amostrais 5

Seção 1.3, são tratados, brevemente, alguns dos delineamentos amostrais


mais freqüentes, bem como as respectivas distribuições de probabilidade
associadas aos mesmos.

1.3 Esquemas ou Delineamentos Amostrais

Considere, inicialmente, experimentos em que foram coletadas informações


de somente duas variáveis dicotômicas. Utilizar uma tabela de contingência
2 × 2, como a Tabela 1.3, é uma maneira comum de resumir e representar
os valores observados desses experimentos.

Tabela 1.3: Tabela de contingência s = 2 × r = 2.

Categorias de resposta
Categorias da covariável C1 C2 Totais
A1 n11 n12 n1+
A2 n21 n22 n2+
Totais n+1 n+2 n

A partir da Tabela 1.3, pode-se observar freqüências, representadas por


n11 , · · · , n22 , n1+ , · · · , n+2 e n, associadas às diversas caselas. Os totais
n1+ , n2+ , n+1 e n+2 são denominados totais marginais e n total geral ou
tamanho amostral. Esses totais, ao serem considerados no delineamento
amostral como conhecidos ou não (fixos ou aleatórios), indicam o mo-
delo probabilı́stico a ser considerado. Tais modelos são apresentados na
Seção 1.3.1.

1.3.1 Modelo Produto de Binomiais independentes

Suponha que um experimento seja planejado de modo que, de duas popu-


lações independentes, obtenham-se duas amostras aleatórias (A 1 e A2 ), uma
6 Capı́tulo 1. Conceitos Introdutórios Giolo, S.R.

de cada população, de tamanhos fixos n1+ e n2+ . Uma vez estabelecidas


as amostras, o experimento é então conduzido observando-se, para os in-
divı́duos em A1 e em A2 , quantos classificam-se na categoria C1 e quantos
na categoria C2 . Para experimentos conduzidos desse modo, em que seus
resultados são usualmente apresentados em uma tabela de contingência
2 × 2, tal qual a apresentada na Tabela 1.3, tem-se:

i) uma variável aleatória N11 com distribuição Bin(n1+ , p11 ) associada


à 1a linha da tabela e,

ii) outra variável aleatória N21 , independente da primeira, com distribui-


ção Bin(n2+ , p21 ) associada à 2a linha desta mesma tabela,

em que p11 é a probabilidade de qualquer indivı́duo pertencente à 1a linha


ser classificado na 1a coluna e, analogamente, p21 é a probabilidade de
qualquer indivı́duo pertencente à 2a linha ser classificado na 1a coluna.
X 2 2
X
Observe que p1j = 1 e p2j = 1. Nesses casos, tem-se, portanto, que
j=1 j=1
a distribuição conjunta associada à Tabela 1.3 é o produto de duas binomias
independentes descrita pela função de probabilidade expressa por:

2
( 2 n )
Y Y pijij
P (N11 = n11 , N21 = n21 ) = ni+ ! . (1.1)
nij !
i=1 j=1

Nos casos em que a variável resposta apresentar mais do que duas ca-
tegorias (r > 2), a distribuição associada será o produto de multinomias
independentes, uma multinomial associada a cada linha da tabela.
Note, que este esquema amostral corresponde a um processo de amos-
tragem estratificada, em que para cada estrato (nesse caso A 1 e A2 ) é
selecionada uma amostra aleatória simples.
1.3. Esquemas ou Delineamentos Amostrais 7

1.3.2 Modelo Multinomial

Suponha, no entanto, que o experimento seja planejado de modo que, de


uma população, se obtenha uma amostra aleatória de tamanho n fixo.
Obtida esta amostra, o experimento é conduzido observando-se quantos
indivı́duos dessa amostra classificam-se em uma das quatro seguintes pos-
sibilidades: (A1 , C1 ), (A1 , C2 ), (A2 , C1 ) ou (A2 , C2 ). Para experimentos
conduzidos desse modo, associam-se às tabelas de contingência 2 × 2 resul-
tantes, a distribuição multinomial, cuja respectiva função de probabilidade
é expressa por:

P (N11 = n11 , N12 = n12 , N21 = n21 , N22 = n22 ) =


2 n
Y pijij
= P (Nij = nij ) = n! (1.2)
nij!
i,j=1

2
X 2
X
sendo nij ≥ 0, nij = n e pij = 1.
i,j=1 i,j=1

De acordo com este delineamento amostral, ambas variáveis são consi-


deradas respostas. Dependendo, contudo, dos objetivos do estudo pode-se
classificar uma delas como covariável.
Note, que o delineamento amostral apresentado é equivalente a um pro-
cesso de amostragem aleatória simples, em que de uma população suficien-
temente grande seleciona-se uma amostra aleatória de tamanho n.

1.3.3 Modelo Produto de Poisson

Em alguns situações, pode ser estabelecido tão somente a duração do experi-


mento. Como conseqüência, tem-se tamanhos amostrais aleatórios, uma vez
que os mesmos somente serão conhecidos no término do experimento. Um
exemplo é o da coleta de insetos em armadilhas adesivas de duas cores,
descrito em Silveira Neto et al. (1976) e Demétrio (2001), e apresentado na
8 Capı́tulo 1. Conceitos Introdutórios Giolo, S.R.

Tabela 1.4. Nesse experimento, insetos de uma determinada espécie foram


coletados em um certo perı́odo de tempo e, então, sexados com a finalidade
de se verificar a influência da cor da armadilha sobre a atração de machos
e fêmeas dessa espécie.

Tabela 1.4: Insetos coletados em armadilhas e sexados.

Sexo
Armadilha Machos Fêmeas Total
Alaranjada 246 17 263
Amarela 458 32 490
Total 704 49 753

Note, nesse experimento, que o número de insetos que chegam às ar-
madilhas, sejam estes machos ou fêmeas, é um número (contagem) aleatório,
caracterizando, assim, a distribuição Poisson. Assumindo Nij (i, j = 1, 2)
independentes (o que pode gerar alguma controvérsia) com distribuição
Poisson de média µij = t λij , sendo λij a taxa média por unidade de tempo
e t a duração do experimento, tem-se associado à Tabela 1.4 a distribuição
produto de Poisson com função de probabilidade:

P (N11 = n11 , N12 = n12 , N21 = n21 , N22 = n22 ) =


2 Y2 n
Y e−µij µijij
= P (Nij = nij ) = , µij > 0. (1.3)
nij !
i=1 j=1

Resultados importantes sobre variáveis aleatórias Poisson independentes


são: se N11 , · · · , N22 são independentes com Nij ∼ Pois(µij ), então:

P
i) (N11 + · · · + N22 ) ∼ Pois( i,j µij ) e

ii) (N11 , · · · , N22 | N ) ∼ Mult(N, p11 , · · · , p22 ), em que N = N11 + · · · +


N22 e pij = P µij =
nij
i,j µij n .
1.3. Esquemas ou Delineamentos Amostrais 9

O resultado sobre a distribuição condicional é importante, pois para


uma tabela com variáveis aleatórias independentes Poisson, pode-se sempre
calcular o total geral n para esta tabela. Considerando-se a distribuição
condicional descrita em ii), pode-se pensar em realizar a análise assumindo-
se a distribuição multinomial.

1.3.4 Modelo Hipergeométrico

O modelo hipergeométrico não surge propriamento de um esquema amostral.


Este modelo é considerado, por exemplo, em experimentos em que os pa-
cientes são, inicialmente, alocados aleatoriamente a dois tratamentos con-
siderados equivalentes, observando-se, então, para cada um deles, uma res-
posta binária (dicotômica). Sob a hipótese nula de que os efeitos dos dois
tratamentos não diferem, n+1 é considerado fixo.
Situações como esta, consideram, portanto, que n1+ , n2+ e n+1 são fixos.
Tendo-se ambas as margens da tabela fixas, provocada pelo condiciona-
mento em n1+ , n2+ e n+1 , segue que o conhecimento de qualquer uma das
4 freqüências, por exemplo n11 , determina as restantes. Assim, e sob H0 ,
N11 tem distribuição hipergeométrica com função de probabilidade expressa
por:
2
Y 2
Y
ni+ ! n+j !
1+n n
2+
Cn11 Cn21 i=1 j=1
P (N11 = n11 ) = = .
Cnn+1 2
YY 2
n! nij !
i=1 j=1

1.3.5 Considerações sobre os delineamentos amostrais

Os três tipos de delineamentos amostrais apresentados são, na prática,


os mais usuais. Seus respectivos modelos probabilı́sticos são, como visto,
derivados com base nas caracterı́sticas dos esquemas de amostragem ado-
10 Capı́tulo 1. Conceitos Introdutórios Giolo, S.R.

tados. Naturalmente, nem todas as tabelas de contingência são neces-


sariamente geradas por um desses modelos, o que implica obviamente na
necessidade de se considerar outros modelos probabilı́sticos. Nesta direção,
pode-se citar os estudos em que, por exemplo, as amostras não podem
ser consideradas independentes ou, então, estudos em que delineamentos
amostrais mais complexos são utilizados. Há, também, os estudos em que
nenhum tipo de amostragem aleatória é usado no processo de seleção das
unidades amostrais, bem como aqueles em que a população nem sempre é
claramente especificada. De modo geral, as conclusões, em qualquer estudo,
estão claramente condicionadas à validade das suposições distribucionais.
Além da escala de mensuração e do delineamento amostral, deve-se
também considerar se o tamanho amostral é suficientemente grande para
assegurar a teoria assintótica exigida por muitos testes. Muitas vezes, pode-
se ter um total amostral muito pequeno ou, então, um número grande de
caselas com contagens zeros, ou muito pequenas, que tornam as suposições
assintóticas questionáveis.

1.4 Estudos clı́nicos e modelos associados

Em medicina, os delineamentos amostrais mais freqüentes resultam de es-


tudos que podem ser observacionais ou experimentais, assim como podem
ser prospectivos ou retrospectivos. Dentre esses estudos, pode-se citar os:
descritivos, caso-controle, coorte, transversal e clı́nico aleatorizado. Os
quatro primeiros são observacionais e, o último, é experimental, pois há a
intervenção do pesquisador ao alocar, de forma aleatória, tratamento ao
paciente. Neste último, alguns cuidados devem ser tomados quando todas
as pessoas envolvidas no estudo conhecem o tratamento que o paciente está
recebendo. Avaliações cega ou duplo-cega, bem como o uso de placebos,
são, desse modo, utilizados com freqüência nos estudos clı́nicos aleatoriza-
1.4. Estudos clı́nicos e modelos associados 11

dos. Os estudos citados são apresentados em mais detalhes a seguir.

1.4.1 Estudos Descritivos

Estudos envolvendo somente uma amostra, usualmente de doentes, são de-


nominados descritivos. Nesses estudos, não existe um grupo de comparação
e o objetivo é, freqüentemente, a identificação de fatores de prognóstico para
a doença em estudo. Estes diferem, por exemplo, dos estudos de coorte,
caso-controle e clı́nico aleatorizado, que são comparativos, uma vez que o
objetivo é a comparação de dois ou mais grupos.
Um exemplo de estudo descritivo, refere-se a associação entre rubéola e
catarata congênita em que o oftalmologista N. Gregg observou, no primeiro
semestre de 1941, vários recém-nascidos com catarata congênita. As carac-
terı́sticas pouco usuais dos casos, o levaram a procurar uma explicação
que envolvesse as mães. Verificou que todas haviam sido acometidas de
rubéola em uma grande epidemia que havia atingido a Austrália no ano
anterior, exatamente durante o primeiro trimestre de gestações que resul-
taram no nascimento das crianças com catarata congênita. Tais observações
clı́nicas criaram condições para que várias pesquisas posteriores concluı́ssem
haver associação entre rubéola no primeiro trimestre de gravidez e defeitos
congênitos. Esta constatação e o desenvolvimento de vacinas determinaram
a introdução do procedimento de vacinação das mulheres em idade fértil.

1.4.2 Estudos de Coorte

De modo geral, ao conduzir um estudo de coorte, o interesse do pesquisador


é verificar se indivı́duos expostos a um determinado fator apresentam, em
relação aos indivı́duos não expostos, uma maior propensão de desenvolver
uma determinada doença. Um estudo de coorte é constituı́do, em seu
inı́cio, de um grupo de indivı́duos, denominada coorte, em que todos estão
12 Capı́tulo 1. Conceitos Introdutórios Giolo, S.R.

livres da doença sob investigação. Os indivı́duos dessa coorte são, então,


classificados em expostos e não-expostos ao fator de interesse, obtendo-se,
assim, dois grupos (ou duas coortes de comparação). Essas coortes serão,
então, observadas por um perı́odo de tempo, verificando-se quais indivı́duos
desenvolvem a doença em questão. Os indivı́duos expostos e não-expostos
devem ser comparáveis, ou seja, semelhantes quanto aos demais fatores,
que não o de interesse, para que os resultados e conclusões obtidas sejam
confiáveis.
O termo coorte é portanto usado para descrever um grupo de indivı́duos
que têm algo em comum ao serem reunidos e que são observados por um
determinado perı́odo para que se possa avaliar o que ocorre com eles. É
importante que todos os indivı́duos sejam observados por todo o perı́odo de
seguimento, já que informações de uma coorte incompleta podem distorcer
o verdadeiro estado das coisas. Por outro lado, o perı́odo de tempo em
que os indivı́duos serão observados deve ser significativo na história natural
da doença em questão, para que haja tempo suficiente do risco se mani-
festar. Doenças com perı́odo de latência longa exigirão perı́odos longos de
observação. Entenda-se por história natural da doença, sua evolução sem
intervenção médica e, por perı́odo de latência, o tempo entre a exposição
ao fator e as primeiras manifestações da doença. Outras denominações
geralmente usadas para os estudos de coorte são, dentre elas:

• estudos longitudinais: enfatizando que os indivı́duos são acompa-


nhados ao longo do tempo;

• estudos prospectivos: subentendendo a direção em que os indivı́duos


são acompanhados;

• estudos de incidência: chamando a atenção para a medida básica de


novos eventos de doença no tempo de seguimento.
1.4. Estudos clı́nicos e modelos associados 13

Quanto à forma de coleta das informações dos indivı́duos pertencentes


à coorte sob investigação, pode-se, ainda, classificar os estudos de coorte
em: estudos de coorte contemporânea e estudos de coorte histórica. Em um
estudo de coorte contemporânea, os indivı́duos são escolhidos no presente
e acompanhados no futuro. Em uma coorte histórica, os indivı́duos são
escolhidos em registros do passado e acompanhados daquele perı́odo até
o presente. Informações provenientes de coortes históricas são freqüente-
mente coletadas com outros objetivos que não especificamente o de interesse
e podem, portanto, não ter a qualidade suficiente para uma pesquisa rigo-
rosa. O mesmo não ocorre com um estudo de coorte contemporânea, uma
vez que os dados são coletados para atender aos objetivos do estudo.

Os estudos de coorte são menos propensos aos vı́cios que podem ocorrer
nos estudos caso-controle e são os mais indicados para o estudo de riscos,
quando a experimentação não é possı́vel. As principais dificuldades para
a realização de um estudo de coorte são: (a) é um estudo mais demorado
e que envolve custos elevados pelos recursos necessários para acompanhar
muitos indivı́duos ao longo do tempo estabelecido; (b) não disponibiliza
resultados a curto prazo; (c) os indivı́duos sob estudo vivem livremente e
não sob controle do pesquisador e (d) não é viável para doenças raras.

Na Tabela 1.5 encontram-se os resultados de um estudo de coorte rea-


lizado para pesquisar a associação entre câncer de pulmão e tabagismo.

Tabela 1.5: Resultados de um estudo de coorte.

Câncer de Pulmão
Fumante Sim Não Totais
Sim 75 45 120
Não 21 56 77
Totais 197
14 Capı́tulo 1. Conceitos Introdutórios Giolo, S.R.

Os totais marginais n1+ e n2+ são fixos e, portanto, tem-se associado


à Tabela 1.5 o modelo produto de binomiais independentes, uma binomial
para cada linha da tabela.

1.4.3 Estudos Caso-Controle

Embora o objetivo de um estudo caso-controle seja o mesmo de um estudo


de coorte, ou seja, descobrir se a exposição a um determinado fator está
associada ao desenvolvimento da doença sob estudo, os mesmos diferem
essencialmente quanto à forma de seleção e coleta de informações dos in-
divı́duos.
Nos estudos caso-controle, o pesquisador seleciona um grupo de in-
divı́duos com uma determinada doença de interesse, denominados casos,
e um outro grupo de indivı́duos livres da doença, os controles. Fatores
associados a um risco aumentado de adoecer são denominados fatores de
risco; exposição a um fator de risco significa que uma pessoa, antes de adoe-
cer, esteve em contato com o fator em questão ou o manifestou. A validade
dos resultados desses estudos está condicionada principalmente à forma de
seleção dos indivı́duos. Os casos devem ser preferencialmente novos e não
os já existentes e os controles devem ser comparáveis aos casos, isto é, todas
as diferenças importantes, que não o fator de interesse, devem ser contro-
ladas quando da escolha desses indivı́duos. Em outras palavras, casos e
controles devem parecer ter tido chances iguais de terem sido expostos ao
fator em questão.
Os controles são, em geral, escolhidos segundo alguma estratégia que
possa minimizar os vı́cios de seleção. Uma dessas estratégias é a dos casos
emparelhados aos controles, isto é, para cada caso, um ou mais controles
com caracterı́sticas comuns aos casos são selecionados. É comum empare-
lhar por caracterı́sticas demográficas (idade, sexo, raça), porém deve-se
1.4. Estudos clı́nicos e modelos associados 15

também emparelhar por outras reconhecidamente importantes. O empare-


lhamento apresenta contudo um risco, a de o pesquisador emparelhar por
um fator que esteja relacionado à exposição. Outra estratégia possı́vel é
escolher mais de um grupo controle. A comparação dos resultados dos
casos com cada um dos grupos controle selecionados pode trazer à tona
potenciais vı́cios pois, se resultados diferentes forem observados na com-
paração dos casos com os diferentes grupos controle, há evidências de que
os grupos não são comparáveis. Muita atenção e cuidado são necessários
quando da seleção dos casos e controles, para que a comparabilidade entre
os grupos possa ser assegurada. Atenção também deve ser dada ao número
de indivı́duos sob estudo. Este deve ser suficientemente grande para que
o acaso não interfira em demasia nos resultados. Uma vez selecionados os
casos e controles verifica-se, para cada indivı́duo, sua exposição ou não ao
fator sob investigação. O pesquisador, geralmente, se utiliza para este fim
de informações passadas, dependendo assim da disponibilidade e qualidade
dos registros (protocolos) ou da memória dos pacientes. Evidentemente,
isso pode ocasionar vı́cios no estudo. Por utilizar-se de informações pas-
sadas, os estudos caso-controle são também denominados retrospectivos. As
principais vantagens desses estudos são: o custo e o tempo envolvidos para
a obtenção da resposta. Estes são relativamente pequenos quando com-
parados aos de outros estudos, como, por exemplo, o estudo de coorte. Por
outro lado, tais estudos apresentam um particular problema, o de resul-
tados propensos a vı́cios devido, principalmente, à possı́veis manipulações
dos grupos de comparação, bem como pela exposição ao fator de interesse
ser medida utilizando-se de informações passadas. Se atenção apropriada
for dada às possı́veis fontes de vı́cios, os estudos caso-controle podem ser
válidos e eficientes para responder a muitas questões clı́nicas, em particular
aquelas envolvendo doenças raras.
16 Capı́tulo 1. Conceitos Introdutórios Giolo, S.R.

Do ponto de vista teórico, os estudos de coorte são mais adequados do


que os estudos caso-controle. Os estudos caso-controle são, contudo, mais
utilizados por envolverem menor custo e menor tempo para a coleta das
informações.
Na Tabela 1.6 encontram-se os resultados do mesmo estudo apresentado
na Tabela 1.5 realizado, no entanto, como um estudo caso-controle. Ob-
serve que, comparativamente ao estudo de coorte, um estudo caso-controle
apresenta os totais marginais n+1 e n+2 fixos em vez de n1+ e n2+ . Para a
Tabela 1.6 pode-se, também, associar o modelo produto de binomiais inde-
pendentes, uma binomial, contudo, para cada coluna da respectiva tabela.

Tabela 1.6: Resultados de um estudo caso-controle.

Grupos
Fumante Casos: com câncer Controles: sem câncer Totais
Sim 75 45
Não 21 56
Totais 96 101 197

1.4.4 Ensaios clı́nicos aleatorizados

Esses estudos são realizados, em geral, com o objetivo de comparar trata-


mentos. Inicialmente, os indivı́duos são alocados aleatoriamente ao grupo
controle (tratamento padrão) ou ao grupo tratamento (tratamento alterna-
tivo) e são, então, acompanhados para observação da ocorrência ou não da
resposta de interesse. Observe, nesses ensaios, que o pesquisador interfere
deliberadamente no curso natural dos acontecimentos, ou seja, impõe um
tratamento e, daı́, estes são ditos experimentais. Nos estudos de coorte e
caso-controle, o pesquisador não interfere no curso natural dos acontecimen-
tos, apenas observa. Por este fato são ditos observacionais. Um exemplo é
1.4. Estudos clı́nicos e modelos associados 17

mostrado na Tabela 1.7.

Tabela 1.7: Resultados de um ensaio clı́nico realizado para comparar dois


medicamentos usados no tratamento de infecções respiratórias severas.

Resposta
Tratamento Favorável Não favorável Totais
Novo 29 16 45
Padrão 14 31 45
Totais 43 47 90

A forma com que é conduzido um ensaio clı́nico aleatorizado nos mostra


que os mesmos, quando representados em tabelas de contingência, como a
Tabela 1.7, apresenta os totais marginais n1+ e n2+ fixos. Sendo assim, a
distribuição produto de binomias independentes, uma binomial para cada
linha, é a distribuição associada a esses estudos.
Os ensaios clı́nicos com drogas são, usualmente, classificados em 4 fases:

Fase I - são ensaios de farmacologia clı́nica e toxicidade no homem, relaciona-


dos à segurança e não a eficácia. Geralmente são realizados em voluntários
normais. O principal objetivo é determinar uma dose aceitável. Tipica-
mente, estudos nessa fase envolvem entre 20 a 80 indivı́duos.

Fase II - são ensaios iniciais de investigação clı́nica do efeito do tratamento


ainda em pequena escala da efetividade e segurança da droga, com moni-
toramento cuidadoso de cada paciente. Não mais do que 100 a 200 pacientes
por droga são selecionados nesta fase.

Fase III - Avaliação em larga escala do tratamento. Após a droga ter sido
considerada como razoavelmente efetiva, deve-se compará-la com o(s) trata-
mento(s) padrão disponı́vel, o que é feito em um ensaio clı́nico envolvendo
um número suficientemente grande de pacientes.

Fase IV - Fase de vigilância pós-comercialização: monitoramento de efeitos


adversos, estudos de morbidade e mortalidade.
18 Capı́tulo 1. Conceitos Introdutórios Giolo, S.R.

Anterior às fases citadas, deve existir um programa de pesquisa pré-


clı́nica, incluindo a sı́ntese de novas drogas e estudos com animais referentes
ao metabolismo, eficácia e, sobretudo, a toxicidade potencial. A fase pré-
clı́nica é responsável pela maior parte do gasto estimado com a pesquisa
sobre drogas. A duração média de um programa inteiro de pesquisa rela-
cionado a uma droga é de 7 a 10 anos. Aproximadamente metade desse
tempo é gasto em ensaios clı́nicos, que envolvem milhões de dólares.
Ao realizar um ensaio clı́nico aleatorizado, há uma tendência dos par-
ticipantes (pacientes, profissionais envolvidos e avaliadores) mudarem seu
comportamento por serem alvos de interesse e atenção especial. Por exem-
plo, o fato do paciente saber que está recebendo um novo tratamento pode
ter um efeito psicológico benéfico e, ao contrário, saber que está recebendo
um tratamento convencional, ou nenhum tratamento, pode exercer um
efeito desfavorável. Também o entusiasmo, por exemplo, do médico por
algum novo tratamento, pode ser transferido para o paciente e ocasionar
uma mudança de atitude. Os avaliadores, por outro lado, podem registrar
respostas mais favoráveis para o tratamento que acreditam ser superior. O
não conhecimento dos grupos e o uso de placebo auxiliam a evitar esses
vı́cios. Ensaios clı́nicos em que os pacientes não conhecem o tratamento
que estão recebendo são denominados ensaios cegos. O termo duplo-cego é
usado nos casos em que, nem os pacientes, nem os responsáveis pela sua as-
sistência e avaliação, conhecem o tratamento que está sendo administrado
para cada paciente.

1.4.5 Estudos tranversais ou cross-sectional

Em estudos transversais coletam-se simultaneamente, de um grupo ou po-


pulação de indivı́duos, informações sobre uma variedade de caracterı́sticas
que são posteriormente cruzadas em tabelas de contingência. Esta coleta
1.4. Estudos clı́nicos e modelos associados 19

é realizada em um único ponto no tempo e, freqüentemente, o pesquisador


não sabe o que ocorreu antes desse ponto. A obtenção da prevalência da
doença, ou seja, da proporção do grupo com a doença no momento em que
foi realizada a coleta, é um dos objetivos desses estudos. Constitui outro
interesse, em geral, a investigação de potenciais relações causais entre os
fatores suspeitos serem de risco e a doença.

Os estudos transversais podem ser vistos como avaliações fotográficas


de grupos ou populações de indivı́duos. O termo transversal é usado para
indicar que os indivı́duos estão sendo estudados em um ponto no tempo
(corte transversal). O interesse está em avaliar a associação entre as res-
postas obtidas. Nesses estudos é comum considerar algumas das variáveis
como fatores.

Um exemplo é o de um estudo realizado com crianças para determinar


se elas apresentavam sintomas de doenças respiratórias. Neste estudo, um
total de n = 1080 crianças foram examinadas anotando-se, para cada uma
delas, o sexo e se apresentavam, ou não, os sintomas. Os resultados são
mostrados na Tabela 1.8. Note, neste estudo, que apenas n é fixo e, desse
modo, tem-se a distribuição multinomial associada à Tabela 1.8.

Tabela 1.8: Estudo transversal sobre doenças respiratórias.

Sintomas
Sexo Sim Não Totais
Feminino 355 125 480
Masculino 410 190 600
Totais 765 315 1080
20 Capı́tulo 1. Conceitos Introdutórios Giolo, S.R.

1.5 Incidência e prevalência

Nos estudos de coorte e nos ensaios clı́nicos, os indivı́duos apresentam no


inı́cio do experimento a mesma condição clı́nica. São, então, acompanhados
por um perı́odo de tempo para observação da ocorrência de casos novos
(por exemplo, de doença, de cura etc.). Em ambos os estudos citados, é
possı́vel a obtenção de uma medida denominada incidência. A incidência
(seja de doença, de cura etc.) é definida como a proporção de indivı́duos
em um determinado grupo que desenvolve a resposta de interesse ao longo
do tempo de observação, isto é:

indivı́duos que apresentam resposta positiva no perı́odo de observação


Incidência = .
total de indivı́duos no inı́cio do experimento

Nos estudos transversais, a avaliação não é feita ao longo do tempo, mas


somente em um único ponto (momento) no tempo. Alguns dos indivı́duos
neste ponto do tempo apresentarão a resposta e outros não. Não é ob-
servado, portanto, casos novos ao longo do tempo, mas somente os casos
existentes naquele momento especı́fico. A medida adequada é, desse modo,
a prevalência, isto é, a proporção de indivı́duos do grupo com resposta
positiva naquele momento especı́fico do tempo, ou seja:

indivı́duos com a resposta em determinado ponto no tempo


Prevalência = .
indivı́duos pesquisados em determinado ponto no tempo

1.6 Exercı́cios

1. Em uma pesquisa realizada com 39 pacientes diagnosticados como


tendo a doença de Hodgkin, estes foram classificados por sexo, bem
como se apresentavam ou não anormalidades na função pulmonar. Os
resultados são mostrados na Tabela 1.9.
1.6. Exercı́cios 21

Tabela 1.9: Pacientes com a doença de Hodgkin.


Anormalidade Pulmonar
Sexo Presente Ausente Total
Masculino 14 12 26
Feminino 12 01 13
Total 26 13 39

(a) Que tipo de estudo foi realizado?


(b) Qual o modelo probabilı́stico associado?
(c) É possı́vel obter a incidência ou prevalência de anormalidade pul-
monar com os dados desse estudo? Se sim, obtenha e interprete.

2. Com o objetivo de verificar a existência de associação entre fumo e


câncer de pulmão, um grupo de 2000 pessoas (800 fumantes e 1200
não fumantes), foi acompanhado por 20 anos. Os resultados foram:

Tabela 1.10: Estudo sobre fumo e câncer de pulmão.


Câncer de Pulmão
Status Sim Não Total
Fumante 90 710 800
Não Fumante 10 1190 1200
Total 100 1900 2000

(a) Que tipo de estudo foi realizado?


(b) Qual o modelo probabilı́stico associado?
(c) É possı́vel obter a incidência de câncer de pulmão entre os fu-
mantes e não fumantes? Se sim, obtenha e interprete.
(d) Há indı́cios de que os fumantes sejam mais propensos ao câncer
de pulmão?
22 Capı́tulo 1. Conceitos Introdutórios Giolo, S.R.

3. Com o objetivo de verificar se o histórico familiar constitui um fator


de risco para o câncer de mama, um grupo de mulheres com a referida
doença e, outro grupo, livre da doença foram comparados. A partir
dos resultados, que se encontram na Tabela 1.11, responda:

Tabela 1.11: Estudo sobre histórico familiar e câncer de mama.


Câncer de Mama
Histórico familiar Sim Não Total
Sim 17 36 53
Não 8 102 110
Total 25 138 163

(a) Que tipo de estudo foi realizado?


(b) Quais cuidados devem ser tomados para a escolha dos dois grupos
de mulheres?
(c) Qual o modelo probabilı́stico associado?
(d) Este estudo poderia ter sido conduzido de outro modo? Se sim,
descreva como.
(e) Cite as vantagens e desvantagens do estudo ter sido realizado como
foi descrito.
(f) É possı́vel obter a incidência ou prevalência de câncer de mama
com os dados desse estudo? Se sim, obtenha e interprete.

4. Um estudo foi conduzido para investigar o efeito da vitamina C em


uma determinada desordem renal genética chamada nephropathic cys-
tosis. A resposta considerada foi melhora clı́nica (sim ou não). Os
dados obtidos encontram-se na Tabela 1.12.

(a) Qual o modo mais adequado, em sua opinião, para planejar e


realizar este experimento? Justifique.
1.6. Exercı́cios 23

Tabela 1.12: Estudo sobre efeito da vitamina C.


Melhora Clı́nica
Vitamina C Sim Não Total
Sim 24 8 32
Não 29 3 32
Total 53 11 64
Fonte: Schneider et al. (1979)

(b) Qual o modelo probabilı́stico associado ao delineamento escolhido


em (a)?

5. Um estudo foi realizado para verificar a existência de associação entre


câncer de esôfago e consumo de álcool. Os resultados desse estudo
foram os apresentados na Tabela 1.13.

Tabela 1.13: Estudo sobre câncer de esôfago.


Câncer de Esôfago
Consumo de Álcool Sim Não Total
Sim 96 109 205
Não 104 666 770
Total 200 775 975
Fonte: Tuyns et al (1977)

(a) Como este experimento poderia ter sido planejado e conduzido?


Na sua opinião, qual o mais adequado para responder ao objetivo do
pesquisador?

(b) Identifique os modelos probabilı́sticos associados aos delineamen-


tos descritos em (a).

6. Uma pesquisa foi conduzida para avaliar a opinião de homens e mulhe-


res a respeito da legalização do aborto. Das 500 mulheres e 600
24 Capı́tulo 1. Conceitos Introdutórios Giolo, S.R.

homens entrevistados, foram obtidos os resultados mostrados na Tabela 1.14.

Tabela 1.14: Estudo sobre o aborto.


Fávorável à legalização
Sexo Sim Não Total
Mulheres 309 191 500
Homens 319 281 600
Total 628 472 1100
Fonte: Christensen (1997)

(a) Qual o esquema amostral utilizado nesta pesquisa e o modelo


probabilı́stico associado?

(b) Com base somente nos valores observados, diria existir algum
indı́cio de que haja diferentes opiniões entre homens e mulheres?
Capı́tulo 2

Estratégias de Análise

2.1 Introdução

Algumas estratégias de análise de dados categóricos são tratadas neste


capı́tulo. Inicialmente, é considerada a análise de experimentos em que
os resultados estejam dispostos em tabelas de contingência 2 × 2. São
então analisados, a seguir, esperimentos em que os resultados encontram-se
dispostos em tabelas de contingência 2 × r, s × 2 e s × r (r, s > 2). Será
visto que muitas questões sobre dados categóricos podem ser respondidas
estabelecendo-se hipóteses de associação. Para, contudo, descrever a na-
tureza dessa associação, quando presente nos dados, bem como os padrões
dessa associação, serão utilizados modelos, tais como, o modelo de regressão
logı́stica e o modelo de regressão Poisson. Estes modelos são tratados nos
Capı́tulos 3 e 4, respectivamente.

2.2 Análise de Tabelas de Contingência 2 × 2

Considere os dados apresentados na Tabela 1.1 do Capı́tulo 1, referentes


aos resultados obtidos a partir de um ensaio clı́nico aleatorizado realizado

25
26 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

para comparar dois medicamentos. A questão de interesse, nesse caso, é


averiguar se as taxas de melhora para o placebo e para o novo medica-
mento são as mesmas. Esta questão pode ser respondida testando-se a
existência de associação entre o medicamento e a resposta do paciente, ou
seja, testando-se a seguinte hipótese nula:“H0 : não existe associação en-
tre o tratamento e a resposta do paciente”. Levando-se em consideração o
delineamento amostral, esta hipótese é equivalentemente especificada por:

a) H0 : p11 = p21 , caso o esquema amostral seja aquele em que os totais


amostrais ni+ são fixos. Pelo fato desta hipótese traduzir a igual-
dade dos parâmetros distribucionais, ela é denominada hipótese de
homogeneidade.

b) H0 : pij = (pi+ ) (p+j ), caso o esquema amostral corresponder àquele


em que somente o total amostral n é fixo. Esta hipótese é denominada
hipótese de independência, uma vez que a ausência de associação neste
caso, em termos probabilı́sticos, significa independência mútua.
(µi+ ) (µ+j )
c) H0 : µij = , caso o esquema amostral seja aquele em que
µ
os totais marginais são todos aleatórios. Como esta hipótese evidencia
uma forma multiplicativa nas médias, ela é denominada hipótese de
multiplicatividade.

Visto as hiṕoteses nulas de homogeneidade, independência e multiplica-


tividade serem equivalentes no que diz respeito a ausência de associação
entre as duas variáveis de interesse, alguns testes apropriados para testá-
las, bem como algumas medidas de associação, são apresentados a seguir.

2.2.1 Estatı́sticas de Teste

No estudo experimental que produziu os dados apresentados na Tabela 1.1,


os totais marginais n1+ e n2+ são fixos, pois 60 pacientes foram alocados
2.2. Análise de Tabelas de Contingência 2 × 2 27

aleatoriamente a um dos tratamentos, o placebo, e 64 ao outro tratamento.


Sob a hipótese nula de não existência de diferenças entre os tratamentos, os
totais marginais n+1 e n+2 são também considerados fixos e, portanto, sob
H0 , a distribuição de probabilidade associada é a hipergeométrica. Assim,
o valor esperado de nij é:

(ni+ ) (n+j )
E(Nij | H0 ) = = mij
n

e a variância:

(n1+ ) (n2+ ) (n+1 ) (n+2 )


V (Nij | H0 ) = = vij .
n2 (n − 1)

Para uma amostra suficientemente grande, n11 tem aproximadamente


uma distribuição normal, o que implica que:

(n11 − m11 )2
Q= (2.1)
v11

tem aproximadamente uma distribuição qui-quadrado com um grau de


liberdade. Não importa como as linhas e colunas sejam arranjadas, Q
assumirá sempre o mesmo valor, uma vez que:

| n11 n22 − n12 n21 |


| n11 − m11 | = | nij − mij | = .
n

Uma estatı́stica relacionada a Q é a estatı́stica de Pearson dada por:


2 X
X 2
(nij − mij )2 n
QP = = Q. (2.2)
mij (n − 1)
i=1 j=1

Se as contagens (freqüências) nas caselas forem suficientemente grandes,


QP segue uma distribuição qui-quadrado com um grau de liberdade. Ainda,
quando n cresce, QP e Q convergem. Uma regra útil para determinar o
tamanho amostral adequado para Q e QP é que o valor esperado mij seja
maior do que 5 para todas as caselas.
28 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

Note, que as estatı́sticas Qp e Q foram utilizadas para testar a hipótese


de homogeneidade em um ensaio clı́nico aleatorizado. Estas podem ser,
contudo, utilizadas em experimentos resultantes de qualquer um dos três
delineamentos amostrais apresentados, pois, sob as hipóteses de homogenei-
(ni+ ) (n+j )
dade, independência e multiplicatividade, E(Nij | H0 ) = mij = n .

Muitas vezes, contudo, as freqüências observadas nas caselas de uma


tabela de contingência são muito pequenas inviabilizando, assim, o uso da
distribuição qui-quadrado. Nessas situações, métodos exatos baseados na
distribuição hipergeométrica são usados para se testar a hipótese nula de
não associação. O teste exato de Fisher, em que o valor p é determinado
somando-se as probabilidades das tabelas que são pouco prováveis, dado
que as marginais são fixas, é, então, utilizado.

2.2.2 Medidas de Associação

Estabelecida a associação em uma tabela de contingência 2 × 2, pode haver


o interesse em descrever a intensidade desta associação.

(a) Diferença de proporções

Para estudos como, por exemplo, os de coorte e clı́nico aleatorizado, em que


se tem duas amostras aleatórias independentes de tamanhos fixos n1+ e n2+ ,
esta intensidade pode ser descrita por meio da diferença das proporções p 11
e p21 obtidas a partir dessas amostras, bem como por meio do intervalo de
confiança correspondente a esta diferença.
Assim, se os dois grupos são amostras aleatórias independentes com
probabilidades de sucesso π11 e π21 , respectivamente, e há o interesse em
se estimar a diferença de proporções, isto é, d = p11 − p21 , em que o valor
esperado é:

E[p11 − p21 ] = π11 − π21


2.2. Análise de Tabelas de Contingência 2 × 2 29

e a variância:
π11 (1 − π11 ) π21 (1 − π21 )
V [p11 − p21 ] = + ,
n1+ n2+
para a qual um estimador não-viciado é:
p11 (1 − p11 ) p21 (1 − p21 )
v[p11 − p21 ] = + ,
n1+ − 1 n2+ − 1
tem-se o seguinte intervalo para (π11 −π21 ), a um nı́vel de confiança (1-α)%:
!!
√ 1 1 1
d ± zα/2 v + + ,
2 n1+ n2+

em que zα/2 denota o 100(1 − α/2) percentil da distribuição normal padrão.

Exemplo: Para os dados da Tabela 1.1 tem-se: Q = 21,53 (p < 0,0001)


e Qp = 21,7 (p < 0,0001). Ambas as estatı́sticas são claramente significa-
tivas e, portanto, há uma forte associação entre o tratamento e a resposta
do paciente. Como se trata de um experimento em que as marginais n1+
e n2+ são fixas, tem-se que a diferença estimada entre as proporções é
d = 0, 667 − 0, 25 = 0, 417 com correspondente intervalo, ao nı́vel de 95%
de confiança, dado por: I.C.95% (d) = 0,417 ± 0,177 = (0,24; 0,594), que
não inclui o valor zero. Conclui-se, portanto, que o novo tratamento é
significativamente superior ao placebo.

(b) Risco relativo e odds ratio (razão de chances)

A odds ratio (OR) é uma medida que descreve a intensidade de associação


em uma tabela de contingência 2 × 2 e é calculada por:
n11 /n12 n11 n22
OR = = .
n21 /n22 n12 n21
Esta medida pode ser usada em qualquer tipo de estudo e varia de 0
a infinito. Quando OR = 1, não existe associação entre as variáveis. Se,
30 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

no entanto, OR > 1, o grupo 1 tem chance (odds) maior de apresentar a


resposta do que o grupo 2. Conseqüentemente, se OR < 1, o grupo 1 tem
chance menor de apresentar a resposta do que o grupo 2. Para obtenção
de um I.C. para OR, toma-se o logaritmo da mesma na base e, isto é,
f = log(OR), cuja variância estimada é:
!
1 1 1 1
V (f ) = + + + .
n11 n12 n21 n22

Assim, um I.C. para OR, ao nı́vel 100(1-α)% de confiança, é dado por:


 p 
I.C.(OR) = exp f ± zα/2 V (f ) ,

em que zα/2 denota o 100(1 − α/2) percentil da distribuição normal padrão.


Para estudos prospectivos (como, por exemplo os de coorte e ensaios
clı́nicos aleatorizados), uma outra quantidade denominada risco relativo
pode também ser obtida. O risco relativo (RR) fornece o risco de desen-
volvimento de uma determinada condição (freqüentemente uma doença)
para um grupo comparado a outro grupo. Esta medida é expressa por:
p11
RR =
p21
e pode ser mostrado que:
" #
1 + (n21 /n22 )
RR = OR × .
1 + (n11 /n12 )

Logo, a OR se aproxima do RR quando n11 e n21 são pequenos relati-


vamente a n12 e n22 , respectivamente. Essa situação se verifica para o caso
de doenças raras.
Um I.C. para RR é também obtido tomando-se o logaritmo, na base e,
do RR, isto é, f ∗ = log(RR) = log(p11 ) − log(p21 ), cuja variância é:
(1 − p11 ) (1 − p21 )
V (f ∗ ) = +
(n1+ ) (p11 ) (n2+ ) (p21 )
2.2. Análise de Tabelas de Contingência 2 × 2 31

e, portanto, um I.C. para RR, ao nı́vel 100(1-α)% de confiança, é dado por:


 p 
I.C.(RR) = exp f ∗ ± zα/2 V (f ∗ ) ,

em que zα/2 denota o 100(1 − α/2) percentil da distribuição normal padrão.

2.2.3 Exemplos

Exemplo 1: Considere os dados apresentados na Tabela 1.1 referentes a


um estudo clı́nico aleatorizado realizado para testar um novo medicamento.
Nesse estudo, a hipótese nula de não associação entre o medicamento e a
resposta do paciente corresponde a hipótese de homogeneidade H 0 : p11 =
p21 . Para testá-la foram obtidos os seguintes resultados:

Q = 21, 53 (p < 0, 0001)

Qp = 21, 70 (p < 0, 0001)

d(novo−placebo) = (0, 667 − 0, 25) = 0, 417

IC(d)(95%) = (0, 24; 0, 594)

RRnovo|placebo = 2, 67

IC(RR)(95%) = (1, 68; 4, 22).

Com base nesses resultados, pode-se concluir que o medicamento está


associado à resposta do paciente e, sendo assim, as taxas de melhora para o
placebo e para o novo medicamento diferem entre si. Para o novo medica-
mento há uma proporção maior de pacientes apresentando melhora. Essa
diferença entre as proporções de melhora é estimada em 41,7% e pode
variar, ao nı́vel de confiança de 95%, entre 24% e 59,4%. Pode-se, ainda,
concluir que o risco de melhora dos pacientes submetidos ao novo medica-
mento é 2,67 vezes o risco dos pacientes que receberam placebo. Essa
estimativa, ao nı́vel de confiança de 95%, pode variar entre 1,68 a 4,22
vezes. O novo medicamento é, desse modo, recomendável.
32 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

Exemplo 2: Nesse exemplo, é analisado os dados apresentados na Tabela


1.4 referentes a um estudo realizado para verificar a influência da cor da
armadilha sobre a atração de machos e fêmeas. Para se testar a hipótese
nula de não associação entre a cor da armadilha e sexo, o que equivale a
(µi+ ) (µ+j )
testar a hipótese de multiplicatividade H0 : µij = , obtiveram-se
µ
os resultados:

Q = 0, 0013 (p = 0, 9718); Qp = 0, 0013 (p = 0, 9718)

OR = 1, 011

IC(OR)(95%) = (0, 55; 1, 857).

Não há, portanto, evidências estatı́sticas para a rejeição da hipótese


nula e, desse modo, pode-se concluir não haver evidências de que a atração
de machos e fêmeas esteja sendo influenciada pela cor da armadilha. A
atração de machos e fêmeas, da espécie coletada, é semelhante usando-
se armadilhas alaranjadas e amarelas. Os machos apresentam, contudo,
atração, em média, maior às armadilhas do que as fêmeas,

Exemplo 3: Referem-se aos dados apresentados na Tabela 1.5, resultado


de um estudo de coorte realizado para pesquisar a associação entre taba-
gismo e câncer de pulmão. Para testar a hipótese nula de não existência
dessa associação, o que equivale a testar H0 : p11 = p21 , foram obtidos os
seguintes resultados:

Q = 23, 18 (p < 0, 0001)

Qp = 23, 29 (p < 0, 0001)

d(fumantes - não fumantes) = (0, 625 − 0, 2777) = 0, 3523

IC(d)(95%) = (0, 21; 0, 495)

RR(fumantes | não fumantes) = 2, 29

IC(RR)(95%) = (1, 55; 3, 38).


2.2. Análise de Tabelas de Contingência 2 × 2 33

A conclusão, nesse exemplo, é de que existe associação entre tabagismo


e câncer de pulmão. A proporção de fumantes com câncer de pulmão foi
maior do que a dos não fumantes. A diferença entre essas proporções foi
estimada em 35,23%. Essa estimativa pode variar, ao nı́vel de confiança de
95%, entre 21% e 49,5%. Pode-se, ainda, concluir que o risco de câncer de
pulmão dos fumantes é 2,29 vezes o risco dos não fumantes. Esta estimativa,
ao nı́vel de confiança de 95%, varia entre 1,55 a 3,38 vezes. O tabagismo
pode, portanto, ser considerado um fator de risco para o câncer de pulmão.

Exemplo 4: Neste exemplo são analisados os dados apresentados na Ta-


bela 1.6 referentes a um estudo caso-controle realizado para pesquisar a
associação entre tabagismo e câncer de pulmão. Para testar a hipótese
nula de não existência dessa associação (H0 : pij = pi+ p+j ), obtiveram-se
os seguintes resultados:

Q = 23, 18 (p < 0, 0001)

Qp = 23, 29 (p < 0, 0001)

OR = 4, 44

IC(OR)(95%) = (2, 37; 8, 28).

Conclui-se, portanto, que o tabagismo e câncer de pulmão estão as-


sociados, ou seja, as taxas de desenvolvimento de câncer de pulmão para
fumantes e não fumantes diferem. A chance dos indivı́duos que fumam
apresentarem a doença é 4,44 vezes a chance dos que não fumam, chance
esta que, ao nı́vel de confiança de 95%, pode variar entre 2,37 e 8,28 vezes.

Exemplo 5: Refere-se ao estudo transversal apresentado na Tabela 1.8


sobre doenças respiratórias realizado com crianças. O objetivo é verificar
se sexo e doenças respiratórias estariam associadas. A hipótese nula con-
siderada é, portanto, a de não associação entre sexo e doenças respiratórias
34 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

(H0 : pij = pi+ p+j ). Para testá-la, obtiveram-se os resultados:

Q = 4, 0803 (p = 0, 0434)

Qp = 4, 084 (p = 0, 0433)

OR(f eminino|masculino) = 1, 3161

IC(OR)(95%) = (1, 008; 1, 718).

Com base nos resultados obtidos, e considerando-se um nı́vel de sig-


nificância de 5%, pode-se concluir que existe associação entre sexo e doenças
respiratórias, ou seja, as taxas de doenças respiratórias em crianças do sexo
feminino e masculino diferem. Observe, contudo, que a OR estimada não
se encontra tão distante do valor 1 (que indicaria chances não diferentes
entre os sexos). Este fato mostra que a chance das crianças do sexo femi-
nino apresentarem doenças respiratórias, não é muito maior do que a das
crianças do sexo masculino. Essa chance é de 1,31 vezes podendo, ao nı́vel
de confiança de 95%, variar entre 1,008 e 1,718 vezes.

Exemplo 6: Neste exemplo, são analisados os dados apresentados na


Tabela 1.7 referentes a um ensaio clı́nico aleatorizado realizado para com-
parar dois medicamentos usados no tratamento de infecções severas. Para
testar a hipótese nula de não associação entre o tratamento e a resposta do
paciente (H0 : p11 = p21 ), os seguintes resultados foram obtidos:

Q = 9, 9085 (p = 0, 0016)

Qp = 10, 02 (p = 0, 0015)

d(novo - padrão) = (0, 6444 − 0, 3111) = 0, 3333

IC(d)(95%) = (0, 114; 0, 552)

RR(novo | padrão) = 2, 07

IC(RR)(95%) = (1, 27; 3, 36).


2.2. Análise de Tabelas de Contingência 2 × 2 35

Pode-se, portanto, concluir pela existência de associação entre o trata-


mento e a resposta do paciente, o que implica que as taxas de respostas
favoráveis para os tratamentos novo e padrão diferem. Pacientes que rece-
beram o novo tratamento apresentaram uma proporção maior de resposta
favorável. A diferença entre as proporções foi estimada em 33,33%. Esta
estimativa pode variar, ao nı́vel de confiança de 95%, entre 11,4% e 55,2%.
Conclui-se, ainda, que o risco de resposta favorável dos pacientes que re-
ceberam o novo tratamento é 2,07 vezes o risco daqueles que receberam o
tratamento padrão. Esta estimativa, ao nı́vel de confiança de 95%, pode
variar entre 1,27 a 3,36 vezes. O novo medicamento é, desse modo, pre-
ferı́vel ao medicamento padrão.

2.2.4 Sensibilidade e Especificidade

A sensibilidade e especificidade são medidas usadas, em particular, quando


se deseja determinar a eficácia de um exame (teste) realizado para detectar
a presença de uma doença ou outro evento qualquer. O exame de DNA,
realizado para saber se o indivı́duo é de fato o pai de uma criança, é um
exemplo desses testes. Outro exemplo, é o do exame de AIDS, realizado
para saber se o sujeito é soropositivo.
As medidas citadas determinam a eficiência desses testes em detectar
a verdade. A sensibilidade é definida como a proporção de resultados
positivos que um teste apresenta, quando realizado em sujeitos conhecidos
terem a doença, ou seja, é a proporção de verdadeiros positivos. A es-
pecificidade, por outro lado, é definida como a proporção de resultados
negativos que um teste apresenta, quando realizado em sujeitos conhecidos
estarem livres da doença (proporção de verdadeiros negativos). O desejado
de um exame (teste) é que ele tenha, simultâneamente, alta sensibilidade e
especificidade.
36 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

A sensibilidade e especificidade são também usadas para testar se um


novo exame, alternativo ao já existente, mas de custo inferior, é tão efi-
ciente quanto aquele tido como o melhor na literatura. O melhor teste é,
geralmente, referenciado na literatura como teste ouro ou teste padrão.

Considere a Tabela 2.1, que apresenta os resultados positivos e negativos


de um exame realizado em 180 pacientes para verificar a presença de uma
doença de pele.

Tabela 2.1: Resultados de um exame realizado para verificar a presença de


uma doença de pele.

Resultado do exame
Status + - Totais
Doença presente 52 8 60
Doença ausente 20 100 120

Para esses dados, a sensibilidade e especificidade estimadas são dadas,


respectivamente, por:

52 100
Sensibilidade = = 0, 867 e Especificidade = = 0, 833.
60 120

O exame usado apresenta, portanto, boa sensibilidade e especificidade


detectando em torno de 87% dos casos positivos e 83% dos casos negativos.
O exame deixou, contudo, de detectar em torno de 13% dos casos posi-
tivos (taxa de falsos negativos = 8/60 = 0,1333) e em torno de 17% dos
casos apresentou resultado positivo erroneamente (taxa de falsos positivos
= 20/120 = 0,1667). A taxa bruta de concordância (poder preditivo ou
acurácia) do exame foi de 152/180 = 0.844 (84,4%). Dos 72 resultados
positivos apresentados pelo exame, 52 estavam corretos, ou seja, o poder
preditivo positivo do exame foi de 52/72 = 0,7222 (72,2%). Por outro lado,
2.2. Análise de Tabelas de Contingência 2 × 2 37

dos 108 resultados negativos apresentados pelo exame, 100 estavam corre-
tos fornecendo, assim, para o poder preditivo negativo do exame, um valor
de 100/108 = 0,926 (92,6%).
Seria, desse modo, recomendável que o teste fosse realizado mais de
uma vez, em cada paciente, para evitar que um paciente doente não seja
tratado ou que, um paciente livre da doença seja tratado indevidamente.
Se, contudo, o medicamento a ser utilizado não apresentar efeitos adver-
sos, recomenda-se um segundo teste somente para os pacientes que apre-
sentarem resultado negativo. Como cada doença apresenta suas peculiari-
dades, deve-se analisar, para cada uma delas, o que é de fato relevante. Em
determinadas situações, por exemplo, há um interesse maior em testes com
alta sensibilidade e, especificidade, relativamente inferior.

2.2.5 Teste de McNemar

As tabelas de contingência 2 × 2 contêm, em algumas situações, informações


pareadas. Por exemplo, situações em que são realizadas duas perguntas
relacionadas ou, a mesma pergunta é feita para um par de indivı́duos
relacionados (casal, gêmeos etc.) ou, ainda, informações tomadas antes
e após algum acontecimento (uso de um medicamento, campanha publi-
citária etc.). Nesses casos, o interesse é testar se a proporção dos pares
respondendo sim para a pergunta 1 é a mesma dos que respondem sim
para a pergunta 2, ou seja, testar a hipótese nula:

n+1 n1+
H0 : = .
n n

Para testar a hipótese citada, McNemar (1947), propôs um teste qui-


quadrado baseado na distribuição binomial. Ele mostra que somente os
elementos fora da diagonal são importantes para determinar se existem
38 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

diferenças entre essas proporções. A estatı́stica desse teste é dada por:


(n12 − n21 )2
QM = ,
(n12 + n21 )
que, sob H0 , tem aproximadamente uma distribuição qui-quadrado com 1
grau de liberdade.

Exemplo: Considere a taxa de aprovação, apresentada na Tabela 2.2,


de um determinado polı́tico, antes e após o anúncio de certas medidas. O
teste da hipótese nula H0 : proporção de aprovação do candidato antes e
após o anúncio das medidas é a mesma, resultou em QM = 1,67 (valor p =
0,1967). Sendo assim, não é possı́vel rejeitar H0 e, desse modo, não se pode
afirmar que a taxa de aprovação desse polı́tico se alterou após o anúncio
das medidas.

Tabela 2.2: Resultados de um pesquisa realizada para verificar a taxa de


aprovação de um polı́tico antes e após o anúncio de certas medidas.

Após
Antes Aprova Reprova Totais
Aprova 20 5 25
Reprova 10 10 20
Totais 30 15 45

O pacote estatı́stico R foi usado para obtenção dos resultados apresen-


tados. Os comandos utilizados encontram-se no apêndice deste texto.

2.3 Análise de Tabelas de Contingência 2 × r

Considere a Tabela 2.3 que mostra o resultado de um estudo clı́nico aleatori-


zado duplo-cego realizado para pesquisar um tratamento para artrite reu-
matóide.
2.3. Análise de Tabelas de Contingência 2 × r 39

Tabela 2.3: Resultado de um estudo clı́nico realizado para investigar um


tratamento para artrite reumatóide.

Melhora
Tratamento Nenhuma Alguma Acentuada Totais
Ativo 13 7 21 41
Placebo 29 7 7 43
Totais 42 14 28 84

Note que a variável resposta é ordinal e, então, para se fazer uso desta
caracterı́stica ordinal da resposta, são, em geral, assumidos escores para
suas categorias. Obtém-se, assim, escores médios (um para cada linha da
tabela) que são, então, comparados. O escore médio para a i-ésima linha
(i = 1, 2) da Tabela 2.3 é definido por:
3
X aj nij
f¯i = i = 1, 2,
ni+
j=1

em que a = (a1 , a2 , a3 ) é o vetor de escores assumidos para as categorias


da variável resposta.
Se a hipótese H0 é a de não associação entre o tratamento e o grau
de melhora, o que significa que as freqüências são similares para todos as
categorias, então:
3
! 3
X n1+ n+j X n+j
E(f¯1 | H0 ) = aj = aj = µa
n1+ n n
j=1 j=1

e a variância:

(n − n1+ ) X
3  n  (n − n ) v
+j 1+ a
V (f¯1 | H0 ) = (aj − µa )2 =
n1+ (n − 1) n n1+ (n − 1)
j=1

P3  
2 n+j
sendo va = j=1 (aj − µa ) n .
40 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

A quantidade f¯1 tem, pelo teorema central do limite, distribuição nor-


mal, de modo que, a quantidade:

(f¯1 − µa )2
QS = h i
(n − n1+ )/(n1+ (n − 1)) va

tem aproximadamente distribuição qui-quadrado com um grau de liber-


dade. QS é chamada estatı́stica escore médio. Por usar a informação or-
dinal da variável resposta, QS pode indicar onde as mudanças ocorrem.
Assim, as estatı́sticas Q e Qp são úteis para detectar tipos gerais de as-
sociação, mas não são tão eficientes quanto QS em detectar a localização
dessas mudanças.
Usando-se os escores a = (1, 2, 3) para, respectivamente, as catego-
rias: nenhuma, alguma e acentuada, foi obtido QS = 12,859 (p = 0,0003).
Conclui-se, desse modo, que os tratamentos diferem e que o tratamento
Ativo apresentou desempenho melhor (grau de melhora mais acentuado)
do que o placebo, uma vez que f¯A = 2, 195 e f¯P = 1, 488.

2.3.1 Escolha dos Escores

As estratégias de análise de dados ordinais requerem a escolha dos escores


a serem atribuı́dos às categorias da variável resposta. Dentre as várias
maneiras de escolha, as duas mais usuais são:

i) escores inteiros: estes são definidos como aj = j, para j = 1, · · · , r,


e são úteis quando as categorias ordenadas da variável resposta são
vistas como igualmente espaçadas. São também úteis, quando as
categorias da variável resposta correspondem à contagens inteiras.
Os escores inteiros (0, 1, · · · ) e (1, 2, · · · ), em termos de conclusões,
produzem resultados similares.
2.4. Análise de Tabelas de Contingência s × 2 41

ii) escores padronizados (midranks): estes são restritos a valores


entre 0 e 1 e são definidos por:
P 
j
2 k=1 +k − n+j + 1
n
aj = .
2(n + 1)

A vantagem desses escores sobre os escores inteiros é que o analista


não se responsabiliza diretamente pela seleção dos escores. Ele usa
os dados para obtê-los.

Para muitos conjuntos de dados, a escolha dos escores apresentam pe-


queno efeito nos resultados. Escolhas diferentes de escores inteiros usual-
mente fornecem resultados similares. Isso pode, contudo, não acontecer
quando os dados são muito desbalanceados, tal como quando algumas cate-
gorias apresentam muito mais observações do que outras. Com os escores
padronizados (midranks) isso também ocorre, uma vez que aquelas catego-
rias apresentando poucas observações, em relação as demais, apresentarão
escores muito próximos. A conseqüência é que as distâncias entre os nı́veis
da variável resposta podem vir a ser consideradas muito mais próximas do
que elas realmente são.
Como pode ser visto, a escolha dos escores não é uma tarefa muito sim-
ples. Agresti (1990, 1996) recomenda que os dados sejam analisados usando
diversos razoáveis conjuntos de escores para determinar se conclusões im-
portantes dependem das escolhas feitas. O pesquisador é, sem dúvida, de
fundamental importância para o entendimento das distâncias entre as cate-
gorias da variável resposta e conseqüente escolha adequada dos escores.

2.4 Análise de Tabelas de Contingência s × 2

Os dados apresentados na Tabela 2.4 referem-se a um estudo sobre o uso


de tabaco por adolescentes (Bauman et al., 1989), em que o interesse era
42 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

testar a existência de associação entre a variável resposta (uso de tabaco)


e o fator consciência do risco de uso do tabaco pelo adolescente.

Tabela 2.4: Resultado de um estudo sobre o uso de tabaco por adolescentes.

Consciência do risco Não usa tabaco Usa tabaco Totais


Mı́nima 70 33 103
Moderada 202 40 242
Substancial 218 11 229
Totais 490 84 574

Para esses dados observam-se, a variável resposta (uso de tabaco) como


sendo dicotômica e o fator consciência do risco, como ordinal. Na prática,
as duas variáveis podem ser consideradas ordinais, uma vez que é comum
associar os escores 0 e 1 às categorias de uma variável dicotômica. Assim, e
como no caso das tabelas de contingência 2 × r, escores c = (c1 , c2 , c3 ) são
assumidos para os nı́veis (mı́nima, moderada e substancial) do fator ordinal
consciência do risco. Por exemplo, c = (1, 2, 3). Para as categorias não usa
e usa tabaco da variável resposta assumem-se os escores a = (a1 , a2 ) =
(0, 1), respectivamente. Assim, tem-se:

3 X
X 2
ci aj nij
f¯ = ,
n
i=1 j=1

em que, sob H0 ,

3
X n X
2 n 
i+ +j
E(f¯ | H0 ) = ci aj = µ c µa
n n
i=1 j=1

e
( )
3
X n X
2
(aj − µa )2 (n+j /n)
i+
V (f¯ | H0 ) = (ci − µc ) 2
.
n (n + 1)
i=1 j=1
2.5. Análise de Tabelas de Contingência s × r 43

A quantidade f¯ tem distribuição aproximadamente normal para grandes


amostras de modo que, para essas situações, usa-se a estatı́stica de teste:

(f¯ − µc µa )2
QCS =
V ar(f¯ | H0 )
hP P i2
3 2
(n − 1) i=1 j=1 i(c − µ c )(a j − µ a ) n ij
hP ih P 2
i = (n − 1) rac
= ,
3 2 2 2
i=1 (c i − µ c ) n i+ j=1 (a j − µ a ) n +j

em que rac é o coeficiente de correlação de Pearson. Por este fato, Q CS é


denominada estatı́stica da correlação. Ainda, QCS tem distribuição aproxi-
mada qui-quadrado com 1 grau de liberdade.

Para os dados da Tabela 2.4, tem-se QCS = 42, 94 (p < 0,0001),


concluindo-se, portanto, haver uma forte associação entre consciência do
risco de fumo e uso de tabaco. Ainda, rac = −0, 274 e, desse modo, o uso
de tabaco diminui à medida que a consciência do risco aumenta.

2.5 Análise de Tabelas de Contingência s × r

Os conceitos de associação e medidas de associação em tabelas 2 × 2 e


associação em tabelas de contingência 2 × r e s × 2 foram apresentados e
discutidos até o momento. Nessa seção, tais conceitos são estendidos para
tabelas s × r (s, r > 2), cuja notação é apresentada na Tabela 2.5.

2.5.1 Associação geral em tabelas s × r

Para testar a hipótese nula de não existência de associação geral em uma


tabela de contingência s × r pode-se usar:
44 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

Tabela 2.5: Tabela de contingência s × r.

Categorias da variável resposta


Grupos 1 2 ··· r Totais
1 n11 n12 ··· n1r n1+
2 n21 n22 ··· n2r n2+
.. .. .. .. .. ..
. . . . . .
s ns1 ns2 ··· nsr ns+
Totais n+1 n+2 ··· n+r n

(a) Caso 1: variável resposta nominal

i) A estatı́stica qui-quadrado de Pearson que, de modo análogo ao apre-


sentado para uma tabela de contingência 2 × 2, é definida por:
s X
X r
(nij − mij )2
QP = .
mij
i=1 j=1

Quando todas as caselas apresentarem valores esperados maiores que 5,


tal estatı́stica segue aproximadamente uma distribuição Qui-quadra-
do com (s − 1)(r − 1) graus de liberdade.

ii) A estatı́stica Q que, similarmente ao apresentado para uma tabela de


contingência 2 × 2, é obtida por:

(n − 1)
Q= QP
n

Também Q segue aproximadamente uma distribuição qui-quadrado


com (s − 1)(r − 1) graus de liberdade.

(b) Caso 2: variável resposta ordinal

As estatı́sticas Q e QP são adequadas para a detecção de associação geral.


Não são, no entanto, tão adequadas quando a variável resposta é ordinal e
2.5. Análise de Tabelas de Contingência s × r 45

é de interesse levar em conta tal ordenação. Assim como para tabelas de


contingência 2 × r, a estatı́stica escore médio, QS , pode ser também usada
para tabelas de contingência s × r, de modo que QS fica expressa por:
P
(n − 1) si=1 ni+ (f¯i − µa )2
QS =
n va
P (a )(n ) P (a )(n )
em que f¯i = rj=1 jni+ ij , µa = E[f¯i | H0 ] = rj=1 j n +j e va =
Pr  
2 n+j . Nesses casos, Q tem aproximadamente distribuição
j=1 (aj −µa ) n S

qui-quadrado com (s−1) graus de liberdade, uma vez que os escores médios
de s grupos estão sendo comparados.

(c) Caso 3: ambas as variáveis ordinais

Esta situação ocorre, por exemplo, quando a variável resposta é ordinal e


os tratamentos sendo comparados são, na realidade, dosagens diferentes de
um mesmo medicamento. Em tais situações, escores são assumidos para os
nı́veis da variável resposta e, também, para os nı́veis do fator de interesse.
A estatı́stica de teste apropriada para esta situação, como visto para
tabelas de contingência s × 2, é a estatı́stica da correlação Q CS que, in-
dependente da dimensão da tabela, terá sempre distribuição aproximada
qui-quadrado com 1 grau de liberdade. Tal estatı́stica é expressa por:

2
QCS = (n − 1) rac

em que rac é o coeficiente de correlação de Pearson.

2.5.2 Teste exato para associação geral em tabelas s × r

Em alguns casos o tamanho amostral, em uma tabela de contingência s × r,


não é suficientemente grande e ocorrem diversos valores esperados menores
do que 5. As estatı́sticas qui-quadrado discutidas anteriormente não são,
portanto, recomendáveis. Nessas situações, uma alternativa é o teste exato
46 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

de Fisher para tabelas s × r. Esse método segue os mesmos princı́pios do


teste exato de Fisher para uma tabela de contingência 2 × 2, exceto que
as probabilidades são assumidas serem provenientes de uma distribuição
hipergeométrica multivariada, isto é.
s
Y r
Y
ni+ ! n+j !
i=1 j=1
P (Nij = nij ) = s Yr .
Y
n! nij !
i=1 j=1

2.5.3 Medidas de associação em tabelas s × r

Algumas medidas de associação encontram-se disponı́veis quando há inte-


resse em se obter a intensidade da associação em uma tabela s × r. A
escolha por uma dessas medidas, dependerá da escala de mensuração das
variáveis.

i) Medidas de associação ordinal


Nos casos em que as categorias exibidas nas linhas e colunas de uma
tabela de contingência s × r estiverem em uma escala intervalar ou
apresentarem escores que são igualmente espaçados, recomenda-se
(Stokes et al., 2000) como medida de associação, o coeficiente de
correlação de Pearson. Nos casos, contudo, em que as categorias são
de natureza ordinal mas não apresentarem uma escala de distância
óbvia, sugere-se, então, o coeficiente de correlação de Spearman o
qual baseia-se nos ranks das categorias.

ii) Medidas de associação nominal


Medidas de associação nos casos em que uma, ou ambas, as variáveis
de uma tabela de contingência s × r estiverem em uma escala de
mensuração nominal, são mais difı́ceis. Dois coeficientes propostos
2.5. Análise de Tabelas de Contingência s × r 47

na literatura para essas situações são: o coeficiente de incerteza (un-


certainty coefficient) e o coeficiente lambda. Agresti (1990) discute
algumas dessas medidas.

2.5.4 Exemplos

(a) Local de moradia e afiliações polı́tico partidárias

Os dados apresentados na Tabela 2.6 referem-se a um estudo sobre a afiliação


polı́tico partidária em uma determinada cidade (Stokes et al., 2000). O in-
teresse é saber se existe associação entre partido polı́tico e local (bairros)
de moradia.

Tabela 2.6: Distribuição polı́tico partidária nos bairros da cidade.

Local de Moradia
Partido Polı́tico A B C D Totais
Democrata 221 160 360 140 881
Independente 200 291 160 311 962
Republicano 208 106 316 97 727
Totais 629 557 836 548 2570

Para esses dados, ambas as variáveis encontram-se na escala de men-


suração nominal e, desse modo, para testar a hipótese nula de não asso-
ciação entre partido polı́tico e local de moradia pode-se usar a estatı́stica
qui-quadrado de Pearson (QP ) bem como a estatı́stica Q. Os resultados
obtidos para elas foram: QP = 273,92 (p < 0,0001, g.l = 6) e Q = 273, 81
(p < 0,0001, g.l. = 6). Note que Q e QP forneceram valores muito próximos,
o que já era esperado, uma vez que o tamanho amostral (n = 2570) é
grande. Dos resultados apresentados, conclui-se haver associação entre par-
tido polı́tico e local de moradia.
48 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

(b) Medicamentos para dor de cabeça e perı́odo sem dor

Os dados desse exemplo, que encontram-se na Tabela 2.7, são de um estudo


sobre um novo medicamento utilizado para aliviar dores de cabeça. Os
pesquisadores compararam tal medicamento com o tratamento padrão e um
placebo e mediram, para cada um deles, o número (em horas) de substancial
alı́vio da dor de cabeça.

Tabela 2.7: Novo medicamento para o tratamento de dores de cabeça.

Horas de alı́vio
Tratamento 0 1 2 3 4 Totais
Placebo 6 9 6 3 1 25
Padrão 1 4 6 6 8 25
Novo 2 5 6 8 6 27
Totais 9 18 18 17 15 77

Claramente, número de horas é uma variável resposta ordinal. Nesses


casos, o teste escore médio, como visto anteriormente, é indicado para testar
a hipótese nula de não associação entre medicamento e a intensidade do
alı́vio de dor de cabeça. Utilizando-se, portanto, os escores a = (0, 1, 2, 3,
4) obteve-se QS = 13, 7346 (p = 0,00104, g.l = 2). Assim, há evidências
estatı́sticas de associação entre tratamento e o número de horas de dor de
cabeça. Pode-se, desse modo, concluir que pelo menos dois tratamentos
diferem entre si. Quais deles diferem? Observe que f¯1 = 1, 36, f¯2 = 2, 64
e f¯3 = 2, 41, fornecendo indı́cios de que o placebo difere dos tratamentos
novo e padrão. Não parece haver indı́cios, contudo, de diferenças entre os
tratamentos novo e padrão.
Considerando-se, então, a tabela com somente as linhas correspondentes
aos tratamentos padrão e novo tem-se QS = 0,465 (p = 0,495, g.l. = 1).
Conclui-se, desse modo, que os tratamentos novo e padrão não diferem
2.5. Análise de Tabelas de Contingência s × r 49

entre si. Para as demais comparações obtiveram-se: i) placebo versus novo:


QS = 8, 6 (p = 0,0034, g.l. = 1) e ii) placebo versus padrão: QS = 11, 66
(p = 0,0006, g.l. = 1).
Observe, neste exemplo, que existem várias caselas com freqüência es-
perada menor do que 5, o que inviabiliza a utilização das estatı́sticas Q
e QP , mas não inviabiliza o uso da estatı́stica QS . Este é, portanto, um
exemplo que mostra a vantagem em se considerar a escala ordinal dos dados
utilizando-se uma estatı́stica de teste mais apropriada.

(c) Produtos de limpeza de roupas e intensidade da limpeza

Uma companhia de tratamento de água realizou um estudo para pesquisar


como os aditivos adicionados à água afetam a limpeza das roupas. O estudo
considerou: água sem nenhum aditivo, água com tratamento padrão e água
com dose dupla do tratamento padrão. Os resultados obtidos encontram-se
na Tabela 2.8

Tabela 2.8: Influência de aditivos na água sobre limpeza das roupas.

Limpeza
Tratamento Baixa Média Alta Totais
Água pura 27 14 5 46
Água + trat. padrão 10 17 26 53
Água + dose dupla trat. padrão 5 12 50 67
Totais 42 43 81 166

Ambas as variáveis são, nesse caso, ordinais e como foi visto, a es-
tatı́stica da correlação QCS é indicada. Tomando-se, desse modo, os es-
cores a = (1, 2, 3) e c = (1, 2, 3) para as categorias das variáveis limpeza e
tratamento, respectivamente, obteve-se QCS = 50,6 (p < 0,0001, g.l.= 1).
50 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

Conclui-se, portanto, que o tratamento e limpeza estão associados e que a


limpeza aumenta com a dosagem de aditivo adicionado à agua, visto que
rac = 0,554.

(d) Tipo de veı́culo adquirido e fonte de propaganda.

Os dados desse exemplo referem-se a um estudo realizado para saber se o


tipo de carro que as pessoas haviam comprado nos últimos meses em uma
determinada concessionária, estava associado com o tipo de anúncio publi-
citário dos mesmos. Os resultados do estudo encontram-se na Tabela 2.9.

Tabela 2.9: Escolha do tipo de carro e anúncio publicitário.

Anúncio publicitário
Tipo de carro TV Revista Jornal Radio Totais
Sedan 4 0 0 2 6
Esportivo 0 3 3 4 10
Utilitário 5 5 2 2 14
Totais 9 8 5 8 30

Pode-se notar que os dados não satisfazem às condiçcoes de aplicabili-


dade dos testes usuais Q e QP , pois existem caselas com freqüência zero,
bem como algumas delas com freqüências esperadas menores do que 5. O
teste exato de Fisher, para testar a hipótese nula de não associação, é,
desse modo, a estratégia indicada. Utilizando-se tal teste para os dados
desse exemplo, obteve-se um valor p = 0,0473 (bilateral). Não existe teste
exato de Fisher unilateral para tabelas s × r. Conclui-se, nesse caso, haver
evidências de associação ao nı́vel de significância de 5%. Para nı́veis de
significância menores não é possı́vel concluir pela existência de associação
entre o tipo de carro comprado e o tipo de anúncio publicitário.
2.6. Análise Estratificada 51

2.6 Análise Estratificada

Nos estudos em geral pode haver a necessidade de se realizar uma análise


estratificada. Este tipo de análise pode, em alguns casos, ter sido planejada
e, em outros, surge após a coleta dos dados.
Um exemplo de análise estratificada planejada é o de um estudo rea-
lizado com o objetivo de se verificar a associação entre fumo voluntário e
câncer de pulmão em que é considerada uma estratificação pelo fator fumo
passivo. A estratificação, nesse caso, é feita para evitar que o aparente
efeito do fumo voluntário, seja distorcido devido ao fato desses dois fatores
estarem mesclados (confundidos). Caso a influência do confundimento entre
os fatores fumo voluntário e fumo passivo não seja removida, a associação
entre tabaco e câncer de pulmão pode até mesmo não ser detectada. As-
sim, não é a mera presença ou ausência do confundimento que é importante
avaliar, mas sim a magnitude deste confundimento. Se esta magnitude não
for muito acentuada, a associação entre o fator de interesse e a resposta,
caso exista, pode até ser observada mesmo sem a estratificação. A inten-
sidade da associação é que, contudo, não estará sendo bem avaliada. Em
face da incerteza, é conveniente realizar ambas as análises: com e sem a
estratificação.
Um exemplo de análise estratificada não planejada é a de um estudo
clı́nico aleatorizado realizado para comparar dois tratamentos em que os
dados são coletados em mais de um hospital ou centro médico. Somente
após a realização do estudo é que os pesquisadores notam comportamentos
dos pacientes acentuadamente diferentes em cada centro e que este fator
deveria ser, portanto, considerado na análise. Fazendo-se uma analogia com
planejamento de experimentos, os centros aqui têm o sentido de blocos, pois
não há o interesse em testá-los, mas sim controlar o seu efeito na análise da
associação entre o tratamento e a resposta. Este exemplo, dentre outros, é
52 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

apresentado e analisado a seguir.

Exemplo 1: Considere os dados da Tabela 2.10 provenientes de um en-


saio clı́nico aletorizado realizado para comparar dois medicamentos usados
no tratamento de infecções respiratórias severas, medicamentos estes que
foram testados em dois centros médicos. Note que esta tabela é, na reali-
dade, um conjunto de duas tabelas de contingência 2 × r, com r = 2, em
que as mesmas questões de uma única tabela são de interesse. Ou seja,
deseja-se testar a existência de associação entre o tratamento e a resposta
do paciente e, se esta existe, qual a intensidade da mesma.

Tabela 2.10: Resultados de um ensaio clı́nico realizado para comparar dois


medicamentos usados no tratamento de infecções respiratórias severas.

Resposta
Centro Tratamento Favorável Não favorável Totais
1 Novo 29 16 45
1 Padrão 14 31 45
Totais 43 47 90
2 Novo 37 8 45
2 Padrão 24 21 45
Totais 61 29 90

Como o interesse concentra-se na associação entre o tratamento e a


resposta, poder-se-ia pensar em somar as freqüências das linhas correspon-
dentes a cada tratamento obtendo-se, assim, uma única tabela de con-
tingência 2 × 2. Os pesquisadores notaram, contudo, que os pacientes
apresentaram comportamentos acentuadamente diferentes em cada centro
e que este deveria ser, portanto, considerado na análise. Uma análise es-
tratificada é, desse modo, a estratégia a ser adotada nesta situação. Em
2.6. Análise Estratificada 53

tal análise, examina-se a associação entre as duas variáveis de interesse


controlando-se, ou ajustando-se, para o efeito de centro.
Um teste para verificar a associação entre as variáveis de interesse,
controlando (ou ajustando) por uma covariável (fator), foi proposto por
Mantel-Haenszel (1959). Este teste é apresentado a seguir.

2.6.1 Teste de Mantel-Haenszel

Para obtenção da estatı́stica de teste proposta por esses autores, considera-


se, para cada uma das q tabelas 2 × 2 que compõem a tabela geral, a
notação apresentada na Tabela 2.11.

Tabela 2.11: h-ésima tabela de contingência 2 × 2.

Coluna
Linha A B Totais
A nh11 nh12 nh1+
B nh21 nh22 nh2+
Totais nh+1 nh+2 nh

Sob a hipótese nula de não diferença entre os tratamentos, o valor es-


perado de nh11 e sua respectiva variância são dados por:
(nh1+ )(nh+1 )
E(Nh11 | H0 ) = = mh11
nh

(nh1+ )(nh2+ )(nh+1 )(nh+2 )


V (Nh11 | H0 ) = = vh11 .
n2h (nh − 1)
Assim, a estatı́stica de teste proposta por Mantel-Haenszel é dada por:
q q
!2 q
!2
X X X (nh1+ nh2+ )
nh11 − mh11 (ph11 − ph21 )
nh
h=1 h=1 h=1
QM H = q = q ,
X X
vh11 vh11
h=1 h=1
54 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

em que phi1 = nhi1 /nhi+ . Sob H0 , QM H tem aproximadamente uma dis-


P
tribuição qui-quadrado com 1 grau de liberdade, quando qh=1 nh for sufi-
cientemente grande (> 30). Em um certo sentido, essa estratégia de análise
é similar a uma análise de variância de um experimento fatorial em blocos
aleatorizados.
QM H é eficaz para determinar padrões de associação quando existir
uma forte tendência de a maioria das diferenças (ph11 − ph21 ) apresentar o
mesmo sinal. Assim, QM H pode falhar em detectar a associação quando as
diferenças estiverem em direções opostas (sinais diferentes) e apresentarem
magnitudes similares.
Mantel e Fleiss (1980) propuseram um critério para determinar se a
aproximação qui-quadrado é apropriada para a distribuição da estatı́stica
de Mantel-Haenszel para q tabelas. Este critério é dado por:
(" q q
# " q q
#)
X X X X
CM F = min mh11 − (nh11 )L , (nh11 )U − (mh11 ) > 5,
h=1 h=1 h=1 h=1

em que (nh11 )L = max(0, (nh1+ − nh11 )) e (nh11 )U = min(nh+1 , nh1+ ).


Para os dados da Tabela 2.10 tem-se: QM H = 18, 41 (p < 0,0001). As-
sim, existe uma forte associação entre tratamento e a resposta do paciente,
ajustado para centro. Conclui-se, portanto, que o medicamento novo apre-
senta uma taxa de resposta favorável significativamente maior do que a do
n o
placebo. Ainda, CM F = min (52 − 24), (88 − 52) = 28 ≥ 5 mostrando
que, para esses dados, a aproximação qui-quadrado é apropriada para Q M H .

2.6.2 Medidas de associação

Para um conjunto de q tabelas de contingência 2 × 2 pode-se calcular a


média das odds ratios. Se as odds ratios forem homogêneas, o estimador de
2.6. Análise Estratificada 55

Mantel-Haenszel para a odds ratio comum é dado por:


Pq nh11 nh22
h=1 nh
ORM H = Pq nh12 nh21 .
h=1 nh

O intervalo de confiança a 100(1-α)% para a ORM H é:


 
b), ORM H exp(−zα/2 σ
ORM H exp(zα/2 σ b) ,

em que:
P
2 h (nh11 + nh22 )(nh11 nh22 )/n2h
b
σ = P 2
2( h (nh11 nh22 )/nh )
P h i
h (n h11 + n h22 )(n h12 n h21 ) + (n h12 + n h21 )(n h11 n h22 ) /n2h
+ P P
2( h (nh11 nh22 )/nh )( h (nh12 nh21 )/nh )
P
h (nh12 + nh21 )(nh12 nh21 )/n2h
+ P .
2( h (nh12 nh21 )/nh )2

No exemplo apresentado na Tabela 2.10, as odds ratios são homogêneas


(OR1 = 4, 01 e OR2 = 4, 04) e, sendo assim, a odds ratio comum estimada,
bem como seu respectivo I.C. ao nı́vel de 95% de confiança, são:

ORM H = 4, 028

IC(ORM H )(95)% = (2, 106; 7, 701).

Ajustado por centro, tem-se, portanto, que a chance (odds) dos pacientes
que receberam o novo tratamento apresentarem melhora é, em média, 4
vezes a chance (odds) dos que receberam placebo. Essa chance varia, ao
nı́vel de 95% de confiança, entre 2,1 e 7,7 vezes.

Exemplo 2: Considere os dados do estudo clı́nico duplo-cego apresentado


na Seção 2.3, sendo que, agora, se deseja verificar a existência de associação
entre o tratamento e o grau de melhora, controlando-se, no entanto, pela
covariável sexo. Os dados são mostrados na Tabela 2.12.
56 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

Tabela 2.12: Resultado de um estudo clı́nico realizado com pacientes de


ambos os sexos para investigar um tratamento para artrite reumatóide.

Melhora
Sexo Tratamento Nenhuma Alguma Acentuada Totais
Feminino Ativo 6 5 16 27
Feminino Placebo 19 7 6 32
Totais 25 12 22 59
Masculino Ativo 7 2 5 14
Masculino Placebo 10 0 1 11
Totais 17 2 6 25

Note que os dados são, na realidade, um conjunto de duas tabelas de


contingência 2 × r, com r = 3, em que o interesse está na associação
entre o tratamento e o grau de melhora, ajustado para sexo. Como dito
anteriormente, a covariável sexo tem, também aqui, o sentido de blocos, pois
não há o interesse em testá-la, mas sim controlar o seu efeito na análise da
associação entre o tratamento e o grau de melhora.
Em sendo o grau de melhora uma resposta ordinal, uma vez que ne-
nhuma, alguma e acentuada são gradações de melhora, Mantel (1963)
propôs para a análise de um conjunto de tabelas 2 × r, quando a resposta é
ordinal, uma extensão da estratégia de Mantel-Haenszel, a qual é descrita
a seguir.
Considere ah = (ah1 , ah2 , · · · , ahr ) o conjunto de escores assumidos
para os r nı́veis da variável resposta na h-ésima tabela 2 × r. Assim,
considerando-se as duas tabelas 2 × 3 da Tabela 2.12, tem-se para o trata-
mento Ativo a seguinte soma de escores:
2 X
X 3 2
X
f+1 = (ahj )(nh1j ) = (nh1+ )(f¯h1 ),
h=1 j=1 h=1
2.6. Análise Estratificada 57

3
X
em que: ahj nh1j
f¯h1 =
nh1+
j=1

é o escore médio para o tratamento Ativo na h-ésima tabela. Sob a hipótese


nula de não associação, f+1 tem valor esperado dado por:
2
X
E(f+1 | H0 ) = (nh1+ ) (µh ) = µ∗
h=1

e variância,
2
X (nh1+ ) (nh − nh1+ )
V (f+1 | H0 ) = vh = v ∗ ,
(nh − 1)
h=1
3 3
!
X (ahj ) (nh+j ) X nh+j
em que µh = e vh = (ahj − µh )2 .
nh nh
j=1 j=1
P2 P3
Se os tamanhos amostrais n+i+ = h=1 j=1 nhij forem suficiente-
mente grandes, então f+1 terá distribuição aproximadamente normal e a
quantidade:
(f+1 − µ∗ )2
QSM H =
v∗
distribuição aproximadamente qui-quadrado com 1 grau de liberdade. A
estatı́stica QSM H é conhecida como estatı́stica escore médio de Mantel-
Haenszel estendida, sendo eficiente para detectar padrões de diferenças
quando (f¯h1 − f¯h2 ) apresentarem predominantemente o mesmo sinal.
Para os dados da Tabela 2.12, e considerando-se os escores a = (1, 2, 3),
obteve-se QSM H = 14,63 (p < 0,001). Os tamanhos amostrais n+1+ = 41 e
n+2+ = 43 sendo suficientemente grandes, asseguram que QSM H apresenta
uma boa aproximação para a distribuição qui-quadrado, de modo que é
possı́vel concluir que o tratamento e o grau de melhora, controlando-se
para sexo, apresentam-se associados.

Exemplo 3: Considere o mesmo estudo sobre a existência de associação


entre a variável resposta uso de tabaco e o fator consciência do risco de
58 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

uso de tabaco pelo adolescente controlando, no entanto, pelo fator uso de


tabaco pelo pai. Os dados estão apresentados na Tabela 2.13.

Tabela 2.13: Resultado de um estudo sobre o uso de tabaco por adoles-


centes.

Pai usa Consciência do risco Não usa tabaco Usa tabaco Totais
Não Mı́nima 59 25 84
Não Moderada 169 29 198
Não Substancial 196 9 205
Totais 424 63 487
Sim Mı́nima 11 8 19
Sim Moderada 33 11 44
Sim Substancial 22 2 24
Totais 66 21 87

Para esses dados, tanto a resposta (uso de tabaco) quanto o fator uso
de tabaco pelo pai, são dicotômicas. O fator consciência do risco é ordi-
nal. Também aqui, as três variáveis podem ser consideradas ordinais, uma
vez que é comum associar os escores 0 e 1 às categorias de uma variável
dicotômica.
Mantel (1963) propôs também uma estatı́stica de teste para a associação
de duas variáveis que são ordinais em um conjunto de tabelas s× 2, baseada
nos escores a e c assumidos para as colunas e linhas das tabelas. Esta
estatı́stica é expressa por:
" " #2
Pq  2 Pq
¯ ¯ )1/2 r
h=1 nh fh − E(fh | H0 ) h=1 nh (vhc vha ac.h

QCSM H = Pq = P h i
h=1 n2h var(f¯h | H0 ) q
n2h vhc vha /(nh − 1)
h=1

e é chamada estatı́stica da correlação de Mantel-Haenszel estendida. Esta


estatı́stica segue a distribuição qui-quadrado com 1 grau de liberdade quando
2.7. Concordância entre observadores 59

o tamanho amostral combinado das tabelas s×2 for suficientemente grande,


P
isto é, qh=1 nh ≥ 40.
Para os dados da Tabela 2.13, considerando-se os escores inteiros c =
(1, 2, 3), foi obtido QCSM H = 40,6639 (p < 0,0001). Existe, portanto, uma
forte associação (correlação) entre consciência do risco de fumar e uso de
tabaco pelo adolescente, controlando-se pelo fator uso de tabaco pelo pai.
Ainda, rac.1 = −0, 265 e rac.2 = −0, 276, indicam correlação negativa entre
consciência do risco e uso de tabaco e, sendo assim, o uso de tabaco diminui
à medida que a consciência do risco do adolescente aumenta.

2.6.3 Análise estratificada em tabelas s × r (s, r > 2)

Para um conjunto de tabelas s × r tem-se, para testar as associações de


interesse, as extensões das estatı́sticas:

i) QM H , quando as variáveis forem nominais;

ii) QSM H , quando os categorias da variável resposta forem ordinais e,

iii) QCSM H , quando ambas as variáveis forem ordinais.

2.7 Concordância entre observadores

2.7.1 Estatı́stica Kappa

Pesquisadores nas áreas de medicina, epidemiologia, psiquiatria, psicologia


etc. têm, ou deveriam ter, consciência de que o observador é uma possı́vel
fonte de erro de medição. Em muitos casos, diferentes observadores, ou um
mesmo observador em diferentes tempos, podem, por exemplo, examinar
um raio X, ou realizar um exame fı́sico, e chegarem a diferentes conclusões
(diagnósticos). É importante, desse modo, avaliar a concordância entre os
observadores. Os dados, em um estudo desse tipo, produzem, em geral,
60 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

uma tabela de contingência s × s em que os nı́veis nas colunas representam


a resposta de um observador e os nı́veis nas linhas a resposta do outro obser-
vador. As caselas na diagonal representam os casos em que os observadores
concordam.
Certamente as estatı́sticas tratadas anteriormente para testar a asso-
ciação, ou não, entre as respostas dos observadores poderiam ser usadas.
Com os resultados obtidos não se poderia, contudo, quantificar a con-
cordância dos observadores. Medidas de concordância foram, então, pro-
postas. O coeficiente Kappa, proposto por Cohen (1960), é uma dessas
medidas e é definido por:
Π0 − Π e
b=
κ
1 − Πe
Ps Ps nii
sendo Π0 = i=1 pii = i=1 n a probabilidade de concordância, com pii
a probabilidade de um indivı́duo ser classificado na categoria i por ambos
Ps Ps (ni+ ) (n+i )
os observadores e, Πe = i=1 (pi+ )(p+i ) = i=1 n n a probabili-
dade de concordância sob H0 , em que H0 : não há concordância entre os
observadores (independência das duas classificações).
Como Π0 = 1 quando existir concordância perfeita (todos os elementos
fora da diagonal iguais a zero), κ será igual a 1 quando existir concordância
perfeita entre os observadores e, κ será igual a 0 quando a concordância for
aquela esperada sob H0 . Assim quanto mais próximo de 1 for o valor de κ,
maior concordância existirá entre os observadores. É possı́vel obter valores
negativos para κ mas isto, raramente ocorre. Considera-se, em geral, κ <
0,4 como concordância fraca, κ entre [0,4; 0,8) como concordância moderada
e κ ≥ 0,8 como concordância forte.
A variância assintótica do coeficiente Kappa pode ser estimada por:
(A + B − C)
var(b
κ) = ,
((1 − Πe )2 n)
P h  i2  2
b) , C = κ
em que A = i pii 1 − (pi+ ) + (p+i ) (1 − κ b − Πe (1 − κ
b) e
2.7. Concordância entre observadores 61

PP 2
b )2
B = (1 − κ i6=j pij (p+1 )(pj+ ) . Um intervalo de confiança para κ
pode, portanto, ser obtido por:
p
b ± zα/2
κ vd
ar(b
κ)

em que zα/2 é o 100(1-α/2) percentil da distribuição normal padrão.

2.7.2 Estatı́stica Kappa ponderada

Para os casos em que a resposta é ordinal uma forma ponderada da es-


tatı́stica Kappa foi proposta e esta é definida por:

Ps Ps P P
Π0 (w) − Πe (w) i=1 pij − si=1 sj=1 wij (pi+ )(p+j )
j=1 wij
bw =
κ = P P ,
1 − Πe (w) 1 − si=1 sj=1 wij (pi+ )(p+j )

em que wij são pesos com valores entre 0 e 1. Um possı́vel conjunto de


pesos é dado por:

| escore(i) − escore(j) |
wij = 1 −
escore(dim) − escore(1)

em que escore(i) é o escore para a i-ésima linha, escore(j) é o escore para a


j-ésima coluna e dim é a dimensão da tabela s × s.
A variância assintótica do coeficiente Kappa ponderado pode ser esti-
mada por:
P P h i2 h i2
i j p ij w ij − (w̄ i+ + w̄ +j )(1 − b
κ w ) − κb w − Π e (w)(1 − b
κ w )
var(b
κw ) = ,
(1 − Πe (w))2 n
P P
em que w̄i+ = j (p+j )(wij ) e w̄+j = j (pi+ )(wij ).
bw pode, portanto, ser obtido por:
Um intervalo de confiança para κ
p
b(w) ± zα/2
κ vd
ar(b
κw ),

em que zα/2 é o 100(1-α/2) percentil da distribuição normal padrão.


62 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

2.7.3 Exemplo

Os dados apresentados na Tabela 2.14 referem-se à classificação de pacientes


com esclerose múltipla, em 4 classes de diagnóstico, por dois neurologistas.

Tabela 2.14: Concordância de diagnósticos de neurologistas.

Neurologista 1
Neurologista 2 1 2 3 4 Totais
1 38 5 0 1 44
2 33 11 3 0 47
3 10 14 5 6 35
4 3 7 3 10 23
Totais 84 37 11 17 149

Para esses dados, obteve-se:

((38 + 11 + 5 + 10)/149) − (((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17))/149 2 )
b
κ =
1 − (((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17)/149 2 ))
b
κ = 0, 2079.

Ainda, var(b
κ) = 0, 00255 e, portanto, IC0,95 (b
κ) = (0,109; 0,3068). De
bw = 0, 3797, var(b
forma análoga, κ κw ) = 0, 002673 e IC0,95 (b
κw ) = (0,2785;
0,4810). Tais resultados indicam uma concordância fraca entre os neurol-
ogistas. No software R, os intervalos de confiança diferem dos aqui apre-
sentados devido essencialmente às variâncias assintóticas serem obtidas de
forma ligeiramente diferenciada.
2.8. Exercı́cios 63

2.8 Exercı́cios

1. Para os dados do exercı́cio 1 do Capı́tulo 1:

(a) Estabeleça as hipóteses de interesse e teste-as.


(b) Calcule uma medida de associação apropriada a esse estudo, bem
como seu respectivo intervalo de confiança, e retire conclusões.

2. Faça o mesmo para os dados dos exercı́cios 2, 3, 4 e 5 do Capı́tulo 1.

3. Testes sobre alergia a um medicamento foram realizados em um total


de 1247 pessoas no ano de 1993. Os resultados obtidos foram:

Tabela 2.15: Testes sobre alergia a um medicamento.


Resultado do Teste
Sexo + − Total
Feminino 21 538 559
Masculino 52 636 688
Total 73 1174 1247

Em 1994, estes testes foram realizados em um total de 3319 pessoas,


obtendo-se:

Tabela 2.16: Testes sobre alergia a um medicamento.


Resultado do Teste
Sexo + − Total
Feminino 47 1578 1625
Masculino 123 1571 1694
Total 170 3149 3319

(a) Pode-se dizer que sexo é um fator de risco? Ou seja, será que pes-
soas do sexo feminino são mais ou menos prováveis a terem alergia do
64 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

que as do sexo masculino? Analise adequadamente e tire conclusões.

4. Com a finalidade de se verificar qual parte do menisco é mais atingida


por lesões, 15 jogadores com idade entre 20 e 29 anos, que nunca apre-
sentaram sintomas de lesões, tiveram ambos os meniscos submetidos
a uma avaliação por ressonância magnética. O grau de lesão de cada
menisco foi avaliado em 4 regiões de acordo às posições (medial e
lateral) e segmentos (anterior e posterior). Problemas ocorreram na
ressonância de 3 meniscos e, portanto, um total de 108 avaliações
foram consideradas para a análise. Os resultados dessas avaliações
encontram-se na Tabela 2.17. As comparações de interesse são:

a) medial e lateral;

b) anterior e posterior;

c) medial anterior e medial posterior e,

d) lateral anterior e lateral posterior.

Tabela 2.17: Estudo sobre lesões em meniscos.


Regiões dos meniscos Grau da lesão
Posição Segmento 0 0,5 1 1,5 Total
Medial Anterior 20 7 0 0 27
Medial Posterior 5 11 11 0 27
Lateral Anterior 19 3 3 2 27
Lateral Posterior 17 6 4 0 27
0 = ausente, 0,5 = leve, 1 = moderada e 1,5 = grave

5. Num programa de reabilitação de drogas, indivı́duos do sexo mas-


culino com idade entre 25 e 34 anos eram, ao entrarem no programa,
classificados segundo duas categorias étnicas (A ou B). Um ano após
2.8. Exercı́cios 65

a entrada no programa, foi observado quantos tinham retornado ao


uso das drogas. Os resultados são apresentados na Tabela 2.18:

Tabela 2.18: Estudo sobre reabilitação de drogas.


Status após um ano
Grupo Étnico reincidentes não-reincidentes Total
A 47 43 90
B 26 21 47
Total 73 64 137

(a) Identifique o tipo de estudo realizado.

(b) Forneça um intervalo de confiança de 90% para o risco relativo


do grupo A se tornar reincidente quando comparado com o grupo B.
Interprete esse intervalo relacionando-o com a hipótese de que a razão
do retorno à droga é a mesma para os dois grupos étnicos.

6. Para comprovar se um programa informativo e de acompanhamento


de aleitamento materno é mais eficaz do que o tradicional, foi reali-
zado um estudo em duas maternidades de Curitiba-PR em que, na
maternidade H, adotou-se o referido programa e, na maternidade A,
manteve-se o programa tradicional. As mães foram acompanhadas
por um perı́odo de 120 dias e dentre as que efetivamente permanece-
ram no programa obtiveram-se os resultados apresentados na Tabela
2.19. O programa é considerado mais eficaz se as mães, ao final
do perı́odo estabelecido, continuaram amamentando as crianças com
leite materno. Na maternidade H iniciou-se com 150 mães e na mater-
nidade A com 44. Houve portanto, perda, considerada aleatória, de
em torno 20% em cada grupo.

(a) Com os resultados obtidos o que diria à pesquisadora?


66 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

Tabela 2.19: Estudo sobre aleitamento materno.


Amamentação aṕos 120 dias
Maternidade Sim Não Total
H 83 34 117
A 19 16 35
Total 102 50 152
Tese de Doutorado: Dra. Marizilda M. Gravioff

7. Para verificar a severidade de náuseas devido ao uso do medicamento


cisplatinum, um estudo foi realizado obtendo-se:

Tabela 2.20: Estudo sobre a severidade de náuseas.


Grau da severidade
Uso do cisplatinum 0 1 2 3 4 5 Total
Sim 7 7 3 12 15 14
Não 43 39 13 22 15 29
(0 = ausente, ...., 5 = forte)

(a) É possı́vel concluir que o medicamento provoca uma severidade


mais acentuada de náuseas? Apresente testes de hipóteses e resulta-
dos.

(b) Considere os pesos com espaçamentos de 0,5 em vez de 1. As


conclusões se alteram?

8. Os dados, a seguir, referem-se a um estudo realizado sobre a presença


de resfriado em crianças de duas regiões (urbana e rural). Pesquisadores
visitaram as crianças diversas vezes e observaram se elas tinham, ou
não, quaisquer sintomas de resfriado. A resposta medida foi o número
de perı́odos em que cada criança exibiu esses sintomas.

(a) Considerando somente a tabela das crianças do sexo feminino,


2.8. Exercı́cios 67

Tabela 2.21: Estudo sobre resfriado em crianças.


Perı́odos com resfriado
Sexo Região 0 1 2 Total
Feminino Urbana 45 64 71 180
Feminino Rural 80 104 116 300
Masculino Urbana 84 124 82 290
Masculino Rural 106 117 87 310
Stokes (1986).

teste a existência de associação entre região e perı́odos com resfriado.

(b) Faça o mesmo considerando somente as crianças do sexo mas-


culino.

(c) Teste a existência de associação entre região e perı́odos com res-


friado, controlando para a variável sexo.

(d) Qual a sua conclusão?

9. Dois adesivos, singlebonde e Panavia F, usados em restaurações dentá-


rias foram pesquisados a fim de avaliar se o grau de infiltração com
estes adesivos diferem. Para os 14 dentes utilizados no experimento
(cada dente recebeu em uma das metades o adesivo singlebonde e na
outra metade o Panavia F), três examinadores atribuı́ram notas de 0
a 4 para o grau de infiltração observado (4 corresponde ao maior grau
de infiltração). Para os resultados das avaliações dos examinadores
apresentados na Tabela 2.22, responda:

(a) O grau de infiltração entre os adesivos difere?

(b) O que diria a respeito do grau de concordância entre as avaliações


realizadas pelos três examinadores, seja para o adesivo singlebonde,
seja para o Panavia F.
68 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

Tabela 2.22: Estudo sobre a comparação de dois adesivos.

Examinador 1 Examinador 2 Examinador 3


Dentes A1 A2 A1 A2 A1 A2
1 1 3 1 4 1 4
2 4 1 4 4 4 1
3 1 0 1 1 1 1
4 4 0 4 0 4 0
5 0 1 0 4 0 1
6 0 0 0 0 0 0
7 1 4 1 2 1 2
8 1 0 1 1 2 1
9 4 3 4 4 4 3
10 2 4 3 2 2 4
11 1 1 1 1 1 2
12 0 0 1 1 1 0
13 4 3 4 1 1 3
14 0 1 0 2 0 2

Fonte: Bajah Nasser Neto - Graduando Odontologia, UFPR, 2003


A1 = Singlebonde e A2 = Panavia F

10. (a) Para avaliar a concordância dos diagnósticos emitidos por médicos
residentes e médicos cursando especialização, quanto ao grau de gravi-
dade de crianças atendidas na Dermatopediatria do HC de Curitiba-
PR, foi realizada uma pesquisa com 100 crianças, selecionadas aleato-
riamente, obtendo-se os resultados apresentados na Tabela 2.23. O
que é possı́vel concluir a respeito da concordância dos diagnósticos
emitidos por esses profissionais?

(b) Neste mesmo experimento, o grau de resolução (ou seja, a decisão


dos médicos residentes e especializandos) foi também avaliado quanto
a concordância. Dos resultados apresentados na Tabela 2.24, o que
é possı́vel concluir a respeito da concordância das decisões tomadas
2.8. Exercı́cios 69

Tabela 2.23: Estudo sobre a concordância de diagnósticos.


Gravidade - Especializando
Gravidade - Residente Pouco Moderada Muita
Pouco 89 1 0
Moderada 5 3 1
Muita 1 0 0
Fonte: Brasilia Cajamarca. Especializanda UFPR, 2003.

por esses profissionais?

Tabela 2.24: Estudo sobre a concordância de diagnósticos.


Decisão - Especializando
Dermato Dermato
Decisão - Residente Pediatria urgente não urgente
Pediatria 10 0 0
Dermato urgente 1 1 1
Dermato não urgente 36 1 50
Fonte: Brasilia Cajamarca. Especializanda UFPR, 2003.

(c) Comparando, ainda, o grau de preocupação da mãe com o grau


de gravidade da doença, segundo os residentes e, também, segundo os
especializandos, obtiveram-se os resultados apresentados nas Tabelas
2.25 e 2.26. Conclua a respeito da concordância entre:

(c1 ) o grau de preocupação da mãe e o grau de gravidade da doença


segundo os residentes e,

(c2 ) o grau de preocupação da mãe e o grau de gravidade da doença


segundo os especializandos.

11. Procure artigos, textos ou similares que tratem a aplicação de medidas


tais como: especificidade, sensibilidade, valor preditivo etc.
70 Capı́tulo 2. Estratégias de Análise Giolo, S.R.

Tabela 2.25: Estudo sobre a concordância de diagnósticos.


Gravidade - Residente
Preocupação - Mãe Pouco Moderada Muita
Pouco 1 0 5
Moderada 1 1 6
Muita 8 2 73
Fonte: Brasilia Cajamarca. Especializanda UFPR, 2003.

Tabela 2.26: Estudo sobre a concordância de diagnósticos.


Gravidade - Especializando
Preocupação - Mãe Pouco Moderada Muita
Pouco 6 0 0
Moderada 7 0 1
Muita 80 3 0
Fonte: Brasilia Cajamarca. Especializanda UFPR, 2003.

Sugestão: PINHO, A. A. Validade da citologia cervicovaginal de lesões pré-


neoplásicas e neoplásicas de colo de útero. Jornal Brasileiro de Patologia e
Medicina Laboratorial, v.38, n.3, p.225-231, 2002.
Capı́tulo 3

Regressão Logı́stica

3.1 Introdução

A regressão logı́stica é freqüentemente apropriada para a análise de ex-


perimentos que apresentam variáveis resposta categóricas em que o inte-
resse seja o de descrever a relação entre a variável resposta e um conjunto
de variáveis explanatórias (covariáveis). Quando a variável resposta é di-
cotômica (somente duas categorias), tem-se a, assim denominada, regressão
logı́stica dicotômica. Para variáveis resposta com mais do que duas catego-
rias, a denominação usada é regressão logı́stica politômica. As covariáveis,
em regressão logı́stica, podem ser categóricas ou contı́nuas. Variáveis dum-
mies são usadas para que as covariáveis categóricas sejam consideradas em
um modelo de regressão logı́stica. Nas Seções 3.2 e 3.3, são apresentadas
as regressões logı́stica dicotômica e politômica.

3.2 Regressão Logı́stica Dicotômica

Considere, como exemplo inicial, os dados da Tabela 3.1 em que a relação


entre idade e doença coronária está sendo estudada. Dos resultados apre-

71
72 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

sentados nesta tabela, observa-se que com o acréscimo da idade, cresce


também a probabilidade de ocorrência de doença coronária. Cconsiderando-
se o ponto médio de cada intervalo de idade, a Figura 3.1 apresenta grafi-
camente tais resultados.

Tabela 3.1: Dados sobre doença coronária por intervalos de idade.

Doença coronária
Idade (X = x) Não (Y = 0) Sim (Y = 1) Totais E(Y | x)
20-29 9 1 10 0,10
30-34 13 2 15 0,13
35-39 9 3 12 0,25
40-44 10 5 15 0,33
45-49 7 6 13 0,46
50-54 3 5 8 0,63
55-59 4 13 17 0,76
60-69 2 8 10 0,80
Totais 57 43 100 0,43
0.8
0.7
0.6
0.5
E[Y|x]

0.4
0.3
0.2
0.1

30 40 50 60

Idade(em anos)

Figura 3.1: Valor esperado de Y dado x = idade versus idade.


3.2. Regressão Logı́stica Dicotômica 73

Uma diferença importante entre o modelo de regressão logı́stica e o mo-


delo de regressão linear pode ser notada e, esta, diz respeito à natureza
da relação entre a variável resposta e as variáveis independentes. Em qual-
quer problema de regressão a quantidade sendo modelada é o valor médio da
variável resposta dado os valores das variáveis independentes. Esta quan-
tidade é denominada média condicional e é expressa por E(Y | x), em que
Y denota a variável resposta e x denota os valores das variáveis indepen-
dentes. Em regressão linear, ∞ < E(Y | x) < + ∞ e, em regressão logı́stica,
devido à natureza da variável resposta, 0 ≤ E(Y | x) ≤ 1, como pode ser
observado na Figura 3.1. Observe, ainda, a partir desta mesma figura, que
a mudança em E(Y | x) por unidade de mudança em x torna-se progres-
sivamente menor quando E(Y | x) torna-se próxima de zero ou de um. A
curva em forma de “S” lembra a distribuição acumulada de uma variável
aleatória, o que motivou o uso da distribuição logı́stica para fornecer um
modelo para E(Y | x).
A função de distribuição logı́stica é descrita por:

1 exp{x}
F (x) = = ,
1 + exp{−x} 1 + exp{x}

em que, para x = - ∞ e x = + ∞, tem-se F(- ∞) = 0 e F(+ ∞) = 1. Sua


correspondente representação gráfica é mostrada na Figura 3.2.
1.2
1.0
0.8
F(x)

0.6
0.4
0.2
0.0

−20 −10 0 10 20

Figura 3.2: Função de distribuição logı́stica.


74 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

A função de distribuição logı́stica toma valores entre zero e um; assume


o valor zero em uma parte do domı́nio das variáveis explicativas, um em
outra parte do domı́nio e cresce suavemente na parte intermediária pos-
suindo uma particular curva em forma de “S”. Se comparada com a da
Figura 3.1 pode-se notar as similaridades. Outras funções de distribuição
possuem as caracterı́sticas mencionadas. No entanto, a função logı́stica foi
escolhida basicamente por duas razões: (i) do ponto de vista matemático
é extremamente flexı́vel e fácil de ser usada e, (ii) conduz a interpretações
simples. Para descrever a variação entre os θ(x) = E(Y | x), foi, então,
proposto o modelo de regressão logı́stica expresso por:
( p
)
X
exp β0 + β k xk
k=1
θ(x) = P (Y = 1 | x) = ( p
), (3.1)
X
1 + exp β0 + β k xk
k=1

em que Y = 1 significa a presença da resposta, x representa as covariáveis


(fatores de risco), isto é, x = (x1 , x2 , · · · , xp ), o parâmetro β0 é o intercepto,
e βk (k = 1, · · · , p) são os p parâmetros de regressão. Observe que este
modelo retorna uma estimativa da probabilidade do indivı́duo apresentar a
resposta dado que o mesmo possui, ou não, determinados fatores de risco.
Conseqüentemente,
( )
 p
X 
exp − β0 + β k xk
k=1
1 − θ(x) = ( )
 Xp 
1 + exp − β0 + β k xk
k=1
1
= ( p
)
X
1 + exp β0 + β k xk
k=1

retorna uma estimativa da probabilidade do indivı́duo não apresentar a


resposta dado que o mesmo possui, ou não, determinados fatores de risco.
3.2. Regressão Logı́stica Dicotômica 75

Observe, ainda, que fazendo-se:

! p
θ(x) X
log = β0 + β k xk
1 − θ(x)
k=1

tem-se um modelo linear para o logito, isto é, para o logaritmo neperiano
da razão entre θ(x) e 1 − θ(x). O logito é, na realidade, o logaritmo de
uma odds e, este fato, permitirá que odds ratios sejam obtidas a partir do
modelo (será tratado em detalhes mais adiante).
No contexto de modelos lineares generalizados, uma função, monótona
e derivável, que relaciona a média ao preditor linear é denominada função
 
θ(x)
de ligação. Assim, η = log 1−θ(x) , é a função de ligação canônica para o
modelo binomial.
Além de apresentar uma forma linear, o modelo logı́stico apresenta a
P
propriedade útil de que todos os valores (β0 + pk=1 βk xk ), pertencentes
ao intervalo (-∞, + ∞), têm um correspondente, no intervalo (0, 1), para
θ(x). Probabilidades preditas por este modelo são, desse modo, restritas a
assumirem valores entre 0 e 1. O modelo, portanto, não produz probabili-
dades negativas, bem como probabilidades maiores que 1.
Outra diferença importante entre o modelo de regressão linear e o mo-
delo de regressão logı́stica, refere-se à distribuição condicional da variável
resposta. No modelo de regressão linear é assumido que uma observação
da variável resposta pode ser expressa por y = E(Y | x) + ε, em que a
quantidade ε é chamada erro e é assumida ter distribuição normal com
média zero e variância constante. Este não é o caso quando a resposta é
dicotômica (Y = 1 ou 0). Nesta situação, ε tem distribuição com média

zero e variância dada por θ(x) 1 − θ(x) , isto é, a distribuição condicional
da variável resposta segue uma distribuição binomial com probabilidade
dada pela média condicional θ(x).
76 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

3.2.1 Estimação dos parâmetros

A estimação dos parâmetros em regressão logı́stica é feita, em geral, pelo


método de máxima verossimilhança. Para aplicação deste método é neces-
sário, inicialmente, construir a função de verossimilhança, a qual expressa
a probabilidade dos dados observados como uma função dos parâmetros
desconhecidos. Os estimadores de máxima verossimilhança dos parâmetros
serão os valores que maximizam esta função.
Para encontrar esses valores no modelo de regressão logı́stica, considere
a variável resposta Y codificada como zero ou um. Da expressão (3.1)
pode-se, então, obter a probabilidade condicional de que Y seja igual a 1
dado x, isto é, θ(x) = P(Y = 1 | x) e, em conseqüência, a probabilidade
condicional de que Y seja igual a zero dado x, isto é, 1 − θ(x) = P(Y = 0 |
x). Assim, θ(xi ) será a contribuição para a função de verossimilhança dos
pares (yi , xi ) em que yi = 1 e 1 − θ(xi ), a contribuição dos pares em que
yi = 0.
Assumindo-se que as observações são independentes, tem-se a seguinte
expressão para a função de verossimilhança:

n h
Y i yi h i1−yi
L(β) = θ(xi ) 1 − θ(xi ) . (3.2)
i=1

As estimativas de β serão os valores que maximizam a função de verossi-


milhança dada em (3.2). Algebricamente é mais fácil trabalhar com o loga-
ritmo desta função, isto é, com:

n
X h i h i
l(β) = log L(β) = yi log θ(xi ) + (1 − yi ) log 1 − θ(xi ) .
i=1

Para obter os valores de β que maximizam l(β) basta diferenciar a


respectiva função com respeito a cada parâmetro βj (j = 0, 1,.., p) obtendo-
3.2. Regressão Logı́stica Dicotômica 77

se, assim, o sistema de p + 1 equações,


n
X  
yi − θ(xi ) = 0
i=1
n
X  
xij yi − θ(xi ) = 0 j = 1, · · · , p
i=1

que, ao serem igualadas a zero, produzem como solução as estimativas de


máxima verossimilhança de β. Os valores preditos pelo modelo de regressão
logı́stica são obtidos substituindo-se as estimativas βb em (3.1).
As p + 1 equações são chamadas equações de verossimilhança e por
serem não-lineares nos parâmetros βj (j = 0, 1,.., p), requerem métodos
especiais para suas soluções. Os métodos iterativos de Newton-Raphson
e o escore de Fisher são algoritmos numéricos comumente utilizados com
esta finalidade. Uma discussão geral de métodos implementados em vários
softwares pode ser encontrada em McCullagh e Nelder (1983).
O método de estimação das variâncias-covariâncias dos coeficientes es-
timados seguem da teoria de estimação de máxima verossimilhança, a qual
estabelece que os estimadores são obtidos pela matriz das derivadas par-
ciais de segunda ordem do logaritmo da função de verossimilhança. Essas
derivadas têm a seguinte forma geral:
n
X
∂ 2 log L(β) 
= − x2ij θ(xi ) 1 − θ(xi ) (3.3)
∂βj2 i=1
n
X
∂ 2 log L(β) 
= − xij xil θ(xi ) 1 − θ(xi ) (3.4)
∂βj ∂βl
i=1

para j, l = 0, 1, .., p.
A matriz contendo o negativo dos termos apresentados nas equações
(3.3) e (3.4) será denotada por I(β) e é chamada matriz de informação.
As variâncias e covariâncias dos coeficientes estimados serão obtidas pela
inversa dessa matriz e será denotada por Σ(β) = [I(β)]−1 . O j-ésimo
78 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

elemento da diagonal dessa matriz, denotado por σ 2 (βj ), corresponde a


variância de βbj e, o elemento na j-ésima linha e l-ésima coluna, dessa
matriz, denotado por σ(βj , βl ), corresponde a covariância entre βbj e βbl . Os
b são obtidos
b β),
estimadores das variâncias e covariâncias, denotados por Σ(
por avaliar Σ(β) em β.b

Em notação matricial, a matriz de informação I(β) = X’VX, em que


X é uma matriz com n linhas e p + 1 colunas contendo um vetor de uns
e as covariáveis dos indivı́duos e V é uma matriz diagonal de n linhas e n
colunas com elementos θ(x)(1 − θ(x)) na diagonal. Isto é,
 
1 x11 · · · x1p
 
 
 1 x21 · · · x2p 
X=  .. .. ..

.. 
 . . . . 
 
1 xn1 · · · xnp

e
 
θ(x1 )(1 − θ(x1 )) 0 ··· 0
 
 
 0 θ(x1 )(1 − θ(x2 )) · · · 0 
V =
 .. .. .. ..
.

 . . . . 
 
0 0 ··· θ(xn )(1 − θ(xn ))

Considerando-se o ponto médio para cada intervalo de idade (25, 32,


38, 43, 47, 53, 57 e 65) e ajustando-se o modelo de regressão logı́stica para
os dados da Tabela 3.1, foram obtidas as estimativas βb0 = -5,123 (s.e. =
1,11) e βb1 = 0,1058 (s.e. = 0,023).

3.2.2 Significância das variáveis no modelo

Após obtenção das estimativas dos coeficientes βj (j = 0, 1,..., p), faz-se


necessário avaliar a adequação do modelo ajustado.
3.2. Regressão Logı́stica Dicotômica 79

O primeiro interesse está em acessar a significância das covariáveis pre-


sentes no modelo. O princı́pio em regressão logı́stica é o mesmo usado em
regressão linear, ou seja, comparar os valores observados da variável res-
posta com os valores preditos pelos modelos com, e sem, a covariável sob
investigação.
Em regressão linear esta comparação é feita por meio de uma tabela
chamada análise de variância, em que a atenção é dada à soma de quadrados
devido à regressão. Um valor grande da soma de quadrados de regressão
sugere que pelo menos uma, ou talvez todas as variáveis independentes
sejam importantes. Em regressão logı́stica a comparação pode ser feita
utilizando-se testes tais como, dentre outros, o teste da razão de verossimi-
lhanças, em que a função de verossimilhança do modelo sem as covariáveis
(LSC ) é comparada com a função de verossimilhança do modelo com as
covariáveis (LCC ). Formalmente, o teste é expresso por:
" #
verossimilhança do modelo sem as covariáveis
T RV = −2 log
verossimilhança do modelo com as covariáveis
" #
LSC
= −2 log = 2 log(LCC ) − 2 log(LSC ).
LCC

Note, que a razão das verossimilhanças é multiplicada por −2 log. Isto


é feito para que se obtenha uma quantidade cuja distribuição é conhecida
(no caso a distribuição qui-quadrado) de modo que, tal quantidade, possa
ser usada para a realização de testes de hipóteses. Em regressão logı́stica
a estatı́stica:
" #
verossimilhança do modelo sob estudo
D = −2 log
verossimilhança do modelo saturado

é chamada deviance, em que, para um melhor entendimento, é conceitual-


mente útil pensar um valor observado da variável resposta como sendo
também um valor predito resultante do modelo saturado. Um modelo
80 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

saturado é aquele que contém tantos parâmetros quantos dados existirem.


Assim, a estatı́stica T RV , apresentada anteriormente, pode ser vista como
a diferença de duas deviances, isto é,

T RV = Deviance" do modelo sem covariáveis − Deviance do modelo


# com covariáveis
verossimilhança do modelo sem covariáveis
= −2 log −
verossimilhança do modelo saturado
" " ##
verossimilhança do modelo com as covariáveis
− 2 log ,
verossimilhança do modelo saturado

o que resulta em:

T RV = 2 log(LCC ) − 2 log(LSC ).

Sob a hipótese nula de que os p coeficientes associados às covariáveis no


modelo são iguais a zero, a distribuição de T RV será Qui-Quadrado com p
graus de liberdade. Rejeição da hipótese nula, neste caso, tem interpretação
análoga àquela em regressão linear, ou seja, pode-se concluir que pelo menos
um, ou talvez todos os p coeficientes, sejam diferentes de zero.

3.2.3 Análise de deviance e seleção de modelos

Uma tabela, similar à obtida em regressão linear, para a análise de de-


viance (ANODEV) pode ser construı́da. A ANODEV é uma generalização
da análise de variância visando obter, a partir de uma seqüência de modelos
encaixados, os efeitos de fatores, covariáveis e suas interações.
Para uma seqüência de modelos encaixados, tendo estes a mesma dis-
tribuição e função de ligação, utiliza-se a deviance como uma medida de dis-
crepância do modelo e pode-se, então, construir uma tabela das diferenças
de deviance, como, por exemplo, a apresentada na Tabela 3.2, em que é
considerado um experimento com duas covariáveis contı́nuas X1 e X2 .
A partir das deviances e suas diferenças, pode-se, usando-se o teste da
razão de verossimilhanças descrito anteriormente, testar a significância da
3.2. Regressão Logı́stica Dicotômica 81

Tabela 3.2: Tabela de diferenças de deviance para um experimento com duas


covariáveis contı́nuas X1 e X2 .

Modelo g.l. deviance diferenças diferença g.l.


residual de deviance
Nulo s−1 DN
X1 s−2 D X1 DN - D X 1 1
X1 e X 2 s−3 DX1 +X2 DX1 - DX1 +X2 1
X1 , X 2 e X 1 ∗ X 2 s−4 DX1 ∗X2 DX1 +X2 - DX1 ∗X2 1
Saturado 0 0

g.l. = s − p, sendo s = no. de subpopulações (linhas da tabela) e p = no. de parâmetros.

inclusão de determinadas covariáveis, bem como suas interações no modelo.


Em outras palavras, pode-se avaliar o quanto da variação total é explicada
pela inclusão de termos no modelo.

Para o exemplo apresentado na Tabela 3.1, em que se deseja verificar a


relação entre idade e doença coronária, tem-se:

Tabela 3.3: Tabela de diferença de deviances para os dados de doença coronária.


Modelo g.l. Deviance residual Dif. Deviance Diferença g.l.
Nulo 7 28,7015
X1 : idade 6 0,5838 28,1177 1

bem como a correspondente análise de deviance (ANODEV), apresentada


na Tabela 3.4.

Portanto, T RV = 28,1177 (p = 1.142e-07) e, desse modo, rejeita-se


a hipótese H0 : β1 = 0, concluindo-se que idade está associada a doença
coronária e deve, portanto, permanecer no modelo.
82 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

Tabela 3.4: Análise de deviance para os dados de doença coronária.


Causa de variação g.l. Deviances T RV valor p
Regressão 1 28,1177 28,1177 1,142e-07
Resı́duos 6 0,5838
Total 7 28,7015

3.2.4 Qualidade do modelo ajustado

Uma vez selecionado o modelo, dentre os analisados, deseja-se avaliar o


quão bem ele se ajusta aos dados, ou seja, quão próximo os valores preditos
pelo modelo encontram-se de seus correspondentes valores observados. As
estatı́sticas de teste usadas para esta finalidade são, em geral, denominadas
estatı́sticas de qualidade do ajuste e comparam, de alguma maneira
apropriada, as diferenças entre os valores observados e preditos.
Duas estatı́sticas tradicionais de qualidade do ajuste são: a qui-quadrado
de Pearson, QP , que é baseada nos resı́duos de Pearson e a qui-quadrado
da razão de verossimilhanças, QL , também conhecida como deviance por
basear-se nos resı́duos deviance, e estas são expressas, respectivamente, por:
 2
X ij n − m ij
QP = e
mij
i,j
!
X nij
QL = 2nij log ,
mij
i,j

em que mij são as quantidades preditas pelo modelo e definidas por:

mij b
= ni+ θ(x) para j = 1

mij b
= ni+ (1 − θ(x)) para j = 2.

Sob a hipótese H0 de que o modelo se ajusta bem aos dados, QP e QL


são aproximadamente qui-quadrado com graus de liberdade igual ao número
3.2. Regressão Logı́stica Dicotômica 83

de linhas na tabela de dados menos o número de parâmetros no modelo.


Na prática, essas estatı́sticas serão aproximadamente qui-quadrado se:

• cada ni+ > 10

• 80% das contagens preditas são pelo menos 5

• todas as outras contagens esperadas > 2, e nenhuma contagem é 0.

Para o modelo ajustado aos dados de doença coronária obtiveram-se:


Qp = 0.59 (p = 0.9965, g.l. = 6) e QL = 0.58 (p = 0.9967, g.l. = 6).
Conclui-se, desses resultados, pela não rejeição da hipótese H 0 e, portanto,
pode-se dizer que o modelo escolhido se ajusta satisfatoriamente aos dados.

3.2.5 Diagnóstico da regressão logı́stica

As estatı́sticas Qp e QL , descritas na seção anterior e usadas para verificar


a qualidade de ajuste do modelo de regressão logı́stica, fornecem um único
número o qual resume a concordância entre os valores observados e os
ajustados. O problema com essas estatı́sticas é que um único número é
usado para resumir uma quantidade considerável de informação. Portanto,
antes de considerar que o modelo ajustado é satisfatório, é importante que
outras medidas sejam examinadas para que se possa averiguar se o ajuste
é válido sobre todas as combinações das categorias das covariáveis.
Pregibon (1981) estendeu os métodos de diagnóstico de regressão li-
near para a regressão logı́stica e argumenta que, como as estatı́sticas qui-
quadrado de Pearson (Qp ) e deviance (QL ) são duas medidas usadas para
verificar a qualidade do modelo ajustado, faz sentido analisar os compo-
nentes individuais dessas estatı́sticas, uma vez que estes componentes são
funções dos valores observados e preditos pelo modelo
Assim, se em uma tabela de contingência s × 2, tem-se para cada uma
das s linhas ni+ sujeitos dos quais ni1 apresentam a resposta de interesse
84 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

(sucesso) e θbi1 denota a probabilidade predita de sucesso para a i-ésima


linha (grupo), define-se o i-ésimo resı́duo por:

ni1 − ((ni+ ) θbi1 )


ci = q i = 1, · · · , s.
(ni+ ) θbi1 (1 − θbi1 )

Esses resı́duos são conhecidos como resı́duos de Pearson, uma vez que
a soma deles ao quadrado resulta em QP . Exame dos valores residuais ci
auxiliam a determinar quão bem o modelo se ajusta aos grupos individuais.
Freqüentemente, resı́duos excedendo o valor |2, 0| (ou |2, 5|) indicam falta de
ajuste. Similarmente, a deviance residual é um componente da estatı́stica
deviance e é expressa por:
" ! !#1/2
ni1 ni+ − ni1
di = sinal(ni1 − ybi1 ) 2 ni1 log + 2(ni+ − ni1 ) log ,
ybi1 ni+ − ybi1

em que ybi1 = (ni+ ) θbi1 . A soma das deviances residuais ao quadrado resulta
na estatı́stica deviance QL . A partir do exame dos resı́duos deviance pode-
se observar a presença de resı́duos não usuais (demasiadamente grandes),
bem como a presença de outliers ou, ainda, padrões sistemáticos de variação
indicando, possivelmente, a escolha de um modelo não muito adequado.
Para os dados da Tabela 3.1 obtiveram-se os resı́duos de Pearson e
deviance apresentados a seguir.

Covariável Resı́duos Resı́duos


IDADE Pearson Deviance
1 25.0000 0.2677 | * | 0.2570 | * |
2 32.0000 -0.1763 | * | -0.1791 | * |
3 38.0000 0.0070 | * | 0.0070 | * |
4 43.0000 -0.2169 | * | -0.2182 | * |
5 47.0000 -0.0051 | * | -0.0051 | * |
6 53.0000 0.0375 | * | 0.0376 | * |
7 57.0000 0.4774 | * | 0.4870 | * |
8 65.0000 -0.4662 |* | -0.4465 | * |
3.2. Regressão Logı́stica Dicotômica 85

Uma análise visual desses resı́duos mostra que os mesmos apresentam-se


satisfatórios, podendo-se, então, concluir que o modelo escolhido ajusta-se
bem aos dados.
As estatı́sticas de diagnóstico apresentadas permitem, ao analista, iden-
tificar padrões de covariáveis que estão com um ajuste pobre. Após estes
padrões serem identificados, pode-se, então, avaliar a importância que eles
têm na análise. Esta avaliação é similar ao que é feito em regressão linear,
ou seja, retira-se o padrão com ajuste pobre e verifica-se o impacto causado
nas estimativas dos parâmetros, bem como nas estatı́sticas QP e QL usadas
para verificar a qualidade de ajuste do modelo.

3.2.6 O modelo ajustado e interpretações

Para os dados da Tabela 3.1 foi ajustado o modelo:


( )
exp − 5, 123 + 0, 1058 ∗ idade
b
θ(x) = ( ), (3.5)
1 + exp − 5, 123 + 0, 1058 ∗ idade

que, juntamente com os valores observados, encontra-se representado grafi-


camente na Figura 3.3.
0.8
0.6
E(Y|x)

0.4
0.2
0.0

30 40 50 60

idade

Figura 3.3: Valores observados e valores preditos a partir do modelo.


86 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

A partir do modelo (3.5), diversas estimativas podem ser obtidas, tais


como, por exemplo, as apresentadas na Tabela 3.5.

Tabela 3.5: Estimativas obtidas do modelo ajustado.


Idade (xi ) b i)
θ(x b i)
1 − θ(x logito
26 0,0853 0,9147 -2,3724
27 0,0939 0,9061 -2,2669
65 0,8524 0,1476 1,7535

θ(xi )
Observe que exp{logito(θ(xi ))} = = odds (tratada anterior-
(1 − θ(xi ))
mente). Pode-se, então, obter a odds ratio para, por exemplo, indivı́duos
com idades 65 e 26 anos, isto é,

d = odds(65 anos) = exp{1, 7535} = exp{4, 126} = 61, 9


OR
odds(26 anos) exp{−2, 3724}

concluindo-se, assim, que a odds de indivı́duos com 65 anos apresentarem


doença coronária é 61,9 vezes a dos indivı́duos com 26 anos. Note, que
d = exp{4, 126} = exp{(65 − 26) βb1 }.
OR

3.2.7 Exemplos

A seguir, são apresentados alguns exemplos que ilustram o uso da regressão


logı́stica dicotômica.

Exemplo 1: Os dados apresentados na Tabela 3.6 referem-se a um es-


tudo realizado com pacientes que procuraram uma determinada clı́nica para
serem submetidos a um eletrocardiagrama (ECG). A variável resposta, pre-
sença ou ausência de doença coronária arterial, bem como as covariáveis
sexo e ECG, são dicotômicas.
Assumindo, para cada linha da tabela, que a variável resposta apresenta
distribuição binomial de parâmetros (ni+ , θi1 (x)), i = 1, . . . , 4, tem-se as-
3.2. Regressão Logı́stica Dicotômica 87

Tabela 3.6: Estudo sobre doença coronária arterial.

Sexo (x1 ) ECG (x2 ) Presença doença Ausência doença Total


Feminino < 0,1 ST 4 11 15
Feminino ≥ 0,1 ST 8 10 18
Masculino < 0,1 ST 9 9 18
Masculino ≥ 0,1 ST 21 6 27

sociado à tabela, o modelo produto de binomiais independentes. Para des-


crever a variação entre os θi1 (x), a sugestão é ajustar o modelo de regressão
logı́stica, expresso por:
( )
exp β0 + β1 x1 + β2 x2
θi1 (x) = ( ),
1 + exp β0 + β1 x1 + β2 x2

em que β0 é uma constante desconhecida e, β1 e β2 , são parâmetros des-


conhecidos associados às covariáveis sexo e ECG, respectivamente.
Tem-se, assim, que:
!
θi1 (x)
log = logit[θi1 (x)] = β0 + β1 x1 + β2 x2 , (3.6)
1 − θi1 (x)

o que, matricialmente, corresponde a:


     
logit(θ11 ) β0 
1 0 0 
      β0
 logit(θ )   β + β2   1 0 1  
 21   0   
 = =   β1 
.
 logit(θ31 )   β0 + β1   1 1 0 
     
β2
logit(θ41 ) β0 + β 1 + β 2 1 1 1

Esse tipo de parametrização é freqüentemente denominada parametriza-


ção de efeito incremental. Como a combinação: sexo feminino e ECG < 0,1
88 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

são descritas pelo intercepto, esse grupo é conhecido, nessa parametrização,


como a combinação de referência. O parâmetro β1 é o incremento no logito
para o sexo masculino e β2 é o incremento no logito para ECG ≥ 0,1. As
probabilidades e odds para esse modelo são, portanto, as apresentadas na
Tabela 3.7.

Tabela 3.7: Probabilidades e odds para o modelo com X1 e X2 .

Sexo (x1 ) ECG (x2 ) θi1 Odds de doença


β0 β0
Feminino < 0,1 e /(1 + e ) eβ0
Feminino ≥ 0,1 eβ0 +β2 /(1 + eβ0 +β2 ) eβ0 +β2
Masculino < 0,1 eβ0 +β1 /(1 + eβ0 +β1 ) eβ0 +β1
Masculino ≥ 0,1 eβ0 +β1 +β2 /(1 + eβ0 +β1 +β2 ) eβ0 +β1 +β2

Pode-se, desse modo, obter a odds ratio para pacientes do sexo mas-
culino versus as do sexo feminino por:

eβ0 +β1 eβ0 +β1 +β2


= e β1 ou = e β1 .
e β0 eβ0 +β2

Similarmente, a odds ratio para ECG ≥ 0, 1 versus ECG < 0, 1 é deter-


minada por:

eβ0 +β1 +β2 eβ0 +β2


= e β2 ou = e β2 .
eβ0 +β1 e β0

Em regressão logı́stica, as odds ratios são, portanto, funções dos parâme-


tros do modelo. Para modelos com somente os efeitos principais, cada odds
que compõe a odds ratio, é obtida simplesmente exponenciando as esti-
mativas dos parâmetros. Contudo, diferentemente das odds ratios obtidas
de tabelas 2 × 2, estas são ajustadas para todas as outras covariáveis no
modelo.
3.2. Regressão Logı́stica Dicotômica 89

(a) Resultados e conclusões obtidas para os dados do exemplo 1

As estimativas de máxima verossimilhança dos parâmetros do modelo apre-


sentado em (3.5) e que foi ajustado aos dados do exemplo 1, foram as
seguintes: βb0 = -1,1747 (s.e.= 0,4854), βb1 = 1,277 (s.e.= 0,4980) e βb2 =
1,0545 (s.e.= 0,4980).
A Tabela 3.8 apresenta as diferenças de deviance e mostra a significância
das variáveis sexo (p = 0,00762) e ECG na presença de sexo (p = 0,03108).

Tabela 3.8: Tabela de diferença de deviances para os dados do exemplo 1.

Modelos g.l. Deviance residual Dif. Deviance Dif. g.l. valor p


Nulo 3 11,9835
X1 2 4,8626 7,1209 1 0,00762
X1 e X 2 1 0,2141 4,6485 1 0,03108

A ANODEV apresentada na Tabela 3.9 mostra que o modelo de regressão


logı́stica, com as covariáveis sexo e ECG, apresentou uma redução na de-
viance residual de 11,7694 (de um total de 11,9835) evidenciando que ambas
as covariáveis estão associadas à variável resposta e devem, portanto, per-
manecer no modelo, uma vez que estas explicam grande parte da deviance
residual total.

Tabela 3.9: Análise de deviance para os dados do exemplo 1.


Causa de variação g.l. Deviances T RV valor p
Regressão 2 11,7694 11,7694 0,00278
Resı́duos 1 0,2141
Total 3 11,9835

Para o modelo ajustado e expresso por:


90 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

logit(θbi1 (x)) = −1, 1747 + 1, 277 sexo + 1, 0545 ECG,

obtiveram-se QP = 0,2155 (p = 0,6425) e QL = 0,2141 (p = 0,6436) e,


sendo assim, não se rejeita a hipótese nula de que o modelo ajustado é
satisfatório.
Os valores θi1 observados e também os preditos a partir do modelo ajus-
tado, bem como a deviance residual e os resı́duos de Pearson, são apresenta-
dos na Tabela 3.10. Nota-se, desses resultados, que os resı́duos apresentam-
se satisfatórios, podendo-se concluir que o modelo escolhido se ajusta bem
aos dados.

Tabela 3.10: Valores observados, valores preditos e resı́duos.

deviance resı́duos
θi1 θbi1 (θi1 - θbi1 ) residual de Pearson
0,2666667 0,2360103 0,03065632 0.2756894 0.2796124
0,4444444 0,4699914 -0,02554693 -0.2174355 -0.2171644
0,5000000 0,5255469 -0,02554693 -0.2169146 -0.2170564
0,7777778 0,7607465 0,01703129 0.2091855 0.2074342

Tem-se, então, que a odds ratio dos pacientes do sexo masculino versus
a dos pacientes do sexo feminino pode ser estimada, como visto anterior-
d (m/f ) = e1,277 = 3,586. Logo, a chance (odds) dos homens
mente, por OR
apresentarem doença coronária arterial é 3,5 vezes a das mulheres. De
modo análogo, estima-se que a odds ratio de ECG ≥ 0,1 versus a de ECG
d = e1,0545 = 2,871. Então, a chance (odds) dos pacientes com
< 0,1 é OR
ECG ≥ 0,1 apresentarem doença coronária arterial é de aproximadamente
3 vezes a daqueles pacientes com ECG < 0,1. De modo geral, pacientes do
sexo masculino e com ECG ≥ 0,1 são os mais propensos a apresentarem
3.2. Regressão Logı́stica Dicotômica 91

doença coronária arterial.


Intervalos de confiança para as odds ratios podem ser obtidos usando-se
as propriedades assintóticas de βbi . Assim, por exemplo, o I.C.95% para
d (m/f ) é dado por (e(1,277−1,96∗0,498) , e(1,277+1,96∗0,498) ) = (1,35; 9,51).
OR
Analogamente, para a odds ratio de ECG ≥ 0,1 versus ECG < 0,1, tem-se
o intervalo, com 95% de confiança, de (1,082; 7,618).
A interação entre sexo e ECG, quando incluı́da no modelo, não apresen-
tou significância estatı́stica, com correspondente valor p associado ao teste
da razão de verossimilhanças de 0,6436.

Exemplo 2: Nesse exemplo, são analisados os dados de um estudo sobre


infecções urinárias (Koch et al., 1985) apresentados na Tabela 3.11.

Tabela 3.11: Estudo sobre tratamento de infecções urinárias.

Diagnóstico (x1 ) Tratamento (x2 ) Curado Não curado Total


Infecção complicada A 78 28 106
Infecção complicada B 101 11 112
Infecção complicada C 68 46 114
Infecção não complicada A 40 5 45
Infecção não complicada B 54 5 59
Infecção não complicada C 34 6 40

Observe que um, dentre três tratamentos, foi administrado a cada pa-
ciente que apresentou no diagnóstico infecção urinária complicada ou não
de ser curada. A resposta é portanto dicotômica, a covariável diagnóstico
apresenta duas categorias e a covariável tratamento, três categorias. É im-
portante notar que uma covariável com L categorias deve ser representada
em um modelo por (L - 1) parâmetros.
Para esse estudo, o modelo de regressão logı́stica com os efeitos prin-
cipais (diagnóstico e tratamento) e a interação entre eles, é representado
92 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

matricialmente por:
    
logit(θ11 ) 1 1 1 0 1 0 β0
    
 logit(θ21 )   1 1 0 1 0 1   β1 
    
    
 logit(θ31 )   1 1 0 0 0 0   β2 
    
 =  .
 logit(θ41 )   1 0 1 0 0 0   β3 
    
    
 logit(θ51 )   1 0 0 1 0 0   β4 
    
logit(θ61 ) 1 0 0 0 0 0 β5

Uma vez que o modelo considerado é o saturado, isto é, seu número
de parâmetros é igual ao número de linhas da tabela de dados, o teste de
qualidade de ajuste não se aplica a este modelo porque não existem graus
de liberdade disponı́veis. Ajustar esse modelo possibilita, contudo, a análise
do efeito da interação. Na Tabela 3.12 pode-se observar as diferenças de
deviance dos modelos seqüenciais ajustados.

Tabela 3.12: Diferenças de deviance: estudo sobre infecções urinárias.


deviance diferenças de
Modelos g.l. residual deviance diferenças g.l.
Nulo 5 44,473
X1 4 30,628 13,844 1
X1 e X 2 2 2,515 28,114 2
X1 , X 2 e X 1 ∗ X 2 0 0,000 2,515 2

A partir da Tabela 3.12 tem-se que o teste relativo a hipótese nula de


que a interação não é significativa, o que equivale a testar H0 : β4 = β5 = 0,
resultou em T RV = 2,515 (p = 0,2843, g.l.= 2). Desse modo, não há
evidências para a rejeição da hipótese H0 . Em sendo a interação não signi-
ficativa, testes dos efeitos do diagnóstico e tratamento são, a seguir, real-
izados. Para saber se há efeito da covariável diagnóstico, o que equivale a
testar H0 : β1 = 0, usou-se, novamente, o teste da razão de verossimilhanças
obtendo-se T RV = 13,844 (p = 0,000198, g.l.= 1). Há, portanto, evidências
3.2. Regressão Logı́stica Dicotômica 93

de efeito do diagnóstico. Analogamente, obteve-se para o teste do efeito


da covariável tratamento, na presença da covariável dignóstico, o que equi-
vale a testar H0 : β2 = β3 = 0, o resultado T RV = 28,114 (p = 7,85e-07,
g.l. = 2). Conclui-se, assim, haver evidências de efeito dos tratamentos,
estando a covariável dignóstico no modelo.
O modelo considerado é, desse modo, o que considera os efeitos prin-
cipais de diagnóstico e tratamento. Os respectivos parâmetros estimados
para este modelo encontram-se na Tabela 3.13.

Tabela 3.13: Estimativas dos parâmetros obtidas para o modelo ajustado.

Parâmetros Estimativas Erro-padrão


β0 : intercepto 1,4184 0,2986
β1 : diag = infecção complicada -0,9616 0,2997
β2 : tratamento A 0,5847 0,2641
β3 : tratamento B 1,5608 0,3158

A ANODEV para esse modelo encontra-se na Tabela 3.14. Desta tabela,


pode-se observar que as covariáveis diagnóstico e tratamento são altamente
associadas à variável resposta (cura, ou não, da infecção urinária).

Tabela 3.14: Análise de deviance para os dados do exemplo 2.


Causa de variação g.l. Deviances T RV valor p
Regressão 3 41,958 41,958 4.09e-09
Resı́duos 2 2,515
Total 5 44,473

As estatı́sticas de qualidade de ajuste do modelo considerado resultaram


em QL = 2,515 (p = 0,2844, g.l. = 2) e QP = 2,7574 (p = 0,2519 g.l. = 2)
fornecendo, assim, evidências de que o modelo apresenta ajuste satisfatório
94 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

aos dados. Ainda, dos valores observados e dos valores preditos a partir do
modelo, bem como da deviance residual e dos resı́duos de Pearson, apresen-
tados na Tabela 3.15, nota-se que os resı́duos encontram-se-se satisfatórios,
podendo-se, desse modo, concluir que o modelo escolhido, e expresso por:

logit(θbi1 ) = 1, 4184 − 0, 9616 diag + 0, 5847 tratA + 1, 5608 tratB,

em que diag = 1 se infecção urinária foi diagnosticada como complicada e


0, em caso contrário, tratA = 1 e tratB = 0, se o tratamento A foi uti-
lizado, tratA = 0 e tratB = 1, se o tratamento B foi utilizado e, finalmente,
tratA = tratB = 0, se o tratamento C foi utilizado, se ajusta bem aos
dados.

Tabela 3.15: Valores observados, valores preditos e resı́duos.

di = deviance ci = resı́duos
θi1 θbi1 residual de Pearson
0,7358491 0,7391443 -0,07715904 -0,07726359
0,9017857 0,8826267 0,64598342 0,62995503
0,5964912 0,6122501 -0,34450962 -0,34533240
0,8888889 0,8811267 0,16244931 0,16088958
0,9152542 0,9516237 -1,18234402 -1,30201030
0,8500000 0,8050871 0,74055971 0,71706568

A partir do modelo ajustado pode-se obter as odds de cura, apresentadas


na Tabela 3.16, para que sejam retiradas algumas conclusões de interesse
do pesquisador. Desta tabela tem-se, por exemplo, que a odds ratio de
diagnóstico de infecção complicada versus a de infecção não complicada é
d = eβb1 = 0,3822 e, portanto, a chance (odds) de cura no caso de
de OR
infecções diagnosticadas como não complicadas é de (1/0,3822) = 2,6 vezes
a odds de cura no caso de infecções diagnosticadas como complicadas. Por
3.2. Regressão Logı́stica Dicotômica 95

b
outro lado, a odds de ser curado com o tratamento A é de eβ2 = 1,79 vezes
a de ser curado com tratamento C, bem como, a odds de ser curado com
b
o tratamento B é de eβ3 = 4,76 vezes a de ser curado com tratamento C.
b b
Por fim, a chance (odds) de cura com o tratamento B é de eβ3 −β2 = 2,65
vezes a de ser curado com o tratamento A. Chances maiores de cura são
observadas, portanto, para aqueles pacientes com infecções urinárias diag-
nosticadas como sendo não complicadas e que recebam o tratamento B.

Tabela 3.16: Logitos e odds obtidos a partir do modelo de regressão logı́stica ajustado.

diagnóstico tratamento logito odds de cura


inf. complicada A βb0 + βb1 + βb2 = 1,0415 e1,0415 = 2,8335
inf. complicada B βb0 + βb1 + βb3 = 2,0175 e2,0175 = 7,5198
inf. complicada C βb0 + βb1 = 0,4567 e0,4567 = 1,5789
inf. não complicada A βb0 + βb2 = 2,0031 e2,0031 = 7,4123
inf. não complicada B βb0 + βb3 = 2,9791 e2,9791 = 19,671
inf. não complicada C βb0 = 1,4184 e1,4184 = 4,1305

Exemplo 3: Neste exemplo são analisados os dados apresentados na Tabela


3.17 referentes a um estudo sobre doença coronária, similar ao analisa-
do previamente no exemplo 1, considerando-se, no entanto, além das co-
variáveis sexo e eletrocardiograma (ECG), a covariável idade (em anos).
Ainda, a covariável ECG é apresentada em três categorias: < 0,1, [0,1; 0,2)
e ≥ 0,2 e foi considerada nos modelos como uma variável ordinal em que
foram assumidos, para as respectivas categorias citadas, os escores 0, 1 e 2.

Observe que diversos valores da covariável idade são únicos, o que im-
plica que na construção de uma tabela de contingência considerando-se as
três covariáveis, existirão diversas caselas com somente uma observação.
96 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

Tabela 3.17: Dados de pacientes observados em um estudo sobre doença coronária.

sexo ECG idade dc sexo ECG idade dc sexo ECG idade dc


0 0 28 0 1 0 42 1 0 1 46 0
0 0 34 0 1 0 44 1 0 1 48 1
0 0 38 0 1 0 45 0 0 1 49 0
0 0 41 1 1 0 46 0 0 1 49 0
0 0 44 0 1 0 48 0 0 1 52 0
0 0 45 1 1 0 50 0 0 1 53 1
0 0 46 0 1 0 52 1 0 1 54 1
0 0 47 0 1 0 52 1 0 1 55 0
0 0 50 0 1 0 54 0 0 1 57 1
0 0 51 0 1 0 55 0 0 2 46 1
0 0 51 0 1 0 59 1 0 2 48 0
0 0 53 0 1 0 59 1 0 2 57 1
0 0 55 1 1 1 32 0 0 2 60 1
0 0 59 0 1 1 37 0 1 0 30 0
0 0 60 1 1 1 38 1 1 0 34 0
0 1 32 1 1 1 38 1 1 0 36 1
0 1 33 0 1 1 42 1 1 0 38 1
0 1 35 0 1 1 43 0 1 0 39 0
0 1 39 0 1 1 43 1 1 0 42 0
0 1 40 0 1 1 44 1 1 2 43 1
1 1 45 0 1 1 57 1 1 2 47 1
1 1 45 1 1 1 59 1 1 2 48 1
1 1 45 1 1 1 60 1 1 2 49 0
1 1 46 1 1 1 63 1 1 2 58 1
1 1 48 1 1 2 35 0 1 2 59 1
1 1 57 1 1 2 37 1 1 2 60 1

sexo = 0 se feminino e sexo = 1 se masculino; ECG = 0 se < 0,1, ECG = 1 se


∈ [0, 1; 0, 2) e ECG = 2 se ≥ 0,2; dc = 1 se doença coronária presente e dc = 0
em caso contrário.

Isto significa que as estatı́sticas de teste QL e QP não poderão ser cal-


culadas. Este fato é muito comum quando se tem a presença de co-
variáveis contı́nuas. Para esses casos, estratégias alternativas encontram-se
disponı́veis.
3.2. Regressão Logı́stica Dicotômica 97

Um modelo de interesse para os dados apresentados é aquele com as


covariáveis: sexo, ECG e idade e, possivelmente, as interações duplas e
tripla entre elas. Um cuidado que se deve ter, no entanto, é quanto ao
número de parâmetros envolvidos. Alguns analistas sugerem que haja pelo
menos 5 observações da resposta que ocorre com menor freqüência, para
cada parâmetro sendo considerado. Nesse estudo tem-se 37 indivı́duos que
apresentaram resposta não e 41 que apresentaram resposta sim. Assim,
tem-se 37/5 = 7,4, o que sugere que no máximo 7 a 8 parâmetros sejam
considerados.
Na Tabela 3.18 são apresentadas as diferenças de deviance dos modelos
seqüenciais ajustados para os dados do estudo descrito.

Tabela 3.18: Tabela das diferenças de deviance dos modelos de regressão logı́stica
seqüências ajustados ao estudo sobre doenças coronárias.

Deviance Diferenças de
Modelos g.l. Residual Deviance Diferença g.l.
Nulo 77 107,926 – –
X1 76 101,840 6,086 1
X1 e X 2 75 95,080 6,760 1
X1 , X 2 e X 3 74 86,811 8,626 1
X1 , X2 , X3 + int. duplas 71 85,522 1,289 3
X1 , X2 , X3 + int. duplas e tripla 70 85,414 0,108 1

X1 = sexo; X2 = ECG e X3 = idade.

A partir da Tabela 3.18 tem-se que o teste relativo a hipótese nula de que
a interação tripla não é significativa, o que equivale a testar H 0 : β7 = 0,
resultou em T RV = 0,108 (p = 0,7424, g.l.= 1). Desse modo, não há
evidências para a rejeição de H0 . De modo análogo, para o teste da hipótese
H0 : β4 = β5 = β6 = 0 (interações duplas) foi obtido T RV = 1,289 (p =
0,7317, g.l. = 3), o que mostra não haver evidências para a rejeição desta
98 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

hipótese. Como não foram encontradas evidências de que as interações


tripla e duplas sejam necessárias no modelo, testou-se:
a) H0 : β1 = 0, obtendo-se T RV = 6,086 (p = 0,0136, g.l.= 1)
b) H0 : β2 = 0, obtendo-se T RV = 6,760 (p = 0,0093, g.l.= 1)
c) H0 : β3 = 0, obtendo-se T RV = 8,626 (p = 0,0033, g.l.= 1)

Dos resultados obtidos, conclui-se haver evidências para a rejeição das


três hipóteses nulas testadas. O modelo escolhido é, portanto, o que consi-
dera os efeitos de sexo, ECG e idade. Os respectivos parâmetros estimados
para este modelo encontram-se na Tabela 3.19.

Tabela 3.19: Estimativas dos parâmetros do modelo ajustado.


Parâmetros Estimativas Erro-padrão
β0 : intercepto -5,6417 1,8026
β1 : sexo (masculino) 1,3564 0,5458
β2 : ECG 0,8732 0,3839
β3 : idade 0,0928 0,0350

O modelo estimado ficou, assim, expresso por:

logit(θbi1 ) = −5, 6417 + 1, 3564 sexo + 0, 8732 ECG + 0, 0928 idade.

Para avaliar a qualidade do modelo ajustado, na presença de variáveis


contı́nuas, Hosmer e Lemeshow (1989) propuseram uma estatı́stica, deno-
tada aqui por QHL , que considera as contagens esperadas e observadas para
as respostas dc = 1 e dc = 0 em cada decil das probabilidades preditas. Para
esse estudo, tal estatı́stica resultou em 5,76 (p = 0,6747, g.l. = 8 (n o decis −
2). É possı́vel, assim, concluir que o modelo considerado ajusta-se satisfa-
toriamente aos dados. Os resı́duos deviance e de Pearson apresentaram-se
também satisfatórios, como pode ser observado na Figura 3.4.
3.2. Regressão Logı́stica Dicotômica 99

2
residuos de Pearson

deviance residual
1

1
0

0
−1

−1
−2

−2
0 20 40 60 80 0 20 40 60 80

Index Index

Figura 3.4: Resı́duos de Pearson e deviance residual.

A odds ratio para sexo, ajustada para ECG e idade, é, nesse estudo,
d = e1,3564 = 3,882. Assim, a chance (odds) de pacientes do
estimada por OR
sexo masculino apresentarem doença coronária é 3,882 vezes a dos pacientes
do sexo feminino. De modo análogo, a odds ratio para ECG, ajustada para
d = e0,8732 = 2,395. Isto significa que a
sexo e idade, é estimada por OR
chance de pacientes com ECG = 1 apresentarem doença coronária é 2,395
vezes a daqueles com ECG = 0, bem como a odds dos pacientes com ECG
= 2 apresentarem doença coronária é 2,395 vezes a odds dos pacientes com
ECG = 1. Ainda, a odds ratio para a idade, ajustada para sexo e ECG,
d = e0,0929 = 1,097, significa que a chance (odds) de doença
dada por OR
coronária de um paciente com x+1 anos é 1,097 vezes a de um paciente com
x anos. Para, por exemplo, dois pacientes do mesmo sexo e mesmo ECG,
d = e0,0929∗(40−30)
mas em que um deles tenha 30 anos e outro 40, tem-se OR
= 2,53, ou seja, a chance de doença coronária do paciente com 40 anos é
de 2,53 vezes a daquele com 30 anos.

De modo geral, pode-se concluir, desse estudo, que a presença de doença


coronária encontra-se positivamente associada com a idade e com o resul-
100 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

tado do ECG, bem como que os pacientes do sexo masculino são mais
propensos a apresentá-la.

3.2.8 Métodos auxiliares no diagnótico do modelo ajustado

(a) QQplot com envelope simulado

No caso em que a variável resposta é assumida ser normalmente dis-


tribuı́da, é comum que afastamentos sérios da distribuição normal sejam
verificados por meio do gráfico de probabilidades normal dos resı́duos. No
contexto de modelos lineares generalizados, em que distribuições diferentes
da normal são também consideradas, gráficos similares com envelopes si-
mulados podem ser também construı́dos com os resı́duos gerados a partir
do modelo ajustado. A inclusão do envelope simulado no QQplot auxilia a
decidir se o pontos diferem significativamente de uma linha reta (Atkinson,
1985). Paula (2000) apresenta códigos em linguagem Splus, que podem ser
utilizados no pacote estatı́stico R, para gerar tais gráficos em: regressão
gama, logı́stica, Poisson e binomial negativa, além da normal. Para que
o modelo ajustado seja considerado satisfatório, faz-se necessário que as
deviances residuais caiam dentro do envelope simulado. Para os dados
desse exemplo, o QQplot obtido encontra-se apresentado na Figura 3.5.
Desta figura é possı́vel observar que não ocorreram afastamentos sérios da
distribuição binomial para a variável resposta, uma vez que as deviances
encontram-se dentro do envelope.

(b) Poder preditivo do modelo e outras medidas auxiliares

O poder preditivo do modelo pode também ser obtido com a finalidade


de avaliar a qualidade do modelo ajustado. Para isso, faz-se necessário
estabelecer uma probabilidade, denominada “ponto de corte”, a partir da
qual se estabeleça que:
3.2. Regressão Logı́stica Dicotômica 101

Q−Q Plot

2
1
Deviance

0
−1
−2

−2 −1 0 1 2

Percentis

Figura 3.5: QQplot com envelope simulado para os dados do exemplo 3.

I a variável resposta receba o valor 1, isto é, Y = 1 para probabilidades


estimadas pelo modelo que sejam maiores ou iguais a esse ponto de
corte e, ainda, que

I a variável resposta receba o valor 0, isto é, Y = 0 para probabilidades


estimadas pelo modelo que sejam menores do que esse ponto de corte.

Estabelecendo-se o ponte de corte pc = 0,50, foram obtidos para os


dados do exemplo 3, os resultados apresentados na Tabela 3.20. Desta
tabela, tem-se que:

31+25
a) valor preditivo do modelo = 78 = 0, 7179
102 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

31 25
b) valor preditivo + = 43 = 0, 7209 e valor preditivo - = 35 = 0, 7143

12 10
c) falsos positivos = 37 = 0, 3243 e falsos negativos = 41 = 0, 2439

31
d) sensibilidade do modelo = 41 = 0, 7561

25
e) especificidade do modelo = 37 = 0, 6757

Tabela 3.20: Classificações pelo modelo para pc = 0,5 vs observado.


Classificado pelo modelo
Observado dc = 1 (+) dc = 0 (−) Totais
dc = 1 (+) 31 10 41
dc = 0 (−) 12 25 37
Totais 43 35 78

De modo geral, e dos resultados apresentados, pode-se concluir que o


modelo ajustado apresenta-se satisfatório.

3.2.9 Outros modelos com resposta dicotômica

Para estudos em que a variável resposta é dicotômica, foi apresentado o


modelo de regressão logı́stica. Além deste, outros modelos para respostas
dicotômica são descritos na literatura, dentre eles, o modelo probito e o
modelo complemento log-log, que têm sido utilizados, por exemplo, em ex-
perimentos dose-resposta. Todos são, na realidade, modelos de regressão
binomial, visto a distribuição binomial estar associada à variável resposta.
Na Tabela 3.21 é apresentado a caracterização dos modelos citados em ter-
mos de suas funções de distribuição F (x0 β) = P [Y = 1 | x] e de suas
respectivas funções de ligação.
3.3. Regressão Logı́stica Politômica 103

Tabela 3.21: Caracterização de alguns modelos de regressão binomial.


Modelo de regressão P[Y = 1 | x] = θ(x) função de ligação
h i
exp{x0 β} θ(x)
logı́stica 1+exp{x0 β} log 1−θ(x)
probito Φ(x0 β) Φ−1 (θ(x))
0
complemento log-log 1 − exp{−e{x β} } log[− log[1 − θ(x)]]
Φ(·) denota a função de distribuição da normal padrão.

3.3 Regressão Logı́stica Politômica

A regressão logı́stica também se aplica, como mencionado anteriormente, a


situações em que a variável resposta apresenta mais do que duas categorias
(respostas politômicas), podendo, as categorias, serem ordinais ou nomi-
nais. A seguir são apresentados exemplos que ilustram ambas as situações.

3.3.1 Resposta ordinal: modelo de odds proporcionais

Para tratar a situação em que a resposta é ordinal, considere os dados


apresentados na Tabela 3.22 em que pacientes do sexo feminino e masculino
receberam o tratamento A, ou um placebo, para suas dores de artrite. A
resposta, nesse estudo, foi o grau de melhora das dores: nenhuma, alguma
e melhora acentuada.

Tabela 3.22: Estudo clı́nico sobre tratamentos para dores de artrite.

Grau de melhora
Sexo Tratamento Acentuada Alguma Nenhuma Totais
F A 16 5 6 27
F Placebo 6 7 19 32
M A 5 2 7 14
M Placebo 1 0 10 11
104 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

Uma possı́vel estratégia de análise desses dados seria criar uma variável
resposta dicotômica combinando duas das categorias de respostas. Con-
tudo, visto que existe uma ordem natural das categorias de resposta, faz
sentido considerar uma estratégia que leve em conta essa ordenação. Con-
sidere, desse modo, as quantidades:

θhi1 = πhi1 e θhi2 = πhi1 + πhi2 ,

em que πhi1 denota a probabilidade de melhora acentuada, πhi2 a probabili-


dade de alguma melhora e πhi3 a probabilidade de nenhuma melhora (h = 1
para sexo feminino, h = 2 para sexo masculino, i = 1 para tratamento A e
i = 2 para placebo). Assim, θhi1 é a probabilidade de melhora acentuada e
θhi2 é a probabilidade de melhora acentuada ou alguma melhora, ou seja,
é uma probabilidade acumulada.
Para uma resposta dicotômica foi visto que, uma única função logito
é considerada para cada subpopulação (linha da tabela de contingência).
Já para uma resposta ordinal com L > 2 categorias, L − 1 logitos cumula-
tivos, baseados nas probabilidades acumuladas, são considerados para cada
subpopulação. Para três categorias de resposta, como é o caso do exemplo
apresentado na Tabela 3.22, os dois logitos cumulativos são expressos por:
" # " #
πhi1 πhi1 + πhi2
logit(θhi1 ) = log e logit(θhi2 ) = log .
πhi2 + πhi3 πhi3

Esses logitos são, respectivamente, o log(odds) de melhora acentuada


para alguma ou nenhuma melhora e o log(odds) de melhora acentuada ou
alguma melhora para nenhuma melhora. O modelo de odds proporcionais
leva em consideração ambas as odds citadas.
Assumindo-se que os totais marginais nhi+ são fixos, tem-se, associa-
do a cada subpopulação (linha da tabela de contingência), a distribuição
P3
multinomial em que j=1 πhij = 1. Um modelo que se aplica a ambos
3.3. Regressão Logı́stica Politômica 105

os logitos simultaneamente, para cada combinação de sexo e tratamento,


poderia então ser escrito por:

logit(θhik ) = β0k + β 0k xhi ,

em que k = 1, 2 indexa os dois logitos. Nesse modelo, os interceptos são dis-


tintos, bem como existem diferentes conjuntos de parâmetros de regressão
para cada logito.
Com a suposição de odds proporcionais tem-se que β k = β para todo
k, simplicando, assim, o modelo para:

logit(θhik ) = β0k + β 0 xhi

que também pode ser expresso por:


n o n P o
exp β0k + β 0 xhi exp β0k + pg=1 βg xhig
θhik = n o= n P o,
1 + exp β0k + β 0 xhi 1 + exp β0k + pg=1 βg xhig

em que g = 1, ..., p refere-se às covariáveis. Esse modelo é similar a


regressão logı́stica dicotômica e seus parâmetros são também estimados
por meio do método de máxima verossimilhança.
Os valores para πhij podem ser determinados, usando-se esse modelo,
por meio das apropriadas subtrações de θhik , ou seja:

πhi1 = θhi1

πhi2 = θhi2 − θhi1

πhi3 = 1 − θhi2 .

(a) Regressão logı́stica politômica ajustada aos dados de artrite

Sob a suposição de odds proporcionais, o modelo de efeitos principais é um


apropriado ponto de partida para a análise dos dados de artrite e, este
106 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

modelo, em notação matricial, é expresso por:


     
logit(θ111 ) β01 + β1 + β2 1 0 1 1
     
     
 logit(θ112 )   β02 + β1 + β2   0 1 1 1 
      
 logit(θ )   β01 + β1   1 0 1 0  β01
 121     
      
 logit(θ )   β02 + β1   0 1 1 0   β02 
 122      
 = =  .
 logit(θ211 )   β01 + β2   1 0 0 1   β1 
      
     
 logit(θ212 )   β02 + β2   0 1 0 1  β2
     
     
 logit(θ221 )   β01   1 0 0 0 
     
logit(θ222 ) β02 0 1 0 0

Esse modelo é similar aos modelos descritos anteriormente, exceto pela


existência de dois parâmetros de intercepto, correspondendo as duas funções
logito sendo modeladas para cada subpopulação. O parâmetro β 01 é o
intercepto do primeiro logito cumulativo e o parâmetro β02 é o intercepto
do segundo logito cumulativo, β1 é o efeito (incremento) do sexo feminino
e β2 é o efeito (incremento) do tratamento A. Sexo masculino e placebo
correspondem à casela de referência.
Na Tabela 3.23 são apresentadas as diferenças de deviance dos modelos
seqüenciais ajustados.

Tabela 3.23: Tabela das diferenças de deviance para os dados de artrite.


deviance diferenças de diferenças
Modelos g.l. residual deviance de g.l.
Nulo 6 (8−2) 169,9159
X1 5 (8−3) 166,1106 3,8053 1
X1 e X 2 4 (8−4) 150,0294 16,0812 1
X1 , X 2 e X 1 ∗ X 2 3 (8−5) 149,7210 0,3084 1
X1 = sexo, X2 = tratamento

Os graus de liberdade (g.l.) foram obtidos por (s ∗ (r − 1)) − p, sendo s


3.3. Regressão Logı́stica Politômica 107

o número de subpopulações (linhas da tabela de contingência), r o número


de categorias da variável resposta e p o número de parâmetros no modelo.
Pode-se observar, da Tabela 3.23, que a interação entre sexo e tratamento
não é significativa, uma vez que T RV = 0,3084 (p = 0,5786, g.l. = 1).
Já para os efeitos principais de sexo e tratamento na presença de sexo,
obtiveram-se T RV = 3,8053 (p = 0,051) e T RV = 16,0812 (p = 6,06e −7 ),
respectivamente, podendo-se, desse modo, concluir que ambos os efeitos são
significativos e devem, portanto, permanecer no modelo. Os respectivos
parâmetros estimados para o modelo com as covariáveis sexo e tratamento,
encontram-se na Tabela 3.24.

Tabela 3.24: Estimativas obtidas para o modelo ajustado.

Parâmetros Estimativas Erro-padrão


β01 : intercepto 1 -2,6672 0,6065
β02 : intercepto 2 -1,8128 0,5654
β1 : sexo feminino 1,3187 0,5381
β2 : tratamento A 1,7973 0,4718

A avaliação da qualidade de ajuste do modelo de odds proporcionais é


similar a realizada para o modelo de regressão logı́stica dicotômica. Se pelo
menos 80% das contagens observadas nas caselas for 5, então pode-se usar as
estatı́sticas QL e QP as quais, sob H0 , têm distribuição Qui-Quadrado com
((r − 1)(s − 1) − q) g.l., sendo r o número de categorias da variável resposta,
s o número de subpopulações e q o número de covariáveis. Para os dados
desse exemplo obtiveram-se QL = 2,7121 (p = 0,6071, g.l. = 4) e QP =
1,9099 (p = 0,7523, g.l. = 4) e, desse modo, conclui-se que o modelo ajusta-
se satisfatoriamente aos dados. O modelo ajustado é, portanto, expresso
por:

logit(θbhik ) = βb0k + 1, 3187 sexo + 1, 7973 tratamento


108 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

ou, ainda,
n o
exp βb0k + 1, 3187 sexo + 1, 7973 tratamento
θbhik = n o , k = 1, 2.
1 + exp βb0k + 1, 3187 sexo + 1, 7973 tratamento

As probabilidades cumulativas preditas por tal modelo e, conseqüente-


mente, as probabilidades não-cumulativas, encontram-se na Tabela 3.25.

Tabela 3.25: Probabilidades cumulativas (θhik ) e não-cumulativas (πhij ) esti-


madas por meio do modelo ajustado.

Sexo Tratamento θbhi1 θbhi2 bhi1


π bhi2
π bhi3
π
F A 0,6104 0,7864 0,6104 0,1760 0,2136
F Placebo 0,2061 0,3789 0,2061 0,1728 0,6211
M A 0,2953 0,4961 0,2953 0,2008 0,5039
M Placebo 0,0649 0,1403 0,0649 0,0754 0,8597

Note, ainda, que as probabilidades observadas e as estimadas a partir


do modelo ajustado, apresentadas na Tabela 3.26, encontram-se bastante
próximas umas das outras, indicando que o modelo ajustado apresenta-se
satisfatório.
As odds ratios são também obtidas de modo similar à regressão logı́stica
dicotômica. Na Tabela 3.27 são apresentadas as odds para o modelo de odds
proporcionais ajustado. Desta tabela, pode-se, por exemplo, observar que
a odds de melhora acentuada versus alguma ou nenhuma melhora para
pacientes do sexo feminino comparada com a odds dos pacientes do sexo
exp{β01 +β1 +β2 } exp{β01 +β1 }
masculino é de OR = exp{β01 +β2 } = exp{β01 } = exp{β1 }. Assim, a
chance dos pacientes do sexo feminino apresentarem melhora acentuada é
e1,3187 = 3, 738 vezes a dos pacientes do sexo masculino. Ainda, a chance
dos pacientes recebendo o tratamento A apresentarem melhora acentuada
b
é eβ2 = e1,7973 = 6,03 vezes a dos pacientes recebendo placebo e, pela
3.3. Regressão Logı́stica Politômica 109

Tabela 3.26: Probabilidades observadas e estimadas pelo modelo.

observadas estimadas (observadas - estimadas)


0.5925926 0.61036848 -0.017775889
0.1851852 0.17601388 0.009171310
0.2222222 0.21361764 0.008604579
0.1875000 0.20612474 -0.018624743
0.2187500 0.17281504 0.045934963
0.5937500 0.62106022 -0.027310220
0.3571429 0.29527688 0.061865982
0.1428571 0.20084884 -0.057991694
0.5000000 0.50387429 -0.003874287
0.0909091 0.06493692 0.025972174
0.0000000 0.07536270 -0.075362704
0.9090909 0.85970038 0.049390531

suposição de odds proporcionais assumida para o modelo ajustado, esta é


também a odds ratio para melhora acentuada ou alguma melhora versus
nenhuma melhora.

Tabela 3.27: Fórmulas das odds obtidas para o modelo de odds proporcionais ajustado.

Melhora acentuada versus Melhora acentuada ou alguma


Sexo Tratamento alguma ou nenhuma versus nenhuma
F A exp{β01 + β1 + β2 } exp{β02 + β1 + β2 }
F Placebo exp{β01 + β1 } exp{β02 + β1 }
M A exp{β01 + β2 } exp{β02 + β2 }
M Placebo exp{β01 } exp{β02 }

Observe que a suposição de odds proporcionais é necessária para o uso


do modelo aqui apresentado. Assim, a hipótese de que existe um vetor
comum β, em vez de distintos vetores β k , deve ser testada, isto é, deve-se
110 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

testar a hipótese nula H0 : β k = β. Se esta hipótese for rejeitada, uma


outra abordagem deve ser considerada. Uma abordagem sugerida, nesses
casos, é considerar as categorias da variável resposta como nominais em vez
de ordinais e, então, ajustar um modelo para os logitos generalizados, que
é tratado na próxima seção.
Para o exemplo considerado, o teste da hipótese nula citada resultou
em QRS = 1,8833 (p = 0,39, g.l. = ((r − 1)(s − 1) − q) = 2), concluindo-se,
assim, que a suposição de odds proporcionais é razoável para esses dados.

3.3.2 Resposta nominal: modelo de logitos generalizados

Modelos de regressão logı́stica também podem ser usados para analisar


dados em que as categorias da variável resposta são nominais. Nesses casos,
contudo, ajustam-se modelos para logitos generalizados e não para logitos
cumulativos.
Para tratar o modelo de logitos generalizados, considere os dados apre-
sentados na Tabela 3.28 referentes a um estudo realizado com crianças para
determinar qual programa de aprendizado elas preferem, bem como se tal
preferência estaria associada com a escola e o perı́odo escolar (padrão ou
com atividades em tempo integral).
Uma vez que, nesse estudo, as categorias da variável resposta não apre-
sentam uma ordenação, o modelo de odds proporcionais não é apropriado.
Assim, cada logito generalizado usado nessas situações é definido por:
" #
πhik
logithik = log ,
πhir

para k = 1, 2, · · · , (r − 1), sendo r o número de categorias da variável


resposta. Note, que cada logito é obtido a partir da probabilidade de cada
categoria sobre a da última categoria de resposta. Os logitos generalizados
para uma resposta com três categorias, como é o caso do exemplo sobre a
3.3. Regressão Logı́stica Politômica 111

Tabela 3.28: Estudo com crianças sobre preferência de programa escolar.

Preferência aprendizado
Escola Perı́odo Individual Grupo Sala Aula Totais
1 Padrão 10 17 26 53
1 Integral 5 12 50 67
2 Padrão 21 17 26 64
2 Integral 16 12 36 64
3 Padrão 15 15 16 46
3 Integral 12 12 20 44

preferência de programa escolar, são expressos por:


" # " #
πhi1 πhi2
logithi1 = log e logithi2 = log ,
πhi3 πhi3

para h = 1, 2, 3 (escolas) e i = 1, 2 (perı́odos padrão e integral, respecti-


vamente). Assim, o modelo a ser ajustado para os logitos generalizados é:

logithik = β0k + β 0k xhi ,

em que k indexa os 2 logitos. Note, que para cada logito desse modelo, exis-
tem diferentes interceptos e diferentes conjuntos de parâmetros de regressão
β k . Assim, enquanto para o modelo de odds proporcionais estimam-se
múltiplos parâmetros de interceptos, mas um único conjunto de parâmetros
associado às covariáveis, para o modelo de logitos generalizados estimam-se
múltiplos conjuntos de parâmetros, tanto para o intercepto quanto para as
covariáveis.
Como múltiplas funções resposta (logitos) estão sendo modeladas para
cada subpopulação (linha da tabela de contingência), existe um número
maior de graus de liberdade associado a cada efeito. A forma matricial
do modelo é, também, um tanto mais complicada devido à necessidade
112 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

de se levar em consideração tais funções múltiplas. Contudo, o procedi-


mento de modelagem é o usual, isto é, ajusta-se o modelo, examinam-se
as estatı́sticas de qualidade de ajuste do modelo e, se necessário, reduz-
se o modelo. Note, que como mais de um logito está sendo predito por
subpopulação, o tamanho amostral necessita ser grande o suficiente para
acomodar o número de logitos sendo modelados. Problemas quanto a es-
timação dos parâmetros serão certamente encontrados em situações em que
não existem dados suficientes para justificar a análise de logitos generaliza-
dos. Em tais situações, simplificar a estrutura da variável resposta para
uma razoável resposta dicotômica e proceder a uma análise de regressão
logı́stica dicotômica pode ser uma alternativa plausı́vel.

(a) Logitos generalizados ajustados aos dados do programa escolar

Os logitos generalizados, nesse exemplo, são construı́dos considerando-


se a probabilidade de preferência de aprendizado individual com respeito
ao aprendizado em sala de aula (πhi1 /πhi3 ) e a probabilidade de preferência
de aprendizado em grupo com respeito ao aprendizado em sala de aula
(πhi2 /πhi3 ). As covariáveis foram consideradas no modelo por meio de
variáveis dummies do tipo 1 e -1, por serem o default do software estatı́stico
SAS (P roc Catmod), utilizado para obtenção dos resultados desta análise.
As conclusões seriam as mesmas se dummies do tipo 1 e 0 fossem usadas.
As variáveis dummies associadas às covariáveis X1 e X2 são, desse modo:
 
 (
 1 se escola 1  0 se escola 1 1 se padrão
X11 = 0 se escola 2, X12 = 1 se escola 2 e X2 =
 
 −1 se escola 3 −1 se integral
−1 se escola 3

Na Tabela 3.29 são apresentadas as diferenças de deviance dos modelos


seqüenciais ajustados. Pode-se observar, desta tabela, que a interação entre
escola e perı́odo não é significativa, uma vez que T RV = 1,7776 (p = 0,78,
g.l. = 4). Já para os efeitos principais de escola e perı́odo na presença de
3.3. Regressão Logı́stica Politômica 113

escola, obtiveram-se T RV = 17,3765 (p = 0,0016, g.l. = 4) e T RV = 11,094


(p = 0,0039, g.l.= 2), respectivamente. Ambos os efeitos são, portanto, sig-
nificativos e devem permanecer no modelo. Note, que os graus de liberdade
para modelar dois logitos são duas vezes os graus de liberdade esperados ao
se modelar um único logito. Isso ocorre porque simultaneamente são mode-
ladas duas funções resposta (logitos) em vez de uma e, conseqüentemente,
o número de parâmetros a serem estimados são duplicados. Assim, em um
modelo de logitos generalizados, os graus de liberdade são determinados
multiplicando-se por (r−1) o número de graus de liberdade esperado para
modelar um logito, sendo r o número de categorias da variável resposta.

Tabela 3.29: Diferenças de deviance - dados do programa escolar.


deviance diferenças de diferenças
Modelos g.l. residual deviance de g.l.
Nulo 10 695,4043 - -
X1 6 678,0278 17,3765 (10−6) = 4
X1 e X 2 4 666,9338 11,0940 (6−4) = 2
X1 , X 2 e X 1 ∗ X 2 0 665,1562 1,7776 (4−0) = 4

X1 = escola, X2 = perı́odo

O modelo com X1 e X2 , em notação matricial, fica representado por:

   
logit111 1 0 1 0 0 0 1 0
 logit112   0 1 0 1 0 0 0 1 
    
 logit121   1 0 1 0 0 0 −1 0  β01
   
 logit122   0 1 0 1 0 0 0 −1  β02 
    
 logit211   1 0 0 0 1 0 1 0  β11 
    
 logit212   0 1 0 0 0 1 0 1  β12 
 =  .
 logit221   1 0 0 0 1 0 −1 0  β21 
    
 logit222   0 1 0 0 0 1 0 −1  β22 
    
 logit311   1 0 −1 0 −1 0 1 0  β31 
   
 logit312   0 1 0 −1 0 −1 0 1  β32
   
 logit321   1 0 −1 0 −1 0 −1 0 
logit322 0 1 0 −1 0 −1 0 −1
114 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

Observe, na representação matricial do modelo, que as linhas ı́mpares


correspondem ao primeiro logito e as linhas pares ao segundo logito. Similar-
mente, as colunas ı́mpares correspondem aos parâmetros do primeiro logito
e as pares aos do segundo logito. As estimativas dos parâmetros desse mo-
delo encontram-se na Tabela 3.30. Na Tabela 3.31, estas estimativas são
apresentadas de acordo ao logito a que se referem.

Tabela 3.30: Estimativas dos parâmetros do modelo ajustado.

Erro Qui-
Efeito Parâmetro Estimativa Padrão Quadrado valor p
Intercepto β01 -0,7979 0,1465 29,65 < 0, 0001
β02 -0,6589 0,1367 23,23 < 0, 0001
escola β11 -0,7992 0,2198 13,22 0,0003
β12 -0,2786 0,1867 2,23 0,1356
β21 0,2836 0,1899 2,23 0,1352
β22 -0,0985 0,1892 0,27 0,6028
perı́odo β31 0,3737 0,1410 7,03 0,0080
β32 0,3713 0,1353 7,53 0,0061

Tabela 3.31: Estimativas dos parâmetros do modelo ajustado por logito.


logito (indiv/sala aula) logito (grupo/sala de aula)
Covariável coeficiente e.p. coeficiente e.p.
Intercepto -0,7979 0,1465 -0,6589 0,1367
Escola 1 -0,7992 0,2198 -0,2786 0,1867
Escola 2 0,2836 0,1899 -0,0985 0,1892
Perı́odo 0,3737 0,1410 0,3713 0,1353

A partir da Tabela 3.31 é possı́vel observar que a escola 1 apresenta o


maior efeito dentre as escolas, particularmente para o logito comparando o
aprendizado individual ao aprendizado em sala de aula. O perı́odo escolar
3.3. Regressão Logı́stica Politômica 115

apresenta efeitos similares em ambos os logitos.


As odds ratios também podem ser usadas nos modelos de logitos genera-
lizados para facilitar a interpretação do modelo. Para o modelo considerado,
as odds encontram-se na Tabela 3.32.

Tabela 3.32: Odds preditas pelo modelo de logitos generalizados.

Odds
Escola Perı́odo Individual/Sala aula Grupo/Sala aula
β01 +β11 +β31
1 Padrão e eβ02 +β12 +β32
1 Integral eβ01 +β11 −β31 eβ02 +β12 −β32
2 Padrão eβ01 +β21 +β31 eβ02 +β22 +β32
2 Integral eβ01 +β21 −β31 eβ02 +β22 −β32
3 Padrão eβ01 −β11 −β21 +β31 eβ02 −β12 −β22 +β32
3 Integral eβ01 −β11 −β21 −β31 eβ02 −β12 −β22 −β32

As estimativas das odds ratios de aprendizado individual, em relação ao


aprendizado em sala de aula, são desse modo:

b b
β01 +β11 +β31 b
d P/I = e
i) entre perı́odos: OR
b
= e2∗β31 = 2,11
b01 +βb11 −βb31
β
e

b b
β01 +β21 +β31 b
ii) entre escolas: d 2/1 = e
OR
b b
= eβ21 −β11 = 2,95
b01 +βb11 +βb31
β
e
b b b
β01 −β11 −β21 +β31 b
d 3/1 = e
OR
b b
= e−2∗β11 −β21 = 3,72
b01 +βb11 +βb31
β
e
b b b
β01 −β11 −β21 +β31 b
d 3/2 = e
OR
b b
= e−2∗β21 −β11 = 1,26.
b b b
eβ01 +β21 +β31

Assim, a odds (chance) dos alunos nas escolas com perı́odo escolar
padrão preferirem o aprendizado individual ao aprendizado em sala de aula
116 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

é 2,11 vezes a dos alunos nas escolas com perı́odo escolar integral. Ainda, a
odds dos alunos da escola 2 preferirem o aprendizado individual ao apren-
dizado em sala de aula é 2,95 vezes a dos alunos da escola 1.
De modo análogo, as odds ratios de aprendizado em grupo, em relação
ao aprendizado em sala de aula, são:

b b b
β02 +β12 +β32
d P/I = e
i) entre perı́odos: OR
b
= e2∗β32 = e2∗0,3713 = 2,10
b02 +βb12 −βb32
β
e

b b b
β02 +β22 +β32
ii) entre escolas: d 2/1 = e
OR
b b
= eβ22 −β12 = 1,19
b02 +βb12 +βb32
β
e
b b b b
β02 −β12 −β22 +β32
d 3/1 = e
OR
b b
= e−2∗β12 −β22 = 1,93
b02 +βb12 +βb32
β
e
b b b b
β02 −β12 −β22 +β32
d 3/2 = e
OR
b b
= e−2∗β22 −β12 = 1,61.
b02 +βb22 +βb32
β
e

Logo, a chance (odds) dos alunos nas escolas com perı́odo escolar padrão
preferirem o aprendizado em grupo ao aprendizado em sala de aula é 2,10
vezes a dos alunos nas escolas com perı́odo escolar integral. Também, os
alunos da escola 3, em relação aos da escola 1, preferem o aprendizado em
grupo ao em sala de aula. A odds dessa preferência entre os alunos da
escola 3 é 1,93 vezes a dos alunos da escola 1. Já os alunos da escola 2,
em relação aos da escola 1, apresentam razão de odds muito próxima de 1,
indicando não ter havido, para os alunos dessas duas escolas, preferência
diferenciada entre esses dois métodos de aprendizado.

Note, a partir dos resultados apresentados na Tabela 3.33, que as proba-


bilidades observadas e preditas a partir do modelo encontram-se próximas,
indicando que o modelo apresenta um ajuste satisfatório.
3.4. Regressão Logı́stica Condicional 117

Tabela 3.33: Valores observados e preditos para as probabilidades.


Observados Preditos
Escola Perı́odo Pref. Probabilidade e.p. Probabilidade e.p Obs-Pred
1 pad ind 0,1887 0,0537 0,1580 0,0403 0,0306
gr 0,3208 0,0641 0,3049 0,0527 0,0159
aula 0,4906 0,0687 0,5371 0,0560 -0,0470
1 int ind 0,0746 0,0321 0,0989 0,0279 -0,0240
gr 0,1791 0,0468 0,1917 0,0393 -0,0130
aula 0,7463 0,0532 0,7095 0,0459 0,0368
2 pad ind 0,3281 0,0587 0,3409 0,0515 -0,0130
gr 0,2656 0,0552 0,2667 0,0469 -0,0010
aula 0,4063 0,0614 0,3924 0,0509 0,0139
2 int ind 0,2500 0,0541 0,2372 0,0444 0,0128
gr 0,1875 0,0488 0,1864 0,0389 0,0011
aula 0,5625 0,062 0,5764 0,0518 -0,0140
3 pad ind 0,3261 0,0691 0,3436 0,0587 -0,0170
gr 0,3261 0,0691 0,3429 0,0582 -0,0170
aula 0,3478 0,0702 0,3136 0,0536 0,0343
3 int ind 0,2727 0,0671 0,2545 0,0521 0,0183
gr 0,2727 0,0671 0,2552 0,0517 0,0176
aula 0,4545 0,0751 0,4904 0,0608 -0,0360

3.4 Regressão Logı́stica Condicional

Algumas vezes a abordagem de máxima verossimilhança para estimação


em regressão logı́stica não é apropriada, particularmente se os dados são
altamente estratificados e existe um número pequeno de sujeitos em cada
estrato. Exemplos comuns são observações pareadas tais como as de gêmeos
fraternos, lados esquerdo e direito do corpo em estudos dermatológicos
ou, ainda, uma opinião coletada em duas ocasiões distintas. Regressão
logı́stica ordinária pode ser inapropriada para tais dados, pois o tamanho
amostral é insuficiente para estimar, sem vı́cio, o efeito do par. Usando,
contudo, argumentos condicionais, pode-se remover o efeito do par e estimar
os demais efeitos de interesse.
118 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

A forma apropriada de regressão logı́stica para tais tipos de dados é


denominada regressão logı́stica condicional. Em tal regressão, a estimação
dos parâmetros do modelo é baseada em uma função de verossimilhança
condicional. Algumas situações são apresentadas a seguir.

3.4.1 Estudos prospectivos: contagem pequena nos estratos

Considere um ensaio clı́nico em que i = 1, · · · , q centros médicos são esco-


lhidos para sua realização. Em cada centro, são selecionados dois pacientes,
um para receber o tratamento sob pesquisa e, o outro, para receber o
placebo. O interesse se concentra na avaliação da melhora do paciente.
Note, que existem somente duas observações por centro, o que, natural-
mente, inviabiliza que o efeito de centro seja estimado sem vı́cio.
Se para esse estudo fossse considerado o modelo de regressão logı́stica
usual, a probabilidade para yij , em que i = 1, · · · , q centros e j = 1, 2
tratamentos, seria dada por:

exp{αi + β xij + γ 0 zij }


P [yij = 1] =
1 + exp{αi + β xij + γ 0 zij }

sendo αi o efeito do i-ésimo centro, β o parâmetro associado ao trata-


mento e γ’ = (γ1 , γ2 , · · · , γt ) o vetor de parâmetros associado às covariáveis
z. Como, no entanto, os parâmetros αi (i = 1, · · · , q) não podem ser es-
timados adequadamente pelo fato de existirem somente duas observações
por centro, uma alternativa é considerar um modelo baseado em probabi-
lidades condicionais, em que os efeitos dos centros são considerados como
parâmetros nuisance (perturbação). Sob esta abordagem, a probabilidade
condicional para yij é escrita como a razão entre: a probabilidade conjunta
do paciente tratado de um par melhorar e o paciente placebo deste par não
melhorar, e a probabilidade conjunta de que, seja o paciente tratado ou o
3.4. Regressão Logı́stica Condicional 119

paciente placebo, tenha apresentado melhora. Tem-se, então:

P [yi1 = 1, yi2 = 0 | yi1 = 1, yi2 = 0 ou yi1 = 0, yi2 = 1] =


P [yi1 = 1]P [yi2 = 0]
= . (3.7)
P [yi1 = 1]P [yi2 = 0] + P [yi1 = 0]P [yi2 = 1]

Como as probabilidades envolvidas em (3.7), em termos do modelo de


regressão logı́stica, são dadas por:
exp{αi + β + γ 0 zi1 } 1
P [yi1 = 1]P [yi2 = 0] = .
1 + exp{αi + β + γ zi1 } 1 + exp{αi + γ 0 zi2 }
0

e
1 exp{αi + γ 0 zi2 }
P [yi1 = 0]P [yi2 = 1] = . ,
1 + exp{αi + βγ 0 zi1 } 1 + exp{αi + γ 0 zi2 }

tem-se que a razão (3.7) resulta em:

exp{αi + β + γ 0 zi1 } exp{β + γ 0 (zi1 − zi2 )}


= ,
exp{αi + β + γ 0 zi1 } + exp{αi + γ 0 zi2 } 1 + exp{β + γ 0 (zi1 − zi2 )}

que não inclui os parâmetros αi (i = 1, · · · , q). Sob a abordagem de pro-


babilidades condicionais, tem-se, portanto, um modelo com um número
reduzido de parâmetros que podem ser estimados sem vı́cio. A função de
verossimilhança condicional é, desse modo,

q
( )yi1 (1−yi2 )
Y exp{β + γ 0 (zi1 − zi2 )}
L(β, γ) =
1 + exp{β + γ 0 (zi1 − zi2 )}
i=1
( )(1−yi1 )yi2
1
(3.8)
1 + exp{β + γ 0 (zi1 − zi2 )}

que, na realidade, é a função de verossimilhança não-condicional para o


modelo de regressão logı́stica usual, exceto que o intercepto é agora β, o
efeito do tratamento, e cada observação representa um par de observações
de cada centro, em que a resposta é 1, se o par apresenta a combinação
(yi1 = 1, yi2 = 0) e 0, se o par apresenta a combinação (yi1 = 0, yi2 = 1).
120 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

Ainda, (zi1 − zi2 ) são as diferenças dos valores das covariáveis para o pa-
ciente tratado e o paciente placebo. Como a função de verossimilhança
é condicionada nos pares discordantes, os pares concordantes ((y i1 = 1,
yi2 = 1) e (yi1 = 0, yi2 = 0)) são não-informativos e podem ser, assim,
ignorados.
A função de verossimilhança (3.8) pode, ainda, ser reescrita como:

q
( )yi1 (1−yi2 )
Y exp{β + γ 0 zi1 }
L(β, γ) =
exp{β + γ 0 zi1 } + exp{γ 0 zi2 }
i=1
( )(1−yi1 )yi2
exp{β + γ 0 zi2 }
exp{β + γ 0 zi1 } + exp{γ 0 zi2 }

que é a mesma função de verossimilhança que se aplica a dados pareados


em um caso simples do modelo de regressão de Cox, ou modelo de riscos
proporcionais, usado em análise de sobrevivência. Isso significa que os
mesmos procedimentos computacionais usados para ajustar o modelo de
riscos proporcionais, pode ser usado para o modelo de regressão logı́stica
condicional.
Note, na ausência das covariáveis z, que os dados podem ser represen-
tados em uma tabela de contingência 2 × 2 em que as respostas para o
tratamento são cruzadas com as respostas para o placebo. Testar β = 0 é,
desse modo, equivalente ao teste de McNemar. Ainda, pode ser mostrado,
que eβ é estimado por n12 /n21 , sendo n12 e n21 as contagens que aparecem
fora da diagonal principal desta tabela.

Exemplo: Para analisar o efeito de um novo tratamento em um particular


problema de pele, pesquisadores coletaram informações em 79 clı́nicas. Em
cada clı́nica, um paciente recebeu o tratamento e, o outro, recebeu um
placebo. As covariáveis coletadas foram: idade, sexo (1 se masculino e 0
se feminino) e o grau inicial do problema, que variou de 1 a 4 para leve
3.4. Regressão Logı́stica Condicional 121

a severo. A resposta considerada foi a melhora ou não do problema. Os


dados encontram-se no Apêndice.
Considerando o modelo de regressão logı́stica condicional para os dados
desse estudo, obtiveram-se as estimativas dos parâmetros apresentados na
Tabela 3.34.

Tabela 3.34: Estimativas de máxima verossimilhança.

estimativas erro-padrão z valor p


Tratamento (β) 0,7025 0,3601 1,951 0,051
Sexo (M) (γ1 ) 0,5312 0,5545 0,958 0,340
Idade (γ2 ) 0,0248 0,0224 1,107 0,270
Grau inicial (γ3 ) 1,0915 0,3351 3,257 0,001

A partir da Tabela 3.34, podem ser observados efeitos significativos para


o grau inicial (p = 0, 001) e tratamento (p = 0, 051), bem como efeitos não
significativos para sexo e idade. Removendo-se do modelo os efeitos não
significativos, foram obtidas as estimativas apresentadas na Tabela 3.35.

Tabela 3.35: Estimativas de máxima verossimilhança: modelo reduzido.

estimativas erro-padrão z valor p


Tratamento (β) 0,711 0,349 2,04 0,0410
Grau inicial (γ1 ) 1,077 0,321 3,35 0,0008

Tem-se, então, que a odds de melhora para os pacientes recebendo o


tratamento é de e0,711 = 2, 03 vezes a dos pacientes recebendo o placebo. A
odds de melhora também cresce por um fator de em torno de 3 para cada
unidade de acréscimo no grau inicial. Logo, mesmo ajustado para o grau
inicial, o tratamento apresenta efeito significativo.
122 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

Os resı́duos apresentados na Figura 3.6, evidenciam um ajuste satis-


fatório do modelo aos dados.

1.0
0.5
residuos

0.0
−0.5
−1.0

0 50 100 150

Figura 3.6: Resı́duos associados ao modelo ajustado.

3.4.2 Estudos crossover

Regressão logı́stica condicional é também uma ferramenta útil na análise


de estudos com delineamentos crossover. Nestes delineamentos, freqüen-
temente usados em ensaios clı́nicos, o estudo é dividido em perı́odos e os
pacientes recebem um tratamento diferente a cada um desses perı́odos. O
paciente atua, desse modo, como seu próprio controle. O interesse se con-
centra na comparação da eficácia dos tratamentos, ajustando para os efeitos
dos perı́odos e efeitos residuais destes. O delineamento crossover básico é o
de dois-perı́odos, mas delineamentos com três ou mais perı́odos são também
freqüentes.

(a) Estudos crossover de dois-perı́odos

Um estudo crossover de dois-perı́odos pode também ser considerado


um estudo com observações pareadas. Na Tabela 3.36 são apresentados
dados de um ensaio clı́nico conduzido sob o delineamento crossover de dois
3.4. Regressão Logı́stica Condicional 123

perı́odos em que os pacientes foram estratificados de acordo com dois grupos


de idade (jovens e adultos). Três seqüências de tratamentos foram, então,
designadas a cada um dos dois grupos. FF indica resposta favorável nos
perı́odos 1 e 2, FU indica resposta favorável no perı́odo 1 e não-favorável no
perı́odo 2 e, assim sucessivamente. A seqüência A:B significa que a droga
A foi administrada durante o 1o perı́odo e a B no 2o perı́odo. A notação P
indica placebo. Cada seqüência foi administrada a 50 pacientes.

Tabela 3.36: Estudo crossover de dois-perı́odos.


Respostas
Idade Seqüência FF FU UF UU Total
adultos A:B 12 12 6 20 50
adultos B:P 8 5 6 31 50
adultos P:A 5 3 22 20 50
jovens B:A 19 3 25 3 50
jovens A:P 25 6 6 13 50
jovens P:B 13 5 21 11 50
Fonte: Stokes et al. (2000)

Uma estratégia de análise desses dados é modelar a probabilidade de


melhora de cada paciente no 1o perı́odo (e não no segundo) versus a pro-
babilidade de melhora seja no 1o ou 2o perı́odos, mas não em ambos. Isto
pode ser expresso como a probabilidade condicional:
P [p1 = F ]P [p2 = U ]
,
P [p1 = F ]P [p2 = U ] + P [p1 = U ]P [p2 = F ]
em que p1 significa perı́odo 1 e p2 , perı́odo 2. Então, a análise pode ser
feita da mesma maneira do exemplo anterior. Naquele caso, a análise foi
ajustada para centros, removendo-se, assim, a variabilidade entre centros
(intercentros) e se concentrando na variabilidade intracentros. Nesse exem-
plo, a análise é ajustada para pacientes, removendo-se a variabilidade entre
124 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

pacientes (interpacientes) e se concentrando na informação intrapacientes.


Os efeitos a serem considerados são: efeito do perı́odo, efeito dos grupos de
idade, efeito das drogas e, ainda, os efeitos residuais das drogas A e B que
resultam da passagem do perı́odo 1 para o perı́odo 2.
O modelo incluindo os efeitos residuais das drogas pode ser escrito por:
exp{β + τ 0 z}
P [F U | F U ou U F ] = ,
1 + exp{β + τ 0 z}
em que z consiste das diferenças entre os dois perı́odos para: grupos de
idade, droga A, droga B, residual da droga A e residual da droga B. O
parâmetro β corresponde ao efeito do perı́odo, τ0 ao efeito de grupos de
idade, τ1 e τ2 aos efeitos das drogas A e B, respectivamente, e τ3 e τ4 aos
efeitos residuais das drogas A e B, respectivamente. Note, que como z
consiste das diferenças entre os dois perı́odos, deve-se considerar para os
pacientes adultos, os valores 1 e 0 para os perı́odos 1 e 2, respectivamente,
e, para os pacientes jovens, o valor 0 para ambos os perı́odos. Desse modo,
tem-se as diferenças: zidade = 1, se adulto e zidade = 0, se jovem.
As estimativas dos parâmetros do modelo de regressão logı́stica condi-
cional ajustado aos dados desse estudo encontram-se na Tabela 3.37.

Tabela 3.37: Estimativas de máxima verossimilhança - modelo inicial.

estimativas erro-padrão χ2 valor p


Perı́odo (p1 ) (β) -1,4370 0,703 4,183 0,041
Droga A (τ1 ) 1,2467 0,681 3,354 0,067
Droga B (τ2 ) -0,0019 0,641 0,000 0,997
Gpidade (adultos) (τ0 ) 0,6912 0,465 2,205 0,137
Residual droga A (τ3 ) -0,1903 1,112 0,029 0,864
Residual droga B (τ4 ) -0,5653 1,156 0,239 0,624

A partir Tabela 3.37, há evidências de que os efeitos residuais, seja da


3.4. Regressão Logı́stica Condicional 125

droga A ou da B, não foram significativos. O modelo reduzido, em que os


efeitos residuais de ambas as drogas são removidos, foi ajustado. O efeito
de grupos de idade, por apresentar um efeito modestamente sugestivo, foi
mantido no modelo. As estimativas encontram-se na Tabela 3.38.

Tabela 3.38: Estimativas de máxima verossimilhança - modelo reduzido.

estimativas erro-padrão χ2 valor p


Perı́odo (p1 ) (β) -1,191 0,331 12,95 0,0003
Droga A (τ1 ) 1,346 0,329 16,75 <, 0001
Droga B (τ2 ) 0,266 0,323 0,67 0,4104
Gpidade (adultos) (τ0 ) 0,710 0,458 2,41 0,1207

Note, a partir da Tabela 3.38, que o efeito de perı́odo permanece clara-


mente significativo (p = 0,0003). A droga A, em relação ao placebo, também
apresenta efeito significativo. O mesmo não ocorre com a droga B, que
apresenta efeito não significativo. O efeito de grupos de idade permanece
ainda sugestivo. Removê-lo ou não do modelo depende do próposito da
análise. Se não for de interesse a distinção entre os grupos adulto e jovem,
então a escolha provável será pela remoção deste efeito, o que resulta nas
estimativas apresentadas na Tabela 3.39.

Tabela 3.39: Estimativas do modelo sem grupos de idade.


estimativas erro-padrão χ2 valor p
Perı́odo (p1 ) (β) -0,845 0,231 13,45 2,4e-04
Droga A (τ1 ) 1,408 0,341 17,09 3,6e-05
Droga B (τ2 ) 0,296 0,316 0,87 3,5e-01

Para comparar os efeitos das drogas A e B, foi testado a hipótese nula


126 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

H0 : τ1 = τ2 . Os resultados: χ2 = 12,41, g.l. = 1, p = 0,00042, mostram que


as drogas apresentam efeitos diferentes. Os resı́duos associados ao modelo
ajustado evidenciaram um ajuste satisfatório. As odds ratios podem ser
obtidas e interpretadas de modo similar ao dos demais exemplos.

(b) Estudos crossover de três-perı́odos

Os estudos crossover de três-perı́odos, embora com certo trabalho adi-


cional, podem ser analisados de maneira similar aos de dois-perı́odos. Um
tal exemplo pode ser encontrado em Stokes et al. (2000).

3.4.3 Estudos retrospectivos com observações pareadas

Estudos retrospectivos são freqüentes em pesquisas epidemiológicas. Em


um estudo caso-controle, por exemplo, uma pessoa conhecida ter o evento
de interesse (caso) é pareada com uma ou mais pessoas que não apresentam
o respectivo evento (controles). A situação mais comum consiste de parea-
mento 1:1, isto é, um controle para cada caso. Outras situações seriam a
de pareamentos 1:m, em que m = número de controles estariam entre 2 e
5, bem como as que consideram pareamentos n:m (n e m entre 1 e 5).
Em estudos dessa natureza, modelos de regressão logı́stica condicional
podem ser também utilizados. A função de verossimilhança é construı́da
com base nas probabilidades condicionais de se observar as covariáveis dado
a resposta (evento: sim ou não) e no uso do teorema de Bayes para deter-
minar a probabilidade associada ao evento. Essa função é similar àquela
derivada na Seção 3.4.1 para estudos prospectivos com contagens pequenas
nos estratos. Para pareamentos 1:1, esta função é expressa por:
q
( )
Y exp{β 0 (xi1 − xi2 )}
L(β) = , (3.9)
1 + exp{β 0 (xi1 − xi2 )}
i=1
em que (xi1 − xi2 ) são as diferenças dos valores das covariáveis do caso
e controle envolvidos no i-ésimo pareamento (i = 1, · · · , q). Note, que o
3.4. Regressão Logı́stica Condicional 127

efeito do par (caso e seu respectivo controle), é considerado um parâmetro


nuisance (perturbação). Sendo assim, seu efeito é removido e, conseqüente-
mente, não existe intercepto no modelo. Para a função de verossimilhança
condicional (3.9), pares em que xi1 = xi2 são não-informativos, visto que
a contribuição deles para (3.9) é 0,5. Esses pares podem ser, portanto,
ignorados.
A função de verossimilhança condicional (3.9) é, na realidade, a função
de verossimilhança para o modelo de regressão logı́stica não-condicional
sem o intercepto, em que a resposta é sempre 1 e os valores das covariáveis
são iguais as diferenças entre os valores dos casos e controles
Para estudos com pareamentos 1:m, pode ser mostrado que a função de
verossimilhança condicional é:
q
" m
#−1
Y X  0
L(β) = 1+ exp β (xih − xi0 ) ,
i=1 h=1
em que h = 1, · · · , m indexa os controles e h = 0 corresponde ao caso.
Essa função não é, contudo, equivalente a nenhuma forma não-condicional
e, sendo assim, programas computacionais especı́ficos são necessários nos
casos em que ocorrem pareamentos 1:m, bem como n:m.

Exemplo: Um estudo foi realizado em uma comunidade de aposentadas


nos anos 70 para estudar a associação entre o uso de estrogênio e a in-
cidência de câncer do endométrio. Casos foram pareados a controles que
estavam no mesmo ano de idade, tinham o mesmo status marital e viviam
na mesma comunidade na data do diagnóstico do caso. Outras informações
coletadas foram sobre: hipertensão, histórico de vesı́cula biliar e o não uso
de estrogênio. Um total de 63 pares (pareamentos 1:1) foi obtido. Os dados
encontram-se no Apêndice.
No processo de ajuste do modelo de regressão logı́stica condicional, foi
observado que somente as covariáveis EST (estrogênio) e HVB (histórico
128 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

de vesı́cula biliar) apresentaram-se significativas. As estimativas para o


modelo com estas covariáveis encontram-se na Tabela 3.40. Os resultados
mostram que a odds de câncer endometrial das pessoas com histórico de
vesı́cula biliar (HVB), ajustada para estrogênio, é exp{2, 78} = 16, 1 vezes
a das sem tal histórico. Por outro lado, a odds de câncer endometrial das
pessoas que usaram estrogênio, ajustada para histórico de vesı́cula biliar,
foi exp{1, 66} = 5, 23 vezes a das que não usaram estrogênio. Os resı́duos
associados a este modelo evidenciaram um ajuste satisfatório.

Tabela 3.40: Estimativas obtidas para o modelo final.

estimativas erro-padrão χ2 valor p


EST (β1 ) 1,66 0,798 4,3 0,0381
HVB (β2 ) 2,78 0,760 13,3 0,0003

3.5 Exercı́cios

1. Para os dados apresentados na Tabela 3.41, referentes a um estudo


sobre doença coronária, em que se tem CAT: nı́vel de catecholamine
(0 se baixo e 1 se alto), IDADE: 0 se < 55 anos e 1 se ≥ 55 e ECG:
eletrocardiograma (0 se normal e 1 se anormal):

(a) ajuste um modelo de regressão logı́stica que estime adequada-


mente a probabilidade de doença coronária e retire conclusões. Con-
sidere as possı́veis interações duplas entre as covariáveis.

2. (a) Para os dados do estudo sobre bronquite (Tabela 3.42):

(a) ajuste um modelo de regressão logı́stica que estime adequada-


mente a probabilidade de bronquite. As covariáveis consideradas no
3.5. Exercı́cios 129

Tabela 3.41: Estudo sobre doença coronária (CHD).

CHD
CAT IDADE ECG Sim Não Total
0 0 0 17 257 274
0 1 0 15 107 122
0 0 1 7 52 59
0 1 1 5 27 32
1 0 0 1 7 8
1 1 0 9 30 39
1 0 1 3 14 17
1 1 1 14 44 58

Fonte: Kleinbaum (1994).

Tabela 3.42: Estudo sobre bronquite (BRC).

BRC
SMK SES IDADE Sim Não Total
0 1 0 38 73 111
0 1 1 48 86 134
0 0 0 28 67 95
0 0 1 40 84 124
1 1 0 84 89 173
1 1 1 102 46 148
1 0 0 47 96 143
1 0 1 59 53 112

Fonte: Kleinbaum (1994).

estudo foram: SMK: fumante (0 se não e 1 se sim), SES: status sócio-


econômico (0 se baixo e 1 se alto) e IDADE (0 se < 40 e 1 se entre
[40,59) anos).

3. Um estudo realizado em Curitiba-PR, reuniu informações, no perı́odo


de 1994 a 1995, de 494 indivı́duos que sofreram acidente traumático
130 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

e foram atendidos pelo SIATE. Um dos objetivos foi encontrar um


modelo de regressão que pudesse predizer adequadamente a probabi-
lidade de sobrevida de pacientes politraumatizados nas primeiras 24
horas após o acidente. Sabendo-se que o modelo ajustado foi:
" #
b
θ(x)
log = 2, 211 + 2, 607 x1 − 0, 52 x2 ,
b
1 − θ(x)

em que x1 = número de lesões (0 a 5) no tórax e x2 = escala de


coma de Glascow (3 a 15) obtida de acordo com o total observado na
Tabela 3.43:

Tabela 3.43: Escala de coma de Glascow.


1. Abertura Ocular espontânea 4
à voz 3
com dor 2
ausente 1
2. Resposta Verbal orientada 5
confusa 4
desconexa 3
ininteligı́vel 2
ausente 1
3. Resposta Motora obedece comandos 6
apropriada à dor 5
retirada à dor 4
flexão anormal 3
extensão 2
ausente 1
Total GCS (1+2+3)

(a) obtenha e apresente em uma tabela, as probabilidades estimadas


para todas as combinações de x1 e x2 . O que é possı́vel concluir?

4. Um estudo caso-controle envolvendo 78 pessoas, em que para cada um


dos 39 casos tem-se 1 controle associado, foi realizado para pesquisar
3.5. Exercı́cios 131

se o fumo (SMK) estaria associado ao infarto do miocárdio (MI).


Quatro variáveis foram consideradas no pareamento: idade, raça, sexo
e status do hospital. Duas outras covariáveis coletadas (não consi-
deradas no pareamento) foram: pressão sistólica (SBP) e status do
eletrocardiograma (ECG). Os dados encontram-se no Apêndice.

(a) ajuste um modelo de regressão logı́stica condicional aos dados


desse estudo e retire conclusões.

5. Os dados na Tabela 3.44 são de um estudo sobre doença respiratória


crônica (Semenya e Koch, 1980).

Tabela 3.44: Estudo sobre doença respiratória crônica.

Poluição Poluição Status Nı́vel da doença


do ar no trabalho Fumo I II III IV Total
baixa não não 158 9 5 0 172
baixa não ex 167 19 5 3 194
baixa não sim 307 102 83 68 560
baixa sim não 26 5 5 1 37
baixa sim ex 38 12 4 4 58
baixa sim sim 94 48 46 60 248
alta não não 94 7 5 1 107
alta não ex 67 8 4 3 82
alta não sim 184 65 33 36 318
alta sim não 32 3 6 1 42
alta sim ex 39 11 4 2 56
alta sim sim 77 48 39 51 215

Os nı́veis associados à variável resposta significam: I = sem sintomas,


II = tosse por menos de 3 meses ao ano, III = tosse por mais de 3
meses ao ano e IV = tosse e outros sintomas por mais de 3 meses ao
ano.
132 Capı́tulo 3. Regressão Logı́stica Giolo, S.R.

(a) ajuste um modelo de regressão logı́stica aos dados desse estudo e


retire conclusões.
APÊNDICE

A.1 Dados do Exemplo - Seção 3.4.1 (skin.txt)


A.2 Dados do Exemplo - Seção 3.4.3 (match.txt)
A.3 Dados do Exercı́cio 4 - Capı́tulo 3 (infart.txt)
A.4 Códigos em R utilizados nas análises (comandosR.txt)

Obs: arquivos disponı́veis em www.est.ufpr.br/∼suely


134 Apêndice

A.1 Dados do estudo prospectivo - Seção 3.4.1 (skin.txt).

V1 V2 V3 V4 V5 V6 V1 V2 V3 V4 V5 V6
1 1 0 27 0 1 1 0 0 32 0 2
2 1 0 41 1 3 2 0 0 47 0 1
3 1 1 19 1 4 3 0 1 31 0 4
4 1 1 55 1 1 4 0 1 24 1 3
5 1 0 51 1 4 5 0 0 44 0 2
6 1 1 23 0 1 6 0 0 44 1 3
7 1 1 31 1 2 7 0 0 39 0 2
8 1 1 22 0 1 8 0 1 54 1 4
9 1 1 37 1 3 9 0 1 63 0 2
10 1 1 33 0 3 10 0 0 43 0 3
11 1 0 32 1 1 11 0 1 33 0 3
12 1 1 47 1 4 12 0 1 24 0 4
13 1 1 55 1 3 13 0 0 38 1 1
14 1 0 33 0 1 14 0 0 28 1 2
15 1 0 48 1 1 15 0 0 42 0 1
16 1 1 55 1 3 16 0 1 52 0 1
17 1 1 30 0 4 17 0 1 48 1 4
18 1 0 31 1 2 18 0 1 27 1 3
19 1 1 66 1 3 19 0 0 54 0 1
20 1 0 45 0 2 20 0 0 66 1 2
21 1 1 19 1 4 21 0 0 20 1 4
22 1 1 34 1 4 22 0 0 31 0 1
23 1 0 46 0 1 23 0 1 30 1 2
24 1 1 48 1 3 24 0 0 62 0 4
25 1 1 50 1 4 25 0 1 45 1 4
26 1 1 57 1 3 26 0 0 43 0 3
27 1 0 13 0 2 27 0 1 22 1 3
28 1 1 31 1 1 28 0 0 21 0 1
29 1 1 35 1 3 29 0 1 35 1 3
30 1 0 36 1 3 30 0 0 37 0 3
31 1 0 45 0 1 31 0 0 41 1 1
32 1 1 13 1 2 32 0 1 42 0 1
33 1 1 14 0 4 33 0 0 22 1 2
34 1 0 15 1 2 34 0 1 24 0 1
35 1 0 19 1 3 35 0 0 31 0 1
36 1 1 20 0 2 36 0 1 32 1 3
37 1 1 23 1 3 37 0 0 35 0 1
38 1 0 23 0 1 38 0 1 21 1 1
39 1 1 24 1 4 39 0 1 30 1 3
40 1 1 57 1 3 40 0 0 43 1 3
Apêndice 135

A.1 Continuação.

V1 V2 V3 V4 V5 V6 V1 V2 V3 V4 V5 V6
41 1 0 13 1 2 41 0 1 22 0 3
42 1 1 31 1 1 42 0 0 21 1 3
43 1 0 19 1 3 43 0 1 35 1 3
44 1 1 31 1 3 44 0 0 37 0 2
45 1 0 44 0 1 45 0 0 41 1 1
46 1 1 41 1 2 46 0 1 41 0 1
47 1 1 41 1 2 47 0 0 21 0 4
48 1 0 51 1 2 48 0 1 22 1 1
49 1 0 62 1 3 49 0 0 32 0 3
50 1 1 21 0 1 50 0 1 34 0 1
51 1 1 55 1 3 51 0 0 35 1 2
52 1 0 61 0 1 52 0 1 19 0 1
53 1 1 43 1 2 53 0 1 31 0 2
54 1 0 44 1 1 54 0 0 41 1 1
55 1 1 67 1 2 55 0 1 41 0 1
56 1 1 41 0 2 56 0 1 21 1 4
57 1 0 51 1 3 57 0 1 51 0 2
58 1 1 62 1 3 58 0 1 54 1 3
59 1 1 22 0 1 59 0 0 22 0 1
60 1 1 42 1 2 60 0 0 29 1 2
61 1 0 51 1 1 61 0 0 31 0 1
62 1 1 27 0 2 62 0 1 32 1 2
63 1 1 31 1 1 63 0 0 21 0 1
64 1 1 35 0 3 64 0 1 33 1 3
65 1 1 67 1 2 65 0 1 19 0 1
66 1 1 41 0 2 66 0 1 62 1 4
67 1 0 31 1 2 67 0 1 45 1 3
68 1 1 34 1 1 68 0 0 54 0 1
69 1 0 21 0 1 69 0 1 34 1 4
70 1 1 64 1 3 70 0 1 51 0 1
71 1 0 61 1 3 71 0 1 34 1 3
72 1 1 33 0 1 72 0 0 43 0 1
73 1 0 36 0 2 73 0 1 37 0 3
74 1 1 21 1 1 74 0 1 55 0 1
75 1 0 47 0 2 75 0 0 42 1 3
76 1 0 51 1 4 76 0 1 44 0 2
77 1 0 23 1 1 77 0 1 41 1 3
78 1 1 31 0 2 78 0 0 23 1 4
79 1 1 22 0 1 79 0 1 19 1 4

V1=clinica, V2=trat, V3=sexo, v4=idade, V5=melhora e V6= grauini


136 Apêndice

A.2 Dados do estudo retrospectivo apresentado na Seção 3.4.3 (match.txt).

par cc id est hvb hip nes par cc id est hvb hip nes
1 1 74 1 0 0 1 20 1 66 1 0 1 1
1 0 75 0 0 0 0 20 0 66 1 0 0 1
2 1 67 1 0 0 1 21 1 77 1 0 0 1
2 0 67 0 0 1 1 21 0 77 1 1 1 1
3 1 76 1 0 1 1 22 1 66 1 0 1 1
3 0 76 1 0 1 1 22 0 67 0 0 1 1
4 1 71 1 0 0 0 23 1 71 1 0 1 0
4 0 70 1 1 0 1 23 0 72 0 0 0 0
5 1 69 1 1 0 1 24 1 80 1 0 0 1
5 0 69 1 0 1 1 24 0 79 0 0 0 0
6 1 70 1 0 1 1 25 1 64 1 0 0 1
6 0 71 0 0 0 0 25 0 64 1 0 0 1
7 1 65 1 1 0 1 26 1 63 1 0 0 1
7 0 65 0 0 0 0 26 0 63 1 0 1 1
8 1 68 1 1 1 1 27 1 72 0 1 0 1
8 0 68 0 0 1 1 27 0 72 0 0 1 0
9 1 61 0 0 0 1 28 1 57 1 0 0 0
9 0 61 0 0 0 1 28 0 57 1 0 1 1
10 1 64 1 0 0 1 29 1 74 0 1 0 1
10 0 65 0 0 0 0 29 0 74 0 0 0 1
11 1 68 1 1 0 1 30 1 62 1 0 1 1
11 0 69 1 1 0 0 30 0 62 1 0 0 1
12 1 74 1 0 0 1 31 1 73 1 0 1 1
12 0 74 1 0 0 0 31 0 72 1 0 0 1
13 1 67 1 1 0 1 32 1 71 1 0 1 1
13 0 68 1 0 1 1 32 0 71 1 0 1 1
14 1 62 1 1 0 1 33 1 64 0 0 1 1
14 0 62 0 1 0 0 33 0 65 1 0 0 1
15 1 71 1 1 0 1 34 1 63 1 0 0 1
15 0 71 1 0 1 1 34 0 64 0 0 0 1
16 1 83 1 0 1 1 35 1 79 1 1 1 1
16 0 82 0 0 0 0 35 0 78 1 1 1 1
17 1 70 0 0 0 1 36 1 80 1 0 0 1
17 0 70 0 0 1 1 36 0 81 0 0 1 1
18 1 74 1 0 0 1 37 1 82 1 0 1 1
18 0 75 0 0 0 0 37 0 82 0 0 0 1
19 1 70 1 0 0 1 38 1 71 1 0 1 1
19 0 70 0 0 0 0 38 0 71 0 0 1 1
Apêndice 137

A.2 Continuação.

par cc id est hvb hip nes par cc id est hvb hip nes
39 1 83 1 0 1 1 52 1 72 1 0 1 1
39 0 83 0 0 0 1 52 0 72 1 0 1 1
40 1 61 1 0 1 1 53 1 65 1 0 1 1
40 0 60 0 0 0 1 53 0 67 0 0 0 0
41 1 71 1 0 0 1 54 1 67 1 0 1 1
41 0 71 0 0 0 0 54 0 66 1 0 0 1
42 1 69 1 0 1 1 55 1 64 1 1 0 1
42 0 69 0 1 0 1 55 0 63 0 0 0 1
43 1 77 1 0 0 1 56 1 62 1 0 0 0
43 0 76 1 0 1 1 56 0 63 0 0 0 0
44 1 64 1 0 0 0 57 1 83 0 1 1 1
44 0 64 1 0 0 0 57 0 83 0 1 0 0
45 1 79 0 1 0 0 58 1 81 1 0 0 1
45 0 82 1 0 0 1 58 0 79 0 0 0 0
46 1 72 1 0 0 1 59 1 67 1 0 0 1
46 0 72 1 0 0 1 59 0 66 1 0 1 1
47 1 82 1 1 1 1 60 1 73 1 1 1 1
47 0 81 0 0 0 0 60 0 72 1 0 0 1
48 1 73 1 0 1 1 61 1 67 1 1 0 1
48 0 74 1 0 0 1 61 0 67 1 1 0 1
49 1 69 1 0 0 1 62 1 74 1 0 1 1
49 0 68 0 0 0 1 62 0 75 0 0 0 1
50 1 79 1 0 1 1 63 1 68 1 1 0 1
50 0 79 0 0 0 1 63 0 69 1 0 0 1
51 1 72 1 0 0 0
51 0 71 1 0 1 1

cc = 1 se caso e 0 se controle, id = idade (anos), est = estrogênio (1 se usou e 0 se não),

hvb = histórico vesı́cula biliar (1 se sim e 0 se não), hip = hipertensão (1 se sim e 0 se não),

nes = não estrogênio (1 se não usa e 0 se usa).


138 Apêndice

A.3 Estudo caso-controle do exercı́cio 4 - Capı́tulo 3 (infart.txt).

par MI SMK SBP ECG par MI SMK SBP ECG


1 1 0 160 1 20 0 0 140 1
1 0 0 140 0 21 1 1 160 0
2 1 0 160 1 21 0 0 140 0
2 0 0 140 0 22 1 1 120 0
3 1 0 160 0 22 0 0 120 0
3 0 0 140 0 23 1 1 140 0
4 1 0 160 0 23 0 0 140 0
4 0 0 140 0 24 1 1 120 0
5 1 0 160 0 24 0 0 140 0
5 0 0 140 0 25 1 1 120 0
6 1 0 160 0 25 0 0 160 0
6 0 0 140 0 26 1 0 120 0
7 1 0 160 0 26 0 1 140 0
7 0 0 140 0 27 1 0 120 0
8 1 0 160 0 27 0 1 120 0
8 0 0 140 0 28 1 0 160 1
9 1 0 160 0 28 0 0 140 0
9 0 0 140 0 29 1 0 160 0
10 1 0 160 0 29 0 0 140 0
10 0 0 140 0 30 1 0 120 0
11 1 0 120 1 30 0 0 140 0
11 0 0 120 0 31 1 0 140 0
12 1 0 120 0 31 0 0 140 0
12 0 0 120 0 32 1 1 160 1
13 1 0 120 0 32 0 1 140 0
13 0 0 120 0 33 1 1 160 1
14 1 0 140 0 33 0 1 140 1
14 0 0 140 0 34 1 1 120 1
15 1 0 120 1 34 0 1 120 1
15 0 0 140 1 35 1 1 160 0
16 1 0 120 1 35 0 0 140 0
16 0 0 140 1 36 1 0 160 1
17 1 1 160 1 36 0 1 140 1
17 0 0 140 0 37 1 0 120 0
18 1 1 160 1 37 0 1 140 0
18 0 0 140 0 38 1 1 160 1
19 1 1 160 0 38 0 1 140 0
19 0 0 140 1 39 1 1 120 0
20 1 1 160 1 39 0 1 120 0

Fonte: Kleinbaum (1994)


Apêndice 139

A.4 Códigos em R utilizados nas análises

1. Explorando a Distribuição Qui-quadrado

> help(dchisq)
> x<-1:40
> plot(x,x*0,pch="",ylim=range(c(0,0.15)),xlim=range(c(0,40)),
xlab="x",ylab="f(x)",bty="n")
> lines(dchisq(x,1),lty=1,c=1)
> lines(dchisq(x,5),lty=2,c=2)
> lines(dchisq(x,12),lty=3,c=3)
> lines(dchisq(x,25),lty=4,c=4)
> lines(dchisq(x,30),lty=5,c=5)
> pchisq(3.84,1)
> 1-pchisq(3.84,1)
> qchisq(0.95,1)
> gera<-sort(rchisq(5000,5))
> plot(dchisq(gera,5))

2. Estatı́sticas Q e Qp e valores p associados

> dados<-matrix(c(40,16,20,48),nc=2)
> dados
> Qp<-chisq.test(dados,correct=F)
> Qp
> n<-sum(dados)
> Q<-((n-1)/n)*Qp$statistic
> Q
> p<-1-pchisq(Q,1)
> p

3. Teste Exato de Fisher

> dados<-matrix(c(6,3,2,5), nc=2)


> fisher.test(dados)

4. Diferença de Proporções = d e IC95% (d)

> dados<-matrix(c(40,16,20,48),nc=2)
> dados
> p11<-(dados[1,1]/(sum(dados[1,])))
140 Apêndice

> p21<-(dados[2,1]/(sum(dados[2,])))
> d<-p11-p21
> d
> vd<- ((p11*(1-p11))/(sum(dados[1,])-1)) + ((p21*(1-p21))/(sum(dados[2,])-1))
> dvd<-sqrt(vd)
> z<-qnorm(0.975)
> corr<-0.5*((1/(sum(dados[1,]))) + (1/(sum(dados[2,]))))
> li<- d - ((z*dvd) + corr)
> li
> ls<- d + ((z*dvd) + corr)
> ls

5. Odds Ratio = OR e IC95% (OR)

> dados<-matrix(c(16,40,48,20),nc=2)
> dados
> OR<-(dados[1,1]*dados[2,2])/(dados[1,2]*dados[2,1])
> OR
> vf<-(1/dados[1,1])+(1/dados[1,2])+(1/dados[2,1]+(1/dados[2,2]))
> vf
> dpf<-sqrt(vf)
> dpf
> z<-qnorm(0.975)
> li<-exp(log(OR)-z*dpf)
> li
> ls<-exp(log(OR)+z*dpf)
> ls

6. Risco Relativo = RR e IC95% (RR)

> dados<-matrix(c(40,16,20,48),nc=2)
> dados
> p11<-(dados[1,1]/(sum(dados[1,])))
> p21<-(dados[2,1]/(sum(dados[2,])))
> RR<-p11/p21
> RR
> vf1<-((1-p11)/(sum(dados[1,])*p11)) + ((1-p21)/(sum(dados[2,])*p21))
> dpf1<-sqrt(vf1)
> z<-qnorm(0.975)
> li<-exp(log(RR)-z*dpf1)
Apêndice 141

> li
> ls<-exp(log(RR)+z*dpf1)
> ls

7. Teste de Mcnemar

> dados<-matrix(c(20,10,5,10),nc=2)
> dados
> mcnemar.test(dados,correct=F)

8. Estatı́stica Escore Médio = QS e p-valor (tabela 2 x 3)

> dados<-matrix(c(13,29,7,7,21,7),nc=3)
> dados
> escore<-c(1,2,3)
> fb1<-(sum(dados[1,]*escore))/sum(dados[1,])
> fb2<-(sum(dados[2,]*escore))/sum(dados[2,])
> esp<-(c(sum(dados[,1]),sum(dados[,2]),sum(dados[,3])))/sum(dados)
> mua<-sum(escore*esp)
> va<-sum((escore-mua)^2*esp)
> vbf1<-((sum(dados) - sum(dados[1,]))/(sum(dados[1,])*(sum(dados)-1)))*va
> QS = ((fb1-mua)^2)/vbf1
> QS
> gl<-nrow(dados)-1
> p<-1-pchisq(QS,gl)
> p

9. Estatı́stica QCS e p-valor

> x<-c(rep(1,84),rep(2,198),rep(3,205))
> y<-c(rep(0,59),rep(1,25),rep(0,169),rep(1,29),rep(0,196),rep(1,9))
> rac<-cor(y,x)
> n<-length(x)
> QCS<-(n-1)*rac^2
> QCS
> p<-1-pchisq(QCS,1)

10. Mantel Haenszel = QMH em tabelas 2 x 2, ORMH e IC(ORMH)

> tab<-array(c(29,14,16,31,37,24,8,21),dim=c(2,2,2))
> mantelhaen.test(tab, correct=F)
142 Apêndice

11. Estatı́stica QSMH e valor p em tabelas 2x3

> dados<-matrix(c(6,19,7,10,5,7,2,0,16,6,5,1),nc=3)
> dados
> escore<-c(0,1,2)
> fb11<-(sum(dados[1,]*escore))/sum(dados[1,])
> fb21<-(sum(dados[3,]*escore))/sum(dados[3,])
> c(fb11,fb21)
> fm1<-sum(c(sum(dados[1,]),sum(dados[3,]))*c(fb11,fb21))
> esp1<-(c(sum(dados[1:2,1]),sum(dados[1:2,2]),sum(dados[1:2,3])))/sum(dados[1:2,])
> mu1<-sum(escore*esp1)
> esp2<-(c(sum(dados[3:4,1]),sum(dados[3:4,2]),sum(dados[3:4,3])))/sum(dados[3:4,])
> mu2<-sum(escore*esp2)
> mu<-sum(c(sum(dados[1,]),sum(dados[3,]))*c(mu1,mu2))
> v1<- sum(((escore-mu1)^2)*esp1)
> v2<- sum(((escore-mu2)^2)*esp2)
> vfma<-(sum(dados[1,])*sum(dados[2,])*v1)/(sum(dados[1:2,])-1)
> vfmb<-(sum(dados[3,])*sum(dados[4,])*v2)/(sum(dados[3:4,])-1)
> vfm<- sum(c(vfma,vfmb))
> QSMH<-((fm1-mu)^2)/vfm
> p<-1-pchisq(QSMH,1)
> round(c(QSMH,p),digits=5)

12. Estatı́stica Kappa

Obs: baixar e instalar: vcd_0.1-3.2.zip (http://www.r-project.org)

> require(vcd)
> x<-c(38,5,0,1,33,11,3,0,10,14,5,6,3,7,3,10)
> x<-matrix(x,4,4)
> Kappa(x)
> Kappa(x, conf.level = 0.90)

13. Regressão Logı́stica Dicotômica

13.1 Exemplo - Capı́tulo 3

> resim<-c(1,2,3,5,6,5,13,8)
> resnao<-c(9,13,9,10,7,3,4,2)
> idade<-c(25,32,38,43,47,53,57,65)
> dados<-cbind(resim, resnao,idade)
Apêndice 143

> dados
> dados<-as.data.frame(dados)
> attach(dados)
> ajust<-glm(as.matrix(dados[,c(1,2)])~idade,family=binomial, data=dados)
> ajust<-glm(as.matrix(dados[,c(1,2)])~idade,family=binomial(link="logit"),data=dados)
> ajust
> anova(ajust)
> anova(ajust,test="Chisq")
> summary(ajust)
> ajust$fitted.values
> ajust$y
> ajust$residuals
> dev<-residuals(ajust,type=’deviance’)
> dev
> QL<-sum(dev^2)
> QL
> p1<-1-pchisq(QL,6)
> p1
> rpears<-residuals(ajust,type=’pearson’)
> rpears
> QP<-sum(rpears^2)
> QP
> p2<-1-pchisq(QP,6)
> p2
> theta<-resim/(resim+resnao)
> plot(idade,theta,ylim=range(0,0.9),xlab="idade",ylab="E(Y|x)",pch=16)
> idade<-20:70
> modajust<-(exp(-5.123+0.1058*idade))/(1+ exp(-5.123+0.1058*idade))
> modajust
> lines(idade,modajust)

13.2 Exemplo 1 - Capı́tulo 3

> resim<-c(4,8,9,21)
> resnao<-c(11,10,9,6)
> sexo<-c(0,0,1,1)
> ecg<-c(0,1,0,1)
> dados<-cbind(resim, resnao,sexo,ecg)
> dados
> dados<-as.data.frame(dados)
> attach(dados)
144 Apêndice

> ajust<-glm(as.matrix(dados[,c(1,2)])~sexo+ecg,
family=binomial(link="logit"),data=dados)
> ajust
> summary(ajust)
> anova(ajust,test="Chisq")
> names(ajust)
> ajust$fitted.values
> ajust$y
> ajust$residuals
> dev<-residuals(ajust,type=’deviance’)
> dev
> QL<-sum(dev^2)
> QL
> p1<-1-pchisq(QL,1)
> p1
> rpears<-residuals(ajust,type=’pearson’)
> rpears
> QP<-sum(rpears^2)
> QP
> p2<-1-pchisq(QP,1)
> p2
> ajust1<- glm(as.matrix(dados[,c(1,2)])~sexo+ecg+sexo*ecg,
family=binomial(link="logit"),data=dados)
> ajust1
> anova(ajust1, test = "Chisq")

13.3 Exemplo 2 - Capı́tulo 3

> resim<-c(78,101,68,40,54,34)
> resnao<-c(28,11,46,5,5,6)
> diag<-c(1,1,1,0,0,0)
> tratA<-c(1,0,0,1,0,0)
> tratB<-c(0,1,0,0,1,0)
> int1<-diag*tratA
> int2<-diag*tratB
> dados<-cbind(resim, resnao,diag,tratA,tratB,int1,int2)
> dados
> dados<-as.data.frame(dados)
> attach(dados)
> ajust1<-glm(as.matrix(dados[,c(1,2)])~diag+tratA+tratB+int1+int2,
family=binomial(link="logit"),data=dados)
Apêndice 145

> ajust1
> summary(ajust1)
> anova(ajust1)
> ajust<-glm(as.matrix(dados[,c(1,2)])~diag+tratA+tratB,
family=binomial(link="logit"),data=dados)
> ajust
> ajust$fitted.values
> ajust$y
> dev<-residuals(ajust,type=’deviance’)
> dev
> QL<-sum(dev^2)
> QL
> p1<-1-pchisq(QL,2)
> p1
> rpears<-residuals(ajust,type=’pearson’)
> rpears
> QP<-sum(rpears^2)
> QP
> p2<-1-pchisq(QP,2)
> p2
> logito<-log(ajust$fitted.values/(1-ajust$fitted.values))
> logito
> odds<-ajust$fitted.values/(1-ajust$fitted.values)
> odds

13.4 Exemplo 3 - Capı́tulo 3

> dc<-c(0,0,0,1,0,1,0,0,0,0,0,0,1,0,1,1,0,0,0,0,1,1,0,0,0,0,1,1,0,0,1,1,0,0,1,1,1,0,1,
1,0,1,0,0,0,1,1,0,1,1,0,1,1,0,0,1,1,0,0,0,1,1,1,1,1,1,1,1,1,0,1,1,1,1,0,1,1,1)
> sexo<-c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1)
> ecg<-c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,2,2,2,2,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2)
> idade<-c(28,34,38,41,44,45,46,47,50,51,51,53,55,59,60,32,33,35,39,40,42,44,45,46,48,50,
52,52,54,55,59,59,32,37,38,38,42,43,43,44,46,48,49,49,52,53,54,55,57,46,48,57,
60,30,34,36,38,39,42,45,45,45,46,48,57,57,59,60,63,35,37,43,47,48,49,58,59,60)
> ajust1<-glm(dc~sexo+ecg+idade+sexo*ecg+sexo*idade+ecg*idade+sexo*ecg*idade,
family=binomial(link="logit"))
> ajust1
> summary(ajust1)
> anova(ajust1,test="Chisq")
146 Apêndice

> ajust2<-glm(dc~sexo+ecg+idade,family=binomial(link="logit"))
> ajust2
> summary(ajust2)
> anova(ajust2, test="Chisq")
> cbind(dc,sexo,ecg,idade,ajust2$fitted.values)
> dev<-residuals(ajust2,type=’deviance’)
> dev
> plot(dev)
> rpears<-residuals(ajust2,type=’pearson’)
> rpears
> plot(rpears)

# Obs: usar código gof_bino para obtenç~


ao da estatı́stica QHL

# Q-QPlot com envelope simulado


> fit.model<-ajust2
> par(mfrow=c(1,1))
> X <- model.matrix(fit.model)
> n <- nrow(X)
> p <- ncol(X)
> w <- fit.model$weights
> W <- diag(w)
> H <- solve(t(X)%*%W%*%X)
> H <- sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
> h <- diag(H)
> td <- resid(fit.model,type="deviance")/sqrt(1-h)
> e <- matrix(0,n,100)
> for(i in 1:100){
> dif <- runif(n) - fitted(fit.model)
> dif[dif >= 0 ] <- 0
> dif[dif<0] <- 1
> nresp <- dif
> fit <- glm(nresp ~ X, family=binomial)
> w <- fit$weights
> W <- diag(w)
> H <- solve(t(X)%*%W%*%X)
> H <- sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
> h <- diag(H)
> e[,i] <- sort(resid(fit,type="deviance")/sqrt(1-h))}
> e1 <- numeric(n)
Apêndice 147

> e2 <- numeric(n)


> for(i in 1:n){
> eo <- sort(e[i,])
> e1[i] <- eo[5]
> e2[i] <- eo[95]}
> med <- apply(e,1,mean)
> faixa <- range(td,e1,e2)
> par(pty="s")
> qqnorm(td,xlab="Percentis", ylab="Deviance", ylim=faixa, pch=20)
> par(new=T)
> qqnorm(e1,axes=F,xlab="",ylab="",type="l",ylim=faixa,lty=1)
> par(new=T)
> qqnorm(e2,axes=F,xlab="",ylab="", type="l",ylim=faixa,lty=1)
> par(new=T)
> qnorm(med,axes=F,xlab="", ylab="", type="l",ylim=faixa,lty=2)

14. Regressão Logı́stica Politômica

14.1 Exemplo: modelo de odds proporcionais

> require(MASS)
> melhora<-rep(c("ac","alg","nenh"),4)
> sexo<-c(1,1,1,1,1,1,0,0,0,0,0,0)
> trat<-c(1,1,1,0,0,0,1,1,1,0,0,0)
> Freq<-c(16,5,6,6,7,19,5,2,7,1,0,10)
> artrite<-cbind(melhora,sexo,trat)
> artrite<-as.data.frame(artrite)
> attach(artrite)
> options(contrasts = c("contr.treatment", "contr.poly"))
> ajust1 <- polr(melhora ~ sexo + trat + sexo*trat, weights = Freq, data=artrite)
> ajust1
> summary(ajust1)
> ajust2 <- polr(melhora ~ sexo + trat, weights= Freq, data = artrite)
> ajust2
> summary(ajust2)
> ajust2$fitted.values

*******************************************************************************
* Obs: inverter sinais dos par^
ametros dos efeitos e manter os dos interceptos *
*******************************************************************************
148 Apêndice

14.2 Exemplo: modelo de logitos generalizados (obs: executar no sof tware SAS)

data school;
input escola periodo $ pref $ count @@;
datalines;
1 pad ind 10 1 pad gr 17 1 pad aula 26
1 int ind 5 1 int gr 12 1 int aula 50
2 pad ind 21 2 pad gr 17 2 pad aula 26
2 int ind 16 2 int gr 12 2 int aula 36
3 pad ind 15 3 pad gr 15 3 pad aula 16
3 int ind 12 3 int gr 12 3 int aula 20
;
run;
proc catmod order=data;
weight count;
model pref = escola periodo escola*periodo;
run;
proc catmod order=data;
weight count;
model pref = escola periodo;
run;
proc catmod order=data;
weight count;
model pref = escola;
run;
proc catmod order=data;
weight count;
model pref = ; run;

15. Regressão Logı́stica Condicional

15.1 Exemplo: estudo retrospectivo

> skin<-read.table("http://www.est.ufpr.br/~suely/CE073/Dados/skin.txt",h=T)
> attach(skin)
> require(survival)
> model1<-clogit(melhora~trat+sexo+idade+grauini+strata(clinica))
> model1
> summary(model1)
> plot(model1$residuals, pch=16)
> model2<-clogit(melhora~trat+grauini+strata(clinica))
Apêndice 149

> model2
> summary(model2)
> plot(model2$residuals, pch=16,ylab="residuos",xlab="i")

15.2 Exemplo: estudo crossover

> cross<-read.table("http://www.est.ufpr.br/~suely/CE073/Dados/cross.txt",h=T)
> attach(cross)

# preparando os dados para analise


> n<-sum(freq)
> m<-dim(cross)[2]
> k<-dim(cross)[1]
> cross1<-matrix(0,n,m)
> cross2<-as.data.frame(cross1)
> count<-c(0,freq)
> for(j in 1:k){
> for(i in (sum(count[1:j])+1):(sum(count[1:(j+1)]))){
> cross2[i,] <- cross[j,]}}
> names(cross2)<-names(cross)
> obs<-1:300
> cross2$obs<-obs
> cross3<-as.data.frame(rbind(cross2,cross2))
> i<-order(cross3$obs)
> cross4<-cross3[i,]

# idade: 1 se adulto e 0 se jovem, F = 1 e U = 2


# sequ^
encias: AB = 1, AP = 2, BA= 3, BP = 4, PA = 5 e PB = 6

# criando variáveis dummies


> periodo<-rep(c(1,0),300) #1 se periodo1 e 0 se periodo2
> cross4$periodo<-periodo
> drogaA<-c(rep(c(1,0),50),rep(c(0,0),50),rep(c(0,1),50),
rep(c(0,1),50),rep(c(1,0),50),rep(c(0,0),50))
> cross4$drogaA<-drogaA
> drogaB<-c(rep(c(0,1),50),rep(c(1,0),50),rep(c(0,0),50),
rep(c(1,0),50),rep(c(0,0),50),rep(c(0,1),50))
> cross4$drogaB<-drogaB
> resA<-c(rep(c(0,1),50),rep(c(0,0),50),rep(c(0,0),50),
rep(c(0,0),50),rep(c(0,1),50),rep(c(0,0),50))
> cross4$resA<-resA
150 Apêndice

> resB<-c(rep(c(0,0),50),rep(c(0,1),50),rep(c(0,0),50),
rep(c(0,1),50),rep(c(0,0),50),rep(c(0,0),50))
> cross4$resB<-resB
> attach(cross4)
> resp<-rep(0,600)
> for(i in 1:600){
> ifelse(p1[i]==1 & p2[i]==1, resp[i]<-1,resp[i])
> ifelse(p1[i]==1 & p2[i]==2 & periodo[i]==1, resp[i]<-1,resp[i])
> ifelse(p1[i]==1 & p2[i]==2 & periodo[i]==0, resp[i]<-0,resp[i])
> ifelse(p1[i]==2 & p2[i]==1 & periodo[i]==1, resp[i]<-0,resp[i])
> ifelse(p1[i]==2 & p2[i]==1 & periodo[i]==0, resp[i]<-1,resp[i])
> ifelse(p1[i]==2 & p2[i]==2, resp[i]<-0, resp[i])}
> cross4$resp<-resp
> gpidade<-periodo*idade;
> cross4$gpidade<-gpidade

# usando arquivo cross4 para ajustar modelos


> attach(cross4)
> require(survival)
> model1<-clogit(resp~periodo+drogaA+drogaB+gpidade+resA+resB+strata(obs),data=cross4)
> model1
> summary(model1)
> plot(model1$residuals, pch=16)
> model2<-clogit(resp~periodo+drogaA+drogaB+gpidade+strata(obs),data=cross4)
> model2
> summary(model2)
> plot(model2$residuals, pch=16)
> model3<-clogit(resp~periodo+drogaA+drogaB+gpidade+strata(obs),data=cross4)
> model3
> summary(model3)

# testando Ho: tau1 = tau2


> model3$var
> vardif<-model3$var[2,2]+model3$var[3,3]-2*(model3$var[2,3])
> teste<-((1.408-0.296)/sqrt(vardif))^2
> teste
> 1-pchisq(teste,1)

15.3 Exemplo: estudo caso-controle

> match<-read.table("http://www.est.ufpr.br/~suely/CE073/Dados/match.txt",h=T)
Apêndice 151

> attach(match)
> require(survival)
> model1<-clogit(cc~hvb+est+hip+id+nest+strata(par),data=match)
> model1
> model2<-clogit(cc~hvb+est+strata(par),data=match)
> model2
> summary(model2)
> plot(model2$residuals, pch=16)
Bibliografia

AGRESTI, A. Categorical data Analysis. New York: John Wiley & Sons,
1990.

AGRESTI, A. An Introduction to Categorical data Analysis. New York:


John Wiley & Sons, 1996.

BAUMAN, K.E., KOCH, G.G., LENTZ, M. Parent characteristics, perceived


health risk, and smokeless tobacco use among white adolescent males, NI
Monographs 8, p.43-48, 1989.

CHRISTENSEN, R. Log-Linear Models and Logistic Regression. New


York: Springer-Verlag, 1997.

DEMÉTRIO, C.G.B. Modelos Lineares Generalizados em Experimentação Agro-


nômica. Piracicaba: Minicurso 46a Rbras e 9o SEAGRO, 2001.

FREEMAN, D. Applied Categorical Data Analysis. New York: Marcel


Dekker, 1987.

KLEINBAUM, Logistic Regression: a self-learning text. New York: Springer


Verlag, 1994.

HOSMER JR, D.W., LEMESHOW, S. Applied Logistic Regression. New


York: John Wiley & Sons, 1989.

McCULLACH, P., NELDER, J.A. Generalized Linear Models. London:


Chapman and Hall, 1989.

153
154 Bibliografia

MANTEL, N. Chi-square tests with one degree of freedom: Extensions of the


Mantel-Haenszel procedure, Journal of the American Statistical As-
sociation, v.58, p.690-700, 1963.

MANTEL, N., HAENSZEL, W. Statistical Aspects of the analysis of data from


retrospective studies of disease, Journal of the National Cancer Insti-
tute, v.22, p.719-748, 1959.

MANTEL, N. FLEISS, J. Minimum expected cell size requirements for the Mantel-
Haenszel one-degree of freedom chi-square test and a related rapid proce-
dure, American Journal of Epidemiology, v.112, p.129-143, 1980.

PAULA, G. A. Modelos de Regressão com apoio computacional (versão


2004). Disponı́vel em www.ime.usp.br/∼giapaula/mlgs.html. Acesso em
16.03.04

PAULINO, C.D.M., SINGER, J.M. Análise de Dados Categorizados. São


Paulo: versão preliminar 1999 (não-publicada).

PREGIBON, D. Logistic regression diagnostics, Annals of Statistics, v.9,


p.705-724, 1981.

SEMENYA, K.A., KOCH, G.G. Linear models analysis for rank functions ordinal
categorical data. Proceedings of the Statistical Computing Section
of the American Statistical Association, p.271-276, 1980.

SILVEIRA NETO, S., NAKANO, O., BARBIN, D., VILLA NOVA, N.A. Ma-
nual de Ecologia dos Insetos. São Paulo: Agronômica Ceres, 1976,
419p.

STOKES, M. E., DAVIS, C. S., KOCH, G. G. Categorical Data Analysis


using the SAS System. SAS Institute Inc., Cary, NC. USA, 2000.
Índice Remissivo

análise de deviance, 80 transversais, 18


ANODEV, 80
hipótese de
confundimento, 51 homogeneidade, 26
contagens discretas, 4 independência, 26
multiplicatividade, 26
deviance, 79
diferença de proporções, 28 incidência, 20
distribuição logı́stica, 73
logitos
escalas de mensuração, 2 cumulativos, 104
escores generalizados, 110
inteiros, 40
padronizados, 41 modelo

especificidade, 35 complemento log-log, 102

esquemas amostrais, 5 de logitos generalizados, 110

estatı́stica de odds proporcionais, 103

de Hosmer e Lemeshow, 98 hipergeométrico, 9

de Pearson, 27 multinomial, 7

Kappa, 59 probito, 102

Kappa ponderada, 61 produto de binomiais, 6

estimação de parâmetros, 76 produto de multinomiais, 6

estudos produto de Poisson, 7

caso-controle, 14
odds ratio, 29
clı́nico aleatorizado, 16
cross-sectional, 18 pareamento, 126
crossover, 122 prevalência, 20
de coorte, 11
descritivos, 11 QQplot com envelope simulado, 100

155
razão de chances, 29
regressão logı́stica
condicional, 117
dicotômica, 71
politômica, 103
resı́duos
de Pearson, 84
deviance, 84
risco relativo, 30

sensibilidade, 35

teste
da razão de verossimilhanças, 79
de Mantel-Haenszel, 53
de McNemar, 37
exato, 45

variáveis
dicotômicas, 2
nominais, 4
ordinais, 3

Você também pode gostar