Aula Parte1

CGB0058 - INTRODUÇÃO A ANÁLISE DE DADOS
CATEGÓRICOS
Prof: Felipe Rodrigues
Curso de Estatística
9 de abril de 2024
Universidade Federal do Piauí
Sumário
1. Conceitos iniciais
2. Tipos de estudos
3. Delineamentos amostrais
4. Bibliografia
2
Conceitos iniciais
Introdução
Objetivo
• O objetivo desse curso é apresentar de maneira introdutória con-
ceitos e técnicas para analisar dados de estudos em que a variá-
vel resposta de interesse é categórica.
4
Conceitos básicos
• Variáveis categóricas são também conhecidas como variáveis qua-

litativas, por exemplo: Status do cliente (adimplente ou inadim-
plente), status do pacinte (óbito ou não óbito), classe social (alta,
média ou baixa), dentre outros;
• Variável resposta: É a variável de interesse do estudo ;
• Variável explicativa: São aquelas que podem afetar a variável res-
posta, também chamadas de fatores, covariáveis, preditoras, etc,
podem ser qualitativas ou quantitativas;
• Na análise de dados categóricos a variável resposta é descrita
através de distribuições de probabilidade discretas, como Bino-
mial, Poisson, Multinomial, etc.
5
Conceitos básicos
• Variáveis explicativas contínuas podem ser categorizadas de acordo

com o interesse do pesquisador, por exemplo o nível de açúcar
no sangue pode ser categorizado em normal ou anormal;
• As variáveis categóricas podem ter duas (dicotômicas ou binárias)
ou mais categorias (politômicas);
• As variáveis categóricas ainda podem ser subdivididas em ordi-
nais e nominais;
• Quando as categorias apresentam uma ordem natural, por exem-
plo gravidade do estágio clínico de um paciente, dizemos a variá-
vel é categórica ordinal;
• Quando não existe ordem natural nas categorias, por exemplo cor
da pele do paciente, dizemos que a variável é categórica nominal.
6
Conceitos básicos
• Quando a variável resposta assume valores inteiros (contagem),

por exemplo conta o número de falhas de um equipamento du-
rante determinado período, ela é denominadaa variável quanti-
tativa discreta;
• Geralmente os métodos utilizados para análise de dados com va-
riável resposta qualitativa também podem ser aplicados à estu-
dos com variável resposta quantitativa discreta, ou àqueles com
variável resposta com valores contínuos agrupados (ex: < 100;
≥ 100);
• Em categorias com baixa frequência de observações ou sem ob-
servação é interessante fazer algum tipo de agrupamento, por
exemplo se em um estudo com 100 pacientes nenhum deles pe-
tence à categoria A, 2 à categoria B e 3 à categoria C, pode ser
interessante agrupar essas 3 categorias em uma.
7
Notações
• A Variável resposta é denotada pela letra Y;

• A Variável explicativa é denotada pela letra X;
• Para p variáveis explicativas temos X = (X1 , . . . , Xp );
• Dados de estudos em que a variável resposta e as variáveis ex-
plicativas são categóricas (ou foram categorizadas) são, sempre
que possível, organizados em tabelas de contingência.
8
Tabela de contigência
As observações consistem de contagens ou freqüências dispostas em

tabelas de contingência formada através da classificação cruzada das
variáveis em que, na maioria das aplicações, as linhas representam
combinações dos níveis dos fatores e as colunas representam os ní-
veis (categorias da variável resposta).
Tabela 1: Tabela de Contingência 2 × 2
Categorias da variável Y
Categorias da variável X Totais
j=1 j=2
i=1 n11 n12 n1+
i=2 n21 n22 n2+
Totais n+1 n+2 n++ = n
9
• nij representa a frequência de indivíduos na categoria i de X e
categoria j de Y, com i, j = 1, 2.
• ni+ representa o total de indivíduos na categoria i de X, ou seja ,
o total marginal da linha.
• n+j representa o total de indivíduos na categoria j de Y, ou seja ,
o total marginal da coluna.
• n representa o total geral ou amostral de indivíduos no estudo,
ou seja, a soma dos nij .
10
Exemplo
Tabela 2: Tabela de Contingência 2 × 2
Câncer de esôfago
Consumo de Álcool Totais
Sim Não
Sim 96 109 205
Não 104 666 770
Totais 200 775 975
Fonte: Tuyns et al. (1977), Santner e Duffy (1989)
11
Tabela com as proporções amostrais pij = nij /n nas caselas, para i, j =
1, 2.
Categorias de Y
Categorias de X Totais
j=1 j=2
i=1 p11 p12 p1+
i=2 p21 p22 p2+
Totais p+1 p+2 1
12
• pij = P(X = i, Y = j) é a probabilidade conjunta.
• pi+ = P(X = i) é a probabilidade marginal da linha i.
• p+j = P(Y = j) é a probabilidade marginal da coluna j.
13
Exemplo
Tabela 3: Tabela com as proporções amostrais
Câncer de esôfago
Sim Não
Sim 0.0985 0.1118 0.2103
Não 0.1066 0.6831 0.7897
Totais 0.2051 0.7949 1
14
Tipos de estudos
Muitos estudos clínicos e epidemiológicos são desenvolvidos por pes-
quisadores de diversas áreas, cuja variável de intesse é categórica.
Dentre os tipos de estudo mais comuns estão o estudo de coorte,
caso-controle, tranversais e estudoS clínicos aleatorizados.
16
Tipos de estudos
Em relação a interferência do pesquisador, divide-se em
• Observacional: o pesquisador não impõe um tratamento para

cada grupo de pessoas, mas usa as informações já disponíveis
sobre o paciente. Mais comuns e viáveis
• Experimental: o pesquisador em geral aloca os pacientes a cada
tratamento.
17
Tipos de estudos
Em relação ao tempo do estudo, divide-se em
• Longitudinal: Nestes estudos os dados estudados são coletados

ao longo do tempo, geralmente em dois momentos, no ponto ini-
cial da exposição(o encontrado) e em um momento posterior.
• Prospectivo: acompanha pacientes ao longo do tempo (follow up).
Em geral, são mais caros e há mais perda de dados, mas
costumam ser mais precisos.
• Retrospectivo: baseado em dados de períodos passados.
• Transversal: Dados levantados em um determinado instante de
tempo.
18
Estudo de Caso-controle
1. Estudo observacional analítico que compara dois grupos de

indivíduos;
2. Retrospectivo: o desfecho já aconteceu;
3. A seleção da amostra se dá pelo desfecho (doença);
4. Barato e de rápida implementação.
19
O investigador parte de indivíduos com e sem doença e busca no pas-

sado a presença/ausência do fator de exposição (causa); Comparação
entre grupo de indivíduos com a doença de interesse com um grupo
de indivíduos sem a doença; Analisa os possíveis fatores associados
à doença em questão; Melhor estudo para doenças raras.
Figura 1: Fonte: Giolo, S. R. (2017) 20

Variável Y
Variável X Totais
Caso (doente) Controle (não doente)
Exposto
Não Exposto
Totais n+1 n+2
Nesse estudo sabe-se inicialmente quais indivíduos estão ou não do-

entes (n+1 e n+2 ), e procura-se investigar se a exposição a determi-
nado fator está associada à doença em estudo.
EXEMPLO PRÁTICO
21
Estudo de Coorte
1. Estudo observacional no qual os indivíduos são classificados

segundo o status de exposição (expostos e não expostos);
2. Longitudinal: Prospectivo;
3. Os estudos prospectivo e retrospectivo geralmente se referem a
quando os dados do estudo foram coletados em relação ao
pesquisador.
4. Mede a incidência = no de casos novos no período de
acompanhamento/ no de indivíduos no início do estudo.
22
Estudo de coorte
Um estudo em que um grupo de pessoas é exposto a um determi-

nado fator e é acompanhado ao longo de um período de tempo para
observar-se a ocorrência de um desfecho. Esse tipo de estudo é de-
morado e mais difícil de ser executado, pois corre o risco de perda de
indivíduos durante o acompanhamento.

Estudo de coorte
Variável Y
Variável X Totais
Doente Não doente
Exposto n1+
Não Exposto n2+
Totais
Nesse estudo sabe-se inicialmente quais indivíduos estão ou não ex-

postos a determinado fator (n1+ e n2+ ), e observa-se ao longo do
tempo quais indivíduos irão apresentar o desfecho.
EXEMPLO PRÁTICO
24
Ensaio clínico aleatorizado
1. Estudo experimental e prospectivo;

2. Os participantes devem ter a mesma oportunidade de receber o
tratamento;
3. Os grupos devem ser os mais parecidos possíveis ;
4. É o padrão ouro em estudos que pretendem avaliar o efeito de
um tratamento em uma situação clínica.;
5. Permite eliminar diversos vieses, pois os grupos tratamento e
controle são alocados aleatoriamente.
25
Ensaio clínico aleatorizado ou randomizado é um experimento, reali-

zado em geral com o objetivo de verificar, entre 2 ou mais tratamen-
tos, qual é o mais efetivo. A exposição aos tratamentos é aleatória,
ou seja, os indivíduos são escolhidos aleatoriamente.
Figura 3: Fonte: Giolo, S. R. (2017)

26
Variável Y
Variável X Totais
Doente Não doente
Tratamento n1+
Controle n2+
Totais
Nesse estudo o perquisador divide os grupos entre os indivíduos que

irão receber o tratamento e os controles que não receberão (n1+ e
n2+ ), e observa-se ao longo do tempo quais indivíduos irão apresentar
o desfecho.
EXEMPLO PRÁTICO
27
Estudo Transversal
1. Estudo observacional ;
2. Os estudos transversais ou de prevalência têm por foco
populações bem definidas;
3. Tudo o que se observa é mensurado uma única vez, em um
tempo específico;
4. Mede a prevalência = Casos existentes da doença / População
5. Medida de associação: razão de prevalências = Prevalência
expostos / Prevalência não expostos
28
Estudo transversal
É um tipo de estudo observacional, também conhecido como cross-

sectional, em que os dados são levantados em um determinado ins-
tante de tempo (fotografia do momento), especificamente para a ob-
tenção de informações desejadas de grandes populações; São fáceis
e econômicos, com duração de tempo relativamente curta.

Estudo transversal
Variável Y
Variável X Totais
j=1 j=2
i=1
i=2
Totais n
Nesse estudo n indivíduos são selecionados na amostra e as variáveis

de interesse são observadas.
EXEMPLO PRÁTICO
30
Tabela 4: Vantagens e desvantagens dos tipos de estudos
Estudos Vantagens Desvantagens

Estatística e epidemiologicamente Grande potencial de vícios
mais eficiente quando os desfechos de seleção. Dificuldades
são raros. São rapidamente para a avaliação de
Caso-controle
executados em doenças com longos exposição uma vez que a
períodos de latência mesma ocorreu no passado
(tempo de reação). Baixo custo.
Fornecem uma boa visão do estado Apresentam custo elevado.
Coorte
basal das unidades. A seleção por Pouco adequado para
exposição é essencial para desfechos raros e com
ou
exposições raras. Pode-se estudar a período de latência longo.
associação de uma exposição com Potencial para perdas
longitudinais
diversos desfechos ou resposta. no seguimento.
31
Tabela 5: Vantagens e desvantagens dos tipos de estudos
Estudos Vantagens Desvantagens

Controle sobre as variáveis;
Ensaio Clínico Baixo potencial para vícios de
seleção;
Diminuição do número de ensaios; Problemas de aplicação
ou Estudo de um número considerável de prática. Problemas éticos e
fatores;. no seguimento. custo elevado.
Detecção dos níveis ótimos;
Experimentais Melhoria da precisão dos resultados;
Otimização dos resultados.
Útil em estudos descritivos de
características clínicas e/ou Difícil determinar o que
prevalência de doenças na veio antes: exposição ou
Tranversais
comunidade (saúde pública). Fáceis desfecho.
de conduzir, rápidos e de baixo
custo.
32
Delineamentos amostrais
Revisão dos modelos probabilísicos
Assim como a distribuição normal tem um papel importante na aná-

lise de regressão para dados contínuos, as distribuições discretas são
fundamentais na análise de dados categorizados. Faz-se necessá-
rio, portanto, uma breverevisão destas distribuições de probabilidade
para a melhor compreensão dos esquemas amostrais para dados ca-
tegorizados.
34
Distribuição Binomial
Seja Y o número total de sucessos obtidos, na realização de n ensaios

de Bernoulli independentes. Diremos que Y segue uma distribuição
Binomial com parâmetros n e p e sua função de probabilidade é dado
por
( )
n y
P(Y = y) = p (1 − p)n−y , y = 0, 1, · · · , n,
y
em que, um ensaio de Bernoulli é um experimento onde a v.a. assume

somente os valores 0 e 1, com probabilidade de sucesso igual a p.
35
Distribuição Multinomial
Suponha um experimento multinomial que consiste de n tentativas

independentes, e cada tentativa pode resultar em quaisquer dos k re-
sultados possíveis. Suponha, além disso, que cada resultado possível
possa ocorrer com probabilidades p1 , p2 , · · · , pk . Então a probabili-
dade do primeiro resultado possível acontecer n1 vezes, do segundo
resultado possível acontecer n2 vezes,· · · , e do k-ésimo resultado pos-
sível acontecer nk vezes é
n!
P(y1 = n1 , y2 = n2 , · · · , yk = nk ) = pn1 pn2 · · · pnk k ,
n1 !n2 ! · · · nk ! 1 2
∑k ∑k
com i=1 pi = 1 e i=1 ni = n.
36
As características dos delineamento dos estudos quanto as tabelas
de contigência podem ser resumidas como:
• Estudo caso-controle: O número marginal de indivíduos n+j é fi-

xado;
• Estudo de coorte: O número marginal de indivíduos ni+ é fixado;
• Estudo ensaio clínico aleatori: O número marginal de indivíduos
ni+ é fixado;
• Estudo transversal: o número total de indivíduos n é fixado.
37
As características dos delineamento dos estudos quanto aos modelos
probabilísticos podem ser resumidas como:
• Estudo caso-controle: produto de binomiais

• Estudo de coorte: produto de binomiais
• Ensaio clínico aleatorizado: produto de binomiais
• Estudo transversal: Multinomial
38
Estudo caso-controle: produto de binomiais
Modelo produto de binomiais independentes é dado por:

2
[ 2
]
∏ ∏ (pi(j) )nij
P(N1 = n1 , N2 = n2 ) = (n+j )! ,
(nij )!
j=1 i=1
∑2
em que i=1 pi(j) = 1, j = 1, 2 e pi(j) = P(X = i|Y = j) é a probabilidade
condicional de X = i dado que Y = j. O estimador de máxima verossi-
milhança para pi(j) dado por
p̂i(j) = Nij /n+j
39
Exemplo
Tabela 6: Estudo caso-controle
Câncer de esôfago
Sim Não
Sim 96 109 205
Não 104 666 770
Totais 200 775 975
Fonte: Tuyns et al. (1977)
As estimativas de máxima verossimilhança para pi(j) = P(X = i|Y = j),

com i, j = 1, 2, são dadas por
96 104
p̂1(1) = = 0.48, p̂2(1) = = 0.52
200 200
109 666
p̂1(2) = = 0.14, p̂2(2) = = 0.86
775 775
40
Representação gráfica
Estudo Caso−controle
Expostos
Não expostos
Controles
0.14 0.86
Grupos
Casos
0.48 0.52
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4
Proporções amostrais 41
Estudo de coorte: produto de binomiais

 
2
∏ 2
∏ (p(i)j )nij
P(N1 = n1 , N2 = n2 ) = (ni+ )! ,
(nij )!
i=1 j=1
∑2
em que j=1 p(i)j = 1, i = 1, 2 e p(i)j = P(Y = j|X = i) é a probabilidade
condicional de Y = j dado que X = i. O estimador de máxima verossi-
milhança para p(i)j dado por
p̂(i)j = Nij /ni+
42
Exemplo
Tabela 7: Estudo de coorte
Desfecho
Exposto Totais
Sim Não
Sim 75 45 120
Não 21 56 77
Totais 96 101 197
Fonte: Giolo, S. R. (2017)
As estimativas de máxima verossimilhança para as p(i)1 = P(Y = 1|X =

i), com i = 1, 2, são dadas por
75 21
p̂(1)1 = = 0.625, p̂(2)1 = = 0.273
120 77
que são as incidências nos expostos e não expostos, respectivamente.
43
Doentes Sadios
Sadios Doentes
1.0
1.0
Proporções amostrais
0.375
0.8
0.8
0.727
0.625
0.6
0.6
0.375 0.625 0.727
0.4
0.4
0.273
0.2
0.2 0.273
0.0
0.0
Sim Não Sim Não
Exposição ao fator Exposição ao fator 44

Ensaio clínico aleatorizado: produto de binomiais

 
2
∏ 2
∏ (p(i)j )nij
P(N1 = n1 , N2 = n2 ) = (ni+ )! 
(nij )!
i=1 j=1
O estimador de máxima verossimilhança para p(i)j dado por
p̂(i)j = Nij /ni+
45
Exemplo
Tabela 8: Ensaio clínico aleatorizado
Resposta
Medicamento Totais
Favorável Não favorável
Novo 29 16 45
Padrão 14 31 45
Totais 43 47 90
Fonte: Stokes et al. (2000)
As estimativas de máxima verossimilhança para pj|i = P(Y = j|X = i),

29 16
p̂(1)1 = = 0.644, p̂(1)2 = = 0.356
45 45
14 31
p̂(2)1 = = 0.311, p̂(2)2 = = 0.689
45 45
46
Não favorável
0.689 Favorável
Padrão
0.311
Medicamento
0.356
Novo
0.644
0.0 0.2 0.4 0.6 0.8 1.0
Proporções amostrais 47
Estudo transversal: Multinomial

2 ∏
∏ 2
(pij )nij
P(N = n) = n! ,
(nij )!
i=1 j=1
∑2 ∑2
em que nij ≥ 0, i,j=1 nij = n e i,j=1 pij = 1. O estimador de máxima
verossimilhança para pij dado por
p̂ij = Nij /n
48
Exemplo
Tabela 9: Estudo transversal
Sintomas
Sexo Totais
Sim Não
Feminino 355 125 480
Masculino 410 190 600
Totais 765 315 1080
Fonte: Stokes et al. (2000)
As estimativas de máxima verossimilhança para pij = P(X = i, Y = j),

355 125 41 19
p̂11 = = 0.33, p̂12 = = 0.12, p̂21 = = 0.38, p̂1|2 = = 0.18
1080 1080 108 108
em que a prevalência entre mulheres é de 355/480=0.74 e de 410/600=0.68
entre os homens.
49
1.0
Mulher com sintoma

Mulher sem sintoma
Homem com sintoma
0.8
Homem sem sintoma

Mulher com
Mulher sem sintoma = 33%
0.6
sintoma = 11.6%
0.38
0.4
Homem sem
0.329 sintoma = 17.6%
Homem com
sintoma = 38%
0.176
0.2
0.116
0.0
50
Bibliografia
Bibliografia
• Giolo, S. R. Introdução à Análise de Dados Categóricos com Apli-

cações. São Paulo: Blucher, 2017.
• Ramos, P. C. F. e Spyrides, M. H. C. Análise de Dados Categorizados.
Editora Blucher, 2006.
52

Aula Parte1

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula Parte1

Enviado por

Direitos autorais:

Formatos disponíveis

CGB0058 - INTRODUÇÃO A ANÁLISE DE DADOS

• Variáveis categóricas são também conhecidas como variáveis qua-

• Variáveis explicativas contínuas podem ser categorizadas de acordo

• Quando a variável resposta assume valores inteiros (contagem),

• A Variável resposta é denotada pela letra Y;

As observações consistem de contagens ou freqüências dispostas em

Tabela 1: Tabela de Contingência 2 × 2

Tabela 2: Tabela de Contingência 2 × 2

Fonte: Tuyns et al. (1977), Santner e Duffy (1989)

Tabela 3: Tabela com as proporções amostrais

Em relação a interferência do pesquisador, divide-se em

• Observacional: o pesquisador não impõe um tratamento para

Em relação ao tempo do estudo, divide-se em

• Longitudinal: Nestes estudos os dados estudados são coletados

1. Estudo observacional analítico que compara dois grupos de

O investigador parte de indivíduos com e sem doença e busca no pas-

Figura 1: Fonte: Giolo, S. R. (2017) 20

Nesse estudo sabe-se inicialmente quais indivíduos estão ou não do-

1. Estudo observacional no qual os indivíduos são classificados

Um estudo em que um grupo de pessoas é exposto a um determi-

Figura 2: Fonte: Giolo, S. R. (2017) 23

Nesse estudo sabe-se inicialmente quais indivíduos estão ou não ex-

1. Estudo experimental e prospectivo;

Ensaio clínico aleatorizado ou randomizado é um experimento, reali-

Figura 3: Fonte: Giolo, S. R. (2017)

Nesse estudo o perquisador divide os grupos entre os indivíduos que

É um tipo de estudo observacional, também conhecido como cross-

Figura 4: Fonte: Giolo, S. R. (2017) 29

Nesse estudo n indivíduos são selecionados na amostra e as variáveis

Estudos Vantagens Desvantagens

Estudos Vantagens Desvantagens

Assim como a distribuição normal tem um papel importante na aná-

Seja Y o número total de sucessos obtidos, na realização de n ensaios

em que, um ensaio de Bernoulli é um experimento onde a v.a. assume

Suponha um experimento multinomial que consiste de n tentativas

• Estudo caso-controle: O número marginal de indivíduos n+j é fi-

• Estudo caso-controle: produto de binomiais

Modelo produto de binomiais independentes é dado por:

p̂i(j) = Nij /n+j

Tabela 6: Estudo caso-controle

Fonte: Tuyns et al. (1977)

As estimativas de máxima verossimilhança para pi(j) = P(X = i|Y = j),

0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4

Modelo produto de binomiais independentes é dado por:

p̂(i)j = Nij /ni+

Tabela 7: Estudo de coorte

Fonte: Giolo, S. R. (2017)

As estimativas de máxima verossimilhança para as p(i)1 = P(Y = 1|X =

Sim Não Sim Não

Exposição ao fator Exposição ao fator 44

Modelo produto de binomiais independentes é dado por:

O estimador de máxima verossimilhança para p(i)j dado por

p̂(i)j = Nij /ni+

Tabela 8: Ensaio clínico aleatorizado

Fonte: Stokes et al. (2000)

As estimativas de máxima verossimilhança para pj|i = P(Y = j|X = i),

Ensaio clínico aleatorizado

0.0 0.2 0.4 0.6 0.8 1.0

Modelo produto de binomiais independentes é dado por:

Tabela 9: Estudo transversal

Fonte: Stokes et al. (2000)

As estimativas de máxima verossimilhança para pij = P(X = i, Y = j),

Mulher com sintoma