Você está na página 1de 52

CGB0058 - INTRODUÇÃO A ANÁLISE DE DADOS

CATEGÓRICOS
Prof: Felipe Rodrigues

Curso de Estatística
9 de abril de 2024
Universidade Federal do Piauí
Sumário

1. Conceitos iniciais

2. Tipos de estudos

3. Delineamentos amostrais

4. Bibliografia

2
Conceitos iniciais
Introdução

Objetivo
• O objetivo desse curso é apresentar de maneira introdutória con-
ceitos e técnicas para analisar dados de estudos em que a variá-
vel resposta de interesse é categórica.

4
Conceitos básicos

• Variáveis categóricas são também conhecidas como variáveis qua-


litativas, por exemplo: Status do cliente (adimplente ou inadim-
plente), status do pacinte (óbito ou não óbito), classe social (alta,
média ou baixa), dentre outros;
• Variável resposta: É a variável de interesse do estudo ;
• Variável explicativa: São aquelas que podem afetar a variável res-
posta, também chamadas de fatores, covariáveis, preditoras, etc,
podem ser qualitativas ou quantitativas;
• Na análise de dados categóricos a variável resposta é descrita
através de distribuições de probabilidade discretas, como Bino-
mial, Poisson, Multinomial, etc.

5
Conceitos básicos

• Variáveis explicativas contínuas podem ser categorizadas de acordo


com o interesse do pesquisador, por exemplo o nível de açúcar
no sangue pode ser categorizado em normal ou anormal;
• As variáveis categóricas podem ter duas (dicotômicas ou binárias)
ou mais categorias (politômicas);
• As variáveis categóricas ainda podem ser subdivididas em ordi-
nais e nominais;
• Quando as categorias apresentam uma ordem natural, por exem-
plo gravidade do estágio clínico de um paciente, dizemos a variá-
vel é categórica ordinal;
• Quando não existe ordem natural nas categorias, por exemplo cor
da pele do paciente, dizemos que a variável é categórica nominal.

6
Conceitos básicos

• Quando a variável resposta assume valores inteiros (contagem),


por exemplo conta o número de falhas de um equipamento du-
rante determinado período, ela é denominadaa variável quanti-
tativa discreta;
• Geralmente os métodos utilizados para análise de dados com va-
riável resposta qualitativa também podem ser aplicados à estu-
dos com variável resposta quantitativa discreta, ou àqueles com
variável resposta com valores contínuos agrupados (ex: < 100;
≥ 100);
• Em categorias com baixa frequência de observações ou sem ob-
servação é interessante fazer algum tipo de agrupamento, por
exemplo se em um estudo com 100 pacientes nenhum deles pe-
tence à categoria A, 2 à categoria B e 3 à categoria C, pode ser
interessante agrupar essas 3 categorias em uma.

7
Notações

• A Variável resposta é denotada pela letra Y;


• A Variável explicativa é denotada pela letra X;
• Para p variáveis explicativas temos X = (X1 , . . . , Xp );
• Dados de estudos em que a variável resposta e as variáveis ex-
plicativas são categóricas (ou foram categorizadas) são, sempre
que possível, organizados em tabelas de contingência.

8
Tabela de contigência

As observações consistem de contagens ou freqüências dispostas em


tabelas de contingência formada através da classificação cruzada das
variáveis em que, na maioria das aplicações, as linhas representam
combinações dos níveis dos fatores e as colunas representam os ní-
veis (categorias da variável resposta).

Tabela 1: Tabela de Contingência 2 × 2

Categorias da variável Y
Categorias da variável X Totais
j=1 j=2
i=1 n11 n12 n1+
i=2 n21 n22 n2+
Totais n+1 n+2 n++ = n

9
• nij representa a frequência de indivíduos na categoria i de X e
categoria j de Y, com i, j = 1, 2.
• ni+ representa o total de indivíduos na categoria i de X, ou seja ,
o total marginal da linha.
• n+j representa o total de indivíduos na categoria j de Y, ou seja ,
o total marginal da coluna.
• n representa o total geral ou amostral de indivíduos no estudo,
ou seja, a soma dos nij .

10
Exemplo

Tabela 2: Tabela de Contingência 2 × 2

Câncer de esôfago
Consumo de Álcool Totais
Sim Não
Sim 96 109 205
Não 104 666 770
Totais 200 775 975

Fonte: Tuyns et al. (1977), Santner e Duffy (1989)

11
Tabela com as proporções amostrais pij = nij /n nas caselas, para i, j =
1, 2.

Categorias de Y
Categorias de X Totais
j=1 j=2
i=1 p11 p12 p1+
i=2 p21 p22 p2+
Totais p+1 p+2 1

12
• pij = P(X = i, Y = j) é a probabilidade conjunta.
• pi+ = P(X = i) é a probabilidade marginal da linha i.
• p+j = P(Y = j) é a probabilidade marginal da coluna j.

13
Exemplo

Tabela 3: Tabela com as proporções amostrais

Câncer de esôfago
Consumo de Álcool Totais
Sim Não
Sim 0.0985 0.1118 0.2103
Não 0.1066 0.6831 0.7897
Totais 0.2051 0.7949 1

14
Tipos de estudos
Muitos estudos clínicos e epidemiológicos são desenvolvidos por pes-
quisadores de diversas áreas, cuja variável de intesse é categórica.
Dentre os tipos de estudo mais comuns estão o estudo de coorte,
caso-controle, tranversais e estudoS clínicos aleatorizados.

16
Tipos de estudos

Em relação a interferência do pesquisador, divide-se em

• Observacional: o pesquisador não impõe um tratamento para


cada grupo de pessoas, mas usa as informações já disponíveis
sobre o paciente. Mais comuns e viáveis
• Experimental: o pesquisador em geral aloca os pacientes a cada
tratamento.

17
Tipos de estudos

Em relação ao tempo do estudo, divide-se em

• Longitudinal: Nestes estudos os dados estudados são coletados


ao longo do tempo, geralmente em dois momentos, no ponto ini-
cial da exposição(o encontrado) e em um momento posterior.
• Prospectivo: acompanha pacientes ao longo do tempo (follow up).
Em geral, são mais caros e há mais perda de dados, mas
costumam ser mais precisos.
• Retrospectivo: baseado em dados de períodos passados.
• Transversal: Dados levantados em um determinado instante de
tempo.

18
Estudo de Caso-controle

1. Estudo observacional analítico que compara dois grupos de


indivíduos;
2. Retrospectivo: o desfecho já aconteceu;
3. A seleção da amostra se dá pelo desfecho (doença);
4. Barato e de rápida implementação.

19
Estudo de Caso-controle

O investigador parte de indivíduos com e sem doença e busca no pas-


sado a presença/ausência do fator de exposição (causa); Comparação
entre grupo de indivíduos com a doença de interesse com um grupo
de indivíduos sem a doença; Analisa os possíveis fatores associados
à doença em questão; Melhor estudo para doenças raras.

Figura 1: Fonte: Giolo, S. R. (2017) 20


Estudo de Caso-controle

Variável Y
Variável X Totais
Caso (doente) Controle (não doente)
Exposto
Não Exposto
Totais n+1 n+2

Nesse estudo sabe-se inicialmente quais indivíduos estão ou não do-


entes (n+1 e n+2 ), e procura-se investigar se a exposição a determi-
nado fator está associada à doença em estudo.

EXEMPLO PRÁTICO

21
Estudo de Coorte

1. Estudo observacional no qual os indivíduos são classificados


segundo o status de exposição (expostos e não expostos);
2. Longitudinal: Prospectivo;
3. Os estudos prospectivo e retrospectivo geralmente se referem a
quando os dados do estudo foram coletados em relação ao
pesquisador.
4. Mede a incidência = no de casos novos no período de
acompanhamento/ no de indivíduos no início do estudo.

22
Estudo de coorte

Um estudo em que um grupo de pessoas é exposto a um determi-


nado fator e é acompanhado ao longo de um período de tempo para
observar-se a ocorrência de um desfecho. Esse tipo de estudo é de-
morado e mais difícil de ser executado, pois corre o risco de perda de
indivíduos durante o acompanhamento.

Figura 2: Fonte: Giolo, S. R. (2017) 23


Estudo de coorte

Variável Y
Variável X Totais
Doente Não doente
Exposto n1+
Não Exposto n2+
Totais

Nesse estudo sabe-se inicialmente quais indivíduos estão ou não ex-


postos a determinado fator (n1+ e n2+ ), e observa-se ao longo do
tempo quais indivíduos irão apresentar o desfecho.

EXEMPLO PRÁTICO

24
Ensaio clínico aleatorizado

1. Estudo experimental e prospectivo;


2. Os participantes devem ter a mesma oportunidade de receber o
tratamento;
3. Os grupos devem ser os mais parecidos possíveis ;
4. É o padrão ouro em estudos que pretendem avaliar o efeito de
um tratamento em uma situação clínica.;
5. Permite eliminar diversos vieses, pois os grupos tratamento e
controle são alocados aleatoriamente.

25
Ensaio clínico aleatorizado

Ensaio clínico aleatorizado ou randomizado é um experimento, reali-


zado em geral com o objetivo de verificar, entre 2 ou mais tratamen-
tos, qual é o mais efetivo. A exposição aos tratamentos é aleatória,
ou seja, os indivíduos são escolhidos aleatoriamente.

Figura 3: Fonte: Giolo, S. R. (2017)


26
Ensaio clínico aleatorizado

Variável Y
Variável X Totais
Doente Não doente
Tratamento n1+
Controle n2+
Totais

Nesse estudo o perquisador divide os grupos entre os indivíduos que


irão receber o tratamento e os controles que não receberão (n1+ e
n2+ ), e observa-se ao longo do tempo quais indivíduos irão apresentar
o desfecho.

EXEMPLO PRÁTICO

27
Estudo Transversal

1. Estudo observacional ;
2. Os estudos transversais ou de prevalência têm por foco
populações bem definidas;
3. Tudo o que se observa é mensurado uma única vez, em um
tempo específico;
4. Mede a prevalência = Casos existentes da doença / População
5. Medida de associação: razão de prevalências = Prevalência
expostos / Prevalência não expostos

28
Estudo transversal

É um tipo de estudo observacional, também conhecido como cross-


sectional, em que os dados são levantados em um determinado ins-
tante de tempo (fotografia do momento), especificamente para a ob-
tenção de informações desejadas de grandes populações; São fáceis
e econômicos, com duração de tempo relativamente curta.

Figura 4: Fonte: Giolo, S. R. (2017) 29


Estudo transversal

Variável Y
Variável X Totais
j=1 j=2
i=1
i=2
Totais n

Nesse estudo n indivíduos são selecionados na amostra e as variáveis


de interesse são observadas.

EXEMPLO PRÁTICO

30
Tabela 4: Vantagens e desvantagens dos tipos de estudos

Estudos Vantagens Desvantagens


Estatística e epidemiologicamente Grande potencial de vícios
mais eficiente quando os desfechos de seleção. Dificuldades
são raros. São rapidamente para a avaliação de
Caso-controle
executados em doenças com longos exposição uma vez que a
períodos de latência mesma ocorreu no passado
(tempo de reação). Baixo custo.
Fornecem uma boa visão do estado Apresentam custo elevado.
Coorte
basal das unidades. A seleção por Pouco adequado para
exposição é essencial para desfechos raros e com
ou
exposições raras. Pode-se estudar a período de latência longo.
associação de uma exposição com Potencial para perdas
longitudinais
diversos desfechos ou resposta. no seguimento.

31
Tabela 5: Vantagens e desvantagens dos tipos de estudos

Estudos Vantagens Desvantagens


Controle sobre as variáveis;
Ensaio Clínico Baixo potencial para vícios de
seleção;
Diminuição do número de ensaios; Problemas de aplicação
ou Estudo de um número considerável de prática. Problemas éticos e
fatores;. no seguimento. custo elevado.
Detecção dos níveis ótimos;
Experimentais Melhoria da precisão dos resultados;
Otimização dos resultados.
Útil em estudos descritivos de
características clínicas e/ou Difícil determinar o que
prevalência de doenças na veio antes: exposição ou
Tranversais
comunidade (saúde pública). Fáceis desfecho.
de conduzir, rápidos e de baixo
custo.

32
Delineamentos amostrais
Revisão dos modelos probabilísicos

Assim como a distribuição normal tem um papel importante na aná-


lise de regressão para dados contínuos, as distribuições discretas são
fundamentais na análise de dados categorizados. Faz-se necessá-
rio, portanto, uma breverevisão destas distribuições de probabilidade
para a melhor compreensão dos esquemas amostrais para dados ca-
tegorizados.

34
Distribuição Binomial

Seja Y o número total de sucessos obtidos, na realização de n ensaios


de Bernoulli independentes. Diremos que Y segue uma distribuição
Binomial com parâmetros n e p e sua função de probabilidade é dado
por
( )
n y
P(Y = y) = p (1 − p)n−y , y = 0, 1, · · · , n,
y

em que, um ensaio de Bernoulli é um experimento onde a v.a. assume


somente os valores 0 e 1, com probabilidade de sucesso igual a p.

35
Distribuição Multinomial

Suponha um experimento multinomial que consiste de n tentativas


independentes, e cada tentativa pode resultar em quaisquer dos k re-
sultados possíveis. Suponha, além disso, que cada resultado possível
possa ocorrer com probabilidades p1 , p2 , · · · , pk . Então a probabili-
dade do primeiro resultado possível acontecer n1 vezes, do segundo
resultado possível acontecer n2 vezes,· · · , e do k-ésimo resultado pos-
sível acontecer nk vezes é

n!
P(y1 = n1 , y2 = n2 , · · · , yk = nk ) = pn1 pn2 · · · pnk k ,
n1 !n2 ! · · · nk ! 1 2
∑k ∑k
com i=1 pi = 1 e i=1 ni = n.

36
As características dos delineamento dos estudos quanto as tabelas
de contigência podem ser resumidas como:

• Estudo caso-controle: O número marginal de indivíduos n+j é fi-


xado;
• Estudo de coorte: O número marginal de indivíduos ni+ é fixado;
• Estudo ensaio clínico aleatori: O número marginal de indivíduos
ni+ é fixado;
• Estudo transversal: o número total de indivíduos n é fixado.

37
As características dos delineamento dos estudos quanto aos modelos
probabilísticos podem ser resumidas como:

• Estudo caso-controle: produto de binomiais


• Estudo de coorte: produto de binomiais
• Ensaio clínico aleatorizado: produto de binomiais
• Estudo transversal: Multinomial

38
Estudo caso-controle: produto de binomiais

Modelo produto de binomiais independentes é dado por:


2
[ 2
]
∏ ∏ (pi(j) )nij
P(N1 = n1 , N2 = n2 ) = (n+j )! ,
(nij )!
j=1 i=1

∑2
em que i=1 pi(j) = 1, j = 1, 2 e pi(j) = P(X = i|Y = j) é a probabilidade
condicional de X = i dado que Y = j. O estimador de máxima verossi-
milhança para pi(j) dado por

p̂i(j) = Nij /n+j

39
Exemplo

Tabela 6: Estudo caso-controle

Câncer de esôfago
Consumo de Álcool Totais
Sim Não
Sim 96 109 205
Não 104 666 770
Totais 200 775 975

Fonte: Tuyns et al. (1977)

As estimativas de máxima verossimilhança para pi(j) = P(X = i|Y = j),


com i, j = 1, 2, são dadas por
96 104
p̂1(1) = = 0.48, p̂2(1) = = 0.52
200 200
109 666
p̂1(2) = = 0.14, p̂2(2) = = 0.86
775 775
40
Representação gráfica

Estudo Caso−controle

Expostos
Não expostos
Controles

0.14 0.86
Grupos

Casos

0.48 0.52

0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4

Proporções amostrais 41
Estudo de coorte: produto de binomiais

Modelo produto de binomiais independentes é dado por:


 
2
∏ 2
∏ (p(i)j )nij
P(N1 = n1 , N2 = n2 ) = (ni+ )! ,
(nij )!
i=1 j=1

∑2
em que j=1 p(i)j = 1, i = 1, 2 e p(i)j = P(Y = j|X = i) é a probabilidade
condicional de Y = j dado que X = i. O estimador de máxima verossi-
milhança para p(i)j dado por

p̂(i)j = Nij /ni+

42
Exemplo

Tabela 7: Estudo de coorte

Desfecho
Exposto Totais
Sim Não
Sim 75 45 120
Não 21 56 77
Totais 96 101 197

Fonte: Giolo, S. R. (2017)

As estimativas de máxima verossimilhança para as p(i)1 = P(Y = 1|X =


i), com i = 1, 2, são dadas por
75 21
p̂(1)1 = = 0.625, p̂(2)1 = = 0.273
120 77
que são as incidências nos expostos e não expostos, respectivamente.
43
Representação gráfica

Doentes Sadios
Sadios Doentes
1.0

1.0
Proporções amostrais

Proporções amostrais
0.375
0.8

0.8
0.727
0.625
0.6

0.6
0.375 0.625 0.727
0.4

0.4
0.273
0.2

0.2 0.273
0.0

0.0

Sim Não Sim Não

Exposição ao fator Exposição ao fator 44


Ensaio clínico aleatorizado: produto de binomiais

Modelo produto de binomiais independentes é dado por:


 
2
∏ 2
∏ (p(i)j )nij
P(N1 = n1 , N2 = n2 ) = (ni+ )! 
(nij )!
i=1 j=1

O estimador de máxima verossimilhança para p(i)j dado por

p̂(i)j = Nij /ni+

45
Exemplo

Tabela 8: Ensaio clínico aleatorizado

Resposta
Medicamento Totais
Favorável Não favorável
Novo 29 16 45
Padrão 14 31 45
Totais 43 47 90

Fonte: Stokes et al. (2000)

As estimativas de máxima verossimilhança para pj|i = P(Y = j|X = i),


com i, j = 1, 2, são dadas por
29 16
p̂(1)1 = = 0.644, p̂(1)2 = = 0.356
45 45
14 31
p̂(2)1 = = 0.311, p̂(2)2 = = 0.689
45 45
46
Representação gráfica

Ensaio clínico aleatorizado

Não favorável
0.689 Favorável
Padrão

0.311
Medicamento

0.356
Novo

0.644

0.0 0.2 0.4 0.6 0.8 1.0

Proporções amostrais 47
Estudo transversal: Multinomial

Modelo produto de binomiais independentes é dado por:


2 ∏
∏ 2
(pij )nij
P(N = n) = n! ,
(nij )!
i=1 j=1

∑2 ∑2
em que nij ≥ 0, i,j=1 nij = n e i,j=1 pij = 1. O estimador de máxima
verossimilhança para pij dado por

p̂ij = Nij /n

48
Exemplo

Tabela 9: Estudo transversal

Sintomas
Sexo Totais
Sim Não
Feminino 355 125 480
Masculino 410 190 600
Totais 765 315 1080

Fonte: Stokes et al. (2000)

As estimativas de máxima verossimilhança para pij = P(X = i, Y = j),


com i, j = 1, 2, são dadas por
355 125 41 19
p̂11 = = 0.33, p̂12 = = 0.12, p̂21 = = 0.38, p̂1|2 = = 0.18
1080 1080 108 108
em que a prevalência entre mulheres é de 355/480=0.74 e de 410/600=0.68
entre os homens.
49
Representação gráfica

1.0

Mulher com sintoma


Mulher sem sintoma
Homem com sintoma
0.8

Homem sem sintoma


Proporções amostrais

Mulher com
Mulher sem sintoma = 33%
0.6

sintoma = 11.6%

0.38
0.4

Homem sem
0.329 sintoma = 17.6%
Homem com
sintoma = 38%

0.176
0.2

0.116
0.0

50
Bibliografia
Bibliografia

• Giolo, S. R. Introdução à Análise de Dados Categóricos com Apli-


cações. São Paulo: Blucher, 2017.
• Ramos, P. C. F. e Spyrides, M. H. C. Análise de Dados Categorizados.
Editora Blucher, 2006.

52

Você também pode gostar