Avaliação de Testes Disgnóstivo Probabilidade

Universidade Federal de Minas Gerais
Instituto de Cincias Exatas

Departamento de Estatstica
Avaliao de Testes Diagnsticos

Edna Afonso Reis
Ilka Afonso Reis
Relatrio Tcnico
RTP-02/2002
Srie Ensino
NDICE
1. Introduo
2. Noes de Probabilidade
2.1.
2.2.
2.3.
2.4.
2.5.
5
7
7
8
8
Conceitos Bsicos
Definio de Probabilidade
Propriedades de Probabilidade
Probabalidade Condicional
Independncia de Eventos
3. Medidas da Qualidade do Teste Diagnstico
3.1. Sensibilidade e Especificidade

3.2. A Influncia do Ponto de Corte
9
11
4. Medidas da Qualidade do Diagnstico Baseado em um Teste
14
4.1.
4.2.
4.3.
4.4.
14
15
15
17
Os Valores de Predio Positiva e Negativa

Estimando os Valores de Predio
O Efeito da Prevalncia nos Valores de Predio
O Efeito da Sensibilidade e da Especificidade nos Valores de Predio
5. Outros Exemplos Interessantes
19
Referncias Bibliogrficas
21
1. Introduo
O diagnstico de uma doena um procedimento delicado por involver a vida de
pacientes , sejam eles seres humanos, animais e at mesmo plantas. Como instrumento auxiliar
no processo de diagnstico, comum o uso de testes construdos a partir de medies feitas nos
pacientes, sejam elas quantitativas ou qualititativas. Esses testes so chamados testes clnicos ou
testes diagnsticos.
Atualmente, esses instrumentos tornaram-se to importantes e difundidos que existem grandes
indstrias e laboratrios inteiramente dedicados produo de testes diagnsticos cada vez mais
precisos, mais rpidos e, s vezes, mais baratos.
Sendo os testes diagnsticos procedimentos humanos, esto sujeitos a erro. Desse modo,
antes que um teste seja adotado como instrumento auxiliar no diagnstico de determinada
doena, necessrio que suas possibilidades de erro sejam avaliadas. As medidas de avaliao
da qualidade de um teste clnico e do diagnstico baseado nele so o assunto deste texto.
Quando falamos em diagnstico, no pensamos apenas em exames ou testes de deteco
de doenas. Podemos imaginar todo tipo de recurso para identificar uma dentre duas situaes,
como o detector de mentira que, baseado em alteraes da voz, dos batimentos cardacos ou
respirao, tem o objetivo de identificar uma mentira ou verdade. Ou ainda um exame antidopping em atletas, onde a doena seria o fato do atleta ter ingerido algum tipo de droga.
Porm, como a grande maioria dos testes clnicos est relacionada ao diagnstico de doenas,
essa abordagem tornou-se a mais comum. Neste texto, usaremos os termos doena , doente
e sadio , sem nos esquecer de que as idias aqui apresentadas podem ser aplicadas a outros
contextos, como mostramos em alguns dos exemplos.
Antes de conhecermos as medidas de qualidade para um teste clnico e para o diagnstico
baseado nele, devemos estudar um pouco de Probabilidade, que nos ajudar a lidar com a
incerteza do diagntico a ser dado ao paciente.
2. Noes de Probabilidade
Probabilidade pode ser definida como a medida da (in)certeza sobre o acontecimento de
um fato ou evento. Em nossa vida diria estamos freqentemente tomando decises baseadas
na probabilidade, mesmo que, muitas vezes, no nos demos conta disso. Por exemplo, se, ao
sairmos de casa pela manh, no estamos certos sobre o fato de o tempo continuar ensolarado,
procuramos nos precaver levando um guarda-chuva. Inconscientemente, atribumos um grau de
incerteza ocorrncia de chuva baseados nas nuvens no cu, umidade no ar, comportamento
dos bichos, etc.
Em algumas situaes, possvel calcular a probabilidade de ocorrncia de um evento.
Vamos comear a estudar os conceitos bsicos de probabilidade nessas situaes.
2.1. Conceitos Bsicos

Vamos definir experimento aleatrio, espao amostral e evento, conceitos importantes na
definio de probabilidade.
Experimento aleatrio aquele no qual os resultados possveis so conhecidos, mas no
sabemos de antemo qual deles ir ocorrer.
So exemplos de experimentos aleatrios:
Experimento aleatrio 1: retirar uma carta de um baralho de 52 cartas e verificar sua cor;
Experimento aleatrio 2: retirar uma carta de um baralho de 52 cartas e verificar o seu naipe;
Experimento aleatrio 3: jogar um dado e observar a face de cima;
Experimento aleatrio 4: sortear um estudante de uma lista e verificar a cor de seus olhos;
Experimento aleatrio 5: sortear uma mulher na cidade e verificar quantos filhos ela tem.
O conjunto de resultados possveis para um experimento chamado de seu espao amostral,
(representado peloa letra E). Vejamos:
Espao amostral do experimento aleatrio 1: E1 = {preta, vermelha};
Edna A. Reis e Ilka A. Reis
Espao amostral do experimento aleatrio 2:

E2 = {copas, paus, ouros, espada};

E3 = {1, 2, 3, 4, 5, 6};
E4 = {preto, castanho, verde, azul};
E5 = {0, 1, 2, 3, 4, 5, 6, 7, 8,....}.
Todo subconjunto do espao amostral de um experimento aleatrio chamado evento.

No experimento aleatrio 1, se definirmos o evento A carta preta , ele ser representado
pelo conjunto A={preta}. O evento A um exemplo de evento simples, pois contm somente um
dos elementos do espao amostral.
No experimento aleatrio 2, podemos definir o evento B como sendo carta vermelha . Assim,
B = {copas,ouros}. Para o Experimento Aleatrio 5, o evento F mulher com nmero de filhos
inferior a trs representado pelo conjunto F = {0,1,2}.
No experimento aleatrio 3, o evento D face de cima igual a 7 um exemplo de evento
vazio, pois o dado no tem a face 7. O evento D representado pelo conjunto vazio D = { } ou D =
.
Existe ainda um outro tipo de evento chamado evento complementar. O complementar de um
evento formado pelos elementos do espao amostral que no fazem parte do evento. Por
exemplo, considerando o evento B = {copas,ouros}, definido no espao amostral do Experimento
Aleatrio 2, o complementar de B formado por B = {paus, espada} . Juntos, os eventos B e B
formam o espao amostral E2. Da o nome evento complementar.
Novos eventos sao obtidos pela combino de outros, atevs da unio ou interseo :
Unio de Eventos (A
B): o evento A unio B formado pelos elementos que esto em A ou
em B.
Interseo de Eventos (A
B): o evento A interseo B formado pelos elementos que
esto
em A e em B ao mesmo tempo.
Exemplo 2.1: Sejam os eventos A sair um nmero par na jogada de um dado , A = { 2, 4, 6}
e B sair um nmero menor do que 4 na jogada de um dado , B = {1, 2, 3} .
O evento unio formado por (A B) = {1, 2, 3, 4, 6} e o evento interseo formado
por (A B) = { 2 }.
O Diagrama de Venn uma representao grfica til para a visualizao das combinaes
de eventos. No diagramas abaixo os eventos resultantes da unio e da interseo dos eventos A e
B so representados pela rea hachurada.
Evento (A B):
Evento (A B):
Dois eventos so mutuamente exclusivos quando no possuem interseo. Este nome vem
do fato de que, se os eventos A e B no possuem elementos em comum, a ocorrncia de um
deles automaticamente exclui a ocorrncia do outro e vice-versa. Por exemplo, considere o
experimento aleatrio sortear cinco letras do alfabeto e formar uma palavra , cujo o espao
amostral formado pelas 26 letras do alfabeto. Seja o evento A as cinco primeiras letras do
alfabeto , A = { a,b,c,d,e}, e o evento B a palavra formada POMBO . Se o experimento
realizado e o evento A ocorre, a ocorrncia do evento B j est automaticamente excluda. Caso
o evento B ocorra, o evento A estar automaticamente excludo. Um evento e seu complementar
so sempre mutuamente exclusivos.
2.2. Definio de Probabilidade

Quando os elementos do espao amostral tm a mesma probabilidade de ocorrerem, a
definio clssica da probabilidade de um evento A ocorrer dada por

P(A) =
nmero de elementos do evento A

total de elementos do espao amostral
Exemplo 2.2: seja o experimento aleatrio jogar um dado e observar a face de cima . Se o dado
for honesto, todas as seis faces tm a mesma probabilidade de sarem para cima. Assim, a
probabilidade do evento F o nmero par , F = {2,4,6}, dada por P(F)=3/6=0,5.
No entanto, a definio clssica no pode ser aplicada a situaes onde os elementos do
espao amostral no possuam a mesma probabilidade de ocorrer, o que o caso da maioria das
situaes prticas. Nesses casos, usaremos a definio frequentista de probabilidade, que fornece
uma estimativa da probabilidade do evento de interesse atravs de sua frequncia em um
grande nmero de realizaes independentes do experimento.
Exemplo 2.3: suponha que desejssemos conhecer a probabilidade de uma pessoa estar
infectada com a bactria H. pylori . O experimento aleatrio consiste em selecionar uma pessoa
do grupo de interesse e verificar um dos resultados possveis: est infectada ou no est
infectada. Estes dois eventos do espao amostral no tm a mesma probabilidade de ocorrncia,
o que impossibilita o uso da definio clssica de probabilidade. Atravs do exame de uma
grande amostra de pessoas, usaremos a definio frequentista e estimaremos a probabilidade de
uma pessoa estar infectada com a H. pylori usando a frequncia relativa de pessoas infectadas
nessa amostra.
2.3. Propriedades da Probabilidade

Seja um experimento aleatrio cujo o espao amostral dado pelo conjunto E. O evento A
um evento definido dentro do espao amostral E. Para que um nmero possa ser considerado
uma probabilidade, ele deve atender s seguintes propriedades.
1. 0 P(A) 1
2. P(E) = 1
3. P( A ) = 1 P(A)
A propriedade 1 diz que no existe probabilidade que seja negativa e nem maior do que 1.
Ou seja, um evento pode ser impossvel (probabilidade igual a zero), ou ocorrer com uma certa
probabilidade ou acontecer com certeza (probabilidade igual a 1).
A propriedade 2 diz que a probabilidade de ocorra algum evento do espao amostral 1, ou
seja, o resultado do experimento aleatrio tem que ser um ou mais elementos do espao amostral.
A propriedade 3 muito til, pois freqentemente no sabemos como calcular a
probabilidade do evento A diretamente, mas sabemos como calcular a probabilidade do seu
complementar. Pela propriedade 3, podemos calcular a probabilidade de A indiretamente.
A probabilidade da unio de dois eventos calculada pela seguinte equao:
1
P(A B) = P(A) + P(B) P(A B).

Quando os eventos A e B forem mutuamente exclusivos, P(A B) = P(A) + P(B), pois P(A B)= 0.
1 A expresso para o clculo da probabilidade da unio de trs eventos facilmente entendida com a ajuda do
diagrama de Venn: P(A B C) = P(A) + P(B) + P(C) - P(A B) - P(A C) - P(B C) + 2 P(A B C).
Exemplo 2.4: Considere o experimento aleatrio jogar um dado e observar a face de cima .
Sejam dois eventos: A o nmero maior do que 3 , A = {4,5,6}; e B o nmero par , B = {2,4,6}.
O evento (AB)={4,6}. Assim, P(A) = 3/6, P(B) = 3/6 e P(A B) = 2/6.
Pela definio acima, P(A B) = 3/6 + 3/6 2/6 = 4/6.
Se usarmos o fato de que (A B)= {2,4,5,6} e a primeira definio de probabilidade, chegaremos
ao mesmo resultado, pois
nmero de elementos do evento (A B) 4
=
P ( A B) =
total de elementos do espao amostral
6
2.4. Probabilidade Condicional

A probabilidade de um evento A ocorrer dado que o evento B ocorreu dada por:
P( A | B) =
P( A B)
P( B)
, se P(B )> 0.
(1)
Exemplo 2.5: Considere o experimento aleatrio jogar um dado e observar a face de cima .
Sejam dois eventos: F o nmero par , F = {2,4,6}; e B o nmero 2 , B={2}. Depois que o
experimento realizado, algum informa que o evento F ocorreu, ou seja, a face par. Dado que
o evento F ocorreu, qual a probabilidade de o evento B ocorrer? Ou seja, dado que o nmero
par, qual a probabilidade de ser o nmero 2?
Usando definio (1), temos que
P( B | F ) =
16 1
P ( F B)
P({2})
=
=
=
P( F )
P({2,4,6}) 3 6 3
Outra maneira de obter esse resultado enxergar a informao da ocorrncia do evento F como
uma reduo no espao amostral inicial, E={1,2,3,4,5,6}. Se sabemos que o nmero par, o novo
espao amostral para a ocorrncia do evento B E={2,4,6}. Desse modo, podemos usar a
definio clssica diretamente: o nmero de elementos favorveis a B 1 dentre os trs resultados
possveis do espao amostral reduzido E, sendo P(B|F) = 1/3.
2.5. Independncia de Eventos

Quando o conhecimento sobre a ocorrncia de um evento no altera a probabilidade de
ocorrncia de outro evento, esses eventos so ditos independentes. Ou seja, se a ocorrncia de B
no altera a probabilidade de ocorrncia de A, os eventos A e B so independentes.
Dizemos que o evento A independente do evento B se P ( A | B ) = P ( A) .
Assim, pela definio (1), se os eventos A e B so independentes P(A B) = P(A) x P(B).
Exemplo 2.6: os eventos B e F do Exemplo 2.5 so exemplos de eventos dependentes, pois o
conhecimento sobre a ocorrncia do evento F aumentou a probabilidade do evento B, que antes
era de 1/6. Ou seja P(B|F) P(B). Se B dependente de F, tambm dependente do
complementar de F ( F ), os nmeros mpares. Sabendo que o nmero mpar, a probabilidade de
ser o nmero 2 zero.
Exemplo 2.7: seja o seguinte experimento aleatrio observar o nascimento dos dois primeiros f ilhos
de um casal e verificar o sexo das crianas . O espao amostral E={ (F1 M2) , (F1 F2) ,
(M1 F2), (M1 M2) }, onde F1 denota menina no primeiro nascimento e M2 denota menino no
segundo nascimento e assim por diante. At onde se sabe, cada uma das quatro combinaes
que compem o espao amostral tem a mesma probabilidade de ocorrer, ou seja, . Mas, ser
que a ocorrncia de um menino no segundo nascimento (M2) independente da ocorrncia de
uma menina no primeiro nascimento (F1)?
Vejamos: O evento F1 menina no primeiro nascimento a unio de dois dos eventos do

espao amostral, F1={(F1 M2) (F1 F2)} . Como no existe interseo entre esse dois eventos,
P(F1) dada pela soma da probabilidade dos dois eventos, isto , 2/4. Usando o mesmo
raciocnio, chegaremos concluso de que P(M2) tambm igual a 2/4. A probabilidade da
interseo de F1 e M2 P(F1 M2) = . Assim, verificamos que P(F1) x P(M2) = (2/4) x (2/4) = =
P(F1 M2), ento os eventos F1 e M2 so independentes.
3. Medidas da Qualidade do Teste Diagnstico

Quando um teste diagnstico proposto para uma doena, ele deve passar por uma
avaliao da sua qualidade de diagnosticar a doena ou a ausncia dela.
A Figura 1 ilustra o que pode ocorrer quando o teste a ser avaliado aplicado a amostras de
duas populaes, uma de pessoas sabidamente doentes e outra de no doentes. O resultado
positivo no teste significa um diagnstico de presena da doena e o resultado negativo significa
um diagnstico de ausncia da doena.
Figura 1:
O indivduo
doente
O indivduo
no doente
ou
resultado
resultado
positivo ou negativo
no teste
no teste
resultado
resultado
positivo ou negativo
no teste
no teste
acerto
do teste
erro
do teste
erro
do teste
acerto
do teste
A definio da doena feita por outro teste ou critrio, chamado padro ouro. O padro
ouro tem baxissima possibilidade de erro, mas, em geral, um teste caro, difcil de ser feito ou
causador de desconforto para o paciente.
3.1. A Sensibilidade e a Especificidade de um Teste

As duas situaes de acerto do teste diagnstico mostradas na Figura 1 esto associadas s
probabilidades chamadas de sensibilidade e especificidade do teste. Vamos adotar a seguinte
notao para os eventos:
D: o indivduo doente,
D : o indivduo no doente,
+: o indivduo do teste positivo,
- : o indivduo do teste negativo.
10
Sensibilidade (s):
a probabilidade do teste ter resultado positivo dado que o indivduo est

doente. Assim, na notao de probabilidade, temos
s = P(+ | D) =
P(+ D)
P( D)
(2)
que, na prtica, estimada pela proporo de resultados positivos do teste

dentre os indivduos sabidamente doentes.
Especificidade(e):
a probabilidade do teste teve resultado negativo dado que o indivduo no

est doente. Assim na notao de probabilidade, temos
e = P( | D ) =
P ( D )
P( D )
(3)
que, na prtica, estimada pela proporo de resultados negativos do teste

dentre os indivduos sabidamente no doentes.
Assim, um teste muito sensvel til para detectar a presena da doena em indivduos
doentes: se o indivduo est doente, ele vai indicar isto com alta probabilidade. Por outro lado, um
teste muito especfico um teste til para excluir a presena da doena em indivduos sadios: se o
indivduo no est doente, ele vai indicar isto com alta probabilidade.
Exemplo 1: O teste de Papanicolaou permite o diagnstico precoce do cncer de colo de
tero. Para avaliar a acurcia diagnstica deste teste, realizou-se um estudo com 373 pacientes
atendidas no Hospital das Clnicas de Botucatu (Pinho e Matos, 2002). O teste padro-ouro
utilizado em cada paciente para classific-la em portadora ou no do cncer de colo de tero
foi o exame histopatolgico de uma amostra de tecido atravs de bipsia cervical. Os resultados
so apresentados na Tabela 1.
Tabela 1: Resultados do teste Papanicolaou na deteco de cncer de colo de tero.
Resultado do teste
Cncer de colo de tero
Total
Papanicolaou
Doente
No Doente
Positivo
265
47
312
Negativo
11
50
61
Total
276
97
373
Baseados nesta amostra de 276 pacientes portadoras do cncer de colo tero, podemos
estimar a sensibilidade do teste Papanicolaou:
s = P(+ | D) =
no. de pacientes doentes com resultado positivo 265

=
= 0,96 ou 96%.
no. de pacientes doentes
276
Do mesmo modo, atravs da amostra de 97 pacientes no portadoras do cncer de colo

tero, podemos estimar a especificidade do teste Papanicolaou:
e = P( | D ) =
no. de pacientes no doentes com resultado negativo 50

=
= 0,515 ou 51,5%.
no. de pacientes no doentes
97
Este teste tem alta sensibilidade mas especificidade muito baixa.
Muitas vezes, quando divulga-se a capacidade de acerto de um teste, dado apenas o total
de acertos dividido pelo total de indivduos testados, sem separar os indivduos sadios dos doentes.
No exemplo anterior, esta porcentagem de 84,5% ([265+50]/373).
Entretanto, esta capacidade de acerto global do teste, sem distino entre acertos dentre os
doentes (sensibilidade) e os acertos entre no doentes (especificidade), pode ser pouco
informativa ou mesmo enganosa. Por exemplo, se um teste deu resultado positivo em 45 dos 50
indivduos doentes, e resultado negativo em 15 dos 25 pacientes no doentes, a tal capacidade
de acerto global do teste de (45+15)/(50+25)= 0,80 (80%), que pode ser considerada alta. Mas
note que, embora a capacidade de acerto do teste seja mesmo bastante alta entre os doentes (s
= 0,90), no alta entre os no doentes (e = 0,60). Informar apenas esta porcentagem global de
acertos poderia levar falsa concluso de que o teste tem 80% de chance de acertar em
qualquer caso (dado que o indivduo doente ou dado que o indivduo sadio), o que no
verdade.
3.2. A Influncia do Ponto de Corte

Considere um exemplo genrico, onde a presena de uma doena detectada por um
teste atravs da ocorrncia de valores altos de uma certa varivel contnua medida nos
pacientes, como, por exemplo, a medio de glicose no sangue para diagnosticar diabetes. A
definio dos resultados positivo e negativo do teste feita a partir da escolha de um ponto de corte
na escala valores da varivel: valores da medio acima do ponto de corte definem um
resultado positivo e, abaixo, um resultado negativo no teste.
A Figura 2 mostra, para esta situao, a distribuio dos valores da varivel entre os indivduos
sadios e entre os indivduos doentes de uma populao, considerando trs pontos de corte.
Nesta figura, a sensibilidade do teste a rea na curva dos doentes que est acima do ponto
de corte; a especificidade a rea na curva dos no doentes que est abaixo do ponto de
corte.
medida que o ponto de corte aumenta, ou seja, passando da Figura 2(a) para a Figura
3(c), a sensibilidade diminui, pois estamos sendo mais rigorosos na definio de um doente ao
exigir valores mais altos da varivel para consider-lo positivo ; ao mesmo tempo, a
especificidade aumenta.
Este exemplo mostra que, em relao definio do ponto de corte, aumentar a
sensibilidade de um teste implica necessariamente em reduzir sua especificidade, e vice-versa.
Nos testes baseados na medio de variveis quantitativas, a escolha do ponto de corte pode ser
a ferramenta para tornar o teste mais sensvel ou mais especfico, conforme o objetivo do seu uso.
Na seo 4.4, veremos como esta escolha influenciar na qualidade do diagnstico baseado no
teste.
Exemplo 2: Acredita-se que um valor alto para a razo da medida da cintura pela medida do
quadril (RCQ) seja indicativo de hipertenso arterial. Pereira at alli (1999) fizeram um estudo com
homens e mulheres de diversas faixas etrias. Foram consideradas hipertensas as pessoas com
presso sistlica igual ou maior que 140 mmHg ou presso diastlica maior ou igual que 50 mmHg.
Vrios pontos de corte do valor de RCQ foram considerados para definir o resultado positivo
no teste (valor de RCQ acima do ponto de corte). O Quadro 1 reproduz os resultados mostrados
no artigo para mulheres de 40 a 50 anos de idade, das quais 59 foram consideradas hipertensas e
326 no hipertensas.
12
Figura 2: A influncia do ponto de corte de definio do resultado

do teste na sensibilidade e na especificidade
(a)
(b)
(c)
Quadro 1: Reproduo de parte da Tabela 2 do artigo original de Pereira at alli (1999),

referente aos resultados para mulheres de 40 a 50 anos de idade.
Teste RCQ Hipertensa e Hipertensa e No hipertensa No hipertensa
SensibiEspecifi + se
Teste RCQ + Teste RCQ - e Teste RCQ +
e Teste RCQ - -lidade (%) -cidade (%)
> 0,75
59
0
325
1
100
0,3
> 0,80
58
1
311
15
98,3
4,6
> 0,85
54
5
262
64
91,5
19,6
> 0,90
38
21
183
143
64,4
43,9
> 0,95
28
31
95
231
47,5
70,9
> 1,00
13
46
42
284
22
87,1
> 1,05
5
54
18
308
8,5
94,5
> 1,10
5
54
10
316
8,5
96,9
> 1,15
0
59
7
319
0
97,9
Os valores de sensibilidade e especificidade do Quadro 1 podem ser facilmente reproduzidos
pelo leitor. Por exemplo, para ponto de corte RCQ > 0,85, temos:
s = P(+ | D) =
no. de hipertensas com resultado positivo

54
=
= 0,915
no. de hipertensas
54 + 5
e = P( | D ) =
no. de no hipertensas com resultado negativo

64
=
= 0,196 .
no. de hipertensas
262 + 64
A Figura 3 mostra as curvas de sensibilidade e especificidade em funo dos diversos pontos

de corte para o teste do RCQ. Verifica-se que, quanto maior o ponto de corte do RCQ, menor a
sensibilidade do teste. Isto ocorre porque se aumentamos o ponto de corte do RCQ, menos
pessoas hipertensas sero consideradas positivas pelo teste, reduzindo a sensibilidade. Por outro
lado, mais pessoas no hipertensas sero consideradas negativas pelo teste, aumentando sua
especificidade, como podemos notar na Figura 3.
Figura 3: Reproduo de parte da Figura 2 do artigo original de Pereira at alli (1999),

referente aos resultados para mulheres de 40 a 50 anos de idade.
14
4. Medidas da Qualidade do Diagnstico Baseado em um Teste

Um vez que um teste clnico adotado, devemos avaliar a qualidade do diagnstico
baseado nele. O usurio do teste no sabe se o indivduo est doente ou no; a nica
informao que ele tem o resultado do teste, positivo ou negativo. A Figura 4 ilustra o que pode
ocorrer quando o teste a ser avaliado aplicado a um indivduo.
Figura 4:
O resultado no
teste positivo
O indivduo
doente
ou
O resultado no
teste negativo
ou
O indivduo
no doente
O indivduo ou O indivduo
doente
no doente
acerto do
diagnstico
erro do
diagnstico
erro do
diagnstico
acerto do
diagnstico
4.1. Os Valores de Predio Positiva e Negativa

s duas situaes de acerto do diagnstico baseado no teste mostradas na Figura 4 esto
associadas probabilidades chamadas de valor de predio positiva e valor de predio negativa do
diagnstico. Vejamos suas definies a seguir.
Valor de Predio Positiva (VPP):
a probabilidade do indivduo estar doente dado que o seu

teste teve resultado positivo. Assim:
VPP = P( D | + ) =
Valor de Predio Negativa (VPN):
P( D +)
P(+)
(4)
a probabilidade do indivduo no estar doente dado que

o seu teste teve resultado negativo. Assim:
VPN = P( D | ) =
P ( D )
P ( )
(5)
Desse modo, o VPP e o VPN so, respectivamente, a probabilidade de acerto do diagnstico

positivo e a probabilidade de acerto do diagnstico negativo do teste. As probabilidades dos
eventos complementares deste acertos so chamadas Proporo de Falsos Positivos e Proporo
de Falsos Negativos, definidas a seguir.
Proporo de Falsos Positivos (PFP):
a probabilidade do paciente no estar doente dado

que o teste teve resultado positivo. Assim:
PFP = P( D | + ) =
Proporo de Falsos Negativos (PFN):
P ( D +)
P (+ )
ou seja,
PFP = 1 VPP
a probabilidade do paciente estar doente dado que o

teste teve resultado negativo. Assim:
VPN = P( D | ) =
P ( D )
ou seja,
P ( )
PFN = 1 VPN
4.2. Estimando os Valores de Predio

A proporo de indivduos portadores da doena na populao chamada de prevalncia
da doena na populao, denotada por p. A prevalncia p tambm pode ser interpretada
como a probabilidade de um indviduo, selecionado aleatoriamente desta populao, ser
doente, ou seja P(D) = p. Desse modo, a probabilidade do indivduo no ser doente dada por
P( D )= 1 - p.
O VPP e o VPN do diagnstico baseado no teste depende: da sensibilidade e da
especificidade do teste, e da prevalncia da doena na populao. Deste modo, conhecendo s,
2
e e p, podemos calcular o VPP e o VPN atravs das seguintes equaes :

(6)

+

e

=

+
(7)
Exemplo 1 (continuao): Vamos voltar ao teste Papanicolaou para diagnstico do cncer de

colo de tero apresentado anteriormente. Considerando uma populao com uma prevalncia
de cncer de tero de 5% (p=0,05), os valores de predio positiva e negativa seriam calculados
da seguinte forma:
24353
-. /0 -. -!1
= -.
%'&)(
!#" = 0,094
/ 0 *+ *!, &)(
+ 0,515 $
C:D E!F)E#GF B :
C D C4E#H
= C:D E!F)E#GF B >:? >4@#A < =
687:9 74; = 0,996
IJ5K
+ 0,96
Assim, se aplicado a uma populao com uma prevalncia de cncer de tero de 5%, uma
paciente com resultado negativo no teste Papanicolaou tem uma probabilidade muito alta
(99,6%) de no ser portadora do cncer de colo de tero. No entanto, uma paciente com
resultado positivo tem uma probabilidade muito pequena de ser realmente portadora da doena
(9,4%). Desse modo, o resultado positivo do teste Papanicolaou pouco conclusivo, mas o
resultado negativo muito confivel.
Vamos considerar o VPP e o VPN do teste Papanicolaou aplicado a uma populao com
prevalncia maior de cncer do colo do tero, digamos, p = 0,20:
V4W5W
= LM TU
LM NOL
LM TU LM NOL
R)S
P'R)S
L M NOL!P = 0,664
+ 0,515 Q
ab5c
Y:Z `!^)`#]^ _ :
Y Z [\Y4X
Y:Z `!^)`#]^ _ Y:Z [\Y4X ] ^
X8Y:Z [\Y = 0,981.
+
0,96
Note que h um aumento significativo no VPP e uma queda pequena no VPN. Na prxima
seo discutiremos o efeito da prevalncia, da sensibilidade e da especificidade nos valores de
predio positiva e negativa.
4.3. O Efeito da Prevalncia nos Valores de Predio

Atravs das equaes
(6) e (7), reproduzidas abaixo, podemos ver que, para um
determinado teste (ou seja, para valores fixos de sensibilidade e especificidade), quando maior a
prevalncia da doena maior ser o VPP e menor ser o VPN:
VPP =
sp
sp + (1 e)(1 p)
VPN =
e(1- p)
e(1- p) + (1 s)p
Voc pode derivar estas equaes a partir das definies (4) e (5), escrevendo-as em funo das definies (2) e (3).
16
Para visualizar este efeito da prevalncia nos valores de predio, observe a Figura 5. Neste
grfico, para avaliar apenas o efeito da prevalncia no VPP e no VPN fixamos os valor da
sensibilidade em 0,8 e da especificidade em 0,7:
VPP =
0,8p
0,8p + 0,3(1 p)
VPN =
0,7(1- p)
0,7(1- p) + 0,2p
Agora, nas equaes acima, VPP e VPN dependem apenas da prevalncia: para cada valor
de p termos um valor diferente de VPP e VPN. Por exemplo, fazendo p = 0,4, temos:
VPP =
0,8(0,4)
0,8(0,4)+ 0,3(1 0,4)
= 0,64
VPN =
0,7(1- 0,4)
0,7(1- 0,4) + 0,2(0,4)
= 0,84 .
Na Figura 4, mostramos os valores de VPP e VPN fazendo a prevalncia variar entre 0 e podese ver claramente que quanto maior a prevalncia da doena, maior ser o VPP e menor ser o
VPN do disgnstico.
Figura 5: Efeito da Prevalncia no VPP e no VPN.
s = 0,8 e e = 0,7
VPP
1,00
VPP e VPN
0,80
0,60
0,40
0,20
VPN
0,00
0
0,2
0,4
0,6
0,8
Prevalncia
Exemplo 3: Atualmente, a presena do HIV-AIDS detectada rotineiramente pelo teste ELISA

que tem sensibilidade de 95,0% e especificidade de 99,8% (Laboratrio ABBOTT). Em novembro de
2002, o Laboratrio OraSure lanou o teste OraQuick (o resultado fica pronto em 20 minutos)
com sensibilidade de 99,6% e especificidade de 100,0%.
A Tabela 2 mostra os valores de predio positiva e negativa do diagnstico do HIV-AIDS
baseado nestes testes para crescentes nveis de prevalncia da infeco.
Como podemos notar, especialmente para o teste ELISA, medida que a prevalncia cresce,
ocorre aumento no VPP e diminuio do VPN. Isso significa que o diagnstico baseado no teste
ELISA tem uma grande proporo de falsos positivos em populaes com baixa proporo de
infectados pelo HIV-AIDS, de modo que um resultado positivo deve ser investigada com
repeties do teste ou com outro teste. Por outro lado, o resultado negativo tem um valor de
predio muito alto mesmo em grupos de altssima prevalncia. Esta uma caracterstica dos
testes de triagem, onde os resultados negativos devem ser altamente confiveis, enquanto os
casos positivos so triados para novos testes.
No caso do teste OraQuick, possvel observar somente um pequeno decrscimo no VPN
para grupos de altssimo risco. O VPP ser sempre o valor mximo de 100% devido ao fato de que
o teste identifica todas as pessoas no infectadas (especificidade igual a 100%). Esta influncia da
sensibilidade e da especificidade nos valores de predio assunto da prxima seo.
Tabela 2: Valores de Predio Positiva e Negativa no diagnostico
do HIV-AIDS do teste Elisa e do teste OraQuick.
ELISA (ABBOTT)
OraQuick
Prevalncia
VPP (%)
VPN (%)
VPP (%)
VPN (%)
1 em 1 milho
0,05
100
100
100
1 em 500 mil
0,09
100
100
100
1 em 100 mil
0,47
100
100
100
1 em 50 mil
0,94
100
100
100
1 em 10 mil
4,54
100
100
100
1 em 5 mil
8,68
100
100
100
1 em mil
32,23
99,99
100
100
1 em 500
48,77
99,99
100
100
1 em 100
82,75
99,95
100
100
1 em 50
90,65
99,90
100
99,99
1 em 10
98,14
99,45
100
99,96
4.4. Estudando o Efeito da Sensibilidade e da Especificidade nos Valores de Predio

Atravs das equaes (6) e (7), reproduzidas abaixo, podemos ver que, para prevalncia
fixa, quanto maior o valor da sensibilidade e/ou da especificidade, maior ser o VPP e o VPN:

"! #

= .

+
Entretanto, vamos ver que o VPP mais afetado pela especificidade do que pela sensibilidade e
que o VPN, ao contrrio, mais afetado pela sensibilidade.
A Figura 6(a) mostra o efeito da especificidade no VPP, para prevalncia fixa em 5% e trs
valores fixos de sensibilidade, correspondentes a cada uma das curvas. Note que, em cada curva
(sensibilidade fixa), quando a especificidade sobe de 0,75 para 0,95, o VPP aumentado em 0,30,
enquanto que, para um valor fixo de especificidade, passando de uma curva para outra
(aumento a sensibilidade de 0,75 para 0,95), ao VPP acrescido de apenas 0,08,
aproximadamente. O grfico mostra que o mesmo aumento na especificidade ou na
sensibilidade produz efeitos diferentes no VPP. Assim, se desejamos aumentar o valor de predio
positiva de um diagnstico (reduzir a probabilidade de falsos positivos), devemos investir no
aumento da especificidade do teste.
O efeito inverso mostrado na Figura 6(b): o mesmo aumento na sensibilidade ou na
especificidade produz efeitos diferentes no VPN, efeito este muito maior no caso de aumento na
sensibilidade. Desse modo, se desejamos aumentar o valor de predio negativa de um
diagnstico (reduzir a probabilidade de falsos negativos), devemos investir no aumento da
sensibilidade do teste.
Juntamente com a anlise grfica feita anteriormente, podemos ver como a especificidade
tem mais efeito no VPP do que no VPN considerando um caso extremo de um teste com
especicifidade em seu valor mximo. Se e=P(-|ND)=1, o resultado do teste negativo para todos
os no-doentes. Como no existem no-doentes com teste positivo, todos os positivos so de
doentes: P(D|+) = 1 = VPP, ou seja, conseguimos fazer o VPP atingir seu valor mximo. Entretanto,
no conseguimos este efeito no VPN=P(ND|-), pois, mesmo que a especificidade seja mxima,
nem todos os negativos seriam de no-doentes.
O mesmo raciocnio pode ser usado para ver que a sensibilidade influencia mais o VPN que
no VPP. Se s = P(+|D) = 1, o teste d positivo para todos os doentes; ento no h doentes com
teste negativo, ou seja, todos os negativos so de no-doentes: P(ND|-) = 1= VPN. Mas no
conseguimos que VPP = P(D|+) seja igual a 1, pois nem todos os positivos seriam de doentes.
18
Figura 6(a): Efeito da especificidade no Valor de Predio Positiva

0,52
s = 0,95
s = 0,85
s = 0,75
0,48
0,44
0,40
0,36
VPP 0,32
0,28
0,24
0,20
0,16
0,12
0,75
0,8
0,85
0,9
0,95
Especificidade
p = 0,05
Figura 6(b): Efeito da sensibilidade no Valor de Predio Negativa

e = 0,95
e = 0,85
e = 0,75
0,50
0,45
0,40
0,35
VPN
0,30
0,25
0,20
0,15
0,10
0,75
p = 0,95
0,8
0,85
0,9
0,95
Sensibilidade
Exemplo 4: O Mini Exame do Estado Mental (MEEM) um teste usado para diagnosticar
demncia. O MEEM composto por diversas questes com o objetivo de avaliar funes
cognitivas especficas do paciente. Seu escore um nmero inteiro, podendo variar de 0 a 30
pontos: quanto menor o escore, maior o indcio de demncia. A escala simples de usar e pode
ser facilmente administrada em 5 a 10 minutos, inclusive por profissionais no mdicos.
Com o objetivo de investigar o melhor ponto de corte na escala do MEEM para classificar o
paciente como portador ou no de demncia, Almeida (1998) realizou um estudo com 211
pacientes idosos, dos quais 70 receberam diagnstico de demncia de acordo com as diretrizes
3
da CID-10 (o teste padro-ouro neste caso) .
Classificao Internacional de Doenas, que um catlogo com a classificao de doenas, usado como referncia em
todo o mundo.
Os 30 possveis valores do MEEM foram avaliados quanto sua sensibilidade e especificidade

para o diagnstico de demncia, gerando a Figura 7.
Figura 7: Reproduo da Figura 1 do artigo original Almeida (1998)
O ponto de corte tradicional ( positivo se menor ou igual a 23 pontos, o MEEM-23) revelou

sensibilidade de 84,3% e especificidade de 60,3%. Segundo o artigo, a prevalncia de demncia
entre idosos de 60 a 80 anos de 5% Assim, aplicando o MEEM-23 a um paciente com idade entre
60 e 80 anos, o VPP ser de 10% e o VPN de 98,6%. Portanto, o MEEM-23 com ponto de corte no
escore 23 til para descartar a demncia, ou seja, satisfatrio como um teste de triagem (que
o seu objetivo, j que mais rpido e mais simples que a classificao baseada na CID-10).
Entre idosos com mais de 80 anos, a prevalncia de demncia de 20%. Desse modo,
aplicando o MEEM-23 a um paciente nesta faixa etria, o VPP sobe para 34,7% e o VPN sofre uma
queda pequena, indo para 93,9%. Nesta situao, o MEEM-23 continua sendo um teste til apenas
para triagem. Entretanto, se um VPN de 93,9% no for considerado suficientemente alto, este valor
pode ser aumentado se a sensibilidade do MEEM for aumentada, o que pode ser conseguido
abaixando-se o ponto de corte.
5. Outros Exemplos Interessantes

Exemplo 5: A associao entre a presena da bactria Helicobacter pylori (HP) no trato
estomacal e a existncia de lcera pptica foi estabelecida na dcada de 80 e, desde ento, a
questo de como detectar a HP em exames de rotina ganhou grande importncia. O
procedimento ideal para deteco da HP realizar uma endoscopia digestiva, que um exame
caro e causador de muito desconforto para o paciente.
Outro procedimento, chamado UBT (Urea Breath Test), tambm pode ser utilizado para
detectar a HP. Para se submeter ao UBT, o paciente ingere uma soluo com um istopo de
carbono marcado. Se o paciente possui a HP em seu trato estomacal, espera-se que o istopo de
carbono seja quebrado em amnia e CO2 marcado, que absorvido no sangue e expelido na
respirao. Amostras de CO2 expelido so coletadas e analisadas para a presena do istopo.
14
13
Dois istopos de carbono podem ser usados: C, um istopo radioativo, e C, no radioativo.
Gomes e colegas (2002) realizaram um estudo para avaliar a qualidade do UBT feito com o
14
14
C, que denominaram C-UBT. O estudo envolveu 137 pacientes do Hospital das Clnicas da
Faculdade de Medicina de Ribeiro Preto (USP), dos quais 115 eram portadores da HP. O teste
padro-ouro utilizado foi a endoscopia digestiva.
14
O resultado do C-UBT foi medido pela radioatividade do ar expelido pelo paciente e
expresso em contagens por minuto (cpm). Foram feitas duas coletas de ar: uma 15 minutos depois
20
14
da ingesto da soluo com o C e outra 30 minutos depois da ingesto. Trs pontos de corte
para a medio da radioatividade foram estudados: 1000 cpm, 1500 cpm e 2000 cpm. O
resultado considerado positivo se o valor da medio maior do que o ponto de corte utilizado.
O Quadro 2 reproduz parte dos resultados apresentados no artigo original.
Quadro 2: Reproduo de parte da Tabela 2 do artigo original de Gomes e colegas (2002)

Tempo aps
1000 cpm
1500 cpm
2000 cpm
a ingesto Sensibilidade Especificidade Sensibilidade Especificidade Sensibilidade Especificidade
15 minutos
99%
95%
97%
95%
94%
100%
30 minutos
99%
95%
96%
100%
90%
100%
Podemos notar que, em ambos os tempos de coleta, a sensibilidade do teste cai com o
aumento do ponto de corte, ocorrendo o inverso com a especificidade. Como j sabemos, isto
ocorre porque, com o aumento do ponto de corte, diminui o nmero de pacientes com resultado
positivos para o teste e aumenta o nmero de negativos, causando a queda da sensibilidade e o
aumento da especificidade.
Exemplo 6: Estudos epidemiolgicos trazendo informaes ocupacionais obtidas em entrevistas
com familiares de trabalhadores so muito freqentes. Entretanto, h poucos trabalhos avaliando
a qualidade destas informaes.
Cordeiro (2000) realizou um estudo no qual 2460 pessoas foram questionadas sob sua histria
ocupacional, e a mesma informao sobre esta pessoa foi pedida a seus familliares. Nesta
situao, o teste a informao dada pelo familiar. A informao fornecida pela prpria
pessoa o padro-ouro.
O Quadro 3 reproduz a Tabela 2 do artigo original, que mostra os valores de sensibilidade e
especificidade da informao fornecida pelo familiar para vrios subgrupos ocupacionais.
Quadro 3: Reproduo da Tabela 2 do artigo de Cordeiro (2000)
Um resultado interessante que o mais alto valor de sensibilidade da informao do familiar

ocorre quando a pessoa se classifica como sem ocupao . Isso significa que, dado que a
pessoa notem ocupao, o familiar consegue identificar esta situao com maior facilidade. Por
outro lado, a menor sensibilidade ocorre quando a pessoa se classifica como trabalhador
braal , talvez pelo fato desta categoria englobar outras, como lavrador, construo civil, etc.
Referncias Bibliogrficas
Almeida, O.P. (1998) Mini Exame do Estado Mental e Diagnstico de Demncia no Brasil. Arquivos
de Neuropsiquiatria, v. 56, n. 3-B, p. 605-612.
Cordeiro, R. (2000) Validade de Histrias Ocupacionais de Informantes Secundrios. Revista de

Sade Pblica, v. 34, n. 5, p. 522-528.
Gomes, A.T.B., Coelho, L.K., Secaf, M., Modena, J.L.P., Troncon, L.E.A. e Oliveira, R.B. (2002)
14
Accuracy of C-urea test for the diagonis of Helicobacter pylori . So Paulo Medical Journal
Revista Paulista de Medicina, volume 120, no. 3, pgina 68-71.
Pereira, R.A., Sichieri, R. e Marins, V.M.R. (1999) Razo cintura/quadril como preditor de
hipertenso arterial. Cadernos de Sade Pblica, v. 15, n. 2, p. 333-344.
Pinho, A.A. e Matos, M.C.F.I (2002) Validade da citologia cervicovaginal na deteco de leses
pr-neoplsicas e neoplsicas de colo de tero. Jornal Brasileiro de Patologia e Medicina Laboratorial,
v. 38, n. 3, p. 225-231.

Avaliação de Testes Disgnóstivo Probabilidade

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Avaliação de Testes Disgnóstivo Probabilidade

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade Federal de Minas Gerais

Instituto de Cincias Exatas

Avaliao de Testes Diagnsticos

3. Medidas da Qualidade do Teste Diagnstico

3.1. Sensibilidade e Especificidade

4. Medidas da Qualidade do Diagnstico Baseado em um Teste

Os Valores de Predio Positiva e Negativa

5. Outros Exemplos Interessantes

2.1. Conceitos Bsicos

Edna A. Reis e Ilka A. Reis

Espao amostral do experimento aleatrio 2:

E2 = {copas, paus, ouros, espada};

Todo subconjunto do espao amostral de um experimento aleatrio chamado evento.

2.2. Definio de Probabilidade

definio clssica da probabilidade de um evento A ocorrer dada por

nmero de elementos do evento A

2.3. Propriedades da Probabilidade

P(A B) = P(A) + P(B) P(A B).

Edna A. Reis e Ilka A. Reis

2.4. Probabilidade Condicional

2.5. Independncia de Eventos

Vejamos: O evento F1 menina no primeiro nascimento a unio de dois dos eventos do

3. Medidas da Qualidade do Teste Diagnstico

3.1. A Sensibilidade e a Especificidade de um Teste

Edna A. Reis e Ilka A. Reis

a probabilidade do teste ter resultado positivo dado que o indivduo est

que, na prtica, estimada pela proporo de resultados positivos do teste

a probabilidade do teste teve resultado negativo dado que o indivduo no

que, na prtica, estimada pela proporo de resultados negativos do teste

no. de pacientes doentes com resultado positivo 265

Do mesmo modo, atravs da amostra de 97 pacientes no portadoras do cncer de colo

no. de pacientes no doentes com resultado negativo 50

Este teste tem alta sensibilidade mas especificidade muito baixa.

3.2. A Influncia do Ponto de Corte

Edna A. Reis e Ilka A. Reis

Figura 2: A influncia do ponto de corte de definio do resultado

Quadro 1: Reproduo de parte da Tabela 2 do artigo original de Pereira at alli (1999),

no. de hipertensas com resultado positivo

no. de no hipertensas com resultado negativo

A Figura 3 mostra as curvas de sensibilidade e especificidade em funo dos diversos pontos

Figura 3: Reproduo de parte da Figura 2 do artigo original de Pereira at alli (1999),

Edna A. Reis e Ilka A. Reis

4. Medidas da Qualidade do Diagnstico Baseado em um Teste

4.1. Os Valores de Predio Positiva e Negativa

a probabilidade do indivduo estar doente dado que o seu

a probabilidade do indivduo no estar doente dado que

Desse modo, o VPP e o VPN so, respectivamente, a probabilidade de acerto do diagnstico

a probabilidade do paciente no estar doente dado

a probabilidade do paciente estar doente dado que o

4.2. Estimando os Valores de Predio

Exemplo 1 (continuao): Vamos voltar ao teste Papanicolaou para diagnstico do cncer de

-. /0 -. -!1

LM TU LM NOL

4.3. O Efeito da Prevalncia nos Valores de Predio

Edna A. Reis e Ilka A. Reis

Exemplo 3: Atualmente, a presena do HIV-AIDS detectada rotineiramente pelo teste ELISA

4.4. Estudando o Efeito da Sensibilidade e da Especificidade nos Valores de Predio

=      .

Edna A. Reis e Ilka A. Reis

Figura 6(a): Efeito da especificidade no Valor de Predio Positiva

Figura 6(b): Efeito da sensibilidade no Valor de Predio Negativa

Os 30 possveis valores do MEEM foram avaliados quanto sua sensibilidade e especificidade

O ponto de corte tradicional ( positivo se menor ou igual a 23 pontos, o MEEM-23) revelou

5. Outros Exemplos Interessantes

-. /0 -. -!1

LM TU LM NOL

= .