Você está na página 1de 47

VALIDAO, INTEGRIDADE E MONITORAMENTO DAS DOENAS

NIGEL PANETH

MEDIDAS DE INTEGRIDADE
TERMINOLOGIA
INTEGRIDADE anloga preciso.
VALIDAO anloga segurana da exatido.

INTEGRIDADE como um observador classifica melhor o mesmo indivduo sob diferentes circunstncias. VALIDAO como uma prova reproduz melhor um resultado comparado outra prova de maior segurana conhecida.

INTEGRIDADE E VALIDAO
INTEGRIDADE inclui: avaliaes feitas pelo mesmo observador em diferentes perodos de tempo

INTEGRIDADE INTRAOBSERVADOR.
avaliaes feitas por observadores diferentes ao mesmo tempo

INTEGRIDADE INTEROBSERVADOR.
INTEGRIDADE presume que todas as provas e observadores sejam iguais. VALIDAO presume que haja um padro de ouro com o qual a prova e o observador sero comparados.

AVALIANDO INTEGRIDADE
Como avaliamos a integridade?
Uma maneira observar simplesmente a percentagem de concordncia. - Percentagem de concordncia a proporo de todos os diagnsticos classificados da mesma maneira por dois observadores.

EXEMPLO
So dadas a dois mdicos 100 radiografias para analisar independentemente, e lhes perguntado se h a presena de pneumonia ou no. Quando ambos os seus diagnsticos so comparados, encontramos que 95% dos diagnsticos so os mesmos.

H integridade nos diagnsticos?


A percentagem de concordncia suficiente para indicar integridade? 95% de concordncia entre os dois mdicos e a ausncia ou presena da doena em uma amostra de 100 pacientes sempre indica boa concordncia? Voc se sentiria tranqilo se seu hospital fizesse um constante trabalho de leitura de Raios X do trax, e se elas apresentassem 95% de integridade?

COMPARE AS DUAS TABELAS ABAIXO:


TABELA 1
MD 1
SIM SIM 1 2 NO 3 94 SIM

TABELA 2
MD 1
SIM NO 43 3

MD2

NO

MD2

NO

52

Em ambos os exemplos, os mdicos concordaram em 95% de vezes. Os dois mdicos so igualmente ntegros nas duas tabelas?

QUAL A DIFERENA ESSENCIAL ENTRE AS DUAS TABELAS? O problema surge da facilidade de concordncia em eventos comuns (Ex: no existindo pneumonia na primeira tabela).
Uma medida de concordncia dever levar em considerao a facilidade de concordncia devida somente ao acaso.

USO DE KAPPA PARA AVALIAR INTEGRIDADE


KAPPA um teste de concordncia INTER e INTRA-observadores (ou integridade) amplamente utilizado, que corrige por concordncia o acaso.

KAPPA VARIA DE +1 -1
+1 significa que os dois observadores concordaram perfeitamente. Eles classificaram a todos exatamente da mesma forma. 0 significa que no existe nenhuma relao entre as classificaes dos dois observadores, acima da concordncia de acasos que seriam esperadas. -1 significa que os dois observadores classificaram exatamente o oposto. Se um observador diz SIM, o outro sempre diz NO.

GUIA PARA USO DE KAPPA EM EPIDEMIOLOGIA E EM MEDICINA:


KAPPA 0,80 considerado excelente.

KAPPA 0,60 0,80 considerado bom.


KAPPA 0,40 0,60 considerado regular.

KAPPA 0,40 considerado ruim

PRIMEIRA MANEIRA DE CALCULAR KAPPA:


1. Calcule a concordncia observada (clulas nas quais os observadores concordaram/totais de clulas). Em ambas as TABELAS 1 e 2 so de 95%. 2. Calcule a concordncia esperada (acaso de concordncia) baseada nas marginais totais.

OS TOTAIS MARGINAIS DA TABELA 1 SO:


OBSERVADOS MD1 SIM SIM 1 2 3 NO 3 94 97 4 96 100

MD2

NO

OBSERVADOS

MD1 SIM 1 NO 3

SIM

MD2

NO

2
3

94
97

96
100

Como calculamos o N esperado por acasos (azar) em cada clula?


Supondo que cada clula reflete as distribuies marginais, ex: as propores das respostas SIM e NO devero ser as mesmas dentro de uma tabela de quatro clulas como os totais marginais.

ESPERADOS

MD1
SIM NO

SIM MD2 NO 3 97

4 96 100

Para chegar a isso, encontramos a proporo das respostas em cada coluna (3% e 97%, SIM e NO respectivamente, para MD1) ou na coluna (4% e 96%, SIM e NO respectivamente, para MD2) dos totais marginais, e aplicamos uma das duas propores no outro total marginal. Ex: 96% dos totais das colunas na categoria NO. Portanto, 96% de NO por acasos de MD1, deveriam tambm, estar na coluna de NO. 96% de 97 so 93,12.

ESPERADOS

MD1
SIM NO
4 93,12 96

MD2

SIM NO

Por subtrao, todas as outras clulas sero preenchidas automaticamente, e cada distribuio de clulas SIM/NO refletir a distribuio marginal. Qualquer clula poder ser usada para fazer o clculo, uma vez que, se cada clula especificada numa tabela 2X2 com distribuies marginais fixadas, todas as outras clulas tambm, sero especificadas.

ESPERADOS

MD1 SIM NO

MD2

SIM
NO

0,12
3

3,88
97

4
96

2,88 93,12

100

Agora voc pode ver que somente por operao de acaso, 93,24 das 100 observaes deveriam ser concordantes para os dois observadores (93,12 + 0,12)
MD1 ESPERADOS

SIM
SIM MD2 NO 0,12 2,88 3

NO
3,88 93,12 97 4 96 100

Agora comparemos a concordncia atual com a concordncia esperada:


A concordncia esperada 6,76% distante da concordncia completa de 100%, (100% - 93,24% = 6,76%). A concordncia atual foi de 5,0% da concordncia completa de 100%, (100% 95%). Assim, nossos dois observadores foram 1,76% melhores que o acaso (azar), mas se eles tivessem concordado completamente, deveriam ter sido 6,76% melhores que o acaso (azar). Logo, eles so melhores em somente cerca de 0,26% que o acaso (azar) ou seja, 1,76/6,76 .

ABAIXO EST A FRMULA PARA O CLCULO DE KAPPA DA CONCORDNCIA (C) ESPERADA:

C. observada C. esperada 1 Concordncia esperada


95% - 93,24% 1 93,24% = 1,76 6,76 = 0,26%

UM KAPPA DE 0,26% BOM?


KAPPA 0,80 considerado excelente. KAPPA 0,60 0,80 considerado bom. KAPPA 0,40 0,60 considerado regular.

KAPPA 0,40 considerado ruim.

No segundo exemplo, a concordncia observada foi tambm, de 95%, mas os totais marginais foram muito diferentes.
MD1 ATUAL SIM SIM NO 46

MD2

NO 45 55

54 100

Calculamos a concordncia esperada N, para qualquer clula, usando o mesmo procedimento anterior baseado nos totais marginais. Ex: a clula de valor mais baixo direita 54% de 55, que 29,7.
MD1

ATUAL
SIM

SIM

NO 46

MD2 NO
45

29,7
55

54
100

E, por subtrao as outras clulas que esto abaixo. As clulas que indicam concordncia esto ressaltadas em amarelo e somam 54,4%. MD1 ATUAL SIM MD2 SIM 20,7 NO 25,3 46

NO

24,3
45

29,7
55

54
100

ENTRE AS DUAS CONCORDNCIAS (C) NA FRMULA:


C. observada C. esperada 1 Concordncia esperada 95% - 50,4% = 1 50,4% 44,6% = 0,90 49,6%

Neste exemplo, os observadores tm a mesma % de concordncia, mas agora eles so muito diferentes do acaso (azar). O KAPPA de 0,90 considerado excelente.

OUTRA FORMA DE CALCULAR KAPPA:


2(AD BC) N 1N 4 + N 2N 3 Onde, os valores Ns so totais marginais, assim denominados:
MD1 SIM
SIM MD2 A

NO
B N1

NO

C
N3

D
N4

N2
Total

VEJA NOVAMENTE NA TABELA DO SLIDE 7.


Para a TABELA 1:
2 (94 x 1 2 x 3) = 4 x 97 + 3 x 96 Para a TABELA 2: 2 (52 x 43 3 x 2) = 46 x 55 + 45 x 54 4460 = 0,90 4960 176 = 0,26 676

NOTE O PARALELISMO ENTRE:


A ODDS RATIO - RAZO DE PROBABILIDADES O QUI-QUADRADO ESTATSTICO

O KAPPA ESTATSTICO
Note que so centrais nas trs expresses os produtos cruzados das tabelas de quatro clulas e suas relaes com os totais marginais.

VALIDAO E MONITORAMENTO AS TRS MEDIDAS CHAVES DA VALIDAO:

SENSIBILIDADE
ESPECIFICIDADE VALORES PREVISTOS

TABELA DE QUATRO CLULAS PARA AVALIAR A RELAO DE TESTE-DOENA


ESTADOS DE DOENA

+
RESULTADO

+
DO

TESTE

NO DOENTE TESTE DOENTE TESTE TESTE NEGATIVO POSITIVO POSITIVO LIVRE DE DOENTE TESTE DOENA TESTE TESTE POSITIVO NEGATIVO NEGATIVO DOENTE NO DOENTE

SENSIBILIDADE
Ela nos indica o quanto um teste positivo detecta a doena. definida como a frao dos doentes com resultados positivos nos testes.

Seus complementos so as taxas dos testes falso negativos, definidas como a frao de doentes que do resultados negativos nos testes.
A sensibilidade e a taxa de falsos negativos somam UM.

ESPECIFICIDADE
Nos indica o quanto um teste negativo bom para detectar nenhuma doena. definida como a frao dos no-doentes que deram testes negativos. Seu complemento a taxa de falsos positivos definida como a frao dos nodoentes cuja prova foi positiva. Especificidade mais a taxa de falsos positivos do UM.

VALORES PREVISTOS
VALOR PREVISTO POSITIVO a proporo de todas as pessoas com resultados positivos que tm a doena. VALOR PREVISTO NEGATIVO a proporo de todas as pessoas com resultados negativos que no tm a doena. Em geral, o valor previsto positivo o mais utilizado. O valor previsto positivo e a sensibilidade so talvez, os dois parmetros mais importantes para o entendimento da utilizao de um teste sob as condies de campo.

PONTOS CHAVES PARA RELEMBRAR


Sensibilidade, especificidade, falsos positivos e falsos negativos so todos os denominadores comuns para doentes e no doentes (utilizamos no total das colunas).
Ao contrrio, os valores previstos so denominadores para o status do teste, positivo ou negativo (utilizamos no total das seqncias). Sensibilidade e especificidade no variam de acordo com a prevalncia da doena na populao. Os valores previstos de um teste, sem dvida, so ALTAMENTE DEPENDENTES sob a prevalncia da doena na populao.

CALCULANDO SENSIBILIDADE, ESPECIFICIDADE E OS VALORES PREVISTOS


teste utilizado em 50 pessoas com uma doena e 50 pessoas sem a doena. Estes so os resultados:

DOENA
+

3 47 50 51 49 100

TESTE

+ -

48 2 50

DOENA

+
TESTE

3 47 50 51 49 100

+ -

48 2 50

Sensibilidade = 48/50 x 100 = 96%

Especificidade = 47/50 x 100 = 94%.


Valor previsto positivo = 48/51 x 100 = 94%. Valor previsto negativo = 47/49 x 100 = 96%.

Agora, vamos aplicar este teste numa populao onde 2% das pessoas tm a doena, no os 50% como no exemplo anterior. Suponha que existem 10.000 pessoas, e a mesma sensibilidade e especificidade anterior, com valores de 96% e 94% respectivamente. DOENA

+
TESTE

588
9.212 9.800

+ -

192
8 200

780
9.220 10.000

AGORA, QUAL O VALOR POSITIVO PREVISTO? 192/780 X 100 = 24,6%.


Quando a prevalncia de uma doena de 50%, 94% dos testes positivos indicam a doena. Mas quando a prevalncia de somente 2%, menor que 1 em quatro nos resultados dos testes, estes indicam uma pessoa com a doena, e que atualmente 2% deveriam apresentar uma doena comum. Os resultados falsos positivos tendem a esconder-se em verdadeiros positivos nas populaes, devido a que muitas doenas que testamos so raras.

MUDANDO O LIMITE DE UM TESTE


Quando a doena definida por um limiar num teste contnuo, as caractersticas do teste podem ser alteradas mudando-se o limite ou o PONTO DE CORTE (CUT-OFF). Diminuir o limite melhora a sensibilidade, mas muitas vezes a custo de diminuir a especificidade (ex: mais falsos positivos). Aumentar o limite melhora a especificidade, a custo da diminuio da sensibilidade (ex: mais falsos negativos).

Isto especificamente importante quando a distribuio de uma caracterstica UNIMODAL, como a presso arterial, colesterol, peso, etc (devido zona cinza borderline - ser muito ampla).

PROBLEMAS DE MONITORAMENTO
Temos um correto limiar? H um tratamento verdadeiramente efetivo disponvel para a doena diagnosticada? Este tratamento mais efetivo nos casos monitorados que ns no monitorados? Quais so os efeitos adversos do processo de monitoramento?

O quanto eficiente o monitoramento? Ex: Quantas pessoas tm que ser monitoradas para se encontrar um caso?

EXEMPLO:
Um ensaio randomizado (aleatrio) implementado para se avaliar um programa de monitoramento para o cncer de colon. O grupo da interveno tem monitoramento regular, o grupo controle deixado a merc de seus prprios recursos.

APS CINCO ANOS ENCONTRAMOS QUE:


Mais casos so descobertos no grupo monitorado que no grupo controle. Os casos so descobertos com antecedncia aos estgios do cncer no grupo monitorado. A sobrevida a cinco anos maior nas pessoas com cncer monitoradas. Podemos concluir que este programa de monitoramento necessariamente efetivo?

NO, O PROGRAMA NO NECESSARIAMENTE EFETIVO.


Os benefcios aparentes s demonstram os efeitos do RISCO DEPENDENTE DO TEMPO. Sendo possvel diagnosticar uma condio de forma antecipada, isso no melhorar a sobrevida depois do diagnstico; o programa de monitoramento ter uma super representao de casos diagnosticados mais cedo, cuja sobrevida ser aumentada por exatamente o tempo em que seu diagnstico foi feito de forma mais antecipada pelo programa de monitoramento. Assim, eles no sero beneficiados, mas a quantidade de tempo que eles sabero que tm cncer ter aumentado.

CONSIDERE COMO O TEMPO DO DIAGNSTICO MUDA COM O MONITORAMENTO NO CENRIO ABAIXO:


GRUPO SEM MONITORAMENTO:

Dx
IDADE 50 51 52 53 54
GRUPO MONITORADO:

MORTE 55

Dx
IDADE 50 51 52 53 54

MORTE 55

OUTROS RISCOS (BIAS) NO MONITORAMENTO: RISCO (BIAS) DE AMPLITUDE DE TEMPO


Muitas doenas crnicas, especialmente cnceres, no progridem com a mesma rapidez em todos os pacientes. Qualquer grupo de doentes incluir alguns para os quais a doena se desenvolve mais lentamente e em outros se desenvolve mais rpido.

Preferencialmente, o monitoramento incluir doenas de desenvolvimento lento (com maior oportunidade de serem monitoradas) e que normalmente ter melhor prognstico.

No cenrio anterior, a incidncia de doena inicialmente mais alta, o diagnstico feito mais cedo, o estagio do diagnstico mais antecipado e a durao da sobrevida desde o diagnstico mais ampla.
Todos eles nos do a impresso de benefcios do monitoramento. Todavia o paciente no beneficiado, visto que a morte no adiada. A nica evidncia de efetividade no programa de monitoramento uma reduo da morbidade ou mortalidade especfica por total de idade, idealmente demonstrado num ensaio randomizado (aleatrio).

Exerccio de mamografia (Mamgrafo)


1. Menos de 50 anos, a sensibilidade de 75%; acima dos 50 anos, a sensibilidade de 90%. 2. Menos de 50 anos, 640 mamografias anormais foram confirmadas com 17 cnceres, a razo FP/TP 623/17 = 36,7. Acima dos 50 anos, 100 mamografias anormais, foram confirmadas 14 cnceres; a razo FP/TP 86/14 = 6,1. Expressando-os como valores previstos positivos, teremos respectivamente: 17/640 x 100 = 2,7% e 14/100 x 100 = 14%.

Exerccio de mamografia (Mamgrafo) (continuao)


3. Menos de 50 anos, a incidncia de 1,42/1000/ano (baseado em 37 mortes em 10000 em 10 anos).
Acima dos 50 anos, a incidncia de 2,5/1000/ano (baseado em 1/40/10 anos). MORTALIDADE 0,67/1000/ano (baseado em 1/150 em 10 anos).