Aula Validade Confiabilidade2

“A pesquisa em saúde visa
primariamente encontrar respostas para

as mais diversas questões de saúde e a
Validade e Confiabilidade
integridade dos resultados é
fortemente determinada pela qualidade
das informações produzidas”
Schmidt et al (Rev Saúde Pública 2013;47(Supl 2):105-12)
Anormal = incomum
 algo que acontece com pouca frequência
Metáfora do “alvo”
Anormal = associado a doenças

 Observações que se desviam de forma
clinicamente importante do bom estado de
saúde (risco de adoecimento, deficiências
funcionais e morte)
Anormal – tratável
 se o tratamento naquele nível leva a um
desfecho melhor
1
Dilemas!
“ A validade das
inferências dos
resultados de qualquer
estudo epidemiológico
depende da acurácia
dos métodos e
procedimentos
empregados”
(Szklo & Nieto, 2006)
Dilemas
 A forma como coletamos
dados em saúde
 Qual ou quais são os critérios usados para selecionar
influenciam diretamente
na qualidade dos dados e um instrumento para sua pesquisa?
nas inferências feitas
posteriormente
 Quais são as facilidades e dificuldades em desenvolver
 A validade dos resultados um novo questionário?
depende da qualidade
dos instrumentos  Que tipos de problemas uma equipe mal treinada pode
utilizados causar no estudo?
Testes com alta sensibilidade são bem aplicados em

quais situações?
2
 A pesquisa não contribuirá para a prática clinica
ou o conhecimento se os achados não tiverem  Todo processo de medição
acurácia, foram enviesados ou falharem na (processo mediante o qual se
representação adequada da experiência do quantifica uma magnitude) está
grupo investigado. sujeito a diversas fontes de
erros, derivadas de:
 Alguns critérios são necessários para avaliar a
limitações do instrumento de
qualidade de um estudo (mérito científico) medida
os mais importantes são a confiabilidade natureza do que se pretende

e a validade medir
O processo de redução O processo de redução

CONCEITO VARIÁVEL INDICADOR MEDIDA
CONCEITO VARIÁVEL INDICADOR MEDIDA Calor Temperatura Dilatação de uma Extensão da

(variável contínua, coluna de dilatação medida
tem infinitas mercúrio em uma escala de
categorias) graus
Nível abstrato, Dimensão do Elemento que pode Escala de
teórico; conceito que ser verificado mensuração que “Classe social” - Renda familiar - Ganho total por
Classe social
corresponde à idéia pode ser empiricamente e define os valores segundo - Grau de no de pessoas
identificado permite classificar que discriminam categorias: alta, instrução - Anos de estudo
como predicado as unidades de as categorias: média e baixa
de uma unidade análise segundo as
de análise categorias que a - Classificação
“Depressão” Itens de uma Somatório dos
variável admite - Ordenação segundo escala arbitrária escores atribuidos
- Contagem Depressão
categorias: (sentimentos a cada item da
- Medição presente x disfóricos, escala
ausente hedonistas, sint.
somáticos, etc.)
3
OBSERVAÇÃO DE Fenômeno 1
OBSERVAÇÃO ESTATÍSTICA Fenômeno 2
FENÔMENOS DOS FENÔMENOS
BIOLÓGICOS BIOLÓGICOS
OBJETIVÁVEIS OBJETIVÁVEIS
A complexidade das
A complexidade das
escalas objetiváveis
escalas objetiváveis
se concentra na
se concentra na
dificuldade de
dificuldade de
vincular valores
vincular valores
numéricos a
numéricos a
fenômenos
fenômenos
Validade
Metáfora do “alvo”
 Grau em que os dados medem o que deveriam
medir
Assim
Não Preciso
 Os resultados de uma aferição Preciso Não Preciso Preciso
Não Válido Válido Válido Não Válido
correspondem ao estado verdadeiro
do fenômeno aferido
4
Validade versus confiabilidade Validade – aferições – padrões imperfeitos
Resultado dos testes
 Tromboembolia pulmonar – cintilografia vs o

Preciso e Não Válido uso de angiografia
 um achado no exame físico – resultados de

cirurgia ou de exames de imagem
Válido e não preciso
 Dor, náusea, depressão, medo
Válido e preciso
 Angina, síndrome de intestino irritável,
Valor verdadeiro autismo
Validação de medidas e
validade interna dos estudos
 Medidas válidas, sem viés de informação (erro

sistemático) contribuem para validade interna
dos estudos (grau em que resultados obtidos
no grupo de estudo se aproximam da
população da qual se originou)
5
Validade, Acurácia (validity, accuracy)
Dimensões da validade Validade de conteúdo (ou conceitual)
Três “C”:  Grau em que uma medida cobre o escopo do
fenômeno em estudo.
 Conteúdo  Baseada em revisão da literatura / consenso de
especialistas sobre forma de medir atributo de
 Critério interesse
 Constructo Ex.: escala APGAR de medida de vitalidade do recém-

Validade de Face nascido (frequência cardíaca, frequência respiratória,
tônus, cor, reflexos)
Validade, Acurácia (validity, accuracy) Validade de critério

TESTE REFERENCIA
Validade de critério Data da vacinação informada em Data no cartão de vacina
questionário
 Grau em que uma medida se correlaciona com outro
critério, externo, independente, tomado como Pressão arterial medida com Medidas de pressão intra-arterial
esfigmomanômetro
referência, pela maior validade aparente: “padrão-ouro”
Causa mortis no atestado de óbito Dados de necropsia
 Custo, complexidade de realização, complicações Resultados por métodos laboratoriais Padrões: Espécimes com resultados
conhecidos por métodos
(procedimentos invasivos) dos critérios de referencia estabelecidos
(“padrão-ouro”) costumam tornar vantajoso o uso de
teste de menor validade. Escala de depressão Diagnóstico após avaliação clínica
detalhada
6
Validade, Acurácia (validity, accuracy). Dimensões: Validade de constructo: exemplos
 Para atributos baseados em conceitos teóricos abstratos, os
(1) correlação da auto-estima avaliada pela escala de
critérios de referencia (com maior validade aparente) podem não Rosemberg, com participação em atividades escolares
estar disponíveis (ex., auto-estima) ou não serem facilmente corrobora o constructo de auto-estima e seu processo de
mensuração (Carmines & Zeller, 1979);
acessiveis (ex., classe social).
(2) classe social combinando elementos de ocupação,

Validade das medidas (e do constructo) escolaridade e renda pode ser correlacionada com região de
 grau em que se correlacionam com outras medidas coerentes com residência, tamanho da família, grupos étnicos, auto-avaliação da
classe social etc. (Abramson, 1979)
os conceitos teóricos que dizem respeito ao fenômeno em estudo.
AS APARÊNCIAS PARA A MENTE

Tipo de Validade Avalia a extensão com que SÃO DE QUATRO TIPOS
A medida prediz ou concorda com
CRITÉRIO algum critério do verdadeiro valor da
medida
As coisas são o que parecem ser,
CONTEÚDO
Uma amostra de medidas empíricas
representa o conjunto de dimensões
ou são e não parecem ser;
teóricas que se espera que
represente ou não são, mas parecem ser,
Examina se e quantas das relações
ou não são, nem parecem ser.
CONSTRUCTO entre a variável de estudo e outras
variáveis previstas teoricamente, se
confirmam na análise dos dados Epictetus, Séc. II D.C.
7
As aparências para a mente são de quatro tipos
“Posicionar-se corretamente
frente a todos esses casos é a
tarefa do homem sábio.”
Epictetus, Séc. II D.C.
Validade de critério é geralmente quantificada por meio de dois Resultado do teste vs padrão de
componentes indissociáveis: sensibilidade e especificidade referência (padrão ouro)
DOENÇA
Padrão Ouro
Doentes * Sadios Presente Ausente Total
Teste ** Verdadeiro Falso Positivo Total testes Positivo

a b a+b
Positivo Positivo (a) (b) Positivos verdadeiro falso
positivo positivo
TESTE
Teste Falso Negativo Verdadeiro Total testes
Negativo (c) Negativo (d) Negativos Negativo c d c+d
falso verdadeiro
Total Doentes Total Sadios negativo negativo
*aplicável a outros atributos ** aplicável a outras abordagens Total a+c b+d a+b+c+d
8
Resultados do estudo de validação do exame
 Quão bom é um teste para identificar radiológico contra o padrão de referência (padrão ouro)
pessoas com a doença?
Resultado do Padrão-ouro
 Quão bom é um teste para excluir Doença Doença Total
corretamente pessoas que não têm a Positivo Positivo
doença? n=64 n= 38
Teste Teste n= 102
Diagnóstico Positivo verdadeiro falso
 Se o teste de uma pessoa é positivo, qual positivo positivo
a probabilidade de ela ser doente? n=9 n= 889

Teste n= 898
Negativo falso verdadeiro
negativo negativo
 Se o teste de uma pessoa é negativo, qual
Total 73 927 1000
a probabilidade de ela não ser doente?
Sensibilidade e Especificidade
Sensibilidade e Especificidade Sensibilidade (S): é a proporção de verdadeiros positivos
DOENÇA entre todos os doentes.
Expressa a probabilidade de um teste dar positivo na presença
Presente Ausente Total
da doença, isto é, avalia a capacidade do teste detectar a
a b doença quando ela está presente
Positivo verdadeiro falso a+b
TESTE positivo positivo
c d
Negativo falso verdadeiro c+d Especificidade (E): é proporção de verdadeiros negativos entre
negativo negativo todos os sadios.
Total a+c b+d a+b+c+d Expressa a probabilidade de um teste dar negativo na ausência da
doença, isto é, avalia a capacidade do teste afastar a doença
quando ela está ausente.
Sensibilidade = a / (a + c)
Especificidade = d / (b + d)
9
Sensibilidade e especificidade da Uso dos testes
mamografia
Sensíveis Específicos
Câncer de mama
 Necessário para o  Particularmente necessário
Teste de Câncer Câncer não Total diagnóstico de doença
confirmado quando um resultado falso
Rastreamento confirmado
potencialmente grave positivo pode ser muito
Positivo 132 983 1155
lesivo
 Afastar doenças em fase
Negativo 45 63.650 63.695 inicial do diagnóstico  Confirmar um diagnóstico
Total 177 64.633 64.820 sugerido por outros dados
 O resultado negativo é
mais útil: melhor VPN  O resultado positivo é
mais útil: melhor VPP
Sensibilidade = Especificidade = Obs: os testes sensíveis também são úteis no rastreamento (screening) de
doenças em grupos populacionais
132 / 177 = 74.6% 63650 / 64633 = 98.5%
Valor Preditivo
DOENÇA
Presente Ausente Total
DOENÇA
a b
Presente Ausente Positivo a+b
verdadeiro falso
a+b TESTE positivo positivo
(todas as pessoas com testes c d
TESTE + positivos) Negativo falso verdadeiro c+d
c+d negativo negativo
(todas as pessoas com testes Total a+c b+d a+b+c+d
- negativos)
VPP = a / (a + b)
VPN = d / (c + d)
10
Valor Preditivo DETERMINANTES DO VALOR PREDITIVO
Valor preditivo positivo (VPP): é a proporção de verdadeiros
positivos entre todos os indivíduos com teste positivo. Expressa a  sensibilidade
probabilidade de um paciente com o teste positivo ter a doença.
 especificidade
 prevalência da doença na população

→ probabilidade pré-teste
Valor preditivo negativo (VPN): é a proporção de verdadeiros  valores preditivos positivo e negativo
negativos entre todos os indivíduos com teste negativo. Expressa a → probabilidade pós-teste
probabilidade de um paciente com o teste negativo não ter a
doença.
Valor Preditivo e Prevalência VALOR PREDITIVO

(teste com 98% de sensibilidade, 92% especificidade)
100%
90%
Valor Preditivo
80%
70% PVP PVN
60%
50%
40%
30%
20%
10%
0%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Prevalência
11
Prevalência sobre o valor preditivo positivo
VALOR PREDITIVO
sensibilidade e especificidade constante
Prevalência VP+ Sensibilidade Especificidade

(%) (%) (%) (%)
0.1 1.8 90 95
1.0 15.4 90 95
5.0 48.6 90 95
50.0 94.7 90 95
 Quanto maior a prevalência, quanto maior o valor

preditivo.
 O rastreamento é mais produtivo se for aplicado a
uma população de alto risco.
Relação entre Prevalência da Doença e

Relação entre Prevalência da Doença e Valor Preditivo Positivo
Valor Preditivo Positivo
Prevalência Resultados Não Prevalência Resultados Não
da doença do Teste Doentes Doentes Totais VPP da doença do Teste Doentes Doentes Totais VPP
+ 99 495 594 + 99 495 594

99/594 = 17%
1% - 1 9.405 9.406 1% - 1 9.405 9.406
Totais 100 9.900 10.000 Totais 100 9.900 10.000
+ 495 475 970 + 495 475 970

495/970= 51%
5% - 5 9.025 9.030 5% - 5 9.025 9.030
Totais 500 9.500 10.000 Totais 500 9.500 10.000
Sensibilidade=99%, Especificidade= 95% Sensibilidade=99%, Especificidade= 95%
12
VALOR PREDITIVO VALOR PREDITIVO
Variação dos valores preditivos de um teste com sensibilidade e
Varia com a prevalência (probabilidade pré- especificidade de 90%, segundo a prevalência da doença
teste) da doença
Para um mesmo teste, quanto maior a Prevalência Valor Preditivo
prevalência maior o VPP e menor o VPN % Positivo Negativo
1,0 8,3 99,9
Faixa ideal de uso do teste: prevalência 10,0 50,0 98,8
intermediária (entre 25% e 65%) 50,0 90,0 90,0
70,0 95,5 80,0
Quanto mais sensível, melhor o VPN
90,0 98,8 50,0
Quanto mais específico, melhor o VPP 99,0 99,9 50,0
Assim: Teste de Esforço para diagnóstico DC, meta-análise:

sensibilidade = 70% e especificidade = 80%
 Quanto mais sensível o teste - melhor o seu valor preditivo
negativo Clínica Probabilidade VP positivo VP negativo
maior a segurança de que um paciente com resultado pré-teste
negativo não tenha a doença. Fem., jovem dor 5% 16% 98%
 Quanto mais específico o teste - melhor o seu valor atípica
preditivo positivo Masc., 40 anos 50% 78% 73%
maior a segurança de que um paciente com resultado dor atípica
positivo tenha a doença. Masc., 45-55 90% 97% 23%
anos, angina
Por esses motivos é mais significativo para o clínico típica
o resultado negativo de um teste sensível (melhor VPN)

 o resultado positivo de um teste específico (melhor VPP) Gianrossi et al., 1989
13
RAZÕES DE PROBABILIDADES Razão de Verossimilhança
(Razão de Verossimilhança) DOENÇA
 A razões de probabilidade são Presente Ausente Total
 um método alternativo para se avaliar a performance de um
a b
Teste Diagnóstico dicotômico, Positivo verdadeiro falso a+b
 e também parte de duas medidas: a razão de probabilidade de TESTE
um teste positivo e a razão de probabilidade de um teste positivo positivo
negativo. c d
Negativo falso verdadeiro c+d
 razão de probabilidades negativo negativo
 probabilidade do resultado de um dado teste entre pessoas com Total a+c b+d a+b+c+d
uma doença dividida pela probabilidade daquele teste em
pessoas sem a doença
Razão de Verossimilhança positiva = a / a + c
b/b+d
Razão de Verossimilhança negativa = c / a + c

RP = P(Ti | D+) / P(Ti | D-)
d/b+d
RAZÃO DE VEROSSIMILHANÇA (razão de

probabilidades diagnósticas)
 VEROSSIMILHANÇA - a razão entre a probabilidade de um
determinado resultado de um teste diagnóstico em indivíduos
portadores da doença e a probabilidade do mesmo resultado em
indivíduos sem a doença
Para um teste dicotômico:
Dados contínuos e intervalares:
 Razão de verossimilhança do teste positivo
expressa quantas vezes é mais provável encontrar um resultado
positivo em pessoas doentes quando comparado com pessoas  Onde termina o normal e onde
não doentes
começa o anormal?
 Razão de verossimilhança do teste negativo:

expressa quantas vezes é mais provável encontrar um resultado
negativo em pessoas doentes quando comparado com pessoas
não doentes
14
Efeito da definição de diferentes níveis de glicemia
Distribuição dos valores sangüíneos de glicose nos resultados falso positivo e falso negativo
em uma população normal e diabética
Ponto de corte com o mínimo erro

possível
O efeito de mudanças nos

pontos de corte
15
Não Doentes
Doentes
180 220
mg/dl mg/dl
 O que acontece quando solicitamos

vários testes ao mesmo tempo?
 E quando os teste são realizados em

série?
16
Sensibilidade, especificidade e valores
preditivo positivo e negativo dos testes A, Testes em paralelo
B e da combinação em paralelo de A e B
Esta estratégia significa que dois ou mais
Teste S (%) E (%) VPP (%) VPN (%)
testes são realizados, e que qualquer
resultado positivo identifica um caso.
A 80 70 22,86 96,92
Os testes em paralelo têm por objetivo
aumentar a sensibilidade de um programa
B 90 90 50 98,78
de triagem.
( ↑sensibilidade e o valor preditivo
Ae B 98 63 22,74 99,6
negativo)
O que isso significa? A possibilidade da
doença ser omitida é menor, mas os casos de
falso-positivos aumentam.)
Testes em paralelo Testes em série e em paralelo

 Quando solicitamos vários testes ao mesmo
tempo  Testes em série:
 aumentamos sobremaneira nossa
capacidade de efetuar um diagnóstico A testagem em série significa que o primeiro teste
é realizado, e se o resultado for positivo, o
aumentamos a sensibilidade e o valor segundo teste é realizado, e assim por diante.
preditivo negativo
Exemplo: Aids.
 porém a especificidade e o valor preditivo
positivo diminuem. Um teste de ELISA é realizado inicialmente, e
se for positivo um teste de Western Blot é
 O que isso significa? realizado a seguir.
a possibilidade da doença ser omitida é menor,
mas os casos de falso-positivos aumentam.
17
Validade
 Assim como a confiabilidade, validade não é tudo ou

 Os testes em série aumentam a nada na característica de um instrumento
especificidade do diagnóstico.  Um instrumento não é totalmente válido ou não válido
• se perde em sensibilidade e ganha-se em  Pesquisadores não validam um instrumento em si, mas a
especificidade aplicação deste instrumento: uma medida de ansiedade
pode ser válida para investigar a ansiedade em pacientes
pré-cirúrgicos, mas não ser válida para estudantes no dia
 detalhe especialmente importante em do vestibular
projetos de rastreamento em grandes  Validação nunca é um processo acabado: quanto
populações. maior a evidência de que o instrumento está medindo o
que se propõe medir, maior o nível de confiança que se
tem na sua validade
Contexto – Quando se avalia

confiabilidade?  “Estudos de confiabilidade acessam o
quanto resultados concordam quando
– Qualidade da informação. obtidos por diferentes observadores,
instrumentos, ou procedimentos, ou
Por um aferidor, pela equipe de aferidores, pelo pelo mesmo observador, instrumento,
equipamento, instrumento ou método utilizado; ou procedimento em diferentes
Pode ser a única avaliação, ausência de momentos no tempo.”
“padrão- ouro”. (Szklo & Nieto, 2007)
Estabilidade, Concordância.
Confiabilidade vs Validade
18
Avaliar de diferentes maneiras: Confiabilidade - Conceito
1. Para o mesmo aferidor em diferentes ocasiões  Para avaliar a Confiabilidade é preciso
(confiabilidade intra-aferidor), considerar todas as fontes de variabilidade.
2. Observações do indivíduo em duas ocasiões  A variabilidade que interessa é a dos

diferentes separadas por algum intervalo de tempo* participantes do estudo e a rigor, deveria
com o mesmo instrumento (teste-reteste), ser a única observada.
3. Entre aferidores na mesma ocasião (confiabilidade  Mas, há outras fontes (imprecisão do

inter-aferidor), observador ou do método (intra ou entre
observador/método).
4. Entre dois métodos (concordância) no mesmo
momento do tempo ou em momentos distintos.  Os estudos de confiabilidade podem incluir
medidas repetidas de um mesmo indivíduo
* Quanto tempo? ou repetição de testes diagnósticos
Paciente A -
Fontes de variabilidade das medidas Média da sistólica
Confiabilidade vs erro de medida 154 mm Hg
Variabilidade devido à imprecisão de Paciente B - Média

da Sistólica
observadores ou métodos e
117 mm Hg
 A variabilidadedo próprio sujeito

Se mensuradas nesse momento,
ex: variabilidade da ingestão dietética gerariam resultados espúrios Como evitar?
dia a dia; variabilidade fisiológica da

pressão arterial
19
• Se aferimos nosso peso numa balança de um
banheiro, acreditamos que é possível que
exista uma variação de ±1kg;
• Essas fontes de variabilidade (erros da • Quando conferimos a velocidade de nosso
medida) introduzem “ruído”, isto é, carro, imaginamos que uma variação de
prejudicam a detecção da diferença que ±5km/h possa existir nesta medida;
existe entre os indivíduos (participantes do
estudo).  Porque aceita-se erros nessa proporção?
• Para prover informações úteis sobre o erro da

• Existem algumas formas de mensurar a medida, esta deve ser contrastadas com a
variabilidade que provém de “erros” variação ESPERADA entre os indivíduos.
• Uma vez que a variabilidade entre indivíduos é

composta da variabilidade real que existe entre
os indivíduos + erro de medida,
• a confiabilidade pode ser expressa então como Se você desconhece a validade e/ou a
uma razão entre a variabilidade entre os confiabilidade do método ou instrumento
sujeitos e a variabilidade total. escolhido, como você avaliaria essa
qualidade da sua medida?
Pense na operacionalização disso e

Variabilidade do Sujeito ( ²s)
Confiabilidade = enumere as análises que poderiam ser
Variabilidade do Sujeito ( ²s) + Variabilidade erro ( ²e) implementadas.
20
Quando desconhecemos a validade, confiablidade
de um instrumento, teste ou medida Quando desconhecemos a validade, confiablidade
de um instrumento, teste ou medida
 O desenvolvimento de escalas - 2 caminhos: base teorica ou  Teorica = seleciona questoes que sao sabidamente ou reconhecidamente
base empirica; relevantes do ponto de vista de uma teoria me particular, como McGill Pain
Questionnaire.
Empirica = Um grange numero de itens sao testados e

procedimentos estatisticos sao usados para selecionar
 Como selecionar itens de uma escala?
quais deles predizem melhor os desfechos de interesse
 Escalas ja existentes;
 Informacoes dos pacientes ou individuos que apresentam a condicao
Desvantagem = inconsistencias nas respostas de individuos que se deseja estudar (grupos focais – informantes chave) ;
(i.e. alguns podem responder de maneira nao esperada  Observacao clinica;
para aquele desfecho) sao pouco compreendidas.  Painel de especialistas;

Keszei, Novak, Streiner. Introduction to health measurement scales J Psychosomatic  Resultados de pesquisas anteriores;
research 68 (2010) 319-329. Available from:  Teoria.
https://www.researchgate.net/publication/42388725_Introduction_to_health_measureme
nt_scales
Quando desconhecemos a validade, confiablidade Confiabilidade – estabilidade (teste-reteste);

de um instrumento, teste ou medida intra e entre avaliadores
1. Medidas expressas como variáveis contínuas

• Medidas repetidas de um indivíduo (feitas em duas
ocasiões, ou por diferentes observadores, ou por
diferentes métodos) – Coeficiente de Correlação
IntraClasse.
ANOVA – Streiner & Norman
• Soma dos quadrados, graus de liberdade e média

dos quadrados.
Maiores detalhes: Altman, D. A Pratical Statistics for Medical Research. Chapman &
Cadernos de Saude Publica, 21(3):703-714, 2005. Hall, 1991.
21
Ferramenta Gráfica interessante:
gráfico de Bland & Altman
 Coeficiente de Correlação IntraClasse: é
uma estimativa da fração da variabilidade
É um gráfico de dispersão, no qual as diferenças
total que é gerada pela variação entre os
entre os pares (eixo das ordenadas) são plotados
indivíduos (isso é o que queremos!).
contra suas médias (nas abscissas)
 Varia entre 0 e 1 (perfeita confiabilidade).

É possível identificar magnitude das diferenças
(inclusive se são sistemáticas ou não),
 É afetado pela amplitude da variação dos identificação de valores extremos e se existe
valores na população estudada. alguma tendência.
22
2. Medidas com respostas categóricas:
Concordância observada ou Percentual de
concordância.
Reflete o percentual de pares concordantes do total de

pares aferidos.
Ex: Suponha que nosso objetivo seja avaliar a concordância para
um dado teste (positivo ou negativo) entre os observadores A e
B:
observador 1
observador 2
Teste + Teste -
Teste + a b
Teste - c d
23
Concordância observada ou Percentual de Exemplo
concordância.
Concordância observada = (a+d) Teste re-teste Monitoramento fatores de Risco à Sáude de
(a + b + c + d) Adolescentes – Rio de Janeiro, 2007.
 Pode ser calculada para medidas com mais de duas
categorias. Pode ser utilizada em estudos de A sua mãe (ou seu responsável) costuma comer alguma
dessas refeições com você?
validade.
 É afetada pela prevalência - tende a ser maior (a) Não
quando a prevalência é muito alta (resultando numa (b) Sim, todos os dias
(c) Sim, 5 a 6 vezes por semana
alta proporção de positivos/positivos, especialmente (d) Sim, 3 a 4 vezes por semana
quando a sensibilidade é alta. (e) Sim, 1 a 2 vezes por semana
 Não leva em conta que a concordância pode ter (f) Sim, mas apenas raramente
sido ao acaso.
Questionário 2
Kappa (Cohen, 1960)
Total
Fração da concordância observada que não é
Questionário 1 Sim (alguma frequência) Não (raramente)
devida ao acaso (chance) em relação a
concordância máxima que não é devido ao acaso.
Sim (alguma 129 4 133
freqüência) k= Po – Pe
Não
(raramente)
11 58 69 1 - Pe
Po é a proporção da concordância
140 62 202 observada;
Pe é a concordância devida ao
acaso;
1 – Pe é a máxima concordância
Concordância observada: 129 + 58 / 202 = 0,92 que não é devida ao acaso
Ou 92% das respostas foram concordantes.

Pode ser utilizado com medidas que tem mais de duas categorias
24
Questionário 2
Total
Questionário 1 Sim (alguma Não Kappa
frequência) (raramente)
Sim (alguma 129 4 133

freqüência)  Quanto mais próximo de um, maior a concordância
Não 11 58 69
(confiabilidade);
(raramente)  Classificações arbitrárias – acima de 0,8 todos os
140 62 202 autores indicam muito boa, alta, ou excelente
confiabilidade.
Po= 0,92;  Em geral, utilizado para avaliar concordância entre
Pe= (140*133) + (62*69) / 202 2 = 0,5611 métodos (não existe padrão-ouro).
k=Po – Pe / 1 – Pe = 0,92 – 0,5611 / 1 – 05611 = 0,82 - Índice, não
pode ser interpretado como percentual.
Validade de constructo
 Técnicas de análise multivariada:
Análise factorial O que fazer para manter a
Hipótese - medidas de associação confiabilidade e validade das
Consistência interna – alfa de Cronbrach medidas no estudo
25
No planejamento do estudo
“Se você consegue medir o que está
 No planejamento do estudo, o que falando e pode expressar isso em
podemos fazer para melhorar a números, você sabe algo de seu
qualidade das medidas? assunto, mas se você não pode medir
isso, seu conhecimento é pobre e
 Durante o andamento do estudo? insatisfatório.”
William Thomson, Lord, Kelvin,

engenheiro, matemático e físico
(1824-1907)
Leitura Recomendada
Szklo & Nieto (2006) Cap 8, Garantia e Controle de Qualidade;
Streiner & Norman (2003) Cap 10, Validity;
Gordis (2008) Epidemiology 4th edition. Cap 5.
HERDMAN, M.; FOX-RUSHBY, J. & BADIA, X., 1998. A model of

equivalence in the cultural adaptation of HRQoL instruments: The
universalist approach. Quality of Life Research, 7:323-335.
Reichenheim, ME, Moraes, CL. Operacionalização de adaptação

transcultural de instrumentos de aferição usados em epidemiologia. Rev
Saúde Pública 2007;41(4):665-73
Reichenheim & Moraes, Alguns pilares para a apreciação da validade de

estudos epidemiológicos. Rev.. Bras.. Epidemiol. Vol. 1, Nº 2, 1998
26

Aula Validade Confiabilidade2

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula Validade Confiabilidade2

Enviado por

Direitos autorais:

Formatos disponíveis

“A pesquisa em saúde visa

primariamente encontrar respostas para

Schmidt et al (Rev Saúde Pública 2013;47(Supl 2):105-12)

Anormal = associado a doenças

(Szklo & Nieto, 2006)

Testes com alta sensibilidade são bem aplicados em

os mais importantes são a confiabilidade natureza do que se pretende

O processo de redução O processo de redução

CONCEITO VARIÁVEL INDICADOR MEDIDA Calor Temperatura Dilatação de uma Extensão da

 Tromboembolia pulmonar – cintilografia vs o

 um achado no exame físico – resultados de

 Dor, náusea, depressão, medo

 Medidas válidas, sem viés de informação (erro

 Constructo Ex.: escala APGAR de medida de vitalidade do recém-

Validade, Acurácia (validity, accuracy) Validade de critério

(2) classe social combinando elementos de ocupação,

AS APARÊNCIAS PARA A MENTE

Epictetus, Séc. II D.C.

Teste ** Verdadeiro Falso Positivo Total testes Positivo

a probabilidade de ela ser doente? n=9 n= 889

 prevalência da doença na população

Valor Preditivo e Prevalência VALOR PREDITIVO

70% PVP PVN

Prevalência VP+ Sensibilidade Especificidade

 Quanto maior a prevalência, quanto maior o valor

Relação entre Prevalência da Doença e

+ 99 495 594 + 99 495 594

Totais 100 9.900 10.000 Totais 100 9.900 10.000

+ 495 475 970 + 495 475 970

Totais 500 9.500 10.000 Totais 500 9.500 10.000

Sensibilidade=99%, Especificidade= 95% Sensibilidade=99%, Especificidade= 95%

Quanto mais específico, melhor o VPP 99,0 99,9 50,0

Assim: Teste de Esforço para diagnóstico DC, meta-análise:

o resultado negativo de um teste sensível (melhor VPN)

Razão de Verossimilhança negativa = c / a + c

RAZÃO DE VEROSSIMILHANÇA (razão de

 Razão de verossimilhança do teste negativo:

Ponto de corte com o mínimo erro

O efeito de mudanças nos

 O que acontece quando solicitamos

 E quando os teste são realizados em

Testes em paralelo Testes em série e em paralelo

 Assim como a confiabilidade, validade não é tudo ou

Contexto – Quando se avalia

2. Observações do indivíduo em duas ocasiões  A variabilidade que interessa é a dos

3. Entre aferidores na mesma ocasião (confiabilidade  Mas, há outras fontes (imprecisão do

Variabilidade devido à imprecisão de Paciente B - Média

 A variabilidadedo próprio sujeito

dia a dia; variabilidade fisiológica da

• Para prover informações úteis sobre o erro da

• Uma vez que a variabilidade entre indivíduos é

Pense na operacionalização disso e

Empirica = Um grange numero de itens sao testados e

Quando desconhecemos a validade, confiablidade Confiabilidade – estabilidade (teste-reteste);

1. Medidas expressas como variáveis contínuas

ANOVA – Streiner & Norman

• Soma dos quadrados, graus de liberdade e média

 Varia entre 0 e 1 (perfeita confiabilidade).

Reflete o percentual de pares concordantes do total de

Ou 92% das respostas foram concordantes.

Sim (alguma 129 4 133

William Thomson, Lord, Kelvin,

Streiner & Norman (2003) Cap 10, Validity;

Gordis (2008) Epidemiology 4th edition. Cap 5.