Você está na página 1de 9

Validade e confiabilidade dos instrumentos de medição utilizados na pesquisa.

Kimberlin e almut G. Winterstein

Finalidade. As questões relacionadas à validade e confiabilidade dos instrumentos de medição utilizados


na pesquisa são revisadas. Resumo. Os indicadores-chave da qualidade de um instrumento de medição
são a fiabilidade ea validade das medidas. O processo de desenvolvimento e validação de um
instrumento é, em grande parte, focado na redução de erros no processo de medição. As estimativas de
confiabilidade avaliam a estabilidade das medidas, a consistência interna dos instrumentos de medição
ea confiabilidade inter-avaliadores das pontuações dos instrumentos. Validade é a medida em que as
interpretações dos resultados de um teste são justificadas, o que depende do uso específico que o teste
pretende servir. A resposta da medida à mudança é de interesse em muitas das aplicações nos cuidados
de saúde onde a melhoria nos resultados como resultado do tratamento é um objectivo primário da
investigação. Várias questões podem afetar a precisão dos dados coletados,
Tais como aquelas relacionadas a fontes de dados de auto-relato e secundárias. O auto-relato de
pacientes ou sujeitos é necessário para muitas das medições realizadas nos cuidados de saúde, mas os
auto-relatos de comportamento são particularmente sujeitos a problemas com os desejos de
desejabilidade social. Os dados que foram originalmente reunidos para uma finalidade diferente são
freqüentemente usados para responder a uma pergunta de pesquisa, o que pode afetar a aplicabilidade
ao estudo em questão. Conclusão. Nas pesquisas em saúde e nas ciências sociais, muitas das variáveis
de interesse e resultados que são importantes são conceitos abstratos conhecidos como construções
teóricas. O uso de testes ou instrumentos que sejam válidos e confiáveis para medir essas construções é
um componente crucial da qualidade da pesquisa.

A medição é a atribuição de números a observações para quantificar fenômenos. Na área da saúde,


muitos desses fenômenos, como qualidade de vida, aderência do paciente, morbidade e eficácia da
droga, são conceitos abstratos conhecidos como construções teóricas. A medição envolve a
operacionalização dessas construções em variáveis definidas e o desenvolvimento e aplicação de
instrumentos ou testes para quantificar essas variáveis. Por exemplo, a eficácia do fármaco pode ser
operacionalizada como a prevenção ou atraso no início da doença cardiovascular, eo instrumento de
medição relacionado pode determinar dados sobre a ocorrência de eventos cardíacos a partir de registos
médicos do doente. Este artigo centra-se principalmente em questões psicométricas na medição dos
resultados relatados pelos pacientes. No entanto, aspectos semelhantes da qualidade da medição se
aplicam aos resultados clínicos e econômicos. As etapas para melhorar as medidas usadas na pesquisa
da farmácia são delineadas também.
medição. Interrater confiabilidade. A confiabilidade inter-avaliador (também chamada de concordância
interobservador) estabelece a equiva- lência de classificações obtidas com um instrumento quando usado
por diferentes observadores. Se um processo de medição envolve julgamentos ou avaliações por
observadores, uma medição confiável exigirá consistência entre avaliadores diferentes. A confiabilidade
de Interrater exige avaliações completamente independentes do mesmo evento por mais de um
avaliador. Nenhuma discussão ou colaboração pode ocorrer quando a confiabilidade está sendo testada.
A confiabilidade é determinada pela correlação dos escores de dois ou mais avaliadores independentes
(para avaliações em um contínuo) ou o coeficiente de concordância dos julgamentos dos avaliadores.
Para variáveis categóricas, o kappa de Cohen é comumente usado para determinar o coeficiente de
concordância. 2 Kappa é usado quando dois avaliadores ou observadores classificam eventos ou
observações em categorias com base em critérios de classificação. Ao invés de um simples acordo
percentual, kappa leva em conta o acordo que poderia ser esperado por acaso sozinho. Muitas vezes,
instrumentos observacionais ou escalas de avaliação são desenvolvidos para avaliar os comportamentos
de sujeitos que estão sendo observados diretamente. No entanto, qualquer medida que se baseie nos
julgamentos dos avaliadores ou observadores exige evidências de que qualquer especialista
independente e treinado chegaria à mesma conclusão. Assim, a confiabilidade entre os avaliadores deve
ser estabelecida quando os dados são extraídos dos prontuários ou quando os diagnósticos ou
avaliações são feitos para fins de pesquisa. A confiabilidade entre pesquisadores em pesquisas como
essa depende do desenvolvimento de definições operacionais precisas das variáveis que estão sendo
medidas, bem como de observadores bem treinados para usar o instrumento. A confiabilidade inter-
avaliadora é otimizada quando os critérios são explícitos e os avaliadores são treinados para aplicar os
critérios. Os avaliadores devem ser treinados como tomar uma decisão de que um evento ocorreu ou
como determinar qual ponto na escala que mede a força ou o grau de um fenômeno (por exemplo, uma
escala de 3 pontos que mede a gravidade de uma doença) deve ser aplicado. Quanto mais o julgamento
individual estiver envolvido em uma classificação, mais crucial é que os observadores independentes
concordem ao aplicar os critérios de pontuação. Antes de começar a coleta de dados, a capacitação deve
incluir vários casos em que os avaliadores respondem às situações simuladas que encontrarão e
avaliarão, a confiabilidade entre os avaliadores é calculada, os desacordos são esclarecidos e um nível
de critério de concordância é atingido. Confiabilidade inter-avaliador deve ser novamente verificada ao
longo do estudo. Mesmo quando os instrumentos observacionais estabelecidos estão sendo usados ou
os critérios são explícitos, a pesquisa que se baseia em observações ou julgamentos deve verificar a
confiabilidade eo protocolo de estudo deve incluir procedimentos para determinar o nível de concordância
do observador. Na maioria dos estudos, uma percentagem de observações (por exemplo, o número de
cartas revisto) é seleccionada aleatoriamente para a pontuação por dois avaliadores independentes Em
vez de exigir que dois avaliadores julguem todas as observações. Além disso, dados para estabelecer a
consistência com que o avaliador primário aplica os critérios ao longo do tempo são importantes para
estabelecer a confiabilidade do instrumento. A deriva de avaliador pode ocorrer quando um avaliador
individual altera a maneira como ele ou ela aplica os critérios de pontuação (isto é, tornando-se mais
leniente ou rigoroso) ao longo do tempo. Os investigadores que constroem verificações de confiabilidade
ao longo do estudo à medida que os dados são coletados em vez de esperar até o final da coleta de
dados pode identificar instâncias onde a confiabilidade inter-avaliadores começou a se deteriorar, talvez
devido à deriva do avaliador. Validade. A validade é muitas vezes definida como a medida em que um
instrumento mede o que pretende medir. A validade requer que um instrumento seja confiável, mas um
instrumento pode ser confiável sem ser válido. Por exemplo, uma escala calibrada incorretamente pode
produzir exatamente os mesmos valores de peso, embora imprecisos. Um teste de múltipla escolha
destinado a avaliar as habilidades de aconselhamento de estudantes de farmácia pode produzir
resultados confiáveis, mas pode realmente avaliar o conhecimento do fármaco em vez da capacidade de
se comunicar efetivamente com os pacientes ao fazer uma recomendação. Enquanto falamos da validade
de um teste ou instrumento, validade não é uma propriedade do próprio teste. Em vez disso, validade é a
medida em que as interpretações dos resultados de um teste são justificadas, que dependem do uso
pretendido do teste (isto é, a medição da construção subjacente). Grande parte da pesquisa realizada em
cuidados de saúde envolve a quantificação de atributos que não podem ser medidos diretamente. Em vez
disso, conceitos hipotéticos ou abstratos, como a gravidade da doença, a eficácia da droga, a segurança
da droga, a carga da doença, a satisfação dos pacientes, a alfabetização em saúde, a qualidade de vida,
a qualidade da comunicação entre o prestador eo paciente e a adesão aos regimes médicos. medido. As
construções hipotéticas não podem ser medidas diretamente e só podem ser inferidas a partir de
observações de comportamentos ou fenômenos específicos que são pensados como indicadores da
presença do construto.1 A medição de um construto exige que a definição conceitual seja traduzida em
definição operacional. Uma definição operacional de um construto liga a definição conceitual ou teórica a
indicadores mais concretos que têm números aplicados para significar a "quantidade" do construto. A
capacidade de definir operacionalmente e quantificar uma construção é o núcleo de medição. Para
entender como uma construção pode ser operacionalmente definida, considere o exemplo da eficácia de
um novo medicamento. A capacidade de melhorar a saúde do doente pode ser medida pela diminuição
de certos sintomas, pelo atraso no início de uma determinada doença, pelo período de remissão ou pela
prevenção de certas complicações clínicas. Do mesmo modo, a construção teórica da adesão à
medicação pode ser operacionalmente definida como um registo de um mês do número de doses
perdidas, medido por um sistema de monitorização de eventos de medicação (MEMS), que inclui
microprocessadores que registram a ocurrência e o tempo de cada abertura De um frasco de prescrição.
Uma definição operacional da satisfação do paciente com os cuidados de saúde pode ser "respostas
auto-referidas dos pacientes aos itens na versão resumida de 18 itens do Questionário de Satisfação do
Paciente (PSQ)" .6 Uma compreensão ainda mais precisa da definição operacional Envolveria um exame
dos itens específicos do instrumento do PSQ-18. O quão crítico é uma operacionalização concisa,
incluindo fontes de dados e agregação de informações, em termos de validade de medição é ilustrado
com um resultado simples, como o início do diabetes mellitus. A capacidade de um remédio para atrasar
o início pode ser medida por meio de uma simples revisão de prontuário, mas o diagnóstico de diabetes
dependerá da decisão do paciente de buscar cuidados de saúde e da capacidade do provedor de
reconhecer os sintomas e fazer o diagnóstico correto. Desta forma, visitas de acompanhamento
regularmente programadas e o uso de protocolos de rastreio explícitos provavelmente aumentarão a
precisão da estimativa e produzirão um resultado mais válido. Além disso, Crocker e Algina1 apontaram
para a importância de um fundamento teórico, observando que "as construções não podem ser definidas
apenas em termos de definições operacionais, mas também devem ter demonstrado relacionamentos
com outras construções ou fenômenos oberváveis". Reúne informações sobre as construções medidas
por um instrumento específico, mesmo que tenha sido amplamente utilizado na pesquisa, contribui para a
evidência sobre a va- lidade de construto desse teste. Nesse sentido, todos os diferentes estudos e
estratégias de validação que fornecem evidência da validade de um teste para fazer inferências
específicas sobre grupos de respondentes fazem parte da validação de construção. Validade evidência é
construída ao longo do tempo, com validações que ocorrem em uma variedade de populações. As
revisões abrangentes da literatura sobre as abordagens de medição são, portanto, críticas para orientar a
seleção de medidas e instrumentos de medição. Validade do construto. Este tipo de validade é um
julgamento baseado na acumulação de evidências de numerosos estudos utilizando um instrumento de
medição específico. A avaliação da validade de construto requer examinar a relação da medida que está
sendo avaliada com variáveis conhecidas como relacionadas ou teoricamente relacionadas à construção
medida pelo instrumento.1,7 Por exemplo, espera-se que uma medida da qualidade de vida resulte em
escores mais baixos Para pacientes cronicamente doentes do que para estudantes universitários
saudáveis. As correlações que se ajustam ao padrão esperado contribuem com evidência de validade de
construto. Todas as evidências de validade, incluindo a validade de conteúdo e critério, contribuem para a
evidência de validade de construto.
Validade do conteúdo. Esse tipo de validade aborda como os itens desenvolvidos para operacionalizar
uma construção fornecem uma amostra adequada e representativa de todos os itens que podem medir a
construção de interesse. Como não há nenhum teste estatístico para determinar se uma medida cobre
adequadamente uma área de conteúdo ou representa adequadamente uma construção, a validade de
conteúdo normalmente depende do julgamento de especialistas na área. Validade relacionada ao critério.
Esse tipo de validade fornece evidência de quão bem as pontuações da nova medida se correlacionam
com outras medidas da mesma construção ou construções subjacentes muito semelhantes que
teoricamente deveriam estar relacionadas. É fundamental que essas medidas de critério sejam elas
próprias válidas. Com um tipo de validade de critério-validade-preditiva-a medição do critério é obtida em
algum momento após a administração do teste, ea capacidade do teste para prever com precisão o
critério é avaliada. Por exemplo, resultados de surrupção como a pressão arterial e os níveis de colesterol
são baseados em sua validade preditiva na projeção do risco de doença cardiovascular, mesmo que
algumas dessas associações tenham sido recentemente questionadas. Outro tipo de validade
relacionada ao critério é a validade concorrente. Ao estabelecer a validade concomitante, as pontuações
de um instrumento são correlacionadas com as pontuações em outra (critério) medida da mesma
construção ou uma construção altamente relacionada que é medida de forma concisa nos mesmos
sujeitos. Idealmente, a medida de critério seria considerada como a medida padrão-ouro da construção.
Essa estratégia de determinar a validade de uma medida pode ser vista em uma situação em que um
novo instrumento tem alguma vantagem sobre a medida padrão-ouro, como uma maior facilidade de uso
ou tempo ou despesa reduzida de administração. Estas vantagens justificariam o tempo eo esforço
envolvidos no desenvolvimento e validação de um novo instrumento. Um exemplo de tal situação é um
pesquisador que desenvolve uma versão auto-administrada de um instrumento que tinha sido validado
para a administração do entrevistador pessoa a pessoa. Outro exemplo é um pesquisador clínico que
deseje usar um breve instrumento de triagem para uma condição, como depressão, em vez de
administrar uma medida mais extensa. Os pesquisadores de um estudo, por exemplo, examinaram a
validade de uma pergunta de um único item, "Muitas vezes você se sente triste ou deprimido?", Contra
um instrumento mais extenso e validado para identificar a depressão após um acidente vascular
cerebral.8 A mesma abordagem se aplica às fontes de diagnóstico dados. Por exemplo, os
pesquisadores podem querer determinar a validade do uso de dados de alegações administrativas para
medir uma construção representada por um determinado evento clínico, como a hospitalização para
infarto agudo do miocárdio, ao invés de usar revisões de gráficos, que consomem tempo e são
dispendiosas. Selecionar uma medida de critério apropriada e significativa pode ser um desafio. Muitas
vezes, o critério final que um pesquisador gostaria de ser capaz de prever é muito distante no tempo ou
muito caro para medir. O "problema-critério" existe para muitas das medidas de critério final que os
pesquisadores gostariam de prever na pesquisa em saúde. Por exemplo, um estudo que vise avaliar o
efeito do cuidado farmacêutico sobre a "saúde" de pacientes hipertensos provavelmente não terá o tempo
de seguimento necessário para estabelecer que a intervenção resulta em morbidade ou mortalidade
reduzida. Em vez disso, um resultado substituto, como a redução da pressão arterial, é usado. O custo de
administração das "melhores" medidas de critério também pode ser uma barreira. Por exemplo, um
investigador pode querer validar uma nova medida de auto-relato de aderência à medicação com
medição simultânea usando uma tampa MEMS. No entanto, como a tecnologia MEMS é cara, uma
medida menos onerosa, como contagem de pílulas ou registros de recarga, pode ser usada para fornecer
evidência de validade concorrente. Capacidade de resposta
A capacidade de resposta é a capacidade de uma medida detectar a alteração ao longo do tempo na
construção de interesse. Para as medidas de resultado destinadas a avaliar os efeitos das intervenções
médicas ou educativas, é necessária a capacidade de resposta às alterações resultantes da intervenção.
A confiabilidade é um componente crucial da responsividade. O "ruído" que é devido ao erro de medição
pode mascarar as mudanças que, de fato, podem ser atribuídas à intervenção. Por exemplo, usar uma
escala fabricada para pesar caminhões não será útil ao avaliar um novo medicamento para perda de
peso em seres humanos, porque as estimativas serão muito imprecisas para identificar pequenas
mudanças. A medição será válida, mas não confiável ou imprecisa. Um novo instrumento de qualidade de
vida específico da doença que não tenha demonstrado estabilidade ao longo do tempo quando não há
alteração no estado de saúde (que pode ser uma indicação de erro de medição) pode não ser capaz de
detectar alterações no estado de saúde. As medidas que têm efeitos máximos têm uma capacidade
limitada de avaliar as mudanças positivas que podem resultar da intervenção porque há espaço limitado
para que os sujeitos melhorem suas pontuações. A capacidade de resposta à mudança pode
legitimamente diferir de uma população para outra, razão pela qual a medida deve ser adequada aos
assuntos em estudo. Por exemplo, uma medida das atividades da vida diária que inclui a capacidade de
vestir-se ou lavar-se pode ser responsiva à mudança entre uma população idosa de pacientes
submetidos a fisioterapia ou reabilitação cardíaca. No entanto, provavelmente não seria sensível à
mudança devido a um efeito de teto entre um grupo mais jovem de pacientes hipertensos recentemente
diagnosticados que não experimentaram incapacidade significativa devido à doença ou ao processo de
envelhecimento.
Seleção de um instrumento existente
Antes de desenvolver um novo teste ou medida, um investigador deve identificar os instrumentos
existentes que medem a construção de interesse. Usar um instrumento existente que tenha provas
substanciais de confiabilidade e validade em uma variedade de populações é mais custo-efetivo do que
começar do zero para desenvolver e validar um instrumento. Na selecção de um instrumento, devem ser
abordadas as seguintes questões:
1. Já existem instrumentos que medem um construto idêntico ou muito semelhante ao que você deseja
medir? Antes de começar a procurar instrumentos, você deve ter uma construção ou conceito claramente
definido que você deseja medir, juntamente com uma definição operacional e alguma evidência de que a
construção pode ser medida conforme definido. Por exemplo, há concordância de que a eficácia de uma
nova medicação para diminuir a pressão arterial é finalmente definida por uma redução nos eventos
macrovasculares, mas que sobre a eficácia de um agente paliativo para pacientes com câncer? Uma
pesquisa bibliográfica pode ajudar a identificar como outros pesquisadores definiram a construção ou
uma construção estreitamente relacionada. A pesquisa de literatura irá idealmente resultar em uma lista
de resultados e instrumentos que você pode avaliar para possível uso em sua pesquisa. 2. Quão bem as
construções nos instrumentos que você identificou correspondem à construção que você definiu
conceitualmente para o seu estudo? Ao avaliar se há congruência, não confie no título da medida ou na
definição operacional do construto que aparece em um artigo de pesquisa ou na descrição de variáveis
em uma base de dados secundária, como um registro médico ou reivindicações administrativas base de
dados. A compreensão real da medida geralmente requer um exame dos itens ou questões reais e da
forma como os dados foram gerados ou documentados. Por exemplo, a revisão dos itens reais usados
em um questionário para avaliar a qualidade de vida específica da doença proporcionará uma melhor
compreensão de que aspecto ou conceituação da qualidade de vida é abordada. Falar com os médicos
sobre suas notas de progresso ajudará a decidir se determinadas informações do paciente podem ser
esperadas para serem documentadas em um gráfico do paciente ou o que é muitas vezes omitido. 3. A
evidência de confiabilidade e validade está bem estabelecida? A medida foi avaliada usando vários tipos
de estimativas de confiabilidade (por exemplo, consistência interna e teste-reteste) e variadas estratégias
para estabelecer validade (por exemplo, conteúdo e validade concorrente, bem como evidências mais
extensas de validade de construto em populações variadas) ? Tem sido validado em uma população
semelhante à que você vai estudar? 4. Em pesquisas anteriores, houve variabilidade nos escores sem
efeitos de piso ou de teto? Será que os estudos anteriores têm uma grande quantidade de dados em
falta, quer sobre a medida em si ou sobre itens dentro da medida? 5. Se a medida deve ser usada para
avaliar os resultados da saúde, os efeitos das intervenções ou as mudanças ao longo do tempo, existem
estudos que estabelecem a capacidade de resposta do instrumen- to à mudança na construção do
interesse? Obviamente, é importante que a mudança na medição seja devida à mudança no construto e
não à instabilidade dos escores (isto é, falta de confiabilidade da medida). Além disso, seria útil se
houvesse dados sobre quanta alteração nas pontuações seria necessário para ser considerado
clinicamente significativo. 6. O instrumento é o do- cumento público? Caso contrário, será necessário
obter permissão do autor para sua utilização. Mesmo que um instrumento seja publicado na literatura
científica, isso não significa automaticamente que ele está no domínio público, e a permissão do autor e
editor pode ser necessária. Se for um instrumento com direitos de autor, poderá ter de pagar uma taxa
para comprar ou utilizar o instrumento. Alguns instrumentos também podem exigir taxas adicionais para
pontuação.
7. Quão caro é usar o instrumento? Um questionário postal custa menos para administrar do que
entrevistas telefônicas ou face a face. Usando dados eletrônicos é geralmente menos onerosa e
demorada do que conduzir revisões de registro médico. No entanto, os dados eletrônicos podem não
conter informações disponíveis nos prontuários dos pacientes, de modo que é importante compreender
completamente as limitações dos dados disponíveis, bem como os requisitos de medição para seu
estudo. 8. Se o instrumento é administrado por um entrevistador ou se a medida requer o uso de juízes
ou peritos, quanta experiência ou formação específica é necessária para administrar o instrumento? 9. O
instrumento será aceitável para os sujeitos? O teste requer procedimentos inva- sivos? O nível de leitura
é apropriado? O fardo do respondente, incluindo a complexidade das perguntas eo tempo necessário
para completar o instrumento, provavelmente não afetará as taxas de resposta ou a qualidade das
respostas?
Tenha em mente que a evidência de confiabilidade e validade de instrumentos estabelecidos é aplicável
somente se você usar o instrumento no mesmo formulário e seguir os mesmos procedimentos de
administração usados no estudo de validação. As modificações de instrumentos validados podem exigir
permissão dos desenvolvedores e também exigem a validação do instrumento modificado como se fosse
um novo instrumento. Os pesquisadores podem ser tentados a concluir que as medidas disponíveis não
atendem às suas necessidades e que devem desenvolver seus próprios instrumentos. Eles podem ver as
medidas que querem desenvolver como sendo tão simples, como algumas perguntas medindo o
conhecimento do paciente ou um item específico de um prontuário médico, que eles não precisam
realizar um teste piloto para determinar a confiabilidade e validade. Os pesquisadores podem então fazer
um esforço considerável colecionando dados apenas para descobrir no final do estudo que os sujeitos
não variam muito em suas respostas ao instrumento ou que a documentação no gráfico era inadequada,
então a medida não foi capaz de se correlacionar com qualquer outro Variável de interesse. Os sujeitos
podem interpretar mal as perguntas. As respostas podem ser altamente distorcidas. A consistência
interna pode ser tão baixa que as respostas de itens não podem ser razoavelmente combinadas em uma
única pontuação somada. Em outros tipos de estudos, um pesquisador pode obter resultados
tendenciosos por supor incorretamente que os códigos diagnósticos são válidos sem determinar sua
relação com outras medidas que devem indicar a presença da doença. Supondo que registros médicos
captem adequadamente as informações necessárias para construir uma medida e que os revisores de
gráficos interpretem a informação uniformemente também pode ameaçar a validade dos achados. Uma
atenção cuidadosa ao desenvolvimento de instrumentos, independentemente de quão simples as
medidas possam parecer, juntamente com testes piloto para determinar sua confiabilidade e validade, é
crucial para a condução da pesquisa de qualidade.
Teoria do item-resposta
Nos últimos anos, os modelos de Rasch e a teoria da resposta ao item (IRT) ou latente-traço forneceram
uma estrutura alternativa para a compreensão de medidas e estratégias alternativas para julgar a
qualidade de um instrumento de medição. Os leitores são encaminhados a outros recursos para obter
mais informações sobre os modelos Rasch e IRT.1,9-11 Os Institutos Nacionais de Saúde, juntamente
com equipes de pesquisa nos Estados Unidos, iniciaram o desenvolvimento do Sistema de Informação de
Medidas de Resultados de Pacientes Criam bancos de itens de resultados relatados por pacientes
validados usando a moderna teoria de medição.12 Esta iniciativa está criando grupos de itens e
desenvolvendo questionários que medem os principais resultados de saúde relacionados a muitas
doenças crônicas, incluindo medidas como fadiga e dor. Esses itens estarão disponíveis para os
pesquisadores eo repositório se tornará um recurso para "a medição precisa e eficiente dos sintomas
relatados pelos pacientes e outros resultados de saúde na prática clínica" 12.
Medições usando auto-relato
Para muitas das medidas utilizadas em cuidados de saúde, os investigadores confiam no auto-relatório
de pacientes ou indivíduos. Com pesquisas, os pesquisadores confiam nas respostas às perguntas para
fornecer medições das construções de interesse. Embora os auto-relatos de comportamento, crenças e
atitudes sejam propensos a vieses conhecidos, não existem meios alternativos aceitáveis de medição
para muitas construções (por exemplo, nível de dor, depressão, satisfação do paciente com o cuidado,
qualidade de vida). Auto-relatos de comportamento, tais como ingestão dietética, aderência aos regimes
de medicação e freqüência e intensidade de exercícios estão particularmente sujeitos a problemas com
os desejos de desejabilidade social. Os indivíduos podem fornecer respostas socialmente aceitáveis ou
que estejam de acordo com a impressão que desejam criar. Além disso, as perguntas de auto-relato
podem induzir uma estimativa da frequência comportamental, em vez da resposta de recordação e
contagem desejada pelo pesquisador. O uso de estimativa em vez de recall é uma função de como a
informação é recuperada da memória, como as escalas de resposta de freqüência são formuladas e
outros aspectos específicos do instrumento.13-15 Por exemplo, comportamentos que ocorrem com alta
freqüência , Como ingestão dietética ou tomar uma medicação programada para uma condição crônica,
não são susceptíveis de ser específico na memória por um período muito longo de tempo. Se for
desejável que eventos específicos sejam chamados ao invés de estimados, o período de tempo deve ser
de duração muito curta e no passado imediato. Portanto, perguntando aos pacientes quantas doses de
um medicamento que eles perderam no mês passado ou no ano passado provavelmente resultará em
uma estimativa ou um palpite educado, enquanto uma pergunta sobre as últimas 24 horas ou três dias
pode refletir o recall real. Perguntando aos sujeitos sobre estressores que encontraram nas últimas 24
horas é provável que levem à relembrança de aborrecimentos menores diários, enquanto uma pergunta
sobre estressores no ano passado é susceptível de levar os sujeitos a interpretar a questão como sendo
sobre os principais eventos da vida e resposta adequadamente. Quando uma lista de respostas
alternativas é fornecida, as próprias opções de resposta determinam a maneira como os sujeitos
interpretam a questão e a maneira como respondem. Muitas vezes, as escolhas de resposta requerem
que os sujeitos forneçam seu próprio juízo sobre a freqüência usando alternativas de resposta indefinidas
(por exemplo, numa escala ordinal de "raramente" a "freqüentemente"). Tais termos podem significar
coisas muito diferentes para assuntos diferentes. Uma pessoa que relata ingerir uma quantidade
"moderada" de álcool pode estar se referindo a duas a três bebidas alcoólicas por dia, enquanto outra
pessoa pode definir o consumo moderado como duas a três bebidas por mês. Ao fazer perguntas sobre a
freqüência do comportamento, geralmente é melhor deixar o assunto preencher o espaço em branco em
um item com um período de referência claramente definido. Um exemplo de tal pergunta é "Quantas
doses de (medicamento específico) você perdeu tomando completamente nos últimos três dias?" O
formato aberto requer uma descrição específica do comportamento de interesse, bem como um período
de tempo específico. O Grupo Europeu de Questionários da Associação Epidemiológica Internacional
publicou um relatório sobre os problemas resultantes dos questionários utilizados para recolher
informações sobre a exposição, os resultados e os factores de confusão16.
Os resultados publicados muitas vezes não conseguem reproduzir a formulação exata das perguntas-
chave usadas para definir exposições ou resultados, nem sempre fornecem informações adequadas
sobre como os instrumentos de coleta de dados foram desenvolvidos ou se procedimentos como pré-
testes, validade ou estudos-piloto Foram utilizados para garantir a precisão.
O uso de medidas de auto-relato ou mal projetadas pode resultar em viés de misclassification (erro na
classificação do estado de exposição ou efeito [por exemplo, doença] em pacientes ou sujeitos). Por
exemplo, demonstrou-se que o paciente recorda da exposição anterior a fármacos está sujeito a erro.17-
19 Em estudos caso-controle, o viés de memória é preocupante quando não há marcadores objetivos de
exposição. Os indivíduos com a doença ou o desfecho de interesse são mais propensos a se lembrar das
exposições relevantes do que os controles saudáveis.20 Uma abordagem que é recomendada para lidar
com esse viés de recall é ter um grupo de controle afetado por uma doença diferente da dos casos para
introduzir um Tendência para a retirada da exposição.
Uso de dados secundários Dados
Originalmente reunidos para um propósito diferente são freqüentemente usados para responder a uma
pergunta de pesquisa. Esses dados podem ter abordado uma questão de pesquisa diferente ou podem
ter sido coletados para fins clínicos, de faturamento ou jurídicos. Os dados secundários incluem registros
de farmácia, registros médicos eletrônicos ou de papel, registros de pacientes e dados de reivindicações
de seguros. A primeira consideração ao decidir se os dados secundários podem ser usados é verificar se
o conjunto de dados mede apropriadamente as variáveis necessárias para responder às perguntas da
pesquisa. Se os elementos de dados não estiverem presentes, pode-se considerar se as medidas de
proxy apropriadas das variáveis de interesse estão disponíveis. O uso de medidas proxy requer uma
cuidadosa análise conceitual de quão estreitamente estão associadas as variáveis de interesse e
medidas proxy. Por exemplo, parece intuitivo que um banco de dados de reivindicações poderia ser
usado para identificar todos os pacientes que sofreram um acidente vascular cerebral durante um
determinado período de tempo, desde que fossem elegíveis para benefícios. No entanto, acidentes
vasculares cerebrais pode ter sido silenciosa e não exigiu nenhuma intervenção médica, os pacientes
podem ter morrido antes de cuidados médicos poderiam ser procurados, acidente vascular cerebral pode
ter sido diagnosticada, ou certos serviços médicos podem não ter sido cobertos pela companhia de
seguros e, portanto, Banco de dados de faturamento. A compreensão de como a informação
representada no conjunto de dados foi gerada, se e como ela foi codificada, quem codificou e para que
finalidade, e como a codificação consistente foi entre sites e em momentos diferentes em conjuntos de
dados longitudinais ou entre diferentes codificadores é importante na avaliação A confiabilidade dos
dados. A utilização de códigos diagnósticos em dados de carga de encontros clínicos tem sido
freqüentemente criticada porque a seleção de códigos é muitas vezes motivada pelo reembolso e não
pela precisão clínica. Examinar a pesquisa anterior que aplicou esses conjuntos de dados pode ajudar a
determinar o que é conhecido sobre a confiabilidade e validade dos dados. Mesmo quando se utilizam
prontuários médicos originais, deve-se reconhecer que essas informações não foram coletadas para fins
de pesquisa e que a documentação foi guiada pela política institucional, pelo treinamento do provedor e
pela preferência do provedor. Além disso, embora a revisão retrospectiva de cartas seja frequentemente
utilizada como padrão-ouro para a validação de outras medidas, a revisão de mapas é, ela própria,
vulnerável a problemas de falta de fiabilidade, embora a confiabilidade dos dados extraídos dos gráficos
não seja frequentemente relatada na pesquisa Artigos. Uma revisão da pesquisa em revistas de medicina
de emergência descobriu que, de 244 artigos que utilizam a revisão de gráficos para a abstinência de
dados, a confiabilidade entre os pesquisadores foi mencionada em 5% e testada estatisticamente em
apenas 0,4% dos artigos.21 Os autores da revisão também re- Não foram mencionados nos métodos de
estudo os passos adicionais para garantir a confiabilidade e validade dos dados de revisão de cartas (por
exemplo, uso de um formulário de abstração padronizado, treinamento de abstração, monitoramento de
abstração, cegamento de res- sumidores para estudar hipóteses). A cegueira para estudar as hipóteses
foi mencionada em apenas 3% dos estudos, mesmo que o viés do observador seja uma fonte
reconhecida de resultados de estudos inadequados. Outros pesquisadores descobriram que certos tipos
de elementos de dados extraídos de gráficos não possuem níveis adequados de confiabilidade entre
pesquisadores.22 Os pesquisadores interessados em extrair dados de prontuários médicos são
encaminhados a artigos que descrevem procedimentos que podem ajudar a garantir a qualidade dos
dados extraídos.23,24
Uso de medidas de substituição A Administração de Alimentos e Drogas define um parâmetro de
substituição de um ensaio clínico como "uma medida laboratorial ou um sinal físico usado como
substituto de um parâmetro clinicamente significante que mede diretamente como o paciente sente, , Ou
sobrevive. As mudanças induzidas por uma terapia em um resultado substituto devem refletir mudanças
em um desfecho clinicamente significativo ".25 O uso de resultados substitutos para definir
operacionalmente uma construção, como a eficácia da droga, tornou-se cada vez mais popular, uma vez
que a aplicação dessas medidas é tipicamente Mais rápido e menos dispendioso. Os resultados são
obtidos após períodos de seguimento mais curtos, reduzindo-se o número de pacientes eo tempo de
participação dos pacientes nos experimentos. Para que um resultado substituto seja válido, ele deve
estar na via fisiopatológica direta de uma doença e deve ser razoável esperar que a ação farmacológica
do novo fármaco seja mediada por essa via. Se essas duas condições forem verdadeiras, o efeito do
fármaco sobre o resultado da surra pode ser extrapolado para medidas "verdadeiras" de
morbimortalidade. Por exemplo, o estudo de substituição de coração e estrogênio / progestina descobriu
que a melhora demonstrada nos níveis de lipoproteína de baixa densidade (LDL) e de colesterol de
lipoproteína de alta densidade Não resultar em uma melhora esperada em eventos cardíacos.27 Mais
recentemente, o Efeito
Do Ezetimibe Combinada e Simvastatina de Alta Dose Simversastin contra o Simulastatina Sozinho no
Processo Aterosclerótico em Sujeitos com Hipercolesterolemia Familiar Heterozigótica (ENHANCE)
encontrou resultados negativos para efeitos na espessura da íntima-mídia, embora a combinação de
ezetimiba e simvastatina Demonstraram efeitos melhorados nos níveis de colesterol LDL, bem como na
proteína C-reativa.28 Estes exemplos alertaram a comunidade de pesquisa de que os resultados
substitutos permanecem nada mais do que substitutos e só podem aproximar a verdade. Existem poucos
resultados de substituição com aceitação científica superior de validade do que o colesterol LDL, o que
deve nos advertir sobre o uso e interpretação dos resultados da pesquisa. Seguindo essa linha de
pensamento e lembrando a discussão anterior da operacionalização de construções teóricas, poderia
argumentar-se que todas as medidas só aproximam a verdade. Medidas inválidas ou não confiáveis
podem prejudicar um estudo na mesma medida que um projeto de estudo pobre ou tamanho de amostra
inadequado.

Conclusão Nas pesquisas em saúde e ciências sociais, muitas das variáveis de interesse e resultados
que são importantes são conceitos abstratos conhecidos como construções teóricas. O uso de testes ou
instrumentos que sejam válidos e confiáveis para medir essas construções é um componente crucial da
qualidade da pesquisa.

Você também pode gostar