Você está na página 1de 7

Avaliação Padronizada para Clínicos

Definição de Psicometria  A redação exata de uma pergunta ou a


A psicometria é o estudo da mensuração do ordem em que as perguntas são feitas
comportamento humano, preocupado com a podem influenciar a resposta - Efeitos de
construção de instrumentos confiáveis e contexto de item.
válidos, bem como procedimentos  A relação entre o examinador e o
padronizados de mensuração. examinando pode influenciar o nível de
esforço que o examinando coloca no
teste, um efeito chamado motivação.
Avaliação estandardizada versus não  Para administrar avaliações padronizadas,
estandardizada os examinadores são treinados para
 Um teste estandardizado pode ser perguntar a cada indivíduo perguntas
descrito como "estruturado" porque idênticas numa ordem específica e com
definiu estruturas de aplicação e cotação um tom neutro para evitar
que são seguidos da mesma forma por inadvertidamente influenciar a resposta.
cada profissional que usa o teste.  Regras de Pontuação/cotação
 Avaliações padronizadas também estandardizadas dão aos examinadores
estruturaram procedimentos para um conjunto comum de regras para que
interpretar os resultados, comparando a possam julgar e pontuar as respostas da
pontuação de um indivíduo com os mesma maneira, ou seja, de maneira
resultados de uma amostra representativa uniforme.
de pessoas com características
semelhantes (idade, sexo, etc.). Porquê os testes estandardizados são
 Um teste é considerado para ter sido uma parte importante das práticas de
"estandardizado" se os dados foram avaliação clínica?
recolhidos em um grande número de Porque ajudam a registar e interpretar
indivíduos e um conjunto de regras dados de forma estandardizada para
estruturadas para a aplicação e uma série confirmar o seu julgamento clínico
de regras de aplicação e cotação foram São importantes para o tratamento, podem
usadas. ser usados para orientar intervenções e
 Os dados recolhidos são usados para mensurar os resultados do tratamento
determinar a pontuação média e o Identificar padrões de pontos fortes e
desvio-padrão. fracos e orientar o desenvolvimento de um
 Os testes não estandardizados não plano de tratamento adequado
possuem dados de um grande número de Para avaliar o progresso do paciente
sujeitos que foram testados e cujo
desempenho foi pontuado exatamente da Porquê os testes estandardizados têm
mesma forma por cada clínico, de acordo vários tipos diferentes de pontuações?
com um conjunto estruturado de regras.
Importância da avaliação
estandardizada
 O número de itens respondidos para que possa comparar o desempenho
corretamente em cada subteste é do indivíduo com os desempenhos de
chamado de pontuação bruta. outros da mesma idade ou nível de classe.
 Exemplo: João de 9 anos de idade
 A pontuação bruta fornece informações
pontuou 32 itens corretos (pontuação
muito pouco. Só pode dizer que o
bruta de 32). Como sabe se essa
examinando tem alguns dos itens
pontuação é alta, baixa ou média?
corretos ou muitos dos itens corretos.
Isto não permite comparar.  Se a média for de 40 pontos, sabe que a
pontuação de João é menor do que a
 As pontuações brutas são convertidas média, mas é: muito baixo ou apenas um
numa pontuação padrão usando uma pouco baixo? Para responder a esta
tabela criada a partir de todos os dados pergunta, é necessário usar o desvio
recolhidos durante a estandardização. padrão do teste.
 Uma pontuação padrão é interpretável  O desvio padrão é derivado dos dados
porque faz referência ao desempenho de normativos do teste. Diz quanta
um examinado em relação à amostra variabilidade há entre os scores dos
estandardizada. indivíduos testados na amostra
 A transformação de pontuações brutas normativa.
em valores predeterminados possibilita a  Se o desvio padrão deste teste é de 4
interpretação dos escores com base em pontos, uma pontuação bruta de 36 seria
uma distribuição normal (curva normal). um desvio padrão abaixo da média de 40.
 Diferentes tipos de pontuações standards Assim sabemos que a pontuação de João
são usadas em testes estandardizados. de 32, que é dois desvios padrão abaixo
da média, é muito baixa. Se o desvio
 A comum é na qual a média de
padrão do teste fosse de 10 pontos,
pontuação bruta do teste é transformada
poderíamos dizer que a pontuação do
em uma pontuação padrão de 100.
João de 32 é inferior a um desvio padrão
 Pontuação T: aplica uma pontuação de abaixo da média — o que não é muito
50 pontos para a média de pontuação baixo.
bruta.
Como as pontuações padrão se
 Classificações de Percentis: Uma relacionam com a curva normal?
classificação percentual indica a
percentagem de pessoas que obtiveram
essa pontuação ou uma menor.
Porquê devo converter o número de
respostas corretas (pontuação bruta) em
outra Pontuação?
 Os scores brutos precisam ser
transformados em pontuações padrão
As pontuações standards são "standards" Distribuição assimétrica positiva - quando ao
porque os dados normativos (a distribuição medir um construto que a maioria dos
indivíduos não pode executar e apenas alguns
podem.

Distribuição assimétrica negativa - quando ao


original dos scores brutos em que se baseiam) medir um constructo que a maioria dos
foram transformados para produzir uma indivíduos de uma idade podem facilmente
curva normal (uma distribuição standard com executar e somente poucos não podem.
uma média e desvio padrão específicos).

 A Figura acima mostra a curva normal e


sua relação com as pontuações padrão.
 A média é o percentil 50. Isso significa
que 50% da amostra normativa obteve Regras básicas e regras de teto
esse score ou menor. Regras básicas Regras de teto
 Um e dois desvios padrão acima da Permite saber quando parar
média são os percentis 84 e 98, Os itens são ordenados a aplicação do teste porque o
respetivamente. do mais fácil ao mais examinado excedeu a
 Um e dois desvios padrão abaixo da difícil capacidade de responder
média são os percentis 16 e 2, corretamente
respetivamente. Permite estabelecer o A regra de descontinuação é
 Enquanto um desvio padrão abaixo da início do teste. Exemplo definida para que após um
média pode não parecer muito baixo, isso crianças vs adolescentes certo número de itens seja
realmente significa que a pontuação deste respondido incorretamente.
indivíduo é melhor do que apenas 16% O ponto inicial em
de todos os indivíduos na sua idade ou qualquer teste é Há menos de 10% de
grau. definido em um nível oportunidade para responder
em que 90% dos corretamente a qualquer um
examinados dos itens restantes
Quando um construto é distribuído de forma responderam aos itens
que os escores se acumulam numa anteriores corretamente
extremidade da curva e diminuem Ajuda a reduzir o Reduz o tempo de aplicação
gradualmente na outra extremidade, a tempo de teste do teste
distribuição é denominada assimétrica.
Administrar apenas os confiabilidade é alta e o erro padrão de
itens apropriados para Evita frustrar o examinando medição é pequeno.
cada examinado  O erro padrão de medição é usado para
criar o intervalo de confiança.
Intervalos de confiança  Um intervalo de confiança mais estreito
significa que tem uma pontuação mais
 Existe sempre algum erro de medição
precisa.
inerente em todos os testes clínicos.
 Alguns testes têm intervalos de confiança
 As fontes de erro de medição incluem:
incorporados nas tabelas de normas.
variação no desempenho humano ao
longo do tempo relacionadas à saúde ou
fadiga, falta de consistência interna, ou Como saber se um teste tem boas
diferenças no rapport. normas?
 A pontuação do examinado pode ser 1. Amostra normativa ampla
ligeiramente superior ou inferior à  A precisão de qualquer pontuação padrão
pontuação específica obtida. depende da precisão da média (da
 É melhor pensar num intervalo de pontuação bruta) e desvio padrão (obtido
pontuações em vez de uma pontuação da amostra normativa usada) para criar
única. as transformações em pontuações padrão.
 O intervalo de confiança é uma escala das  A amostra normativa deve ser grande o
pontuações (scores) em torno da suficiente para fornecer estimativas
pontuação obtida pelo examinado que é estáveis da pontuação média da
mais certo a pontuação com 90% ou 95% população e do desvio padrão.
de probabilidade (ou com mais ou menos  Quanto maior a amostra, mais confiança
5 pontos). terá de que alguns examinados outliers
não tiveram influência indevida na média
da pontuação bruta e no desvio padrão.
Erro padrão de medição
 O erro padrão de medição é uma 2. Representação da amostra
estimativa da quantidade de erro de  Os sujeitos da amostra devem ser
medição em um teste, e é diferente para representativos dos tipos de examinados
cada teste. com os quais será utilizado o teste.
 Conceptualmente é o inverso da  Indivíduos com atraso no
confiabilidade - quanto maior a desenvolvimento ou em risco devem ser
confiabilidade de um teste, menor o erro incluídos num teste de desenvolvimento
padrão de medição. cognitivo, motor e de linguagem precoce
 Conhecendo o erro de medição padrão, para bebés e crianças pequenas?
pode ter mais confiança na precisão de  Fatores conhecidos de investigações
uma pontuação de teste, quando a anteriores que afetam o desempenho na
tarefa de interesse também devem ser
representados na amostra normativa. 1. Fiabilidade de consistência interna
Exemplo: Nível de escolaridade de mães,  Mede até que ponto todos os itens em
pois tendem a fornecer uma estimulação um teste medem o mesmo construto.
de linguagem diferente, tendo um  Fiabilidade da metade dividida ou o
impacto substancial no desenvolvimento coeficiente alfa de Cronbach. Calcular em
cognitivo e de linguagem da criança. que medida os itens de um teste se
 Ao desenvolvedor o teste entender quais correlacionam. Quanto maior a
fatores influenciam as pontuações no correlação entre os itens, podemos
construto. assumir que todos os itens medem a
mesma coisa.
3. Idade de amostra normativa  Este tipo de fiabilidade estima o erro de
 Há quanto tempo atrás, a amostra medição com base na inconsistência no
normativa foi recolhida. conjunto de itens.
 As normas recolhidas há muitos anos  Testes que incluem vários subtestes, deve
podem não representar a população ser calculado separadamente para cada
atual. subteste.
 Exemplo: Na área de avaliação cognitiva,
2. Fiabilidade teste-reteste
as normas tendem a mudar
 O mesmo teste é administrado duas vezes
aproximadamente de 3 a 4 pontos a cada
ao mesmo examinado, com um intervalo
10 anos. Nos testes de desempenho
específico entre as duas aplicações.
exigidos pelo estado, é necessário
 As pontuações das duas administrações
atualizar as normas a cada 7 anos.
de teste são comparadas para ver quão
altamente elas se correlacionam e quanta
Todas as avaliações exigem normas? mudança há entre as pontuações nas
Nem todos os testes exigem normas. Quando duas sessões de teste.
os testes são codificados por critérios externos  Esse tipo de fiabilidade estima o erro de
específicos, são denominados testes com medição a partir de alterações no
referência a critérios. desempenho humano ao longo do tempo.
 É também denominado de coeficiente de
Exemplo: Nas escolas os estudantes devem estabilidade.
atender aos padrões curriculares
estabelecidos. Testes de conceitos básicos,
consciência fonológica ou desempenho Validade
académico. "Evidências de que os itens medem a coisa
Fiabilidade
certa”; “O teste mede o que deve medir”.
Em geral a fiabilidade refere-se à confiança de Não existe um número único de validade.
um teste ao longo do tempo. Todas as Deve-se reunir várias evidências que apoiam a
medidas de fiabilidade variam entre 0 e 0.99.
hipótese de que o teste mede o que deve  Exemplo: avaliar a memória em
medir. indivíduos com uma condição clínica.
Deve-se controlar os fatores que podem
Os testes não são válidos em geral, mas são
causar diferenças entre grupos clínicos e
válidos para fins específicos.
não clínicos (idade, nível escolaridade,
etc.).
Exemplo: um teste de inteligência verbal  Significância estatística. Se encontrou um
realmente mede a inteligência verbal ou está dado estatisticamente significativa,
medindo a proficiência na linguagem? significa que provavelmente poderá
encontrar se repetir o estudo. É
1. Validade concorrente importante que a diferença de pontuação
 Teste de inteligência verbal se entre os grupos clínico e não clínico seja
correlaciona altamente com outros testes estatisticamente significativa. É
estabelecidos de inteligência verbal, e não importante que o tamanho da diferença
tão bem com testes de desenvolvimento seja grande o suficiente para ser
da linguagem? Se um novo teste verbal se clinicamente significativo. Uma diferença
correlacionasse altamente com outro teste de apenas alguns pontos pode ser
de inteligência verbal, isso seria evidência estatisticamente significativa, mas a
de validade convergente porque as novas diferença pode não ser o suficientemente
pontuações do teste convergem com grande como para ser clinicamente útil.
pontuações de um teste conhecido do  Tamanho do efeito (diferença de padrão).
mesmo construto. Para determinar o quão significativa é a
 Diferentes testes são dados ao mesmo diferença, divida a diferença pelo desvio
tempo e a relação entre suas pontuações padrão. Os tamanhos dos efeitos são
é comparada. mencionados no Manual, comparando
um grupo clínico específico com uma
2. Validade divergente amostra correspondente em
 Se o novo teste verbal não se desenvolvimento típico. - Tamanhos de
correlacionasse tão alto com um teste de efeito de 0,20 são considerados pequeno,
proficiência no idioma, isso seria mas talvez ainda significativo. Os
evidência de validade divergente, porque tamanhos de efeito de 0,50 médios e 0,80
as novas pontuações divergem com as grandes.
pontuações de um teste com o qual não
se deve relacionar tão alto. Isso mostra Ponte de corte
que os dois testes medem algo diferente  Se a pontuação de corte for reduzida, a
do construto. percentagem de falsos negativos aumenta
e a percentagem de falsos positivos
3. Validade clínica diminui. Pode ser apropriado em
 Refere-se ao desempenho do teste em situações nas quais deseja ter certeza de
populações clínicas específicas. que não rotula incorretamente alguém
como tendo a perturbação / condição
clínica.
 Se a pontuação de corte for aumentada, a
percentagem de falsos positivos aumenta
e a percentagem de falsos negativos
diminui. Pode ser apropriado em
situações em que é importante identificar
todos que podem ter a condição clínica e
identificar incorretamente uma pessoa
que não tem consequências prejudiciais.
 Alguns testes com pontuações de corte
bem desenvolvidas não exigem normas.
<70 ≥ 70
Clínica Verdadeiro Falso
Positivo negativo
Não Falso Verdadeiro
Clínica positivo negativo

Conclusão
As avaliações clínicas padronizadas são
úteis, mas não substituem o julgamento
profissional
Para uso e interpretação por profissionais
altamente qualificados
Avaliar a qualidade dos instrumentos de
teste que escolher usar

Você também pode gostar