Escolar Documentos
Profissional Documentos
Cultura Documentos
Consensus Conference Statement On Uniform GUILMET Et Al - En.pt
Consensus Conference Statement On Uniform GUILMET Et Al - En.pt
com
O Neuropsicólogo Clínico
Para citar este artigo:Thomas J. Guilmette, Jerry J. Sweet, Nancy Hebben, Deborah Koltai, E. Mark Mahone,
Brenda J. Spiegler, Kirk Stucky, Michael Westerveld e participantes da conferência (2020): declaração da
conferência de consenso da Academia Americana de Neuropsicologia Clínica sobre rotulagem uniforme de
pontuações de testes de desempenho, The Clinical Neuropsychologist, DOI:
10.1080/13854046.2020.1722244
Warren Alpert Medical School da Brown University, Providence, RI, EUA;bDepartamento de Psiquiatria e
Ciências Comportamentais, NorthShore University HealthSystem, Evanston, IL, EUA;cDepartamento de
Psiquiatria, Harvard Medical School, Boston, MA, EUA;dDepartamento de Psiquiatria, Cambridge Health
Alliance, Cambridge, MA, EUA;eDepartamento de Neurologia, Faculdade de Medicina da Duke University,
Durham, NC, EUA;fDepartamento de Neuropsicologia, Kennedy Krieger Institute; Departamento de
Psiquiatria e Ciências Comportamentais, Faculdade de Medicina da Universidade Johns Hopkins, Baltimore,
MD, EUA;gPrática Privada, Toronto, ON, Canadá;hDepartamento de Saúde Comportamental, Hurley Medical
Center, Hurley Medical Center, Flint, MI, EUA;euDepartamento de Medicina, Michigan State University, East
Lansing, MI, EUA;jAdventhealth Neuropsicologia-Orlando, Adventhealth Medical Group, Adventhealth
Children's Hospital, Orlando, FL, EUA
Enunciado do problema
O método mais comum de descrever o desempenho da pontuação do teste em relatórios
neuropsicológicos clínicos e forenses é pelo uso de descritores qualitativos (Guilmette, Hagan,
& Giuliano,2008), como mediano, acima da média, superior e deficiente, que geralmente são
considerados mais significativos e compreensíveis do que pontuações brutas, pontuações
padrão ou classificações percentuais na comunicação de resultados. Considerando que vários
sistemas de rotulagem foram propostos (por exemplo, Groth-Marnat,2009; Heaton, Grant e
Matthews,1991; Schoenberg & Rum,2017; Schretlen, Testa & Pearlson,2010; Wechsler,2009,
2014), não existe um consenso ou sistema universalmente aceito para atribuir descritores
qualitativos ou rótulos para testes baseados em desempenho.
Vinte e cinco anos atrás, em seu discurso presidencial para a Divisão 22 (Psicologia de
Reabilitação) da American Psychological Association, Bruce Caplan identificou o problema
afirmando que “termos como 'deficiência moderada' e 'dentro dos limites normais' freqüentemente
carecem de referentes quantitativos e, estão sujeitos a diferentes interpretações entre indivíduos e
contextos” (1995, p. 236). A preocupação de Caplan surgiu de um estudo que ele conduziu, no qual
pediu aos participantes de uma “grande organização neuropsicológica” que atribuíssem um rótulo
descritivo de uma lista de 22 classificações potenciais a quatro pacientes hipotéticos. Ele encontrou
um notável grau de inconsistência entre avaliadores. Caplan opinou ainda que “a fim de aumentar
nossa credibilidade, especialmente em contextos forenses onde diferentes médicos podem
fornecer interpretações díspares de resultados de testes idênticos, precisamos de pesquisa e
discussão para algum consenso sobre o que vários rótulos descritivos implicam” (p. 239). Da mesma
forma, Hebben e Milberg (2002) em sua revisão da interpretação do teste neuropsicológico
também concluiu: “Rótulos como 'médio' ou 'abaixo da média' não são precisos e podem se referir
a diferentes faixas de pontuação, dependendo do clínico individual.”
Em uma pesquisa com neuropsicólogos certificados, Guilmette et al. (2008) pediu aos entrevistados
que atribuíssem um rótulo descritivo a 12 pontuações padrão diferentes de 50 a 130 derivadas de um
teste de memória baseado em um breve cenário de caso. O número médio de diferenteos rótulos
descritivos atribuídos pelos 110 participantes da pesquisa a cada uma das 12 pontuações padrão foi de 14
com uma faixa de 9 a 23. Esse resultado novamente forneceu evidências empíricas da variabilidade
significativa e falta de uniformidade na atribuição de descritores qualitativos a pontuações padrão
específicas. É importante ressaltar que Guilmette e seus colegas também encontraram variações na
atribuição de rótulos relacionadas a diferentes métodos ou padrões interpretativos. Alguns entrevistados
confiaram em descritores comparativos normativos ou interindividuais (por exemplo, superior, médio,
abaixo/acima da média, baixo), em deficiência ou intraindividual
O NEUROPSICÓLOGO CLÍNICO 3
Para aumentar a confusão dos médicos na decisão de quais rótulos de pontuação de teste
aplicar, os editores de teste são inconsistentes em suas recomendações para descritores das
pontuações de seus testes. Como bem sabem os estagiários e os médicos praticantes,
diferentes manuais de teste podem recomendar diferentes rótulos qualitativos para as
mesmas pontuações padrão. Por exemplo, os manuais de teste de inteligência e memória
Wechsler listam descritores qualitativos para suas pontuações padrão e a maioria dos
médicos aplica esses descritores ao descrever o desempenho nessas escalas. No entanto, o
descritor qualitativo no sistema Wechsler para uma pontuação padronizada específica nem
sempre é o mesmo descritor recomendado para a mesma pontuação em um teste diferente.
Considere uma pontuação padrão de 75, que seria rotulada como “limítrofe” pelos testes de
Wechsler para adultos,2007) e a Escala Wechsler de Inteligência para Crianças-5 (Wechsler,
2014), “bem abaixo da média” pelo Kaufman Short Neuropsychological Assessment Procedure
(Kaufman & Kaufman,1994), “low” pelo Woodcock-Johnson IV (Schrank, McGrew, & Mather,
2014), “ruim” pelo Teste de Inteligência Não-Verbal-3 (Brown, Sherbenou, & Johnsen,1997) e
“abaixo da média a levemente prejudicada” pelo Sistema de Pontuação Qualitativa de Boston
para a Figura Complexa de Rey-Osterrieth (Stern et al.,1999). Consequentemente, o clínico
provavelmente está inclinado a atribuir rótulos diferentes à mesma pontuação padrão de
diferentes testes para aderir às recomendações do editor de testes. Embora os desvios de tais
recomendações manuais de testes variados possam ser bastante justificados, tais desvios
podem tornar as interpretações clínicas vulneráveis a ataques em contextos litigiosos. Essas
inconsistências em um relatório podem ser confusas tanto para os pacientes quanto para as
fontes de referência, bem como para os treinandos que tentam entender as complexidades
da interpretação da pontuação do teste.
Da mesma forma, a identificação de uma faixa de pontuação de teste "prejudicada" foi tratada
de forma inconsistente por pesquisadores e médicos, com cortes aplicados de forma variável a
pontuações começando em um desvio padrão, 1,5 desvio padrão ou dois desvios padrão abaixo
das expectativas normativas (Beauchamp et al.,2015; Heaton et al.,1991; Ingraham & Aiken, 1996;
Meyer, Boscardin, Kwasa, & Price,2013; Schoenberg et al.,2018). No Guilmette et al. (2008) observou
anteriormente, “deficiente” foi aplicado por alguns entrevistados como um rótulo descritivo
começando com uma pontuação padrão de até 95. Não surpreendentemente, o termo deficiência
(juntamente com outros termos como defeituoso, anormal e deficiente) foi aplicado com frequência
crescente à medida que as pontuações padrão diminuíam.
Ao classificar as pontuações como prejudicadas, também ocorreu discordância em relação aos
rótulos que identificam o grau de desempenho anormal, às vezes começando com um termo que
transmite incerteza (por exemplo, limítrofe) antes de passar para rótulos que transmitem aparente
maior certeza (por exemplo, leve, moderado e grave). para pontuações que presumivelmente se
desviam em maior medida das expectativas normativas. No entanto, estes
4 TJ GUILMETTE ET AL.
os modificadores também carecem de qualquer definição consensual. Em cada uma dessas instâncias, o
uso de termos destinados a transmitir anormalidade ou “deficiência” geralmente se baseia puramente em
uma pontuação de teste que se desvia das expectativas normativas. Esse hábito de prática pode ser
pensado como 'teste limitado', uma abordagem concreta inadequada que considera cada pontuação
específica do teste como tendo um significado clínico inerente, sem considerar o perfil geral do resultado
do teste e o contexto de vida específico do examinando. Tal abordagem não é vista como um método
aceitável de se chegar a conclusões clínicas.
A falta de consistência na aplicação de rótulos de pontuação de teste e de uma definição
do termo comprometimento prejudica a prática profissional da neuropsicologia clínica.
Apesar de ser uma questão de décadas, não foi adequadamente abordada por nossas
organizações profissionais. Para esse fim, a Academia Americana de Neuropsicologia Clínica
(AACN) estabeleceu uma conferência de consenso para propor um conjunto consistente de
descritores qualitativos e definir deficiência com o objetivo de fornecer orientação aos
médicos e facilitar maior consistência na aplicação desses termos.
recomendações em uma apresentação aos participantes da conferência da AACN durante um fórum público de
90 minutos em 22 de junho de 2018, durante o qual comentários e críticas foram solicitados.
Para incentivar a transparência e a abertura às opiniões dos membros da AACN em geral,
a apresentação em PowerPoint da reunião de 22 de junho de 2018 foi distribuída por meio do
listserv da AACN, solicitando comentários, recomendações, críticas e perguntas de 11 a 28 de
julho de 2018. Os comentários e feedback recebidos do listserv resultaram em discussões e
considerações adicionais por e-mail entre os 22 participantes originais da conferência de
consenso. Essencialmente, todas as recomendações iniciais de consenso que saíram da
conferência de 20 de junho de 2018 foram reconsideradas.
A significativa discussão on-line e a consideração de múltiplas alternativas levaram ao reconhecimento
de que os pontos iniciais de consenso alcançados durante a reunião de junho haviam evoluído, levando à
necessidade de restabelecer o consenso. Os copresidentes dos grupos de trabalho e os copresidentes da
conferência trabalharam com cada grupo, com pontos revisados de consenso levados ao grupo maior
para consideração final. Eventualmente, o consenso foi novamente alcançado para todos os três tópicos
do subgrupo: rótulos de pontuação de teste para testes com distribuições não normais em 13 de
dezembro de 2018, para definição e aplicação de deficiência em 1º de fevereiro de 2019 e para rótulos de
pontuação de teste para testes com distribuições normais em 2 de maio de 2019.
Um resumo do processo de consenso e suas recomendações foi escrito e revisado por
todos os 22 participantes da conferência e também foi revisado por especialistas externos,
resultando nesta declaração de consenso da conferência. A declaração de consenso reflete a
experiência combinada de 27 neuropsicólogos/psicólogos, que consideraram a literatura
científica, perspectivas históricas e fatores clínicos, bem como ampla contribuição de muitos
membros da AACN. Essa contribuição e revisão também incluiu o Comitê de Publicação da
AACN e a aprovação final pelo Conselho de Administração da AACN.
As recomendações contidas nesta declaração não devem ser consideradas padrões de
prática obrigatórios. Em vez disso, eles refletem orientações especializadas consensuais ou
“melhores práticas” que os médicos podem considerar incorporar em seu trabalho para obter
maior uniformidade e consistência na aplicação de rótulos ou descritores de pontuação de
teste e no uso do termo deficiência. Para ser absolutamente claro, esta afirmação énão
destinado a instruir ou limitar os médicos em sua interpretação dos dados do teste
neuropsicológico. A análise integrativa de um perfil de teste neuropsicológico depende
exclusivamente do julgamento de clínicos individuais e sua apreciação e experiência em
sintetizar informações de múltiplas fontes médicas, históricas, culturais, comportamentais e
outras para chegar a formulações clínicas, impressões e diagnósticos.
Recomendações de consenso para rótulos de teste para testes com distribuições normais
O grupo de trabalho de distribuição normal contou inicialmente com os seguintes conceitos para orientar suas
deliberações:
para pontuações padrão 80-89 entre muitos médicos e sistemas de descritores qualitativos
existentes (Groth-Marnat,2009; Schretlen et al.,2010; Wechsler,2009), o painel de consenso
recomendou o descritor “baixa média” para pontuações padrão entre 80 e 89.
Dado que as pontuações padrão entre 80 e 89 são rotuladas como “média baixa”, as pontuações
abaixo desse nível, na faixa de pontuação padrão de 70 a 79, são consideradas “abaixo da média”. O
sistema de classificação de Wechsler adulto refere-se a esse intervalo como “limite”, mas esse termo foi
considerado muito ambíguo e propenso a implicar uma conclusão interpretativa. Conforme observado
anteriormente, outros editores de teste descreveram as pontuações nessa faixa como “baixas”, “muito
baixas”, “bem abaixo da média”, “ruins” e “abaixo da média paralevemente prejudicada”.Esses termos
também foram rejeitados por parecerem ser críticos, tendenciosos, muito abertos à interpretação ou
confundir uma pontuação de teste com um rótulo de deficiência. Embora a conferência de consenso
original tenha recomendado “pontuação baixa” como um rótulo na faixa de pontuação padrão de 70 a 79,
em oposição à atual “abaixo da média”, isso foi rejeitado porque essa faixa reflete pontuações que estão
inequivocamente abaixo da média e, conforme indicado acima , ficam abaixo das pontuações que são
“média baixa”. Além disso, acreditava-se que a descrição de uma pontuação simplesmente “baixa” ou
“alta” (na faixa de 120 a 129) era muito ambígua e aberta a interpretações. Por último, as sugestões de
que o modificador “bem” seja adicionado aos rótulos “abaixo da média” e “acima da média” também foram
consideradas pela maioria dos copresidentes do grupo como acrescentando pouco ou nenhum valor
esclarecedor.
As recomendações finais de consenso para rótulos descritivos para pontuações de testes normalmente
distribuídos estão listadas abaixo no contexto de pontuações padrão gerais comumente usadas em testes
de inteligência. Transformar outros tipos de pontuação, como T-scores,z-pontuações, ou percentis, em
descritores qualitativos seguiriam a mesma abordagem de rotulagem. Considerando que, com a maioria
dos testes baseados em desempenho, pontuações padrão mais baixas indicam desempenho pior, em
casos selecionados, pontuações padrão mais altas podem indicar desempenho pior. Nesses casos, os
médicos escolhem rótulos que refletem essa distinção (tabela 1).
O grupo de consenso também recomenda que os médicos especifiquem o grupo normativo e
quaisquer ajustes demográficos usados para a determinação do escore padrão (por exemplo, se
os escores forem ajustados para sexo, idade, educação, etc.). Os médicos também devem
reconhecer que a nomenclatura é baseada em pontuações derivadas específicas, que são
estimativas psicométricas limitadas por intervalos de confiança. Assim, os médicos devem
considerar cuidadosamente a rotulagem de pontuações próximas aos pontos de corte, incluindo a
consideração da faixa de erro. Além disso, o consenso do grupo é que esse sistema seja usado em
vez dos fornecidos em manuais de teste específicos, pois isso promoverá a uniformidade em toda a
disciplina e facilitará a comunicação consistente e eficaz com as partes interessadas. Por fim, para
esclarecer ainda mais a atribuição de rótulos e descritores às pontuações dos testes,
inclua uma tabela ou gráfico nos relatórios que identifique explicitamente quais pontuações padrão
coincidem com quais rótulos. Isso é especialmente importante porque reconhecemos que, apesar de
nossos esforços, o público leigo e outros consumidores podem ter dificuldade em apreciar e compreender
as distinções entre nossos rótulos de pontuação de teste qualitativos recomendados.
Conforme observado anteriormente, esses rótulos de pontuação de teste destinam-se apenas a
serem descritivos, identificando as posições das pontuações em relação a uma distribuição de curva
normal. Como tal, os rótulos não transmitem deficiência ou outros julgamentos avaliativos;
pontuações isoladamente não podem ser prejudicadas ou deficientes. Reconhecendo que o risco
de uma pontuação representar uma função prejudicada aumenta com o desvio estatístico das
expectativas normativas, no entanto, há consenso de que a determinação de déficits ou prejuízos é
responsabilidade do clínico, que chega a tal determinação usando uma ampla gama de
informações específicas ao paciente individual. Consistente com essa intenção, ao descrever as
pontuações dos testes, a recomendação de consenso foi colocar a palavra “pontuação” após o
descritor, para enfatizar a diferença entre um resultado de teste específico e uma habilidade. Na
prática, os médicos podem achar complicado colocar sempre a palavra “pontuação” após o
descritor (por exemplo, pontuação média baixa) e, portanto, podem decidir descartar a palavra
para diminuir a redundância e aumentar a concisão.
Na neuropsicologia clínica, são frequentemente administrados quatro tipos de testes que têm
distribuições não normais.
a. Testes destinados a avaliar domínios cognitivos específicos, mas com distribuições altamente
distorcidas na população normal (por exemplo, Boston Naming Test, Judgment of Line
Orientation (JLO), desenho de relógio, cópia de figura, etc.).
b. Testes usados para determinar a presença ou ausência de sinais patognomônicos ou condições
específicas (por exemplo, testes para apraxia, sequenciamento motor manual, exame
sensório-perceptivo, etc.).
c. Testes de validade de desempenho (PVTs) e medidas usadas principalmente para identificar preocupações
relacionadas ao envolvimento no teste, ampliação de sintomas, esforço e validade do teste (por exemplo,
Teste de Simulação de Memória, Teste de Memória de Palavras, Escolha de Palavras de Soluções Clínicas
Avançadas, etc.).
d. Questionários e escalas de classificação sobre habilidades cognitivas e/ou condições comportamentais
ou sintomas frequentemente avaliados por neuropsicólogos (por exemplo, Inventário de Avaliação
Comportamental da Função Executiva, Sistema de Avaliação Comportamental para Crianças, Lista de
Verificação do Comportamento Infantil, etc.).
Os testes nesta categoria são componentes fundamentais de uma avaliação neuropsicológica completa, já
que muitos são projetados para avaliar uma habilidade ou domínio cognitivo específico (por exemplo,
Julgamento de Orientação de Linha, Teste de Nomeação de Bateria de Avaliação Neuropsicológica,
categorias concluídas no Wisconsin Card Sorting Test [WCST], teste de reconhecimento dentro do Teste
Breve de Memória Visuoespacial – Revisado [BVMT-R], etc.). A natureza desses testes é mais comparável a
medidas baseadas em critérios que avaliam uma habilidade específica para a qual há pouca variabilidade
entre indivíduos considerados “normais” ou saudáveis. Em geral, o objetivo desses testes é identificar
áreas específicas de comprometimento ou déficit nos examinandos, ao contrário das medidas normativas
que mostram alta variabilidade com indivíduos “normais” ou saudáveis e situam os resultados dentro da
distribuição normal da população. Duas questões organizadoras relacionadas a essas medidas foram
contempladas em profundidade pelos membros do grupo: É apropriado usar escores padronizados para
testes com faixas muito restritas? e As pontuações nesses testes devem ser rotuladas de forma diferente
dos testes com distribuições normais?
Com relação aos testes com faixas de pontuação altamente restritas, o consenso foi que percentis
deveriam ser usados em vez de pontuações padrão. A justificativa para essa recomendação é baseada no
fato de que as classificações de percentil são mais comparáveis e significativas do que outras pontuações
transformadas quando a distribuição é altamente distorcida. É importante ressaltar que os percentis para
testes de distribuição não normal são baseados em contagens cumulativas reais de indivíduos que
obtiveram uma pontuação específica e, portanto, não são estimativas estatísticas baseadas em unidades
de desvio padrão em torno da média do grupo de referência. Portanto, recomendamos evitar o uso de
pontuações padrão para esses resultados de teste.
Para alguns testes com distribuições assimétricas, a normalidade pode ser aproximada por meio de
vários procedimentos de “suavização”. O uso de escores padrão nessas situações pode ser justificável,
mas o clínico deve pesar cuidadosamente os riscos e benefícios da transformação do escore padrão e dar
consideração adicional a como esses escores devem ser rotulados.
Em relação à questão de saber se as pontuações desses testes devem ser rotuladas de
forma diferente dos testes com distribuições normais, o consenso do grupo foi que os rótulos
deveriam ser os mesmos entre os dois tipos de testes, pelos seguintes motivos:
- Usar uma linguagem comum e um sistema simplificado para rótulos descritivos nos dois
tipos de testes é muito menos confuso para médicos e consumidores.
- O uso de um sistema de rotulagem separado para testes nesta categoria criaria um sistema
desnecessariamente complexo que poderia ser difícil de empregar em alguns ambientes clínicos.
- Às vezes, o neuropsicólogo pode não saber se a distribuição subjacente para um teste
específico é normal ou não normal. Além disso, a distribuição subjacente do teste pode
estar sujeita a alterações dependendo de variáveis demográficas específicas (por
exemplo, sexo, idade, educação e considerações multiculturais).
- Os neuropsicólogos competentes devem entender o teste, sua finalidade e sua
distribuição de pontuação na população normal.
O NEUROPSICÓLOGO CLÍNICO 11
Esta recomendação para aplicar rótulos descritivos comparáveis a testes com distribuições
normais ou assimétricas é feita com quatro exceções importantes:
a. Os mesmos rótulos usados com testes normalmente distribuídos são recomendados, com a
qualificação de que a classificação percentil deve ser usada para determinar o rótulo, não uma
pontuação padrão. Isso é direto quando aplicado a pontuações de rotulagem na extremidade
inferior da distribuição, mas não na extremidade superior da distribuição (consulte b. abaixo).
b. Em testes altamente assimétricos, às vezes é estatisticamente impossível atingir uma pontuação de
percentil nas faixas mais altas. Em muitos desses testes, uma pontuação bruta perfeita ou quase
perfeita é normalmente descrita como igual ou superior a 16ºpercentil. Por exemplo, uma pontuação
perfeita de 6 categorias corretas no WCST é anotada como simplesmente acima de 16ºpercentil. Isso
também é verdade para uma pontuação perfeita no reconhecimento BVMT-R ou Rey Complex Figure
Copy. Considerando essa medição e realidade estatística, descrever tais pontuações como qualquer
coisa, menosdentro das expectativas normaisoudentro dos limites normaisseria inapropriado.
c. Dado que os testes distorcidos têm efeitos de teto ou piso significativos e geralmente são
projetados para identificar déficits, não desempenho excepcional, rotular as pontuações mais
altas nesses testes como acima da média ou excepcionalmente altas (mesmo quando a faixa
de percentil é alta) pode não ser significativo e pode ser errôneo. Por exemplo, o JLO, um teste
de 30 itens, tem um teto baixo em que 28% da amostra normativa obteve pontuações
corrigidas de 29 a 30 e pontuações acima de 21 foram obtidas por 93% da amostra. Embora
pontuações de 29 ou 30 caiam para 86ºpercentil, rotular essas pontuações como superiores,
conforme classificado no manual (p. 59), não é tão significativo quanto simplesmente indicar
que a pontuação estava dentro dos limites normais ou dentro das expectativas normais
(Benton, Sivan, Hamsher, Varney, & Spreen,1994). Para elaborar este ponto, uma pontuação
no 86ºpercentil no JLO não tem o mesmo significado clínico que um teste com pontuações
normalmente distribuídas, como Block Design, ao pontuar no 86ºpercentil. Para o último,
classificações percentuais altas sempre indicam que uma pequena porcentagem da amostra
normativa obteve uma pontuação nessa faixa superior. Como este exemplo ilustra, isso não é
verdade para testes com distribuições altamente assimétricas. Portanto, recomendamos que
os profissionais se abstenham de usar os descritores média alta, acima da média ou
excepcionalmente alta ao rotular pontuações na extremidade superior de uma distribuição
altamente distorcida. Em vez disso, usar um rótulo descritivo transmitindo o significado geral
de uma pontuação de teste, como desempenho foidentro das expectativas normaisoudentro
dos limites normais,seria mais apropriado, incluindo pontuações de testes que se enquadram
na faixa média ou acima dos 24ºpercentil. A tabela abaixo elucida recomendações de
pontuação de teste de distribuição não normal com base em percentis. Advertimos,
entretanto, que nem todos os testes não distribuídos normalmente se encaixam no exemplo
que fornecemos. É importante ressaltar que esses rótulos não devem ser aplicados a PVTs
(consulte a letra C abaixo).
d. Finalmente, para testes nos quais procedimentos de suavização foram empregados no
desenvolvimento de normas, o uso do rótulo de pontuação “excepcionalmente alto” é fortemente
desencorajado porque esse rótulo é descritivamente reservado para testes com distribuições
genuinamente normais ou quase normais, ou seja, quando pontuações na categoria
excepcionalmente alta representam desempenhos iguais ou superiores a 98ºpercentil (mesa 2).
12 TJ GUILMETTE ET AL.
Mesa 2.Rótulos de pontuação de teste recomendados com base em percentis para testes
com distribuições não normais.
percentil Rótulo de pontuação
> 24 Pontuação dentro das expectativas normais ou Pontuação dentro dos limites normais
9–24 Pontuação média baixa
2–8 Pontuação abaixo da média
<2 Pontuação excepcionalmente baixa
De todos os tipos de teste considerados pelo grupo de trabalho de distribuição não normal, este
recebeu a maior atenção da comunidade neuropsicológica. As razões para isso são provavelmente
multifatoriais, mas certamente ligadas às implicações de rotular as pontuações de uma maneira
específica, especialmente em contextos forenses.
O NEUROPSICÓLOGO CLÍNICO 13
Depois de considerar uma série de sugestões fornecidas pelos médicos da AACN interessados nesta
categoria específica de testes, o consenso foi que o seguinte sistema de três níveis para pontuações de
rotulagem deveria ser usado –intervalo válido, intervalo indeterminado, intervalo inválido.
Embora uma variedade de sistemas existentes tenha sido considerada, muitos foram rejeitados porque
continham ou implicavam uma posição interpretativa (por exemplo, aprovado versus reprovado), eram
potencialmente críticos (aceitável versus inaceitável), careciam de especificidade ou concisão ou não capturavam
adequadamente o intervalo de motivos para baixo desempenho (ou seja, um indivíduo pode obter pontuações
baixas em PVTs por vários motivos, sendo um deles a retenção intencional de esforço).
A possível inclusão de um rótulo de quarta categoria (ou seja,desempenho abaixo do nível do
acaso),foi discutido, mas foi rejeitado pelas seguintes razões: (1) ir além do rótulo de pontuação de
faixa inválida para um subconjunto de pontuações abaixo do nível de chance pode parecer ir além
da descrição para a interpretação dentro da faixa geral inválida; (2) adicionar um intervalo de
pontuação de subconjunto dentro do intervalo já rotulado como inválido seria potencialmente mais
confuso e mais difícil de aplicar consistentemente entre os profissionais; e (3) espera-se que um
neuropsicólogo competente comente sobre desempenhos e implicações significativamente abaixo
do nível do acaso ao integrar todas as informações pertinentes em seu resumo interpretativo e
formulação de caso.
Um ponto crítico é que atingir uma pontuação de faixa inválida em um PVT nem sempre
ou automaticamente indica a presença de simulação ou “esforço comprometido” e pode ou
não invalidar todos os resultados do teste. Com relação a essas questões, os atuais
participantes da conferência de consenso não tiveram áreas de desacordo com as
recomendações práticas descritas na declaração de consenso da AACN de 2009 sobre
validade e simulação de resposta (Heilbronner et al.2009). Em situações em que um
examinando produz uma ou mais escalas inválidas ou pontuações indeterminadas, é o clínico
quem é responsável por julgar, com base na totalidade das informações disponíveis, o que
essas pontuações significam e como elas devem ser interpretadas.
Finalmente, exemplos de como esses rótulos podem ser usados em um relatório são fornecidos em
três exemplos separados abaixo. Esses exemplos podem ser incluídos em uma seção de relatório que
descreve resultados de testes individuais. Em cada exemplo, há uma referência clara a uma partitura, em
vez de uma declaração interpretativa específica.
desenvolvimento, pode ser transitório ou fixo ao longo do tempo e pode ter impacto variável na
capacidade funcional e na incapacidade. Os resultados dos testes, por si só, não definem deficiência. Uma
combinação de fatores, incluindo pontuações de testes que se desviam das expectativas e outros achados
relacionados à capacidade funcional, identificam o comprometimento neuropsicológico.
Resumo
A falta de uniformidade na aplicação de rótulos de pontuação de teste de desempenho tem sido
um problema de longa data na neuropsicologia clínica. Esta conferência de consenso é a primeira
tentativa formal da comunidade neuropsicológica profissional de fazer recomendações para rótulos
de pontuação de teste de desempenho uniformes e avançar uma definição consistente de
deficiência. Nossas recomendações não são mandatos ou padrões, mas representam a opinião
consensual de especialistas sobre essas questões importantes. Esperamos que os médicos
incorporem nossas recomendações em suas práticas clínicas para aumentar a uniformidade dos
descritores de pontuação do teste, a maneira mais frequente pela qual o desempenho do teste é
comunicado em relatórios clínicos e forenses. Usando descritores uniformes e
O NEUROPSICÓLOGO CLÍNICO 15
Reconhecimentos
Os autores desejam expressar sua gratidão aos seguintes revisores externos: Robert L. Denney,
Jacobus Donders, Anthony J. Giuliano, Mike R. Schoenberg e Keith Owen Yeates, bem como
contribuições e aprovação do Comitê de Publicação da AACN e do Conselho da AACN de Diretores.
declaração de divulgação
ORCID
E. Mark Mahone http://orcid.org/0000-0002-5022-1499
Referências
Beauchamp, MH, Brooks, BL, Barrowman, N., Aglipay, M., Keightley, M., Anderson, P.,…
Zemek, R. (2015). Derivação empírica e validação de uma definição de caso clínico para
comprometimento neuropsicológico em crianças e adolescentes.Jornal da Sociedade
Internacional de Neuropsicologia, 21 (8), 596-609. doi:10.1017/S1355617715000636
Benton, AL, Sivan, AB, Hamsher, K., Varney, RR, & Spreen, O. (1994).Contribuições para a neuro-
avaliação psicológica: um manual clínico (2ª ed.). Nova York, NY: Oxford University Press.
Binder, LM, Iverson, GL, & Brooks, BL (2009). Errar é humano: neuropsicologia “anormal”
escores lógicos e variabilidade são comuns em adultos saudáveis.Arquivos de Neuropsicologia
Clínica, 24 (1), 31–46. doi:10.1093/arclin/acn001
Brown, L., Sherbenou, RJ, & Johnsen, SK (1997).Teste manual do examinador de inteligência não-verbal
(3ª ed.). Austin, TX: Pro-Ed.
Caplan, B. (1995). Escolha suas palavras.Psicologia da Reabilitação, 40(3), 233-240. doi:10.1037/
h0092829
Donnell, AJ, Belanger, HG, & Vanderploeg, RS (2011). Implicações da medição psicométrica
para interpretação neuropsicológica.O Neuropsicólogo Clínico, 25(7), 1097–1118. doi:
10.1080/13854046.2011.599819
16 TJ GUILMETTE ET AL.
Apêndice
Beauchamp, MH, Brooks, BL, Barrowman, N., Aglipay, M., Keightley, M., Anderson, P.,…
Zemek, R. (2015). Derivação empírica e validação de uma definição de caso clínico para
comprometimento neuropsicológico em crianças e adolescentes.Jornal da Sociedade
Internacional de Neuropsicologia, 21 (8), 596-609. doi:10.1017/S1355617715000636
Brooks, BL, & Iverson, GL (2012). Melhorando a precisão ao identificar o comprometimento cognitivo
em avaliações neuropsicológicas pediátricas. Em E. Sherman & B. Brooks (Eds.),Neuropsicologia
forense pediátrica (pp. 66–88). Nova York, NY: Oxford University Press.
Busch, RM, Chelune, GJ, & Suchy, Y. (2006). O uso de normas na avaliação neuropsicológica
dos idosos. Em D. Attix & K. Welsh-Bohmer (Eds.),Avaliação e intervenção em neuropsicologia
geriátrica (pp. 133–157). Nova York, NY: The Guilford Press.
Chelune, GJ, & Duff, K. (2013). A avaliação da mudança: avaliações seriadas em demência
avaliações. Em LD Ravdin & HL Katzen (Eds.),Manual de neuropsicologia do envelhecimento e
demência, manuais clínicos de neuropsicologia (pp. 43–57). Nova York, NY: Springer Scienceº
Mídia de Negócios, LLC.
Erodi, LA, & Lichtenstein, JD (2017). Inválido antes de prejudicado: um paradoxo emergente
de indicadores de validade embutidos.A Neuropsicóloga Clínica, 31,1029–1046. doi:10.1080/
13854046.2017.1323119
Guilmette, TJ, Hagan, L., & Giuliano, AJ (2008). Atribuindo descritores qualitativos a pontuações de teste
em neuropsicologia: Implicações forenses.O Neuropsicólogo Clínico, 22(1), 122–139. doi:
10.1080/13854040601064559
Ingraham, LJ, & Aiken, CB (1996). Uma abordagem empírica para determinar critérios para
anormalidade em baterias de teste com várias medidas.Neuropsicologia, 10(1), 120-124. doi:10.
1037/0894-4105.10.1.120
Meyer, A.-CL, Boscardin, WJ, Kwasa, JK, & Price, RW (2013). É hora de repensar como
testes neuropsicológicos são usados para diagnosticar formas leves de distúrbios neurocognitivos
associados ao HIV? Impacto das taxas de falso-positivos na prevalência e poder.Neuroepidemiologia,
41(3–4), 208–216. doi:10.1159/000354629
Schoenberg, MR, Osborn, KE, Mahone, EM, Feigon, M., Roth, RM, & Pliskin, NH (2018).
Preferências do médico para comunicar resultados neuropsicológicos: comparação de descritores
qualitativos e uma proposta para reduzir erros de comunicação.Arquivos de Neuropsicologia Clínica,
31,631–643. doi:10.1093/arclin/acx106
Schoenberg, MR, & Rum, RS (2017). Rumo a padrões de relatórios para neuropsicologia
resultados do estudo: Uma proposta para minimizar erros de comunicação com descritores qualitativos
padronizados para escores de testes normalizados.Neurologia Clínica e Neuropsicologia, 162,72-79. doi:
10.1016/j.clineuro.2017.07.010