Você está na página 1de 21

Nelson G.

Souza

American Educational Research Association


American Psychological Association National
Council on Measurement in Education

Padrões para a Testes


Educacionais e
Psicológicos
Revisão de 2014
Teste versus Avaliação
• Um teste é um dispositivo ou procedimento no qual uma amostra do
comportamento de um examinado em um domínio especificado é
obtida e posteriormente avaliada e pontuada usando um processo
padronizado.

• A avaliação é um termo mais amplo que o teste e geralmente refere-


se a um processo que integra, além do teste, informações adicionais
advindas de outras e diferentes fontes (dados de outros testes ou
testes anteriores, inventários, entrevistas, histórico social, psicológico
e/ou profissional dos examinados, etc.)
Os Padrões
• Os testes e avaliações educacionais e psicológicos estão entre as
contribuições mais importantes das ciências cognitivas e
comportamentais para nossa sociedade, fornecendo fontes
fundamentais e significativas de informações sobre indivíduos e
grupos.

• O objetivo dos Padrões é proporcionar critérios para o


desenvolvimento e avaliação de testes e de práticas de testes, bem
como fornecer diretrizes para a avaliação da validade das
interpretações dos testes para sua utilização em situações adequadas.
Os Padrões
Os padrões, são um
• Os testes e avaliações educacionais e psicológicos
guia. Nãoestão
substituementre as
contribuições mais importantes das ciências oscognitivas e
dispositivos legais,
nacionais e
comportamentais para nossa sociedade, fornecendo fontes
internacionais a que
fundamentais e significativas de informações possam
sobreterindivíduos
que se e
grupos. submeter.

• O objetivo dos Padrões é proporcionar critérios para o


desenvolvimento e avaliação de testes e de práticas de testes, bem
como fornecer diretrizes para a avaliação da validade das
interpretações dos testes para sua utilização em situações adequadas.
Os Padrões
• Conjunto de padrões acompanhados de comentários que incluem as
condições nas quais os padrões são relevantes.

• O contexto e o propósito do teste e seu uso, determinarão quais


padrões são mais relevantes.

• O atendimento aos padrões devem ser atendidos antes da utilização


operacional do teste, levando-se em consideração sua aplicabilidade
no contexto considerado.
Os Padrões
• Primeira edição – APA, 1954 – “Recomendações Técnicas para Testes
Psicológicos e Técnicas de Diagnóstico.
• Segunda edição – 1966 – “Padrões para testes e manuais educacionais e
psicológicos”.
• Terceira edição – 1974.
• Quarta edição – 1985 – “Padrões para testes educacionais e psicológicos”
• Quinta edição – 1999 – os padrões são revisados, enfatizando a validade e
a confiabilidade como funções da interpretação dos escores dos testes.
• Sexta edição – 2014 – revisão da edição anterior e em vigência.
Edições 1999 e 2014, o que mudou?
• Mudança relevante na estrutura do documento.
Edição de 1999 Edição de 2014

Introdução Introdução

Parte I – Construção de testes, Avaliação e Documentação Parte I – Fundamentos

• Validade • Validade
• Confiabilidade e erros de Medição • Confiabilidade/precisão e erros de medição
• Desenvolvimento e revisão dos testes • Equidade na testagem
• Escalas, normas e comparabilidade de escores
• Administração, pontuação e relatório dos testes
• Documentação de suporte para testes
Part II – Equidade na testagem Parte II – Operações

• Equidade na testagem e utilização do teste • Planejamento e desenvolvimento do teste


• Direitos e responsabilidades dos indivíduos testados • Escores, escalas, vinculação e redução de escores
• Testagem de indivíduos de contextos linguísticos diversos • Administração, pontuação e relatório do teste
• Testando indivíduos com necessidades especiais • Documentação de suporte para testes
• Direitos e responsabilidades dos indivíduos testados
• Direitos e responsabilidades dos usuários dos testes
Edições 1999 e 2014, o que mudou?
• Mudança relevante na estrutura do documento.

Edição de 1999 Edição de 2014

Introdução Introdução

Parte III – Aplicação de testes Parte III – Aplicação de testes

• Responsabilidade dos usuários dos testes • Testes e avaliações psicológicas


• Testes e avaliações psicológicas • Testes em ambientes de trabalho e credenciamento
• Testes e avaliações educacionais • Testes e avaliações educacionais
• Testes relativos a emprego e credenciamento • Testes em avaliação de programas e políticas públicas
• Testes em avaliação de programas e políticas públicas
Parte I – Fundamentos
• Validade
• Se refere ao grau em que a evidência e a teoria dão suporte à interpretação dos
resultados dos testes segundo o uso a que se propõem.
• É requerida para todo e qualquer tipo de uso de testes.
• Envolve a acumulação de evidências relevantes que proporcionem uma base
científica sólida para a interpretação dos resultados dos testes.
• É um processo contínuo que se inicia com o planejamento do instrumento e
continua através de seu desenvolvimento e implementação.
• Envolve atenção e cuidado com possíveis distorções que emerjam de
representações inadequadas do construto, e também com aspectos do instrumento
tais como formato do teste, condições de administração, nível da linguagem.
• É uma responsabilidade conjunta do desenvolvedor e dos usuários do teste.
Organização dos padrões relativos à validade
Clusters temáticos Padrões
Padrão Geral 1.0: Uma clara articulação da interpretação de cada escore do teste para um uso específico deve ser
estabelecida, bem como devem ser fornecidas provas de validade apropriadas que deem suporte a cada
interpretação.
Cluster 1 - Estabelecimento de usos e interpretações
1.1 ao 1.7
intencionados
Cluster 2 - Questões relativas a amostras e configurações
1.8 ao 1.10
utilizadas na validação

a) Evidência orientada ao conteúdo: 1.11


b) Evidência relativa aos processo cognitivo: 1.12
c) Evidência relativa à estrutura interna: 1.13 e 1.14
d) Evidência relativa a relações com construtos
Cluster 3 - Formas específicas de evidências de validade
conceitualmente relacionados
e) Evidências relacionadas a critérios: 1.17 ao 1.24
f) Evidências baseadas nas consequências dos teste:
1.25
Parte I - Fundamentos
• Confiabilidade/precisão e erros de medição
• Confiabilidade/precisão denotam uma noção geral de consistência dos resultados através
das várias instâncias dos procedimentos de teste.
• A necessidade de precisão aumenta à medida em que aumenta a importância da
interpretação e das decisões decorrentes dos resultados dos testes.
• Depende da quantidade e tipo de variação admissíveis nos resultados de várias replicações
do teste.
• Meios de avaliação da confiabilidade/precisão
• Erro padrão de medida (EPM) é um indicador de presença ou ausência de consistência dos resultados.
Um alto EPM indica uma baixa confiabilidade/precisão.
• Teoria da Generalizabilidade, que identifica a contribuição de diferentes fontes de variação/erro
utilizando análise de variância.
• Teoria da Resposta ao Item (IRT), utilizando as funções de informação do item e a distribuição do traço
latente.
• Na prática: a avaliação da confiabilidade/precisão é feita utilizando-se diferentes
coeficientes, a depender do foco da análise e do modelo de medida em uso.
Parte I - Fundamentos
• Confiabilidade/precisão e erros de medição
• Confiabilidade/precisão denotam uma noção geral de consistência dos resultados através
das várias instâncias dos procedimentos de teste. Em última instância, a
• A necessidade de precisão aumenta à medida em que aumenta a importância da dos
confiabilidade/precisão
interpretação e das decisões decorrentes dos resultados dos testes.
dados depende da generalização
• Depende da quantidade e tipo de variação admissíveis nosouresultados de várias
confiabilidade das replicações
do teste. pontuações e/ou da consistência
• Meios de avaliação da confiabilidade/precisão das classificações de indivíduos,
• Erro padrão de medida (EPM) é um indicador de presença ou ausência de consistência
derivadas dos resultados.
das pontuações
Um alto EPM indica uma baixa confiabilidade/precisão.
atribuídas.
• Teoria da Generalizabilidade, que identifica a contribuição de diferentes fontes de variação/erro
utilizando análise de variância.
• Teoria da Resposta ao Item (IRT), utilizando as funções de informação do item e a distribuição do traço
latente.
• Na prática: a avaliação da confiabilidade/precisão é feita utilizando-se diferentes
coeficientes, a depender do foco da análise e do modelo de medida em uso.
Organização dos padrões relativos à
Confiabilidade/precisão e erros de medição
Clusters temáticos Padrões

Padrão Geral 2.0: Evidencia apropriada de confiabilidade/precisão deve ser fornecida para a interpretação de de
cada um dos sistemas de pontuação escolhido.
Cluster 1 - Especificações para replicações do
2.1 e 2.2
procedimento de teste
Cluster 2 - Avaliação da confiabilidade/precisão 2.3 a 2.5
Cluster 3 - Coeficientes de
2.6 e 2.7
confiabilidade/generalizabilidade
Cluster 4 - Fatores que afetam a confiabilidade/precisão 2.8 a 2.12

Cluster 5 - Erros padrão de medida 2.13 a 2.15

Cluster 6 - Consistência de decisão 2.16

Cluster 7 - Confiabilidade/precisão da média do grupo 2.17 e 2.18

Cluster 8 - Documentação da confiabilidade/precisão 2.19 e 2.20


Parte I - Fundamentos
• Equidade nos testes
• A equidade é um problema de validade fundamental e requer atenção em todas as
etapas do desenvolvimento e uso do teste.
• Viés de medição – ameaça central `a equidade dos testes.
• Dois novos conceitos:
• Acessibilidade: todos os examinados devem ter oportunidade de realizar o teste levando em
consideração sua posição/condição específica.
• Design universal – É uma abordagem para testar o design que busca maximizar a
acessibilidade para todos os candidatos que se pretende medir. Considera os seguintes
aspectos:
• Construtos precisamente definidos.
• Procedimentos e instruções simples, claros e intuitivos.
• Máxima legibilidade e compreensibilidade.
• A preocupação principal é como fazer com que todos os testados demonstrem o que eles
sabem ou podem fazer, segundo os objetivos do teste.
Organização dos padrões relativos à Equidade
nos testes
Clusters temáticos Padrões
Padrão Geral 3.0: Todas as etapas no processo de teste, incluindo procedimentos de teste, validação,
desenvolvimento, administração e procedimentos de pontuação, devem ser projetadas de forma a
minimizar variações irrelevantes na construção e promover interpretações de pontuação válidas para
todos os candidatos da população-alvo, em todos os casos de uso do teste.
Cluster 1 - Projeto do teste, desenvolvimento, administração e procedimentos de
pontuação que minimizem barreiras para interpretações de pontuação válidas para a maior 3.1 a 3.5
variedade possível de indivíduos e subgrupos relevantes.
Cluster 2 - Validade das interpretações de pontuação do teste, com objetivos específicos,
3.6 a 3.8
para utilização com a população-alvo.
Cluster 3 - Arranjos e acomodações para remoção de construções/barreiras irrelevantes e
3.9 a 3.14
suporte para interpretações válidas de pontuações segundo utilização específica.
Cluster 4 - Salvaguardas contra interpretações de pontuação inapropriadas para os usos
3.15 a 3.20
previstos.
Parte I I – Operações
• Projeto e desenvolvimento do teste
• Desenvolvimento é o processo de produzir uma medida de algum
aspecto sobre o conhecimento, competências, aptidões, interesses, Planejamento
atitudes e outras características de um indivíduo (design)
• Desenvolvimento de questões ou tarefas, e a combinação delas na
forma de um teste, de acordo com um planejamento específico.

Teste
• Considerações sobre as interpretações esperadas segundo o uso
pretendido dos escores a serem gerados pelo teste.
• Conteúdo e formato especificados para proporcionar evidências que Desenvolvimento

deem suporte às intepretações dos escores.


• Especifica procedimentos de aplicação, pontuação e relatórios.
Parte I I – Operações
Projeto e desenvolvimento do teste – aspectos relevantes

• Ênfase na validade, equidade e precisão • Uso da tecnologia


antes de iniciar o desenvolvimento. • Especificações da pontuação para uso em
leitores automáticos.
• Especificações psicométricas incluem: • Seleção de itens e cobertura de conteúdo
• Propriedades estatísticas de cada item e do em testes adaptativos.
teste como um todo (ex: dificuldade, • Interoperabilidade entre sistemas usados
discriminação). para banco de itens, montagem de
• Propriedade da escala. formulários e administração de teste.
• Avaliação dos pressupostos e do ajuste do
modelo.
Organização dos padrões relativos ao projeto
e desenvolvimento do teste
Clusters temáticos Padrões
Padrão Geral 4.0: Os testes e programas de teste devem ser projetados e desenvolvidos de forma a
suportar a validade das interpretações dos resultados dos exames para os usos previstos. Os
desenvolvedores de testes e os editores devem documentar as etapas realizadas durante o processo de
desenvolvimento e projeto para fornecer evidências de equidade, confiabilidade e validade para os usos
previstos para indivíduos da população-alvo.

Cluster 1 – Padrões para especificação dos testes 4.1 ao 4.6

Cluster 2 – Padrões para desenvolvimento de itens e revisão dos padrões para


4.7 ao 4.14
desenvolvimento de testes

Cluster 3 – Procedimentos para administração e pontuação e materiais 4.15 ao 4.23

Cluster 4 – Padrões para revisão dos testes 4.24 ao 4.25


Padrões para a Testes Educacionais e
Psicológicos – Pontos relevantes a seguir
• Aspectos gerais:
• Descrever claramente o construto sendo medido; explicar a intenção do uso
da avaliação;
• Criar e implementar especificações e procedimentos que permitam aos
testados estabelecer diferenças válidas.
• Especifique, implemente, revise, documente, repita.
• Em relação à validade:
• Seja explícito sobre o que é e o que não é relevante no construto.
• Desenvolva um quadro sobre as evidências de validade que podem ser
obtidas e organize-as.
• Documente toda evidência empírica e procedimental em um único lugar.
Padrões para a Testes Educacionais e
Psicológicos – Pontos relevantes a seguir
• Sobre confiabilidade e precisão:
• Use o relatório técnico como um mecanismo para organizar, facilitar e
estabelecer responsabilidades.
• Utiliza a estimativa de consistência e acuracidade no relatório técnico.

• Relativo à Equidade do teste:


• Desenvolva definições claras e distintas para as questões de acessibilidade e
acomodação.
• Colete evidência de validade para interpretações relativas a subgrupos.
• Adote os princípios do Design Universal.
Padrões para a Testes Educacionais e
Psicológicos – Pontos relevantes a seguir
• Em relação ao projeto e desenvolvimento de testes:
• Pense como um engenheiro.
• Envolva psicometristas na fase de desenvolvimento.
• Use novas tecnologias somente quando não for possível medir o construto sem utilizá-las. Avalie o
benefício/custo.
• Procure responder às seguintes perguntas:
• Que tipo de evidência de validade o programa/projeto coleta? É possível acessar com facilidade a evidência
de validade coleada até aqui?
• Onde e como são os limites do construto sendo medido, definido, explicado?
• Qual o nível de complexidade cognitiva? O projeto indica uma distribuição de itens de acordo com o nível de
complexidade?
• A acuracidade e a consistência dos itens e do teste estão documentadas?
• Quais são as características de acessibilidade utilizadas na avaliação?
• Quais são as acomodações proporcionadas na avaliação?
• Quando as diretrizes sobre vieses e sensibilidade foram atualizadas pela última vez?

Você também pode gostar