Você está na página 1de 191

Public Disclosure Authorized Public Disclosure Authorized Public Disclosure Authorized Public Disclosure Authorized

45411
Preencha a ficha de cadastro no final deste livro
e receba gratuitamente informações
sobre os lançamentos e as promoções da Elsevier.

Consulte também nosso catálogo


completo, últimos lançamentos
e serviços exclusivos no site
www.elsevier.com.br
Do original: Developing Tests and Questionnaires for a National Assessment of Educational Achievement
Copyright © 2008, by The international Bank for Reconstruction and Development/The World Bank
Publicado originalmente em Inglês pelo Banco Mundial. Em caso de discrepâncias, prevalecerá a versão original em inglês.
Esta obra foi elaborada pela equipe do Banco Internacional para Reconstrução e Desenvolvimento/Banco Mundial. As
afirmações, interpretações e conclusões aqui contidas não expressam necessariamente a opinião dos diretores executivos
da instituição ou dos governos que eles representam.
O Banco Mundial não garante a exatidão dos dados incluídos nesta publicação. As fronteiras, cores, denominações e
outras informações mostradas em qualquer mapa neste estudo não implicam nenhuma opinião da parte do Banco Mundial
em relação à situação jurídica de qualquer território, bem como o endosso ou a aceitação de suas fronteiras.
This work was originally published by The World Bank in English as National Assessments of Educational Achievement,
Volume 2: Developing Tests and Questionnaires for a National Assessment of Educational Achievement in 2008. This
Brazilian Portuguese translation was arranged by Elsevier Brazil. Elsevier Brazil is responsible for the quality of translation.
In case of any discrepancies, the original language will govern.
The findings, interpretations, and conclusions expressed herein are those of the author(s) and do not necessarily reflect the
views of the Executive Directors of The World Bank or the governments they represent.
The World Bank does not guarantee the accuracy of the data included in this work. The boundaries, colors, denominations,
and other information shown on any map in this work do not imply any judgement on the part of The World Bank concerning
the legal status of any territory or the endorsement or acceptance of such boundaries.
Direitos e permissões
O material contido nesta publicação é protegido por direito autoral. A cópia e/ou transmissão sem permissão de uma parte
ou de todo o conteúdo poderão ser consideradas violação da lei aplicável. O Banco Internacional para Reconstrução e
Desenvolvimento/Banco Mundial estimula a disseminação desta obra e normalmente permitirá com rapidez a reprodução
de trechos deste relatório.
Para obter permissão de fotocópia ou reimpressão de qualquer parte deste livro, envie um pedido contendo informações
completas para Copyright Clearance Center Inc., 222 Rosewood Drive, Danvers, MA 01923, USA; telefone: 978-750-8400;
fax: 978-750-4470; Internet: www.copyright.com.
Todas as outras perguntas sobre direitos e licenças, inclusive direitos subsidiários, devem ser dirigidas ao Office of the
Publisher, The World Bank, 1818 H Street NW, Washington, DC 20433, USA.
Fax: 202-522-2422; e-mail: pubrights@worldbank.org.
© 2011, The International Bank for Reconstruction and Development/The World Bank
Todos os direitos reservados e protegidos pela Lei no 9.610, de 19/02/1998.
Copidesque: Shirley Lima da Silva Braz
Revisão: Andréa Campos Bivar e Jussara Bivar
Editoração Eletrônica: Estúdio Castellani
Elsevier Editora Ltda.
Conhecimento sem Fronteiras
Rua Sete de Setembro, 111 – 16o andar
20050-006 – Centro – Rio de Janeiro – RJ – Brasil
Rua Quintana, 753 – 8o andar
04569-011 – Brooklin – São Paulo – SP – Brasil
Serviço de Atendimento ao Cliente
0800-0265340
sac@elsevier.com.br
ISBN 978-85-352-3961-4
Edição original: ISBN 978-0-8213-7497-9
CIP-Brasil. Catalogação-na-fonte
Sindicato Nacional dos Editores de Livros, RJ
A561d Anderson, Prue, 1954-
Desenvolvimento de testes e questionários para avaliação do desempenho educacional / Prue Anderson e
George Morgan ; tradução Maria Lúcia de Oliveira. – Rio de Janeiro : Elsevier, 2011.
il. – (Pesquisas do Banco Mundial sobre avaliações de desempenho educacional ; v. 2)
Tradução de: Developing tests and questionaires for a national assessment of educational achievement
Apêndice
Inclui bibliografia
ISBN 978-85-352-3961-4
1. Testes e medidas educacionais – Estados Unidos. 2. Avaliação educacional – Estados Unidos.
3. Rendimento escolar – Estados Unidos. I. Morgan, George, 1945-. II. Título. III. Série.
10-4461. CDD: 371.261
CDU: 37.091.26
AGRADECIMENTOS

U
ma equipe conduzida por Vincent Greaney
(consultor do Grupo de Educação da Rede de
Desenvolvimento Humano do Banco Mun-
dial) e Thomas Kellaghan (Centro de Pesquisas Educacionais, St. Patrick’s
College, Dublin) preparou a série da qual este é o Volume 2. Também con-
tribuíram para a série: Sylvia Acana (Uganda National Examinations Board),
Prue Anderson (Australian Council for Educational Research), Fernando
Cartwright (Canadian Council on Learning), Jean Dumais (Statistics Can-
ada), Chris Freeman (Australian Council for Educational Research), Hew
Gough (Statistics Canada), Sara Howie (University of Pretoria), George
Morgan (Australian Council for Educational Research), T. Scott Murray
(UNESCO Institute e Statistics) e Gerry Shiel (Educational Research Cen-
tre, St. Patrick’s College, Dublin). O trabalho foi realizado sob a direção
geral de Ruth Kagia, diretora do Setor de Educação do Banco Mundial, e
Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super-
visionou o projeto até agosto de 2007. Marguerite Clarke supervisionou as
últimas etapas, até a revisão e a publicação.
Somos gratos às contribuições do painel de revisão: Al Beaton (Bos-
ton College), Irwin Kirsch (Educational Testing Service) e Benoit Millot
(Banco Mundial). Comentários adicionais muito úteis foram feitos por
Helen Abadzi, Regina Bendokat, Marguerite Clarke, Robin Horn, Eliza-
beth King, Maureen Lewis, Harry Patrinos, Carlos Rojas, Jee-Peng Tan,
Eduardo Velez e Raisa Venalainen.
Recebemos valiosos subsídios e apoio de Carly Cheevers, David Har-
ding, Aidan Mulkeen, Aleksandra Sawicka, Thi Tran, Hilary Walshe e
Hans Wagemaker.
Desejamos agradecer às seguintes instituições a permissão de repro-
duzir seu material no texto: Australian Council for Educational Research
(Conselho Australiano de Pesquisas Educacionais), Educational Resear-
ch Centre, Dublin (Centro de Pesquisas Educacionais, Dublin); Inter-
national Association for the Evaluation of Educational Achievement
(Associação Internacional para Avaliação do Aproveitamento Escolar);
Massachusetts Department of Education (Departamento de Educação
de Massachusetts); National Center for Education Statistics of the U.S.
Department of Education (Centro Nacional de Estatísticas de Educação
do Departamento de Educação, EUA), Organisation for Economic Co-
operation and Development (Organização para a Cooperação e o De-
senvolvimento Econômico, OCDE) e Papua New Guinea Department
of Education (Departamento de Educação de Papua Nova Guiné).
A diagramação, a edição e a produção dos livros foram coordenados
por Mary Fisk e Paola Scalabrin, do Escritório de Publicações do Banco
Mundial.
O Irish Educational Trust Fund; o Bank Netherlands Partnership Pro-
gram; o Educational Research Center, Dublin, e o Australian Council
for Educational Research deram generoso apoio à preparação e publica-
ção desta série.
A tradução desta série para o português só foi possível com o genero-
so apoio da Russia Education Aid for Development Trust Fund.
PREFÁCIO

A
qualidade de qualquer exercício de avaliação
escolar depende da qualidade dos instrumen-
tos utilizados. De fato, se esses instrumentos
estiverem mal concebidos, a avaliação pode ser uma perda de tempo e di-
nheiro. Este livro descreve como desenvolver instrumentos tecnicamente
robustos para uma avaliação nacional do aproveitamento escolar, com foco
especial na realização dessa tarefa em países em desenvolvimento. O Volu-
me 1 descreve os principais objetivos e características de avaliações nacionais
e se destina principalmente a formuladores de políticas e responsáveis por
decisões na área da educação. O segundo livro e a maior parte dos seguintes
fornecem, passo a passo, os detalhes sobre desenho, implementação, análise
e apresentação das constatações de uma avaliação nacional e se destinam
principalmente às equipes de avaliação nacional.
Desenvolvimento de testes e questionários para avaliação do desempenho
educacional aborda a elaboração de dois tipos de instrumentos de coleta
de dados: testes de aproveitamento dos alunos e questionários sobre fa-
tores socioeconômicos e contextuais. A Parte I cobre o desenvolvimento
de um marco de referência da avaliação, a construção de uma tabela de
especificações para o teste, a elaboração de itens, a realização do pré-
teste (ou teste piloto) e a formatação do teste final. A Parte II delineia as
etapas e atividades observadas na construção de questionários sobre fa-
tores socioeconômicos e contextuais. Os questionários serão usados para
obter informações sobre alunos, professores, diretores ou pais relativas
a variáveis que poderiam ajudar a explicar as diferenças no desempenho
dos alunos no teste de aproveitamento. A Parte III descreve como criar
um manual para aplicação do teste, de forma a garantir que todos os
alunos façam o teste em condições padronizadas.
O Volume 3 enfoca questões práticas que devem ser levadas em conta
na implementação de um programa de avaliação nacional em larga escala,
incluindo logística, amostragem e limpeza e gerenciamento de dados. O
Volume 4 trata de como gerar dados sobre itens e sobre pontuações de tes-
tes e como estabelecer relação entre as pontuações do teste e outros fatores
educacionais. Finalmente, o Volume 5 aborda como redigir relatórios com
base nas constatações da avaliação nacional e como usar os resultados para
aprimorar a qualidade do processo decisório das políticas educacionais.
À medida que os leitores avançarem na leitura deste volume, deve fi-
car evidente que o desenvolvimento de instrumentos de avaliação é um
exercício complexo, que demanda muito tempo e requer conhecimentos,
habilidades e recursos consideráveis. Ao lado disso, a experiência tem de-
monstrado que os benefícios resultantes de instrumentos bem concebidos
podem ser substanciais em termos da qualidade da informação fornecida
sobre os níveis de aproveitamento dos alunos e sobre os fatores escolares e
não escolares que poderiam contribuir para elevar aqueles níveis de apro-
veitamento. Instrumentos de boa qualidade podem fazer com que as cons-
tatações sejam vistas como mais confiáveis pelos formuladores de políticas e
por outros interessados. Também podem aumentar a probabilidade de que
os formuladores de políticas usem os resultados de uma avaliação nacional
para desenvolver planos e programas sólidos destinados a aprimorar a quali-
dade do ensino. Se os resultados dos testes e questionários alcançarem esses
resultados, estarão mais que justificados o tempo e o esforço envolvidos em
seu desenvolvimento.
Marguerite Clarke
Especialista Sênior em Educação
Banco Mundial
OS AUTORES E
ORGANIZADORES

AUTORES

Prue Anderson é pesquisadora sênior do Conselho Australiano de Pes-


quisas Educacionais (Australian Council for Educational Research).
Desenvolveu materiais de avaliação da leitura para programas de testes
de sistemas educacionais com alunos dos ensinos fundamental e médio.
Tem trabalhando com programas de acompanhamento educacional na
Austrália, em Brunei, Papua Nova Guiné e nas Filipinas. Atualmente, é
gerente de projetos do programa de Avaliação de Escolas Internacionais.
Outras áreas de seu interesse profissional incluem (1) mapeamento de
dados de avaliação e sua comparação com resultados do currículo e mar-
cos de referência e (2) mensuração de resultados sociais da educação.

George Morgan é consultor educacional. Foi pesquisador sênior da Divi-


são de Mensuração e chefe do Grupo de Desenvolvimento de Testes de
Matemática e Ciências do Conselho Australiano de Pesquisas Educacio-
nais durante quase 30 anos. Desenvolveu currículos de matemática e ciên-
cias e materiais de avaliação em todos os níveis educacionais, e trabalhou
com programas de testes em grande escala. Mais recentemente, tem-se
dedicado a projetos de avaliação no Camboja, Timor Leste, na República
Democrática Popular do Laos, em Papua Nova Guiné e Samoa.
ORGANIZADORES

Vincent Greaney é consultor educacional. Foi especialista-chefe de edu-


cação do Banco Mundial e trabalhou em diversos países da África, Ásia
e do Oriente Médio. Ex-professor; pesquisador do Centro de Pesquisas
Educacionais do St. Patrick’s College, Dublin; e professor visitante Ful-
bright na Western Michigan University, Kalamazoo; é membro do Hall
of Fame de Leitura da Associação Internacional de Leitura. Suas áreas de
interesse incluem avaliação, educação de professores, leitura e promo-
ção da coesão social por meio da reforma de livros didáticos.

Thomas Kellaghan é diretor do Centro de Pesquisas Educacionais do St.


Patrick’s College, Dublin, e é membro da Academia Internacional de
Educação. Trabalhou na University of Ibadan na Nigéria e na Queen’s
University em Belfast. Suas áreas de interesse em pesquisa incluem ava-
liações e exames, condições adversas para a educação e relações casa-es-
cola. Foi presidente da Associação Internacional para Avaliação Escolar
de 1997 a 2001. Trabalhou com questões de avaliação na África, Ásia,
América Latina e no Oriente Médio.
SUMÁRIO

PARTE I: A CONSTRUÇÃO DE TESTES DE APROVEITAMENTO 1

1 INTRODUÇÃO 3

2 DESENVOLVIMENTO DE UM MARCO DE REFERÊNCIA


DA AVALIAÇÃO 9
Tabela de especificações do teste 11
Validade 17
Idioma do teste 17
Formato do item 18
População-alvo de alunos a ser avaliada 25
Apresentação de resultados 26
Contextos 27

3 ELABORAÇÃO DE ITENS 29
Grau de dificuldade do item 31
Tendenciosidade do item 33
Material de estímulo 33
Formato do item 36
Itens de prática 48
Diagramação e elaboração dos itens 49
A equipe de elaboração de itens 55
Painéis de itens 59
Outros revisores 62
Rastreamento de itens 63
4 PRÉ-TESTE DE ITENS 67
Desenho do formulário do pré-teste 70
Impressão e revisão do pré-teste 75
Realização do pré-teste 78
Pontuação do pré-teste 79
Confiabilidade 84

5 SELEÇÃO DE ITENS DO TESTE 87

6 PRODUÇÃO DO TESTE FINAL 93


Desenho do teste final 93
Impressão e revisão 96

7 PONTUAÇÃO MANUAL DOS ITENS DO TESTE 101

PARTE II: CONSTRUÇÃO DE QUESTIONÁRIOS

8 DESENHO DE QUESTIONÁRIOS 109


Conteúdo do questionário 111
Tabela de especificações do questionário 116
Itens do questionário 116
Formato do item 119
Idioma do questionário 120
Respondentes 121
Aplicação do questionário 122
Plano de análise de dados 122

9 ELABORAÇÃO DE ITENS DE QUESTIONÁRIOS 125


Questões 126
Afirmações 126
Categorias de respostas 127
Lidando com questões delicadas 129
Diagramação do questionário 130
Revisão dos questionários 131

10 CODIFICAÇÃO DAS RESPOSTAS DOS QUESTIONÁRIOS 133


Preparação dos questionários para a entrada de dados 135
Códigos em branco ou respostas ambíguas 135

11 CORRESPONDÊNCIA ENTRE QUESTIONÁRIOS E


DADOS DO TESTE 137
Questionários dos alunos 137
Questionários dos pais 138
Questionários do professor e do diretor 139

PARTE III: DESENHO DE UM MANUAL PARA APLICAÇÃO


DO TESTE 141

12 O MANUAL DO APLICADOR DE TESTE 143


Conteúdo do manual 144
Uso do manual 145
Características de um manual 146
Quanto de detalhe é necessário? 148
Questões de prática 149
Teste dos itens 149
Revisão 151

13 O APLICADOR DO TESTE 153


Escolha do aplicador do teste 153
Observação de instruções 154
Garantia da qualidade 156
Lista de verificação do aplicador 156

14 INFORMANDO AS ESCOLAS SOBRE A AVALIAÇÃO


NACIONAL 159

APÊNDICES

A GLOSSÁRIO 161

B LEITURA ADICIONAL 167

C EXEMPLOS DE ITENS DE TESTE E DE


QUESTIONÁRIO E MANUAIS DE APLICAÇÃO 171
Itens do teste de aproveitamento 172
Questionários 173
Manuais 173
Agradecimentos 174

ÍNDICE 177
QUADROS

2.1 Currículo de Matemática em Papua Nova Guiné 11


2.2 Currículo de Inglês da Nova Zelândia 12
2.3 Exemplos de Itens de Múltipla Escolha 19
2.4 Exemplo de um Item de Resposta Fechada 20
2.5 Exemplos de Questões Abertas de Resposta Curta 20
2.6 Exemplo de um Estímulo para Redação 21
3.1 Exemplo de Material de Estímulo Irrelevante 35
3.2 Exemplo de um Item com Informação Inexata ou Enganosa 35
3.3 Exemplo de um Item de Múltipla Escolha 37
3.4 Pontuação em Sentenças Completas 38
3.5 Pontuação numa Lista 38
3.6 Reduzindo a Leitura 39
3.7 Item com um Comando Negativo 39
3.8 Distratores Mal Emparelhados 40
3.9 Lidando com Pares de Distratores 40
3.10 Item Aberto Confuso com Instruções Pouco Claras 43
3.11 Bom Exemplo de um Item de Resposta Fechada 44
3.12 Item com Crédito Parcial 45
3.13 Exemplo de um Item de Resposta Aberta com Guia de
Pontuação 46
3.14 Exemplo de um Item Fechado com Guia de Pontuação 47
3.15 Uso de Imagens para Reduzir Palavras 51
3.16 Como Simplificar as Imagens 52
3.17 Como Dar Nomes Claros aos Gráficos 52
3.18 Como Dar Nomes Claros aos Mapas 53
3.19 Deixando Espaço no Material de Estímulo 54
3.20 Exemplo de Folha de Estilo para Elaboradores de Itens 58
4.1 Exemplo de um Item nos Formatos de Múltipla Escolha e Aberto 79
4.2 Exemplo de uma Folha de Entrada de Dados para o Pré-teste 81
6.1 Exemplo de uma Folha de Rosto de Teste 94
8.1 Atitudes e Valores da Tabela de Especificações do Questionário 117
9.1 Alinhamento Ruim de Caixas e Categorias de Respostas 130
9.2 Melhor Alinhamento de Caixas e Categorias de Respostas 131
10.1 Exemplo de Codificação em Escala Cinza 134
10.2 Exemplo de Tratamento de Itens como Categorias Separadas
para a Entrada de Dados 134
12.1 Instruções do Manual de Aplicação 147
12.2 Informação para Professores e Diretores 148
12.3 Aplicação de Itens de Prática 149
13.1 Lista de Verificação da Aplicação: Um Exemplo das Filipinas 157

FIGURAS

1.1 Fluxograma de uma Avaliação Nacional 4


1.2 Visão Geral das Atividades de Avaliação Nacional 5
4.1 Exemplo de Ligação Circular de Itens 71
4.2 Modelo para Ligação Vertical de Itens 73
C.1 Guia dos Materiais Encontrados na Internet sobre Testes,
Questionários e Manuais 172

TABELAS

1.1 Etapas da Avaliação Nacional para Desenvolvimento de Teste


e Elaboração de Questionário 6
2.1 Tabela de Especificações para um Teste de Matemática do
Primeiro Ciclo do Ensino Fundamental 13
2.2 Tabela de Especificações de Matemática do TIMMS, 3 e 4 Séries 14
a a

2.3 Tabela de Especificações do Conteúdo de Matemática em Papua


Nova Guiné 16
2.4 Vantagens e Limitações de Diferentes Formatos de Itens 24
2.5 Formato de Itens do Teste de Matemática de Papua Nova Guiné 25
4.1 Itens de Ligação em Duas Unidades de Leitura 74
4.2 Parte de uma Planilha para Rastrear Itens em Diferentes
Formulários 75
5.1 Exemplo de Resultado da Análise de um Item de Múltipla
Escolha 88
5.2 Exemplo de Resultado da Análise de um Item Aberto de Crédito
Parcial 90
8.1 Componentes do Desenvolvimento de Questionário 112
8.2 Funções da Leitura num Estudo Internacional: Pesos Usados
para Criar Duas Novas Variáveis , “Leitura com um Objetivo
Utilitário” e “Leitura por Prazer” 118
ABREVIAÇÕES

ACPA Alocação do Caderno de Prova do Aluno


CCN Comissão de Coordenação Nacional
ID Número de Identificação
NAEP Avaliação Nacional do Progresso Educacional – Estados Unidos
PIRLS Estudo Internacional sobre o Progresso do Letramento em
Leitura
PISA Programa Internacional de Avaliação de Alunos
TCT Teoria Clássica dos Testes
TIMSS Estudo das Tendências Internacionais no Estudo de Matemática
e Ciências
TRI Teoria de Resposta ao Item
PA R T E

I A CONSTRUÇÃO
DE TESTES DE
APROVEITAMENTO
CAPÍTULO

1 INTRODUÇÃO

U
ma avaliação nacional envolve muitas ativi-
dades, desde o momento em que se decide
realizá-la até o momento em que alguém
começa a ler um relatório com as constatações. Cada livro desta série
de cinco volumes descreve algumas das atividades envolvidas numa ava-
liação nacional, com ênfase especial na realização dessa avaliação em
países em desenvolvimento. Provavelmente, parte da tecnologia neces-
sária para realizar uma avaliação nacional satisfatória em países que ca-
recem de forte tradição em pesquisas educacionais empíricas não estará
disponível localmente. Portanto, esta série buscou explicar em detalhes
as atividades de uma avaliação e, onde se mostrar relevante, ajudar os
leitores (que, presumimos, serão os responsáveis por pelo menos alguns
dos aspectos de uma avaliação) a compreender por que é necessário de-
senvolver essas atividades.
O Ministério da Educação ou a comissão de coordenação nacional
(CCN) nomeada por ele terão, usualmente, a responsabilidade geral
de orientar e apoiar uma avaliação nacional. Sob a supervisão do mi-
nistério ou da CCN, a maior parte do trabalho será realizada por um
órgão de implementação que, por sua vez, supervisionará o trabalho
do gerente de desenvolvimento de teste, dos especialistas em cada dis-
4 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

ciplina e dos especialistas em análise estatística, além de ser o respon-


sável pelas providências logísticas envolvidas na realização da avaliação
nacional. Este livro, Desenvolvimento de testes e questionários para ava-
liação do desempenho educacional, cobre, basicamente, as atividades do
gerente de desenvolvimento de teste e dos especialistas nas disciplinas,
bem como as providências para o pré-teste (veja Figura 1.1). Outros
tópicos que aparecem na Figura 1.1, tais como amostragem, aspectos
logísticos da avaliação (inclusive o contato com as escolas) e entrada e
limpeza de dados, são abordados no Volume 3, e o Volume 4 cobre a
análise estatística.
O fluxograma mostrado na Figura 1.2 resume os vários passos de uma
avaliação nacional. Muitos dos passos estão descritos neste livro; os qua-
dros ou atividades reticuladas referem-se aos aspectos da avaliação que

FIGURA 1.1

Fluxograma de uma Avaliação Nacional

Ministério da Educação/
Comissão de Coordenação
Nacional

Órgão implementador/
Líder da equipe

Desenvolvimento
Análise Logística
do teste/Gerente

Especialistas
nas disciplinas Amostragem Administração
Análise de currículo, Entrada e limpeza do pré-teste
desenvolvimento do marco de dados Contato com as escolas
de referência, elaboração de Análise estatística Impressão
itens, pré-teste, seleção de
itens finais, interpretação
de resultados

Pré-teste do teste e de
itens do questionário
Seleção de itens finais
Interpretação de resultados
Elaboração de relatório

Fonte: Elaborado pelo autor.


FIGURA 1.2

Visão Geral das Atividades de Avaliação Nacional

1. O Ministério da Educação 2. O Ministério da Educação 3. O órgão implementador, 4. Os especialistas nas 5. O gerente de desenvolvi-
ou a CCN indica o órgão ou a CCN e outros o líder da equipe, o gerente disciplinas analisam o mento de teste treina os
implementador. O líder da concordam com o marco de desenvolvimento de currículo e esclarecem elaboradores de itens.
equipe e o órgão imple- de referência (inclusive a teste e os especialistas os objetivos.
mentador elaboram a respeito dos temas e da nas disciplinas elaboram a
versão preliminar do marco população-alvo a ser versão preliminar da tabela
de referência da avaliação testada). de especificações dos
nacional. testes e questionários.

10. O líder da equipe e o 9. O gerente de desenvolvi- 8. O órgão implementador 7. O órgão implementador 6. O gerente de desenvolvi-
gerente de desenvolvi- mento de teste supervi- realiza o pré-teste. organiza painel de mento de teste e o líder
mento de teste super- siona a revisão de itens e revisão. da equipe supervisionam
visionam a elaboração questões e realiza pré- a versão preliminar dos
preliminar da versão final -testes adicionais, se itens, das questões e do
dos itens, questionários e necessário. manual de aplicação.
do manual de aplicação.

11. O órgão implementador 12. O órgão implementador 13. O órgão implementador 14. O órgão implementador 15. O órgão implementador
organiza painel de seleciona a amostra providencia a impressão treina aplicadores de supervisiona a aplicação
revisão. de escolas. de testes, questionários teste e questionário, da avaliação nacional.
e manuais. usando o manual.

20. O Ministério da Educação 19. O Ministério da 18. O órgão implementador 17. O órgão implementador 16. O órgão implementador
e outros utilizam os Educação ou a CCN elabora versões prelimi- analisa os dados. supervisiona a pontuação
resultados. publica os relatórios. nares de relatórios e os dos testes, gravando
submete ao Ministério da todos os resultados e
Educação ou à CCN e fazendo a limpeza dos
outros para revisão. dados.

Fonte: Autores.
TABELA 1.1
Etapas da Avaliação Nacional para Desenvolvimento de Teste e Elaboração de Questionário

Etapa Atividade Duração aproximada Pessoas envolvidas


1 Preparar o marco de referência da 4 semanas O Ministério da Educação ou a CCN, o órgão implementador,
avaliação; esclarecer o objetivo especialmente o líder da equipe, o gerente de desenvolvimento de
da avaliação nacional, dos testes teste, os principais interessados e formuladores de políticas
e questionários; e selecionar a
população a ser avaliada.
Criar a tabela de especificações 4 a 6 semanas O Ministério da Educação ou a CCN, órgão implementador, gerente
e fazer amplas consultas para de desenvolvimento de teste, grupo de especialistas, professores
aprovação. experientes, especialistas nas disciplinas, analista de dados,
elaboradores de itens com experiência, principais interessados e
formuladores de políticas
2 Elaborar itens do teste e do 12 a 14 semanas (20 a Gerente de desenvolvimento de teste, especialistas nas disciplinas,
questionário.a 30 itens por elaborador elaboradores de itens e principais interessados
por semana)
Produzir pré-testes e versão 4 semanas Líder da equipe, gerente de desenvolvimento de teste, elaboradores
preliminar de questionários. de itens, profissionais de design e diagramação, e revisores
Imprimir pré-testes e versão 2 semanas Órgão implementador, líder da equipe, gerente de desenvolvimento
preliminar dos questionários. de teste e elaboradores de itens
Embalar e distribuir pré- 2 a 3 semanas Órgão implementador
-testes e versão preliminar dos
questionários.
3 Aplicar pré-testes e versão 2 a 3 semanas Órgão implementador e aplicadores de teste
preliminar dos questionários nas
escolas.
Manual de pontuação de itens 2 semanas Líder da equipe, gerente de desenvolvimento de teste, especialistas
(se requerida). nas disciplinas e elaboradores de itens
Fazer a entrada de dados do 1 semana Órgão implementador, analista de dados e pessoal de entrada de
pré-teste. dados
4 Analisar dados do pré-teste e do 2 semanas Órgão implementador, analista de dados, elaboradores de itens e
questionário. gerente de desenvolvimento de teste
Selecionar itens para testes e 2 semanas Gerente de desenvolvimento de teste, analistas, elaboradores de
questionários. itens e principais interessados
5 Produzir testes finais, 2 semanas Órgão implementador, gerente de desenvolvimento de teste,
questionários e manuais de profissionais de design e diagramação, revisores e elaboradores de
aplicação. itens
Imprimir testes e questionários. 4 semanas Órgão implementador, líder da equipe, e gerente de
desenvolvimento de teste
Embalar e distribuir testes e 2 a 3 semanas Órgão implementador e gerente de desenvolvimento de teste
questionários. (dependendo
de distância e
acessibilidade)
6 Aplicar testes e questionários 3 a 4 semanas Órgão implementador, gerente de desenvolvimento de teste, e
em escolas. aplicadores de teste
Pontuação manual de itens (se 3 a 4 semanas Gerente de desenvolvimento de teste e elaboradores de itens
requerida).
7 Entrar dados e limpar. 4 a 6 semanas Analista de dados e pessoal de entrada de dados
Analisar dados. 2 a 3 semanas Analista de dados, elaboradores de itens e gerente de
desenvolvimento de teste
8 Produzir relatórios finais. 4 a 5 semanas Analista de dados, elaboradores de itens e gerente de
desenvolvimento de teste
Fonte: Autores.
aSerá necessário alocar tempo adicional se os itens tiverem de ser traduzidos para outros idiomas.
8 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

recebem a maior parte da atenção neste livro. O livro também oferece


vários pontos de destaque ou comentários comuns a mais de um aspecto
da avaliação; foram repetidos em vários capítulos ou seções para facilitar
a compreensão do leitor interessado em um único aspecto da avaliação
nacional.
Informações adicionais relacionadas com o desenvolvimento do teste
e a elaboração de questionários são fornecidas na Tabela 1.1. A tabela
descreve o processo de construção de testes de aproveitamento e ques-
tionários em oito etapas e também indica as pessoas responsáveis pelos
componentes.
Em http://go.worldbank.org/M2O1YDQO90 você encontrará mui-
tos exemplos de itens, itens de questionário e manuais de aplicação de
teste. Este material, obtido de avaliações nacionais e internacionais, é
apresentado para familiarizar as equipes de avaliação nacional com itens
e tipos de itens em diversas áreas de currículo e com questionários ela-
borados para alunos, professores, escolas ou diretores e pais.
CAPÍTULO

2 DESENVOLVIMENTO
DE UM MARCO DE
REFERÊNCIA DA
AVALIAÇÃO

P
ara que se possa determinar os conteúdos de
uma avaliação, é fundamental dispor de um
marco de referência que forneça um quadro
geral ou plano para orientar o desenvolvimento de testes de avaliação,
questionários e procedimentos (Linn e Dunbar, 1992; Mullis et al.,
2006). Tal marco de referência ajuda a fornecer uma boa compreensão
do conceito que está sendo avaliado (por exemplo, aproveitamento em
leitura ou matemática) e dos vários processos associados ao conceito.
Deve incluir uma definição do que está sendo avaliado, identificar as
características das tarefas realizadas durante o desenvolvimento do teste
e fornecer uma base para a interpretação dos resultados (Kirsch, 2001;
Messick, 1987). Um marco de referência pode ajudar a explicar o ob-
jetivo de uma avaliação. Pode facilitar discussões e o processo decisório
entre os interessados nas questões educacionais, esclarecendo conceitos-
-chave antes que se dê início à avaliação. O marco de referência também
pode identificar variáveis-chave que tenham a probabilidade de estar
associadas aos resultados (a pontuação) do teste, e pode ajudar a garantir
que essas variáveis sejam incluídas no projeto da avaliação nacional.
Inicialmente, a comissão de coordenação deve concordar quanto à
definição do que deve ser medido. Em muitas situações, o documento
10 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

de currículo nacional conterá definições das principais áreas. As defi-


nições de leitura, por exemplo, têm variado ao longo do tempo e entre
sistemas de educação. Em alguns casos, a leitura tem sido entendida
como a habilidade de pronunciar palavras. Em outros, leitura se refere
à habilidade de identificar palavras individuais e dar seu significado. A
leitura também tem sido definida como a habilidade de compreender
ou extrair significado de um texto. Definições mais recentes vão além
de simples habilidades de decodificação e incluem a habilidade de usar
a informação contida nos textos, bem como desenvolver uma compre-
ensão sobre eles. Também reconhecem que alunos e adultos leem por
motivos diversos – por prazer ou para obter informação, por exemplo.
Essas novas definições refletem-se em testes que incluem diferentes for-
matos de textos, como pequenos contos, excertos de jornais, anúncios,
sinais e gráficos.
O objetivo para o qual os dados serão coletados deve estar claro no
desenvolvimento do teste. Consultas preliminares com os principais in-
teressados e grupos de especialistas são um primeiro passo crucial para
esclarecer o objetivo de uma avaliação nacional e, consequentemente,
o que o teste deve avaliar, o que deve ser avaliado, quando deve ser
avaliado e em que idioma os testes devem ser feitos. Especialistas em
currículo devem ser envolvidos nessas decisões, bem como formuladores
de políticas e gestores de educação, que terão condições de usar os resul-
tados de uma avaliação como base para políticas educacionais, alocação
de recursos e implementação de reformas.
As avaliações nacionais podem ser ferramentas poderosas para avaliar
a eficácia de alguns aspectos do currículo. Avaliações bem concebidas
também podem reforçar as intenções do currículo ao modelar os tipos
de habilidades e entendimentos que os alunos devem ser capazes de
demonstrar. Esses tipos de habilidades e os contextos nos quais são ava-
liados devem operar em conjunto para apoiar objetivos abrangentes de
políticas educacionais em áreas-chave de aprendizado. Os exemplos
de alguns contextos abrangentes para a realização de avaliações nacio-
nais, apresentados nos Quadros 2.1 e 2.2, refletem diversas prioridades
educacionais.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 11

TABELA DE ESPECIFICAÇÕES DO TESTE

A tabela de especificações do teste é o documento fundamental que


orienta o desenvolvimento do teste, a análise e a elaboração de rela-
tórios. Descreve os dados que precisam ser coletados, define a exten-
são do teste e especifica a proporção de itens que tratarão dos vários
aspectos de um currículo. Uma boa tabela de especificações deve
indicar o seguinte:

yA proporção de itens de teste no formulário final que tratam de cada


área de currículo (por exemplo, matemática, linguagem, ciências).
yA proporção de itens dentro da área de currículo que avaliam dife-
rentes habilidades (por exemplo, em matemática – número, medida,
espaço e padrão; na escrita – ideias, conhecimento do conteúdo, es-
trutura, estilo, vocabulário, soletração e gramática).

QU A D R O 2 . 1

Currículo de Matemática em Papua Nova Guiné


O currículo cultural básico de matemática em Papua Nova Guiné para 2003 tem o
seguinte fundamento geral:

Todos os cidadãos têm o direito de participar do futuro desenvolvimento da Pa-


pua Nova Guiné. Por isso, os alunos precisam desenvolver sólidos conhecimentos
de matemática, bem como habilidades e compreensões matemáticas.... Os alunos
no nível fundamental serão capazes de associar novos conceitos matemáticos con-
tidos nos cinco elementos deste programa a seu conhecimento cultural, de modo
que sintam segurança para usar a matemática na vida diária. O curso de Cultura
Matemática Elementar fornece muitas oportunidades para um aprendizado re-
levante e objetivo baseado nos princípios da vida familiar. (Papua Nova Guiné,
Departamento de Educação 2003: 2.)

O foco deste fundamento (combinado com documentos ministeriais de políticas e


com uma substancial reestruturação do ensino fundamental) é inserir a matemática
primária na vida cultural dos alunos das aldeias. As reformas têm dado prioridade
à integração da matemática primária e da cultura local e à aplicação de entendi-
mentos matemáticos à vida diária. Uma recente avaliação nacional desenvolvida
para monitorar o aproveitamento dos alunos enfatizou o uso de contextos realistas
para as questões e a avaliação de habilidades e entendimentos que tenham apli-
cações práticas.
12 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

QU A D R O 2 . 2

Currículo de Inglês da Nova Zelândia


Os objetivos gerais do currículo de inglês da Nova Zelândia afirmam:

Os alunos devem ser capazes de se envolver com a linguagem, apreciá-la em seus


variados aspectos e compreender, responder e usar a linguagem oral, escrita e
visual efetivamente em diferentes contextos. (Nova Zelândia, Ministério da Edu-
cação 2002: 9.)

Esses objetivos destacam a importância do interesse e do prazer na leitura e na com-


preensão de uma ampla variedade de textos. Textos atraentes e tarefas significativas
e prazerosas são considerações-chave nas avaliações nacionais de inglês. A ênfase na
linguagem em todas as suas variedades reflete um forte compromisso com o reconhe-
cimento e a valorização da cultura oral dos alunos Maori, bem como das formas escrita
de inglês. Várias avaliações nacionais refletem esses objetivos.

yA proporção de itens que tratam de diferentes habilidades de proces-


samento cognitivo (como conhecimento ou recuperação/memória,
interpretação ou reflexão).
yA proporção de itens de múltipla escolha e itens abertos.
yA proporção de itens destinados a diferentes tipos de textos de estí-
mulo em leitura (como narrativo, expositivo, processual e argumen-
tativo) ou em matemática (como tabelas, gráficos e diagramas).

A tabela de especificações do teste detalhada na Tabela 2.1 baseia-


-se num currículo de matemática para as séries intermediárias da escola
primária. Subtestes separados foram concebidos para medir as habili-
dades dos alunos de fazer cálculos básicos, compreender conceitos ma-
temáticos e solucionar problemas. Por exemplo, a célula formada pela
interseção da área de conteúdo “Frações” e o comportamento intelectual
“Habilidade de resolver problemas de rotina” representa o objetivo “Ha-
bilidade de resolver problemas de rotina que envolvem frações”. Um
comitê de especialistas nas disciplinas, que incluía professores, decidiu
devotar cinco itens àquele objetivo. A célula que contém itens que tes-
tam a habilidade de realizar operações com números inteiros recebeu
a ponderação mais alta (25 itens). Muitas células ficaram vazias (sem
itens). Os pesos relativos da importância atribuída a cada objetivo orien-
TABELA 2.1
Tabela de Especificações para um Teste de Matemática do Primeiro Ciclo do Ensino Fundamental

Comportamentos intelectuais
Computação Conceitos Solução de problemas
Habili-
dade de Habili- Habili- Habili-
Conheci- Compreen- Compreen- Compreen- traduzir dade de Habili- dade de dade de
mento Habili- são de são de são de elementos ler e dade de analisar resolver
de dade para conceitos princípios estrutura de um interpretar resolver e fazer problemas
termos realizar matemá- matemá- matemá- formulário gráficos e problemas compa- não
Áreas de e fatos operações ticos ticos tica para outro diagramas de rotina rações rotineiros Total
conteúdo (A1) (A2) Total (B1) (B2) (B3) (B4) (B5) Total (C1) (C2) (C3) Total geral
1. Números 1 25 26 1 4 7 2 4 18 14 2 2 18 62
inteiros
2. Frações 4 4 4 1 2 7 5 5 16
3. Decimais 8 8 5 1 6 5 19
4. Medida 2 2 3 2 5 3 3 10
5. Geometria 0 2 2 4 0 4
6. Mapas e 0 0 4 4 4
gráficos
Total geral 3 37 40 7 7 14 5 7 40 27 6 2 35 115

Fonte: Centro de Pesquisas Educacionais 1978: 44.


14 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

taram o desenvolvimento do teste e, posteriormente, a compilação da


versão final do teste.
A tabela de especificações de matemática do TIMMS (Tendências In-
ternacionais no Estudo de Matemática e Ciências)1 mostrada na Tabela
2.2 define o formato dos itens e os processos cognitivos a serem avalia-
dos nas 3a e 4a séries de uma forma um tanto diferente.
Claramente, as tabelas de especificações variam, dependendo de
como se compreenda o conceito que está sendo medido e o objetivo
da avaliação. Todas as pessoas envolvidas no desenvolvimento do teste
devem compreender e aprovar as implicações de uma tabela de espe-
cificações no que se refere ao que deve ser testado e ao que deve ficar
de fora.

TABELA 2.2
Tabela de Especificações de Matemática do TIMMS, 3a e 4a Séries

Número Itens de Itens de


Expectativas de total de múltipla resposta Itens de resposta
desempenho itensa escolha curta dissertativa
Conhecimento 42 35 7 0
Desempenho de 16 13 3 0
procedimentos rotineiros
Uso de procedimentos 24 21 2 1
complexos
Solução de problemas 20 10 3 7
Fonte: IEA, http://timss.bc.edu/timss1995i/TIMSSPDF/AMitens.pdf.
aO número de itens reflete o total do conjunto usado para formar 26 agrupamentos de teste em oito
diferentes cadernos de prova. Nenhum aluno tinha de fazer o teste completo.

Dadas as limitações de tempo e recursos, não é possível testar todos


os subelementos de uma área de currículo ou todos os tópicos cobertos
num programa. Os itens do teste sempre devem referir-se às habilidades
principais. Especialistas em currículo ou em disciplinas específicas de-
vem ser consultados para determinar quais são essas habilidades.
A importância dada na tabela de especificações da avaliação nacional
aos subelementos ou domínios de um currículo também depende da for-
ma como os dados do teste serão apresentados (por pontuação total ou
por domínio do currículo). Os formuladores de políticas educacionais
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 15

devem ser consultados para se saber como gostariam que os dados do


teste fossem apresentados.
Se os dados do teste forem apresentados como uma pontuação única
para cada aluno numa área de currículo (matemática, por exemplo),
então são necessários pelo menos 25 ou 30 itens. Quando se pretende
apresentar resultados sobre um subelemento, como a compreensão so-
bre espaço ou a capacidade de solucionar problemas num teste de mate-
mática, poderia ser usado um número menor de itens.
A Tabela 2.3 fornece o exemplo de uma tabela de especificações para
um teste de matemática para alunos das 3a, 5a e 8a séries em Papua Nova
Guiné. Note-se que, no teste da 3a série, mais de 80% dos itens cobrem
número e aplicação, espaço e forma, e medida. Somente quatro itens se
referem a acaso e padrões. À altura da 8a série, os itens estão distribuídos
mais uniformemente entre os subelementos.
Em geral, as tabelas de especificações se baseiam num currículo
prescrito (ou pretendido). No entanto, se o currículo implementado
(o que os professores ensinam) e o currículo alcançado (o que os
alunos aprenderam) não são levados em consideração, um teste pode
ser muito difícil ou muito fácil. Assim, não fornecerá uma descrição
significativa da gama de aproveitamentos dos alunos na população-
-alvo. Se a maior parte dos alunos deixar de responder aos itens cor-
retamente, o teste não revelará se esses alunos são capazes de de-
monstrar habilidades que estão logo abaixo, ou bem abaixo, do nível
de dificuldade dos itens no teste. Do mesmo modo, se a maior parte
dos alunos responder a todos os itens corretamente, o teste não indi-
cará se são capazes de demonstrar habilidades que estão logo acima,
ou bem acima, da dificuldade dos itens do teste. Quando os dados
de testes são muito difíceis ou muito fáceis, têm uso limitado para
formuladores de políticas, escolas ou professores.
O grau de dificuldade do teste depende de seu objetivo. Se o objetivo
é monitorar o desempenho de todos os alunos na população-alvo, então
a distribuição de dificuldade dos itens do teste deve corresponder à dis-
tribuição do aproveitamento da população-alvo. Como regra geral, dois
terços do teste devem consistir em itens que dois terços da população
teriam entre 30% e 70% de probabilidade de responder corretamente.
16 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

(Na média, a probabilidade deve ser de 50%, pois isso ajudará a maxi-
mizar a variação das pontuações nos testes dos alunos.) A outra terça
parte do teste deve estar uniformemente dividida entre itens que mais
de 70% dos alunos que fazem o teste tenham a probabilidade de respon-
der corretamente e itens que menos de 30% tenham a probabilidade de
responder corretamente. Embora a sensibilidade ao aproveitamento dos
alunos refletida nesses números seja importante, não deve levar à exclu-
são de áreas importantes do currículo simplesmente porque os alunos
se saem muito mal ou muito bem nelas. A adequação de itens deve ser
estabelecida no programa de pré-teste, em que os itens são aplicados a
alunos com características similares às encontradas na população-alvo da
avaliação nacional.

TABELA 2.3
Tabela de Especificações do Conteúdo de Matemática em Papua Nova Guiné

Número e Espaço e Padrões e Total de


Série aplicação forma Medida Acaso álgebraa itens
3a série 10 7 4 2 2 25
5a série 10 10 7 4 4 35
8a série 10 10 8 6 6 40
Fonte: Material não publicado do Departamento de Educação em Papua Nova Guiné.
aÁlgebra é aplicada somente na 8a série.

Algumas avaliações nacionais estabelecem níveis de aproveitamento


ou desempenho com base num padrão predefinido e identificam alunos
que alcançaram esse padrão. Se o padrão é muito alto, o teste identi-
ficará o pequeno número de alunos que demonstram esse nível de ha-
bilidade, mas dará pouca informação sobre o nível de aproveitamento
do restante da população: apenas informará que o nível está abaixo do
padrão. Se o padrão for baixo, o teste identificará o grande número de
alunos que demonstram esse nível de habilidade, mas dará pouca infor-
mação sobre quaisquer níveis mais altos de habilidade que esses alunos
poderiam também ter alcançado.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 17

VALIDADE

Validade é um conceito amplo que envolve fazer interpretações das pon-


tuações ou das informações de testes e lhes dar usos adequados (Messick,
1989). Uma faceta da validade é a medida em que o conteúdo de um
teste é representativo do currículo ou do conceito que está sendo medi-
do. O gerente de desenvolvimento de teste deverá coordenar-se com um
grupo de referência de especialistas nas disciplinas (como especialistas
em currículo, por exemplo), a fim de garantir que os itens constituam
amostra adequada de um currículo ou conceito. O grupo de especialistas
não deve incluir os elaboradores de itens. Neste caso, a validade é uma
questão associada a uma decisão, e não a algo de natureza estatística.
O grupo de especialistas deve decidir se o teste representa a cobertura
adequada de um tema especificado (como matemática da 4a série) e
deve considerar se o desempenho no teste fornece evidência adequada
do aproveitamento dos alunos na área temática.

IDIOMA DO TESTE

O marco de referência do teste deve esclarecer e justificar o idioma a ser


usado num teste de avaliação nacional, ou mais de um, se for o caso. O
idioma de um teste é, em geral, o meio de instrução. A tradução de itens
do teste nos casos em que a instrução ocorre em vários idiomas tende a
ser cara e consumir muito tempo. As versões de testes traduzidos preci-
sam ser tão equivalentes quanto possível se os dados forem usados com
propósitos comparativos. A seguir, estão algumas questões que devem
ser levadas em conta para decidir se o teste de uma área particular do
currículo será feito em um idioma ou em mais de um.

yAvaliar alunos de séries mais avançadas num mesmo idioma de ins-


trução pode ser preferível se os recursos forem limitados.
yReduzir as palavras usadas em itens do teste ao mínimo possível pode
reduzir os custos de tradução, mas, em geral, isso descontextualiza o
item, tornando o teste menos autêntico.
18 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

yExcluir alguns alunos da população-alvo da avaliação nacional pode


ser preferível a tentar acomodar todos os grupos linguísticos.
yÀs vezes, o idioma pretendido de instrução não é o idioma realmente
usado no ensino. Nessas situações, os itens do teste de avaliação na-
cional poderiam usar o idioma real de instrução.
yNo caso de alunos mais jovens, especialmente se o idioma de instru-
ção não for seu primeiro idioma, o teste pode ser aplicado oralmente.
O aplicador do teste lê cada questão em voz alta ou usa um gravador
e dá aos alunos tempo suficiente para responder. Essa forma de as-
sistência pode ser especialmente adequada para testes de matemática
e ciências aplicados a alunos das séries iniciais, que talvez consigam
demonstrar maior grau de domínio da disciplina num teste aplicado
oralmente que noutro no qual teriam de ler os itens por conta pró-
pria. É óbvio que testes destinados a avaliar as habilidades de leitura
independente dos alunos não devem ser aplicados oralmente.

FORMATO DO ITEM

Em avaliações que usam papel e lápis, os alunos respondem a uma sé-


rie de questões ou estímulos. Suas respostas escritas ou desenhadas são
usadas como evidência de seu nível de conhecimento, competência ou
compreensão. Existem quatro formatos básicos de itens, ou modos de os
alunos registrarem suas respostas:

yMúltipla escolha
yResposta fechada
yResposta curta aberta
yRedação ou resposta dissertativa

Itens de múltipla escolha (veja Quadro 2.3) requerem que os alunos


selecionem uma entre várias (em geral, quatro) opções. As opções po-
dem estar escritas ou ser mostradas como imagens com títulos. Podem
ser listadas numa coluna, mostradas como uma fileira horizontal ou
apresentadas em duas colunas. O aluno indica sua resposta sombreando
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 19

uma bolha, desenhando um círculo em torno de uma letra ou número,


ou assinalando um quadro para selecionar um segmento de texto ou um
diagrama. Os itens de múltipla escolha têm uma única opção inequivo-
camente “correta” e várias outras plausíveis, mas incorretas. Em http://
go.worldbank.org/M2O1YDQO90 você encontrará muitos exemplos
de itens de múltipla escolha de linguagem, matemática e ciências para
alunos do ensino fundamental.
Itens de respostas fechadas (veja Quadro 2.4) têm uma resposta cor-
reta gerada pelo aluno. Pequenas variações na forma como a resposta
é apresentada são, em geral, aceitáveis. Pode-se pedir aos alunos que
escrevam uma ou duas palavras, sublinhem uma palavra ou um número
num texto ou numa tabela, desenhem uma linha ou um quadriculado,
ou indiquem uma área de um diagrama. Itens de respostas fechadas tam-
bém podem requerer que os alunos selecionem várias opções que aten-
dam a certos critérios ou combinem uma série de pares de sentenças ou
diagramas. (Em http://go.worldbank.org/M2O1YDQO90, veja os itens
6, 9, 11 e 19 relativos ao Teste de Matemática da NAEP 1990–2000 para
a 4a série e os itens C011032 e C031053 no Teste de Ciências do TIMSS
2003 para a 4a série.)

QU A D R O 2 . 3

Exemplos de Itens de Múltipla Escolha


1. O que teria maior probabilidade de ser medido em mililitros?

A. A quantidade de líquido numa colher de chá


B. O peso (massa) de um alfinete
C. A quantidade de gasolina num tanque
D. A espessura de 10 folhas de papel.
Fonte: IEA 1998, item da amostra.
Nota: A é a resposta correta.

2. Uma caixa de suco de laranja custa R$3,35. Um pão de forma custa R$2,75.
Qual dos valores a seguir é o menor de que você precisa para comprar o
suco de laranja e o pão?

R$5,75 R$7,00 R$6,10 R$6,00


Fonte: Conselho Australiano de Pesquisas Educacionais, s.d., item da amostra.
Nota: A resposta correta é R$6,10.
20 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

QU A D R O 2 . 4

Exemplo de um Item de Resposta Fechada


Esta é uma sentença numérica:

2.000 + + 30 + 9 = 2.739

Que número deve ser colocado onde está o para que a sentença seja verdadeira?

Resposta: _________________

Fonte: IEA 1998, item da amostra.

Questões abertas de resposta curta (veja Quadro 2.5) requerem que os


alunos gerem uma resposta para a qual pode haver várias opções diferentes
e corretas. Em geral, a resposta correta requer alguma explicação, a demons-
tração de um processo ou um desenho detalhado (mais de uma ou duas
linhas). Podem requerer que o aluno escreva uma ou duas sentenças; com-
plete uma série de passos ou equações; ou complete vários aspectos de um
mapa, gráfico ou diagrama. (Em http://go.worldbank.org/M2O1YDQO90,
veja os itens 6, 7 e 11 em “Apêndice B: Resgate de Golfinho”, Itens da
Amostra de Leitura Internacional da 4a série do PIRLS 2006.)

QU A D R O 2 . 5

Exemplos de Questões Abertas de Resposta Curta


a. Como você pode saber a idade de uma árvore depois que ela é cortada?
_____________________________________________________________________
_____________________________________________________________________

b. Escreva um exemplo de como as máquinas ajudam as pessoas em seus trabalhos.


_____________________________________________________________________
_____________________________________________________________________

Fonte: IEA 1998, item da amostra.

Itens de resposta dissertativa ou redação (veja Quadro 2.6) reque-


rem que os alunos desenvolvam uma resposta extensa, às vezes com-
plexa, a um estímulo (prompt, na expressão em inglês). A resposta
pode cobrir uma ou mais páginas de texto, possivelmente incluindo
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 21

diagramas. Existem muitos modos “corretos” de responder numa re-


dação ou dissertação. (Em http://go.worldbank.org/M2O1YDQO90,
veja a questão 9, “Um Juiz Justo”, Itens de Leitura do PISA Internacio-
nal de Leitura 2000, e itens 33, 35 e 39 em Leitura Principal, NAEP
1990-2006: 4a Série.)

QU A D R O 2 . 6

Exemplo de um Estímulo para Redação


Os estímulos para redação podem ser escritos ou ilustrados. É importante que os alu-
nos compreendam o tipo de elaboração que se está pedindo que façam. Por exem-
plo, pode-se pedir aos alunos que expliquem suas ideias, expressem uma opinião,
escrevam um argumento persuasivo ou uma história. Em geral, essa informação é
dada como parte das instruções de aplicação do teste.

A imagem do estímulo mostrada no exemplo foi usada em Papua Nova Guiné a fim
de avaliar as habilidades linguísticas dos alunos para elaborar uma história narrativa.
O aplicador do teste disse aos alunos que poderiam usar as ideias contidas na figura
ou elaborar suas próprias ideias para uma história sobre caçada.

Escreva uma história sobre uma caçada.

Fonte: Papua Nova Guiné, Departamento de Educação, 2004.


22 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Os primeiros três formatos de itens são mais comumente usados em


avaliações nacionais, em parte devido ao custo de se fazer uma pontuação
manual confiável de um grande número de redações. O documento que
contém o marco de referência do teste deve indicar os percentuais estima-
dos de diferentes tipos de itens no teste final. Deve também incluir amos-
tras de tipos de itens para ajudar os membros da comissão de coordenação e
outros interessados a se familiarizarem com a abordagem da avaliação.
A escolha do formato do item e a forma como os itens são pontuados
alteram significativamente o custo total do teste. Itens que requerem
pontuação manual custam mais e tomam mais tempo, atrasando, assim,
a publicação de um relatório. É preciso desenvolver guias de pontuação
manual, e os avaliadores têm de ser contratados e treinados. Quanto
mais complexo o guia de pontuação, maiores os custos. Itens que envol-
vem redação e resposta dissertativa tendem a ser os mais caros. Custa
menos pontuar itens de múltipla escolha, mas sua construção é mais dis-
pendiosa que a de outros tipos de itens. A seguir, apresentamos algumas
questões relativas ao custo dos itens que devem ser levadas em conta no
processo de seleção do formato dos itens para o teste.
Itens de múltipla escolha são, em geral, pontuados como corretos ou
incorretos pelos programas de computação que fazem análise de dados.
Não é necessário pontuar os itens antes da análise. Basta entrar com as
respostas dos alunos num computador. Essas respostas são registradas
eletronicamente com um escâner ou, então, a entrada é feita manual-
mente. O escaneamento é mais econômico para testes de grande escala;
requer equipamento especial e, às vezes, suporte técnico. Itens escanea-
dos podem ser limitados a um formato particular de resposta (como
sombrear bolhas). Se a entrada de dados for feita manualmente, pode-se
usar uma maior variedade de estilos de múltipla escolha (como desenhar
círculos em torno de palavras, marcar quadros ou traçar linhas para se-
lecionar opções).
Itens de múltipla escolha não devem ser simplesmente pontuados
como corretos ou incorretos antes da análise de dados. Podem ser ob-
tidas valiosas informações diagnósticas sobre o desempenho dos alunos
quando se registra cada opção. Se os dados estiverem sendo escaneados,
deve-se garantir que todas as respostas sejam registradas. O custo da
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 23

entrada manual de dados para itens de múltipla escolha fica reduzido


quando se usa uma diagramação consistente.
Os itens de respostas fechadas devem ser pontuados manualmente por-
que diversas respostas diferentes podem ser aceitáveis. Os guias de pon-
tuação devem especificar a faixa de respostas aceitáveis e inaceitáveis. Em
geral, a faixa de possíveis opções corretas para itens de resposta fechada
é limitada. Os guias de pontuação são relativamente simples e claros, e o
tempo de treinamento dos avaliadores pode ser razoavelmente breve, mas
os controles de qualidade têm de ser implementados e mantidos.
Os itens abertos de resposta curta são pontuados manualmente. O nú-
mero e a variedade de respostas aceitáveis e inaceitáveis podem ser grandes.
Assim, os guias de pontuação podem ser bastante complexos e requerer
cuidadoso treinamento dos avaliadores. A permanente verificação cruzada
durante a classificação é essencial para o controle de qualidade.
Os itens com resposta dissertativa têm guias de pontuação complexos
e exigem treinamento detalhado dos avaliadores. É essencial que se faça
uma permanente classificação dupla de algumas ou de todas as redações
durante a pontuação para garantir o controle de qualidade. Os manuais
de pontuação também precisam ser detalhadamente elaborados para que
se tenha um treinamento eficaz. Devem incluir exemplos de respostas
que correspondam a cada um dos níveis do guia de pontuação.
Diferentes formatos de itens podem ser combinados no mesmo teste. Por
exemplo, um teste pode consistir em alguns itens de múltipla escolha, alguns
itens de respostas fechadas e algumas questões abertas de resposta curta.
Os elaboradores de itens devem se esforçar para garantir que o forma-
to de cada item do teste ajude a avaliar, de forma adequada e eficiente,
determinado resultado do aprendizado. Também devem tentar mini-
mizar a quantidade de leitura, escrita ou contas desnecessárias para se
responder a um item em particular.
As decisões sobre qual formato ou formatos usar num teste e em que
proporção usá-los devem basear-se tanto na adequação do formato para
medir um conceito, uma área de conhecimento ou habilidade, quanto nas
limitações práticas (por exemplo, a qualificação requerida para desenvolver
diferentes formatos de itens e o custo da pontuação manual). A Tabela 2.4
resume algumas vantagens e limitações de formatos de itens.
TABELA 2.4
Vantagens e Limitações de Diferentes Formatos de Itens

Formato do item Vantagens Limitações


Múltipla escolha y Muitos itens de um teste podem avaliar y É necessário ter competência para
uma ampla variedade de resultados do desenvolver itens de alta qualidade.
aprendizado. y Os alunos não geram compreensão.
y Os itens podem fazer distinções sutis y Os alunos podem tentar adivinhar.
entre conhecimentos e compreensões dos
alunos.
y Não se requer pontuação manual, e o
teste fica relativamente barato.
Resposta fechada (resposta com uma ou y Os próprios alunos localizam a informação y Os itens em geral avaliam uma gama
duas palavras) ou se lembram dela. limitada de resultados (basicamente,
y A pontuação manual é relativamente fácil. recuperação e lembrança).
Itens abertos de resposta curta (resposta com y Podem requerer que os alunos gerem altos y Requer-se competência para escrever itens
uma ou duas sentenças) níveis de compreensão. claramente focalizados.
y Os itens podem avaliar uma variedade de y É necessário dispor de avaliadores
resultados. treinados e medidas de controle de
y A compreensão parcial às vezes pode ser qualidade, o que eleva os custos.
medida. y Itens que requerem tempo para o aluno
responder reduzem a gama de resultados
que podem ser abordados.
Redação ou resposta dissertativa y Alunos podem demonstrar a profundidade y Pode-se abordar uma gama limitada de
de sua compreensão. resultados.
y Pode-se medir uma gama de y É necessário dispor de avaliadores
compreensões parciais. treinados e medidas de controle de
qualidade, o que eleva os custos.
Fonte: Autores.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 25

Os testes de matemática de Papua Nova Guiné têm diferentes pro-


porções de questões de múltipla escolha e questões abertas de resposta
curta, dependendo da série avaliada (veja Tabela 2.5). A 8a série tem
mais itens que a 3a. A maior parte desse aumento é representada pelo
maior número de itens abertos de resposta curta.
O tempo de que os alunos dispõem para responder ao teste deve
ser suficiente para permitir que a maior parte deles tente responder ao
máximo de itens. É importante obter informação sobre o tempo que os
alunos levam para responder aos itens do pré-teste. Os testes variam em
extensão, mas os alunos devem ser capazes de tentar responder à maio-
ria dos itens em cerca de 40 minutos. Testes que contêm basicamente
itens de múltipla escolha podem conter mais itens que aqueles em que
predominam os itens de resposta curta. Os testes para alunos do ensino
médio podem incluir mais itens, e os alunos podem ter mais tempo para
responder às questões. Se os alunos não estiverem familiarizados com o
formato dos itens de uma avaliação, provavelmente precisarão de mais
tempo para responder aos itens.

TABELA 2.5
Formato de Itens do Teste de Matemática de Papua Nova Guiné

Série Múltipla escolha Aberto de resposta curta


3a série 20 5
5a série 25 10
8a série 25 15
Fonte: Papua Nova Guiné, Departamento de Educação, 2004.

POPULAÇÃO-ALVO DE ALUNOS A SER AVALIADA

O documento que contém o marco de referência do teste deve definir


a população-alvo para a avaliação (por exemplo, 4a série) e deve indicar
por que essa população em particular foi selecionada. Em determinado
país, o documento com o marco de referência poderia, por exemplo,
justificar a seleção da 3a série com base no fato de que, após essa série, a
taxa de evasão é considerável; poderia justificar o teste na 4a série por-
26 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

que, a essa altura, a maior parte dos alunos deve conseguir ler; ou pode-
ria justificar um teste durante a 8a série para avaliar o aproveitamento do
aprendizado dos alunos nesse importante ponto do sistema educacional.
O documento do marco de referência também poderia especificar sub-
populações de alunos que poderiam ser excluídos da amostra nacional,
como alunos com necessidades educacionais especiais ou alunos de es-
colas pequenas em áreas muito remotas.

APRESENTAÇÃO DE RESULTADOS

Desde o início, deve-se chegar a um acordo com a comissão de coorde-


nação sobre como os resultados devem ser apresentados. Na Irlanda, a
Avaliação Nacional de Leitura em Inglês apresentou pontuações sepa-
radas relativas a tipo de texto e processo cognitivo. O documento do
marco de referência da avaliação propôs avaliar duas escalas de tipo de
texto (literário e informativo) e duas escalas de processo (recuperação
de informação e inferência-interpretação) para a 1a série. Na 5a série,
propôs avaliar três subescalas de tipo de texto (literário, informação-
-contínuo e informação-descontínuo) e três escalas de processo (recupe-
ração de informação, inferência e interpretação-avaliação) (Eivers et al.,
2005). A Pesquisa Internacional de Letramento de Adultos usou textos
não contínuos para avaliar o desempenho na escala de documentos. O
marco de referência para o Estudo Internacional sobre o Progresso do
Letramento em Leitura (PIRLS) especificava que classificaria os itens
do teste em função dos dois objetivos de leitura: leitura como experiên-
cia literária e leitura para adquirir e usar informação. Também propôs
combinar as duas escalas e dar uma pontuação geral de letramento em
leitura (Campbell et al., 2001).
A comissão de coordenação deve ser informada de que a apresen-
tação de resultados por subescalas depende dos resultados da análise
de itens. Avaliações internacionais e muitas avaliações nacionais usam
a modelagem de resposta ao item para determinar se os itens do teste
se ajustam adequadamente às subescalas. Nessa etapa, a comissão de
coordenação poderia receber uma introdução não técnica ao conceito
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 27

de apresentação de resultados por níveis de aproveitamento, usualmente


chamados de níveis de proficiência, e seria pedido a seus membros que
definissem a forma preferida de apresentação dos resultados do teste. O
desempenho dos alunos poderia ser descrito em função do percentual de
itens respondidos corretamente ou dos níveis, como avançado (excede
o padrão esperado), proficiente (alcança o padrão esperado), básico (não
alcança o padrão esperado) ou abaixo do básico (desempenho abaixo do
nível básico). O número de níveis de proficiência talvez tenha de ser
revisto em função dos resultados do pré-teste e da análise do teste final.
O Volume 4 desta série cobre tanto a teoria de resposta ao item quanto
os níveis de proficiência.
O marco de referência também deve indicar os tipos de relatórios da
avaliação nacional a serem publicados ao final de uma avaliação. Esses
relatórios poderiam incluir um relatório técnico; uma série de relatórios
resumidos para audiências específicas, como treinadores de professores,
órgãos encarregados de currículos e formuladores de políticas; e notas de
imprensa e sessões informativas.

CONTEXTOS

Muitos formuladores de políticas educacionais usam as avaliações na-


cionais para obter informações contextuais adicionais sobre fatores que
podem afetar ou influenciar diretamente a qualidade do aprendizado
dos alunos em áreas de currículo específicas. A comissão de coordenação
deve dar uma orientação geral sobre a seleção das variáveis contextuais a
serem avaliadas. Essa informação, por sua vez, pode ser usada pelo órgão
implementador para orientar o desenvolvimento do questionário. Infor-
mações contextuais podem interessar particularmente a formuladores
de políticas que buscam compreender as razões das diferenças nos níveis
de aproveitamento dos alunos.
Muitas avaliações enfocam o contexto familiar dos alunos e da esco-
la. Fatores familiares normalmente incluem situação socioeconômica, às
vezes medida em função dos bens existentes no domicílio, nível de edu-
cação dos pais, idioma falado em casa, estrutura e tamanho da família,
28 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

ajuda para os estudos em casa, processos familiares (como leitura para


as crianças e outras formas de orientação que encorajem o aprendizado)
e relações casa-escola.2 Os contextos da escola frequentemente incluem
recursos da escola e da sala de aula, administração e organização da es-
cola, natureza e nível de treinamento dos professores, estratégias instru-
cionais e ambiente na sala de aula. Algumas avaliações coletam dados
sobre atitudes dos alunos com relação à escola e à área temática indivi-
dual, interesses e comportamentos (por exemplo, o total de tempo gas-
to fazendo trabalhos domésticos, trabalhando ou lendo por prazer). Os
detalhes de como conceber e redigir os itens do questionário serão vistos
mais adiante neste livro. Em http://go.worldbank.org/M2O1YDQO90
você também poderá encontrar exemplos de itens de questionário des-
tinados a obter informação contextual sobre alunos, pais, professores e
diretores.

NOTAS

1. Após o terceiro estudo, esta série de estudos passou a se chamar Tendências Interna-
cionais no Estudo de Matemática e Ciências, e a sigla TIMSS foi mantida.
2. Note-se que, em alguns países, existe uma resistência à ideia de se coletarem dados
sobre as características socioeconômicas.
CAPÍTULO

3 ELABORAÇÃO DE ITENS

E
ste capítulo descreve as características de bons
itens num teste, as diretrizes para a elaboração
de itens, a estruturação e organização de itens
que comporão um teste, e a pontuação de itens.1 Também descreve os
papéis do pessoal envolvido no desenvolvimento do teste – a equipe de
elaboração de itens e outros revisores –, que trabalha sob a orientação do
gerente de desenvolvimento de teste.
Deve-se ter em mente que a qualidade de um teste depende, em
grande medida, de quão claramente atenda a seu objetivo e da exatidão
com que os itens correspondam a uma tabela de especificações bem
concebida. Os itens de boa qualidade são claros, relevantes para o currí-
culo e focalizam um aspecto claramente definido do aprendizado. Eles
apresentam tarefas atraentes, genuínas, e não distinguem entre alunos de
diferentes contextos idiomáticos e culturais.
Um bom item tem as seguintes características:

yAvalia uma área-chave de aprendizado.


yApresenta uma tarefa construtiva e significativa.
yPode ser facilmente associado a importantes características contidas nos
documentos do marco de referência ou na tabela de especificações.
30 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

yÉ justo.
yO estímulo gira em torno de questões centrais, e não de detalhes
periféricos ou triviais.
yDeixa claro para os alunos o que se pede deles.
yTem sentido intrínseco e não depende da compreensão de algo que
constituía a base de um item anterior.
ySe for um item sobre vocabulário, é direcionado para o significado da
palavra no contexto do texto, e não para um conhecimento geral.
yDe preferência, é expresso em termos positivos, pois formas negati-
vas tendem a causar confusão.

Os elaboradores de itens podem se beneficiar muito com o exame de


modelos relevantes de itens de alta qualidade. Muitas organizações de
testes publicam amostras de itens na internet. Itens de teste liberados
para uso público também podem ter origem em testes internacionais,
como o TIMMS (Tendências Internacionais no Estudo de Matemática
e Ciências), o PISA (Programa Internacional de Avaliação de Alunos) e
o PIRLS (Estudo Internacional sobre o Progresso do Letramento em
Leitura), e em avaliações nacionais de outros países, como a Avaliação
Nacional do Progresso Educacional (NAEP) dos Estados Unidos. Em
http://go.worldbank.org/M2O1YDQO90, você pode encontrar muitos
exemplos de itens dessas e de outras fontes. Endereços na internet são
fornecidos no Apêndice B.
Itens de teste liberados para uso público podem ser usados em outros
testes, desde que o conteúdo e o fraseado sejam adequados. Esse tipo de
material pode ser uma fonte barata e útil de itens de teste. Com frequência,
esses itens (junto com as respostas) estão disponíveis na internet. Portanto,
não devem ser usados caso haja a probabilidade de os alunos terem acesso a
eles antes de fazer um teste de avaliação nacional. Também é possível obter
a permissão de autoridades relevantes para usar itens adequados de testes
seguros. Essa abordagem pode ser mais barata que o desenvolvimento de
itens. No entanto, especialistas em currículo precisarão rever esses itens e
fazer um teste prévio para avaliar sua adequação.
Leva tempo até que se adquira sólida experiência na elaboração de
itens para cada seção de uma tabela de especificações. Os elaboradores
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 31

de itens devem ter um entendimento comum da terminologia de itens e


daquilo que os itens pretendem medir. Para alcançar essa compreensão,
devem tentar classificar cada item rascunhado à medida que vão sendo
desenvolvidos, usando critérios como os seguintes:

yFormato do item (por exemplo, múltipla escolha, fechado, aberto).


yTipo de texto (para um teste de leitura) (por exemplo, narrativo,
descritivo).
ySérie pretendida (por exemplo, 5a série).
yProduto do aprendizado (por exemplo, soma de números inteiros de
dois dígitos ou identificação da ideia central numa história).
yProcesso cognitivo (por exemplo, conhecimento, lembrança, inter-
pretação ou síntese).

Não há como saber, em todas as situações, o nível de processamento


cognitivo envolvido na resposta a um item. Se os alunos não tiverem
familiaridade com um processo, como resumir um parágrafo de infor-
mação, isso pode exigir um nível de processamento mais alto do que se
estiverem acostumados a fazer resumos.

GRAU DE DIFICULDADE DO ITEM

Chegar ao nível adequado de dificuldade para os itens é uma tarefa desa-


fiadora para a maior parte dos elaboradores de itens. Em muitos países,
o conteúdo do currículo pretendido é muito difícil para a maioria dos
alunos. Como consequência, os elaboradores de itens frequentemente
têm de elaborar muitos itens para medir habilidades mais fáceis que as
listadas nos currículos pretendidos. Por exemplo, testes de aproveita-
mento em matemática concebidos para a 5a série muitas vezes incluem
itens baseados em objetivos que os alunos deveriam ter dominado nas
3a e 4a séries.
Professores experientes, mais que funcionários da área de educação ou
acadêmicos, apresentam maior probabilidade de ter uma boa percepção
dos prováveis graus de dificuldade dos itens. No entanto, o julgamento
32 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

do professor, embora possa ser útil, não é adequado. A realização de um


pré-teste dos itens em amostras de alunos com características aproxima-
damente iguais às da população-alvo é essencial para se obterem dados
preliminares objetivos sobre os graus de dificuldade dos itens. Isso pode
ajudar a evitar o erro comum de se desenvolverem testes com itens que
depois se revelam muito difíceis.
Dependendo de inúmeros fatores, alguns itens considerados simples
pelo elaborador de itens podem acabar se mostrando bastante difíceis.
Do mesmo modo, itens concebidos para ser difíceis podem ser fraseados
ou apresentados de tal modo que se revelem bastante fáceis. No caso de
itens que usam o formato de múltipla escolha, os elaboradores devem
evitar o seguinte:

yIntroduzir dicas gramaticais ou lógicas no comando e na chave que


apontem a resposta correta, como um comando que corresponde a
uma palavra no singular e todas as opções, menos uma, apresentadas
como plurais.
yIntroduzir termos absolutos, como “sempre” ou “nunca”, que pode-
riam eliminar algumas opções ou apontar a resposta correta.
yFazer a resposta correta muito mais longa ou mais detalhada que as
demais opções.
yIncluir uma palavra ou frase-chave extraída do material de estímulo
na opção correta, mas não nas outras opções.
yApresentar as opções numa ordem ilógica ou num padrão confuso.
yFazer com que as opções e a chave se superponham significativamen-
te, de modo que discernir a “melhor” resposta dependa de habilidades
linguísticas, e não do conhecimento sobre o que está sendo testado.
yIncluir questões que podem ser respondidas sem referência ao estí-
mulo.

No caso de respostas construídas, é importante desenvolver critérios


claros de pontuação que produzam como resposta aquilo que o item se
destina a medir.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 33

TENDENCIOSIDADE DO ITEM

Os alunos trazem para o teste uma grande diversidade de conhecimen-


tos e entendimento cultural. Eles não devem ser penalizados ou privile-
giados caso tenham experiências de vida que não sejam relevantes para
o conhecimento, as habilidades e os entendimentos que o teste pretende
avaliar. Por exemplo, itens sobre um esporte masculino popular pode-
riam deixar as meninas em desvantagem.
Os itens também podem ser tendenciosos quando perturbam ou in-
comodam alguns alunos, mas não outros. O material de estímulo não
deve violar sensibilidade ética, cultural ou de qualquer outro tipo. Não
deve haver qualquer possibilidade de que alguns alunos possam se sentir
ofendidos, amedrontados ou perturbados pelo material do teste. O ge-
rente de desenvolvimento de teste deve sensibilizar os elaboradores de
itens quanto às várias formas de tendenciosidade. Os painéis de revisão
devem ser encorajados a ficar atentos a itens do teste ou do questioná-
rio que possam ser tendenciosos ou ofensivos. O Volume 4 desta série
apresenta uma técnica estatística que pode ser usada para ajudar a iden-
tificar itens tendenciosos tanto na etapa de pré-teste quanto durante a
elaboração do teste final.

MATERIAL DE ESTÍMULO

O material de estímulo fornece o contexto para um item. Pode ser parte


de um texto, um diagrama, um gráfico, uma tabela, um mapa ou uma
combinação de tudo isso.
Em geral, o desenvolvimento do teste começa com a seleção ou
criação do material de estímulo adequado. Os testes de leitura usu-
almente se baseiam em textos longos que se prestam a uma série de
itens ou a uma unidade que cobre uma gama de habilidades rele-
vantes. Os testes de matemática e ciências podem incluir material
de estímulo curto, como vários números a serem somados ou uma
equação a ser completada. Itens de matemática e ciências também
podem incluir um estímulo mais complexo, como um gráfico, um
34 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

mapa, uma tabela ou um diagrama com uma série de itens associados


relativos a diversas habilidades.
O material de estímulo deve apresentar claramente a principal carac-
terística a ser avaliada. Não deve conter detalhes supérfluos, repetitivos
ou desnecessários. Um bom material de estímulo tem as seguintes ca-
racterísticas:

yÉ substantivo e merece ser examinado detidamente.


yTem a probabilidade de interessar à audiência-alvo.
yÉ bem escrito e bem desenhado.
yÉ desafiador na medida certa, não muito difícil nem muito fácil.
yNão apresenta desafios artificiais.
yÉ factualmente correto.
yOferece oportunidade para questões que estimulam a busca.
yÉ completo.

Onde adequado, é importante prover algum contexto para o material


de estímulo. O contexto pode ser fornecido por meio de um título ou de
uma breve introdução. Por exemplo, o trecho de um romance de ficção
científica poderia ser apresentado assim: “Esta passagem foi extraída de
um romance que se passa no futuro.”
Preferencialmente, as imagens devem ser parte intrínseca do mate-
rial de estímulo, oferecendo significado adicional. Se as imagens forem
incluídas simplesmente como decoração, não ajudarão os alunos a com-
preender o texto.
Às vezes, o material de estímulo cria um contexto artificial e des-
necessário para um item. O Quadro 3.1 contém material irrelevante.
Na realidade, este item aborda a superfície de uma área. Na vida real,
Irene não estaria preocupada com a quantidade mínima de papel que
deveria usar. De fato, ela poderia precisar de uma pequena quantidade
adicional para dobrar sobre as bordas. Os alunos mais capazes poderiam
responder a este item incorretamente se deixassem uma margem de pa-
pel adicional. Uma melhor redação para o item seria simplesmente a
seguinte: “O comprimento de um lado de um cubo é 80cm. Qual a área
da superfície do cubo?”
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 35

QU A D R O 3 . 1

Exemplo de Material de Estímulo Irrelevante


Irene embrulhará este cubo com papel. Qual a menor quantidade de papel de em-
brulho que ela usará?

80 cm

Um estímulo que tente descrever um contexto real deve ser factual-


mente acurado. É provável que a informação contida no Quadro 3.2
seja factualmente inexata. Em geral, os seres humanos não apresentam o
tipo de padrão de crescimento mostrado. As crianças que tendem a ser
altas em geral demonstram esse traço desde bem novas. Se o material de
estímulo requer padrões de crescimento desiguais, seria preferível usar
plantas a pessoas para objetivos comparativos.

QU A D R O 3 . 2

Exemplo de um Item com Informação Inexata ou Enganosa


O gráfico mostra a mudança nas alturas de Mário e Rita à medida que ficam mais
velhos.

160 Mario
altura (cm)

120
Lita

80

40

0
2 4 6 8 10
idade (anos)
36 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Os itens devem ser escritos na linguagem mais simples e clara pos-


sível. O fraseado deve ser simples o bastante para que se possa esperar,
numa medida razoável, que os alunos sejam capazes de lê-lo:

yEvite vocabulário difícil.


yEvite sentenças longas.
yNão use sentenças enroladas.
yNão use uma lógica difícil.
yEvite questões ambíguas ou vagas.
yEvite negativas duplas.
yEvite inconsistências (por exemplo, usando diferentes unidades de me-
dida nas opções ou diferentes termos para se referir à mesma coisa).
yNão use fraseado vago ou termos não familiares que não estejam ade-
quadamente definidos.

FORMATO DO ITEM

São descritos dois formatos principais: múltipla escolha e resposta curta


(veja Capítulo 2).2 Considere usar um formato de múltipla escolha para:

yLimitar o número de opções.


yProduzir uma resposta sucinta.
yEvitar que os alunos tenham de copiar grandes trechos do texto de
estímulo.
yCobrir uma grande gama de tópicos eficientemente.

Considere usar um formato de resposta curta (fechada ou aberta) para:

yTestar significados que os alunos precisem gerar por conta própria.


yTestar diferentes níveis de compreensão, usando um item de crédito
parcial que dê uma pontuação total para uma resposta que mostre
compreensão de uma ideia complexa e uma pontuação parcial para
uma resposta que mostre compreensão de apenas uma parte simples
da ideia.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 37

yTestar uma gama restrita e claramente definível de possíveis respostas


corretas.
yBuscar uma resposta numa situação em que a resposta correta seria
claramente revelada num formato de múltipla escolha, dada a falta de
opções incorretas plausíveis.

Os alunos devem ter um comando adequado de vocabulário e ex-


pressão para responder a itens de resposta curta. Não use questões de
resposta curta se houver a probabilidade de os alunos terem de copiar
uma grande quantidade do texto de estímulo.

Elaboração de Itens de Múltipla Escolha

Um item de múltipla escolha consiste em um comando e diversas opções de


resposta. Às vezes, quando se requer uma resposta falso-verdadeiro, só são
necessárias duas opções. No entanto, esses itens são, de certa forma, inefi-
cazes. Oferecer quatro ou cinco opções é o mais usual. A opção correta é a
chave, enquanto as opções incorretas são os distratores (Quadro 3.3).
O comando de um item pode assumir várias formas, como:

yUma sentença incompleta.


yUma pergunta explicitamente formulada.
yUma sentença à qual falta alguma informação (Carlos tem ______
irmãos).

QU A D R O 3 . 3

Exemplo de um Item de Múltipla Escolha

Tânia tem três flores. Ganha mais duas flores do seu pai. comando
Quantas flores Tânia tem ao todo?

A 2

B 3 distratores

C 4

D 5 chave (resposta correta)


38 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Se o comando é uma sentença incompleta, deverá conter informação


suficiente para indicar a natureza da questão. O aluno não deve precisar
ler os distratores para inferir a questão. Todas as opções de uma sentença
incompleta devem:

ySer gramaticalmente consistentes com o comando.


ySer escritas num estilo semelhante.
ySer corretamente pontuadas.
yComeçar com uma letra minúscula e terminar com um ponto final.

Lembre-se dos seguintes pontos durante a elaboração de itens de


múltipla escolha:

yPontue sentenças completas corretamente. No Quadro 3.4, todas as op-


ções são sentenças completas com a pontuação adequada.
yPontue listas adequadamente. No Quadro 3.5, as opções são listas de
palavras. Essas opções não são pontuadas.

QU A D R O 3 . 4

Pontuação em Sentenças Completas


O que Miguel achou do mercado?
A Estava cheio de gente, e a comida era boa.
B Era barato, e a comida era deliciosa.
C A comida era boa, mas não havia ninguém lá.
D Era barato, mas a comida não era muito boa.

QU A D R O 3 . 5

Pontuação numa Lista


Quanto tempo Joel ficará na casa de seu avô?
A uma semana
B duas semanas
C um mês
D dois meses
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 39

yMinimize a quantidade de leitura. Para minimizar a quantidade de lei-


tura requerida, o elaborador de itens deve pôr a maior parte possível
do item no comando (veja o Quadro 3.6).
yEvite comandos negativos. Como um comando negativo causa confu-
são, seu uso deve ser evitado. Se o comando só pode ser expresso na
forma negativa, destaque a palavra “não” usando negrito ou itálico
(veja o Quadro 3.7). Se um comando negativo for inevitável, as op-
ções nunca deverão ser negativas.
yVarie o uso de distratores emparelhados. Os métodos de construção de dis-
tratores devem variar ao longo do teste, de modo que não surjam padrões
para auxiliar os alunos. Por exemplo, não é aconselhável emparelhar a
chave (B) com seu oposto (A) (Quadro 3.8). Se o padrão no Quadro
3.8 aparecer com frequência ao longo do teste, ficará óbvio para alguns
alunos já familiarizados com testes que precisam considerar apenas os
distratores emparelhados (A e B). Uma solução é escrever alguns itens
nos quais a chave não é um dos opostos emparelhados. Outra solução é
incluir dois pares de opostos no item, como mostrado na Quadro 3.9.

QU A D R O 3 . 6

Reduzindo a Leitura
Por quanto tempo Joel ficará na casa de seu avô?
Não assim Mas assim
Carlos foi para Carlos e sua família foram para
A o rio com sua família. A rio.
B a praia com sua família. B praia.
C o campo com sua família. C campo.
D as montanhas com sua família. D montanhas.

QU A D R O 3 . 7

Item com um Comando Negativo


O que os pais de Mário disseram que ele não podia ter em casa?
A seu cachorro de estimação
B seus sapatos com chulé
C a manta do cavalo
D uma cesta de frutas
40 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

QU A D R O 3 . 8

Distratores Mal Emparelhados


Tom não gostou do casaco porque era
A muito grande.
B muito pequeno.
C da cor errada.
D pouco agasalhante.

QU A D R O 3 . 9

Lidando com Pares de Distratores


Tom não gostou do casaco porque era muito
A grande.
B leve.
C pequeno.
D pesado.

yEvite usar certos distratores. Distratores que contêm palavras como


sempre e nunca, nenhum dos acima e todos dos acima devem ser evita-
dos porque, em geral, os alunos os eliminam facilmente.
yUse números adequados de distratores. Desenvolva itens com a chave e
quatro distratores plausíveis (cinco opções ao todo), se possível, e então
faça um pré-teste de todos os distratores. Use os distratores que têm as
melhores propriedades estatísticas (veja o Volume 4 desta série).
yVarie a posição da chave. A posição da chave deve variar de um item
para o seguinte. Não deve haver um padrão óbvio em seu posiciona-
mento. As opções podem ser arrumadas começando da mais curta
para a mais longa, ou da mais longa para a mais curta, ou podem ser
ordenadas aleatoriamente. Certifique-se de que a chave nem sempre
seja a opção mais longa.
As boas opções apresentam as seguintes características:
yTêm comprimentos semelhantes e são escritas num estilo semelhan-
te ao da chave. A chave não deve se destacar dos distratores por seu
comprimento, fraseado ou outra qualidade superficial.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 41

yVariam em estilo de item a item, ou seja, não são repetitivas.


yNão dão uma dica da resposta a outro item.
yNão incluem distratores parcialmente corretos, como opções empa-
relhadas em que cada distrator contém uma opção incorreta e uma
correta.
yNão induzem ao erro nem confundem devido à falta de clareza ou à
ambiguidade.
yNão se superpõem em significado. Os distratores têm de ter significa-
dos distintos uns dos outros. Os distratores não devem ser sinônimos.
Um significado particular em um distrator não deve ser incluído no
significado general de outro distrator.
yIncluem uma chave inquestionavelmente correta ou que constitui
uma resposta acurada defensável, e não simplesmente a melhor das
opções apresentadas.
yTêm distratores inquestionavelmente incorretos, embora sejam ra-
zoáveis e plausíveis. Qualquer distrator absurdamente incorreto re-
duz o número de escolhas reais disponíveis para o aluno e não agrega
nada ao item.

Elaboração de Itens de Resposta Curta

Itens de resposta curta devem ser claramente focalizados para produzir


como resposta a expressão da habilidade que pretendem avaliar. Bons
itens de resposta curta são claros e exatos. Os guias de pontuação devem
ser desenvolvidos ao mesmo tempo em que se desenvolvem os itens. Em
http://go.worldbank.org/M2O1YDQO90, você encontra exemplos de
guias de pontuação para itens de resposta curta. Veja, por exemplo, Itens
Liberados do PISA de Matemática de 2006 e Guia de Pontuação de Itens
da Amostra de Leitura Internacional para a 4a série do PIRLS de 2001.
Em geral, os itens de resposta curta são classificados como abertos
quando a resposta correta exige uma ou duas sentenças ou vários acrés-
cimos a um diagrama.
Itens abertos, em geral, têm inúmeras possíveis respostas corretas.
Itens de resposta curta são classificados como resposta fechada quando
42 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

uma ou duas palavras ou uma linha num diagrama são suficientes para
a resposta. Itens de resposta fechada em geral têm um número muito
limitado de respostas corretas.
Itens abertos devem se referir a habilidades significativas em áreas-
-chave do currículo, de modo a justificar o tempo de teste que os alunos
gastarão para respondê-los. Os alunos também devem ter a possibilidade
de dar breves respostas corretas a itens abertos. A maior parte do tempo
que os alunos gastam com um item deve ser devotada a encontrar uma
solução, e não a registrar suas respostas.
Num item de resposta curta, é importante considerar qual poderia
ser uma resposta incorreta. Se todas as respostas coerentes imagináveis
têm a probabilidade de ser corretas, talvez o item pouco contribua para
a avaliação de uma habilidade específica. O item deve ser construído de
forma a garantir que existam respostas incorretas plausíveis.
Certifique-se de que itens de resposta curta têm mais de duas respos-
tas possíveis. Itens para os quais existam apenas duas possíveis opções,
como “fechado” ou “aberto”, dão aos alunos uma chance de 50% de
adivinhar a resposta correta. Tal item poderia ser ampliado pedindo-se
aos alunos que deem razões para suas respostas. O item poderia, então,
ser pontuado em função da seleção correta de “aberto” ou “fechado” e
também da explicação. Alunos que selecionassem a opção correta, mas
não dessem uma explicação, receberiam a pontuação zero.
Os itens não devem dar ajuda excessiva ao leitor para que compre-
enda o significado do estímulo. Por exemplo, um item não deve resu-
mir as ideias-chave num parágrafo do estímulo ou deixar explícita uma
inferência no estímulo. É preferível citar algo do estímulo a resumir ou
interpretar o significado.
Um risco que se corre com os itens abertos é que os alunos podem
respondê-los superficialmente. A resposta “porque é importante”, por
exemplo, poderia ser tecnicamente correta em várias questões, mas seria
uma resposta fraca. Às vezes, uma resposta potencialmente superficial
pode ser incluída na questão para eliminá-la da gama de possíveis res-
postas corretas. Por exemplo, um item pode ser fraseado assim: “Por que
o acidente de Renata é importante nesta história?” Os alunos não podem
responder simplesmente “porque o acidente é importante”. Quando se
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 43

trata de itens abertos, em geral são necessárias instruções como, por


exemplo, “explique sua resposta” ou “dê razões para sua resposta” para
evitar uma resposta sucinta como “sim” ou “não”.
Um item efetivo de resposta curta deve estabelecer uma tarefa clara e
específica que busca uma resposta específica. O item deve permitir que
os alunos demonstrem, com razoável rapidez, seu domínio da habilidade
requerida. O exemplo no Quadro 3.10 não atende a qualquer desses ob-
jetivos. Não se diz aos alunos que eles precisam fazer uma caixa com as
maiores dimensões possíveis. Essa resposta, no entanto, é o critério para
que recebam uma pontuação 3. O item também é de baixa qualidade
porque consome muito tempo. As habilidades que estão sendo avaliadas
não justificam a quantidade de tempo de que os alunos precisariam para
testar as possibilidades e chegar à resposta correta. O problema precisa
ser simplificado para que os alunos possam demonstrar as habilidades
relevantes de forma eficiente.

QUADRO 3.10

Item Aberto Confuso com Instruções Pouco Claras


Deve-se fazer uma caixa aberta com um retângulo de papelão de 150cm por 100cm,
cortando quadrados do mesmo tamanho em cada canto e usando fita adesiva para
emendar as partes. Qual o tamanho do quadrado que você cortaria de um dos can-
tos? Dê uma razão (ou razões) para escolher esse tamanho.

____________________________________________________________________________

____________________________________________________________________________

Guia de pontuação: o número de pontos vai de 0 a 3.

3 pontos: descreve um quadrado de 20cm e uma caixa com dimensões de 110cm por
60cm por 20cm; também explica que esse tamanho de caixa tem a maior capaci-
dade

2 pontos: descreve um quadrado de 20cm a ser cortado em todos os cantos, mas não
dá qualquer explicação

1 ponto: descreve quaisquer tamanhos possíveis de quadrado com um lado de menos


de 50cm

0 ponto: dá as dimensões de um quadrado com mais de 50cm (uma resposta impos-


sível)

9: em branco
44 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Quando um aluno não responde a um item específico por uma entre


diversas razões (como pular a questão porque a achou difícil ou por não
ter tido a oportunidade de tentar respondê-la porque o item não estava
no caderno de prova que recebeu), em geral se atribui um código 9 (não
uma pontuação) para denotar dados em branco. A questão de dados em
branco está coberta, com algum nível de detalhamento, no Volume 3.
Os itens de resposta curta devem ter um fraseado claro e simples
(veja o Quadro 3.11).

QU A D R O 3 . 1 1

Bom Exemplo de um Item de Resposta Fechada


Cada pessoa cava à mesma velocidade.

Uma pessoa pode terminar de cavar um jardim em 12 horas.

Duas pessoas podem terminar de cavar o mesmo jardim em 6 horas.

Quanto tempo levariam quatro pessoas? ________

Quanto tempo levariam x pessoas? ________

Desenvolvimento de Guias de Pontuação


para Questões de Crédito Parcial

As respostas a algumas questões de resposta curta têm duas ou mais


categorias de respostas corretas. Essas são conhecidas como questões de
crédito parcial. O guia de pontuação deve diferenciar entre respostas
mais abrangentes, exatas ou sofisticadas, e respostas incompletas ou par-
cialmente corretas. As melhores respostas recebem uma pontuação mais
alta. O exemplo no Quadro 3.12 tem o guia de pontuação para uma
questão de crédito parcial para desenhar um quadrado, e pode receber
até 3 pontos.
Os seguintes tipos de itens podem ser pontuados como crédito parcial:

yPede-se aos alunos que deem duas razões para o comportamento de um


personagem. Os alunos que dão duas razões corretas recebem a pontua-
ção 2, e os que dão uma razão correta recebem a pontuação 1.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 45

QUADRO 3.12

Item com Crédito Parcial


O comprimento do lado de um quadrado é 10cm.

Desenhe esse quadrado no espaço a seguir. Use sua régua.

Guia de pontuação:
3 pontos: desenha um quadrado com 4 lados de 10cm de comprimento e 4 ângulos
retos
2 pontos: desenha um retângulo com 2 lados de 10cm comprimento e 4 ângulos
retos
1 ponto: desenha uma forma de 4 lados com 2 lados de 10cm de comprimento, mas
sem ângulos retos
0 ponto: desenha qualquer outra forma
9: em branco

yOs alunos recebem uma pontuação mais alta para uma compreensão
mais sofisticada; por exemplo, a pontuação 2 num teste de leitura
poderia refletir a compreensão da ironia em determinada passagem,
enquanto a pontuação 1 é atribuída para a leitura literal do texto.
yUma pontuação 2 pode incluir a identificação tanto da causa quanto
da consequência, enquanto uma pontuação 1 requer a identificação
correta de apenas uma dessas.
yEm matemática, uma pontuação 3 é dada para a solução correta de
um problema e a explicação adequada do método, a pontuação 2
é atribuída para a solução correta sem uma explicação, enquanto a
pontuação 1 é dada para a descrição de um método adequado com
cálculos incorretos.

A distinção entre pontuações de crédito total ou crédito parcial deve


ser clara.
Certifique-se de que os exemplos de respostas com pontuação 1 que
aparecem no guia de pontuação não sejam simplesmente respostas bre-
ves ou com fraseado pobre, mas que realmente satisfaçam aos critérios
de 2 ou 3 pontos. Também é importante deixar clara a diferença entre
respostas de 1 ponto e respostas incorretas. Essa distinção pode ser a mais
difícil de fazer na pontuação de algumas questões de crédito parcial.
46 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Os exemplos seguintes mostram que itens abertos de resposta curta


nem sempre permitem crédito parcial. O item no Quadro 3.13 mostra
que, embora os alunos possam dar diversas respostas, recebem pontua-
ção 1 ou zero.
É importante fazer o pré-teste de itens de crédito parcial para garantir
que as categorias de crédito parcial sejam estatisticamente robustas (veja
Capítulo 5).

QU A D R O 3 . 1 3

Exemplo de um Item de Resposta Aberta com Guia de Pontuação


João e Miguel encontram uma árvore com 400 mangas.

João diz que Miguel agora tem uma chance de 160% de derrubar uma manga.

Você concorda com João ou discorda dele?

Explique.

____________________________________________________________________________

____________________________________________________________________________

Guia de pontuação:

1 ponto: Discorda e menciona o limite percentual.


Discorda porque não é possível ter 160%.
Discorda porque é impossível.
Discorda porque 100% é o máximo que se pode alcançar.
0 ponto: Concorda (com ou sem explicação).
Discorda e não se refere ao limite percentual.
Discorda porque existem mais de 160 mangas.

9: em branco

Fonte: Departamento de Educação das Filipinas 2004.

Um exemplo de item de resposta curta com o guia de pontuação


compactado está apresentado no Quadro 3.14. No pré-teste, os alunos
que responderam “80%” ou “80 por cento” receberam pontuação 2, en-
quanto os que simplesmente escreveram “80” receberam pontuação 1.
As estatísticas mostraram que os alunos que deram a resposta que valia
2 pontos tiveram uma pontuação média muito mais alta no teste de
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 47

matemática, enquanto aqueles que deram a resposta de valor 1 tiveram


a pontuação geral média semelhante à dos que tiveram zero nesse item.
Como resultado dessa informação do pré-teste, o guia de pontuação foi
alterado: os alunos que responderam com “80%” ou “80 por cento” rece-
beram 1 ponto, enquanto os que responderam “80” ou deram qualquer
outra resposta inaceitável tiveram zero.

QUADRO 3.14

Exemplo de um Item Fechado com Guia de Pontuação


Mangueira

Miguel está em sua fazenda tentando acertar algumas mangas com a atiradeira.

Quando a árvore tem 50 mangas, ele tem 20% de chance de acertar. Sua chance
de acertar uma manga duplica quando o número de mangas duplica. Estime a
chance de Miguel acertar uma manga numa árvore com 200 mangas.

________________________________________________________________________

Guia de pontuação:

1 ponto: 80% ou 80 por cento

0 ponto: qualquer outra resposta, inclusive simplesmente “80”, sem “%” ou “por
cento”

9: em branco

Fonte: Departamento de Educação das Filipinas 2004.

Elaboração de Itens para Unidades

Unidades são grupos de itens com um estímulo comum. As unidades


podem consistir em um conto ou um gráfico, seguidos por um conjunto
de questões. Os princípios básicos para a elaboração de itens de múltipla
escolha ou de resposta curta aplicam-se a itens associados a unidades.
Diversos pontos devem ser considerados durante a redação prelimi-
nar de itens baseados em unidades:

yOs itens devem ser independentes uns dos outros. Os alunos não
devem ter de responder a um item corretamente para responder a
outros itens corretamente.
48 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

yOs itens não devem se superpor. Cada item deve avaliar um aspecto
claramente diferente do estímulo.
yOs itens devem avaliar uma gama de habilidades. Por exemplo, os
itens não devem avaliar repetidamente a recuperação de uma infor-
mação diretamente explicitada ou a ideia central de cada parágrafo
do estímulo.
yOs itens numa unidade devem cobrir uma gama de níveis de dificul-
dade, começando, em geral, com um item fácil.
yA informação dada no comando ou nas opções de múltipla escolha de
um item não deve ajudar o aluno a responder a outro item.
yOs itens devem avaliar aspectos significativos (e evitar aspectos tri-
viais) do estímulo.
yOs itens devem estar na mesma página que a unidade ou na página ao
lado (no caso de um estímulo longo).

Unidades com oito ou mais itens associados tendem a ter alguns itens
duplicados, superpostos ou triviais. Alguns itens podem ser eliminados
durante o painel de itens. Alternativamente, a equipe de desenvolvi-
mento de teste poderia desenvolver dois formulários para o pré-teste
usando a metade dos itens em um formulário e os demais no segundo.
A seção de linguagem encontrada em http://go.worldbank.org/
M2O1YDQO90 contém muitos exemplos de unidades seguidas de um
conjunto de questões. (Veja, por exemplo, os itens que se seguem a “Le-
bre Anuncia o Terremoto”, em Itens da Amostra de Leitura Internacional
para a 4a série do PIRLS de 2001 ou “O Acordo de Petra”, em Questões
da Amostra de “Lendo a Austrália”, Ano 3.)

ITENS DE PRÁTICA

Os itens de prática são essenciais para garantir que os alunos não sejam pe-
nalizados pela falta de familiaridade com o formato de itens ou com a for-
ma como devem apresentar suas respostas às questões do teste. Em geral,
o aplicador do teste repassa os itens de prática com os alunos, de acordo
com instruções muito específicas contidas no manual de aplicação.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 49

Quando os testes incluem itens de resposta curta, é especialmente


importante que os alunos compreendam que tipo de respostas se espera
deles. Os alunos precisam compreender, por exemplo, onde escrever
sua resposta para completar uma sequência numérica ou o quanto se
espera que escrevam em resposta a um item que requer uma explicação.
Deve-se explicar aos alunos que eles não serão penalizados por cometer
pequenos erros de soletração ou gramaticais, a menos que isso seja parte
do que está sendo medido. As instruções devem encorajá-los a tentar
responder a todos os itens.
Os itens de prática devem ser desenvolvidos para todos os formatos
de resposta no teste. Por isso, esses itens são escritos, em geral, já perto
do final da fase de desenvolvimento do teste, quando já se sabem os
tipos de questões contidas no teste. Os itens de prática devem ser muito
fáceis; por exemplo, pedir aos alunos para escrever a resposta a 2 + 2
numa linha ao lado da soma:

2 + 2 = __________

Dá-se ênfase a como os alunos registram suas respostas. Neste caso,


os alunos devem escrever a resposta na linha.
O painel de itens deve rever todos os itens de prática, que também de-
vem passar por um pré-teste. Se vários formulários de pré-teste forem usa-
dos, os mesmos itens de prática devem ser usados em cada um deles.

DIAGRAMAÇÃO E ELABORAÇÃO DOS ITENS

A diagramação e o desenho dos itens são cruciais para a clareza e a


atratividade de um teste. Os alunos têm maior probabilidade de ten-
tar responder aos itens de um teste bem apresentado e de fácil leitura.
Os especialistas que desenham os testes devem adotar um estilo con-
sistente, com um formato agradável. Pode-se contratar um especialis-
ta em diagramação e desenho para criar todas as imagens. Em http://
go.worldbank.org/M2O1YDQO90, você encontra muitos exemplos de
itens bem apresentados e apoiados por ilustrações de boa qualidade.
50 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Diretrizes Básicas

A seguir, você tem algumas diretrizes básicas para diagramações e dese-


nhos bem-sucedidos de testes.

yUse um tipo grande (por exemplo, 36) para numerar os itens, de


modo que os alunos possam localizar facilmente cada item.
yDeixe um espaço adequado se os alunos tiverem de anotar uma res-
posta. (Isso é especialmente necessário para alunos das primeiras sé-
ries do fundamental, que podem ter letras muito grandes.)
yDeixe espaço suficiente entre os itens, de modo que os alunos possam
ver claramente onde termina um item e onde começa o seguinte.
yUse o comprimento da linha para a resposta de um item, deixando
claro para os alunos o quanto se espera que escrevam. Uma linha
curta é adequada a uma resposta de uma palavra. Duas ou três linhas
mais longas sugerem que o aluno deve escrever uma ou duas senten-
ças em resposta ao item.
yDê a cada item um título exclusivo, e imprima esse título perto do
número do item, num tipo pequeno em escala cinza, na margem es-
querda. Um título de identificação exclusivo ajudará a garantir o ras-
treamento acurado dos itens. Os números dos itens podem mudar,
especialmente se os itens aparecem em múltiplos cadernos de prova.
ySeja consistente no uso de aspas simples ou duplas, itálicos, sublinha-
dos, negritos e maiúsculas.
yCertifique-se de que a diagramação e as imagens usadas no pré-teste
dos itens sejam o mais parecido possível com a apresentação dos itens
no formulário final do teste. Mudanças no desenho e na diagramação
de itens podem afetar a dificuldade de um item.

Qualidade das Imagens

As imagens usadas no teste têm de ser claras, com linguagem e títulos


simples, adequados. As imagens devem ser desenhadas por um artista
gráfico. Imagens escaneadas ou tiradas da internet em geral não têm qua-
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 51

lidade adequada. Em geral, fotografias também são inadequadas, porque


aumentam os custos de impressão. Usualmente, um artista gráfico deve
redesenhar as fotos. O uso de um mesmo artista gráfico para desenhar
todas as imagens, fotográficas ou não, dará consistência à diagramação e
ao desenho do teste.
Onde possível, devem ser usadas imagens para aprimorar a clareza e
reduzir o número de palavras em um item (veja o Quadro 3.15). Ima-
gens simples são mais eficazes. A imagem deve apresentar o conceito
com clareza e de forma limpa (veja o Quadro 3.16). Não é necessário
parecer real. Se possível, devem ser usados desenhos, e extensas áreas
sombreadas devem ser evitadas.

QU A D R O 3 . 1 5

Uso de Imagens para Reduzir Palavras


A seguinte imagem descreve uma experiência científica muito melhor que um longo
parágrafo:

Qual a parte da planta que absorve A MAIOR QUANTIDADE de água?

Parte A

Parte B

Parte C

Parte D

A Parte A
B Parte B
C Parte C
D Parte D

Fonte: IEA 2007, item da amostra.

Gráficos e mapas devem receber títulos de forma clara e consistente


(veja os Quadros 3.17 e 3.18).
52 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

QU A D R O 3 . 1 6

Como Simplificar as Imagens


Esta imagem transmite um sistema complexo de maneira simples:

C
A
D
E

Fonte: Departamento de Educação das Filipinas, 2004.

QUADRO 3.17

Como Dar Nomes Claros aos Gráficos


Nomes claros e consistentes como esses no seguinte gráfico ajudam os alunos a com-
preender questões complexas rapidamente:

Esta tabela mostra temperaturas em vários momentos de quatro dias.

Em que dia e em que momento a temperatura mostrada na tabela era a mesma que
a mostrada no termômetro?
40°
35°
TEMPERATURA 30°
6h 9h 12h 15h 18h 25°
20°
Segunda-feira 15° 17° 24° 21° 16° 15°
10°
Terça-feira 20° 16° 15° 10° 9°

Quarta-feira 8° 14° 16° 19° 15°
Quinta-feira 8° 11° 19° 26° 20°
Termômetro

A. Segunda-feira, 12h

B. Terça-feira, 6h

C. Quarta-feira, 15h

D. Quinta-feira, 15h

Fonte: Mullis et al., 2000.


DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 53

QUADRO 3.18

Como Dar Nomes Claros aos Mapas


Deve-se ter a preocupação de dar títulos claros aos elementos de um mapa. No mapa
seguinte, os nomes de continentes são mostrados com todas as letras maiúsculas,
enquanto os oceanos têm apenas a inicial maiúscula:

Oceano
Ártico

ÁSIA
AMÉRICA EUROPE
DO NORTE

Oceano
Atlântico
ÁFRICA
Oceano
Oceano Pacífico
Pacífico
Equador
AMÉRICA
DO SUL Oceano
Índico
AUSTRÁLIA

Oceano
Antártico

Áreas onde vivem dugongos

Fonte: Papua Nova Guiné, Departamento de Educação 2004.

Conforme mostrado no Quadro 3.19, os espaços deixados nos gráfi-


cos permitem que o material de estímulo seja lido com facilidade.
Ao decidir o tamanho da fonte e o comprimento da linha, os especia-
listas que desenham e formatam o teste devem considerar o seguinte:

yUsar tipo 14 para a 3a e a 4a séries e tipo 12 para séries mais avançadas.


yReduzir a largura dos textos de estímulo a aproximadamente 10 a 14
palavras por linha.
yCertificar-se de que a quebra de linha ocorra num ponto apropriado.
Não permitir que uma palavra apareça sozinha numa linha.
54 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

QUADRO 3.19

Deixando Espaço no Material de Estímulo


O espaço neste desenho agrega legibilidade ao material de estímulo:

A figura anterior mostra uma caixa contendo um material que poderia ser
um sólido, um líquido ou um gás. O material, então, é posto numa caixa
quatro vezes maior.

Olhe as figuras a seguir. Elas mostram como diferentes tipos de material


terão aparências diferentes quando postos numa caixa maior.

A. Identifique qual figura mostra um sólido, qual mostra um líquido e qual


mostra um gás. (Escreva as palavras Sólido, Líquido ou Gás na linha ao
lado de cada figura a seguir. Use cada palavra apenas uma vez.)

B. Explique suas respostas.


S031372

Fonte: IEA, 2003, item da amostra.


DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 55

As diagramações de opções de múltipla escolha devem ser consisten-


tes. Cada opção deve ser identificada. As seguintes opções de diagrama-
ção são recomendadas:

yUma coluna vertical de opções nomeadas de cima para baixo:


A
B
C
D
yUma linha horizontal de opções nomeadas da esquerda para a direita:
A B C D
yDuas colunas verticais de opções, nomeadas de cima para baixo na
primeira coluna e também de cima para baixo na segunda coluna:
A C
B D

A EQUIPE DE ELABORAÇÃO DE ITENS

O gerente de desenvolvimento de teste lidera e gerencia a equipe de ela-


boração de itens e supervisiona todo o programa, desde a fase de desen-
volvimento e realização de painéis, passando pelo pré-teste, até a seleção
de formulários finais para o teste. O gerente deve saber lidar bem com
pessoas e ter habilidades organizacionais.
As responsabilidades do gerente de desenvolvimento de teste in-
cluem:

ySelecionar uma equipe de elaboradores de itens.


yCertificar-se de que os elaboradores de itens entenderam a tabela de
especificações.
yAperfeiçoar a tabela de especificações.
yEstabelecer um conjunto de regras ou protocolos para apresentar,
classificar e armazenar os itens.
yCertificar-se de que os elaboradores de itens estejam cientes da quan-
tidade de espaço que os itens podem ocupar na página.
56 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

yDefinir e monitorar os processos do painel de itens.


yMonitorar o progresso do desenvolvimento de itens de acordo com o
estabelecido na tabela de especificações do teste.
yRever os itens com grupos de especialistas ou com os principais inte-
ressados.
yMonitorar a qualidade dos itens.
ySeguir o desenvolvimento dos itens para que esteja de acordo com o
cronograma.
yRegistrar detalhes de todos os itens desenvolvidos, incluindo a histó-
ria do pré-teste e mudanças feitas durante a análise.
yGarantir que a tabela de especificações esteja refletida no teste final.
A elaboração de itens requer atenção a detalhes, criatividade, rigor
intelectual, profundidade de conhecimento sobre o conteúdo e a boa
compreensão do desenvolvimento dos alunos numa área de aprendiza-
do. Idealmente, os elaboradores de itens devem demonstrar as seguintes
características:

yDevem ter iniciativa e disposição para realizar uma ampla busca de


materiais de estímulo interessantes e devem ser capazes de desenvol-
ver materiais de estímulo de alta qualidade.
yDevem ser capazes de aceitar retornos sobre seu trabalho e comentar
o trabalho de outros elaboradores de itens com o mesmo grau de de-
sapego, sem personalizar nada.
yDevem demonstrar o desejo de alcançar a excelência em seu trabalho
e disposição para estar atentos a detalhes durante o desenvolvimento
e o refinamento dos itens.

Vale a pena considerar a possibilidade de se fazer um teste de seleção


inicial para escolher os elaboradores de itens. O teste poderia consistir
em dar aos potenciais elaboradores 30 minutos para gerar itens baseados
num conjunto de materiais de estímulo. Esse teste pode ser seguido por
uma entrevista durante a qual se pediria aos candidatos para explicar a
razão de suas respostas ao teste de seleção. O painel de entrevista pode-
ria verificar se os potenciais elaboradores de itens estão preparados para
aceitar críticas a seu trabalho.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 57

Idealmente, alguns elaboradores experientes deveriam ser envol-


vidos no treinamento de novos elaboradores de itens. Esses elabo-
radores experientes talvez tenham de ser recrutados em outro país,
como consultores, se não houver no país pessoas com o conhecimento
adequado. Os consultores para elaboração de itens poderiam realizar
sessões de treinamento, rever itens à medida que forem sendo desen-
volvidos, ou desempenhar ambas as tarefas. Após receberem treina-
mento, os elaboradores de itens que trabalharem em tempo integral
podem levar vários meses até chegar ao ponto de começar a produzir
itens de qualidade razoável.
As seguintes questões devem ser abordadas durante o treinamento:

yQual o objetivo geral do teste?


yQuais os tipos de estímulos adequados para os itens?
yQuais segmentos do currículo serão abordados pelo teste?
yQual a proporção de itens que abordarão os diferentes aspectos do
currículo?
yQue idioma (ou idiomas) será usado?
yQual o nível adequado de simplicidade do vocabulário e da gramática
a serem usados?
yQue formatos de item serão usados e em que proporção?
yQuais as especificações para a publicação (número de páginas do ca-
derno de prova, tamanho da página, número de itens por página)?
yQuantos itens são propostos para a versão final do teste?
yQuantos itens têm de ser desenvolvidos?
yComo será revista a versão preliminar dos itens do teste?
yQual o tempo destinado ao desenvolvimento, ao pré-teste e à seleção
dos formulários finais?
yExistem questões sensíveis ou limitações culturais que devam ser
consideradas durante a produção da versão preliminar do material de
estimulo e dos itens?

Todos os elaboradores de itens devem ter o mesmo entendimento das


respostas a essas questões. Também devem monitorar consistentemente
o próprio trabalho e o dos demais. Todos os elaboradores de itens devem
58 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

ter cópias da tabela de especificações final do teste, bem como a com-


preensão comum de seus conteúdos.
No longo prazo, pode-se economizar muito tempo se o estilo de
apresentação dos itens for especificado em detalhes desde o início. O
gerente de desenvolvimento de teste deve criar uma folha de estilo que
especifique exatamente como os itens e os guias de pontuação devem
ser apresentados. A folha de estilo deve cobrir todos os aspectos da dia-
gramação, incluindo a seleção das fontes, o tamanho das fontes, o uso de
recuos, a colocação de títulos e todos os tipos de detalhes que precisam
ser incluídos, como visto no exemplo do Quadro 3.20.

QU A D R O 3 . 2 0

Exemplo de Folha de Estilo para Elaboradores de Itens

TRADIÇÕES PASCAIS (título, Arial 16 em negrito)

Questão 1: Tradições Pascais (subtítulo, Times New Roman 12 em negrito)

O que as pessoas deram umas às outras no Domingo de Páscoa? (questão, Times


New Roman 12 em negrito)

<insira meia linha > (instrução para publicação em itálico e entre parênteses)

Tipo de texto Formato do item Processo


Informação Fechado Recuperação

(tabela com 3 colunas e 2 linhas: títulos das colunas, Times New Roman 12 em negrito;
corpo da tabela, Times New Roman 12 sem negrito)

Guia de pontuação (subtítulo, Times New Roman 12 em negrito)

1 ponto: refere-se a ovos (Times New Roman 12 em itálico)


y Deram-se ovos de presente. (marcador, Times New Roman 10)
y Decoraram ovos.

0 ponto: refere-se a panquecas, a outra coisa ou vago


y panquecas.
y Deram-se outras coisas.

Esse guia mostra que os elaboradores de itens têm de dar à sua uni-
dade um título usando Arial 16 em negrito com maiúsculas. O restante
do texto do item é em Times New Roman. A maior parte é em tipo 12.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 59

A questão deve ser intitulada, em negrito, “Questão 1”. O nome da


unidade deve vir em seguida, conforme mostrado. O item e o espaço
para a resposta do aluno ficam abaixo da questão. O elaborador de
itens insere e completa uma tabela para mostrar o tipo de texto, o
formato do item e o processo que os alunos usam para responder. O
guia de pontuação é intitulado conforme se mostra. Os critérios para a
pontuação são mostrados em itálico, e os exemplos de respostas dadas
pelos alunos são recuados, destacados com marcadores em tipo 10.
Seguindo o guia, os elaboradores de itens podem ajudar a garantir que
o pré-teste e os itens finais sejam preparados de maneira consistente,
funcional e eficiente.
Os elaboradores de itens precisam receber um retorno claro e regu-
lar, bem como instruções construtivas a respeito dos próprios itens e
de como correspondem à tabela de especificações. Desse modo, pode-
rão aprender com seus erros, desenvolver suas habilidades e refinar seus
itens. Os elaboradores de itens precisam reunir-se de modo regular e
frequente em painéis de itens para analisar seu trabalho. O gerente de
testes deve estar preparado para substituir elaboradores que não sejam
capazes de desenvolver itens de alta qualidade após um período razoável
de treinamento.

PAINÉIS DE ITENS

Um painel de itens consiste em um pequeno grupo (entre três e seis) de


elaboradores de itens que revisam, em conjunto, o material desenvol-
vido por um deles ou por mais de um. O objetivo do painel é aceitar,
modificar ou rejeitar o material. A abordagem de equipe, que é parte do
processo de controle de qualidade, ajuda a obter múltiplas perspectivas
de itens individuais. A menos que os elaboradores de itens sejam alta-
mente experientes, os itens ainda passam por uma revisão considerável
depois do painel de revisão.
Os membros do painel devem preparar suas críticas antes do encon-
tro do painel de itens. Devem ter bastante tempo para examinar os itens
e anotar sugestões de aprimoramento.
60 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

O painel deve criticar cuidadosamente o material de estímulo – con-


texto, conteúdo, fraseado, linguagem, diagramação e ilustrações – para
se certificar de que todos os aspectos do estímulo sejam relevantes para
a tabela de especificações, de que vale a pena incluí-los no teste e de que
sejam claros e concisos. Depois disso, devem-se examinar detalhadamen-
te todos os itens para garantir que o fraseado esteja sem ambiguidade e o
formato adequado e que o item claramente se refira a habilidades e áreas
de conteúdo especificadas na tabela de especificações. O conjunto de
itens também é examinado para se avaliar em que medida o equilíbrio
geral dos itens reflete a tabela de especificações. Os membros do painel
devem explorar todas as possibilidades de melhorar o estímulo e os itens
e, onde necessário, sugerir novos itens.
Durante o painel de itens, os elaboradores de itens devem explicar seu
trabalho e estar preparados para aceitar críticas construtivas. O líder do pai-
nel deve se certificar de que existe ampla concordância sobre as mudanças
a serem feitas em itens individuais. Os elaboradores de itens devem docu-
mentar as mudanças sugeridas e, em seguida, fazer a revisão dos itens.
Pode haver necessidade de um especialista em idiomas nos painéis nos
quais os elaboradores de itens estejam elaborando testes em outro idioma
que não o seu primeiro idioma. O especialista em idiomas precisa ter uma
boa compreensão das habilidades linguísticas da população-alvo do teste.
Um especialista nas disciplinas poderia ser incluído no painel, espe-
cialmente se a área de conteúdo for complexa. Pode ser útil envolver
um desses especialistas em alguns painéis para esclarecer questões de
conteúdo, mas esse envolvimento talvez não precise ser contínuo. Não é
provável que o especialista no tema esteja preocupado com os pequenos
detalhes da elaboração de itens.
É aconselhável que os painéis de itens não incluam formuladores de
políticas nem principais interessados. Os pequenos detalhes sobre os
quais o painel delibera não são atribuições suas.
Os membros do painel devem considerar todos os aspectos de um
item:

yEstá sendo avaliado o conteúdo certo?


yO formato do item está adequado para os alunos que serão testados?
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 61

yO item tem substância ou é trivial?


yO item tem um fraseado claro e sem ambiguidade?
yExistem erros de soletração ou palavras faltando?
ySe o item é de múltipla escolha, as opções são semelhantes e signifi-
cativas?
ySe o item é de múltipla escolha, a resposta correta pode ser obtida,
claramente e sem ambiguidades, da informação dada (o comando, o
material de estímulo ou ambos)?
yO formato do item está atraente e bem organizado?
yO grau de dificuldade da maior parte dos itens permitirá que apro-
ximadamente 40% a 80% dos alunos testados deem uma resposta
correta?
ySe o item requer pontuação de crédito parcial, cada pontuação tem a
probabilidade de atrair pelo menos 10% dos respondentes?
yO item parece ser desprovido de tendenciosidade e justo para os prin-
cipais subgrupos da população-alvo?

O painel também deve considerar formas de aprimorar o item:

yEncurtando-o.
yAcrescentando mais informação.
yMudando expressões ou o fraseado.
yAcrescentando um diagrama ou imagem.
yDando a ele um novo formato de item.

Os elaboradores de itens devem receber retornos regulares e frequen-


tes desde o momento em que começam a desenvolver os itens. Os painéis
de itens devem se reunir pelo menos uma vez por semana, se possível.
A revisão do material pode ser uma tarefa complexa. O painel precisa
de um líder para garantir que as recomendações sejam unânimes e que
se alcance um consenso sobre as mudanças a serem feitas. O elaborador
de itens não é a pessoa adequada para decidir quais mudanças adotar ou
quais sugestões ignorar. As recomendações do líder do painel devem ser
exatas o bastante para que os elaboradores de itens tenham clareza sobre
quais mudanças fazer.
62 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Às vezes, o trabalho de refrasear itens de outras pessoas pode gerar


intensas discussões. O líder do painel deve focalizar a discussão no apri-
moramento dos itens e garantir que o painel trabalhe construtivamente
para alcançar seu objetivo.
Todos os membros do painel, incluindo os elaboradores de itens ex-
perientes, devem ter seu trabalho revisto. É normal que surjam sugestões
para amplas revisões, especialmente no caso do trabalho de elaboradores
ainda sem muita experiência. A crítica de itens não deve ser vista como
direcionada a uma pessoa. Os elaboradores de itens que não conseguem
se engajar em discussões intensas e refrasear seus itens devem ser subs-
tituídos.

OUTROS REVISORES

O grupo de especialistas ou de principais interessados deve ter várias


oportunidades de rever o conjunto de itens durante o trabalho de de-
senvolvimento de itens. Esse procedimento pode ajudar a garantir que
os itens do teste sejam de boa qualidade e consistentes com a tabela de
especificações. O gerente de desenvolvimento de teste em geral apre-
senta todos os itens, ou uma seleção deles, a um grupo de referência
selecionado para esse propósito.
A primeira revisão com o grupo de referência deve ocorrer razoavel-
mente no início do processo de desenvolvimento de itens, para garantir
que os elaboradores de itens estejam trabalhando na direção certa. O
grupo de referência pode sugerir refinamentos em alguns aspectos da
tabela de especificações, especialmente se os elaboradores de itens esti-
verem tendo dificuldade para seguir algumas especificações. Os elabo-
radores de itens também podem necessitar de instrução mais específica
sobre materiais aceitáveis e inaceitáveis.
Normalmente, faz-se uma revisão depois de completada a elaboração
preliminar de todos os itens para garantir que os principais interessados
os aprovem antes da realização do pré-teste. Uma revisão final permite
que os principais interessados aprovem a seleção de itens para o formu-
lário final do teste.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 63

RASTREAMENTO DE ITENS

O rastreamento de itens é fundamental. Cada item deve ter um título


exclusivo que possa ser rastreado em cada etapa, desde o pré-teste até
a análise.
O número de itens que precisa ser desenvolvido é de aproximada-
mente 2,5 vezes a 3 vezes o número requerido para o formulário final
do teste. Em geral, é necessário produzir diversos cadernos de pré-teste
para cada série escolar. Alguns dos mesmos itens devem aparecer em
diferentes cadernos. Isso permite que todos os itens do pré-teste sejam
ligados à mesma escala e possam ser comparados. O título de cada item
tem de ser independente da ordem do item no caderno, de modo que
aqueles duplicados em diferentes cadernos e os exclusivos possam ser
claramente identificados.
O rastreamento de itens na etapa de análise pode ser complicado.
Pode ser muito difícil acompanhar um item se o analista deixar de dar
um título exclusivo a ele. O tipo de software utilizado pode complicar
ainda mais o problema. O software em geral numera os itens automa-
ticamente. Se alguns itens forem eliminados durante a análise do pré-
-teste, o software renumerará os itens; desse modo, o número de um
item na análise talvez não corresponda mais ao número na análise inicial
ou ao número no caderno de prova. A atribuição de um título único e
exclusivo a cada item no caderno de prova e em cada uma das análises
ajudará a evitar esse problema.
O título de um item deve ser o mais significativo possível. O gerente
de desenvolvimento de teste deve se coordenar com o analista de dados
para estabelecer quantos caracteres podem ser usados num título. Paco-
tes de software de análise têm limites diferentes. A seguinte convenção
para titulagem é utilizada por uma agência de testes num teste de leitu-
ra, escrita e matemática aplicado ao longo de vários anos:

yO primeiro caractere é L, M ou E para Leitura, Matemática ou Escrita.


yCaracteres 2 e 3 indicam o ano em que o item foi aplicado (por exem-
plo, 07 para 2007).
yCaracteres 4, 5 e 6 significam o item (começando com 001).
64 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Por exemplo, M06003 indica que o item é de um teste de matemáti-


ca aplicado em 2006 e é o terceiro no conjunto de itens.
Os itens devem receber um título durante o desenvolvimento. O
mesmo título deve ser impresso nos cadernos de pré-teste e nos formulá-
rios finais. Os títulos podem ser impressos num tipo pequeno em escala
cinza, na margem oposta ao número dos itens nos cadernos de prova,
como mostrado a seguir:

M06003 5 Complete esta soma.


6 + 7 = ________

É essencial manter a história completa de cada item desenvolvido. O


analista de dados precisa de um registro das chaves para itens de múl-
tipla escolha e da localização dos itens nos cadernos de pré-teste. Com
frequência, os relatórios devem conter informações sobre o formato dos
itens e os processos que cada item avaliou. O gerente de desenvolvimen-
to de teste deve criar e manter uma planilha para manter um registro de
cada item, de suas classificações e de sua situação, bem como de quais-
quer mudanças que possam ter sido feitas no item.
O exemplo a seguir mostra alguns títulos contidos numa planilha que
registra todos os itens de leitura para um teste:

ynome da unidade nome dado à unidade (por exemplo, “Carros


de corrida”)
ytítulo do item título de seis dígitos (por exemplo, L06003)
yconteúdo do item fraseado da questão do teste
ysituação atual descrição indicando se o item está disponível
para uso (por exemplo, liberado como um
item de prática, rejeitado pelo cliente, per-
missão de direitos autorais recusada)
ychave resposta correta a uma questão de múltipla
escolha
ypontuação máxima número máximo de pontos naquele item
ytipo de texto gênero do texto (por exemplo, narração, infor-
mação)
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 65

yformato do item formato da questão do teste (por exemplo,


múltipla escolha)
yprocesso processo cognitivo (por exemplo, recupera-
ção de informação)
ynotas da análise mudanças feitas no item depois do pré-teste

Os itens devem ser armazenados num local seguro. Todos os mate-


riais relevantes associados ao desenvolvimento de uma unidade ou de
um item devem ser armazenados com aquele item. Mesmo o material
que não foi usado no pré-teste deve ser mantido, porque poderá ser usa-
do mais tarde na mesma série ou em outras. A fonte de documentos ou
ilustrações deve ser registrada e armazenada com a unidade ou o item,
para que se possa pedir permissão para reprodução, se necessário. De-
vem ser mantidas cópias de documentos originais, de modo que quais-
quer modificações subsequentes possam ser identificadas.
A maior parte dos itens pode ser armazenada eletronicamente. Como
medida de precaução, deve-se manter o backup dos arquivos de itens em
outro computador ou em outro disco. O título correto e uma classifi-
cação completa e acurada ajudam a garantir que os itens estejam arma-
zenados nas pastas adequadas do computador e possam ser recuperados
facilmente por outras pessoas. Os itens tendem a sofrer constantes revi-
sões, inclusive mudanças nos guias de pontuação e em ilustrações, bem
como pequenos aprimoramentos no fraseado. A última versão do item
deve ser facilmente identificável a partir da informação contida na pasta
do arquivo.

NOTAS

1. Para informação adicional sobre a construção de itens de teste, ver Chatterji (2003),
Haladyna (1999), Kubiszyn e Borich (2000) e Linn e Miller (2004).
2. A Avaliação Nacional do Progresso Educacional dos Estados Unidos inclui um com-
ponente de escrita (Conselho Diretor da Avaliação Nacional, s.d.).
CAPÍTULO

4 PRÉ-TESTE
DE ITENS

A
construção de testes para uma avaliação na-
cional usa, na maior parte dos casos, a tec-
nologia que tem sido desenvolvida para o
desenho de testes destinados a avaliar e divulgar o aproveitamento de
alunos individuais. Como esses testes são usados para discriminar entre
desempenhos de alunos, todos os alunos farão basicamente o mesmo tes-
te. O objetivo de uma avaliação nacional é bastante diferente: não se tra-
ta de discriminar entre alunos, mas de descrever à medida que os alunos
num sistema educacional como um todo (ou em partes dele claramente
definidas) adquiriram os conhecimentos e habilidades prescritos em um
currículo. Para fazer isso, o teste deve fornece uma cobertura adequada
do currículo, o que pode requerer que se trabalhe com uma amostra do
conteúdo do currículo muito maior que a usada em testes destinados a
avaliar alunos individualmente. A necessidade de uma ampla cobertura
do currículo é reforçada quando uma avaliação busca identificar áreas de
currículo em que os alunos apresentam pontos fortes e pontos fracos.
Para lidar com essas questões, muitas avaliações nacionais e interna-
cionais usam um número muito maior de itens que o utilizado em um
teste concebido para avaliar alunos individualmente. No entanto, para
evitar pôr um peso muito grande sobre os alunos individualmente, cada
68 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

um responde a apenas uma parcela do número total de itens numa ava-


liação. Assim, é preciso fornecer vários conjuntos alternativos de itens
no planejamento de cadernos que passam de um aluno a outro. O nú-
mero exato varia de uma avaliação nacional para outra.
Essa abordagem, embora desejável em muitos sentidos, traz consi-
go diversas complicações para a aplicação de uma avaliação nacional.
Em primeiro lugar, o desenho do teste é complexo, porque é necessário
garantir a superposição e a correspondência de itens de diferentes su-
bamostras. Segundo, a aplicação é mais complexa porque é necessário
garantir que os alunos recebam os cadernos certos e que as instruções
dadas sejam adequadas para todos os cadernos. Finalmente, a combina-
ção de dados de múltiplos conjuntos de itens requer procedimentos es-
tatísticos relativamente complexos. Por todas essas razões, muitos países
em desenvolvimento não têm usado cadernos de teste que passam de
um aluno a outro em suas avaliações nacionais.
A maior parte dos comentários nas páginas seguintes e também no
Capítulo 5 aplica-se tanto a situações em que uma equipe de avaliação
nacional usa múltiplos cadernos de prova quanto àquelas em que se opta
por um único caderno de prova para medir o aproveitamento do apren-
dizado numa área temática. As duas abordagens requerem que se dê
grande atenção à realização de um cuidadoso pré-teste.
O pré-teste, ou teste-piloto, é um elemento essencial do desenvolvi-
mento do teste.
Um pré-teste é aplicado a alunos com as mesmas características da-
queles que farão o teste final. Devem ser incluídas escolas de diferente
tamanhos, em diferentes áreas, com alunos de variados contextos socio-
econômicos. Idealmente, o pré-teste é realizado um ano antes do teste,
na mesma época em que se fazem as provas finais. Por exemplo, o pré-
-teste poderia ser dado aos alunos da 5a série em novembro de 2010 e
o teste final aos alunos da 5a série, em novembro de 2011. Na prática,
esse cenário talvez não seja possível, e o pré-teste poderia ser realizado
com alunos que têm alguns meses a mais ou a menos de experiência es-
colar que a população-alvo. Por exemplo, alunos da 6a série podem pas-
sar por um pré-teste no início do ano escolar para fornecer dados a um
teste que será aplicado aos alunos da 5a série no final do ano escolar.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 69

Os alunos que participarem do pré-teste não devem fazer o teste fi-


nal. Se o teste final for aplicado a uma amostra aleatória estatisticamente
selecionada, a amostra final deve ser extraída antes da seleção de escolas
para o pré-teste.
É boa prática fazer o pré-teste de um número de itens que seja duas
ou três vezes o número requerido para o teste final. A extensão de cada
formulário do pré-teste deve ser semelhante à do teste final. É útil dar
títulos aos formulários em ordem alfabética de acordo com a série; por
exemplo, cinco formulários da 3a série receberiam títulos 3A, 3B, 3C,
3D e 3E, e cinco formulários da 8a série seriam 8A, 8B, 8C, 8D e 8E.
Vários formulários de pré-testes serão necessários para cada sé-
rie. Idealmente, os formulários para cada série devem ser distribuídos
aleatoriamente em cada classe. Se forem usados três formulários para
a 5a série (5A, 5B e 5C), cada escola deve receber uma combinação de
todos os três formulários. Se não for possível seguir esse procedimento,
é importante garantir que cada formulário seja distribuído em todos os
segmentos do pré-teste da amostra. Por exemplo, o formulário 5A não
deve ser dado apenas a alunos da cidade; o formulário 5B, somente a
alunos das áreas rurais do norte; e o formulário 5C, apenas a alunos das
áreas rurais do sul. Os formulários devem ser tão equivalentes quanto
possível à tabela de especificações do teste.
A ligação dos formulários do pré-teste é essencial para que os itens
possam ser comparados. A ligação significa que parte dos mesmos itens
aparece em diferentes formulários. Alguns formulários de pré-teste ine-
vitavelmente serão mais difíceis que outros. Ao ligar os formulários, a
dificuldade geral dos itens pode ser determinada independentemente do
formulário no qual apareceram. É necessário fazer a ligação horizontal
quando se testar apenas uma série. A ligação vertical será requerida se
mais de uma série estiver sendo testada.
Um mínimo de 200 alunos deve tentar todos os itens do pré-teste
em cada série. Se existirem três formulários de pré-teste para a 5a série,
então pelo menos 600 alunos farão o pré-teste. Dos 200 alunos que
farão cada item do pré-teste, pelo menos 150 respostas são necessárias.
Inevitavelmente, alguma perda de dados ocorrerá durante o pré-teste.
Por qualquer razão inesperada, uma escola pode se retirar do programa
70 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

de pré-teste no último minuto ou aplicar o teste a um número de alunos


menor que o previsto. Também é improvável que todos os alunos ten-
tem todos os itens do pré-teste.
Dado que o pré-teste deve ser realizado sob as mesmas condições do
teste final, o tempo de que os alunos dispõem para fazer o teste deve ser
o mesmo que terão no teste final. Talvez não se saiba o número de itens
que os alunos podem completar no tempo permitido. Se for esse o caso,
então se deve montar um formulário com uma amostra dos itens do pré-
-teste e aplicá-lo em algumas classes antes que o pré-teste seja montado.
Com isso, será possível garantir que o número de itens em cada formu-
lário do pré-teste seja realista. Uma avaliação nacional não é um teste de
velocidade. A maior parte dos alunos deve ter tempo de tentar a maior
parte dos itens.
Deve-se tentar completar todos os pré-testes no período de duas a
três semanas.
O pré-teste fornece a oportunidade de se avaliarem a adequação e a
qualidade dos itens. Também permite que muitos aspectos da aplicação
do teste sejam ajustados. Os aplicadores do pré-teste deverão fornecer
as seguintes informações:

yOs alunos tiveram suficientes questões de prática, com instruções e


explicações suficientemente claras?
yO tamanho do teste foi adequado ou muito longo? E aproximada-
mente quantos alunos terminaram 10 minutos mais cedo?
yOs alunos pareciam atraídos pelo teste?
yOs alunos dispunham de recursos suficientes, como lápis e borrachas?
yAs instalações da escola eram adequadas para a realização de um teste?
yOs professores e alunos compreenderam o objetivo do teste?

DESENHO DO FORMULÁRIO DO PRÉ-TESTE

A análise dos dados do pré-teste fornece a base para a seleção dos itens
que entrarão no teste final. Muitas avaliações nacionais preparam dife-
rentes formulários de cadernos de prova associados a cada série. Essa
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 71

abordagem ajuda a conseguir uma cobertura do currículo maior que no


caso de um teste único e, ao mesmo tempo, ajuda a garantir que os
alunos não sejam submetidos a testes excessivamente longos. A diagra-
mação e a ligação do teste devem ser feitas de forma adequada, para
garantir que os dados possam ser combinados em uma única escala. O
analista de dados, o estatístico ou o principal profissional de computação
precisam estar envolvidos no desenho do pré-teste para garantir a obser-
vação das exigências relativas aos dados.
Formulários ligados partilham itens comuns. Em geral, são requeridos
entre 8 e 10 itens comuns. Existem vários modos de ligar os formulários.
Com um único conjunto comum de itens de ligação, os mesmos 8 a 10
itens de ligação são repetidos em cada formulário. Observe que, se os
itens de ligação têm um desempenho fraco na análise (com característi-
cas estatísticas ruins), a ligação dos formulários será fraca e a qualidade
geral da análise, consequentemente, será enfraquecida.
O segundo modo é a ligação circular. Diferentes conjuntos de itens
são usados entre pares de formulários. Por exemplo, o formulário 3A
pode ser ligado ao formulário 3B por meio do conjunto X de itens, o
formulário 3B ao formulário 3C por meio do conjunto Y de itens, e
o formulário 3C ligado, por sua vez, ao formulário 3A por meio do con-
junto Z de itens. Cada formulário também contém itens exclusivos que
não aparecem em nenhum dos outros (Figura 4.1).
Um terceiro modo é a ligação linear, que segue o modelo de ligação
circular, sem, no entanto, excluir o conjunto Z de itens. Assim, o for-

FIGURA 4.1

Exemplo de Ligação Circular de Itens

Formulário 3A Formulário 3B Formulário 3C

conjunto de itens X conjunto de itens X conjunto de itens Y

conjunto de itens Z conjunto de itens Y conjunto de itens Z

conjunto de itens conjunto de itens conjunto de itens


exclusivo de 3A exclusivo de 3B exclusivo de 3C

Fonte: Criação dos autores.


72 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

mulário 3A seria ligado ao 3B, e o 3B ligado ao 3C, mas não haveria


qualquer ligação entre os formulários 3A e 3C.
Se não estiver claro qual será o desempenho dos itens, é preferível
usar a ligação circular e um número maior de itens de ligação que o ne-
cessário. Na ligação circular, mesmo que falhe um conjunto de itens de
ligação, as ligações entre os formulários serão preservadas.
As ligações podem ser tanto horizontais (em uma única série) quan-
to verticais (em diferentes séries – por exemplo, entre a 3a e a 5a séries).
Se não se pretende estabelecer uma ligação vertical entre os formulá-
rios finais, então as ligações no pré-teste devem enfatizar fortes liga-
ções horizontais. Podem ser incluídas ligações verticais mínimas para
permitir a comparação de dados do pré-teste entre diferentes séries.
Tecnicamente, são necessários apenas 8 ou 10 itens em comum entre
as séries. Estimar o que define um bom item de ligação vertical é mais
difícil que estimar o que define uma boa ligação horizontal. Como se
trata de um pré-teste e como a qualidade dos itens de ligação é des-
conhecida, é aconselhável ter pelo menos 16 itens de ligação vertical
distribuídos por cada formulário.
Quando se pretende que os formulários finais sejam ligados vertical-
mente, é importante ter muitos mais itens de ligação vertical no pré-teste
que o requerido no teste final, de modo que os melhores itens de ligação
possam ser selecionados para o formulário final. Um modelo alternativo
de pré-teste para formulários finais com ligação vertical é mostrado na
Figura 4.2. O modelo se baseia na distribuição aleatória de formulários
A, B e C em cada classe.
Neste exemplo bastante elaborado, os formulários 3A, 5A, 7A e 10A
são ligados verticalmente, de forma linear, a um conjunto de 8 a 10
itens. Os itens são ligados de modo semelhante nos formulários B e C.
Existem, ao todo, 8 a 10 itens de ligação horizontal entre os formulários
A e B da 3a série e da 7a série e, ao todo, 8 a 10 itens de ligação hori-
zontal entre os formulários B e C da 5a série e da 10a série. Esse número
de ligações horizontais é aceitável. Se os formulários de teste não serão
distribuídos aleatoriamente dentro de cada classe, ou se os elaboradores
de itens não estiverem seguros quanto à qualidade dos itens de ligação
horizontal, devem ser incluídas mais ligações horizontais em cada série.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 73

FIGURA 4.2

Modelo para Ligação Vertical de Itens

4 a 5 itens
3ª série 3ª série 3ª série
comuns a
Formulário A Formulário B Formulário C
3A e 3B
8 a 10 itens 8 a 10 itens 8 a 10 itens
comuns a comuns a comuns a
3A e 5A 3B e 5B 3C e 5C

4a5
itens
5ª série 5ª série 5ª série
comuns
Formulário A Formulário B Formulário C
a 5B
e 5C
8 a 10 itens 8 a 10 itens 8 a 10 itens
comuns a comuns a comuns a
5A e 7A 5B e 7B 5C e 7C
4 a 5 itens
7ª série 7ª série 7ª série
comuns a
Formulário A Formulário B Formulário C
7A e 7B
8 a 10 itens 8 a 10 itens 8 a 10 itens
comuns a comuns a comuns a
7A e 10A 7B e 10B 7C e 10C

4a5
itens
10ª Série 10ª série 10ª série
comuns
Formulário A Formulário B Formulário C
a 10B
e 10C

Fonte: Criação dos autores.

Os itens de ligação devem ser localizados perto do começo ou no


meio dos formulários de teste, em vez de no final, para evitar que os
alunos não respondam aos itens. Os itens de ligação devem ser localiza-
dos numa ordem semelhante em cada um dos cadernos e também nos
cadernos de prova. Isso evita que diferenças no desempenho dos alunos
possam ser atribuídas à ordem ou à posição dos itens. Pequenas diferen-
ças na localização dos itens de ligação são inevitáveis. Grandes diferenças
devem ser evitadas.
Os itens de ligação devem ficar na faixa média de dificuldade. Em
geral, os alunos com habilidade média na população-alvo devem ter de
40% a 60% de probabilidade de responder a esses itens corretamente.
Como se trata de um pré-teste, a dificuldade dos itens para a população
74 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

do pré-teste não será conhecida; os elaboradores de itens terão de fazer


a melhor estimativa possível do grau de dificuldade. Se não tiverem cer-
teza da exatidão de suas estimativas, é aconselhável aumentar o número
de itens de ligação.
Se os itens estiverem organizados em unidades, é melhor ligar os for-
mulários com itens tirados de duas ou mais unidades, caso os itens as-
sociados a uma delas não funcionem bem. Não é necessário usar todos
os itens de uma unidade para fazer a ligação; alguns itens podem ser
comuns e outros exclusivos, como mostrado na Tabela 4.1. Ambas as
unidades, “Encontrando um animal de estimação” e “Monte Avarapa”,
aparecem nos formulários 3A e 3B da 3a série. Há três itens comuns a
cada unidade e a cada formulário. O pré-teste tem itens adicionais ex-
clusivos.

TABELA 4.1
Itens de Ligação em Duas Unidades de Leitura

Itens comuns a Itens exclusivos Itens exclusivos


Unidades de Leitura 3A e 3B de 3A de 3B
“Encontrando um Animal 3, 4, 6 2, 7 1, 5
de Estimação”
“Monte Avarapa” 1, 2, 5 3 4
Fonte: Criação dos autores.

Se o pré-teste incluir uma combinação de formatos de itens, os itens


de ligação devem refletir essa combinação.
Os itens devem ter títulos exclusivos impressos em escala cinza pró-
ximos ao item em cada formulário de teste no qual apareça o item. Itens
com o mesmo título devem ser idênticos em todos os aspectos, exceto
em sua ordem de aparecimento num formulário de teste. Itens com li-
geiras variações em seus fraseados devem ter títulos diferentes.
Os elaboradores de itens devem criar uma planilha com uma lista de
todos os itens; títulos separados devem mostrar quais itens aparecem
em quais formulários e em que ordem. A Tabela 4.2 mostra parte de
uma planilha de amostra que cobre três unidades (“Cachorros”, “Elisa” e
“Bang”) de um teste de leitura da 5a série.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 75

TABELA 4.2
Parte de uma Planilha para Rastrear Itens em Diferentes Formulários

Nome da Título Formulário Formulário Formulário Formulário


unidade do item 5A 5B 5C 5D

“Cachorros” R070101 1 1 4 4
“Cachorros” R070102 3 3 5 5
“Cachorros” R070103 2
“Cachorros” R070104 2
“Elisa” R070201 1
“Elisa” R070202 2 1
“Elisa” R070203 3 2
“Elisa” R070204 3
“Bang” R070301 4 6
“Bang” R070302 5 7
Fonte: Criação dos autores.

Os itens de três unidades aparecem à esquerda. Os números nas colu-


nas mostram a ordem em que aparece cada um desses itens em cada um
dos formulários de pré-teste. Os primeiros dois itens em “Cachorros” são
comuns aos quatro formulários.

IMPRESSÃO E REVISÃO DO PRÉ-TESTE

Cada item submetido a um pré-teste deve aparecer tal como aparecerá


no formulário final. Assim também, materiais de estímulo, gráficos e
ilustrações devem ser apresentados como se pretende que apareçam no
teste final. Idealmente, a ordem de aparecimento dos itens de ligação
deveria ser idêntica, mas, na prática, pode variar ligeiramente.
O material de estímulo para itens de leitura deve aparecer (a) na
mesma página que os itens ou (b) no lado esquerdo da página, ficando os
itens no lado direito da página, para permitir que os alunos passem com
facilidade dos itens para o texto.
A página de rosto do caderno de pré-teste não precisa conter to-
dos os detalhes exigidos no formulário final. Deve pedir informações
76 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

sobre escola do aluno, série, gênero, primeiro idioma e idioma falado


na família, e idade. Como, de maneira geral, os dados do pré-teste
não são divulgados, não há necessidade de obter os nomes dos alunos
no pré-teste. Alguns detalhes relativos a características sociocultu-
rais são necessários no formulário final e podem não ser exigidos no
pré-teste. A diagramação dos itens deve ser consistente em todos os
formulários de teste.
A seguinte lista de verificação pode ser útil durante a preparação ou
a revisão da impressão dos materiais do pré-teste:

yTítulos (grandes e claros).


yMargens – superior, inferior, esquerda e direita (consistentes).
yNumeração das páginas (consistente).
yNúmeros dos itens (grandes e claros).
yTítulos dos itens (aplicados).
yLinhas para os alunos escreverem as respostas (claras e de compri-
mento adequado).
yFraseado dos itens (tipo tamanho 12 ou 14).
yNúmero de palavras por linha (10 a 12).
yMaterial de estímulo (claro, preferentemente num tipo diferente do
usado nos itens).
yMaterial de estímulo e itens associados (na mesma página ou na oposta).
yCabeçalhos e legendas (consistentes e úteis).
yVerificação da soletração (feita).

Alguns testes incluem opções de pontuação em escala cinza. Por


exemplo, 0 ou 1 poderiam ser dados para um item a ser pontuado
incorreto ou correto, respectivamente. A opção de pontuação para
itens que não são mostram uma tentativa de resposta pelo aluno nor-
malmente é 9, conforme visto no Capítulo 3. Os avaliadores podem
simplesmente fazer um círculo em volta da pontuação adequada. A
inserção de pontuações relembra aos avaliadores a gama de opções de
pontuação.
Todos os cadernos de prova e manuais de aplicação precisam passar
por uma revisão detalhada e completa. Os revisores devem avaliar os
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 77

itens do teste como se eles mesmos estivessem respondendo às questões.


Devem certificar-se de que o material atende aos seguintes critérios:

yAs instruções iniciais e os itens de prática estão claros e sem ambi-


guidade.
yOs itens estão claros e sem ambiguidade.
yO material de estímulo está claro e é de leitura fácil.
yAs opções de múltipla escolha incluem uma resposta correta e outras
opções que são todas claramente incorretas.
yCada uma das opções da múltipla escolha faz sentido.
yExiste um espaço adequado para os alunos registrarem as respostas,
quando solicitados.
yO material de estímulo para leitura está na mesma página que os itens
ou na página da esquerda, com os itens na página oposta à direita.
yOs itens numa unidade são independentes; isto é, a resposta a um
item não está dada no comando ou nas opções de outro item.
yOs itens de ligação são idênticos.
yNão existe qualquer erro de soletração ou gramatical.
yA diagramação dos vários formulários de teste é consistente.

A revisão é fundamental. Erros graves podem ocorrer e têm ocorrido


em praticamente todas as etapas do processo de pré-teste. O pré-teste
representará uma séria perda de tempo, esforços e fundos se contiver er-
ros tipográficos e inconsistências. Isso reduz a utilidade dos dados, por-
que itens incorretos do pré-teste não podem ser usados no formulário
final do teste. Portanto, é importante usar revisores experientes e alocar
tempo suficiente para a revisão.
Os cadernos do pré-teste devem ser conferidos quando chegarem da
impressão. Devem ser feitas conferências aleatórias de cada pacote ou
caixa de cadernos para garantir o seguinte:

yTodas as páginas foram impressas claramente.


yAs páginas estão na ordem correta.
yAs páginas não estão duplicadas.
yA leitura de estímulo para cada unidade está na página correta.
yAs ilustrações estão claras.
78 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Os cadernos de pré-teste devem ser impressos e conferidos bem antes


de seu envio para as escolas. Essa providência dará tempo para reimpres-
são, caso seja necessário. Como as tiragens para o pré-teste são, em geral,
pequenas, a reimpressão, se necessária, custará relativamente pouco.

REALIZAÇÃO DO PRÉ-TESTE

Os alunos não devem ter qualquer dúvida sobre como apresentar suas
respostas a cada item ou questão do pré-teste ou do teste final. Os tes-
tes são projetados para testar o conhecimento de uma importante área
do currículo – não as habilidades dos alunos de adivinhar como devem
apresentar suas respostas. Os alunos devem receber oportunidades ade-
quadas durante o pré-teste, tanto no começo do pré-teste quanto no
início das seções dentro do pré-teste, para que façam os itens de prática.
É particularmente importante dar um número adequado de itens de prá-
tica (por exemplo, 3 ou 4) aos alunos de sistemas educacionais nos quais
não exista uma tradição de testes do tipo múltipla escolha.
O número de itens nos formulários de pré-teste pode ser igual ao
dos formulários finais ou ligeiramente menor. É importante que todos
os alunos tentem responder a todos os itens do pré-teste. Se o pré-teste
for muito longo, ou se contiver muitos itens difíceis na parte final, então
poucos itens do final do teste serão respondidos.
Comece cada formulário com alguns itens fáceis, para que os alunos
mais fracos sintam-se encorajados a tentar fazer todo o teste. Em geral,
é desejável distribuir a dificuldade dos itens subsequentes de tal modo
que os alunos persistam, em vez de abandonarem todo o teste quando
se defrontarem com uma série de itens difíceis. Tente fazer com que a
dificuldade geral de cada formulário do pré-teste seja basicamente igual.
Evite que qualquer um dos formulários esteja cheio de itens difíceis,
porque os alunos podem desistir. Se isso acontecer, os itens na parte
final do formulário não terão dados suficientes para que se possa fazer
uma boa análise do pré-teste.
O pré-teste oferece a oportunidade de se experimentar versões alter-
nativas de itens em diferentes formulários. Por exemplo, um item pode
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 79

ser testado como uma questão de múltipla escolha e como um item


aberto (Quadro 4.1).
Diferentes fraseados de itens abertos também podem passar por um
pré-teste. Observe que versões alternativas de itens não devem ser usa-
das como itens de ligação; itens de ligação devem ser idênticos.

QU A D R O 4 . 1

Exemplo de um Item nos Formatos de Múltipla Escolha e Aberto


13 + 17 + 8 =

(A) 28 (B) 30 (C) 38 (D) 110

OU

13 + 17 + 8 = _______

PONTUAÇÃO DO PRÉ-TESTE

O objetivo de coletar dados de pré-teste é obter informações que aju-


darão a selecionar itens de boa qualidade para o teste final. Em geral, as
pontuações e os nomes dos alunos não precisam ser ligados. As princi-
pais questões para pontuação do pré-teste são controle de qualidade e
consistência no tratamento das respostas dos alunos.
Todas as pontuações exigem procedimentos de controle de qualida-
de. Em geral, é mais econômico fazer a pontuação do pré-teste e a en-
trada de dados manualmente, porque o número de itens é manejável. Os
avaliadores e o pessoal que faz a entrada de dados devem ser treinados
adequadamente. O gerente de desenvolvimento de testes deve provi-
denciar para que a qualidade dos trabalhos seja conferida duas vezes por
dia, a fim de garantir consistência e confiabilidade. Essas conferências
podem ser feitas com mais frequência nas etapas iniciais e talvez com
menos frequência nas etapas mais avançadas se o trabalho de um avalia-
dor for considerado satisfatório.
Saber o percentual de alunos que não tentaram responder a itens do
pré-teste fornece uma informação útil sobre como estruturar o formulá-
rio final do teste. A seguir, as diretrizes gerais relativas a esta questão:
80 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

ySe 15% ou mais dos alunos não tiverem tentado responder a vários
itens no final de um teste, o pré-teste pode ter sido muito longo.
Considere fazer o teste final mais fácil, mais curto ou ambos.
ySe 15% ou mais dos alunos não tiverem tentado responder a um item
que não está no final do teste, pode haver algo errado na forma como
o item foi apresentado ou ele pode ser muito difícil. Os alunos po-
dem ter ignorado o item, não souberam como registrar sua resposta
ou não compreenderam o fraseado. Considere rever e fazer o pré-
-teste de um novo item.
ySe certo grupo na população (por exemplo, 15% ou mais de meninas)
não tiver tentado responder a um item que foi respondido pela maior
parte dos alunos, o item pode ser tendencioso. Considere não incluí-
-lo no teste final.
ySe 15% ou mais dos alunos consistentemente não tentaram responder
a itens num formato específico (por exemplo, itens abertos), esses
alunos podem não ter compreendido como registrar suas respostas
ou podem ter precisado de mais itens de prática para aprender a res-
ponder a esse tipo de item. Considere acrescentar itens de prática
adicionais ou faça uma amostra de itens desse formato e teste-os no-
vamente.

Em geral, pontuações em branco ou que não foram tentadas apare-


cem como 9. Assegure-se de que nenhum item do teste tenha uma pos-
sível pontuação correta de 9. Se isso ocorrer, pode-se usar X (ou outra
letra do alfabeto) para denotar pontuações em branco.
Pontuadores e avaliadores precisam ter clareza sobre as regras para
pontuar as respostas em branco. Uma resposta em branco é, em geral,
aquela em que o aluno não fez qualquer marca de lápis. Qualquer ten-
tativa de responder a um item, ainda que ilegível ou ininteligível, é, em
geral, tratada como resposta incorreta, e não em branco.
Devem ser criados guias de pontuação para itens de múltipla escolha,
a fim de permitir que o elaborador de teste ou o revisor obtenham o
maior número possível de dados úteis de cada item.
Um item de múltipla escolha com quatro opções, por exemplo, po-
deria ser codificado como 1, 2, 3, 4, 8 ou 9. Podem ser usados números
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 81

adicionais para refletir mais opções. Os números 1, 2, 3 e 4 indicam a


opção que o aluno selecionou. Um código 7 pode ser usado para mostrar
que um aluno selecionou duas ou mais opções e possivelmente não com-
preendeu como responder a um item de múltipla escolha. No Volume
4 desta série usamos o código 8 para indicar que o aluno não tentou o
item e 9 para mostrar que aquele item não foi aplicado ao aluno (estava
em outro formulário de teste) e, portanto, não deve ser pontuado como
incorreto.
Itens de múltipla escolha nunca devem entrar no computador como
“correto” ou “incorreto”. O formato dos itens de múltipla escolha deve
ter uma numeração-padrão implícita de 1 a 4 ou 5, dependendo do nú-
mero de opções.
O avaliador ou a pessoa que faz a entrada de dados simplesmente
registra o número (implícito) da opção que o aluno selecionou para cada
item de múltipla escolha. Nem o avaliador nem quem faz a entrada de
dados têm necessidade de saber qual a opção correta ou se a resposta do
aluno está certa ou errada. A entrada da folha de dados poderia se pare-
cer com o exemplo da Quadro 4.2.

QU A D R O 4 . 2

Exemplo de uma Folha de Entrada de Dados para o Pré-teste

Ordem de aparecimento das


Aluno Q1 Q2 Q3 Q4 questões no formulário do teste

Almir Barros 2 3 2 1
Opções escolhidas por cada
Míriam Campos 4 3 2 4 aluno para cada item
Alberto Duarte 2 3 1 4

Fonte: Autores.

O elaborador de itens tem de dar ao analista de dados uma lista das


opções corretas, ou chaves, para cada item, enquanto o analista de da-
dos as registrará no programa de software. O software de análise, então,
computará cada resposta do aluno como correta ou incorreta, de acordo
com a lista de chaves.
82 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

O conhecimento das opções incorretas selecionadas pelos alunos dá


aos elaboradores de itens uma informação importante sobre a qualidade
dos itens de múltipla escolha e sua possível utilidade para o formulário
final do teste. Por exemplo, se quase nenhum aluno selecionar qualquer
de duas opções incorretas, essas duas opções evidentemente não funcio-
naram como distratores efetivos.
Itens abertos e de resposta fechada são, em geral, pontuados com 0
(incorreto), 1 (correto) ou 9 (em branco). As questões de crédito parcial
poderiam ser pontuadas com 0, 1, 2 ou 9.
A pontuação manual de itens do pré-teste requer treinamento e con-
trole de qualidade semelhantes à pontuação manual do teste final. Um
elaborador de itens com experiência deverá fazer o treinamento e super-
visionar a pontuação de itens do pré-teste. Em http://go.worldbank.org/
M2O1YDQO90, você encontra exemplos de guias de pontuação para
itens abertos de linguagem, matemática e ciências.
Os elaboradores de itens devem usar respostas do pré-teste para
rever e refinar seus guias de pontuação e suas categorias de pontua-
ção antes que comece a pontuação do pré-teste. Antes do início
da pontuação manual, os elaboradores de itens devem extrair uma
amostra de cadernos de prova completos do pré-teste e comparar as
respostas efetivas dos alunos a itens de resposta curta com aquelas
antecipadas no guia de pontuação. Os elaboradores de itens devem
usar a amostra para incluir exemplos de respostas dos alunos em seus
guias de pontuação. Os guias de pontuação devem incluir tanto res-
postas incorretas quanto as corretas. O guia de pontuação de crédito
parcial no Quadro 3.12 mostra exemplos de respostas reais de alunos
que correspondem a cada uma das categorias do guia de pontuação,
inclusive as pontuações zero.
Os elaboradores de itens devem refinar ou expandir seus guias de
pontuação para levar em conta a gama de respostas realmente dadas
pelos alunos. Às vezes, essas revisões podem ser bastante amplas. Os
alunos tendem a surgir com respostas não antecipadas, mas corretas, ou
com formas não costumeiras, mas exatas, de expressar suas ideias. Tais
exemplos devem ser acrescentados aos manuais de pontuação, se forem
razoavelmente comuns. Se muitos alunos derem respostas de difícil clas-
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 83

sificação como corretas ou incorretas, os elaboradores de itens precisam


deixar claro em seus guias de pontuação como fazer essas distinções. Um
painel ou o gerente de desenvolvimento de teste devem rever os guias de
pontuação antes que os cadernos do pré-teste sejam pontuados.
Durante a pontuação manual, os elaboradores de itens devem receber
retornos dos avaliadores a respeito de quaisquer outros aperfeiçoamen-
tos que possam ser necessários no guia de pontuação. Se houver necessi-
dade de revisões significativas em um item do guia, o item talvez tenha
de ser repontuado, de acordo com o guia de pontuação revisto, para
garantir a consistência.
É essencial rever os guias de pontuação de forma que os critérios
para pontuar e os exemplos dados correspondam à gama real de possí-
veis respostas dos alunos. Se os guias de pontuação não forem revistos,
alguns itens serão perdidos, porque nenhuma das respostas dos alunos
pode atender às excessivas demandas do guia. A pontuação de outros
itens pode ser não confiável porque os avaliadores, não sabendo como
pontuar as respostas que não se enquadram nas diretrizes de pontuação,
terão de tomar as próprias decisões individualmente.
Em geral, pontuações mais altas para questões de crédito parcial indi-
cam uma resposta mais sofisticada ou extensa. Uma pontuação 2 sugere
uma resposta “melhor” que uma pontuação 1. Dados de crédito parcial
do pré-teste podem ser usados para colher informação sobre categorias
de respostas dos alunos, e isso pode ajudar a refinar itens do pré-teste ou
os guias de pontuação. As respostas a um item de crédito parcial do pré-
-teste podem ser codificadas como 0, 1, 2 ou 3, embora essas pontuações
possam não ser hierárquicas. Nesses sistemas de pontuação não hierár-
quicos, uma pontuação 3 não é considerada mais sofisticada que uma
pontuação 2 ou 1. Cada pontuação 1, 2 e 3 denota um tipo de resposta
correta, mas diferente. Por exemplo, pode haver três diferentes modos
de resolver um problema de matemática. O guia de pontuação pode ser
bastante complexo de modo a permitir essas três possibilidades. Se todos
os alunos do pré-teste escolherem o mesmo método, o elaborador de
itens poderia rever o guia de pontuação para se concentrar no método
mais popular, com uma breve referência às outras possibilidades. O guia
de pontuação seria revisto para o teste final, mostrando uma pontuação 1
84 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

para a resposta correta, independentemente do método usado para re-


solver o problema.
Os elaboradores de itens devem informar ao analista de dados quando
itens de crédito parcial são usados para indicar categorias, em vez de hie-
rarquias, pois isso permitirá que o analista diferencie entre as respostas.
O analista pode atribuir uma pontuação 1 a cada categoria de resposta
correta. Assim, é muito importante que os avaliadores compreendam
quando estão pontuando itens hierárquicos de crédito parcial e itens de
crédito parcial relativos a categorias. Todas as questões de crédito parcial
no teste final devem ser tratadas como hierárquicas.
O Volume 4 desta série tem uma seção especial sobre análise de da-
dos do pré-teste. Nela, estão cobertas as duas abordagens de análise: a
teoria clássica dos testes (TCT) e a teoria de resposta ao item (TRI). A
TRI é frequentemente usada para analisar itens de teste, fazer a ligação
de formulários de teste e desenvolver escalas para apresentar os resulta-
dos de uma avaliação nacional (Beaton e Johnson, 1989); tem diversas
vantagens quando usada para desenvolver escalas a partir dos dados da
avaliação. A TRI permite que um item seja caracterizado independen-
temente de qualquer amostra de indivíduos que tenha respondido a ele,
assim como permite que um respondente individual seja caracterizado
independentemente de qualquer amostra de itens aos quais tenha res-
pondido. Assim, a TRI é particularmente útil quando múltiplos con-
juntos de itens são aplicados aos alunos em uma avaliação. No entanto,
também apresenta algumas desvantagens – em especial, a complexidade
do procedimento, que requer níveis consideráveis de habilidade e expe-
riência. Quando essas habilidades e experiências não estão disponíveis
num país, a aplicação da teoria clássica dos testes pode ser vista como
aceitável.

CONFIABILIDADE

Tanto o pré-teste quanto o teste final devem demonstrar evidências de


que foi feito um teste de confiabilidade. Uma medida de confiabilidade
é um indicador da consistência dos resultados do teste. A confiabilida-
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 85

de depende da qualidade dos itens do teste, do próprio teste, da forma


como os testes foram aplicados, das características do grupo de alunos
(como o grau de empenho com que fazem o pré-teste ou os testes de
avaliação nacional) e da qualidade da pontuação dos itens do teste. A
questão da confiabilidade está coberta no Volume 4 desta série.
Os índices de confiabilidade do teste variam de 0 a 1; o 0 representa
um teste no qual as respostas dos alunos são totalmente inconsistentes
(por exemplo, um teste no qual todos os alunos dão respostas aleatórias
a todos os itens), enquanto o 1 representa um teste que mede um domí-
nio com consistência perfeita.
O órgão implementador deve obter evidência do grau de confiabili-
dade com que os itens individuais do pré-teste se correlacionam. Essa in-
formação fornece uma medida da consistência interna dos itens do teste.
Observe que essa abordagem presume que os itens selecionados meçam
um único conceito ou traço, como habilidade matemática ou linguísti-
ca. Normalmente, as equipes de avaliações nacionais e internacionais
tendem a omitir itens que não sejam relativamente homogêneos, isto
é, itens que não meçam um único conceito ou traço. A homogeneidade
pode ser avaliada usando-se uma abordagem como alfa de Cronbach,
as fórmulas 20 ou 21 de Kuder-Richardson, ou um coeficiente de con-
fiabilidade split-half; todos eles encontrados no software de estatística
SPSS©.
Se o teste de avaliação inclui itens de resposta aberta ou livre, o órgão
implementador deve definir que o método de pontuação é confiável. O
órgão deve certificar-se de que cada avaliador ou corretor de itens aber-
tos esteja treinado para julgar se as respostas de um aluno são aceitáveis.
Tal treinamento exigirá que os avaliadores trabalhem com a equipe de
desenvolvimento de teste para documentar a lista de respostas aceitá-
veis e inaceitáveis para cada questão aberta. Depois do treinamento,
pares de avaliadores trabalhando de forma independente devem pontuar
cada item aberto de pelo menos 60 cadernos de prova do pré-teste se-
lecionados aleatoriamente, e o percentual de concordância exata entre
pontuadores para o conjunto geral de itens deve ser calculado. O órgão
implementador deve pedir esclarecimentos aos elaboradores do teste
nos casos em que os avaliadores tenham dúvidas quanto à aceitabilidade
86 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

de determinada resposta. Uma cuidadosa pontuação de itens abertos do


pré-teste deve ajudar a garantir que haja pouco espaço para discordância
sobre respostas aceitáveis e inaceitáveis durante a pontuação de itens
numa avaliação nacional. Em http://go.worldbank.org/M2O1YDQO90,
você encontra diversos exemplos de pontuação de itens abertos.
CAPÍTULO

5 SELEÇÃO DE
ITENS DO TESTE

A
seleção de itens do pré-teste para o teste
final (coberta, em mais detalhes, no Vo-
lume 4) depende, em primeiro lugar, e
principalmente, do marco de referência, especialmente da tabela
de especificações. Em segundo lugar, das propriedades de mensu-
ração dos itens.
Tipicamente, os seguintes critérios de seleção são adotados para cada
item:1

yO item corresponde à tabela de especificações.


yO percentual de alunos que acerta o item fica entre 40% e 80%.
yO item mostra uma baixa taxa de respostas em branco.
yO índice de discriminação (correlação entre a pontuação do item e a
pontuação total do teste) é superior a 0,2.
yA confiabilidade do teste é aprimorada com a inclusão do item.
yA tendenciosidade do item está dentro de limites aceitáveis para os
principais grupos de alunos.

As seguintes considerações são específicas para itens de múltipla es-


colha:
88 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

yO ponto bisserial para a chave é positivo e superior a 0,2.


yTodos os distratores são plausíveis (isto é, foram selecionados por
pelo menos 5% de alunos) e têm pontos bisseriais zero ou negativos.

A Tabela 5.1 mostra o resultado típico de uma análise de um item de


múltipla escolha. Estatisticamente, o item funciona bem.

TABELA 5.1
Exemplo de Resultado da Análise de um Item de Múltipla Escolha

Critério Opção
A (0) B (0) C (0) D (1)
Contagem 90 14 21 254
Percentual 23,7 3,7 5,5 67,0
Ponto bisserial −0,26 −0,21 −0,16 0,39
Habilidade média −0,02 −0,48 −0,14 0,54
Fonte: Criação dos autores.

Os cabeçalhos da coluna mostram o número de categorias ou op-


ções no item (A, B, C, D). A opção D é a chave, ou opção correta, e
é mostrada com a pontuação 1 entre parênteses. As opções A, B e C
são mostradas com pontuações 0 entre parênteses. A linha “Contagem”
mostra o número de alunos que selecionaram cada opção; 254 alunos
selecionaram a opção correta. A linha “Percentual” apresenta o percen-
tual de dados (a contagem expressa como um percentual do número de
alunos): 67% dos alunos selecionaram a opção correta. Esse resultado
mostra que o item está dentro de uma faixa aceitável de dificuldade. O
item é bastante fácil. Apenas 3,7% dos alunos selecionaram a opção B, o
que sugere que essa opção é fraca ou implausível. A reelaboração dessa
opção para torná-la mais plausível possivelmente poderia aprimorar o
item; o item precisaria passar por um pré-teste mais uma vez. A linha se-
guinte mostra o ponto bisserial para cada opção. O ponto bisserial para
a resposta correta é 0,39. Os pontos bisseriais para as opções incorretas
são todos negativos. Nos itens de múltipla escolha, o ponto bisserial para
a chave é o mesmo que o índice de discriminação para o item. A última
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 89

linha mostra a habilidade média. A habilidade média dos alunos que


selecionaram a opção correta é consideravelmente mais alta que a dos
alunos que selecionaram as opções incorretas. Esse resultado também
mostra que o item está funcionando bem.
As seguintes considerações são específicas de itens abertos:

ySe o item é pontuado dicotomicamente, o índice de discriminação (cor-


relação entre a pontuação do item e a pontuação total) é superior a 0,2.
ySe o item confere crédito parcial, a discriminação é positiva e supe-
rior a 0,3.
ySe o item é pontuado dicotomicamente, a maior parte dos itens deve
estar na faixa de dificuldade de 40% a 80%.
ySe o item confere crédito parcial, cada categoria de pontuação atrai
pelo menos 5% de respostas.
ySe o item confere crédito parcial, o percentual geral (calculado combi-
nando-se as respostas a diferentes categorias parcialmente corretas) de
alunos que conseguem acertar um item está na faixa de 40% a 80%.
ySe o item confere crédito parcial, a habilidade média dos alunos cla-
ramente decresce, da mais alta até a mais baixa categoria de respostas
para questões de crédito parcial.

Um resultado típico de uma análise de um item aberto de crédito


parcial com boas estatísticas é mostrado na Tabela 5.2. Os títulos das
colunas mostram as categorias de respostas dos alunos. Alunos que res-
ponderam ao item incorretamente receberam pontuação zero. Uma res-
posta parcialmente correta ganhou pontuação 1, enquanto a resposta
totalmente correta recebeu pontuação 2. Respostas em branco são mos-
tradas como 9 e também são pontuadas como zero. O índice geral de
discriminação é 0,47, o que é alto. Observe-se que, para itens de crédito
parcial, o índice de discriminação não é o mesmo que o ponto bisserial
para a categoria de pontuação mais alta. A contagem e o percentual cor-
retos são mostrados nas duas primeiras linhas. Praticamente a metade
dos alunos que tentaram esse item deu uma resposta incorreta. Mais de
5% responderam a cada categoria de crédito parcial, o que sugere que
vale a pena manter essas categorias.
90 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

TABELA 5.2
Exemplo de Resultado da Análise de um Item Aberto de Crédito Parcial

Índice de
Categoria de resposta dos alunos discriminação = 0,47
Critério 0 (0) 1 (1) 2 (2) 9 (0)
Contagem 1.466 425 268 809
Percentual 49,4 14,3 9,0 27,3
Ponto bisserial 0,09 0,11 0,45 −0,48
Habilidade média −1,66 0,53 0,90 −1,90
Fonte: Criação dos autores.

O ponto bisserial aumenta de zero até a pontuação 2, mostrando que


as categorias estão tendo o desempenho esperado. A habilidade média
dos alunos que receberam pontuações 2 é −0,9. Alunos que receberam
pontuações 1 têm habilidade média de −1,53. A diferença é superior a
0,5 e sustenta a manutenção das duas categorias no guia de pontuação
porque mostram alunos com habilidades bastante diferentes.
O percentual de alunos que não tentaram responder a esse item é
bastante alto: 27,3%. Esse número precisa ser considerado no contexto
do padrão de itens em branco no conjunto do teste. Nesse caso, a maior
parte dos itens abertos teve percentagens de respostas em branco acima
de 20. O problema foi causado pela falta de familiaridade dos alunos
com esses tipos de itens e pela relutância em respondê-los, e não por um
problema específico com o item.
O nível geral de dificuldade do teste final deve ser adequado ao seu
objetivo. Um teste final concebido para monitorar o desempenho de
todos os alunos na população-alvo deve ter uma gama de dificuldades
que corresponda às habilidades da população. Avaliações desenhadas
para objetivos diferentes, como identificar alunos que atendam a um
padrão de referência predefinido, podem incluir itens muito fáceis ou
muito difíceis, dependendo do nível em que se estabeleça o padrão de
referência.
Até o momento, a experiência adquirida no desenvolvimento de pré-
-testes para uma avaliação nacional sugere que os elaboradores de itens
tendem a desenvolver itens que, na média dos casos, são muito difíceis.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 91

Parte dessa tendência pode derivar de suas experiências anteriores com


a elaboração de questões para exames públicos, em que as questões ten-
dem a ser calibradas num nível de dificuldade relativamente alto. Além
disso, muitos elaboradores de itens de pré-teste tendem a viver em áreas
urbanas e não têm compreensão dos baixos níveis de aproveitamento
que podem ser encontrados em áreas rurais remotas.
Se muitos itens do pré-teste forem muito difíceis e se o pré-teste não
tiver o número suficiente de itens fáceis que correspondam aos critérios
da tabela de especificações, deve-se fazer outra rodada de pré-teste com
um novo conjunto de itens mais fáceis. Do mesmo modo, se houver um
número insuficiente de itens difíceis, será necessário um pré-teste adi-
cional com itens mais difíceis.
As pessoas que analisarão os dados do teste final também devem ana-
lisar os dados do pré-teste. Quaisquer problemas com a forma como
os elaboradores de itens fornecem informações sobre a classificação dos
itens e das chaves, ou com a forma como os itens foram pontuados, po-
dem ser resolvidos durante a análise do pré-teste.
A equipe de elaboração de itens deve ser envolvida na interpretação
da análise de dados do pré-teste e nas decisões sobre quais itens excluir
do teste final e quais itens com estatísticas fracas deveriam ser incluídos.
As decisões sobre a inclusão ou exclusão de itens devem levar em conta a
tabela de especificações e as áreas do currículo que o teste deve avaliar.
Em geral, apenas um formulário final de um teste é usado em cada
série. Pode consistir em dois ou três testes separados, como um teste de
matemática, um teste de leitura e um teste de escrita. Esses testes po-
dem ser combinados em um único caderno ou impressos em cadernos
separados.
As questões que se aplicaram ao pré-teste, relativas à necessidade de
itens de ligação e sua seleção e localização, também se aplicarão ao teste
final se houver vários formulários.
Alguns itens fazem excelente sentido conceitual, mas têm estatísticas
fracas. Esse resultado pode indicar um problema na forma como o item
foi apresentado. Os alunos podem não ter familiaridade com o voca-
bulário ou com a forma como devem dar suas respostas, ou o material
de estímulo pode ser confuso. Idealmente, itens com estatísticas muito
92 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

fracas devem ser revistos e passar por um novo pré-teste. No entanto,


quando itens com estatísticas ruins se referem a critérios importantes na
tabela de especificações e não existem outros itens disponíveis, talvez
seja necessário incluí-los no teste final.
Em princípio, os itens nunca devem ser alterados entre o pré-teste e
os formulários finais, porque as alterações poderiam afetar as estatísticas
do item de forma desconhecida. Na prática, as agências de testes tendem
a fazer pequenas alterações em alguns itens – em geral, não mais que
em quatro ou cinco num teste de 30 itens. Essas pequenas alterações
poderiam incluir:

yMudar uma ou duas palavras para aprimorar a clareza ou reduzir a


dificuldade de vocabulário.
yEliminar a opção mais fraca entre as cinco opções de um item de
múltipla escolha.
yCorrigir erros gramaticais ou melhorar a clareza de expressão.
yMelhorar a diagramação, como a posição dos títulos num diagrama
ou a consistência dos títulos.

NOTA

1. Os exemplos usados neste capítulo baseiam-se em análises de itens que usam a abor-
dagem da teoria clássica dos testes. O Volume 4 contém essa abordagem de forma
mais detalhada. Também apresenta outro método de análise de itens, a teoria de
resposta ao item, que usa uma abordagem estatística diferente e uma terminologia
um pouco diferente.
CAPÍTULO

6 PRODUÇÃO
DO TESTE FINAL

DESENHO DO TESTE FINAL

O analista de dados ou estatístico deve ser envolvido no desenho do


formulário final. É sua atribuição certificar-se de que o desenho atende
aos seguintes requisitos:

yO formato em que são fornecidas as informações socioeconômicas e os


dados sobre os fatores de contexto dos alunos é adequado à análise.
yO método de registrar as respostas ao item é adequado para a análise.
yA natureza e abrangência dos guias de pontuação são adequadas para
a análise.
yAs ligações horizontais com dados do testes dos anos anteriores ou
as ligações verticais que podem ser necessárias são estatisticamente
sólidas.

As informações sobre dados socioeconômicos e fatores de contexto


dos alunos requeridas na folha de rosto dos cadernos de prova relacio-
nam-se com o objetivo do teste e a forma como os dados do teste serão
apresentados. Os alunos devem ser capazes de completar as informações
pedidas com facilidade e exatidão. Em geral, as informações da folha de
rosto incluem o seguinte:
94 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

yNome da escola
yNome completo do aluno
yGênero do aluno
yIdade ou data de nascimento do aluno
ySérie ou classe do aluno
yIdioma do aluno [primeiro idioma e o falado em casa].

Em alguns países, os alunos podem ter números exclusivos de identi-


ficação nacional. Esses números devem ser usados quando disponíveis.
Também é útil incluir uma opção na página de rosto para o aplicador
do teste registrar se os alunos perderam todo o teste ou parte dele devi-
do a ausências ou doenças, ou se os alunos com deficiências receberam
assistência especial para escrever suas respostas (veja o Quadro 6.1).

QU A D R O 6 . 1

Exemplo de uma Folha de Rosto de Teste


MONITORAMENTO DA AVALIAÇÃO DA EDUCAÇÃO: 4a SÉRIE

Seção para o aluno completar:

Escola _____________________________________________________________________
Estado _____________________________________________________________________
Série _______________________________________________________________________
Primeiro nome ______________________________________________________________
Sobrenome _________________________________________________________________
Sou um menino. Sou uma menina.
Idade: anos e meses
O idioma que uso com mais frequência em casa é o português. Sim Não

Seção para o aplicador do teste completar:

Este aluno esteve ausente no seguinte teste deste caderno:


Leitura
Matemática
Este aluno recebeu assistência especial para Leitura Matemática
Descreva a assistência especial fornecida: ______________________________________
Fonte: Papua Nova Guiné, Departamento de Educação, 2004.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 95

Em geral, é mais fácil garantir que as identidades dos alunos estejam


corretamente registradas e ligadas aos dados adequados se os testes de todas
as disciplinas estiverem em um único caderno. Evitam-se potenciais proble-
mas de identificação se as informações contidas na folha de rosto do caderno
de prova único forem completadas, de forma acurada e legível, antes da
primeira sessão de teste. Se for usado um único caderno, o aplicador do tes-
te deve tomar muito cuidado para garantir que os cadernos de prova sejam
entregues aos alunos certos antes de cada subsequente sessão de teste.
Se forem usados múltiplos cadernos, serão necessários procedimentos
efetivos para fazer a correspondência entre candidatos e cadernos. Os
seguintes riscos estão associados ao uso de múltiplos cadernos:

yOs alunos podem escrever seus nomes de formas diferentes em dife-


rentes cadernos.
yOs alunos podem usar nomes diferentes em diferentes cadernos:
uma forma reduzida num caderno e o nome completo em outros;
um nome religioso ou cultural num caderno e o nome de família em
outro; ou o primeiro nome em um e o nome do meio em outro.
yOs alunos podem escrever todo o nome ou parte dele de forma ilegí-
vel em pelo menos um dos cadernos.
yOs alunos podem deixar de escrever seus nomes em um caderno ou
em mais de um deles.

A diagramação e as diretrizes sobre a aplicação do teste devem ser


claras e consistentes. Na medida do possível, a diagramação do pré-teste
e o formato do teste final devem ser idênticos.
O teste deve começar com alguns itens fáceis para encorajar os alunos
mais fracos.
Em seguida, devem vir itens que cobrem diferentes níveis de dificul-
dade, sem seguir qualquer padrão específico, de modo que os alunos não
tenham de batalhar com uma série de itens difíceis até desistirem. Tam-
bém é importante que alguns alunos mais lentos tenham uma chance de
tentar parte dos itens mais difíceis, colocando esses itens mais ou menos
no início do teste. O teste deve terminar com alguns itens mais difíceis,
porque os alunos com menores habilidades têm menor probabilidade de
96 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

terminar o teste. Os itens que se referem a um estímulo comum (por


exemplo, um parágrafo ou mapa) devem ser apresentados juntos, inde-
pendentemente de seu grau de dificuldade.
As diretrizes para a colocação de itens de ligação no formulário final são
as mesmas observadas no pré-teste (veja Capítulo 4). Itens de ligação hori-
zontal são necessários para se ligar a um teste anterior se o aproveitamento
estiver sendo comparado ao longo do tempo. Ligações verticais são necessá-
rias para comparar o aproveitamento entre séries. Os itens de ligação devem
ser colocados (a) no começo do caderno de prova ou perto da metade dele
e (b) numa posição semelhante em cada caderno de prova.
Os títulos dos itens devem ser impressos em escala cinza nos cadernos
de prova, a fim de facilitar a localização e o rastreamento dos itens (veja
Capítulo 3).
O gerente de desenvolvimento de teste deve fornecer ao analista de
dados uma planilha mostrando onde o item aparece em cada caderno,
incluindo os itens de ligação.
As decisões sobre como os alunos registrarão suas respostas devem ser to-
madas durante a fase de desenho da tabela de especificações (veja Capítulo
2). Com frequência, os alunos preenchem as respostas ao item no caderno
de prova. A diagramação dos itens deve permitir espaço adequado para que
os alunos registrem suas respostas. A diagramação dos itens também deve
designar um espaço para os avaliadores registrarem suas pontuações.
Em outras situações, especialmente nas séries mais avançadas, podem
ser usadas folhas de respostas separadas. Essas folhas de respostas devem
mostrar com clareza como fazer a ligação entre a resposta e o item, ou
entre a opção impressa no caderno de prova e a posição correspondente
na folha de respostas. Se os itens no caderno de prova estiverem organi-
zados em unidades, será útil organizar a diagramação da folha de respos-
tas em unidades semelhantes.

IMPRESSÃO E REVISÃO

Estes são alguns dos fatores que determinam a extensão do caderno de


prova:
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 97

yNúmero de áreas temáticas cobertas


yAmplitude da cobertura dentro das áreas temáticas
yFormato do item
yUso de ilustrações
yExtensão dos materiais de estímulo
yTamanho da fonte
yFundos disponíveis para custear a impressão.

Os elaboradores de itens devem saber, desde o início, o número de


páginas proposto para o formulário final do teste. Se ficar evidente que
a extensão do teste será limitada, o material de estímulo, bem como os
diagramas e outras ilustrações, devem ser limitados. Qualquer que seja a
quantidade de espaço disponível, a diagramação dos itens deve ser clara
e bem organizada.
Em geral, cadernos com menos de 20 páginas (10 folhas) são impres-
sos em papel A4 (210mm-297mm) e grampeados em um dos lados. Ca-
dernos maiores tendem a ser impressos em papel A3 (420mm-297mm)
e grampeados no meio.
Cadernos com maior número de páginas em geral permitem o uso de
maior diversidade de material de estímulo interessante e itens mais ima-
ginativos. Do lado negativo, gasta-se mais com sua impressão e distribui-
ção. Também requerem mais espaço de armazenagem para embrulhar
e durante a fase de pontuação, o que pode aumentar consideravelmente
os custos gerais.
Em geral, os testes são impressos dos dois lados de uma folha. A qua-
lidade mínima do papel tem de ser suficiente para garantir que os itens
impressos de um lado da página não interfiram com a legibilidade dos
itens impressos do outro lado da mesma página.
As fotografias requerem papel de mais alta qualidade para garantir
boa reprodução. Finalmente, diagramas detalhados também requerem
papel de melhor qualidade.
Se os alunos tiverem de escrever no caderno de prova, o papel deve
ser forte o bastante para que escrevam suas respostas sem rasgar o papel
e para que o escrito num lado da página não apareça do outro lado.
98 | SÉRIE P ESQ UISAS DO BANC O M U N DI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

O papel da folha de rosto às vezes é de melhor qualidade que o usado


no restante do caderno de prova, mas isso tende a aumentar os custos e,
em geral, não é necessário.
Muitas vezes, é útil imprimir os cadernos para diferentes séries com
tintas de cores diferentes. Isso ajuda a garantir que os alunos recebam
os cadernos adequados. As cores das tintas escolhidas devem ser de fácil
leitura.
Um revisor com grande experiência deve revisar os formulários finais.
Também vale a pena pedir que colegas competentes que não estiveram
envolvidos no desenvolvimento do teste leiam o formulário final para
garantir que ele faça sentido da perspectiva do usuário do teste.
Existem dois períodos fundamentais para a revisão dos formulários
finais do teste.
Depois que os formulários finais tiverem sido montados, devem ser
revisados pelo gerente de desenvolvimento de teste, pelos elaboradores
de itens encarregados dessa tarefa e, finalmente, por um revisor pro-
fissional. Os elaboradores de itens devem conferir as correções feitas
pelo revisor. Os formulários finais deverão ser revisados uma segunda
vez quando as matrizes chegarem da gráfica. As matrizes são imagens
das páginas do teste tal como serão reproduzidas por uma impressora.
Em geral, a gráfica entregará as matrizes poucos dias depois de receber
o teste. O gerente de desenvolvimento de teste pode assumir a respon-
sabilidade de revisar as matrizes ou pode preferir contratar um revisor
profissional para essa tarefa. Deve-se alocar pelo menos duas semanas
para revisão e correção dos formulários finais. Pode haver necessidade
de mais tempo, dependendo da disponibilidade dos membros da equipe
encarregados de fazer as correções dos cadernos.
Com frequência, os revisores encontram centenas de pequenos er-
ros, especialmente o uso inconsistente de maiúsculas, pontuação, for-
matação, desenho final e soletração incorreta. Se as revisões do pré-teste
tiverem sido minuciosas e amplas, e se apenas mudanças substantivas
mínimas tiverem sido feitas nos itens, então, em teoria, a revisão dos
formulários finais deve revelar poucos erros, ou nenhum. Na prática,
isso raramente acontece. Podem surgir erros nos formulários finais em
lugares onde não haviam aparecido antes. Em geral, os revisores preci-
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 99

sam de vários dias para revisar inteiramente os formulários finais do teste


e as orientação para aplicação, mesmo que os pré-testes tenham sido
revisados anteriormente.
Quando for necessário imprimir uma grande quantidade de material,
deve-se fazer uma reserva na agenda dos impressores com várias sema-
nas ou até meses de antecedência. A gráfica informará o tempo previsto
para realizar a tarefa. Às vezes, a equipe da avaliação nacional pode ne-
gociar um pagamento adicional para a entrega do material antes da data
prevista e estabelecer desincentivos ou penalidades caso haja atraso.
Os impressores podem cometer erros de impressão nos cadernos de
prova. O erro mais comum é a falta de algumas páginas em alguns ca-
dernos. O gerente de elaboração de testes deve conferir aleatoriamente
as caixas com os cadernos finais para detectar algum erro.
CAPÍTULO

7 PONTUAÇÃO MANUAL
DOS ITENS DO TESTE

A
equipe da avaliação nacional deve se certi-
ficar de que os avaliadores que vão fazer a
pontuação manual dos formulários finais do
teste estejam bem treinados. A essa altura, os guias de pontuação já
terão sido revisados durante o pré-teste e deverão estar na forma quase
final. Antes de começar a pontuação manual final, os elaboradores de
itens poderiam selecionar uma pequena amostra de formulários finais
completados, conferir a clareza e eficiência dos guias de pontuação e,
possivelmente, fazer pequenas revisões.
É preciso planejar com bastante antecedência o estabelecimento de
um centro de classificação para a pontuação manual e definir processos
eficazes de pontuação. A equipe da avaliação nacional deve ter respon-
dido às seguintes questões antes de dar início à pontuação manual:

yOnde os materiais do teste serão armazenados?


yComo serão levados até os centros de classificação?
yComo será garantida a segurança dos materiais do teste? (Os testes e
manuais de pontuação não devem sair da sala.)
102 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

yQual é o cronograma da pontuação manual? A pontuação será orga-


nizada em unidades diárias, em turnos (incluindo um turno notur-
no)? Os avaliadores trabalharão nos fins de semana?
yComo os avaliadores registrarão os dados?
yQual é o equipamento de classificação necessário? Em geral, dá-se
preferência a canetas vermelhas ou verdes, porque as pontuações
nessas cores podem ser vistas claramente nos cadernos dos alunos.
Pequenos adesivos são úteis para sinalizar os itens a respeito dos quais
os avaliadores têm dúvidas.
yOs avaliadores serão pagos pelo número de testes que classificarem
ou pelo tempo gasto na classificação? Ambos os métodos apresentam
vantagens e desvantagens.

No primeiro caso, os avaliadores podem se apressar e ser menos cui-


dadosos na medida em que tentem pontuar o maior número possível de
testes. No último, os avaliadores podem não se dedicar inteiramente à
tarefa, e sua produção pode ser baixa. Um meio-termo adequado pode-
ria ser o pagamento pelo tempo gasto, mas com um número mínimo de
testes que deveriam ser completados a cada dia.
A equipe necessária num centro de classificação é composta por um
avaliador-chefe, avaliadores líderes e avaliadores. As pessoas responsá-
veis pela seleção de avaliadores devem entrevistar os candidatos e con-
firmar suas referências.
O avaliador-chefe é responsável pelas operações rotineiras. Deve garan-
tir que os avaliadores observem o cronograma, resolver quaisquer questões
relativas à classificação, supervisionar o gerenciamento dos procedimentos
de controle de qualidade e manter a segurança do teste. O avaliador-chefe
deve ser um avaliador experiente, com habilidades comprovadas em opera-
ções de gerenciamento, e deve estar preparado para substituir os membros
da equipe cujo desempenho se prove insatisfatório.
Os avaliadores líderes são responsáveis por monitorar a classificação
de uma área temática determinada e implementar procedimentos de
controle de qualidade.
Cada teste deve ter pelo menos um avaliador líder (por exemplo,
um avaliador líder para matemática e um avaliador líder para leitura).
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 103

Os avaliadores líderes devem ser especialistas numa área temática, ter


experiência com classificação e impor respeito.
Os avaliadores pontuarão as respostas dos alunos. Em geral, os pro-
fessores são bons avaliadores. Os avaliadores devem ser diligentes, con-
sistentes e confiáveis, e conhecer sua área temática.
O gerente de desenvolvimento de teste em geral indica elaboradores
de itens com experiência em áreas temáticas relevantes para treinar os
avaliadores. De preferência, a pessoa que fizer o treinamento dos avalia-
dores também deveria ter tido grande envolvimento no desenvolvimen-
to dos itens e dos guias de classificação. A pessoa que fizer o treinamento
dos avaliadores deve ser especialista nos temas relevantes. O gerente de
desenvolvimento de teste poderia assumir o papel de treinar avaliadores
em sua área temática. Idealmente, a pessoa que fizer o treinamento de
avaliadores para o pré-teste também deverá treinar os avaliadores dos
formulários finais.
Deve-se alocar tempo suficiente para vários períodos de treinamento de
avaliadores em cada grupo de avaliadores. O treinamento deve enfatizar
que os avaliadores terão de ler uma variedade de respostas corretas possí-
veis. Algumas podem não ser aquilo com que o avaliador está habituado,
podem ter pouca semelhança com as respostas contidas em livros didáticos
ou estar expressas numa linguagem pobre ou num vocabulário não conven-
cional. O treinamento de avaliadores deve cobrir os seguintes pontos:

yOs avaliadores têm pouca ou nenhuma liberdade para determinar a


adequação de uma resposta; suas opiniões ou preferências pessoais
não poderão influenciar a avaliação.
yOs alunos não devem ser penalizados por erros de soletração ou gra-
maticais em leitura, matemática ou ciências, a menos que seja impos-
sível decifrar o trabalho do aluno.
yOs avaliadores têm de buscar o conselho do avaliador líder quando
não tiverem certeza de como pontuar determinada resposta.
yOs avaliadores devem usar a mesma pontuação (em geral 0) consis-
tentemente para todas as respostas incorretas e todas as ilegíveis ou
ininteligíveis, inclusive nos casos em que o aluno escreveu uma única
letra ou garatujou uma única linha.
104 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

yOs avaliadores devem usar o mesmo código de pontuação (em ge-


ral, 9) consistentemente para mostra que o aluno não fez nenhuma
tentativa de responder ao item – ou seja, nenhuma marca de lápis
aparece no espaço fornecido para a resposta.
yPara facilitar a entrada de dados, os avaliadores devem usar apenas o
espaço fornecido no caderno de prova quando estiverem fazendo a
pontuação manual.
yOs avaliadores não devem ser responsáveis por combinar pontuações
para dar um total geral.

No treinamento, a ênfase deve ser posta em garantir que os avalia-


dores compreendam o que está incluído na tarefa de pontuação e em
alcançar consistência na pontuação. Os métodos de treinamento tendem
a variar. O exemplo seguinte mostra um dos métodos sugeridos, mas
existem muitos outros.

yO treinador pede aos avaliadores que respondam a cada item pontua-
do manualmente no teste. Esse processo familiariza os avaliadores
com o item e garante que o leram e entenderam adequadamente.
yO treinador dá a cada avaliador 4 ou 5 cadernos de prova respondidos
por alunos. O treinador discute o primeiro item e o guia de pontua-
ção e, então, os avaliadores pontuam esse item em seus cadernos de
prova. O treinador encoraja o grupo a discutir quaisquer discrepân-
cias ou dúvidas sobre como pontuar uma resposta. Os avaliadores
são encorajados a partilhar respostas que possam ser diferentes dos
exemplos no guia de pontuação. Depois que o primeiro item tiver
sido adequadamente discutido, o treinador passa para o item seguinte
e para as orientações para pontuá-lo. Em geral, esse método de trei-
namento requer várias horas.
yOs avaliadores têm uma segunda sessão de treinamento na qual tra-
balham em pares. Pontuam alguns testes individualmente e, então,
conferem o trabalho uns dos outros e discutem os itens sobre os quais
tiveram julgamentos diferentes. Se não puderem chegar a um acordo,
devem consultar o treinador. Depois de encerradas as sessões de trei-
namento, o avaliador líder assume a responsabilidade pelo gerencia-
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 105

mento dos avaliadores. O avaliador-chefe deve informar o treinador


se surgir alguma questão durante a pontuação dos testes.
yNo processo de pontuação dos cadernos de prova, o avaliador-líder
deve selecionar alguns itens problemáticos a cada dia e fazer discus-
sões rápidas sobre eles para manter o foco e a consistência.

O trabalho de checar a qualidade de itens de resposta curta para uma


avaliação nacional poderia incluir uma segunda checagem de quase 100%
de todos os cadernos de prova. Em geral, os avaliadores líderes fazem a
checagem. Podem reduzir gradualmente o processo de checagem dupla
a entre 10% e 20% dos cadernos de prova à medida que os avaliadores se
tornam consistentes e confiáveis em suas pontuações.
Se houver um grande grupo de avaliadores trabalhando, vários
avaliadores líderes principais serão necessários para garantir a quali-
dade da checagem e fornecer retorno imediato aos avaliadores sobre
quaisquer erros que estejam cometendo. O avaliador-chefe deve re-
querer que os avaliadores façam novamente a pontuação de itens nos
primeiros cadernos que pontuaram e nos quais cometeram erros de
pontuação. Os procedimentos para pontuações discrepantes também
devem ser esclarecidos. Em geral, a pontuação do avaliador-chefe é
a que conta.
Um teste de linguagem poderia incluir um ou mais itens cuja resposta
requeira uma redação. Em geral, as redações são pontuadas duas vezes.
O segundo avaliador pontua a redação sem saber a pontuação dada pelo
primeiro. As duas pontuações são então comparadas. Em geral, aceita-se
a diferença de um ponto e tira-se a média das duas pontuações. Dife-
renças maiores entre as pontuações dos avaliadores exigem que, pelo
menos, uma delas seja alterada. Essa mudança pode basear-se numa dis-
cussão entre os dois avaliadores. Se não puderem chegar a um acordo, a
questão deve ser levada ao avaliador-chefe para decisão.
A pontuação manual requer uma intensa concentração. Os avalia-
dores não devem trabalhar durante muito tempo num mesmo dia ou
durante muito tempo sem fazer um intervalo. Em geral, um período
de trabalho entre seis horas e seis horas e meia por dia é considerado a
jornada máxima. Um dia de trabalho pode consistir em uma sessão de
106 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

três horas pela manhã, com um breve intervalo, e uma sessão de três
horas à tarde, com um breve intervalo. As pessoas que trabalham mais
lentamente podem necessitar de uma meia hora extra para completar o
número esperado de testes por dia. Deve-se exigir dos avaliadores que
completem uma folha de presença diária.
PA R T E

II CONSTRUÇÃO DE
QUESTIONÁRIOS
CAPÍTULO

8 DESENHO DE
QUESTIONÁRIOS

U
m questionário é um conjunto de itens de-
senhados para obter informações sobre uma
pessoa. O tipo de informação pode variar
amplamente e incluir dados sobre características pessoais; qualificações
e práticas de trabalho; condições de trabalho e recursos; ou fatores so-
cioeconômicos e contextuais de uma pessoa, bem como suas atitudes,
crenças ou opiniões a respeito de certas questões.
Uma avaliação nacional busca obter uma estimativa confiável do apro-
veitamento dos alunos (medido num teste especialmente concebido para
isso) e informações (obtidas com um questionário) sobre variáveis-chave
associadas a diferenças no aproveitamento. Os testes coletam informação
sobre o desempenho dos alunos, e os questionários – quando usados junto
com os testes – coletam dados sobre variáveis que poderiam estar associa-
das a diferenças nos níveis de desempenho dos alunos ou ajudar a explicá-
-las. Por exemplo, os dados do questionário podem sugerir que escolas
que não têm bibliotecas estão associadas ao baixo desempenho dos alunos
ou que escolas em que os professores participam regularmente de progra-
mas de desenvolvimento profissional estão associadas ao alto desempenho
dos alunos. Esses dados sugerem formas úteis de redirecionar os recursos
educacionais para aprimorar o aprendizado dos alunos.
110 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Um bom questionário coleta dados sobre variáveis para as quais os


formuladores de políticas desejam ter informações acuradas, variáveis
sobre as quais têm a possibilidade de atuar e que pretendem influenciar,
bem como variáveis que, segundo as evidências de pesquisas, podem
afetar o aproveitamento dos alunos.
Um erro comum que se comete durante o desenho de questioná-
rios é coletar um excesso de informações. Em geral, os formuladores
de políticas estão interessados apenas em informações sobre algumas
variáveis-chave. Além disso, mesmo quando possam existir boas ra-
zões científicas para se coletarem certos tipos de dados, considerações
sobre as consequências políticas e sociais de se coletar o dado pode-
riam indicar que uma avaliação nacional não é o mecanismo mais
adequado para fazê-lo.
Com frequência, as informações podem ser coletadas de outras fon-
tes, sem necessidade de usar questionários, em países que mantêm regis-
tros acurados e confiáveis de características das escolas, dos professores e
dos alunos. Vale a pena descobrir se os registros governamentais são uma
fonte útil de informação, porque o acesso a esses registros pode ser mais
barato e mais fácil que a aplicação de questionários.
O desenho do questionário deve descrever claramente os tipos de
dados que serão coletados, como serão analisados e apresentados e como
as constatações poderiam contribuir para melhorar a educação. Os prin-
cipais passos no desenho de um questionário são os seguintes:

yDecidir qual o objetivo de um questionário e como os dados serão


usados.
yDesenvolver uma tabela de especificações que especifique os respon-
dentes, as áreas principais, os tipos de itens, os protocolos de codifi-
cação ou pontuação e o protocolo de aplicação (a ser completado por
um entrevistador ou autoaplicado).
yEscrever os itens, usando grupos (ou painéis) de indivíduos expe-
rientes para rever e refinar os itens, e diagramar o formulário de
modo que os respondentes possam usá-lo sem dificuldade, e que as
pessoas que farão a entrada dos dados possam processar os dados
com eficiência.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 111

yEspecificar um plano de análise de dados para processar a informa-


ção coletada e criar variáveis e indicadores para a análise estatística
subsequente.
yFazer o pré-teste dos questionários para estabelecer a adequação de
itens e de categorias de respostas.
yAnalisar os dados do pré-teste do questionário, refinar os questioná-
rios e produzir os questionários finais para aplicação.

A Tabela 8.1 oferece detalhes sobre os passos para o desenvolvimento


de um questionário e sobre as pessoas envolvidas.
Os questionários e as instruções para sua aplicação devem ser pre-
parados e pré-testados simultaneamente aos testes. Assim, as tabelas
de especificações dos questionários devem ser desenvolvidas ao mesmo
tempo em que as tabelas de especificações do teste e os questionários
devem ser escritos e submetidos a um painel, e os itens do teste estão
sendo escritos e submetidos a um painel.

CONTEÚDO DO QUESTIONÁRIO

Um questionário deve colher informações sobre variáveis-chave que po-


deriam ajudar a explicar diferenças no desempenho de alunos num teste
de aproveitamento. No entanto, há um número infindável de variáveis
interligadas que podem afetar o desempenho dos alunos. Um questioná-
rio pode focalizar apenas algumas delas.
Os formuladores de políticas em geral querem informações sobre
variáveis associadas a importantes questões da educação em seu país,
como idioma de instrução, disparidades na distribuição de recursos edu-
cacionais ou atitudes relativas à educação de meninas. Possivelmente,
os formuladores de políticas não saberão quais variáveis investigar. Eles
podem fornecer uma longa lista de variáveis obtidas de sua experiência
pessoal e de observações ou que considerem que “teriam” de estar num
questionário. Essa lista precisa ser reduzida a alguns tópicos bem foca-
lizados que tenham possibilidade de ser úteis para modelar o conteúdo
do questionário.
TABELA 8.1
Componentes do Desenvolvimento de Questionário

Componente Descrição Pessoas envolvidas


1. Objetivo Esclarecer o objetivo e o uso potencial dos dados do Formuladores de políticas, principais interessados e gerente
questionário. de desenvolvimento de testes.
2. Tabela de Desenhar a tabela de especificações do questionário para Gerente de desenvolvimento de testes, especialistas
especificações especificar respondentes, áreas principais, tipos de itens, nas disciplinas, analista de dados, elaboradores de itens
codificação e protocolo de aplicação. experientes, professores experientes, formuladores de
políticas e principais interessados.
3. Itens Anotar os itens do questionário. Gerente de desenvolvimento de teste e elaboradores de itens.
Aumentar a clareza e a utilidade em painéis de questionário. Gerente de desenvolvimento de testes e elaboradores de itens.
Revisar os questionários. Gerente de desenvolvimento de testes, formuladores de
políticas e principais interessados.
4. Plano de análise Especificar o plano para processar informação, para criar variáveis Analista de dados e gerente de desenvolvimento de
dos dados e indicadores para medição, e para tipos de análise. testes.
5. Pré-teste Desenhar, produzir e revisar questionários para pré-teste. Gerente de desenvolvimento de testes, elaboradores de itens,
profissionais de design e diagramação e revisores.
Escrever instruções para pré-teste de questionários e treinar Gerente de elaboração de testes e elaboradores de itens.
aplicadores.
Fazer o pré-teste dos questionários, ao mesmo tempo em Gerente de elaboração de testes, gerente de logística e
que os testes estão passando por um pré-teste. aplicadores de teste.
6. Questionário Analisar dados do pré-teste do questionário. Gerente de desenvolvimento de testes e analista de dados.
final
Refinar questionário e instruções de aplicação com base nos dados Gerente de elaboração de testes, elaboradores de itens e
do pré-teste e nos retornos dos aplicadores do pré-teste. analista de dados.
Produzir o formulário final do questionário. Gerente de desenvolvimento de testes, elaboradores de itens,
profissionais de design e diagramação e revisores.
Fonte: Criação dos autores.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 113

Os formuladores de políticas podem não saber que o processo de


analisar e relatar dados do questionário é dispendioso e requer conhe-
cimentos técnicos. Como os recursos são invariavelmente limitados, os
questionários precisam ser concisos e altamente relevantes. Os dados
coletados também têm de ser tecnicamente aceitáveis, caso se pretenda
que sejam usados para explicar o desempenho dos alunos. Os modelos
usados por outras avaliações nacionais podem fornecer uma orientação
aproximada. No entanto, cada país tem as próprias necessidades, que
devem determinar o que é apropriado para o questionário.
O gerente de desenvolvimento de testes ou a pessoa responsável pela
produção do questionário talvez precise fornecer aos formuladores de
políticas alguma orientação a respeito de variáveis-chave que tenham
a probabilidade de produzir informações úteis. Para fazer isso, talvez
precisem apresentar aos formuladores de políticas alguns exemplos re-
levantes para ajudá-los a considerar como poderiam usar as informações
coletadas. Essas informações ajudarão a refinar um pouco mais a lista de
variáveis que serão levadas em conta.
Como os questionários serão desenhados para tratar de tópicos que os
respondentes provavelmente conhecem, os tópicos variarão para alunos,
pais, professores e diretores. As seções seguintes sugerem tópicos ade-
quados para os questionários de cada um desses grupos.

Questionários dos Alunos

Os questionários dos alunos podem coletar as seguintes informações:

yGênero, idade e idioma (em geral, esses dados são coletados na pági-
na de rosto do caderno de prova).
yAntecedentes educacionais, como anos de escolaridade e períodos
fora da escola.
yOportunidades de frequentar uma escola.
yExpectativas de sucesso e atitudes pessoais ou familiares sobre os va-
lores da escola.
yPercepções sobre o ambiente da sala de aula, como sentimento de
segurança, camaradagem de outros alunos ou apoio dos professores.
114 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Questionários dos Pais

Os questionários dos pais podem coletar as seguintes informações:

yNacionalidade, gênero e idioma.


yAmbiente em casa, como acesso a livros, escrivaninhas e iluminação.
yAntecedentes da família, como educação dos pais e idioma falado
em casa.
yAtitudes relativas à educação, como compromisso de mandar os fi-
lhos para a escola, percepções sobre o valor e relevância da educação
ou percepções sobre a qualidade da educação.
yAtenção aos deveres de casa e recursos disponíveis em casa para o
estudo dos filhos.
yDisponibilidade de educação a um custo possível e acessibilidade da
educação para os filhos.
yExpectativas do aproveitamento escolar dos filhos.
yEnvolvimento com a escola, como participação na sala de aula ou em
comitês.
yNatureza dos boletins escolares sobre o progresso dos filhos e seu
valor.
yApoio financeiro à escola na forma de pagamentos de livros didáticos
e taxas..

Questionários dos Professores

Os questionários dos professores podem coletar as seguintes informações:

yGênero e idade.
yPrimeiro idioma.
yCondições de ensino, como tamanho da classe, acesso a recursos,
percentual de alunos que têm livros didáticos, acesso a professores
substitutos em casos de doença e assistência para lidar com alunos
desafiadores.
yExperiência educacional, qualificações como professor e número de
anos nesta escola.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 115

yCompromisso profissional com o aprendizado, como interesse pelo


desenvolvimento profissional e acesso a ele, interesse em ensinar e
tempo gasto para preparar as aulas.
yDisponibilidade de apoio instrucional, como visitas à sala de aula por
diretores, inspetores ou supervisores escolares.
yMetodologia de ensino, como idioma de instrução, uso de avaliação e
estilo de ensino adotado.
ySatisfação com as condições de trabalho, como carreira, remuneração
e nível de supervisão.
yRelacionamento com a comunidade escolar, como interações com os
pais, envolvimento em comitês escolares e participação em eventos
da comunidade local.
yDistância entre a casa do professor e a escola.

Questionários do Diretor da Escola

Os questionários para diretores podem coletar as seguintes informações:

yGênero e idade.
yExperiência educacional e gerencial, e qualificações.
yAmbiente da escola, como qualidade dos prédios e instalações, bem
como disponibilidade de recursos.
yRegistros da escola, como flutuações no número de alunos, taxa de
absenteísmo de alunos ou professores, e frequência com que os alu-
nos mudam de escola.
yCompromisso profissional com a liderança da escola, como interes-
se pelo desenvolvimento profissional e acesso a ele, e interesse pela
educação.
yEstilo de liderança e uso do tempo.
ySatisfação com as condições de trabalho, como carreira, remunera-
ção, e nível e frequência de supervisão.
yRelacionamento com a comunidade escolar, como interações com os
pais e participação em eventos da comunidade local.
116 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

TABELA DE ESPECIFICAÇÕES DO QUESTIONÁRIO

É necessária uma tabela de especificações para guiar o desenvolvimento


de um questionário. Ela descreve as questões de políticas mais impor-
tantes que fornecerão o foco do questionário; identifica os respondentes;
lista as variáveis-chave que serão abordadas; e especifica o formato dos
itens, os tipos de categorias de respostas e o protocolo de aplicação.
O Quadro 8.1 fornece um exemplo da tabela de especificações de
um questionário usado para coletar informações sobre valores e atitudes
dos alunos com relação à escola e à sua comunidade local. Recentes
reformas na educação e novas disciplinas curriculares estão sendo intro-
duzidas em escolas, enfatizando a necessidade de se ensinar aos alunos
a valorização de sua comunidade local e a aquisição de habilidades que
os ajudarão a contribuir, de forma construtiva, para a vida de sua co-
munidade como adultos. Os formuladores de políticas em Papua Nova
Guiné queriam colher informações sobre as expectativas dos alunos a
respeito da escola e suas percepções sobre a escola e a comunidade. O
questionário foi aplicado a todos os alunos que participaram de testes de
avaliação nacional.

ITENS DO QUESTIONÁRIO

Várias considerações devem ser feitas no processo de decidir sobre o


número de itens num questionário, incluindo quantidade de tempo dis-
ponível para responder às questões, recursos disponíveis para a análise
e complexidade da análise requerida. Um questionário curto e limitado
que seja analisado adequadamente e forneça informações úteis é preferí-
vel a um longo e abrangente que nunca seja totalmente processado.
O número de itens necessários para medir uma variável específica
depende da natureza da variável. Algumas variáveis, como gênero ou
idade, podem ser medidas diretamente. Outras, como situação socioe-
conômica, tendem a ser construídas a partir de vários itens, como nível
de educação dos pais, situação de trabalho, localização do domicílio e
posse de bens.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 117

QU A D R O 8 . 1

Atitudes e Valores da Tabela de Especificações do Questionário


Parte I
Atitudes Crenças sobre a Percepções
com relação vida em Papua da comunidade
Áreas à escola Nova Guiné local
Número de questões 10 15 15
Respondentes 3a série 5a série 5a série
5a série 8a série 8a série
8a série
Categorias de Sim ou Não Sim ou Não Sim ou Não
respostas

Parte II
Atitudes com Crenças sobre a vida em Percepções da
relação à escola Papua Nova Guiné comunidade local
Crenças sobre Atitudes com relação à Nível de cooperação
aproveitamento pessoal, educação: ensino no percebido na comuni-
duração pretendida da idioma local, educação dade local: apoio à esco-
escolarização e planos compulsória, papel da la, envolvimento local em
pessoais para o futuro escola, educação de meni- eventos da comunidade
nas e papéis das mulheres e partilha de recursos
Percepções de ajuda Atitudes com relação à Atitude percebida da
recebida de professores, comunidade: intenção comunidade local com
camaradagem dos alunos, pessoal de permanecer relação a meninas e
intimidação e disposição na comunidade local ou mulheres
para fazer amizade com razões para sair
pessoas de fora da
comunidade

Parte III
Crenças sobre a vida Percepções da
Valores em Papua Nova Guiné comunidade local
Valores sobre resolução de Atitudes com relação a Nível percebido de
conflitos conflitos e solução de emprego construtivo na
disputas comunidade local e uso
de meios pacíficos para
resolver problemas
Valores sobre hábitos de Atitudes com relação a Percepções de
higiene pessoal álcool e drogas problemas causados
pelo uso de drogas e
álcool na comunidade
local
Fonte: Papua Nova Guiné, Departamento de Educação 2004.
118 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Uma variável direta é o dado derivado de uma medida direta. Uma


variável agregada combina dados de dois ou mais itens para representar
um conceito.
Em geral, os formuladores de políticas têm mais facilidade para in-
terpretar os resultados de análises baseadas em variáveis diretas, e não
em variáveis agregadas. As decisões sobre se é necessário dispor de uma
variável direta ou de uma variável agregada para apoiar um conceito
devem basear-se em boas práticas de pesquisa e nas condições do país.
Tanto pesquisas nacionais quanto internacionais têm usado variáveis
agregadas. Em um estudo internacional, por exemplo, as variáveis “lei-
tura com um objetivo utilitário” e “leitura por prazer” se basearam em
variáveis agregadas (veja Tabela 8.2).

TABELA 8.2
Funções da Leitura num Estudo Internacional: Pesos Usados para Criar Duas Novas
Variáveis , “Leitura com um Objetivo Utilitário” e “Leitura por Prazer”

Pesos
Item (abreviado) Objetivo utilitário Prazer
Ajuda-me na escola. 0,75
Ajuda-me a passar nas provas. 0,74
Ajuda-me com temas futuros na escola. 0,73
Ajuda-me a trabalhar melhor. 0,65
Posso passar para a faculdade. 0,65
Ajuda-me a conseguir um bom emprego. 0,63
Meus pais acham que é importante. 0,58
É prazeroso. 0,76
É empolgante. 0,72
É interessante. 0,71
É como entrar em outro mundo. 0,68
É bom pensar sobre coisas que leio. 0,54
É divertido pensar que sou um personagem 0,53
numa história.
É bom ficar sozinho. 0,53
Ajuda-me a relaxar. 0,50
Fonte: Dados extraídos de Greaney e Neuman, 1990 (Tabela 8, registros inferiores a 0,20 foram ex-
cluídos).
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 119

As questões específicas de um país são relevantes para se deci-


direm quantos itens serão necessários para medir uma variável. Por
exemplo, num país em que os professores têm formação bastante
uniforme, e todos têm pelo menos dois ou três anos de educação su-
perior em instituições reconhecidas, uma única variável direta pode
ser suficiente para medir os anos de educação terciária. No entanto,
num país em que as condições dos professores variam muito, a quali-
dade das instituições de ensino é desigual e muitos professores podem
ter recebido apenas um treinamento prático no trabalho, pode haver
necessidade de agregar diversas variáveis diretas para representar um
conceito “educação dos professores” que reflita adequadamente a si-
tuação. Do mesmo modo, num país rico, os recursos educacionais
em casa podem ser medidos por uma única variável direta relativa ao
acesso à internet, mas, num país pobre, os recursos educacionais em
casa podem ser mais bem representados por um agregado de variáveis
diretas que incluam acesso a uma escrivaninha, uma cadeira, uma
lâmpada, lápis, papel e livros didáticos.
As decisões sobre o uso de uma única variável direta ou de uma va-
riável agregada para obter uma medida também dependem das crenças
sobre a significância das possíveis variáveis diretas. Por exemplo, para
medir a experiência de ensino, se sua qualidade varia amplamente em
função de onde os professores estejam empregados e se existe a crença
de que o local do emprego anterior do professor também poderia afetar
o desempenho dos alunos; então, deve-se coletar a informação de onde
o professor tem trabalhado e o tempo que passou em cada emprego. Se
existe uma crença de que o número de anos de experiência de ensino
poderia afetar o desempenho dos alunos, independentemente de onde
os professores adquiriram sua experiência, então é provável que uma
única variável direta seja suficiente.

FORMATO DO ITEM

Itens de escolha obrigatória são processados com muito mais facilidade,


rapidez e economia que itens abertos. Como os itens de escolha obri-
120 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

gatória fornecem um número limitado de categorias entre as quais sele-


cionar uma resposta, o processamento dos dados é simplesmente uma
questão de entrar com a seleção do respondente num computador. As
respostas às questões abertas, em contraste, têm de ser processadas ma-
nualmente antes de se entrar no computador.
Em geral, os dados de questionários são resumidos para apresentação.
Por exemplo, respostas à questão de quanto tempo os alunos gastam
para chegar à escola todo dia podem ser categorizadas em alguns poucos
grandes blocos, como menos de uma hora, entre uma e duas horas, e
mais de duas horas. Numa versão aberta desse item, alguns alunos infor-
marão o tempo em minutos e outros em horas; outros podem escrever
“muito tempo” e outros ainda podem dar uma resposta ilegível. A faixa
de respostas será grande, e a classificação das respostas necessariamente
envolverá um elemento de subjetividade, dificultando, inclusive, a deci-
são de como classificar a resposta “muito tempo”.
Itens de escolha obrigatória são preferíveis quando se pode fazer uma
boa estimativa da provável gama de respostas que a maior parte dos res-
pondentes dará. No entanto, se houver algum grau de incerteza, então
podem ser usadas categorias com distinções mais refinadas do que as
requeridas para a elaboração de relatórios. Depois da entrada dos dados
num computador, podem ser tomadas decisões sobre quais categorias
dão pouca informação e quais podem ser combinadas ou abandonadas
(por exemplo, se nenhum aluno as selecionou).
O uso de itens abertos pode ser factível se o questionário estiver sen-
do aplicado a uma pequena amostra e se existirem recursos disponíveis
para classificar as respostas manualmente. Itens de pré-teste que permi-
tam respostas abertas às vezes são úteis para obter informação destinada
a gerar categorias para uma versão com escolha obrigatória que integrará
o formulário final do teste.

IDIOMA DO QUESTIONÁRIO

O idioma usado num questionário deve ser um idioma no qual os res-


pondentes tenham a maior probabilidade de conseguir ler e escrever
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 121

fluentemente. No entanto, a escolha do idioma precisa ser balanceada


com as economias de escala. Em geral, os questionários são aplicados no
mesmo idioma do material do teste.

RESPONDENTES

Considerando-se que sempre se coletam informações sobre a situação


socioeconômica dos alunos e sobre seus fatores contextuais na página
de rosto dos cadernos de prova, a seleção dos respondentes do ques-
tionário depende do que os formuladores de políticas queiram saber
e da factibilidade de se obter essa informação de maneira confiável e
eficiente.
Estes são alguns problemas que podem estar associados aos respon-
dentes:

yOs alunos podem ser muito jovens para preencher um questionário


de forma confiável e exata.
yA falta de recursos pode limitar a aplicação dos questionários a um
pequeno grupo, como professores ou encarregados de turma, e não a
milhares de alunos.
yMuitos pais podem ser analfabetos ou não retornar os questionários.
yOs professores e os encarregados de turma podem não estar motiva-
dos para preencher um longo questionário, ou achar muito ameaça-
dor responder às questões honestamente.

Qualquer que seja a decisão sobre os respondentes, a amostra se-


lecionada para um questionário deve ser representativa da população.
Se o questionário estiver sendo aplicado a alunos, a amostra que foi
extraída para o teste deve ser a mesma que responderá ao questionário.
Devem ser consultados especialistas em amostragem sobre os tamanhos
de amostra requeridos para a aplicação a professores, encarregados de
turma e pais.
122 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

APLICAÇÃO DO QUESTIONÁRIO

Com frequência, os questionários são respondidos por escrito ou aplica-


dos numa entrevista. A entrevista requer a presença de um entrevistador
treinado para fazer as perguntas e anotar as respostas dos entrevistados
(talvez aplicando códigos fornecidos no formulário do questionário).
Em avaliações de grande porte, a maior parte dos questionários é
escrita e aplicada em grupos para minimizar os custos. Os questioná-
rios devem conter instruções sobre como as questões devem ser res-
pondidas. As instruções poderiam incluir as razões da coleta daquelas
informações.
A coleta dos dados dos questionários pode ser feita sob a supervisão
de uma pessoa que recolherá os formulários depois de completados pe-
los respondentes.

PLANO DE ANÁLISE DE DADOS

Um plano de análise de dados especifica o tipo de informação que será


fornecida em cada item do questionário e como essa informação será usa-
da na análise. A assistência de um estatístico durante a fase de desenho
do plano aumentará a confiança de que os dados podem ser analisados
significativamente e de que as constatações serão rigorosas e defensáveis
(veja o Volume 4 desta série).
O plano deve mostrar o seguinte:

yAs características de mensuração das variáveis. A forma como os


dados do questionário podem ser analisados depende das caracte-
rísticas de mensuração das variáveis. Números agregados a variáveis
nominais ou categóricas (por exemplo, gênero) são, de fato, apenas
rótulos e só podem ser usados para distinguir entre grupos. Nú-
meros agregados a escalas ordinais (por exemplo, para representar
respostas a um questionário indicando o grau de concordância com
uma afirmação) fornecem informações sobre valores relativos, em-
bora frequentemente sejam tratados em análises estatísticas como
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 123

se possuíssem as propriedades de intervalos (por exemplo, tempe-


ratura) ou de escalas de razão (por exemplo, número de anos de
experiência como professor).
yComo os dados de diversas variáveis serão agregados para produzir
uma nova variável e como a nova variável será usada. Por exemplo,
um índice de pobreza poderia ser construído com diversas variáveis,
como renda familiar, localização do domicílio, número de cômodos
da casa, posse de bens, número de filhos e nível de educação dos
pais. No desenho do plano, deve-se considerar como as variáveis se-
rão agregadas para representar pobreza.
CAPÍTULO

9 ELABORAÇÃO DE ITENS
DE QUESTIONÁRIOS

A
partir da forma como um item é construído,
deve estar claro qual é a informação reque-
rida. Além disso, os respondentes devem ser
capazes de fornecer essa informação. Assim, não se pediria a alunos das
primeiras séries para lembrar quantos dias faltaram às aulas durante o
ano escolar, porque provavelmente não seriam capazes de dar uma res-
posta confiável. Na melhor das hipóteses, poderiam se lembrar de quan-
tos dias faltaram na semana anterior.
O fraseado dos itens deve ser o mais simples e claro possível. O vo-
cabulário deve ser familiar, e as sentenças devem ser curtas e diretas. A
menos que seja aplicado oralmente, todos os respondentes devem ser
capazes de ler o questionário. Também é importante que todos inter-
pretem os itens do questionário do mesmo modo. Caso contrário, será
difícil interpretar os resultados de maneira significativa.
A primeira parte do item de um questionário pode ser uma questão,
uma sentença incompleta ou uma afirmação que os respondentes devem
avaliar.
Os respondentes devem ser abordados num estilo consistente. Uma
das duas formas pode ser usada:
126 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

yReferindo-se a “você”, por exemplo, “Quantos anos você tem?”


yReferindo-se a “Eu”, por exemplo, “Eu venho para a escola …”

QUESTÕES

As questões devem ser claras e sem ambiguidade. A seguinte questão é


ambígua: Há quanto tempo você é professor?
Essa questão confunde o tempo transcorrido desde o treinamento e
o tempo dedicado a ensinar. Qualquer pessoa que tenha parado de le-
cionar por algum tempo e retornado, como no caso de mulheres que fi-
caram algum tempo cuidando de suas famílias, terá dúvidas sobre como
responder à questão. Não é claro se essa questão é uma medida da expe-
riência do professor ou do tempo transcorrido desde o seu treinamento.
Existem pelo menos duas questões aqui:

Quando você completou seu treinamento como professor?


Quantos anos de experiência de ensino você tem?

A segunda questão ainda é problemática porque não está claro como


poderiam ser medidos os anos de experiência de ensino. Por exemplo, cinco
anos de experiência lecionando em tempo parcial, uma vez por semana,
devem ser contados como cinco anos ou como o equivalente a um ano? Se
quase todos os postos de ensino no país forem de horário integral, então a
ambiguidade é improvável, mas, se muitos forem de tempo parcial, a situa-
ção se complica. A questão poderia ser apresentada assim:

Quantos anos de experiência de ensino em tempo integral (ou o equiva-


lente a tempo integral) você tem?

Pode ser necessário definir o que se quer dizer com “equivalente”.

AFIRMAÇÕES

Itens que começam com uma afirmação em geral requerem que os res-
pondentes façam algum tipo de avaliação da afirmação, como “concordo
fortemente”, “concordo”, “discordo” ou “discordo fortemente”.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 127

Afirmações na forma negativa, como “Eu não gosto de escola”, devem


ser evitadas, porque podem ser confusas. Se solicitados a responder se
concordam ou discordam, os alunos que gostam de escola devem sele-
cionar uma categoria “discordo”. Em geral, as crianças menores conside-
ram difícil lidar com negativas duplas.
Mantenha as afirmações tão neutras quanto possível. Uma afirmação
que diz “Eu gosto de escola” é melhor que outra que diz “Eu adoro es-
cola”. Os alunos podem expressar seu amor pela escola selecionando a
resposta “concordo fortemente”.
As afirmações devem se centrar numa questão. Assim, afirmações
como “Eu dou duro e me saio bem em meus deveres de casa” devem
ser evitadas. Os alunos que se saem bem na escola, mas não dão
duro, ficarão sem saber qual resposta selecionar. Os alunos que dão
duro podem concordar fortemente com essa afirmação, embora não
se saiam bem em seus deveres de casa. A afirmação ficaria melhor se
dividida em duas: “Eu dou duro na escola”; “Eu me saio bem nos
meus deveres de casa”.

CATEGORIAS DE RESPOSTAS

Boas categorias de respostas têm o mesmo significado para todos os res-


pondentes.
As seguintes categorias de respostas têm a probabilidade de apresen-
tar diferentes significados para diferentes pessoas:

Quantos livros estão na biblioteca da sala de aula?


A. nenhum
B. poucos
C. alguns
D. muitos

As categorias de respostas para o item devem ser quantificadas de


forma que o significado seja claro:
128 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Quantos livros estão na biblioteca da sala de aula?


A. não há biblioteca
B. 1 a 10
C. 11 a 20
D. mais de 20

Às vezes, as categorias de respostas podem ter significado diferente


para diferentes respondentes, mas essa diferença é parte da informação
buscada, conforme mostra o seguinte item:

Quão boa é a biblioteca de sua escola?


A. não há biblioteca
B. ruim
C. adequada
D. boa
E. excelente

Se o item é sobre o nível de satisfação do respondente com a biblio-


teca da escola, independentemente de qualquer medida objetiva de sua
qualidade, então é um bom item. Se o item estiver combinado com itens
que quantifiquem – por exemplo, aproximadamente quantas estantes
de livros ou computadores existem na biblioteca –, então a percepção
do respondente pode ser comparada com medidas mais objetivas sobre
as instalações da biblioteca.
As categorias de respostas precisam levar em conta o nível de exati-
dão das respostas que os respondentes têm a probabilidade de conseguir
dar. É improvável que os respondentes saibam, com alguma precisão, o
número de livros numa biblioteca, a menos que seja um número muito
pequeno.
As categorias de respostas precisam cobrir todas as respostas possíveis.
Se houver algumas categorias importantes e várias outras secundárias, é
melhor listar as mais importantes e incluir a opção “outras”. O pré-teste
ajuda a identificar as principais categorias.
As categorias de respostas não devem se superpor nem deixar hiatos.
Ambos os erros são mostrados na seguinte questão:
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 129

Há quanto tempo você leciona nesta escola?


A. menos de 5 anos
B. menos de 10 anos
C. mais de 10 anos

Os professores com menos de 5 anos de experiência de ensino não


saberão se devem selecionar a primeira ou a segunda opção. Professores
com 10 anos de experiência não têm opção que lhes sirva.
Os itens do questionário que começam com uma afirmação que os
respondentes deverão avaliar podem ter muitas categorias diferentes de
respostas. É importante que as categorias não se superponham. Alguns
exemplos de categorias de respostas que têm sido usadas no questioná-
rio do professor pelo TIMMS (Tendências Internacionais no Estudo de
Matemática e Ciências) são:

ySim, não
yConcordo fortemente, concordo, discordo, discordo fortemente
yQuase todos os dias, uma ou duas vezes por semana, uma ou duas
vezes por mês, nunca ou quase nunca
yDe jeito nenhum, um pouco, bastante, muito
yNão tem importância, um pouco importante, muito importante.

LIDANDO COM QUESTÕES DELICADAS

Algumas questões são delicadas, como perguntar se os professores têm


um segundo emprego para complementar seu salário. Se a maior parte
dos respondentes provavelmente não responderá à questão honestamen-
te, ela deve ser deixada de lado. Os formuladores de políticas podem
estar muito interessados nessa informação, mas não faz sentido coletar
dados não confiáveis. Às vezes, podem ser coletadas informações rela-
cionadas que não sejam tão delicadas.
Incluir perguntas sobre questões delicadas pode ofender aos respon-
dentes, que se recusarão a responder ao restante dos itens ou devolverão
o questionário. Se existe preocupação quanto à sensibilidade a alguma
questão, o melhor é não incluí-la no questionário.
130 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

DIAGRAMAÇÃO DO QUESTIONÁRIO

Existem duas considerações fundamentais quanto à diagramação e ao


desenho de questionários: (a) facilidade de uso para o respondente e (b)
facilidade de uso para o processamento dos dados. É fácil usar os ques-
tionários quando eles têm as seguintes características:

yUm modo simples e consistente de responder às questões.


yUma apresentação limpa e clara.
yQuestões separadas e facilmente identificáveis.
yCategorias de respostas claramente associadas a cada questão.
yTítulos, fontes e diagramação consistentes.
yCategorias de respostas codificadas para a entrada de dados.

As categorias de respostas podem ser apresentadas de muitas ma-


neiras. Podem estar numa coluna vertical ou numa linha horizontal.
Os respondentes podem fazer um círculo em torno de uma letra ou de
um número, ou marcar uma caixa para indicar sua seleção. É preferível
manter a consistência no estilo de resposta.
O Quadro 9.1 apresenta o exemplo de um item no qual as respos-
tas não estão claramente identificadas com as categorias de respostas.
O Quadro 9.2 mostra melhor alinhamento.

QU A D R O 9 . 1

Alinhamento Ruim de Caixas e Categorias de Respostas

O seguinte exemplo mostra um alinhamento ruim de caixas e categorias de respostas:

Quanto tempo você leva para chegar à escola na maior parte dos dias?

Menos de 15 minutos 15 minutos 30 minutos 45 minutos

1 hora mais de 1 hora

As caixas estão situadas entre as categorias de respostas, em vez de estarem clara-


mente alinhadas com apenas uma categoria.

Fonte: Autores.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 131

QU A D R O 9 . 2

Melhor Alinhamento de Caixas e Categorias de Respostas

O seguinte exemplo mostra um bom alinhamento de caixas e categorias de respostas:

Com que frequência as seguintes pessoas de sua família o ajudam em seu dever de casa?

Nunca Algumas Cerca de Várias Várias


ou quase vezes por uma vez vezes vezes por
nunca ano por mês por mês semana
a) Sua mãe
b) Seu pai
c) Seus irmãos e irmãs
d) Um de seus avós

Fonte: Autores.

REVISÃO DOS QUESTIONÁRIOS

A elaboração de questionários é muito mais difícil do que parece. Todos


os itens têm de ser cuidadosamente examinados e revistos para garan-
tir que sejam claros e não contenham ambiguidade. Recomenda-se que
um painel faça a revisão do questionário. Os membros do painel devem
incluir elaboradores de itens, alguém que tenha familiaridade com as
características da população respondente e alguém capaz de garantir que
os itens sejam culturalmente adequados. Hoje em dia, algumas avalia-
ções nacionais e internacionais checam como os respondentes interpre-
tam os itens antes da aplicação principal do questionário.
Será útil que os membros do painel tentem completar o questioná-
rio como se fossem os respondentes. Esse processo ajudará a identificar
onde as categorias de respostas poderiam estar pouco claras, superpostas
ou deixando de incluir alguns tipos de resposta.
Os membros do painel devem criticar os itens, especialmente para
deixar claros o fraseado e a adequação das categorias de respostas. De-
vem se certificar de que o fraseado é tão simples e claro quanto possível,
que o estilo de itens é consistente e que os itens estão apresentados
numa ordem lógica, com instruções adequadas.
132 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Os membros do painel devem conferir se os itens correspondem à


tabela de especificações do questionário e certificar-se de que cada item
fornece a informação requerida.
Também precisam checar se o número de itens usados é adequado
para medir cada variável com um nível suficiente de exatidão.
Depois que o questionário tiver sido aprimorado, os formuladores de
políticas devem ter a oportunidade de revê-lo. Os formuladores de polí-
ticas precisam aprovar os itens, especialmente se tocam questões politi-
camente delicadas. Os formuladores de políticas também devem checar
se os itens fornecerão informações úteis.
Depois de aprimorados, os questionários devem passar por um pré-
-teste, junto com os materiais do teste. O pré-teste fornece a oportu-
nidade de melhorar a qualidade dos itens e reduzir o tempo e o custo
de processamento dos dados do questionário final. Os itens que não
funcionarem (por exemplo, aqueles em que os respondentes ficam con-
fusos) podem ser abandonados, e as categorias de resposta podem ser
expandidas ou reduzidas.
Depois da aplicação do questionário, o aplicador deve ouvir a opinião
dos respondentes (alunos ou professores) a respeito dos itens que não
estão claros ou que não contêm informação adequada. Os aplicadores
devem se certificar de que nenhum item seja considerado ofensivo por
tocar em questões delicadas.
Uma análise estatística mais formal das respostas pode indicar que as ca-
tegorias de respostas precisam ser mais sutilmente diferenciadas. Por exem-
plo, se a maior parte dos alunos selecionar determinada categoria de respos-
ta para um item, a categoria deve ser dividida em categorias mais sutilmente
diferenciadas, para que se possa obter informação mais exata.
Se a faixa de possíveis respostas a um item for potencialmente muito
ampla e difícil de prever, o item deve ser deixado em aberto no pré-
-teste. Então, as respostas obtidas poderão ser classificadas e usadas para
gerar categorias para um item de escolha forçada no questionário final.
Em http://go.worldbank.org/M2O1YDQO90, você encontra exemplos
de avaliações nacionais e internacionais de questionários para alunos,
professores, encarregados de turma e pais. Também inclui exemplos de
guias de pontuação para respostas abertas.
CAPÍTULO

10 CODIFICAÇÃO DAS
RESPOSTAS DOS
QUESTIONÁRIOS

A
ntes de dar entrada no computador, as cate-
gorias de respostas têm de ser codificadas. A
codificação pode ser alfabética ou numérica.
Os códigos alfabéticos em geral requerem que os respondentes façam
um círculo em torno de uma letra para dar sua resposta. Esse método
pode não ser adequado para alunos mais jovens. Marcar uma caixa ou
sombrear círculos pode ser uma tarefa mais fácil para pessoas com habi-
lidades de letramento limitadas. Se os itens usarem esse tipo de diagra-
mação, deverão ser codificados numericamente.
Se for usada a codificação numérica, a primeira categoria de respos-
ta recebe, em geral, o código 1, a segunda recebe o código 2, e assim
por diante. A entrada de dados é mais eficiente se os códigos estiverem
impressos no questionário. Pode-se usar uma fonte pequena em escala
cinza, conforme se vê no Quadro 10.1. No exemplo, as categorias de
resposta estão numeradas sob as caixas: andando é a categoria 1, trans-
porte público é a categoria 2, e assim por diante. O aluno marca a caixa
que se aplica ao seu caso. A pessoa que faz a entrada de dados dá entrada
no número da caixa que o aluno selecionou.
Se os respondentes tiverem a oportunidade de selecionar mais de uma
categoria de resposta para um item, cada categoria deve ser tratada como
134 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

um item separado para efeito de entrada e processamento dos dados. Esse


procedimento possibilita rastrear quais são as categorias selecionadas por
cada respondente. O item no Quadro 10.2 é apresentado ao respondente
como uma questão com múltiplas respostas possíveis; no entanto, é trata-
do como oito itens separados durante a entrada de dados.

QUADRO 10.1

Exemplo de Codificação em Escala Cinza


Hoje eu vim para a escola
Caminhando Usei transporte público Usei transporte privado Montando um animal
1 2 3 4

QUADRO 10.2

Exemplo de Tratamento de Itens como Categorias Separadas para a


Entrada de Dados
Se você não veio à escola na última semana, marque uma ou mais caixas para mostrar
o motivo.

Eu estava doente.


1
Tive de ajudar meus pais.
1
O tempo estava ruim.
1
Eu não tinha comida.
1
Minha família teve problemas.
1
Eu não tinha um uniforme limpo nem roupas adequadas para usar.
1
Não era seguro (problemas de conflitos e desordens).
1
Outro _______________________________________

Fonte: Autores.

As respostas à primeira categoria (ausente por doença) são registradas


como 1 ou em branco, respostas à segunda (ajudando os pais) são regis-
tradas como 1 ou em branco, respostas à terceira categoria (tempo ruim)
são registradas da mesma forma, e assim por diante, para cada uma das
oito categorias.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 135

PREPARAÇÃO DOS QUESTIONÁRIOS PARA A ENTRADA DE DADOS

Os dados do questionário podem ser escaneados com equipamento


especial ou registrados manualmente. O desenho e a diagramação do
questionário têm de ser customizados quando se usar um escâner.
Se a entrada de dados estiver sendo feita manualmente, as informa-
ções podem ser passadas diretamente do questionário se as categorias
de respostas tiverem sido codificadas. No entanto, as pessoas que fazem
a entrada de dados podem ter dificuldade de manter um alto nível de
exatidão, especialmente se não tiverem familiaridade com esse tipo de
trabalho. Também é provável que a exatidão seja comprometida se a
diagramação dos itens variar demais ou se alguns itens tiverem um gran-
de número de categorias de respostas.
A entrada de dados será facilitada se os pontuadores e avaliadores
escreverem o código para a categoria selecionada na margem esquerda,
perto do número de cada item. A entrada de dados, então, se torna
uma questão de apenas entrar os códigos escritos na margem. Quan-
do se acrescentam caixas levemente sombreadas na margem para os
pontuadores e avaliadores escreverem os códigos, o processo fica mais
eficiente.

CÓDIGOS EM BRANCO OU RESPOSTAS AMBÍGUAS

Às vezes, os respondentes não respondem aos itens ou dão respostas


ambíguas, como, por exemplo, selecionando mais de uma categoria de
resposta quando as categorias são mutuamente exclusivas.
A coleta de informação sobre respostas em branco indica se os res-
pondentes deixaram de responder de forma consistente a alguns itens.
Por exemplo, o questionário pode ser muito longo, de modo que os
últimos itens não são respondidos, ou um item pode estar muito pró-
ximo de outros itens e não ser percebido. A coleta de informação so-
bre respostas ambíguas também indicará se um item é pouco claro para
muitos respondentes ou se eles não compreendem como completar o
questionário.
136 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

A pessoa responsável pela entrada de dados precisa saber como codi-


ficar respostas em branco ou ambíguas. Os códigos usados para respostas
em branco ou ambíguas não devem ser confundidos com aqueles usados
para categorias de resposta.
Uma letra do alfabeto pode ser usada para denotar resposta em branco
ou nenhuma tentativa, como um X. O código para respostas ambíguas
poderia ser uma segunda letra, como Y. Os itens de múltipla escolha
num teste usam códigos 9 para em branco e 8 para a seleção de duas ou
mais opções. Em geral, esses códigos não são usados para questionários
porque alguns itens do questionário provavelmente terão oito ou nove
categorias de respostas.
CAPÍTULO

11 CORRESPONDÊNCIA
ENTRE QUESTIONÁRIOS
E DADOS DO TESTE

A
correspondência entre os dados do ques-
tionário e os do teste será orientada pelas
necessidades da análise e da apresentação
dos resultados. Todas as correspondências devem ser estabelecidas cla-
ramente e sem ambiguidades antes da coleta de dados. Poderá ser difícil
ou impossível corrigir qualquer erro de correspondência descoberto de-
pois que os dados tiverem sido coletados. Esses erros podem fazer com
que se tenha de abandonar algumas das análises planejadas.

QUESTIONÁRIOS DOS ALUNOS

O modo mais fácil de fazer a correspondência entre os questionários dos


alunos e os dados do teste é imprimir os testes e os questionários em um
único caderno. O aluno registra seu nome no caderno, e o aplicador do
teste certifica-se de que o aluno trabalhe no próprio caderno em cada
uma das sessões do teste.
Se os questionários do teste estiverem em documentos separados,
um método de fazer a correspondência dos dados é etiquetar tanto os
testes quanto os questionários com os nomes dos alunos. Os nomes são
138 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

retirados da lista da escola e devem ser idênticos nas duas etiquetas.


Mais uma vez, o aplicador do teste precisa certificar-se de que os alunos
trabalhem em testes e questionários que tragam seus nomes claramente
impressos.
Se não for possível etiquetar com antecedência os cadernos e questio-
nários separados, os questionários dos alunos precisam ter informações
de identificação suficientes para permitir sua correspondência com os
dados do teste. É preferível atribuir uma identidade numérica (ID) aos
alunos para garantir que usem o mesmo número de ID em cada caderno
e questionário. O aplicador de teste terá de supervisionar esse procedi-
mento. O analista de dados também deverá ter uma lista com os nomes
e os números de ID dos alunos, de modo que os nomes possam ser usa-
dos como um backup caso ocorram erros no ID.
Não é desejável confiar nos nomes dos alunos para fazer corres-
pondência com os formulários. A menos que os nomes sejam absolu-
tamente idênticos em cada formulário e sejam registrados, de forma
idêntica, pela pessoa que faz o processamento dos dados, sem qual-
quer erro de grafia, o computador não poderá fazer a correspondência
entre eles. Assim, a correspondência terá de ser feita manualmente,
um exercício que consome tempo e recursos. Alguns alunos tornarão
mais difícil a correspondência por nomes, pois usarão diferentes no-
mes (como nomes incompletos, nomes de família ou nomes religio-
sos) em diferentes formulários; escreverão de forma ilegível em um
ou mais formulários; ou deixarão de escrever seu nome em um ou
mais formulários.

QUESTIONÁRIOS DOS PAIS

Em geral, faz-se a correspondência entre os questionários dos pais e os


dados dos alunos. A correspondência provavelmente será feita a partir
dos nomes dos alunos. Podem ocorrer os mesmos problemas que se apli-
cam aos questionários dos alunos. Devem ser estabelecidos procedimen-
tos adequados para garantir a consistência.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 139

QUESTIONÁRIOS DO PROFESSOR E DO DIRETOR

Em geral, só se faz a correspondência dos questionários do professor e do


diretor com a série e a escola. Se a série dos alunos é conhecida, a infor-
mação sobre o professor pode ser usada na análise dos dados do aluno.
O aplicador de teste deve verificar se os professores e diretores fornece-
ram essa informação no questionário.
Quando forem devolvidos, os questionários de cada escola devem ser
guardados em pacotes separados. Assim, mesmo que a informação sobre a
escola não tenha sido fornecida em alguns questionários, é possível obter
informações relevantes de outros questionários no mesmo pacote.
PA R T E

III DESENHO DE UM
MANUAL PARA
APLICAÇÃO DO TESTE
CAPÍTULO

12 O MANUAL DO
APLICADOR DE TESTE

É necessário haver um manual para orientar a aplicação do teste, que


deve ser padronizado de modo que todos os alunos façam o teste sob as
mesmas condições. O principal objetivo do manual é especificar as con-
dições exatas em que o teste deve ser realizado, incluindo as exigências
e os procedimentos de preparação que assegurem a segurança do teste.
Os alunos que fazem o teste precisam receber as mesmas questões de
prática e as mesmas instruções sobre como apresentar suas respostas.
Todos devem dispor do mesmo tempo para fazer o teste, com o mesmo
grau de supervisão.
O desempenho dos alunos numa avaliação nacional deve ser uma
medida de sua habilidade de responder aos itens sem apoio externo. Os
alunos devem compreender o que têm de fazer e como apresentar suas
respostas, mas não devem receber qualquer outro tipo de ajuda nem ter
acesso a qualquer recurso que não seja parte do teste. A observância dos
procedimentos estabelecidos em um manual de aplicação deve garan-
tir isso. Em http://go.worldbank.org/M2O1YDQO90, você encontra
exemplos de manuais de aplicação do teste e manuais para o exercício
da função de coordenação que cabe à escola.
144 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

CONTEÚDO DO MANUAL

Os manuais de aplicação devem fornecer informações que respondam às


seguintes questões:

yA que se destina o teste?


Breve explicação do objetivo do teste e do modo como os dados
c

serão usados.
yQuais os testes aplicados, quais os alunos testados e quando são tes-
tados?
c Quais testes estão sendo aplicados na escola.

c Quais os alunos que devem fazer cada teste.

c Datas e horários de aplicação do teste.

c Ordem de aplicação dos testes.

c Tempo de aplicação de cada teste.

c Intervalos requeridos entre a aplicação dos testes.

c Quaisquer opções de flexibilidade na agenda de aplicação.

yQuais os materiais de teste necessários?


c Lista de todos os materiais de teste fornecidos.

c Quantidades de cada material de teste fornecido, como um por

aluno ou um por professor.


c Lista de quaisquer materiais que a escola tenha de fornecer, como

lápis e borrachas.
yComo a sala deve ser preparada para o teste?
c Instalações físicas que a escola precisa fornecer, como carteiras e

cadeiras.
c Os recursos que poderiam ajudar os alunos devem ser retirados da

sala ou cobertos, como tabelas de multiplicação ou cartazes que


contenham regras gramaticais.
yQual a preparação necessária?
c Como o diretor ou o encarregado de turma poderiam motivar fun-

cionários da escola e alunos a apoiar a aplicação do teste antes da


aplicação real.
c Quais informações o aplicador do teste poderia pedir, como uma

lista com os nomes dos alunos da classe.


DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 145

Como os cadernos de prova poderiam ser separados, numerados


c

ou nomeados para que estejam disponíveis para uso.


c Como seria preciso organizar grupos de alunos para o teste.

yComo o teste deve ser realizado?


c Como os alunos devem escrever seus nomes nos cadernos e re-

gistrar as informações socioeconômicas e contextuais na folha


de rosto.
c Quando e como o aplicador deve verificar se os alunos registra-

ram corretamente as informações na folha de rosto do caderno de


prova.
c Como as questões de prática devem ser aplicadas e explicadas.

c Que instruções os alunos devem receber sobre o teste.

c Qual nível de apoio o aplicador pode oferecer durante o teste.

c De quanto tempo os alunos dispõem para completar o teste.

c Quais condições o aplicador precisa manter durante o teste.

c Quem deve ter permissão para entrar na sala durante a aplicação

do teste.
yComo os materiais do teste devem ser guardados?
c Procedimentos para garantir a segurança dos materiais antes, du-

rante e depois do teste.


yQuem pode ser contatado caso haja necessidade de ajuda?
c Detalhes sobre como contatar a pessoa que pode ajudar a resolver

problemas ou dar informações adicionais.

As informações adicionais podem ser incluídas no manual de apli-


cação para reduzir o movimento dos cadernos de prova que entram
e saem das escolas. É provável que essas informações variem, depen-
dendo de o teste ser aplicado por um órgão externo ou por professo-
res da escola.

USO DO MANUAL

Tanto o encarregado de turma ou diretor da escola quanto o aplicador


do teste precisam usar o manual. Algumas avaliações preparam ma-
146 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

nuais separados para diretores ou para aqueles que têm a responsabili-


dade geral pela realização das atividades da avaliação nacional dentro
de cada escola.
O encarregado de turma (ou o diretor) precisa do manual a fim de
garantir que sua escola esteja adequadamente preparada para a aplicação
do teste. Deve conhecer bastante sobre o teste para encorajar os funcio-
nários e os alunos a apoiar a aplicação e motivar os alunos a tentar fazer
o melhor possível. O encarregado de turma (ou o diretor) ou o respon-
sável pela coordenação da avaliação nacional na escola (se alguém tiver
sido designado para isso) devem ter informação suficiente para organizar
a escola e certificar-se de que os alunos corretos estão disponíveis no
horário requerido e com os materiais adequados; e que os materiais do
teste possam ser armazenados em segurança.
Os aplicadores de teste precisam que o manual lhes diga exatamente
o que têm de fazer para aplicar o teste corretamente, quando e como
fazê-lo. Eles precisam verificar se os materiais estão disponíveis em nú-
mero suficiente e se os alunos corretos foram selecionados para fazer
o teste. Precisam saber quais informações dar aos alunos sobre o teste,
como explicar as questões de prática e o tempo de que dispõem para fa-
zer o teste. Também devem saber que procedimentos de segurança usar
para armazenar os materiais do teste.

CARACTERÍSTICAS DE UM MANUAL

Um bom manual contém todas as informações necessárias, e seu uso é


fácil. A informação está ordenada logicamente, as instruções são claras e
completas, a linguagem é simples e direta. Marcadores, caixas ou tabelas
facilitarão a leitura das informações. Um bom manual deve ter uma ta-
bela de conteúdos com títulos claros (veja o Quadro 12.1).
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 147

QU A D R O 1 2 . 1

Instruções do Manual de Aplicação

Em uma avaliação nacional, as seguintes informações apareceram num tipo grande


(Arial 14), ocupando toda a página de abertura do manual de aplicação:

Por favor, leia este Manual de Aplicação antes que seus alunos façam o teste.

Os alunos têm de fazer este teste durante DOIS DIAS.

y O teste está dividido em quatro sessões. Os alunos devem fazer duas ses-
sões por dia.

y Os alunos devem fazer um intervalo entre cada sessão.

y Não deixe que os alunos façam todo o teste de uma única vez.

Regras de Aplicação

y Os professores devem supervisionar todas as sessões durante todo o tempo.

y Os alunos NÃO devem levar os cadernos de prova para fora da sala ou traba-
lhar neles depois que o professor tiver saído.

y Os alunos devem usar lápis com borrachas na ponta, fornecidos pela escola.

y Os alunos não devem usar nenhum material da sala de aula, como livros de
exercícios, dicionários ou calculadoras, enquanto fazem o teste.

y Os alunos não devem receber ajuda para responder às questões. Por exem-
plo, se um aluno não compreender o que deve ser feito, explique de novo
as questões de prática e diga para que faça o melhor possível, mas não dê
qualquer ajuda adicional.

Segurança do Teste

y Os materiais do teste devem ser ARMAZENADOS COM SEGURANÇA DU-


RANTE TODO O TEMPO.

y Os cadernos de prova dos alunos NÃO devem ser copiados em nenhuma


hipótese.

y Os alunos NÂO devem levar os cadernos de prova para casa.

Fonte: Papua Nova Guiné, Departamento de Educação 2004.


148 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

QUANTO DE DETALHE É NECESSÁRIO?

As informações sobre as condições gerais de aplicação do teste e a prepa-


ração de materiais de teste devem ser abrangentes e, ao mesmo tempo,
tão sucintas quanto possível (veja o Quadro 12.2).

QUADRO 12.2

Informação para Professores e Diretores


A informação sobre os materiais do teste devem ser concisas e estar listadas de modo
a facilitar a checagem. O seguinte extrato de uma ampla avaliação realizada em Papua
Nova Guiné diz ao encarregado de turma ou ao diretor quais materiais foram enviados
à escola e como saber quais turmas participarão do teste:

Materiais do Teste

Seu Inspetor Escolar lhe dirá quais turmas em sua escola devem participar deste teste.

Você deve ter recebido os seguintes materiais:

y uma carta de apresentação para o encarregado de turma

y um caderno de prova para cada aluno que participará do teste

y um manual de aplicação para cada professor que aplicará o teste

y um questionário para cada professor participante com questões sobre seu his-
tórico

y um lápis com borracha na ponta para cada aluno participante

Se estiver faltando algum material, ou se esses não forem suficientes, por favor,
contate seu Inspetor Escolar

Fonte: Departamento de Educação de Papua Nova Guiné 2004.

As instruções que o aplicador do teste dará aos alunos devem estar


escritas com todos os detalhes. Qualquer coisa que o aplicador do tes-
te tiver de dizer aos alunos sobre o teste, as questões de prática ou as
condições da aplicação do teste deve estar datilografada. O aplicador do
teste deve ler do manual, sem fazer qualquer mudança no fraseado. Esse
procedimento garante que todos os alunos que estão fazendo o teste
recebam exatamente as mesmas instruções.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 149

QUESTÕES DE PRÁTICA

O Quadro 12.3 apresenta instruções gerais de procedimento e uma des-


crição do objetivo das questões de prática. As instruções que o aplicador
dá aos alunos estão escritas em detalhes e destacadas numa caixa som-
breada. O aplicador deve ler essas instruções como estão impressas. A
ilustração de dinheiro que faz parte das questões de prática nos cader-
nos dos alunos também é mostrada no manual de aplicação, para que o
aplicador saiba o que os alunos estão vendo sem ter de ler no manual e
segurar um caderno de prova aberto ao mesmo tempo.

TESTE DOS ITENS

O manual deve estar preparado para ser testado durante o pré-teste dos
itens do teste. O pré-teste do manual revelará quaisquer equívocos ou
ambiguidades que requeiram esclarecimento ou refinamento na versão
final. Como as condições do pré-teste ou teste-piloto devem ser tão se-
melhantes quanto possível às do teste final, o manual deve estar o mais
próximo possível da forma final quando se fizer o teste dos itens.

QU A D R O 1 2 . 3

Aplicação de Itens de Prática


Este exemplo contém parte das instruções para a aplicação de algumas questões de
prática:

Primeiro Dia: Sessão 1

QUESTÕES DE PRÁTICA DE MATEMÁTICA PARA A 3a SÉRIE (aproximadamente


10 minutos)

Certifique-se de que cada aluno recebeu o próprio caderno de prova com


seu nome escrito na página de rosto. As questões de prática são fornecidas
para mostrar aos alunos diferentes modos de apresentar suas respostas. Peça
aos alunos para abrir seus cadernos nas Questões de Prática de Matemática
(primeira página).
150 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

DIGA

Vamos trabalhar um pouco com matemática hoje, para que vocês descubram
todas as coisas diferentes que podem fazer em matemática. Em primeiro lu-
gar, faremos algumas questões de prática, para que vocês saibam como fazer
e como mostrar suas respostas.

Segure um caderno de prova dos alunos e mostre as questões de prática. Verifi-


que se todos os alunos encontraram as questões certas.

DIGA

Vamos ver a primeira questão de prática. Vou ler para vocês.

Este é o desenho de duas moedas.

Quanto valem essas duas moedas juntas?


São 2 toea, ou 7 toea, ou 25 toea ou 205 toea?
Preencha o pequeno círculo ao lado da resposta correta. Preencha apenas um círculo.

Espere até que todos os alunos tenham terminado e, então, verifique suas res-
postas.

DIGA

A resposta é 25 toea. Você precisava preencher o pequeno círculo ao lado de


25 toea. Se tiver errado, apague e preencha o círculo na resposta correta.

Espere até que todos os alunos tenham corrigido seus trabalhos, se necessário.

Fonte: Departamento de Educação de Papua Nova Guiné 2004.


DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 151

Em geral, as instruções sobre a aplicação do teste podem ser escritas a


qualquer momento depois que a tabela de especificações tiver sido fina-
lizada. As tabelas de especificações devem especificar todas as exigências
relativas ao número de testes e à sua extensão e quais alunos devem fazer
o teste.
Durante o pré-teste, o aplicador deve coletar as seguintes informações
para ajudar o gerente de desenvolvimento de teste a refinar o teste final:

ySe os alunos precisaram de todas as questões de prática, se havia um


número suficiente de questões de prática e se as explicações estavam
suficientemente claras.
ySe o teste tinha a extensão adequada ou se era muito longo, e apro-
ximadamente quantos terminaram mais de 10 minutos antes da hora
(se forem usados diferente formulários na mesma classe, o aplicador
pode comparar o tempo que os alunos precisaram para preencher
cada formulário).
ySe os alunos pareciam envolvidos no teste.
ySe os alunos tinham recursos adequados e suficientes, como lápis ou
borrachas.
ySe as instalações da escola eram adequadas para a realização de um
teste.

REVISÃO

O gerente de desenvolvimento de teste e os elaboradores de itens são


responsáveis pela revisão e pelo aprimoramento das instruções para as
questões de prática. As questões de prática e as instruções para aplicação
devem ser dadas no mesmo tipo de painel usado para a revisão de itens.
O gerente de desenvolvimento de teste e a pessoa responsável pela
logística da produção e distribuição dos testes devem rever e refinar os
procedimentos para a movimentação dos cadernos de prova dentro e
fora das escolas.
Várias pessoas com formação e situação socioeconômica semelhantes
às dos aplicadores de teste também devem rever todo o manual para ve-
152 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

rificar se as instruções estão claras e esclarecer quaisquer ambiguidades


que possam surgir.
Como no caso de todos os materiais do teste, o manual deve ser total
e regularmente revisado por pessoas experientes nesta tarefa. As ins-
truções para as questões de prática e a aplicação do teste podem ser
revisadas da forma adequada apenas se o revisor dispuser de cópias dos
cadernos de prova relevantes dos alunos.
CAPÍTULO

13 O APLICADOR
DO TESTE

ESCOLHA DO APLICADOR DO TESTE

As pessoas devem estar seguras de que o teste foi aplicado em condições


padronizadas. Os aplicadores de teste devem ser vistos por todos como
pessoas confiáveis.
A escolha do aplicador do teste depende das condições vigentes em
cada país. Os inspetores escolares podem ser aplicadores ideais em al-
guns países, mas problemáticos em outros. Se os inspetores veem a apli-
cação do teste como uma tarefa adicional que não se enquadra em suas
atribuições, que usa recursos escassos ou pela qual têm pouco interesse,
podem não ter motivação para fazer o trabalho adequadamente.
Algumas avaliações nacionais usam aplicadores externos. Idealmente,
são pessoas que podem seguir instruções rigorosamente, têm tempo e re-
cursos para fazer a tarefa de forma adequada e não têm qualquer interesse
particular no resultado do teste que vá além do propósito de aplicá-lo corre-
tamente. No Timor Leste, por exemplo, os recenseadores foram treinados
e pagos para aplicar uma avaliação nacional nas escolas. Eram pessoas que
entendiam a importância de coletar dados de forma sistemática e não ti-
nham nenhum interesse investido no desempenho dos alunos. Seu trabalho
foi supervisionado para garantir que fosse de um padrão adequado.
154 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Em alguns países, a aplicação de uma avaliação nacional por professores


comprometeria seriamente a credibilidade dos dados, mas pode não ocorrer
o mesmo em outros países. O principal problema de se pedir que os profes-
sores apliquem o teste é que eles poderão, deliberada ou não intencional-
mente, oferecer ajuda aos alunos. Existem muitas razões possíveis para esse
fenômeno. Alguns professores podem se preocupar com a ideia de que os
dados do teste serão usados para julgar seu desempenho como professores.
Podem sentir que precisam ajudar os alunos com o teste para manter seu
emprego ou seu status profissional. Coordenadores escolares podem sentir
que sua situação esteja mais ameaçada ainda. Alguns professores podem
sentir que o teste é uma medida injusta de seu trabalho ou do desempe-
nho dos alunos e se sentir obrigados a dar assistência para fazer com que
o teste seja “justo”. Alguns professores podem ter a intenção de aplicar o
teste conforme instruídos, mas talvez não consigam abandonar seu papel de
instrutores. Podem ajudar aos alunos sem nem ao menos perceber que estão
fazendo isso ou porque não podem suportar ver os alunos batalhando com
as questões sem lhes oferecer ajuda.
O Volume 3 desta série aborda a seleção dos aplicadores de teste e
descreve algumas vantagens e desvantagens de diferentes tipos de apli-
cadores de teste.

OBSERVAÇÃO DE INSTRUÇÕES

O manual deve distinguir entre instruções específicas que devem ser


seguidas ao pé da letra e instruções mais gerais que permitem ao aplica-
dor algum espaço para adaptá-las às condições da classe. O aplicador do
teste não deve desviar-se de qualquer instrução específica. O pré-teste
do manual deve ajudar a identificar quaisquer erros ou ambiguidades nas
instruções.
Os aplicadores de teste somente devem ajudar os alunos a compreen-
der o que devem fazer e como apresentar suas respostas. Os aplicadores
de teste devem deixar claro que não podem ajudar qualquer aluno a
responder às questões. Não devem oferecer ajuda para interpretar uma
questão, explicar o significado de uma palavra ou sugerir formas como o
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 155

aluno poderia tentar responder a uma questão. Se um aluno pede ajuda,


o aplicador deve apenas encorajá-lo a fazer o melhor possível.
Os aplicadores não devem traduzir em outro idioma para os alunos, a
menos que haja instruções específicas para que desempenhem esse papel.
Em alguns testes, os aplicadores podem ler as questões para os alunos.
O aplicador de teste deve ler lenta e claramente todo o teste em voz alta,
questão por questão, ou ler questões específicas a pedido dos alunos. Em
qualquer dos casos, o aplicador deve ler as palavras da questão exata-
mente como estão impressas e no mesmo idioma.
Os aplicadores devem dispor de um relógio de pulso ou de outro tipo
de relógio. Devem escrever no quadro negro ou num papel a hora exata
em que o teste começa e a hora em que termina. Os aplicadores devem
certificar-se de que os alunos compreenderam quanto tempo têm para
fazer o teste. Isso, em geral, envolve dizer aos alunos quanto tempo têm
no começo e dar um aviso quando faltarem 10 minutos, 5 minutos ou 2
minutos para o prazo final, dependendo da extensão do teste.
Os aplicadores devem encorajar discretamente os alunos a tentar re-
solver o teste inteiro caso estejam obviamente gastando muito tempo
com uma questão e relutem em seguir adiante. Os aplicadores podem
fazer isso simplesmente sugerindo ao aluno, em voz baixa, que escreva a
melhor resposta possível e, então, tente a questão seguinte.
Somente materiais especificados no manual serão permitidos na sala
durante a aplicação do teste. Em geral, os alunos trazem seus próprios
lápis e borrachas para o teste. Caixas de lápis e bolsas não devem ser
permitidas. Qualquer coisa que possa ajudar os alunos a responder às
questões do teste deve ser removida da sala. Os alunos não devem ter
acesso a recursos como dicionários ou calculadoras, a menos que as con-
dições do teste permitam seu uso explicitamente.
O aplicador do teste, os alunos que participam do teste e, possivelmente,
um supervisor devem ser as únicas pessoas na sala durante a aplicação.
O diretor ou outros professores não devem ter permissão de andar
em volta da sala. O gerente de testes deve ser notificado de mudanças
inevitáveis nas condições de aplicação do teste.
Durante a aplicação do teste, o aplicador deve coletar informações sobre
quaisquer variações que ocorram nas condições de aplicação para alunos
156 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

individuais. Muitas vezes, a folha de rosto do caderno de prova terá espaço


para o aplicador indicar quais alunos estavam ausentes durante todo o teste
ou parte dele. Se um aluno tiver de sair da sala por causa de doença e não
completar o teste, o aplicador deve registrar essa informação.
Em http://go.worldbank.org/M2O1YDQO90, você encontra exemplos
de instruções gerais e específicas para aplicadores de teste. Também oferece
algumas sugestões sobre como diagramar um manual de aplicação de teste.

GARANTIA DA QUALIDADE

Os aplicadores devem ser selecionados em função de sua adequação para


a tarefa. Devem ser fluentes no idioma em que está escrito o manual.
Também devem estar comprometidos a executar bem sua tarefa.
Independentemente de seus níveis de experiência ou qualificações
acadêmicas, os aplicadores têm de ser treinados. Devem participar de
uma sessão de treinamento que explique o objetivo do teste e o papel
que terão em sua aplicação. Devem compreender que seguir as instru-
ções é importante, e devem ter a oportunidade de praticar a aplicação de
testes administrando-o a seus companheiros. Devem ter a oportunidade
de fazer perguntas sobre os procedimentos descritos no manual.
Se os professores forem aplicar o teste a seus alunos, o treinamento
deve garantir que compreenderam o objetivo do teste e que os dados
não serão usados para julgá-los. Devem compreender a importância de
não ajudar os alunos a responder às questões.
Os aplicadores devem ser supervisionados pelo menos durante parte
do tempo em que estejam aplicando o teste. Talvez não seja possível
supervisionar todas as pessoas, mas verificações aleatórias de alguns apli-
cadores devem ser factíveis.
Também é recomendável pedir aos aplicadores que preencham e as-
sinem listas de verificação para garantir que completaram suas tarefas.

LISTA DE VERIFICAÇÃO DO APLICADOR

Os detalhes do que deve estar na lista de verificação do aplicador varia-


rão, dependendo de quem esteja aplicando o teste e dos procedimentos
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 157

desenvolvidos para rastrear os cadernos e garantir a segurança. O Qua-


dro 13.1 fornece um exemplo de uma lista de checagem da aplicação
usada nas Filipinas. Um exemplo adicional pode ser visto no Volume 3
desta série.

QUADRO 13.1

Lista de Verificação da Aplicação: Um Exemplo das Filipinas


O aplicador deve marcar todos os itens para mostrar que completou o trabalho, assi-
nando o formulário no final.

Nome Data
Tarefa Referência Tempo Completado
1. Complete o formulário Alocação do Formulário 10min
Caderno de Prova do Aluno (ACPA) ACPA
inserindo o número do teste em ordem
consecutiva e colocando os nomes dos
alunos em ordem alfabética.
2. Aplique o questionário do professor. Formulário do 15min
questionário
do professor
3. Complete o formulário de comentários. Formulário de 10min
comentários do
professor
4. Distribua o teste a cada aluno e Formulário 10min
marque ausente naqueles que não ACPA
compareceram.
5. Leia a introdução das Diretrizes. Diretrizes para 5min
o Aplicador,
p. 7
6. Peça aos alunos para fornecer os dados Diretrizes para 5min
relativos ao aluno na folha de rosto do o Aplicador,
teste. p. 9
7. Verifique se todos os alunos 10min
completaram os detalhes sobre os
alunos na folha de rosto.
8. Siga as instruções para a Sessão 1. Diretrizes para 60min
o Aplicador,
pp. 11-13
9. Nos intervalos, peça aos alunos que 15min
saiam da sala em fila e deixem seus
testes sobre as carteiras.
10. Siga as instruções para a Sessão 2. Diretrizes para 60min
o Aplicador,
pp. 15-17
158 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Nome Data
Tarefa Referência Tempo Completado
11. Nos intervalos, peça aos alunos que 15min
saiam da sala em fila e deixem seus
testes sobre as carteiras.
12. Siga as instruções para a Sessão 3. Diretrizes para 70min
o Aplicador,
pp. 19-21
13. Recolha todos os cadernos de prova e Formulário 10min
confira seu retorno usando o formulário ACPA
ACPA.
14. Conte todos os testes e certifique-se de Formulário 5min
que todos foram devolvidos. ACPA
15. Dispense a turma. 2min

16. Assine o formulário ACPA. Formulário 2min


ACPA
17. Recolha e empacote todos os materiais 10min
do teste na caixa fornecida, incluindo:
i. Formulário ACPA
ii. Questionário do professor
iii. Formulário de comentários do professor
iv. Todos os testes completados
v. Todos os testes não usados
18. Guarde os materiais em segurança. 10min

19. Devolva o material para seu supervisor Formulário de Tem-


distrital do RAMSE (Avaliação Regional distribuição po de
de Matemática, Ciências e Inglês). para supervisor viagem
do RAMSE
20. Devolva esta lista de verificação Lista admi- 2min
completada a seu supervisor distrital. nistrativa do
RAMSE
Assinatura do administrador: _______________________________

Fonte: Departamento de Educação das Filipinas 2004.


CAPÍTULO

14 INFORMANDO AS
ESCOLAS SOBRE A
AVALIAÇÃO NACIONAL

O
s alunos precisam ser motivados para ten-
tar fazer o melhor possível numa avaliação
nacional. Em geral, é mais fácil motivar os
alunos quando os professores explicam a eles o objetivo do teste e se
certificam de que compreenderam que o resultado final será usado para
ajudar a aprimorar a qualidade da educação, e não para julgar os alunos
ou as escolas.
Todos os alunos precisam se sentir encorajados a participar, espe-
cialmente aqueles com menos habilidades. A decisão sobre o melhor
momento para informar aos alunos as datas do teste dependerá das cir-
cunstâncias da escola. Se os alunos se sentirem ameaçados por um teste
e ficarem longe da escola, então é preferível não dizer a eles a data exata
da aplicação do teste. Se os alunos estiverem animados com a possibi-
lidade de fazer um teste e se sentirem mais confortáveis para vir para a
escola, então é preferível dizer a eles a data exata.
O órgão implementador deve certificar-se de que as escolas estejam
informadas sobre o objetivo do teste com bastante antecedência. A in-
formação pode ser dada por meio de seminários, cartas ou contatos te-
lefônicos. É aconselhável ser honesto e claro sobre quais dados estão
sendo coletados, como serão apresentados e usados e quais informações
160 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

de retorno que a escola receberá sobre o desempenho dos alunos (ou se


não receberá nada).
Os diretores e professores das escolas participantes devem saber que
suas escolas e classes foram selecionadas para ajudar a obter informações
sobre o que os alunos sabem e não sabem. O objetivo de se coletarem
essas informações é ajudar a aprimorar o sistema educacional nacional.
Escolas ou classes individuais não estão sendo julgadas em uma avaliação
nacional com base numa amostra. Os diretores e professores das escolas
participantes também devem ser informados de que todos os dados do
teste e todas as respostas dos questionários serão tratados como confi-
denciais.
É necessário seguir certos procedimentos para garantir que as escolas
concordem em participar de uma avaliação antes que sejam designados
aplicadores externos para a escola. Também é necessário garantir que os
aplicadores externos recebam todas as instruções necessárias, como uma
carta de apresentação, de modo que possam estar seguros de que a escola
os apoiará e os ajudará a cumprir suas responsabilidades. O Volume 3
contém sugestões adicionais sobre como informar as escolas, inclusive o
modelo de uma carta que poderá ser usado.
APÊNDICE

A GLOSSÁRIO

amostra aleatória: Grupo de alunos selecionados estatisticamente que aten-


dem a determinados critérios, incluindo uma distribuição de variáveis-chave
que correspondem à distribuição das mesmas variáveis em toda a coorte.

análise de dados: Uso de uma metodologia estatística para analisar e


interpretar os dados do teste.

analista de dados: Pessoa responsável pela análise estatística de dados.

aplicador: Pessoa que supervisiona a realização do teste e é responsável


por garantir que as condições estejam de acordo com os padrões estabe-
lecidos no manual de aplicação.

área de aprendizado: Uma área de grande importância num currículo,


como matemática ou ciências.

avaliador: Pessoa que faz a pontuação manual de itens de acordo com


um guia de pontuação.

avaliador-chefe: Pessoa responsável pelo gerenciamento do centro de


classificação e pela solução de discrepâncias nas pontuações.

avaliador líder: Um avaliador experiente responsável pela verificação


cruzada
162 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

centro de classificação: Local em que é organizada a pontuação manual


de itens do teste e os avaliadores são treinados e supervisionados.

chave de múltipla escolha: Opção correta num item de múltipla es-


colha.

classificação de discrepâncias: Procedimento para solucionar conflitos


entre pontuações durante a verificação cruzada ou resultantes de clas-
sificações duplas das respostas geradas pelos alunos; em geral, esses pro-
cedimentos são administrados pelo avaliador-chefe.

classificação dupla: Processo de classificar duas vezes as respostas aos


itens geradas pelos alunos; a pessoa que faz a segunda classificação não
vê a primeira.

comando: Parte de um item de múltipla escolha que precede as opções,


em geral uma questão, sentença incompleta ou instrução.

condições padronizadas: Condições do teste especificadas no manual


de aplicação, mantidas idênticas para todos os alunos aos quais o teste
é aplicado; todos os alunos recebem a mesma quantidade de apoio, as
mesmas instruções e têm o mesmo tempo para fazer o teste.

confiabilidade do teste: A medida em que a evidência coletada é sufi-


ciente para fazer generalizações.

conjunto de itens: Coleção de itens submetidos a um teste piloto ou


pré-teste e de itens seguros de testes anteriores que são adequados para
uso em testes futuros.

coorte completa: Todos os alunos de um país que atendem a certos crité-


rios, como estar em determinada série, em determinado momento.

correlação ponto bisserial: Método usado em análise de itens para for-


necer uma medida da correlação (relação) entre a pontuação (correto ou
incorreto) que os alunos obtêm para um item individual e a pontuação
geral que obtêm nos demais itens.

dado: Informação coletada de um teste, em geral registrada num pro-


grama de software num computador.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 163

dados agregados: Dados combinados para expressar uma pontuação


geral, como uma pontuação única derivada de um teste de 30 itens.

distratores: Opções incorretas num item de múltipla escolha.

escala cinza: Tonalidade cinza-claro usada na impressão dos materiais.

folha de respostas: Folha separada do caderno de prova usada pelos alu-


nos para registrar suas respostas aos itens do teste.

formuladores de políticas: Funcionários governamentais que elaboram e


definem políticas educacionais.

formulário final: Cadernos de prova aplicados a uma amostra da popu-


lação.

guia de pontuação: Descrições das categorias de pontuação usadas para


classificar respostas aos itens geradas pelos alunos.

item: Parte específica de um teste com uma pontuação individual; pode


ser uma pergunta, uma sentença incompleta ou uma única parte de um
teste ou questionário com uma pontuação ou código individual.

item de crédito parcial: Item que tem duas ou mais categorias de respos-
tas corretas; em geral, essas categorias são hierárquicas para os itens do
formulário final do teste, mas podem não ser para itens do pré-teste ou
itens de teste.

itens abertos de resposta curta: Itens que requerem que um aluno gere
uma resposta curta, tal como uma ou duas sentenças, ou faça diversas
modificações numa tabela, num gráfico ou diagrama.

itens de ligação: Itens replicados em dois ou mais cadernos de prova


para permitir a comparação entre os dados resultantes da aplicação dos
cadernos.

itens de múltipla escolha: Itens que requerem que os alunos selecionem


a única resposta correta a uma questão entre diversas opções.

itens de resposta fechada: Itens que requerem que os alunos produzam uma
resposta curta com um conjunto pequeno e finito de respostas corretas.
164 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

itens discriminativos: Itens que diferenciam entre o desempenhos de


alunos de alta habilidade e baixa habilidade: ou seja, os alunos com alta
habilidade têm maior probabilidade do que aqueles com baixa habili-
dade de responder corretamente ao item.

itens imparciais: Itens que são um teste justo do aproveitamento e não


conferem vantagem a certos grupos com base em características irrele-
vantes para o conhecimento ou a habilidade que estão sendo avaliados.

itens protegidos: Itens que foram mantidos fora do conhecimento públi-


co; podem ter sido aplicados num teste anterior, mas suas condições
impediram a duplicação ou o vazamento.

ligação circular: Ligação de um grupo de formulários de teste, do


primeiro ao último formulário.

ligação horizontal: Ligação de itens entre formulários de um mesmo ano


ou série.

ligação linear: Ligação de um grupo de formulários de teste, cada um


ligado ao seguinte, mas sem que o primeiro seja ligado ao último.

ligação longitudinal: Ligação de formulários de teste ao longo do tem-


po.

ligação vertical: Ligação de formulários de teste usados em diferentes


séries por meio do uso de itens comuns.

manual de aplicação: Conjunto de instruções escritas sobre como, quan-


do e onde os testes devem ser realizados; o manual também pode incluir
informações sobre a movimentação dos cadernos de prova que entram
e saem das escolas.

marco de referência: Documento que define o objetivo do teste e indica


o que deve ser medido, como deve ser medido, por que está sendo me-
dido e como deve ser apresentado.

material de estímulo: Texto, diagramas ou gráficos que fornecem o con-


texto para um ou mais itens.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 165

objetividade do teste: A medida em que o teste não é afetado pela esco-


lha de tarefas ou escolha de avaliador; isto é, a tarefa é justa e inclusiva,
e os critérios para tomar decisões sobre a pontuação estão claros.

painel de itens: Pequeno grupo de três a seis pessoas que fazem a revisão
crítica e refinam todos os aspectos dos itens para garantir que sejam de
alta qualidade.

pontuação: Pontos atribuídos à resposta de um aluno com base nas ca-


tegorias de um guia de pontuação.

pontuação dicotômica: Item que é pontuado como correto ou incorreto,


tendo, portanto, duas pontuações possíveis, 0 e 1.

pontuação manual: Atribuição de pontuação às respostas dos alunos


feita por pontuadores humanos (não por máquinas).

população-alvo do teste: Os alunos aos quais o teste será aplicado.

pré-teste: Outro nome para um teste-piloto realizado antes do teste fi-


nal com uma pequena amostra de alunos para estabelecer a qualidade e
adequação de itens, questionários e manuais de aplicação.

redação: Dissertação escrita em resposta a um estímulo, em geral com


meia página ou mais.

respostas em branco: Itens aos quais o aluno não fez qualquer tentativa
de responder.

respostas incorretas: Itens para os quais a resposta do aluno se enquadra


na categoria de pontuação 0 (zero).

revisão: Revisão detalhada de todos os aspectos de um texto para garan-


tir que esteja claro, consistente e livre de erros.

subelemento: Aspectos ou agrupamentos dentro de uma área de cur-


rículo; por exemplo, a área de matemática pode ser separada em subele-
mentos de número, espaço, padrão e medida.

tabela de especificações: Especificações sobre os critérios que os itens


finais do teste devem observar, incluindo a proporção de itens que abor-
166 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

dam cada aspecto de uma área de currículo, extensão do teste, formato


do item e quaisquer outros critérios ou limitações relativos ao desenvol-
vimento do teste.

teste: Um ou mais itens aos quais os alunos respondem em condições pad-


ronizadas; os itens são elaborados para permitir que os alunos demons-
trem seu conhecimento, suas habilidades e seus entendimentos.

teste-piloto: Outro nome para o pré-teste realizado antes do teste final


com uma pequena amostra de alunos para estabelecer a qualidade e ade-
quação de itens, questionários e manuais de aplicação.

unidade: Coleção de itens baseada num mesmo material de estímulo.

utilidade do teste: A medida em que o teste atende a seu objetivo.

validade do teste: Um amplo conceito que envolve fazer interpretações


adequadas e usar as pontuações ou as informações contidas no teste.

verificação cruzada da classificação: Revisão das pontuações manuais


para garantir que correspondam consistentemente às categorias de pon-
tuação do guia de pontuação; em geral, a revisão é feita imediatamente
pelo avaliador-chefe, a fim de dar um retorno imediato aos avaliadores
sobre a qualidade de seu trabalho.
APÊNDICE

B LEITURA ADICIONAL

Allen, N. L., J. R. Donoghue e T. L. Schoeps. 2001. The NAEP 1998 Technical Re-
port. Washington, DC: National Center for Education Statistics.
Baker, F. 2001. The Basics of Item Response Theory. College Park, MD: ERIC Clear-
inghouse on Assessment and Evaluation, University of Maryland.
Beaton, A. E. e E. G. Johnson. 1989. “Overview of the Scaling Methodology used in
the National Assessment.” Journal of Educational Measurement 29: 163–75.
Bloom, B. S., M. D. Engelhart, E. J. Furst, W. H. Hill e D. R. Krathwohl. 1956.
Taxonomy of Educational Objectives: Handbook 1 – Cognitive Domain. Londres:
Longmans, Green.
Campbell, J. R., D. L. Kelly, I. V. S. Mullis, M. O. Martin e M. Sainsbury. 2001.
Framework and Specifications for PIRLS Assessment 2001. Chestnut Hill, MA:
International Study Center, Boston College.
Chatterji, M. 2003. Designing and Using Tools for Educational Assessment. Boston:
Allyn and Bacon.
Centro de Pesquisas Educacionais. 1978. Drumcondra Attainment Tests, Manual,
Level II, Form A. Dublin: Educational Research Centre.
Conselho Australiano de Pesquisas Educacionais. S.d. Literacy and Numeracy Na-
tional Assessment (LANNA), Sample Questions, Numeracy Year 5. http://www.
acer.edu.au/documents/LANNA_Y5NumeracyQuestions.pdf.
Conselho Diretor da Avaliação Nacional. S.d. Writing Framework and Specifications
for the 1998 National Assessment of Educational Progress. Washington, DC: U.S.
Department of Education.
168 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Departamento de Educação das Filipinas. 2004. Region-wide Assessment for Math-


ematics, Science, and English (RAMSE): Basic Education Assistance for Mindanao
(BEAM). Manila: Philippine Department of Education.
Eivers, E., G. Shiel, R. Perkins e J. Cosgrove. 2005. The 2004 National Assessment
of English Reading. Dublin: Educational Research Centre.
Forster, M. 2000. A Policy Maker’s Guide to International Achievement Studies. Cam-
berwell, Australia: Australian Council for Educational Research.
———. 2000. A Policy Maker’s Guide to Systemwide Assessment Programs. Camber-
well, Austrália: Australian Council for Educational Research.
Greaney, V. e S. B. Neuman. 1990. “The Functions of Reading: A Cross-Cultural
Perspective”. Reading Research Quarterly 25 (3):172–95.
Haladyna, T. M. 1999. Developing and Validating Multiple-Choice Test Items. 2a ed.
Hillsdale, NJ: Lawrence Erlbaum.
Harlen, W. (org.). 2008. Student Assessment and Testing. Vols. 1–4. Londres: Sage.
IEA (Associação Internacional para Avaliação do Aproveitamento Escolar). 1998.
Third International Mathematics and Science Study—TIMSS Sample Items. Chest-
nut Hill, MA: International Study Center, Boston College. http://www.edinfor-
matics.com/timss/pop1/mpop1.htm, http://timss.bc.edu/timss1995i/TIMSSP-
DF/BSItems.pdf/, and http://www.ed.gov/inits/Math/timss4_8.html.
———. 2007. TIMSS 2003, Science Items, Released Set. Fourth Grade. S011026.
Chestnut Hill, Mass.: TIMSS & PIRLS International Study Center, Boston Col-
lege. timss.bc.edu/PDF/T03_RELEASED_S4.pdf.
Kirsch, I. 2001. The International Adult Literacy Survey (IALS): Understanding What
Was Measured. Research Report RR-01-25. Princeton, NJ: Educational Testing
Service.
Kubiszyn, T. e G. Borich. 2000. Educational Testing and Measurement. Nova York:
Wiley.
Linn, R. L. e S. B. Dunbar. 1992. “Issues in the Design and Reporting of the Na-
tional Assessment of Educational Progress”. Journal of Educational Measurement
29 (2): 177–94.
Linn, R. L. e M. D. Miller. 2004. Measurement and Assessment in Teaching: Student
Exercise Manual. Upper Saddle River, NJ: Prentice Hall.
Messick, S. 1987. “Large-Scale Educational Assessment as Policy Research: Aspi-
rations and Limitations.” European Journal of Psychology and Education 2 (2):
157–65.
———. 1989. “Validity.” In Educational Measurement, 3a ed. R. L. Linn (org.), 13–
103. Nova York: American Council on Education/Macmillan.
Mullis, I. V. S, A. M. Kennedy, M. O. Martin e M. Sainsbury. 2006. Assessment
Framework and Specifications: Progress in International Reading Literacy Study. 2a
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 169

ed. Chestnut Hill, MA: TIMSS and PIRLS International Study Center, Boston
College.
Mullis, I. V. S., M. O. Martin, E. J. Gonzalez e S. J. Chrostowski. 2004. TIMSS
2003 International Mathematics Report: Findings from IEA’s Trends in Interna-
tional Mathematics and Science Study at the Fourth and Eighth Grades. Chestnut
Hill, MA: TIMSS and PIRLS International Study Center, Boston College.
Mullis, I. V. S., M. O. Martin, E. J. Gonzalez, K. D. Gregory, R. A. Garden, K.
M. O’Connor, S. J. Chrostowski e T. A. Smith. 2000. TIMSS 1999 Interna-
tional Mathematics Report. Findings from IEA’s Repeat of the Third International
Mathematics and Science Study at the Eighth Grade. Chestnut Hill, Mass.: The
International Study Center, Boston College. Timssandpirls. bc.edu/timss1999i/
pdf/T99i_Math_2.pdf.
Nova Zelândia, Ministério da Educação. 2002. English in the New Zealand Curricu-
lum. Wellington: Learning Media for the New Zealand Ministry of Education.
Nitko, A. J. 2004. Educational Assessment of Students. 4a ed. Upper Saddle River,
NJ: Pearson, Merrill, Prentice Hall.
Papua Nova Guiné, Departamento de Educação 2003. Cultural Mathematics El-
ementary Syllabus. Port Moresby: Papua New Guinea Department of Educa-
tion.
———. 2004. National Curriculum Standards Monitoring Test. Port Moresby: Papua
New Guinea Department of Education.
PISA (Programa Internacional de Avaliação de Alunos). 2004. Learning for Tomor-
row’s World: First Results from PISA 200. Paris: OCDE.
APÊNDICE

C EXEMPLOS DE ITENS
DE TESTE E DE
QUESTIONÁRIO E
MANUAIS DE APLICAÇÃO

E
m http://go.worldbank.org/M2O1YDQO90,
você encontra exemplos de itens de teste de
aproveitamento, guias de pontuação, itens
de questionário e manuais que têm sido usados em vários contextos, in-
clusive em avaliações nacionais e internacionais. A Figura C.1 mostra o
diagrama do material encontrado. A maior parte dos itens, questionários
e manuais está disponível para o público e pode ser acessada. Somos
muito gratos pelo apoio das editoras e organizações (listadas no final
deste Apêndice) que deram permissão para que seus materiais originais
fossem reproduzidos.
Os exemplos podem dar às equipes de avaliação nacional ideias sobre
tipos e formatos de itens, guias de pontuação, cobertura do conteúdo
curricular, diagramação de testes e questionários e tipo de informação
contida nos manuais de aplicação de testes. As equipes podem usar essas
informações como subsídios para desenhar os próprios instrumentos de
teste, guias de pontuação e manuais. Ao selecionar ou adaptar materiais,
as equipes de avaliação nacional devem ter em mente os currículos na-
cionais e a adequação do vocabulário e dos formatos de teste.
172 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

FIGURA C.1

Guia dos Materiais Encontrados na Internet sobre Testes, Questionários e Manuais

Exemplos

Itens do teste e
Questionários Manuais
guias de pontuação

Linguagem Aluno Coordenador escolar

Matemática Professor Aplicador do teste


e do questionário
Ciências Diretor e escola

Pais

Nota: Clique no arquivo “Fontes” para acessar a fonte de itens, questões ou manuais individuais
liberados, bem como ver uma lista de endereços na internet (onde disponível), por meio dos quais as
informações liberadas foram obtidas.

ITENS DO TESTE DE APROVEITAMENTO

O material disponível em http://go.worldbank.org/M2O1YDQO90


contém itens de testes de matemática, linguagem e ciências. Espera-
mos que os elaboradores de itens dessas disciplinas encontrem utilidade
nesses itens quando estiverem desenvolvendo instrumentos de avaliação
com base nos próprios currículos nacionais. A intenção não é que as equi-
pes de avaliação nacional copiem esses itens. No âmbito de cada uma das
três áreas, são apresentados, em primeiro lugar, arquivos de itens para as
séries do ensino fundamental, seguidos dos arquivos de itens para o nível
médio, que são seguidos, por sua vez, dos arquivos de itens que cobrem
tanto o nível fundamental quanto o médio.
O material disponível na internet inclui uma grande coleção de itens de
estudos nacionais realizados nos Estados Unidos nas áreas de matemática,
leitura, ciências e escrita para a 4a, 8a e 12a séries, e de estudos separados
para alunos com 9, 13 e 17 anos. Contém ainda itens dos testes de mate-
mática para a 4a série do estado de Massachusetts. Itens usados em estudos
nacionais na Austrália e na Irlanda também estão incluídos.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 173

O material disponível em http://go.worldbank.org/M2O1YDQO90


também apresenta itens liberados de três avaliações internacionais: Ten-
dências Internacionais no Estudo de Matemática e Ciências (TIMSS)
(matemática e ciências para a 3a, 4a, 7a e 8a séries e para o último ano do
ensino médio); Estudo Internacional sobre o Progresso do Letramento
em Leitura (PIRLS) (linguagem para a 4a série); e Programa Internacio-
nal de Avaliação de Alunos (PISA) (linguagem, matemática e ciências
para alunos de 15 anos).
Alguns dos itens relacionados com linguagem aplicam-se a longas
passagens de textos, um formato que talvez não seja adequado em algu-
mas avaliações nacionais.
Em diversas situações, o formato do item retirado da internet difere
daquele adotado no caderno de prova original. Observe que alguns itens
do teste foram concebidos para testar duas ou mais séries.
O material disponível em http://go.worldbank.org/M2O1YDQO90
também inclui guias de pontuação relativos a testes específicos.

QUESTIONÁRIOS

O material disponível na internet contém amostras separadas de ques-


tionários para alunos, professores, escolas, diretores e pais. A maior par-
te dos questionários tem sido usada em estudos internacionais em países
industrializados. Muitas das questões são específicas para determinados
contextos educacionais e escolares. As equipes de avaliação nacional de-
vem buscar adaptar algumas das questões mais relevantes, para que re-
flitam a realidade econômica, social e escolar de seus países.

MANUAIS

O material disponível na internet inclui manuais com instruções especí-


ficas sobre como aplicar testes e questionários. Também inclui manuais
que apresentam os papéis e responsabilidades dos responsáveis pela co-
ordenação da avaliação dentro das escolas. Essas responsabilidades in-
174 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

cluem tarefas a serem realizadas antes, durante e depois da aplicação do


teste e do questionário. Os exemplos cobrem tópicos como preparação
dos aplicadores do teste; listagem dos equipamentos e materiais necessá-
rios (como testes, questionários, lápis e um relógio de pulso ou de outro
tipo); organização dos assentos, de modo a minimizar a possibilidade de
cola; como lidar com amostra de itens; cuidados para que as orientações
de tempo e horário sejam cumpridas; e identificação de tarefas que o
aplicador deve completar ao final de cada sessão.
Parte do material será mais relevante em alguns países que em ou-
tros. Alguns manuais, por exemplo, referem-se a testes pontuados por
máquinas ou a folhas de respostas, que tendem a não ser usados em
avaliações nacionais em muitos países em desenvolvimento. Os usuários
devem ter o cuidado de não tentar replicar o conteúdo dos manuais; em
vez disso, devem selecionar as ideias mais relevantes para seus contextos
nacionais. As amostras estão incluídas para ajudar as equipes de avalia-
ção nacional a desenvolver manuais com base em seus próprios testes.
Alguns manuais contêm sugestões sobre como selecionar amostras de
alunos dentro de escolas.

AGRADECIMENTOS

O Centro Nacional de Estatísticas de Educação do Departamento de


Educação dos Estados Unidos (http://nces.ed.gov/nationsreportcard/
about) deu permissão para reproduzir itens liberados do teste, dos ma-
nuais para aplicadores e dos questionários da Avaliação Nacional do Pro-
gresso Educacional (NAEP) dos Estados Unidos.
A Associação Internacional para a Avaliação do Aproveitamento Es-
colar (http://www.iea.nl/ e http://timss.bc.edu/) deu permissão para a
reprodução de material liberado do TIMSS e do PIRLS: itens, questioná-
rios e manuais para coordenadores escolares e aplicadores de teste.
A Organização para a Cooperação e o Desenvolvimento Econômico
(http://www.pisa.oecd.org/dataoecd/51/27/37474503.pdf) deu permissão
para a reprodução de materiais liberados do PISA: itens do teste, questioná-
rios e manuais de coordenadores escolares e aplicadores de teste.
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 175

O material disponível na internet contém itens de matemática libe-


rados para o público pelo Departamento de Educação de Massachusetts
que estão disponíveis no site do departamento: http://www.doe.mass.
edu/mcas/testitens.html.
O Conselho Australiano de Pesquisas Educacionais deu permissão
para reproduzir itens de amostras e guias de pontuação de sua Avalia-
ção Nacional de Letramento em Linguagem e em Matemática, Leitura,
Anos 3, 5 e 7 (http://www.acer.edu.au/lanna/).
O Centro de Pesquisas Educacionais, Dublin (http://www.erc.ie/in-
dex.php?s=7) deu permissão para reproduzir material de inglês e mate-
mática: itens, um questionário e um manual para aplicadores de teste.
ÍNDICE

Quadros, figuras, notas e tabelas estão indicadas por q, f, n e t, respectivamente.

alunos uso de caderno único vs. múltiplos


motivação dos, 159 cadernos e, 95
população para avaliação, 25 Veja também manual do aplicador
questionários para, 113, 137-138 de teste
amostra aleatória, 68, 161 aplicadores externos, 153, 160
análise de dados, 5f, 7t, 55 apresentação de resultados, 26-27
plano para questionários, 110, 122 áreas de aprendizado, 10, 29, 55, 161
pré-teste, 91 armazenagem eletrônica de itens do
software para pontuação de testes de teste, 65
múltipla escolha, 22 armazenagem segura de materiais do
análise, 4f teste, 65, 146, 147q, 158q
analista de dados, 7t, 161 associação circular, 70–72, 71f
aplicação oral de testes, 18 atividades da avaliação nacional
aplicadores. Veja aplicadores de teste fluxograma das, 4, 5f
aplicadores de teste visão geral das, 4, 5-7f
definição de, 161 ausência de alunos durante o teste,
escolha dos, 153-154 155
garantia da qualidade, 156 Avaliação Nacional de Leitura em
instruções para, 147q, 154-156 Inglês (Irlanda), 26
lista de verificação para, 156, Avaliação Nacional do Progresso
157-158q Educacional (NAEP) (Estados
tarefas, 5f, 6t Unidos), 30, 65n
tópicos, 153-158 avaliador chefe, 102, 161
178 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

avaliadores e pontuação manual de dados socioeconômicos e contextuais,


itens do teste, 102-106, 161 26n
avaliadores principais, 102, 161 dados, definição de, 162
cadernos múltiplos, procedimentos definições
para uso de, 95 glossário, 161–166
cartas de apresentação para aplicadores de áreas temáticas principais, 9-10
externos, 160 desempenho avançado de alunos, 27
centro de classificação, 101, 102 desempenho básico de alunos, 27
chave em itens de testes de múltipla desempenho de alunos abaixo do
escolha, 37, 40-41, 91, 162 básico, 27
classificação de discrepâncias, 162 desempenho proficiente dos alunos, 27
classificação dupla, 23, 162 desenho de cadernos que passam de
classificações de itens, 64, 65, 91 um aluno a outro, 68
códigos alfabéticos para respostas de desenho gráfico e itens do teste, 50–55,
questionários, 133 51q, 52q, 53q
códigos numéricos para respostas a diagramação e desenho de itens
questionário, 133 diretrizes básicas, 50
comando em itens de múltipla escolha escala cinza, uso da
do teste, 37-38, 39, 47, 162 folha de estilo para elaboradores,
comissão de coordenação nacional 58-59
(CCN), 3, 4f, 5f, 6t, 9, 27 itens abertos de resposta curta Veja
condições padronizadas, 153, 162 itens abertos de resposta curta
confiabilidade, 84-85, 87, 162 itens de crédito parcial, 44-47, 45q,
conjunto comum de itens de ligação, 70 46q, 47q, 82
conjunto de itens, 14t, 62, 64, 162 itens de múltipla escolha. Veja itens
coorte completa, 162 de múltipla escolha
correlação ponto bisserial, 87-90, 88t, itens de redação ou resposta
82t, 162 dissertativa Veja itens de redação
correspondência entre questionários e ou resposta dissertativa
dados do teste, 137-138 itens de resposta curta. Veja itens de
currículo e avaliação nacional, 4f, 5f, resposta curta
10, 11q itens de respostas fechadas Veja
custos itens de respostas fechadas
de processamento de dados de pré-testes, 76, 79, 79q
questionários, 131 produção do teste final, 95, 96
de reimpressão do pré-teste, 78 qualidade de imagens, 9, 50–55,
de impressão, 50, 98 51q, 52q, 53q, 54q
de aplicação do questionário, 121 questionários, 129-130, 130q
de testes traduzidos, 17, 18 respostas dos alunos, 96
de pontuação manual dos itens, 21, tópicos, 49-55
22, 23, 24t unidades, 47-48, 166
dados do teste e questionários, vantagens e desvantagens do, 23, 24t
correspondência entre, 137–138 diagramação e desenho de itens, 49-55
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 179

dificuldade de itens, 15, 31-32, 90, 95 equipe para elaboração de itens, 55-59,
diretores 58q, 91
avaliação nacional, informar sobre, escala cinza
159-160 definição de, 163
manual dos aplicadores para os, opções de pontuação em, 76
145-146 para títulos de itens, 50, 64, 74, 96
disponibilidade de itens de teste na respostas a questionário e, 133, 134q
internet, 30 escaneamento, uso de, 22
distratores em itens de múltipla especialistas nas disciplinas, 4f, 5f, 6t,
escolha, 37, 39-41, 163 12
doença de aluno durante teste, 155 Estudo Internacional sobre o Progresso
elaboração de itens do Letramento em Leitura (PIRLS),
amostras de itens de alta qualidade, 20, 27, 30, 41, 48
30 etapas do desenvolvimento do teste e
características de bons itens, 29-30 desenho do questionário, 6-7t
dificuldades de itens, 15, 31-32, 95 exigências estatísticas do teste final, 93
elaboradores, qualidades e extensão dos cadernos de prova, 96-98
treinamento de, 55-59 fatores da escola, 28
equipe de elaboração de itens, fatores familiares, 28
55-59, 58q, 91 Filipinas, 156, 157-158q
equipe para, 55-59, 58q, 91 fluxograma de atividades da avaliação
formato de itens, 18–25, 36-49 nacional, 4, 5f
grupos de referência e, 62 folha de entrada de dados, 81-82,
itens de prática, 48-49 81q
material de estímulo, 33-36, 35q, folha de estilo de itens, 58q
54q, 75, 95, 164 folha de estilo para elaboradores de
modelos de itens de alta qualidade, itens, 58-59
30 folha de respostas, 96, 163
painéis de itens, 5f, 49, 59-62, formato de itens
82-83, 165 pré-testes, 78, 79q
para questionários, 112t, 125-132 questionários, 119-120
rastreamento de itens, 63-65 testes, 18-25, 30, 36-49
revisores, outros, 62 Veja também elaboração de itens;
tarefas, 6t, 7t itens de resposta fechada; itens de
tendenciosidade do item, 33 redação ou resposta dissertativa;
tópicos, 29-65 itens de múltipla escolha; itens
Veja também diagramação e desenho abertos; itens de resposta curta
de itens formato. Veja formato de itens
elaboradores de itens do teste, formuladores de políticas
qualidades e treinamento de, 55-59, definição de, 163
58q, 82-83 desenvolvimento do marco de
encarregado de turma, 115, 138, referência da avaliação e, 10, 14,
145-146 15, 27-28
180 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

etapas da avaliação nacional em instruções


desenvolvimento de teste e para alunos, 143, 145, 148, 149
desenho de questionário e, 6t para aplicador do teste , 147q,
painéis de itens e, 60 154-156
questionários e, 109-110, 112t, 111, Irlanda, 26
116, 117q, 118, 121, 129, 131 item, definição de, 163
garantia de qualidade, 79, 156 itens de múltipla escolha
gerente de elaboração de provas definição de, 18–19
conteúdo do questionário e, 111 em questionários, 133-135, 136
controle de qualidade pelo, 79 formato do item, 18-19, 21-23, 24t,
manual do aplicador de teste e, 151 31-32, 37-41, 37q, 38q, 39q,
rastreamento de itens, 64 40q
responsabilidades, 59, 62 guias de pontuação, 81-82
tarefas, 4f, 7t seleção de itens de teste e, 87-88,
treinamento do avaliador, 102 90t
glossário, 161–166 itens de prática, 48-49, 149q, 151
gráficos, uso de, 50, 52q em questionários, 149
grupo de referência, revisão por, 62 itens de resposta curta
história do desenvolvimento dos itens formato do item, 18-20, 36-37,
do teste, importância de registrar e 41-44, 43q, 44
guardar, 64 itens de crédito parcial e, 44-47,
ID, número de identificação dos 45q, 46q, 47q
alunos, 94, 138 itens de prática e, 48
identidade numérica (ID) para alunos, pontuação manual de, 105
94, 138 itens de resposta obrigatória em
idioma de testes e questionários, 17-18, questionários, 119, 120
120 itens de respostas fechadas
imagens em itens do teste, 50-55, 54q definição de, 163
imagens, uso de, 51q formato do item, 18–19, 20q, 21-23,
impressão e revisão, 6t, 7t 24t, 36, 44q, 47q
definição de revisão, 165 pontuação de, no pré-teste, 82
do manual do aplicador de teste, confiabilidade de, 85
151 pontuação manual de, 22, 24t
do pré-teste, 75-78 itens de teste liberados para o público,
do teste final, 96-99 30
índice de discriminação, 87, 88-89, 90t itens discriminativos, 164
informação contextual, 27-28 itens e formulários ligados, 69–74, 71f,
informações socioeconômicas e 73f, 74t, 91, 95, 163
contextuais dos alunos, 93-95, 120 itens imparciais, 62, 164
informando as escolas sobre a avaliação itens protegidos, 30, 164
nacional, 159-160 líder da equipe, 5f, 6t
inspetores escolares como aplicadores ligação horizontal, 95, 164
de teste, 153 ligação linear, 72, 164
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 181

ligação longitudinal, 164 validade e, 17


ligação vertical, 72-73, 73f, 95, 164 visão geral do, 9–10
listas de verificação Veja também tabela de
para aplicadores de teste, 156, especificações; formato de itens
157-158q marco de referência, 6t, 164
para pré-testes, 76 materiais permitidos durante o teste,
logística, 4f 155
mais de uma categoria de respostas material de estímulo, 33-36, 35q, 54q,
possíveis ao questionário, 133-135, 75, 95, 164
134q Ministério da Educação, 3, 5f
manual de aplicação. Veja manual do modelagem de resposta ao item, 27
aplicador de teste NAEP. Veja Avaliação Nacional do
manual do aplicador de teste Progresso Educacional (Estados
características do, 146, 147q Unidos)
conteúdos de, 144-145 níveis de proficiência, 27
definição de, 164 Nova Zelândia, 11q
detalhes necessários no, 146-149, números nacionais de identificação para
148q alunos (ID), 94
instruções aos alunos, 143, 145, 148, objetividade, 165
149 objetividade do teste, 165
instruções para, 147q, 154-156 opinião dos respondentes sobre os
questões de prática, 149, 149q, questionários, 131-132
150q órgão implementador, 4f, 5f, 6t, 7t
revisão do, 151 padrões predefinidos para testes, 16
teste do, 149, 151 página de rosto do cadernos do
tópicos, 143-151 pré-teste, 75-76
uso do, 145-146 página de rosto, informações na, 75,
visão geral, 143 93-94, 94q, 121
mapas, uso de, 50, 53q painéis
marco de referência da avaliação item, 5f, 49, 59-62, 82-83, 165
apresentação de resultados, 26-27 para revisão de questionários, 131
contextos, 10, 11q, 27–28 Papua Nova Guiné
desenvolvimento, 9–28 currículo de matemática em, 11q
etapas no desenvolvimento do teste tabela de especificações do
e desenho de questionário, questionário em, 116, 117q
6-7t, 8 tabela de especificações para
idioma do teste, 17–18 conteúdo de matemática em, 14,
marco de referência, definição de, 15f
164 testes de matemática em, 23, 25t
população de estudantes para percentagem de tipos de item de teste,
avaliação, 25 21
tabela de especificações do teste, Pesquisa Internacional de Letramento,
11-16 26-27
182 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

PIRLS. Veja Estudo Internacional pré-teste de itens


sobre o Progresso do Letramento em adequação de itens e, 15
Leitura alunos que não tentaram responder
PISA. Veja Programa Internacional de a itens do teste, 79
Avaliação de Alunos confiabilidade e, 84-85
planilha, uso, 64-65, 74-75, 75t dados do teste final e, 90-92
pontuação definição de pré-teste, 165
de itens de múltipla escolha, 81-82 desenho de formulário do pré-teste,
de pré-testes, 78-78, 81q, 83 70-75, 71f, 73f, 74t, 75t
de questões de crédito parcial, dificuldade de itens e, 31, 90
44-47, 45q, 46q, 47q, 82, 83 folha de entrada de dados para,
definição de pontuação, 165 81-82, 81q
guias, 22-23, 41, 44, 58-59, 58q, 65, implementação do pré-teste, 78-79,
81-82, 163 79q
pontuações ou respostas em branco, impressão e revisão de pré-teste,
44, 79-81, 135-136, 164 75-78, 99
Veja também pontuação manual; manual do aplicador de teste e, 149,
itens específicos do teste 151
pontuação dicotômica, 88-89, 165 modelo e amostra de testes e, 30
pontuação manual pontuação do pré-teste, 79-78, 81q
avaliadores e, 102-106 rastreamento de itens e, 63
custo da, 21, 22, 23, 24t tarefas, 5f
de itens de múltipla escolha, 22 teste piloto e, 165
de itens de respostas fechadas, 22, tópicos, 67-74
24t visão geral, 67-70
de pré-testes, 79, 82, 83 pré-teste de itens, 67-85
de questionários, 119 processos cognitivos, 12, 26, 31
de questões abertas de resposta produtos do aprendizado, 31
curta, 22, 24t professores
definição de, 165 avaliação nacional, informados
orientações para, 22–23, 81–83, 90, sobre, 159-160
93, 101, 103-105 como aplicadores de teste, 154, 156
tarefas, 6t, 7t questionários para, 114, 138
vantagens e desvantagens da, 23, 24t Programa Internacional de Avaliação de
verificação cruzada da classificação Alunos (PISA), 20, 30, 41
e, 22, 166 questionários
pontuação na elaboração de itens, 38, afirmações, 126-127
50 aplicação de, 121
pontuação para nenhuma tentativa de categorias de respostas, 127-129
resposta, 79 codificação de respostas, 133-136,
pontuações ou respostas em branco, 134q, 165
44, 79–81, 135-136, 165 componentes do desenvolvimento
população do teste, 25, 60, 74, 165 de, 110, 112t
DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 183

construção de, 107-122 questões delicadas na elaboração de


conteúdo de, 111-116 itens, 129
correspondência com dados do teste, questões específicas para cada país, 119
137-138 rastreamento de itens, 63-65
desenho de, 6–7t, 8, 109-122, 112t recenseadores como aplicadores de
elaboração de itens para, 112t, teste, 153
125-132, 130q redação ou itens de resposta
entrada de dados, 135 dissertativa, 18, 20, 21q, 22, 24t,
final, 112t 105, 165
formato, 129-130, 130q respondentes de questionários, 121
formato do item, 118t, 119-120 resposta incorreta, 103, 165
idioma do, 120 respostas ambíguas aos questionários,
informação contextual, obtenção 135-136
de, 28 respostas ao questionários, 134q
passos do desenvolvimento de, 110 resultados, apresentação de, 26-27
plano de análise de dados, 112t, 122 resumo de dados do questionário,
pré-teste, 112t 120
questões delicadas, 129 revisão. Veja impressão e revisão
questões, 126 revisão e revisores, 49, 59-62, 82-83,
respondentes de, 121 131-132, 151, 165
revisão de, 131-132 rotulando formulários de teste, 69
tabela de especificações para, 112t, seleção de itens do teste, 87–92, 88t,
111, 116, 117q 90t
questionários dos pais, 114, 138 seleção de itens. Veja seleção de itens
questões abertas de resposta curta do teste
confiabilidade e, 85 software, 63-64, 82
definição de, 165 subelemento, 14, 165
formato do item, 18, 20–23, 24t, supervisão dos aplicadores de teste, 156
36, 41-43, 45-46, 46q Tabela de especificações de teste. Veja
guias de pontuação, 44-47 tabela de especificações
pré-testes, pontuação de, 82 tabela de especificações, 11–16
questionários e, 119, 132 para questionários, 112t, 111, 116,
seleção de itens de teste e, 88-90, 117q
90t para testes, 6t, 11-16, 13t, 14t, 5f,
questões de crédito parcial 30, 59-60, 87, 165
definição de, 165 tamanho da fonte. Veja diagramação e
formato do item e, 36 desenho de itens
guias de pontuação para, 44-47, TCT. Veja teoria clássica dos testes
45q, 46q, 47q, 82 tempo disponível para realização do
pré-testes, 83 teste, 23, 69, 155
seleção de itens do teste e, 89-90, Tendências Internacionais no Estudo
90t de Matemática e Ciências (TIMSS),
questões de prática, 149, 149q-150q 12, 14t
184 | SÉRIE P ESQ UISAS DO BANC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL

Tendências Internacionais no Estudo TIMSS. Veja Tendências Internacionais


de Matemática e Ciências (TIMSS), no Estudo de Matemática e Ciências
26n, 30, 128–129 tipo de texto, 30
tendenciosidade de itens, 33 Veja também diagramação e desenho
teoria clássica dos testes (TCT), 84, de itens
92n títulos de itens, 50, 63-64, 69, 96
teoria de resposta ao item (IRT), 84, tradução de testes, 17-18
92n treinamento
teste de linguagem, 105 de avaliadores, 102-105
teste, definição, 166 de elaboradores de itens, 57-59,
teste final 58q, 59
definição de formulário final, 166 para aplicadores de teste, 156
desenho do teste final, 93-96 TRI. Veja teoria de resposta ao item
impressão e revisão de, 96-99 unidades, elaboração de itens para,
produção, 93-99, 47-48, 166
seleção de itens do teste e, 90-92 utilidade do teste, 78, 82, 166
teste piloto, Veja pré-teste validade, 17, 166
Veja também pré-teste de itens variável agregada, 118, 119, 122
teste-piloto, 166 variável direta, 118, 119
Veja também pré-teste de itens verificação cruzada da classificação, 22,
Timor Leste, 153 166

Você também pode gostar