Você está na página 1de 76

LETÍCIA MARIA DE SOUZA CÔRTES

PARÂMETROS COMPORTAMENTAIS DE ITENS DE LÍNGUA PORTUGUESA DA


SECRETARIA MUNICIPAL DE EDUCAÇÃO DO RIO DE JANEIRO: um estudo
avaliativo

Dissertação apresentada ao programa de


Pós-Graduação da Faculdade Cesgranrio,
como requisito para a obtenção do título de
Mestra em Avaliação

Orientadora: Prof.ª Dr.ª Ligia Gomes Elliot

Rio de Janeiro
2021
C828p Côrtes, Letícia Maria de Souza.
Parâmetros comportamentais de itens de língua
portuguesa da Secretaria Municipal de Educação do
Rio de Janeiro: um estudo avaliativo / Letícia Maria de
Souza Côrtes. - 2021.
76 f.; 30 cm.

Orientadora: Prof.ª Dr.ª Ligia Gomes Elliot.


Dissertação (Mestrado Profissional em Avaliação) -
Faculdade Cesgranrio, Fundação Cesgranrio, Rio de
Janeiro, 2021.
Bibliografia: f. 74-76.

1. Estudo e Ensino – Avaliação – Rio de Janeiro (RJ).


2. Secretária Municipal de Educação do Rio de Janeiro
(RJ). 3. Língua Portuguesa – Parâmetros
Comportamentais. I. Elliot, Ligia Gomes. II. Título.

CDD 469.07

Ficha catalográfica elaborada por Anna Karla S. da Silva (CRB7/6298)

Autorizo, apenas para fins acadêmicos e científicos, a reprodução total ou parcial


desta dissertação

Assinatura Data
Dedico esse trabalho a dois grandes
amores: André Luiz (in memorian) e Saulo
José. Por meio deles, entendi que “o correr
da vida embrulha tudo. A vida é assim:
esquenta e esfria, aperta e daí afrouxa,
sossega e depois desinquieta. O que ela
quer da gente é coragem [...]”

(Guimarães Rosa)
AGRADECIMENTOS

À Professora Doutora Ligia Gomes Elliot, todo meu respeito, carinho e admiração,
pela exigência na construção desse estudo.

Aos Professores Doutores Glauco Aguiar e Maria Cristina Rigoni Costa pela
participação na banca examinadora e pelas valiosas contribuições ao estudo.

Ao Professor Doutor Ovidio Orlando Filho, pela singularidade com que constrói
processos de aprendizagem sobre avaliação de políticas públicas na vida dos seus
alunos.

Ao Professor Antônio Augusto por me apresentar a imensidão da avaliação da


aprendizagem escolar numa das maiores redes de ensino da América Latina – a
Secretaria Municipal de Educação do Rio de Janeiro.

À Professora Doutora Tássia Cruz por possibilitar a imersão na avaliação, vista sob a
ótica do Mindset de professores.

A minha família, simplesmente, por existirem e me apoiarem

Aos amigos Ana Cristina da Silva, Saulo Albuquerque, Viviane Lucas, Leila Martins,
Ana Paula Pinto, que torcem por mim incondicionalmente (mesmo quando brigamos).

A minha terapeuta Louise Bonitez, por não permitir que eu desacreditasse de mim
mesma, apesar de todas as dificuldades.

Aos amigos do trabalho, Selma Kronemberg, Natalino Pontual, Antonio Junior, André
Filipe de Almeida, Bernardo Andretti pela generosidade em cederem seus
conhecimentos à construção desse estudo.

A todos, que de alguma forma, me impulsionaram a essa conquista.

A Deus, por estar viva, num contexto tão peculiar e adverso provocado pela pandemia
de COVID-19.
RESUMO

O presente estudo teve como finalidade avaliar parâmetros estatísticos sobre o


comportamento dos itens de Língua Portuguesa, aplicados ao 9º ano, do Banco de
Itens da Secretaria Municipal de Educação do Rio de Janeiro. A partir da mensuração
de informações mais fidedignas sobre o desenvolvimento de competências e
habilidades dos alunos, é possível contribuir para o aprimoramento dos aspectos
técnicos na elaboração de testes cognitivos. Por meio da aplicação da Teoria Clássica
de Itens o estudo analisou parâmetros como porcentagem de acerto do item,
porcentagem de alunos que escolheu cada alternativa de cada item, índice de
discriminação, coeficiente de correlação bisserial e coeficiente de correlação bisserial
por alternativa. A partir da Teoria de Resposta ao Item, o estudo focalizou índices de
discriminação e dificuldade, e ainda a assíntota inferior (erro ao acaso) dos itens. O
estudo adotou os resultados obtidos na pré-testagem dos itens e contou com o
processamento de dados consolidados por meio de software estatístico de tecnologia
livre R. Foram selecionados 38 itens para a amostra do estudo, distribuídos por 19
descritores de Língua Portuguesa do Sistema de Avaliação da Educação Básica – 9º
ano. A partir dos resultados obtidos na pré-testagem, constatou-se que 71% da
amostra apresentaram nível de dificuldade mediana e que 47,3% dos itens foram
considerados com proficiência avançada. Percebeu-se, de forma clara, a necessidade
de maior equalização das proporções das categorias dos itens tanto quanto à
dificuldade, como dos níveis de proficiência.
Palavras-chave: Itens de teste. TCT e TRI. Dificuldade. Proficiência. Avaliação.
ABSTRACT

The purpose of the present study was to evaluate statistical parameters regarding the
behavior of the Portuguese Language items from the Item Bank of the Municipal
Education Secretariat of Rio de Janeiro applied to 9th grade students. It was taken into
consideration that, based on the measurement of more reliable information on the
development of competences and skills of students, it is possible to contribute to the
improvement of technical aspects in the development of cognitive tests. The study
verified through the Classical Test Theory parameters such as percentage of
correctness of the item, percentage of students who chose each alternative of each
item, discrimination index, biserial correlation coefficient and biserial correlation
coefficient per alternative. The Item Response Theory focused on the following indexes
- discrimination, difficulty, and inferior asymptote (random error). The study adopted
the results obtained in the pre-testing of the items and it relied on the processing of
consolidated data through free technology statistical software R. The study sample had
selected 38 items, distributed by 19 Portuguese Language descriptors of the Basic
Education Assessment System – 9th grade. From the results obtained by the pre-
testing, it was found that 71% of the sample items had a median level of difficulty and
47,3% of the items were considered as of advanced proficiency. It was clear that there
was a need for better equalization of the proportions of the categories of the items,
both in terms of difficulty and levels of proficiency.
Keywords: Items. Classical Test Theory. Item Response Theory. Difficulty.
Proficiency. Assessment.
LISTA DE ILUSTRAÇÕES

Figura 1 Exemplo de Curva Característica do Item segundo a TRI............... 37


Quadro 1 Indicadores e padrões referentes à dificuldade do item.................. 40
Quadro 2 Indicadores e padrões referentes ao Índice de discriminação do
item.................................................................................................. 41
Quadro 3 Indicadores e padrões referentes ao coeficiente bisserial por
alternativa......................................................................................... 42
Figura 2 Níveis da Escala SAEB de Língua Portuguesa 9º ano..................... 42
Quadro 4 Cotejo de descritores referentes ao Tópico I – Procedimentos de
leitura da matriz SAEB de Língua Portuguesa................................. 46
Quadro 5 Cotejo de descritores referentes ao Tópico II - implicações do
suporte, do gênero e /ou do enunciador na compreensão do texto
da matriz SAEB de Língua Portuguesa............................................. 47
Quadro 6 Cotejo de descritores referentes ao Tópico III – Relação entre
textos da matriz SAEB de Língua Portuguesa.................................. 47
Quadro 7 Cotejo de descritores referentes ao Tópico IV - Coerência e
coesão no processamento do texto da matriz SAEB de Língua
Portuguesa....................................................................................... 48
Quadro 8 Cotejo de descritores referentes ao Tópico V - Relações entre
recursos expressivos e efeitos de sentido da matriz SAEB de
Língua Portuguesa........................................................................... 48
Quadro 9 Cotejo de descritores referentes ao Tópico IV – Variação
Linguística........................................................................................ 49
Quadro 10 Descritores do Banco de Itens SME-RJ cotejados com os
descritores do SAEB......................................................................... 52
Quadro 11 Classificação do nível de proficiência de Língua Portuguesa no 9º
ano, segundo SAEB e empresa consultora...................................... 53
Quadro 12 Distribuição de itens selecionados por descritor, código do item no
Banco de Itens, nível e classificação de proficiência e
classificações TCT........................................................................... 55
Quadro 13 Distribuição do título/assunto do texto-base e gênero textual por
descritor........................................................................................... 58
Figura 3 Comparação entre curvas características dos itens 1, 2 e 3
referentes ao descritor D1................................................................ 65
Figura 4 Comparação entre curvas características dos itens 9 e 10
referentes ao descritor D4................................................................ 66
Figura 5 Comparação entre curvas características dos itens 22 e 23
referentes ao descritor D11.............................................................. 67
Figura 6 Comparação entre curvas características dos itens 28 e 29
referentes ao descritor D14.............................................................. 68
Figura 7 Comparação entre curvas características dos itens 30 e 31
referentes ao descritor D15.............................................................. 69
Figura 8 Comparação entre curvas características dos itens 32 e 33
referentes ao descritor D18.............................................................. 69
Figura 9 Comparação entre curvas características dos itens 34 e 35
referentes ao descritor D19............................................................... 70
LISTA DE TABELAS

Tabela 1 Avaliação dos itens totais de Língua Portuguesa do 9º ano............. 51


Tabela 2 Distribuição de itens testados por descritor de referência................ 52
Tabela 3 Distribuição do quantitativo de itens testados................................... 54
Tabela 4 Distribuição de itens por descritor e classificação de proficiência .... 56
Tabela 5 Distribuição dos itens do 9º ano, por nível da escala SAEB de
desempenho em Leitura e índices de dificuldade e de
discriminação................................................................................... 57
Tabela 6 Distribuição do quantitativo de textos-base por gênero textual......... 59
Tabela 7 Estatísticas dos itens com discriminação baixa pela TCT................ 61
SUMÁRIO

1 DESAFIOS PARA A AVALIAÇÃO ESCOLAR NA REDE


MUNICIPAL DO RIO DE JANEIRO.................................................... 12
1.1 ANTECEDENTES E CONTEXTO ...................................................... 12
1.2 O CONSTRUCTO DA AVALIAÇÃO ................................................... 13
1.3 OBJETIVOS, QUESTÕES E JUSTIFICATIVAS DO ESTUDO ...........
17
2 DO DESENHO À IMPLEMENTAÇÃO DO PROJETO........................ 20
2.1 PROCEDIMENTOS DE ESCOLHA DA INSTITUIÇÃO AVALIADORA 20
2.2 MECANISMOS DE COMPOSIÇÃO DO BANCO DE ITENS............... 25
2.3 SISTEMA CONCEITUAL PARA ANÁLISES PSICOMÉTRICAS DE
ITENS EM TESTES DE DESEMPENHO COGNITIVO....................... 28
2.3.1 Teoria clássica dos testes............................................................... 33
2.3.2 Teoria de resposta ao item..............................................................
35
3 METODOLOGIA................................................................................. 38
3.1 A ABORDAGEM.................................................................................. 38
3.2 O INSTRUMENTO.............................................................................. 38
3.3 CATEGORIAS DE ANÁLISE............................................................... 40
3.4 PARTICIPANTES DO ESTUDO.......................................................... 43
3.5 COLETA E ANÁLISE DE DADOS.......................................................
44
3.5.1 Consulta aos documentos relacionados à criação do Banco de
Itens.................................................................................................... 44
3.5.2 Cotejo dos descritores..................................................................... 45
3.5.3 Seleção dos itens para avaliação dos descritores.........................
49
4 RESULTADOS.................................................................................... 51
4.1 VISÃO GERAL.................................................................................... 51
4.2 INFORMAÇÕES ESPECÍFICAS......................................................... 54
4.3 PARTES COMPONENTES DO ITEM.................................................. 57
4.4 ANÁLISE DO COMPORTAMENTO DO ITEM..................................... 60
4.5 ANÁLISE DE PARÂMETROS DA TRI................................................. 64
4.6 CONSIDERAÇÕES FINAIS................................................................. 71
4.7 RECOMENDAÇÕES........................................................................... 73
REFERÊNCIAS................................................................................... 74
12

1 DESAFIOS PARA A AVALIAÇÃO ESCOLAR NA REDE MUNICIPAL DE ENSINO


DO RIO DE JANEIRO

1.1 ANTECEDENTES E CONTEXTO

Desde a década de 1990, incluídas nas pautas das políticas públicas, as


avaliações externas ganharam visibilidade e credibilidade no cenário nacional e se
tornaram importantes mecanismos de monitoramento do desempenho escolar de
Sistemas Educacionais. A avaliação em larga escala encontrou terreno fértil para sua
consolidação em 1995 e se alinhou ao texto legal explicitado pela Lei de Diretrizes e
Bases (LDB), em 1996:

Compete à União assegurar o processo nacional de avaliação do


rendimento escolar no ensino fundamental, médio e superior, em
colaboração com os sistemas de ensino, objetivando a definição de
prioridades e a melhoria de ensino. (BRASIL, 1996, não paginado).

Assim, traduzidas como indicadores da qualidade educacional, as avaliações


externas são, de igual modo, propositoras e mobilizadoras de políticas nas escolas
públicas brasileiras. Legitimar, portanto, a avaliação como referencial de medida da
qualidade dos processos educativos na escola tornou-se, não só importante
instrumento de orientação das políticas públicas, como também mecanismo de
empoderamento da sociedade civil para alcançar parâmetros de eficiência e eficácia
da aprendizagem escolar.
Diferente da avaliação da aprendizagem escolar, que preconiza o
detalhamento das informações individuais sobre o desenvolvimento dos alunos e é
tradicionalmente presente no contexto escolar, a avaliação em larga escala tem por
finalidade produzir informações sobre o agregado da população avaliada. Assim, as
avaliações em larga escala utilizam instrumentos como testes de proficiência, em
diferentes áreas do conhecimento, além de questionários para avaliação de fatores
intra e extraescolares. Considera-se ainda que, por serem organizadas de forma
padronizada para um grande número de pessoas, os resultados de tais avaliações
podem permitir reflexões acerca dos rumos de um dado sistema de ensino e contribuir
para a implementação de ações mais equitativas para uma educação de qualidade.
Para além da polêmica polarização estéril entre iniciativas neoliberais versus
corporativistas (AÇÃO..., 2017), a discussão sobre a implementação de políticas
públicas educacionais adotadas pela Secretaria Municipal de Educação do Rio de
13

Janeiro (SME-RJ), atualmente, como a implementação do projeto Banco de Itens -


depositório de itens para compor a prova de alunos e fornecer insumos às diversas
avaliações, traz à baila relevantes considerações a despeito de conceitos como
centralização, responsabilização e avaliação.
A despeito dos procedimentos técnico-estatísticos complexos, conseguidos a
partir de parâmetros pedagógicos e psicométricos sobre o desempenho dos alunos,
os avanços da avaliação externa, no Brasil, conduzem, não só à apropriação de
resultados, como também ao desenvolvimento de intervenções estratégicas de gestão
educacional. Segundo Elliot e Lück (2014), esses avanços provem a dois fatores: a)
incorporação de metodologias de gestão pública baseadas em critérios de eficiência,
de planejamento estratégico e direcionadas para a melhoria de resultados dos
serviços públicos; e b) propagação de um modelo de reforma educacional
fundamentado na avaliação educacional e para a melhoria da qualidade da educação.
O município do Rio de Janeiro e o Banco Internacional para Reconstrução e
Desenvolvimento (BIRD) firmaram, em 26/08/2014, um acordo de empréstimo para
realizar o Projeto de Promoção da Excelência na Gestão Pública do Município do Rio
de Janeiro – Projeto Rio de Excelência, que é um de Projeto de Assistência Técnica,
“com o objetivo de aprofundar e ampliar as reformas suportadas pelo empréstimo de
Políticas de Desenvolvimento” (BANCO INTERNACIONAL PARA RECONSTRUÇÃO
E DESENVOLVIMENTO, 2016).
O Projeto Rio de Excelência, no âmbito da SME-RJ, disponibilizou os recursos
financeiros do BIRD,

Visando ao aprimoramento da prestação de serviços públicos em


educação, especialmente no que tange ao monitoramento e à
avaliação da qualidade da educação, perceptível no desenvolvimento
acadêmico dos alunos da Rede Municipal de ensino e nos resultados
do trabalho pedagógico de seus professores. (BANCO
INTERNACIONAL PARA RECONSTRUÇÃO E
DESENVOLVIMENTO, 2016, não paginado).

1.2 O CONSTRUCTO DA AVALIAÇÃO

Inerente aos processos cotidianos de aprendizagem, a avaliação se destina a


julgar o valor de algo em determinados contextos. É, pois, “uma atividade que envolve
legitimidade técnica e legitimidade política na sua realização” (FERNANDES;
FREITAS, 2008, p. 17). O pressuposto da investigação sistemática constitui-se na
14

coletividade e compreende, assim, os diferentes sujeitos envolvidos na apropriação e


desenvolvimento de conhecimentos, saberes, criações, valores e identidades,
resultantes da história da humanidade. Desta forma, além dos princípios que visam o
bem comum de todos os stakeholders, ou interessados na avaliação e seus
resultados, vale ressaltar que é, pois, na legitimidade do coletivo que a
responsabilidade pela avaliação se configura como protagonista das interações de
aprendizagens. Neste sentido, a responsabilidade pela avaliação do aluno não deve
ocorrer de forma isolada, a cargo exclusivo do professor. Considerar a escola como
lugar da construção da autonomia e da cidadania desloca, de igual forma, o papel da
avaliação para além do interior físico da escola e traz à baila reflexões significativas
acerca do presente e do futuro escolar.
A avaliação do sistema escolar envolve a avaliação do conjunto de escolas de
uma dada rede de ensino, na qual o poder público tem a responsabilidade principal.
Nesta esfera, a avaliação se revela como um importante mecanismo de gestão para
fornecer informações e subsídios na tomada de decisão dos gestores. É de suma
importância conhecer o que está acontecendo para impulsionar uma intervenção
qualitativa sobre a realidade, com vistas à realização de ajustes necessários.
Não menos importante é observar que, segundo Castro (2009), só sistemas
descentralizados conseguem analisar as particularidades de cada uma das escolas e
identificar o que elas precisam para um melhor desempenho dos alunos, considerando
as características de cada uma. Para a autora, “independente dos motivos que levam
a criação de sistemas de avaliação, parece haver concordância quanto ao seu
importante papel como instrumento de melhoria da qualidade” (CASTRO, 2009, p. 6).
No tocante à importância do exposto e a necessidade de permanentes trocas
entre objetivos e esferas da avaliação educacional, que incluem a avaliação da
aprendizagem dos alunos, avaliação da instituição e avaliação do sistema escolar,
cabe ressaltar que um nível de avaliação não invalida o outro. Soares (2009, p. 30)
afirma que “os sistemas de medida do aprendizado dos alunos por estruturas externas
às escolas não substituem as avaliações feitas pelos professores como parte da
implementação de seu projeto pedagógico.” A natureza distinta dos objetivos da
avaliação pode fomentar reflexões e dirimir possíveis dúvidas inerentes ao complexo
processo da avaliação educacional. Desta forma, quando se pretende acompanhar o
desempenho de todos os alunos de um sistema de ensino, o uso de uma medida de
resultados é fundamental. Analisar o todo limita a consideração individual e permite,
15

além da comparabilidade do desempenho dos alunos, quando colocados em níveis


de escalas de proficiência, a visualização dos progressos da educação, ao longo dos
anos.
A sistemática de acompanhamento da aprendizagem dos alunos, por meio das
Provas Bimestrais, fora instituída em 2009 na Rede Municipal de Ensino do Rio de
Janeiro. As avaliações, elaboradas pela equipe técnica-pedagógica, do nível central
da SME-RJ para as disciplinas de Leitura, Produção Textual, Matemática e Ciências
consistiam em monitorar todos os alunos do 3º ao 9º ano do Ensino Fundamental de
todas as unidades escolares como uma espécie de termômetro desta rede de ensino
(BANCO INTERNACIONAL PARA RECONSTRUÇÃO E DESENVOLVIMENTO,
2016). As provas bimestrais objetivam, a partir das Orientações Curriculares,
documento legal da SME-RJ, mensurar, bimestralmente, o desenvolvimento de
competências e habilidades dos alunos, nos diferentes anos escolares.
De 2009 até 2018, a SME-RJ, recorrendo às avaliações bimestrais, monitorou,
por meio de escores, o desenvolvimento da aprendizagem dos alunos da Rede, além
de organizá-los em padrões metodológicos de níveis de aprendizagem. O modelo
avaliativo vigente propunha uma comparabilidade entre os resultados dos bimestres,
anos letivos e escolares, rede de ensino, como um todo, coordenadorias de educação
e escolas, para orientação do desempenho dos alunos. Objetivou-se com tal
monitoramento, que a partir de uma matriz de referência direcionada a cada um dos
anos escolares, uma avaliação que pudesse assumir caráter diagnóstico para que o
gestor de cada escola, em conjunto com seus professores, tivesse subsídios palpáveis
de intervenção qualitativa no diálogo para a aprendizagem efetiva dos alunos (BANCO
INTERNACIONAL PARA RECONSTRUÇÃO E DESENVOLVIMENTO, 2016).
Contudo, a organização em níveis de aprendizagem dos alunos, numa
perspectiva macro processual, ainda careceria de melhorias na produção dos
resultados sobre o desempenho dos alunos. A possibilidade de a SME-RJ adquirir um
sistema, como um banco de itens, que viabilizasse, via testes cognitivos
padronizados, a mensuração de informações mais fidedignas sobre o
desenvolvimento de competências e habilidades dos alunos colaboraria para
aperfeiçoar os aspectos técnicos dos instrumentos de avaliação e a formação
especializada da equipe técnica em Avaliação do Desempenho Escolar, das
Coordenadorias Regionais de Educação (CRE) e dos professores regentes. Outro
fator relevante para aquisição deste sistema refere-se à natureza econômica da
16

gestão na educação. Isto significa afirmar que, em um curto prazo de tempo, seria
possível minimizar os gastos financeiros com avaliações externas – aplicadas em
anos distintos das avaliações externas nacionais e com vistas a mensurar o
desenvolvimento das habilidades e competências dos alunos, além de, em médio
prazo, consolidar a cultura da avaliação nesta rede de ensino, fortalecendo todos os
envolvidos no processo.
Foi, “com vistas ao aprofundamento e ampliação das reformas pela cessão” de
política de desenvolvimento, que o Rio de Janeiro firmou com o BIRD, em 2014, “um
acordo de empréstimo para a execução” do projeto de promoção da excelência na
gestão pública do município. O acordo denominado Technical Assistance Loan
(Empréstimo de Assistência Técnica) resultou no projeto intitulado Rio de Excelência,
que no âmbito da SME-RJ viabilizou recursos financeiros para melhorias na prestação
de serviços públicos em educação, principalmente no que diz respeito à avaliação e
ao monitoramento da qualidade da educação (BANCO INTERNACIONAL PARA
RECONSTRUÇÃO E DESENVOLVIMENTO, 2016).
Em aderência a este projeto de assistência técnica, a contratação de um Banco
de Itens para a SME-RJ teve como objetivo geral “Aprimorar os aspectos técnicos dos
instrumentos de avaliação e a formação técnico-especializada da Equipe de Avaliação
do Desempenho Escolar, das Coordenadorias Regionais (CRE) e dos professores
regentes” (RIO DE JANEIRO, 2016).
A proposta de contratação prevê ainda como objetivos específicos:

a) Elaborar matrizes de Referência de Avaliação nas disciplinas de


Ciências, História e Geografia, e revisar a Matriz de Referência de
Matemática; b) Revisar e aprimorar 7.000 itens cognitivos já
pertencentes a SME-RJ nas disciplinas de língua portuguesa,
Matemática, História, Geografia e Ciências; c) Desenvolver um
curso de formação de professores de Língua portuguesa e
Matemática na elaboração de itens cognitivos, de acordo com os
padrões de qualidade das avaliações nacionais; d) Desenvolver um
Banco de itens com pelo menos 2.500 itens cognitivos inéditos de
acordo com a teoria de Resposta ao item (TRI), nas disciplinas de
Língua Portuguesa e Matemática, para o desenvolvimento das
avaliações bimestrais do 3º ao 9º ano do Ensino Fundamental
(BANCO INTERNACIONAL PARA RECONSTRUÇÃO E
DESENVOLVIMENTO, 2015, não paginado).

Em 2017, portanto, iniciou-se por meio da SME-RJ o processo de


implementação do projeto Banco de Itens, com vistas aos avanços e benefícios para
17

melhoria das características técnicas dos resultados das Provas Bimestrais. O projeto
tinha em seu escopo que a aquisição de um sistema desta natureza poderia contribuir
para obtenção do máximo de qualidade nas estimativas dos itens (padrões de
dificuldade, confiabilidade, medidas de competências), além de sofisticar os relatórios
técnico-pedagógicos e aproximar a tecnologia da avaliação em larga escala ao
cotidiano do contexto escolar da SME-RJ.
A expectativa para a exequibilidade do projeto é que, a partir da implementação
de um Banco de Itens, o processo de acompanhamento do desenvolvimento do
desempenho dos alunos disponha de fineza de detalhes. Confiabilidade e validade
dos dados, por meio de parâmetros estatísticos são fatores que impulsionam
tecnicamente a administração de informações em níveis pedagógicos e gerenciais.
De igual forma, os resultados permitirão também colaborar efetivamente com o
detalhamento de intervenções pedagógicas para (re)alinhamento no processo ensino-
aprendizagem, sempre que se fizer necessário.

1.3 OBJETIVO, QUESTÕES E JUSTIFICATIVA DO ESTUDO

Mensurar a qualidade da educação em uma das maiores redes de ensino da


América Latina, a da Secretaria de Educação do Município do Rio de Janeiro, é tarefa
desafiadora. Com uma população de aproximadamente 500 mil alunos, a necessidade
de um monitoramento mais aprimorado dos resultados das Provas Bimestrais de
Língua Portuguesa dos alunos da rede municipal de ensino do Rio de Janeiro para
efetuar uma comparação entre escolas, turmas e anos escolares, denominada
latitudinal e uma comparação longitudinal permitirá que escores atribuídos aos alunos,
advindos dos testes educacionais reflitam conhecimentos e habilidades cognitivas dos
mesmos. Para tanto, a testagem prévia dos itens é de suma importância para que
parâmetros estatísticos referentes ao comportamento das respostas dos alunos sejam
identificados.
Portanto, o objetivo do presente estudo é avaliar a qualidade dos itens de
Língua Portuguesa, do 9º ano do Ensino Fundamental do Banco de Itens da SME-RJ.
A escolha pelo 9º ano se deve ao fato desta ser a etapa final do Ensino
Fundamental e de ter sido escolhida pelo Ministério da Educação para a avaliação da
qualidade dos sistemas de ensino. Como avaliar a qualidade pressupõe uma
determinação sistemática de critérios de julgamento, o estudo pretende abordar as
18

características definidoras de qualidade de itens de Língua Portuguesa, pressupostas


por parâmetros estatísticos da Teoria Clássica de Testes (TCT) e da Teoria de
Resposta ao Item (TRI). Em relação a TCT, destacou-se como categoria de avaliação
a dificuldade, na qual observa-se o percentual de respondentes que acertaram o item.
Já em relação a TRI, este estudo versa sobre o modelo logístico de três parâmetros,
balizados por estudiosos como Lord e Novick (1968 apud KLEIN, 2013), Hambleton,
Swaminathan e Rogers (1991 apud KLEIN, 2013), Hambleton (1993 apud KLEIN,
2013), Andrade e Klein, Andrade (1999 apud KLEIN, 2013) Tavares e Valle (2000
apud KLEIN, 2013). São eles: discriminação, dificuldade e assíntota inferior.
Desta forma, as questões avaliativas, derivadas do objetivo do estudo são
oriundas dos estudos de Klein (2013) e permitiram verificar parâmetros estatísticos
valorativos sobre o comportamento dos itens de Língua Portuguesa, do 9º ano, do
Banco de Itens da SME/RJ, para as provas bimestrais. São elas:
1) Em que medida os itens de Língua Portuguesa do Banco de Itens SME-RJ
apresentam dificuldades para os alunos do 9º ano desta rede de ensino?
2) Em que medida os itens de Língua Portuguesa do Banco de Itens da SME-
RJ demonstram qualidade técnica segundo os pressupostos da TRI?
A importância do estudo reside no fato de impulsionar tecnicamente uma
avaliação sobre o gerenciamento de informações e parâmetros estatísticos de
dificuldades da análise comportamental de itens de Língua Portuguesa, bem como a
qualidade técnica dos itens. Seus resultados permitirão colaborar com o
aprimoramento contínuo das avaliações de Língua Portuguesa.
Além disso, o estudo possibilita a compreensão sobre a utilização de um
instrumental técnico e estatístico de pouco manuseio, em geral, entre professores,
gestores de equipes técnicas da SME-RJ. Não se trata de minimizar a complexidade
inerente aos procedimentos de descrição do desempenho dos alunos, por meio de
análise de aspectos como dificuldade (padrões de itens fáceis, médios e difíceis) e
níveis de proficiência. Na verdade, com tais análises é possível trazer para o debate
formas facilitadoras destes procedimentos estatísticos e contribuir para a formação da
cultura de avaliação, com vistas à tomada de decisão por gestores da SME-RJ.
Assim, por meio do pontapé inicial alavancado com este estudo, o setor de
avaliação desta Secretaria poderá subsidiar diretamente e, com maior aporte técnico,
as intervenções pedagógicas necessárias para a aprendizagem dos alunos, no que
diz respeito à atuação das equipes técnico-gerenciais, responsáveis pela elaboração
19

de material pedagógico dos anos escolares, pela formação continuada de professores


e até mesmo pela elaboração de novos itens para retroalimentação do banco de itens
adquirido. Quanto aos professores, poderão receber radiografia mais aprimorada das
maiores dificuldades e potencialidades de seus alunos. Trata-se do retorno do
processo da avaliação para seus stakeholders.
20

2 O BANCO DE ITENS: DO DESENHO E IMPLEMENTAÇÃO AO SISTEMA


CONCEITUAL PARA ANÁLISES PSICOMÉTRICAS

Embora este estudo não pretenda avaliar as diferentes dimensões, inerentes à


implementação do projeto Banco de Itens na SME-RJ, faz-se necessário uma breve
contextualização sobre os caminhos percorridos para a aquisição de um sistema
complexo que tem como objetivo primeiro o armazenamento de itens para composição
de testes cognitivos, com vistas à avaliação sistêmica da referida rede de ensino. A
complexidade e ineditismo deste projeto ancoram a lógica conceitual para a análise
psicométrica dos itens – objeto deste estudo avaliativo.
Este capítulo, portanto, destina-se a apresentar a configuração estrutural para
implementação do Banco de Itens na SME-RJ, além de base epistemológica que
baliza o comportamento estatístico de itens em uma avaliação de larga escala. São
dispostos no capítulo: procedimentos de escolha da instituição avaliadora; os
mecanismos de composição do banco de Itens, desde a elaboração de itens até a
entrega de um sistema que processa informações sobre as características técnicas
de itens; análises psicométricas mais usuais em testes de desempenho; além dos
pressupostos que compõem o sistema conceitual para a análise psicométrica de itens
utilizados em testes de desempenho cognitivo.

2.1 PROCEDIMENTOS DE ESCOLHA DA INSTITUIÇÃO AVALIADORA

De acordo com o Manual para Contratação de Pessoa Jurídica com recursos


externos do BIRD e BID (BANCO INTERNACIONAL PARA RECONSTRUÇÃO E
DESENVOLVIMENTO, 2015), o processo de avaliação para a escolha da
empresa/instituição em serviços de consultoria no município do Rio de Janeiro é
estritamente confidencial. No entanto, as etapas pelas quais se configura este
processo de seleção destacam o ordenamento jurídico brasileiro e estabelecem
direitos e obrigações contratadas, além obrigatoriedade de aplicação de regras de
licitação do agente financiador. Este processo é denominado licitação pública e pode
ser baseado em diferentes critérios.
Uma das modalidades de seleção mais indicadas para a contratação de
consultores – pessoa jurídica - é intitulada Seleção Baseada na Qualidade e no Custo
e é constituída por 15 etapas, a saber: elaboração do Termo de Referência e Memória
de Cálculo; primeira não-objeção do Banco Mundial; publicação da solicitação de
21

manifestação de interesse; preparação da Lista Curta; preparação da solicitação de


propostas; segunda não-objeção do Banco Mundial; envio da solicitação de propostas
às empresas; abertura pública de propostas técnicas; avaliação das propostas
técnicas; terceira não-objeção do Banco Mundial; abertura pública das propostas
financeiras; avaliação das propostas financeiras; negociação e rubrica do contrato;
quarta não-objeção do Banco Mundial; assinatura do contrato (BANCO
INTERNACIONAL PARA RECONSTRUÇÃO E DESENVOLVIMENTO, 2015).
Outro tipo de modalidade de seleção também indicada para trabalhos de
grande complexidade, segundo o BIRD (BANCO INTERNACIONAL PARA
RECONSTRUÇÃO E DESENVOLVIMENTO 2015), é a Seleção Baseada na
Qualidade. Esta modalidade segue os mesmos trâmites da anterior, atendendo ainda
a mais três especificidades: “os consultores da Lista Curta entregam apenas proposta
técnica, sem proposta financeira”; ou o contratante pode solicitar a proposta financeira
ao candidato à consultoria que “obtiver a nota técnica mais alta”; não há avaliação
combinada entre proposta técnica e financeira.
Assim, conforme as Diretrizes para a seleção e contratação de consultores
financiados por empréstimos do BIRD e créditos de doação pelos mutuários do Banco
Mundial (BANCO INTERNACIONAL PARA RECONSTRUÇÃO E
DESENVOLVIMENTO, 2011), a seleção da empresa de consultoria para
implementação do projeto Banco de Itens deu-se por meio de Licitação Pública
Nacional do tipo Seleção Baseada no Custo e na Qualidade, no qual o método pré-
definido para esta modalidade de licitação pressupõe menor preço proposto pelas
empresas elegíveis e complexidade do objeto do projeto.
Para tal seleção, as premissas para o contrato foram dispostas no Aviso de
Solicitação de Manifestação de Interesse, nº EC-8/2016 – SME-RJ, publicado no
Diário Oficial do Rio de Janeiro, em 05/09/2016, e salientam que “as normas do Banco
Mundial exigem que os consultores prestem assessoria profissional, objetiva e
imparcial, priorizando sempre os interesses do cliente” (RIO DE JANEIRO, 2016).
Segundo ainda o mesmo Aviso de Solicitação de Manifestação de Interesse
(2016), as empresas/instituições deveriam ser selecionadas obedecendo:

(i) Experiência em desenvolvimento de projeto de avaliação em larga


escala na área educacional com o uso da TCT e o uso da TRI;
(ii) Experiência em desenvolvimento de Banco de Itens para
avaliações em larga escala na área educacional;
22

(iii) Experiência em transferência de conhecimento e em formação de


professores para elaboração de itens cognitivos para avaliações
em larga escala;
(iv) Porte, organização e administração. (RIO DE JANEIRO, 2016, p.
34).

Os tópicos descritos são oriundos de uma faixa de pontuação atribuída como


critério de avaliação para as empresas consultoras, conforme indica o Manual para
Contratação de Pessoa Jurídica com recursos externos do BIRD e BID (BANCO
INTERNACIONAL PARA RECONSTRUÇÃO E DESENVOLVIMENTO, 2015).
Dentre os tópicos descritos na faixa de pontuação, a experiência da empresa
que se candidatou por meio do Aviso da Manifestação e Interesse ao processo de
licitação é o critério mais expressivo para classificar as empresas. Isto diferentemente
dos serviços comuns, a consultoria visa oferecer um serviço de elevada complexidade
intelectual, com contribuição de conhecimento ao desenvolvimento social.
Importante é notar também que o destaque dado aos inúmeros critérios e
etapas de seleção sobre a escolha de instituição avaliadora para a implementação de
um banco de itens referenda à legitimidade dada ao rigoroso processo de licitação
pública na SME-RJ para aquisição de serviços prestados. Aliado a este pressuposto,
o critério qualidade, em detrimento do critério custo, foi determinante no momento de
escolha pelas instituições, ao longo do processo licitatório, conforme as observações
advindas do próprio Manual para Contratação de Pessoa Jurídica com recursos
externos do BIRD e BID (BANCO INTERNACIONAL PARA RECONSTRUÇÃO E
DESENVOLVIMENTO, 2015). Segundo este documento, “o peso relativo atribuído à
qualidade e ao custo será determinado em cada caso, a depender da natureza do
serviço” (BANCO INTERNACIONAL PARA RECONSTRUÇÃO E
DESENVOLVIMENTO, 2015).
Assim, das nove instituições inicialmente inscritas na Manifestação de Interesse
em participação do processo licitatório para a implementação de um banco de itens
na SME-RJ, apenas seis foram classificadas para a composição da chamada lista
curta. De acordo com o referido Manual, a formação da lista curta ocorre:

Após o recebimento das Manifestações de Interesse, a Comissão


Técnica deverá elaborar a lista de curta de 6 (seis) empresas que
tenham manifestado interesse e tenham as qualificações mínimas
requeridas.
23

A seleção é feita com base na experiência da empresa, especialmente


analisando-se os contratos semelhantes executados quanto a
qualidade e pontualidade da entrega dos produtos. Não se analisa
pessoal da empresa nesta etapa. (BANCO INTERNACIONAL
PARA RECONSTRUÇÃO E DESENVOLVIMENTO, 2015, p. 34).

De acordo com ata publicada no Diário Oficial do Rio de Janeiro, em 26 de


janeiro de 2017, das seis instituições inscritas na formação da Lista Curta, apenas três
compareceram à reunião com a Comissão Técnica para o Projeto de Promoção da
Excelência na Gestão Pública do Município do Rio de Janeiro e Comissão Especial
de Licitação da SME-RJ para orientações técnicas sobre o projeto. A presença destas
três instituições nesta reunião e o respectivo envio de suas propostas, por meio da
Solicitação Padrão de Proposta, configuraram etapa de seleção para a concorrência
final entre as mesmas.
Não menos importante é observar que cada uma das etapas do processo
licitatório aqui descrito seguem os padrões de contrato para consultores criados pelo
BIRD e refletem o que é considerado como melhores práticas de gestão de contratos.
De acordo com o documento intitulado Solicitação de Padrão de Proposta – Seleção
de Consultores (BANCO MUNDIAL, 2016), a proposta é composta por oito seções,
divididas em duas partes. Parte I - Procedimentos e requisitos da seleção: Carta
convite; Instruções aos Consultores e Folha de Dados. Parte II - Condições de contrato
e minutas de contrato: Proposta Técnica – Formulários Padrão; Proposta Financeira
– Formulários Padrão; Países Elegíveis; Política do Banco Mundial; Política do Banco
Mundial; Termos de Referência; Minutas padrão do contrato.
As inúmeras etapas apresentadas para o processo de escolha da instituição
avaliadora constituem os procedimentos de uma licitação pública no município do Rio
de Janeiro. Segundo as diretrizes do BIRD, a definição da modalidade da licitação é
baseada no valor estimado e na complexidade do projeto. Dada a alta complexidade
do projeto e seu respectivo impacto em longo prazo na SME-RJ, houve durante o
processo licitatório mudança da modalidade de licitação de Seleção Baseada na
Qualidade e no Custo para Seleção Baseada na Qualidade. Não foram encontrados
documentos ou publicações que especifiquem os motivos de tal transição. No entanto,
de acordo com as etapas para consultoria de pessoa jurídica com recurso externos
do BIRD e BID no modelo Seleção Baseada na Qualidade e no Custo/Seleção
Baseada na Qualidade, é possível verificar que como a modalidade Seleção Baseada
24

na Qualidade segue os mesmos trâmites da modalidade que considera qualidade e


custo, considerando as poucas exceções relacionadas à proposta financeira, pode-se
inferir que tal mudança está apoiada na valorização do aporte técnico e intelectual
inerentes ao serviço de consultoria.
Em conformidade, portanto, com o Manual para Contratação de Pessoa
Jurídica com recursos externos do BIRD e BID (BANCO INTERNACIONAL PARA
RECONSTRUÇÃO E DESENVOLVIMENTO, 2015), na modalidade Seleção Baseada
na Qualidade, a avaliação das três instituições concorrentes preconizou:
a) Quanto à proposta técnica:
 experiência específica da Empresa/Consórcio;
 adequação e qualidade da metodologia proposta e plano de trabalho em
resposta ao Termo de Referência;
 qualificações e competências dos especialistas principais para o serviço;
 experiência em Avaliação de Larga Escala.

b) Quanto à proposta financeira:


Na modalidade adotada para licitação de empresa de consultoria de um projeto
de grande porte como o Banco de Itens, a abertura da proposta financeira foi
precedida pelos resultados da pontuação técnica em cada um dos critérios
apresentados anteriormente, além da nota técnica global. Assim, a SME-RJ informou
o prazo de comparecimento à reunião somente para as empresas que obtiveram
pontuação mínima no critério proposta técnica, com o objetivo de divulgar as
respectivas notas técnicas.
Segundo ata de divulgação das notas técnicas, publicada no Diário Oficial do
Município do Rio de Janeiro, no dia 18 de abril de 2017, página 38, é possível verificar
que as três empresas integrantes da Lista Curta alcançaram as notas mínimas em
suas respectivas propostas técnicas. A abertura das notas se deu por meio de uma
reunião, na qual, de acordo com as diretrizes para seleção de contratação de
consultores, financiados pelo BIRD, só poderiam estar presentes os respectivos
representantes das empresas concorrentes, a Comissão Especial para Licitação e a
Comissão de Avaliação Técnica da SME-RJ. No caso da modalidade de licitação
Seleção Baseada na Qualidade, a SME-RJ solicitou abertura da proposta financeira
apenas à empresa consultora que obteve a nota técnica mais alta.
25

A lisura do processo licitatório é possível ser observada em ata publicada no


Diário Oficial, na qual destaca-se que:

A presidente solicitou constar em ata que o método utilizado na


seleção é o Seleção Baseada na Qualidade, item 3.4 do livro de
diretrizes fornecidos pelo Banco Mundial, onde será aberta apenas a
proposta financeira da empresa com maior nota da proposta técnica.
(RIO DE JANEIRO, 2017, p. 38).

Para fins de preservação da identidade da empresa consultora vencedora da


licitação, optou-se pela criação de um nome fictício, ELBI (Empresa de Licitação do
Banco de Itens), que será utilizado neste estudo. Não serão também publicados
nomes e/ou resultados referentes às notas técnicas obtidas pelas empresas
concorrentes na licitação.

2.2 MECANISMOS DE COMPOSIÇÃO DO BANCO DE ITENS

O aprimoramento dos aspectos técnicos dos instrumentos de avaliação e a


formação especializada dos técnicos da equipe de avaliação do desempenho escolar
da SME-RJ são dispostos por objetivos específicos robustos e desafiadores, que
envolvem desde a elaboração de matrizes de referência de avaliação para diferentes
disciplinas até o desenvolvimento de um banco de itens cognitivos, calibrados, de
acordo com a TRI. Para tais objetivos, a proposta de contratação do projeto com tal
amplitude previa articulação entre quatro dimensões do conhecimento, a saber: a
tecnológica, a estatística, a pedagógica e a formativa (RIO DE JANEIRO, 2016).
Segundo o Termo de Referência para a implementação do Banco de Itens para
as avaliações bimestrais nas escolas de Ensino Fundamental cariocas (RIO DE
JANEIRO, 2016), por meio da elaboração de um plano de ação, a empresa contratada
deveria detalhar cronograma de execução, além de designar responsáveis para cada
uma das dimensões apresentadas. Na seção Detalhamento das atividades do Termo
de Referência para a implementação do Banco de Itens para as avaliações bimestrais
nas escolas de Ensino Fundamental cariocas (RIO DE JANEIRO, 2016), foram
indicados os pressupostos conceituais de cada uma das dimensões citadas, bem
como a descrição minuciosa dos objetivos das atividades nas diferentes dimensões.
A dimensão tecnológica diz respeito aos componentes relacionados à
armazenagem e ao processamento das informações do Banco de Itens (imagens dos
26

itens diagramados, tabelas com as informações estatísticas/psicométricas e


pedagógicas dos itens, gráficos), além do desenvolvimento de um sistema de interface
para gerenciamento de informações na construção de provas. É preconizada pelo
“desenvolvimento de um sistema de interface e gerenciamento de informações e
parâmetros para a construção das avaliações bimestrais” (RIO DE JANEIRO, 2016,
p. 67).
Já a dimensão estatística envolve elementos como amostragem e logística da
aplicação da pré-testagem dos itens cognitivos, processamento das respostas dos
alunos em um banco de dados; crítica dos dados; estimação dos parâmetros de
calibração dos itens, a partir da TRI, construção dos gráficos com curvas de
informação dos itens, construção de uma escala de proficiência para as disciplinas de
Língua Portuguesa e Matemática (RIO DE JANEIRO, 2016).
O Termo de Referência para a implementação do Banco de itens para as
avaliações bimestrais nas escolas de Ensino Fundamental cariocas (RIO DE
JANEIRO, 2016) salienta ainda a importância das dimensões tecnológicas e
estatísticas disporem de transferência de tecnologia e conhecimento técnico, com fins
de subsidiar a sustentabilidade do Banco de Itens. Esta dimensão é definida por:
“desenvolvimento da pré-testagem dos itens; montagem e coleta, leitura e
processamento das respostas dos cadernos de provas; estimação dos parâmetros
psicométricos dos itens e de uma escala de proficiência” (RIO DE JANEIRO, 2016, p.
68). Dentre as quatro dimensões citadas, esta é a que contempla o maior número de
atividades - 16 (RIO DE JANEIRO, 2016).
A dimensão pedagógica diz respeito à construção das matrizes de referência
de avaliação nas disciplinas de Ciências, História e Geografia do 3º ao 9º ano do
Ensino Fundamental; revisão da matriz de referência de avaliação de Matemática do
3º ao 9º ano do Ensino Fundamental; elaboração de dois mil itens cognitivos inéditos
nas disciplinas de Língua Portuguesa e Matemática do 3º ao 9º ano do Ensino
Fundamental; revisão e aprimoramento de sete mil itens cognitivos de Língua
Portuguesa, Matemática, Ciências, História e Geografia, já pertencentes a SME-RJ e
o desenvolvimento das escalas de proficiência nas disciplinas de Língua Portuguesa
e Matemática (RIO DE JANEIRO, 2016).
A dimensão formativa envolve os elementos relacionados com o
desenvolvimento de um curso de formação para professores sobre a elaboração de
itens cognitivos. Esta formação objetiva envolver professores do 3º ao 9º anos do
27

Ensino Fundamental das disciplinas de Língua Portuguesa e Matemática para que,


por meio de acompanhamento e supervisão da empresa contratada, os professores
participantes pudessem produzir mil itens cognitivos inéditos, ou seja, 500 itens de
cada disciplina (RIO DE JANEIRO, 2016).
Observa-se que as atividades das dimensões apresentadas para o
desenvolvimento de um Banco de Itens na SME-RJ implicariam em articulação de um
nível de complexidade elevado e que envolveriam o trabalho simultâneo e
sequenciado em quatro equipes, com profissionais de diferentes formações e
especialidades. Por este motivo, segundo o Termo de Referência para a
implementação do Banco de Itens para as avaliações bimestrais nas escolas de
Ensino Fundamental cariocas (RIO DE JANEIRO, 2016), a contratação dos serviços
da empresa consultora deveria ser pormenorizada em entregas de produtos,
dispostos no plano de ação, com o devido detalhamento de integração entre as
atividades, além de cronograma de execução. Foram configurados para a
implementação do Banco de Itens na SME-RJ 10 produtos, a saber:

Produto 1: a) as atividades nas diferentes dimensões especificadas;


b) as especificações conceituais e metodológicas do processo de
elaboração/revisão das matrizes de referência da avaliação nas
disciplinas de Matemática, Ciências, História e Geografia; c) aspectos
a serem considerados na revisão dos itens cognitivos da SME-RJ; d)
a descrição do processo de seleção e contratação dos especialistas
nas áreas disciplinares; e) Entrega de relatório conclusivo de avaliação
da infraestrutura (hardware e software) da SME-RJ.
Produto 2: Matrizes de referência de avaliação nas disciplinas de
Matemática, Ciências, História e Geografia.
Produto 3: Curso presencial de formação sobre elaboração de itens
cognitivos para avaliação em larga escala.
Produto 4: Plano amostral para a pré-testagem de 6.000 itens
cognitivos.
Produto 5: Realização da parte semipresencial do curso de formação
sobre os conceitos e práticas de elaboração de itens cognitivos para
avaliação em larga escala.
Produto 6: Entrega dos 2.000 itens de Língua Portuguesa e de
Matemática produzidos pelos especialistas, com diagramação final, e
dos 7.000 itens da SME nas disciplinas de Língua Portuguesa,
Matemática, Ciências, História e Geografia, revisados e diagramados
na sua versão final.
Produto 7: Realização da pré-testagem dos 6.000 itens de Língua
Portuguesa e Matemática, com entrega de relatório com a descrição
do processo de pré-testagem dos itens.
Produto 8: Entrega de cerca de 6.000 itens pré-testados e calibrados,
que formarão o Banco de Itens, acompanhados de relatório com a
descrição da base conceitual e metodológica da calibração dos
parâmetros dos itens utilizando TRI.
28

Produto 9: Software de visualização e gerenciamento do Banco de


Itens, e também software de análise psicométrica para calibração de
parâmetros dos itens e estimação da proficiência a partir da TRI.
Produto 10:Aplicação das avaliações bimestrais organizada a partir
do Banco de itens. (RIO DE JANEIRO, 2016, não paginado).

Para a totalização da configuração do projeto de implementação do Banco de


Itens na SME-RJ, além do desenho das dimensões descritas, cabe destacar que a
seção Prazos de Execução sinaliza a importância da entrega dos produtos, pela
empresa consultora, de acordo com o cronograma de execução, além dos percentuais
do contrato a serem pagos em cada entrega de produto.
No entanto, o desenvolvimento e cumprimento de inúmeras etapas para
entrega dos produtos assinalados não ocorreram conforme previsão disposta no
Cronograma de Execução. De acordo com o relatório final sobre o desenvolvimento
do projeto “alguns percalços foram enfrentados durante o processo. O principal está
associado aos adiamentos na aplicação do pré-teste dos itens” (RIO DE JANEIRO,
2018a, p. 2). Dos 10 produtos totais do projeto, dois não foram entregues, conforme o
planejamento apresentado pela empresa de consultoria. São eles: o produto 7 – Pré-
testagem dos itens - que foi desenvolvido com características distintas das
apresentadas no plano amostral da pré-testagem dos itens e ainda realizado fora do
prazo; e o produto 10 – Aplicação das provas do primeiro bimestre de 2018, que
deveriam ser organizadas a partir do banco de itens e não foi realizada.
O status das entregas dos produtos do projeto torna-se fator relevante para o
desenvolvimento deste, não só porque viabiliza um olhar mais amplo na configuração
da implantação do projeto como um todo na SME-RJ, mas, sobretudo, porque sinaliza
que a entrega do produto 7 foi realizada fora do prazo e pode influenciar na avaliação
dos parâmetros psicométricos dos itens de Língua Portuguesa (9º ano), objeto deste
estudo.

2.3 SISTEMA CONCEITUAL PARA ANÁLISES PSICOMÉTRICAS DE ITENS EM


TESTES DE DESEMPENHO COGNITIVO

O diagnóstico obtido pela aplicação de avaliações pode produzir uma


importante ferramenta para a intervenção e melhoria das práticas pedagógicas dos
sistemas de ensino e unidades escolares. Comumente, nos relatórios de avaliação, é
identificada uma (des)continuidade do processo de desenvolvimento de um conjunto
de habilidades que acaba por afetar o desempenho do aluno.
29

O conceito de competência extrapola o nível do mero conteúdo e atinge a


esfera do cognitivo. A competência abrange a compreensão de processos, princípios
elementares e recursos cognitivos utilizados pelos indivíduos para atuação e/ou
resolução de diferentes situações-problemas.
No entanto, a avaliação de competências relaciona-se diretamente com a
aprendizagem escolar e possibilita o uso de intervenções pedagógicas, a partir de um
diagnóstico do nível de aprendizagem dos alunos. Desta forma, o desenvolvimento de
competências cognitivas dos alunos pode ser observado e analisado por meio de suas
respostas a itens cuja solução demanda uma determinada habilidade ou
conhecimento conjugado a um dado nível de domínio da competência.
Para a operacionalização deste tipo de avaliação é importante compreender
primeiramente a base epistemológica que subsidia a lógica dos testes de desempenho
cognitivo. “Segundo a Psicometria Moderna - conjunto de técnicas utilizadas para
mensurar, de forma adequada e experimentalmente uma gama de comportamentos
que se deseja conhecer melhor” (PASQUALI, 2017, p. 10) - postula-se que testes de
desempenho cognitivo mensurem variáveis consideradas não observáveis. Trata-se
do que se pode chamar de habilidades ou traços latentes (PASQUALI, 2017).
Rodrigues salientou que tais testes “requerem o desempenho de alguns
comportamentos – ação observável e mensurável que mede algum atributo, traço ou
característica” (RODRIGUES, 2007, p. 24).
Anteriormente, outros autores como McIntire e Miller (2000), destacaram que
testes do desempenho educacional podem ser usados para fazer uma predição
acerca de algum resultado. Para tanto, pressupõem o desempenho de algum tipo de
comportamento (em categorias ou números). Para Cronbach (apud RODRIGUES,
2007), o teste é um procedimento sistemático que serve tanto para se observar o
comportamento quanto para descrevê-lo a partir de escalas numéricas ou de
categorias definidas pela avaliação. Este é um procedimento adotado pelas
avaliações em larga escala.
Os itens que constituem os testes expressam a representação comportamental
do traço latente (PASQUALI, 2017). Isto significa afirmar que tal representação ocorre
por meio da resposta dada ao conteúdo apresentado no item. É, portanto, a partir de
uma amostra de comportamentos, que se estabelece uma correspondência empírica
entre o desempenho do avaliado e o comportamento do item.
30

McIntire e Miller (2000) destacaram ainda que este conceito é sinalizado por
três relevantes características:

(a) avalia-se uma amostra representativa de comportamentos que


medem os conhecimentos alcançados ou predizem um resultado, ou
seja, o teste deve envolver o conhecimento dos diferentes tipos de
habilidades requeridas para o bom desempenho de um determinado
comportamento; (b) as amostras do comportamento dos examinandos
devem ser obtidas sob condições padronizadas, o que implica que o
teste deva ser aplicado da mesma maneira, sob as mesmas
condições, seguindo os mesmos padrões para os examinandos e, (c)
devem existir regras para a interpretação dos resultados, pois elas são
necessárias para assegurar que qualquer examinador que pretende
avaliar um mesmo conjunto de respostas que outro avaliador possa
proceder à interpretação da mesma forma. (MCINTIRE; MILLER,
2000, p. 25).

Aliados a estas características, tanto a literatura internacional quanto a nacional


apontam alguns pressupostos fundamentais implicados na realização de um teste.
São eles:
a) validade – diz respeito à adequação prática dos scores obtidos nos testes.
Segundo os Standards for Educational and Psychological Testing (AMERICAN
EDUCATIONAL, 1985), a validade de um teste é indicada pelo processo de
acumulação de evidências que subsidiam às inferências observadas. Para que seja
assegurada a validade em testes educacionais, deve-se verificar se os conteúdos
estão adequados ao ano de escolaridade do aluno, por exemplo. No âmbito da
avaliação em larga escala, Vianna (2003) salienta que

A validade, segundo o consenso dos especialistas, não é uma


característica geral, antes de tudo ela é específica. Um instrumento de
medida não é válido em tese, pode ser válido para um curso, mas não
para outro. Pode ser válido para um currículo, mas não para outro;
para um professor, mas não para outro, inclusive, pode ser válido para
uma escola, mas não o ser para outra instituição. A questão da
validade é extremamente delicada em qualquer contexto educacional.
(VIANNA, 2003, p. 53-54).

Elliot, Hildenbrand e Berenger (2012) afirmam que a validade empírica de um


instrumento avaliativo indica se os itens funcionam com um grupo de respondentes
em potencial.
31

Sobre os itens, em específico, Rodrigues (2007) acrescenta que a análise


empírica é

Realizada por meio dos dados coletados de uma amostra


representativa de sujeitos de uma população cujo sistema está sendo
avaliado, utilizando-se análises estatísticas. A análise, embora utilize
técnicas estatísticas diferentes, fornece informações que, na maioria
das vezes, se confirmam. (RODRIGUES, 2007, p. 49).

b) fidedignidade – refere-se à precisão do teste. Segundo Anastasi e Urbina


(2000), um teste possui maior ou menor precisão à medida que se observa se as
diferenças nos escores encontrados são atribuíveis às diferenças verdadeiras ou aos
erros casuais. São métodos de fidedignidade mais conhecidos: teste-reteste, fórmulas
alternadas, coeficiente Alpha de Cronbach, entre outros. Elliot, Hildenbrand e
Berenger (2012, p. 60-61) salientam que “fidedignidade ou confiabilidade dizem
respeito aos resultados produzidos por um instrumento, aplicado várias vezes a um
mesmo objeto. [...] Daí se pode confiar no instrumento para medir tal objeto.”
c) objetividade – trata-se da garantia de avaliação de apenas uma resposta
do item. O item deve ser capaz de avaliar, por exemplo, apenas uma habilidade
cognitiva, permitindo apenas uma resposta certa ou errada (PASQUALI, 2017).
As características e os pressupostos apresentados reforçam a necessidade de
definição de uma tipologia analítica a ser adotada para o tratamento de itens que
comporão um dado teste de desempenho cognitivo. Portanto, validade, fidedignidade
e objetividade na avaliação dos itens são qualidades de suma importância para que
se possa medir aquilo que foi intencionado a ser medido. A complexidade de um
instrumento que se propõe a medir o desempenho cognitivo dos alunos envolve
sobremaneira a reunião sistemática de critérios apropriados para lidar com dados de
diferentes naturezas, além de medir, avaliar e descrever os resultados observáveis
sobre a aprendizagem dos sujeitos (RODRIGUES, 2007). Independente da técnica
utilizada para análise, os fundamentos processuais que a subjaz devem ser dispostos
de rigor técnico para que os resultados não sejam comprometidos.
É por este motivo, que etapas que antecedem a implementação de um banco
de itens, como a pré-testagem das questões, possibilitarão uma identificação prévia
dos resultados encontrados. Segundo Gil (2008), o pré-teste de um instrumento de
coleta de dados tem por objeto assegurar-lhe validade, clareza dos termos e precisão.
Um pré-teste é a aplicação de um instrumento avaliativo que, em caráter preliminar,
32

permite, com um olhar amostral, o reconhecimento de um diagnóstico sobre os itens


e o uso dos resultados. Elliot, Hildenbrand e Berenger (2012, p. 56) salientam que “a
amostra ou grupo de respondentes do pré-teste deve replicar as características
desejadas no grupo alvo da pesquisa ou avaliação”.
Importante também é notar que no âmbito da pré-testagem de itens, para o
desenvolvimento de um banco de itens:

As características dos itens armazenados devem ser determinadas.


Na prática, esses itens, frequentemente chamados itens
"experimentais", são administrados na forma de testes em grupos e,
assim, seus índices são obtidos. Múltiplas formas do teste são criadas,
cada uma contendo itens experimentais variados e formas diferentes
são administradas para grupos diversos de examinandos.
(RODRIGUES, 2007, p. 28).

Comumente, para uma pré-testagem qualificada de itens, duas análises são


englobadas: a pedagógica e a psicométrica. A análise pedagógica considera os
aspectos de conteúdo e forma dos itens. Segundo Rodrigues (2007, p. 30), “ela é
realizada por meio da avaliação da validade de conteúdo e dos procedimentos efetivos
da elaboração dos itens. Ambas as análises, pedagógica e psicométrica, visam avaliar
a validade dos itens e dos testes.”
Embora a análise pedagógica dos itens do Banco de Itens da SME-RJ não se
constitua como escopo deste estudo, não menos importante é observar que critérios
sobre a análise técnico-pedagógica para a construção dos itens foram etapa primeira
na validação dos itens para a pré-testagem. Tal validação foi executada pela equipe
técnica da empresa consultora ELBI, e preconizou, em Língua Portuguesa, aspectos
relacionados, tanto à estrutura composicional do item, como construção do item; tema
e formatação do texto-base - é o que servirá de materialidade linguística para
elaboração de um ou mais itens; uso da linguagem, entre outros, quanto às
especificidades do item de Língua Portuguesa, como características de uso da língua.
Já na análise psicométrica dos itens, por meio de técnicas diversas de
mensuração, observa-se a congruência dos dados coletados por uma amostra
representativa da população que se pretende avaliar. Segundo Rodrigues (2007, p.
32), “a análise empírica dos itens é realizada com dados coletados de uma amostra
representativa de sujeitos da população para a qual o teste está sendo construído,
utilizando-se análises estatísticas.” Balizada por parâmetros estatísticos, o uso da
33

análise psicométrica, possibilita verificar o comportamento de cada item que compõe


um teste cognitivo. Parâmetros como discriminação e dificuldade, por exemplo,
indicam sobre a performance dos indivíduos em um teste. As análises psicométricas
mais comuns em testes de desempenho são conhecidas pela Teoria Clássica dos
Testes (TCT) e pela Teoria de Resposta ao Item (TRI). A seguir, tais teorias e suas
respectivas peculiaridades serão abordadas de forma mais minuciosa.

2.3.1 Teoria clássica dos testes

A intitulada Teoria Clássica dos Testes, também conhecida por TCT, considera
o teste como unidade de análise. Nesta teoria procura-se verificar o comportamento
de cada item no conjunto de itens utilizados em cada teste. Considerar-se-á a resposta
de todos os alunos que responderam ao instrumento avaliativo. Segundo Klein (2013,
p. 3), trata-se de “um modelo para a habilidade (escore verdadeiro), no qual o erro não
depende da habilidade do aluno. A habilidade [...] é estimada pelo número de acertos”
no teste.
Ainda segundo o autor, ao considerar 𝑇 como escore verdadeiro, 𝐸 como erro
do escore, e 𝑥 como resultado observado, pode-se depreender que o escore
verdadeiro e o escore observado no teste do indivíduo (𝑥) é resultante da soma do
escore verdadeiro (𝑇) com o erro do escore (𝐸), logo, 𝑥 = 𝑇 + 𝐸.
Assim, o escore verdadeiro 𝑇 é o escore observado no teste.
Lord e Novick (1968, apud KLEIN, 2013, p. 83), referências no estudo da TCT,
salientaram cinco importantes pressupostos desta teoria, a saber:

a) Porcentagem de acerto de cada item entre os alunos que fizeram o


teste;
b) Porcentagem de alunos que escolheram cada alternativa de cada
item;
c) Índice de discriminação definido pela diferença entre os percentuais
de acerto do grupo superior e do grupo inferior de desempenho,
definidos pelo do total de acertos no teste;
d) Coeficiente de correlação bisserial entre acerto do item e número
de acertos na prova;
e) Coeficiente de correlação bisserial por alternativa.

O percentual de acerto de cada item e de alunos que escolheram cada


alternativa de cada item está relacionado à dificuldade do item. Neste caso, a partir
34

do pré-teste, os especialistas estatísticos da empresa ELBI arbitraram os indicadores


e respectivos padrões de dificuldades.
O coeficiente de correlação bisserial trata da correlação entre o acerto no item
e o acerto na prova, isto é, quanto maior for o desempenho do aluno no teste, maior
é a chance de acertar o item. Segundo a ELBI, espera-se que o parâmetro tenha um
valor positivo e preferencialmente maior do que 0,15 para uma boa qualidade do item.
Já no coeficiente de correlação bisserial por alternativa, espera-se que o
coeficiente para a resposta correta seja positivo e negativo para as demais
alternativas. Importante é notar que itens com coeficientes bisseriais negativos ou
muito pequenos devem ser analisados minuciosamente. Não obstante, esta análise
detecta gabarito errado, mais de uma solução, equívocos no comando que introduz o
item. Estas ocorrências devem ser detectadas durante o pré-teste. O comportamento
anômalo do item sugere novas análises e ajustes para que itens com comportamentos
estatísticos mais adequados sejam escolhidos para a avaliação propriamente dita.
O índice de discriminação é a diferença entre os percentuais de acerto dos
alunos do grupo com melhor desempenho e dos alunos do grupo com pior
desempenho. Um índice de discriminação muito baixo significa que o item não
separou adequadamente os alunos com melhor dos de pior desempenho. Um índice
de discriminação negativo indica que os alunos com pior desempenho tiveram o
percentual de acerto maior que os de melhor desempenho.
A Teoria Clássica dos Testes deve ser adaptada às situações em que o teste
está inserido. Se o teste é composto por apenas um único caderno (com o mesmo
grupo de itens), o comportamento do item será avaliado em um único conjunto. Há
consenso, entretanto, na área da avaliação, que é necessário o uso de softwares
estatísticos. Baseado nos pressupostos de Lord e Novick, Klein (2013, p. 40) aponta
em seus estudos algumas das limitações da TCT. São elas:

 As estatísticas que descrevem os itens de teste dependem do


grupo de estudantes que fazem o teste;
 Os escores de teste que descrevem o desempenho dos alunos
dependem dos itens apresentados aos alunos;
 A TCT só pode ser utilizada em situações nas quais todos os alunos
fazem o mesmo teste (ou formas “paralelas” do teste);
 A TCT não fornece um modelo de desempenho de um aluno em
um item;
 A maioria das aplicações da TCT assume incorretamente que os
erros de medida têm a mesma variabilidade para todos os alunos.
35

Vale ressaltar, que mesmo com tais limitações, as análises pressupostas pela
TCT são valiosos subsídios para parâmetros estatísticos como dificuldade e
confiabilidade dos itens. Além disso, a TCT será um importante instrumento para
atribuição de notas bimestrais aos alunos, a partir de seus escores.

2.3.2 Teoria de resposta ao item

A Teoria de Resposta ao Item (TRI) considera o item como unidade de análise.


Segundo Klein, trata-se de “um conjunto de modelos estatísticos, onde a probabilidade
de resposta a um item é modelada como função da proficiência (habilidade) do aluno
(variável não observável) e de parâmetros que expressam certas propriedades dos
itens” (KLEIN, 2013, p. 6).
Apoiada em Hambleton, Swaminathan e Rogers, Rodrigues destaca dois
postulados básicos na TRI:

(a) o desempenho de um examinando em um teste pode ser predito


ou explicado por um conjunto de fatores chamados traços latentes ou
habilidades; e (b) o relacionamento entre o desempenho de um
examinando no item e o conjunto de traços subjacentes ao
desempenho no item pode ser descrito como uma função
monotonicamente crescente, chamada função característica do item
ou curva característica do item. Essa função especifica que à medida
que o nível do traço aumenta a probabilidade de uma resposta correta
ao item aumenta. Portanto, examinandos com valores mais altos no
traço têm probabilidades mais altas de responderem corretamente ao
item do que estudantes com valores mais baixos no traço,
independentemente do grupo a que pertencem. (RODRIGUES, 2007,
p. 34).

Assim, de acordo com os autores citados, os modelos matemáticos utilizados


na TRI pressupõem que a probabilidade de um respondente responder a um
determinado item corretamente depende da(s) habilidade(s) do respondente e das
características do item. A TRI dispõe de três populares modelos logísticos,
caracterizados por um, dois e três parâmetros. O presente estudo ficará restrito aos
parâmetros que subsidiam ao modelo de três parâmetros. Segundo Klein (2013), o
modelo logístico de três parâmetros utilizado para itens dicotômicos (itens de múltipla
escolha com padrões de certo ou errado) é definido pela equação:
36

Na qual,
𝑥𝑖𝑗 é a resposta do item (=1, se correta; e =0, se errada);
Ɵ é a proficiência do aluno;
𝑎 é o parâmetro de inclinação do item, também chamado de parâmetro de
discriminação do item (𝑎 > 0);
𝑏 é o parâmetro de dificuldade (ou de posição) do item e 𝑐 é o parâmetro da
assíntota inferior do item que reflete as chances de um estudante de proficiência muito
baixa selecionar a opção de resposta correta; isto é, acerto ao acaso (0 < 𝑐 <1).
O modelo da logística de três parâmetros considera nos itens de múltipla
escolha as diferentes discriminações dos itens refletidas no parâmetro “a” e a
probabilidade de acerto a um item por um aluno com baixa habilidade ou proficiência
pela escolha de uma alternativa qualquer, refletida no parâmetro “c”.
As experiências internacionais, como do National Assessment of Educational
Progress - NAEP (Avaliação Nacional do Progresso Educacional), dos Estados Unidos
e avaliações nacionais, como o Sistema Avaliação da Educação Básica (SAEB),
evidenciam a grande diferença de discriminação que pode existir entre os itens e as
diferentes probabilidades de acerto dos itens por alunos com baixa habilidade. Esta
probabilidade de acerto será alta se a alternativa correta atrair os alunos e será baixa,
se uma ou mais alternativas erradas atraírem os alunos.
Associada a outros procedimentos estatísticos, a TRI permite posicionar todos
os alunos em uma escala comum de proficiência, ainda que nem todos tenham
respondido aos mesmos itens. Isto permite fazer comparações e acompanhar a
evolução do sistema educacional, tanto entre escolas, turmas e anos escolares, como
ao longo do tempo.
Uma etapa importante desta teoria é chamada de calibração dos itens. Esta
etapa consiste basicamente na estimativa dos três parâmetros (a, b e c). Calibrar um
item de teste significa identificar seus parâmetros. Segundo Klein (2013, p. 7), “os
parâmetros dos itens obtidos de grupos diferentes de alunos testados são invariantes.”
O autor ainda acrescenta que esta característica é fundamental para a construção de
banco de itens, pois como “a estimação dos parâmetros dos itens deve estar na
37

mesma escala”, outros itens podem ser inseridos na mesma escala, a posteriori. Para
tal, são necessários planejamento e novas testagens. A estimação dos parâmetros
dos itens é realizada pelo método da maximização de uma função de verossimilhança
(KLEIN, 2013).
A Figura 1 apresenta uma análise de item realizada pela TRI. Ele foi elucidado
no Relatório Técnico e Metodológico do Plano Amostral da Pré-testagem da empresa
ELBI (2018b) para a SME-RJ, com vistas à exemplificação psicométrica da teoria.

Figura 1- Exemplo de Curva Característica do Item segundo a TRI

Fonte: ELBI (2018b).

De acordo com o mesmo relatório, o parâmetro “a” demonstra o quanto um


dado item é capaz de separar, de fato, os alunos que apresentam a habilidade
requerida para sua solução daqueles que não a tem e erram o item. Os itens mais
indicados a serem inclusos em um teste cognitivo são aqueles que dispõem de alto
poder de discriminação. Já o parâmetro “b” representa um valor mínimo de proficiência
necessário para que o respondente acerte o item. Quanto maior o valor de “b”, mais
difícil é o item. Para testes completos, o ideal é que haja itens com valores diversos
de “b”, isto é, desde itens muito fáceis a itens muito difíceis para o ano escolar do
aluno avaliado, para que a proficiência seja mensurada com concretude. E, por fim, o
parâmetro “c” representa a probabilidade de um aluno com baixa proficiência acertar
o item avaliado. Representa o acerto ao acaso e o ideal é que o valor de “c” seja baixo
para que o item seja incluído no teste.
38

3 METODOLOGIA

Os procedimentos metodológicos que orientam o desenvolvimento do presente


estudo compreendem: a abordagem avaliativa, o instrumento, as categorias de
análise, os participantes do estudo e, por fim, a coleta e análise de dados.

3.1 A ABORDAGEM

Para avaliar a qualidade técnica do comportamento psicométrico dos itens de


Língua Portuguesa, oriundos do 9º ano do Banco de Itens da SME-RJ, o estudo se
pautou na definição proposta por Scriven de que avaliar é “julgar o valor ou mérito de
alguma coisa” (WORTHEN; SANDERS; FITZPATRICK, 2004, p. 35). Assim, buscou
respostas para as duas questões avaliativas que focalizaram as dificuldades dos itens
testados com os alunos, conforme os índices de análise por meio da TCT e a
qualidade técnica desses itens de acordo com os pressupostos da TRI. Contemplou,
portanto, características de mérito dos itens, que designaram o seu valor.
Desse modo, reitera-se que o presente estudo assumiu o pressuposto da
definição adotada por Scriven (WORTHEN; SANDERS; FITZPATRICK, 2004) para
julgar a qualidade dos referidos itens de Língua Portuguesa, a partir dos padrões
conceituais e estatísticos já consolidados por padrões da avaliação em larga escala,
com respaldo na literatura sobre TCT e TRI. Como os valores estatísticos atribuídos
aos itens de Língua Portuguesa que foram avaliados neste estudo dependeram dos
padrões quantitativos e qualitativos consolidados pela avaliação em larga escala,
pode-se depreender que o alcance da qualidade de itens implica no êxito ou fracasso
das avaliações geradas por um Banco de Itens.
Acredita-se que as análises dos resultados dos itens, balizadas por padrões
específicos, obedeceram a uma lógica de diretrizes procedimentais. Tais análises
puderam, assim, delinear um diagnóstico das possíveis dificuldades e potencialidades
dos alunos inseridos no 9º ano da SME-RJ. O diagnóstico proposto possibilitou então
uma avaliação, em caráter especializado, sobre a qualidade dos itens aqui em estudo.

3.2 O INSTRUMENTO

O estudo adotou os resultados obtidos na pré-testagem dos itens. Para tanto,


contou com o processamento de dados consolidados por meio de software estatístico
39

de tecnologia livre R. O software R é um sistema de aquisição e processamento de


dados empregado como plataforma básica para tratamento estatístico. É baseado no
sistema operacional do Windows e admite análises qualitativas e quantitativas para
aplicações diversas.
Segundo o Relatório de Entrega dos Parâmetros dos Itens, elaborado pela
empresa ELBI (2018b), o software de visualização e gerenciamento do Banco de Itens
oferece um ambiente para inserção, revisão e armazenamento de itens elaborados,
além de permitir o registro da calibragem dos itens, por meio de cadastro manual ou
por importação dos dados. No caso da SME-RJ, que já dispõe de um sistema próprio
que armazena os resultados obtidos pelos alunos nas avaliações internas, a interface
com um software que processa os resultados obtidos por meio da TRI é fundamental.
Para interface de calibração dos itens e cálculo de proficiência baseados na TRI, foram
estabelecidas etapas que preconizam: aplicação da avaliação, coleta de dados, itens
calibrados e cálculo da proficiência. Neste modelo processual adotado pela empresa
consultora, a execução direta do cálculo de proficiência ocorrerá somente quando os
itens de aplicação já estiverem previamente calibrados. Em caso de não calibragem
prévia dos itens, estes deverão ser calibrados para a execução do cálculo da
proficiência.
Intitulada como regra do negócio, de acordo com o relatório sobre o software
de visualização e gerenciamento do Banco de Itens e software de análise
psicométrica, para a plena integração da plataforma R e o sistema de informação
próprio da SME-RJ, a plataforma R recebe micro dados para a realização do
processamento de dados e depois atualiza os campos dos parâmetros estatísticos
dos itens. A partir dos dados da amostra, a plataforma R executa o processamento do
cálculo da proficiência. Este processamento deve ser enriquecido com informações
como acertos dos estudantes, acertos dos itens convergentes e valores calculados
para cada item nos parâmetros a, b e c, respectivos erros-padrão, proficiência e faixa
de proficiência, calculada para cada respondente na escala SAEB (média 250 e desvio
padrão 50) e na escala do Exame Nacional do Ensino Médio - ENEM (média 500,
desvio-padrão 100).
Portanto, cabe ressaltar que o software foi composto por quatro repositórios
com códigos, denominados: banco de itens binários, que é o software banco de itens;
banco de itens, que é a integração com o sistema de informação da SME-RJ;
40

plataforma R, módulo de processamento estatístico; painel-tri-r, painel para uso via


interface da plataforma R.
Importante é notar que não fora realizada uma etapa prévia de validação de um
protótipo do sistema adotado para o Banco de Itens na SME-RJ. Em parceria com os
profissionais da IPLAN-RIO, empresa municipal responsável pela administração dos
recursos de Tecnologia da Informação e Comunicação do Rio de Janeiro, o modelo
de sistema adotado foi reproduzido diretamente no projeto, uma vez que a empresa
consultora já fazia uso de determinado modelo e, por conseguinte, realizado uma
validação no próprio sistema (ELBI, 2018a).

3.3 CATEGORIAS DE ANÁLISE

As categorias correspondentes a cada questão avaliativa foram, portanto,


delineadas pela literatura inerente ao estudo das teorias – TRI e TCT, e, seus
respectivos resultados, obtidos pelo processamento realizado, por meio do software
estatístico R.
Com base na TCT, foram avaliados número absoluto e percentual de acertos,
índice de dificuldade, índice de discriminação e coeficiente de correlação bisserial por
alternativa. Sobre as categorias número absoluto e percentual de acertos observou-
se a quantidade e o respectivo percentual de respondentes que assinalou
corretamente ao item avaliado. O Quadro 1 indica os padrões de dificuldade do item,
a partir do percentual de acerto num dado teste.

Quadro 1- Indicadores e padrões referentes à dificuldade do item


Indicador Padrão de dificuldade
Dif ˂ 30% Difícil
30%≤ Dif ˂ 70% Média
Dif ≥ 70% Fácil
Fonte: INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS
EDUCACIONAIS ANÍSIO TEIXEIRA (2001).

O Índice de dificuldade refere-se ao percentual de marcação na alternativa


correta do item. Neste índice observa-se o quanto o item foi fácil ou difícil para os
respondentes. Segundo Condé (2002), o item é considerado fácil quando seu índice
de dificuldade for superior a 0,70, moderado quando estiver entre 0,30 e 0,70 e difícil
quando for inferior igual a 0,30. De acordo com os itens comentados no Relatório
41

SAEB 2005 - 2015: panorama da década (INSTITUTO NACIONAL DE ESTUDOS E


PESQUISAS EDUCACIONAIS ANÍSIO TEIXEIRA, 2019), foram considerados itens
fáceis aqueles que apresentaram índice de dificuldade superior a 0,70. Como os
relatórios entregues pela empresa consultora a SME-RJ não continham os valores
arbitrados para os indicadores deste índice, optou-se, portanto, neste estudo, por
parâmetros apontados pela literatura e também utilizados pelo SAEB.
O Índice de discriminação trata da discriminação correspondente à diferença
entre a proporção de acertos do grupo de participantes com maiores habilidades
daqueles com menores habilidades.

Quadro 2- Indicadores e padrões referentes ao Índice de discriminação do item


Indicador Padrões

˂ 0.25 Não separou os grupos de alunos com melhor e pior desempenho.

≥ 0.25 Separou os grupos de alunos com melhor e pior desempenho.


Fonte: FUNDAÇÃO CESGRANRIO (2007).

Para os valores atribuídos neste índice, a empresa consultora considerou 27%


dos respondentes com melhor desempenho e 27% dos respondentes com pior
desempenho. Segundo a literatura sobre o tema, um índice de discriminação muito
baixo, isto é, menor que 0,25 significa que o item não separou adequadamente os
grupos de alunos com melhor e pior desempenho. Um índice de discriminação
negativo indica que o grupo de alunos com pior desempenho obteve o percentual de
acerto maior do que o grupo com melhor desempenho.
No relatório enviado pela empresa consultora a SME-RJ, intitulado Fichas de
Itens (ELBI, 2018a, p. 15), além do índice de discriminação, há ainda as categorias
denominadas como ABAI, que destaca a proporção de acertos no item, entre os 27%
de respondentes com as pontuações mais baixas e ACIM, que destaca a proporção
de acertos no item, entre os 27% de respondentes com as pontuações mais altas.
Segundo o mesmo relatório Fichas de Itens (ELBI, 2018a), o Coeficiente Ponto
Bisserial trata da correlação de Pearson com o desempenho dicotomizado, certo ou
errado, e o desempenho no teste como um todo. Considerando o escore total, atribui-
se 0, para resposta errada, e 1 para a resposta correta. Já o Coeficiente Bisserial por
Alternativa trata de uma transformação do coeficiente Ponto Bisserial, em uma
distribuição normal. De acordo com a literatura sobre o tema, espera-se de um bom
42

item que a proporção de respondentes que obtiveram melhor desempenho no teste


como um todo e escolheram a opção errada seja menor que a proporção de
respondentes que obtiveram baixo desempenho e escolheram esta mesma opção de
resposta. Por isso, o valor esperado para os distratores deve ser negativo e para o
gabarito deve ser positivo. O coeficiente bisserial por alternativa deve ser sempre
positivo. O Quadro 3 ilustra o comportamento de um coeficiente bisserial por
alternativa em um bom item.

Quadro 3 - Indicadores e padrões referentes ao coeficiente bisserial por alternativa


Indicador Padrões
Distrator ˂0 (-)
Distrator ˂0 (-)
Distrator ˂0 (-)
Gabarito >0 (+)
Fonte: FUNDAÇÃO CESGRANRIO (2007).

A despeito da TRI, foram avaliados: o parâmetro a, identificado como


discriminação, o parâmetro b, como dificuldade e parâmetro c, como acerto casual.
Ambos observados na curva característica do item
Importante é notar que na plataforma do Banco de Itens foram encontrados
apenas valores relativos à categoria Infomax, que se refere ao parâmetro a, convertido
na escala SAEB, e ProfixMax, que se refere ao parâmetro b convertido na escala
SAEB. Não foram encontrados nos relatórios apresentados à SME-RJ justificativas do
cálculo utilizado para a conversão dos valores.

Figura 2 - Níveis da Escala SAEB de Língua Portuguesa 9º ano

Fonte: INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS


ANÍSIO TEIXEIRA (2020).
43

Outra categoria avaliada neste estudo foram as classificações quanto ao nível


de proficiência atribuído para cada item. A escala SAEB de Língua Portuguesa do
9º ano é dividida em oito níveis, com distribuição métrica de proficiência que varia
entre 200 a 375. A posição de um item em uma escala de proficiência indica uma
espécie de linha divisória que aloca o estudante numa determinada probabilidade de
desenvolvimento de uma dada habilidade (INSTITUTO NACIONAL DE ESTUDOS E
PESQUISAS EDUCACIONAIS ANÍSIO TEIXEIRA, 2019).
Baseadas nos valores distribuídos na escala SAEB, as categorias sobre os
níveis de proficiência dos alunos definidas pela empresa consultora foram assim
definidas:
a) Abaixo do Básico - Os alunos neste nível demonstram domínio insuficiente,
dos conteúdos, competências e habilidades desejáveis para o ano escolar em que se
encontram;
b) Básico - Os alunos neste nível demonstram mínimo dos conteúdos,
competências e habilidades, mas possuem as estruturas necessárias para interagir
com a proposta curricular no ano subsequente;
c) Proficiente - Os alunos neste nível demonstram domínio pleno dos
conteúdos, competências e habilidades desejáveis para o ano escolar em que se
encontram;
d) Avançado - Os alunos neste nível demonstram conhecimentos e domínio
dos conteúdos, competências e habilidades acima do requerido no ano escolar em
que se encontram.

3.4 PARTICIPANTES DO ESTUDO

Como recorte da população escolhida para este estudo, optou-se por avaliar os
resultados dos itens validados para alunos do 9º ano do Ensino Fundamental.
Importante é notar que o universo amostral escolhido pela empresa ELBI para a
realização da pré-testagem dos itens que compõem o Banco de Itens da SME-RJ fora
constituído por alunos oriundos da Secretaria Estadual da Paraíba. O pré-teste
ocorreu entre os dias 8 e 16 de maio de 2018, nas cidades de João Pessoa e Campina
Grande.
De acordo com orientação da empresa consultora, cabe ressaltar que, como a
pré-testagem ocorreu no primeiro semestre do ano de 2018, cada instrumento de
44

avaliação foi aplicado ao ano escolar subsequente em relação ao ano que o item foi
elaborado. Segundo as considerações da empresa consultora, “este procedimento
visou assegurar que todos os estudantes respondentes estivessem plenamente
formados e aptos a responder o conjunto de itens aplicados” (ELBI, 2018b, p. 14).
Desta forma, os itens referentes ao 9º ano do Ensino Fundamental foram aplicados
em alunos do primeiro ano do Ensino Médio.
Sobre a participação no pré-teste, pode-se afirmar que dos 8.907 respondentes
previstos para o primeiro ano do Ensino Médio, participaram da aplicação 4.840
respondentes. O número de participantes corresponde a pouco mais de 50% do que
era esperado.

3.5 COLETA E ANÁLISE DE DADOS

Para avaliar a qualidade técnica dos itens do Banco de Itens da SME-RJ,


interessou ao estudo identificar etapas importantes que subsidiaram a atribuição de
parâmetros estatísticos na configuração do projeto. Para tanto, considerou-se três
etapas significativas, a saber: consulta aos documentos relacionados à criação do
Banco de Itens; cotejos dos descritores; seleção dos itens para avaliação dos
descritores.

3.5.1 Consulta aos documentos relacionados à criação do Banco de Itens

Nesta etapa foram elencados, não só os documentos, mas, também relatórios,


planilhas e outros materiais relacionados à criação do Banco de Itens.
Assim, o primeiro procedimento para a coleta de dados foi a leitura e
apropriação das propostas apresentadas pelo Termo de Referência do projeto Banco
de Itens da SME-RJ (BANCO MUNDIAL, 2016). Este documento foi constituído pelo
detalhamento de 10 produtos a serem entregues no período de aproximadamente um
ano. Como o projeto foi dividido em 10 entregas de produtos, os relatórios referentes
às entregas destes produtos subsidiaram parte da coleta dos dados. Considerou-se,
pois, a matriz de referência de Língua Portuguesa, o relatório do plano amostral da
pré-testagem, o relatório da pré-testagem, o relatório sobre os resultados dos itens
testados e a escala de proficiência assumida para alocação dos itens, de acordo com
a proficiência e o relatório sobre o funcionamento e gerenciamento do software de
45

processamento de dados. Aliada a estas leituras, foram consultadas também


planilhas, no formato Excel, com mapeamento dos itens e as habilidades avaliadas.
Tais planilhas, selecionadas por ano escolar, destacavam: código do item, status de
aprovação no pré-teste, área do conhecimento, dimensão de leitura, gênero do texto-
base e habilidade avaliada (ELBI, 2018b).
Além destes relatórios, a consulta aos documentos que dizem respeito ao
processo de uma licitação pública, no âmbito da SME-RJ, e segundo os critérios
determinados pelo BIRD, bem como as publicações de atas em Diário Oficial foram
de suma importância para a compreensão macro sobre a configuração do projeto
Banco de Itens, segundo as orientações do BIRD.
Importante é salientar também que, durante o período da coleta de dados, o
sistema do Banco de Itens funcionou na maior parte do tempo em caráter de
homologação, isto é, de teste. Assim, houve muita dificuldade para a extração dos
valores estatísticos atribuídos aos itens em TRI. Quanto aos valores da TCT, como o
banco não inclui tais resultados, os mesmos foram compilados no corpus deste
estudo, por meio dos relatórios enviados a SME-RJ.

3.5.2 Cotejo dos descritores

Para a implementação do Banco de Itens, a matriz de referência adotada pela


SME-RJ para Língua Portuguesa difere da matriz SAEB. Enquanto a matriz SAEB de
Língua Portuguesa compreende 21 descritores, a matriz do Banco de Itens da
SME-RJ passou a compreender 62 descritores. Isto significa afirmar que os
conhecimentos e as competências linguísticas esperadas para o 9º ano foram
indicados em 62 descritores, divididos em quatro dimensões, a saber: Textual,
Enciclopédica, Variação Linguística e Sistêmica. Segundo base epistemológica
utilizada para a configuração da matriz de referência de Língua Portuguesa do Banco
de Itens da SME-RJ, tais dimensões “organizam o que pode ser medido em testagens
de competência leitora, reunindo nesses agrupamentos as habilidades consideradas
essenciais (...) para uma leitura proficiente” (ELBI, 2017b, p. 16).
Neste sentido, a matriz de referência adotada para o Banco de Itens da
SME-RJ (ELBI, 2017a) demarca as características elencadas para cada dimensão e
destaca que a dimensão Textual diz respeito à superestrutura do texto, considerando
o propósito comunicativo à tipologia textual. Já a dimensão Enciclopédica preconiza
46

o conhecimento de mundo, isto é, nesta dimensão prevalecem os conhecimentos que


não dependem exclusivamente do conhecimento linguístico, mas envolvem
convenções sociais, culturais, crenças etc. A dimensão Variação Linguística envolve
uso de marcas características de fatores geográficos, socioculturais e estilísticos,
registros formais e informais. A dimensão Sistêmica refere-se às relações pelas quais
uma língua se organiza e se estrutura.
De forma similar aos tópicos dispostos na matriz de referência de Língua
Portuguesa do SAEB, as dimensões destacadas agrupam os diferentes processos de
construção do significado, por meio das interações sociais entre os usuários da língua.
Os tópicos destacados na matriz SAEB para avaliação da competência leitora dos
alunos do 9º ano do Ensino Fundamental estruturam-se em cinco partes:
Procedimentos de leitura; Implicações do suporte, do gênero e/ou do enunciador na
compreensão do texto; Relação entre textos; Coerência e Coesão no processamento
do texto; Relações entre recursos expressivos e efeitos de sentido.
Portanto, para que fosse possível uma avaliação com parâmetros mais
robustos e respaldada por critérios pressupostos em avaliação externa de cunho
nacional, optou-se por um recorte, a partir dos descritores adotados pelo SAEB. Neste
sentido, o segundo procedimento para a análise e coleta de dados deste estudo foi
realizar um estudo comparativo entre os descritores da matriz SAEB e os presentes
no Banco de Itens da SME-RJ. A proposição de um comparativo destaca no Banco
de Itens a presença e relevância de descritores dispostos na etapa final de avaliação
do Ensino Fundamental, em âmbito nacional.
Os Quadros 4 a 9 apresentam o cotejo realizado e objetivam relacionar tais
descritores com os tópicos de leitura destacados pela matriz SAEB.

Quadro 4 - Cotejo de descritores referentes ao Tópico I – Procedimentos de leitura da matriz


SAEB de Língua Portuguesa
Cód. Cód.
Descritores SAEB Descritores SME Dimensão
SAEB SME
Localizar informações Localizar informação explícita em
D1 P01 Textual
explícitas em um texto. diferentes gêneros textuais.
Inferir o sentido de uma palavra
Inferir o sentido de uma
D3 P08 ou expressão em diferentes Textual
palavra ou expressão.
gêneros literários.
(Continua)
47

(Conclusão)
Cód. Cód.
Descritores SAEB Descritores SME Dimensão
SAEB SME
Inferir uma
D4 informação implícita P28 Inferir informação implícita. Enciclopédica
em um texto.
Identificar o tema de
D6 P10 Identificar o tema de um texto. Textual
um texto.
Distinguir um fato da
D14 opinião relativa a P26 Distinguir fato de opinião Enciclopédica
esse fato.
Fonte: INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO
TEIXEIRA (2020).

Quadro 5 - Cotejo de descritores referentes ao Tópico II - implicações do suporte, do gênero


e /ou do enunciador na compreensão do texto da matriz SAEB de Língua Portuguesa
Cód. Cód.
Descritores SAEB Descritores SME Dimensão
SAEB SME
Interpretar texto com
Interpretar texto com auxílio de material gráfico
auxílio de material gráfico diverso (hipertexto, ícone,
D5 P31 Enciclopédica
diverso (propagandas, charge, tirinhas, mapas,
quadrinhos, foto, etc.). infográficos, tabelas,
ilustrações, fotos etc.).

Identificar a finalidade de Identificar a finalidade de


D12 textos de diferentes P21 textos de diferentes Textual
gêneros. gêneros.
Fonte: INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO
TEIXEIRA (2020).

Quadro 6 - Cotejo de descritores referentes ao Tópico III – Relação entre textos da matriz
SAEB de Língua Portuguesa
Cód. Cód.
Descritores SAEB Descritores SME Dimensão
SAEB SME
Reconhecer diferentes Reconhecer diferentes
formas de tratar uma formas de tratar uma
informação na comparação informação na comparação
de textos que tratam do de textos que tratam do
D20 P12 Textual
mesmo tema, em função mesmo assunto, em função
das condições em que ele das condições em que ele
foi produzido e daquelas foi produzido e daquelas
em que será recebido. em que será recebido.
Reconhecer posições Reconhecer posições
distintas entre duas ou distintas entre duas ou
D21 mais opiniões relativas ao P14 mais opiniões relativas ao Textual
mesmo fato ou ao mesmo mesmo fato ou ao mesmo
tema tema.
Fonte: INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO
TEIXEIRA (2020).
48

Quadro 7 - Cotejo de descritores referentes ao Tópico IV - Coerência e coesão no


processamento do texto da matriz SAEB de Língua Portuguesa
Cód. Cód.
Descritores SAEB Descritores SME Dimensão
SAEB SME
Estabelecer relações entre
Estabelecer relações entre
partes de um texto,
partes de um texto,
identificando repetições ou
identificando repetições ou
D2 P48 substituições que Sistêmica
substituições que
contribuem para
contribuem para a
continuidade do fluxo
continuidade de um texto
informacional.
Identificar a tese de um Identificar a tese de um
D7 P15 Textual
texto. texto.
Estabelecer relação entre a Estabelecer relação entre a
D8 tese e os argumentos P16 tese e os argumentos Sistêmica
oferecidos para sustentá-la oferecidos para sustentá-la
Diferenciar as partes Diferenciar as partes
D9 principais das secundárias P06 principais das secundárias Sistêmica
em um texto em um texto
Identificar o conflito Identificar o conflito
gerador do enredo e os gerador do enredo e os
D10 P13 Textual
elementos que constroem elementos que constroem
a narrativa a narrativa
Estabelecer relação Estabelecer relação
causa/consequência entre causa/consequência entre
D11 P52 Textual
partes e elementos do partes e elementos do
texto texto
Estabelecer relações
Estabelecer relações
lógico-discursivas
lógico-discursivas
presentes no texto,
D15 presentes no texto, P50 Sistêmica
marcadas por conjunções e
marcadas por conjunções,
outros elementos
advérbios etc.
interfrásicos
Fonte: INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO
TEIXEIRA (2020).

Quadro 8 - Cotejo de descritores referentes ao Tópico V - Relações entre recursos


expressivos e efeitos de sentido da matriz SAEB de Língua Portuguesa
Cód. Cód. Descritores
Descritores SAEB Dimensão
SAEB SME SME
Identificar efeitos de ironia ou humor em
D16 Sistêmica
textos variados
Identificar o efeito de sentido decorrente
D17 do uso da pontuação e de outras Sistêmica
notações
(Continua)
49

(Conclusão)
Cód. Cód.
Descritores SAEB Descritores SME Dimensão
SAEB SME
Reconhecer o efeito de
Reconhecer o efeito de
sentido decorrente da
sentido decorrente do uso
D18 escolha de uma P58 Sistêmica
de uma determinada palavra
determinada palavra ou
ou expressão.
expressão
Reconhecer o efeito de Reconhecer o efeito de
sentido decorrente da sentido decorrente da
D19 exploração de recursos P57 exploração de recursos Sistêmica
ortográficos e/ou ortográficos e/ou
morfossintáticos morfossintáticos
Fonte: INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO
TEIXEIRA (2020).

Quadro 9 - Cotejo de descritores referentes ao Tópico IV – Variação Linguística


Cód. Cód.
Descritores SAEB Descritores SME Dimensão
SAEB SME
Identificar as marcas
Identificar as marcas
linguísticas que
linguísticas que evidenciam
D13 P49 evidenciam o locutor e o Sistêmica
o locutor e o interlocutor de
interlocutor de um mesmo
um texto
texto.
Fonte: INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO
TEIXEIRA (2020).

3.5.3 Seleção dos itens para avaliação dos descritores

Após o cotejo dos descritores dos itens do 9º ano, descritores propostos para
a matriz SME-RJ correspondentes aos contidos na matriz SAEB de Língua
Portuguesa, dos 559 itens dispostos no banco com tal correspondência, 468 foram
aprovados. Segundo os relatórios da empresa consultora (ELBI, 2018b), os motivos
para não aprovação ou não convergência dos itens foram: valor negativo para
alternativa correta no coeficiente bisserial por alternativa; discriminação baixa no
parâmetro c da TRI, isto é, assíntota inferior maior a 0,35.
Embora o relatório entregue a SME-RJ saliente que as informações intrínsecas
aos itens convergentes sejam facilmente identificáveis por meio de entrega de
produtos em três modalidades – banco de itens online, relatório Ficha do Item e
planilha de micro dados (ELBI, 2018a), as informações complementares sobre cada
um dos itens, considerando TCT e TRI, precisam ser cotejadas para que se possa ter
uma visão mais ampla sobre os parâmetros obtidos pelos itens.
50

O banco de itens online apresenta o item com a descrição da dimensão em que


ele está inserido na matriz de Língua Portuguesa, além o nível de proficiência,
segundo a categorização definida por Abaixo do Básico, Básico, Proficiente e
Avançado. Não há nessa modalidade informações sobre os parâmetros dos itens, de
acordo com a TCT. Para a execução deste estudo foi necessário compilar informações
contidas tanto no banco de itens online, como no relatório Ficha do Item, além dos
micro dados dispostos em planilha no formato Excel.
Os itens constituintes da amostra deste estudo foram agrupados por níveis de
proficiência, segundo a escala apresentada pela empresa consultora: Abaixo do
Básico, Básico, Proficiente e Avançado. O agrupamento permitiu verificar quantos
itens em determinado nível de proficiência o banco dispõe, além de apresentar os
parâmetros dos itens selecionados, por meio de estatística descritiva tanto da TCT,
quanto da TRI. As fichas dos itens, referentes à TCT, associadas aos gráficos da TRI,
fornecidas pela empresa consultora, por meio de relatório Ficha do item (ELBI, 2018a),
corroboraram para a categorização dos itens.
Os dados coletados dispostos em relatório (ELBI, 2018a) entregue pela
empresa consultora a SME-RJ demonstraram também as partes componentes do item
– título do texto, assunto do texto-base, gênero do texto, características das opções
de resposta.
O comportamento de cada um dos itens, diante do grupo de distratores, foi
analisado levando-se em consideração possíveis induções ao erro, em contraponto
com a resposta correta.
Por fim, apresentou-se as inferências dessa análise, a partir do conjunto de
itens analisado. No Capítulo 4, a seguir, será apresentada uma amostra dos itens de
Língua Portuguesa selecionados a partir do recorte correspondência com os
descritores contidos na matriz SAEB, classificação da proficiência encontrada, nível
de dificuldade, descrição das partes componentes do item, análise do comportamento
do item, análise da TRI e considerações finais sobre esta amostra.
51

4 RESULTADOS

Os resultados aqui apresentados compõem o produto do presente estudo - um


conjunto de 38 itens de teste do Banco de Itens, aplicados aos alunos do 9º ano do
Ensino Fundamental, em 2018, para a Secretaria Municipal de Educação do Rio de
Janeiro.

4.1 VISÃO GERAL

Os caminhos preliminares para o recorte da avaliação obedeceram a etapas


significativas que puderam contribuir para a definição da amostra do presente estudo,
a saber: (1) identificação do número total de itens pré-testados no Banco de Itens
SME-RJ; (2) cotejo de descritores SAEB e Banco de Itens SME-RJ; (3) distribuição de
itens por descritor de referência; (4) classificação por níveis da escala de proficiência;
(5) distribuição do quantitativo de itens por classificação da proficiência.
A primeira etapa de identificação do número absoluto de itens do 9º ano no
Banco de Itens permitiu uma seleção, a partir do critério testados/ não-testados.
Identificou-se com tal critério que dos 559 itens cadastrados no banco, apenas 468
itens foram pré-testados e dispunham de respectivos parâmetros estatísticos.

Tabela 1 - Avaliação dos itens totais de Língua Portuguesa do 9º ano


Itens Quantitativo
Testados 468
Não-testados 91
Total 559
Fonte: RIO DE JANEIRO (2018b).

A segunda etapa do estudo foi cotejar os descritores da matriz de referência


do SAEB com a matriz de referência do Banco de Itens SME-RJ. Tal cotejo permitiu
identificar que dos 21 descritores do SAEB, dois não foram contemplados na matriz
de referência Banco de Itens SME-RJ, D16 e D17.
O Quadro 10, a seguir, apresenta, via relação entre códigos, o total de
descritores do Banco de Itens SME-RJ, divididos e cotejados por tópicos de leitura e
por descritores SAEB.
52

Quadro 10 - Descritores do Banco de Itens SME-RJ cotejados com os descritores do SAEB


Cód. Descritores
Cód. Descritores
Tópicos de Leitura SAEB Banco de Itens SME -
SAEB
RJ
D1 P01
D3 P08
Procedimentos de leitura D4 P28
D6 P10
D14 P26
Implicações do suporte, do gênero e
D5 P31
/ou do enunciador na compreensão do
texto D12 P21
D20 P12
Relação entre textos
D21 P14
D2 P48
D7 P15
D8 P16
Coerência e coesão D9 P06
D10 P13
D11 P52
D15 P50
D16 -
Relações entre recursos expressivos e D17 -
efeitos de sentido D18 P58
D19 P57
Variação Linguística D13 P23
Total 21 19
Fonte: RIO DE JANEIRO (2018b).

Para cada um desses descritores contemplados pelo Banco de Itens SME –


RJ, destaca-se determinado número de itens testados. Após o cotejo de descritores,
interessou ao estudo a distribuição do quantitativo de itens por descritor.

Tabela 2 - Distribuição de itens testados por descritor de referência


Descritores Banco de Quantidade de
Descritores SAEB
Itens -SME -RJ Itens
D1 P01 45
D3 P08 41
D4 P28 40
D6 P10 52
D14 P26 39
D5 P31 51
D12 P21 39
D20 P12 13
D21 P14 01
D2 P48 19
(Continua)
53

(Conclusão)
Descritores Banco de Quantidade de
Descritores SAEB
Itens -SME -RJ Itens
D7 P15 34
D8 P16 20
D9 P06 00
D10 P13 04
D11 P52 22
D15 P50 20
D18 P58 18
D19 P57 8
D13 P49 2
Total 468
Fonte: RIO DE JANEIRO (2018b).

Para o presente estudo interessou também relacionar os padrões da escala de


proficiência encontrados no SAEB e no Banco de Itens SME- RJ. Importante é
ressaltar que as referidas classificações da proficiência do Banco de Itens SME-RJ
ancoram-se nos padrões adotados pela escala SAEB para identificar, por meio de
níveis, aquilo que possivelmente os estudantes são capazes de fazer. Segundo o
Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira – INEP (2020)
isso significa considerar o possível desenvolvimento de habilidades previstas para o
final do 9º ano de escolaridade. Elaborou-se nesse estudo, portanto, um quadro
comparativo, com vistas à comparação entre os pontos de corte assumidos tanto pelo
SAEB quanto pela empresa consultora.

Quadro 11 - Classificação do nível de proficiência de Língua Portuguesa no 9º ano, segundo


SAEB e empresa consultora
Classificação
Escala de proficiência Classificação ELBI
SAEB
Nível 0 < 200 Abaixo do Básico
Nível 1 ≥ 200 < 225
Nível 2 ≥ 225 < 250 Básico
Nível 3 ≥ 250 < 275
Nível 4 ≥ 275 < 300
Proficiente
Nível 5 ≥ 300 < 325
Nível 6 ≥ 325 < 350
Nível 7 ≥ 350 < 375 Avançado
Nível 8 ≥ 375
Fonte: INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO
TEIXEIRA (2020); ELBI (2018a).
54

Após identificar o quantitativo de descritores dispostos no Banco de Itens SME-


RJ e relacionar os padrões para a classificação das proficiências, optou-se ainda
nesse estudo por identificar o quantitativo de itens aprovados por classificação de
proficiência, como é possível observar na Tabela 3, a seguir.

Tabela 3 - Distribuição do quantitativo de itens testados


Classificação da proficiência Quantitativo
Abaixo do Básico -
Básico 19
Proficiente 123
Avançado 326
Total 468
Fonte: RIO DE JANEIRO (2018b).

Como é possível observar, não foram encontrados no Banco de Itens SME-RJ


itens classificados como Abaixo do Básico. Vale notar que a prova do 9º ano do SAEB
não é composta por itens que avaliem habilidades do nível 0 da escala, isto é, com
proficiência menor que 200 (INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS
EDUCACIONAIS ANÍSIO TEIXEIRA, 2020). A maior parte dos itens foi classificada no
nível Avançado, reunindo 69,66% deles, para 26,28% de itens no nível Proficiente.
Em termos de equilíbrio da distribuição, seria mais adequado que esses percentuais
de itens correspondessem a um terço do total de itens.

4.2 INFORMAÇÕES ESPECÍFICAS

Dada a quantidade do total de itens do Banco, a estratégia de seleção dos itens


foi balizada por escolha de 1 item por descritor em cada nível de proficiência. Dessa
forma, foi possível reunir 38 itens. Os 38 itens da amostra foram dispostos por: a)
correspondência do descritor SAEB (Cod) com o descritor SME-RJ (Número), seguido
do código do item; b) nível do item no pré-teste e, entre parênteses, a proficiência
atingida; c) classificação da proficiência do item (Class. Profic.), segundo a empresa
consultora, com um exemplo de cada categoria da proficiência (básico, proficiente e
avançado), quando havia; d) índice de dificuldade do item (DIFI), por meio do
percentual de acertos e a classificação obtida (Classif. DIFI); e) índice de
discriminação do item (Discr.), seguido de sua classificação (Class. Discr.), segundo
a literatura sobre o tema (Quadro 12).
55

Nota-se que a disposição das categorias do quadro, a seguir, destaca tanto


elementos da TRI quanto da TCT. Importante é salientar que a disposição dos itens
na coluna Número (Nº) não obedece à ordem em que os mesmos apareceram nos
testes aplicados aos alunos no pré-teste.

Quadro 12 - Distribuição de itens selecionados por descritor, código do item no Banco de


Itens, nível e classificação de proficiência e classificações TCT
Class. Class. Class.
Cod Nº Cód. Item Nível DIFI Discr.
Profic. DIFI Discr.
1 QE0079968 3 (274) Básico 74,6 Fácil 0,49 Boa
D01 2 QE0079912 4 (294) Proficiente 66,6 Médio 0,47 Boa
3 QE0079948 8 (388) Avançado 33,7 Médio 0,14 Baixa
4 QE0082037 5 (301) Proficiente 59,5 Médio 0,40 Boa
D02
5 QE0081176 6 (341) Avançado 49,4 Médio 0,45 Boa
6 QE0081217 3 (265) Básico 71,3 Fácil 0,31 Boa
D03 7 QE0083212 4 (296) Proficiente 64,5 Médio 0,56 Boa
8 QE0082933 7 (351) Avançado 51,7 Médio 0,23 Baixa
9 QE0079918 4 (2850 Proficiente 72,1 Fácil 0,59 Boa
D04
10 QE0082030 7 (356) Avançado 40,6 Médio 0,39 Boa
11 QE0082009 3 (274) Básico 76,0 Fácil 0,51 Boa
D05 12 QE0081931 5 (318) Proficiente 51,3 Médio 0,67 Boa
13 QE0082007 6 (331) Avançado 48,4 Médio 0,55 Boa
14 QE0084822 3 (268) Básico 78,6 Fácil 0,40 Boa
D06 15 QE0082847 4 (288) Proficiente 68,8 Médio 0,51 Boa
16 QE0082842 7 (371) Avançado 36,3 Médio 0,42 Boa
17 QE0079962 5 (324) Proficiente 52,9 Médio 0,50 Boa
D07
18 QE0079966 8 (429) Avançado 15,8 Difícil 0,16 Baixa
19 QE0084441 4 (287) Proficiente 65,9 Médio 0,56 Boa
D08
20 QE0079967 8 (402) Avançado 34,0 Médio 0,23 Baixa
D10 21 QE0082028 7 (3660 Avançado 40,7 Médio 0,27 Boa
D11 22 QE0081921 5 (316) Proficiente 58,4 Médio 0,65 Boa
23 QE0079975 7 (355) Avançado 41,2 Médio 0,41 Boa
24 QE0089308 3 (255) Básico 80,3 Fácil 0,32 Boa
D12 25 QE0079961 4 (296) Proficiente 65,1 Médio 0,52 Boa
26 QE0079955 7 (355) Avançado 47,7 Médio 0,38 Boa
D13 27 QE0089089 6 (338) Avançado 46,4 Médio 0,52 Boa
28 QE0089109 5 (312) Proficiente 55,0 Médio 0,56 Boa
D14
29 QE0082785 8 (440) Avançado 33,0 Médio 0,11 Baixa
30 QE0081238 4 (285) Proficiente 70,8 Fácil 0,55 Boa
D15
31 QE0082164 8 (408) Avançado 19,4 Difícil 0,19 Baixa
32 QE0081207 5 (309) Proficiente 53,5 Médio 0,66 Boa
D18
33 QE0081115 7 (373) Avançado 31,9 Médio 0,35 Boa
34 QE0089060 5 (300) Proficiente 57,7 Médio 0,67 Boa
D19
35 QE0083519 8 (394) Avançado 25,4 Difícil 0,24 Baixa
36 QE0084732 4 (297) Proficiente 63,5 Médio 0,50 Boa
D20
37 QE0082189 8 (383) Avançado 27,9 Difícil 0,37 Boa
D21 38 QE0089803 7 (359) Avançado 31,0 Médio 0,52 Boa
Fonte: RIO DE JANEIRO (2018b).
56

Trata-se de uma distribuição arbitrária para a seleção de itens por descritor. A


denominação Nº foi considerada número de referência do item para a composição da
amostra.
A amostra possibilita observar que, sob a ótica da TRI, nem todos os descritores
possuem itens distribuídos por nível/classificação de proficiência. O descritor 09 (D09)
do SAEB - Diferenciar as partes principais das secundárias em um texto - não dispõe
de nenhum item no Banco de Itens da SME-RJ como também os descritores D16 e
D17.
A Tabela 4 apresenta o número de referência do item distribuído por descritor
do SAEB e classificação de proficiência.

Tabela 4 - Distribuição de itens por descritor e classificação de proficiência


Código Descritor Proficiência Banco de Itens SME-RJ
SAEB Básico Proficiente Avançado
D1 1 2 3
D2 4 5
D3 6 7 8
D4 9 10
D5 11 12 13
D6 14 15 16
D7 17 18
D8 19 20
D10 21
D11 22 23
D12 24 25 26
D13 27
D14 28 29
D15 30 31
D18 32 32
D19 34 35
D20 36 37
D21 38
Fonte: RIO DE JANEIRO (2018b).

Dos 19 descritores do Banco de Itens SME-RJ cotejados com os do SAEB,


apenas 5 descritores da amostra possuem itens nas três diferentes proficiências
(básico, proficiente e avançado), a saber: D1, D3, D5, D6 e D12. Há 10 descritores
representados por itens nos níveis de proficiência Proficiente e Avançado: D2, D4, D7,
D8, D11, D14, D15, D18, D19 e D20.
57

Tabela 5 - Distribuição dos itens do 9º ano, por nível da escala SAEB de desempenho em
Leitura e índices de dificuldade e de discriminação
Nº dos itens
Nº dos itens fáceis Nº dos itens médios Total
difíceis
Nível
Discr Discr Discr Discr Discr Discr
Baixa Boa Baixa Boa Baixa Boa
225 -
250 1, 6, 11, 14,24 5
275 9, 30 7,15, 19, 25, 36 7
300 4, 12, 22, 28, 32, 34 6
325 5, 13, 17, 27 4
10,16, 21, 23, 26,
350 8 8
33, 38
375 3, 20 4 31,35 37 6
425 29 18 2
- - - - - - - 38
Fonte: A autora (2019).

Outro aspecto do estudo é que, de acordo com a TCT, a amostra possibilitou


observar que, de maneira geral, quanto à classificação da dificuldade do item, a
discriminação é boa (alta) quando se tratam de itens fáceis e médios (Tabela 5).
Apenas os itens 3, 8, 20 e 29 (considerados de dificuldade mediana) apresentaram
baixa discriminação. Já os itens considerados difíceis apresentaram baixa
discriminação – 18, 31 e 35. Somente o item 37 obteve alta discriminação (Tabela 5).

4.3 PARTES COMPONENTES DO ITEM

Para a validação pedagógica da amostra, interessou ao estudo compreender a


estrutura composicional dos itens: suporte – contexto em que as informações estão
dispostas; texto-base – parte do item que delineia a situação de resposta; comando –
instrução para o procedimento da resposta; opções de resposta – possibilidades de
resposta correta ao problema (ELBI, 2018a). Nesse sentido, dos 38 itens da amostra,
é possível observar que cada um deles é composto por: suporte, texto(s)-base,
caracterizados por gêneros textuais diversos; comandos, além de quatro opções de
respostas, com um gabarito para cada item. Sobre a categoria texto-base e respectivo
gênero textual, a amostra dispõe de 15 gêneros, a saber: artigo de opinião, crônica,
romance, divulgação-científica, conto, canção, quadrinho, anúncio publicitário, blog,
editorial, provérbios, propaganda institucional, carta do leitor, poema e fábula.
58

Quadro 13 - Distribuição do título/assunto do texto-base e gênero textual por descritor


Cod Nº Título/ Assunto do Texto Gênero Textual
1 Relacionamento com o dinheiro Artigo de opinião
D01 2 A importância da leitura em voz alta Artigo de opinião
3 Aos apaixonados Crônica
4 Os noivos Romance
D02
5 Ter plantas em casa faz mal? Divulgação científica
6 A Moreninha Romance
D03 7 Chove chuva Crônica
8 Homens de mármore Conto
9 Água Canção
D04
10 Apelo Conto
11 A preocupação de Mafalda Quadrinhos
D05 12 O menino e a TV Quadrinhos
13 Elefante Anúncio publicitário
14 A vida não presta Canção
D06 15 Casa no campo Canção
16 Faixa amarela Canção
17 O poder do amor (1) Blog
D07
18 O poder do amor (2) Blog
19 Face é ficção Editorial
D08
20 Relacionamento com dinheiro Artigo de Opinião
D10 21 Um velho desconjuntado Romance
D11 22 Mafalda e a democracia Quadrinhos
23 Virar a casaca Provérbio
24 Campanha Sport Clube Propaganda institucional
D12 25 O poder do amor (1) Blog
26 Gambiarras nada saudáveis Artigo de Opinião
D13 27 Qualquer coisa Poema
28 O perigo das drogas Artigo de Opinião
D14
29 Senhores editores Carta do leitor
30 Ratoeira Fábula
D15
31 Ciranda de Pedras Romance
32 Qual a idade da raça humana? Divulgação científica
D18
33 Dorme ruazinha Poema
34 Não pise nas sepulturas Conto
D19
35 Dengue Propaganda institucional
1-Pesquisa demonstra como anúncios de 1-Divulgação científica
televisão difundem maus hábitos
36 alimentares
2-Mito sobre a criação de filhos que 2-Artigo de opinião
D20
ninguém tinha coragem de contar
1-O lado positivo da clonagem
37 2- Será a clonagem dos seres Artigo de Opinião
moralmente aceitável?
D21 38 Prefácio – Seu Ciço Artigo de opinião
Fonte: A autora (2019).
59

Foram identificados 40 textos-base na amostra. Todos os itens, exceto os


números 36 e 37 apresentaram um texto-base em sua composição. Os itens número
36 e 37, referentes ao descritor D20 dispõem de dois textos-base.

Tabela 6 - Distribuição do quantitativo de textos-base por gênero textual


Quantidade
Gênero Textual
de Textos
Artigo de Opinião 9
Romance 4
Canção 4
Divulgação científica 3
Conto 3
Quadrinhos 3
Blog 3
Crônica 2
Propaganda institucional 2
Poema 2
Anúncio publicitário 1
Editorial 1
Provérbio 1
Carta do leitor 1
Fábula 1
Total 40
Fonte: A autora (2019).

Sobre o comando do item verifica-se que todos foram realizados no formato de


complementação. Isto significa afirmar que todos os itens explicitaram com clareza a
tarefa que se pretende avaliar, sem indicação de ponto de interrogação anterior às
opções de resposta, conforme é possível observar no exemplo.

A palavra destacada na frase “...em sua casa...” refere-se ao


A) conde Atílio
B) frei Cristóforo
C) senhor prefeito
D) dom Rodrigo
(ELBI, 2018a, p. 71).

Quanto às opções de resposta verifica-se também que os 38 itens são


compostos por quatro opções de respostas, sendo três distratores – indicações de
possíveis raciocínios dos respondentes - e um gabarito – opção de resposta correta
do item.
60

4.4 ANÁLISE DO COMPORTAMENTO DO ITEM

Quanto ao comportamento do item, é fundamental que critérios sejam


estabelecidos para a qualidade das questões. Sobre esse tópico, interessou ao estudo
avaliar possível indução ao erro de uma alternativa, em contraponto com a alternativa
correta. Para tal, foi fundamental observar os critérios adotados pela consultora ELBI
para a validação pedagógica antes da testagem, bem como os parâmetros estatísticos
atingidos pelos itens, após pré-testagem. Sobre os aspectos pedagógicos
relacionados à estrutura das alternativas, a consultora considerou:

Há apenas uma opção correta?


Há indicadores ou pistas das opções corretas?
Cada opção apresenta sintonia gramatical com o enunciado?
A extensão das opções é equilibrada?
As opções estão organizadas por critério lógico?
Todas as opções são critérios plausíveis?
O item apresenta quatro opções de resposta?
As opções de resposta são precedidas por letras, digitadas em caixa
alta e seguidas por um parêntese?
Os distratores focalizam tópicos importantes do conteúdo? (ELBI,
2018a, p. 71).

Todos os itens da amostra do estudo foram aprovados, segundo os critérios


estabelecidos pela consultora quanto à categoria opções de respostas. No entanto,
cabe ressaltar que não foram encontradas nos relatórios entregues pela consultora
categorias de respostas para o não atendimento às perguntas de validação
pedagógica dos itens, como por exemplo: rejeitar, modificar e aprovar. Outro dado
relevante para o estudo foi verificar que segundo o relatório da empresa consultora
(ELBI, 2018b), embora o teste fosse constituído por quatro alternativas de respostas
– A, B, C e D, o cartão-resposta dispunha de 5 alternativas. O relatório salienta que “a
alternativa E constava no cartão padronizado de respostas disponibilizado aos
estudantes para a aplicação da pré-testagem” (ELBI, 2018b, p. 15).
Sobre as estatísticas clássicas alcançadas pelos itens, pode-se observar que,
de acordo com a Tabela 5 - Distribuição dos itens do 9º ano, por nível da escala SAEB
de desempenho em Leitura e índices de dificuldade e de discriminação, os itens de
números 3, 8 e 29 (classificados como médios), além dos itens 18, 31 e 35
(classificados como difíceis) tiveram uma baixa discriminação. Tais itens não
separaram adequadamente os alunos com maiores habilidades dos com menores
habilidades. Considerou-se ainda os resultados do Coeficiente Bisserial por alternativa
61

expresso pela correlação entre o desempenho no item e o desempenho no teste.


Espera-se que a opção correta obtenha bisserial positivo e as demais alternativas,
bisserial negativo.
A seguir, seguem análises descritivas sobre o comportamento de sete itens
destacados. Com níveis de dificuldade classificados entre difícil e mediano, tais itens
alcançaram índice de discriminação inferior a 0,25 e indicam uma não separação
adequada dos grupos de alunos com melhor e pior desempenho. Observa-se ainda
possíveis induções ao erro, a partir dos percentuais indicados nas opções de
respostas.
A Tabela 7 apresenta os índices de dificuldade, discriminação, bisserial,
percentuais de resposta e coeficientes bisseriais dos itens selecionados.

Tabela 7 - Estatísticas dos itens com discriminação baixa pela TCT

It Índices Percentuais de Coeficientes


respostas Bisseriais
Nº DIFI DISCR ABAI ACIM BISE A B C D A B C D
3 33,7 0,14 0,32 0,46 0,22 18,3 33,7 28,7 18,6 -0,27 0,22 0,08 -0,13
8 51,7 0,23 0,36 0,60 0,23 51,7 20,0 13,3 14,4 0,23 -0,12 -0,40 0,18
18 15,8 0,16 0,10 0,27 0,31 15,8 10,6 26,7 45,5 0,31 -0,37 -0,26 0,22
20 34,0 0,23 0,20 0,43 0,35 34,0 26,7 24,3 14,0 0,35 -0,47 0,14 -0,09
29 33,0 0,11 0,30 0,41 0,17 26,6 27,5 33,0 12,0 -0,02 0,02 0,17 -0,24
31 19,4 0,19 0,12 0,12 0,30 18,1 48,1 19,4 14,4 -0,07 0,04 0,30 -0,21
35 25,4 0,24 0,19 0,43 0,30 7,5 47,5 18,9 25,4 -0,52 0,11 -0,20 0,30
Fonte: ELBI (2018).

Item 3 (QE0079948) – Classificado como de dificuldade mediana (INEP, 2001),


com percentual de acertos de 33,7%, o item é constituído por texto-base do gênero
crônica, intitulado Aos apaixonados, de autoria de Rubem Alves e tem como objetivo
a localização de informações explícitas. O enunciado destaca o que é correto afirmar
em relação ao texto. Embora um terço dos respondentes tenha optado pela opção
correta - letra B (33,7%) – “A paixão satisfeita dói mais que a insatisfeita”, explícita no
último parágrafo do texto, a opção C obteve percentual próximo de marcação de
respostas – 28,7% - “A razão se sobrepõe a emoção apaixonada”. Quanto aos
Coeficientes Bisseriais por alternativas, verifica-se bisserial positivo para as opções B
(0,22) e C (0,08). Isso denota que a probabilidade de marcação de resposta da
alternativa B é provável para até 22% dos estudantes com maior escore de acertos
62

no teste e para a alternativa C é de 8%. A dicotomia entre razão e emoção


apresentada em todo o fragmento do texto pode ter sido associada a uma hierarquia
de sentimentos. A opção C – “a razão se sobrepõe a emoção apaixonada” pode
possivelmente ter induzido os estudantes ao erro em função do trecho: “Todo
apaixonado é tolo. Pode ser que ele escute mais a fala da razão”.

Item 8 (QE0082933) - Classificado com dificuldade mediana (INEP, 2001), o


item é constituído por texto-base do gênero conto – Homens de Mármore, fragmento
de Regina Drummond, e tem como objetivo inferir o sentido de uma palavra ou
expressão. O enunciado questiona o significado da expressão “de mais a mais” no
texto. As opções foram compostas por situações de acréscimo, causa, correção e
anulação do que já havia sido expresso pelo narrador da história. A inferência de
sentido na expressão “de mais a mais” reforça o acréscimo de uma ideia que já havia
sido apresentada no texto. Embora a maior parte dos respondentes tenha optado pela
alternativa correta - letra A (51,7%), a opção B obteve 20% e a opção D obteve 14,4%
de marcação de respostas. Possivelmente, as ideias de causa e nulidade sobre o que
já havia sido apresentado no texto podem ter atraído os estudantes às alternativas
erradas. Quanto aos Coeficientes Bisseriais por alternativas, verifica-se bisserial
positivo para as opções A (0,23) e D (0,18). Isso denota que a probabilidade de
marcação de resposta da alternativa A é provável para até 23% dos estudantes com
maior escore de acertos no teste e para a alternativa D é de 18%.

Item 18 (QE0079966) - Classificado como difícil (INEP, 2001), o item é


constituído por texto-base do gênero blog – O poder do amor (2), e tem como objetivo
identificar a tese de um texto. O enunciado destaca a natureza do poder do amor,
segundo o texto e as opções de respostas salientam: “no próprio amante”, “no objeto
amado”, “na relação amorosa”, “na fé que ele desperta”. Nota-se que, exceto a opção
D, todas as demais alternativas do item dispõem em sua estrutura interfrásica de
derivados do nome “amor” – “amante, amado, amorosa”. Possivelmente, por ser
diferente, a alternativa D foi a que mais atraiu a marcação dos respondentes. Por
percentual de respostas, verifica-se que maior parte dos respondentes optou pela letra
D (45,5%), e o gabarito, opção A, obteve 15,8% das marcações de respostas. Quanto
aos Coeficientes Bisseriais por alternativas, verifica-se bisserial positivo para as
opções A (0,31) e D (0,22). Isso denota que a probabilidade de marcação de resposta
63

da alternativa A é provável para até 31% dos estudantes com maior escore de acertos
no teste e para a alternativa D é de 22%.

Item 20 (QE0079967) - Classificado com dificuldade mediana (INEP, 2001), o


item é constituído por texto-base do gênero artigo de opinião – Relacionamento com
o dinheiro, e tem como objetivo identificar a tese de um texto. Embora a maior parte
dos respondentes tenha optado pela alternativa correta - letra A (34%), a opção B
obteve 26,7%, a opção C, 24,3% e a opção D, 14% de marcação de respostas. Vale
notar que todas as opções, exceto o gabarito letra A, dispunham do vocábulo
“financeira”. As opções A e C tinham como núcleo central a questão da autonomia –
argumento utilizado para defesa da tese sobre a preferência dada às pessoas
amadas, aos amigos e brinquedos sobre o relacionamento com o dinheiro. Quanto
aos Coeficientes Bisseriais por alternativas, verifica-se bisserial positivo para as
opções A (0,35) e C (0,14). Isso denota que a probabilidade de marcação de resposta
da alternativa A é provável para até 35% dos estudantes com maior escore de acertos
no teste e para a alternativa D é de 14%.

Item 29 (QE0082785) - Classificado com dificuldade mediana a difícil (INEP,


2001), o item é constituído por texto-base do gênero carta do leitor (sem título), de
autoria de Miriam de Albuquerque e tem como objetivo distinguir um fato da opinião
relativa a esse fato. O enunciado objetiva identificar a opinião da autora da carta a
respeito do texto na revista. O trecho “Uma das frases que mais adorei...”, contido na
opção C traz explicitamente a indicação de preferência e, portanto, de opinião da
autora sobre uma situação específica. Embora a maior parte dos respondentes tenha
optado pela opção correta - letra C (33%), a opção B obteve 27,5%. Possivelmente,
os estudantes podem ter interpretado a assertiva sobre a colocação de rótulos em
manifestações artísticas como opinião da autora. Quanto aos Coeficientes Bisseriais
por alternativas, verifica-se bisserial positivo para as opções C (0,17) e B (0,02). Isso
denota que a probabilidade de marcação de resposta da alternativa A é provável para
até 17% dos estudantes com maior escore de acertos no teste e para a alternativa B
é de 2%.

Item 31 (QE0082164) - Classificado como difícil (INEP, 2001), o item é


constituído por texto-base do gênero romance – Ciranda de Pedra, e tem como
objetivo estabelecer relações lógico-discursivas presentes no texto, marcadas por
64

conjunções, advérbios etc. O enunciado quer avaliar o valor semântico do conectivo


em determinado trecho do texto. O conectivo adversativo “mas” expressa ideia de
oposição. As demais opções refletem plausibilidade, pois indicam ideias/funções
relacionadas a conectivos de outra ordem – “consequência”, “explicação” e
“alternância”. Embora a maior parte dos respondentes tenha optado pela alternativa
B (48,1%), a alternativa correta C obteve 19,4% e a opção A obteve 18,1% de
marcação de respostas. Quanto aos Coeficientes Bisseriais por alternativas, verifica-
se bisserial positivo apenas para a opção C (0,30). Isso denota que a probabilidade
de marcação de resposta da alternativa C é provável para até 30% dos estudantes
com maior escore de acertos no teste.

Item 35 (QE0083519) - Classificado como difícil (INEP, 2001), o item é


constituído por texto-base do gênero propaganda institucional – Dengue, e tem como
objetivo reconhecer o efeito de sentido decorrente da exploração de recursos
ortográficos e/ou morfossintáticos. O item pretende avaliar o efeito de sentido atribuído
a frases curtas e objetivas numa propaganda institucional. A alternativa correta – letra
C – “dar ênfase a ideia proposta” - atraiu apenas 25,5% das marcações de respostas.
A opção B atraiu 47, 5%. Possivelmente, os respondentes associaram a faculdade da
reflexão, muitas vezes produzida pelo gênero textual em destaque, e
desconsideraram a grafia inusitada das frases para dar ênfase ao texto. Quanto aos
Coeficientes Bisseriais por alternativas, verifica-se bisserial positivo para as opções D
(0,30) e B (0,11). Isso denota que a probabilidade de marcação de resposta da
alternativa D é provável para até 30% dos estudantes com maior escore de acertos
no teste e para a alternativa D é de 11%.

4.5 ANÁLISE DE PARÂMETROS DA TRI

As análises apresentadas nessa seção objetivam apresentar, por meio da TRI,


os parâmetros estimados para itens da amostra desse trabalho. Interessou ao estudo
um recorte de análise que priorizasse a Curva Característica do Item (CCI) por
descritor. As figuras, a seguir, mostram, de modo comparativo, alguns gráficos da CCI
dos itens por descritor, com os respectivos níveis de proficiência. Neles, o eixo
horizontal refere-se à competência do aluno, indicada por três desvios padrão abaixo
e três desvios padrão acima, e o eixo vertical à probabilidade de acerto do item. Esse
65

modelo identifica os parâmetros “a” (discriminação), “b” (dificuldade) e “c” (assíntota


inferior).

Descritor 1 – Localizar informações explícitas em um texto - Disposto por três


itens com três níveis de proficiência - básico, proficiente e avançado, observa-se que
o parâmetro “c” assume nos itens valores que variam entre 0, 17 e 0,26. Tomando-se
por base o desenho da linha modelo, observa-se que os itens 1 e 2 apresentam
aproximadamente 20% de probabilidade de acerto ao acaso (valor de “c” igual a 0,17)
e o item 3 apresenta 26% de probabilidade de acerto ao acaso.

Figura 3 - Comparação entre curvas características dos itens 1, 2 e 3 referentes ao


descritor D1

Item nº 01 – Nível Básico Item nº 02 – Nível Proficiente

Item nº 03 – Nível Avançado

Fonte: ELBI (2018b).

Com relação ao parâmetro “b” (indicado pela posição da curva), observam-se


os valores de 0,01; 0,35 e 2,11 respectivamente nos itens 1, 2 e 3. Quanto maior o
valor de “b”, mais difícil é o item.
Com relação ao parâmetro “a” (indicado pela inclinação da curva), é possível
verificar valores de 0,94; 0,85 e 1,71 respectivamente. Esses valores indicam quanto
o item consegue separar os alunos que apresentam a habilidade requerida para sua
66

solução daqueles que não a têm. No item 3, por exemplo, é possível verificar o ponto
em que o item passa a ter probabilidade de acerto superior a 60% entre os
respondentes identificados em dois desvios padrão acima da média.

Descritor 4 – Inferir uma informação implícita em um texto - Disposto por dois


itens com dois níveis de proficiência - proficiente e avançado, observa-se que o
parâmetro “c” assume nos itens valores que variam entre 0, 20 e 0,19. Tomando-se
por base o desenho da linha modelo, observa-se que o item 9 apresenta 20% de
probabilidade de acerto e o item 10 apresenta 19% de probabilidade de acerto.

Figura 4 - Comparação entre curvas características dos itens 9 e 10 referentes ao


descritor D4

Item nº 09 – Nível Proficiente Item nº 10 – Nível Avançado

Fonte: ELBI (2018b).

Com relação ao parâmetro “b” (indicado pela posição da curva), observam-se


os valores de 0,20 e 1,51 respectivamente nos itens 9 e 10. Quanto maior o valor de
“b”, mais difícil é o item.
Com relação ao parâmetro “a” (indicado pela inclinação da curva), é possível
verificar valores de 0,60 e 1,54 respectivamente. Esses valores indicam quanto o item
consegue separar os alunos que apresentam a habilidade requerida para sua solução
daqueles que não a têm.
No item 10, por exemplo, é possível verificar o ponto em que o item passa a ter
probabilidade de acerto superior a 60% entre os respondentes identificados em quase
dois desvios padrão acima da média.

Descritor 11 – Estabelecer relação causa/consequência entre partes e


elementos do texto - Disposto por dois itens com dois níveis de proficiência -
proficiente e avançado. Com relação ao parâmetro “c”, verifica-se que o mesmo
67

assume nos itens valores que variam entre 0, 20 e 0,18. Tomando-se por base o
desenho da linha modelo, observa-se que o item 22 apresenta 20% de probabilidade
de acerto e o item 23 apresenta 18% de probabilidade de acerto.

Figura 5 - Comparação entre curvas características dos itens 22 e 23 referentes ao descritor


D11

Item nº 22 – Nível Proficiente Item nº 23 – Nível Avançado

Fonte: ELBI (2018b).

Com relação ao parâmetro “b” (indicado pela posição da curva), observam-se


os valores de 0,78 e 1,50, respectivamente nos itens 22 e 23. Quanto maior o valor
de “b”, mais difícil é o item.
Com relação ao parâmetro “a” (indicado pela inclinação da curva), é possível
verificar valores de 1,15 e 0,76, respectivamente. Esses valores indicam quanto o item
consegue separar os alunos que apresentam a habilidade requerida para sua solução
daqueles que não a têm.

Descritor 14 – Distinguir um fato da opinião relativa a esse fato - Disposto por


2 itens com dois níveis de proficiência - proficiente e avançado, observa-se que o
parâmetro “c” assume nos itens valores que variam entre 0,18 e 0,25. Tomando-se
por base o desenho da linha modelo, observa-se que o item 28 apresenta 18% de
probabilidade de acerto e o item 29 apresenta 25% de probabilidade de acerto.
68

Figura 6 - Comparação entre curvas características dos itens 28 e 29 referentes ao descritor


D14

Fonte: ELBI (2018b).

Com relação ao parâmetro “b” (indicado pela posição da curva), observam-se


os valores de 0,68 e 3,08 respectivamente nos itens 28 e 29. Quanto maior o valor de
“b”, mais difícil é o item.
Com relação ao parâmetro “a” (indicado pela inclinação da curva), é possível
verificar o valor de 1,15 no item 22 e 0,76 no item 23. Esse valor indica quanto o item
consegue separar os alunos que apresentam a habilidade requerida para sua solução
daqueles que não a têm. No item 29, por exemplo, é possível verificar o ponto em que
o item passa a ter probabilidade de acerto superior a 60% entre os respondentes
identificados em três desvios padrão acima da média.

Descritor 15 – Estabelecer relações lógico-discursivas presentes no texto,


marcadas por conjunções, advérbios etc - Disposto por dois itens com dois níveis de
proficiência - proficiente e avançado, observa-se que o parâmetro “c” assume nos
itens valores que variam entre 0,13 e 0,22. Tomando-se por base o desenho da linha
modelo, observa-se que o item 30 apresenta 22% de probabilidade de acerto e o item
31 apresenta 13% de probabilidade de acerto.
Com relação ao parâmetro “b” (indicado pela posição da curva), observam-se
os valores de 0,19 e 2,48 respectivamente nos itens 28 e 29. Quanto maior o valor de
“b”, mais difícil é o item.
Com relação ao parâmetro “a” (indicado pela inclinação da curva), é possível
verificar o valor de 1,55 no item 30 e 0,93 no item 31. Esse valor indica quanto o item
consegue separar os alunos que apresentam a habilidade requerida para sua solução
daqueles que não a têm.
69

Figura 7 - Comparação entre curvas características dos itens 30 e 31 referentes ao descritor


D15

Item nº 30 – Nível Proficiente Item nº 31 – Nível Avançado

Fonte: ELBI (2018b).

No item 31, por exemplo, é possível verificar o ponto em que o item passa a ter
probabilidade de acerto superior a 60% entre os respondentes identificados em dois
desvios padrão acima da média.

Descritor 18 – Reconhecer o efeito de sentido decorrente da escolha de uma


determinada palavra ou expressão - Disposto por 2 itens com dois níveis de
proficiência - proficiente e avançado, observa-se que o parâmetro “c” assume nos
itens valores que variam entre 0,13 e 0,17. Tomando-se por base o desenho da linha
modelo, observa-se que o item 32 apresenta 13% de probabilidade de acerto e o item
33 apresenta 17% de probabilidade de acerto.

Figura 8 - Comparação entre curvas características dos itens 32 e 33 referentes ao


descritor D18

Item nº 32 – Nível Proficiente Item nº 33 – Nível Avançado

Fonte: ELBI (2018b).

Com relação ao parâmetro “b” (indicado pela posição da curva), observam-se


os valores de 0,64 e 1,83 respectivamente nos itens 32 e 33. Quanto maior o valor de
“b”, mais difícil é o item.
70

Com relação ao parâmetro “a” (indicado pela inclinação da curva), é possível


verificar o valor de 1,13 no item 32 e 0,96 no item 33. Esse valor indica quanto o item
consegue separar os alunos que apresentam a habilidade requerida para sua solução
daqueles que não a têm.
No item 33, por exemplo, é possível verificar o ponto em que o item passa a ter
probabilidade de acerto superior a 60% entre os respondentes identificados em dois
desvios padrão acima da média.

Descritor 19 – Reconhecer o efeito de sentido decorrente da exploração de


recursos ortográficos e/ou morfossintáticos - Disposto por dois itens com dois níveis
de proficiência - proficiente e avançado, observa-se que o parâmetro “c” assume nos
itens valores que variam entre 0,18 e 0,15. Tomando-se por base o desenho da linha
modelo, observa-se que o item 34 apresenta 18% de probabilidade de acerto e o item
35 apresenta 15% de probabilidade de acerto.

Figura 9 - Comparação entre curvas características dos itens 34 e 35 referentes ao


descritor D19

Item nº 34 – Nível Proficiente Item nº 35 – Nível Avançado

Fonte: ELBI (2018b).

Com relação ao parâmetro “b” (indicado pela posição da curva), observam-se


os valores de 0,47 e 2,23 respectivamente nos itens 34 e 35. Quanto maior o valor de
“b”, mais difícil é o item.
Com relação ao parâmetro “a” (indicado pela inclinação da curva), é possível
verificar o valor de 1,59 no item 34 e 0,87 no item 35. Esse valor indica quanto o item
consegue separar os alunos que apresentam a habilidade requerida para sua solução
daqueles que não a têm.
71

No item 35, por exemplo, é possível verificar o ponto em que o item passa a ter
probabilidade de acerto superior a 60% entre os respondentes identificados em quase
três desvios padrão acima da média.

4.6 CONSIDERAÇÕES FINAIS

Após a apresentação dos resultados obtidos com o presente estudo, pode-se


responder às questões que foram formuladas no Capítulo 1, oriundas do objetivo de
avaliar a qualidade dos itens de Língua Portuguesa, do 9º ano do Ensino Fundamental
do Banco de Itens da SME-RJ.
A primeira questão avaliativa focalizava a dificuldade dos itens - característica
inerente aos estudos da teoria TCT. Conforme dados do Quadro 10 e da Tabela 5,
pode-se concluir que 18,5% dos itens da amostra foram considerados fáceis, 71% dos
itens apresentaram nível de dificuldade mediana e 10,5% foram considerados difíceis.
Observa-se que a maioria de itens do Banco apresenta, portanto, dificuldade mediana.
As implicações para um Banco disposto, em sua maioria, por itens de categoria
mediana, podem comprometer a confiabilidade dos resultados de futuros testes
cognitivos elaborados, a partir do Banco de Itens da SME-RJ. De acordo com Lord e
Novick (1968), a confiabilidade do teste depende do tamanho do mesmo e da
população testada. Dessa forma, quanto maior é o tamanho do teste, maior é a
confiabilidade das informações extraídas dele sobre aprendizagem dos alunos. Para
tanto, é fundamental que um teste seja composto por itens com diferentes categorias
de dificuldade, a saber: fácil, médio e difícil. Os autores afirmam ainda que itens muito
fáceis ou muito difíceis, com bisserial negativo, agregam pouco à confiabilidade do
teste.
O esperado e adequado para a composição de um Banco de Itens na SME-RJ
era maior distribuição dos itens entre os diferentes níveis de dificuldade. A distribuição
mais equalizada dos níveis de dificuldade dos itens poderá potencializar as
informações sobre o processo de aprendizagem dos alunos.
Outro relevante fator diz respeito à escolha da população pré-testada. De
acordo com Rodrigues (2007, p. 32), “a análise empírica dos itens é realizada com
dados coletados de uma amostra representativa de sujeitos da população para a qual
o teste está sendo construído, utilizando-se análises estatísticas”. Os itens que
constituem o Banco de Itens da SME-RJ foram pré-testados nas cidades de João
72

Pessoa e Campina Grande, na Paraíba, fora do prazo estipulado no Termo de


Referência para contratação da empresa consultora. Inicialmente a aplicação estava
prevista para o final do 2º semestre de 2017, mas só ocorreu no primeiro semestre do
ano de 2018, em ano escolar subsequente ao qual o item foi elaborado. Assim, os
itens referentes ao 9º ano foram aplicados para alunos matriculados no 1º ano do
Ensino Médio. Verifica-se que o atraso na pré-testagem culminou com a escolha por
população não representativa para qual os futuros testes cognitivos serão construídos
pelo Banco de Itens da SME-RJ. Trata-se sobretudo da opção por população
socioeconomicamente distinta do Rio de Janeiro.
A segunda questão avaliativa tratava da qualidade dos itens, considerando o
modelo logístico de três parâmetros da TRI - discriminação, dificuldade e assíntota
inferior. É possível verificar que 13,3% dos itens foram considerados com proficiência
básica, 39,4% como proficientes e aproximadamente metade da amostra, 47,3%, é
composta por itens considerados de proficiência avançada. Vale ressaltar que os
alunos neste nível possivelmente demonstrem conhecimentos e domínio dos
conteúdos, competências e habilidades acima do requerido no ano escolar em que se
encontram. Além disso, os gráficos expressos nas figuras da seção 4.5, intitulada
Análise de parâmetros da TRI, demonstram de forma comparativa a performance da
CCI em vários itens, por descritor. É possível verificar, por meio dos parâmetros a, b
e c, que boa parte dos itens apresentaram na CCI performance indicativa de nível de
proficiência avançada.
Embora os relatórios da empresa consultora constem que os instrumentos para
a pré-testagem foram compostos por itens inéditos, respeitadas as validações
pedagógicas da empresa ELBI e da equipe técnica da SME-RJ, modelagem de
cadernos em esquema de Blocos Incompletos Balanceados, além de itens comuns já
calibrados na escala SAEB (ELBI, 2018b), cabe salientar que a maioria dos
descritores é composta por itens classificados como proficientes e avançados.
Importante é notar que os parâmetros estimados dos itens, segundo a TRI, são
invariantes, quando alocados na mesma escala (KLEIN, 2013). É por esse motivo que
é possível alocar novos itens na mesma escala dos originais que compõem um Banco
de Itens. De acordo com Hambleton (1993, apud KLEIN, 2013), as estimativas sobre
as proficiências dos alunos podem variar em função do erro de medida e, por isso,
podem ser preferíveis diante do uso de itens mais ou menos apropriados nos testes.
A não equalização da distribuição de itens em diferentes níveis de proficiência é
73

inapropriada para a composição do Banco de Itens da SME-RJ, pois não favorece à


criação de instrumentos de avaliação fidedignos e ainda e dificulta a calibragem de
novos itens no banco.

4.7 RECOMENDAÇÕES

Com base nos resultados obtidos pelo presente estudo e considerando que o
Banco de Itens é um recurso capaz de prover a elaboração de inúmeros instrumentos
de avaliação sobre a aprendizagem dos alunos e para tal é necessário dispor de itens
com diferentes níveis de dificuldade, recomenda-se que:
 haja maior equalização das proporções das categorias dos itens tanto
quanto à dificuldade, como os níveis de proficiência;
 a régua dos descritores não seja tão extensa. Torna-se de suma importância
que os parâmetros de avaliação nacional como SAEB guiem a construção de matrizes
de referência do Banco de Itens da SME-RJ;
 haja nova pré-testagem dos itens da SME-RJ, para retroalimentação do
Banco de Itens, de forma que seja exequível a elaboração de provas calibradas por
itens com diferentes níveis de dificuldade e proficiência, com vistas a uma radiografia
mais aprimorada das maiores dificuldades e potencialidades dos alunos;
 as alternativas dos cartões-respostas dos testes correspondam ao número
de alternativas contidas dos itens. Os cartões-respostas dos alunos que participaram
do pré-teste apresentavam cinco opções de respostas (A, B, C D e E), ao passo que
as provas dispunham de quatro alternativas (A, B, C e D). Embora as marcações nas
opções letra E tenham atingido um universo de até 1% para cada item, é fundamental
evitar vieses de respostas dos alunos. Dispor de itens em que os distratores indiquem
etapas do processo de aprendizagem dos alunos é de suma importância para a coleta
de dados sobre o desenvolvimento de uma determinada habilidade.
74

REFERÊNCIAS

AMERICAN EDUCATIONAL, RESEARCH ASSOCIATION, AMERICAN


PSYCHOLOGICAL AND ASSOCIATION NATIONAL COUNCIL ON
MEASUREMENT IN EDUCATION. Normas para testes educacionais e
psicológicos. Washington, DC: American Psychological Association, 1985.

ANASTASI, Anne; URBINA, Susana. Testagem psicológica. 7. ed. Porto Alegre:


Artmed, 2000.

BANCO INTERNACIONAL PARA RECONSTRUÇÃO E DESENVOLVIMENTO.


Manual para Contratação de Pessoa Jurídica com recursos externos do BIRD e BID.
Washington, DC: Diretoria de projetos Internacionais; Secretaria Executiva, 2015.

BANCO INTERNACIONAL PARA RECONSTRUÇÃO E DESENVOLVIMENTO.


Diretrizes para a seleção e contratação de consultores financiados por empréstimos
do BIRD e créditos de doação pelos mutuários do Banco Mundial. Washington, DC:
Diretoria de projetos Internacionais; Secretaria Executiva, 2011.

BANCO MUNDIAL. Regulamento de Operações para Aquisições para Mutuários de


Financiamento de Projetos de Investimento Solicitação de Padrão de Proposta:
Seleção de Consultores. Washington, DC: Diretoria de projetos Internacionais;
Secretaria Executiva, 2016.

BRASIL. Lei nº 9.394, de 20 de dezembro de 1996. Estabelece as diretrizes e bases


da educação nacional. Diário Oficial da União, Brasília, DF, 23 dez. 1996. Disponível
em: http://www.planalto.gov.br/ccivil_03/leis/l9394.htm. Acesso em: 2 fev. 2020.

AÇÃO de agentes de acompanhamento de gestão escolar no Rio é tema de


pesquisa. UFJF Notícias, Juiz de Fora, 23 fev. 2017. Disponível em:
https://www2.ufjf.br/noticias/2017/02/23/acao-de-agentes-de-acompanhamento-da-
gestao-escolar-no-rio-e-tema-de-pesquisa. Acesso em: 28 jan. 2021.

CASTRO, Maria Helena Guimarães de. Sistemas de avaliação da educação no


Brasil: avanços e novos desafios. São Paulo Perspectiva, São Paulo, v. 23, n. 1, p.
5-18, jan./jun. 2009. Disponível em:
http://produtos.seade.gov.br/produtos/spp/v23n01/v23n01_01.pdf. Acesso em: 28
jan. 2021.

CONDÉ, Frederico Neves. A (In)dependência da habilidade estimada pela teoria de


resposta ao item em relação à dificuldade da prova: um estudo com dados do SAEB.
Orientador: Jacob Arie Lagos. 2002. 92 f. Dissertação (Mestrado em Psicologia) -
Universidade de Brasília, Brasília, 2002. Disponível em:
https://repositorio.unb.br/bitstream/10482/1579/7/2002_Frederico_Neves_Cond%c3
%a9_Disserta%c3%a7%c3%a3o.pdf. Acesso em: 7 dez. 2020.

ELBI. Empresa de Licitação do Banco de Itens. Fichas de itens de língua


portuguesa: pré-teste 2018: Língua Portuguesa Leitura. Rio de Janeiro, 2018a.
75

ELBI. Empresa de Licitação do Banco de Itens. Matrizes de referência para a


avaliação na rede pública municipal de ensino do Rio de Janeiro: Rio de Janeiro,
2017a.

ELBI. Empresa de Licitação do Banco de Itens. Relatório de aplicação do pré-teste:


serviços de consultoria para implementação do banco de itens para as avaliações
bimestrais nas escolas de ensino cariocas. Rio de Janeiro, 2018b.

ELBI. Empresa de Licitação do Banco de Itens. Relatório técnico e metodológico do


plano amostral da pré-testagem: serviços de consultoria para implementação do
banco de itens para as avaliações bimestrais nas escolas de ensino cariocas. Rio de
Janeiro, 2017b.

ELLIOT, Ligia Gomes; HILDENBRAND, Lucí A.; BERENGER, Mercedes.


Questionário. In: ELLIOT, Lígia Gomes (org). Instrumentos de avaliação e pesquisa:
caminhos para construção e validação. Rio de Janeiro: WAK, 2012.
.
ELLIOT, Ligia Gomes; LÜCK, Esther. Avaliação educacional e qualidade na escola.
Rio de Janeiro: SESI, 2014.

FERNANDES, Cláudia de Oliveira; FREITAS, Luiz Carlos de. Indagações sobre o


currículo: currículo e avaliação. Brasília, DF: Ministério da Educação; Secretaria de
Educação Básica, 2008.

FUNDAÇÃO CESGRANRIO. SPAECE 2006: relatório analítico. Fortaleza; Rio de


Janeiro: SEDUC, 2007.

GIL, Antônio Carlos. Métodos e técnicas de pesquisa social. 6. ed. São Paulo: Atlas,
2008. Disponível:
https://biblioteca.isced.ac.mz/bitstream/123456789/707/1/M%C3%A9todos%20de%2
0Pesquisa%20Social.pdf. Acesso em: Acesso em: 21 set. 2020.

HAMBLETON, Ronald K.; SWAMINATHAN, Hariharan; ROGERS, H. Jane.


Fundamentals of item response theory. Califórnia: Sage Publications, 1991.

INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO


TEIXEIRA. Matrizes de referência de língua portuguesa e matemática do SAEB:
documento de referência do ano de 2001. Brasília, DF, 2020.

INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO


TEIXEIRA. Relatório SAEB (ANEB e ANRESC) 2005 – 2015: panorama da década.
Brasília, DF, 2019.

INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO


TEIXEIRA. SAEB 2001- Relatório Nacional. Brasília, DF, 2001.

KLEIN, Ruben. Alguns aspectos da teoria de resposta ao item relativos à estimação


de proficiências. Ensaio: aval. pol. públ. educ., Rio de Janeiro, v. 21, n. 78, p. 35-56,
2013.
76

LORD, Frederick M.; NOVICK, Melvin Robert. Statical theories of mental test score.
Reading, MA: Addison Wesley, 1968.

MCINTIRE, Sandra A.; MULLER, Leslie A. Foundations of psychological testing. New


York: MacGraw Hill, 2000.

PASQUALI, Luiz. Psicometria: teoria dos testes na psicologia e na educação. Rio de


Janeiro: Editora Vozes, 2017.

RIO DE JANEIRO (Município). Comissão especial de licitação para o projeto de


promoção da excelência na gestão pública do município do Rio de Janeiro – Projeto
Rio de excelência. Ata de divulgação das notas técnicas, no âmbito do projeto Rio
excelência, atividade 2.2.2.1.2, que versa sobre contratação de empresa de
consultoria para implementação do banco de itens para as avaliações bimestrais nas
escolas de ensino fundamental cariocas nos termos do processo nº07/004612/2016.
Diário Oficial do Município do Rio de Janeiro, Rio de Janeiro, 18 abr. 2017.
Disponível em: https://doweb.rio.rj.gov.br/portal/visualizacoes/jornal/3404/#e:3404.
Acesso em: 15 jun. 2020.

RIO DE JANEIRO (Município). Secretária Municipal de Educação. Aviso de


solicitação de manifestação de interesse, nº EC-8/2016. [Diário Oficial do Município
do Rio de Janeiro]. Rio de Janeiro, 5 set. 2016.

RIO DE JANEIRO (Município). Termo de referência para implementação do banco


de itens para as avaliações bimestrais nas escolas de ensino fundamental carioca.
Secretaria Municipal de Educação - Gerência de Avaliação. [Diário Oficial do
Município do Rio de Janeiro]. Rio de Janeiro, 2018b.

RODRIGUES, Margarida Maria Mariano. Avaliação educacional sistêmica na


perspectiva dos testes de desempenho e de seus resultados: estudo do SAEB.
Orientador: Luiz Pasquali. 2007. 275 f. Tese (Doutorado em Psicologia) -
Universidade de Brasília, Brasília, 2007. Disponível em:
https://repositorio.unb.br/bitstream/10482/1622/1/Tese_Doc_Final_Margarida.pdf.
Acesso em: 15 jun. 2020.

SOARES, José Francisco. Avaliação da qualidade da educação brasileira. In:


SCHWARRTZMAN, Luisa Farah; SCHWARRTZMAN, Isabel Farah.

SCHWARRTZMAN, Felipe Farah; SCHWARRTZMAN, Michel Lent (orgs.). O


sociólogo e as políticas públicas: ensaios em homenagem a Simon Schwartzman.
Rio de Janeiro: FGV, 2009. p. 215-242. Disponível em:
http://www.schwartzman.org.br/simon/fest11_chico.pdf. Acesso em: 20 abr. 2021.

VIANNA, Heraldo Marelim. Fundamentos de um programa de avaliação educacional.


Estudos em Avaliação Educacional, São Paulo, n. 28, 2003. Disponível em:
http://publicacoes.fcc.org.br/index.php/eae/article/view/2168/2125. Acesso em: 20
abr. 2021.

WORTHEN, Blaine R.; SANDERS, James R.; FITZPATRICK, Jody L. Avaliação de


programas: concepções e práticas. São Paulo: Editora Gente, 2004.

Você também pode gostar