Você está na página 1de 92

Instituto de Psicologia

Universidade de Braslia

A (In)Dependncia da Habilidade Estimada pela Teoria de Resposta ao Item em Relao


Dificuldade da Prova: Um Estudo com os Dados do Saeb

F REDERICO N EVES C OND

Orientador: P ROF . J ACOB A RIE L AROS

Braslia DF
2002

A (In)Dependncia da Habilidade Estimada pela Teoria de Resposta ao Item em Relao


Dificuldade da Prova: Um Estudo com os Dados do Saeb

Ttulo Abreviado: (In)Dependncia da Habilidade pela TRI em Relao Dificuldade da Prova.

Dissertao apresentada ao curso de mestrado do Programa de Ps-graduao do Instituto de


Psicologia da Universidade de Braslia como requisito obteno do grau de Mestre em
Psicologia.

Braslia, 18 de outubro de 2002

Instituto de Psicologia
Universidade de Braslia

Esta dissertao ser avaliada pela seguinte comisso examinadora:

________________________________
Prof. Jacob Arie Laros Presidente
Universidade de Braslia

________________________________
Prof. Luiz Pasquali
Universidade de Braslia

________________________________
Prof. Hartmut Gnther
Universidade de Braslia

Braslia, 18 de outubro de 2002

Dedico esse trabalho especialmente ao meu filho Arthur, essa


criana linda que, com certeza, ser meu grande companheiro
nos melhores momentos da vida (vida esta que ainda h de
nos aproximar...);
Aos meus pais Paulo e Maria La, que novamente uniram e
dedicaram todos os seus esforos para me incentivar em
direo consecuo de mais esta etapa de minha formao;
Aos meus irmos e companheiros Fabrcio e Fabiano, pela
verdadeira relao que nos une.
minha namorada Maria Fernanda, essa pessoa especial que
conheci h pouco tempo e aprendi a gostar muito. Agradeo
toda sua ateno e apoio para a realizao deste trabalho.

Agradecimentos
Ao Professor e Orientador Jaap Laros, excelente pessoa e profissional, com quem
venho adquirindo um grande aprendizado na rea de psicometria; sua disponibilidade para
discusso sobre o tema do presente estudo, zelo e preciso no acompanhamento dos aspectos
tcnicos da obra.
Ao professor Luiz Pasquali, maior responsvel por meu interesse pelo estudo da
medida em Psicologia.
Ao Instituto Nacional de Estudos e Pesquisas Educacionais, pela cesso da
utilizao das bases de dados do Saeb ao Laboratrio de Pesquisa em Avaliao e Medida
LabPAM. Ao prprio LabPam e ao Centro de Pesquisa em Avaliao Educacional CPAE da
Universidade de Braslia - UnB, pela oportunidade da realizao do estudo.
Aos professores Hartmut Gnther e Batholomeu Trccoli, pela aceitao do convite
de participao como membros da comisso examinadora de minha dissertao e por todos os
incentivos e ensinamentos em relao pesquisa emprica em Psicologia.
Profa Iza Locatelli, por seu imenso apoio pesquisa enquanto Diretora da
Avaliao da Educao Bsica do INEP e por seu incentivo para o crescimento profissional e
fortalecimento tcnico.
Ao amigo Guilherme Coelho Rabello, por ter lanado a idia principal da pesquisa e
percebido que o delineamento do Saeb permite excelentes estudos sobre a invarincia dos
parmetros. Agradeo-o por todos os seus ensinamentos na rea de estatsticas e medidas sociais.
Ao amigo Eduardo de So Paulo, por toda a sua ateno e orientao no
desenvolvimento do estudo e por sua dedicada cooperao em minha formao profissional.
Ao Prof. Ruben Klein e ao pesquisador Marcus Riether pela troca de idias sobre
algumas anlises de dados realizadas.
Ao meu pai Paulo Cond por sua colaborao na reviso da dissertao.
Amlia Regina Alves, minha amiga e professora, que me ajudou muito na
definio de minhas diretrizes, tanto ticas, quanto tcnicas de minha formao.
Aos amigos Paulo, Robson, Karina e Margarida pela oportunidade de discusses
sempre bastante produtivas.

ndice
Lista de Tabelas

Lista de Figuras

ii

Resumo

iii

Abstract

iv

1 Introduo

1.1

A propriedade da invarincia dos parmetros pela Teoria de Resposta ao


Item

1.2

A propriedade de invarincia do parmetro de habilidade da TRI

1.3

O Sistema Nacional de Avaliao da Educao Bsica (SAEB)

12

1.3.1

Aspectos gerais do Saeb

12

1.3.2

A amostra do Saeb

13

1.3.3

O instrumento de avaliao do desempenho dos estudantes

14

1.3.4

A equivalncia dos grupos de estudantes que respondem aos cadernos

17

1.4

A verificao da invarincia do parmetro de habilidade da TRI a partir


dos dados do Saeb

18

1.5

O pressuposto de unidimensionalidade dos itens

19

1.6

A unidimensionalidade da Prova de 8a srie de matemtica, do Saeb 97:


um estudo emprico

20

2 Metodologia

24

2.1

Participantes

24

2.2

Instrumento

24

2.3

Procedimentos

28

2.3.1 Estudo da equivalncia entre os grupos de estudantes


2.3.2
2.3.3
2.3.4

31

Estudo da diferena entre as dificuldades dos cadernos de provas e


levantamento dos ndices de habilidades dos grupos que os responderam

36

A associao entre as dificuldades dos cadernos e as habilidades dos


estudantes

38

A unidimensionalidade como condio da invarincia do parmetro de


habilidade pela TRI

40

3 Resultados

43

3.1

Verificao da equivalncia entre os grupos

43

3.1.1

Estatsticas descritivas do escore total do estudante em resposta aos


blocos de itens

44

3.1.2 Anlise grfica da distribuio de freqncias dos escores totais nos


blocos

46

3.1.3 Teste U de Mann Whitney dos escores totais nos blocos

46

3.1.4 Sntese dos resultados da verificao da equivalncia entre os grupos

48

3.2

As dificuldades dos cadernos de prova do Saeb

48

3.3

Habilidades dos estudantes

51

3.4

Associao entre as dificuldades dos cadernos e as habilidades dos


estudantes

55

3.5

Dificuldades dos cadernos de prova do Saeb, aps a excluso dos itens

59

3.6

Habilidades dos estudantes, aps a excluso dos itens

62

3.7

Associao entre as dificuldades dos cadernos e as habilidades dos


estudantes, aps a excluso dos itens

65

4 Discusso e Concluses

69

5 Bibliografia

77

6 Anexo

80

Lista de Tabelas

Tabela 1.1 Composio da amostra do Saeb 95, 97 e 99.


Tabela 1.2 Delineamento de Blocos Incompletos Balanceados (BIB).
Tabela 1.3 Informaes para verificao do nmero de fatores das provas de Matemtica da 8a srie
do Saeb 97.
Tabela 2.1 Nmero de itens dos blocos da prova de 8a Srie de Matemtica do Saeb.
Tabela 2.2 Nmero de itens por caderno e por bloco de 8a Srie de Matemtica.
Tabela 3.1 Diferenas entre os escores totais e diferenas entre os escores totais normalizados dos
estudantes nos blocos que compunham os cadernos de Matemtica do Saeb.
Tabela 3.2 Resultados do teste U de Mann-Whitney das distribuies de freqncias dos escores
totais dos estudantes no bloco, situados na primeira posio do caderno.
Tabela 3.3 ndice de dificuldade clssica (valor p) dos itens dos cadernos de Matemtica do Saeb.
Tabela 3.4 ndice de dificuldade pela TRI (parmetro b) dos itens dos cadernos de Matemtica do
Saeb.
Tabela 3.5 Escore total dos estudantes que responderam aos cadernos de Matemtica do Saeb.
Tabela 3.6 Estimativas da habilidade pela TRI (theta) dos estudantes que responderam aos cadernos
de Matemtica do Saeb.
Tabela 3.7 ndice de dificuldade clssica (valor p_d) dos itens dos cadernos de Matemtica do Saeb,
aps a excluso do itens que praticamente no contribuem para a unidimensionalidade.
Tabela 3.8 ndice de dificuldade pela TRI (parmetro b_d) dos itens dos cadernos de Matemtica do
Saeb, aps a excluso dos itens que praticamente no contribuem para a
unidimensionalidade.
Tabela 3.9 Escore total_d dos estudantes que responderam aos cadernos de Matemtica do Saeb,
aps a excluso dos itens que praticamente contribuem para a unidimensionalidade.
Tabela 3.10 Estimativas da habilidade pela TRI (theta_d) dos estudantes que responderam cadernos
de Matemtica do Saeb, aps a excluso dos itens que praticamente no contribuem para
a unidimensionalidade.
Tabela 4.1 Correlaes entre os ndices de dificuldade e habilidade.
Tabela 4.2 Correlaes entre os ndices de dificuldade e habilidade, aps a excluso dos itens que
no praticamente no contribuem para a unidimensionalidade.

Lista de Figuras

Figura 2.1 Delineamento em que grupos de examinandos respondem a diferentes cadernos de prova
e apresentam resultados especficos em termos de habilidades.
Figura 2.2 Grfico de disperso entre a dificuldade dos cadernos e o theta esperado pela propriedade
de invarincia dos parmetros.
Figura 3.1 Grfico da freqncia de estudantes por escore no bloco 11, localizado na primeira
posio do caderno.
Figura 3.2 Grfico de disperso entre o ndice de dificuldade dos cadernos pela TRI (parmetro b) e
o escore total dos respondentes aos cadernos de Matemtica do Saeb.
Figura 3.3 Grfico de disperso entre o ndice de dificuldade clssico dos cadernos pela TCT (valor
p) e as habilidades estimadas pela TRI (theta) dos respondentes aos cadernos de
Matemtica do Saeb.
Figura 3.4 Grfico de disperso entre o ndice de dificuldade dos cadernos pela TRI (parmetro b) e
as habilidades estimadas pela TRI (theta) dos respondentes aos cadernos de Matemtica
do Saeb.
Figura 3.5 Grfico de disperso entre o ndice de dificuldade dos cadernos pela TRI (parmetro
b_d) e o escore total(_d) dos respondentes aos cadernos de Matemtica do Saeb, aps a
excluso dos itens que praticamente no contribuem com a unidimensionalidade.
Figura 3.6 Grfico de disperso entre o ndice de dificuldade pela TCT(valor p_d) dos cadernos e as
habilidades estimadas pela TRI (theta_d) dos respondentes aos cadernos de Matemtica
do Saeb, aps a excluso dos itens.
Figura 3.7 Grfico de disperso entre o ndice de dificuldade dos cadernos pela TRI (parmetro
b_d) e as habilidades estimadas pela TRI (theta_d) dos respondentes aos cadernos de
Matemtica do Saeb, aps a excluso dos itens.

ii

Resumo

A Teoria de Resposta ao Item (TRI) assume a existncia da propriedade de invarincia


dos parmetros, que permite estimar a habilidade dos sujeitos (theta) independentemente da
forma do teste utilizado. Esta propriedade se baseia em pelo menos duas condies relacionadas
aos itens do teste: estar na mesma escala e atender ao pressuposto de unidimensionalidade. O
objetivo do presente estudo o de investigar se a estimativa de theta independe da dificuldade
dos itens utilizados para estim-la bem como verificar em que medida a unidimensionalidade da
prova influencia nesta propriedade. Foram utilizados os dados secundrios de 26 formas de prova
de Matemtica de 8a Srie do Ensino Fundamental (E.F.) do Sistema Nacional de Avaliao da
Educao Bsica (Saeb), aplicada em 1997, em uma amostra de 18.806 estudantes brasileiros de
escolas pblicas e particulares de cada uma das 27 Unidades da Federao brasileiras. Essas
formas de prova foram respondidas por 26 grupos diferentes de estudantes, equivalentes em
termos de habilidades. Foram correlacionados os resultados mdios de ndices de dificuldade das
provas e habilidade dos estudantes calculados pela Teoria Clssica dos Testes (TCT) e pela TRI.
Os resultados apontam para a existncia de uma dependncia do theta em relao dificuldade
dos cadernos (r = 0,68, com o valor p; r = - 0,69 com o parmetro b), menor que a do ndice de
habilidade calculado pela TCT, o escore total, em relao dificuldade (r = - 0,95, com o
parmetro b). A dependncia entre o theta e a dificuldade diminui quando so excludos da prova
os itens com cargas fatoriais inferiores a 0,20 no fator nico, que praticamente no contribuem
para a unidimensionalidade. Observou-se, neste caso, um coeficiente de correlao com o valor p
de 0,60 e, com o parmetro b, de 0,57. Conclui-se que o theta estimado depende da dificuldade
dos itens que so utilizados para estim-lo, no confirmando a propriedade de invarincia dos
parmetros. O theta apresenta uma dependncia menor com a dificuldade, que a observada pelo
escore total. Por sua vez esta estimativa da TRI apresenta uma diminuio da dependncia com
relao dificuldade quando a prova se aproxima da unidimensionalidade. Os resultados indicam
ser vantajosa a utilizao da TRI para estimar a habilidade dos estudantes, quando so utilizadas
formas de teste com dificuldades diferentes, pois o theta menos dependente da dificuldade que
o escore total. Faz-se necessrio um maior rigor no controle da condio de unidimensionalidade
da prova para a obteno de estimativas de theta mais invariantes.
Palavras-chave: invarincia dos parmetros, Teoria de Resposta ao Item, independncia dos
parmetros, unidimensionalidade, BIB.

iii

Abstract

The Item Response Theory (IRT) assumes the existence of a property of invariance of the
parameters, which implies that the parameter that characterizes the ability of an examinee (theta)
does not depend on the set of items of the test forms. This property is based on at least two
conditions related to the test items: being in a common scale and being in accordance with the
assumption of unidimensionality. The objective of the present study is to investigate whether the
estimation of theta does not depend on the difficulty of the items used to estimate it, as well as
how much the unidimensionality of the test items influences this property. In this study,
secundary data were used of 26 test forms of Mathematics, eight grade, from the National System
of Evaluation of the Basic Education (Saeb), applied in 1997, in a sample of 18.806 Brazilian
students of public and particular schools of the 27 Brazilian states. The test forms were answered
by 26 different groups of students, equivalent in terms of abilities. The results of indexes of the
tests' difficulty and the students' ability were calculated and correlated using both the Classic
Theory of Tests (CTT) and the IRT. The results point to the existence of a dependence of the
theta in relation to the difficulty of the booklets (r = 0,68, for the p value; r = - 0,69 for the
parameter b), smaller than the one of the ability index calculated by CTT, the total score, in
relation to the difficulty (r = - 0,95, with the parameter b). The dependence between theta and the
difficulty decreases when items with factor loadings less than 0,20 in the only factor of the test,
that practically don't contribute to the unidimensionality, are excluded. A correlation with the p
value of 0,60 and, with the parameter b, of - 0,57, was observed, in this case. It was concluded
that the estimated of theta is related to the difficulty of the items, not confirming the property of
parameter invariance. This relation is less strong than the one between the total score and the
difficulty of the items. The estimated of theta presents a dependence that decreases with the
difficulty when the test approaches the unidimensionality. The use of IRT is considered
advantageous to esteem the students' ability, when test forms present different difficulties, theta
is less dependent on the difficulty than the total score. It is considered necessary a greater rigidity
on the control of the conditions for the unidimensionality of the tests in order to obtain more
invariant estimates of theta.
Key-Words: parameters invariance, Item Response Theory, parameters independence,
unidimensionality, BIB.

iv

1. Introduo
1.1

A propriedade da invarincia dos parmetros pela Teoria de Resposta ao Item


A Teoria de Resposta ao Item (TRI) composta de um conjunto de modelos

estatsticos que se estrutura por meio de uma srie de pressupostos e propriedades e envolve
procedimentos de estimao de parmetros. Sua aplicao na teoria psicomtrica se mostrou
bastante conveniente e til acompanhando o paradigma baseado na Teoria do Trao Latente,
tambm denominada de Modelos de Trao Latente ou de Modelos Estruturais Latentes
(Requena, 1990). Esse paradigma especifica uma relao terica entre as pontuaes
empricas dos examinandos em uma prova ou teste e o trao latente no observvel, teorizado
como o responsvel por tais pontuaes.
A TRI fornece modelos que atribuem parmetros para itens e para indivduos
separadamente de forma a predizer probabilisticamente a resposta de qualquer indivduo a
qualquer item. As funes de resposta ao item estabelecem as relaes, matematicamente
formalizadas, de como cada resposta depende de um certo nvel ou grau de habilidade (...) no
trao considerado (Requena, 1990). Quando a Psicometria se apropria desses modelos,
percebe-se que seus parmetros matemticos podem ser utilizados como meio de
caracterizao de itens de testes. Geralmente, os itens podem ser avaliados por meio de
modelos de um, dois ou trs parmetros. O modelo de um parmetro envolve apenas a
dificuldade (parmetro b); o de dois envolve o parmetro b e a discriminao (parmetro a); e
o de trs parmetros envolve os parmetros a, b e o de acerto ao acaso (parmetro c).
Percebe-se tambm que um outro parmetro, o theta, apresenta caractersticas que podem ser
atribudas habilidade de cada um dos indivduos testados.
No se sabe ao certo os limites da TRI, mas ela apresentada por estudiosos, como
por exemplo, Hambleton, Swaminathan e Rogers (1991), como capaz de fornecer

contribuies na construo de testes, na identificao de vis de itens, na equalizao de


resultados de desempenho de examinandos em resposta a diferentes testes ou de diferentes
formas de um mesmo teste e na apresentao ou relato desses resultados. Para esses autores, a
TRI supera certas limitaes tericas graves que a Psicometria tradicional, baseada na Teoria
Clssicas dos Testes (TCT), contm.
Se no a principal, uma das principais limitaes da TCT que as caractersticas dos
examinandos e as caractersticas dos testes no podem ser separadas, sendo que umas s
podem ser interpretadas no contexto das outras (Baker, 2001; Fernandez, 1990; Fan, 1998;
Hambleton, Swaminathan e Rogers, 1991; Pasquali, 1996).
Baker (2001) define o escore total como a soma dos escores recebidos pelos
examinandos nos itens do teste. Sob o enfoque da TCT, os escores totais que os examinandos
obtiveram em resposta a uma prova dependem do teste utilizado. Sabe-se, assim, que o
desempenho do examinando em um determinado teste pode variar em funo da exigncia das
provas, ou seja, da dificuldade de seus itens. Desta forma, geralmente, quando um teste
difcil, o examinando tender a apresentar uma habilidade mais baixa e, quando mais fcil,
tender a apresentar uma habilidade mais alta.
Por outro lado, se um item ou uma prova (amostra de itens) fcil ou difcil, depende
da habilidade dos examinandos. Como o clculo do ndice de dificuldade dos itens se d pelo
percentual de examinandos que os acertou, um item considerado difcil se esse percentual
for baixo, e fcil se esse percentual for alto. Se a habilidade da amostra de examinandos,
representada pelo escore total, for em mdia maior que a de uma outra amostra de
examinandos, geraro conjunto de ndices de dificuldades diferentes.
Se, pela TCT, os ndices de dificuldade dependem da habilidade dos examinados e a
habilidade calculada depende da dificuldade dos itens da prova e, verifica-se uma espcie de
dependncia circular entre eles. O fato das habilidades serem dependentes do conjunto

particular de itens aplicados acarreta que os escores totais advindos da aplicao de duas
provas diferentes podem no ser diretamente comparados. Por exemplo, os escores totais do
grupo que respondeu ao caderno de prova x e os escores totais do grupo que respondeu ao
caderno y no podem ser diretamente comparveis se apresentarem dificuldades diferentes.
Uma das implicaes prticas dos ndices de dificuldade dos itens serem dependentes
do grupo que um mesmo conjunto de itens pode apresentar dois conjuntos diferentes de
ndices, se estes so calculados para duas amostras diferentes. Na administrao de um banco
de itens, por exemplo, isso um problema de difcil soluo. Poder-se-ia registrar cada um
dos ndices vinculado informao da amostra para a qual foram calculados. Para uma, para
duas ou mais amostras. Mas isso no nada prtico. E se quisssemos montar uma nova
prova utilizando itens j aplicados, qual conjunto de ndices deveramos utilizar como
informaes para tomada de deciso dos itens que a comporiam?
Verifica-se, tambm, uma outra implicao prtica dos ndices de dificuldade dos itens
serem dependentes do grupo. Ainda no contexto da administrao de um banco de itens, se
quisssemos ampliar o banco a partir da incluso de novos itens, casos seus ndices tivessem
sido calculados com base nas respostas dos examinandos de outras amostras, a
comparabilidade entre eles poderia ser questionada. Essa idia do presente pargrafo foi
apresentada por Hambleton, Swaminathan e Rogers (1991), antes de apresentar as vantagens
da TRI.
A TRI, por sua vez, assume a propriedade de invarincia dos parmetros, considerada
como a sua maior distino da TCT. Esse princpio afirma que se podem estimar as
habilidades dos sujeitos, independentemente do teste utilizado; bem como os parmetros dos
itens independentemente da amostra de examinandos que os responderam.

Uma das caractersticas anunciadas pela TRI que os parmetros dos itens no so
dependentes do nvel de habilidade dos examinandos que os responderam. Baker (2001)
mostra um exerccio de anlise que apresenta dois grupos com habilidades diferentes.
Primeiramente, o autor calcula a proporo de respostas corretas a um item para todos
os nveis de habilidade para cada um dos dois grupos. Num segundo momento, ele elabora um
grfico que apresenta as propores para cada um dos nveis de habilidade do primeiro grupo
e outro grfico do segundo grupo. Posteriormente, utiliza o procedimento denominado
mxima verossimilhana para ajustar uma curva caracterstica do item (CCI) aos dados e aos
valores numricos dos parmetros estimados. Como o primeiro grupo aquele com
habilidades baixas, a CCI se concentrou nos valores mais baixos da escala do eixo de theta.
Como o segundo grupo foi aquele com habilidades altas, a CCI se concentrou nos valores
mais altos da escala do eixo de theta.
O autor encontrou que, efetivamente como pressupe a TRI, os parmetros estimados,
a e b, a partir do grupo com menores habilidades foram idnticos aos parmetros estimados a
partir do grupo com maiores habilidades. Alm disso, integrando em um nico grfico as duas
curvas, percebeu que elas se complementam e formam uma nica curva logstica.
Esse exemplo, associado aos resultados de outros quatro exerccios de anlise
apresentados aos leitores de sua obra, permite a concluso que a CCI pode ser estimada a
partir de qualquer segmento desta curva. Cabe ressaltar que esse exemplo carece de preciso
de estimao devido ao pequeno nmero de examinandos da amostra. Este fornece, inclusive,
a impresso de serem dados simulados. Considera-se, no entanto, que a apresentao desses
resultados uma importante forma de ilustrao, que permite uma viso clara da propriedade
da invarincia dos parmetros dos itens. Os exerccios apresentam indcios para a confirmao
da propriedade de invarincia dos parmetros do item, estimados a partir de dois grupos com
habilidades diferentes. Segundo Baker, esse estudo emprico mostra que os valores dos

parmetros do item so propriedades do item, e no dos grupos que responderam ao item,


diferentemente dos resultados encontrados com estudos que envolvam a TCT.
Outro princpio anunciado pela TRI, e, como veremos posteriormente, ser um
elemento fundamental para o presente trabalho, que a estimao da habilidade dos
examinandos invariante no que diz respeito aos itens utilizados para determin-la.
Para ilustrar esse princpio, pode-se considerar a aplicao de duas provas com
diferentes dificuldades a um mesmo examinando. Sua habilidade pode ser estimada
primeiramente com base em suas respostas prova x, mais fcil, que gera um parmetro de
theta x. Posteriormente, com base em suas respostas prova y, mais difcil, que gera um
parmetro theta y. A propriedade de invarincia dos parmetros deve propiciar uma mesma
estimativa de habilidade para esse examinando em resposta aos dois conjunto de itens (theta x
= theta y).
Isto possvel porque a CCI abarca toda a extenso da escala de habilidades. Assim,
independentemente se o item fcil ou difcil, sempre existir um ponto da CCI que
corresponde habilidade de interesse, variando apenas a probabilidade de acerto dos
examinandos ao item. Em funo da invarincia dos parmetros, esses pontos da CCI na
escala de habilidades sero sempre os mesmos para itens fceis ou difceis. Baker (2001)
considera como implicaes desse princpio que, um teste composto de itens de qualquer
ponto da escala de habilidades pode ser usado para estimar as habilidades dos examinandos,
ou seja, a habilidade estimada invariante em relao ao conjunto de itens utilizados para
estim-la.
Embora esses exemplos ilustrem bem a propriedade de invarincia dos parmetros,
Fan (1998) alerta para a escassez de estudos empricos que busquem verificar essa
propriedade, anunciada pela TRI com uma de suas grandes vantagens sobre a TCT. Ele
ressalta que (...) na medida psicolgica, como em qualquer rea da cincia, modelos tericos

so importantes para guiar nossas pesquisas e prticas. No entanto, o mrito do modelo


terico deveria, em ltima instncia, ser validado por meio de rigorosas investigaes
empricas (Fan, 1998).
Ele mesmo realizou uma investigao emprica que buscasse respostas (i) do quanto
so comparveis s estatsticas dos itens e dos examinandos geradas a partir da TCT e da TRI,
e (ii) do quanto essas estatsticas da TCT e da TRI so invariantes, quando calculadas por
meio de amostras diferentes. Utilizando uma base de dados de um programa de avaliao em
larga escala, realizou a investigao emprica destas questes. Para tanto, foram utilizadas as
respostas de examinandos a dois testes, um de Matemtica, composto de 60 itens, e um de
leitura, composto de 40 itens, todos com estrutura dicotmica. Um total de 193.000
examinandos respondeu a ambos os testes. Para o estudo do grau de invarincia das
estatsticas dos itens, foram utilizados trs planos amostrais: (a) amostras selecionadas
aleatoriamente; (b) amostras de homens e mulheres; e (c) amostras com baixas e altas
habilidades.
Esse estudo apresentou, como resultados principais, que (i) as estatsticas dos
examinandos pela TCT foram altamente comparveis com as estimadas pela TRI, (ii) os
ndices de dificuldades calculados pela TCT foram muito comparveis com aqueles estimados
pela TRI, e (iii) o grau de invarincia dos itens, pela TCT, foi altamente comparvel com o
grau de invarincia em relao aos ndices estimados pela TRI. Este ltimo achado no
confirma a superioridade terica da TRI, com relao invarincia dos parmetros dos itens.
Cabe ressaltar que o delineamento utilizado para a realizao do estudo citado s
permitia a verificao da invarincia dos ndices dos itens. Verifica-se um delineamento em
que todos os examinandos da amostra respondem a uma prova de cada uma das duas reas,
Matemtica e Leitura, o que torna invivel a verificao da invarincia do parmetro de
habilidade, pelo menos diretamente, sem algum artifcio de delineamento.

Para a realizao da presente dissertao, foi realizada uma pesquisa bibliogrfica que
pudesse relatar resultados empricos de verificao do princpio de invarincia do parmetro
de habilidade. No foram obtidos, no entanto, grandes xitos neste levantamento. Observou-se
que Fan (1998) parecia ter razo no sentido de alertar para a escassez de estudos empricos na
rea de invarincias dos parmetros. Observou-se tambm que menor ainda o nmero de
estudos que buscasse verificar especificamente a invarincia do parmetro theta.
Uma das referncias encontradas foi um estudo com os dados do Sistema Nacional de
Avaliao da Educao Bsica (Saeb), realizado por Cond e Rabello (2001). Com os dados
de aplicao de 26 formas de provas de Lngua Portuguesa do Saeb aplicado em 1997, os
autores puderam verificar e comparar o comportamento dos ndices de habilidade calculados
pela TCT e pela TRI, quando correlacionados com ndices de dificuldades. Embora carecesse
de um pouco mais de preciso e aprofundamento terico e metodolgico, esse estudo
emprico forneceu indcios para a concluso que os ndices de habilidades calculados pela
TCT so mais dependentes da dificuldade das provas, que os parmetros de habilidades
estimados pela TRI.
interessante ressaltar que a realizao da presente dissertao foi motivada pelo
estudo apresentado no pargrafo anterior (Cond e Rabello, 2001). Este, apesar de poder ter
sido um pouco mais aprofundado, mostrou o quanto o delineamento do Saeb til para a
investigao da propriedade de invarincia do parmetro de habilidade, estimado pela TRI.
Vemos que o delineamento das avaliaes determina as possibilidades da investigao
do princpio de invarincia dos parmetros. Ora pde-se avaliar a invarincia dos parmetros
dos itens pela TRI, ora pde-se avaliar a invarincia das habilidades pela TRI (Cond e
Rabello, 2001).
Fan e Ping (1999), por sua vez, fizeram a verificao de ambas as invarincias, dos
parmetros dos itens e dos parmetros dos examinandos, utilizando as mesmas bases de

dados, utilizadas no estudo de Fan (1998). Acontece que esses autores utilizaram o artifcio de
construir provas fictcias a partir dos dados, considerando os 25% de itens mais fceis e os
25% de itens mais difceis de uma prova de 60 itens de Matemtica, primeiramente, e de uma
prova de leitura, posteriormente. Esse artifcio pode ser til para a investigao da
propriedade de invarincia dos parmetros de habilidade da TRI desde que ressaltadas as suas
limitaes.
Observou-se que um quarto dos itens de Matemtica com menores e maiores
dificuldades equivalem aos 15 itens mais fceis e 15 itens mais difceis. Um quarto dos itens
de Leitura com menores e maiores dificuldades equivalem aos 12 itens mais fceis e 12 itens
mais difceis. Considerou-se que esse nmero de itens que comps ambas as provas fictcias
foi pequeno e seus resultados podem carecer de preciso.
Alm disso, as provas fictcias apresentaram dificuldades mdias, calculadas pela TCT
(ndice denominado por Fan e Ping, em seu estudo de 1999, como valor p 1 mdio), com uma
amplitude muito pequena. Essa diferena entre o valor p mdio da prova mais difcil pelo
valor p da prova mais fcil para a prova de Matemtica foi de 0,09 e para a prova de Leitura
foi de 0,13. Na prtica, pode-se considerar essas provas como apresentando dificuldades
iguais, o que poderia no discriminar os grupos por essa varivel. Esses grupos que
responderam a essas provas fictcias tenderiam a apresentar pouca varincia de theta, mesmo
se a propriedade de invarincia dos parmetros de theta fosse procedente.
O estudo de Fan e Ping (1999) procurava investigar o efeito do ajuste dos dados aos
modelos de um e de trs parmetros da TRI, na invarincia dos parmetros. luz de todas
essas consideraes abordadas nos pargrafos anteriores, os resultados da investigao
emprica realizada pelos autores no foram conclusivos sobre o potencial efeito negativo do

Para efeitos da presente dissertao, utilizou-se o termo valor p para representar a proporo de acertos ao item,
ou seja, o ndice de dificuldade calculado pela TCT (Nunnally e Bernstein, 1994; Fan e Ping, 1999).

desajuste dos dados aos modelos na propriedade de invarincia dos parmetros de habilidades
estimadas pela TRI. Eles sugerem, no final de suas concluses, que estudos com dados
simulados (Monte Carlo) podem ser uma excelente alternativa para investigao do tema.
Tendo sido apresentados os estudos que buscaram verificar empiricamente a
invarincia dos parmetros, para efeitos da presente dissertao, so focados aqueles cuja
propriedade est relacionada invarincia do parmetro de habilidade (theta).

1.2

A propriedade de invarincia do parmetro de habilidade da TRI


Baker (2001) considera que as habilidades dos examinandos so fixas, alm de

invariantes, com respeito aos itens usados para medi-las. Argumenta que a habilidade de um
examinando fixa apenas no caso que apresenta um valor particular em um dado contexto.
Aborda tambm que ela deixar de ser fixa se, por exemplo, um processo de interveno
educacional gerasse um aprimoramento de sua habilidade. Assim, se um indivduo responde a
duas provas com dificuldades diferentes, os parmetros s sero verificados fixos, se
supusermos que ele no sofreu uma aprendizagem na resposta a duas provas. Se um processo
de aprendizagem estiver envolvido, certamente os parmetros de habilidade do sujeito,
estimados a partir do resultado de duas provas aplicadas uma aps a outra, no sero nem
fixos e nem invariantes.
Baker (2001) considera que a invarincia dos parmetros depende de duas condies.
Uma delas a necessidade dos valores de todos os parmetros dos itens estarem em uma
mtrica comum. Outra condio a necessidade dos itens da prova estarem medindo um
mesmo trao latente. Esta condio est relacionada ao pressuposto de unidimensionalidade
dos itens. Isso quer dizer que, se os itens que compem provas diferentes avaliam um mesmo
trao latente, ou seja, so unidimensionais, elas tendem a propiciar estimativas de habilidades

pela TRI sem dependncia com a amostra de examinandos que foi utilizada para estim-la.
Uma ateno especial ser dada para esta segunda condio, ainda na introduo do presente
trabalho, pois a relao entre a unidimensionalidade das provas e a invarincia dos parmetros
compor um dos problemas levantados na presente dissertao.
Tendo em vista as vantagens da independncia do parmetro de habilidade com
referncia aos parmetros dos itens, anunciadas pela TRI, o presente estudo tem o objetivo de
fornecer contribuies nesta rea. Desta forma, a seguinte questo apresentada: como a
teoria pressupe, o princpio de invarincia dos parmetros da TRI funciona empiricamente?
Tendo em vista que essa questo envolve dois aspectos, a saber, (i) se os parmetros dos itens
independem da amostra de sujeitos utilizada para estim-los e (ii) se o parmetro de
habilidade independe da prova utilizada para estim-lo, considerou-se como recorte para
viabilizao do presente estudo a verificao da invarincia do parmetro de habilidade
(aspecto ii).
Assim, especifica-se a questo anterior: a propriedade de invarincia, no que diz
respeito, ao parmetro de habilidade (theta) procedente quando verificamo-la
empiricamente? Ou seja, a habilidade estimada pela TRI invariante e independe do conjunto
de itens utilizados para estim-la?
Esta questo de profunda relevncia para a obteno de informaes sobre as
vantagens da TRI sobre a TCT. Poder-se-ia pensar numa outra questo: compensatria a
utilizao da parafernlia da TRI, com toda a sua complexidade, no que diz respeito ao
clculo da habilidade de examinandos, quando so aplicadas provas distintas entre eles? As
pessoas e instituies responsveis por um determinado sistema de avaliao estaro,
efetivamente, obtendo dados mais precisos e tendo em mos uma ferramenta capaz de
calcular essas habilidades, sob um delineamento que exija a aplicao de provas diferentes

10

para os examinandos? Essas so algumas questes secundrias que podem advir da pergunta
principal.
As respostas a essas questes podero ser analisadas pelo grau de atendimento de uma
das condies bsicas para que ocorra a invarincia, ou seja, a existncia de
unidimensionalidade entre os itens. Como prev a teoria, a unidimensionalidade entre os itens
determinante para a invarincia dos parmetros? Essa uma outra questo, para a qual o
presente estudo objetiva encontrar respostas.
Cabe ressaltar que o estudo que est sendo implementado tem por base uma
investigao emprica. Pretende-se que os resultados advindos deste forneam subsdios para
um aprofundamento da discusso da teoria da rea.
Para estudar a existncia da invarincia de theta, buscou-se encontrar um sistema de
avaliao que apresentasse algumas caractersticas bsicas e necessrias para sua viabilizao.
Selecionou-se uma avaliao que utilizasse um desenho que envolvesse a aplicao de mais
de um modelo de prova. Assim, para a verificao do princpio da TRI, realizou-se um estudo
com os dados advindos da aplicao dos modelos de prova de Matemtica da 8a Srie do
Sistema Nacional de Avaliao da Educao Bsica (Saeb), aplicados em 1997, em uma
amostra de estudantes brasileiros. Os aspectos envolvidos neste sistema de avaliao sero
pormenorizados para melhor entendimento das anlises e resultados do presente estudo.

11

1.3

O Sistema Nacional de Avaliao da Educao Bsica (SAEB)2

1.3.1 Aspectos gerais do Saeb


O Instituto Nacional de Estudos e Pesquisas Educacionais (INEP), do Ministrio da
Educao, vem obtendo informaes sobre o desempenho dos alunos brasileiros desde 1991,
por meio do Sistema Nacional de Avaliao da Educao Bsica (Saeb) (Pestana, 1999b).
Esse sistema de avaliao em larga escala avalia periodicamente estudantes da 4a e 8a
sries do ensino fundamental (E.F.) e da 3a srie do ensino mdio (E.M.) e tem como
principais objetivos: (a) monitorar a qualidade, a eqidade e a efetividade do sistema de
educao bsica; (b) oferecer s administraes pblicas de educao, informaes tcnicas e
gerenciais que lhes permitam formular e avaliar programas de melhoria da qualidade do
ensino; e (c) proporcionar aos agentes educacionais e sociedade uma viso clara e concreta
dos resultados dos processos de ensino e das condies em que so desenvolvidos e obtidos
(Rabello, 2001).
O Saeb, que foi realizado nos anos 1990, 1993, 1995, 1997, 1999 e 2001, busca avaliar
o desempenho de estudantes em diversas disciplinas, a partir da aplicao de provas, e alguns
fatores associados a esse desempenho, por meio de questionrios contextuais. As disciplinas
avaliadas pelo Saeb variaram de aplicao para aplicao. As disciplinas de Cincias da
Natureza (Qumica, Fsica e Biologia) foram avaliadas pelo Saeb 97 e pelo Saeb 99; as
disciplinas Histria e Geografia, pelo Saeb 99; e as disciplinas Lngua Portuguesa e
Matemtica, por meio de todas as aplicaes do Saeb.

Procurou-se tratar dos aspectos de interesses principais para nossa investigao. Um maior detalhamento pode
ser encontrado em Pestana (1999a), Pestana (1999b), Rabello (2001), Rodrigues (2002), Riether, M.M. e Rauter,
R (2000) e Instituto Nacional de Estudos e Pesquisas Educacionais (2002).

12

A partir de 1995, o Saeb assumiu uma metodologia de elaborao dos testes e de


anlise de dados baseada na TRI, com o modelo de trs parmetros (Lord, 1980). O
desempenho dos estudantes, sob esse enfoque terico, estimado por disciplina,
conjuntamente, entre as sries e anos de avaliao. Assim, uma srie de procedimentos de
anlise utilizada de forma que os resultados dos estudantes possam ser colocados em uma
mesma mtrica e representados em uma mesma escala. A escala nica do Saeb varia
teoricamente de 0 a 500, sendo que geralmente os resultados de desempenho dos estudantes
variam, na prtica, de 100 a 400. Uma das vantagens da utilizao de uma escala comum entre
anos a possibilidade da criao de uma srie histrica que permite o monitoramento da
variao desses resultados no decorrer do tempo.

1.3.2 A amostra do Saeb


Os instrumentos de levantamento de dados do Saeb so aplicados em uma amostra de
estudantes de todas as Unidades da Federao brasileiras. A pesquisa por amostragem permite
que medidas individuais dos estudantes sejam agregadas, de forma que se obtenham
estatsticas, a partir das quais so feitas extrapolaes para a populao qual essa amostra se
refere. A amostra do Saeb desenhada tendo em vista a avaliao do ensino em trs diferentes
sries, 4a e 8a E.F. e 3a E.M. estratificada, levando-se em conta as variveis de escolas: zona
(rural ou urbana), localizao (capital ou interior) e rede administrativa (estadual, municipal
ou particular). No fazem parte da populao pesquisada a zona rural da Regio Norte, as
escolas Federais, ou alunos de cursos profissionalizantes do ensino mdio e os alunos de
turmas multisseriadas no Ensino Fundamental.
A amostra do Saeb aleatria para cada um dos estratos definidos. Assim a
probabilidade de uma determinada escola participar da avaliao a mesma que a de qualquer

13

outra. Alm da amostra de escolas e de alunos avaliados pelo Saeb, a tabela 1.1 apresenta o
nmero de diretores, funes-docentes3, sries e disciplinas avaliadas. Optou-se pela
apresentao dos resultados a partir do Saeb 95 e, pelo fato dos resultados do Saeb 2001 no
terem sido divulgados ainda, no foi apresentada a composio da amostra desse ano.

Tabela 1.1 Composio da amostra do Saeb 95, 97 e 99.


Participantes
Escolas
Diretores
Funes Docentes
Alunos
Sries avaliadas
Disciplinas avaliadas

Ano de Realizao do Saeb


1995

1997

2.839
1.933
2.839
1.933
4.967
18.077
90.499
167.196
4, 8, 2 e 3
4, 8 e 3
Matemtica
Matemtica
Lngua Portuguesa Lngua Portuguesa
Cincias (4a e 8a)
Qumica, Fsica e
Biologia (3a)

1999
6.890
6.890
53.815
279.764
4, 8 e 3
Matemtica
Lngua Portuguesa
Geografia
Histria
Cincias (4a e 8a)
Qumica, Fsica e
Biologia (3a)

1.3.3 O instrumento de avaliao do desempenho dos estudantes


At 1993, o Saeb utilizou provas clssicas de 30 itens para avaliar o desempenho dos
estudantes. Sabe-se, no entanto, das limitaes desse modelo de instrumento. Dentre essas
limitaes, pode-se citar que o pequeno nmero de itens utilizados no permite uma grande
abrangncia dos contedos e competncias desenvolvidos e que se espera que os estudantes
desenvolvam quando cursam uma determinada srie escolar. Uma disciplina como
Matemtica, por exemplo, envolve temas como espao e forma, grandezas e medidas, nmero
e operaes, lgebra e funes e tratamento da informao (grandes reas de contedo

A varivel funes-docentes est relacionada aos professores. assim tratada pois acontece de um mesmo
professor ser computado duas vezes na amostra se for professor de duas disciplinas, salas de aula ou escolas
diferentes que foram contemplados pelo Saeb.

14

considerados por INEP, 2002, nesta disciplina). Como poderamos avaliar uma grande gama
de competncias de se trabalhar com esses contedos com uma prova de 30 itens?
praticamente impossvel. Mesmo se limitssemos o nosso interesse de avaliao apenas
parcelas de contedos e competncias, teramos um pequeno nmero de itens para abordar
cada um deles, o que acarretaria uma preciso certamente baixa. Ainda teramos a
desvantagem da avaliao no ser representativa dessa abrangncia de contedos que so
tratados (ou pelo menos deveriam ser tratados) em sala de aula em cada uma das sries.
Buscando corrigir limitaes como essas geradas pela instrumentao clssica, a partir
de 1995 passou a apresentar caractersticas bastante peculiares, resumidamente explicitadas a
seguir:
(i) matrizes de referncia. So as tabelas de especificao da avaliao. Em 1995
essas tabelas eram compostas de objetivos de ensino. A partir de 1997 assumiram a estrutura
composta por descritores que contemplam os contedos e as competncias que embasam a
avaliao (ver Pestana, 1999a, e Instituto Nacional de Estudos e Pesquisas Educacionais,
2002).
(ii) provas. Apresentam um nmero de itens maior que o apresentado pelas provas
tradicionais. As provas do Saeb so compostas por aproximadamente 150 itens por srie e
disciplina. Essa caracterstica possibilita uma ampla cobertura das competncias e contedos
que se espera que os estudantes tenham desenvolvido e que podem ser representados
comportamentalmente pelas respostas aos itens da prova. claro que no seria vivel para um
estudante responder a 150 itens em funo do tempo e do cansao. Por isso, para viabilizar a
utilizao desse grande nmero de itens, o Saeb incorpora uma metodologia baseada na
amostragem matricial de itens, que utiliza o esquema de montagem e aplicao de provas por
Blocos Incompletos Balanceados (BIB).

15

Sob esse delineamento, so montados primeiramente 13 blocos de itens que podem


variar de tamanho. Desde 1999, o Saeb vem utilizando um nmero de 13 itens por bloco, mas
j utilizou tamanhos que variavam de 10 a 13 itens por bloco. So montados 26 cadernos a
partir da combinao, trs a trs, desses blocos de itens por meio da orientao fornecida pela
matriz do BIB, apresentada na tabela 1.2.

Tabela 1.2 Delineamento de Blocos Incompletos Balanceados (BIB).


Caderno
1
2
3
4
5
6
7
8
9
10
11
12
13

Primeiro
Bloco
1
2
3
4
5
6
7
8
9
10
11
12
13

Segundo
Bloco
2
3
4
5
6
7
8
9
10
11
12
13
1

Terceiro
Bloco
5
6
7
8
9
10
11
12
13
1
2
3
4

Caderno
14
15
16
17
18
19
20
21
22
23
24
25
26

Primeiro
Bloco
1
2
3
4
5
6
7
8
9
10
11
12
13

Segundo
Bloco
3
4
5
6
7
8
9
10
11
12
13
1
2

Terceiro
Bloco
8
9
10
11
12
13
1
2
3
4
5
6
7

Essa distribuio de itens por blocos e de blocos por cadernos permite, dentre outros
aspectos, que um mesmo conjunto de itens esteja localizado na primeira posio (primeiro
bloco) em dois cadernos de prova, na segunda posio, em outros dois cadernos e na terceira
posio, em outros dois. Por exemplo, o bloco 1 est localizado na primeira posio nos
cadernos 1 e 14; na segunda posio nos cadernos 13 e 25; e na terceira posio nos cadernos
10 e 20.
(iii) aplicao da provas pela amostra. Cada aluno recebe uma forma de prova, ou
caderno de uma das disciplinas. Como podemos observar na tabela 1.1, no Saeb 97, por
exemplo, em que foram avaliadas as disciplinas Matemtica, Lngua Portuguesa, Cincias
(Qumica, Fsica e Biologia, para a 3a srie do ensino mdio). O aluno que, no dia da prova,

16

est sentado na primeira carteira recebe o caderno 1 da disciplina Matemtica. O aluno que
est sentado na segunda carteira recebe o caderno 1 de Lngua Portuguesa. O terceiro recebe o
caderno 1 de Cincias e, assim, sucessivamente para as outras disciplinas, se for o caso. Os
prximos recebem o caderno 2 de cada uma das disciplinas, o caderno 3 e, assim,
sucessivamente.
A seqncia de aplicao dos cadernos de provas foi mantida para uma prxima sala e,
seqencialmente, para uma prxima. Desta forma, caso o ltimo estudante que respondeu
prova de Matemtica tivesse recebido o caderno nmero 15, por exemplo, o primeiro
estudante da outra sala, que responde ao caderno de Matemtica, recebe o caderno 16. Esse
esquema de aplicao foi previsto para dentro da escola, entre as escolas de um determinado
municpio, entre os municpios e, num nvel mais amplo, para a unidade federativa brasileira.

1.3.4 A equivalncia dos os grupos de estudantes que respondem aos cadernos


Com o esquema amostral e o delineamento BIB adotado, consegue-se uma aplicao
em que um nmero aproximado de estudantes, dos mais diversos estratos da amostra,
responda a cada um dos cadernos. Tambm permite que os estudantes que respondem a um
determinado caderno apresentem, proporcionalmente, caractersticas semelhantes aos grupos
que responderam aos outros cadernos, visto que a alocao dos cadernos aos alunos
aleatria. Ou seja, garante que todos os grupos apresentem, por exemplo, as mesmas
propores de estudantes de baixa habilidade, de mdia ou de alta habilidade; de classes
sociais menos ou mais favorecidas; com culturas e etnias diversas. Em outras palavras, os
grupos de estudantes que respondem a cada um dos cadernos de prova do Saeb podem ser
considerados equivalentes.

17

1.4

A verificao da invarincia do parmetro de habilidade da TRI a partir dos


dados do Saeb
O trabalho com anlises pela TRI e um delineamento no qual formas de provas

diferentes so aplicadas a grupos de estudantes, teoricamente, com caractersticas


semelhantes, faz dos resultados do Saeb um excelente material de pesquisa da invarincia do
theta, em relao dificuldade das provas aplicadas. Assim, para atingirmos os objetivos e
obtermos respostas para as questes levantadas neste estudo, trabalhou-se ento com as
respostas de estudantes aos vinte e seis cadernos de prova de Matemtica da 8a Srie
aplicados no Saeb 97.
Hipotetiza-se que o theta representativo dos grupos que responderam a cada um dos
cadernos no apresentem diferenas, pois pela propriedade de invarincia dos parmetros,
esses independem dos itens que foram usados para estim-los. Praticamente, os theta
estimados para os 26 grupos de estudantes diferentes que responderam aos cadernos, para que
no se rejeite esta hiptese nula, devero ser bastante prximos, mesmo que haja diferenas
entre as dificuldades entre esses cadernos de provas.
Para a obteno de respostas questo da unidimensionalidade como condio para
verificao da invarincia do parmetro de theta, sero usados os mesmos dados de aplicao
da prova de Matemtica da 8a Srie do Saeb 97. Caso exista alguma variao entre os theta
estimados dos grupos de estudantes que responderam a cada um dos cadernos, o pressuposto
da unidimensionalidade entre os ndices desta prova ser analisado. Apresenta-se a hiptese
que, quanto maior o grau de unidimensionalidade entre os itens que compem a prova,
menor a dependncia do theta com relao dificuldade dos cadernos.
Para o estudo da condio de unidimensionalidade entre os itens para a invarincia dos
parmetros, ser apresentado um aprofundamento terico e uma investigao emprica,
apresentada a seguir.

18

1.5

O pressuposto de unidimensionalidade dos itens


Unidimensionalidade um pressuposto da TRI em que apenas uma habilidade

medida por um conjunto de itens em um teste. Ela est relacionada idia da existncia de um
nico trao latente subjacente ao conjunto de itens. De maneira mais prtica, considera-se
uma prova unidimensional se esta apresenta um componente ou fator dominante que
influencia o desempenho dos examinandos em um teste.
Para a estimao dos parmetros dos itens e das habilidades pela TRI, a verificao da
unidimensionalidade da prova utilizada se torna fundamental. Laros, Pasquali & Rodrigues
(2000) apresentaram quatro efeitos negativos que podem surgir quando violado o
pressuposto da unidimensionalidade dos itens na utilizao da TRI.
O primeiro efeito negativo que a ausncia de unidimensionalidade de um conjunto
de itens conduz diminuio da validade de construto do teste, dificultando a interpretao
dos escores. Esse aspecto coloca a validade da prova em questo.
O segundo aspecto a funo diferencial do item que surge para grupos de diferentes
culturas, por exemplo. Esse vis est associado validade de construto. Se num teste falta
validade de construto, o teste conter itens que estaro medindo outras habilidades que no
aquelas que se props medir e, portanto, o potencial para vis do item tambm existe (Laros,
Pasquali & Rodrigues, 2000).
O terceiro efeito trata do efeito negativo da violao do pressuposto para a equalizao
dos resultados de vrias formas de uma prova, o que a torna impossvel de ser realizada
mesmo para modelos multidimensionais da TRI.
O quarto efeito est relacionado estimao da proficincia do aluno. Quando se quer
avaliar a habilidade de examinandos em tpicos amostrados de um domnio conceitual e

19

unidimensional, por exemplo, a probabilidade de theta, dado o padro de resposta, no


vlida e as estimativas e os desvios-padro de theta podem ser errneos (Laros, Pasquali &
Rodrigues, 2000).
Quando estes quatro efeitos da violao da unidimensionalidade so analisados,
verifica-se que eles so todos inter-relacionados. Como a estimao do theta feita (ou pode
ser feita) conjuntamente equalizao, a falta de unidimensionalidade pode enviesar esse
parmetro. E ele estar representando que trao latente? No se sabe, caso os itens da prova
no estejam avaliando um nico fator. Alm disso, como vimos, a falta de validade de
construto pode tornar os itens enviesados para examinandos com mesma habilidade (questo
da funo diferencial do item).
Laros, Pasquali & Rodrigues (2000) realizaram uma reviso da literatura psicomtrica
e relataram cinco ndices para determinar a unidimensionalidade de um conjunto de itens.
So eles (1) ndices baseados em padres de resposta; (2) ndices baseados na fidedignidade;
(3) ndices baseados na anlise de componentes principais; (4) ndices baseados na anlise
fatorial e (5) ndices baseados na TRI. Os autores chegaram concluso, em acordo com
Hattie (1985), que os ndices baseados na TRI so os mais adequados para a avaliao da
unidimensionalidade.

1.6

A unidimensionalidade da prova de 8a srie de Matemtica, do Saeb 97: um


estudo emprico
Esses autores realizaram tambm um estudo emprico para verificao da

dimensionalidade das provas do Sistema Nacional de Avaliao da Educao Bsica (Saeb)


aplicadas em 1997. Seu trabalho tinha como objetivo avaliar se as provas do Saeb 97 eram
unidimensionais.

20

Utilizaram, para tal feito, o mtodo de anlise fatorial full information, baseado na
TRI, um dos ndices considerados por Hattie (1985) como um dos mais adequados para
verificao da unidimensionalidade de um conjunto de itens dicotmicos como o Saeb.
Utilizou tambm os ndices complementares porcentagem de varincia explicada pelo
primeiro fator, a correlao bisserial item-total e a correlao tetracrica entre os itens.
O referido estudo envolveu todas as disciplinas avaliadas pelo Saeb. Para efeitos da
presente dissertao, sero apresentados os resultados da verificao da unidimensionalidade
da prova de Matemtica da 8a Srie do Saeb 97.
Esta prova foi composta de 161 itens. Um item foi anulado. Assim foram
considerados, para a avaliao da unidimensionalidade da prova de Matemtica, 160 itens.
Primeiramente, foram calculados os valores de qui-quadrado para os modelos de um e dois
fatores com seus respectivos graus de liberdade, as diferenas para os modelos de um e dois
fatores, as diferenas dos valores de qui-quadrado corrigidas e os ndices de
unidimensionalidade. Esses resultados esto apresentados a seguir, na tabela 1.3. O quiquadrado um ndice de falta de ajuste dos dados ao modelo. Se o modelo de dois fatores
exibe um qui-quadrado maior do que o modelo com um fator, este se ajusta melhor aos dados
do que o modelo de 2 fatores.

Tabela 1.3. - Informaes para verificao do nmero de fatores das provas de Matemtica da 8a srie
do Saeb 97.
Modelo
1 Fator
2 Fatores
Qui-quadrado
366.403
366.440
Graus de Liberdade
18.473
18.314
Diferena no qui-quadrado
-37,0
Diferena corrigida no qui-quadrado
-12,3
Graus de Liberdade da diferena
159
ndice de unidimensionalidade
-0,07

Os resultados do estudo de Laros, Pasquali & Rodrigues (2000) para a prova de


Matemtica indicaram que o modelo de dois fatores exibe um qui-quadrado maior do que o

21

modelo com um fator. Dessa forma, o modelo de um fator se ajustou melhor que o de dois
fatores, ou seja, a prova, como um todo, apresenta unidimensionalidade.
Alm disso, o ndice de unidimensionalidade, que avalia as vantagens da utilizao do
modelo de dois fatores, foi menor que 2. O valor encontrado neste teste estatstico foi de
-0,07, ou seja, no haveria melhoria significativa se considerassem dois fatores para a prova.
No entanto, nem todos os itens contribuem na mesma quantidade para a
unidimensionalidade da prova. Foram encontrados, do conjunto total de itens da prova, 26
itens (16% dos itens avaliados) com cargas fatoriais inferiores a 0,20 no primeiro e nico
fator. Os autores sugeriram a excluso destes itens, que praticamente no contribuem para a
unidimensionalidade. Depois da excluso desses itens, a prova de Matemtica pode ser
considerada unidimensional e pode ser analisada pela Teoria de Resposta ao Item, sem a
violao do seu pressuposto principal.
Aps a explicitao dos aspectos tericos e de alguns achados empricos sobre a
Teoria de Resposta ao Item, invarincia dos parmetros e unidimensionalidade e aps a
abordagem dos aspectos principais do Saeb, pode-se partir para o cumprimento dos objetivos
do presente estudo.
Assim, partiu-se para a investigao da invarincia do parmetro theta estimado a
partir de provas, que se espera que apresentem dificuldades diferentes, de grupos, que se
espera que sejam equivalentes. claro que estas verificaes so fundamentais para o
trabalho e no nenhuma surpresa adiantarmos que, na comparao das dificuldades mdias e
na verificao da equivalncia entre os grupos, verificou-se que as dificuldades dos cadernos
eram diferentes e os grupos eram equivalentes.
No captulo 2, ser apresentado o mtodo utilizado para fornecer respostas s
questes: pode-se verificar independncia ou invarincia do theta em funo dos itens que
foram utilizados para estim-lo? procedente a afirmao de vantagens da TRI sobre a TCT,

22

no que diz respeito dependncia da habilidade com a prova? Quando a prova se aproxima
mais da unidimensionalidade, a dependncia da estimao do theta com os itens que foram
utilizados para estim-lo menor?

23

2.

Metodologia

2.1

Participantes
A prova de 8 Srie de Matemtica do SAEB 1997 foi respondida por uma amostra de

18.806 estudantes da rede pblica e particular. Essa amostra foi delineada para produzir
resultados de desempenho representativo para as 27 unidades da federao e, dentro delas,
para subpopulaes de interesse.
Para tanto, foi definida uma populao de referncia, que foi estratificada em diversas
subpopulaes ou estratos. A amostra do Saeb 97 foi estratificada levando-se em conta as
variveis de escolas: zona (rural ou urbana), localizao (capital ou interior) e rede
administrativa (estadual, municipal e particular) (Instituto Nacional de Estudos e Pesquisas
Educacionais, 1998). Dentro dos estratos, houve um sorteio dos elementos que participaram
do Saeb. Esse modelo de amostragem nos permite dizer que o grupo de alunos estudado foi
representativo da populao de alunos de 8 Srie E.F. do Brasil.
Um maior detalhamento da amostra j foi apresentado no tpico 1.3.2 desta
dissertao.

2.2

Instrumento
Os 161 itens da prova foram construdos com base em uma matriz de referncia

(Pestana, 1997) de contedos e competncias, validada em nvel nacional em termos do


currculo efetivo, com base no que estava sendo ensinado aos estudantes. Foram construdos
itens de 4a e 8a Sries de Matemtica1, exclusivamente de mltipla escolha (com quatro e
cinco alternativas, sendo apenas uma a correta).

O motivo de estar-se levando em conta a elaborao de itens de 4a Srie ser abordado posteriormente.

24

O item foi composto de estmulo, enunciado e alternativas. O estmulo serve como


elemento que auxilia o examinando na resposta ao item e, normalmente, apareceu em formato
de grficos, tabelas e ilustraes. O enunciado apresentava o problema a ser resolvido e as
alternativas eram as opes de escolha.
Um conjunto de itens foi construdo e validado pedagogicamente em oficinas,
respectivamente, de elaborao e reviso de itens, compostas por especialistas na disciplina de
Matemtica, normalmente professores das sries em questo, com experincia em elaborao
e reviso de itens. Os itens foram construdos com base em uma srie de normas tcnicas
(Instituto Nacional de Estudos e Pesquisas Educacionais, 2001). Dentre elas, cada item foi
elaborado de forma a avaliar um nico descritor da Matriz de Referncia, a apresentar apenas
um problema, a no exigir do aluno um tempo de leitura excessivo e cuja linguagem fosse
acessvel aos alunos.
As mesmas normas foram utilizadas como critrio de reviso ou validao terica dos
itens posteriormente. Nesta, eles eram submetidos a uma reviso tcnica, lingstica e
pedaggica. Na primeira, eram avaliados com referncia ao atendimento das normas de
construo, estrutura e editorao. Na reviso lingstica, procurou-se verificar se a
linguagem que estava sendo utilizada estava de acordo com a norma culta da Lngua
Portuguesa e se era de leitura acessvel aos alunos da srie. J na reviso pedaggica, avaliouse se o item efetivamente avaliava o domnio curricular a que ele se referia. Como produto da
validao terica, os itens foram classificados em aceitos integralmente, aceitos com
reformulao (e ento reformulados) e rejeitados.
Ainda no processo de validao, os itens aceitos (com ou sem reformulaes) foram
submetidos a uma pr-testagem em nvel nacional. A anlise dos dados, pela TCT, indicou as
caractersticas estatsticas dos itens. Para a composio da prova, priorizaram-se aqueles itens
com correlao com o escore total (coeficiente bisserial) maior ou igual a 0,20.

25

Foram escolhidos 161 itens para a composio da prova de 8a Srie de Matemtica do


Saeb 97. Deste total, 44 itens foram provenientes da prova de Matemtica da 4a Srie do Saeb
97, 11 itens, da 4a Srie do Saeb 95 e 22 itens da 8a Srie do Saeb 95, sendo que, deste
quantitativo, alguns deles foram utilizados em mais de uma destas avaliaes (ver tabela 2.1).
Eles foram inseridos na prova de 8a com a funo de serem utilizados como base para a
equalizao dos resultados das provas entre estas sries e anos.
Do conjunto total de itens selecionados, foram montados 13 blocos compostos de 11
ou 13 itens. Houve uma preocupao, da mesma forma, em montar blocos que tivessem itens
com referncia a uma variedade de descritores da Matriz de Referncia e itens de
complexidades variadas. Quando se tratava de blocos compostos de itens de 4a Srie, buscouse selecionar, de preferncia, blocos inteiros mais difceis da srie original, com base nas
estatsticas do pr-teste e do Saeb 95, na tentativa de viabilizar uma aproximao da
dificuldade dos blocos da prova de Matemtica de 8a Srie do Saeb 97.

Tabela 2.1 Nmero de itens dos blocos da prova de 8a Srie de Matemtica do Saeb.

Bloco

Total do
bloco

1
2
3
4
5
6
7
8
9
10
11
12
13
Total

11
11
11
11
13
13
13
13
13
13
13
13
13
161

Nmero de itens
Comuns 4a Comuns 4a
Srie do Saeb Srie do Saeb
97
95
11
0
11
0
11
0
11
11
0
0
0
0
0
0
0
0
0
0
0
4
0
0
0
0
0
0
44
15

Comuns 8a
Srie do Saeb
95
0
0
0
11
0
0
0
0
0
11
0
0
0
22

26

Optou-se pela utilizao do delineamento por BIB para a montagem dos cadernos de
prova e posterior esquematizao da aplicao. Esse delineamento permite uma ampla
cobertura da Matriz de Referncia, pois possvel a utilizao de um nmero grande de itens
(no caso 161), sem exigir do aluno que responda a um nmero excessivo de itens. Desta
forma, foram compostos 26 cadernos, a partir da combinao de blocos, trs a trs. A tabela
2.2 apresenta o nmero de itens que compuseram cada um dos cadernos. Pode-se notar que os
cadernos apresentaram um nmero mnimo de 35 e mximo de 39 itens.

Tabela 2.2 - Nmero de itens por caderno e por bloco de 8a Srie de Matemtica.
Nmero de itens
Caderno
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

Primeiro Bloco

Segundo Bloco

Terceiro Bloco

11
11
11
11
13
13
13
13
13
13
13
13
13
11
11
11
11
13
13
13
13
13
13
13
13
13

11
11
11
13
13
13
13
13
13
13
13
13
11
11
11
13
13
13
13
13
13
13
13
13
11
11

13
13
13
13
13
13
13
13
13
11
11
11
11
13
13
13
13
13
13
11
11
11
11
13
13
13

Total do
caderno
35
35
35
37
39
39
39
39
39
37
37
37
35
35
35
37
37
39
39
37
37
37
37
39
37
37

* A tabela 1.2, que apresenta o BIB, referncia para a composio desta tabela.

27

2.3

Procedimentos
Garantida a devida padronizao nos procedimentos de aplicao, cada aluno

respondeu a um nico caderno de provas de Matemtica. Estes cadernos foram distribudos


seqencialmente em termos dos nmeros de cadernos. O primeiro aluno, que respondeu a
prova de Matemtica, recebeu o caderno 1, o segundo aluno que respondeu prova de
Matemtica, recebeu o caderno 2, e assim sucessivamente. Os cadernos desta disciplina foram
distribudos alternadamente com os cadernos das outras disciplinas aplicadas no Saeb, como
j foi mencionado na introduo do presente trabalho. Desta forma, apenas parte da turma
respondeu prova de Matemtica.
A prova foi aplicada por pessoal contratado que utilizou cerca de uma semana para
cobrir toda a amostra. Anteriormente aplicao da prova, foi aplicado um questionrio
scio-demogrfico.
O tempo de aplicao da prova foi de 75 minutos, divididos em trs perodos de 25
minutos, um para resposta a cada bloco. Os alunos de uma determinada sala iniciavam ao
mesmo tempo o preenchimento de cada bloco de itens. Esse procedimento, juntamente com o
delineamento de distribuio de blocos de itens pelos cadernos, permitiu que os dados
ausentes fossem distribudos, at certo ponto, igualmente pelos blocos respondidos, no
acarretando em uma perda significativa apenas das respostas aos ltimos itens dos cadernos.
Cada estudante recebeu um caderno de prova e uma folha de leitura ptica, em que
marcavam as respostas. Foi fornecido, ao final da aplicao, um tempo extra para os
estudantes terminarem de preencher a folha de leitura ptica. Os dados coletados foram ento
lidos oticamente e um banco de dados com as respostas dos estudantes foi estruturado. O
banco com as respostas dos estudantes s provas continha um campo para registro do cdigo
identificador, das respostas (A, B, C, D ou E) para cada um dos itens dos cadernos e do peso

28

amostral. Os dados ausentes foram diferenciados por caracteres distintos quando os alunos
deixavam questes em branco no meio dos blocos, quando deixavam em branco no final dos
blocos ou quando marcavam mais de uma alternativa. Essa diferenciao teve impacto,
posteriormente, nas anlises.
Foi realizada uma anlise da base de dados e excludos os estudantes que no
responderam prova ou que responderam incorretamente s folhas de respostas. O nmero de
integrantes da amostra efetiva foi extrado aps essa depurao.
Os dados foram analisados primeiramente pela TCT para os quais foram calculadas as
estatsticas dos itens. Para cada um dos itens, calculou-se (i) o percentual de acerto, que
expressa o ndice de dificuldade (valor p), (ii) o percentual de estudantes que optou por cada
uma das alternativas, (iii) a diferena do percentual de acerto dos 27% dos alunos com melhor
desempenho pelo percentual de acerto dos 27% dos alunos com pior desempenho na prova
(ndice de discriminao), e (iv) o coeficiente de correlao item-total, especificamente o
coeficiente de correlao bisserial para todas as alternativas (alternativa correta e distratores).
Para clculo dessas estatsticas, foi utilizado um software elaborado pela empresa contratada
para anlise de dados (Klein & Klein, 1998).
Os coeficientes de correlao bisserial foram utilizados para a definio permanncia
ou no de cada um dos itens nas prximas fases de anlise. Esperavam-se bisseriais positivos
e altos na alternativa correta e negativos nos distratores (alternativas incorretas). Foram
mantidos, para a estimao dos parmetros dos itens e habilidades pela TRI, apenas os itens
que apresentaram bisserial maior que 0,20. Esse procedimento justificado, pois aqueles itens
que no apresentaram boa qualidade pela TCT poderiam prejudicar estimao dos parmetros
pela TRI. Utilizou-se um critrio at certo ponto leniente para que no se perdesse uma
grande quantidade de itens.

29

Posteriormente, os dados foram analisados pela TRI, para os quais foram estimados os
parmetros para cada um dos 161 itens da prova (discriminao parmetro a, dificuldade
parmetro b, e acerto ao acaso parmetro c) e as habilidades dos estudantes (theta). Para
tanto, foi utilizado o software BILOG-MG (Zimowski, Muraki, Mislevy, & Bock, 1996).
Tanto os parmetros dos itens, quanto as habilidades, foram estimados conjuntamente a partir
da utilizao deste software que implementa a Teoria dos Grupos Mltiplos (Bock e
Zimowski, 1995). Essa teoria permite a estimao conjunta dos parmetros vrias amostras
no equivalentes.
Os parmetros dos itens da prova e das habilidades foram estimados conjuntamente
aos dos parmetros das provas de Matemtica de 4a e 8a Sries E.F. e 3a Srie do E.M. dos
Saebs 95 e 97. Essas estimativas, portanto, se encontram na mesma escala entre sries e anos
do Saeb. Os parmetros de dificuldade estimados pela TRI e o parmetro de habilidade theta
so registrados em uma escala que varia, geralmente, de 3 a 3 e que apresenta mdia 0, com
desvio-padro de 1. Para efeito de divulgao de seus resultados do Saeb, eles so
transformados para uma escala que varia, geralmente, de 0 a 500. Ressalta-se que, para efeitos
do presente trabalho, os resultados sero sempre utilizados na escala original.
Para investigar uma possvel influncia da dificuldade dos cadernos de provas na
estimao das habilidades dos examinandos pela TRI, ento, tinham-se disponveis resultados
de 26 grupos de estudantes diferentes, fruto da aplicao de 26 cadernos diferentes. Se os
grupos que responderam aos cadernos apresentassem caractersticas semelhantes, esperar-seia que as estimativas de habilidade desses grupos, pela TRI, fossem tambm semelhantes,
mesmo que estes tenham sido submetidos a provas com dificuldades diferentes, como prev a
propriedade de invarincia dos parmetros.
Duas condies foram fundamentais para a viabilizao do estudo. Em primeiro lugar,
foi fundamental, para nossa investigao, que os grupos que responderam aos cadernos de

30

provas apresentassem caractersticas iguais em termos de habilidades, ou seja, que fossem


equivalentes. Em segundo lugar, foi fundamental que os cadernos de provas apresentassem
variabilidade em suas dificuldades, ou seja, que fossem de diferentes dificuldades mdias.
2.3.1 Estudo da equivalncia entre os grupos de estudantes
Para se conseguir estudar o impacto das dificuldades dos cadernos na estimativa de
habilidade estimada pela TRI, foi necessria uma etapa de estudos sobre algumas condies
de comparabilidade desses grupos de estudantes que responderam a cada uma das formas de
prova (caderno 1 a 26). No eram os mesmos examinandos que estavam respondendo a esses
26 cadernos. No entanto, para os interesses do delineamento do presente estudo,
fundamental que todos os grupo apresentem caractersticas iguais em termos de habilidades.
O diagrama a seguir ilustra essa nuance do delineamento.

Figura 2.1 Delineamento em que grupos de examinandos respondem a diferentes cadernos de prova e
apresentam resultados especficos em termos de habilidades.

Grupo 1
Grupo 2
Grupo 3
Grupo 4
Grupo 5
Grupo

Cadermo1
Cadermo 2
Caderno 3
Caderno 4
Caderno 5
Caderno

Grupo 26

Habilidade 1
Habilidade 2
Habilidade 3
Habilidade 4
Habilidade 5
Habilidade
Caderno 26
Habilidade 26

Onde as habilidades dos grupos de examinandos que responderam a cada um dos


cadernos sejam iguais. Ou seja,

31

Habilidade 1 = Habilidade 2 = Habilidade 3 = = Habilidade 26


Vimos no tpico 1.3 da introduo que a utilizao de uma estrutura amostral aleatria
(dentro dos estratos) e do delineamento de montagem e aplicao de provas por BIB fazem
com que os grupos de estudantes que responderam a cada um dos cadernos sejam
equivalentes. Apenas a anlise dessas caractersticas amostrais, de montagem e distribuio
das provas pela amostra j seriam suficientes para considerarmos a equivalncia entre os
grupos.
No entanto, procurou-se realizar alguns outros estudos para confirmao dessa
equivalncia. Procurou-se verific-la por meio de anlises estatsticas, investigando se os
grupos que responderam a cada caderno apresentavam caractersticas semelhantes em termos
de habilidades. Para a verificao estatstica dessas semelhanas de caractersticas de
habilidades dos estudantes de cada grupo, utilizou-se um procedimento que compara o
desempenho de grupos diferentes de estudantes que responderam a um mesmo bloco de itens,
em termos de escores totais.
Sabendo-se que cada um dos blocos aparece em seis cadernos diferentes (duas na
primeira posio, duas na segunda e duas na terceira, como pode ser visto na tabela 1.2) e,
portanto, so respondidos por seis grupos diferentes, pde-se comparar o desempenho desses
estudantes em termos da diferena de escores totais mdios nos blocos e distribuio de
freqncias de escores totais nos blocos. A partir desses procedimentos de anlise,
considerou-se cada bloco, como uma sub-prova, com os mesmos itens respondidos por grupos
distintos de estudantes.
Foram obtidos, desta forma, seis escores totais mdios e seus respectivos desviospadro, referentes aos seis grupos de examinandos que responderam a cada um dos 13 blocos.
Caso os grupos de estudantes que responderam a cada um dos blocos sejam equivalentes, ou
seja, caso a mdia e a distribuio de freqncias dos escores totais desses grupos sejam bem

32

semelhantes, poder-se-ia considerar que os grupos de estudantes que responderam a cada um


dos cadernos tambm so equivalentes.
Para verificao do que significaria essas diferenas entre mdias em termos de desvio
padro, na tentativa de verificar a variabilidade dessas estimativas para cada bloco, foram
realizados procedimentos de normalizao semelhantes ao ndice d de Cohen ou Cohens d
(Shaughnessy, J.J., Zechmeister E.B., & Zechmeister, J.S., 2000). Por meio desta, divide-se a
diferena entre as mdias pelo desvio padro dos escores totais. Assim,

d = (X1 X2) /
O ndice d de Cohen considera (o desvio padro) como sendo a raiz quadrada da
expresso que representa a varincia

[(n1 1) s12 + (n2 1) s22] / N


em que
n1 = tamanho da amostra 1
n2 = tamanho da amostra 2
s12 = varincia do grupo 1
s22 = varincia do grupo 2
N = n1 + n2

Para o presente trabalho, foram utilizados procedimentos de normalizao que divide a


diferena entre as mdias pela mdia dos desvios-padro dos escores totais. O do ndice d
de Cohen foi aqui considerado como

(1 2) / 2

33

Com essa normalizao, pde-se verificar o quanto essas mdias dos escores totais dos
estudantes em resposta a um determinado bloco se diferenciam em termos de desvios-padro,
de forma a se avaliar essas diferenas. Pode-se utilizar a seguinte classificao como critrios
de interpretao dos resultados normalizados pelo ndice d de Cohen

Diferena pequena: d < 0,50


Diferena mdia: d varia de 0,50 a 0,80
Diferena grande: d > 0,80
Num primeiro momento, verificou-se o desempenho dos seis grupos (dois a dois) que
respondiam aos blocos, quando estes eram apresentados em uma determinada posio do
caderno. Das seis mdias obtidas para cada bloco, analisou-se, num segundo momento, o
desempenho dos grupos independentemente da posio em que esses blocos estavam situados
nos cadernos. Essas anlises forneceram estatsticas descritivas que ajudaram a conhecer
aspectos bsicos sobre os escores dos grupos.
Para aprofundar ainda mais a investigao da equivalncia entre os grupos, alm das
anlises descritivas com os resultados de escores por bloco, foram realizados testes de
estatsticas inferenciais para verificao da existncia de diferenas significativas entre as
caractersticas dos grupos. Definiu-se a hiptese nula (Ho) de dois determinados grupos que
responderam ao mesmo bloco na mesma posio do caderno, mas em cadernos diferentes,
apresentarem a mesma distribuio de freqncias de escores totais.
Para testar a hiptese, utilizou-se um teste no-paramtrico denominado prova U de
Mann-Witney (Siegel, 1975; Kvanli, Guynes & Pavur, 1991; e SPSS, 1999). Esse teste
estatstico, que trabalha a partir de combinaes das observaes ou escores, relacionado-os
por ordem ascendente, foi uma alternativa opo de no utilizar o teste t pelo SPSS
(Statistical Package for the Social Sciences). Este pacote estatstico no considera

34

adequadamente os pesos de amostras complexas como a do Saeb. O teste t exige um


estimao precisa do erro-padro e este software acaba por subestim-lo. As mdias de
escores totais so consideradas significativamente diferentes entre blocos, mesmo que essas
na realidade no fossem. J o teste U, como trabalha por postos, no exige a considerao do
erro-padro, motivo da adoo de sua utilizao no presente estudo. Este teste pode ser
utilizado quando o nmero de observaes dos grupos diferente (amostras de tamanhos
diferentes) e quando se quer realizar uma prova bilateral. considerado eficiente para
anlises de grandes amostras. Como pressupostos, esse teste exige que (i) as amostras sejam
aleatrias, (ii) as observaes no sejam pareadas, e (iii) os dados sejam no mnimo ordinais.
Todos os pressupostos foram atendidos, o que permitiu a utilizao do referido teste
estatstico.
Brogan (1997) fez alguns estudos com o SAS (SAS Institute Inc., 1993), um software
de caractersticas similares s do SPSS. Ele constatou que este software subestima os errospadro, apontando para uma falsa rejeio da hiptese nula. Ele encontrou que o software
SUDAAN seria uma soluo para a estimao justa dos erros-padro.
Brogan (1997) observou tambm que, utilizando os pesos amostrais, o SAS considera
o tamanho da amostra como sendo a soma dos valores desses pesos, o que resulta em um
valor muito alto, impossibilitando a realizao apropriada do teste. Os resultados da utilizao
dos testes tendem sempre a ser significativos. A alternativa a esse problema foi utilizar pesos
amostrais normalizados.
Em seu artigo, Brogan (1997) utiliza como uma de suas variveis os pesos amostrais
normalizados para o tamanho da amostra. Segundo ele esse procedimento vem sendo utilizado
por pesquisadores, que consiste que a soma dos pesos seja igual ao nmero de ocorrncias da
amostra, utilizando valores de pesos individuais substancialmente menores. Essa utilizao
recomendada por alguns analistas de dados como capaz de fornecer resultados

35

aproximadamente iguais aos fornecidos por softwares especializados em amostragem tipo


survey (Brogan, 1997), como o SUDAAN (Shah, 1996).
Seguindo esse procedimento como uma opo de anlise, foi realizada a normalizao
dos pesos amostrais originais (que chamaremos de peso_o). Para um examinando j, o valor de
cada do peso amostral normalizado (que chamaremos de peso_n)

peso_n(j) = (18.806) [peso_o(j) / 2.512.018]

Onde, peso_n(j) o peso normalizado do examinando j e o peso_o(j), o peso original


do Examinando j. Em que o valor 2.512.018 a soma dos pesos originais (peso_o) e a
estimativa total dos estudantes; e o valor 18.806 o nmero de estudantes da amostra.
A partir desta transformao, os pesos amostrais utilizados para a realizao da prova
U de Mann-Whitney foram os pesos normalizados (peso_n). Nesta dissertao, para todas as
anlises que exigiam a utilizao dos pesos amostrais, como as que utilizam as bases de
examinandos, foram tambm utilizados os peso_n.

2.3.2

Estudo da diferena entre as dificuldades dos cadernos de provas e levantamento


dos ndices de habilidades dos grupos que os responderam
Tambm como condio para a continuao do presente estudo, foi necessrio

verificar se os cadernos apresentam dificuldades diferentes. Para tanto, utilizou-se como


ndices de verificao das dificuldades dos cadernos de prova (i) a estatstica de dificuldade
pela TCT (que estamos chamando de valor p no presente trabalho) que o percentual de
acertos do grupo que respondeu a cada um dos cadernos, e (ii) o parmetro de dificuldade da
TRI (representado pelo parmetro b). Foram calculados os ndices valor p e parmetro b
mdios dos cadernos, considerando os pesos amostrais, o que gerou 26 ndices de dificuldade

36

para cada um dos modelos tericos (TCT e TRI). Como essa condio era fundamental para a
continuao do presente estudo, j se pode adiantar que os cadernos apresentavam,
geralmente, dificuldades diferentes.
Tambm foram calculadas as estimativas de habilidade dos grupos de examinandos
que responderam a cada um dos cadernos. Utilizou-se, para tanto, (i) o escore total da TCT, e
(ii) o parmetro de habilidade da TRI (representado por theta). A exemplo dos ndices de
dificuldades, utilizou-se a mdia das informaes de escore total e theta dos 26 grupos que
responderam a cada um dos 26 cadernos como ndices.
J tendo sido calculado ndices ou estimativas de dificuldade (valor p e parmetro b),
bem como dois ndices de habilidades (escore total e theta), tinham-se disponveis
informaes de ambas as teorias, o que permitiu correlaes e comparaes entre elas.
Para a realizao de comparaes entre os resultados do ndice de escore total mdios
e de correlaes entre os resultados deste ndice com os de dificuldade (valor p e parmetro
b) mdios, no entanto, deve-se notar que o nmero diferenciado de itens para cada um dos
cadernos torna injusto o cmputo dos escores totais. Os grupos de estudantes que
responderam a um nmero menor de itens teriam menores chances de conseguir um escore
total mais alto. Por outro lado, aqueles grupos que responderam a um caderno com um
nmero maior de itens poderiam ter conseguido escore total mais alto, por terem maiores
oportunidades de acerto. Na tentativa de minimizar a influncia do nmero de itens dos
cadernos nos resultados mdios de escore total dos examinandos, procedeu-se um ajuste
desses escores, simulando uma situao em que todos os estudantes tivessem respondido a um
caderno de 39 itens.
Assim o escore total de cada caderno foi dividido pelo seu nmero de itens. Obteve-se
taxa de acerto por item.
Assim,

37

taxa de acerto = (Mdia original / n itens caderno)


Multiplicou-se essa taxa por 39, que o nmero de itens do caderno para o qual a
mdia ser ajustada, obtendo-se assim o escore total mdio ajustado.
Assim,
escore total ajustado = taxa de acerto 39
Quando estivermos nos referindo ao escore total mdio dos estudantes que
responderam a cada um dos cadernos, consideraremos um ndice transformado para 39 itens.
No foi til, neste momento da anlise, realizar qualquer tipo de equalizao, visto que a
variabilidade nas mdias do escore total seria eliminada.
Utilizando a base de dados constituda pelas 26 informaes de dificuldade e de
habilidade, pelas duas teorias, foram calculadas a mdia, o desvio padro e a amplitude entre
elas.
Para o clculo da amplitude das mdias de dificuldade e habilidade, em unidades de
desvio padro, dividiu-se a amplitude original pela mdia dos desvios-padro dos ndices dos
cadernos, sem ajuste. Foi utilizada a mdia dos desvios-padro sem ajuste, pois no se tinha
disponvel estes resultados com o ajuste. Certamente a variabilidade, aps um ajuste para 39
itens seria maior.

2.3.3 A associao entre as dificuldades dos cadernos e as habilidades dos estudantes


Foi estruturada uma base de dados que continha os resultados referentes (i) aos 26
ndices de dificuldade (valor p) mdios, pela TCT, (ii) aos 26 parmetros de dificuldade
(parmetro b) mdios, pela TRI, para cada um dos cadernos, (iii) aos 26 ndices de escore

38

total mdios dos estudantes, pela TCT, e (iv) s 26 estimativas de habilidade da TRI (theta)
mdias para os estudantes que responderam a cada um dos cadernos.
Foram calculadas as correlaes (r de Pearson) e criados grficos de disperso entre (i)
os valores mdios do parmetro b dos cadernos e os ndices de escore total mdios dos
estudantes, (ii) o valor p mdio dos cadernos com o theta mdio dos estudantes, e (iii) o
parmetro b mdio dos cadernos com o theta mdio dos estudantes.
A anlise desses resultados foi realizada luz da TRI. As vantagens que essa teoria
supostamente apresenta sobre a TCT, em termos da invarincia dos parmetros de habilidade
foi investigada. Esperavam-se correlaes mais baixas quando o theta estava envolvido e,
mais altas, quando o escore total estava envolvido. No caso do theta, esperava-se encontrar
grficos de disperso com nuvens de pontos que se aproximavam de uma reta vertical,
considerando o eixo X como o theta e o eixo Y como a dificuldade. Assim verificaramos o
quo invariante o theta dos estudantes, tendo em vista a variabilidade da dificuldade dos
cadernos.

Figura 2.2 Grfico de disperso entre a dificuldade dos cadernos e o theta esperado pela propriedade de
invarincia dos parmetros.
,6

,5

,4

dificuldade

,3

,2
-1,0

-,8

-,6

-,4

-,2

,0

,2

,4

,6

,8

1,0

theta

39

No caso da associao entre o escore total e a dificuldade, por sua vez, esperavam-se
grficos com nuvens inclinadas que sugeririam uma correlao perfeita. A estaria
representada a dependncia circular entre dificuldade e escore total.

2.3.4 A unidimensionalidade como condio da invarincia do parmetro de


habilidade pela TRI
Um outro aspecto que se procurou investigar no mbito dessas correlaes foi a
influncia de itens que praticamente no contribuam para a unidimensionalidade na
invarincia do parmetro de habilidade pela TRI. Retoma-se neste momento do estudo, o que
Baker (2001) considerou como uma das condies bsicas para a existncia de invarincia do
theta: a de todos os itens medirem o mesmo trao latente. Levantou-se a seguinte questo:
ser que retirando os itens da prova com baixas cargas fatoriais no fator nico, as correlaes
entre os ndices valor p e parmetro b com o theta no tenderiam a ser menores? Ou seja, ser
que a dependncia entre o theta e os ndices de dificuldade no seria menor?
Utilizando uma anlise prvia da unidimensionalidade das provas do Saeb 97 (Laros,
Pasquali & Rodrigues, 2000), pde-se identificar aqueles itens da prova de Matemtica de 8a
Srie que apresentavam baixas cargas fatoriais no fator nico (abaixo de 0,20). Foram
excludos da anlise clssica e da estimao dos parmetros da TRI os 26 itens que
apresentaram cargas fatoriais no fator nico menores que 0,20. Foram excludos tambm
outros quatro itens que j deixaram de serem usados para o clculo dos parmetros clssicos
nas anlises sem a excluso dos itens. Cabe ressaltar que as cargas fatoriais destes quatro itens
no ultrapassaram 0,30. Ressalta-se tambm que a prova apresentava, aps a excluso dos
itens, um total de 131 itens, divididos em 26 cadernos que variaram de 19 a 39 itens.

40

Aps a retirada 26 itens, foram novamente calculados ou estimados os ndices de


dificuldade e de habilidade, pela TCT e pela TRI, mdios para os 26 cadernos. Na estimao
dos parmetros de dificuldade e habilidade pela TRI, a partir do BILOG-MG, todos os
comandos do programa foram mantidos os mesmos da primeira estimao, exceo do
comando groups, que indica os itens que entrariam nesta estimao. Esse procedimento
justificado pois, esperava-se comparar as estimativas de theta sem a excluso e,
posteriormente, com a excluso dos itens e quanto menor a influncia de outros fatores que
no essa eliminao de itens poderia influenciar os resultados.
Com a estimativa do novo theta, j se tinha disponvel as estimativas do novo
parmetro b, que foram calculados conjuntamente. Retirando-se os mesmos itens, foram
tambm calculados os novos ndices valor p e escore total. Essas estatsticas compuseram
uma segunda base de dados.
De posse dessas informaes de mdias, foram calculadas a mdia, o desvio padro e a
amplitude entre elas. Tambm foram novamente calculadas as correlaes (r de Pearson) e
criados grficos entre (i) o parmetro b dos cadernos com o escore total dos estudantes, (ii) o
valor p dos cadernos com o theta dos estudantes, e (iii) o parmetro b dos cadernos com os
theta dos estudantes, agora com a excluso dos itens que no contribuam significativamente
para a unidimensionalidade. Os resultados foram comparados com os grficos e coeficientes
de correlao sem a excluso dos itens. Esperava-se que, se efetivamente a
unidimensionalidade fosse uma condio para que ocorra a invarincia do parmetro de theta,
a correlao entre o theta e a dificuldade fosse menor que no caso sem a excluso de itens.
Esperavam-se grficos com nuvens de disperso mais prximas ainda idia de uma reta
vertical.
Para diferenciar os ndices sem a excluso de itens daqueles com a excluso de itens,
utilizou-se, para o segundo, uma notao cujo ndices estavam acompanhados pela letra d (de

41

dimensionalidade). Assim, quando estivermos nos referindo aos ndices e parmetros de


dificuldade e aos ndices de habilidade, aps a excluso dos itens, utilizaremos: valor p_d,
parmetro b_d, escore total_d e theta_d.

42

3. Resultados
A fase inicial do estudo foi realizar o levantamento de informaes sobre as
dificuldades dos cadernos de provas, j que esta varivel uma pea-chave para o alcance
dos objetivos propostos. S se poderia investigar a influncia da diferena das dificuldades de
provas sobre a varivel de habilidade estimada pela TRI se houvesse variabilidade entre essas
dificuldades. No entanto, percebeu-se que, para a realizao de certas comparaes entre as
dificuldades mdias de 26 cadernos, seria necessrio que os 26 grupos que o responderam
fossem equivalentes em termos de habilidades. De tal forma, seria como se fosse o mesmo
grupo respondendo a provas diferentes. Partiu-se, assim, para a investigao dos resultados da
equivalncia entre os grupos.

3.1

Verificao da equivalncia entre os grupos


Como resultado da anlise do delineamento amostral e dos procedimentos de

aplicao das provas, considerou-se que, a amostragem probabilstica, aliada forma de


distribuio dos itens pelos cadernos e dos cadernos pela amostra, garante a equivalncia dos
grupos. No sentido apenas de confirmao dessa equivalncia, a seguir so apresentados os
resultados de investigaes com bases estatsticas.
Todos os procedimentos estatsticos utilizados para confirmar a equivalncia entre os
grupos sempre foram baseados na investigao das caractersticas dos examinandos de
diferentes grupos, em resposta a um mesmo bloco de itens. A anlise realizada por bloco
permite comparar diretamente o desempenho na prova de dois grupos de alunos.

43

3.1.1 Estatsticas descritivas do escore total do estudante em resposta aos blocos de


itens
As mdias de escores totais dos estudantes por bloco, bem como a diferena entre elas
considerando os blocos de mesma posio e, tambm, independentemente da posio que
ocupa nos cadernos esto apresentadas no anexo I. Neste so apresentadas tambm as
diferenas entre mdias normalizadas nessas duas situaes (os procedimentos de
normalizao j foram abordados no tpico 2.3.1).
As informaes deste anexo so muito importantes, pois se consegue ter uma viso
geral das mdias e conseqentemente de suas diferenas e verificar que as mdias dos escores
totais dos blocos so muito prximas. Por exemplo, na primeira posio o escore total mdio
do grupo que respondeu ao caderno 1 foi de 7,39 e o do grupo que respondeu ao caderno 14
foi de 7,31. Essa diferena de 0,04 d.p. est indicando que os grupos apresentam praticamente
a mesma habilidade mdia. Se atentarmos para os desvios-padro de cada uma das mdias de
escores totais, verificamos que a variabilidade de cada um dos grupos tambm praticamente
a mesma. Veja que os dois grupos que responderam ao bloco 1, quando este estava situado na
mesma posio (cadernos 1 e 14), apresentam desvios-padro de 2,22 e 2,19, resultados
bastante prximos. Para os outros cadernos deste bloco no eram muito diferentes, se
considerarmos a posio em que esse bloco se encontra.
Buscando sintetizar as informaes do anexo I, so apresentadas as principais
estatsticas descritivas relativas s diferenas entre mdias e s diferenas entre mdias
normalizadas.

44

Tabela 3.1 Diferenas entre os escores totais e diferenas entre os escores totais normalizados dos estudantes
nos blocos que compunham os cadernos de Matemtica do Saeb.
Diferena entre escores totais
Diferena entre escores totais
brutos
normalizados
Blocos
Blocos
Blocos na
Blocos na
independentemente
independentemente
mesma posio
mesma posio
da posio
da posio
Nmero de
Comparaes

39

13

39

13

Mdia

0,27

0,69

0,12

0,30

DP

0,22

0,27

0,10

0,10

Mnimo

0,01

0,31

0,01

0,17

Mximo

0,93

1,29

0,38

0,53

Amplitude

0,92

0,98

0,38

0,37

Observa-se, para os blocos de mesma posio, uma diferena mdia de 0,12 d.p. nos
escores totais nos blocos, com desvio-padro das diferenas entre as mdias de 0,10. Essa
diferena mdia considerada pequena pela interpretao dos resultados do ndice d de Cohen
(Ver a classificao apresentada no tpico 2.3.1). A menor diferena encontrada foi de 0,01
d.p. (ou seja, praticamente nenhuma diferena), para um determinado bloco, e a maior de 0,38
d.p. J na situao em que no se controlou a posio em que o bloco estava localizado no
caderno, as diferenas normalizadas foram em mdia de 0,30 d.p., com desvio-padro de 0,10
d.p. A menor diferena normalizada foi de 0,17 d.p. e a maior, de 0,53 d.p.
Os resultados indicam que, em mdia, as diferenas entre os escores totais foram
menores para blocos de mesma posio que para blocos independentemente da posio.
Analisando-se apenas as diferenas mdias entre os escores totais, quando os blocos esto
situados em uma mesma posio do caderno, observa-se que uma amplitude de 0,38 d.p. Essa
variabilidade pequena em termos de unidades de desvio-padro (d de Cohen < 0,50).

45

3.1.2 Anlise grfica da distribuio de freqncias dos escores totais nos blocos
Os resultados da anlise grfica da distribuio dos alunos dos grupos em funo dos
escores totais no bloco indicaram para linhas muito prximas, na maioria das vezes. Veja o
exemplo do dos grupos de estudantes que responderam ao bloco 11.

Figura 3.1 Grfico da freqncia de estudantes por escore no bloco 11, localizado na primeira posio do
caderno.
300

Nmero de examinandos

200

100

Caderno
11
0

24
0

10,

11

12

13

Escores totais no bloco

Cabe relatar que as linhas de freqncia dos escores totais dos estudantes em alguns
blocos no eram to prximas. Esses desajustes, no entanto, foram poucos e no podem ser
considerados to expressivos.

3.1.3 Teste U de Mann Whitney dos escores totais nos blocos


Os resultados da prova U de Mann Whitney realizada para os grupos de estudantes que
responderam a cada um dos blocos, quando esses estavam localizados na primeira posio do
caderno, esto apresentados na tabela 3.2. Como pode ser observado, para aqueles grupos que
responderam ao blocos 3, 6, 7 e 13, no se pode dizer que apresentam caractersticas

46

semelhantes, pois as diferenas entre as distribuies de freqncias dos escores totais nos
blocos foram significativas para um nvel de 0,05.

Tabela 3.2 Resultados do teste U de Mann-Whitney das distribuies de freqncias dos escores totais dos
estudantes no bloco, situados na primeira posio do caderno.
escore total
Diferena
U
Mdia
entre mdias
1
1
756
7,39
259407,5
14
699
7,31
0,08
2
2
726
3,73
253064,5
15
706
3,81
0,08
3
3
700
6,26
234664,0
16
714
6,59
0,33
4
4
760
7,83
259550,0
17
717
7,57
0,26
5
5
753
4,47
264485,0
18
707
4,49
0,02
6
6
752
4,13
218544,5
19
678
4,66
0,52
7
7
734
4,61
197417,0
20
681
5,53
0,93
8
8
746
3,76
244678,5
21
695
4,00
0,24
9
9
741
3,36
257204,0
22
708
3,43
0,07
10
10
761
4,25
262081,0
23
709
4,37
0,11
11
11
719
2,57
246808,0
24
700
2,51
0,06
12
12
750
3,40
266292,5
25
717
3,33
0,07
13
13
716
3,08
260713,5
26
783
2,77
0,32
* Diferenas significativas ao nvel p de 0,05.
Bloco

Caderno

Sig.

-0,61

0,543

-0,42

0,678

-2,00

0,050*

-1,59

0,112

-0,21

0,831

-4,70

0,000*

-6,90

0,000*

-1,86

0,062

-0,65

0,517

-0,95

0,340

-0,64

0,521

-0,32

0,747

-2,38

0,017*

A partir da anlise dos grupos que responderam ao bloco 6 na primeira posio


(aqueles que responderam ao caderno 6 e ao caderno 19), observou-se que a hiptese nula que
eles apresentam idnticas distribuies foi rejeitada. No entanto, sabe-se que o grupo que
respondeu ao caderno 6 respondeu tambm ao bloco 10 (Ver tabela 1.2), quando esse estava
na terceira posio. Testando-se as respostas dos estudantes ao bloco 10 na terceira posio

47

(cadernos 6 e 16), verifica-se que a hiptese nula de idnticas distribuies de freqncias de


escores totais no foi rejeitada, o que aponta para a equivalncia dos estudantes que
responderam ao caderno 6 com aqueles que responderam ao caderno 16. O grupo que
respondeu ao caderno 16 apresentou caractersticas semelhantes ao que respondeu ao caderno
3 (bloco 3 na primeira posio) e, assim, sucessivamente.
Os resultados da testagem estatstica indicam que, embora diretamente no se tenha
encontrado equivalncia entre os grupos que responderam aos cadernos 6 e 19, indiretamente
pode-se concluir que esses grupos so equivalentes a grupos que responderam a outros
cadernos, que por sua vez, so equivalentes a grupos que responderam a outros cadernos.
Observou-se que todos os estudantes que responderam aos cadernos 3 e 16 (presena do bloco
3 na primeira posio), 6 e 19 (bloco 6), cadernos 7 e 20 (bloco 7) e cadernos 13 e 26 (bloco
13) apresentaram caractersticas comuns com outros grupos que responderam a outros
cadernos, a partir da anlise das respostas aos blocos localizados na segunda e terceira
posies.

3.1.4 Sntese dos resultados da verificao da equivalncia entre os grupos


Se levarmos em considerao os resultados (i) das estatsticas descritivas, (ii) da
anlise grfica das distribuies de freqncias, e (iii) das estatsticas no-paramtricas das
distribuies de freqncias, todos com referncia aos escores totais nos blocos, a hiptese
que os grupos que responderam aos cadernos do Saeb so equivalentes no pode ser rejeitada.

3.2

Dificuldades dos cadernos de prova do Saeb


Uma vez que foi verificado que os grupos de estudantes que responderam aos 26

cadernos so equivalentes, foram inicialmente calculadas as estatsticas de dificuldade dos

48

itens que compunham esses cadernos. Os resultados das estatsticas de dificuldade da TCT
(valor p) podem ser encontrados na tabela 3.3, a seguir.

Tabela 3.3 ndice de dificuldade clssica (valor p) dos itens dos cadernos de Matemtica do Saeb.
Caderno

n itens

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Mdia
Mediana
DP
Mnimo
Mximo
Amplitude

757
731
705
742
762
752
735
744
729
771
722
757
725
688
707
698
717
706
686
680
693
691
714
704
727
761
723,29
723
26,78
680
771
91

33
34
35
35
36
39
38
36
36
37
36
36
34
34
32
36
37
38
37
35
35
35
37
37
37
35
36
32
39
7

Mdia
0,46
0,41
0,53
0,45
0,34
0,35
0,31
0,29
0,29
0,38
0,27
0,34
0,51
0,50
0,45
0,41
0,40
0,34
0,30
0,44
0,33
0,36
0,40
0,27
0,40
0,33
0,38
0,37
0,07
0,27
0,53
0,26

DP
0,21
0,18
0,21
0,21
0,13
0,12
0,15
0,12
0,10
0,21
0,14
0,19
0,25
0,21
0,23
0,18
0,22
0,16
0,10
0,21
0,12
0,20
0,22
0,13
0,20
0,16
0,18
0,19
0,04
0,10
0,25
0,15

valor p
Mnimo
0,10
0,16
0,16
0,10
0,10
0,16
0,07
0,12
0,11
0,07
0,07
0,11
0,11
0,16
0,12
0,10
0,07
0,10
0,11
0,12
0,17
0,07
0,14
0,07
0,14
0,11
0,11
0,11
0,03
0,07
0,17
0,10

Mximo
0,85
0,78
0,89
0,89
0,63
0,81
0,81
0,62
0,62
0,85
0,59
0,78
0,89
0,85
0,89
0,78
0,89
0,81
0,51
0,85
0,59
0,78
0,89
0,63
0,85
0,81
0,78
0,81
0,12
0,51
0,89
0,38

A mdia dos ndices de dificuldade dos cadernos pela TCT (valor p) foi de 0,38, com
desvio-padro de 0,07. O percentual de acertos aos itens que compem os cadernos variou de
0,27 (cadernos 11 e 24, que so, em mdia, os mais difceis) a 0,53 (caderno 3, que, em
mdia, o mais fcil). Pode-se observar que existem grandes diferenas em relao

49

dificuldade dos cadernos. A diferena entre o caderno mais fcil e mais difcil de 0,26, que
representa uma variabilidade de 1,44 d.p, que pode ser considerada grande.
Os resultados referentes ao ndice de dificuldade estimado pela TRI (parmetro b),
esto apresentados na tabela 3.4.

Tabela 3.4 ndice de dificuldade pela TRI (parmetro b) dos itens dos cadernos de Matemtica do Saeb.
Caderno

n itens

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Mdia
Mediana
DP
Mnimo
Mximo
Amplitude

757
731
705
742
762
752
735
744
729
771
722
757
725
688
707
698
717
706
686
680
693
691
714
704
727
761
723,31
723
26,80
680
771
91

33
34
35
35
36
39
38
36
36
37
36
36
34
34
32
36
37
38
37
35
35
35
37
37
37
35
36
32
39
7

Mdia
0,91
0,90
0,43
0,83
1,27
1,18
1,57
1,59
1,55
1,24
1,69
1,50
0,81
0,79
0,68
0,91
1,04
1,42
1,64
1,01
1,24
1,28
0,94
1,81
1,23
1,49
1,19
1,23
0,36
0,43
1,81
1,38

parmetro b
DP
Mnimo
1,34
-1,76
1,00
-0,90
1,20
-1,65
1,12
-1,65
0,90
-0,62
0,89
-1,38
0,98
-1,38
0,83
-0,62
0,82
-0,62
1,28
-1,76
0,83
-0,14
1,10
-0,90
1,60
-1,76
1,39
-1,76
1,15
-1,65
0,87
-0,90
1,22
-1,65
1,00
-1,38
0,84
0,08
1,45
-1,76
0,71
-0,14
1,13
-0,90
1,08
-1,65
0,82
-0,15
1,33
-1,76
1,08
-1,38
1,08
-1,16
1,08
-1,38
0,23
0,61
0,71
-1,76
1,60
0,08
0,89
1,85

Mximo
5,15
2,71
3,60
3,31
2,71
3,60
3,60
3,31
3,40
5,15
3,38
3,40
5,15
5,15
2,69
2,07
3,38
3,60
3,40
5,15
3,31
3,38
2,77
3,40
5,15
3,60
3,67
3,40
0,90
2,07
5,15
3,08

A mdia do parmetro b para os 26 cadernos de 1,19, com desvio-padro de 0,36. O


caderno 3 aquele com menor dificuldade, com parmetro b mdio de 0,43, e o caderno 24

50

aquele com maior dificuldade, com parmetro b mdio de 1,81. Isso representa uma
amplitude de 1,38 entre as mdias do parmetro b. Se essa amplitude for dividida pela mdia
dos desvios-padro, observa-se que de 1,28 d.p., considerada grande.
muito importante chamarmos a ateno para um determinado valor mximo do
parmetro b que de 5,15. Ele se refere a um item com uma dificuldade muito alta que, por
opo, no foi retirado da base e que certamente elevou a mdia desse ndice. Esse item
estava presente nos cadernos 1, 10, 13, 14, 20 e 25.
Conclui-se sobre a investigao dos ndices de dificuldade da TCT e da TRI que a
variabilidade dos cadernos grande. Verifica-se que, a partir de ambos os modelos de anlise,
o caderno 3 se mostrou o mais fcil e o caderno 24, um dos mais difceis.

3.3

Habilidades dos estudantes


Partindo-se para os resultados de investigao dos ndices de habilidade dos

examinandos, primeiramente so apresentadas, na tabela 3.5, as estatsticas descritivas, pela


TCT, do escore total mdios dos estudantes e os resultados deste ndice ajustado em resposta
a cada um dos cadernos de prova.

51

Tabela 3.5 Escore total dos estudantes que responderam aos cadernos de Matemtica do Saeb.
escore total
Caderno

n itens

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Mdia
Mediana
DP
Mnimo
Mximo
Amplitude

757
731
705
742
762
752
735
744
729
771
722
757
725
688
707
698
717
706
686
680
693
691
714
704
727
761
723,29
724
26,78
680
771
91

33
34
35
35
36
39
38
36
36
37
36
36
34
34
32
36
37
38
37
35
35
35
37
37
37
35
36
32
39
7

Mdia

d.p.

Mnimo

Mximo

15,80
14,10
19,03
16,05
11,55
13,31
10,89
10,48
9,71
14,09
9,86
12,11
16,85
17,95
15,34
15,44
15,14
12,25
11,00
16,21
11,50
11,72
14,58
9,54
14,49
11,16
13,47
13,70
2,68
9,54
19,03
9,48

5,52
6,30
6,33
5,44
6,21
7,39
5,19
4,99
5,43
5,77
4,64
5,00
5,45
5,71
5,78
7,08
6,14
5,92
5,11
5,92
6,03
5,43
6,16
4,28
5,32
4,63
5,66
5,62
0,71
4,28
7,39
3,11

2
0
1
0
0
1
0
0
0
1
0
0
0
3
1
0
1
0
0
1
0
0
0
0
1
0
0
0
3
3

32
33
35
35
34
37
33
31
33
37
36
30
32
32
32
36
35
36
33
33
35
32
35
33
34
31
33
30
37
7

Taxa de
escore
acerto por
total
item
ajustado
0,48
0,41
0,54
0,46
0,32
0,34
0,29
0,29
0,27
0,38
0,27
0,34
0,50
0,53
0,48
0,43
0,41
0,32
0,30
0,46
0,33
0,33
0,39
0,26
0,39
0,32
0,38
0,36
0,08
0,26
0,54
0,29

18,67
16,18
21,20
17,89
12,51
13,31
11,18
11,35
10,52
14,85
10,68
13,12
19,33
20,59
18,70
16,73
15,96
12,57
11,60
18,07
12,82
13,05
15,37
10,06
15,27
12,44
14,77
14,08
3,31
10,06
21,20
11,14

A mdia nos escores totais ajustados dos caderno de 14,77, com desvio-padro das
mdias de 3,31. O caderno em que os estudantes obtiveram o menor escore total ajustado foi
o caderno 24, com 10,06. O maior escore total foi o caderno 3, com 21,20. Comparando com
os ndices de dificuldades calculados, esses resultados j indicam que para o caderno mais
fcil, o caderno 3, os estudantes obtiveram os maiores escores mdios. Da mesma forma, para

52

um dos cadernos mais difceis, o caderno 24, os estudantes obtiveram os menores escores
mdios. A amplitude de 11,14 de quase 2 d.p, resultado alcanado da diviso da amplitude
do escore total ajustado pela mdia dos desvios-padro deste ndice sem o ajuste.
As estatsticas relacionadas s habilidades estimadas pela TRI (theta) dos
examinandos que responderam aos cadernos de Matemtica esto apresentados na tabela 3.6,
a seguir.

53

Tabela 3.6 Estimativas da habilidade pela TRI (theta) dos estudantes que responderam aos cadernos de
Matemtica do Saeb.
Caderno

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Mdia
Mediana
DP
Mnimo
Mximo
Amplitude

757
731
705
742
762
752
735
744
729
771
722
757
725
688
707
698
717
706
686
680
693
691
714
704
727
761
723,31
723
26,80
680
771
91

theta
Mdia

d.p.

Mnimo

Mximo

0,13
0,00
0,08
0,10
-0,09
-0,06
-0,11
-0,04
-0,09
0,02
-0,01
-0,09
-0,03
0,18
0,16
0,11
0,11
-0,08
0,06
0,13
-0,02
-0,17
-0,01
-0,19
0,01
-0,06
0,00
-0,01
0,10
-0,19
0,18
0,37

0,96
0,94
0,92
0,83
0,91
0,93
0,81
0,86
0,84
0,88
0,85
0,91
0,95
0,93
0,87
0,97
0,94
0,94
0,80
0,91
0,87
0,92
0,87
0,80
0,86
0,82
0,89
0,90
0,05
0,80
0,97
0,18

-2,10
-1,89
-2,21
-2,09
-1,72
-1,81
-1,68
-1,44
-1,38
-1,93
-1,34
-1,72
-2,22
-2,10
-2,10
-1,81
-2,08
-1,73
-1,41
-1,96
-1,53
-1,85
-2,04
-1,32
-1,96
-1,74
-1,81
-1,83
0,28
-2,22
-1,32
0,91

2,77
2,71
2,85
2,99
2,97
2,82
2,68
2,46
2,87
3,03
3,27
2,66
2,73
2,47
2,98
2,93
2,71
2,87
3,01
2,79
3,05
2,63
3,01
2,82
2,75
2,60
2,82
2,82
0,19
2,46
3,27
0,80

A mdia dos resultados de theta dos estudantes em reposta aos cadernos foi de 0
(zero), o que equivale ao centro da escala, que varia de 3 a 3, com desvio-padro de 0,10. O
theta dos estudantes variou de 0,19, referente ao grupo que respondeu ao caderno 24, a 0,18 ,
referente ao grupo que respondeu ao caderno 14, o que representa uma amplitude de 0,37. O

54

tamanho desta amplitude de 0,42 d.p1., d de Cohen considerado pequeno. Cabe observar,
tambm, que os desvios-padro do theta dos estudantes nos cadernos foram bastante
semelhantes. Esses variaram em 0,05 d.p.
interessante notar que, da mesma forma que para o ndice de escore total dos
estudantes que responderam aos cadernos, o grupo com a menor habilidade respondeu ao
caderno 24. Por outro lado, o grupo com maior theta no respondeu ao caderno 3, como foi
para o escore total. Verifica-se, pelo menos preliminarmente, que no parece existir uma
relao perfeita entre a dificuldade e o theta. Observa-se, por exemplo, que o theta do grupo
que respondeu ao caderno 3 (0,08) inferior ao theta do grupo que respondeu a sete cadernos
(1, 4, 14, 15, 16, 17 e 20), mesmo sendo considerado o caderno com menor dificuldade.

3.4

Associao entre as dificuldades dos cadernos e as habilidades dos estudantes


Em posse dos dois ndices de dificuldade (valor p e parmetro b) e dos dois ndices de

habilidade (escore total e theta) mdios para cada um dos cadernos, foram realizadas as
seguintes correlaes: o valor p com o theta e o parmetro b com o escore total e o theta.
A correlao entre o valor p e o escore total , por definio, perfeita. Associando o
parmetro b com o escore total, observada uma correlao alta e negativa (r = -0,95), em
que quanto maior o parmetro b do caderno, menor o escore total dos estudantes. Na
figura 3.2, o grfico de disperso entre estas duas variveis apresentado.

Resultado da diviso da amplitude mdia pela mdia dos desvios-padro de theta.

55

Figura 3.2 Grfico de disperso entre o ndice de dificuldade dos cadernos pela TRI (parmetro b) e o escore
total dos respondentes aos cadernos de Matemtica do Saeb.
2,0
1,8
1,6
1,4
1,2

Parmetro b

1,0
,8
,6
,4
8

10

12

14

16

18

20

22

Escore total

Na figura 3.2, cada ponto do grfico representa um caderno. O caderno 3, o mais fcil,
est situado na extrema direita do eixo X, onde esto situados os escores mais altos. J o
caderno 24, o mais difcil, est situado na extrema esquerda do eixo X, onde esto situados os
escores mais baixos. Verifica-se com essa associao que o escore total altamente
dependente do ndice de dificuldade estimado pela TRI.
Da mesma forma, se tivssemos correlacionado o escore total com o valor p dos
cadernos obteramos uma correlao perfeita de 1, a correlao entre o parmetro b e o escore
total extremamente alta. A correlao de -0,95 implica que 90% da varincia do escore total
esto associadas varincia do parmetro b.
Observa-se tambm que a correlao entre o parmetro b e o valor p tambm foi
extremamente alta ( 0,95), o que indica que o parmetro b uma estimativa de dificuldade
que apresenta caractersticas semelhantes proporo de acerto dos estudantes aos itens
(valor p).

56

Utilizou-se, em outro momento, uma outra varivel para medir a habilidade, o theta,
em associao com os ndices de dificuldade. Primeiramente, este foi correlacionado com o
valor p e, posteriormente, com o parmetro b.
A associao entre valor p e theta forneceu um coeficiente de correlao r de 0,68. A
disperso dos pontos dessa correlao pode ser observada na figura 3.3.

Figura 3.3 Grfico de disperso entre o ndice de dificuldade clssico dos cadernos pela TCT (valor p) e as
habilidades estimadas pela TRI (theta) dos respondentes aos cadernos de Matemtica do Saeb.
,6

,5

,4

valor p

,3

,2
-,2

-,1

0,0

,1

,2

theta

O grfico aponta para uma associao mais fraca que a do parmetro b com o escore
total. A nuvem de pontos se encontra bem mais dispersa. Cabe ressaltar que o eixo X da
figura 3.3 est variando de 0,2 e 0,2, refletindo um foco da escala que varia de 3,0 a 3,0.
Apresentaram-se os resultados sob essa configurao com o objetivo de se conseguir clarificar
as associaes. Essa observao faz-nos considerar que, embora a figura no transparea, a
variabilidade de theta pequena, mesmo com a grande variabilidade da dificuldade.
Quando o outro ndice de dificuldade, o parmetro b, associado com o theta,
observa-se um coeficiente de correlao r de 0,69, que, em mdulo praticamente o mesmo

57

valor da associao deste ndice de habilidade com a dificuldade clssica. A figura 3.4 pode
fornecer uma viso mais clara dessa correlao.

Figura 3.4 Grfico de disperso entre o ndice de dificuldade dos cadernos pela TRI (parmetro b) e as
habilidades estimadas pela TRI (theta) dos respondentes aos cadernos de Matemtica do Saeb.
2,0
1,8
1,6
1,4
1,2

parmetro b

1,0
,8
,6
,4
-,2

-,1

0,0

,1

,2

theta

Semelhantemente aos dados de correlao com o valor p, o theta se mostrou bem


menos linearmente associado ao parmetro b que o escore total. No se pode concluir,
entretanto, que a habilidade estimada pela TRI isenta de qualquer dependncia do conjunto
de itens que est sendo aplicado. Note-se que ainda existe uma correlao de - 0,69. Isso quer
dizer que 48% da varincia do theta esto associadas varincia do parmetro b da prova.
Percebe-se que, embora a correlao entre as variveis de dificuldade (valor p ou parmetro
b) com o theta seja menor que a correlao destas variveis com o escore total, existe ainda
uma associao forte entre elas.
fundamental novamente aqui considerar que a figura apresentada est apresentando
o eixo X variando de 0,2 e 0,2, refletindo um foco da escala que varia de 3,0 a 3,0. Embora
exista uma associao com a dificuldade, a variabilidade de theta pequena, mesmo com a

58

grande variabilidade da dificuldade. Se aumentssemos a escala do eixo X para 3,0 a 3,0, por
sua vez, observaramos uma nuvem de pontos que se aproxima de uma reta vertical.
Por sua vez, a Teoria de Resposta ao Item considera que uma das duas condies
necessrias para que haja a independncia entre a habilidade, estimada pela TRI, e a
dificuldade dos itens que se esteja avaliando o mesmo trao latente (Baker, 2001). Essa
suposio deu margem a outro tipo de investigao. Quando retiramos os itens que
praticamente no contribuam na mensurao do fator nico, ser que a dependncia entre os
ndices de dificuldade e theta tende a diminuir? Ser que esse seria um cuidado que realmente
se justificaria ser tomado?

3.5

Dificuldades dos cadernos de prova do Saeb, aps a excluso dos itens


Alm dos itens que j vinham sendo excludos das anlises realizadas at esse

momento do trabalho, excluindo tambm aqueles que, pelo estudo de Laros, Pasquali e
Rodrigues (2000), apresentaram cargas fatoriais iguais ou abaixo de 0,20 no fator nico com
relao ao item-total, qual seria o impacto em termos de dependncia entre os parmetros? Na
tabela 3.7 so apresentados os ndices de dificuldade pela TCT mdios para cada um dos
cadernos, aps a excluso dos itens (valor p_d2).

Quando qualquer notao acompanhada de _d, significa que houve a retirada dos itens que praticamente
no contribuem para a unidimensionalidade (cargas fatoriais menores que 0,20). A letra d vem de
dimensionalidade.

59

Tabela 3.7 ndice de dificuldade clssica (valor p_d) dos itens dos cadernos de Matemtica do Saeb, aps a
excluso do itens que praticamente no contribuem para a unidimensionalidade.
Caderno

N itens

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Mdia
Mediana
DP
Mnimo
Mximo
Amplitude

757
731
705
742
762
752
735
744
729
771
722
757
725
688
707
698
717
706
686
680
693
691
714
704
727
761
723,23
723
26,70
680
771
91

28
34
32
19
31
39
28
24
34
35
30
30
29
26
29
31
32
29
27
35
27
33
30
28
33
33
30
19
39
20

Mdia
0,45
0,41
0,51
0,45
0,31
0,35
0,33
0,31
0,30
0,40
0,30
0,37
0,50
0,56
0,42
0,39
0,38
0,33
0,30
0,44
0,34
0,37
0,39
0,26
0,42
0,34
0,38
0,38
0,07
0,26
0,56
0,30

itens

que

Aps

excluso

dos

valor p_d
d.p.
Mnimo
0,22
0,10
0,18
0,16
0,21
0,16
0,22
0,10
0,11
0,10
0,12
0,16
0,15
0,16
0,13
0,12
0,10
0,12
0,20
0,16
0,13
0,14
0,20
0,14
0,24
0,16
0,20
0,16
0,21
0,12
0,18
0,10
0,19
0,16
0,15
0,10
0,09
0,16
0,21
0,12
0,12
0,17
0,20
0,12
0,19
0,14
0,09
0,10
0,20
0,14
0,15
0,16
0,17
0,14
0,19
0,14
0,04
0,03
0,09
0,10
0,24
0,17
0,15
0,07

praticamente

no

Mximo
0,85
0,78
0,81
0,81
0,62
0,81
0,81
0,62
0,62
0,85
0,59
0,78
0,85
0,85
0,81
0,78
0,81
0,81
0,51
0,85
0,59
0,78
0,81
0,41
0,85
0,81
0,75
0,81
0,12
0,41
0,85
0,44

contribuem

para

unidimensionalidade, a mdia do ndice de dificuldade dos cadernos pela TCT (valor p_d) foi
de 0,38, com desvio-padro de 0,07, os mesmos observados sem a excluso dos itens.
Observa-se tambm que as mdias de valor p_d para os 26 cadernos variam de 0,26 (caderno
24, que o mais difcil) a 0,56 (caderno 14, que o mais fcil). interessante notar que os
caderno 3 e 13 se mostraram como uns dos mais fceis. A amplitude de valor p_d foi de 0,30,

60

que demonstra uma variabilidade de 1,76 d.p., maior que a variabilidade sem a excluso dos
itens que foi de 1,44 d.p.
Os resultados referentes aos ndices mdios de dificuldade da TRI, aps a excluso do
itens (parmetro b_d), so apresentados na tabela 3.8.

Tabela 3.8 ndice de dificuldade pela TRI (parmetro b_d) dos itens dos cadernos de Matemtica do Saeb, aps
a excluso dos itens que praticamente no contribuem para a unidimensionalidade.
Caderno

n itens

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Mdia
Mediana
DP
Mnimo
Mximo
Amplitude

757
731
705
742
762
752
735
744
729
771
722
757
725
688
707
698
717
706
686
680
693
691
714
704
727
761
723,23
723
26,70
680
771
91

28
34
32
19
31
39
28
24
34
35
30
30
29
26
29
31
32
29
27
35
27
33
30
28
33
33
30
19
39
20

Mdia
0,95
0,88
0,55
0,84
1,37
1,17
1,42
1,42
1,46
1,10
1,48
1,27
0,79
0,50
0,83
0,98
1,07
1,42
1,52
0,97
1,13
1,16
0,92
1,85
1,03
1,39
1,13
1,12
0,32
0,50
1,85
1,35

parmetro b_d
d.p.
Mnimo
1,29
-1,76
0,99
-0,89
1,16
-1,36
1,02
-0,76
0,84
-0,65
0,88
-1,36
0,95
-1,36
0,83
-0,65
0,74
-0,65
1,13
-1,76
0,73
-0,15
1,04
-0,89
1,43
-1,76
1,33
-1,76
1,07
-0,76
0,85
-0,89
1,00
-0,76
0,93
-1,36
0,78
0,09
1,38
-1,76
0,65
-0,15
1,05
-0,89
0,85
-0,76
0,40
1,07
1,24
-1,76
1,03
-1,36
0,98
-0,96
1,00
-0,89
0,24
0,68
0,40
-1,76
1,43
1,07
1,02
2,84

Mximo
4,20
2,72
3,60
2,09
2,72
3,60
3,60
2,69
2,72
4,20
2,69
2,72
4,20
4,20
2,67
2,09
2,72
3,60
2,72
4,20
2,44
2,67
2,69
2,72
4,20
3,60
3,16
2,72
0,72
2,09
4,20
2,12

A mdia do parmetro b_d de 1,13, com desvio-padro de 0,32. O caderno com


menor dificuldade o caderno 14, com parmetro b_d mdio de 0,50, e o caderno com maior

61

dificuldade o 24, com parmetro b_d mdio de 1,85. Isso representa uma amplitude de 1,35,
que significa uma variabilidade de 1,38 d.p. Cabe ressaltar que essa variabilidade tambm
maior, comparada informao sem a excluso de itens, que foi de 1,28 d.p., que j tinha sido
considerada grande. As medidas de variabilidade do parmetro b_d indicam que os cadernos
so de dificuldades diferentes.
Note-se o valor mximo do parmetro b de 4,20, que se refere a um item muito difcil
presente nos cadernos 1, 10, 13, 14, 20 e 25. Esse item aparece nos mesmos cadernos em que
foi encontrado um item com parmetro b de 5,15, sem a excluso dos itens.
Conclui-se sobre a investigao dos ndices de dificuldade da TCT e da TRI que os
cadernos so de diferentes dificuldades, aps a excluso dos itens que praticamente no
contribuem para a unidimensionalidade. Verifica-se que, a partir de ambos os modelos de
anlise, o caderno 14 se mostrou o mais fcil e o caderno 24, o mais difcil.

3.6

Habilidades dos estudantes, aps a excluso dos itens


Os resultados de escore total_d da investigao dos parmetros de habilidade, aps a

excluso dos itens que praticamente no contribuem para a unidimensionalidade, esto


apresentados na tabela 3.9. Esta apresenta tambm as mdias ajustadas para 39 itens desse
ndice.

62

Tabela 3.9 Escore total_d dos estudantes que responderam aos cadernos de Matemtica do Saeb, aps a
excluso dos itens que praticamente contribuem para a unidimensionalidade.
escore total_d
Caderno

n itens

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Mdia
Mediana
DP
Mnimo
Mximo
Amplitude

757
731
705
742
762
752
735
744
729
771
722
757
725
688
707
698
717
706
686
680
693
691
714
704
727
761
723,23
724
26,70
680
771
91

28
34
32
19
31
39
28
24
34
35
30
30
29
26
29
31
32
29
27
35
27
33
30
28
33
33
30
19
39
20

Mdia

d.p.

Mnimo

13,22
14,10
16,73
8,67
9,07
13,31
8,53
7,33
9,41
13,88
8,93
10,84
14,36
15,46
12,96
12,89
12,62
9,10
8,36
16,21
9,01
11,53
11,80
7,02
13,79
10,82
11,54
11,66
2,80
7,02
16,73
9,71

4,60
6,30
5,78
3,20
5,45
7,39
3,91
3,81
5,37
5,74
4,47
4,86
4,82
4,71
5,25
6,13
5,61
4,82
4,01
5,92
4,92
5,36
5,50
3,43
5,33
4,56
5,05
5,08
0,94
3,20
7,39
4,19

2
0
1
0
0
1
0
0
0
0
0
0
0
2
1
0
0
0
0
1
0
0
0
0
0
0
0
0
2
2

Taxa de
escore total
acerto por
ajustado
Mximo
item
28
33
32
19
29
37
25
21
32
35
30
27
28
26
29
31
31
28
26
33
27
31
30
26
32
30
30
19
37
18

0,47
0,41
0,52
0,46
0,29
0,34
0,30
0,31
0,28
0,40
0,30
0,36
0,50
0,59
0,45
0,42
0,39
0,31
0,31
0,46
0,33
0,35
0,39
0,25
0,42
0,33
0,38
0,38
0,08
0,25
0,59
0,34

18,41
16,18
20,39
17,79
11,41
13,31
11,87
11,91
10,80
15,46
11,61
14,10
19,31
23,19
17,43
16,21
15,38
12,24
12,07
18,07
13,01
13,62
15,34
9,78
16,30
12,79
14,92
14,72
3,31
9,78
23,19
13,41

O escore total_d ajustado apresenta mdia de 14,92 e desvio-padro de 3,31. O


caderno em que os estudantes obtiveram o maior escore total mdio foi o 14, com 23,19.
Aquele em que os estudantes obtiveram o menor escore total mdio foi o caderno 24 (9,78). A
amplitude dos escores totais mdios dos cadernos foi de 13,41, ou seja, de 2,66 d.p.

63

As estatsticas relacionadas s habilidades estimadas pela TRI dos examinandos que


responderam aos cadernos de Matemtica, aps a excluso dos itens (theta_d), esto
apresentados na tabela 3.10.

Tabela 3.10 Estimativas da habilidade pela TRI (theta_d) dos estudantes que responderam cadernos de
Matemtica do Saeb, aps a excluso dos itens que praticamente no contribuem para a
unidimensionalidade.
Caderno

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Mdia
Mediana
DP
Mnimo
Mximo
Amplitude

757
731
705
742
762
752
735
744
729
771
722
757
725
688
707
698
717
706
686
680
693
691
714
704
727
761
723,23
723
26,70
680
771
91

Theta_d
Mdia

d.p.

Mnimo

Mximo

0,13
0,00
0,07
0,05
-0,14
-0,07
-0,09
-0,07
-0,09
0,03
-0,02
-0,08
-0,04
0,20
0,13
0,12
0,11
-0,10
0,05
0,13
-0,03
-0,17
0,00
0,01
0,00
-0,06
0,00
0,00
0,09
-0,17
0,20
0,37

0,95
0,94
0,91
0,82
0,92
0,94
0,77
0,85
0,85
0,89
0,84
0,91
0,94
0,93
0,86
0,96
0,91
0,89
0,79
0,91
0,86
0,92
0,87
0,64
0,86
0,82
0,87
0,89
0,07
0,64
0,96
0,32

-2,03
-1,89
-2,08
-1,71
-1,58
-1,81
-1,59
-1,35
-1,40
-1,94
-1,34
-1,72
-2,14
-2,10
-1,85
-1,77
-1,81
-1,59
-1,33
-1,96
-1,43
-1,86
-1,76
-0,90
-1,98
-1,74
-1,72
-1,77
0,29
-2,14
-0,90
1,23

2,89
2,71
2,84
2,69
2,93
2,80
2,81
2,37
2,82
3,04
3,20
2,62
2,64
2,61
2,96
2,88
2,71
2,74
2,94
2,78
2,85
2,63
2,89
2,95
2,71
2,51
2,79
2,80
0,17
2,37
3,20
0,83

O theta_d mdio foi de 0, com desvio-padro de 0,09. Apresentou amplitude de 0,37,


ou seja, de 0,42 d.p., sendo que os estudantes que responderam ao caderno 14 obtiveram os

64

maiores theta_d mdios (0,20) e os que responderam ao caderno 22 obtiveram os menores


(-0,17).
O caderno 24, que tinha se apresentado como o mais difcil para os estudantes e cujos
escores totais tinham sido os mais baixos sistematicamente, no foi o que apresentou os
menores resultados de theta_d. Para quinze outros cadernos, essas estimativas foram menores.

3.7

Associao entre as dificuldades dos cadernos e as habilidades dos estudantes,


aps a excluso dos itens
De posse dos dois ndices de dificuldade (valor p_d e parmetro b_d) e dos dois

ndices de habilidade (escore total_d e theta_d) mdios para cada um dos cadernos, aps a
excluso dos itens, foram realizadas as seguintes correlaes: o valor p_d com o theta_d e o
parmetro b_d com o escore total_d e o theta_d.
Relacionando o escore_d com o parmetro b_d, observada uma correlao alta (r =
-0,95). A figura 3.5 apresenta o grfico de disperso entre essas duas variveis.

Figura 3.5 Grfico de disperso entre o ndice de dificuldade dos cadernos pela TRI (parmetro b_d) e o
escore total(_d) dos respondentes aos cadernos de Matemtica do Saeb, aps a excluso dos itens
que praticamente no contribuem com a unidimensionalidade.
2,0
1,8
1,6
1,4
1,2

Parmetro b (_d)

1,0
,8
,6
,4
8

10

12

14

16

18

20

22

24

Escore total (_d)

65

Observa-se uma correlao alta e negativa na qual quanto maior o escore mdio dos
examinandos, menor a dificuldade do caderno. A exemplo da associao do valor p_d com o
escore total_d, que de 1, em funo da prpria natureza dos ndices, este parece ser
dependente do parmetro de dificuldade do item estimado pela TRI (parmetro b_d).
Alm do escore total_d, investigou-se a habilidade estimada por meio da TRI, aps a
excluso dos itens, quando associadas a ambos os ndices de dificuldades. A Figura 3.6, a
seguir, apresenta a correlao entre valor p_d e theta_d

Figura 3.6 Grfico de disperso entre o ndice de dificuldade pela TCT(valor p_d) dos cadernos e as
habilidades estimadas pela TRI (theta_d) dos respondentes aos cadernos de Matemtica do Saeb,
aps a excluso dos itens.
,6

,5

Valor p (_d)

,4

,3

,2
-,2

-,1

0,0

,1

,2

,3

Theta (_d)

A associao entre valor p_d e theta_d forneceu um coeficiente de correlao de


Pearson, r, de 0,60. importante, a partir da anlise dessas informaes, lembrar que o
coeficiente de correlao entre valor p e theta, sem a excluso de itens, foi 0,68. Com a
excluso dos itens que praticamente no contribuem para a unidimensionalidade, a
percentagem da varincia de theta associada ao valor p diminuiu de 46% para 36%. Vale a
pena ressaltar tambm que no se pode concluir que no existe dependncia entre valor p_d e

66

theta_d. Embora menor do que quando se relaciona esse ndice de dificuldade com o escore
total existe ainda uma associao.
Quando o parmetro parmetro b_d utilizado em associao com o theta_d, observase um coeficiente de correlao r de 0,57. O grfico de disperso a seguir (figura 3.7) ilustra
essa associao. Esse resultado indica que 32% da varincia de theta_d esto associados ao
parmetro b_d.

Figura 3.7 Grfico de disperso entre o ndice de dificuldade dos cadernos pela TRI (parmetro b_d) e as
habilidades estimadas pela TRI (theta_d) dos respondentes aos cadernos de Matemtica do Saeb,
aps a excluso dos itens.
2,0
1,8
1,6
1,4
1,2

parmetro b (_d)

1,0
,8
,6
,4
-,2

-,1

0,0

,1

,2

,3

theta (_d)

Percebe-se que, embora a correlao entre as variveis de dificuldade (valor p_d ou


parmetro b_d) com o theta_d seja menor que a correlao destas variveis com o escore
total, existe ainda uma associao forte entre elas.
Note-se, no entanto, que aps a excluso dos itens que praticamente no contribuam
para a mensurao do fator nico, a correlao entre a habilidade estimada pela TRI e a
dificuldade diminui de 0,68 para 0,60, quando o valor p utilizado, e de 0,69 para 0,57,
quando o parmetro b utilizado. A excluso dos itens com cargas fatoriais inferiores a 0,20

67

tornou a prova mais unidimensional, apontando para a importncia deste pressuposto para o
funcionamento do da propriedade da TRI de invarincia dos parmetros. No captulo 4, a
anlise desses resultados ser aprofundada.

68

4. Discusso e Concluses
Pela propriedade da invarincia dos parmetros da TRI, a habilidade estimada deve ser
independente do parmetro dos itens que foram utilizados para estim-la. Ser que essa
propriedade anunciada pelos tericos da TRI observada empiricamente? O presente estudo
procurou verificar essa propriedade, com o foco no parmetro da dificuldade e a sua
influncia no theta. Em que medida a dependncia do parmetro de habilidade com relao ao
parmetro de dificuldade dos itens que foram utilizados para estim-lo se manifesta? Esse
modelo terico supera limitaes da TCT?
Uma sntese dos resultados das correlaes entre os ndices de dificuldade e os de
habilidade apresentada na tabela 4.1.

Tabela 4.1 Correlaes entre os ndices de dificuldade e habilidade (*).


ndices de Dificuldade

ndices de Habilidade

Valor p

parmetro b

escore total

theta

ndices de
Dificuldade

valor p

-0,95

1,00

0,68

parmetro b

-0,95

-0,69

ndices de
Habilidade

escore total

0,77

theta

(*) Com base em 26 observaes.

A correlao entre o valor p e o parmetro b (-0,95) faz-nos concluir que estes ndices
de dificuldade esto fortemente associados. Praticamente e de forma sistemtica, quanto
maior o valor p (menor a percentagem de estudantes que, em mdia, acerta os itens),
menor o parmetro b. Estes foram muito prximos e coerentes entre si, mesmo sendo
calculados por meio de dois modelos tericos e metodolgicos diferente. Isto indica que
qualquer um dos dois ndices parece ser adequado como representativo da dificuldade dos
cadernos.

69

A associao entre valor p e escore total apresenta coeficiente de correlao, por


definio, de valor 1,0. A correlao entre o outro ndice de dificuldade, o parmetro b, e o
escore total foi de 0,95. Verifica-se que o ndice de habilidade calculado pela TCT, o escore
total, associado fortemente dificuldade dos itens que compem os cadernos. Quase
sistematicamente, quanto maior a dificuldade, menor o escore total, ou seja, menor a
habilidade dos estudantes. Verifica-se uma extrema dependncia entre a habilidade pela TCT
e a dificuldade, tanto quando esta calculada pela TCT, quando estimada pela TRI.
Como a estimativa de habilidade da TRI, o theta, anunciada como menos dependente
da dificuldade da prova que o escore total, esperava-se uma fraca associao entre esses
ndices. Seria indiferente usarmos um ou outro ndice, baseado pela TCT ou pela TRI, caso
sua correlao fosse muito prxima de 1. O coeficiente de correlao entre escore total e theta
foi de 0,77, que no pode ser considerada fraca, mas que aponta para um distanciamento
dessas estimativas. Elas efetivamente esto, pelo menos parcialmente, se comportando de
maneira no-perfeita.
Por sua vez, pela propriedade de invarincia dos parmetros, esperava-se que o theta
estimado para cadernos muito fceis ou difceis no apresentasse uma grande variabilidade
para grupos de iguais caractersticas de habilidade. Esperava-se uma nuvem de pontos que se
aproximasse de uma reta vertical, representando o caso em que o theta dos estudantes fosse o
mesmo, ainda que exista variabilidade entre as dificuldades dos cadernos. Foi observado, no
entanto, uma associao entre o theta e os dois ndices de dificuldade: o valor p (0,68) e o
parmetro b (-0,69), que indica dependncia entre essa estimativa e a dificuldade.
Essa constatao emprica, embora lance dvidas quanto a independncia dos
parmetros, demonstra que a estimativa de habilidade pela TRI sofre uma influncia menor
com relao dificuldade que o escore total, o que sugere vantagens quanto sua utilizao
em situaes que so utilizadas provas que podem apresentar dificuldades diferentes.

70

Uma anlise mais detalhada dos pontos dos grficos de disperso (figuras 3.3 e 3.4)
refora a constatao de uma menor dependncia de theta em relao dificuldade. Na regio
central do eixo de theta, pode-se notar alguns pontos associados a ndices de dificuldade
bastante diferentes (uns muito altos outros muito baixos). Mesmo assim, nessa regio,
observam-se estimativas de theta bem semelhantes, o que eram esperadas para grupos
equivalentes em termos de habilidades.
De qualquer forma, mesmo considerando essa vantagem da TRI, a completa
independncia dos parmetros no foi observada. Que fatores podem estar influenciando para
um distanciamento dos dados empricos em relao teoria?
Os resultados discutidos at agora, no entanto, foram obtidos sem o controle de certas
variveis (condies) que seriam fundamentais para a ocorrncia da invarincia dos
parmetros. possvel que a existncia de dependncia entre a dificuldade e o theta possa
estar ocorrendo pela falta de controle de algumas dessas condies como, por exemplo, o
ajuste dos dados ao modelo e a unidimensionalidade.
importante saber, por exemplo, se o theta, alm de menor dependncia com os
ndices de dificuldade, est funcionando como uma boa estimativa de habilidade. Um
aprofundamento do estudo da forma como o theta estimado pode indicar se, alm de no ser
to dependente da amostra de itens que so usados para estim-lo (quanto o escore total), ele
um ndice preciso para a mensurao da habilidade dos estudantes. Para estimao do theta,
primeiramente so calculadas as propores para cada um dos nveis de habilidade.
Posteriormente, utiliza o procedimento mxima verossimilhana para ajustar uma CCI aos
dados e aos valores numricos dos parmetros estimados. Sugere-se um aprofundamento da
investigao dos aspectos matemticos deste procedimento de ajuste dos dados ao modelo,
para a qual poder ser realizada uma reviso bibliogrfica e definidos procedimentos de
anlise mais especficos para futuros trabalhos sobre a invarincia dos parmetros.

71

Por sua vez, quando se busca controlar uma outra condio para a ocorrncia da
invarincia dos parmetros pela TRI, a unidimensionalidade, argumenta-se como os
resultados de theta se comportam em associao dificuldade das provas. O estudo de Laros,
Pasquali e Rodrigues (2000) indicou que a prova de Matemtica da 8a srie do Saeb 97 pode
ser considerada unidimensional aps a excluso dos 26 itens que contribuam
significativamente para o primeiro fator. Se a excluso desses itens contribui para a
unidimensionalidade e se o theta estimado tende a ser mais preciso, o que se pode concluir
quanto propriedade de invarincia do parmetro theta, para esses novos dados, frutos dos
novos ndices e estimativas? Uma das condies que Baker (2001) considerou como essencial
para que ocorra a invarincia do parmetro de theta, com relao aos itens que so utilizados
para estim-la, procede empiricamente?
Com os ndices de dificuldade e de habilidades calculados aps a excluso dos 26 itens
que praticamente no contribuem para a unidimensionalidade da prova, foram obtidos os
resultados de correlao apresentados na tabela 4.2.

Tabela 4.2 Correlaes entre os ndices de dificuldade e habilidade, aps a excluso dos itens que no
praticamente no contribuem para a unidimensionalidade (*).
ndices de Dificuldade
valor p_d parmetro b_d

ndices de Habilidade
escore total_d

Theta_d

ndices de
Dificuldade

valor p_d

-0,95

1,00

0,60

parmetro b_d

-0,95

-0,57

ndices de
Habilidade

escore total_d

0,70

theta_d

(*) Com base em 26 observaes.

A correlao entre o valor p_d e o parmetro b_d (-0,95) foi a mesma que a
encontrada antes da excluso dos itens que praticamente no contribuem para a mensurao
do fator nico. Verifica-se que estes ndices de dificuldade esto fortemente associados entre

72

si, ou seja, constantemente quanto maior o valor p_d (menor a percentagem de estudantes
que, em mdia, acerta os itens), menor o parmetro b_d. Os resultados destes ndices foram
muito prximos, mesmo sendo calculados por meio de dois modelos tericos e metodolgicos
diferente, apresentando-se bastante coerentes.
A associao entre valor p_d e escore total_d apresenta coeficiente de correlao, por
definio, de valor 1,0. A correlao entre o outro ndice de dificuldade, o parmetro b_d, e o
escore total_d foi de 0,95, que podemos considerar como prxima de uma correlao
perfeita. Verifica-se que o ndice de habilidade calculado pela TCT, o escore total_d,
extremamente dependente da dificuldade dos itens que compem os cadernos, aps a excluso
dos itens que praticamente no contribuem para a unidimensionalidade.
A associao da habilidade calculada pela TCT e estimada pela TRI caiu de 0,77 para
0,70 aps a excluso dos itens. Embora parea pequena essa diferena, observa-se que a
varincia do theta associada ao escore total caiu de 0,59% para 0,49%. Assim, quando os
itens que compem os cadernos de prova so mais prximos da unidimensionalidade,
observa-se um maior distanciamento entre o comportamento dos ndices de habilidade
calculados pela TCT e pela TRI, aspecto interessante para a investigao da invarincia dos
parmetros.
De fato, esse distanciamento entre os ndices de habilidade refletido na correlao do
theta com os ndices de dificuldade. Com a excluso dos 26 itens, a correlao do theta com
os ndices de dificuldade diminuiu de 0,68 para 0,60, no caso da correlao da dificuldade
calculada pela TCT, e de 0,69 para 0,57, no caso da correlao da dificuldade estimada
pela prpria TRI, embora ainda se mostrem associadas. Isso significa que a percentagem da
varincia de theta associada dificuldade calculada pela TCT caiu de 46% para 36% e a
associada dificuldade estimada pela TRI caiu de 48% para 32%, uma significativa oscilao,
principalmente para o segundo caso.

73

O pressuposto de unidimensionalidade dos itens parece ser fundamental para a


manifestao da propriedade de invarincia dos parmetros. Esta propriedade funciona melhor
quando o atendimento desta condio est mais prximo. Quando itens com cargas fatoriais
no fator nico inferiores a 0,20 so excludos, observada uma queda significativa da
percentagem da varincia de theta associada dificuldade, podendo-se considerar que de
extrema importncia a verificao desse pressuposto antes da estimao das habilidades pela
TRI. As estimativas com base em itens que estejam avaliando o mesmo trao latente tendem a
ser mais precisas e a propriedade de invarincia dos parmetros tende a funcionar
empiricamente melhor.
Esses achados sugerem que, se o controle da unidimensionalidade for ainda mais
rigoroso, os resultados de invarincia tendem a ser ainda melhores. Desta forma, sugere-se
uma nova estimao dos parmetros dos itens e da habilidade, excluindo, agora, os itens que
no contribuam para o fator nico com pelo menos uma carga fatorial de 0,30. Espera-se, a
partir, dessa nova anlise que as correlaes entre theta e as dificuldades diminuam ainda
mais. O estudo de Laros, Pasquali e Rodrigues (2000) novamente ser importante para a o
aprofundamento do presente estudo, visto que apresentam as informaes de cargas fatoriais
desta prova e a indicao dos itens que deveriam ser eliminados da prova.
No foi realizado um estudo da importncia do ajuste dos modelos aos dados como
condio para a propriedade de invarincia dos parmetros. Prximos estudos podero
considerar essa varivel, com base no que Fernandez (1990) considera em uma de suas obras:
Se o modelo se ajusta estritamente aos dados, os objetivos da invarincia dos parmetros se
cumprem.
certo que os resultados indicam para uma menor dependncia de theta em relao
dificuldade da prova, em comparao com o escore total. Ela diminuiu quando a condio de
unidimensionalidade foi, pelo menos em parte, atendida. Poder diminuir ainda mais se a

74

observao desta condio for mais rigorosamente controlada. Essas informaes, por sua
vez, remetem a algumas discusses sobre a metodologia utilizada pelo Saeb para anlise de
seus resultados.
Cabe ressaltar que esse estudo forou um delineamento em que grupos de estudantes
com caractersticas semelhantes em termos de habilidades respondem provas de dificuldades
diferentes e apresentam determinadas estimativas mdias de theta. Na anlise dos resultados
do Saeb, esta habilidade no estimada com base em cada um dos cadernos e sim com base
em todos os itens da prova (150, por exemplo). Tambm no estimada com base em cada
um dos 26 grupos de estudantes, mas com base em todos os estudantes concomitantemente.
O Saeb j utilizou procedimentos de coleta de dados a partir de provas clssicas de 30
itens. O instrumento, neste formato, por demais limitado pois, primeiramente, no se
consegue uma ampla cobertura curricular. Quando conseguirmos com esse pequeno nmero
de itens avaliar algumas das principais habilidades e contedos em Matemtica. Alm disso,
sabe-se que mesmo com todo o processo de validao de itens, existe uma perda de itens por
comportamento inadequado na aplicao final da prova, o que acarretaria em um nmero
ainda mais inferior de itens na prova. Considera-se desta forma, que a opo por utilizao de
um nmero aproximado de 150 itens para avaliao das habilidades dos estudantes em
Matemtica j fornece um avano significativo avaliao desse trao latente. Quando o Saeb
tem como deciso avaliar um espectro maior da habilidade em uma determinada disciplina,
deve propor alternativas de anlises para resultados de diferentes estudantes que respondem a
diferentes formas de prova. Uma excelente alternativa a TRI. Como foi verificado neste
estudo, embora no se tenha uma independncia entre o theta e a dificuldade, o Saeb pode
contar com uma estimativa mais independente da dificuldade que se fossem utilizados os
resultados de escore total.

75

Alm disso, j que o Saeb utiliza uma grande quantidade de itens para estimar a
habilidade dos estudantes, um maior rigor na considerao do pressuposto de
unidimensionalidade aqui sugerido como uma excelente oportunidade para propiciar um
theta mais independente da dificuldade das provas administradas. Isso porque possvel a
excluso de um nmero razovel de itens que praticamente no contribui para a avaliao do
fator nico, sem grandes implicaes negativas na preciso do instrumento geradas quando se
tem disponvel um nmero reduzido de itens. Pelo contrrio, certamente a preciso do
instrumento melhora quando so considerados apenas aqueles que esto avaliando o fator
nico.
Considera-se, finalmente, que os resultados apresentados e discutidos na presente
dissertao contribuem para o estudo da propriedade de invarincia dos parmetros e colabora
para diminuir a escassez de estudos empricos sobre o tema, como indica Fan (1998).

76

5. Bibliografia

Baker, F. B. (2001). The basics of item response theory. USA: Eric Clearinghouse on
Assessement and Evaluation. Second edition.
Bock, R. D.l, & Zimowski, M. F. (1995). Multiple group IRT. In W. van der Linden & R.
Hambleton (Eds.), Handbook of item response theory. New York: Springer Verlag.
Brogan, D. J. (1997). Pitfalls of using standard statistical software packages for samples
survey data. In Encyclopedia of Biostatistics. Atlanta: Emory University.
Cond, F. N., & Rabello, G. C. (2001). A invarincia dos parmetros na teoria de resposta ao
item: um estudo com os dados do Saeb. Anais do marco de aprendizagem contnua em
avaliao. Salvador: Dez/2001.
Fan, X. & Pin, Y. (1999). Assessing the effect of model-data misfit on the invariance property
of IRT parameter estimates. Paper presented at the 1999 annual meeting of the american
educational research association, april 19-23, Montreal, Canada (Session # 38.05).
Fan, X. (1998). Item response theory and classical test theory: an empirical comparison of
their item/person statistics. Educational and Psychological Measurement, 58, 357-381.
Fernandez, J. M. (1990). Teoria de Respuesta a los tems: un nuevo enfoque en la evolucin
psicolgica y educativa. Madrid: Ediciones pirmide.
Hambleton, R.K., Swaminathan, H. e Rogers, H.J. (1991). Fundamentals of item response
theory: measurement methods for the social sciences. Newbury Park, CA: SAGE
publications, Inc.
Hattie, J.A. (1985). Methodology review: assessing unidimensionality of tests and items.
Applied Psychological Measurement, 9, 139-164.
Instituto Nacional de Estudos e Pesquisas Educacionais (1998). Relatrio Tcnico da Amostra
do Saeb 97. Braslia: INEP.
Instituto Nacional de Estudos e Pesquisas Educacionais (2001). Guia para elaborao e
reviso de itens. Braslia: INEP.
Instituto Nacional de Estudos e Pesquisas Educacionais (2002). Saeb 2001: novas
perspectivas. Braslia: INEP.
Klein, R. & Klein, T. S. (1998). Programa para Teoria Clssica dos Testes.

77

Kvanli, A.H., Guynes, C.S., & Pavur, R.J. (1991). Introduction to business statistics (4a ed.).
USA: West Publishing Company.
Laros, J.A. (2001). Diferenas entre estados em escores gerais e em escores de temas e
tpicos das provas do Saeb 1999 em matemtica e portugus para a 4a srie do ensino
fundamental. Braslia: Centro de Pesquisa em Avaliao Educacional CPAE, UnB.
Laros, J.A., Pasquali, L. & Rodrigues, M.M.M (2000). Anlise da unidimensionalidade das
provas do Saeb. Braslia: Centro de Pesquisa em Avaliao Educacional CPAE, UnB.
Lord, F.M. (1980). Aplications of item response theory to practical testing problems.
Hillsdale (NJ): Lawrence Erlbaum.
Nunnally, J.C. & Bernstein, I.H. (1994). Psychometric theory (3rd ed.). USA: McGraw-Hill.
Pasquali, L. (1996). Teoria e mtodos de medida em cincias do comportamento. Braslia:
Laboratrio de Pesquisa em Avaliao e Medida/Instituto de Psicologia/Universidade de
Braslia/Instituto Nacional de Estudos e Pesquisas Educacionais.
Pasquali, L. (1997). Psicometria: teoria e aplicaes. Braslia: Editora Universidade de
Braslia.
Pestana, M.I.G.S. (1997). Matrizes curriculares de referncia para o SAEB. Braslia: Instituto
Nacional de Estudos e Pesquisas Educacionais.
Pestana, M.I.G.S. (1999a). Matrizes curriculares de referncia para o SAEB. Braslia:
Instituto Nacional de Estudos e Pesquisas Educacionais.
Pestana, M.I.G.S. (1999b). Saeb 97: primeiros resultados. Braslia: Instituto Nacional de
Estudos e Pesquisas Educacionais.
Rabello, G.C. (2001). A tcnica de equalizao: um estudo comparativo com os dados do
SAEB. Dissertao de mestrado. Braslia: Universidade de Braslia.
Requena, C.S. (1990). Psicometria: teoria y prctica en la construccin de tests. Madrid:
Ediciones Norma, S.A.
Riether, M.M. e Rauter, R (2000). A Metodologia de amostragem do Saeb. Revista brasileira
de estudos pedaggicos, 81(197), 143-153.
Rodrigues, M.M.M. (2002). Instrumentos de avaliao educacional: uma viso pedaggica e
psicomtrica integradas: estudos das provas do Saeb, matemtica 8a srie, 1997 e 1999.
Dissertao de mestrado. Braslia: Universidade de Braslia.

78

SAS Institute Inc. (1993). SAS companion for the microsoft windows environment, version 6.
SAS Institute Inc., Cary, N.C.
Shah. B.V., Barnwell B.G. and Bieler G.S. (1996). SUDAAN users manual: release 7.0,
Research Triangle Institute, Research Triangle Park, N.C.
Shaughnessy, J.J., Zechmeister E.B., & Zechmeister, J.S. (2000). Research methods in
Psychology. Boston: McGraw-Hill Companies.
Siegel, S. (1975). Estatstica no-paramtrica para cincias do comportamento. So Paulo:
McGraw-Hill.
SPSS (1999). SPSS base 10.0 applications guide. USA: SPSS Inc.
Zimowski, M.F., Muraki, E., Mislevy, R.J., & Bock, R.D. (1996). BILOG-MG: multiplegroup IRT analysis and test maintenance for binary items. Chicago: Scientific Software
International (SSI).

79

6. Anexo I: Diferenas entre os ndices de escore total dos examinandos por bloco
Blocos de mesma
posio

escore total
Bloco Posio Caderno

1
2
3

1
2
3

1
2
3

1
2
3

1
2
3

1
2
3

1
14
13
25
10
20
2
15
1
26
11
21
3
16
2
14
12
22
4
17
3
15
13
23
5
18
4
16
1
24
6
19
5
17
2
25

757
688
725
727
771
680
731
707
757
761
722
693
705
698
731
688
757
691
742
717
705
707
725
714
762
706
742
698
757
704
752
686
762
717
731
727

Mdia

d.p.

7,39
7,31
6,80
6,84
6,71
6,95
3,73
3,81
3,86
3,44
3,66
3,36
6,26
6,59
6,18
6,59
5,63
5,30
7,83
7,57
7,71
7,81
6,97
6,91
4,47
4,49
4,54
4,73
4,56
3,84
4,13
4,66
4,06
4,76
4,19
4,32

2,22
2,19
2,33
2,19
2,23
2,18
2,18
2,11
2,21
1,75
1,99
2,03
2,31
2,32
2,34
2,47
2,55
2,57
2,41
2,56
2,54
2,51
2,66
2,62
2,29
2,57
2,13
2,60
2,15
2,09
2,93
2,61
2,78
2,78
2,77
2,42

Blocos
independentemente da
posio

Diferena Diferena Diferena Diferena


Mn Mx
entre
entre mdias
entre
entre mdias
mdias normalizada mdias normalizada
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

11
11
11
11
11
11
10
10
10
10
10
10
11
11
11
11
11
11
11
11
11
11
11
11
12
12
12
12
12
11
12
13
13
13
13
13

0,08

0,04

0,04

0,02

0,24

0,11

0,08

0,04

0,42

0,21

0,30

0,15

0,33

0,14

0,41

0,17

0,32

0,13

0,26

0,11

0,11

0,04

0,06

0,02

0,02

0,01

0,18

0,08

0,72

0,34

0,52

0,19

0,70

0,25

0,13

0,05

0,68

0,30

0,50

0,24

1,29

0,53

0,92

0,36

0,89

0,39

0,70

0,26

80

Blocos de mesma
posio

escore total
Bloco Posio Caderno

1
2
3

1
2
3

1
2
3

10

1
2
3

11

1
2
3

12

1
2
3

13

1
2
3

7
20
6
18
3
26
8
21
7
19
4
14
9
22
8
20
5
15
10
23
9
21
6
16
11
24
10
22
7
17
12
25
11
23
8
18
13
26
12
24
9
19

735
680
752
706
705
761
744
693
735
686
742
688
729
691
744
680
762
707
771
714
729
693
752
698
722
704
771
691
735
717
757
727
722
714
744
706
725
761
757
704
729
686

Mdia

d.p.

4,61
5,53
5,30
4,72
5,06
4,96
3,76
4,00
3,47
3,85
3,68
4,05
3,36
3,43
3,32
3,73
3,02
3,71
4,25
4,37
3,86
4,14
3,88
4,12
2,57
2,51
2,74
2,65
2,60
2,51
3,40
3,33
3,23
3,30
3,39
3,04
3,08
2,77
3,09
2,87
2,48
2,49

2,27
2,60
2,48
2,52
2,44
2,36
2,20
2,31
2,31
2,17
2,22
2,22
2,24
2,20
1,95
2,23
2,22
2,20
2,91
2,83
2,71
2,73
2,98
3,11
1,78
1,56
1,73
1,79
1,56
1,70
2,00
1,97
1,92
1,97
1,93
2,08
1,93
1,56
1,75
1,74
1,60
1,66

Mn Mx
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

13
13
13
13
13
13
12
12
12
11
12
12
11
11
10
11
11
11
13
13
13
13
13
13
12
11
12
10
10
10
11
12
13
11
11
12
10
11
10
11
10
10

Blocos
independentemente da
posio

Diferena Diferena Diferena Diferena


entre
entre mdias
entre
entre mdias
mdias normalizada mdias normalizada
0,93

0,38

0,58

0,23

0,10

0,04

0,24

0,11

0,38

0,17

0,37

0,17

0,07

0,03

0,41

0,19

0,70

0,32

0,11

0,04

0,28

0,10

0,24

0,08

0,06

0,04

0,09

0,05

0,09

0,05

0,07

0,03

0,07

0,04

0,35

0,17

0,32

0,18

0,22

0,13

0,01

0,01

0,93

0,38

0,57

0,26

0,71

0,33

0,50

0,17

0,23

0,14

0,35

0,18

0,61

0,36

81