Você está na página 1de 10

Breve retrospectiva acerca dos estudos que abordam o viés dos itens de testes psicológicos

BREVE RETROSPECTIVA ACERCA DOS ESTUDOS QUE


ABORDAM O VIÉS DOS ITENS DE TESTES PSICOLÓGICOS

A Brief Review of the Studies Concerning the Bias in the


Items of Psychological Tests

Wagner Bandeira Andriola1

Resumo
O texto retrata a origem dos estudos sistemáticos que abordam a temática dos vieses dos itens e dos testes
psicológicos, ressaltando os procedimentos mais freqüentemente utilizados em tal atividade. Destaca o
conceito do termo funcionamento diferencial do item (DIF), caracterizando-o como adverso ou benigno a
um determinado grupo demográfico. Além do mais, enfatiza a existência do DIF uniforme ou consistente e
do DIF não-uniforme ou inconsistente. Por fim, destaca a idéia central: a presença do DIF é um fator de
injustiça à atividade de avaliação psicológica.
Palavras-chave: Testes psicológicos, funcionamento diferencial do item (DIF), avaliação psicológica.

Abstract
The text treats of the origin of systematic studies concerning the bias of items in psychological tests, giving
prominence to the proceedings most frequently used in such activity. It emphasizes the concept of the term
“differential functioning of the item” (DFI) characterizing it as adverse or benign to a specific demographic
group. It also gives prominence to the existence of uniform or consistent DFI as well as non uniform or
inconsistent DFI. It finally emphasizes the central idea: the presence of DFI is a factor of injustice in the work
of psychological assessment.
Keywords: Psychological tests, differential functioning of the item (DFI), psychological assessment.

1
Doutor em Educação pela Universidad Complutense de Madrid. Professor Adjunto do Departamento de Fundamentos da
Educação da Faculdade de Educação da Universidade Federal do Ceará (UFC). Coordenador do Núcleo de Avaliação Educaci-
onal (NAVE) do Programa de Mestrado e Doutorado em Educação da UFC. Coordenador de Avaliação Institucional e Análise da
Pró-Reitoria de Planejamento da UFC.
Endereço para contato: Rua Major Tibúrcio Cavalcante, 1222. Ap. 1701, Meireles. Fortaleza - CE. CEP 60125-100.
E-mail: w_andriola@yahoo.com

Psicologia Argumento, Curitiba, v. 23, n. 43 p. 35-44, out./dez. 2005. 35


Wagner Bandeira Andriola

Origem dos estudos acerca do viés Apesar destes autores pioneiros, o come-
dos testes psicológicos ço da moderna investigação sobre o viés encon-
tra-se nos trabalhos de K. Eells, A. Davis, R. J. Ha-
vighurst, V. E. Herrick e R. W. Tyler, que foram
O viés dos instrumentos de medida psi-
realizados na Universidade de Chicago, em 1951.
cológica e educacional é um tópico que aparece
Nestes estudos, os citados autores encontraram
tardiamente tratado no seio da psicometria mo-
variações nos itens, em alguns aspectos muito pe-
derna (Muñiz, 1997). De acordo com Angoff (1993),
culiares, tais como conteúdo e formato, que redu-
seu estudo sistemático iniciou-se nos Estados Uni-
ziam ou exageravam as diferenças observadas en-
dos, no final dos anos 1960, numa época em que
tre os grupos comparados (Hambleton, Swamina-
estava em moda os debates acerca dos direitos
than & Rogers, 1991).
civis e das desigualdades de oportunidade entre
Nesse contexto, surgem os primeiros da-
brancos e outras minorias étnicas.
dos a respeito dos problemas técnicos presentes
Os resultados dos processos de avaliação
em alguns itens dos testes então utilizados na ava-
educacional, executados por reconhecidas institui-
liação da aprendizagem. O uso indevido da lin-
ções, tais como o Educational Testing Service (ETS),
guagem escrita, que possibilitava certa vantagem
foram discutidos entre diversos intelectuais, tais
de um grupo de sujeitos sobre outro era um des-
como sociólogos e pedagogos. Segundo eles, as
ses problemas técnicos. Em suma: muitos dos ter-
diferenças de rendimento observadas entre os di-
mos empregados nos testes eram mais familiares a
versos grupos étnicos e socioeconômicos refletiam,
alguns grupos específicos de estudantes, tais como
na realidade, disparidades nas oportunidades edu-
os norte-americanos brancos, originários da clas-
cacionais e discriminação contra grupos minoritári-
se média (Linn & Harnisch, 1981). Em conseqüên-
os, tais como negros, hispano-americanos, judeus e
cia, os sujeitos pertencentes aos grupos minoritári-
árabes (Allen & Wainer, 1989). Podemos observar,
os, que não conheciam ou não empregavam coti-
desse modo, que foi a discussão social, alheia em
dianamente esses termos, tinham rendimento mais
grande parte ao círculo psicométrico especializado,
baixo. Surge, então, o interesse pela investigação
que obrigou aos especialistas da área gerar novos
sistemática do viés dos itens (Cole, 1993).
procedimentos analíticos, com o objetivo de provar
No âmbito da Teoria Clássica dos Testes
que seus testes ou instrumentos de medida não ti-
(TCT), o termo viés é utilizado para rotular os itens
nham nenhum tipo de viés (Cole, 1993).
que têm parâmetros de dificuldade ou de discrimi-
Nessa mesma época, os investigadores
nação diferentes, nos distintos grupos estudados.
começaram a preocupar-se pelo estudo sistemáti-
Segundo Camilli & Shepard (1994), o viés é uma
co das diferenças entre os mencionados grupos
fonte de invalidez ou de erro sistemático, que se
demográficos, pois estavam interessados em bus-
reflete em como um teste mede aos membros de
car explicações a respeito das suas verdadeiras
um grupo particular. É sistemático porque cria uma
causas explicativas. Martínez Arias (1997) destaca
distorção nos resultados do teste, favorável ou con-
que a investigação acerca do viés dos itens pode
trário aos membros de um grupo determinado.
remontar-se aos estudos realizados por A. Binet,
Faz-se mister destacar: a idéia de grupo é
em 1910, a respeito das diferenças de status socio-
central nas diversas definições de viés e, por esse
ecomômico no rendimento dos sujeitos submeti-
motivo, este tem sido estudado, fundamentalmen-
dos a alguns testes desenvolvidos por ele próprio.
te, nas investigações acerca de diferenças relacio-
Os resultados obtidos possibilitaram a proposição
nadas com algumas características grupais, tais como:
da hipótese de que o rendimento mais baixo des-
classe social, idade, região, habitat ou outra carac-
tes sujeitos, em alguns itens, poderia dever-se ao
terística sociodemográfica relevante (Andriola, 2002).
efeito da cultura, ao invés de ser fruto de potenci-
ais diferenças na capacidade mental ou no cons-
truto latente medido pelo teste (Andriola, 2002).
Também W. Stern, o introdutor do termo Quoci- Procedimentos para a detecção do
ente Intelectual, pode ser considerado como um viés dos itens
dos primeiros investigadores da área; estudou as
diferenças relacionadas com a classe social, na No estudo sistemático do viés dos itens
Alemanha. utilizam-se duas aproximações estatísticas. Uma

36 Psicologia Argumento, Curitiba, v. 23, n. 43 p. 35-44, out./dez. 2005.


Breve retrospectiva acerca dos estudos que abordam o viés dos itens de testes psicológicos

delas utiliza um critério externo ao teste e a outra jado para medir essa variável possa ter funciona-
um critério interno, normalmente, as pontuações mento diferencial, isto é, possa favorecer a um gru-
ou escores totais obtidos (Whitmore & Shumacker, po determinado?
1999). De acordo com Osterlind (1979, 1989), o Ercikan (1998) tenta responder a tal indaga-
viés externo é o grau em que as pontuações do ção, recordando-nos que na própria atividade de
teste têm correlações com variavéis irrelevantes para elaboração dos itens, surgem algumas possíveis cau-
sua interpretação e alheias a este. Normalmente, sas ou fontes de viéses, devido, sobretudo, ao:
ao falar do viés externo, se faz referência ao teste • Uso de termos conhecidos por grupos
total e às conseqüências sociais de seu uso; o viés demográficos muito específicos;
interno se refere às propriedades métricas dos itens • Uso de termos que têm distintas signi-
dos testes. As técnicas que o detectam podem con- ficações, segundo o contexto ou características gru-
siderar-se como um tipo particular de análise de pais dos respondentes;
itens, que tentam responder à indagação: itens de • Tamanho e complexidade da senten-
testes padronizados têm o mesmo comportamento ça empregada no enunciado ou nas alternativas.
estatístico para diferentes subgrupos de sujeitos ex-
traídos da mesma população? Logicamente, os estudos que buscam as
Para Martínez Arias (1997), o termo viés causas do DIF, a partir de variáveis demográficas,
interno tem um significado preciso, único, e se con- partem do suposto de que as fontes propostas por
sidera como um erro sistemático no proceso de Ercikan (1998) não estão presentes nos itens ana-
medida; é um termo técnico, sem conotações soci- lisados. No caso de inexistir segurança no cumpri-
ais ou políticas. Os itens são considerados mais ou mento desse suposto, é aconselhável realizar-se
menos difíceis para um grupo particular, compara- algum estudo qualitativo prévio ao estudo do DIF,
tivamente ao rendimento de outros grupos extraí- que esteja baseado na valoração dos itens por ex-
dos da mesma população e com o mesmo nível de pertos na área (Angoff, 1993).
aptidão na variável latente. Os itens do teste se exa- Muñiz (1997) tem a mesma opinião de
minam por diferentes procedimentos ou métodos Ercikan (1998) e Angoff (1993), já que para ele, o
de detecção de viés. O objetivo é observar se con- procedimento mais eficiente para evitar o viés dos
forma-se ou não, um conjunto de regras psicomé- itens é por meio de uma cuidadosa análise do seu
tricas para todas as pessoas de uma população, in- conteúdo, por parte de vários expertos, antes de
dependentemente de que estas pertençam a gru- sua utilização definitiva. Realizada tal revisão e
pos particulares dessa mesma população. aplicados os itens aos sujeitos, ainda assim se de-
O viés dos itens pode ser inserido no vem executar certas análises estatísticas, que per-
contexto da validez de construto dos itens, isto é, mitam identificar o funcionamento diferencial na-
o grau em que um item ou conjunto de itens mede queles itens que “escaparam” da detecção pelo
uma mesma característica ou construto latente. No uso dos procedimentos prévios.
âmbito da Teoria de Resposta ao Item (TRI), a pro- Alguns autores, entre os quais Camilli e
babilidade de que um sujeito responda correta- Shepard (1994), insistem em que os índices esta-
mente a um item se denomina probabilidade de tísticos empregados na análise do DIF, por si mes-
êxito. O viés pode estudar-se comparando as pro- mos, não proporcionam prova de viés, preferindo
babilidades de êxito para diferentes grupos da denominá-los índices de discrepância ou de fun-
mesma população (Angoff, 1993). Desse ponto de cionamento diferencial. Historicamente, o concei-
vista, um item é considerado não enviesado se a to de viés sempre esteve associado ao de DIF, ain-
probabilidade de êxito é a mesma para sujeitos da que ambas as definições sejam distintas (Hidal-
com igual aptidão, independentemente do grupo go Montesinos, López Pina & Sánchez Meca, 1997).
ao qual pertença. Por outro lado, um item envie- Para Cole e Moss (1989), o viés é uma possível
sado será aquele em que as probabilidades de êxito causa do DIF, ou seja, as diferenças observadas no
são diferentes, apesar da igualdade dos sujeitos na funcionamento do item são provocadas por algo
capacidade avaliada. Não obstante, se dois sujei- irrelevante ao propósito do teste.
tos têm a mesma magnitude na variável latente Segundo Camilli e Shepard (1994), o DIF
medida por um item qualquer, poderíamos nos engloba os diferentes procedimentos estatísticos
perguntar a quê se pode dever que um item plane- para a detecção de um possível funcionamento

Psicologia Argumento, Curitiba, v. 23, n. 43 p. 35-44, out./dez. 2005. 37


Wagner Bandeira Andriola

diferencial; insistem em que este não é sinônimo cia da padronização ou uniformização das condi-
de viés, ainda que alguns autores parecem crer ções de aplicação dos instrumentos de medida é
que sim. Os métodos estatísticos de DIF serão uti- um dos supostos mais importantes da avaliação,
lizados para identificar itens que exibem funcio- seja no âmbito psicológico ou educativo (Anasta-
namento diferencial para distintos grupos. Posteri- si, 1988; Pasquali, 2000). Para tanto, psicólogos e
ormente, depois de uma análise lógica ou experi- pedagogos tratam de uniformizar as tarefas ou itens,
mental, no contexto da validez de construto dos as instruções, o tempo destinado à resolução das
itens, se determinará quais deles estão enviesa- tarefas contidas nos instrumentos, a maneira de
dos, para que sejam eliminados do teste ou do corrigir as respostas dos respondentes, as condi-
banco de itens (Andriola, 1998). ções de luminosidade, som e a própria atividade
Em outras palavras, os métodos DIF são de aplicação dos instrumentos de medida, etc.
procedimentos estatísticos e as análises de viés se (Martínez Arias, 1997). Devemos ter claro que a
situam no contexto mais geral da validade de cons- presença de DIF num teste é um fator que torna o
truto, ainda que neste último se usem os resulta- processo avaliativo injusto.
dos obtidos com a aplicação do primeiro. Como Para compreendermos essa última afirma-
assinalam Camili e Shepard (1994) e Melenbergh ção, deveremos conhecer o conceito de DIF. É
(1989), os índices DIF às vezes produzem resulta- possível dizer, no âmbito da TRI, que o item não
dos estatisticamente significativos na ausência de tem DIF, quando a curva característica do item (CCI)
viés, e às vezes não detectam o viés quando este é idêntica para os grupos comparados em um
se encontra presente em muitos itens, dada a cir- mesmo nível ou magnitude da variável latente
cularidade do critério interno que utilizam. medida pelo item (Lord, 1980; Melenbergh, 1989).
Em linguagem matemática, poderíamos dizer que
o item não tem DIF com respeito à variável G (gru-
Definição do termo Funcionamento po) dado Z (nível de θ) se, e somente se, F (X g,
Diferencial do Item (DIF) z) = F (X  z), onde:

• X é a pontuação no item;
Com o recente surgimento do paradigma
• g é o valor obtido segundo a variável G;
psicométrico denominado Teoria da Resposta ao
• z é o valor obtido segundo a variável Z.
Item (TRI), novas áreas de investigação têm proli-
ferado (Andriola, 1998; Hambleton, 1989, 1990).
Nesse contexto, os valores esperados (E)
Como opina Hambleton (1997), uma delas tem seu
são dados por E (X | g,θ) = E (X θ) para todo g
foco dirigido ao estudo do Funcionamento Dife-
e θ. No caso de itens dicotômicos, os valores
rencial do Item (DIF), que caracteriza um dos mais
esperados são as probabilidades de acerto ao
graves problemas presentes nas atividades de ava-
item, que podem ser expressas nos seguintes
liação educacional e psicológica, já que se trata de
termos:
um fenômeno observado em muitos dos itens uti-
P (X = 1  g, θ) = P(X = 1 θ) para todo
lizados em testes de rendimento e psicológicos.
g e θ. No segundo caso [P(X = 1 θ)], a equação
As investigações para a detecção do DIF
expressa, em realidade, a curva característica do
têm por base uma mesma argumentação: a exis-
item (CCI).
tência do DIF é um fator que influencia a validez
Geralmente, os estudos para a determi-
da interpretação, que é realizada a partir da pon-
nação do DIF utilizam dois grupos, denominados
tuação obtida pelo sujeito num item ou teste (An-
de referência (GR) e focal (GF). Como já enfatiza-
driola, 2002). Não podemos esquecer que sobre a
mos, em termos da TRI, um item tem DIF se para
interpretação da pontuação, seja no âmbito psico-
valores iguais de q não correspondem valores iguais
lógico ou educativo, reside toda a credibilidade e
de P(θ) nas CCI’s dos grupos considerados, isto é,
reputação da investigação e da avaliação (Dow-
quando TjGR(θ) ≠ TjGF(θ), onde:
ning & Haladyna, 1997). Assim, está plenamente
• T jGR é a pontuação verdadeira do
justificada a relevância das pesquisas que estudam
sujeito j pertencente ao grupo de referência
o DIF, sobretudo, aquelas que buscam identificar
e que possui uma certa magnitude na variá-
suas causas (Andriola, 2000).
vel latente θ;
Nesse âmbito, a necessidade e a relevân-

38 Psicologia Argumento, Curitiba, v. 23, n. 43 p. 35-44, out./dez. 2005.


Breve retrospectiva acerca dos estudos que abordam o viés dos itens de testes psicológicos

• TjGF é a pontuação verdadeira do su- de competência na variável medida θ não corres-


jeito j pertencente ao grupo focal e que possui pondem probabilidades iguais de superar o item.
uma certa magnitude na variável latente θ. Neste caso, o item está enviesado contra os ho-
De acordo com Oshima, Raju, Flowers e mens (GR), pois os valores P(θ) para um mesmo
Slinde (1998), devemos ter em conta que a pontu- nível θ são sempre maiores para as mulheres (GF).
ação verdadeira em um teste unidimensional, com- Por exemplo, para θ = 1,4 temos valores aproxi-
posto por k itens, é expressada pela fórmula: mados de P(θ) = 0,75 para os homens e P(θ) =
0,80 para as mulheres.
K
Como conseqüência de resultados dessa
TS = ∑ P (θ
i =1
i S ) natureza, Douglas, Roussos e Stout (1996) propu-
seram os conceitos de DIF benigno e DIF adverso.
No caso do DIF beneficiar o grupo de referência,
Onde: isto é, quando TjGR(θ) >TjGF(θ), caracteriza-se a exis-
tência de DIF benigno. O DIF adverso ocorre no
• Pi(θs) é a probabilidade de acertar ao caso do DIF beneficiar o grupo focal, ou seja, quan-
item i pelo sujeito s com a habilidade θs. do TjGR(θ) < TjGF(θ). No exemplo da figura 1, temos
Segundo Mazor, Hambleton e Clauser um caso de DIF adverso. Utilizando o mesmo item,
(1998), o uso do número de respostas corretas para aclaremos o que ocorre na ausência de DIF, ob-
a determinação do DIF, isto é, a pontuação verda- servando a figura 2.2
deira no teste ou item, só é aceitável no caso do
teste ser unidimensional e, ademais, se as respos- Figura 2. Relação entre habilidade,
tas forem dicotômicas. item e grupo na ausência de DIF.
Para visualizar o DIF de um hipotético
item, apresentamos, a seguir, a figura 1.

Figura 1. Representação das CCI’s de Habilidade


Habilidade
um item com DIF.

1
0,9
0,8
Ítem
Item Grupo
Probabilidade de acerto

0,7
0,6
0,5
0,4
A elipse indica a habilidade ou construto
0,3 latente, que tem relação causal com o item. Grupo
0,2 e variável latente estão associados. Em outras pa-
0,1 lavras e a título de exemplificação, poderíamos
0 dizer que as mulheres têm elevada habilidade na
-3,0 -2,6 -2,1 -1,7 -1,2 -0,8 -0,3 0,1 0,6 1,0 1,5 1,9 2,4 2,8
Theta
variável latente e que esta variável tem relação
causal com o item, isto é, o grupo com maior ca-
Legenda: Linha superior: CCI das mulheres; Linha inferior: CCI dos
pacidade na variável latente æ as mulheres æ têm
homens. mais respostas corretas no item. Neste caso, o ren-
dimento no item depende, exclusivamente, da
magnitude da variável latente que os indivíduos
Observamos que, para uma mesma mag- tenham, ou seja, trata-se de um item sem DIF. Ago-
nitude θ, o valor P(θ) é sempre superior para as ra, observemos o que ocorre no caso de um item
mulheres (curva superior), ou seja, em níveis iguais com DIF, observando a figura 3.3

2
Adaptado de ANDRIOLA (2002).
3
Adaptado de ANDRIOLA (2002).

Psicologia Argumento, Curitiba, v. 23, n. 43 p. 35-44, out./dez. 2005. 39


Wagner Bandeira Andriola

Figura 3. Relação entre habilidade, ídos itens para avaliar a capacidade de raciocínio
item e grupo na presença de DIF. verbal em alunos de escolas públicas e privadas.
Ocorre que os alunos desses tipos de escolas são,
geralmente, oriundos de classes sociais distintas,
com diferentes bagagens culturais, sociais, econô-
micas, etc. (Andriola, 1997 a). Todos esses aspec-
Habilidade
Habilidade tos contribuem para que um tipo de aluno tenha o
vocabulário mais rico que o outro. Como o racio-
cínio verbal é medido pelos itens que utilizam
palavras, muito provavelmente aquele tipo de alu-
no que conheça melhor o vocabulário utilizado
nos itens terá uma clara vantagem na resolução
Ítem
Item Grupo destes mesmos itens (Andriola & Pasquali, 1995).
Em síntese, argumentamos que, dada a
grande variabilidade de todos esses anteceden-
No caso da figura 3, temos a mesma situ- tes históricos dos sujeitos implicados na avalia-
ação descrita na figura 2, adicionado do fato de ção do raciocínio verbal, se o item ou teste, em
haver associação ou interação entre grupo e item. geral, se apóia mais nos antecedentes de uma
Neste segundo caso, a associação entre ambas pode cultura que nos da outra, terá altíssima probabi-
favorecer o rendimento superior de um grupo so- lidade de não ser eqüitativo, de estar enviesado.
bre o outro devido, sobretudo, a algumas caracte- Em outras palavras, se confunde o efeito da ca-
rísticas demográficas específicas tais como: gêne- pacidade de raciocínio verbal (construto princi-
ro, raça, background educativo, origem social, etc. pal) com o conhecimento vocabular (construto
(Clauser, Nungester & Swaminathan, 1996). Deve secundário), isto é, se um aluno pontua baixo
ser mencionado que, neste caso, supõe-se que a no teste não saberemos, ao certo, se devemos
magnitude da variável latente está sendo controla- atribuí-lo a sua baixa capacidade de raciocínio
da, ou seja, os sujeitos são comparados com res- verbal ou ao seu baixo conhecimento vocabu-
peito ao seu rendimento, considerando-se que lar. Como nos fala Muñiz (1997), a casuística é
possuem a mesma aptidão. Este segundo exemplo interminável e se pode dizer que não existem
caracteriza o caso em que o rendimento no item provas inteiramente isentas de viés. Trata-se,
não depende somente da magnitude que os indi- assim, de detectar a quantidade de viés que pode
víduos tenham na variável latente, senão que tam- ser aceitável em um teste ou item.
bém depende das características do grupo, ou seja, Finalmente, deve ser mencionado que,
trata-se de um item com DIF. Em nosso exemplo, nesse contexto, a importância dos estudos que
a característica do grupo que afeta o rendimento objetivam a verificação do DIF está plenamente
diferencial no item é o fato do sujeito ser homem justificada. Cabe ao avaliador verificar se em seu
ou mulher, isto é, trata-se de uma característica de teste existem itens com DIF, para que (i) possa
natureza demográfica, que afeta sistematicamente buscar as causas que o expliquem, (ii) evitar sua
as respostas dos sujeitos de mesma habilidade. utilização com o grupo em desvantagem e, final-
Portanto, é necessário reconhecer que a mente, (iii) controlar os fatores responsáveis pelo
presença de DIF ocasiona sérias implicações ao DIF para evitar, desse modo, construir novos itens
processo de avaliação, já que pode privilegiar um com o mesmo viés (Hambleton, 1989; Mislevy,
determinado grupo em detrimento de outro (Dou- 1996).
glas, Roussos & Stout, 1996), conforme observa- Anteriormente, destacamos o intensivo
mos no exemplo comparativo do rendimento dos uso de testes no contexto norte-americano. Per-
homens e mulheres. Muñiz (1997) chama a aten- manece, ainda hoje, a importância desses instru-
ção para o fato de que tal problema pode ter re- mentos, sobretudo na área que investiga o Funci-
percussões sociais mais graves se é, precisamente, onamento Diferencial do Item (DIF). Para termos
a cultura dominante que elabora os itens, para noção dessa relevância, apresentamos parte do
avaliar os demais sujeitos oriundos de outras cul- discurso proferido por Ree (1993), no renomado
turas. Por exemplo, suponhamos que são constru- Educational Testing Service (ETS):

40 Psicologia Argumento, Curitiba, v. 23, n. 43 p. 35-44, out./dez. 2005.


Breve retrospectiva acerca dos estudos que abordam o viés dos itens de testes psicológicos

The American military is a unique position a detecção do DIF foram desenvolvidos com base
because we develop and use our own tests. This nos vários tipos de DIF (Bock, 1993). O mais co-
year, more than two million young men and nhecido é denominado DIF uniforme ou consis-
women will be tested for enlistment qualifica- tente, e é observado quando as CCI’s do item estu-
tion and additional hundreds of thousands dado para o GR e do GF são diferentes, mas não
of tests will be administered by the service for
se cruzam, isto é, são paralelas. Em outras pala-
promotion and certification purposes. These
tests will material affect the lives of these mili-
vras, quando existe uma vantagem relativa para
tary members and the security of our country. um dos grupos estudados, cujo valor é constante
[...] For the Air Force, which produces both ao largo do contínuo da habilidade. Este caso ocorre
enlisted and officer tests, certain models of DIF quando o parâmetro a não tem o mesmo valor
detection have become an integral part of the nas duas CCI’s, isto é, quando são paralelas, con-
test production and evaluation procedure. forme está representado na figura 4.
Additionally, content and construct validati-
on of our many tests benefit from DIF analy- Figura 4. Representação de um item
ses (pp. xi-xii)4 .
com DIF uniforme.
Obviamente, o estudo do Funcionamen-
to Diferencial do Item (DIF) também é relevante 1
0,9
no campo da avaliação educacional, pois como

Probabilidade de acerto
0,8
destacam Hartle e Bataglia (1993): 0,7
0,6
The low test scores of minorities and women 0,5

are a particular problem for federal policy- 0,4


0,3
makers. Most federal education programs are
0,2
designed to increase educational opportuniti- 0,1
es for disadvantaged groups. [...] On the other 0
hand, it is also likely to increase interest in -3,0 -2,6 -2,1 -1,7 -1,2 -0,8 -0,3 0,1 0,6 1,0 1,5 1,9 2,4 2,8
new assessment techniques that do not have a Theta
disproportionate racial impact (pág. 305).5
A figura 4 ilustra o caso de diferenças nos
Apresentamos, agora, os dois tipos de parâmetros b e c para os dois grupos estudados.
Funcionamento Diferencial do Item (DIF) obser- Observamos que a CCI do grupo focal está situada
vados no âmbito da Teoria da Resposta ao Item mais a esquerda que a do grupo de referência, o
(TRI). que indica que o item é mais fácil para o grupo
focal, já que PGF(q) > PGR(q) Ω q. Essa diferença
Descrição dos Tipos de DIF no Âmbito supõe que o item tem DIF.
da TRI O segundo tipo de DIF é denominado
Enfatizamos que, no contexto da TRI, a DIF não uniforme ou inconsistente, e se observa
lógica para a detecção do DIF consiste em compa- quando as CCI’s do item estudado com respeito
rar as CCI’s dos itens, considerando os grupos de aos grupos de referência e focal são diferentes e,
referência (GR) e focal (GF), através da utilização ademais, se cruzam em algum ponto do contínuo
de métodos apropriados. Os distintos métodos para da habilidade, isto é, não são paralelas. Em outras

4
Nós, militares americanos, temos uma mesma opinião porque desenvolvemos e utilizamos nossos próprios testes. Este ano,
mais de 2 milhões de jovens serão testados no processo de seleção e milhares de testes serão utilizados pelo serviço de
promoção e certificação dos resultados. Estes testes afetam a vida desses militares e a segurança do nosso país. [...] Para a
Aeronáutica, que seleciona os alistados e funcionários, o uso dos modelos de detecção do DIF é conveniente ao processo de
produção e avaliação. Ademais, os benefícios da validação de conteúdo e construto de muitos de nossos testes resultam da
análise do DIF.
5
Os baixos resultados obtidos pelas minorias e mulheres são um grave problema para as políticas públicas nacionais. Muitos
programas nacionais são propostos para incrementar as oportunidades educativas para os grupos em desvantagem. [...] Por
outro lado, também é necessário incrementar o interesse por novas técnicas de avaliação que não causem um desproporciona-
do impacto racial.

Psicologia Argumento, Curitiba, v. 23, n. 43 p. 35-44, out./dez. 2005. 41


Wagner Bandeira Andriola

palavras, existe uma vantagem relativa para um than (1996), o objetivo do investigador, que utiliza
dos grupos investigados, cujo valor é variável ao as distintas técnicas para a detecção do DIF, é ten-
largo de toda a habilidade. Esse caso ocorre quan- tar saber quais são as razões (psicológicas, educa-
do os parâmetros a, b ou c têm valores distintos cionais, culturais, sociais, atitudinais, etc.) que, teo-
nas duas CCI’s, ou seja, quando não são paralelas. ricamente, acarretam o funcionamento diferencial
Esse tipo de DIF está representado na figura 5. do item.

Figura 5. Representação de um item


com DIF não uniforme. À guisa de conclusão

1,0 Destacamos ser bastante comum o fato


0,9
de itens componentes de testes possuírem algum
0,8
tipo de viés, dentre os quais o DIF. Como enfatiza-
Probabilidade de acerto

0,7
mos anteriormente, o DIF ocasiona sérios proble-
0,6

0,5
mas às avaliações educacionais. Trata-se de um
0,4
fator de injustiça para alguns grupos de respon-
0,3 dentes, já que os alunos que possuem o mesmo
0,2 grau de aprendizagem e que provêm de distintos
0,1 grupos demográficos têm distintas probabilidades
0,0
-3,0 -2,6 -2,1 -1,7 -1,2 -0,8 -0,3 0,1 0,6 1,0 1,5 1,9 2,4 2,8
de acertar um mesmo item. Portanto, devemos re-
Theta conhecer a relevância das investigações acerca do
DIF, já que podem proporcionar maior eqüidade
aos processos de avaliação educacional, pela iden-
É necessário dizer que neste segundo tipo tificação e não utilização de itens com algum tipo
de DIF é inapropriado examinar globalmente os de DIF. Por fim, devemos enfatizar a opinião de
dados, porque tal procedimento poderia ocultar Andriola (2002):
sua presença, pois a peculiar variabilidade do DIF,
que se verifica em distintas zonas da variável la- (...) los estudios para detectar el DIF – me-
tente, pode cancelar total ou parcialmente sua de- zclando procedimientos cualitativos y cuan-
tecção (Martínez Arias, 1997). É o caso de não se titativos - deben ser efectuados inmediatamen-
utilizar, por exemplo, o procedimento denomina- te después de la elaboración de los ítems que
do Differential Bundles Functioning (DBF), que compondrán dichos instrumentos de medida
estuda o DIF dos itens a partir de sua organização (pág. 554).
em subconjuntos (bundles) com características
comuns (Douglas, Roussos & Stout, 1996). Ademais, é preciso fazer menção ao fato
Autores como Cohen, Kim e Baker (1993) de que a área de investigação do DIF, no âmbito
distinguem diferentes pesquisas sobre o DIF, se- educativo e psicológico, é recente, necessitando
gundo os objetivos pretendidos, isto é, pode-se de boas hipóteses, fundamentadas em teorias ci-
falar de estudos para a detecção do DIF e outros entíficas, que tentem “abrir novas perspectivas” aos
para a descrição do impacto do DIF. No primeiro estudos do DIF (Cole, 1993; Hambleton, 1997;
grupo, estão as investigações que empregam al- Roznowski & Reith, 1999; Scheuneman & Gerritz,
gum método tradicional para a identificação do 1990). Como opina Bond (1993): In general, ho-
DIF. Nesse caso, os estudos objetivam somente wewer, theories about why items behave differenti-
detectar o DIF, ou seja, determinar a possível dife- ally across groups can be described only as primi-
rença entre as curvas características dos itens (CCI’s) tive (pág. 278)6 .
de acordo com os grupos comparados. No segun- Schmitt, Holland e Dorans (1993) acredi-
do grupo, estão as investigações realizadas com o tam que a área que investiga o DIF não tem pro-
objetivo de identificar as causas do DIF. Nesse gredido no grau desejado em virtude de três fato-
âmbito, segundo Clauser, Nungester e Swamina- res:
6
De um modo geral, teorias acerca do porquê os itens funcionam diferentemente para certos grupos podem ser descritas como
primitivas.

42 Psicologia Argumento, Curitiba, v. 23, n. 43 p. 35-44, out./dez. 2005.


Breve retrospectiva acerca dos estudos que abordam o viés dos itens de testes psicológicos

• Porque as investigações acerca do DIF Também os psicometristas que começam a organizar


são relativamente recentes e, atualmente, a ênfase está bancos de itens necessitam verificar a presença de
no desenvolvimento de métodos estatísticos para sua DIF e, assim, evitar utilizá-los em processos avaliati-
identificação. Por exemplo, as modernas técnicas para vos (Andriola, 1998).
a detecção do funcionamento diferencial das alter- Para finalizar, mencionaremos célebre frase
nativas (DAF) têm o mesmo objetivo das técnicas DIF, latina que é muito sugestiva e sintetiza, na nossa opi-
isto é, compreender as causas da escolha diferenciada nião, a importância dos estudos acerca do DIF no
das alternativas de um item por sujeitos que têm o âmbito da avaliação psicológica e educacional: sátius
mesmo nível de habilidade, mas fazem parte de dis- est inítio medéri, quam fini (é melhor remediar no
tintos grupos demográficos (Thissen, Steinberg & Wai- princípio do que no fim).
ner, 1993; Thissen, Steinberg & Fitzpatrick, 1989);
• Porque a identificação do DIF e os fato-
res a ele relacionados necessitam boas teorias sobre a Referências
dificuldade diferencial dos itens, em um campo no
qual as teorias sobre os processos cognitivos presen- Andriola, W. B. (1997). Avaliação do raciocínio verbal
tes na resolução dos itens não se encontram, todavia, em estudantes do 2o grau. Estudos de Psicologia ,
minimamente avançadas; v.2, n.2, p. 277-285.
• Porque a identificação e descrição dos
Andriola, W. B. (1998). Utilização da teoria de respos-
citados processos cognitivos é muito complexa, já que ta ao item (TRI) para a organização de um banco de
intervêm múltiplos fatores. Ademais, é um campo de itens destinados à avaliação do raciocínio verbal. Psi-
investigação que exige o trabalho multidisciplinar de cologia: Reflexão e Crítica, v.11, n.2, p. 295-308.
psicólogos, pedagogos e matemáticos, algo extrema-
mente difícil no estágio atual de desenvolvimento in- Andriola, W. B. (2000). Funcionamento Diferencial do
vestigativo brasileiro. Item (DIF): estudo com analogias para medir o racio-
cínio verbal. Psicologia: Reflexão e Crítica, v.13, n.3,
Devemos dizer que o processo de criação
p. 473-481.
de boas hipóteses explicativas do DIF deverá, logica-
mente, ser árduo, difícil e frustrante. As hipóteses de- Andriola, W. B. Detección del funcionamiento di-
verão sofrer corroborações e rejeições, algo bastante ferencial del ítem (DIF) en tests de rendimiento.
comum à atividade científica (Wilson, 1999). Assim, Aportaciones teóricas y metodológicas. Madrid,
verificamos que apesar de existir grande variedade de 2002. Tese de Doutorado. Universidad Complutense
métodos para investigar o DIF, os mesmos padecem de Madrid, Madrid.
limitações. Autores mais críticos aconselham comple- Andriola, W. B. & Pasquali, L. (1995). A construção de
mentar as análises estatísticas obtidas pelo uso de mais um Teste de Raciocínio Verbal (RV). Psicologia: Re-
de um procedimento de detecção do DIF, com a opi- flexão e Crítica, v.8, n.1, p. 51-72.
nião de especialistas na área e, assim, aumentar a va- Allen, N. L. & Wainer, H. (1989). Nonresponse in
lidez dos resultados. Declared Ethnicity and the Identification of Di-
Ademais, devemos ter claro que a presença fferential Functioning Items. Technical Reports
do DIF em itens de instrumentos de medida psicoló- Nº 89-89. New Jersey: Educational Testing Service
gica e pedagógica é um grave problema que atenta (ETS).
contra o suposto da padronização ou uniformização
Angoff, W. H. (1993). Perspectives on Differential Item
das condições de avaliação. É uma fonte de injustiça,
Functioning. In P. W. Holland & H. Wainer (Ed.), Di-
já que produz falta de eqüidade aos processos avalia- fferential Item Functioning (pp. 3-23). New Jersey:
tivos; permite aos sujeitos que possuem mesmo grau Lawrence Erlbaum Associates.
na variável latente ou construto medido pelo item obter
melhores resultados, já que esses têm maiores proba- Anastasi, A. (1988). Psychological Testing. New York:
bilidades de acertá-lo. MacMillan.
Nesse âmbito, caberá aos responsáveis pela Bock, R. D. (1993). Different DIF’s: Comment on the
construção, administração e comercialização de testes Papers Read by Neil Dorans and David Thissen. In P.
psicológicos e pedagógicos verificar a presença de W. Holland & H. Wainer (Ed.), Differential Item
itens com DIF em seus instrumentos, já que a sua Functioning (pp. 115-122). New Jersey: Lawrence
existência é um fator de invalidação dos resultados. Erlbaum Associates.

Psicologia Argumento, Curitiba, v. 23, n. 43 p. 35-44, out./dez. 2005. 43


Wagner Bandeira Andriola

Camilli, G. & Shepard, L. A. (1994). MMSS. Methods Martínez Arias, R.(1997). Psicometría. Teoría de los
for Identifying Biased Test Items. California: SAGE Tests Psicológicos y Educativos. Madrid: Ediciones
Publications. Síntesis.
Clauser, B. E., Nungester, R. J. & Swaminathan, H. Mellenbergh, G. J. (1989). Item bias and item respon-
(1996). Improving the matching for DIF analysis by se theory. International Journal of Educational
conditioning on both test score and an educational Research, v.13, n.2, p. 127-143.
background variable. Journal of Educational Mea-
surement, v.33, n. 4, p. 453-464. Muñiz, J. (1997). Introducción a la Teoría de Res-
puesta a los Ítems. Madrid: Ediciones Psicología Pi-
Cohen, A. S., Kim, S. & Baker, F. B. (1993). Detection rámide.
of differential item functioning in the graded response
model. Applied Psychological Measurement, v.17, Muñiz, J. (1994). Teoría Clásica de los Tests. Madrid:
n.4, p. 335-350. Ediciones Pirámide S.A..

Cole, N. S. (1993). History and Development of DIF. Osterlind, S. J. (1979). Test item bias. Beverly Hills:
In P. W. Holland & H. Wainer (Ed.), Differential Item Sage Publications.
Functioning (pp. 25-29). New Jersey: Lawrence Erl- Osterlind, S. J. (1989). Constructing test items. Bos-
baum Associates. ton: Kluwe r Publications.
Douglas, J. A., Roussos, L. A. & Stout, W. (1996). Item- Pasquali, L. (2000). Psicometria: Teoria dos Testes
Bundle DIF hypothesis testing: identifying suspect Psicológicos. Brasília: Prática Gráfica e Editora Ltda.
bundles and assessing their differential functioning.
Journal of Educational Measurement, v.33, n.4, p. Ree, M. J. (1993). Foreword: Differential Item Functio-
465-484. ning (DIF): A perspective from the Air Force Human
Resources Laboratory. In P. W. Holland & H. Wainer
Ercikan, K. (1998). Translation effects in international (Ed.), Differential Item Functioning (pp. xi-xii). New
assessments. International Journal of Educational Jersey: Lawrence Erlbaum Associates.
Research, 29, 543-553.
Roznowski, M. & Reith, J. (1999). Examining the mea-
Hambleton, R. K. (1997). Perspectivas futuras y aplica- surement quality of tests containing differentially func-
ciones. In J. Muñiz, Introducción a la Teoría de tioning items: Do biased items result in poor measure-
Respuesta a los Ítems (pp. 203-213). Madrid: Edicio- ment? Educational and Psychological Measure-
nes Psicología Pirámide. ment, v.52, n.2, p. 248-269.
Hambleton, R. K. (1990). Item response theory: introduc- Scheuneman, J. D. & Gerritz, K. (1990). Using diffe-
tion and bibliography. Psicothema, v.II, n.1, p. 97-107. rential item functioning procedures to explore sour-
Hambleton, R. K. (1989). Principles and selected ap- ces of item difficulty and group performance charac-
plications of item response theory (pp. 147-200). In R. teristics. Journal of Educational Measurement, v.
L. Linn (Ed.), Educational Measurement. New York: 27, n.2, p.109-131.
MacMilan. Schmitt, A. P., Holland, P. W. & Dorans, N. J. (1993).
Hambleton, R. K., Swaminathan, H. & Rogers, H. J. Evaluating Hyphoteses about Differential Item Functi-
(1991). Fundamentals of Item Response Theory. oning. In P. W. Holland & H. Wainer (Ed.), Differen-
North Caroline: Sage Publications. tial Item Functioning (pp. 281-319). New Jersey:
Lawrence Erlbaum Associates.
Hartle, T. W. & Battaglia, P. A. (1993). The Federal
Role in standardized Testing. In R. E. Bennett & W. C. Whitmore, M. L. & Shumacker, R. E. (1999). A compa-
Ward (Org.), Construction versus Multiple Choice rison of logistic regresion and analysis de variance di-
Items in Cognitive Measurement (pp. 291-311). fferential item functioning detection methods. Educa-
New Jersey: Lawrence Erlbaum Associates. tional and Psychological Measurement, v.59, n.6,
p. 910-927.
Linn, R. L. & Harnisch, D. L. (1981). Interactions be-
tween item content and group membership on achie- Wilson, E. O. (1999). Consilience. La Unidad del
vement test items. Journal of Educational Measu- Conocimiento. Barcelona: Ediciones Galaxia Gutem-
rement, 18, p.109-118. berg.

Lord, F. M. (1980). Applications of Item Response Recebido em/ received in: 07/07/2005
Theory to Practical Testing Problems. New Jersey: Aprovado em/ approved in: 19/09/2005
Lawrence Erlbaum Associates.

44 Psicologia Argumento, Curitiba, v. 23, n. 43 p. 35-44, out./dez. 2005.