Você está na página 1de 12

Avaliação Psicológica, 2003, (2)2, pp.

99-110 99

Fundamentos da Teoria da Resposta ao Item –TRI


Basic Theory of Item Response Theory – IRT

Luiz Pasquali
Universidade de Brasília
Ricardo Primi
Universidade de São Francisco

Resumo
O artigo apresenta o histórico e a lógica básica da nova teoria em psicometria, a teoria de resposta ao item,
abreviadamente a TRI. A teoria tem suas origens nos anos 1930, mas foi axiomatizada nos anos 1960, tomando
conta de grande parte da psicometria nos anos 1980. A TRI constitui uma teoria dentro das teorias da modelagem
latente que surgiram nos anos 1930. Estas teorias postulam que o comportamento humano é conseqüência de
processos hipotéticos chamados de traços latentes. A TRI assume este modelo e expressa a relação entre os
comportamentos (chamadas variáveis observáveis) e os traços latentes (as variáveis hipotéticas) através uma
equação matemática chamada de equação logística. Esta produz uma curva ou ogiva conhecida como a curva
característica do item, a CCI. A CCI define os parâmetros dos comportamentos, ditos itens (dificuldade, discrimi-
nação) em função do tamanho do traço latente, expresso como teta (q). Discutem-se também as vantagens que a TRI
apresenta frente à teoria tradicional em psicometria, a Teoria Clássica dos Testes (TCT).
Palavras chave: Teoria de resposta ao item, TRI, psicometria.

Abstract
The paper offers a historical view and the basic rationale of the modern theory in psychometrics: item response
theory (IRT). This theory has its roots in the 1930, but it was fully developed only in the 1950’s, and became the
standard theory in psychometrics in the 1980’s. The IRT is one of the latent trait modeling theories that appeared
in the 1930’s. Latent trait modeling theories assume that the human behavior, called observable variables, is
dependent and caused by latent traits, the hypothetical variables. The IRT assume this modeling and expresses the
relationship between these two types of variables through a mathematical equation called the logistic equation.
This equation produces a curve called the item characteristic curve (ICC). This curve defines the items parameters
(difficulty, discrimination) in terms of the level of the latent trait, symbolized as theta (q). The paper also
discusses the advantages that IRT offers over the traditional theory in psychometrics, that is, the classical
theory of tests (CTT).
Key words: Item response theory, IRT, psychometrics.

Fundamentos da ves problemas da medida em Psicologia. Um dos


problemas a que nos referimos já vinha sendo frus-
Teoria da Resposta ao Item –TRI
trantemente assinalado por Thurstone antes mesmo
No contexto teórico da Psicometria, era inevi- dos anos 30. Dizia Thurstone (1928/1959, p. 547):
tável que alguma teoria alternativa à teoria clássica “Um instrumento de medida, na sua função de
dos testes (TCT) surgisse para resolver alguns gra- medir, não pode ser seriamente afetado pelo ob-
jeto de medida. Na extensão em que sua fun-
ção de medir for assim afetada, a validade do
instrumento é prejudicada ou limitada. Se um
Correspondência deve ser encaminhada aos autores através dos
e-mails: labpam@unb.br ou rprimi@mpc.com.br
metro mede diferentemente pelo fato de estar
100 Luiz Pasquali & Ricardo Primi

medindo um tapete, uma pintura ou um pedaço resposta está no fato de que a solução dada ao pro-
de papel, então nesta mesma extensão a confi- blema da independência do instrumento de medida
ança neste metro como instrumento de medida em relação ao objeto de medida que a Teoria da
é prejudicada. Dentro dos limites de objetos para Resposta ao Item propôs apresentava algoritmos
os quais o instrumento de medida foi produzido, matemáticos de tal complexidade que a tecnologia
sua função deve ser independente da medida computacional da época era incapaz de resolver de
do objeto”. uma maneira útil e prática. Com o avanço da
A Psicometria, hoje em dia chamada de clássi- tecnologia da informática (microcomputadores) e da
ca (Teoria Clássica dos Testes – TCT), estava bas- disponibilidade de softwares apropriados, este pro-
tante bem axiomatizada já nos anos 50, sobretudo blema foi solucionado e a TRI entrou em moda. Ali-
com os trabalhos de Guilford (1936/1954) e Gulliksen ás, o primeiro software para as análises da TRI sur-
(1950). Ela, contudo, continha o grave problema que giu somente em 1979 com o BICAL de Wright, Mead
Thurstone menciona acima, isto é, o instrumento e Bell, seguidos depois pelo LOGIST (Wingersky,
construído dependia intrinsecamente do objeto me- Barton, & Lord, 1982) e pelo BILOG (Mislevy &
dido. De fato, os testes psicológicos elaborados den- Bock, 1984).
tro da Psicometria Clássica são dependentes dos itens
que os compõem (test-dependent). Assim, por exem- Problemas da Psicometria Clássica
plo, ao se querer medir a inteligência de um sujeito, o Além do grave problema mencionado na intro-
resultado vai depender muito do instrumento utiliza- dução deste capítulo, outros problemas são salienta-
do, obviamente um instrumento que mede inteligên- dos contra a Psicometria Clássica. Um deles afirma
cia. Se utilizar, digamos, as Matrizes Progressivas que os parâmetros dos itens de um teste dependem
de Raven (SPM), obtenho um resultado; se utilizar o da amostra de sujeitos em que eles foram calcula-
Wechsler Adult Intelligence Scales (WAIS), obte- dos. Assim, um item qualquer se torna mais difícil ou
nho outro. Qual dos dois resultados é o correto? A mais fácil dependendo da amostra ser composta de
resposta fica ligada ao instrumento utilizado, de tal sujeitos mais inteligentes ou menos inteligentes. Desta
forma que o objeto medido, a inteligência no caso, forma, o parâmetro de dificuldade do item vai vari-
afeta diretamente o instrumento utilizado; aliás, ela é ar de pesquisa para pesquisa em função da amostra
definida pelo instrumento utilizado. Você talvez se de sujeitos; isto é, este parâmetro é dependente dos
lembra como Binet (Binet & Simon,1908) definiu a sujeitos utilizados na pesquisa (subject-dependent).
inteligência: Inteligência é o que o meu teste mede! Esta crítica é válida, mas ela se refere mais a um
Seria como dizer em Física que o comprimento do problema de amostragem e não tanto da análise que
objeto é o que o metro mede ou a massa o que a se faz da dificuldade do item em termos de número
balança mede. de acertos. Se a mostra for aleatória e representati-
Embora Thurstone tenha percebido aguça- va, este problema não existe na Psicometria Clássi-
damente este problema da medida em Psicologia, ele ca. No entanto, uma grande vantagem da TRI é que
não conseguiu encontrar uma solução para o mes- mesmo em amostras não representativas os
mo. Foi somente após os anos 50 que os psicometristas parâmetros poderão ser estimados corretamente
começaram a descobrir a solução para o problema, (Embretson & Reise, 2000).
baseados na teoria do traço latente de Lazersfeld Um problema mais grave ocorre com o cálculo
(1959) e nos trabalhos de Lord (1952) e do dinamar- do parâmetro de discriminação do item. Esta aná-
quês Rasch (1960), os quais se tornaram as bases lise, dentro da Psicometria Clássica, é feita baseada
da moderna Teoria da Resposta ao Item - TRI (Item no escore total de um teste, seja utilizando grupos-
Response Theory - IRT), inclusive conhecida como critério ou coeficientes de correlação (Pasquali,
a Teoria do Traço Latente, esboçada por Lord em 1996). Tal procedimento incorre numa incongruên-
1952 e finalmente axiomatizada por Birnbaum em cia lógica, pois a discriminação de cada item é testa-
1968 e por Lord em 1980. da contra o escore total que é constituído por todos
O que pode parecer estranho nesta história é o os itens do teste, inclusive o item que se está anali-
fato de que o problema levantado por Thurstone te- sando. Isto supõe que os outros itens, pelo menos,
nha sido detectado já nos anos 30 e que a resposta já sejam adequados. Mas se o são, então por que se
tinha sido dada nos anos 60. Por que então a nova fazer a análise? E se não o são, então a análise está
teoria somente veio a ser utilizada nos anos 80? A simplesmente falha, errada.

Avaliação Psicológica, 2(2), 2003, pp. 99-110


A Teoria da Resposta ao Item 101

Outro problema grave na Psicometria Clássica A Teoria da Resposta ao Item


se situa no cálculo da fidedignidade de um teste.
Esta é definida comumente em termos de formas Um pouco de história
paralelas de um teste. Estas formas precisam ser Como já assinalamos, a TRI foi sendo elaborada
estritamente paralelas, isto é, elas precisam produzir aos poucos desde os anos 50 por vários autores, em-
um escore verdadeiro idêntico e variâncias também bora suas raízes remontem há mais de uma década
iguais. Obviamente, a obtenção de formas assim anterior. Entre estes precursores se encontram os tra-
paralelas de um mesmo teste é algo difícil de ser balhos de Richardson (1936), comparando os
conseguido. Ademais, os sujeitos, ao tomar uma for- parâmetros dos itens obtidos pela teoria clássica da
ma paralela, nunca serão exatamente os mesmos, Psicometria com os moldes que hoje usa a TRI; os
pois há os problemas de maturação que Campbell e trabalhos de Lawley (1943, 1944), indicando alguns
Stanley (1973) discutem no contexto do delineamen- métodos para estimar os parâmetros dos itens, os quais
to de pesquisa, tais como a aprendizagem, o cansa- se afastavam da teoria clássica e os trabalhos de
ço, a motivação, etc. que muda da aplicação de uma Tucker (1946), que parece ter sido o primeiro a utili-
forma para outra, inclusive diferencialmente para zar a expressão curva característica do item - Item
diferentes sujeitos, tornando a comparação entre as Characteristic Curve, ICC - que constitui um con-
duas formas não mais paralela. ceito chave na TRI. Também deve ser mencionada a
Um outro problema presente na teoria tradicio- contribuição de Lazersfeld (1950), que introduziu o
nal em Psicometria consiste na suposição que nela conceito de traço latente, ainda que no contexto da
se faz de que a variância dos erros de medida é a medida das atitudes, conceito novamente que se
mesma para todos os testandos, suposição de difícil constituiu num parâmetro chave da nova TRI.
sustentação, pois parece óbvio que alguns testandos Entretanto, o responsável mais direto que deu
realizam a tarefa mais consistentemente que outros origem à TRI moderna, é Frederic Lord (1952, 1953)
e que a consistência varia em função da habilidade por ter elaborado, não somente um modelo teórico,
dos sujeitos (Hambleton & Swaminathan, 1985). Por mas ainda métodos para estimar os parâmetros dos
exemplo um teste com itens medianamente fáceis itens dentro da nova teoria, utilizando o modelo da
poderá diferenciar mais os sujeitos com habilidade ogiva normal. Os modelos elaborados por Lord se
média mas não irá diferenciar da mesma maneira os aplicam a testes onde as respostas são dicotômicas,
sujeitos com habilidade superior que provavelmente isto é, certo e errado, ou seja, testes de aptidão. Mais
obterão escores perto dos mais altos. Conseqüente- tarde, Samejima (1969, 1972) elaborou modelos para
mente, o erro de medida neste segundo grupo será tratar respostas politômicas e mesmo para dados
maior que no primeiro (Embretson & Reise, 2000; contínuos, como é caso em testes de personalidade.
Hambleton & Swaminathan, 1985). Outro passo importante na história da TRI foi dado
Há, além disso, a condição típica dos testes de por Birnbaum (1957) ao substituir as curvas de ogiva
aptidão construídos dentro dos moldes da teoria clás- por curvas logísticas, isto é, baseadas nos logaritmos,
sica da Psicometria. Os testes são elaborados para tornando o tratamento matemático dos dados bem
avaliar maximamente os sujeitos de habilidades me- mais fácil.
dianas, sendo, por isso, bem menos apropriados e Um dos fatores que concretamente mais con-
válidos para avaliar sujeitos com habilidades superi- tribuíram para o uso generalizado da TRI hoje em
ores ou de pouca habilidade. De fato, a validade de dia foi o avanço da informática. Como a complexi-
um teste se maximiza na medida em que o nível de dade matemática no campo da TRI é enorme, o pro-
dificuldade do mesmo se aproxima do nível de habi- gresso vertiginoso nas máquinas de processamento
lidade do sujeito (Lord, 1980; Weiss, 1983). De sorte (microcomputadores) possibilitou a viabilização dos
que aplicando testes de dificuldade média diferente cálculos que o modelo TRI exige em Psicometria.
a sujeitos de diferentes níveis de aptidão irá produzir Com este progresso das máquinas, foi possível tam-
resultados nem sempre comparáveis, pois é óbvio bém, nos anos 80, o desenvolvimento de softwares
que obter 50 num teste fácil não é a mesma que apropriados para os tais cálculos.
coisa obter 50 num teste mais difícil que meça a
mesma aptidão. A tarefa de comparar os sujeitos A Teoria Básica da Resposta ao Item
em tais situações é de difícil manejo dentro dos mo- A Teoria da Resposta ao Item é uma teoria do
delos tradicionais de análise. traço latente aplicada primariamente a testes de ha-

Avaliação Psicológica, 2(2), 2003, pp. 99-110


102 Luiz Pasquali & Ricardo Primi

bilidade ou de desempenho. O termo teoria do tra- latentes pode ser descrita por uma equação
ço latente se refere a uma família de modelos mate- matemática monotônica crescente, chama-
máticos que relaciona variáveis observáveis (itens da de Curva Característica do Item – CCI
de um teste, por exemplo) e traços hipotéticos não- (veja Figura 1).
observáveis ou aptidões, estes responsáveis pelo
aparecimento das variáveis observáveis ou, melhor,
das respostas ou comportamentos emitidos pelo su-
jeito que são as variáveis observáveis. Assim, temos
um estímulo (item) que é apresentado ao sujeito e
este responde a ele. A resposta que o sujeito dá ao
item depende do nível que o sujeito possui no traço
latente ou aptidão. Desta forma, o traço latente é a
causa e a resposta do sujeito é o efeito. Agora, para
se poder estimar, a partir da resposta dada pelo su-
jeito, o seu nível no traço latente, é preciso que se Figura 1 – ICC para item 1
hipotetizem relações entre as respostas observadas
do sujeito e o seu nível neste mesmo traço latente. A Figura 1 mostra que, à medida que aumenta
Quando estas relações são expressas numa equa- o teta, aumenta também a probabilidade de acertar o
ção matemática, constando de variáveis e de cons- item (relação monotônica crescente entre aptidão e
tantes, temos um modelo ou teoria do traço latente. probabilidade de acerto)1.
Como tanto as variáveis e constantes que entram
numa tal equação, quanto as formas matemáticas Vantagens da TRI
que as curvas, que expressam a relação hipotetizada, As restrições que a TRI faz sobre os dados,
podem ser as mais variadas, segue que, em princí- como veremos, são muito fortes. Segundo o princí-
pio, existe um número sem fim de tais equações pos- pio geral da parcimônia em ciência, isto é, de que se
síveis. A TRI se decidiu por algumas destas equa- deve privilegiar a explicação e o modelo mais sim-
ções que achou mais adequadas ou produtivas, como ples, a TRI seria um modelo bem mais complexo do
veremos mais adiante. que o modelo da Psicometria Clássica e, conse-
De qualquer forma, o fundamental da teoria do quentemente, deveria ser preterido em favor desta.
traço latente consiste em expressar numa fórmula Isto seria válido se o modelo mais complexo não ex-
matemática a relação existente entre variáveis ob- plicasse mais coisas do que o mais simples. Então,
servadas e variáveis hipotéticas, chamadas estas de pergunta-se: a TRI oferece vantagens importantes
traços latentes. Assim, se conhecemos as caracte- em relação ao modelo tradicional da Psicometria ou
rísticas das variáveis observadas (como os itens de não? Quais são estas vantagens que torna a TRI
um teste), estas se tornam constantes na equação e preferível?
esta se torna solucionável, permitindo que se estime Primeiramente, é preciso alertar que a TRI não
então o nível do traço latente ou a aptidão do sujeito veio para substituir toda a Psicometria Clássica, mas
e vice-versa, isto é, se for conhecido o nível do traço apenas partes dela, particularmente na análise dos
latente é possível serem estimadas as característi- itens e no tema da fidedignidade da medida; mas
cas dos itens respondidos por este sujeito. sua contribuição na temática da validade dos ins-
Assim, a TRI faz dois postulados básicos, a trumentos psicológicos, ainda que importante, não
saber: parece revolucionária e esta temática é a mais re-
1) o desempenho do sujeito numa tarefa (item levante em Psicometria. Evidentemente, é de se
de um teste) pode ser predito a partir de um esperar que logo se consiga desenvolver a
conjunto de fatores ou variáveis hipotéticas, Psicometria pura e simplesmente em Psicologia, sem
ditos aptidões ou traços latentes (identifica- distinção entre Clássica e Moderna, mas utilizando
dos na TRI com a letra grega teta: q); o teta os avanços definitivos de ambas. Dito isto, então
sendo a causa e o desempenho o efeito. Tra-
ta-se de modelagem latente (latent trait
modeling). Ou seja, comportamento = fun- 1
Os modelos atuais da TRI completos incluem outros parâmetros
ção (traço latente) na equação, como veremos ao falarmos dos mesmos; contudo, a
lógica fundamental da teoria do traço latente consiste em expressar
2) a relação entre o desempenho e os traços
o comportamento em termos de traços latentes.
Avaliação Psicológica, 2(2), 2003, pp. 99-110
A Teoria da Resposta ao Item 103

quais são os avanços que a TRI trouxe no campo prováveis, tais como os erros de medida se-
da Psicometria? Hambleton, Swaminathan e Rogers rem iguais para todos os testandos;
(1991) apresentam cinco grandes avanços que a e) a TRI não necessita trabalhar com testes
TRI trouxe, sendo os três primeiros particularmen- estritamente paralelos como exige a
te importantes. Vejamos: psicometria clássica.
a) o cálculo do nível de aptidão do sujeito Pode parecer que as duas primeiras vantagens
independe da amostra de itens utilizados: diz- são fictícias pois se utilizássemos amostras repre-
se que a habilidade do sujeito é independen- sentativas, tanto na construção quanto na padroniza-
te do teste (not test-dependent). Na ção dos testes, teríamos medidas independentes do
Psicometria Clássica, o escore do sujeito teste utilizado e parâmetros dos itens independentes
dependia e variava segundo o teste aplicado da amostra de sujeitos. Considere, por exemplo, dois
fosse mais fácil ou mais difícil, ou produzis- testes, um mais fácil e um mais difícil, padronizados
se maiores ou menores erros. Assim, tais com amostras representativas de sujeitos. Neste caso
escores não eram comparáveis e, mesmo poder-se-ia supor que, resultados semelhantes na
aplicando ajustes, os escores ainda continu- escala padronizada, obtidos por meio do teste fácil
avam não comparáveis sobretudo porque os ou pelo teste difícil, significariam a mesma coisa. Mas
testes produziam diferenças nas variâncias isso não é verdade pois as distâncias entre os sujei-
de erros de medida. No caso da TRI, não tos com habilidade superior à média, obtidas caso
importa que itens ou conjunto de itens que aplicássemos o teste difícil, seriam maiores do que
você utilize, obviamente que estejam medindo se aplicássemos o teste mais fácil uma vez que estes
o mesmo traço latente, irão produzir o mes- sujeitos, com alta habilidade, teriam notas muito pró-
mo nível de aptidão do sujeito, dentro, é ób- ximas das mais altas e, portanto, mais próximas no
vio, dos sempre presentes erros de medida segundo teste. Portanto a medida é afetada pelo ins-
em qualquer ramo da ciência; trumento utilizado. Na TRI isto não ocorre porque
b) o cálculo dos parâmetros dos itens (difi- ela trabalha com o escore teta. Como mostra a Figu-
culdade e discriminação) independe da ra 1 o escore teta tem uma relação não linear com a
amostra de sujeitos utilizada: diz-se que os probabilidade de acerto associada ao escore total e,
parâmetros são independentes dos sujei- por isso, corrige as distorções do escore total. Nos
tos (not group-dependent). Na clássica, extremos, uma diferença de pequena magnitude na
os parâmetros dependiam muito dos sujei- probabilidade de acerto corresponde a uma diferen-
tos amostrados possuírem maior ou me- ça de magnitude muito dos escores teta, ainda que,
nor aptidão; com precisão muito mais reduzida.
c) a TRI permite emparelhar itens com a ap-
tidão do sujeito. Isto quer dizer que se ava- Suposições da TRI
lia a aptidão de um sujeito, utilizando itens Entre as características ou pré-requisitos da TRI,
com dificuldade tal que se situam em torna duas são de especial relevância: a unidimensionalidade
to tamanho da aptidão do sujeito, sendo, as- e a independência local, que representam suposições
sim, possível utilizar itens mais fáceis para básicas dos modelos mais correntes desta teoria
sujeitos com habilidades inferiores e itens psicométrica. A história das suposições é frustrante
mais difíceis para sujeitos mais aptos, pro- para muita gente, porque elas não podem ser
duzindo escores comparáveis em ambos os empiricamente demonstradas e nem possuem bases
casos. Na psicometria clássica sempre era lógicas; elas são simplesmente aceitas ou não aceitas,
aplicado o mesmo teste, hermeticamente isto é, elas são gratuitas, elas são hipóteses. Mas, ob-
fechado, para todos os sujeitos, de sorte que, serve o seguinte: (1) qualquer modelo matemático,
se o teste fosse fácil, avaliaria bem sujeitos para poder funcionar e ser útil, precisa fazer algumas
de aptidão menor e mal sujeitos de aptidão suposições entre o modelo e os dados empíricos, in-
superior e, se o teste fosse difícil, faria o clusive especificando as relações que existem entre
contrário. Esta história ficará mais clara ao as variáveis hipotéticas do modelo e as variáveis
falarmos de testes adaptativos e montagem observáveis ou empíricas; (2) embora as suposições
de testes otimizados; não possam ser provadas diretamente, elas podem sê-
d) a TRI constitui um modelo que não precisa lo indiretamente (em suas conseqüências), isto é, ve-
fazer suposições que aparentam serem im- rificando se a sua violação produz resultados incon-
Avaliação Psicológica, 2(2), 2003, pp. 99-110
104 Luiz Pasquali & Ricardo Primi

gruentes no estudo da realidade empírica; quer dizer racterísticas do mesmo (dificuldade, discriminação)
que os resultados práticos irão determinar se as supo- e do tamanho do teta do sujeito respondente, como
sições foram ou não úteis ou adequadas. veremos mais adiante. Acompanhe o seguinte raci-
ocínio, para entender o que seja independência local:
A Unidimensionalidade Seja
As teorias do traço latente (que vêm dos anos – q a aptidão dominante que afeta um conjunto
30) afirmam que existe um conjunto de traços laten- de itens,
tes que estão por detrás de um desempenho – Ui a resposta de um sujeito ao item i (i = 1, 2,
comportamental qualquer. Assim, um sujeito qual- ....., n); o Ui = 1 se o sujeito acerta o item e Ui
quer se situa num espaço de n dimensões (agora = 0 se ele erra;
chamadas de teta – q) e seu desempenho depende – P(Ui½q) a probabilidade de resposta do su-
do tamanho que ele possui em cada um desses tetas, jeito j com aptidão q ao item i. P(Ui=1½q) sig-
de sorte que o seu comportamento pode ser expres- nifica a probabilidade de uma resposta correta
so como um vetor de escores ou pesos nos vários dada ao item i, levando em conta o teta do su-
tetas, isto é, jeito e P(Ui=0½q) a probabilidade de uma res-
Desempenho = f(q1, q2, q3, ..., qn). posta errada. Estas duas instâncias são
Entretanto, em sua maioria, os modelos da TRI abreviadamente expressas como Pi e Qi (sen-
postulam que há apenas uma aptidão (teta) respon- do Qi = 1 – Pi).
sável pela realização de um conjunto de tarefas (itens Com tais informações, a independência local
de um teste). Parece pacífico que qualquer desem- pode ser matematicamente afirmada como
penho humano é sempre multideterminado ou
multimotivado, dado que mais de um traço latente Prob(U1, U2, ... , Un½q) = P(U 1½q)
entra na execução de qualquer tarefa, como o mo- P(U2½q)n ..... P(Un½q)
delo geral do traço latente afirma. Contudo, para
satisfazer o postulado da unidimensionalidade é sufi- = ∏ P( U i θ)
i =1
ciente admitir que haja uma aptidão dominante (um onde a última expressão significa o produtório
fator ou traço dominante) responsável pelo desem- das probabilidades dos n itens do teste.
penho num conjunto de itens de um teste. Este fator A independência local significa que, para exa-
é o que se supõe estar sendo medido pelo teste. O minandos com uma aptidão dada, a probabilidade de
postulado da unidimensionalidade continua importante resposta a um conjunto de itens é igual aos produtos
dado que a TRI ainda não possui soluções adequa- das probabilidades das respostas do examinando a
das para modelos multidimensionais, embora estes cada item individual. Assim, se um sujeito acertou
estejam sendo pesquisados já de longa data (Mulaik, os itens 1 e 2 e errou o 3, a configuração ou padrão
1972; Samejima, 1974; Bock & Aitkin, 1981; de suas respostas, isto é, o padrão de resposta é U1
Reckase, 1985). Isso também não quer dizer que os =1, U2 =1, U3 =0, ou seja, 1 1 0 e a independência
autores se entendem completamente sobre o que seja local implica que
unidimensionalidade e como ela deve ser estimada.
A Independência Local P(U1=1, U2=1, U3=0½q) = P(U 1 =1½q)
P(U2=1½q) P(U3=0½q)
Este postulado afirma que, mantidas constan-
= P 1P 2 Q 3.
tes as aptidões que afetam o teste, menos o teta do-
minante, as respostas dos sujeitos a quaisquer dois Embora pareça improvável que os comportamen-
itens são estatisticamente independentes. Isto impli- tos (respostas) de um mesmo sujeito não estejam
ca em que o desempenho do sujeito num item não
afeta o desempenho em outro item: cada item é res-
pondido exclusivamente em função do tamanho do 2
Os matemáticos complicam esta história dizendo que P(Xi = 1|Xj
seu teta dominante2. Esta suposição é importante e = 1, x k, q s = P(X i = 1| x k, q s), isto é, a probabilidade de que o item
i seja acertado (X
útil, porque, sendo ela verdadeira, então a seqüência i = 1), dependendo ou condicionado ao fato de que o item
de respostas do sujeito a uma série de itens será o j seja acertado (X j = 1) e dos parâmetros dos itens (dificuldade,
produto das probabilidades de cada item individual. discriminação, etc.: x k ) e do teta do sujeito respondente (
q s) é a mesma que resolvendo o item i sozinho. Em outras palavras,
As probabilidades de cada item dependem das ca- o que acontece com o item j é irrelevante com respeito à história
do item i.
Avaliação Psicológica, 2(2), 2003, pp. 99-110
A Teoria da Resposta ao Item 105

correlacionados, a independência local afirma que, se Supõe-se que os processos psíquicos se distri-
houver correlação, esta se deve à influência de fatores buem normalmente entre a população. Isto quer di-
outros que não o fator dominante. Se estes outros fato-
res forem controlados (mantidos constantes), o fator
dominante será a única fonte de variação e as respos-
tas se tornam independentes, porque o sujeito responde
exclusivamente em função do tamanho do seu teta.
Assim, a independência local implica também a
unidimensionalidade, já que a única causa da resposta
do sujeito é este suposto teta dominante (Lord, 1980;
Lord & Novick, 1968).
Também é preciso anotar que a independência
local afirma a independência das respostas do sujei-
to, o que não significa que os itens do teste não pos- zer que um processo psíquico se distribui dentro da
sam estar correlacionados. Como assim? A correla- população como uma curva normal, implicando que
ção entre os itens, se existe, é definida sobre um alguns sujeitos da população possuem um nível bai-
grupo de sujeitos, que responderam do mesmo jeito, xo de tal processo, outros um nível alto, e a maioria
enquanto a independência local diz que cada sujeito um nível médio, como mostra a Figura 2.
individualmente deu respostas independentes para Figura 2 – Distribuição normal dos processos psíquicos
cada item do teste. Aliás, se os itens estão medindo
o mesmo traço latente, é de se esperar que estejam
correlacionados. Para expressar a distribuição da totalidade dos
Quando um sujeito responde a uma série de elementos de uma população utiliza-se a métrica do
itens, ele produz o que se chama de um padrão de escore padrão, que é ancorada na média (valor 0) e
respostas, composto de acertos (valor 1) e erros (va- que vai de -¥ a +¥, mas que na prática vai de -3 a +3,

Tabela 1 – Padrões de resposta em 4 itens para 10 sujeitos


Padrão de resposta para item
Sujeitos 1 2 3 4 Probabilidade do padrão
1 0 0 0 0 Q1 Q2 Q3 Q4 = 0,8 x 0,6 x 0,5 x 0,2 = 0,048
2 0 0 0 1 Q1 Q2 Q3 P4 = 0,8 x 0,6 x 0,5 x 0,8 = 0,192
3 0 0 1 0 Q1 Q2 P3 Q4 = 0,8 x 0,6 x 0,5 x 0,2 = 0,048
4 0 0 1 1 Q1 Q2 P3 P4 = 0,8 x 0,6 x 0,5 x 0,8 = 0,192
5 0 1 0 0 Q1 P2 Q3 Q4 = 0,8 x 0,4 x 0,5 x 0,2 = 0,032
6 0 1 0 1 Q1 P2 Q3 P4 = 0,8 x 0,4 x 0,5 x 0,8 = 0,128
7 0 1 1 1 Q1 P2 P3 P4 = 0,8 x 0,4 x 0,5 x 0,8 = 0,128
8 1 0 0 0 P1 Q2 Q3 Q4 = 0,2 x 0,6 x 0,5 x 0,2 = 0,012
9 1 0 1 1 P1 Q2 P3 P4 = 0,2 x 0,6 x 0,5 x 0,8 = 0,048
10 1 1 1 1 P1 P2 P3 P4 = 0,2 x 0,4 x 0,5 x 0,8 = 0,032

lor 0). Veja os exemplos de padrões de resposta e porque entre estes dois pontos cai 99,97% de todos
sua probabilidade de ocorrência na Tabela 1 para 10 os sujeitos de uma população. A TRI faz uso desta
sujeitos em 4 itens, cuja probabilidade individual de métrica. O processo psíquico é chamado de teta (q).
acerto [Pi(qj)] destes últimos é de, respectivamente, Supõe-se, assim, que cada sujeito da população pos-
0.2, 0.4, 0.5, 0.8. sui um tamanho ou nível de teta que o posiciona nes-
ta escala de -3 a +3. Como é que se vai descobrir o
A Curva Característica do Item – CCI tamanho do teta de cada sujeito? Resposta: Através
Na visão da teoria do traço latente, os itens de um do seu comportamento. Como assim? A forma usu-
teste constituem a expressão comportamental ou com- al para medir um processo latente (teta) consiste em
portamentos, que o sujeito expressa como resposta a desenvolver um teste com uma série de questões ou
um ou mais traços latentes. Assim, qualquer comporta- itens, os quais expressam algum aspecto do traço
mento seria a expressão física ou comportamental de latente. Em se tratando de um teste de aptidão, en-
um processo psíquico, sendo este a causa daquele. tão o tamanho de teta do sujeito é expresso pelo nú-
Avaliação Psicológica, 2(2), 2003, pp. 99-110
106 Luiz Pasquali & Ricardo Primi

mero de itens que ele acertou. Isto na Teoria Clássi- Esta curva expressa tudo que a TRI pode des-
ca dos Testes (TCT). No caso da Teoria de Respos- cobrir sobre o item. Ela é chamada de curva logística
ta ao Item (TRI), entretanto, não se pergunta quantos e é caracterizada por duas características, a saber, a
itens o sujeito acertou e, sim, por que ele acertou ou dificuldade e a discriminação. Vamos examinar um
errou cada item individual. Desta forma, a TRI está pouco a história da curva logística e as duas carac-
interessada em descobrir qual é o tamanho de teta terísticas.
que o sujeito deve ter para poder acertar o item, cada
item individualmente. Você já pode adivinhar, então, A função logística
que em teoria basta até um único item para se poder A função logística se expressa numa ogiva, que
descobrir o tamanho do teta do sujeito. O problema já era utilizada desde o século 19 em biologia para
que fica para resolver consiste em se saber como o expressar o crescimento dos seres vivos e ela en-
item sinaliza o tamanho do teta do sujeito. A respos-
trou em voga na Psicometria com Birnbaum nos anos
ta ficará clara no decorrer desta exposição, mas a
1950. Os pioneiros da TRI não trabalhavam com a
resposta sucinta é a seguinte: através da CCI. Então
função da ogiva logística e sim com a da ogiva nor-
vamos ver o que é Teesta CCI.
mal (veja Lord, 1952; Lord & Novick, 1968). A ex-
Parece razoável se supor que um sujeito que
pressão da função em termos logísticos evita traba-
tem maior aptidão, isto é, que possui um nível mais
elevado do processo latente que um dado item mede, lhar com integrais, o que permite tratamento mate-
terá uma probabilidade maior de acertar este item mático mais simples, segundo os estatísticos. Essa
do que um sujeito com nível inferior de aptidão. Se o história do modelo da ogiva normal e do modelo
processo latente é expresso como q, então esta pro- logístico é um pouco complicada para estudiosos que
babilidade de acerto é definida como pi(q), que se lê não são estatísticos. Vamos ver brevemente esta his-
como: a probabilidade (p) de acertar o item (i) dado tória: o modelo da ogiva normal se baseia na chama-
um tamanho tal de teta (q). Assim, o sujeito com da função phi-gamma que trabalha com os mínimos
menor habilidade terá uma pi(q) pequena, enquanto quadrados. Phi-gamma vem das letras gregas que
um de aptidão superior terá tal probabilidade bem compõem a fórmula: p = f(g), onde o gama (g) é o
maior. Desta forma, a pi(q) de acertar um dado item desvio em relação à média, mais ou menos como é o
vai de 0 a 1, onde ela será 0 para o sujeito que não caso dos desvios-padrão z. A Equação que trabalha
tiver nenhuma aptidão que o item mede e 1 para o a ogiva z2
z 1normal
− é complexa e é a seguinte:
sujeito que tem uma aptidão teta ótima. Esta situa- p = ∫−∞ e 2 dz . Os estatísticos preferem traba-
ção faz com que, à medida que cresce o tamanho do 2π
lhar com outra função, que produz uma curva bem
teta, vai crescendo também a pi(q), provocando vi- parecida com a ogiva normal e que tipicamente se
sualmente uma curva de tipo S na escala de aptidão, ajusta melhor aos dados. Esta função é a função
como mostra a Figura 3. logística, a qual trabalha com o método da máxima
verossimilhança em lugar dos mínimos quadrados e
é matematicamente mais fácil de processar. A fun-
1
ção logística é a seguinte: Q = (veja Guilford,
1 + eα −βx
1954). O expoente do denominador é chamado de
logit, ou seja, o desvio logístico. Aplicado ao caso da
TRI, esta função é a seguinte:
1
p ( θ) = −a (θ− b )
1+ e
onde, e = constante que equivale a 2,7182818...
(geralmente expresso como 2,72)
b = dificuldade do item
a = discriminação do item
θ = aptidão ou traço latente
Figura 3 – A CCI de um item em função do Ø a(θ - b) = logit.
Avaliação Psicológica, 2(2), 2003, pp. 99-110
A Teoria da Resposta ao Item 107

A conceituação e a métrica do q foi explicada tidão tendem a errar o item enquanto sujeitos de
acima (veja figura 2). A conceituação e a métrica menor habilidade tendem a acertar. Na prática, a
dos parâmetros de dificuldade e de discriminação métrica deste parâmetro vai de 0 a 3, onde 0 sig-
serão explicados a seguir. Quando se fala de métri- nifica nenhuma discriminação e 3, discriminação
ca, quer-se referir ao tipo de escala utilizada para praticamente perfeita. Veja estes dois parâmetros
medir um dado fenômeno. Assim, quando se diz que expressos na Figura 4.
alguém obteve 9 numa prova de desempenho, sendo Na figura 4, o parâmetro bi do item corresponde
um desempenho excelente, está-se supondo que a ao ponto na escala de aptidão q onde a probabilidade
métrica utilizada é uma escala que vai de 0 a 10. Se de resposta é 0,5. Quanto maior for o bi, maior deve
a escala utilizada fosse de 0 a 100, então a nota 9 ser o nível de aptidão exigido para que o examinando
representaria péssimo desempenho. Desta forma, tenha a chance de 50% de acertar o item. Transfor-
você vê que é de fundamental importância, quando mando a escala da aptidão em escores padrões, com
se dão valores numéricos aos fenômenos, se saber média = 0 e desvio padrão = 1, os valores de bi tipi-
qual é a métrica (o metro) utilizada e, assim, se po- camente se situam entre -3 (itens fáceis) e +3 (itens
der entender o significado do valor atribuído. difíceis); assim, conforme figura 4, o item 1 exige
aptidão de mais ou menos –1,6 e o item 2 aptidão de
As características do item 0,60, sendo este último mais difícil que o item 1.
O parâmetro de dificuldade, chamado de bi, é o O parâmetro de discriminação do item (isto é, o
ponto na escala de aptidão no qual a probabilidade ai) é representado pela inclinação da curva no ponto
de uma resposta correta é de 50% (ou seja, 0,5). A de inflexão, onde a probabilidade de resposta corre-
métrica teórica deste parâmetro vai de -¥ a +¥, mas ta é 0,5. Na ilustração da figura 1-4, o item 2 é mais
na prática vai de -3 a +3. difícil (parâmetro b2) que o item 1 (bi), mas menos
O parâmetro da discriminação, chamado de discriminativo, pois a inclinação da curva dele é me-
ai, é expresso pela inclinação da CCI no momento nor que a do item 1 (parâmetro a2 é menos íngreme
da inflexão, isto é, quando a curva CCI corta a que a1, isto é, seu ângulo de incidência no ponto de
linha que corresponde à probabilidade de 0,5 de inflexão é mais agudo que do item 1). Veja na Figura
resposta correta., o que acontece sempre quando 5 por que o ângulo de inclinação da curva caracte-
q = b. A métrica teórica deste parâmetro também rística expressa a discriminação do item.
vai de -¥ a +¥, mas valores negativos ficam estra- De fato, para distinguir um sujeito que tem a
nhos porque eles diriam que sujeitos de maior ap- chance de 70% de acertar o item com relação a um

Figura 4 – Parâmetros de dificuldades (b) e discriminação (a) de dois itens


Avaliação Psicológica, 2(2), 2003, pp. 99-110
108 Luiz Pasquali & Ricardo Primi

Figura 5 – Parâmetros de discriminação de três itens

que tem a chance de 50%, o item 1 precisa apenas diferentes. Assim, se um item apresenta uma discri-
de uma diferença de 0,40 desvios padrões de teta, minação perfeita, então o ângulo de incidência da
enquanto o item 3 já precisa uma diferença de 2 des- curva seria de 90 graus, ou seja, uma perpendicular.
vios padrões de teta. Isto é, um sujeito, para aumen- Neste caso, o item é capaz de discriminar diferen-
tar suas chances de 50% para 70% de acertar o ças infinitesimamente mínimas de níveis de teta. Veja
item, basta aumentar a sua aptidão (o teta) em 0,4 isto na Figura 6.
no caso do item 1 e em 2,0 no caso do item 3. Assim, Neste caso da Figura 6, os sujeitos à esquerda
o item 1 diferencia tamanhos de teta bem mais pró- da perpendicular teriam chance 0 de acertar o item,
ximos do que o item 3 ou o item 2, isto é, reage a enquanto os da direita teriam probabilidade 1 de acer-
pequenas diferenças de teta e, conseqüentemente, tar. Observe-se que em inglês estes dois parâmetros
ele é mais discriminativo de diferenças de níveis do dos itens vêm indicados com diferentes nomes, como
teta do que estes dois últimos. Note também que to- segue:
dos os três itens têm a mesma dificuldade, ou seja, b • Dificuldade: b, location, threshold, position;
= 0, mas seus índices de discriminação são muito • Discriminação: a, slope, inclination, dispersion.

Figura 6 – Item com discriminação perfeita em Ø = 0

Avaliação Psicológica, 2(2), 2003, pp. 99-110


A Teoria da Resposta ao Item 109

Referências Lord, F.M. (1980). Applications of item response theory


to practical testing problems. Hillsdale, NJ:
Lawrence Erlbaum.
Baker, F.B. (2001). The basics of item response theory.
Washington, DC: ERIC. Lord, F.M. & Novick, M.R. (1968). Statistical theories of
mental test scores. Reading, MA: Addison-Wesley.
Binet, A. & Simon, Th. (1908). Le développement de
l’intelligence chez les enfants. Année Psycho- Lord, F.M. (1952). A theory of test scores (Psychometric
logique, 14, 1-94. Monograph No. 7). Iowa City, IA: Psychometric
Society.
Birnbaum, (1957). Efficient design and use of test of a
mental ability for various decision-making problems. Lord, F.M. (1952). The relation of the reliability of multiple-
(Series Report No. 58-16). Washington, DC: USAF choice tests to the distribution or item difficulties.
School of Aviation Medicine. Psychometrika, 17, 181-194.
Birnbaum, A. (1968). Some latent trait models and their Lord, F.M. (1953). The relation of test score to the trait
use in inferring and examinee’s ability. In F.M. Lord underlying the test. Educational and Psychological
& M.R. Novick, Statistical theories of mental test Measurement, 13, 517-549.
scores. Reading, MA: Addison -Wesley, ch. 17-20.
Mislevy, R.J. & Bock, R.D. (1984). BILOG: Maximum
Bock, R.D. & Aitkin, M. (1981). Marginal maximum likelihood item analysis and test scoring logistic
likelihood estimation of item parameters: Application models. Mooresville, IN: Scientific Software.
of an EM algorithm. Psychometrika, 46, 443-459.
Mulaik, S.A. (1972). The Foundations of factor analysis.
Campbell, D.T. & Stanley, J. (1973). Experimental and New York: McGraw-Hill.
quasi-experimental designs for research. Skokie,
IL: Rand McNally. Pasquali, L. (1996). Teoria da resposta ao item - IRT: uma
introdução. In L. Pasquali (Org.), Teoria e métodos
Embretson, S. E. & Reise, S. P. (2000). Item response theory de medida em ciências do comportamento. Brasília:
for psychologists. New Jersey: Lawrence Erlbaum. INEP, 173-195.
Guilford, J.P. (1936, 1954). Psychometric methods. New Rasch, G. (1960, 1980). Probabilistic models for some
York: McGraw-Hill. intelligence and attainment tests. Chicago, IL:
MESA Press.
Gulliksen, H. (1950). Theory of mental tests. New York:
Wiley. Reckcase, M.D. (1985). The difficulty of test items that
measure more than one ability. Applied Psy-
Hambleton, R.K. & Swaminathan, H. (1985). Item Response chological Measurement, 9(4), 401-412.
Theory. Principles and applications. Boston, MA:
Kluwer Nijhoff Publishing. Richardson, M.W. (1936). Notes on the rationale of item
analysis. Psychometrika, 1, 69-76.
Hambleton, R.K., Swaminathan, H., & Rogers, H.J. (1991).
Fundamentals of item response theory. Newbury Richardson, M.W. (1936). The relation between the
Park, CA: SAGE Publications. difficulty and the differential validity of a test.
Psychometrika, 1, 33-49.
Lawley, D.N. (1943). Richardson, M.W. (1936). On problems
connected with item selection and test construction. Samejima, F. (1972). A general model for tree-response
Proceedings of the Royal Society of Edinburgh, data (Psychometric Monograph, No. 18). Psy-
Series A, 61, 273-287. chometric Society.
Lawley, D.N. (1944). The factorial analysis of multiple item Samejima, F. (1974). Normal ogive model on the continuous
tests. Proceedings of the Royal Society of Edin- response level in the multi-dimensional latent space.
burgh, 62-A, 74-82. Psychometrika, 39, 111-121.
Lazarsfeld, P.F. (1950). The logical and mathematical Samejima, R. (1969). Estimation of latent ability using a
foundation of latent structure analysis. In S.A. response pattern of graded scores (Psychometric
Stauffer, L. Guttman, E.A. Suchman, P.F. Lazarsfeld, Monograph No. 17). Psychometric Society.
S.A. Star, & J.A. Clausen (Eds.), Measurement and
prediction. Princeton, NJ: Princeton University Samejima, R. (1973). Homogeneous case of the continuous
Press, 1950.
response model. Psychometrika, 38, 202-219.
Lazersfeld, P.F. (1959). Latent structure analysis. In S.Koch,
Psychology: A study of science. New York: McGraw- Thurstone, L.L. (1959). The measurement of values. Chi-
Hill, 476-543. cago, IL: Chicago University Press.

Avaliação Psicológica, 2(2), 2003, pp. 99-110


110 Luiz Pasquali & Ricardo Primi

Thurstone, L.L (1928). Attitudes can be measured. Weiss, D.J. (Ed. - 1983), New horizons in testing: Latent
American Journal of Sociology, 33, 529-554. trait test theory and computerized adaptive testing.
New York: Academic Press.
Tucker, L.R. (1946). Maximum validity of a test with
equivalent items. Psychometrika, 11, 1-13. Wingersky, M.S., Barton, M.A., & Lord, F.M. (1982).
LOGIST user’s guide. Princeton, NJ: Educational
Weiss, D.J. (1983). Introduction. In David J. Weiss (Ed.), Testing Service.
New horizons in testing: Latent trait test theory
and computerized adaptive testing. New York:
Academic Press, 1-8. Recebido em 17/12/2002
Aceito em 03/04/2003

Avaliação Psicológica, 2(2), 2003

Você também pode gostar