Você está na página 1de 11

Psicologia: Reflexo e Crtica

ISSN: 0102-7972
prcrev@ufrgs.br
Universidade Federal do Rio Grande do Sul
Brasil

Andreoli Sartes, Laisa Marcorela; Oliveira de Souza-Formigoni, Maria Lucia


Avanos na Psicometria: Da Teoria Clssica dos Testes Teoria de Resposta ao Item
Psicologia: Reflexo e Crtica, vol. 26, nm. 2, 2013, pp. 241-250
Universidade Federal do Rio Grande do Sul
Porto Alegre, Brasil

Disponvel em: http://www.redalyc.org/articulo.oa?id=18827804004

Como citar este artigo


Nmero completo
Sistema de Informao Cientfica
Mais artigos Rede de Revistas Cientficas da Amrica Latina, Caribe , Espanha e Portugal
Home da revista no Redalyc Projeto acadmico sem fins lucrativos desenvolvido no mbito da iniciativa Acesso Aberto
disponvel em www.scielo.br/prc

Avanos na Psicometria: Da Teoria Clssica dos Testes Teoria


de Resposta ao Item

Advances in Psychometrics: From Classical Test Theory to Item Response Theory

Laisa Marcorela Andreoli Sartes & Maria Lucia Oliveira de Souza-Formigoni


Universidade Federal de So Paulo, So Paulo, Brasil

Resumo
No sculo XX, o desenvolvimento e avaliao das propriedades psicomtricas dos testes se embasou
principalmente na Teoria Clssica dos Testes (TCT). Muitos testes so longos e redundantes, com
medidas influenciveis pelas caractersticas da amostra dos indivduos avaliados durante seu desen-
volvimento, sendo algumas destas limitaes consequncias do uso da TCT. A Teoria de Resposta
ao Item (TRI) surgiu como uma possvel soluo para algumas limitaes da TCT, melhorando a
qualidade da avaliao da estrutura dos testes. Neste texto comparamos criticamente as caractersti-
cas da TCT e da TRI como mtodos para avaliao das propriedades psicomtricas dos testes. So
discutidas as vantagens e limitaes de cada mtodo.
Palavras-chave: Psicometria, teoria de resposta ao item, teoria clssica dos testes.

Abstract
In the 20th century, development and evaluation of psychometric properties of tests was mainly based
on the Classical Test Theory (CTT). Many tests are long and redundant, with measures influenced
by the characteristics of the sample of the individuals being evaluated. Some of the limitations are a
consequence of the use of the CTT. The Item Response Theory (IRT) has been proposed as a solution
to some limitations of the CTT, improving the quality of assessment of the tests structure. In this paper
we critically compare the characteristics of CTT and IRT methods in determining the psychometric
properties of tests. We discuss the advantages and limitations of each method.
Keywords: Psychometrics, Item Response Theory, classical test theory.

O uso de instrumentos e testes psicomtricos repre- tes contextos por solicitao de profissionais de formaes
senta uma importante forma de avaliao objetiva dos variadas, que esperam resultados rpidos e objetivos, que
fenmenos psicolgicos. Embora alguns psiclogos ainda possam contribuir na determinao das intervenes mais
apresentem resistncia e exeram crticas, o uso de testes adequadas aos sujeitos.
psicolgicos vem ganhando fora. Isto se deve ao fato de O desenvolvimento de instrumentos de avaliao
que eles permitem o estabelecimento de um referencial psicolgica se iniciou no sculo XIX, paralelamente ao
que pode reduzir os vieses subjetivos da percepo e do avano da cincia positivista e da necessidade de medidas
julgamento do psiclogo examinador, desde que este te- objetivas e vlidas para o desenvolvimento de pesquisas
nha completo domnio e conhecimento de sua aplicao e clnicas. Surgiu da a urgncia por mtodos que avaliassem
interpretao. Considerando que o trabalho do psiclogo as propriedades psicomtricas dos instrumentos. As ava-
tem se desenvolvido em uma perspectiva multidisciplinar, liaes psicomtricas dos testes passaram por diferentes
esses profissionais tm, cada vez mais, atuado em diferen- fases, tendo incio por volta da dcada de 1880 com Galton,
atravessando as eras de Cattell, na dcada 1890, de Binet,
na dcada de 1900, a era dos testes de inteligncia, entre
*
Endereo para correspondncia: Departamento de 1910 e 1930, a da anlise fatorial e a era da sistematizao,
Psicobiologia, Universidade Federal de So Paulo, Rua
Napoleo de Barros, 1038, So Paulo, SP, Brasil 04024- entre 1940 e 1980. Na era de Binet, a partir dos trabalhos
003. E-mail: mlosformigoni@unifesp.br de Spearman relacionados correlao, desenvolveu-se a
Agradecimentos: Este trabalho contou com o apoio
financeiro da Fundao de Amparo Pesquisa do Estado
Teoria Clssica dos Testes (TCT; Pasquali, 1997). Nela se
de So Paulo (FAPESP, processo n 05/60229-5 - bolsa basearam a maioria dos mtodos operacionais utilizados
de Doutorado para a primeira autora), do Conselho para avaliar as duas principais propriedades psicomtricas
Nacional de Desenvolvimento Cientfico e Tecnolgico
(CNPq, bolsa de produtividade em pesquisa para a dos instrumentos: a validade e a confiabilidade. A validade
segunda autora) e da Associao Fundo de Incentivo de um instrumento pode ser definida como sua capacidade
Pesquisa (AFIP). Agradecemos a valiosa colaborao
dos estatsticos Dalton F. Andrade, Adriano Borgatto e
de realmente medir aquilo a que se prope a medir (Pas-
Fernando A. B. Colugnati. quali, 1997; Portney & Watkins, 1993). A validade de

241
Psicologia: Reflexo e Crtica, 26(2), 241-250.

construto, mais especificamente, se refere capacidade Habing, & Lynch, 2007; Cook et al., 2008; Jiang & Hesser,
do instrumento de efetivamente medir um conceito terico 2009; Kopec et al., 2008; Reise & Waller, 2009; Teresi &
especfico o construto seja este um processo psicolgi- Fleishman, 2007; Wainer, 2000).
co ou uma caracterstica dos indivduos (Bruscato, 1998; Para a Psiquiatria e Psicologia, o desenvolvimento da
Menezes & Nascimento, 2000; Strauss & Smith, 2009). TRI veio ao encontro da tendncia atualmente observada,
A confiabilidade de um teste se refere reprodutibilidade tanto na rea de pesquisa clnica, quanto na de assistncia,
da medida, ou seja, o grau de concordncia entre mltiplas da necessidade de utilizao de instrumentos objetivos e
medidas de um mesmo sujeito inter e intra indivduos breves, mas que possam abranger todo o construto a que se
(Armstrong, White, & Saracci, 1994). referem. Nesse sentido, a TRI trouxe grandes avanos para
Segundo Streiner (2010), a avaliao psicomtrica avaliao do construto dos instrumentos, proporcionando
sofreu diversas modificaes no ltimo sculo, seguindo ainda a possibilidade de otimizao de instrumentos que j
tendncias observadas em diversos outros contextos nos foram validados por mtodos clssicos. Vrios pesquisado-
quais aquilo que maior considerado melhor. Desta res utilizaram a TRI nas discusses sobre novos critrios
forma, anteriormente, quanto mais extenso fosse o ins- diagnsticos adotados na (5) edio do DSM (DSM-V;
trumento para medir um construto, melhor eram suas Martin & Chung, 2008; Schuckit et al., 2005). Lima, Soares
propriedades de validade. Alm disso, um maior nmero e Bacaltchu (2000) discutem a necessidade de pesquisas
de itens contribua positivamente no clculo das frmulas em Psiquiatria para aproxim-la dos avanos da medicina
de confiabilidade, como no caso do conhecido alpha de baseada em evidncias, incluindo nisto a qualidade da
Cronbach (Maroco & Garcia-Marques, 2006; Schmitt, avaliao dos critrios diagnsticos.
1996). Entretanto, nas ltimas dcadas, este conceito tem Embora a TRI tenha proporcionado avanos na vali-
sido desafiado por uma corrente terica conhecida como dao de construto dos testes, esta tcnica ainda apresenta
Teoria de Resposta ao Item (TRI). Esta corrente props o certas dificuldades se comparada s tcnicas tradicionais
uso de escalas mais curtas que seriam to confiveis quanto da TCT. Neste artigo temos por objetivo apresentar as
as longas, se no mais. Esta era, que se iniciou a partir da principais caractersticas da TCT e da TRI e realizar uma
dcada de 1980, conhecida como a era da psicometria comparao crtica da utilizao de ambas na avaliao
moderna, centrada na TRI. da validade de construto e como forma de otimizao (ou
Em vrios pases, assim como no Brasil, a TRI tem sido reduo) dos instrumentos.
amplamente utilizada na avaliao de testes educacionais
padronizados aplicados em grande escala, visando avaliar Teoria Clssica dos Testes
habilidades e conhecimentos em testes de mltipla esco-
lha. No Brasil, desde o final da dcada de 90, tem surgido A TCT compreende um conjunto de conceitos e tc-
literatura sobre o tema (Pasquali, 1997, 2009; Pasquali & nicas que tem sido utilizado como base para o desenvol-
Primi, 2003), alm de estudos que utilizaram a TRI para vimento de numerosos instrumentos de medidas e como
avaliao de testes relacionados gesto pela qualida- ponto de referncia para abordagens de medidas psico-
de, marketing, nutrio, qualidade de vida, psiquiatria, mtricas (DeVellis, 2006). Uma vez que seus postulados
psicologia, raciocnio verbal e compreenso de leitura so pouco exigentes e pouco numerosos, ela pode ser
(Andrade, 2001; Andrade & Valle, 1998; Andriola, 1998, utilizada numa grande variedade de situaes (Grgoire
2001; Bueno et al., 2009; Chachamovich, Fleck, Trentini, & Laveault, 2002). Segundo Grgoire e Laveault (2002),
Laidlaw, & Power, 2008; Cri, Singer, & Andrade, 2011; a TCT tem como objetivo fundamental o resultado total
Fernandes, Prieto, & Delgado, 2010; Gabriel, Vasconcelos, obtido por determinada pessoa em um teste, baseando-se
Andrade, & Schmitz, 2009; Nunes, Muniz, Nunes, Primi, em sete postulados, dos quais dois valem ser destacados
& Miguel, 2010; Polanczyk et al., 2010; Santos, Primi, aqui (para maiores informaes sobre os outros postulados
Taxa, & Vendramini, 2002; Sisto, Santos, & Noronha, ver Grgoire & Laveault, 2002). O primeiro deles faz re-
2007; Soares, 2005; Vendramini, Silva, & Canale, 2004). ferncia ao fato de que o resultado observado no teste do
Mais recentemente, a TRI tem sido adotada por indivduo (X) resultante da soma do resultado verdadeiro
diversos pesquisadores para avaliao de instrumentos do indivduo (V: valor real), denominado por DeVellis
da rea de sade. Alm da avaliao psicomtrica dos (2006) escore verdadeiro, com o erro de medida asso-
testes, voltada para avaliao dos construtos, destaca- ciado a esse mesmo resultado (E: varivel aleatria). Uma
-se nesta rea o estudo da equivalncia de grupos com frmula simples pode representar o resultado observado:
diferentes caractersticas sociodemogrficas, por meio do X=V+E. Outro postulado estipula que o valor esperado
Funcionamento Diferencial do Item (DIF), o desenvolvi- para o resultado observado o resultado verdadeiro. Isto
mento de verses reduzidas dos instrumentos eliminando significa que a preciso de um resultado aumenta com o
itens redundantes, e ainda o desenvolvimento de testes nmero de observaes. Em resumo, os postulados da
adaptativos computadorizados (CAT), que direcionam a TCT assumem que os erros aleatrios da medida devem
apresentao dos itens a partir da identificao do nvel ser independentes, em qualquer circunstncia.
de habilidade do indivduo determinado pelas respostas Segundo a TCT, a anlise dos itens um procedimento
aos itens anteriormente apresentados (Alterman, Cacciola, que visa selecionar os melhores itens de um conjunto de

242
Sartes, L. M. A. & Souza-Formigoni, M. L. O. (2013). Avanos na Psicometria: Da Teoria Clssica dos Testes Teoria de Resposta ao Item.

itens muitas vezes maior que o necessrio, avaliando duas tempo. Outra limitao da AF relativa suposio de
caractersticas dos itens: a dificuldade e a discriminao. linearidade na relao dos itens com o construto. Isto , o
Na TCT, o parmetro de dificuldade do item dado pela construto representado pela soma ponderada das respos-
proporo dos indivduos que respondem afirmativamente tas aos itens, sendo os pesos dados pelas cargas fatoriais.
ao item, no caso de itens dicotmicos. Quando os itens so Por conseguinte, esta anlise fornece informaes neces-
politmicos, a dificuldade determinada pela proporo srias, mas no suficientes (Grgoire & Laveault, 2002).
de respostas a uma categoria de escolha ou pela mdia das
respostas de todos os indivduos (DeVellis, 2006; Grgoire Limitaes da Teoria Clssica dos Testes
& Laveault, 2002). O ndice de dificuldade varia entre 0 Ainda que a TCT tenha sido muito til para o de-
e 1, sendo que caso seu valor seja igual a zero, significa senvolvimento dos testes psicolgicos e continue sendo
que nenhum indivduo respondeu ao item afirmativamente. largamente utilizada, suas limitaes tm sido discutidas
Ao contrrio, se o ndice for igual a 1, significa que todos h muitas dcadas (Gulliksen, 1950; Hambleton & Slater,
responderam afirmativamente. O parmetro de discri- 1997; Lord & Novick, 1968; Rasch, 1961). Atualmente,
minao na TCT visa diferenciar o grupo de indivduos diversos trabalhos tm apresentado e discutido essas limi-
que tiveram alta pontuao total dos que tiveram baixa taes, propondo novas formas de avaliao de medidas
pontuao total no teste. Alguns estudos utilizam a diviso psicomtricas (Andrade, Tavares, & Valle, 2000; De
dos indivduos em dois grupos, os 27% superiores (que Champlain, 2010; Embretson & Reise, 2000; Hambleton
obtiveram os escores mais altos) e os 27% inferiores (que & Slater, 1997; Pasquali & Primi, 2003; Vendramini et
obtiveram os escores mais baixos), proposta por Kelley al., 2004). A principal limitao da TCT refere-se ao fato
em 1939 (Grgoire & Laveault, 2002). O item mais de que todas as medidas so dependentes da amostra dos
discriminativo quanto maior for o seu valor. O ndice de indivduos que responderam ao instrumento. Isto signi-
discriminao pode assumir qualquer valor entre -1 e +1, fica que as avaliaes do teste so vlidas somente se a
correspondendo diferena entre o ndice de dificuldade amostra for representativa ou se o instrumento for utili-
dos indivduos que obtiveram uma pontuao elevada zado em outra amostra com caractersticas semelhantes
no escore total do teste e o ndice de dificuldade dos in- (Embretson & Reise, 2000; Hambleton & Slater, 1997).
divduos que obtiveram uma pontuao baixa no escore Alm disso, testes diferentes com ndices de dificuldade e
total do teste. Entretanto, a interpretao dos ndices de discriminao diferentes geram resultados diferentes para
dificuldade e de discriminao depende das caractersticas os mesmos indivduos. Uma terceira limitao que na
da amostra de indivduos utilizada para a normatizao do TCT, se o mesmo construto medido por dois testes dife-
teste. Dois fatores podem influenciar a interpretao do rentes, os resultados no so expressos na mesma escala,
ndice de dificuldade: o nmero de respostas omitidas e a impedindo uma comparao direta. Torna-se necessria a
probabilidade de um indivduo responder corretamente ao utilizao de um mtodo mais complexo de equalizao
item devido ao acaso. Sendo assim, se um grande nmero para compar-los.
de indivduos no responder ao item por falta de tempo, Outro problema com relao avaliao da fidedig-
o ndice de dificuldade no ser avaliado corretamente. nidade, a qual exige que dois testes aplicados ao mesmo
Aps o desenvolvimento da TCT, a partir dos traba- grupo, devam ter formas estritamente paralelas, ou seja,
lhos de Thurstone, por volta de 1930 foi desenvolvida a produzir escores verdadeiros idnticos e varincias tambm
anlise fatorial (AF), que uma anlise multivariada cujo iguais (Pasquali & Primi, 2003). Por fim, a TCT pressupe
principal propsito avaliar a dimensionalidade dos ins- que a varincia dos erros de medida de todos os indivdu-
trumentos de medida. Ela abrange um conjunto de tcnicas os a mesma. Entretanto, deve-se considerar que alguns
estatsticas cujo objetivo representar (ou descrever) um indivduos realizam o teste de forma mais consistente do
grande conjunto de variveis iniciais, utilizando um menor que outros (Hambleton & Swaminathan, 1985).
nmero de variveis hipotticas (fatores) obtidas como Outras limitaes da TCT foram exploradas por Em-
funo das variveis originais (Reis, 2001). O objetivo da bretson e Reise (2000) como as suposies de que testes
AF a parcimnia, procurando definir o relacionamento longos so mais confiveis do que testes curtos e que as
entre as variveis de modo simples e usando um nmero de propriedades de um intervalo da escala avaliada so ob-
fatores menor que o nmero original de variveis. Embora tidas somente se a distribuio de freqncia dos escores
amplamente utilizada, a AF apresenta algumas limitaes. for normal. Alm disso, instrumentos que contm itens
Por exemplo, a AF confirmatria permite apenas verificar com formatos mistos, conduzem a um escore total dos
se os dados so consistentes ou no com a estrutura fatorial indivduos desbalanceado.
postulada. Quando os dados so compatveis com vrias
estruturas latentes, a AF no permite determinar qual Teoria de Resposta ao Item
fator devemos escolher, sendo tal escolha feita em bases
tericas. Alm disso, a AF apresenta dificuldades com Considerando as limitaes da TCT, aps os anos 50
conjuntos de dados de natureza mista, como ocorre em os psicometristas propuseram uma nova abordagem na
instrumentos que apresentam respostas do tipo dicotmica, tentativa de solucionar tais problemas. A TRI deve ser
numricas e que utilizam escalas do tipo Likert ao mesmo entendida como um conjunto de modelos psicomtricos

243
Psicologia: Reflexo e Crtica, 26(2), 241-250.

para desenvolver e refinar medidas psicolgicas (Embret- apenas um trao latente, ou construto, responsvel pelas
son & Reise, 2000). Esta teoria visa superar as limitaes respostas dos indivduos aos itens. plausvel dizer que o
da teoria clssica, e no entrar em contradio com seus comportamento humano multideterminado, sendo assim,
princpios. Ao contrrio, sugere uma nova proposta esta- os modelos que utilizam essa premissa admitem que haja
tstica, a de anlise centrada nos itens, apresentando ainda um trao latente dominante que determine as respostas
novos recursos tecnolgicos para a avaliao psicolgica ao teste (Andrade et al., 2000). Este trao conhecido
e educacional (Primi, 1998). na anlise fatorial como fator dominante. Alguns autores
A TRI parte da suposio de que existe no indivduo discutem outros mtodos de avaliao da dimensionalidade
um trao latente, representado pela letra (teta), relativo alm da anlise fatorial clssica, como a anlise fatorial
a uma caracterstica do indivduo como, por exemplo, a tetracrica para itens dicotmicos, a policrica, para itens
gravidade da dependncia de drogas, o nvel de depresso, politmicos e os mtodos de mxima verossimilhana
ou o quanto ele sabe sobre matemtica. O trao latente pode (Andrade et al., 2000). Apesar disso, ainda h contradies
ser entendido, em outros contextos, como o construto. O entre os autores sobre o que seja a unidimensionalidade
nvel do trao latente do indivduo (por exemplo: nvel de e como ela deve ser verificada (Pasquali & Primi, 2003).
habilidade em matemtica, gravidade da depresso, etc) Modelos multidimensionais foram propostos para avaliar
permite estimar se o indivduo responder positivamente instrumentos que apresentam mltiplas dimenses de
ou no a um determinado item, estabelecendo para cada forma concomitante, sem a necessidade de se replicar um
item uma probabilidade de resposta relacionada presena modelo unidimensional diversas vezes. Entretanto, tais
(ou intensidade) da condio avaliada (Fletcher, 1994). Tal modelos so complexos e ainda pouco estudados. Desta
probabilidade determinada pelas caractersticas (parme- forma, para anlise de instrumentos multidimensionais a
tros) de cada item por meio de uma funo matemtica, maioria dos autores utiliza mltiplas anlises unidimensio-
tipicamente logstica. O primeiro passo para aplicao da nais, uma para cada dimenso. Deve-se considerar, que este
TRI a estimao dos parmetros dos itens, que pode ser procedimento tem como suposio bsica a independncia
feita por diferentes modelos estatsticos. A utilizao dos entre estas dimenses, o que nem sempre real.
modelos baseada no nmero de populaes envolvidas, A suposio sobre a independncia local postula que,
na natureza das respostas ao item (dicotmico ou no dico- se o trao latente constante, as respostas do indivduo aos
tmico), na dimensionalidade do instrumento (Vendramini itens so independentes (Andrade et al., 2000; Hambleton
et al., 2004) e no nmero de parmetros a ser avaliados. & Swaminathan, 1985; Reeve & Fayers, 2005) e depen-
Para itens dicotmicos, a funo matemtica referida dem somente do nvel do trao latente do indivduo. Esta
como uma Curva Caracterstica do Item (CCI) e para itens suposio fundamental para a adequada estimao dos
politmicos, a relao entre o trao latente e a resposta a parmetros dos itens e sua violao pode implicar em erro
uma das categorias determinada pela CCI conhecida ao escolher os itens melhor estimados para a construo
como Curva de Resposta Categoria (CRC). Utilizaremos final do instrumento (Reeve & Fayers, 2005).
neste texto a denominao CCI para ambos os casos. Um Segundo Hambleton, Swaminathan e Rogers (1991),
modelo comum aplicado a itens dicotmicos o modelo a TRI traz ao menos cinco avanos em comparao com
logstico de dois parmetros, o qual avalia as caractersti- a psicometria tradicional. O primeiro deles refere-se ao
cas de dificuldade e discriminao dos itens. Entretanto, clculo do nvel de trao latente do sujeito que independe
diversos outros modelos so propostos como, por exemplo, da amostra de itens utilizados. Ao contrrio do que ocorria
o modelo logstico de um parmetro, que avalia apenas a na psicometria clssica, onde o escore do sujeito dependia
dificuldade dos itens e o modelo de trs parmetros que e variava segundo o grau de dificuldade e preciso do
avalia ainda a probabilidade de acerto de um item ao acaso instrumento aplicado, a TRI considera que o indivduo
(Andrade et al., 2000; Reise & Waller, 2009). Dentre os possui um trao latente verdadeiro especfico que no
modelos mais comuns para itens politmicos encontramos ir variar segundo os itens utilizados, desde que os itens
o modelo de resposta gradual (Samejima, 1969), que pode estejam medindo o mesmo trao latente. Na TRI, o clculo
ser visto como uma generalizao do modelo logstico dos parmetros dos itens independe da amostra de sujeitos
de dois parmetros. Alm destes modelos paramtricos, utilizada, enquanto que na teoria clssica os parmetros de-
podem ser encontrados na literatura vrios modelos no pendiam de os indivduos da amostra possurem maior ou
paramtricos, dos quais a escala Mokken o mais co- menor nvel no trao latente. Isto significa que mesmo que
nhecido (Ark, 2007). As duas principais suposies para a amostra no seja representativa, os parmetros dos itens
a utilizao da maioria dos modelos da TRI so a unidi- sero estimados corretamente pela TRI (Embretson & Rei-
mensionalidade e a independncia local (Andrade et al., se, 2000). Cabe ressaltar, porm, que a amostra necessria
2000; Embretson & Reise, 2000). Pasquali e Primi (2003) para avaliao dos modelos da TRI necessitam ser grandes,
consideram que as suposies podem ser frustrantes para especialmente nos modelos de dois ou mais parmetros. A
os pesquisadores porque elas no podem ser empiricamente TRI permite ainda posicionar os itens (considerando seu
demonstradas e nem possuem bases lgicas, isto , elas so parmetro de dificuldade) e os sujeitos (considerando seus
hipteses. A unidimensionalidade o postulado de que h escores) em uma mesma escala do trao latente que est

244
Sartes, L. M. A. & Souza-Formigoni, M. L. O. (2013). Avanos na Psicometria: Da Teoria Clssica dos Testes Teoria de Resposta ao Item.

sendo avaliado. Desta forma, possvel estabelecer uma Embora, teoricamente o parmetro a tambm possa variar
relao entre itens e nveis do trao latente dos indivduos, entre valores infinitos negativos e positivos, na prtica, a
identificando os itens que melhor avaliam cada nvel do mtrica deste parmetro sempre apresentada com valor
trao. Por exemplo, se considerarmos que um indivduo positivo (Pasquali & Primi, 2003).
est posicionado no nvel 2,5 da escala do trao latente, Com base nos parmetros a e b de cada item, constru-
mais provvel que ele responda positivamente aos itens da a CCI, um grfico com uma curva de probabilidade em
posicionados neste mesmo nvel e aos itens posicionados forma de S (Figura 1), no qual o eixo das abscissas repre-
nos nveis anteriores e menos provvel que responda senta a intensidade do trao latente dos indivduos (nvel de
positivamente aos itens posicionados acima desse nvel. gravidade de problemas com lcool, por exemplo) e o eixo
Assim, itens que so respondidos por um nmero maior das ordenadas a probabilidade de o indivduo responder
de pessoas avaliam sujeitos com nveis menores do trao positivamente ao item (variando de 0 a 1). A curva indica
e itens mais difceis discriminam os sujeitos com nveis que quanto maior o nvel de gravidade do indivduo, maior
maiores do trao latente. Outro avano se refere ao fato de sua probabilidade de responder afirmativamente ao item. A
que a TRI constitui um modelo que no precisa fazer supo- CCI avalia, portanto, a probabilidade de resposta positiva
sies improvveis, tais como a de que os erros de medida a um dado item em funo da intensidade (ou nvel) do
so iguais para todos os indivduos. A TRI no exige que trao latente do indivduo.
se trabalhe com instrumentos estritamente paralelos para O valor de a corresponde ao ngulo de inclinao da
avaliar a confiabilidade, como exige a teoria clssica. Alm curva, sendo as curvas mais inclinadas (com tendncia a
desses cinco avanos citados por Hambleton et al. (1991), formar um ngulo de 90) indicativas de maior discrimi-
a TRI permite que as respostas que no se aplicam a alguns nao, e as menos inclinadas indicativas de menor discri-
entrevistados no sejam consideradas idnticas resposta minao, formando curvas mais achatadas (Andrade et al.,
nula, distinguindo-se desta forma dos testes clssicos. 2000). A grosso modo, o valor de b de um item indica a sua
posio na escala do trao latente quando a probabilidade
Principais Modelos da Teoria de Resposta ao Item (TRI) do indivduo responder positivamente ao item for de 50%,
Considerando que os modelos logsticos de dois pa- conforme indicado na Figura 1. Neste exemplo, foi utiliza-
rmetros so os mais comumente utilizados e estudados, da uma escala padronizada na qual a mdia igual a zero
apresentaremos a seguir suas caractersticas. O modelo e o desvio padro igual a um. O valor de b=0 indica que
logstico de dois parmetros deve ser utilizado quando o item avalia um nvel mdio (moderado) de intensidade
os itens a serem avaliados so dicotmicos, como por do trao latente. Por outro lado, itens com valores baixos
exemplo, respostas do tipo sim ou no (Andrade et al., ou negativos de b indicam que eles avaliam intensidade
2000; Pasquali & Primi, 2003). Este modelo definido por do trao latente menor do que a mdia. Entretanto, esta
uma simplificao didtica, pois estes parmetros podem
1 sofrer a influncia da habilidade do grupo e da dificuldade
P ( X i 1 | , ai , bi ) dos itens. Quanto maior for o valor de b, maior deve ser o
1 e 1, 7.ai ( bi ) nvel de gravidade de problemas do indivduo para que ele
tenha a chance de 50% (0,5) de responder positivamente
Nesta complicada frmula estatstica, o Xi representa a quele item. Supe-se ento que um indivduo que possui
resposta ao item i (se Xi=1 a resposta indica uma resposta maior gravidade de problemas do que outro sujeito ter
positiva, se Xi=0 a resposta negativa), o trao latente maior probabilidade de responder positivamente a um
ou a gravidade de problemas, ai representa o parmetro dado item que esteja posicionado nos nveis mais altos
de discriminao do item i e bi o parmetro de dificuldade da escala do que o sujeito que possui menor gravidade de
do item i. problemas. As respostas a diversos itens, posicionados em
P(Xi = 1 | , ai, bi) a probabilidade de um indivduo diferentes nveis da escala, contribuem para identificar o
responder 1 ao item i, dado o seu nvel de trao latente e nvel de gravidade do indivduo. As pessoas com menor
valores dos parmetros a e b do item. A letra e representa trao latente tendem a responder sim apenas aos itens
uma constante com valor de 2,72. com baixos valores de b e aquelas com maior trao latente
Este modelo avalia a probabilidade de um indivduo tendem a responder sim tanto a itens com valores de b
responder positivamente (sim) a um item em funo negativos ou baixos como a itens com valores de b mais
do seu trao latente, sendo tal probabilidade influenciada elevados.
pela capacidade de discriminao do item (parmetro a) Diferentemente do que se pode esperar intuitivamente,
e pela sua dificuldade (parmetro b). O parmetro a deve o parmetro de discriminao no distingue se o indivduo
ser entendido como a capacidade do item de diferenciar apresenta ou no o trao latente daquele nvel, mas permite
indivduos quanto intensidade do trao latente e o par- diferenciar pessoas que apresentam nveis semelhantes do
metro b representa o grau de dificuldade de o item gerar trao latente medido por aquele determinado item. Assim,
uma resposta afirmativa. A mtrica do parmetro b pode quanto maior for o valor do parmetro de discriminao,
variar entre - e +, mas comumente varia entre -4 e +4. mais o item capaz de detectar diferenas entre indivduos.

245
Psicologia: Reflexo e Crtica, 26(2), 241-250.

CURVA CARACTERSTICA DO ITEM


1.0

Probabilidade de resposta positiva


0.8

0.6
a
0,5

0.4

0.2

b
0
-3 -2 -1 0 1 2 3

Trao latente

Figura 1. Exemplo de Curva Caracterstica do Item (CCI) para itens dicotmicos, do modelo
logstico de dois parmetros. A CCI indica a probabilidade de resposta positiva a um dado
item (eixo y) em funo da intensidade (ou nvel) do trao latente do indivduo (valores de b
no eixo x). A inclinao da curva indica a capacidade de discriminao do item e a projeo
do valor de a no eixo x indica o valor de b para o item.

Para os itens politmicos, ou seja, aqueles que apre- localizao das categorias no trao latente e a probabilidade
sentam vrias categorias como opo de resposta, deve ser de 50% de um indivduo responder a essa categoria ou a
utilizado um modelo adequado, como o modelo de resposta categorias mais altas.
gradual, proposto por Samejima (1969). Para utilizao Para exemplificar, a Figura 2 mostra a CCI de um item
deste modelo, as categorias de resposta devem ser ordinais com cinco opes de resposta, sendo possvel visualizar
e crescentes. Segundo Andrade et al. (2000), este modelo que as probabilidades de um indivduo responder afirma-
permite obter mais informao a partir das respostas dos tivamente nas categorias 1 e 5, so maiores do que nas
indivduos do que modelos dicotmicos, nos quais s categorias 2, 3 e 4. As curvas 2 e 3 esto praticamente
existem dois tipos de respostas: afirmativas ou negativas. sobrepostas, indicando que poderiam ser agrupadas, caso
No modelo, a probabilidade de um indivduo j escolher o valor de a indicasse baixa discriminao.
uma categoria k (k=0, 1,...) ou outra mais alta do item i (na Embora os modelos possam ser usados separadamente,
mtrica normal) dada por caso o instrumento possua itens de diferentes naturezas,
os parmetros dos itens politmicos e dicotmicos podem
ser estimados conjuntamente de modo padronizado (escala
1 com mdia=0 e DP=1). Inicialmente, devem ser estimados
Pi ,k ( ) 1, 7.a i ( j bi ,k ) os parmetros a e b incluindo todos os itens. A partir desta
1 e anlise inicial, alguns itens dicotmicos podem ser retira-
dos e alguns itens politmicos podem ter suas categorias de
Neste caso, a frmula deve ser interpretada como no resposta reagrupadas, seguindo os seguintes critrios: (a)
modelo anterior. A letra k a categoria do item i, Pi,K () a parmetro a, de discriminao, menor que 0,70 ou maior
probabilidade do indivduo com gravidade estar em uma que 4,0 e/ou; (b) parmetro b, de dificuldade, maior que
particular categoria k ou outra mais alta. bi,K o parmetro 4,0 e/ou; (c) estimativas com erros padres muito grandes.
de dificuldade da k-sima categoria do item i. A seleo dos itens a serem includos no modelo deve
Uma das principais suposies deste modelo que as ser feita de acordo com o objetivo do estudo (Embretson
categorias de resposta de um item podem ser reagrupadas & Reise, 2000). Se o objetivo for, por exemplo, criar uma
caso o parmetro a indique pouca ou excessiva discrimi- verso reduzida e representativa do instrumento, outra
nao, ou seja, apresente valores menores do que 0,70 ou anlise idntica primeira pode ser feita incluindo-se
maiores do que 4,0. No modelo de resposta gradual, a CCI somente os itens mais discriminativos, adotando como
apresenta simultaneamente todas as curvas corresponden- ponto de corte a 0,70.
tes probabilidade de resposta afirmativa a cada uma das
categorias. Este modelo fornece um nico valor para o Escala do Trao Latente (Nveis do Trao Latente)
parmetro a (englobando todas as categorias) e diferentes
valores do parmetro b (um para cada categoria), sendo Os modelos logsticos da TRI apresentados anterior-
mais comumente apresentada a mdia dos valores de b. mente geram uma escala final denominada escala de
Neste caso, o valor de b de cada categoria representa a nveis do trao latente. Podendo gerar uma interpretao

246
Sartes, L. M. A. & Souza-Formigoni, M. L. O. (2013). Avanos na Psicometria: Da Teoria Clssica dos Testes Teoria de Resposta ao Item.

CURVA CARACTERSTICA DO ITEM


Modelo de Res pos ta Gradual
1
1.0

0.8

Probabilidade de respostas positiva


C at e g orias d e r es p o st a
0.6

1 2 3 4 5

0.4

0.2

2 3

0
-3 -2 -1 0 1 2 3
Trao Latente

Figura 2. Exemplo de Curva Caracterstica do Item (CCI) de um item politmico.

interessante das caractersticas de cada nvel do trao laten- pontos entre +0,6 e +1,5, enquanto o nvel -1 abrange os
te, uma explicao sobre esta escala vale ser realizada. A pontos entre -0,6 e -1,5. Assim como o valor do parmetro
escala gerada padronizada (mdia = 0 e DP=1) e, assim de dificuldade b indica a posio do item na escala do trao
como comentado em relao mtrica do parmero b, latente, na TRI posiciona-se tambm o indivduo na mes-
em teoria, esta escala poderia variar de - a +, mas na ma escala, de acordo com sua pontuao no trao latente
maioria dos softwares utilizados para anlise com a TRI, avaliado. Os escores so estimados pela TRI utilizando o
representada por oito nveis do trao latente variando mtodo da mxima verossimilhana, sendo atribudo a cada
entre -4 e +4 (Figura 3). Por exemplo, o nvel 0 abrange pessoa o escore que melhor identifica seu posicionamento
os pontos da escala entre -0,6 e +0,5; o nvel 1 abrange os na escala do trao latente.

Figura 3. Representao da escala do trao latente.

Aps a estimao dos parmetros a e b, so reali- que se encontram no mesmo nvel do trao latente do item
zados os clculos das probabilidades de um indivduo devem t-lo respondido afirmativamente e no mais do
responder positivamente aos itens, a partir das quais os que 50% (0,50) das pessoas que se encontram no nvel
itens dicotmicos so posicionados nos nveis da escala imediatamente inferior devem t-lo feito. Alm disso,
do trao latente. Considerando que o modelo para itens a diferena de probabilidade de respostas afirmativas
politmicos calcula a probabilidade de resposta para cada quele item entre dois nveis subseqentes deve ser de no
categoria separadamente, o posicionamento dos itens mnimo 30% (0,30). Mesmo que um dado item no tenha
politmicos deve ser feito a partir da mdia dos valores sido considerado ncora, seu posicionamento na escala do
de b de cada item. trao latente pode ser feito baseado nesses critrios, ainda
Portanto, a partir do posicionamento dos itens na que nem todos tenham sido preenchidos.
escala, possvel identificar onde os itens se concentram Assim, quanto mais itens ncora so encontrados,
caracterizando, assim, cada nvel. Permite tambm ava- melhor podemos caracterizar cada nvel, sendo este um
liar qual a probabilidade de indivduos que se encontram dos ltimos passos da anlise com a TRI. A interpretao
naquele nvel do trao tm de responder positivamente de cada nvel do trao latente, a partir dos itens que o
queles itens. Alguns itens so mais caractersticos de compe, alm de facilitar sua compreenso, salienta-se
determinados nveis e so denominados itens ncora. De como um interessante processo para facilitar aos clnicos
acordo com Andrade et al. (2000), para um item ser con- a determinao do perfil dos indivduos quanto ao trao
siderado ncora, mais do que 65% (0,65) das pessoas latente que est sendo medido.

247
Psicologia: Reflexo e Crtica, 26(2), 241-250.

Discusso para aplicao de um ou de outro mtodo. Nos casos em


que o usurio deseja simplesmente classificar seu grupo de
Recentemente, o uso da TRI tem se expandido, levan- entrevistados e no visa generalizar seus dados para alm
do diversos psicometristas e pesquisadores de diferentes da amostra utilizada, ou quando apresenta uma amostra
reas a utiliz-la para avaliao dos mais diversos tipos de pequena, a TCT pode ser bem empregada. Entretanto,
instrumentos psiquitricos e psicolgicos. A TRI tem se caso o pesquisador perceba que a anlise com a TCT no
mostrado como uma tcnica atraente levando os pesquisa- responde a todas as perguntas do estudo, pode-se pensar na
dores a ansiar por adot-la em suas anlises, sem considerar aplicao da TRI, que poder fornecer uma srie de outras
que esta modalidade apresenta suposies muito mais respostas e informaes sobre o instrumento. No caso da
fortes do que a TCT, alm de ser mais complexa do ponto opo pela TRI, o pesquisador deve ter conhecimento dos
de vista matemtico. De qualquer maneira, ao se observar vrios modelos propostos, e identificar aquele que melhor
as vantagens da TRI sobre a TCT, pode-se questionar por se adeque sua proposta de estudo.
que a TCT continua ainda sendo mais utilizada. Alguns Por outro lado, pode ser muito til que ambas as tc-
fatores podem explicar este fato. nicas sejam aplicadas conjuntamente, o que possibilita
Primeiro, a maioria dos cursos de graduao e at uma avaliao estrutural mais completa do instrumento,
mesmo de ps-graduao continuam focando seu co- alm de minimizar as limitaes de cada um dos mtodos.
nhecimento sobre a TCT e pouco sobre a TRI. Segundo, Cabe salientar, nesse sentido, que a TCT e a TRI devem
porque a TCT de mais simples entendimento do que a ser vistas como abordagens complementares, podendo
TRI. Um terceiro ponto refere-se ao tamanho da amostra, fornecer informaes teis em diversas fases da anlise.
que necessita ser bem maior nas anlises com a TRI do que A construo de instrumentos breves ou reduo de
com a TCT. Principalmente nos modelos mais sofisticados, instrumentos um bom exemplo no qual se justifica a
em que so avaliados mais de um parmetro dos itens ou realizao da anlise conjunta. Considerando o pouco
itens politmicos, o uso da TRI pode se tornar invivel em tempo disponvel pelos profissionais para aplicao de
alguns estudos. Um quarto aspecto, no menos importante, instrumentos longos em ambientes (settings) clnicos, a
diz respeito ao fato de que os softwares mais comumente construo de instrumentos breves ou reduo de instru-
utilizados apresentam somente as anlises clssicas, en- mentos j padronizados bastante desejvel. Sendo assim,
quanto que os programas que permitem clculos da TRI ao visar a seleo de itens e avaliao dos construtos de um
(como PARSCALE, MULTILOG, BILOG) so mais instrumento, a tcnica clssica da anlise de itens pode ser
dispendiosos e menos disponveis. aplicada previamente para avaliar os parmetros de difi-
Em resumo, a TRI um mtodo mais complexo que culdade e discriminao e identificar os melhores itens por
exige do pesquisador disposio para sua compreenso, esta anlise. Em outro contexto, a anlise fatorial pode ser
principalmente quando se trata de profissionais com empregada para se obter o nmero de fatores do construto,
formao humanstica. Ambos os mtodos (TRI e TCT) ou avaliar se o instrumento apresenta unidimensionalidade,
apresentam vises diferentes a respeito do problema, j suposio exigida para aplicao da maioria dos modelos
que so baseados em padres distintos do ponto de vista da TRI. Anlises de descrio dos dados tambm so fun-
estatstico. Sendo assim, inicialmente, pode haver certa damentais para identificar possveis erros de processo que
dificuldade na interpretao dos resultados da TRI por podem ocorrer nas fases iniciais de tratamento dos dados.
parte dos pesquisadores at ento acostumados com o Posteriormente, a TRI pode ser aplicada para refinar as
modelo da teoria clssica. No entanto, embora a TCT tenha anlises dos itens, avaliar os parmetros de dificuldade,
sido capaz de desenvolver instrumentos bons o suficiente discriminao ou acerto ao acaso (de acordo com os ob-
at ento, o esforo para utilizar adequadamente a TRI jetivos do estudo), os escores dos indivduos, descrever as
pode ser compensado, considerando que possibilita uma caractersticas do diferentes nveis do trao latente, enfim,
melhor descrio das propriedades psicomtricas dos para complementar qualquer outra informao necessria
instrumentos. ao estudo. Por fim, acreditamos que medida que o uso
No se pode deixar de ressaltar que embora a TCT da TRI se expandir e os programas de anlise se tornarem
apresente diversas limitaes, o emprego deste mtodo mais acessveis, baratos e amigveis, novas escalas sero
pode e deve continuar a ser utilizado na avaliao das desenvolvidas usando esta famlia de tcnicas.
propriedades psicomtricas dos instrumentos. A TRI no
deve ser entendida como um mtodo que visa substituir a Referncias
teoria clssica, mas sim, complementar suas anlises. Desta
maneira, o primeiro passo do pesquisador ao escolher o Alterman, A. I., Cacciola, J. S., Habing, B., & Lynch, K. G.
mtodo mais adequado para avaliao de seu instrumento (2007). Addiction severity index recent and lifetime sum-
mary indexes based on Nonparametric Item Response Theory
definir seu objetivo, qual o tamanho de sua amostra, se seu
Methods. Psychological Assessment, 19(1), 119-132.
construto pode ser unidimensional, qual mtodo gostaria de Andrade, D. F. (2001). Comparando desempenhos de grupos de
usar, qual a natureza dos itens (dicotmicos, politmicos), alunos por intermdio da Teoria de Resposta ao Item. Estudos
enfim, se seu estudo apresenta as condies necessrias em Avaliao Educacional, 23, 31-69.

248
Sartes, L. M. A. & Souza-Formigoni, M. L. O. (2013). Avanos na Psicometria: Da Teoria Clssica dos Testes Teoria de Resposta ao Item.

Andrade, D. F., Tavares, H. R., & Valle, R. C. (2000). Teoria Hambleton, R. K., & Swaminthan, H. (1985). Item Response
de Resposta ao Item: Conceitos e aplicaes. So Paulo, SP: Theory: Principles and applications. Boston, MA: Kluwer
Associao Brasileira de Estatstica. Nijhoff.
Andrade, D. F., & Valle, R. C. (1998). Introduo Teoria de Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fun-
Resposta ao Item: Conceitos e aplicaes. Estudos em Ava- damentals of Item Response Theory. Newbury Park, CA: Sage.
liao Educacional, 18, 13-32. Jiang, Y., & Hesser, J. E. (2009). Using Item Response Theory
Andriola, W. B. (1998). Utilizao da Teoria da Resposta ao Item to analyze the relationship between health-related quality
(TRI) para a organizao de um banco de itens destinados a of life and health risk factors. Preventing Chronic Disease,
avaliao do raciocnio verbal. Psicologia: Reflexo e Crtica, 6(1), A30.
11(2), 295-308. Kopec, J. A., Badii, M., McKenna, M., Lima, V. D., Sayre, E.
Andriola, W. B. (2001). Descrio dos principais mtodos para C., & Dvorak, M. (2008). Computerized adaptive testing in
detectar o Funcionamento Diferencial dos Itens (DIF). Psi- back pain: Validation of the CAT-5D-QOL. Spine, 33(12),
cologia: Reflexo e Crtica, 14(3), 643-652. 1384-1390.
Ark, L. A. (2007). Mokken Scale Analysis. Journal of Statistical Lima, M. S., Soares, B. G. O., & Bacaltchu, J. (2000). Psiquiatria
Software, 20(11), 1-19. baseada em evidncias. Revista Brasileira de Psiquiatria,
Armstrong, B. K., White, E., & Saracci, R. (1994). Principles of 22(3), 142-146.
exposure measurement in epidemiology. Oxford, UK: Oxford Lord, F. M., & Novick, M. R. (1968). Statistical theories of
University Press. mental test scores. Reading, MA: Addison-Wesley.
Bruscato, W. L. (1998). Traduo, validade e confiabilidade de Maroco, J., & Garcia-Marques, T. (2006). Qual a fiabilidade do
um inventrio de avaliao de relaes objetais (BORRTI- alpha de Cronbach? Questes antigas e solues modernas?
-FORMA O) (Tese de doutorado, Universidade Federal de Laboratrio de Psicologia, 4(1), 65-90.
So Paulo, SP, Brasil). Martin, C. S., & Chung, T. (2008). How should we revise di-
Bueno, J. M. H., Miguel, F. K., Primi, R., Muniz, M., Couto, G., & agnostic criteria for substance use disorders in the DSM-V?
Noronha, A. P. P. (2009). Comparao entre dois sistemas de Journal of Abnormal Psychology, 117(3), 561-575.
pontuao para o teste informatizado de percepes de emoo Menezes, P. R., & Nascimento, A. F. (2000). Validade e confia-
em fotos. Estudos de Psicologia (Campinas), 26(1), 35-44. bilidade das escalas de avaliao em Psiquiatria. In C. Gore-
Chachamovich, E., Fleck, M. P., Trentini, C. M., Laidlaw, K., nstein, L. H. S. G. Andrade, & A. W. Zuardi (Eds.), Escalas
& Power, M. J. (2008). Development and validation of the de Avaliao Clnica em Psiquiatria e Psicofarmacologia
Brazilian version of the Attitudes to Aging Questionnaire (Vol. 1, pp. 23-28). So Paulo, SP: Lemos.
(AAQ): An example of merging classical psychometric theory Nunes, M. F. O., Muniz, M., Nunes, C. H. S. S., Primi, R., &
and the Rasch measurement model. Health and Quality of Life Miguel, F. K. (2010). Escala Fatorial de Socializao: Verso
Outcomes, 21(6), 5. Reduzida: Seleo de itens e propriedades psicomtricas.
Cook, K. F., Choi, S. W., Crane, P. K., Deyo, R. A., Johnson,
Psicologia: Reflexo e Crtica, 23(2), 345-353.
K. L., & Amtmann, D. (2008). Letting the CAT out of the
Pasquali, L. (1997). Psicometria: Teoria e aplicaes. Braslia,
bag: comparing computer adaptive tests and an 11-item short
DF: Editora da Universidade de Braslia.
form of the Roland-Morris Disability Questionnaire. Spine,
Pasquali, L. (2009). Psicometria: Teoria dos Testes na Psicologia
33(12), 1378-1383.
e Educao. Porto Alegre, RS: Vozes.
Cri, M., Singer, J. M., & Andrade, D. F. (2011). A model for
Pasquali, L., & Primi, R. (2003). Fundamentos da Teoria de
psychiatric questionnaires with embarrassing items. Statistical
Resposta ao Item TRI. Avaliao Psicolgica, 2(2), 99-110.
Methods in Medical Research, 20(5), 451-470.
Polanczyk, G., Laranjeira, R., Zaleski, M., Pinsky, I., Caetano,
De Champlain, A. F. (2010). A primer on Classical Test Theory
R., & Rohde, L. A. (2010). ADHD in a representative sample
and Item Response Theory for Assessments in Medical Edu-
cacion. Medical Education, 44, 109-117. of the Brazilian population: Estimated prevalence and com-
DeVellis, R. F. (2006). Classical Test Theory. Medical Care, parative adequacy of criteria between adolescents and adults
44(11), 50-59. according to the item response theory. International Journals
Embretson, S. E., & Reise, S. P. (2000). Item Response Theory of Methods in Psychiatric Researchs, 19(3), 177-184.
for psychologists. Mahwah, NJ: Lawrence Erlbaum. Portney, L. G., & Watkins, M. P. (1993). Power analysis and de-
Fernandes, D. C., Prieto, G., & Delgado, A. R. (2010). Constru- termination of sample size. Foundations of Clinical Research:
o de um teste transmodal de memria de reconhecimento. Applications to practice. Norwalk, CT: Applenton & Lange.
Estudos de Psicologia (Campinas), 27(3), 283-291. Primi, R. (1998). Desenvolvimento de um instrumento infor-
Fletcher, P. (1994). A teoria da resposta ao item: Medidas inva- matizado para avaliao do raciocnio analtico (Tese de
riantes do desempenho escolar. Ensaio: Avaliao e Polticas doutorado, Universidade de So Paulo, SP, Brasil).
Pblicas em Educao, 1(2), 21-28. Rasch, G. (1961). On general laws and the meaning of mea-
Gabriel, C. G., Vasconcelos, F. A., Andrade, D. F., & Schmitz, surement in psychology. In Proceedings of the Fourth
B. A. (2009). First law regulating school canteens in Brazil: Berkeley Symposium on Mathematical Statistics and Pro-
Evaluation after seven years of implementation. Archivos bability (Vol. 1, pp. 321-334). Berkeley, CA: University of
Latinoamericanos de Nutricin, 59(2), 128-138. Chicago Press.
Grgoire, J., & Laveault, D. (2002). Introduo s Teorias dos Reeve, B. B., & Fayers, P. (2005). Applying Item Response
Testes em Cincias Humanas. Porto, Portugal: Porto. Theory modeling for evaluating questionnaire item and scale
Gulliksen, H. (1950). Theory of mental tests. New York: Wiley. properties. In P. M. Fayers & R. D. Hays (Eds.), Assessing
Hambleton, R. K., & Slater, S. C. (1997). Item Response Theory quality of life in clinical trials: Methods and practice (Vol. 1,
Models and Testing Practices: Current international status pp. 55-73. Oxford, UK: Oxford University Press.
and future directions. European Journal of Psychological Reis, E. (2001). Estatstica multivariada aplicada (2. ed). Lisboa,
Assessment, 13(1), 21-28. Portugal: Edies Slabo.

249
Psicologia: Reflexo e Crtica, 26(2), 241-250.

Reise, S. P., & Waller, N. G. (2009). Item Response Theory and


clinical measurement. Annual Review of Clinical Psychol-
ogy, 5, 27-48.
Samejima, F. A. (1969). Estimation of latent ability using a re-
sponse pattern of graded scores. Psychometric Monograph,
17.
Santos, A. A. A., Primi, R., Taxa, F. O. S., & Vendramini, C.
M. M. (2002). O teste de Cloze na avaliao da compreenso
em leitura. Psicologia: Reflexo e Crtica, 15(3), 549-560.
Schmitt, N. (1996). Uses and abuses of coefficient alpha. Psy-
chological Assessment, 8(4), 350-353.
Schuckit, M. A., Smith, T. L, Danko, G. P., Kramer, J., Godinez,
J, Bucholz, K. K., Hesselbrock, V. (2005). Prospective
evaluation of the four DSM-IV criteria for alcohol abuse
in a large population. The American Journal of Psychiatry,
162, 350-360.
Sisto, F. F., Santo, A. A. A., & Noronha, A. P. P. (2007). Estudo
sobre a dimensionalidade do teste R1 Forma B. Psicologia
em Estudo, 12(1), 185-193.
Soares, T. M. (2005). Utilizao da Teoria da Resposta ao Item
na produo de indicadores scio-econmicos. Pesquisa
Operacional, 25(1), 83-112.
Strauss, M. E., & Smith, G. T. (2009). Construct validity: Ad-
vances in theory and methodology. Annual Review of Clinical
Psychology, 5, 1-25.
Streiner, D. L. (2010). Measure for measure: New developments
in measurement and Item Response Theory. La Revue Cana-
dienne de Psychiatrie, 55(3), 180-187.
Teresi, J. A., & Fleishman, J. A. (2007). Differential item
functioning and health assessment. Quality of Life Research,
16(1), 33-42.
Vendramini, C. M. M., Silva, M. C., & Canale, M. (2004). Anlise
de itens de uma prova de raciocnio estatstico. Psicologia em
Estudo, 9(3), 487-498.
Wainer, H. (2000). Computerized Adaptive Testing: A Primer.
Mahwah, NJ: Lawrence Erlbaum.

Recebido: 30/05/2011
1 reviso: 19/03/2012
Aceite final: 30/03/2012

250