Você está na página 1de 22

Psicometria Moderna: caractersticas e tendncias1

WAGNER BANDEIRA ANDRIOLA*

RESUMO
O artigo pretende descrever as novas tendncias da Psicometria Moderna, sintetizadas na constatao do uso massivo dos modelos unidimensionais da Teoria da Resposta ao Item (TRI). Para tanto, faz-se um breve relato histrico da TRI, apresentam-se os quatro modelos unidimensionais da TRI, discutem-se os dois principais supostos da TRI unidimensionalidade e independncia local dos itens e a tcnica estatstica mais adequada sua verificao a anlise fatorial. Descrevem-se as fases de estimao dos parmetros mtricos dos itens e da aptido dos indivduos, as respectivas provas para verificar o ajuste do modelo aos dados e, finalmente, algumas ideias bsicas acerca da funo de informao dos itens. Palavras-chave: psicometria, TRI, avaliao da educao.

RESUMEN
El artculo describe las nuevas tendncias de la Psicometra Moderna, sintetizadas en la constatacin del uso intensivo de los modelos unidimensionales de la Teora de la Respuesta al tem (TRI). Para ello, es hecho um breve relato histrico de la TRI, son presentados los cuatro modelos unidimensionales de la TRI, son descriptos los dos principales supuestos de la TRI: la unidimensionalidad y la independencia local de los tems, as como la tcnica estadstica ms adecuada a su verificacin (el anlisis factorial). Son descriptas las fases de estimacin Trabalho apresentado na I Reunio da Associao Brasileira de Avaliao Educacional (Abave), realizada em Belo Horizonte (maio de 2006). * Professor Adjunto IV da Universidade Federal do Cear (UFC); Professor do Programa de Mestrado e Doutorado em Educao; Professor do Mestrado Profissional em Polticas Pblicas e Gesto da Educao Superior (POLEDUC/UFC); Coordenador de Avaliao Institucional (SDI/UFC) (w_andriola@yahoo.com/w_andriola@ufc.br).
1

Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009 319

de los parmetros mtricos de los tems y de la aptitud de los sujetos, las respectivas pruebas para verificar el ajuste del modelo a los datos y, finalmente, algunas ideas bsicas a cerca de la funcin de informacin de los tems. Palabras clave: psicometra, TRI, evaluacin de la educacin.

ABSTRACT

This paper intends to describe the new trends of Modern Psychometry, summarized in the massive use of the unidimensional models of the Item Response Theory (IRT). We presented a brief historic review of the IRT, the four unidimensional models of IRT, the two main theorical assumptions of the IRT unidimensionality and local independence of the items and the statistical technique more adequate to its verification the factorial analysis. We emphasized the steps for estimation of the metric parameters of items and the individual aptitude, the respective tests for the verification of the adjusted model and, finally, we presented some basics ideas on the item information function. Keywords: psychometry, IRT, course evaluation.

320 Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009

INTRODUO Na rea da Fsica, o conceito de escala espacial refere-se ao tamanho de um objeto qualquer, com o qual interagimos num certo momento ou lugar. No nosso cotidiano domstico lidamos com objetos de diferentes magnitudes: da ordem de alguns milmetros e centmetros (micro-chips, agulhas de costura, pilhas para relgios e mquinas de calcular), de metros (sofs, mesas e camas), de dezenas de metros (divises de uma casa ou de um apartamento), de centenas de metros (quadras que conformam bairros, que por seu turno constituem cidades). Tais exemplos, propositadamente apresentados, destacam a ideia de que os avanos cientficos verificados nos ltimos anos possibilitam-nos melhor compreenso da relao existente entre os mundos microscpio e macroscpico2 . A esse respeito cabe destacar, como forma de ilustrar a mencionada relao, como o volume de um balo que uma propriedade associada escala na qual o balo apresenta sua forma caracterstica depende das propriedades microscpicas das partculas do gs utilizado para inflar o balo. Conforme asseveram Costa e Bianchi (2002), a extenso das influncias ao longo das escalas espaciais oferece valioso subsdio para a compreenso e a anlise de problemas fsicos ou de outras naturezas quaisquer.

A situao descrita anloga ao que est ocorrendo, atualmente, com uma rea da Psicologia e da Educao denominada Psicometria Moderna. Ambas as reas, como qualquer outra cincia, exigem e empregam medies precisas das variveis que manejam. Assim, igualmente como observamos a tendncia da Fsica em utilizar medidas microscpicas para compreender fenmenos macroscpicos, a Psicometria Moderna vem empregando novos modelos de medida, conhecidos genericamente pelo nome de Teoria da Resposta ao Item (TRI). Como o prprio nome indica, a TRI possui como foco o estudo individualizado dos itens componentes de um grupo teste ou banco de itens ao contrrio da sua predecessora, a Teoria Clssica dos Testes (TCT), que tinha como objetivo a
2

O prefixo nano indica uma unidade de medida derivada, igual a 10-9 vezes a primeira (Cf. Dicionrio Novo Aurlio, Sculo XXI). No campo da Fsica, o termo quark foi cunhado pelo fsico norte-americano Murray Gell-Man e refere-se a um dos constituintes fundamentais da matria. No seu livro, El quark y el Jaguar (4 edio, Madrid: Ed. Metatemas, 2003), h uma citao que sintetiza muito bem a associao entre o micro e o macro, o simples e o complexo: (...) los quarks son las partculas elementales que constituyen el ncleo atmico (...). El Jaguar representa la complejidad del mundo que nos rodea, especialmente tal como se manifiesta en los sistemas complejos adaptativos (...). La imagen del quark e del Jaguar transmite perfectamente mi idea de lo simple y lo complejo: de un lado las leyes fsicas subyacentes de la materia y el universo, y del otro, el rico entramado del mundo que percibimos directamente y del que formamos parte (p. 29).
Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009 321

determinao das propriedades ou dos parmetros mtricos do teste (Muiz, 1997). Podemos afirmar, nesse mbito, que a TRI preocupa-se com o estudo das caractersticas mtricas dos itens, utilizando, para tanto, uma escala microscpica; j a TCT tem seu foco direcionado ao prprio instrumento de medida o teste e emprega, para tal, uma escala macroscpica. exatamente nesse aspecto em que reside a mais significativa distino entre a TRI e a TCT (Hambleton, 1997; Andriola, 2002). Sendo um novo modelo terico, necessita que muitos dos conceitos e dos supostos sejam melhor explicados pelos psicometristas. Nosso texto tem a pretenso de lanar mais luzes sobre essa rea, ainda muito superficialmente conhecida na Psicologia e na Educao, sobretudo no Brasil. Assim, realizaremos breve descrio da TRI, iniciando com comentrios superficiais acerca dos principais colaboradores e dos responsveis pelo seu surgimento, pois conforme opinou o matemtico e filsofo britnico Sir Alfred North Whitehead (1861-1947): uma cincia que esquece dos seus fundadores est irremediavelmente perdida.
TEORIA DA RESPOSTA AO ITEM (TRI): BREVE RETROSPECTIVA HISTRICA Como sempre ocorre no mbito das Cincias, os modelos ou teorias no surgem de um momento para outro, da noite para o dia, nem tampouco de forma linear (Goldstein; Wood, 1989; Serres, 1998). Conforme destaca Muiz (1994), a TRI no , como se poderia ingenuamente acreditar, um novo enfoque psicomtrico, ainda que alcance solucionar certos problemas da TCT. Lord (1980) vai um pouco mais alm e afirma que a TRI no contradiz nem os supostos nem as concluses fundamentais da TCT, to somente apresenta supostos adicionais que permitem responder questes que a TCT no podia responder.

Nesse contexto, desejamos ressaltar que o processo de criao e posterior evoluo da TRI foi lento, difcil e sinuoso, tendo comeado h mais de 50 anos (Hambleton, 1990; Muiz; Hambleton, 1992; Van der Linden; Hambleton, 1997). O artigo de L. L. Thurstone, publicado em 1925, no qual apresentada uma srie de curvas, associando a idade dos indivduos com a proporo de acertos de cada item, considerado o antecedente das modernas curvas caractersticas dos itens (CCIs). Posteriormente, M. W. Richardson, em 1936, tentou ajustar a ogiva normal s respostas aos itens, ademais de preocupar-se em adaptar a dificuldade dos itens aos objetivos do teste, o que representa a formulao antecipada da funo de informao do item (FI). G. A. Fergunson, em 1942, tambm se aproximou do conceito de CCI, utilizando os mtodos psicofsicos, mais precisamente o mtodo dos estmulos constantes. Suas investigaes possibilitaram o desenvolvimento de definies equivalentes aos
322 Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009

do parmetro de dificuldade (parmetro b), isto , o valor da varivel latente medida (geralmente simbolizada pela letra grega ) quando a probabilidade de acert-la idntica de err-la [em notao matemtica: P() = 0,5], supondo-se a inexistncia de acertos ao acaso. J em 1950, P. F. Lazarsfeld utilizou, pela primeira vez, o termo trao latente, nome que seria adotado para designar os modelos da TRI. Em sntese, estas so as origens mais remotas do nascimento formal da TRI. Cabe destacar, no entanto, o trabalho de F. M. Lord, de 1952, resultado de sua tese doutoral dirigida por H. Guliksen e assessorada por L. R. Tucker, como a formulao mais sistemtica dos principais conceitos e modelos da TRI. Entre os anos 1957-58, A. Birnbaum props novos modelos logsticos, fundamentados nos da ogiva normal de F. M. Lord, cuja vantagem mais visvel a maior facilidade de tratamento matemtico que, por conseguinte, possibilitou a gerao de novos procedimentos visando a sua aplicao prtica (Van der Linden; Hambleton, 1997). O dinamarqus G. Rasch publicou em 1960 um trabalho no qual exps com ricos detalhes o modelo logstico de um parmetro. O mencionado autor introduziu dois novos princpios moderna teoria da medida, a TRI: convergncia e separabilidade. Conforme palavras de Gavria Soto (2000):
El primero de ellos tiene que ver con la idea de que es imposible resolver el problema de la medida en las ciencias sociales si no se entra en el crculo no vicioso, en la circularidad hermenutica de una formalizacin simultnea o conjunta de los parmetros de las preguntas y sus respuestas. (p. 18)

Assim, o princpio de convergncia fundamenta-se na ideia de que, sobre as bases de uma primeira equao do modelo de medida, podem ser estimados os parmetros dos itens independentemente da magnitude das pessoas na varivel latente (), tendo sido trocado este ltimo aspecto por algo diretamente observvel: o nmero total de respostas corretas (os escores obtidos no grupo de itens empregado). Posteriormente, sobre as bases de uma segunda equao, pode-se estimar a magnitude das pessoas na varivel latente () conhecendo-se apenas os parmetros dos itens, que foram estimados na primeira equao. Finalmente, um terceiro modelo permite o contraste dos resultados da primeira com os da segunda equao. Esta terceira equao independente de todos os parmetros (dos itens e da magnitude das pessoas na varivel latente ), sendo dependente, to somente, do nmero total de respostas corretas. J o segundo princpio, o da separabilidade, est associado possibilidade de comparar as habilidades entre indivduos, sem necessidade de fazer referncia ao
Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009 323

instrumento de medida utilizado (Gavria Soto, 2000). No modelo de G. Rasch esto presentes dois supostos bsicos: 1) o indivduo com maior habilidade deveria ter, igualmente, maior probabilidade de acertar qualquer item ou problema; 2) o item mais fcil deveria possuir, teoricamente, maior probabilidade de ser respondido corretamente. Mais adiante, em 1968, F. M. Lord e M. R. Novick incrustam, definitivamente, os seus nomes na histria da psicometria moderna. Ambos publicam o livro Statistical Theories of Mental Tests Scores, marcando, desse modo, o final da primeira fase dos modelos TRI que ainda estavam no nvel terico-matemtico. Em razo de sua complexidade matemtica, da ausncia de softwares especficos para o seu uso e, sobretudo, pela descrena generalizada acerca de suas reais vantagens, os modelos TRI teriam que esperar duas longas dcadas para serem mundialmente aceitos e empregados, conforme atesta Hambleton (1990). Em 1980 outra publicao do gnio F. M. Lord Applications of Item Response Theory to Practical Testing lanou as bases para o uso da TRI nos campos da avaliao psicolgica e educacional. A partir de ento, ocorreu verdadeira expanso e fortalecimento da TRI, com o reconhecido predomnio de seu uso na psicometria moderna. Concomitantemente, multiplicaram-se as publicaes cientficas3 e as revistas especializadas na rea, os congressos abordando a avaliao por meio da TRI, dentre outras formas de abordagem da temtica. Para concluir, cabe uma constatao: na atualidade, a psicometria possui um enfoque terico dominante, o da TRI.
PRINCIPAIS MODELOS LOGSTICOS DA TRI O modelo mais parcimonioso foi proposto por G. Rasch, em 1960, tendo recebido o nome de modelo logstico de um parmetro (Andriola; Barreto, 1997). De acordo com esse modelo, a probabilidade de acerto a um item influenciada pela sua dificuldade (parmetro b). Expressando-o em notao matemtica temos: e D ( bi ) P( ) . Nela: 1 e D ( bi )

P() a probabilidade de acerto do item i, dada determinada magnitude de ; a varivel latente medida pelo item i;

3. Como ilustrao do amplo interesse pela TRI, mencione-se que a partir de 1980 mais de 300 artigos foram publicados por dois dos mais prestigiados peridicos internacionais: Journal of Educational Measurement e Applied Psychological Measurement.
324 Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009

bi o ndice de dificuldade do item i; e o valor (2,72) correspondente base dos logaritmos neperianos; D uma constante de valor 1,7.

O parmetro b do modelo em questo corresponde ao valor de no ponto de mxima inclinao da CCI, estando o seu valor numrico na mesma escala de medida de . Neste caso, mantendo-se as condies de normalidade de , isto : N(0, 1), o parmetro b relaciona-se com o ndice de dificuldade da TCT, sendo dado pela Zp expresso matemtica: b rb , onde Zp o escore padronizado, que corresponde, na curva normal, proporo de acerto ao item em foco e que denominado, na TCT, de ndice de dificuldade do item. J o termo rb a correlao bisserial entre a pontuao obtida no item e o escore total obtido no teste. O segundo tipo denominado modelo logstico de dois parmetros e foi proposto por A. Birnbaum, tendo sido desenvolvido entre 1957 e 1968. Assume que a probabilidade de acerto a um item influenciada pela sua dificuldade (parmetro b) e pela sua discriminao (parmetro a). Em termos matemticos, o modelo expresso e Da ( b ) P( ) , onde ai o ndice de discriminao do item i e os demais por 1 e Da ( b ) smbolos [P(), , e, bi, D] assumem o mesmo significado do modelo anterior, proposto por G. Rasch. O valor do parmetro a proporcional inclinao da reta tangente CCI, no ponto de maior valor desta. Em outras palavras: quanto maior for a inclinao da curva, maior ser o valor do parmetro a e, portanto, maior o seu poder para diferenciar sujeitos que possuam distintas magnitudes de . Ademais, quando tem distribuio normal [N(0, 1)] e no h acertos ao acaso (isto : quando c = 0), o valor do parmetro a dado, aproximadamente, pela expresso: rb a 1 (r ) 2 , onde rb o valor da correlao bisserial entre o item e o escore
i i i i

total, ou seja, o o equivalente ao ndice de discriminao, no mbito da TCT. O modelo logstico de trs parmetros foi tambm desenvolvido a partir dos trabalhos pioneiros de A. Birnbaum e assume que a probabilidade de acerto a um item influenciada pela sua dificuldade (parmetro b), seu poder de discriminao (parmetro a) e pela chance, em termos probabilsticos, de que seja acertado ao acaso (parmetro c). Matematicamente, o modelo expresso por:
Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009 325

e Dai ( bi ) , na qual ci a probabilidade de que o item i seja 1 e Dai ( bi ) acertado ao acaso. Os demais smbolos [P(), , e, bi, D] assumem o mesmo significado dos dois modelos anteriores. P ( ) ci (1 ci )

Neste modelo o parmetro c representa o valor assinttico da CCI quando tende a -. Em palavras menos tcnicas, o mencionado valor representa a probabilidade de acertar o item ao acaso, isto , quando o respondente nada sabe acerca do que est sendo avaliado pela questo ou item; quando a magnitude do sujeito na varivel latente medida pelo item muito pequena, isto , quando tende a -. Seu equivalente na TCT recebe a mesma denominao, isto , probabilidade de acerto ao acaso, porm com distinto modo de determinao matemtica. Por exemplo, suponhamos um item que tenha cinco alternativas propostas como respostas, sendo to somente uma delas a correta. Na TCT a probabilidade de acerto ao acaso viria AC dada por p , onde AC o nmero de alternativas corretas e AP o nmero de AP alternativas propostas. Assim, teramos p = 1 / 5 = 0,2. Finalmente, o modelo logstico de quatro parmetros foi proposto por M. A. Barton e F. M. Lord, em 1981 para investigar o problema de que, algumas vezes, por circunstncias muito especficas, tais como o descuido do respondente em escolher a alternativa correta ou o uso de procedimentos muito especficos por parte do elaborador do item, os sujeitos com elevada competncia (ou elevada magnitude na varivel latente medida pelo item, o ) no conseguem acert-lo. Por isso, os autores incorporaram o parmetro Yi, sendo sua formulao matemtica a seguinte:
e Dai ( bi ) , no qual o termo Yi adota valores inferiores a 1 1 e Dai ( bi ) e os demais componentes da equao so os mesmos descritos para os modelos de um, dois e trs parmetros logsticos. P ( ) ci
(Yi

ci )

Atualmente, so poucas as investigaes que utilizam esse modelo. A principal justificativa para isso, segundo Muiz (1997), reside no fato de que o mesmo no apresenta vantagens significativas comparativamente aos outros trs modelos e, ademais, os problemas que trata de solucionar podem ser muito bem controlados durante a elaborao dos itens. Descritos os quatro modelos logsticos, passemos agora a descrever os dois supostos centrais da TRI: a unidimensionalidade e a independncia local dos itens.
326 Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009

UNIDIMENSIONALIDADE E INDEPENDNCIA LOCAL DOS ITENS Ao principal suposto da TRI, conhecido como unidimensionalidade, subjaz uma ideia simples e atraente, que podemos encontrar em antigas concepes gregas, conforme assevera Dunham (2002):
A los antiguos griegos les apasionaban las simetras, la belleza visual y la sutil estructura lgica de la geometra. Especialmente fascinante les resultaba en como lo simple y elemental podan servir de fundamento a lo complejo e intrincado. (p. 34)

A unidimensionalidade uma proposio terica parcimoniosa e elegante, segundo a qual toda a complexidade intrnseca ao ato de resoluo de um problema de natureza cognitiva ou no deve ter como causa uma nica estrutura latente, denominada . Assim, existir uma relao funcional entre e os padres das respostas dadas a um problema, sendo essa a ideia fundamental dos quatro modelos logsticos de TRI j descritos, conforme destacam Hambleton (1983, 1990), Van der Linden e Hambleton (1997). Desse modo, a probabilidade de um indivduo j acertar ao item i depender, exclusivamente, da magnitude que ele possua na varivel latente medida e das caractersticas do item (bi) que sejam consideradas pelo modelo dificuldade, discriminao ou acerto ao acaso. A relao funcional referida pode vir a ser representada graficamente pela curva caracterstica do item (CCI). Como destaca Pasquali (1997), a CCI a caracterstica particular de cada item, sua carteira de identidade, uma vez que compartilha uma forma geral muito parecida com um S. A figura 1 apresenta a CCI de um item cujos parmetros foram estimados pelo modelo logstico de trs parmetros. Conforme propem Roussos, Schnipke e Pashley (1999), a probabilidade de acerto expressa por: P [X ij = 1 | j, bi = Pi (j)]. J a probabilidade de errar a resposta ser dada por: P [Qi (j) = 1 - Pi (j)]. Desse modo, espera-se que sujeitos com distintas magnitudes na varivel latente medida tenham diferentes probabilidades de acertar a um mesmo item, conforme representado na figura 1. Ressaltada a relao funcional teorizada pelos modelos unidimensionais da TRI, passaremos a analisar seus dois principais supostos tericos. Comecemos afirmando que a independncia local dos itens baseia-se na ideia de que a resposta a um item qualquer no afeta as respostas posteriores fornecidas aos demais itens de um grupo maior. Em palavras menos tcnicas: os itens de um teste no podem apresentar pistas que permitam aos respondentes acertar outros itens, posteriormente apresentados. De acordo com essa ideia, a independncia local dos itens pode ser matematicamente
Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009 327

Figura 1 Curva caracterstica do item (CCI) e seus respectivos valores para os parmetros de discriminao (a), dificuldade (b) e acerto ao acaso (c)

1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -3 -2 c

a = 0,58

b = 0,17

c = 0,08 1

b -1 0 Theta 1 2 3

definida como o produto das probabilidades de acertar a cada um dos itens que compem um teste unidimensional, isto : P(U1, U2, ..., Un | ) = P(U1|) x P(U2|) x ... x P(Un|), na qual U a probabilidade de acerto a um determinado item, dado certa magnitude de . Cabe destacar um paradoxo interno a este suposto terico, caso houvesse o descumprimento da independncia local dos itens. Ocorreria que a varivel unidimensional no teria toda a sua varincia explicada pelos itens utilizados para medi-la. Desse modo, far-se-ia necessrio empregar outros itens que medissem aspectos no contemplados pelos itens j utilizados. Como resultado, conforme assevera Harrison (1986), a varincia a ser explicada j no dependeria somente dos itens inicialmente utilizados, seno tambm de um conjunto secundrio de itens. Nesse caso, a unidimensionalidade da varivel latente estar ameaada. Dessa contradio, possvel inferir que, sendo respeitado o suposto da unidimensionalidade, pode-se corroborar, matematicamente, a independncia local dos itens. Assim, comprovamos a equivalncia entre os conceitos de unidimensionalidade e independncia local dos itens, conforme a opinio de Goldstein (1980). O problema agora reside numa indagao de cunho tcnico: qual o procedimento estatstico mais adequado verificao da unidimensionalidade de um grupo de itens?
328 Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009

IDEIAS BSICAS ACERCA DA ANLISE FATORIAL Na opinio de Garca Jimnez, Gil Flores e Gmez (2000), determinar a estrutura fatorial que subjaz a um grupo de itens algo extremamente importante para uma atividade com pretenses cientficas. Conforme Keeling (2000):
Determining the dimensionality of data from an empirical study is crucial to the interpretation of the analyses. Researchers can select from various rules to determine the correct number of dimensions in a data set. (p. 457)

De acordo com Gavria Soto (1988), Hattie (1984; 1985), Hattie e outros (1996), Keeling (2000) e Nandakumar (1994), embora exista enorme diversidade de mtodos para a determinao da estrutura fatorial de um conjunto de dados dentre os quais podem ser destacados: o procedimento de Bejar; o contraste de Gustaffson; o mtodo de McDonald; o contraste Q1 e Q2 de Van den Wollenberg; a anlise de precedncia modificada; o mtodo Hattie para a comparao de autovalores reais e simulados; o mtodo da equao de regresso a maioria dos autores ainda recomenda o emprego da anlise fatorial, cuja formulao matemtica : X i = aiF1 + aiF2 + ... + akFk + uiDi, onde: X i a pontuao obtida na varivel observada i; aiF1 a carga fatorial da varivel observada X i no fator 1; aiF2 a carga fatorial da varivel observada X i no fator 2; akFk a carga fatorial da varivel observada X i no fator k; uiDi a unicidade (varincia especfica ou no compartilhada) da varivel observada X i no fator especfico Di. De acordo com Martnez Arias (1997), esse modelo linear tenta explicar, assim, a atuao de construtos latentes ou fatores (F) sobre variveis observadas (X), cada uma delas com seus pesos especficos, intensidades, saturaes ou cargas fatoriais (a). Como bvio, a totalidade da varincia nunca explicada pelos fatores comuns (F), pois existe uma parte (varincia no explicada) que se deve aos fatores especficos (D), que tambm exercem influncia com certa intensidade (u) sobre as variveis observadas (X). Os modelos de TRI unidimensionais tm como objetivo extrair to-somente um fator para sintetizar o modelo geral X i = aiF1 + uiDi. O problema que raras vezes encontra-se unidimensionalidade perfeita, ou seja, to somente um fator que explique 100% da varincia total. Desse modo, a unidimensionalidade converte-se numa questo de graduao, isto , quanto mais varincia explique o primeiro fator, maior grau de unidimensionalidade existir, conforme assevera Andriola (2002).
Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009 329

PRINCIPAIS DIFICULDADES NO USO DA ANLISE FATORIAL Abundantes estudos tm sido executados para avaliar a robustez dos modelos de TRI quando estes violam o suposto da unidimensionalidade. A maioria desses estudos utiliza dados simulados por computador, conforme asseguram Ansley e Forsyth (1985), Drasgow e Parsons (1983) e Reckase (1979). Geralmente, como era de se esperar, o problema do no cumprimento do citado suposto diminui medida que aumenta a varincia explicada pelo primeiro fator. Trabalhos realizados por autores como Cuesta (1996), Drasgow e Parsons (1983) indicam que os modelos unidimensionais de TRI so bastante resistentes s violaes do mencionado suposto terico. No obstante, tm sido desenvolvidos vrios procedimentos estatsticos tendo por objetivo melhorar as estimaes com base no uso da matriz de correlaes a ser submetida anlise fatorial, todos eles considerando a natureza dos dados, isto , o seu nvel de medida (Christoffersson, 1975; Hair Jr. et al. 1999; Keeling, 2000; Stout et al. 1992).

Autores como Bernstein e Teng (1989), McDonald e Ahlawat (1974), Mislevy (1986) e Muthn (1978, 1989) opinam que o modelo linear de anlise fatorial produz resultados enviesados quando utilizado com dados politmicos ou categricos. No obstante, muitos investigadores sociais utilizam o coeficiente f (coeficiente de Pearson para dados dicotmicos) para gerar a matriz de correlao a ser fatorizada. De acordo com Waller (1995), necessrio reconhecer que o modelo linear de anlise fatorial pode distorcer a estrutura subjacente ou latente aos dados dicotmicos por duas razes: o Coeficiente de correlao de Pearson para dados de natureza dicotmica (coeficiente f) influenciado pela forma de distribuio dos itens, bem como pelo seu contedo; a dimensionalidade da matriz de correlaes de coeficientes f pode diferir da verdadeira dimensionalidade da varivel subjacente ou latente aos dados. Por exemplo, McDonald (1981), McDonald e Ahlawat (1974) demonstraram que o modelo linear de anlise fatorial pode produzir fatores esprios quando no h uniformidade na dificuldade dos itens. Gavria Soto (1988) e McDonald (1971, 1999) tambm destacam que a anlise fatorial foi proposta para ser utilizada na anlise de variveis intervalares; quando utilizada com dados dicotmicos os fatores extrados so denominados fatores de dificuldades dos itens.

De acordo com Wherry e Gaylord (1944) existem duas causas responsveis pela apario dos mencionados fatores de dificuldades:
330 Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009

ambiguidade na definio do que se entende por homogeneidade, refere-se ao contedo, dificuldade ou a ambas; falha na determinao do coeficiente de correlao utilizado para gerar a matriz de intercorrelaes.

Tais autores propem dois procedimentos para resolver essas dificuldades: se os itens so homogneos, tanto no contedo como na dificuldade, no importa qual o coeficiente de correlao a ser utilizado, pois no aparecero fatores esprios; se os itens so homogneos no contedo, mas no na dificuldade, s pode ser utilizada a correlao tetracrica, pois de outro modo aparecem fatores de dificuldade. Como afirmam Knol e Berger (1991), a anlise fatorial de dados dicotmicos deve partir sempre da anlise de uma matriz de coeficientes de correlaes tetracricas. Gavria Soto (1988), Lord e Novick (1968) apresentam excelente explicao matemtica acerca desse tema.

Nesse mbito, vale a pena mencionarmos que o programa estatstico MicroFACT, desenvolvido por Waller (1995), bastante simples e extremamente aconselhado na verificao da unidimensionalidade de dados dicotmicos. O referido programa organiza uma matriz secundria a ser fatorizada com base na matriz original de correlaes tetracricas, denominada smoothed tetrachoric correlation matrix. Resolvido o problema da gerao da matriz de correlaes a ser fatorizada, surge uma nova dificuldade: qual o nmero de fatores que devemos reter?
DETERMINAO DO NMERO DE FATORES A RETER Acerca dessa problemtica, Gavria Soto (1988) expressou sua opinio nos seguintes termos:
El problema de evaluar la unidimensionalidad de un conjunto de tems por medio del anlisis factorial no es ms que un caso particular de un problema ampliamente tratado en la literatura sobre el tema. Se trata de la determinacin del nmero de factores a retener en una solucin factorial. (p. 226)

A dificuldade reside, sobretudo, na rotao dos fatores, pois a reteno de mais ou menos fatores afeta a comunalidade das variveis que, por sua vez, influencia a
Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009 331

caracterizao dos fatores extrados, especialmente quando se executam rotaes oblquas. Existe enorme variedade de mtodos para determinar o nmero de fatores a reter depois da fatorizao, porm, em razo de seu uso frequente e a ampla citao na literatura mundial, descreveremos os dois mais conhecidos (Andriola, 2002; Garca Jimnez; Gil Flores; Gmez, 2000).
MTODO DE KAISER-GUTTMAN O mtodo est baseado nas ideias de L. Guttman discutidas no artigo Some necessary conditions for common factor analisys, publicado na revista Psychometrika, em 1954. Posteriormente, H. F. Kaiser publicou, em 1961, o texto A note on Guttmans lower bound for the number of commnon factors, na revista British Journal of Statistical Psychology, que resultou num progresso das ideias iniciais de L. Guttman. O critrio consiste em reter aqueles fatores com autovalores (eigenvalues) maiores que um, e est fundamentado na ideia de que se um fator comum deve conter ao menos a varincia equivalente a uma varivel. No entanto, h grandes discrepncias acerca da adoo desse critrio, uma vez que alguns autores consideram que o seu uso subestima o nmero de fatores, enquanto outros creem que o superestima (Gavria Soto, 1988; Keeling, 2000). MTODO SCREE-PLOT Foi proposto por R. B. Catell, cujas ideias foram publicadas em 1966 sob o ttulo The scree tests for the numbers of factors na revista Multivariate Behavioral Research. Trata-se de um procedimento muito simples, fundamentalmente grfico (Keeling, 2000). Como menciona Gavria Soto (1988), uma vez obtidos os autovalores para os fatores, estes so situados em um sistema cartesiano, no qual a abscissa representa os sucessivos fatores e a ordenada a magnitude de cada autovalor. O procedimento consiste em traar uma reta paralela aos fatores que possuam autovalores mais baixos, at que a mesma corte o eixo das ordenadas. So retidos tantos fatores quanto o nmero de eigenvalues (autovalores) que esteja na parte superior da reta. No obstante, esse procedimento apresenta problemas quando as diferenas entre as magnitudes dos autovalores correspondentes aos fatores comuns e os fatores nicos so muito pequenas.

Chegado a esse ponto, no qual os fatores foram extrados, caber, ento, ao investigador estimar os parmetros dos itens e a aptido dos indivduos na varivel latente medida ().

332 Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009

ESTIMAO DOS PARMETROS DOS ITENS E DA APTIDO DOS INDIVDUOS NA VARIVEL LATENTE Mencionamos que paralelamente estimao dos parmetros dos itens, segundo o modelo TRI escolhido pelo investigador, temos que calcular o valor da varivel latente medida () para cada sujeito. A lgica deste procedimento encontrar como valores para os parmetros aqueles que maximizem a probabilidade de ocorrncia das respostas dos sujeitos aos itens. Conforme assevera Lord (1986), tal mtodo denomina-se Mxima Verossimilhana, pelo fato de que os valores estimados so aqueles que tornam mais verossmeis ou plausveis os dados obtidos empiricamente as respostas dos indivduos a cada item. Nesse procedimento, a estimao feita por aproximaes sucessivas denominadas iteraes, cujo clculo muito laborioso e tedioso, pelo que necessrio usar programas estatsticos tais como o BILOG for Windows.

As iteraes se detm quando os valores estimados para os parmetros convergem, isto , quando aps a iterao n no se produz mudanas significativas sobre as estimaes. O problema que desconhecemos os valores da varivel latente () de cada indivduo, alm dos prprios valores dos parmetros dos itens, por isso devemos estim-los ao mesmo tempo, por meio do processo conhecido como estimao conjunta de mxima verossimilhana. Os parmetros a estimar no modelo logstico de trs parmetros ser 3n + N, onde n o nmero de parmetros do modelo e N o nmero de sujeitos, dos quais teremos que determinar seus respectivos valores na varivel latente (). Como j mencionamos, o procedimento adotado nessa estimao consiste em obter conjuntamente os valores dos parmetros que maximizem a seguinte funo matemtica:

L(u | , a, b, c)

a 1i 1

[ Pia ( )]uia [Qia ( )](1

uia )

Para encontrarmos os valores de , a, b e c que maximizem a funo L temos ln L 0 na qual P o vetor de parmetros a estimar P = que resolver a equao P k [, a, b, c] e k o nmero de vetores. Hambleton, Swaminathan e Rogers (1991) apresentam as respectivas expresses para a funo L, no caso de utilizar-se o modelo logstico de trs parmetros: Parmetro a:
ln L ai D (1 ci )
N a 1

bi )( Pia ( ) ci )(uia Pia ( )

Pia ( ))

Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009 333

Parmetro b:

ln L bi

Dai (1 ci )

N a 1

( Pia ( ) ci )(uia Pia ( )

Pia ( ))

Parmetro c:

ln L ci ln L
a

uia 1 (1 ci ) D
N i 1 N a 1

( Pia ( )) Pia ( ) Pia ( )

Construto :

ai ( Pia ( ) ci )(uia Pia ( )) (1 ci )( Pia ( ))

Afirmamos que os quatro parmetros (, a, b, c) devem ser estimados conjuntamente. Por isso, ser necessrio empregar-se tratamento multivariado do procedimento de Newton-Raphson, conforme apregoa Lord (1986). Nesse caso, a estimao realizada em dois momentos distintos e hierrquicos: Fase 1: estimao das pontuaes dos sujeitos; Fase 2: conhecidas as pontuaes dos sujeitos so estimados os parmetros mtricos dos itens, com base no modelo logstico que melhor se ajuste aos dados empricos. Ambas as fases se repetem at a obteno da convergncia conjunta, e os valores com os quais, finalmente, se alcana a mencionada convergncia so, ento, adotados como os estimadores de mxima verossimilhana conjunta. Terminada tal etapa, caber ao investigador testar o ajuste do modelo escolhido aos dados empricos.
PROVAS PARA VERIFICAR O AJUSTE DO MODELO AOS DADOS EMPRICOS Os principais procedimentos ou provas estatsticas habitualmente utilizados para verificar o ajuste do modelo aos dados empricos so: o qui-quadrado e a anlise de resduos padronizados. A lgica do qui-quadrado consiste na comparao dos valores prognosticados ou teorizados pelo modelo com os obtidos empiricamente. Para isso, divide-se a varivel medida em categorias e comparam-se os valores prognosticados com os empricos, dentro de cada categoria. No caso do ajuste perfeito, ambos os valores coincidiro em todas as categorias, do contrrio no houve ajuste. O que indica o teste do qui-quadrado se essas diferenas so estatisticamente sig334 Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009

nificativas, conforme expressa Andriola (2002). Sua formulao matemtica dada k n [ P( Pe ( j )]2 j j) por Q1 na qual: P ( j )[1 P( j )] j 1 Q1 tem distribuio como 2 com k p graus de liberdade; k o nmero de categorias na qual foi dividida; p o nmero de parmetros do modelo TRI utilizado; nj o nmero de sujeitos dentro de cada j categoria; Pe(j) a proporo de sujeitos que acertou o item, dentro de uma determinada categoria j; P(j) a probabilidade de acertar o item, dado j.

O segundo modo de verificar o ajuste do modelo aos dados empricos pode ser pela anlise dos resduos. Tambm, nesse caso, divide-se em vrias categorias ou nveis, calculando-se, em seguida, o seu respectivo resduo. Sua formulao mateP( j ) Pe ( j ) mtica dada por RE , na qual: P( j )Q( j )
nj

Nj o nmero de sujeitos na categoria j; P(j) o valor da CCI para o nvel j; Pe(j) proporo de sujeitos que acertou o item na categoria j; Q(j) o valor resultante de 1 - P(j).

A interpretao dos valores RE indica que medida que se distanciam de zero, em valor absoluto, pior ser o ajuste do modelo aos dados empricos. Uma inspeo do tamanho dos resduos para as distintas categorias nas quais se dividiu a varivel latente () pode dar-nos ideia das zonas de maior ajuste ou desajuste. frequente o estabelecimento de intervalos de valores admissveis para RE, por exemplo, RE 2.
FUNO DE INFORMAO DO ITEM (FI) Com os parmetros dos itens e o grau de aptido dos indivduos na varivel latente medida pelo item () tendo sido estabelecido, o investigador poder, agora, determinar as funes de informao dos itens (FI) para inmeros objetivos, dentre os quais estudar o funcionamento diferencial dos itens (DIF) ou organizar bancos de itens, conforme apregoa Andriola (1998, 2000, 2001, 2002) e Hambleton (1997).
Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009 335

Como o seu nome indica, a funo de informao (FI) permite conhecer a contribuio do item medida de , e o que mais importante: em que ponto ou intervalo de a [ Pi 2 ( )] informao mxima. Sua formulao dada por I i ( ) , na qual: Pi ( )Qi ( ) Ii() a funo de informao do item i, dado o valor ; Pi() a probabilidade de acerto ao item i, dado ; Qi() o valor resultante de 1 - Pi(); P2i() a derivada de Pi(). Para o uso prtico da FI, encontram-se representadas, na figura 2, a CCI e a respectiva FI de um hipottico item.
Figura 2 Curva Curva caracterstica do item(CCI) e sua respectiva funo de informao (FI) Figura 2 caracterstica do item (CCI) e sua respectiva funo de informao (FI)
a = 0,96 b = -0,71 c = 0,18

1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -3 c

1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -3 -2 c

a = 0,96

b = -0,71

c = 0,18

CCI

CCI

Funo de Informao

Funo de Informao -1 0
Theta

b -2 -1 0 Theta 1 2 3

Como se v, a FI do item proporciona maior quantidade de informao no intervalo compreendido entre -1,5 0,5 sendo, desse modo, mais til medida dessa varivel latente para os sujeitos que tenham essa mesma magnitude em . Portanto, o item em foco permite que se cometa menos erros na estimao de no intervalo -1,5 0,5. Cabe ressaltar que, nos modelos logsticos de um e dois parmetros, a informao dada pelos itens mxima quando = b. No modelo de trs parmetros a in1 1 1 b ln (1 8c) , sendo o termo formao mxima quando Da 2 2 Da uma constante de valor 1,7.
336 Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009

A quantidade de informao nesse ponto de , no qual o seu valor mximo, D2 dada por 4 para os modelos logsticos de um e dois parmetros, e para o modelo 3 D2a2 1 20c 8c 2 (1 8c) 2 . logstico de trs parmetros dada por I ( ) 8(1 c) 2 Como ressaltamos, tem sentido conceitual a denominao funo de informao (FI), pois quanto maior for I() menor ser o erro padro de medida e, por conseguinte, maior a informao acerca de . Todavia, devemos enfatizar que as funes de informao dos itens (FI) e do teste (FT) dependem da escala na qual se encontrem expressados os valores de , conforme nos lembra Lord (1980). Dado que essa escala arbitrria, o conceito e o valor da FI no so absolutos, depende, isso sim, da escala escolhida para medir . De acordo com o autor, isso no supe um inconveniente grave, mas sua ignorncia, por parte do avaliador ou do investigador, pode implicar concluses equivocadas acerca da informao proporcionada pelo item ou pelo teste, nos diferentes nveis de .
CONSIDERAES FINAIS A prtica da avaliao psicolgica e educacional sofreu profundas modificaes com o surgimento dos modelos de TRI. Como vimos, desde ento, foram propostos distintos modelos unidimensionais para dados dicotmicos; desenvolveram-se variados procedimentos para a estimao dos parmetros dos itens e da magnitude dos sujeitos na varivel latente estimao de mxima verossimilhana condicional e estimao de mxima verossimilhana conjunta; formularam-se distintas provas para verificar o grau de ajuste do modelo aos dados empricos qui-quadrado e anlise dos resduos.

Nesse novo contexto, o foco das sofisticadas anlises estatsticas desviou-se do teste (que representa o macro) para o item (que representa o micro). A lgica para tal cmbio a mesma utilizada pela Fsica Moderna: o micro exerce influncia sobre o macro. Justifica-se, desse modo, a acentuada nfase no uso dos modelos de TRI, visto que se prestam anlise acurada do micro. Nos Estados Unidos, os modelos unidimensionais de TRI so utilizados pelo reconhecido National Assessment Educational Progress (NAEP), pelas universidades em seus processos seletivos, pelo Exrcito e, ainda, pelo Programme for International Student Assessment (PISA). No Brasil, usados pelo Instituto Nacional de Estudos e Pesquisas Educacionais Ansio Teixeira (Inep), rgo subordinado ao Ministrio da Educao e do Desporto (MEC), sobretudo no Sistema Nacional de Avaliao da
Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009 337

Educao Bsica (Saeb). Ademais, algumas secretarias estaduais de educao, como a dos Estados de Minas Gerais e do Cear, dentre outras, tambm utilizam a TRI como suporte estatstico para a anlise de dados do sistema educacional (Barreto; Andriola, 2000; Soares; Genovez; Galvo, 2005). No obstante, o conhecimento acerca dos modelos unidimensionais de TRI, no mbito brasileiro, , ainda, bastante superficial. Isso um problema que dever ser encarado e combatido por meio da implementao de: cursos visando formao de recursos humanos nas reas da psicometria e da avaliao educacional; incentivo e incremento das investigaes que usam a TRI; incentivo publicao de papers, captulos de livros e livros especializados, contendo relatos de experincias bem-sucedidas que tenham feito emprego da TRI; incentivo divulgao de trabalhos acerca da TRI em congressos e eventos cientficos de cunho nacional e/ou internacional. Para concluir, desejamos ressaltar uma preocupao de carter pessoal. Convm lembrar que os psicometristas, os psiclogos e os pedagogos manejam dados educacionais que dificilmente podem ser considerados unidimensionais. Assim, Hambleton (1997) e McDonald (1989) destacam que os modelos multidimensionais de TRI, empregados minoritariamente nos Estados Unidos e em alguns pases da Unio Europeia, surgiro com muita fora nos prximos anos, pois dados politmicos e multidimensionais tm maior ocorrncia no mbito educacional. Em outras palavras: o modismo derivado do uso massivo dos modelos unidimensionais de TRI, iniciado nos anos 1980, est prestes a tornar-se procedimento ultrapassado. Nesse contexto, nos ocorre citar o escritor, ator, cineasta e dramaturgo francs, Jean Cocteau (1889-1963) que, de modo bastante irnico, certa feita destacou: a moda sempre morre jovem.
REFERNCIAS BIBLIOGRFICAS

ANDRIOLA, W. B. Descrio dos principais mtodos para detectar o funcionamento diferencial dos itens DIF. Psicologia: reflexo e crtica, v. 14, n. 3, p. 643-652, 2001. _________ . Deteccin del funcionamiento diferencial del tem DIF en tests de rendimiento: aportaciones tericas y metodolgicas. 2002. 629 p. Tese (Doutorado) - Universidade Complutense de Madrid. _________ . Principales mtodos para la determinacin del funcionamiento diferencial de los tems DIF. In: CONGRESO NACIONAL, 12, IBEROAMERICANO DE PEDAGOGA, 1, 2000, Madrid. Anais... 2000. t. II, Resmenes de

Comunicaciones. p. 49-50. _________ . Utilizao da teoria da resposta ao item TRI para a organizao de um banco de itens destinado avaliao do raciocnio verbal. Psicologia: reflexo e crtica, v. 11, n. 3, p. 295-308, 1998. ANDRIOLA, W. B.; BARRETO, J. A. E. Anlise mtrica de um instrumento de medida da aprendizagem atravs da teoria de resposta aos itens TRI. Ensaio: avaliao de polticas pblicas em educao, v. 14, n. 5, p. 59-74, 1997. ANSLEY, T. N.; FORSYTH, R. A. An Examination of the characteristics of unidimensional IRT parameters estimates derived from two

338 Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009

dimensional data. Applied Psychological Measurement, v. 9, n. 1, p. 37-48, 1985. BARRETO, J. A. E.; ANDRIOLA, W. B. O Mestrado em avaliao educacional da Universidade Federal do Cear. In: BARRETO, J. A. E.; MOREIRA, R. V. O. (Org.). Razo e f do carvoeiro: escritos de filosofia da cincia. Fortaleza: Programa Editorial Casa Jos de Alencar, 2000. BERNSTEIN, I. H.; TENG, G. Factoring items and factoring scales are different: spurius evidence for multidimensionality due to item categorization. Psychological Bulletin, v. 105, p. 467-477, 1989. CHRISTOFFERSSON, A. Factor analysis of dichotomized variables. Psychometrika, v. 40, n. 1, p. 5-32, 1975. COSTA, L. F.; BIANCHI, A. G. C. A Outra dimenso da dimenso fractal. Cincia Hoje, v. 31, n. 183, p. 40-47, 2002. CUESTA, M. Unidimensionalidad. In: MUIZ, J. (Org.). Psicometra. Madrid: Universitas, 1996. DRASGOW, F.; PARSONS, C. K. Applications of unidimensional item response theory models to multidimensional data. Applied Psychological Measurement, n. 7, p. 189-199, 1983. DUNHAM, W. Viaje a travs de los genios: biografas y teoremas de los grandes matemticos. Madrid: Pirmide, 2002. FERNANDES, T. Educao com qualidade. Cincia Hoje, v. 30, n.176, p. 56-58, 2001. GARCA JIMNEZ, E.; GIL FLORES, J.; GMEZ, G. R. Anlisis factorial. Madrid: Editorial la Muralla, 2000. (Cuadernos de estadstica, 7). GAVRIA SOTO, J. L. Fundamentos de la medida en educacin y psicologa: del representacionalismo a la medida como hiptesis. Revista de Ciencias de la Educacin, n. 184, p. 207-223, out-dez., 2000. _________ . El Supuesto de la unidimensionalidad en la teoria del rasgo latente: aportaciones metodolgicas. Madrid: Editora da Universidad Complutense de Madrid, 1988. GOLDSTEIN, H. Dimensionality, bias, independence and measurement scale problems in latent trait test score models. British Journal of Mathematical and Statistical

Psychology, v. 33, p. 234-246, 1980. GOLDSTEIN, H.; WOOD, R. Five decades of item response modelling. British Journal of Mathematical and Statistical Psychology, v. 42, p. 139-167, 1989. HAIR JR., J. F. et al. Multivariate data analysis. Londres: Prentice Hall, 1999. HAMBLETON, R. K. Aplication of item response models to criterion-referenced assessment. Applied Psychological Measurement, v. 7, n. 1, p. 33-44, 1983. _________ . Item response theory: introduction and bibliography. Psicothema, v. 2, n. 1, p. 97107, 1990. _________ . Perspectivas futuras y aplicaciones. In: MUIZ, J. Introduccin a la teora de respuestas a los tems. Madrid: Ediciones Psicologia Pirmide, 1997. p. 203213. HAMBLETON, R. K.; SWAMINATHAN, H.; ROGERS, H. J. Fundamentals of item response theory. Noth Caroline: Sage Publications, 1991. HARRISON, D. A. Robustness of IRT parameter estimation to violations of the unidimensionality assumption. Journal of Educational Statistics, v. 11, n. 2, p. 91-115, 1986. HATTIE, J. An Empirical study of various indices for determining unidimensionality. Multivariate Behavioral Research, n. 19, p. 49-78, 1984. _________ . Methodology review: assessing unidimensionality of test and items. Applied Psychologica Measurement, v. 9, n.2, p. 139-164, 1985. HATTIE, J. et al. An Assessment of stouts index of essential unidimensionality. Applied Psychological Measurement, v. 20, p. 1-14, 1996. KEELING, K. B. A Regresion equation for determing the dimensionality of data. Multivariate Behavioral Research, v. 35, n.4, p. 457-46, 2000. KNOL, D. L.; BERGER, M. P. F. Empirical comparasion between factor analysis and multidimensional item response models. Multivariate Behavioral Research, n. 26, p. 457-477, 1991. LORD, F. M. Applications of item response

Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009 339

theory to pratical testing problems. New Jersey: Lawrence Erlbaum Associates, 1980. _________ . Maximum likelihood and bayesian parameter estimation in item response theory. Journal of Educational Measurement, v. 23, n. 2, p. 157-162, 1986. LORD, F. M.; NOVICK, M. Statistical theories of mental tests scores. Massachusets: Addison Wesley, 1968. MARTNEZ ARIAS, R. Psicometria: teoria de los tests psicolgicos y educativos. Madrid: Ediciones Sintesis, 1997. MCDONALD, R. P. Difficulty factors in binary data. The British Journal of Mathematical and Statistical Psychology, n. 27, p. 82-99, 1971. _________ . The Dimensionality of test and items. The British Journal of Mathematical and Statistical Psychology, n. 33, p. 161-183, 1981. _________ . Future directions for item response theory. International Journal of Educational Research, n. 13, p. 205-230, 1989. __________. Test Theory: a unified treatment. New Jersey: Lawrence Erlbaum Associates, 1999. MCDONALD, R. P.; AHLAWAT, K. S. Difficult factors in binary data. Bristish Journal of Mathematical and Statistical Psychology, n. 27, p. 82-99, 1974. MISLEVY, R. J. Recent developments in the factor analysis of categorical variables. Journal of Educational Statistical, n. 11, p. 3-31, 1986. MUIZ, J. Introduccin a la teoria de respuesta a los tems. Madrid: Ediciones Pirmide, 1997. _________ . Teoria clsica de los tests. Madrid: Ediciones Pirmide, 1994. MUIZ, J.; HAMBLETON, R. K. Medio siglo de Teora de Respuestas a los tems. Anuario de Psicologia, n. 52, p. 41-66, 1992. MUTHN, B. Contributions to factor analysis of dichotomous variables. Psychometrika, v. 43, n. 4, p. 551-560, 1978. _________ . Dichotomous factor analysis of

sympton data. Sociological Methods & Research, n. 18, p. 19-65, 1989. NANDAKUMAR, R. Assessing dimensionality of a set of items: comparisons of different approaches. Journal of Educational Measurement, n. 31, p. 17-35, 1994. PASQUALI, L. Psicometria: teoria e aplicaes. Braslia: UnB, 1997. RECKASE, M. D. Unifactor latent trait models applied to multifactor tests: results and implications. Journal of Educational Statistics, v. 4, n. 3, p. 207-230, 1979. ROUSSOS, L. A.; SCHNIPKE, D. L.; PASHLEY, P. J. A Generalized formula for the MantelHaenszel item functioning parameter. Journal of Educational and Behavior Statistics, v. 24, n. 3, p. 293-322, 1999. SERRES, M. Historia de las ciencias. Madrid: Ctedra, 1998. SOARES, T. M.; GENOVEZ, S. F. M.; GALVO, A. F. Anlise do comportamento diferencial dos itens de geografia: estudo da 4 srie avaliada no Proeb/Simave 2001. Estudos em Avaliao Educacional, v. 16, n. 32, p. 81-110, 2005. STOUT, W. et al. DIMTEST: a fortran program for assessing dimensionality of binary items responses. Applied Psychological Measurement, v. 16, p. 236, 1992. VAN DER LINDEN, W. J.; HAMBLETON, R. K. Handbook of modern item response theory. New York: Springer Verlag, 1997. WALLER, N. G. MicroFACT 1.0. A microcomputer factor analysis program for dichotomous and ordered polytomous data and mainframe sized problems. Illinois: Assessment Systems Corporation, 1995. WHERRY, R.; GAYLORD, R. H. Factor pattern of test items and tests as a function of the correlation coefficient: content, difficult and constant error factor. Psychometrika, v. 9, p. 237-244, 1944.

Recebido em: fevereiro 2009 Aprovado para publicao em: julho 2009
340 Est. Aval. Educ., So Paulo, v. 20, n. 43, maio/ago. 2009