Escolar Documentos
Profissional Documentos
Cultura Documentos
Professor Titular do Departamento de Estat stica e Matem atica Aplicada da Universidade Federal do Cear a (UFC). e-mail: dandrade@ufc.br Professor do Departamento de Estat stica da Universidade Federal do Par a (UFPA). e-mail: heliton@ufpa.br Estat stico da Funda c ao Carlos Chagas (FCC). e-mail: rvalle@fcc.gov.br
SINAPE 2000
ii
Para
SINAPE 2000
Apresenta c ao
A avalia c ao educacional passou a ser, embora tardiamente, um dos pontos privilegiados das pol ticas educacionais. J a s ao in umeros os projetos de avalia c ao conduzidos por org aos respons aveis pelos destinos da Educa c ao em nosso pa s. Reclamava-se, por em, por uma metodologia mais sosticada e preao s o a avalia c ao pontual mas, sobretudo, a constru c ao de cisa, que permitisse n escalas de habilidades que pudessem levar a um acompanhamento do progresso do conhecimento adquirido pelos alunos ao longo do tempo. A Teoria Cl assica, baseada em resultados obtidos em provas atrav es de e ent ao, padece de escores brutos ou padronizados, largamente utilizada at v arias limita c oes, como, por exemplo, ser dependente do conjunto de itens que oem o instrumento de medida, limitando assim, a sua aplicabilidade. comp A Teoria da Resposta ao Item (TRI), que vem sendo progressivamente introduzida em nosso meio, e um instrumento poderoso nos processos quantitativos de avalia c ao educacional, pelo fato de permitir, inclusive, a constru c ao de escalas de habilidade calibradas. No entanto, a aplicabilidade da TRI tem orico, devido a encontrado algumas diculdades, tanto do ponto de vista te problemas de dif cil solu c ao no campo da estima c ao, como do ponto de vista computacional. O livro de Dalton F. Andrade, Heliton R. Tavares e Raquel C. Valle, vem ao encontro de uma real necessidade dos pesquisadores claricando alguns pontos essenciais da teoria, trazendo um exemplo pr atico de aplica c ao em larga escala, como e o caso do Sistema de Avalia c ao do Rendimento Escolar do Estado de S.Paulo (SARESP). Escrito de forma extremamente did atica, n ao requerendo do leitor conheatico-estat stico, com cimentos muito aprofundados do ponto de vista matem exce c ao de algumas partes dos cap tulos de estima c ao, aborda os principais
iv
Apresenta c ao
modelos matem aticos utilizados, os problemas de estima c ao e equaliza c ao, e aponta os recursos computacionais adequados. Certamente, o texto se tornar a um referencial obrigat orio para todos aqueles interessados em contribuir para o progresso dos aspectos quantitativos e ogicos da Educa c ao Brasileira. metodol
Rubens Murillo Marques Prof. Titular Estat stica-Matem atica da UNICAMP Diretor Presidente da Funda c ao Carlos Chagas
SINAPE 2000
Pref acio
A id eia de escrever um texto introdut orio sobre a Teoria da Resposta ao Item TRI, at e agora t ao pouco conhecida pelos especialistas em avalia c ao e pelos estat sticos no Brasil, surgiu da necessidade de se divulgar o potencial dessa teoria tanto no seu aspecto estat stico-matem atico quanto na sua aplica c ao e interpreta c ao na avalia c ao da aprendizagem e em outras areas. Nosso envolvimento com a TRI come cou em 1996, com a an alise dos dados gerados pela pesquisa AVEJU, da Secretaria de Estado da Educa c ao de S ao Paulo, e continuou no Sistema de Avalia c ao do Rendimento Escolar do Estado de S ao Paulo SARESP e no Sistema de Avalia c ao da Educa c ao B asica SAEB do INEP/MEC. Esses dois sistemas de avalia c ao possuem a sua base metodol ogica fundamentada na TRI e s ao, atualmente, os grandes exemplos no Brasil da sua potencialidade. Nossa maior preocupa c ao foi a de escrever um texto que pudesse ser utilizado n ao s o pelos estat sticos, mas tamb em pelos especialistas em avalia c ao. O sucesso da TRI passa necessariamente pelo trabalho conjunto de especialistas dessas duas areas. Devido a enorme abrang encia da TRI. Nesse sentido, procuramos detalhar alguns pontos que achamos importantes. Muito do material e id eias apresentadas nesse livro foram desenvolvidos durante o planejamento e a an alise do SARESP e nos treinamentos que ministramos para t ecnicos da Secretaria de Estado da Educa c ao de S ao Paulo, da Funda c ao para o Desenvolvimento da Educa c ao - FDE e da Funda c ao Carlos Chagas, aos quais queremos agradecer a paci encia e dedica c ao. Gostariamos tamb em de expressar os nossos maiores agradecimentos a Yara L ucia Esp osito, Ruben Klein e Heraldo Vianna pelos longos papos e discuss oes sobre os aspectos te oricos e aplicados da TRI e a Profa. Rose Neubauer, Secret aria de
vi
Pref acio
Estado da Educa c ao de S ao Paulo, pela utiliza c ao de parte dos resultados do SARESP. Devido a enorme abrang encia da TRI, procuramos detalhar os pontos que achamos mais interessantes para um texto introdut orio e fornecer o maior n umero poss vel de refer encias bibliogr acas que cobrissem os outros pontos. Este trabalho foi parcialmente nanciado pelo CNPq, pela CAPES, pelo Projeto Tem atico da FAPESP no. 96/01741-7 e pelo PRONEX no. 76.97.1081.00.
Fevereiro 2000 Dalton Francisco de Andrade Heliton Ribeiro Tavares Raquel da Cunha Valle
SINAPE 2000
Conte udo
Apresenta c ao Pref acio Lista de Figuras 1 Introdu c ao 2 Modelos Matem aticos 2.1 Introdu c ao . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Modelos envolvendo um u nico grupo . . . . . . . . . . . 2.2.1 Modelos para itens dicot omicos ou dicotomizados 2.2.2 Modelos para itens n ao dicot omicos . . . . . . . 2.3 Modelos envolvendo duas ou mais popula c oes . . . . . 3 Estima c ao: uma u nica popula c ao 3.1 Introdu c ao . . . . . . . . . . . . . . . . . . . . . 3.2 Estima c ao dos par ametros dos itens . . . . . . . 3.2.1 Aplica c ao do algoritmo Newton-Raphson 3.2.2 Aplica c ao do m etodo Scoringde Fisher . 3.2.3 Erro-padr ao . . . . . . . . . . . . . . . . . 3.2.4 Escore nulo ou perfeito . . . . . . . . . . . 3.2.5 Estimativas iniciais . . . . . . . . . . . . . 3.3 Estima c ao das habilidades . . . . . . . . . . . . 3.3.1 Aplica c ao do algoritmo Newton-Raphson 3.3.2 Aplica c ao do m etodo Scoringde Fisher . 3.3.3 Erro-padr ao . . . . . . . . . . . . . . . . .
iii v 1 3 7 7 8 8 18 25 27 27 31 37 41 42 43 43 44 46 47 47
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
viii 3.3.4 Escore nulo ou perfeito . . . . . . . . . . . . . . . 3.3.5 Estimativas iniciais . . . . . . . . . . . . . . . . . Estima c ao conjunta: par ametros dos itens e habilidades M axima verossimilhan ca marginal . . . . . . . . . . . . 3.5.1 Abordagem de Bock & Lieberman . . . . . . . . 3.5.2 M etodos iterativos . . . . . . . . . . . . . . . . . 3.5.3 M etodos de quadratura . . . . . . . . . . . . . . 3.5.4 Abordagem de Bock & Aitkin . . . . . . . . . . . 3.5.5 Aplica c ao do algoritmo EM . . . . . . . . . . . . Estima c ao bayesiana . . . . . . . . . . . . . . . . . . . 3.6.1 Estima c ao dos par ametros dos itens . . . . . . . 3.6.2 Estima c ao das habilidades . . . . . . . . . . . . . Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4 3.5
3.6
3.7
4 Equaliza c ao 4.1 Introdu c ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Diferentes tipos de equaliza c ao . . . . . . . . . . . . . . . . . . . 4.2.1 Um u nico grupo fazendo uma u nica prova . . . . . . . . . 4.2.2 Um u nico grupo fazendo duas provas totalmente distintas 4.2.3 Um u nico grupo fazendo duas provas parcialmente distintas 4.2.4 Dois grupos fazendo uma u nica prova . . . . . . . . . . . 4.2.5 Dois grupos fazendo duas provas totalmente distintas . . . 4.2.6 Dois grupos fazendo duas provas parcialmente distintas . 4.3 Diferentes problemas de estima c ao . . . . . . . . . . . . . . . . 4.3.1 Quando todos os itens s ao novos . . . . . . . . . . . . . . 4.3.2 Quando todos os itens j a est ao calibrados . . . . . . . . . 4.3.3 Quando alguns itens s ao novos e outros j a est ao calibrados 4.4 Equaliza c ao a posteriori . . . . . . . . . . . . . . . . . . . . . . . 5 Estima c ao: duas ou mais popula c oes 5.1 Introdu c ao . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Nota c oes e deni c oes . . . . . . . . . . . . . . . . . . . 5.3 Estima c ao dos par ametros dos itens . . . . . . . . . . . 5.4 Estima c ao dos par ametros populacionais . . . . . . . . 5.4.1 Estima c ao conjunta: aplica c ao do algoritmo EM Andrade, Tavares & Valle
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
SINAPE 2000
ix 5.5 Estima c ao bayesiana dos par ametros dos itens 5.6 Estima ca o das habilidades . . . . . . . . . . . 5.6.1 Estima c ao por MV . . . . . . . . . . . . 5.6.2 Estima c ao por MAP . . . . . . . . . . . 5.6.3 Estima c ao por EAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 105 105 106 106 109 109 109 112 113 114 115 118 123 123 123 124 126 126 128 128 130
6 A Escala de Habilidade e uma Aplica c ao Pr atica 6.1 Introdu c ao . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Constru c ao e interpreta c ao de escalas de habilidade . . . . 6.3 Uma aplica c ao pr atica . . . . . . . . . . . . . . . . . . . . 6.3.1 As caracter sticas da aplica c ao . . . . . . . . . . . . 6.3.2 O tipo de resultados alcan cados . . . . . . . . . . . . 6.3.3 Um exemplo: a L ngua Portuguesa na 3.a e 4.a s eries 6.3.4 Interpreta c ao dos resultados . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
7 Recursos computacionais 7.1 Introdu c ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Recursos computacionais . . . . . . . . . . . . . . . . . . . . . . 7.2.1 Os programas BILOG for Windows v. 3.09 e BILOG-MG v. 1.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.2 M etodos para a calibra c ao dos itens . . . . . . . . . . . . 7.2.3 M etodos implementados para a estima c ao das habilidades 7.3 A equaliza c ao nos programas BILOG e BILOG-MG . . . . . . . 7.3.1 O BILOG e o BILOG-MG frente a popula c oes e/ou provas distintas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.2 O BILOG e o BILOG-MG frente ao conjunto de itens a ser calibrado . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.3 O uso do BILOG-MG quando desejamos xar parte dos itens e calibrar o restante, e h a mais de uma popula c ao envolvida . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Considera c oes gerais A A.1 A.2
131 135
x A.3
SINAPE 2000
Lista de Figuras
Exemplo de uma Curva Caracter stica do Item CCI . . . . . Curvas caracter sticas e de informa c ao de v arios itens . . . . . Representa c ao gr aca dos modelos de escala gradual e de resposta gradual . . . . . . . . . . . . . . . . . . . . . . . . . . . . Representa c ao gr aca de 6 situa c oes quanto ao n umero de grupos e de tipos de provas . . . . . . . . . . . . . . . . . . . . . . Gr aco de dispers ao das estimativas do par ametro de diculdade - b dos itens comuns da prova de L ngua Portuguesa da 8.a s erie entre o RN e o SAEB . . . . . . . . . . . . . . . . . . Gr aco de dispers ao das estimativas do par ametro de discrimina c ao - a dos itens comuns da prova de L ngua Portuguesa da 8.a s erie entre o RN e o SAEB . . . . . . . . . . . . . . . . .
11 14 22
4.1 4.2
80
89
4.3
90
Exemplo de 2 itens ancora . . . . . . . . . . . . . . . . . . . . . 111 Esquema da composi c ao da prova de liga c ao . . . . . . . . . . . 116 Representa c ao gr aca da distribui c ao a posteriori das habilidades em L ngua Portuguesa dos alunos da 3.a s erie . . . . . . . . 117 Representa c ao gr aca da distribui c ao a posteriori das habilidades em L ngua Portuguesa dos alunos da 4.a s erie . . . . . . . . 118 Esquematiza c ao dos itens comuns entre as provas . . . . . . . . 132
7.1
Cap tulo 1
Introdu c ao
Resultados obtidos em provas, expressos apenas por seus escores brutos ou padronizados, t em sido tradicionalmente utilizados nos processos de avalia c ao e sele c ao de indiv duos. No entanto, os resultados encontrados dependem do oes) que comp oem o instrumento de meparticular conjunto de itens (quest dida, ou seja, as an alises e interpreta c oes est ao sempre associadas ` a prova como um todo, o que e a caracter stica principal da Teoria Cl assica das Medidas. Assim, torna-se invi avel a compara c ao entre indiv duos que n ao foram submetidos ` as mesmas provas, ou pelo menos, ao que se denomina de formas paralelas de testes. Maiores detalhes sobre essa metodologia, incluindo c ao matem atica, podem ser encontrados em Gulliksen (1950), sua fundamenta Lord & Novick (1968) e Vianna (1987), entre outros. Atualmente, em v arias areas do conhecimento, particularmente em avalia c ao educacional, vem crescendo o interesse na aplica c ao de t ecnicas derivadas da oe modelos para os tra cos laTeoria de Resposta ao Item TRI, que prop duo que n ao podem ser observadas tentes, ou seja, caracter sticas do indiv diretamente. Esse tipo de vari avel deve ser inferida a partir da observa c ao de vari aveis secund arias que estejam relacionadas a ela. O que esta metodologia sugere s ao formas de representar a rela c ao entre a probabilidade de um indiv duo dar uma certa resposta a um item e seus tra cos latentes, proci encias ou habilidades na area de conhecimento avaliada. Uma das grandes vantagens da TRI sobre a Teoria Cl assica e que ela permite a compara c ao entre popula c oes, desde que submetidas a provas que tenham alguns itens comuns, ou ainda, a compara c ao entre indiv duos da mesma popula c ao que tenham sido submetidos a provas totalmente diferentes. Isto porque uma das principais caracter sticas da TRI e que ela tem como elementos centrais os itens, e n ao a prova como um todo. Assim, v arias quest oes de interesse pr atico na area da Educa c ao podem
Introdu c ao
poss ser respondidas. E vel por exemplo, avaliar o desenvolvimento de uma determinada s erie de um ano para outro ou comparar o desempenho entre escolas p ublicas e privadas. Os primeiros modelos de resposta ao item surgiram na d ecada de 50, e eram modelos em que se considerava que uma u nica habilidade, de um u nico grupo, estava sendo medida por um teste onde os itens eram corrigidos de maneira dicot omica. Estes modelos foram primeiramente desenvolvidos na forma de uma fun c ao ogiva normal e, depois, foram descritos para uma forma matem atica mais conveniente, e que vem sendo usada at e ent ao: a log stica. Lord (1952) foi o primeiro a desenvolver o modelo unidimensional de 2 par ametros, baseado na distribui c ao normal acumulada (ogiva normal). Ap os algumas aplica c oes desse modelo, o pr oprio Lord sentiu a necessidade da incorpora c ao de um par ametro que tratasse do problema do acerto casual. Assim, surgiu o modelo de 3 par ametros. Anos mais tarde, Birnbaum (1968) substituiu, em ambos os modelos, a fun c ao ogiva normal pela fun c ao log stica, mae uma fun c ao expl cita dos par ametros tematicamente mais conveniente, pois do item e de habilidade e n ao envolve integra c ao. Independentemente do traos o modelo unidimensional de 1 par ametro, balho de Lord, Rasch (1960) prop expresso tamb em como modelo de ogiva normal e, tamb em mais tarde descrito por um modelo log stico por Wright (1968). Samegima (1969) prop os o modelo de resposta gradual com o objetivo de c ao das respostas dos indiv duos do que simplesmente se obter mais informa eles deram respostas corretas ou incorretas aos itens. Bock (1972), Andrich (1978), Masters (1982) e Muraki (1992) tamb em propuseram modelos para mais de duas categorias de resposta, assumindo diferentes estruturas entre essas categorias. Recentemente, Bock & Zimowski (1997) introduziram os modelos log sticos de 1, 2 e 3 par ametros para duas ou mais popula c oes de respondentes. A introdu c ao desses modelos trouxe novas possibilidades para as compara c oes de rendimentos de duas ou mais popula c oes submetidas a diferentes testes com itens comuns, conforme discutido em Hedges & Vevea (1997) e Andrade (1999), por exemplo. Um ponto cr tico na TRI e a estima c ao dos par ametros envolvidos nos ametros dos modelos, em particular quando necessita-se estimar tanto os par itens quanto as habilidades. Inicialmente, a estima c ao era feita atrav es do Andrade, Tavares & Valle SINAPE 2000
5 m etodo da m axima verossimilhan ca conjunta que envolve um n umero muito grande de par ametros a serem estimados simultaneamente e, consequentemente, grandes problemas computacionais. Em 1970, Bock & Lieberman introduziram o m etodo da m axima verossimilhan ca marginal para a estima c ao dos par ametros em duas etapas. Na primeira etapa estimam-se os par ametros dos itens, assumindo-se uma certa distribui c ao para as habilidades. Na segunda etapa, assumindo os par ametros dos itens conhecidos, estimam-se as habilidades. Apesar do avan co que esse m etodo trouxe para o problema, ele ametros dos itens fossem estimados simultaneamente. requeria que todos os par Em 1981, Bock & Aitkin propuseram uma modica c ao no m etodo acima, utilizando o algoritmo EM de Dempster, Laird & Rubin (1977), de modo a permitir que os itens pudessem ter seus par ametros estimados em separado, facilitando em muito o aspecto computacional do processo de estima c ao. Mais recentemente, m etodos bayesianos foram propostos para, entre outras coisas, resolver o problema de estima c ao dos par ametros dos itens respondidos corretamente em o problema da esou incorretamente por todos os respondentes, e tamb tima c ao das habilidades dos respondentes que acertaram ou erraram todos os itens da prova. Nas u ltimas d ecadas, a TRI vem tornando-se a t ecnica predominante no campo de testes em v arios pa ses. Aqui no Brasil, a TRI foi usada pela primeira vez em 1995 na an alise dos dados do Sistema Nacional de Ensino B asico SAEB. A introdu c ao da TRI permitiu que os desempenhos de alunos de 4a. eries do Ensino Fundamental e de 3a. s erie do Ensino Fundamental e 8a. s pudessem ser comparados e colocados em uma escala u nica de conhecimento. A partir dos resultados obtidos no SAEB, outras avalia c oes em larga escala, como por exemplo o Sistema de Avalia c ao de Rendimento Escolar do Estado ao Paulo - SARESP, tamb em foram planejadas e implemementadas de de S modo a serem analisadas atrav es da TRI. Uma lista das principais aplica c oes da TRI no Brasil em avalia c oes educacionais pode ser encontrada em Andrade & Klein (1999). O objetivo desse livro e introduzir os principais conceitos, modelos e resultados que podem ser obtidos a partir da aplica c ao da TRI. No Cap tulo 2 s ao apresentados os modelos, com suas interpreta c oes e suposi c oes b asicas. c ao dos par ametros dos itens No Cap tulo 3 discute-se o processo de estima e das habilidades dos respondentes pertencentes a uma u nica popula c ao. O Andrade, Tavares & Valle SINAPE 2000
Introdu c ao
conceito de equaliza c ao e suas diferentes formas de obten c ao s ao discutidos no Cap tulo 4. Os m etodos de estima c ao s ao retomados no Cap tulo 5 com o modelo para duas ou mais popula c oes. No Cap tulo 6 discute-se a cria c ao de escalas de habilidade e suas interpreta c oes e uma aplica c ao a dados reais. No Cap tulo 7 apresentam-se os principais recursos computacionais e no Cap tulo 8 apresentam-se coment arios sobre a utiliza c ao da TRI, inclusive em outras areas, e poss veis t opicos para pesquisa. Por u ltimo, apresentam-se demonstra c oes de alguns dos resultados do Cap tulo 3 no Ap endice e uma bibliograa com outras refer encias al em daquelas citadas no texto, com o objetivo de fornecer ao leitor o maior n umero de informa c oes sobre a TRI. Os autores recomendam fortemente a leitura de Lord (1980) e Hambleton, Swaminathan & Rogers (1991) para maiores detalhes dos fundamentos e aplica c oes dessa teoria.
SINAPE 2000
Cap tulo 2
2.1 Introdu c ao
A TRI e um conjunto de modelos matem aticos que procuram representar a probabilidade de um indiv duo dar uma certa resposta a um item como fun c ao dos par ametros do item e da habilidade (ou habilidades) do respondente. Essa rela c ao e sempre expressa de tal forma que quanto maior a habilidade, maior a probabilidade de acerto no item. Os v arios modelos propostos na literatura dependem fundamentalmente de tr es fatores:
(i) da natureza do item dicot omicos ou n ao dicot omicos; (ii) do n umero de popula c oes envolvidas apenas uma ou mais de uma; (iii) e da quantidade de tra cos latentes que est a sendo medida apenas um ou mais de um. Nesse livro estaremos somente considerando modelos que avaliam apenas um co latente ou habilidade, os chamados modelos unidimensionais. Modelos tra a sendo medida, os chamados que consideram que mais de uma habilidade est modelos multidimensionais, podem ser encontrados em Linden & Hambleton (1997), por exemplo. Na Se c ao 2.2 apresentaremos os modelos unidimensionais mais utilizados para um u nico grupo. Os modelos para dois ou mais grupos ser ao discutidos na Se c ao 2.3.
ou errado) quanto para a an alise de itens abertos (de resposta livre), quando avaliados de forma dicotomizada. Na pr atica, os modelos log sticos para itens dicot omicos s ao os modelos de resposta ao item mais utilizados, sendo que h a basicamente tr es tipos, que se diferenciam pelo n umero de par ametros que utilizam para descrever o item. Eles s ao conhecidos como os modelos log sticos de 1, 2 e 3 par ametros, que consideram, respectivamente: (i) somente a diculdade do item; (ii) a diculdade e a discrimina c ao; (iii) a diculdade, a discrimina c ao e a probabilidade de resposta correta dada por indiv duos de baixa habilidade. Neste livro, daremos maior enfase ` a explica c ao do modelo log stico de 3 par ametros, uma vez que e o mais completo e portanto os outros dois podem ser facilmente obtidos a partir dele. O modelo log stico de 3 par ametros (ML3) Deni c ao Dos modelos propostos pela TRI, o modelo log stico unidimensional de 3 par ametros (ML3) e atualmente o mais utilizado e e dado por: P (Uij = 1|j ) = ci + (1 ci ) 1 1+ eDai (j bi ) , (2.1)
com i = 1, 2, , I, e j = 1, 2, , n, onde: Uij e uma vari avel dicot omica que assume os valores 1, quando o indiv duo j responde corretamente o item i, ou 0 quando o indiv duo j n ao responde corretamente ao item i. j representa a habilidade (tra co latente) do j - esimo indiv duo. Andrade, Tavares & Valle SINAPE 2000
10
P (Uij = 1|j ) e a probabilidade de um indiv duo j com habilidade j responder corretamente o item i e e chamada de Fun c ao de Resposta do Item FRI. bi ai e o par ametro de diculdade (ou de posi c ao) do item i, medido na mesma escala da habilidade. e o par ametro de discrimina c ao (ou de inclina c ao) do item i, com valor proporcional ` a inclina c ao da Curva Caracter stica do Item CCI no ponto bi . e o par ametro do item que representa a probabilidade de indiv duos com baixa habilidade responderem corretamente o item i (muitas vezes referido como a probabilidade de acerto casual). e um fator de escala, constante e igual a 1. Utiliza-se o valor 1,7 quando deseja-se que a fun c ao log stica forne ca resultados semelhantes ao da c ao ogiva normal. fun
ci
Interpreta c ao e representa ca o gr aca Note que P (Uij = 1|j ) pode ser vista como a propor c ao de respostas corduos da popula c ao com habilidade j . A retas ao item i dentre todos os indiv rela c ao existente entre P (Uij = 1|j ) e os par ametros do modelo e mostrada na Figura 2.1, que e chamada de Curva Caracter stica do Item CCI. O modelo proposto baseia-se no fato de que indiv duos com maior habilidade c ao n ao e linear. possuem maior probabilidade de acertar o item e que esta rela De fato, pode-se perceber a partir do gr aco acima que a CCI tem forma de Scom inclina c ao e deslocamento na escala de habilidade denidos pelos par ametros do item. A escala da habilidade e uma escala arbitr aria onde o importante s ao as rela c oes de ordem existentes entre seus pontos e n ao necessariamente sua ametro b e medido na mesma unidade da habilidade e o magnitude. O par ametro c n ao depende da escala, pois trata-se de uma probabilidade, e par como tal, assume sempre valores entre 0 e 1. Na realidade, o par ametro b representa a habilidade necess aria para uma Andrade, Tavares & Valle SINAPE 2000
11
Curva caracterstica do item - CCI prob. de resposta correta 1.0 0.8 0.6 0.4 0.2 0.0 -4.0 c b a
iiiiiiii
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
habilidade
probabilidade de acerto igual a (1 + c)/2. Assim, quanto maior o valor de b, mais dif cil e o item, e vice-versa. O par ametro c representa a probabilidade de um aluno com baixa habilidade responder corretamente o item e e muitas vezes referido como a probabilidade de acerto ao acaso. Ent ao, quando n ao e permitido chutar, c e igual a 0 e b representa o ponto na escala da habilidade onde a probabilidade de acertar o item e 0,5. O par ametro a e proporcional ` a derivada da tangente da curva no ponto de inex ao. Assim, itens com a negativo n ao s ao esperados sob esse modelo, uma vez que indicariam que a probabilidade de responder corretamente o item diminui com o aumento da habilidade. Baixos valores de a indicam que o item tem pouco poder de discrimina c ao (alunos com habilidades bastante diferentes t em aproximadamente a mesma probabilidade de responder corretamente ao item) e valores muito altos indicam itens com curvas caracter sticas muito ngremes, que discriminam os alunos basicamente em dois grupos: os que ametro b e os que possuem habilipossuem habilidades abaixo do valor do par dades acima do valor do par ametro b. Andrade, Tavares & Valle SINAPE 2000
Uma medida bastante utilizada em conjunto com a CCI e a fun c ao de informa c ao do item. Ela permite analisar quanto um item (ou teste) cont em de informa c ao para a medida de habilidade. A fun c ao de informa c ao de um item e dada por:
d d Pi ( ) 2
Ii () = onde, Ii ()
Pi ()Qi ()
Pi () = P (Xij = 1|)
No caso do modelo log stico de 3 par ametros, a equa c ao pode ser escrita como: Ii () = D2 a2 i Qi () Pi () ci Pi () 1 ci
2
Esta equa c ao mostra a import ancia que t em os tr es par ametros sobre o montante de informa c ao do item. Isto e, a informa c ao e maior: (i) quando bi se aproxima de ; (ii) quanto maior for o ai ; (iii) e quanto mais ci se aproximar de 0.
Fun c ao de Informa c ao do Teste A informa c ao fornecida pelo teste e simplesmente a soma das informa c oes fornecidas por cada item que comp oe o mesmo: Andrade, Tavares & Valle SINAPE 2000
13
I () =
i=1
Ii ().
Outra maneira de representar esta fun c ao de informa c ao do teste e atrav es do erro-padr ao de medida, chamado na TRI de erro-padr ao de estima c ao, que e dado por EP () = 1 I () .
importante notar que essas medidas de informa E c ao dependem do valor de . Assim, a amplitude do intervalo de conan ca para depender a tamb em do seu valor. Alguns exemplos de curvas caracter sticas e de curvas de informa c ao (tra cado c oes de valores dos par ametros a pontilhado) de itens com diferentes combina e b s ao apresentados na Figura 2.2. Comparando-se os itens 2 e 4 (e tamb em os itens 1 e 3) pode-se perceber que os itens com maior valor do par ametro a t em a curva caracter stica com inclina c ao mais acentuada. A consequ encia disto e que a diferen ca entre as duos com habilidades 2,00 probabilidades de resposta correta de dois indiv e 1,00, por exemplo, e maior no item 4 (0,37=0,88-0,51) do que no item 2 (0,25=0,80-0,55). Em outras palavras, o item 4 e mais apropriado para discriminar estes dois indiv duos do que o item 2. Por este motivo e que o par ametro a e denominado de par ametro de discrimina c ao (ou de inclina c ao) do item. Por outro lado, comparando-se os itens 1 e 2 (e tamb em os itens 3 e 4), podese perceber que os itens com maior valor do par ametro b exigem uma habilidade maior para uma mesma probabilidade de resposta correta. Por exemplo, a habilidade requerida para uma probabilidade de resposta correta de 0,60 e igual a -0,20 no item 1 e igual a 1,20 no item 2. Isto e, o item 2 e mais dif cil do que o item 1. Assim, o par ametro b e denominado de par ametro de diculdade (ou de posi c ao) do item. Note que a cada item est a associado um intervalo na escala de habilidade no qual o item tem maior poder de discrimina c ao. Este intervalo e denido ametro b e est a mostrado nos gr acos pelas curvas em torno do valor do par de informa c ao (tra cados pontilhados). Deste modo, a discrimina c ao entre bons Andrade, Tavares & Valle SINAPE 2000
14
-2,00
-1,00
0,00
1,00
2,00
3,00
-2,00
-1,00
0,00
1,00
2,00
3,00
habilidade
habilidade
-2,00
-1,00
0,00
1,00
2,00
3,00
0,00 -3,00
-2,00
-1,00
0,00 habilidade
1,00
2,00
3,00
habilidade
alunos e feita a partir de itens considerados dif ceis e n ao de itens considerados f aceis. Apesar de receberem a mesma denomina c ao da Teoria Cl assica de Medida, o par ametro de diculdade do item n ao e medido por uma propor c ao (valor entre 0 e 1) e o par ametro de discrimina c ao n ao e uma correla c ao (valor entre -1 e 1). Na TRI, estes dois par ametros podem, teoricamente, assumir qualquer valor real entre e +. Por em, como j a foi dito, n ao se espera um valor negativo para o par ametro a. Na pr atica, as habilidades e os par ametros dos itens s ao estimados a partir Andrade, Tavares & Valle SINAPE 2000
15
das respostas de um grupo de indiv duos submetidos a esses itens, mas uma vez estabelecida a escala de medida da habilidade, os valores dos par ametros dos itens n ao mudam, isto e, seus valores s ao invariantes a diferentes grupos de respondentes, desde que os indiv duos destes grupos tenham suas habilidades medidas na mesma escala. A Escala de Habilidade Diferentemente da medida escore em um teste com I quest oes do tipo certo/errado, que assume valores inteiros entre 0 e I , na TRI a habilidade pode teoricamente assumir qualquer valor real entre e +. Assim, precisa-se estabelecer uma origem e uma unidade de medida para a deni c ao da escala. ao escolhidos de modo a representar, respectivamente, o valor Esses valores s m edio e o desvio-padr ao das habilidades dos indiv duos da popula c ao em estudo. Para os gr acos mostrados anteriormente, utilizou-se a escala com m edia igual a 0 e desvio-padr ao igual a 1, que ser a representada por escala (0,1). Essa ametro b escala e bastante utilizada pela TRI, e nesse caso, os valores do par variam (tipicamente) entre -2 e +2. Com rela c ao ao par ametro a, espera-se valores entre 0 e +2, sendo que os valores mais apropriados de a seriam aqueles maiores do que 1. Apesar da frequente utiliza c ao da escala (0,1), em termos pr aticos, n ao faz a menor diferen ca estabelecer-se estes valores ou outros quaisquer. O importante s ao as rela c oes de ordem existentes entre seus pontos. Por exemplo, na escala (0,1) um indiv duo com habilidade 1,20 est a 1,20 desvios-padr ao acima da habilidade m edia. Este mesmo indiv duo teria a habilidade 248, e conseem 1,20 desvios-padr ao acima da habilidade m edia, quentemente estaria tamb se a escala utilizada para esta popula c ao fosse a escala(200;40). Isto pode ser c ao de escala: visto a partir da transforma a( b) = (a/40)[(40 + 200) (40 b + 200)] = a ( b ), onde a( b) e a parte do modelo probabil stico proposto envolvida na transforma c ao. Assim, tem-se que: 1. = 40 + 200, Andrade, Tavares & Valle SINAPE 2000
Por exemplo, os valores dos par ametros a e b do item 1 mostrado anteriormente, na escala (0,1) s ao, respectivamente, 0,80 e -0,20 e seus correspondentes ao, respectivamente, 0,02 = 0,80 / 40 e 192 = 40 (-0,20) na escala(200;40) s + 200. Al em disso, um indiv duo com habilidade = 1, 00 medida na escala (0,1) tem sua habilidade representada por = 40 1,00 + 200 = 240 na escala(200;40) e P (U1 = 1| = 1) = 0, 20 + (1 0, 20) 1 1 + e1,70,80(1(0,20)) 1 = 0, 20 + (1 0, 20) 1 , 7 0 ,02(240192) 1+e = P (U1 = 1| = 240) = 0, 87,
ou seja, a probabilidade de um indiv duo responder corretamente a um certo e sempre a mesma, independentemente da escala utilizada para medir a item sua habilidade, ou ainda, a habilidade de um indiv duo e invariante ` a escala de medida. Assim, n ao faz qualquer sentido querermos analisar itens a partir dos valores de seus par ametros a e b sem conhecer a escala na qual eles foram determinados. Suposi c oes do Modelo: Unidimensionalidade e Independ encia Local O modelo proposto pressup oe a unidimensionalidade do teste, isto e, a homogeneidade do conjunto de itens que supostamente devem estar medindo nico tra co latente. Em outras palavras, deve haver apenas uma habilium u dade respons avel pela realiza c ao de todos os itens da prova. Parece claro que qualquer desempenho humano e sempre multideterminado ou multimotivado, dado que mais de um tra co latente entra na execu c ao de qualquer tarefa. Contudo, para satisfazer o postulado da unidimensionalidade, e suciente admitir avel pelo que haja uma habilidade dominante (um fator dominante) respons conjunto de itens. Este fator e o que se sup oe estar sendo medido pelo teste. Andrade, Tavares & Valle SINAPE 2000
17
Tipicamente, a dimensionalidade do teste e vericada atrav es da an alise fatorial, feita a partir da matriz de correla c oes tetrac oricas. Mislevy (1986b) discute as deci encias da aplica c ao deste procedimento e sugere um outro procedimento baseado no m etodo de m axima verossimilhan ca. Uma outra suposi c ao do modelo e a chamada independ encia local ou independ encia condicional, a qual assume que para uma dada habilidade as respostas aos diferentes itens da prova s ao independentes. Esta suposi c ao e fundamental para o processo de estima c ao dos par ametros do modelo. Na realidade, como a unidimensionalidade implica independ encia local (veja Hambleton & Swaminathan (1991)), tem-se somente uma e n ao duas suposi c oes a serem vericadas. Assim, itens devem ser elaborados de modo a satisfazer a suposi c ao de unidimensionalidade. As vantagens da utiliza c ao da TRI dependem fundamentalmente da adequa c ao (ajuste) dos modelos e seus pressupostos. Por exemplo, somente a partir de modelos com bom ajuste e que pode-se garantir a obten c ao de itens e habilidades invariantes. Uma excelente discuss ao das consequ encias da utietodos para verica c ao do liza c ao de modelos inadequados aos dados e de m ajuste e dos pressupostos do modelo utilizado, est a apresentada no Cap tulo 4 de Hambleton, Swaminathan & Rogers. Outros modelos para itens dicot omicos Dois outros modelos podem ser facilmente obtidos a partir do modelo stico de 3 par ametros. Por exemplo, quando n ao existe possibilidade de log acerto ao acaso, pode-se considerar c = 0 no modelo anterior e tem-se o chastico unidimensional de 2 par ametros (ML2), dado por: mado modelo log P (Uij = 1|j ) = 1 1+ eDai (j bi ) , (2.2)
com i = 1, 2, , I, e j = 1, 2, , n. Se al em de n ao existir resposta ao acaso ainda tivermos todos os itens com o mesmo poder de discrimina c ao, tem-se o chamado modelo log stico unidimensional de 1 par ametro (ML1), tamb em conhecido como modelo de Rasch. Este modelo e dado por: Andrade, Tavares & Valle SINAPE 2000
18
1 1+ eD(j bi )
(2.3)
(2.4)
com i = 1, 2, , I, j = 1, 2, , n, e k = 1, 2, , mi . Em cada j , a soma mi e 1. As quantidades das probabilidades sobre as mi op c oes, k=1 Pi,k (j ), + + (bi,k ; ai,k ) s esima op c ao. O modelo ao par ametros do item i relacionados a k - assume que n ao h a nenhuma ordena c ao a priori das op c oes de resposta.
SINAPE 2000
2.2 Modelos envolvendo um u nico grupo Modelo de Resposta Gradual (Graded Response Model)
19
O modelo de resposta gradual de Samejima (1969) assume que as categorias de resposta de um item podem ser ordenadas entre si. Este modelo, como o modelo de Bock, tenta obter mais informa c ao das respostas dos indiv duos do que simplesmente se eles deram respostas corretas ou incorretas. Suponha que os escores das categorias de um item i s ao arranjados em ordem do menor para o maior e denotados por k = 0, 1, , mi onde (mi + 1) e o n umero de categorias do i- esimo item. A probabilidade de um indiv duo j escolher uma particular categoria ou outra mais alta do item i pode ser dada ao do modelo log stico de 2 par ametros: por uma extens
+ Pi,k (j ) =
1 1+ eDai (j bi,k )
(2.5)
Os demais par ametros no modelo s ao an alogos aos j a denidos anteriormente. No caso dos modelos para itens dicot omicos, o par ametro de inclina c ao do item pode ser chamado de discrimina c ao do item. Entretanto, no caso de modelos para itens n ao dicot omicos, a discrimina c ao de uma categoria espec ca de resposta depende tanto do par ametro de inclina c ao, comum a todas as categorias do item, quanto da dist ancia das categorias de diculdade adjacentes. Cabe ressaltar que, da deni c ao, devemos ter: bi,1 bi,2 . . . bi,mi , ou seja, devemos ter necessariamente uma ordena c ao entre o n vel de diculdade das categorias de um dado item, de acordo com a classica c ao de seus escores. A probabilidade de um indiv duo j receber um escore k no item i e dada ent ao pela express ao:
+ + Pi,k (j ) = Pi,k (j ) Pi,k +1 (j ).
SINAPE 2000
20
+ Pi, 0 (j ) = 1
e
+ Pi,m (j ) = 0. i +1
Portanto,
+ + + Pi,0 (j ) = Pi, 0 (j ) Pi,1 (j ) = 1 Pi,1 (j )
e
+ + + Pi,m (j ) = Pi,m (j ) Pi,m (j ) = Pi,m (j ). i +1
Ent ao, temos que: Pi,k (j ) = 1 1+ eDai (j bi,k ) 1 1+ eDai (j bi,k+1 ) . (2.6)
Note que em um item com (mi + 1) categorias, mi valores de diculdade necessitam ser estimados, al em do par ametro de inclina c ao do item. Assim, para cada item, o n umero de par ametros a ser estimado ser a dado pelo seu n umero de categorias de resposta. Se, por exemplo, tivermos um teste com I I ao itens, cada um com (mi + 1) categorias de resposta, teremos ent i=1 mi + I par ametros de item a serem estimados. Modelo de Escala Gradual (Rating Scale Model) Um caso particular do modelo de resposta gradual de Samejima e o modelo de escala gradual. Analogamente ao modelo de resposta gradual, este modelo tamb em e adequado para itens com categorias de resposta ordenadas. No enc ao a mais: a de que os escores das categorias tanto, aqui e feita uma suposi s ao igualmente espa cados. Andrade, Tavares & Valle SINAPE 2000
2.2 Modelos envolvendo um u nico grupo Este modelo, proposto por Andrich (1978), e dado por: Pi,k (j ) = 1 1+ eDai (j bi +dk ) 1 1+ eDai (j bi +dk+1 ) ,
21
(2.7)
com i = 1, 2, , I, j = 1, 2, , n, e k = 0, 1, , m, onde: bi e agora o par ametro de loca c ao do item i e dk e o par ametro de categoria.
+ + (j ) Pi,k Como Pi,k ao, dk dk+1 0. Ou seja, devemos ter: +1 (j ) 0, ent
d1 d2 dm . Note que a maior distin c ao entre o modelo de resposta gradual e o modelo de escala gradual est a na hip otese de nesse u ltimo os escores das categorias de resposta devem ser equidistantes. Assim, no modelo de escala gradual o ametro bi,k e decomposto em um par ametro bi de loca c ao do item e num par par ametro de categoria dk , isto e: bi,k = bi dk . Cabe ressaltar que os par ametros de categoria dk n ao dependem do item, isto e, s ao comuns a todos os itens do teste. Logo, se os itens que comp oem a prova tiverem suas pr oprias categorias de resposta, que podem diferir no n umero, ent ao este modelo n ao e adequado. Em um teste composto por itens com (m + 1) categorias de resposta cada ametros de categoria necessitam ser estimados, al em dos par ametros um, m par de inclina c ao e de loca c ao de cada item. Logo, se o teste tiver I itens, teremos [2I + m] par ametros de item a serem estimados. Na Figura 2.3 temos a representa c ao gr aca do modelo de escala gradual e do modelo de resposta gradual para alguns itens com 4 categorias de resposta. Em todos os itens, o par ametro ai foi mantido igual a 1,0. Dessa maneira, podemos vericar a import ancia dos par ametros de categoria bi,k . Os itens 1 e 4, por terem os par ametros de categoria igualmente espa cados, podem ser a o modelo de resposta gradual representantes do modelo de escala gradual. J poderia ser representado por qualquer um dos itens acima. Observando o item 1, podemos notar que indiv duos com habilidade at e2,0 t em maior probabilidade de responder apenas a categoria 0. J a indiv duos Andrade, Tavares & Valle SINAPE 2000
22
Figura 2.3 Representa c ao gr aca dos modelos de escala gradual e de resposta gradual
Item 1:
1,0 prob. de resposta correta 0,8 0,6 0,4 0,2 0,0 -6,0
Item 2:
1,0 prob. de resposta correta
P3
P3
-4,0
-2,0
0,0 habilidade
2,0
4,0
6,0
-4,0
-2,0
0,0 habilidade
2,0
4,0
6,0
Item 3:
1,0 prob. de resposta correta 0,8 0,6 0,4
Item 4:
1,0
P3
P0
0,8 0,6 0,4 0,2 0,0 -6,0
P3
P2
0,2 0,0 -6,0
P1
P2
-4,0
-2,0
0,0 habilidade
2,0
4,0
6,0
-4,0
-2,0
0,0 habilidade
2,0
4,0
6,0
com habilidades entre -2,0 e 0,0, t em mais chance de alcan carem a categoria 1. Para habilidades entre 0,0 e 2,0, a maior probabilidade e que os indiv duos duos com habilidade acima de respondam at e a categoria 2. Finalmente, indiv 2,0, devem alcan car a u ltima categoria de resposta (que dever a representar o acerto total). Note que do item 1 para o 2, a dist ancia entre bi,2 e bi,3 tornou-se menor. A consequ encia disto e que aumenta a faixa de habilidade em que os indiv duos dever ao responder somente at e a categoria 1: de -2,0 a 0,0 no item 1 para -2,0 a 0,5 no item 2. Em outras palavras, a categoria 2 cou mais dif cil de ser alcan cada, uma vez que no item 1 indiv duos com habilidades entre 0,0 e 2,0 t em maior probabilidade de conseguir responder ` a essa categoria do que indiv duos com habilidades entre 0,5 e 2,0 no item 2. No item 3, praticamente n ao h a chance dos indiv duos responderem at ea categoria 2: indiv duos com habilidade entre -2,0 e 0,0 t em mais chance de Andrade, Tavares & Valle SINAPE 2000
23
conseguir responder somente ` a categoria 1, enquanto que os indiv duos com habilidade maior do que esse valor j a t em maior probabilidade de atingir a u ltima categoria do item. Finalmente, o item 4 e um exemplo de item onde a maioria dos indiv duos a primeira categoria, ou consegue chegar at eau ltima. ou responde somente ` Apenas indiv duos com habilidades entre -2,0 e 0,0 apresentam uma chance maior de responderem somente ` as categorias 1 e 2. Modelo de Cr edito Parcial (Partial Credit Model) O modelo de cr edito parcial foi desenvolvido por Masters (1982) e e tamb em um modelo para an alise de respostas obtidas de duas ou mais categorias ordee utilizado com os mesmos prop ositos que nadas. Nesse sentido, esse modelo outros j a citados, inclusive o modelo de resposta gradual. O modelo de cr edito parcial difere do gradual, entretanto, por pertencer ` a fam lia de modelos de Rasch. Na verdade, o modelo de cr edito parcial e uma extens ao do modelo de Rasch para itens dicot omicos. Logo, todos os par ametros no modelo s ao c ao e assumido ser comum para de loca c ao, sendo que o poder de discrimina todos os itens. Supondo que o item i tem (mi + 1) categorias de resposta orden aveis (k = e dado por: 0, 1, . . . , mi ), temos que o modelo de cr edito parcial Pi,k (j ) = exp
mi u=0 exp k u=0 (j
bi,u ) bi,v )
u v =0 (j
(2.8)
com i = 1, 2, , I, j = 1, 2, , n, k = 0, 1, , mi e bi,0 0, onde: Pi,k (j ) e a probabilidade de um indiv duo com habilidade j escolher a categoria k , dentre as (mi + 1) categorias do item i. bi,k e o par ametro de item que regula a probabilidade de escolher a categoria k em vez da categoria adjacente (k 1) no item i. Cada par ametro bi,k corresponde ao valor de habilidade em que o indiv duo tem a mesma a categoria k e ` a categoria (k 1), isto e, probabilidade de responder ` onde Pi,k (j ) = Pi,k1 (j ). Andrade, Tavares & Valle SINAPE 2000
24
Assim, para itens com (mi + 1) categorias de resposta, ser a necess ario estimar mi par ametros de item. Note que para itens com apenas 2 categorias de resposta, este modelo ca an alogo ao modelo de Rasch para itens dicot omicos. Modelo de Cr edito Parcial Generalizado (Generalized Partial Credit Model) O modelo de cr edito parcial generalizado MCPG foi formulado por Muraki (1992), que se baseou no modelo de cr editos parciais de Masters, relaxando a hip otese de poder de discrimina c ao uniforme para todos os itens. O modelo de cr edito parcial generalizado e dado por: exp
mi u=0 exp k u=0 Dai (j
Pi,k (j ) =
bi,u ) bi,v )
u v =0 Dai (j
(2.9)
com i = 1, 2, , I, j = 1, 2, , n, e k = 0, 1, , mi . Se o n umero de categorias de respostas e (mi + 1), somente mi par ametros de categoria do item podem ser identicados. Qualquer um dos (mi + 1) par ametros de diculdade das categorias pode ser arbitrariamente denido ao e que o termo incluso no par ametro e cancelado com qualquer valor. A raz no numerador e no denominador do modelo. Em geral, denimos bi,0 0. Os par ametros de categoria do item, bi,k , s ao os pontos na escala de j em c oes se interas curvas de Pi,k1 (j ) e Pi,k (j ) se interceptam. Essas duas fun ceptam somente uma vez, e a intersec c ao pode ocorrer em qualquer ponto da escala j . Ent ao, sob a hip otese de que ai > 0, se se se j = bi,k j > bi,k j < bi,k ent ao ent ao ent ao Pi,k (j ) = Pi,k1 (j ), Pi,k (j ) > Pi,k1 (j ), Pi,k (j ) < Pi,k1 (j ).
Da mesma maneira como no modelo de escala gradual, no MCPG o par ametro bi,k pode ser decomposto como: Andrade, Tavares & Valle SINAPE 2000
25
bi,k = bi dk . Mas, e importante ressaltar que, diferentemente do modelo de escala gradual, aqui os valores de dk n ao s ao necessariamente ordenados sequencialmente ametro dk e interpretado como a diculdade relativa dentro de um item. O par da categoria k em compara c ao com as outras categorias do item ou o desvio da diculdade de cada categoria em rela c ao ` a loca c ao do item, bi . Assim, em testes compostos por itens com (mi + 1) categorias de resposta, mi par ametros de categoria necessitam ser estimados, al em dos par ametros de inclina c ao e de loca c ao de cada item. Logo, se tivermos um teste com I itens, I teremos ametros de item a serem estimados. i=1 mi + 2I par
com i = 1, 2, , I, j = 1, 2, , nk , e k = 1, 2, , K , onde: Uijk e uma vari avel dicot omica que assume os valores 1, quando o indiv duo j da popula c ao k responde corretamente ao item i, ou 0 quando o indiv duo n ao responde corretamente ao item. jk representa a habilidade do j - esimo indiv duo da popula c ao k . P (Uijk = 1|jk ) e a probabilidade de um indiv duo j da popula c ao k , com habilidade jk , responder corretamente ao item i. Andrade, Tavares & Valle SINAPE 2000
26
Os demais par ametros j a foram descritos anteriormente. Em geral, indiv duos pertencentes a diferentes popula c oes n ao s ao submetidos todos aos mesmos itens. Mas, para que seja poss vel a compara c ao entre popula c oes, e necess ario que haja pelo menos alguns itens comuns entre elas. umero total de itens distintos apresentados. Assim, I representa o n A recente implementa c ao computacional desse modelo para mais de um grupo de respondentes foi um dos maiores avan cos da TRI nos u ltimos anos. Atrav es dele a compara c ao de indiv duos de grupos distintos, submetidos a provas diferentes mas com itens comuns, passou a ser feita de uma maneira e ent ao, uma vez que diminui poss veis bem mais eciente do que era feito at erros de modelagem que a metodologia anterior poderia vir a ter. Algumas das quest oes mais importantes envolvendo a compara c ao de duas ou mais popula c oes, incluindo os m etodos de estima c ao, ser ao discutidas no Cap tulo 5. No pr oximo cap tulo apresentaremos os principais m etodos de estima c ao dos par ametros dos modelos para uma u nica popula c ao.
SINAPE 2000
Cap tulo 3
3.1 Introdu c ao
Uma das etapas mais importantes da TRI e a estima c ao dos par ametros dos itens e das habilidades dos respondentes. Como foi visto no cap tulo anterior, a probabilidade de uma resposta correta a um determinado item depende duo e dos par ametros que caracterizam o item. somente da habilidade do indiv Mas, em geral, ambos s ao desconhecidos. Apenas as respostas dos indiv duos ao conhecidas. aos itens do teste s Assim, nos modelos de resposta ao item temos um problema de estima c ao que envolve dois tipos de par ametros, os par ametro dos itens e as habilidades dos indiv duos. Ent ao, do ponto de vista te orico, podemos dividir o problema em tr es situa c oes, quando j a conhecemos os par ametros dos itens, temos apenas a conhecemos as habilidades dos respondentes, que estimar as habilidades; se j estaremos interessados apenas na estima c ao dos par ametros dos itens e, por c ao mais comum, em que desejamos estimar os par ametros dos m, a situa itens e as habilidades dos indiv duos simultaneamente. Na TRI, o processo de estima c ao dos par ametros dos itens e conhecido como calibra c ao. Em qualquer uma das situa c oes citadas acima, geralmente a estima c ao e feita pelo M etodo da M axima Verossimilhan ca atrav es da aplica c ao de algum processo iterativo, como o algoritmo Newton-Raphson (ver Issac & Keller (1966), por exemplo) ou Scoringde Fisher (ver Rao (1973), por exemplo). Alguns procedimentos bayesianos tamb em s ao aplicados com bastante freq u encia (ver Mislevy (1986a), por exemplo). Na situa c ao em que desejamos estimar tanto os par ametros dos itens, quanto as habilidades, h a duas abordagens usuais: estima c ao conjunta, par ametros dos c ao dos par ametros itens e habilidades, ou em duas etapas, primeiro a estima dos itens e, posteriormente, das habilidades. No caso da estima c ao conjunta,
28
o n umero de par ametros a serem estimados simultaneamente pode ser extremamente grande (3I + n, para o ML3), levando a uma enorme exig encia computacional que envolve a invers ao de matrizes dessa ordem. Para contornar esse problema, Birnbaum (1968) prop os um processo vai e volta (backand-forth), que e iniciado com estimativas grosseiras das habilidades (escores padronizados, por exemplo) e envolve a estima c ao dos par ametros dos itens considerando as habilidades conhecidas; ap os a obten c ao das estimativas dos par ametros dos itens, as estima c oes das habilidades s ao feitas consiao repetidos at e derando conhecidos os par ametros dos itens. Esses passos s que algum crit erio de parada do processo seja alcan cado. A grande vantagem desse m etodo e que ele permite, a partir da Independ encia Local discutida no Cap tulo 2, que os itens sejam estimados individualmente, o que exige o tratamento de matrizes 3 3 para o ML3. De forma similar, a partir da independ encia entre as respostas oriundas de indiv duos diferentes, as habilidades tamb em s ao estimadas individualmente, e com isso a exig encia computacional diminui drasticamente. Entretanto, esse procedimento tem um problema erio: sabe-se que, para os par ametros dos itens conhecidos, os Estimadores de s M axima Verossimilhan ca (EMV) das habilidades convergem (ver Sen & Sinumero de ger (1993), por exemplo) para os seus verdadeiros valores quando o n itens cresce; com as habilidades conhecidas, os EMV dos par ametros dos itens, umero de indiv duos i , convergem para os seus verdadeiros valores quando o n cresce. Na estima c ao conjunta, as habilidades s ao denominadas de par ametros incidentais, pois o n umero destes par ametros (j ) cresce com o n umero de indiv duos; os par ametros dos itens s ao denominados de par ametros estruturais, e o n umero desses par ametros n ao se altera quando a amostra cresce. c oes s ao devidas a Neyman & Scott (1948), que notaram, em Essas denomina ca de par ametros incidenum contexto diferente ao da TRI, que na presen tais o EMV dos par ametros dos itens pode ser assintoticamente viesado. Esse problema de falta de consist encia dos par ametros dos itens (ou habilidades) ca de um n umero muito grande de indiv duos (ou itens) foi notado na presen por Andersen (1973) e demonstrado para o modelo de Rasch (ML1). Por em, quando o n umero de itens e o n umero de indiv duos crescem, os EMV dos par ametros dos itens e das habilidades podem ser n ao-viciados, como sugerido por Lord (1968) e demonstrado apenas para o modelo de Rasch por Haberman (1975). Resultados num ericos obtidos por Lord (1975) e Swaminathan & Andrade, Tavares & Valle SINAPE 2000
3.1 Introdu c ao
29
Giord (1983) refor cam a conjectura de que os EMV dos par ametros dos itens e das habilidades s ao n ao-viciados, quando o n umero de itens e o n umero de indiv duos crescem. O problema de poss vel inconsist encia dos estimadores obtidos em uma etapa levou ao desenvolvimento da estima c ao em duas etapas por Bock & Lieberman (1970). Este m etodo baseia-se na exist encia de uma distribui c ao (latente) c ao em estudo (ver Anderassociada ` a habilidade dos indiv duos da popula sen (1980) para maiores detalhes). Isso possibilita que a estima c ao dos itens etodo da M axima Verossimilhan ca Marginal, ou seja, consiseja feita pelo M derando uma determinada distribui c ao para a habilidade dos indiv duos de , cuja fun c ao densidade de probabilidade (f dp) e g (| ), onde e o conjunto de par ametros associados ` a , e integrando a fun c ao de verossimilhan ca com rela c ao a . Ap os a estima c ao dos par ametros dos itens, as habilidades s ao estimadas individualmente por m axima verossimilhan ca ou pela moda ou m edia da distribui c ao condicional de j dado uj. = (uj 1 , , ujI ), o vetor duo j , j = 1, , n, com i = (ai , bi , ci ), o vetor de de respostas do indiv par ametros do item i, i = 1, , I, conhecidos. Embora este m etodo tenha a vantagem de envolver, na primeira etapa, apenas a estima c ao dos par ametros dos itens, a estima c ao e feita atrav es de aplica c ao de m etodos num ericos que dependem das derivadas segundas da log-verossimilhan ca com rela c ao a i e k , i, k = 1, , I , que podem ser n ao nulas para i = k . Com isso, h a a necessidade da invers ao de matrizes de ordem 3I 3I para o ML3, o que ainda pode ser bastante exigente do ponto de vista computacional. Para contornar c ao no modelo de esse problema, Bock & Aitkin (1981) zeram uma modica Bock & Lieberman adicionando a suposi c ao de independ encia entre os itens, de forma que as derivadas segundas citadas acima para i = k sejam nulas. Com isso, a matriz 3I 3I (no ML3) de derivadas segundas torna-se blocodiagonal, o que possibilita que os (par ametros dos) itens sejam estimados individualmente. Adicionalmente, Bock & Aitkin prop oem que a obten c ao das estimativas de m axima verossimilhan ca seja feita com a aplica c ao do algoritmo EM introduzido por Dempster, Laird & Rubin (1977). Embora existam outras propostas de estima c ao para os par ametros dos itens e habilidades, as citadas acima podem ser consideradas as mais importantes ao exploradas nesse texto. Na Se c ao 3.2 consideraremos o caso e, portanto, ser da estima c ao dos par ametros dos itens quando as habilidades s ao conhecidas. Andrade, Tavares & Valle SINAPE 2000
30
Na Se c ao 3.3 consideraremos a situa c ao contr aria: estima c ao das habilidades com os par ametros dos itens conhecidos. Em complemento a essas duas se c oes, na Se c ao 3.4, trataremos da estima c ao conjunta: par ametros dos itens e habilidades, em uma etapa. Na Se c ao 3.5 tamb em consideraremos a estima c ao conjunta dos par ametros dos itens e habilidades, mas agora em duas etapas atrav es da m axima verossimilhan ca marginal. Na Se c ao 3.6 complementaremos a etapa de estima c ao considerando a abordagem bayesiana, tanto dos par ametros dos itens quanto das habilidades. Recomenda-se a leitura de Baeias e resultados que ser ao apresentados ker (1992) para maiores detalhes das id nesse cap tulo. Em todos os m etodos de estima c ao descritos a seguir, algumas nota c oes e suposi c oes ser ao necess arias para o desenvolvimento do modelo. Em particular, sejam j a habilidade e Uji a vari avel aleat oria que representa a resposta (bin aria) do indiv duo j ao item i, com Uji = 1, resposta correta, 0, resposta incorreta.
Sejam U j. = (Uj 1 , Uj 2 , , UjI ) o vetor aleat orio de respostas do indiv duo j e U .. = (U 1. , , U n. ) o conjunto integral de respostas. De forma similar, representaremos as observa c oes por uji , uj. e u.. . Ainda, = (1 , , n ) representar a o vetor de habilidades dos n indiv duos e = ( 1 , , I ) o conjunto de par ametros dos itens. As duas principais suposi c oes que usaremos em todo o restante deste texto, s ao as seguintes: (S1) as respostas oriundas de indiv duos diferentes s ao independentes, (S2) os itens s ao respondidos de forma independente por cada indiv duo (Independ encia Local), xada sua habilidade. A suposi c ao (S2) necessita de uma discuss ao um pouco mais detalhada: ela garante que, para cada valor de , se tomarmos um conjunto de indiv duos com habilidade , as covari ancias entre as respostas para cada par de itens ser ao nulas. Entretanto, se for considerado um conjunto de indiv duos com habilidades variadas, estas covari ancias n ao necessariamente ser ao nulas. Na verdade, elas ser ao positivas (ver Lord & Novick (1968, p ag. 361)). Andrade, Tavares & Valle SINAPE 2000
31
Quando necess arias, outras suposi c oes ser ao adotadas. Em algumas situa c oes usaremos nota c oes simplicadas. Por exemplo, as probabilidades P (Uji = uji |.) poder ao ser representadas por P (uji |.); o mesmo valendo para os vetores de observa c oes. Poderemos, ainda, usar algumas express oes simplicadas, tais como estima c ao dos itens ao inv es de estima c ao dos par ametros dos itens. As demonstra c oes dos principais resultados apresentados nesse cap tulo poder ao ser encontradas no Ap endice A.
L( ) =
j =1 n
P (U j. = uj. |j , )
I
=
j =1 i=1
P (Uji = uji |j , i ),
onde na u ltima igualdade usamos que a distribui c ao de Uji s o depende de c ao Pji = P (Uji = 1|j , i ) e Qji = 1 Pji , temos atrav es de i . Usando a nota que P (Uji = uji |j , i ) = P (Uji = 1|j , i )uji P (Uji = 0|j , i )1uji = Pjiji Qji Portanto, Andrade, Tavares & Valle SINAPE 2000
u 1uji
(3.1)
32
L( ) =
j =1 i=1
Pjiji Qji
1uji
(3.2)
log L( ) =
j =1 i=1
(3.3)
Os Estimadores de M axima verossimilhan ca (EMV) de i , i = 1, , I, s ao os valores que maximizam a verossimilhan ca, ou equivalente, s ao as solu c oes da equa c ao log L( ) = 0, i Notemos que log L( ) i
n
i = 1, , I.
=
j =1 n
uji uji
j =1 n
(log Pji ) (log Qji ) + (1 uji ) i i 1 Pji Pji i (1 uji ) 1 Qji Pji i
= =
j =1 n
uji
Pji i (3.4)
=
j =1
33
Pji = {1 + eDai (j bi ) }1
Q ji = 1 Pji .
(3.6)
log L( ) i
=
j =1
(uji Pji )
Wji Q Pji ji
Pji i
(3.7)
Para obter as equa c oes de estima c ao, precisaremos das seguintes express oes:
= Q ji .
log L( ) ai
=
j =1 n
(uji Pji )
Pji ai
=
j =1
= D(1 ci )
j =1
Para o par ametro de diculdade, temos de (3.7) e (3.9) que Andrade, Tavares & Valle SINAPE 2000
34
log L( ) bi
=
j =1 n
(uji Pji )
Pji bi
=
j =1
= Dai (1 ci )
j =1
Para o par ametro de acerto ao acaso, temos de (3.7) e (3.10) que log L( ) ci
n
=
j =1 n
(uji Pji )
Pji ci
Wji Q Pji ji
=
j =1 n
Wji Pji
ai : bi : ci :
D(1 ci )
j =1
Dai (1 ci )
j =1 n
(uji Pji )
j =1
Embora as constantes antepostas aos somat orios em (3.14) e (3.15) possam c oes, vamos (em princ pio) ser eliminadas nas apresenta c ao das referidas equa mant e-las por todo o restante do texto. Andrade, Tavares & Valle SINAPE 2000
3.2 Estima c ao dos par ametros dos itens Agrupamento das habilidades
35
Um procedimento alternativo de estima c ao e considerar as habilidades agrupadas em q categorias. Isso e poss vel porque estamos considerando as habilidades conhecidas, logo podemos agrup a-las denindo um conjunto de q intervalos cujos valores centrais (ou alguma medida central dessas habilidades) sejam denotados por k , k = 1, , q . Para ns de desenvolvimento, podemos supor que todos os indiv duos pertencentes ` a categoria k t em habilidade k , etodo o que pode reduzir bastante a exig encia computacional tornando este m mais atrativo. De forma geral, consideremos que q grupos de fki , k = 1, , q , indiv duos com habilidades conhecidas k s ao selecionados ao acaso da popula c ao em umero de indiv duos do grupo k estudo para responder ao item i. Seja rki o n que responderam corretamente ao item i. Vale notar que em algumas situa c oes os mesmos grupos de indiv duos responder ao a todos os itens, e portanto poderemos representar as quantidades fki e rki por fk e rk , respectivamente. Ocorre que pela independ encia local, podemos tratar da estima c ao de cada ndice relativo ao item individualmente e, por isso, e conveniente usar um item a ser estimado. Entretanto, o motivo principal para o uso desta nota c ao atica, e comum que alguns indiv duos n ao respondam est a no fato de que, na pr (ou anulem de outra forma) alguns itens. Isso possibilita que um grupo com nk indiv duos apresente nki respostas ao item i e nkl ao item l com nki = pio) que todos os indiv duos nkl . Dessa forma, mesmo considerando (em princ respondam a todos os itens, para tornar o tratamento mais geral adotaremos o ndice i nas quantidadas fki e rki . Pela independ encia entre as respostas dos diferentes indiv duos, podemos assumir que rki , k = 1, , q, tem distribui c ao Binomial com par ametros fki e Pki , onde Pki representa o ML3, com j substitu da por k . De acordo com isso, a verossimilhan ca ser a
q I
L( ) =
k=1 i=1
36
log L( ) = C +
k=1 i=1
(3.17)
I fki onde C = q e constante com rela c ao a . Tomando a derii=1 log rki k=1 vada de (3.17) com rela c ao a i , teremos q
log L( ) i
=
k=1 q
rki
1 Pki
Pki i
1 Qki
Qki i
=
k=1 q
1 (rki fki Pki ) Pki Qki (rki fki Pki ) Wki Q Pki ki
=
k=1
onde a u ltima igualdade e devida a (3.5). Usando as express oes (3.8) a (3.10), c ao para os par ametros ai , bi e ci s ao, respectemos que as equa c oes de estima tivamente,
q
ai : bi : ci :
D(1 ci )
k=1
Dai (1 ci )
k=1 q
Estas equa c oes, bem como (3.14) a (3.16), n ao possuem solu c ao expl cita e por isso precisaremos de algum m etodo iterativo para a obten c ao das estimativas de m axima verossimilhan ca dos par ametros dos itens. A seguir, damos c ao do algoritmo Newton-Raphson e do m etodo Scoringde uma breve descri Fisher. Andrade, Tavares & Valle SINAPE 2000
37
(0)
(0)
(0)
= i + i , ou seja,
(0)
(0)
(1)
(0)
(0)
(3.21)
(0) c i
(0) ci ,
(0)
l( ) ai l( ) bi l( ) ci
= = =
2 2 2 (0) l( i ) (0) l( i ) (0) l( i ) (0) l( i ) + ai + b + c + Rai ( i ), i i 2 ai ai bi ai ci ai 2 2 2 (0) l( i ) (0) l( i ) (0) l( i ) (0) l( i ) + bi + c + Rbi ( i ), + b i i 2 bi bi ai bi ci bi 2 2 2 (0) l( i ) (0) l( i ) (0) l( i ) (0) l( i ) + ai + c + Rci ( i ), + b i i 2 ci ci ai ci bi ci (0) (0) (0) (0) (0) (0) (0) (0)
(0)
(0)
(0)
(0)
onde l( i )/i representa a fun c ao l( i )/i avaliada no ponto i = i . Nessas express oes estamos usando que l( )/ i e fun c ao apenas de i , n ao a-la de forma dependendo de l para l = i. Por isso, poderemos represent simplicada por l( i )/ i . Fazendo l( i ) l( i ) l( i ) = = = 0, ai bi ci usando a nota c ao Andrade, Tavares & Valle SINAPE 2000
38
l( i ) L1 = ai l( i ) L2 = bi l( i ) L3 = ci
(0) (0)
(0)
2 l( i ) = a2 i 2 l( i ) = bi ai 2 l ( i ) = ci ai
(0) (0) (0)
(0)
2 l( i ) = ai bi 2 l( i ) = b2 i 2 l( i ) = ci bi
(0) (0) (0)
(0)
2 l( i ) = , ai ci 2 l( i ) , = bi ci 2 l( i ) = , c2 i
(0) (0)
(0)
), Rbi ( i
) Rci ( i
(0)
), teremos
(0) (0) (0) 0 = L1 + L11 ai + L12 bi + L13 ci , (0) (0) (0) 0 = L2 + L12 a + L22 b + L23 c ,
0 = L3 +
i (0) L13 ai
i (0) L23 bi
i (0) L33 ci .
Colocando o resultado em forma matricial, teremos (0) ai L1 L11 L12 L13 (0) L2 = L21 L22 L23 bi . (0) L3 L31 L32 L33 ci Resolvendo o sistema para i , teremos (0) 1 ai L11 L12 L13 L1 (0) bi = L21 L22 L23 L2 , (0) L31 L32 L33 L3 ci e nalmente, por (3.21) (1) (0) 1 a i a i L11 L12 L13 L1 (1) (0) bi = bi L21 L22 L23 L2 . (1) (0) L31 L32 L33 L3 c i c i Andrade, Tavares & Valle SINAPE 2000
(0)
39
Ap os obtido i , este e considerado um novo ponto inicial para a obten c ao de i , e assim por diante. Este processo e repetido at e que algum crit erio de parada seja alcan cado. Por exemplo, at e que i = i i seja sucientemente pequeno ou que um n umero pr e-denido, tmax , de itera c oes seja cumprido. As express oes Lk , k = 1, 2, 3 s ao dadas por (3.11) a (3.13), respectivamente e as express oes Lkl , k, l = 1, 2, 3, s ao obtidas de log L( ) i i
n (t) (t) (t1) (2)
=
j =1 n
i vji i
Pji i
2 Pji i i (3.22)
=
j =1
2 Pji i i
vji = e
(3.23)
vji uji Pji = = i i Pji Qji Pji Qji Pji 1 = (uji Pji ) Pji Qji 2 (Pji Qji ) i i Pji Pji 1 = Pji Qji + (uji Pji ) 2Pji 2 (Pji Qji ) i i Pji 1 = {Pji Qji + (uji Pji )(1 2Pji )} (Pji Qji )2 i Pji 1 , = (uji Pji )2 2 (Pji Qji ) i Pji 2 = vji . i Andrade, Tavares & Valle
Pji i
(3.24)
SINAPE 2000
40
Au ltima igualdade segue do fato que uji = u2 ji . Considerando i a estimativa de i na itera c ao t, ent ao na itera c ao t + 1 do algoritmo Newton-Raphson teremos que
(t)
(t+1)
= i [H ( i )]1 h( i ).
(t)
(t)
(t)
(3.25)
h( i ) =
log L( ) i
n
(uji Pji )
j =1 n
Wji Q Pji ji
=
j =1
(3.26)
H ( i ) =
log L( ) i i
n j =1 n
(Pji Qji )H ji
=
j =1
(3.27)
41
Pji i
e 2 Pji 1 H ji = (Pji Qji ) i i 2 ) D (1 ci )(j bi )2 (1 2Pji . . )} D 2 a2 (1 c )(1 2P ) . . = D(1 ci ){1 + Dai (j bi )(1 2Pji i i ji D(j bi ) Dai 0
Para a abordagem utilizando as habilidades agrupadas em q categorias, as express oes para (3.26) e (3.27) s ao
h( i ) =
k=1 q
(rki fki Pki )Wki hki , (rki fki Pki )Wki H ki (rki fki Pki )Wki hki hki .
k=1
H ( i ) =
42
( i ) E (H ( i ))
N
=
j =1 N
=
j =1 N
=
j =1
(3.28)
( i ) =
k=1
= i [( i )]1 h( i ).
(t)
(t)
(t)
3.2.3 Erro-padr ao
Os estimadores de m axima verossimilhan ca gozam de propriedades asoticas conhecidas, tais como v cio nulo e eci encia. Sob algumas condi c oes sint de regularidade (ver Sen & Singer (1993), por exemplo) a distribui c ao assint otica do estimador de m axima verossimilhan ca, i , e normal com vetor de m edia i e matriz de covari ancias dada pela inversa da matriz de informa c ao 2 log L( ) i i
I ( i ) = E
= ( i ),
(3.29)
onde ( i ) e obtida de (3.28). As ra zes quadradas dos elementos diagonais de [I ( i )]1 fornecem os erros-padr ao dos estimadores ai , bi e ci . Andrade, Tavares & Valle SINAPE 2000
43
onde T,Ui e o coeciente de correla c ao bisserial, utilizado na Teoria Cl assica de Medidas. Este coeciente e estimado pelo coeciente de correla c ao de Pearson (0) entre os escores, Tj , e as respostas ao item i. Com isso, obtemos ai . Em complemento, Tucker (1946) expressou o par ametro de diculdade associado ao item i da teoria cl assica de itens i (propor c ao verdadeira de respostas corretas) como i = (i ), i = bi T,Ui , (3.31)
onde e a fun c ao de distribui c ao associada ` a N(0,1). Vale notar que no caso de Andrade, Tavares & Valle SINAPE 2000
44
usar a fun c ao Log stica para a FRI, o fator D = 1, 702 torna os modelos Normal e Log stico muito pr oximos (ver Halley (1952)) de forma que as express oes (3.30) e (3.31) produzem bons resultados para o modelo log stico.
log L( ) =
j =1 i=1
(3.32)
log L( ) = 0, j
j = 1, , n.
(3.33)
45
log L( ) j
=
i=1 I
uji uji
i=1 I
(log Pji ) (log Qji ) + (1 uji ) j j 1 Pji Pji j (1 uji ) 1 Qji Pji j
(3.34)
= =
i=1 I
uji
=
i=1 I
=
i=1
onde a u ltima igualdade segue de (3.5). Como Pji j obt em-se log L( ) j
I = Dai (1 ci )Pji Qji ,
(3.37)
=
i=1 I
= D
i=1
D
i=1
46
Novamente, esta equa c ao n ao apresenta solu c ao expl cita para j e, por isso, precisamos de algum m etodo iterativo para obter as estimativas desejadas. A seguir, obteremos as express oes necess arias para aplica c oes dos processos iterativos Newton-Raphson e Scoringde Fisher.
= j [H (j )]1 h(j )
(t)
(t)
(t)
(3.40)
onde, ver Ap endice A.2 para as demonstra c oes dos resultados, log L( ) j
I
h(j ) =
(uji Pji )
i=1 I
Wji Q Pji ji
=
i=1
e 2 log L( ) 2 j
I
H (j ) =
i=1 I
=
i=1
(3.41)
47
Pji j
= Dai (1 ci )
(3.42)
e 2 Pji 2 j
= D 2 a2 i (1 ci )(1 2Pji ).
(3.43)
=
i=1 I
=
i=1
(3.44)
(t)
(t)
(t)
3.3.3 Erro-padr ao
Sob algumas condi c oes de regularidade (ver Sen & Singer (1993), por exemplo) a distribui c ao assint otica do estimador de m axima verossimilhan ca, j , e ancia dada pela inversa da matriz de informa c ao normal com m edia j e vari 2 log L( ) 2 j
= (j ),
48
49
A principal diferen ca da estima c ao conjunta se d a no tratamento da m etrica (escala) em que todos os par ametros s ao estimados. Quando tratamos da estima c ao dos par ametros dos itens com as habilidades conhecidas, n ao houve necessidade do arb trio da m etrica, pois estes s ao estimados na m etrica das habilidades. Por outro lado, quando tratamos da estima c ao das habilidades com os par ametros dos itens conhecidos, estas s ao estimadas na m etrica dos par ametros dos itens. Na estima c ao conjunta n ao h a uma m etrica denida e, portanto, deveremos estabelec e-la. A explica c ao formal para a necessidade do etrica dos par ametros consiste em um problema denomiestabelecimento da m nado falta de identicabilidade do modelo. Essa n ao-identicabilidade ocorre porque mais de um conjunto de par ametros produz o mesmo valor no ML3, e consequentemente, na verossimilhan ca. Conforme j a citado no Cap tulo 2, se j = j + , bi = bi + , ai = ai / e ci = ci , onde e s ao constantes reais com > 0, ent ao
1 P (Uji = 1|j , i ) = c i + (1 ci ){1 + exp[Dai (j bi )]} ai = ci + (1 ci ){1 + exp D (j + (bi + )) }1 = ci + (1 ci ){1 + exp[Dai (j bi )]}1
= P (Uji = 1|j , i ). Essa n ao-identicabilidade pode ser eliminada de v arias formas, como xando alguns valores para as habilidades, por exemplo. Entretanto, devemos ao-identicabilidade est a intimamente relacionada ` a caressaltar que essa n racter sticas da popula c ao envolvida no estudo. At e agora n ao especamos quando uma habilidade pode ser considerada alta ou baixa, nem como diagnosticar o quanto uma habilidade est a afastada de outra. Isso pode ser c ao (m edia, por exemplo) e outra resolvido especicando uma medida de posi de dispers ao (desvio-padr ao, por exemplo) para as habilidades. Dessa forma estaremos denindo uma m etrica (unidade de medida) para as habilidades e, consequentemente, para os par ametros dos itens. De forma geral, podemos dizer que estamos trabalhando com vari aveis latentes, e nessa situa c ao sempre h a a necessidade do estabelecimento da m etrica. Neste livro, vamos eliminar o ao-identicabilidade do modelo padronizando as habilidades de problema de n forma que estas tenham uma m edia especicada e desvio-padr ao . Desta Andrade, Tavares & Valle SINAPE 2000
50
forma, as habilidades e os par ametros dos itens s ao estimados na m etrica (, ). Em muitas situa c oes adota-se = 0 e = 1, valores que ser ao considerados em todo o restante do livro. Para aplica c ao do algoritmo Newton-Raphson s ao necess arias as derivadas segundas da log-verossimilhan ca, com rela c ao a i e j , i = 1, , I e j = 1, , n. Estas derivadas comp oem uma matriz H quadrada de ordem (3I + n) e essa dimens ao pode ser sucientemente grande de forma a causar uma enorme exig encia computacional. Por isso, precisamos explorar um pouco mais encia local, temos a estrutura de H . Notemos que pela independ L( , ) = 0, i l para i = l. (3.46)
Pela independ encia entre as respostas de indiv duos diferentes, temos que L( , ) = 0, j l para j = l. (3.47)
Vale notar que (3.46) e (3.47) s ao conseq u encias das suposi c oes inerentes do modelo. Uma suposi c ao adicional que simplica bastante a estrutura de H e a de que n ao existe correla c ao entre itens e habilidades. Essa suposi c ao condiz c oes pr aticas, pois as habilidades s ao inerentes dos indiv duos, que com situa em nada dependem dos itens envolvidos no estudo. Como conseq u encia desta suposi c ao, temos que L( , ) = 0, i j para i = 1, , I e j = 1, , n. (3.48)
Assim, a matriz H torna-se bloco-diagonal, na qual os I primeiros blocos s ao matrizes 3 3 relativas aos par ametros dos itens e os n blocos seguintes s ao escalares relativos ` as habilidades. As express oes (3.46) a (3.48) facilitam bastante a estrutura de H , mas n ao diminuem sua dimens ao. Entretanto, com base nessa estrutura bloco-diagonal, Birbaum (1968) prop os um algoritmo em que os itens e as habilidades s ao estimados individualmente, utilizando o algoritmo Newton-Raphson ou o m etodo Scoringde Fisher, no qual cada itera c ao e composta de dois est agios: Andrade, Tavares & Valle SINAPE 2000
51
Est agio 1: Come cando com estimativas iniciais para as habilidades (escores padronizados, por exemplo) e tratando estas habilidade como conhecidas, estimamos i , i = 1, , I . Est agio 2: Come cando com estimativas iniciais (obtidas no Est agio 1) para e tratando estes par ametros como conhecidos, estimamos as habilidades j , j = 1, , n. No Est agio 1, os itens s ao estimados empregando o desenvolvimento da Se c ao 3.2. No Estagio 2 as habilidades s ao estimadas com a teoria desenvolvida na Se c ao 3.3. Este processo de dois est agios e repetido at e a converg encia das ametros dos itens. habilidades e dos par Coment arios Os erros-padr ao para i , i = 1, , I, e j , j = 1, , n, continuam sendo oes (3.29) e (3.45). Al em disso, a estima c ao obtidos com o uso das express conjunta apresenta os mesmos problemas j a citados anteriormente, ou seja, quando algum item e respondido corretamente, ou incorretamente, por todos duos, ou quando algum indiv duo responde corretamente, ou incoros indiv retamente, a todos os itens. Mais adiante, nesse cap tulo e no Cap tulo 7, veremos como tratar destes casos.
52
pode realmente ser considerada a fun c ao densidade para no experimento de retirar um indiv duo ao acaso da popula c ao e observar seu par ametro . Neste contexto, e importante ressaltar que, quando atribu mos uma distribui c ao de probabilidade para n ao estamos aplicando nenhum argumento bayesiano. A distribui c ao de realmente existe, no sentido explicado acima, como a densidade relativa ` a distribui c ao G(). De acordo com isso, um artif cio para eliminar as habilidades na verossimica consiste em marginalizar a verossimilhan ca integrando-a com rela c ao ` a lhan distribui c ao da habilidade. De forma geral, consideremos que as habilidades, j , j = 1, , n, s ao realiza c oes de uma vari avel aleat oria com distribui c ao cont nua e fun c ao densidade de probabilidade (f dp) g (| ), duplamente diferenci avel, com as componentes de conhecidas e nitas. Para o caso em que tem distribui c ao Normal, temos = (, 2 ), onde e a m edia e 2 a vari ancia das habilidades dos indiv duos de . Portanto, se desejarmos que os itens sejam estimados na m etrica (0,1), deveremos adotar = 0 e = 1.
onde na u ltima igualdade usamos que a distribui c ao de U j. n ao e fun c ao de umeros reais. Usando a independ encia entre as eI R representa o conjunto dos n respostas de diferentes indiv duos, podemos escrever a probabilidade associada ao vetor de respostas U .. como
n
P (u.. | , ) =
j =1
P (uj. | , ).
(3.50)
Embora a verossimilhan ca possa ser escrita como (3.50), tem sido freq uente oes de Resposta. Como temos I itens no total, utilizar a abordagem de Padr com 2 poss veis respostas para cada item (0 ou 1), h a S = 2I poss veis respostas Andrade, Tavares & Valle SINAPE 2000
53
(padr oes de resposta). Quando o n umero de indiv duos e grande com rela c ao ao n umero de itens, pode haver vantagens computacionais em trabalhar com o n umero de ocorr encias dos diferentes padr oes de resposta. Neste sentido, daqui em diante vamos trabalhar considerando este racioc nio. O ndice j n ao mais representar a um indiv duo, mas sim um padr ao de resposta. Seja rj o n umero de ocorr encias distintas do padr ao de resposta j , e ainda s min(n, S ) o n umero de padr oes de resposta com rj > 0. Segue disso que
s
rj = n.
j =1
(3.51)
Pela independ encia entre as respostas dos diferentes indiv duos, temos que os dados seguem uma distribui c ao M ultinomial, isto e, n!
s
L( , ) =
[P (uj. | , )]rj s r ! j j =1 j =1
(3.52)
+
j =1
rj log P (uj. | , ).
As equa c oes de estima c ao para os par ametros dos itens s ao dadas por log L( , ) = 0, i com i
s s
i = 1, , I,
(3.53)
log L( , ) i
j =1
=
j =1
rj
P (uj. | , ) 1 . P (uj. | , ) i
54 Mas P (uj. | , ) i i
I R
= = =
I R
P (uj. |, )g (| )d (3.55)
P (uj. |, ) g (| )d i i
I
I R
P (ujl |, l ) g (| )d
l=1
P (uj. | , ) i =
I R
I l =i
=
I R
P (uji |, i )/ i P (uji | i )
onde a ordem da derivada e da integral em (3.55) p ode ser permutada com base no Teorema da Converg encia Dominada de Lebesgue (Chow & Teicher, 1978). Reescrevendo P (uji |, i ) como em (3.1), teremos que u 1u P (uji |, i ) = Pi ji Qi ji i i 1u u u 1 Pi u Qi ji + (1 uji )Qi ji Pi Pi ji = uji Pi ji i i Pi u 1 1u u u = uji Pi ji Qi ji (1 uji )Qi ji Pi ji . i Notemos agora que o termo entre par enteses vale 1 quando uji = 1 e vale -1 quando uji = 0, portanto podemos reescrev e-lo como (1)uji +1 . Com isso, P (uji |, i ) = (1)uji +1 i Andrade, Tavares & Valle Pi i
(3.57)
SINAPE 2000
55
Qi Pi
se uji = 1 se uji = 0,
(3.58)
podemos reescrever este termo como uji Pi . Segue que (3.56) pode ser escrita como P (uj. | , ) i (uji Pi ) Pi Qi Pi i
=
I R
P (uj. |, )g (| )d
(3.59)
Wi = onde
(3.60)
Pi = {1 + eDai (bi ) }1
Q i = 1 Pi .
(3.61)
Com isso, podemos reescrever a Equa c ao (3.59) como P (uj. | , ) = i Usando a nota c ao
gj () g (|uj. , , ) =
I R
(uji Pi )
Pi i
Wi P (uj. |, )g (| )d. Pi Q i
(3.62)
P (uj. |, )g (| ) , P (uj. | , )
(3.63)
teremos que a fun c ao de verossimilhan ca (3.54) pode ser escrita como log L( , ) i
s
=
j =1
rj
I R
(uji Pi )
Pi i
Wi gj ()d. Pi Q i
(3.64)
SINAPE 2000
56
Resta agora a obten c ao das equa c oes espec cas para cada par ametro do veoes para as derivadas de Pi s ao dadas por (3.8) a tor i = (ai , bi , ci ) . As express e Q substitu (3.10) com Pji , Qji , Pji das por Pi , Qi , Pi e Q i , respectivamente. ji Para obtermos a equa c ao de estima c ao para o par ametro de discrimina c ao, ai , notemos que da express ao (3.64) temos que
log L( , ) = ai
s
=
j =1 s
rj rj
j =1
I R
(uji Pi )
Pi ai
I R
= D(1 ci )
j =1
rj
I R
log L( , ) = bi
s
=
j =1 s
rj rj
j =1
I R
(uji Pi )
Pi bi
I R
= Dai (1 ci )
j =1
rj
I R
Para o par ametro de acerto ao acaso, ci , temos que Andrade, Tavares & Valle SINAPE 2000
57
log L( , ) ci
=
j =1 s
rj rj
j =1 s
I R
(uji Pi )
Pi ci
Wi gj ()d Pi Q i
= =
j =1
I R
(uji Pi )Q i (uji Pi )
Wi gj ()d Pi Q i (3.67)
rj
I R
Wi g ()d. Pi j
ai bi ci
: : :
D(1 ci )
j =1
rj
s
I R
Dai (1 ci )
j =1 s
rj
I R
(3.69) (3.70)
rj
j =1
I R
(uji Pi )
Wi g ()d = 0, Pi j
58
=
j =1
rj
P (uj. | , )/ l P (uj. | , )
P (uj. | , )/ i P (uj. | , )
onde
(t+1)
[H P I ( )]1 hP I ( )
(t)
(t)
(3.72)
h( 1 ) . hP I ( ) = . . h( I ) com h( i ) = =
H ( 1 , 1 ) . . . . H P I ( ) = . . H ( I , 1 )
H ( 1 , I ) . . , . H ( I , I )
log L( , ) i
s
rj
j =1
I R
(3.73)
e H ( i , l ) = =
j =1
2 log L( , ) li
s
59
No Ap endice A.3 o leitor encontrar a as demonstra c oes para os resultados acima. Para aplicarmos o algoritmo Scoringde Fisher, notemos que E [Hil(j ) ] = 0, i, l = 1, , I e j = 1, , n. Segue ent ao que
s
( i , l ) = E [H ( i , l )] =
j =1
rj [hi(j ) hi(j ) ].
SINAPE 2000
60
Equa c oes de estima c ao em forma de quadratura Consideremos conhecidos os n os k e os pesos, Ak , k = 1, , q, com Ak = g (k | ) k . Com isso, podemos escrever
I
P (uj. |k , ) =
i=1
[Pkiji Qki
1uji
],
P (uj. | , )
k=1
P (uj. |k , )g (k | )k =
k=1
P (uj. |k , )Ak .
Segue que (3.63) pode ser escrita, em forma de quadratura, como P (uj. |k , )Ak 1 q k . , ) A P ( u | j. k k k=1
gj (k )
(3.75)
Por exemplo, voltando ` a fun c ao de verossimilhan ca para ai dada por (3.68), podemos reescrev e-la em forma de quadratura como log L( , ) ai
s
= D(1 ci )
j =1 s
rj
q
I R
D(1 ci )
j =1 k=1
Para que a express ao em forma de quadratura que o mais parecida poss vel ( ) de (3.75) por com a original, podemos redenir a quantidade gj k
gj (k ) =
(3.76)
Desta forma, a fun c ao de verossimilhan ca para ai ca Andrade, Tavares & Valle SINAPE 2000
61
ai : D(1 ci )
j =1 k=1
(3.77)
De forma an aloga, temos que as equa c oes de estima c ao em forma de quadratura para os par ametros bi e ci s ao, respectivamente,
s q rj [(uji Pki )Wki ] gj (k ) = 0, j =1 k=1 s q
bi : Dai (1 ci ) ci :
j =1 k=1
(3.78) (3.79)
rj (uji Pki )
Wki gj (k ) = 0. Pki
( ) nas equa Deve ser ressaltado que a fun c ao gj c oes (3.77) a (3.79) deve k ser calculada por (3.76). Novamente, estas equa c oes n ao apresentam solu c oes expl citas para os EMV dos par ametros dos itens. Para aplica c ao dos procedimentos Newton-Raphson ou Scoringde Fisher devemos notar que as deric ao a i e l , para i = l, n ao s ao nulas, vadas segundas de log L( , ) com rela o que leva ` a necessidade da estima c ao dos par ametros dos I itens simultaneamente. Isso pode gerar uma grande limita c ao na estima c ao de um n umero alto de itens devido ` a necessidade da invers ao de matrizes de dimens oes 3I 3I . A proposta de Bock & Aitkin (1981), que apresentaremos a seguir, contorna este problema.
para i = l.
(3.80)
Essa suposi c ao modica a matriz H P I ( ) tornando-a bloco diagonal, uma Andrade, Tavares & Valle SINAPE 2000
62
situa c ao similar ` a da Se c ao 3.4 onde eram estimados os par ametros dos itens e as habilidades conjuntamente. Naquele caso, a independ encia local foi suciente para garantir (3.80) e, assim, possibilitar que os itens fossem estimados individualmente, xadas as habilidades. A proposta de Bock & Aitkin foi adotar a independ encia entre os itens de forma a possibilitar que os itens sejam estimados individualmente. Vale notar que as suposi c oes de independ encia local e a suposi c ao de independ encia dos itens s ao completamente diferentes. A primeira est a relacionada ` as respostas dos indiv duos, enquanto a segunda se refere apenas aos itens. Com esta constru c ao, a estima c ao pode ser feita adotando as mesmas express oes desenvolvidas na se c ao anterior, fazendo a adapta c ao devida a (3.80). Entretanto, Bock & Aitkin sugerem que a obten c ao das estimativas de m axima verossimilhan ca seja feita atrav es do algor timo EM, introduzido por Dempster, Laird & Rubin (1977), e por isso algumas altera c oes nas express oes da se c ao anterior ser ao necess arias. De (3.68) temos que log L( , ) ai
s [(uji Pi )( bi )Wi ] gj ()d
= D(1 ci )
j =1 s
rj rj
j =1
I R
= D(1 ci )
I R
( bi ) uji gj () Pi gj () Wi d
s rj uji gj () Pi j =1
s j =1
rj gj () Wi d
( bi )
I R
( bi ) [ri () Pi fi ()] Wi d,
(3.81)
s rj uji gj (),
ri () =
j =1
fi () =
j =1
rj gj ().
SINAPE 2000
63
( ) Lembrando que gj e a distribui c ao condicional de j dado uj. , ent ao fi () representa o n umero esperado de indiv duos, dentre os que responderam o item i em uma popula c ao de tamanho n, que t em habilidade . Para a quantidade ri () contribuem apenas os indiv duos que responderam corretamente ao item i. Logo, esta quantidade representa o n umero esperado de indiv duos, dentre os que responderam corretamente ao item i em uma popula c ao de tamanho n, que t em habilidade . Analogamente, de (3.69) e (3.70) temos que
log L( , ) bi log L( , ) ci
= Dai (1 ci ) =
I R
I R
[ri () Pi fi ()] Wi d,
(3.82) (3.83)
[ri () Pi fi ()] Wi d.
Equa c oes de estima c ao em forma de quadratura Considerando conhecidos os n os k e os pesos, Ak , k = 1, , q, temos que as equa c oes de estima c ao em forma de quadratura para os par ametros ai , bi e ao, respectivamente, ci s
q
ai : D(1 ci )
k=1
bi : Dai (1 ci )
k=1 q
ci :
k=1
onde
s s rj uji gjk , j =1
rki =
fki =
j =1
rj gjk
e gjk = gj (k ).
(3.87)
SINAPE 2000
64
(k+1)
No passo M a maximiza c ao pode ser feita pelo algoritmo Newton-Raphson c ao de que os itens s ao independentes, ou Scoringde Fisher. Com a suposi (3.80), a matriz de derivadas segundas torna-se bloco diagonal, possibilitando que os (par ametros dos) itens sejam estimados individualmente, eliminando o problema de trabalhar com matrizes de ordem 3I 3I e passando a operar com matrizes 3 3. H a tr es formas do algoritmo EM, distinguidas pela rela c ao entre a fun c ao (densidade) de probabilidade e a forma da fam lia exponencial. A primeira c ao e um membro regular da fam lia exponencial; forma se aplica quando a fun a segunda, quando a fun c ao n ao e um membro regular da fam lia exponencial, mas um membro da fam lia exponencial curvada (formada por distribui c oes em que h a restri c oes no espa co param etrico) e a terceira, quando a fun c ao n ao tem nenhuma rela c ao com a fam lia exponencial. Se a FRI e um membro regular da fam lia exponencial, o procedimento torna-se relativamente simples. Embora o modelo log stico de 1 par ametro (modelo de Rasch) seja membro da fam lia exponencial, os modelos de 2 e 3 par ametros n ao s ao. Portanto, a terceira forma do algoritmo EM deve ser aplicada nestes casos. Para descrever brevemente o algoritmo EM aplicado ` a TRI, comecemos supondo que as habilidades est ao restritas a um conjunto de q valores, k , k = Andrade, Tavares & Valle SINAPE 2000
65
1, , q, com probabilidades k , k = 1, , q . (Essa suposi c ao pode ser feita porque as aproxima c oes de integrais s ao feitas por m etodos de quadratura, e os valores k corresponder ao aos pontos de quadratura.) Seja fki o n umeros de indiv duos com habilidade k respondendo ao item i, f i = (f1i , , fqi ) , com q umeros de ink=1 fki = N , f = (f 1 , , f I ). Similarmente, seja rki o n div duos com habilidade k respondendo corretamente ao item i, r i = (r1i , , rqi ) e r = (r 1 , , r I ). Estas deni c oes se assemelham bastante com as da Se c ao 3.2, quando tratamos da estima c ao dos par ametros dos itens com as habilidades conhecidas e agrupadas em q categorias. Veremos que, de fato, os resultados s ao muito similares. Entretanto, na Se c ao 3.2 as freq u encias fki e rki eram conhecidas, e no caso atual estas quantidades s ao desconhecidas. Essa e a grande vantagem do algoritmo EM, onde fki e rki podem ser tratadas como quantidades n ao observadas. Se os n indiv duos que responder ao ao item i s ao selecionados ao acaso da c ao, a probabilidade conjunta que os fki indiv duos tenham habilidades popula k , k = 1, , q, e dada pela distribui c ao multinomial: P (f i | ) =
fki j , q f ! ki k=1 k=1
n!
i = 1, , I.
Dados fki e k , a probabilidade de ocorrerem rki acertos ao item i dentre as fki tentativas por indiv duos com habilidade k e P (rki |fki , k ) = fki rki fki rki Pki Qki , rki
onde Pki e a FRI adotada com j substitu da por k . A probabilidade conjunta e de f e r , dados = (1 , , q ) e ,
P (f , r | , ) = P (f | , )P (r |f , , ) = P (f | )P (r |h, )
I I q
=
i=1
P (f i | )
i=1 k=1
P (rki |fki , k )
SINAPE 2000
66
log L( ) = log P (f | ) +
i=1 k=1 q I
= log P (f | ) +
q I
fki rki
= C+
k=1 i=1
onde C = log P (f | ) +
fki e constante com rela c ao a . Terki mos que (f , r ) s ao n ao-observ aveis, mas tomando a esperan ca da log-verossimilhan ca, condicional em u.. e , e usando a nota c ao rki = E [rki |u.. , ], f ki = E [fki |u.. , ] e C = E [C |u.. , ]
obtemos,
I q
E [log L( )] = C +
i=1 k=1
Podemos notar que esta express ao equivale a (3.17) da Se c ao 3.2. As primeiras parcelas nessas duas express oes s ao constantes com rela c ao a . Os termos dos por f ki e restantes s ao, praticamente, os mesmos, com fki e rki substitu rki , respectivamente. Portanto, maximizar a equa c ao (3.88) com rela c ao a i e equivalente a maximizar (3.17) e representa o Passo E do algoritmo EM. Mais ao especicamente, os passos E e M s Passo E Usar os pontos de quadratura k , os pesos Ak , k = 1, , q e estimativas iniciais dos par ametros dos itens, i , i = 1, , I, para gerar gj (k ) e, posteriormente, rki e f ki , i = 1, , I e k = 1, , q . Passo M Com r e f obtidos no Passo E, resolver as equa c oes de estima c ao para i , i = 1, , I, usando o algoritmo Newton-Raphson ou Scoringde Fisher atrav es das express oes da Se c ao 3.2. Andrade, Tavares & Valle SINAPE 2000
67
Estes passos comp oem cada itera c ao do algoritmo EM, as quais ser ao repetidas at e que algum crit erio de parada seja alcan cado. Ap os a naliza c ao do processo, os erros-padr ao s ao obtidos com o uso de (3.29).
68
mento mais geral vamos mant e-la no desenvolvimento da teoria. Com isso, a densidade conjunta desses par ametros e f ( , , , ) = f ( | )g ( | )f ( )g ( ) I n = f ( i | ) g (j | ) f ( )g ( ).
i=1 j =1
Se quisermos fazer infer encias sobre todos esses par ametros, devemos nos basear na distribui c ao a posteriori: f ( , , , |u.. ) L(u.. ; , )f ( | )g ( | )f ( )g ( ). (3.89)
Entretanto, geralmente estamos interessados em um n umero reduzido de ametros. Nesse caso, devemos trabalhar com uma posteriori que seja fun c ao par apenas dos par ametros de interesse.
Como estimador de podemos escolher alguma caracter stica de f ( , |u.. ), Andrade, Tavares & Valle SINAPE 2000
69
sendo que as mais adotadas s ao a m edia e a moda. No que segue vamos considerar a moda da posteriori como o estimador de , ou seja, o valor de que maximiza a posteriori marginal. Temos que log f ( , |u.. ) = Const + log L( , ) + log f ( ) + log g ( ), onde o primeiro termo representa uma constante. Pela suposi c ao de independ encia entre os itens, a estima c ao ser a feita um item por vez. Notando que a u ltima parcela n ao e fun c ao de i , temos que as equa c oes de estima c ao ao dadas por para os par ametros dos itens i , i = 1, , I, s f ( , |u.. ) log L( , ) log f ( ) = + = 0. i i i
(3.91)
A primeira parcela de (3.91) e exatamente a mesma obtida em (3.64). A a distriabordagem bayesiana adiciona uma nova parcela a (3.64) relativa ` bui c ao a priori associada aos par ametros dos itens. A primeira parcela de (3.91) relativa ` as componentes de i e dada por (3.68) a (3.70). A segunda parcela de (3.91) depende da priori adotada para cada par ametro. Como o par ametro ai deve ser positivo, bi pode assumir qualquer valor real e ci deve estar no intervalo [0, 1], deveremos assumir distribui c oes que levam em conta essas limita c oes e isso exige um tratamento diferenciado para cada um destes ametros. Em seguida trataremos destes casos, considerando as suposi c oes par mais freq uentes na pr atica. Distribui c ao a priori para ai Geralmente, adota-se as distribui c oes Log-normal ou Chi-Quadrado para ametro ai tem distribui c ao Logai . Neste texto, vamos supor que cada par 2 normal com par ametro = (a , a ). Uma justicativa te orica para a ado c ao desta distribui c ao e que na pr atica os ai s ao, em geral, positivos, sugerindo que a distribui c ao de ai pode ser modelada por uma distribui c ao unimodal e com assimetria positiva (ver Mislevy (1986a)), tal como a log-normal. A transforma c ao i = log ai resulta em cada i tendo uma distribi c ao Normal 2 ]. Alguns 2 2 2 2 ( , ), onde a = exp[ + /2] e a = (exp( ) 1) exp[2 + autores (ver Baker (1992), por exemplo) preferem desenvolver express oes para Andrade, Tavares & Valle SINAPE 2000
70
a estima c ao de i ao inv es de ai e sugerem a utiliza c ao da propriedade de invari ancia do estimador de m axima verossimilhan ca para a obten c ao de ai pela trasforma c ao ai = exp(i ). Entretanto, para uniformidade desse texto, vamos continuar apresentando a equa c ao para o par ametro ai . Como a distribui c ao de ai e log-normal, sua densidade e 1 1 2 f (ai |a , a )= exp 2 (log ai a )2 . 2a 2ai a Segue que a segunda parcela de (3.91) pode ser escrita como
2) log f (ai |a , a 1 log ai a = 1+ . 2 ai ai a
(3.92)
Distribui c ao a priori para bi Como os par ametros de diculdade est ao na mesma escala da habilidade, oem-se que cada bi s tem distribui c ao Normal com vetor de em geral, sup 2 ). Desta forma, a segunda parcela de (3.91) pode ser par ametros = (b , b escrita como
2) log f (bi |b , b (bi b ) = . 2 bi b
(3.93)
Distribui c ao a priori para ci Como ci s o pode pertencer ao intervalo [0; 1], uma priori Beta foi proposta por Swaminathan & Giord (1986). A fun c ao densidade da distribui c ao Beta com par ametros s + 1 e t + 1 e dada por (s + t + 2) s c (1 ci )t , (s + 1)(t + 1) i
f (ci |s, t) =
(3.94)
onde (d) e a fun c ao Gama, denida por Andrade, Tavares & Valle SINAPE 2000
71
(d) =
0
xd1 ex dx.
A m edia desta distribui c ao e dada por s+1 . s+t+2 Swaminathan & Giord prop oem, ainda, a seguinte reparametriza c ao: p= = mp + 1 e = m(1 p) + 1,
onde m = s + t +2. Desta forma, p = (s +1)/m e, consequentemente, s = mp 1 e t = m s 2 = m(1 p) 1. Segue disso que s=2 Retornando a (3.94), obtemos ( + 2) 2 c (1 ci ) 2 . ( 1)( 1) i e t = 2.
f (ci |, ) =
(3.95)
Neste caso, a m edia p passa a ser interpretada como a probabilidade de duos com baixa habilidade. Desta forma, os par ametros e acerto por indiv s ao denidos para que p tenha o valor desejado. Entretanto, Swaminathan & Giord sugerem que a escolha de m deva se situar no intervalo {15, , 20}, o que leva a uma certa restri c ao na escolha de e . Para chegarmos a express ao para a segunda parcela de (3.91), notemos que log f (ci |, ) = Const + ( 2) log ci + ( 2) log(1 ci ). Consequentemente, 2 2 log f (ci |, ) = . ci ci 1 ci (3.96)
(3.97)
Com as componentes (3.92), (3.93) e (3.97), temos que as equa c oes de estima c ao para as componentes de i s ao Andrade, Tavares & Valle SINAPE 2000
72
ai : D(1 ci )
bi ci
1 log ai a 1+ = 0, 2 ai a I R (3.98) (bi b ) = 0, : Dai (1 ci ) [ri () Pi fi ()] Wi d (3.99) 2 b I R Wi 2 2 : [ri () Pi fi ()] d + = 0. (3.100) P c 1 ci i I R i ( bi ) [ri () Pi fi ()] Wi d
Para efeito de aplica c ao dos procedimentos iterativos Newton-Raphson ou Scoringde Fisher, precisaremos das derivadas segundas das express oes (3.98) oes a (3.100). Como as derivadas segundas das primeiras parcelas dessas express j a foram obtidas na Se c ao 3.2, resta apenas a obten c ao das segundas parcelas, que s ao as seguintes:
1 2 a + log ai a 1 , 2 ai a 1 2, b 2 2 . 2 (1 ci )2 ci (3.101)
= =
2 log f (ci |, ) c2 i
Equa c oes de estima c ao em forma de quadratura Considerando conhecidos os n os k e os pesos Ak , k = 1, , q, temos que ametros ai , bi e as equa c oes de estima c ao em forma de quadratura para os par ci s ao, respectivamente, Andrade, Tavares & Valle SINAPE 2000
73
ai : D(1 ci )
k=1
1 log ai a 1+ = 0, 2 ai a (3.102)
bi : Dai (1 ci )
k=1 q
(bi b ) = 0, 2 b
(3.103) (3.104)
ci :
k=1
2 Wki 2 + = 0. Pki ci 1 ci
(3.105)
( ) como estimador Novamente, podemos adotar alguma caracter stica de gj j de j , sendo que as mais adotadas s ao a m edia e a moda. A seguir, trataremos da obten c ao de cada uma destas caracter sticas.
Estima c ao pela moda da posteriori - MAP A estima c ao pela moda da posteriori (ou MAP: maximum a posteriori) consiste em obter o m aximo de (3.105). Por facilidade, vamos trabalhar com o logaritimo da posteriori
log gj (j ) = Const + log P (uj. |j , ) + log g (j | ).
SINAPE 2000
74
(3.106)
P (uji | i , j ) =
i=1
log P (uji | i , j ).
=
i=1 I
=
i=1
Lembramdo que P (uji | i , j ) = Pjiji Qji (3.34) a (3.38), teremos que log P (uj. |j , ) =D j
I
1uji
e usando o desenvolvimento de
(3.108)
Como estamos adotando a priori Normal (, 2 ) para j , a segunda parcela de (3.106) e (j ) log g (j | ) = . j 2 Por (3.108) e (3.109), temos que a equa c ao de estima c ao para j e
I
(3.109)
D
i=1
(j ) = 0. 2
(3.110)
SINAPE 2000
75
Como esta equa c ao n ao tem solu c ao expl cita, podemos aplicar algum m etodo iterativo para resolv e-la. Para isso ser a necess aria a derivada segunda de log g (j |uj. , , ) com rela c ao a j , cuja express ao e
I
H (j ) =
i=1
1 , 2
(3.111)
onde hji e Hji s ao dados por (3.42) e (3.43), respectivamente. Para aplicarmos o m etodo Scoringde Fisher, devemos tomar a esperan ca da express ao acima, resultando em
I
(j ) =
i=1
1 . 2
(3.112)
Estima c ao pela m edia da posteriori - EAP A estima c ao de j pela m edia da posteriori (ou EAP: expected a posteriori) ca da posteriori, que pode ser escrita como consiste em obter a esperan P (uj. |, )g (| ) . P (uj. | , )
g (|uj. , , ) =
(3.113)
j E [|uj. , , ] =
(3.114)
Esta forma de estima c ao tem a vantagem de ser calculada diretamente, n ao necessitando da aplica c ao de m etodos iterativos. Al em disso, as quantidades necess arias para o seu c alculo s ao um produto nal da etapa de estima c ao. Por conta disso alguns autores (por exemplo, Mislevy & Stocking (1989)) recomendam esta escolha para a estima c ao das habilidades. Andrade, Tavares & Valle SINAPE 2000
76
3.7 Resumo
A seguir, faremos um s ntese das vantagens e desvantagens dos m etodos citados neste livro. Vale ressaltar que existem ainda outros m etodos de estima c ao propostos na literatura. Na s ntese abaixo, o s mbolo representar a uma caracter stica positiva, enquanto representar a uma caracter stica negativa.
SINAPE 2000
3.7 Resumo
77
78
Estima c ao: uma u nica popula c ao Apresenta problemas na estima c ao do par ametro ci em alguns casos; deve ser usado somente com um n umero sucientemente grande de respondentes; N ao est a denido para alguns padr oes de resposta.
SINAPE 2000
Cap tulo 4
Equaliza c ao
4.1 Introdu c ao
No cap tulo anterior, apresentamos os m etodos de estima c ao mais utilizados quando todos os par ametros dos itens de uma u nica prova devem ser estimados. No entanto, esta e apenas uma das poss veis situa c oes que na pr atica iremos encontrar. A seguir, listaremos os 6 casos poss veis, quanto ao n umero de grupos e de tipos de prova envolvidos. Esses casos est ao esquematizados na Figura 4.1. 1. Um u nico grupo fazendo uma u nica prova. 2. Um u nico grupo, dividido em dois subgrupos, fazendo duas provas, totalmente distintas (nenhum item comum). 3. Um u nico grupo, dividido em dois subgrupos, fazendo duas provas, apenas parcialmente distintas, ou seja, com alguns itens comuns. 4. Dois grupos fazendo uma u nica prova. 5. Dois grupos fazendo duas provas, totalmente distintas (nenhum item comum). 6. Dois grupos fazendo duas provas, apenas parcialmente distintas, ou seja, com alguns itens comuns. Note que para simplicar, listamos os casos acima utilizando apenas duas provas e duas popula c oes, mas as situa c oes envolvendo um n umero maior de provas e/ou de popula c oes s ao an alogas. Al em disso, os problemas de estima c ao tamb em podem diferir dependendo do conjunto de itens que necessita ser estimado, ou seja, se nosso conjunto de itens e composto de:
80
Equaliza c ao
Figura 4.1 Representa c ao gr aca de 6 situa c oes quanto ao n umero de grupos e de tipos de provas
(a) apenas itens novos (ou seja, itens que ainda n ao foram calibrados); (b) apenas itens j a calibrados; (c) itens novos e itens calibrados. Em primeiro lugar, e importante denir o conceito de Equaliza c ao (ver Kolen & Brennan (1995), por exemplo), que e um dos mais importantes da TRI e um dos grandes objetivos das Avalia c oes Educacionais. Equalizar signica equipaavel, o que no caso da TRI signica colocar par ametros de rar, tornar compar itens vindos de provas distintas ou habilidades de respondentes de diferentes Andrade, Tavares & Valle SINAPE 2000
81
grupos, na mesma m etrica, isto e, numa escala comum, tornando os itens e/ou as habilidades compar aveis. Existem dois tipos de equaliza c ao: a equaliza c ao via popula c ao e a equaliza c ao via itens comuns. Isto signica que h a duas maneiras de colocar par ametros, tanto de itens quanto de habilidades, numa mesma m etrica: na primeira usamos o fato de que se um u nico grupo de respondentes e submetido a provas distintas, basta que todos os itens sejam calibrados conjuntamente para termos ao na mesma m etrica. J a na equaliza c ao via itens a garantia de que todos estar comuns, a garantia de que as popula c oes envolvidas ter ao seus par ametros em uma u nica escala ser a dada pelos itens comuns entre as popula c oes, que servir ao de liga c ao entre elas.
82
Equaliza c ao
simultaneamente. O fato de todos os indiv duos representarem uma amostra aleat oria de uma mesma popula c ao e que garante que todos os par ametros envolvidos estar ao na mesma escala. Um exemplo para este caso seria quando duas provas distintas (tipo A e tipo B), com 30 itens cada, s ao aplicadas, de maneira aleat oria, aos alunos da 4.a s erie diurna do Ensino Fundamental da rede p ublica estadual de S ao Paulo. Ao nal dos processos de estima c ao, todos os resultados obtidos ser ao compar aveis, n ao importando a que tipo de prova cada aluno tenha sido submetido.
83
cada um. Foram ent ao montados 26 cadernos, cada um composto por 3 blocos importante notar que distintos. Assim, cada aluno responde a 39 itens. E diferentes blocos n ao t em itens comuns entre si, mas que diferentes cadernos podem ou n ao ter itens comuns: basta que tenham algum bloco em comum. Concluindo, desta maneira foram aplicados diferentes tipos de provas representados pelos 26 cadernos com itens comuns a um u nico grupo de respondentes alunos da 3.a s erie do Ensino M edio brasileiro. O SAEB tamb em e um bom exemplo pr atico do que chamamos de provas com itens n ao apresentados. Podemos considerar que a prova e composta dos 169 itens, mas que apenas 39 s ao submetidos a cada aluno. Consequentemente, ao foram apresentados para cada aluno. Quando temos temos 130 itens que n provas com um n umero originalmente grande de itens, podemos resolver o problema utilizando esquemas semelhantes ao usado no SAEB. Assim, o que inicialmente poderia ser considerado como uma u nica prova, pode vir a ser considerado como v arias provas, se n ao submetermos todos os itens a todos os alunos.
84
Equaliza c ao
tidos, uma vez que eles estar ao em m etricas diferentes. Neste caso, n ao faz sentido comparar os resultados destes dois grupos, assim como n ao faz sentido comparar diretamente 40o C com 40o F . Assim como essas duas temperaturas est ao em escalas de medida diferentes, os par ametros obtidos nestas duas provas tamb em estar ao. A diferen ca e que, no caso das temperaturas, h a uma rela c ao conhecida entre as duas escalas, e assim, e poss vel colocarmos uma das temperaturas na mesma escala que a outra, possibilitando ent ao, a compara c ao. J a no caso das provas, n ao existe nenhuma rela c ao entre elas e nem vel a compara c ao. entre os dois grupos, que torne poss Um exemplo que ilustra esta situa c ao seria a elabora c ao de duas provas distintas: uma, composta de 30 itens, seria aplicada ` a 4.a s erie diurna (popula c ao 1) e a outra prova, composta de 40 itens, seria aplicada ` a 5.a s erie diurna (popula c ao 2) do Ensino Fundamental da rede p ublica estadual de S ao Paulo. Estas duas provas poderiam ser calibradas separadamente e seus resulerie, mas n ao tados poderiam ser interpretados isoladamente dentro de cada s poder amos comparar os resultados dos itens e nem das habilidades estimadas para os indiv duos das duas s eries.
85
2). Entre elas poderiam haver 10 itens comuns (por exemplo, 10 itens da matriz curricular da 3.a s erie). Desta maneira, no nal do processo de estima c ao ter amos todos os 50 itens numa mesma m etrica, possibilitando compara c oes entre alunos de 3.a e 4.a s eries, e tamb em possibilitando a cria c ao de uma a a escala de conhecimentoda 3. e da 4. s erie nesta dada disciplina. Como veremos no Cap tulo 6, esta escala possibilitaria a verica c ao dos conte udos que os alunos destas duas s eries dominam, dos conte udos onde h a falhas, acompanhar a evolu c ao do conhecimentode uma s erie para outra, etc.
86
Equaliza c ao
s ao conhecidos, ou seja, assumimos que conhecemos os verdadeiros valores dos par ametros desses itens e assim, sempre que desejarmos, podemos aplicar novamente alguns desses itens do banco a outros indiv duos (ou at e mesmo a um u nico indiv duo) e poderemos ent ao estimar apenas suas habilidades, que estar ao sempre na mesma m etrica dos par ametros dos itens. A quest ao da m etrica e um ponto que deve ser considerado com bastante cuidado numa situa c ao como esta. Quando se constr oium banco de itens, uma informa c ao fundamental e a escala em que aqueles itens foram calibrados. ao estimadas futuramente Isto porque as habilidades de indiv duos que ser a partir daqueles itens estar ao nesta mesma m etrica e portanto, quaisquer compara c oes diretas s o poder ao ser feitas com outro sujeitos que tamb em tenham suas habilidades nesta escala. Assim, para resolver este problema, basta utilizar um dos processos de estima c ao das habilidades dos indiv duos quando os par ametros dos itens j a s ao conhecidos, que foram descritos na Se c ao 3.3 do Cap tulo 3. Um exemplo para este tipo de situa c ao seria a aplica c ao de uma prova, composta de 30 itens de 4.a s erie que j a foram calibrados numa aplica c ao anterior vel nacional como o SAEB), aos alunos da (por exemplo, numa aplica c ao de n 4.a s erie da rede p ublica estadual de S ao Paulo. Este tipo de procedimento ublica e bastante comum, e nesse caso, o objetivo seria comparar a rede p paulista com o desempenho nacional.
87
programas ainda apresentam algumas diculdades com rela c ao a situa c oes como essa. Vamos comentar especicamente os problemas que podem surgir em casos como esse no Cap tulo 7. Um exemplo para esse caso seria a aplica c ao de uma prova, composta de 30 a itens, aos alunos da 4. s erie diurna da rede p ublica estadual de S ao Paulo. Desses 30 itens, 15 s ao itens novos e 15 s ao itens que j a foram calibrados numa aplica c ao de n vel nacional do SAEB. Na pr atica, esta e uma situa c ao bastante comum, pois quando s ao feitas avalia c oes regionais, por um lado h a o interesse em criar e aplicar itens novos, mas por outro lado, h a tamb em o interesse em que os resultados obtidos possam ser comparados aos resultados nacionais. Ilustramos at e aqui, os casos (a), (b) e (c) considerando-se a situa c ao 1. As outras situa c oes onde tratamos apenas de uma popula c ao (situa c oes 2 e 3), s ao an alogas. No entanto, quando temos duas (ou mais) popula c oes envolvidas ametros (situa c oes 4 e 6), e desejamos estimar itens novos e manter xos os par dos itens j a calibrados (caso (c)), poderemos ter problemas com a m etrica. Os alogos ` a situa c ao anterior. casos (a) e (b) n ao apresentam problemas, sendo an Sempre que h a mais de uma popula c ao envolvida nos processos de estima c ao, como j a foi comentado anteriormente, existem problemas de indetermina c ao de escala. Para resolver este problema, devemos denir uma das popula c oes como sendo a refer encia, e ent ao, as demais popula c oes ser ao posicionadas com rela c ao a ela. Este tipo de problema sempre ir a ocorrer quando fazemos a equaliza c ao c ao dos itens. entre duas ou mais popula c oes durante o processo de estima Uma outra maneira de solucionarmos o problema seria atrav es da chamada equaliza c ao a posteriori, que ser a discutida a seguir.
88
Equaliza c ao
itens comuns, teremos dois conjuntos de estimativas, cada uma na m etrica de suas respectivas popula c oes. Da , atrav es dessas duas estimativas para os itens comuns estabelece-se algum tipo de rela c ao que permita colocarmos os par ametros de um dos conjuntos de itens na escala do outro. Com todos os itens na mesma m etrica, pode-se ent ao estimar as habilidades de todos os respondentes, que ent ao estar ao tamb em na mesma escala. Pela propriedade de invari ancia, j a discutida no Cap tulo 2, dado que o modelo e adequado aos dados, os par ametros a e b de um certo item apresentado c oes amostrais, a 2 grupos de respondentes devem satisfazer, a menos de utua as seguintes rela c oes lineares: bG1 = bG2 + e aG1 = 1 a G2 , (4.1)
onde bG1 e bG2 s ao os valores do par ametro de diculdade e aG1 e aG2 s ao os valores do par ametro de discrimina c ao nos grupos 1 e 2, respectivamente. Uma vez determinados os coecientes e , as estimativas dos par ametros dos itens do grupo 2 podem facilmente ser colocados na mesma escala das estimativas do grupo 1. V arios m etodos, que se baseiam nessas rela c oes lineares existentes entre os par ametros de um mesmo item medidos em escalas diferentes, poderiam ser ao utilizados para determinar os coecientes e . A solu c ao mais natural ent pelo pr oprio tipo de rela c ao existente entre os par ametros seria determiao linear simples. No entanto, a nar esses coecientes atrav es de uma regress cr tica feita ` a utiliza c ao desse m etodo e que ele n ao e sim etrico, ou seja, uma regress ao de x por y e diferente de uma regress ao de y por x. Um dos m etodos de equaliza c ao a posteriori existentes que n ao apresenta e invariante (sim etrico) em rela c ao ` as vari aveis utiliesse problema, ou seja, zadas, e denominado M edia-Desvio (Mean-Sigma). O m etodo M edia-Desvio utiliza: = SG1 SG2 e = MG1 MG2 , (4.2)
onde SG1 e SG2 s ao os desvios-padr ao e MG1 e MG2 as m edias amostrais das estimativas dos par ametros de diculdade dos itens comuns nos grupos 1 e 2, respectivamente. Da mesma forma, as habilidades dos respondentes do grupo Andrade, Tavares & Valle SINAPE 2000
89
2 podem ser colocadas na mesma escala das habilidades dos respondentes do grupo 1 a partir da rela c ao
1 G 2 = G2 + ,
(4.3)
1 onde G 2 e o valor da habilidade G2 na escala do grupo 1. Maiores detalhes etodos de equaliza c ao, como por exemplo M edia-Desvio sobre este e outros m Robusto e Curva Caracter stica, podem ser encontrados em Kolen & Brennan (1995). Exemplicando, uma avalia c ao feita no estado do Rio Grande do Norte (ver Funda c ao Carlos Chagas (1997)) utilizou alguns itens do SAEB 95, com o intuito de colocar os resultados obtidos na mesma m etrica do SAEB. As Fuguras 4.2 e 4.3 mostram as rela c oes entre as estimativas dos par ametros a e b nas duas avalia c oes, para a disciplina L ngua Portuguesa da 8.a s erie do Ensino Fundamental.
Figura 4.2 Gr aco de dispers ao das estimativas do par ametro de diculdade - b dos itens comuns da prova de L ngua Portuguesa da 8.a s erie entre o RN e o SAEB
SINAPE 2000
90
Equaliza c ao
Figura 4.3 Gr aco de dispers ao das estimativas do par ametro de discrimina c ao - a dos itens comuns da prova de L ngua Portuguesa da 8.a s erie entre o RN e o SAEB
3 8 srie - SAEB 95
0 0 1 2 8 srie - RN 3 4
Utilizando o m etodo M edia-Desvio, os coecientes e obtidos foram: = 1, 614 SSAEB = = 1, 462, SRN 1, 104
= MSAEB MRN = 0, 363 1, 462 0, 162 = 0, 126. Logo, as estimativas dos par ametros obtidas na avalia c ao feita com os alunos do Rio Grande do Norte foram colocadas na mesma m etrica do SAEB 95 atrav es das seguintes express oes:
OV O aN = RN
SINAPE 2000
91
N OV O RN = RN + = 1, 462RN 0, 126.
Uma u ltima observa c ao sobre equaliza c ao deve ser feita com rela c ao ` a quantidade de itens comuns. Certamente, quanto maior o n umero de itens comuns, melhor ser a a qualidade da equaliza c ao. Assim, o melhor caso de equaliza c ao entre dois grupos distintos e a situa c ao da Se c ao 4.2.4, ou seja, quando trata-se exatamente da mesma prova. No entanto, j a sabemos que n ao e necess ario que umero m nimo de itens comuns necess ario todos os itens sejam comuns. O n para uma boa equaliza c ao entre duas popula c oes depende basicamente de dois fatores: do tipo de equaliza c ao que ser a feita e da qualidadedesses itens comuns. Equaliza c oes feitas durante o processo de calibra c ao, com os modelos para duas ou mais popula c oes que ser ao discutidos no pr oximo cap tulo, s ao mais umero menor de itens comuns do que equaecazese portanto, exigem um n liza c oes feitas a posteriori. Al em disso, se os itens comuns utilizados na equaliza c ao tiverem n veis de diculdade baixos ou altos demais com rela c ao ` as popula c oes envolvidas, ou ent ao se apresentarem baixo poder de discrimina c ao, haver a necessidade de um n umero maior de itens. Alguns autores t em sugerido pelo menos 6 itens comuns entre 2 provas de 30 itens, quando a equaliza c ao e feita durante a calibra c ao. Um estudo de sic oes de equaliza c ao pode ser encontrado mula c ao considerando diferentes situa em Andrade (1999).
SINAPE 2000
Cap tulo 5
5.1 Introdu c ao
Como descrito no cap tulo anterior, e freq uente a situa c ao em que temos duas ou mais popula c oes envolvidas na an alise. Estas popula c oes podem ser caracterizadas por diferentes graus de escolaridade, regi ao, sexo, tipo de escola, etc. O primeiro passo para que os resultados relativos ` as v arias popula c oes possam ser compar aveis e a exig encia de itens comuns nos testes aplicados a c oes, criando uma estrutura de liga c ao entre as mesmas. Nessa estas popula situa c ao, o procedimento usual e fazer a estima c ao para cada popula c ao e utilizar uma das t ecnicas de equaliza c ao descritas na Se c ao 4.3. Um abordagem alternativa e o Modelo para V arias Popula c oes proposto por Bock & Zimowski (1997), introduzido na Sec c ao 2.3, que representou um co na TRI. Nesse modelo considera-se que h a K popula c oes ingrande avan dependentes em estudo e e feita uma an alise conjunta das respostas amostrais dessas popula c oes. Considera-se que a distribui c ao da habilidade dos indiv duos da popula c ao k segue uma determinada distribui c ao com vetor de ametros k . Frequentemente adota-se a distribui c ao Normal com k = par 2 ) , sendo que estes par (k , k ametros representam, respectivamente, a m edia c ao k , k = 1, , K . e a vari ancia das habilidades da popula A grande vantagem da abordagem de Bock & Zimowski est a no fato que a equaliza c ao e feita automaticamente no pr oprio processo de estima c ao. Desta forma, n ao estamos mais sujeitos a diferen cas nas estimativas dos par ametros devidas ao m etodo de equaliza c ao escolhido. Al em disso, na presen ca de v arias popula c oes (digamos, K 5), com as equaliza co es sendo feitas entre os testes k e k + 1, temos erros (relativos ` a regress ao, por exemplo) associados a cada c ao entre duas popula c oes, que ser ao acumulados para a estima c ao de equaliza 2 ), ( , 2 ), , e principalmente de ( , 2 ), podendo levar a uma m (2 ,2 a 3 3 K K
94
estima c ao destes par ametro. Al em disso, essa abordagem requer um n umero menor de itens comuns, em compara c ao com outros m etodos, para produzir resultados similares, conforme discutido no cap tulo anterior. Sejam ukji a resposta (bin aria) ao item i oriunda do j - esimo indiv duo do grupo k , e kj a habilidade do j - esimo indiv duo do grupo k . (Por grupo k entenderemos a amostra relativa ` a popula c ao k .) Embora no desenvolvimento que segue a fun c ao de resposta possa assumir qualquer uma das formas descritas no Cap tulo 2, para ns de aplica c ao utilizaremos a fun c ao ML3, que area, dada abaixo tem sido a fun c ao mais utilizada pelos pesquisadores da 1 1+ eDai (kj bi )
P (ukji = 1|kj ) = ci + (1 ci )
Algumas suposi c oes ser ao necess arias para a constru c ao do modelo. Al em duos da independ encia local, assumiremos que as respostas oriundas de indiv diferentes ser ao independentes. Vamos considerar a mesma fun c ao de resposta para todos os itens.
95
Como comentado no Cap tulo 3, o m etodo da M axima Verossimilhan ca Marginal, bem como o Bayesiano, t em sido preferidos ao m etodo da M axima Verossimilhan ca Conjunta para a estima c ao dos par ametros de interesse. Al em disso, o fato de podermos associar distribui c oes para a habilidade da popula c ao em estudo nos permite criar estruturas para os par ametros das respectivas fun c oes densidade de probabilidade, que ser ao fundamentais nesse modelo. De forma geral, consideremos que as habilidades dos indiv duos da popula c ao k , jk , j = 1, , nk , s ao realiza c oes de uma vari avel aleat oria, k , com distribui c ao cont nua e fun c ao densidade de probabilidade g (| k ), duplamente diferenci avel, com as componentes de k conhecidas e nitas. Para o caso em 2 ), onde 2 que k tem distribui c ao Normal, temos k = (k , k edia e k k e a m a vari ancia das habilidades dos indiv duos da popula c ao k , k = 1, , K . Na situa c ao em que temos uma u nica popula c ao em estudo, n ao h a necessidade de estima c ao dos par ametros populacionais. Isso ocorre porque a m etrica e estabelecida xando-se os par ametros populacionais, geralmente em = 0 e = 1, onde e a m edia e e o desvio-padr ao das habilidade da ca de v arias popula c oes, temos mais um popula c ao considerada. Na presen conjunto de par ametro a estimar: = ( 1 , , K ), que ser ao referidos como a a necessidade do estabeleciPar ametros Populacionais. Entretanto, ainda h mento da m etrica e isso pode ser resolvido xando-se os par ametros relativos c oes. Neste livro adotaremos a seguinte refer encia: a qualquer uma das popula
1 = 0,
1 = 1.
(5.1)
Logo, resta apenas a estima c ao de 2 , , K . Novamente, a estima c ao neste ca marginal, com o diferencial que a modelo e feita por m axima verossimilhan primeira etapa envolve a estima c ao dos par ametros dos itens e dos par ametros populacionais; as habilidades individuais s ao estimadas na segunda etapa. Cabe notar aqui uma grande contribui c ao do modelo de Bock & Zimowski, a de que as m edias populacionais podem ser estimadas diretamente, ao passo que o procedimento anterior era fazer a estima c ao das habilidades para cada c ao para coloc a-las na mesma escala e, grupo, adotar um m etodo de equaliza nalmente, obter a m edia amostral das habilidades de cada grupo. Como faremos a estima c ao por m axima verossimilhan ca marginal, haver a alguma similaridade com o desenvolvimento da Se c ao 3.5. Por em, devido a Andrade, Tavares & Valle SINAPE 2000
96
import ancia deste modelo, a maioria dos detalhes ser ao apresentados. Para ressaltar a diferen ca nos desenvolvimentos das equa c oes de estima c ao para os par ametros dos itens e populacionais, abordaremos a estima c ao dos par ametros dos itens na Se c ao 5.3 e dos par ametros populacionais na Se c ao 5.4. As equa c oes para a estima c ao conjunta dos par ametros dos itens e populacionais ser a o conjunto das equa c oes desenvolvidas nas duas referidas se c oes.
P (ukj. | , k ) = =
I R
I R
onde na u ltima igualdade usamos que a distribui c ao de U kj. n ao e fun c ao de k . Usando a independ encia entre as respostas de diferentes indiv duos, podemos escrever a probabilidade associada ao vetor de respostas U ... como
K nk
P (u... | , ) =
k=1 j =1
P (ukj. | , k ).
(5.2)
Embora a verossimilhan ca possa ser escrita como (5.2), tem sido freq uente utilizar a abordagem de Padr oes de Resposta. Como temos Ik itens no teste Andrade, Tavares & Valle SINAPE 2000
97
k , com duas poss veis respostas para cada item (0 ou 1), h a Sk = 2Ik poss veis respostas (padr oes de resposta) associados a esse teste. Seja rkj o n umero de ocorr encias distintas do padr ao de resposta j no grupo k , e ainda sk min(nk , Sk ) o n umero de padr ao de respostas com rkj > 0. Segue que
sk
rkj = nk .
j =1
(5.3)
Pela independ encia entre as respostas dos diferentes indiv duos, temos que os dados seguem uma distribui c ao P roduto M ultinomial, isto e,
K
L( , ) =
k=1
nk ! [P (ujk. | , k )]rjk . sk r ! jk j =1 j =1
sk
(5.4)
E, portanto, a log-verossimilhan ca e
K
log L( , ) =
k=1
log
nk ! sk j =1 rjk !
sk
+
k=1 j =1
(5.5)
As equa c oes de estima c ao para os par ametros dos itens s ao dadas por log L( , ) = 0, i com log L( , ) i i
K sk K sk
i = 1, , I,
(5.6)
k=1 j =1
=
k=1 j =1 K sk
rjk rkj
k=1 j =1
I R
SINAPE 2000
98 onde
gkj () g (|ukj. , , k ) =
P (ukj. |, )g (| k ) . P (ukj. | , k )
(5.8)
As equa c oes espec cas para cada par ametro do vetor i = (ai , bi , ci ) podem ametro de discrimina c ao ai , usando ent ao ser obtidas de (5.7). Para o par tamb em (3.8), obtem-se log L( , ) = ai
K sk
=
k=1 j =1 K sk
rkj rkj
k=1 j =1
I R
(ukji Pi )
Pi ai
I R K
= D(1 ci )
k=1 j =1
rkj
I R
=
k=1 j =1 K sk
rkj rkj
k=1 j =1
I R
(ukji Pi )
Pi bi
I R
= Dai (1 ci )
k=1 j =1
rkj
I R
Por u ltimo, para o par ametro de acerto ao acaso ci , usando tamb em (3.10), obtem-se Andrade, Tavares & Valle SINAPE 2000
99
log L( , ) ci
sk
=
k=1 j =1 K sk
rkj rkj
k=1 j =1 K sk
I R
(ukji Pi )
Pi ci
Wi gkj ()d Pi Q i
I R
(ukji Pi )Q i (ukji Pi )
Wi gkj ()d Pi Q i
=
k=1 j =1
rkj
I R
Wi g ()d. Pi kj
ai : D(1 ci )
k=1 j =1 K
rkj
sk
I R
bi : Dai (1 ci )
k=1 j =1 K sk
rkj
I R
(5.10)
ci :
k=1 j =1
rkj
I R
(ukji Pi )
Wi g ()d = 0, Pi kj
(5.11)
100
log L( , ) = 0, 2 k
k = 2, , K.
=
j =1 sk
rjk rjk
j =1 sk
1 P (ukj. | , k ) 1 P (ukj. | , k )
I R
P (ukj. |, ) P (ukj. |, )
gkj ()d.
g (| k ) k
d g (| k )d
= =
j =1
I R
log g (| k ) k
rjk
I R
log g (| k ) k
log g (| k ) k = 2 k k
k :
2 k :
2 1 (k ) j =1 sk 4 1 (2k ) j =1
rkj rkj
I R
( k )gkj ()d = 0,
(5.12) (5.13)
I R
2 k ( k )2 gkj ()d = 0.
=
I R
=
I R
101
que representam a m edia e a vari ancia da distribui c ao condicional da habilidade da popula c ao k , dado {U kj. = ukj. }, respectivamente, ent ao, por (5.3), (5.12) e (5.14), segue que
sk sk
0 =
j =1 sk
rkj
I R
gkj ()d k j =1 sk
rkj
I R
gkj ()d
=
j =1 sk
rkj kj k
j =1
rkj
=
j =1
rkj kj nk k ,
k =
rkj kj .
j =1
(5.16)
0 =
rkj
I R
( k )2 gkj ()d
rkj
j =1
rkj
I R
( kj )2 gkj d +
I R
2 k =
102
( ) depende dos par Note que gkj ametros dos itens e tamb em dos par ametros populacionais e, consequentemente, seu valor nas express oes acima deve ser calculado a partir de estimativas desses par ametros. Representando por k. a m edia das esperan cas condicionais kj , por 2 k. 2 e por 2 uma medida adequada de ancias condicionais kj a m edia das vari k. edias condicionais, todas associadas ao grupo k , ou variabilidade entre as m seja, sk sk 2 rkj kj j =1 sk
1 k. = nk
rkj kj ,
j =1
2 k.
1 = nk
2 k.
1 = nk
rkj (kj k )2 ,
j =1
k = 2, , K.
(5.18)
Estas express oes nos permitem interpreta c oes bastante intuitivas. Primeiro, notemos que os somat orios nas deni c oes acima podem ser adaptados de forma a considerar as respostas individuais ao inv es dos padr oes de respostas. Com isso, o estimador para a habilidade m edia da popula c ao k e a m edia obtida edias da distribui c ao condicional da habilidade, dacom os estimadores das m dos os vetores de respostas individuais ukj. . Por outro lado, o estimador para ancia das habilidades da popula c ao k n ao e simplesmente a m edia entre a vari estimadores das vari ancias da distribui c ao condicional da habilidade, dados os em uma outra contribui c ao vetores de respostas individuais ukj. . Existe tamb relativa ` a variabilidade entre os estimadores das m edias da distribui c ao condicional da habilidade com rela c ao ao estimador da m edia populacional associada.
:
k=1 I R
Pi i
Wi d = 0, Pi Q i
(5.19)
SINAPE 2000
103
fki () =
representam, respectivamente, o n umeros de indiv duos do grupo k com habilidade respondendo ao item i e o n umeros destes indiv duos que respondem ao aproximadas atrav es de corretamente ao item i. Novamente, as integrais s quadratura Gaussiana. Fixados os q n os kl e os pesos Akl , l = 1, , q, k = 1, , K , e com estimativas iniciais dos par ametros dos itens, i , i = 1, , I , as equa c oes (5.18) podem ser resolvidas diretamente para obten c ao das estimativas desejadas. A estima c ao e feita em separado para cada item, e por isso poderemos utilizar o desenvolvimento da Se c ao 3.2. Reformulando-se os passos c ao 3.5.3, para a situa c ao de duas ou mais do algoritmo EM descritos na Se popula c oes, teremos Passo E 1. Usar os pontos de quadratura kl , os pesos Akl , l = 1, , q e estimativas iniciais dos par ametros dos itens , i , i = 1, , I, e 2 , k = 1, , K, para gerar ametros populacionais, k e k dos par ( ) e, posteriormente, r gkj kl kli e f kli , i = 1, , I e k = 1, , q .
( ) para obter 2 2. Usar os pontos de quadratura e gkj kl kj e kj por 2 por (5.18). (5.14) e (5.15), e poteriormente, k e k
Passo M Com r , f e obtidos no Passo E, resolver as equa c oes de estima c ao para i , i = 1, , I, usando o algoritmo Newton-Raphson ou Scoes das express oes da Se c ao 3.2. ringde Fisher atrav Estes passos comp oem cada itera c ao do algoritmo EM, as quais ser ao repetidas at e que algum crit erio de parada seja alcan cado. Ap os a naliza c ao do processo, os erros-padr ao s ao obtidos com o uso de (3.29). Devemos notar que no passo M as express oes para a maximiza c ao s ao um pouco modicadas, com rela c ao ` as express oes da Se c ao 3.2, devido a introdu c ao de novos grupos. Se i
(t)
iterativo de Newton-Raphson para obten c ao de i (3.25), onde Andrade, Tavares & Valle
SINAPE 2000
104
h( i ) =
k=1 l=1 q K
(rkli fkli Pkli )Wkli hkli , (rkli fkli Pkli )Wkli H kli (rkli fkli Pkli )Wkli hkli hkli ,
k=1 l=1
H ( i ) =
com Pkli , Wkli , H kli e hkli similares ` a Se c ao 3.2, com k substitu da por kl . Para a aplica c ao do m etodo Scoringde Fisher, devemos substituir H ( i ) pelo seu valor esperado, ou seja,
( i ) =
k=1 l=1
105
ai : D(1 ci )
k=1
I R K
1 log ai a 1+ = 0, 2 ai a
bi : Dai (1 ci )
k=1 K
I R
(bi b ) = 0, 2 b
ci :
k=1
I R
Wi 2 2 d + = 0. Pi ci 1 ci
As derivadas segundas destas express oes s ao facilmente obtidas pela Se c ao 3.2 e por (3.101). A aplica c ao do algoritmo EM se d a de forma id entica ` a estima c ao por MVM, delineada na se c ao anterior.
(t)
(t)
(t)
com Pkji , Wkji , Hkji e hkji similares ` a Se c ao 3.3, com j substitu da por kj . Para aplica c ao do m etodo Scoringde Fisher, devemos substituir H (kj ) pelo seu valor esperado, ou seja, (kj ) =
iI k 2 Pkji Q kji Wkji hkji .
H (kj ) =
1 2 , (5.21) k
onde hkji e Hkji s ao dados por (3.42) e (3.43), respectivamente, com j substitu da por kj . Para aplicarmos o m etodo Scoringde Fisher, devemos tomar ca da express ao acima, resultando em a esperan
2 Pkji Q kji Wkji hkji iI k
(kj ) =
1 2. k
(5.22)
107
kj E [|ukj. , , k ] =
(5.24)
Esta forma de estima c ao tem a vantagem de ser calculada diretamente, n ao necessitando da aplica c ao de m etodos iterativos. Al em disso, as quantidadas necess arias para o seu c alculo s ao um produto nal da etapa de estima c ao. Por conta disso alguns autores (por exemplo, Mislevy & Stocking (1989)) recomendam esta escolha para a estima c ao das habilidades. No pr oximo cap tulo apresentaremos a constru c ao e interpreta c ao da escala de habilidade e uma aplica c ao pr atica.
SINAPE 2000
Cap tulo 6
6.1 Introdu c ao
Neste cap tulo vamos descrever os procedimentos para a constru c ao de escalas de habilidade e em seguida iremos ilustrar como e feita sua interpreta c ao atrav es de uma aplica c ao pr atica da TRI na area de avalia c ao da aprendizagem.
110
padr ao abaixo da m edia dessa mesma popula c ao. Por outro lado, n ao podemos armar nada a respeito do que o indiv duo com habilidade 1,80 sabe a mais do que aquele com habilidade -0,50. Estes fatos motivaram ent ao a cria c ao de escalas de conhecimento tamb em chamadas de escalas de habilidade , que tornam poss vel a interpreta c ao pedag ogica dos valores das habilidades. Essas escalas s ao denidas por n veis ancora, que por sua vez s ao caracterizados por conjuntos de itens denominados itens ancora. N veis ancora s ao pontos selecionados pelo analista na escala a os itens ancora da habilidade para serem interpretados pedagogicamente. J s ao itens selecionados, segundo a deni c ao dada abaixo, para cada um dos n veis ancora. Deni c ao de item ancora: Considere dois n veis ancora consecutivos Y e Z com Y < Z . Dizemos que um determinado item e ancora para o n vel Z se e somente se as 3 condi c oes abaixo forem satisfeitas simultaneamente: 1. P (U = 1| = Z ) 0, 65 e 2. P (U = 1| = Y ) < 0, 50 e
3. P (U = 1| = Z ) P (U = 1| = Y ) 0, 30 Em outras palavras, para um item ser ancora em um determinado n vel ancora da escala, ele precisa ser respondido corretamente por uma grande propor c ao de indiv duos (pelo menos 65%) com este n vel de habilidade e aximo 50%) com o n vel de por uma propor c ao menor de indiv duos (no m habilidade imediatamente anterior. Al em disso, a diferen ca entre a propor c ao de indiv duos com esses n veis de habilidade que acertam a esse item deve ser de pelo menos 30%. Assim, para um item ser ancora ele deve ser um item picodaquele n vel, ou seja, bastante acertado por indiv duos com aquele t n vel de habilidade e pouco acertado por indiv duos com um n vel de habilidade imediatamente inferior. Como u ltimo coment ario, podemos dizer que e bastante comum fazer uma transforma c ao linear em todos os par ametros envolvidos antes da constru c ao das escalas. Tal procedimento tem como u nico objetivo facilitar a constru c ao e utiliza c ao da escala, uma vez que procura transformar valores negativos ou decimais em n umeros positivos e inteiros. Andrade, Tavares & Valle SINAPE 2000
111
Na Figura 6.1 s ao apresentados, em uma escala de habilidade com n veis ancora 3, 2, 1, 0, 1, 2 e 3, exemplos de 2 itens ancora (item 0 e item 2) para os n veis ancora 0 e 2, respectivamente. Os par ametros dos itens s ao:
a0 = 1, 52 , a2 = 1, 97 ,
b0 = 0, 47 e c0 = 0, 13 b2 = 1, 50 e c2 = 0, 13.
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 -3 -2 -1 0 1 2 3
Item 0
Item 2
habilidade
A partir das express oes abaixo, pode-se vericar que os dois itens satisfazem a deni c ao de item ancora:
(i) P (U0 = 1| = 0) = 0, 80 0, 65 (ii) P (U0 = 1| = 1) = 0, 31 < 0, 50 (iii) P (U0 = 1| = 0) P (U0 = 1| = 1) = 0, 80 0, 31 = 0, 49 0, 30 Andrade, Tavares & Valle SINAPE 2000
112 e
A priori, n ao se pode ter certeza de quantos itens ancoras ser ao selecionados para cada n vel ancora e nem se existir ao no teste aplicado itens ancoras para todos os n veis ancora determinados. Por isto, e fundamental que os n veis ancoras sejam escolhidos n ao muito pr oximos uns dos outros e tamb em que o n umero de itens aplicados seja bastante grande de modo a possibilitar a c ao e interpreta c ao da escala de habilidade. No SAEB por exemplo, constru foram aplicados 130 itens para cada uma das disciplinas avaliadas na 4.a s erie do Ensino Fundamental e 169 itens de cada uma das disciplinas da 8.a s erie erie do Ensino M edio. Como j a do Ensino Fundamental e tamb em da 3.a s foi comentado anteriormente, essa quantidade de itens foi aplicada visando cobrir amplamente a grade curricular de cada uma das s eries nas disciplinas em propiciou a identica c ao e caracteriza c ao de diversos n veis avaliadas e tamb ancora para a constru c ao das escalas de habilidades. Maiores detalhes sobre constru c ao e interpreta c ao de escalas de habilidade poder ao ser encontrados em Beaton & Allen (1992).
113
possibilita ` a SEE, por meio de seus org aos centrais e das Delegacias de Ensino, apoiar as escolas e os educadores com recursos, servi cos e orienta c oes.
Como as avalia c oes s ao sempre realizadas no in cio do ano letivo, as provas de cada uma das s eries-alvo s ao baseadas em conte udos abordados no ano anterior. Exemplicando, em 1996, as provas dos alunos da 3.a e 7.a s eries udos relativos ao Ciclo B asico e ` a 6.a foram elaboradas com base nos conte s erie, respectivamente. Andrade, Tavares & Valle SINAPE 2000
114
Em todos os anos foram avaliados todos os alunos que frequentavam as s eries envolvidas: trata-se, portanto, de uma avalia c ao de car ater censit ario. Cada aluno, entretanto, e avaliado em apenas uma disciplina, ou seja, na 3.a e 4.a s eries metade dos alunos responde ` a prova de L ngua Portuguesa e a outra metade, ` a de Matem atica. Essa divis ao e feita de maneira aleat oria. Nas demais s eries, os alunos s ao divididos, tamb em aleatoriamente, e 25% deles fazem cada uma das 4 provas: L ngua Portuguesa, Matem atica, Ci encias ou Hist oria e Geograa. Essa u ltima prova eau nica onde aparecem duas disciplinas. No alise, as duas disciplinas s ao obviamente consideradas entanto, em termos de an separadamente.
115
respectivamente. Assim, foram montadas duas provas de liga c ao: a primeira, a composta de itens que haviam sido submetidos ` a 3. s erie e ` a 4.a s erie e a a segunda composta de itens que haviam sido submetidos ` a 7. e ` a 8.a s eries. Essas duas provas adicionais foram aplicadas no nal do ano de 1997, a uma amostra de alunos da 3.a e da 7.a s eries, respectivamente. Cabe ressaltar, que estes dois grupos adicionais foram introduzidos no estudo com o u nico objetivo de possibilitar a equaliza c ao, n ao havendo nenhum interesse em estudar o desempenho destas popula c oes. A partir destas provas de liga c ao foi poss vel a cria c ao de uma escala u nica para as s eries consecutivas, permitindo assim a compara c ao dos resultados e a aveis. No SARESP essas escalas cria c ao de escalas de conhecimento interpret foram constru das para as disciplinas L ngua Portuguesa e Matem atica, por serem as u nicas disciplinas avaliadas em todas as s eries, todos os anos. Vamos descrever mais detalhadamente esse processo usando como exemplo as provas de L ngua Portuguesa da 3.a e 4.a s eries.
116
3. srie de 1996
4. srie de 1997
28 itens
30 itens
11 itens
21 itens
liga c ao foi a 3.a s erie de 1997, pois como j a foi dito, os itens das provas da 3.a a udos dos s erie de 96 e da 4. s erie de 97 foram elaboradas com base nos conte anos anteriores, ou seja, eram referentes aos conte udos do Ciclo B asico e da erie, respectivamente. Como a prova de liga c ao foi aplicada no nal do 3.a s ano letivo de 1997, a s erie mais indicada para ser submetida a tal prova era, portanto, a 3.a s erie. Todos os 58 itens, respondidos pelos alunos das 3 popula c oes envolvidas foram ent ao calibrados simultaneamente, atrav es do modelo de 3 popula c oes discutido no Cap tulo 5. Foram utilizados procedimentos bayesianos para a estima c ao dos par ametros dos itens e das habilidades. Assim, foram considec oes a priori para cada um dos par ametros dos itens e tamb em radas distribui distribui c oes normais padr ao a priori, para cada uma das popula c oes envolviAndrade, Tavares & Valle SINAPE 2000
117
das. O grupo submetido ` a prova de liga c ao (3.a s erie de 97) foi considerado a popula c ao de refer encia. Portanto, as outras s eries foram posicionadas em rela c ao ` a ela. No nal do processo de estima c ao, foram fornecidas as estimativas das distribui c oes a posteriori, para cada uma das popula c oes. Cabe ressaltar novamente que n ao havia interesse em estudar o desempenho dos alunos submetidos ` a prova de liga c ao, ou seja, ao grupo da 3.a s erie de 97. O n umero de alunos que zeram essa prova foi apenas o suciente para atender ` as exig encias da TRI, no que se refere ao n umero m nimo de sujeitos necess arios ametros dos itens. As Figuras 6.2 e para obter-se boas estimativas dos par 6.3 ilustram a forma dessas distribui c oes, obtidas para as duas popula c oes de interesse. Para a constru c ao desses gr acos foi utilizada uma amostra de 2059 alunos da 3.a s erie de 1996 e 1989 alunos da 4.a s erie de 1997.
Figura 6.3 Representa c ao gr aca da distribui c ao a posteriori das habilidades em L ngua Portuguesa dos alunos da 3.a s erie
-4,0
-3,0
-2,0
-1,0
0,0
1,0
2,0
3,0
4,0
5,0
SINAPE 2000
118
Figura 6.4 Representa c ao gr aca da distribui c ao a posteriori das habilidades em L ngua Portuguesa dos alunos da 4.a s erie
-4,0
-3,0
-2,0
-1,0
0,0
1,0
2,0
3,0
4,0
5,0
119
Com todos os 58 itens na mesma m etrica, o pr oximo passo foi a identica c ao de n veis ancora conforme descrito na Se c ao 6.1 que pudessem caracterizar a escala de conhecimento em L ngua Portuguesa da 3.a e 4.a s eries. Assim, foi poss vel a caracteriza c ao de 5 n veis ancora (nos pontos 5, 30, 45, 60 e 75) na escala de habilidades de L ngua Portuguesa da 3.a e 4.a s eries. Cada um desses n veis ancora e formado por um conjunto de itens, que caracterizam esse ponto na escala de habilidades, de acordo com a natureza e o grau de conhecimentos que eles exigem. Ap os a identica c ao dos n veis ancora, um grupo de especialistas analisa e interpreta o conjunto de itens que o comp oem, a m de caracterizar cada ponto da escala. A seguir, exemplicamos como cou a caracteriza c ao de um determinado n vel ancora da escala de habilidades em L ngua Portuguesa da 3.a e 4.a s eries do SARESP: N vel 60 - L ngua Portuguesa Neste n vel, os alunos s ao capazes de identicar o narrador e revelam ter no c oes relativas ao papel geral que este assume na hist oria. Com rela c ao ao uso e interpreta c ao da L ngua Portuguesa, reconhecem a fun c ao do sinal de interroga c ao no texto. Nos textos narrativos-descritivos, identicam os diferentes elementos que estruturam o texto, discernindo ou reconstituindo a seq u encia l ogica dos fatos narrados. Em texto de correspond encia (bilhete), conseguem interpretar o sentido da mensagem, percebendo implica co es l ogicas entre as informa c oes contidas no texto. Demonstram, ainda, certa familiaridade com a leitura de hist orias em quadrinhos, fazendo a leitura de imagens e inferindo o signicado atribu do a uma express ao onomatopaica como, por exemplo, PLOFT, identicado como o barulho de um livro ao ser fechado. Al em da interpreta c ao de cada ponto que caracteriza a escala de habilidades, tamb em foi calculada a porcentagem de alunos em cada s erie que dominavam os assuntos descritos em cada n vel, visando avaliar os ganhos, em termos de vel 60, descrito conhecimentos, de um ano para outro. Por exemplo, para o n anteriormente, chegamos aos seguintes resultados: Em 1996, a porcentagem de estudantes que respondiam quest oes desse n vel Andrade, Tavares & Valle SINAPE 2000
120
era de 26,6%. Em 1997, essa porcentagem passa a ser de 55,8%. Ou seja, houve um ganho de 29,2% (pontos percentuais) da 3.a para a 4.a s erie. Por m, foi estimada a habilidade m edia (e o respectivo erro-padr ao) em L ngua Portuguesa, para cada escola. Assim, cada uma delas recebeu um boedio da escola, da delegacia da qual ela faz letim, indicando o desempenho m parte e tamb em o resultado m edio geral (ou seja, da popula c ao toda, que no caso, s ao todas as escolas p ublicas estaduais de S ao Paulo). Com base nessas informa c oes, cada institui c ao de ensino pode vericar qual sua situa c ao em rela c ao ` as demais, al em de avaliar os ganhos de seus alunos de um ano para outro, e de ter indica c oes sobre quais os assuntos em que seus alunos ainda est ao decientes. Obviamente, todos os resultados obtidos s ao tamb em enviados para as Delegacias de Ensino e para a Secretaria de Estado da Educa c ao de S ao Paulo. Assim, a partir das informa c oes fornecidas pelo SARESP, as a c oes podem ser tomadas tanto a n vel de cada institui c ao de ensino, quanto em propor c oes estaduais. Dando prosseguimento ao estudo, em 1998 uma das s eries avaliadas pelo erie do Ensino Fundamental, nos per odos diurno e noturno. SARESP foi a 5.a s Para cada uma das disciplinas avaliadas dois tipos de provas, com alguns itens comuns, foram aplicados em cada uma das popula c oes diurna e noturna. Novamente, as provas aplicadas n ao tinham itens comuns com as provas dos anos anteriores. Mais uma vez, foi montada uma prova de liga c ao, composta de itens utilizados nas provas de 3 das 4 popula c oes de interesse: 4.a s erie de 1997, 5.a s erie a diurna de 1998 e 5. s erie noturna de 1998. Essa prova foi aplicada ent ao a uma amostra de alunos que cursavam a 4.a s erie em 1998. Essa popula c ao adicional tamb em foi introduzida no estudo apenas com o objetivo de possibilitar a equaliza c ao. Cabe ressaltar que a meta agora era colocar os alunos da 3.a s erie de 96, a 4. s erie de 1997 e 5.a s eries diurna e noturna de 98, todos na mesma escala. Nessa nova equaliza c ao, os itens da 3.a s erie n ao precisaram mais entrar na a a prova de liga c ao, pois a 3. e a 4. s eries j a haviam sido colocadas na mesma m etrica. Na verdade, agora e como se fossemos apenas colara 5.a s erie nas c ao foi realizada de uma mas eries anteriores. Assim, essa segunda equaliza neira bastante distinta da primeira. Os itens calibrados no ano anterior foram Andrade, Tavares & Valle SINAPE 2000
121
mantidos xos durante o processo de estima c ao e apenas os itens aplicados ` a a 5. s erie foram calibrados, resultando ao nal do processo, num conjunto de itens de 3.a ` a 5.a s eries, todos na mesma escala. Dessa maneira, a escala de habilidades da 3.a e da 4.a s eries pode ser ampliada com a entrada da 5.a s erie e interpretada para todo esse conjunto de alunos. Concluindo, esse estudo, al em de avaliar o desempenho da rede estadual de S ao Paulo ano a ano, tamb em vem fornecendo indicadores quantitativos de como as interven c oes no ensino p ublico t em afetado o conhecimento dos ao s o pode ser respondida alunos de uma s erie para outra, e esse tipo de quest atrav es das ferramentas fornecidas pela TRI. No pr oximo cap tulo, discutiremos alguns dos recursos computacionais dispon veis para a an alise de dados via TRI. Em particular, descreveremos o desempenho de dois programas computacionais frente aos diferentes tipos de equaliza c ao abordados no Cap tulo 4.
SINAPE 2000
Cap tulo 7
Recursos computacionais
7.1 Introdu c ao
Sem d uvida alguma, o crescimento e a divulga c ao da TRI sempre estiveram intimamente ligados ao desenvolvimento paralelo de recursos computacionais que viabilizassem sua utiliza c ao. Isto porque as ferramentas matem aticas necess arias para sua aplica c ao s ao muito mais complexas do que as t ecnicas empregadas na Teoria Cl assica de Medidas. Desde suas primeiras aplica c oes, pesquisadores t em desenvolvido seus pr oprios programas computacionais, mas e certo que sua utiliza c ao em larga escala depende diretamente da disponibilidade de programas computacionais comerecada de 70 ciais no mercado. Na Europa e nos Estados Unidos, desde a d foram lan cados v arios programas espec cos para an alise via TRI. Aqui no Brasil, onde a utiliza c ao da TRI e bem mais recente, h a uma variedade bem menor de programas computacionais comerciais sendo usados. Neste cap tulo, vamos comentar os programas computacionais comerciais mais usados atualmente no Brasil e que se prop oem a resolver, na pr atica, muitos dos problemas abordados pela TRI e que foram descritos nos cap tulos anteriores.
124
Recursos computacionais
o caso dos itens, quando s ao considerados como certo ou errado), est ao implementados neste programa. Uma delas e a an alise fatorial feita a partir da matriz de correla c ao tetrac orica, que e um tipo especial de correla c ao, utilizada quando as vari aveis assumem apenas os valores 0 ou 1 (ver Divgi (1979)). A outra t ecnica implementada e a an alise fatorial plena, baseada no m etodo de m axima verossimilhan ca (ver Mislevy (1986b)). Para a an alise de itens n ao dicot omicos, podemos citar o programa PARSCALE (ver Muraki & Bock (1997)), que tem implementados os modelos de Resposta Gradual e de Cr editos Parciais, descritos no Cap tulo 2. Em sua vers ao mais recente, e poss vel fazer an alises para mais de um grupo de respondentes. Dos programas dispon veis no mercado, os que s ao atualmente mais utilizados nas an alises envolvendo a TRI - aqui no Brasil - s ao o BILOG (ver Mislevy & Bock (1990) e o BILOG-MG (ver Zimowski et al. (1996)). Estes dois proao espec cos para an alises via TRI de itens dicot omicos ou dicotomigramas s zados e ambos t em implementados os modelos unidimensionais log sticos de 1, ametros. A diferen ca b asica entre eles e que o BILOG-MG permite a 2 e 3 par alise de mais de um grupo de respondentes, enquanto que o BILOG permite an apenas analisar respondentes considerados como provenientes de uma u nica popula c ao. Vamos comentar a seguir quais dos m etodos de estima c ao descritos nos Cap tulos 3 e 5 est ao implementados nestes dois programas e tamb em dar c oes que uma enfase especial ao desempenho deles perante as diversas situa envolvem equaliza c oes, descritas no Cap tulo 4.
125
programa ir a interpretar 1 como acerto e 0 como erro. No caso de esquemas amostrais complexos, pode-se fornecer ao programa pesos diferentes para cada um dos indiv duos. Essas informa c oes devem estar em arquivos do tipo ASCII. Os arquivos de sa da, fornecidos ao usu ario, tamb em estar ao neste formato. Nessa fase e feita acorre c aoda prova de cada respondente (no caso de ter sido fornecido o arquivo com as respostas originais) e s ao calculadas algumas estat sticas descritivas, tais como: n umero de indiv duos submetidos a cada item, n umero e porcentagem de acerto em cada item e algumas correla c oes de interesse, como as correla c oes bisserial e ponto bisserial (ver Lord & Novick (1968), por exemplo), usadas na Teoria Cl assica de Medida. A import ancia dessa etapa do processamento, al em da verica c ao de que a leitura dos dados foi feita corretamente, e que estas estat sticas s ao utilizadas posteriormente como valores iniciais para os processos de estima c ao realizados nas fases seguintes. Al em disso, estat sticas como a correla c ao bisserial, fornecem um diagn ostico preliminar dos itens, servindo por exemplo, na identica c ao de itens com problemas no gabarito. A fase 2 e a fase da calibra c ao dos itens. Nesta fase, s ao estimados os ametros dos itens, com seus respectivos erros-padr ao. Os m etodos de espar oxima se c ao. O BILOG fornece tima c ao dispon veis ser ao comentados na pr ainda gr acos contendo algumas informa c oes de interesse, tais como as curvas caracter sticas e as curvas de informa c ao de cada item e do teste. No BILOGMG esses gr acos tamb em podem ser obtidos, mas com uma resolu c ao bastante a est a dispon vel para baixa. Isto se deve ao fato de que o programa BILOG j o sistema Windows, enquanto que o BILOG-MG ainda s o tem vers oes para o sistema operacional DOS. Junto com a curva caracter stica de cada item e fornecido tamb em um teste de ajuste do modelo utilizado. A fase 3 e a fase da estima c ao das habilidades dos respondentes. Aqui s ao estimadas as habilidades de cada um dos indiv duos, a partir dos resultados obtidos na fase anterior. Essas habilidades inicialmente s ao estimadas na escala dos par ametros dos itens. No entanto, pode-se especicar alguns tipos de mudan cas na escala, que ser ao feitas tanto nas habilidades como nos par ametros estimados na fase anterior. Maiores detalhes quanto aos m etodos de estima c ao realizados nesta fase que est ao dispon veis nesses programas ser ao fornecidos na pr oxima se c ao.
SINAPE 2000
126
Recursos computacionais
127
posteriori (EAP) e por m aximo a posteriori (MAP). No m etodo da m axima verossimilhan ca, as estimativas das habilidades dos respondentes s ao calculadas pelo m etodo de Newton-Raphson, utilizando-se uma transforma c ao linear do logito do percentual de acertos dos indiv duos como valores iniciais. Os problemas j a descritos com as estimativas dos respondentes que tiveram erro total ou acerto total s ao contornados atrav es de um artif cio: os alunos que erraram todos os itens ganham um meio certo no item mais f acil. Alunos que acertaram todos os itens, perdem um meio certo no item mais dif cil. Apesar dessas etodo nem sempre alternativas implementadas pelos dois programas, este m fornece boas estimativas nestes casos. No m etodo EAP, as estimativas para as habilidades s ao calculadas utilizando-se pontos de quadratura para aproximar a distribui c ao a priori das habilidades de cada respondente. O n umero de pontos de quadratura e denido pelo usu ario, que pode tamb em escolher entre uma priori que seja normal (e cujos par ametros podem ser especicados pelo usu ario), ou uma distribui c ao discreta arbitr aria (fornecida pelo usu ario), ou c ao discreta emp rica, atrav es do uso dos pontos de quaainda uma distribui dratura e de seus respectivos pesos gerados na fase 2. As estimativas EAP para as habilidades dos respondentes est ao sempre denidas, qualquer que seja o ao de respostas. Al em disso, quando utilizamos a estima c ao por EAP, e padr fornecida uma estimativa da distribui c ao de habilidades da popula c ao de respondentes, na forma de uma distribui c ao discreta, dada pelos pontos de quadratura. Esta distribui c ao e obtida acumulando-se as densidades a posteriori de todos os sujeitos em cada ponto de quadratura. As somas s ao ent ao normalizadas para obter-se as probabilidades estimadas em cada ponto. Tamb em edia e o desvio-padr ao para essa distribui c ao estimada. No s ao fornecidos a m m etodo MAP, as estimativas das habilidades s ao calculadas pelo m etodo de Newton-Gauss. Este procedimento sempre converge e fornece estimativas para assumida uma distribui oes de resposta poss veis. E c ao a priori todos os padr normal, cujos par ametros podem ser especicados pelo usu ario, sendo que o e a normal padr ao. padr ao denido nesses programas
SINAPE 2000
128
Recursos computacionais
129
Caso 3: Aqui temos um u nico grupo fazendo duas provas parcialmente diferentes, isto e, com alguns itens comuns. Este caso e bastante semelhante ao caso anterior, ou seja, a equaliza c ao tamb em pode ser feita via popula c ao. A u nica observa c ao que podemos acrescentar e que devemos ter bastante cuidado que embora esses itens apare no tratamento dos itens comuns. E cam nas duas provas, eles n ao podem sercontadosduas vezes, ou seja, o n umero total de itens a ser calibrado e o total de itens da prova A, mais o total de itens da prova B, menos o n umero de itens comuns entre A e B. Caso 4: Aqui temos dois grupos fazendo uma mesma prova. Por se tratar de uma situa c ao onde se faz necess aria uma equaliza c ao via itens comuns, este caso necessita de programas computacionais para an alise via TRI que tenham ao implementados modelos para mais de um grupo. O BILOG, por exemplo, n comporta esse tipo de problema, enquanto que o BILOG-MG foi especialmente desenvolvido para modelar esse tipo de situa c ao. Se s o dispus essemos do BILOG, uma alternativa seria calibrar as provas dos dois grupos separadamente, c ao a posteriori, como foi descrito no Cap tulo 4. e depois realizar uma equaliza Nesse caso, como todos os itens s ao comuns, m etodos de equaliza c ao a posteriori, como o m etodo M edia-Desvio, produzem resultados bastante satisfat orios, a equaliza c ao feita durante o processo de calibra c ao dos quando comparados ` itens (ver Andrade (1999), por exemplo). Caso 5: Aqui temos dois grupos fazendo duas provas totalmente diferentes. a foi explicado no Cap tulo 4, n ao h a nenhuma maneira de tornar Como j compar aveis os resultados desses dois grupos. Caso 6: Aqui dois grupos s ao submetidos a duas provas diferentes, mas que em alguns itens comuns. Assim como no Caso 4, esta e uma situa c ao t pica t para ser abordada no BILOG-MG, utilizando-se um modelo para mais de uma popula c ao e, portanto, n ao e poss vel o uso do BILOG. Como j a foi citado no caso 3, devemos apenas ter o cuidado de n ao considerar duas vezes os itens repetidos. Assim como foi comentado no Caso 4, aqui tamb em pode-se resolver o problema atrav es de uma equaliza c ao a posteriori. No entanto, o desempenho c ao torna-se bastante inferior ` a equaliza c ao feita durante desse tipo de equaliza o processo de calibra c ao se o n umero de itens comuns for pequeno. Andrade, Tavares & Valle SINAPE 2000
130
Recursos computacionais
131
s ao os pr oprios valores dos par ametros que desejamos xar e cujos desviospadr ao s ao t ao pequenos que a distribui c ao torna-se praticamente degenerada naquele ponto. O que ocorre na pr atica e que todos os par ametros s ao estimados novamente, mas a converg encia daqueles itens conhecidos e articialmente induzida para os valores que desejamos. Pode-se tamb em refor carainda mais a converg encia utilizando-se outro recurso do programa, que e a deni c ao, por parte do usu ario, de valores iniciais convenientes. Mas, o uso deste tipo de procedimento pode acarretar alguns problemas. Por exemplo, se n ao utilizarmos c ao inicial, poderemos ter novamente o mesmo grupo de respondentes da calibra problemas para obter a converg encia nessa segunda calibra c ao. E, na pr atica, muitas vezes n ao dispomos do conjunto original de respondentes para juntarmos aos respondentes da nova aplica c ao. E devemos ressaltar que estamos nos referindo ao caso em que h a uma u nica popula c ao sendo submetida a uma u nica prova. O problema se torna ainda mais complexo, no caso de termos mais de uma popula c ao envolvida (comentaremos essa situa c ao a seguir).
7.3.3 O uso do BILOG-MG quando desejamos xar parte dos itens e calibrar o restante, e h a mais de uma popula c ao envolvida
Quando h a duas (ou mais) popula c oes envolvidas (Casos 4 e 6), e utilizamos o BILOG-MG para estimar parte do conjunto de itens, xando os demais que, como h (Caso (c)), poderemos ter problemas com a m etrica. E a mais de uma popula c ao envolvida nos processos de estima c ao, para resolver os proc ao de escala, o programa pede ao usu ario que dena blemas de indetermina uma das popula c oes como sendo a refer encia, que ser a denida como tendo m edia 0 e desvio-padr ao 1, e ent ao, as demais popula c oes ser ao posicionadas com rela c ao ` a ela. Vamos ent ao imaginar a seguinte situa c ao, ilustrada na Fic oes 1 e 2 para calibrar um conjunto gura 7.1: utilizamos amostras das popula de itens, provenientes de duas provas (A e B). Estas provas tinham 30 itens cada, sendo 15 itens comuns. A popula c ao 1 foi utilizada como refer encia. Ao nal do processo, temos um conjunto de 45 itens (= 30 + 30 - 15) calibrados, al em das habilidades dos respondentes das duas popula c oes. Digamos que as estimativas obtidas para os par ametros populacionais dos dois grupos tenham sido, respectivamente, (0,1) e (2,2). Desse modo, um item i, cuja estimativa do par ametro b foi 1 est a, usando-se como unidade o desvio-padr ao da poAndrade, Tavares & Valle SINAPE 2000
132
Recursos computacionais
pula c ao 1, 1 desvio-padr ao acima da m edia da popula c ao 1 (e portanto, e relativamente dif cil para este grupo) e 1 desvio-padr ao abaixo da m edia da popula c ao 2 (e portanto, e relativamente f acil para este grupo). Suponha agora que temos outras duas provas C e D, que ser ao submetidas, respectivamente, a amostras das popula c oes 3 e 4. Ambas as provas s ao compostas de 30 itens, sendo que h a 10 itens comuns entre elas. Suponha ainda que al em disso, h a 10 itens na prova C que s ao comuns com a prova B e, portanto, que j a foram calibrados anteriormente.
Figura 7.1 Esquematiza c ao dos itens comuns entre as provas
!
Desejamos ent ao xar os par ametros desses 10 itens obtidos na calibra c ao anterior e estimar todos os restantes. O motivo para isto seria que, procedendo desta maneira, far amos uma equaliza c ao entre as popula c oes 1, 2, 3 e 4, tornando poss vel qualquer compara c ao entre elas. Mas, o que aconteceria se, para tanto, utiliz assemos apenas as popula c oes 3 e 4? Para come car, ter amos que denir uma popula c ao de refer encia, digamos a popula c ao 3. Logo, essa popula c ao ser a denida como tendo par ametros (0,1), para que a popula c ao 4 seja posicionada com rela c ao a ela. Supondo que aquele item i, cujo valor de b e 1, foi um dos 10 itens que tiveram seus par ametros xados, que interpreta c ao dever amos ter sobre a rela c ao desse item com a popula c ao 3? A mesma que j a tivemos com rela c ao ` a popula c ao 1: que ele est a 1 desvio-padr ao acima da m edia da popula c ao 3 e portanto, e relativamente dif cil para este grupo. O Andrade, Tavares & Valle SINAPE 2000
133
fato de termos as popula c oes 1 e 3 necessariamente com a mesma distribui c ao de probabilidade e um problema, pois sabemos que se tratam de popula c oes diferentes. Suponhamos que essas popula c oes sejam, respectivamente, a 3.a , a 4.a , a 5.a e a 6.a s eries do ensino fundamental. Seria perfeitamente razo avel esperarmos que as m edias das distribui c oes de habilidades destas popula c oes mantivessem uma rela c ao crescente de ordem. Assim, se a 3.a s erie fosse xada como tendo par ametros (0,1) e a 4.a s erie tivesse ent ao seus par ametros estimados em (2,2), esperar amos ter uma m edia maior do que 2 para a 5.a ao (0,1). Desta maneira, aquele item i, cujo par ametro de diculdade s erie, e n foi estimado em 1, deveria estar necessariamente abaixo da m edia da 5.a s erie. H a pelo menos 2 maneiras de solucionarmos este problema. A primeira, que nem sempre e poss vel, e utilizarmos novamente os respondentes utilizados nas provas A e B no processo da calibra c ao das provas C e D. Fixar amos todos os itens das provas A e B enquanto calibrar amos os itens novos das provas C e D. Desta maneira, poder amos denir novamente a popula c ao 1 como sendo a refer encia, e ent ao n ao haveriam mais problemas no posicionamento c oes 3 e 4. Mas, como j a foi dito, nem sempre e poss vel proceder das popula desta maneira, pois poder amos n ao dispor dos respondentes utilizados na pric ao. Uma outra maneira de solucionar o problema de maneira meira calibra adequada, seria fazer uma equaliza c ao a posteriori, que j a foi comentada na Se c ao 4.4. No pr oximo cap tulo ser ao feitas considera c oes nais sobre esse trabalho e algumas sugest oes para futuras pesquisas e aplica c oes.
SINAPE 2000
Cap tulo 8
Para nalizar, faremos uma breve discuss ao sobre os problemas encontrados na aplica c ao dessa teoria, poss veis t opicos de pesquisa e a utiliza c ao da TRI em outras areas do conhecimento. Nesse livro procuramos introduzir os principais conceitos, modelos, m etodos de estima c ao e aplica c oes da Teoria da Resposta ao Item, com o objetivo de mostrar o grande potencial da sua aplica c ao na area de avalia c ao educacional, em especial quando h a a necessidade da compara c ao do desempenho de duas ou mais popula c oes de indiv duos. Apesar desta teoria ter mais de 50 anos, somente nos u ltimos 15 e que ela vem sendo aplicada em larga escala nas principais avalia c oes educacionais de a complexidade matem atica dos m etodos diferentes pa ses. Atribui-se este fato ` envolvidos, praticamente invi aveis sem o aux lio do computador. O que temos observado e que a teoria vem sendo desenvolvida num ritmo que ainda n ao vem sendo acompanhado pelo desenvolvimento de programas computacionais ecic ao em maior escala. Al em disso, a aplica c ao entes, que viabilizem sua utiliza apropriada desta teoria exige necessariamente o envolvimento de especialistas c ao e em estat stica. Nesse sentido, faz-se imprescind vel a elabora c ao em avalia de grupos de trabalho, que possibilitem a integra c ao de prossionais de ambas as areas. Justamente pelo fato da TRI ter sido ainda t ao pouco explorada, v arios pontos t em sido levantados na literatura sobre sua adequa c ao. Alguns deles ainda permanecem em aberto. Podemos citar, por exemplo, a quest ao da dimensionalidade do espa co de tra cos latentes envolvidos na avalia c ao. Todos os modelos que v em sendo efetivamente utilizados pressup oem que o conhecimento que se deseja medir pode ser representado por uma u nica habilidade. Alguns autores t em defendido a em fornecido bons resultados, mesmo tese de que os modelos unidimensionais t em situa c oes multidimensionais, desde que uma das dimens oes possa ser con-
136
siderada predominante. Mais recentemente, modelos para mais de uma dimens ao t em sido propostos, mas ainda n ao t em sido aplicados devido a n ao disponibilidade de recursos computacionais e tamb em ` a sua maior diculdade de interpreta c ao. Um estudo interessante seria o da dimensionalidade da prova objetiva do Exame Nacional do Ensino M edio (ENEM), cujos itens s ao elaborados a partir de situa c oes-problema devidamente contextualizadas na interdisciplinaridade das ci encias e das artes em sua articula c ao com o mundo em que vivemos. A quest ao da equaliza c ao entre diferentes popula c oes tamb em sempre foi um ponto bastante discutido na literatura. Conforme comentamos neste trabalho, a proposta recente de modelos para v arios grupos de Bock & Zimowski (1997), que viabilizam a equaliza c ao durante o processo de calibra c ao, deu um novo rumo ` a solu c ao desta quest ao, tendo em vista que os modelos anteriores envolvem outros erros de modelagem, al em daqueles da pr opria teoria. Sugerimos a leitura de Goldstein & Wood (1989), Mislevy (1992), Goldstein (1994) e Hedges & Vevea (1997), entre outros, para um melhor entendimento destes problemas e suas solu c oes. Outro ponto que poder amos citar, foi levantado por Mislevy (1991) e diz respeito ` a qualidade da estima c ao da distribui c ao das habilidades dos elementos de uma popula c ao. O autor discute a possibilidade de se obter melhores estimativas da variabilidade das habilidades, utilizando-se tamb em outras informa c oes dos respondentes que possam estar associadas com suas habilidades. c oes seriam o grau de escolaridade dos pais, o h abito Exemplos dessas informa ocio-econ omica da fam lia, etc. Esta de leitura do respondente, a condi ca o s metodologia e baseada no conceito de imputa c ao m ultipla de dados faltantes e os valores obtidos para as habilidades s ao denominados devalores plaus veis. Mas, ainda existem alguns fatores que dicultam a aplica c ao desta metodologia, e o principal deles como sempre, e a n ao exist encia comercial, at e o presente em disso, h a tamb em momento, de programas computacionais apropriados. Al a diculdade da obten c ao de informa c oes adicionais relevantes ao problema que sejam dedignas e a inclus ao dessas mesmas informa c oes no modelo. H a ainda outros pontos que t em sido poucos explorados, como por exemplo, modelos multivariados e modelos longitudinais. Os modelos multivariados sec oes onde um mesmo respondente e submetido a riam adequados para as situa mais de um teste e os modelos longitudinais, para as situa c oes onde o desemAndrade, Tavares & Valle SINAPE 2000
137 penho de um mesmo respondente e acompanhado ao longo do tempo. Esses u ltimos modelos deveriam permitir a incorpora c ao de poss veis estruturas de covari ancia entre as habilidades dos indiv duos avaliados ao longo do tempo. Estes modelos poderiam ser aplicados, por exemplo, nas an alises dos dados gerados pelo projeto AVEJU, da Secretaria de Estado da Educa c ao do Estado de S ao Paulo, que acompanhou um grupo de alunos da escola p ublica estadual da 1a. s erie (1992) at e a 3a. s erie (1994) do Ensino Fundamental, e do projeto FUNDESCOLA em implementa c ao pelo INEP/MEC, que dever a acompanhar ublicas de 6 estados, desde a 4a. s erie (1999) um grupo de alunos de escolas p at e a 8a. s erie (2003) do Ensino Fundamental. Para nalizar, gostar amos de ressaltar dois outros pontos. O primeiro diz respeito a dissemina c ao do uso da TRI em avalia c oes educacionais brasileiras, que sem d uvida alguma depender a muito da integra c ao de especialistas das areas de estat stica e educa c ao. A cria c ao de programas de p os-gradua c ao envolvendo departamentos de estat stica e de medidas em educa c ao em alguancia. A primeira mas de nossas universidades, seria de fundamental import aplica c ao da TRI no Brasil foi na an alise do SAEB 95. Desde ent ao, os org aos governamentais, atrav es do MEC e algumas Secretarias da Educa c ao, vem valorizando e incentivando o uso dessa teoria nas suas avalia c oes. No entanto, o mercado de trabalho ainda est a bastante deciente de prossionais com tais qualica c oes. O segundo ponto diz respeito a dissemina c ao do uso da TRI em areas do conhecimento. outras Um ponto importante dessa metodologia e que tanto os itens, atrav es de seus par ametros, quanto o tra co latente associado s ao medidos em uma mesma etrica, permitindo com isso uma operacionaliza c ao dessa caracter stica lam tente que est a sendo medida, bem como a adequa c ao e a contribui c ao de cada um dos itens aplicados nessa operacionaliza c ao. Essa propriedade tem areas a aplicarem o modelo de Rasch, molevado pesquisadores de diferentes delo com um u nico par ametro (o par ametro b de diculdade), na an alise e interpreta c ao de v arios instrumentos de avalia c ao (medida). Tr es exemplos recentes seriam os trabalhos de DeRoos & Allen-Meares (1998), Tennant et. al. (1996) e Granger et. al. (1998). O primeiro em psiquiatria e os dois u ltimos em reabilita c ao m edica. O modelo de Rasch e tamb em descrito em Marcoulides etodos modernos mais importantes para a pesquisa na (1998) como um dos m area de neg ocios. Sugerimos aos leitores mais interessados a participa c ao nas Andrade, Tavares & Valle SINAPE 2000
138
SINAPE 2000
Ap endice A
2 Pji i i
Pji i
Pji i
. (A.1)
= D2 (1 ci )(j bi )2 Pji Qji (1 2Pji ), = D(1 ci )Pji Qji {1 + Dai (j bi )(1 2Pji )}, = D(j bi )Pji Qji , = D2 a2 i (1 ci )Pji Qji (1 2Pji ), = Dai Pji Qji ,
Q ji = 0. ci
140 Com estas express oes obtemos 2 Pji /( i i ). Sejam D(1 ci )(j bi ) = Dai (1 ci ) ,
1 Pji
Pji i
2 Pji 1 H ji = (Pji Qji ) i i 2 ) D (1 ci )(j bi )2 (1 2Pji . . )} D 2 a2 (1 c )(1 2P ) . . = D(1 ci ){1 + Dai (j bi )(1 2Pji i ji i D(j bi ) Dai 0 Com isso, de (3.7) temos que log L( ) i
n
h( i ) =
(uji Pji )
j =1 n
Wji Q Pji ji
=
j =1
(A.8)
H ( i ) =
j =1 n
(Pji Qji )H ji
=
j =1
(A.9)
SINAPE 2000
A.2
141
Pji j
2 Pji 2 j
2
Pji j
( . A.10)
A segunda parcela em (A.10) e obtida por (3.37). Com rela c ao ` a primeira, temos 2 Pji 2 j Sejam
1 hji = (Pji Qji ) 1 Hji = (Pji Qji )
(A.11)
Pji j 2 Pji 2 j
= Dai (1 ci ),
= D 2 a2 i (1 ci )(1 2Pji ).
(A.12) (A.13)
h(j ) =
(uji Pji )
i=1 I
Wji Q Pji ji
=
i=1
H (j ) =
i=1 I
=
i=1
(A.14)
vji
P (uj. |, ).
(A.15)
Segue de (3.59) que a segunda parcela de (3.71) e obtida por P (uj. | , )/ i P (uj. | , ) Pi i
gj ()d.
hi(j )
=
I R
vji
(A.16)
I R
vji vji
Pi i Pi i
SINAPE 2000
143
vji
P (uj. |, ) Pi i
= P (uj. |, ) i Pi i Pi i Pi i
vji i
2 vji
= vji
Pi i 2 Pi i i
P (uj. |, )
I R
vji
P (uj. |, )g (| )d.
Portanto, a primeira parcela em (3.71) pode ser escrita como 2 P (uj. | , )/( i i ) P (uj. | , ) 2 Pi i i
H ii(j )
=
I R
vji
gj ()d. (A.18)
I R
vji
Pi i
P (uj. |, )g (| )d Pi i g (| )d
vji
P (uj. |, ) l Pl l Pi i
=
I R
vji vjl
P (uj. |, )g (| )d
Portanto, para l = i, a primeira parcela em (3.71) pode ser escrita como Andrade, Tavares & Valle SINAPE 2000
144
H il(j )
=
I R
vji vjl
Pl l
Pi i
gj ()d
(A.19) Podemos agora obter as equa c oes de estima c ao para . Com as express oes 2 (A.2) a (A.7) obtemos Pi /( i i ), i = 1, , I . Sejam D(1 ci )( bi ) = Dai (1 ci ) ,
1 Pi
1 hi = (Pi Q i)
Pi i
2 Pi 1 H ii = (Pi Q i) i i 2 D (1 ci )( bi )2 (1 2Pi ) . . = D(1 ci ){1 + Dai ( bi )(1 2Pi )} D2 a2 i (1 ci )(1 2Pi ) . D( bi ) Dai 0 e, para i = l, Pi i Pl l
D(1 ci )( bi )/Pl Dai (1 ci )/Pl [Pi Pl ]1
1 1 H il = hi hl = (Pi Q i ) (Pl Ql )
Retornando a (A.18), temos que a primeira parcela de (3.71) pode ser reescrita como
(uji Pi )Wi H ii gj ()d
H ii(j ) =
I R
A.3
145
I R
(A.20)
H ( i , l ) = =
2 log L( , ) li
s
(A.21)
SINAPE 2000
148
REFERENCIAS BIBLIOGRAFICAS
[10] Birnbaum, A. (1957). Ecient design and use of tests of a mental ability for various decision-making problems, ( Series Report No. 58-16. Project No. 7755-23). USAF School of Aviation Medicine, Texas: Randolph Air Force Base. [11] Birnbaum, A. (1968). Some Latent Trait Models and Their Use in Infering an Examinees Ability. In F.M. Lord & M.R. Novick. Statistical Theories of Mental Test Scores. Reading, MA:Addison-Wesley. [12] Bock, R. D. (1972). Estimating item parameters and latent ability when responses are scored in two or more nominal categories. Psychometrika, 37, 29-51. [13] Bock, R. D. and Aitkin, M. (1981). Marginal maximum likelihood estimation of item parameters: An application of a EM algorithm. Psychometrika, 46, 433-459. [14] Bock, R. D. and Lieberman, M. (1970). Fitting a response model for n dichotomously scored items. Psychometrika, 35, 179-197. [15] Bock, R. D. and Zimowski, M. F. (1997). Multiple Group IRT. In Handbook of Modern Item Response Theory. W.J. van der Linder e R.K. Hambleton Eds. New York: Spring-Verlag. [16] Chow, Y.S. and Teicher, H. (1978). Probability Theory: Independence, Interchangeability, Martingales. New York: Springer-Verlag. [17] Dempster, A. P. , Laird, N. M. and Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm (with discussion). Journal of the Royal Statistical Society, Series B, 39, 1-38. [18] DeRoos, Y. and Allen-Meares, P. (1998). Applications of rasch analysis: exploring dierences in depression between african-american and white children. Journal of Social Service Research, 23, 93-107. [19] Divgi, D. R. (1979). Calculation of the tetrachoric correlation coecient. Psychometrika, 44, 169-172. Andrade, Tavares & Valle SINAPE 2000
REFERENCIAS BIBLIOGRAFICAS
149
[20] Funda c ao Carlos Chagas (1997). Avalia c ao das Escolas Estaduais de Ensino Fundamental e Ensino M edio do Rio Grande do Norte, 4v. S ao Paulo : Funda c ao Carlos Chagas. [21] Funda c ao Carlos Chagas (1998). Programa de Acelera ca o da Aprendizagem: avalia c ao nal, avalia c ao do material did atico e ap endice, 3v. S ao Paulo : Funda c ao Carlos Chagas / Instituto Ayrton Senna. [22] Genz, A. C. and Malik, A. A. (1980). An adaptive alghorithm for numerical integration over a N -retangular region. J. Comput. Appl. Math., 6, 295-302. [23] Goldstein, H. (1994). Recontextualizing mental measurement. Educational Measurement : Issues and Practice, 13, 16-43. [24] Goldstein, H. and Wood, R. (1989). Five decades of item response modelling. British Journal of Mathematical and Statistical Psychology, 42, 139-167. [25] Granger, C. V., Deutsch, A. and Linn, R. T. (1998). Rasch analysis of the functional independence measure (FIMTM) mastery test. Arch. Phys. Med. Rehabil., 79, 52-57. [26] Graybill, F. A. (1969). Introduction to Matrices with Aplications in Statistics. Belmont, CA: Wadsworth Publishing Company, Inc. [27] Gulliksen, H. (1950). Theory of Mental Tests. New York : John Wiley and Sons. [28] Haberman, S. (1975). Maximum Likelihood Estimates in Exponential Response Models, (Technical Report) Chicago, IL: University of Chicago. [29] Haley, D. C. (1952). Estimation of the dosage mortality relationship when the dose is subject to error, (Technical Report, 15) Stanford, Calif.: Stanford University, Applied Mathematics and Statistics Laboratory. [30] Hambleton, R.K. and Cook, L.L. (1997). Latent trait models and their use in the analysis of educational test data. Journal of Educational Measurement, 14, 75-96. Andrade, Tavares & Valle SINAPE 2000
150
REFERENCIAS BIBLIOGRAFICAS
[31] Hambleton, R. K. and Swaminathan, H. (1985). Item Response Theory: Principles and Applications. Boston: Kluwer Academic Publishers. [32] Hambleton, R. K., Swaminathan, H. and Rogers, H. J. (1991). Fundamentals of Item Response Theory. Newbury Park : Sage Publications. [33] Hedges, L. V. and Vevea, J. L. (1997). A study of equating in NAEP. Paper presented at The NAEP Validity Studies Panel. Palo Alto : American Institutes for Research. [34] Heitjan, D. F. (1991a). Generalized Norton-Simon models of tumour growth. Statistics in Medicine, 10. 1075-1088. [35] Heitjan, D. F. (1991b). Nonlinear modeling of serial immunologic data: A case study. Journal of the American Statistical Association, 86. 891-898. [36] Hildebrand, F. B.(1956). Introduction to Numerical Analysis. New-York: McGraw-Hill. [37] Issac, E. and Keller, H. B. (1966). Analysis of Numerical Methods. New York: Wiley & Sons. [38] Kolen, M. J. and Brennan, R. L. (1995). Test Equating - Methods and Pratices. New York: Springer. [39] Linden, W. J. van der and Hambleton, R. K. (1997). Handbook of Modern Item Response Theory. New York : Springer-Verlag. [40] Lord, F. M. (1952). A theory of test scores (No. 7). Psychometric Monograph. [41] Lord, F. M. (1968). An analysis of the verbal scholastic aptitude test using Birnbaums three-parameter logistic model. Educational and Psychological Measurement, 28, 989-1020. [42] Lord, F. M. (1974). Estimation of latent ability and item parameters when there are omitted responses. Psychometrika, 39, 247-264. [43] Lord, F. M. (1975). Evaluation with articial data of a procedure for estimating ability and item characteristic curve parameters, (Research Bulletin RB-75-33). Princeton, NJ: Educational Testing Service. Andrade, Tavares & Valle SINAPE 2000
REFERENCIAS BIBLIOGRAFICAS
151
[44] Lord, F. M. (1980). Applications of Item Response Theory to Practical Testing Problems. Hillsdale: Lawrence Erlbaum Associates, Inc. [45] Lord, F. M. and Novick, M. R. (1968). Statistical Theories of Mental Test Scores. Reading, MA: Addison-Wesley. [46] Marcoulides, G. A. Ed. (1998). Modern Methods for Business Research. Mahwah, NJ: Lawrence Erlbaum Reading, MA: Addison-Wesley. [47] Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47, 149-174. [48] Minist erio da Educa c ao e do Desporto (1996). Sistema Nacional de Avalia c ao da Educa c ao B asica : SAEB 95 - relat orio t ecnico. S ao Paulo / Rio de Janeiro : Funda c ao Carlos Chagas / Funda c ao Cesgranrio. [49] Minist erio da Educa c ao e do Desporto (1998). Sistema Nacional de Avac ao da Educa c ao B asica : SAEB 97 - relat orio t ecnico. Rio de Janeiro lia : Funda c ao Cesgranrio. [50] Mislevy, R. J. (1986a). Bayes modal estimation in item response models. Psychometrika, 51, 177-195. [51] Mislevy, R. J. (1986b). Recent developments in the factor analysis of categorical variables. Journal of Educational Statistics, 11, 3-31. [52] Mislevy, R. J. (1991). Randomization-based inference about latent variables from complex samples. Psychometrika, 56, 177-196. [53] Mislevy, R. J. (1992). Linking Educational Assessments : concepts, issues, methods and prospects. Princeton : Educational Testing Service. [54] Mislevy, R. J. and Stocking, M. L. (1989). A Consumers Guide to LOGISTIC and BILOG. Applied Psychological Measurement, 13 57-75. [55] Mislevy, R. J. and Bock, R. D. (1990). BILOG 3 : Item Analysis and Test Scoring with Binary Logistic Models. Chicago : Scientic Software, Inc. [56] Muraki, E. (1992). A generalized partial credit model : Application of an EM algorithm. Applied Psychological Measurement, 16, 159-176. Andrade, Tavares & Valle SINAPE 2000
152
REFERENCIAS BIBLIOGRAFICAS
[57] Muraki, E. and Bock, R. D. (1997). PARSCALE : IRT Based Test Scoring and Item Analysis for Graded Open-Ended Exercices and Performance Tasks. Chicago : Scientic Software, Inc. [58] Nelder, J. A. (1961). The tting of a generalization of the logistic curve. Biometrika, 17 , 89-100. [59] Nelder, J. A. (1962). An alternative form of a generalized logistic equation. Biometrics, 18 , 614-616. [60] Neyman, J. and Scott, E. L. (1948). Consistent estimates based on partially consistent observations. Econometrika, 16 (1), 1-32. [61] Novick, M. R. (1966). The axioms and principal results of classical test theory. Journal of Mathematical Psycology, 3,1-18. [62] Rao, C. R. (1973). Linear Statistical Inference and Its Applications. New York: Wiley & Sons. [63] Rasch, G. (1960). Probabilistic Models for Some Intelligence and Attainment Tests. Copenhagen : Danish Institute for Educational Research. [64] Richardson, M. W. (1936). The relationship between diculty and the dierential validity of a test. Psychometrika, 1, 33-49. [65] Samejima, F. A. (1969). Estimation of latent ability using a response pattern of graded scores. Psychometric Monograph, 17. [66] Secretaria de Estado da Educa c ao de S ao Paulo (1996). Sistema de Avalia c ao de Rendimento Escolar do Estado de S ao Paulo - SARESP : relat orio nal dos resultados, 3v. S ao Paulo : SEE. [67] Secretaria de Estado da Educa c ao de S ao Paulo (1997). Sistema de Avalia c ao de Rendimento Escolar do Estado de S ao Paulo - SARESP : relat orio nal dos resultados, 4v. S ao Paulo : SEE. [68] Sen, P. K., Singer, J. M. (1993). Large Sample Methods in Statistics: An Introduction With Applications. New York: Chapman & Hall. Andrade, Tavares & Valle SINAPE 2000
REFERENCIAS BIBLIOGRAFICAS
153
[69] Soares, J. F. , Martins, M. I. e Assun c ao, C. N. B. (1998). Heterogeneidade acad emica dos alunos admitidos na UFMG e PUC-MG. Estudos em Avalia c ao Educacional, 17, 61-72. S ao Paulo : Funda c ao Carlos Chagas. [70] Stroud, A. H. (1971). Aproximate Calculation os Multiple Integrals. New Jersey: Prentice Hall, Englewood Clis. [71] Stroud, A. H. and Secrest, D. (1966). Gaussian Quadrature Formulas. Englewood Clis, New Jersey : Prentice-Hall. [72] Swaminathan, H. and Giord J. A. (1983). Estimation of Parameters in the Three-Parameter Latent Trait Model. In D. Weiss (Ed.),New Horizonts in Testing. New York: Academic Press. [73] Tennant, A., Hillman, M., Fear, J., Pickering, A. and Chamberlin, M. A. (1996). Are we making the most of the stanford health assessment questionnaire? Brit. J. Rheum., 35, 574-578. [74] Tucker, L. R. (1946). Maximum validity of a test with equivalent items. Psychometrika, 11, 1-13. [75] Valle, R. C. (1999). Teoria da Resposta ao Item.. Disserta c ao de Mestrado. S ao Paulo: IME/USP. [76] Van Dooren, P. and De Ridder, L. (1976). An adaptive alghorithm for numerical integration over a N -retangular cube. J. Comput. Appl. Math., 2, 207-217. [77] Vianna, H. M. (1987). Testes em Educa c ao. S ao Paulo : IBRASA [78] Wilson, D. T. , Wood, R. , Downs, P. K. and Gibbons, R. (1991). TESTFACT : Test Scoring, Item Statistics and Item Factor Analysis. Chicago : Scientic Software, Inc. [79] Wright, B. D. (1968). Sample-free test calibration and person measurement. Proceedings of the 1967 Invitational Conference on Testing Problems. Princeton, N. J. : Educational Testing Service. Andrade, Tavares & Valle SINAPE 2000
154
REFERENCIAS BIBLIOGRAFICAS
[80] Zimowski, M. F. , Muraki, E. , Mislevy, R. J. and Bock, R.D. (1996). BILOG-MG: Multiple-Group IRT Analysis and Test Maintenance for Binary Items. Chicago : Scientic Software, Inc. [81] Zwick, R. (1987). Assessing the dimensionality of NAEP reading data. Journal of Educational Measurement, 24, 293-308.
SINAPE 2000