Você está na página 1de 8

Software para avaliao de aprendizagem

utilizando a teoria da resposta ao item


Gilvan Justino, Dalton Francisco de Andrade1
1
Departamento de Informtica e Estatstica
Universidade Federal de Santa Catarina (UFSC) Florianpolis, SC- Brasil
{gilvan,dandrade}@inf.ufsc.br

Abstract. This paper shows an environment to support the evaluation of the


learning process using Item Response Theory, being this last, able to offer
information about the difficult and the discrimination power of the questions,
and to evaluate the performance of the student throughout the time, among
other resources. It is expected that the environment will allow the educators to
make use of some of the rich resources offered by the item response theory.

Resumo. Este artigo apresenta um ambiente para apoio ao processo de


avaliao de aprendizagem utilizando a Teoria da Resposta ao Item, sendo
esta ltima, capaz de oferecer informaes sobre a dificuldade e o poder de
discriminao das questes, e avaliar o desempenho do aluno ao longo do
tempo, entre outros recursos. Espera-se que o ambiente permita aos
educadores disporem de alguns dos ricos recursos oferecidos pela teoria da
resposta ao item.

1. Introduo
A forma mais tradicional para avaliao de desempenho denominada de Teoria
Clssica de Testes (TCT), que se baseia em observar a quantidade de questes corretas
dentre um conjunto total de questes, isto , obter o escore do teste. Uma vantagem
desta teoria que ela relativamente fcil de interpretar e exige poucas suposies
sobre os dados. Por outro lado, a teoria clssica sofre de algumas deficincias ou
limitaes, de acordo com [Hammer 1999] e [Andrich 1982]:
a) O escore do estudante no uma medida absoluta, pois pode variar de teste
para teste, dependendo do contedo do teste;
b) difcil comparar o desempenho de alunos aplicando-se testes diferentes;
c) A avaliao de desempenho dos estudantes influenciada pela amostra
analisada.
Nas ltimas dcadas, uma nova teoria, denominada de Teoria da Resposta ao
Item (TRI) vem sendo estudada e aplicada com sucesso para construo e anlise de
testes. A TRI possui vrias vantagens em relao TCT. Seus principais benefcios so
conforme [Baker 1992] e [Hambleton 1977]:
a) Permite construir uma escala para medir o conhecimento dos estudantes, de
tal forma que se possa avaliar a proficincia dos estudantes tornando-a
independente;

248
b) Possibilita obter caractersticas das questes (itens, no vocabulrio da
TRI), identificando as questes que realmente contribuem para avaliao do
conhecimento;
c) Permite acompanhar o desenvolvimento de um aluno ao longo do tempo;
d) Permite comparar resultados de testes aplicados em classes de alunos
diferentes;
e) Permite comparar a dificuldade das questes;
A TRI utiliza um modelo matemtico para extrair informaes e realizar
estimativas das questes e dos estudantes. As estimativas buscam explicar o efeito entre
as respostas dos estudantes e seus traos latentes (habilidade/proficincia). O modelo
matemtico expressa tal relao no formato de equao.
No Brasil, a TRI vem sendo utilizada com sucesso na anlise dos dados do
Sistema Nacional de Ensino Bsico (SAEB), enquanto que no exterior, pode-se citar o
Programme for International Student Assessment (PISA) [Andrade et al 2000].
Consequentemente pode-se observar a importncia no desenvolvimento de ferramentas
que suportem a teoria da resposta ao item, auxiliando a anlise de testes educacionais.
A teoria da resposta ao item vem sendo utilizada tambm para resolver
problemas de vrias outras reas, como por exemplo, avaliao do nvel de satisfao de
clientes, qualidade de vida, etc. As ferramentas disponveis hoje em dia que lidam com a
TRI no tratam de um domnio em especfico, tornando o seu uso para avaliao de
aprendizagem pouco acessvel aos avaliadores, pois a TRI utiliza conhecimentos
avanados de matemtica e estatstica. Infelizmente no existem atualmente ferramentas
que utilizem a TRI e sejam voltadas para a avaliao de aprendizagem e direcionadas
para o uso do avaliador. O objetivo deste trabalho apresentar um ambiente de
avaliao de aprendizagem que utilize a teoria da resposta ao item e que abstraia a
complexidade de sua utilizao, permitindo assim que o avaliador usufrua de alguns dos
recursos da teoria da resposta ao item. Apesar disto, necessrio que o usurio tenha
algum conhecimento das ferramentas (recursos) fornecidos pela teoria da resposta ao
item.
As prximas sees esto assim organizadas: Na segunda seo apresentada a
teoria da resposta ao item, abordando principalmente os recursos da TRI que foram
desenvolvidos neste trabalho. A seo seguinte trata da especificao do ambiente e na
ltima seo so apresentadas algumas concluses e sugestes para trabalhos futuros.

2. A Teoria da Resposta ao Item


Os estudos sobre a Teoria da Resposta ao Item surgiram na dcada de 1960 com
objetivo de disponibilizar recursos no encontrados na Teoria Clssica de Testes,
trazendo informaes mais ricas para anlise de testes.
A TRI assume a existncia de um trao latente ou constructo, isto , uma
habilidade que no pode ser diretamente observvel, sendo difcil de mensur-la.
Entretanto, a habilidade pode ser estimada a partir de um modelo matemtico que leva
em considerao caractersticas das questes e a probabilidade do indivduo acertar uma
determinada questo dado o seu grau de habilidade.

249
O modelo matemtico geralmente utilizado o modelo de Birnbaum [Andrade et
al 2000] e [Baker and Kim 2004], tambm conhecido como funo logstica de 3
parmetros que caracteriza cada questo em 3 parmetros, conforme pode ser visto em
(1):
1
P( ) = c + (1 c) (1)
1 + e a( b)
Onde: b o parmetro de dificuldade
a o parmetro de discriminao
c o parmetro de acerto ao acaso
o nvel de habilidade /trao latente/proficincia.
O parmetro b capaz de informar o grau de dificuldade da questo, enquanto o
parmetro a utilizado para identificar o poder que a questo tem em discriminar a
habilidade dos estudantes. J o parmetro c utilizado para informar a chance que um
indivduo tem em acertar a questo ao acaso.
O modelo de Birnbaum pode ser expresso graficamente atravs do que se chama
de Curva caracterstica do item (CCI). Um exemplo pode ser visto na Figura 1:

Figura 1 Curva caracterstica do item


O eixo vertical representa a probabilidade de acertar a questo enquanto o eixo
horizontal indica o trao latente dos estudantes, sendo portanto, a escala de
conhecimento da proficincia estudada. Para a medida Trao latente, quanto mais
direita, isto , quanto maior o seu valor, maior ser a proficincia do estudante. Desta
forma, segundo a Figura 1, um indivduo com trao latente igual a 3 tem probabilidade
superior a 80% em acertar tal questo. O inverso tambm pode ser observado, isto , um
indivduo com baixo trao latente (-3) tem probabilidade prxima a 0 em acertar a
questo.
As propriedades de discriminao e acerto ao acaso tambm so identificveis a
partir do grfico. Uma questo com discriminao alta apresenta uma curva mais
inclinada, enquanto uma curva menos inclinada indica uma questo com baixa
discriminao. O acerto ao acaso observvel a partir do ponto da curva mais prximo
ao eixo horizontal. No caso da Figura 1, pode-se observar que a curva est muito
prxima do eixo horizontal indicando que esta seria uma questo com baixa
probabilidade de acerto ao acaso.

250
A Curva Caracterstica do Teste similar CCI exceto que ela obtida a partir
de todo o conjunto de questes. Na prtica, a soma de probabilidades computadas com
a CCI de todos os itens e por isso denominado de escore verdadeiro. Esta medida pode
ser utilizada como sendo a nota de um indivduo num determinado teste.
A Funo de Informao do Item outro recurso da TRI utilizada para indicar o
grau de preciso da estimativa da habilidade de um determinado item. til para
identificar as questes que so realmente relevantes. J a Funo de Informao do
Teste faz o mesmo para o teste como um todo.
Outros recursos da TRI envolvem tambm a capacidade de comparar o
desempenho de grupos de estudantes sobre determinados aspectos em relao mesma
srie ou sries diferentes. Este processo denominado de equalizao de teste [Senno
2006].
Mais informaes sobre as ferramentas da TRI e os algoritmos utilizados nos
clculos da teoria da resposta ao item podem ser encontrados em [Andrade et al 2000],
[Azevedo 2003], [Baker 1992], [Senno 2006] e [Zubairi 2006].

3. Especificao do software
O ambiente foi elaborado para permitir que o professor pudesse usufruir dos principais
recursos da TRI, incluindo a curva caracterstica do item, curva caracterstica do teste,
funo de informao do item e funo de informao do teste. Para realizar a anlise
atravs da TRI, o professor deve informar o teste bem como o gabarito das questes.
Aps aplicado o teste, o professor deve submeter ao software as respostas individuais de
cada aluno. Estas so as informaes necessrias para se realizar a anlise com a TRI.
Em seguida, os algoritmos do modelo da TRI podem ser executados para extrao de
dados. Como sada, o software disponibiliza grficos e relatrios para anlise do
professor.
Para implementao do modelo de Birnbaum foi aproveitada boa parte da
implementao realizada por [Pinheiro 2006], no seu trabalho de mestrado, que
construiu o modelo utilizando a linguagem R. A linguagem R uma linguagem
funcional, pois d nfase aplicao de funes e avaliao de expresses, ao contrrio
das linguagens de programao tradicionais. Esta caracterstica permite a construo de
algoritmos utilizando-se operaes mais intuitivas que as utilizadas pelas linguagens
convencionais, sendo portanto um fator importante para desenvolvimento dos
complexos algoritmos matemticos e estatsticos exigidos pela teoria da resposta ao
item. Informaes sobre a linguagem R podem ser obtidas em [Venables 2003].
R no uma linguagem usada para escrever interfaces grficas (GUI), apesar de
possuir o pacote tcl-tk, que utilizado para escrever algumas interfaces baseadas em
janelas. O principal objetivo de R permitir a implementao de algoritmos para
processar dados. Por isso foi utilizada a linguagem Delphi para construo do ambiente
grfico.
Para que um programa R seja executado a partir de uma outra aplicao escrita
em outra linguagem, necessrio fazer uso de algum pacote de software para
estabelecer uma comunicao com o Engine R. Na literatura, citam-se os pacotes RD-
COM e SJava. Para o software desenvolvido foi utilizado RD-COM.

251
A Figura 2 exibe a organizao dos componentes utilizados na construo do
software.

Figura 2 Componentes utilizados para o projeto de avaliao atravs da TRI

O frontend do usurio (GUI) interage com R atravs do RD-COM. Como os


algoritmos da TRI so construdos integralmente em R, todas as operaes de
processamento necessariamente devem ser solicitadas ao Engine R atravs do RD-
COM. A interface grfica desenvolvida em Delphi se encarrega de solicitar as
informaes ao usurio e conduzir os dados para o Engine R, alm de exibir as sadas
geradas pelos algoritmos.
A Figura 3 exibe exemplos de chamadas ao engine R, a partir do cdigo Delphi.
No contexto apresentado, RCon a classe que permite a conexo com o engine R
atravs de COM, enquanto o mtodo ENR encarrega-se de submeter uma instruo para
execuo.
RCon.ENR('items.deal <- dataset.info[3,1:(ncol(dataset.info)-1)]');
RCon.ENR('items.names <- dataset.original[4,2:ncol(dataset.original)]');
RCon.ENR('items.count <- ncol(dataset.info)-1');

Figura 3 - exemplo

A Figura 4 apresenta os principais elementos da especificao em UML para o


desenvolvimento deste software.

Figura 4 Diagrama UML do software

As classes Assunto, Disciplina e Questo constituem o banco de itens, isto , um


cadastro de questes catalogadas para serem aplicadas nos testes. Interfaces para
manuteno do banco de itens esto disponveis no software. A classe Questao
armazena as propriedades do item segundo a teoria da resposta ao item, isto , mantm

252
os parmetros a, b e c, alm da resposta correta. O mtodo gerarCCI utilizado para
processar o grfico da curva caracterstica do item, enquanto que o mtodo gerarFII
utilizado para processar o grfico da funo de informao do item. Ambas as funes
foram construdas em R. Estes mtodos somente podem ser executados depois que o
clculo de habilidades e parmetros de itens forem executados.
A classe Teste possui uma associao denominada questoes que til para
referenciar as questes do banco de itens que foram ou sero aplicadas num determinado
teste. Os mtodos calcularParItens e calcularTracos so utilizados respectivamente para
calcular os parmetros dos itens e calcular os traos latentes dos estudantes. Os traos
latentes dos estudantes somente podem ser calculados caso os parmetros dos itens
forem conhecidos. Sempre que uma questo utilizada num teste e as estimativas so
calculadas, o software armazena os parmetros encontrados para serem utilizados em
futuros testes.
Os mtodos gerarCTT e gerarFIT correspondem respectivamente s funes que
geram a curva caracterstica do teste e a funo de informao do teste. Estes mtodos
somente podem ser solicitados assim que os clculos dos parmetros dos itens e
habilidades tiverem sido executados previamente. Ambas as funes desviam o fluxo de
execuo para programas R processarem a gerao do grfico apropriado.
A figura seguinte (Figura 5) apresenta uma das sadas fornecidas pelo software.

Figura 5 Ambiente de avaliao usando TRI

253
Neste caso, os parmetros dos itens foram calculados e exibidos na tela. A
questo de nmero 19 foi destacada para visualizao da sua curva caracterstica. Pelo
que pode ser observado, esta questo tem nvel de dificuldade fcil pois estudantes com
proficincia baixa tm boa probabilidade de acert-la. Alm disso, pode-se concluir que
os estudantes tm cerca de 13% de chance em acert-la ao acaso. Atravs do formato da
curva, pode-se concluir tambm que a curva tem boa discriminao.
A anlise da curva caracterstica do item permite ao avaliador decidir se a
questo realmente til para ser aplicada para avaliar a proficincia dos estudantes.
As ferramentas atualmente desenvolvidas e descritas at aqui constituem apenas
alguns dos recursos que a TRI oferece. Vrias outras ferramentas podem ser construdas.
O ambiente foi modelado para suportar plug-ins escritos em R e segue a especificao
apresentada em [Justino 2007]. O plug-in tem acesso a uma srie de informaes
fornecidos pelo software desenvolvido. Tais informaes esto descritas na tabela 1.
Tabela 1 Estruturas fornecidas para construo de plug-in
Objeto R Tipo de dado Descrio
Dataset Matriz Identificao dos estudantes com suas respectivas
respostas
dataset.info Matriz Informaes sobre o gabarito e questes.
items.rightanswers Vetor Gabarito
items.numoptions Vetor Nmero de opes para cada questo
Items.estimates Vetor Parmetro dos itens
items.name Vetor Identificao das questes
dataset.answers Vetor Respostas dos estudantes

O plug-in deve ser mantido em formato compactado (zip) e deve conter, alm
dos programas escritos em R, um arquivo denominado index.xml, que publica as
funes e propriedades da ferramenta desenvolvida.

4. Concluses
O uso da linguagem R permitiu simplificar a construo do modelo pois se trata de uma
linguagem apropriada para implementao dos algoritmos utilizados pela teoria da
resposta ao item e que requerem a execuo de procedimentos matemticos e
estatsticos avanados.
O frontend (GUI) facilita a submisso do teste para anlise atravs da TRI pois o
avaliador no precisa acessar a shell/console do R para execuo dos comandos.
A construo do software atravs de plug-ins permite que outros
desenvolvedores ampliem as funcionalidades do software, estendendo as suas
funcionalidades originais.
A expectativa deste trabalho que o ambiente possa contribuir com a
disseminao do uso da teoria da resposta ao item na avaliao de desempenho de
estudantes. Vale lembrar que apesar do projeto prever a simplificao do uso da teoria,
ainda assim se faz necessrio que o avaliador faa um estudo da teoria da resposta ao
item a fim de compreender suas ferramentas.

254
Como atividades futuras, pretende-se construir os plugins para implementar a
equalizao de testes e os mtodos apresentados por [Azevedo 2003] e [Tavares 2006].
Alm disso, pretende-se utilizar o software desenvolvido na unidade de Ensino Tcnico
Senai da cidade de Blumenau a fim de agrupar os alunos em turmas com conhecimento
mais homogneo entre si.

Referncias
Andrade, Dalton Francisco de and Tavares, Heliton Ribeiro and Valle, Raquel da Cunha
(2000) Teoria da Resposta ao Item: Conceitos e Aplicaes. Associao Brasileira
de Estatstica ABE.
Andrich, D. (1982) An index of person separation in latent trait theory, the traditional
KR.20 index, and the Guttman scale response pattern, In Education Research and
Perspectives. p. 9, 95-104.
Azevedo, Caio Lucidius Naberezny (2003) Mtodos de estimao na teoria de resposta
ao item. Dissertao de Mestrado. Instituto de Matemtica e Estatstica, USP.
Baker, Frank B. (1992) Item Response Theory: Parameter Estimation Techniques,
Marcel Dekker, Inc.
Baker, Frank B and Kim, Seock-Ho (2004) Item Response Theory Parameter
Estimation Techniques, 2nd edition. Marcel Dekker, Inc.
Hambleton, K. Ronald (1977) Latent Traits Models and Their Use in the Analysis of
Education Test Data. In Journal of Educational Measurement, Vol. 14. Nr. 2,
Applications of Latent Trait Models (Summer, 1977). p. 75-96.
Hammer, Robert J. (1999) Item Response Theory, In The Counseling Psychologist,
vol. 27. p 353-383.
Justino, Gilvan (2007) e Andrade, Dalton Francisco de An environment specification
for item response theory, In Third International Conference on Intelligent
Computing and Information Systems.
Pinheiro, Conrad Elber (2006) Implementao de mtodos estatsticos para avaliao
educacional no software R. Dissertao de Mestrado. IME, USP.
Senno, Rosangela Molini (2006) Mtodos de Equalizao na Teoria Clssica e na
Teoria da Resposta ao Item. Dissertao de Mestrado. IME, USP.
Tavares, Heliton Ribeiro e Andrade, Dalton Francisco de (2006) Item Response Theory
for Longitudinal Data: Item and Population Parameters Estimation Test, In Test, V.
15, n.1, p. 97-123.
Venables, W. N. e Smith, M. (2003) An introduction to R, http://cran.r-
project.org/doc/manuals/R-intro.pdf, Junho/2006.
Zubairi, Ainol Madziah e Kassim, Noor Lide Abu (2006) Classical and Rasch
Analyses of Dichotomously Scored. In Journal of the Malaysian English Language
Teaching Association (MELTA), vol. 2

255

Você também pode gostar