Escolar Documentos
Profissional Documentos
Cultura Documentos
Investigador Principal:
Dr. Hctor Valds Veloz
Diagramacin y diseo:
Yeimy Olivier
Natasha Mercedes
Centro de Documentacin:
Ing. Dilcia Armesto
ISBN: 978-9945-8859-8-9
La teora clsica del test (TCT) fue desarrollada durante los aos veinte del siglo pasado.
En esta teora el resultado de la medicin de una variable dependa del test utilizado, lo que
determinaba la existencia de serios problemas para tratar de establecer la equivalencia en-
tre las puntuaciones de dos tests distintos que medan una misma variable, con lo cual era
poco probable poder comparar los resultados de dos poblaciones examinadas con dos tests
diferentes que trataban de medir sus rendimientos en aritmtica, por ejemplo.
De manera que en la TCT la medida de una variable es inseparable del instrumento utilizado
para medirla Esto constituye una seria limitacin de la referida teora, pues de manera ope-
rativa se define la variable por el instrumento que se utiliza para medirla.
La limitacin antes referida puede comprenderse con mayor claridad en el ejemplo siguiente:
Supongamos que el profesor de Matemtica de Julio le aplica una prueba elaborada bajo
los supuestos de la Teora Clsica del Test para conocer su rendimiento acadmico en esa
asignatura.
Por otra parte, en la T.C.T las propiedades del instrumento de medida, o sea de los tems y
del test, estn en funcin de los sujetos a los que se les aplica.
Esto significa que, por ejemplo, el ndice de dificultad de un tem depender del nivel de
competencia o de habilidad que tenga el grupo de sujetos que lo responde.
Las dos limitaciones de la TCT antes descritas sintticamente demuestran que la misma es-
taba encerrada en una importante incongruencia terica: la medicin depende del instru-
mento utilizado y las propiedades de esta estn determinadas por las caractersticas o nivel
de habilidad de los sujetos que lo responden.
Para dar solucin a estas limitaciones se desarroll la Teora de Respuesta al Item (TRI). Su
nombre proviene del hecho de que su enfoque se basa en las propiedades de los tems ms
que en las del test en sentido global.
1 Thurstone, L.L. Attitudes con su measured. American Journal of Sociology 1928, pg. 547.
IDEICE 2014 1
Como Lord (1980) asegur, la TRI no contradice ni las asunciones ni las conclusiones funda-
mentales de la Teora Clsica de los Tests, sino que hace asunciones adicionales que permi-
ten responder cuestiones esenciales que la TCT no poda.
Mientras que los conceptos bsicos de la TRI eran, y son, sencillos, la matemtica que la fun-
damenta era de cierta forma avanzada en comparacin a la utilizada por la Teora Clsica
del Test. Era difcil examinar algunos de estos conceptos sin hacer una gran cantidad de
clculos para obtener informacin til.
Por la razn antes expuesta no fue hasta los aos sesenta del siglo pasado, con la aparicin
del libro de Rasch (1960) y, sobre todo, con los aportes de Bienbaun, Lord y Novick (1968)
que se produce una rpida expansin en la utilizacin de la TRI, todo ello complementado
con el acceso generalizado a los computadores, imprescindible para realizar con relativa
facilidad los clculos necesarios para el tratamiento de esta teora.
La promesa central de la TRI fue solucionar las limitaciones de la TCT descritas en esta intro-
duccin, es decir:
Obtener mediciones que no varen en funcin del instrumento utilizado, que sean
invariantes respecto de los tests empleados.
Disponer de los instrumentos de medida cuyas propiedades no dependan de los
objetos medidos, que sean invariantes respecto de los sujetos evaluados.
Como se podr apreciar a continuacin, para lograr tales objetivos los supuestos de partida
de la TRI son muy fuertes y restrictivos.
Supuestos de la TRI
Pero esos rasgos latentes en general no se pueden medir directamente como las dimensio-
nes fsicas, por ejemplo la altura y el peso.
Como en Educacin la mayora de las investigaciones han tratado a tales variables como
habilidades (de lectura, aritmtica, etc.), el trmino genrico de habilidad se usa dentro de
la teora de respuesta al tem para referirse a estos rasgos latentes.
La TRI asume que existe una relacin funcional entre los valores de la variable que miden los
tems y la probabilidad de acertar estos, denominando a dicha funcin curva caracterstica
de los tems (CCI). Ello significa que sujetos con distinta puntuacin en dicha variable (en la
prueba toda) tendrn posibilidades distintas de acertar determinado tem.
Luego, una suposicin razonable es que cada examinando que responda a un tem de un
examen, posee alguna cantidad de la habilidad medida por dicho examen. Por consiguien-
te, cada examinando tiene un valor numrico, una calificacin, que lo coloca en la escala de
habilidad. Esta habilidad es denotada por la letra griega q.
Para cada nivel de habilidad, habr cierta probabilidad de que un examinando con esa habi-
lidad dar la respuesta correcta al tem. Esta probabilidad es denotada por P(q).
Para examinados de poca habilidad P(q) ser pequea, mientras que para examinados con
mucha habilidad P(q) ser grande.
P(0)
0.8
0.6
0.4
0.2
-3 -2 -1 0 1 2 3 0
IDEICE 2014 3
Como se aprecia en el grfico anterior esta curva en forma de S describe la relacin entre la
probabilidad de respuesta correcta a un tem y la escala de habilidad. Esta ltima, si bien
en la prctica muestra valores que van desde -3 a +3 , su margen terico es desde el
negativo infinito al positivo infinito.
La CCI, como su nombre lo indica, es eso, caracterstica, tpica, especfica de cada tem, ca-
racteriza al tem; por tanto, las CCI de los tems que miden una determinada variable q no
son iguales, si bien compartirn determinada forma general.
El margen restringido empleado en las figuras (-3 a +3) es necesario solamente para ajustar
las curvas a la pantalla de la computadora de forma razonable.
Parmetros de la CCI
La curva caracterstica del tem es la piedra angular de la teora de respuesta al tem; todas
las otras estructuras de la teora dependen de esta curva. Hay tres propiedades tcnicas de
la curva caracterstica del tem que la describen. Estas propiedades reciben el nombre de
parmetros.
P(0)
0.8
0.6
0.4 a
-3 -2 -1 0 b 1 2 3 0
Esta propiedad tcnica de la CCI describe cmo un tem puede diferenciar entre los exami-
nados que tienen habilidades inferiores a la localizacin del tem y los que tienen habilida-
des superiores a la localizacin del tem.
En la teora de respuesta al tem, la dificultad del tem describe dnde el tem funciona en la
escala de habilidad.
Por ejemplo, un tem fcil funciona entre examinados de poca habilidad y un tem difcil fun-
ciona entre los examinados de mucha habilidad. O sea este es un indicador de localizacin.
Ntese que en esta teora la dificultad del tem se mide en la misma escala que q, de hecho
es un valor de q, aquel que corresponde a la mxima pendiente de la CCI, y en la prctica se
puede obtener localizando el punto en el eje q que corresponde a P(q) = 0,5, como puede
verse en la figura 3.
P(0)
0.8
0.6
0.5
0.4
0.2
-3 -2 -1 b 1 2 3 0
En la figura 4, se presentan en el mismo grfico tres curvas caractersticas del tem. Todas
tienen el mismo nivel de discriminacin pero difieren con respecto a la dificultad. La curva
de la izquierda representa un tem fcil porque la probabilidad de respuesta correcta es
alta para examinandos de poca habilidad y se acerca al 1 para examinandos de mucha ha-
bilidad. La curva del centro representa un tem de dificultad media porque la probabilidad
de respuesta correcta es baja en los niveles ms bajo de habilidad, alrededor de 0,5 en el
medio de la escala de habilidad y cerca de 1 en los niveles ms alto de habilidad. La curva
de la derecha representa un tem difcil. La probabilidad de respuesta correcta es baja en la
IDEICE 2014 5
mayor parte de la escala de habilidad y aumenta solamente cuando se alcanzan los niveles
ms altos de habilidad. Incluso en el nivel ms alto de habilidad que se muestra en (+3), la
probabilidad de respuesta correcta es solamente 0,8 para el tem ms difcil.
P (0)
-3 -2 -1 0 1 2 3 0
FIGURA 4. Tres CCI con la misma discriminacin pero con diferentes niveles de dificultad.
El concepto de discriminacin, se ilustra en la figura 5. Esta figura contiene tres curvas ca-
ractersticas de tem que tienen el mismo nivel de dificultad pero defieren con respecto a la
discriminacin.
P(0)
0.8
0.6
0.4
0.2
-3 -2 -1 0 1 2 3 0
FIGURA 5. Tres CCI con la misma dificultad pero con diferentes niveles de discriminacin.
En la prctica es el valor equivalente en el eje P(q) interceptado por la CCI (Ver FIGURA 2).
La CCI queda definida cuando se especifican estos tres parmetros y se adopta una deter-
minada funcin matemtica para la curva. Segn el tipo de funcin matemtica adoptada
y el valor de los parmetros tendremos diferentes modelos de CCI.
Por tanto, en este epgrafe presentaremos tres modelos matemticos para la curva caracte-
rstica del tem.
Estos modelos proporcionan una ecuacin matemtica mediante la cual se relaciona la ha-
bilidad (q) con la probabilidad de respuesta correcta P(q). De esta manera dichos modelos
y sus parmetros ofrecen un vehculo para comunicar informacin sobre las propiedades
tcnicas del tem.
Hasta el momento la mayora de las investigaciones que han abordado este tema, se han
centrado en dos tipos de funciones matemticas para la CCI: la funcin logstica y la curva
normal acumulada.
IDEICE 2014 7
Dada la mayor tratabilidad matemtica de la funcin logstica, en la actualidad los tres
modelos por antonomasia de la TRI son el logstico de un parmetro, de dos y de tres par-
metros.
En los tres casos se asume que la respuesta a los tems es dicotmica, es decir, o se acierta
o se falla el tem, independientemente del nmero de alternativas que tenga, o que sea de
carcter abierto en el que los sujetos deben generar su propia respuesta, en cuyo caso sta
slo se considerar correcta e incorrecta, sin grados intermedios. No obstante, en la litera-
tura existen otros tipos de modelos para respuestas multicategoriales, pero no sern objeto
de este curso.
La funcin logstica
El objetivo de esta apartado es hacerles desarrollar a los cursistas un sentido sobre cmo se
relacionan los valores numricos de los parmetros del tem para un modelo determinado
con la forma de la curva caracterstica del tem.
Bajo la teora de respuestas al tem, el modelo matemtico estndar para la curva caracters-
tica del tem es la forma acumulativa de la funcin logstica. La misma define a una familia
de curvas que tienen la forma general de las curvas caractersticas del tem mostradas en el
apartado anterior.
La funcin logstica se deriv por primera vez en 1874 y ha sido ampliamente utilizada en las
ciencias biolgicas para hacer modelos del crecimiento de las plantas y animales desde el
nacimiento hasta su madurez. Se utiliz por primera vez como modelo para la CCI a finales
de los aos cincuenta del siglo pasado y, por su simplicidad, se ha convertido en el modelo
preferido.
El modelo logstico de un parmetro fue formulado originalmente por Rasch (1960), reci-
biendo notable atencin desde entonces especialmente en la Universidad de Chicago por
Wright y Stone.
Es, sin dudas, el modelo ms popular de la TRI debido esencialmente a la sencillez emanada
de su lgica: la respuesta a un tem slo depende de la competencia del sujeto (q) y de la
dificultad del tem (b). En este modelo la CCI viene dada por la funcin
ex
Y=
(1+e x)
logstica, y el nico parmetro de los tems a tener en cuenta es b (ndice de dificultad). La
funcin logstica es una curva cuya frmula general viene dada por:
X Y
P(0)
- 0,0
-3 0,047 1
-2 0,119
0.8
-1 0,269
0 0,500 0.6
1 0,731
2 0,881 0.4
3 0,953 0.2
+ 1,0
-3 -2 -1 0 1 2 3 0
Mediante el uso de una constante adicional (D = 1,7) en la funcin logstica sus valores se
aproximan notablemente a los de la curva normal acumulada, por lo que es frecuente encon-
trarla como sigue:
e Dx
Pi(q)=
(1+e Dx)
e D(q-bi)
Pi(q)=
1+e D(q-bi)
D: Constante (1,7)
IDEICE 2014 9
Ejemplo: 1 Cul es la probabilidad de que los sujetos con q=2 acierten un tem cuyo ndice
de dificultad es b = 1,5?
2,721,7(2-1,5)
Pi(q)=
1+2,721,7(2-1,5)
2,720,85
Pi(q)=
1+2,720,85
2,34090381
Pi(q)=
1+2,34090381
Pi(q)= 0,7
La frmula dada para el modelo de Rasch suele expresarse de una manera equivalente, re-
sultado de dividir al numerador y al denominador de esta por eD(q-b); en cuyo caso quedara
expresado como:
1
Pi(q)=
1+e -D(q-bi)
D: Constante (1,7)
Ejemplo:
(2,72)(1,7)(2)(2,5-1,5)
P(q)= =0,967
1+ (2,72)(1,7)(2)(2,5-1,5)
La probabilidad de superar el tem es muy elevada (0,967), como era de esperar, pues a me-
dida que sea mayor que b, para un determinado valor de a, P() aumenta segn el modelo
logstico, lo cual es razonable, pues a mayor habilidad de los sujetos, mayor probabilidad de
superar un tem dado.
Este modelo asume que la CCI viene dada por la funcin logstica y aade a los dos pa-
rmetros a y b ya citados un tercero c relativo a la probabilidad de acertar el tem al azar,
cuando no se conoce la respuesta. Mas tcnicamente, c, es el valor de Pi () para un valor de
q = -a
Ejemplo:
(2,72)(1,7)(1,25)(1-0,5)
Pi(1)=0,25+(1-0,25) 0,805
1+ (2,72)(1,7)(1,25)(1-0,5)
Pi(1)=0,805
IDEICE 2014 11
SEGUNDO SUPUESTO: Unidimensionalidad.
Como ya hemos explicado anteriormente la CCI establece una relacin funcional entre la
probabilidad de acertar un tem y los valores de . Por tanto, si el modelo es correcto, la pro-
babilidad de acertar un tem nicamente depender de un factor, de .
En otras palabras, la TRI asume en su formulacin que los tems destinados a medir la varia-
ble constituyen una sola dimensin, son unidimensionales.
Sobre cmo comprobar que un conjunto de tems constituye una sola dimensin existen
diversas opiniones entre los investigadores, habindose propuesto hasta la fecha nmeros
ndices al respecto. No obstante, el anlisis factorial sigue siendo el mtodo ms utilizado.
Dado que empricamente raras veces se encuentra una unidimensionalidad perfecta, o sea,
que un solo factor d cuenta del 100% de la varianza, la unidimensionalidad en la prctica
se verifica a partir de cunta ms varianza explique el primer factor.
Un problema clsico de difcil solucin que surge al someter a un anlisis factorial tems
dicotmicos, como son la mayora de los utilizados en los tests que aplican todos los con-
sorcios internacionales de evaluacin, es lo que se ha dado en llamar factores de dificultad,
refirindose a que los factores obtenidos dependen en cierta medida de la dificultad de los
tems.
Ejemplo:
Cmo proceder en la prctica para elegir uno de los modelos, estimar los parmetros de los
tems, la habilidad de cada sujeto y comprobar que el modelo se ajusta a los datos?
A continuacin se describe el algoritmo que debe seguirse para dar respuesta a la pregunta
anterior, explicando brevemente en qu consiste cada uno de los pasos o etapas por las que
se debe transitar.
Este primer paso no es especfico de la TRI, atae a cualquier medicin psicolgica o educa-
cional rigurosa.
Si no se define con rigor aquello que se desea evaluar, mal se podr medir.
Definir con rigor no se refiere nicamente a dejar claros los deseos, lo que se pretende me-
dir, hay que delimitar el marco terico, las posibles conexiones con otras variables y teoras,
antecedentes, etc.
Con arreglo al estado del arte a nivel mundial de la dimensin disciplinar que se
pretende evaluar.
Para evaluar el estado de la dimensin disciplinar en su aplicacin estrictamente
curricular o un subconjunto de esta (precisando la oportunidad real de aprendi-
zaje que han tenido los alumnos).
Una mezcla de las variantes anteriores (Ejemplo: dimensin disciplinar curricular
con nfasis en las habilidades para la vida).
Elaborar buenos tems es como escribir poesas, si existieran reglas de aplicacin autom-
tica todos seramos excelentes poetas, pero desafortunadamente no es as. No obstante, a
continuacin mostramos algunas reglas para la elaboracin de tems de seleccin mltiple
con nica respuesta correcta, cuya observancia puede ayudar sin dudas a elaborar tems
con una adecuada calidad:
IDEICE 2014 13
Algunas consideraciones sobre la elaboracin de preguntas para las pruebas pedag-
gicas de lpiz y papel.
Elaborar buenos tems es una labor que exige mucha prctica, adems de un conocimiento
profundo del objeto de evaluacin y de la poblacin que se va a evaluar.
Para que cada tem aporte su mximo potencial al propsito de la evaluacin resulta ne-
cesario que sus elaboradores dominen el marco conceptual del instrumento, as como las
especificaciones tcnicas del mismo.
Reglas generales
2 Rocha, Martha y otros. Seminario regional Evaluacin de la Educacin. Taller de elaboracin de tems, ICFES,
agosto de 2006, p. 10.
Fundamentacin conceptual
IDEICE 2014 15
Especificaciones de la prueba
Al hacer el anlisis de una prueba que satisfaga la tabla de especificaciones antes referida
es posible describir, diagnosticar, el rendimiento de los alumnos que la realicen desde el
punto de vista conceptual, procedimental y actitudinal. Puede incluso construirse un ndice
con cada una de sus dimensiones ( conceptual, procedimental y actitudinal) y precisar en
cul de ellas los alumnos tienen mayores deficiencias.
Particular importancia tiene el poder constatar el grado de asimilacin que han alcanzado
los alumnos en la dimensin actitudinal, la cual sin dudas es un componente esencial de sus
orientaciones valorativas.
La descripcin de las tareas de evaluacin a partir de las cuales ser posible materializar (en
tems) el propsito de la evaluacin constituye la operacionalizacin del objeto de evalua-
cin.
Como para de las especificaciones psicomtricas se debe clarificar el nmero de tems que
tendr el instrumento en su totalidad.
Desarrollo de la prueba
Despus de elaborar los tems, se ensambla el instrumento de acuerdo con las especificacio-
nes psicomtricas y se somete a una revisin final, generalmente por parte de expertos en
evaluacin y en el objeto de evaluacin.
Aplicacin piloto
En esta fase el instrumento es aplicado a una muestra de la poblacin objetivo para estimar
indicadores estadsticos que permitan corroborar la calidad tcnica del instrumento y el
grado de pertinencia de los tems para la poblacin.
Las condiciones de la aplicacin piloto deben guardar la mayor similitud posible con las
condiciones que tendr la aplicacin definitiva.
Para hacer tems de buena calidad es necesario conocer las caractersticas de los distintos
formatos de tems que han de utilizarse en la evaluacin, aplicar las reglas para su correcta
elaboracin y evitar los factores que pueden afectar su validez.
Seleccin mltiple
Formato
de items
Completar respuestas
Ensayo corto
Ensayo largo
Ensayo oral
Produccin de respuestas
Ejecucin
Productos no escritos
IDEICE 2014 17
En este libro solo mostraremos la tcnica de elaboracin de tems del formato seleccin
mltiple con una nica respuesta correcta y en la ejemplificacin pondremos el nfasis en
aquellos tems cuyo propsito es evaluar los contenidos actitudinales.
El contexto
El enunciado
Las opciones de respuestas
El contexto
Es la informacin que sita conceptualmente al evaluado pues provee los elementos nece-
sarios y suficientes para focalizar la tarea de evaluacin. Este puede ser un texto, una grfica,
un dibujo, una tabla o cualquier otra forma de presentacin de la informacin a partir de
cual se deriva el enunciado.
El enunciado
Comnmente los enunciados de tems de seleccin mltiple como nica respuesta correcta
se plantean en forma de pregunta o como una proposicin. En el primer caso las opciones
se redactan como respuestas a la pregunta; en el segundo caso, en enunciado constituye la
primera parte de una proposicin y cada una de las opciones debe completar coherente-
mente el enunciado.
Es conveniente tener en cuenta que para los nios la redaccin en forma de preguntas re-
sulta mas clara.
Reglas para la elaboracin de tems de seleccin mltiple con nica respuesta correcta.
Las reglas de elaboracin de tems que a continuacin les presentamos, tienen la pretensin
de orientar al evaluador para que los tems que elabore evalen realmente el objeto de eva-
luacin que se pretende; en tal sentido, la aplicacin de tales reglas contribuye a consolidad
la validez de la interpretacin de los resultados4.2
3 AERA, APA, NCME (1999) standard for educational and psychological testing. Washintong: AERA
4 Rocha, Martha y otros. Seminario regional Evaluacin de la Educacin. Taller de elaboracin de tems, ICFES,
agosto de 2006, pg. 30-31.
Evite elaborar tems que confunden al evaluado. Diferentes estudios han estable-
cidos cules son algunas de las situaciones que llevan a percibir los tems como
confusos entre stas estn:
a) Contenido trivial.
b) Presencia de informacin irrelevante.
c) Presentacin ambigua de las opciones de respuesta.
d) Discriminacin muy fina difcil de percibir entre las opciones de respuesta.
e) Presentacin de informacin en modo distinto a como ha sido aprendida por la
poblacin evaluada, dentro de su proceso educativo.
IDEICE 2014 19
Evite texto excesivo.
Redacte el enunciado en forma positiva; es decir, evite negaciones.
Sobre la validez
Cuando hablamos actualmente de validez no nos referimos al instrumento, sino a las infe-
rencias e interpretaciones realizadas a partir de los resultados obtenidos en un proceso de
evaluacin donde se ha utilizado el instrumento en cuestin.
Entendemos entonces por validez el juicio evaluativo del grado en el cual la evidencia
emprica sustentan la pertinencia y conveniencia de las inferencias acerca de los resultados
en un instrumento de medicin as como de las acciones que se realizan a partir de dichos
resultados.15
La elaboracin de los tems puede verse afectada en cuando a la validez por los siguientes
factores:
La tarea planteada por el tem no es relevante para la evaluacin del objeto plan-
teado en el marco de fundamentacin.
En el tem se incluye informacin que facilita o dificulta la tarea de evaluacin
planteada, ms all de su propsito.
No se garantiza la confidencialidad del instrumento antes de su aplicacin.
No existe una frmula nica y universal para mejorar la calidad de un tem, pero sin lugar a
dudas el estricto cumplimiento de las reglas para su elaboracin y el tomar distancia de los
factores que pueden afectar su validez, ayudan de manera decisiva a conseguir que tengan
una adecuada calidad.
Los tems elaborados se aplican a una muestra lo ms amplia posible de sujetos pertene-
cientes a la poblacin en la que se va a utilizar (pilotaje), y se calculan para cada tem los
ndices de la Teora Clsica del Test, lo cual permitir hacer una primera decantacin de al-
gunos que resultan claramente inadecuados. Programas con el ITEMAN para computadores
personales facilitan esa labor.
5 Messick, S (1989). Validity. In R. L. Linn (Ed.). Educational measurement (3rd ed. Pgs 13 103. New York: Mac
millan)
IDEICE 2014 21
4. Comprobacin de la unidimensionalidad de los tems.
El anlisis factorial sigue siendo la tcnica ms apropiada, pero no hay un criterio claro a par-
tir del cual se puede afirmar la unidimensionalidad. No obstante, el porcentaje de varianza
explicada por el primer factor es un ndice sencillo y claro de la relevancia del factor y, por
ende, del grado de unidimensionalidad.
Un primer anlisis factorial que descarta aquellos tems que conforman factores
perifricos.
Se hace lo mismo en posteriores anlisis hasta lograr un anlisis en el que un fac-
tor explica la mayor parte, idealmente toda, de la varianza de los tems.
Una vez probado que los tems conforman un test unidimensional, el siguiente problema es
qu modelos de TRI es ms razonable utilizar.
Cualquier eleccin a priori es lcita para el investigador, pero ser el ajuste del modelo a los
datos lo que decida lo correcto o incorrecto de la eleccin.
Ahora bien, ciertas caractersticas de los tems pueden proporcionar algunas claves que me-
joren la mera eleccin al azar o capricho, entre estas:
En todo caso, preferencia aparte, no debemos olvidar que los jueces han de ser los datos y
que se debe elegir aquel modelo que mejor de cuenta de ellos.
En caso de ajustes similares debe escogerse el ms sencillo, como indican los cnones de la
parsimonia cientfica y el sentido comn (lo bueno, si es sencillo, es dos veces bueno).
Actualmente se dispone de varios programas de ordenador para estos fines, entre ellos.
Una vez estimados los parmetros del modelo debemos comprobar hasta qu punto los
resultados pronosticados con esos valores coinciden con los obtenidos de hecho, o sea, hay
que comprobar el ajuste del modelo a los datos.
Tal ajuste se produce cuando los valores de P() pronosticados por el modelo no defieren
estadsticamente de los obtenidos empricamente, es decir, de la proporcin de sujetos que
realmente acierten el tem.
Existen varios procedimientos estadsticos para la comprobacin del ajuste, si bien ninguno
de ellos es totalmente satisfactorio, siendo esto precisamente un punto dbil en el estado
actual de desarrollo de la TRI.
El uso de X2 (chi-cuadrado).
El anlisis de los residuos.
La comparacin de las distribuciones de las puntuaciones.
De la misma manera que existe en la TRI el concepto de CCI, el que constituye una pieza
central de dicha teora, puede hablarse en la misma de curva caracterstica del test (CCT),
concepto que tiene tambin gran importancia, sobre todo porque constituye un puente en-
tre algunos aspectos de la Teora Clsica del TEST (TCT) y la TRI, como ayuda para interpretar
los resultados, o en la equiparacin de las puntuaciones de los sujetos (equating).
IDEICE 2014 23
La curva caracterstica del test es la suma de las curvas caractersticas de los tems
que componen el test, o sea, si a cada nivel de q se suman los valores de P(q) de
cada tem para ese nivel, se obtiene la CCT, lo que puede expresarse matemtica-
mente como sigue:
n
CCT = Pi (q)
i=1
Resulta necesario hacer notar que las sumas han de realizarse para cada nivel de y dado
que es una variable continua, habra que utilizar el clculo infinitesimal, si bien en la
prctica es habitual dividir en cortos intervalos sumando la P() de los tems para cada
intervalo.
Ejemplo:
Dado un test formado por 4 tems cuyos parmetros en un modelo logstico de dos parme-
tros estimados con determinado programa de computacin resultaron: a1=1; a2=1,5 ; a3=2
; a4=2,5 ; b1=0,75 ; b2=1 ; b3=2 y b4=3. Hallar la curva caracterstica del test (CCT). Hacer la
suma de las P(q) para los valores de : -3, -2, -1, 0, 1, 2, 3.
Para dar respuesta al ejercicio anterior, slo habra que sustituir los valores dados de a, b y
en el modelo logstico de dos parmetros, obtener los valores de P() para los 4 tems, y
sumar sus resultados para obtener la CCT.
eDai(-bi)
Pi()=
1+ eDai(-bi)
e(1,7)(1)(1-0,75) e0,425 1,53
Pi(1)= = = =0,6049
1+ e(1,7)(1)(1-0,75) 1+e0,425 1+1,53
Pi(1)= 0,6049
A continuacin se muestra una tabla donde aparecen todos los resultados de este ejercicio:
n P(q) CCT
Item 1 Item 2 Item 3 Item 4
-3 0,0017 0,0000 0,0000 0,0000 0,0017
-2 0,0091 0,0004 0,0000 0,0000 0,0095
-1 0,0481 0,0059 0,0000 0,0000 0,0540
0 0,2177 0,0719 0,0010 0,0000 0,2906
1 0,6049 0,5000 0,0319 0,0001 1,1369
2 0,8938 0,9280 0,5000 0,0138 2,3356
3 0,9788 0,9940 0,9680 0,5000 3,4408
A continuacin se describe cada uno de los indicadores que comnmente se utilizan en el procesamiento de
datos de los tems, cuando se pretende proveer informacin cuantitativa necesaria para realizar el anlisis de
los mismos y decidir si se incluyen o no en una prueba:
Antes de explicar cada uno de los parmetros o indicadores que suelen utilizarse en el pro-
ceso de anlisis de los tems y de una prueba, definamos qu entendemos por parmetro
en este caso.
Para nosotros un parmetro es un valor estadstico que refleja una cualidad del tem y de la
prueba. A continuacin explicamos entonces a qu parmetros o indicadores nos estamos
refiriendo.
DIFICULTAD
IDEICE 2014 25
DISCRIMINACIN
6 ETS. (2000). ETS Standards for quality and fairness. Educational Testing Service. Princeton: New Jersey.
IDEICE 2014 27
AJUSTE PRXIMO Y LEJANO (INFIT Y OUTFIT)
-- Definicin: indica la correspondencia entre un grupo de datos y el modelo
estadstico utilizado para representarlos. El ajuste prximo (infit) se refiere a
la relacin entre los datos que se encuentran cerca del valor de dificultad del
tem y el valor de dificultad; el ajuste lejano se refiere a la relacin de los datos
que se encuentran lejos de dicho valor de dificultad y esa dificultad. Ambos
indicadores deben ser calculados para la clave. Para las dems opciones de
respuesta debe calcularse el ajuste lejano (outfit).
-- Justificacin de uso: la utilizacin de un modelo para representar datos debe
fundamentarse en la verificacin de que dicho modelo en verdad representa
el comportamiento de los datos y, por ende, puede inferirse el cumplimiento
de los supuestos de dicho modelo para los datos analizados.
-- Interpretacin: los valores posibles se encuentran entre cero (0) e infinito po-
sitivo. El valor que determina el ajuste perfecto entre los datos y el modelo es
1. Los valores muy inferiores a 1 indican dependencia de los datos (paradoja
de atenuacin); valores superiores a 1 indican ruido en la informacin; valores
superiores a 2 indican que el ruido es mayor que la informacin til.
-- Criterio de aceptacin: valores de ajuste entre 0.8 y 1.2.
-- Clculo: se basa en la suma de los cuadrados de los residuos estandarizados.
Esta suma se aproxima a una distribucin chi cuadrado. Dividiendo esta suma
por sus grados de libertad se obtiene un valor esperado de 1 y rango entre
cero e infinito.
-#
T T
IT03
1
-###
IT09
-###### S
IT14
IT11
0 -######## M IT01 IT12
IT05 IT06
-############
M S
IT04
-########## ##
-1
IT06
-########### S
-2
-####
T
-3 -#
<less> <frequ>
EACH # IS 16-
IDEICE 2014 29
-- Justificacin de uso: permite contrastar la dificultad de los tems en una po-
blacin particular y determinar si stos se ajustan a la poblacin; igualmente,
es posible observar el cubrimiento de las habilidades por parte de los tems.
Permite identificar grupos de tems o de personas que por su nivel de dificul-
tad o habilidad, respectivamente, merezcan una atencin especial en el an-
lisis. Pueden ser contrastadas las expectativas de los constructores de tems,
en relacin con el nivel de dificultad de los tems, as como si la muestra se-
leccionada se comporta de acuerdo con los propsitos del diseo muestral.
-- Interpretacin: las habilidades y las dificultades se presentan en una escala
que oscila entre menos infinito y ms infinito. Si la distribucin de habilida-
des tiene valores inferiores a la distribucin de dificultades, quiere decir que
para ese grupo poblacional los tems resultaron difciles. Por el contrario, si la
distribucin de habilidades tiene valores superiores a la distribucin de difi-
cultades, significa que para ese grupo poblacional los tems resultaron fciles.
-- Criterio de aceptacin: se espera que las distribuciones de habilidades y di-
ficultades tengan posicin y dispersin semejantes entre s. De esta manera
se entiende que el grupo de preguntas analizado cubre la totalidad de las
habilidades de la poblacin. Si las distribuciones no son semejantes, las dife-
rencias deben ser interpretadas a la luz de los marcos tericos de las pruebas
y del propsito del estudio SERCE.
En consideracin a que el diseo del estudio contempla que los instrumentos (pruebas) es-
tn conformados de acuerdo con agrupaciones de tems en bloques, aplicados de manera
sistemtica en cuadernillos editados con arreglos distintos de dichos bloques, el anlisis de
tems debe incluir una fase de anlisis de indicadores estadsticos que den cuenta del com-
portamiento de tales agrupaciones.
En tal sentido, a continuacin se describen los indicadores propuestos para el anlisis de blo-
ques; es de anotar que dado que la aceptacin o rechazo de tems se hace con base en sus
indicadores individuales, para los indicadores de grupos de tems no se define un criterio de
aceptacin.
PROMEDIO
-- Definicin: promedio de las dificultades de los tems del bloque y de las habi-
lidades de las personas que abordan el bloque.
-- Justificacin de uso: permite conocer el comportamiento del bloque en dife-
rentes grupos poblacionales, en relacin con la posicin de dicho bloque en
distintos cuadernillos. Tambin permite observar el comportamiento relativo
de los distintos grupos poblacionales, de acuerdo con el diseo muestral.
-- Interpretacin: si el bloque se encuentra ajustado a la poblacin, el prome-
dio de habilidades debe ser aproximadamente igual al promedio de dificul-
tades. Si el promedio de habilidades es superior, significa que el bloque fue
relativamente fcil para ese grupo poblacional; si por el contrario el promedio
de habilidades es inferior al promedio de dificultades, significa que el bloque
fue relativamente difcil para ese grupo poblacional. El porcentaje de respues-
tas correctas aporta al anlisis intrabloque en cuanto constituye un indicador
general de la manera en que los evaluados abordaron cada bloque.
DESVIACIN ESTNDAR
11 AERA, APA, NCME. (1999). Standards for educational and psychological testing. Washington: AERA.
IDEICE 2014 31
-- Justificacin de uso: permite valorar la homogeneidad/heterogeneidad de
los valores de dificultad del grupo de tems de un bloque, as como de los va-
lores de habilidad del grupo poblacional que aborda dicho bloque.
-- Interpretacin: desviaciones estndar altas (superiores a 1 en valores logit)
indican heterogeneidad del grupo de datos; desviaciones estndar bajas (in-
feriores a 1 en valores logit) indican homogeneidad del grupo de datos. Esta
informacin se contrasta con el respectivo valor del promedio para compren-
der el desempeo de una poblacin particular.
CONFIABILIDAD
En el mercado se cuenta con oferta considerable de software que opera con los supuestos
de la Teora de Respuesta al tem y que implementa las funciones matemticas de sus di-
ferentes modelos, enunciados en el epgrafe anterior de este texto. La diferencia entre un
software y otro, ya sea que estn o no inspirados en un mismo modelo, radica principal-
mente en aspectos como el tamao poblacional y la longitud de los instrumentos que les
es posible procesar, en la formulacin matemtica particular que implementan y, quizs lo
ms importante, desde el punto de vista de un proceso de evaluacin, en la confiabilidad
(precisin) de los datos que arroja.
Se revisamos las distintas caractersticas tcnicas (la cantidad de indicadores que reporta
el software y la precisin en la estimaciones de los mismos; la cantidad de datos que tiene
capacidad de analizar; los requerimientos de conformacin de bases de datos; la conver-
gencia en las estimaciones y la interfase grfica) de programas de software disponibles en
el mercado, tales como Bilog MG, Multilog, Parscale, Rascal y Winsteps se puede llegar a la
conclusin que este ltimo ofrece las mayores ventajas para el procesamiento de datos de
una prueba.
Winsteps es un software que opera en plataforma windows y que implementa los principios
de la Teora de Respuesta al tem para construir mediciones objetivas a partir de una base
de datos sencilla en la cual se especifican personas (evaluados) y sus respuestas a un grupo
de tems.
Puede trabajar de manera simultnea con varios formatos de tems (dictomos, de seleccin
mltiple con nica y con mltiple respuesta y de crdito parcial); ofrece gran variedad de
reportes tabulares y con interfases grficas, en los cuales se presenta de manera detallada
y tambin resumida, el comportamiento de las poblaciones y de los tems analizados. Una
caracterstica importante es que el software seala con claridad los datos que presentan
comportamientos por fuera de lo esperado. Los datos missing no son un problema para las
estimaciones que realiza este software.
Winsteps puede procesar hasta 10.000.000 de personas y 30.000 tems y cada tem puede
contemplar hasta 255 categoras de calificacin (el de mayor capacidad, para tems y ca-
tegoras, en el mercado). El software tiene un manual detallado para orientar su uso y la
interpretacin de la informacin que arroja; la firma Winsteps ofrece apoyo tcnico en lnea,
oportuno y eficaz, para solventar inquietudes tanto de procesamiento como de interpreta-
cin de datos.
IDEICE 2014 33
Ejemplos de algunas salidas grficas de este software
0 Series1
-3 -2 -1 0 1 2 3
-1
-2
-3
-4
En este caso la interpretacin del grfico consiste en que no se cumple el supuesto de uni-
dimensionalidad pues cada conjunto de tems est midiendo un rasgo latente diferente.
Cada modelo tiene una curva caracterstico, la curva ideal (aparece con color rojo en el grfi-
co que aparece a continuacin). El elemento que se necesita contrastar en una medicin es
la curva real del tem (aparece en color azul) contra el modelo previsto terico. Hay un grado
de diferencia entre el comportamiento real de las personas y la curva ideal del modelo.
Las lneas grises representan los niveles extremos. Se espera que la azul si es perfecta se
superponga sobre la roja y que en ningn caso se salga fuera de las curvas extremas.
0.666667
Expected Score
0.333333
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
Measure
En el caso del tem representado en el grfico anterior, solo se sale de la franja para estudian-
tes de habilidad entre 2 y -1.
1.IT01
0.666667
Expected Score
0.333333
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
Measure
En el caso del tem representado en el grfico anterior, este se ajusta totalmente al modelo
ideal, pues se mantiene dentro de la franja marcada por las curvas grises. Ello significa que
el mismo cumple el supuesto de la curva caracterstica del tem.
IDEICE 2014 35
5.IT06
1
0.666667
Expected Score
0.333333
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
Measure
Resulta evidente que el tem representado en el grfico anterior, no cumple con el supuesto
de la CCI para estudiantes de niveles intermedio de habilidad.
100 + 1 1 +
96 + . . . . . . . . +
F 92 + . . . . +
R 88 + . . . +
E 84 + . . +
Q 80 + . * +
U 76 + . +
E 72 + . +
N 68 + . * +
C 64 + 1. +
Y 60 + . +
56 + . +
O 52 + 1 . +
F 48 + . . +
44 + . +
R 40 + 1 . +
E 36 + . +
S 32 + . +
P 28 + . . +
O 24 + .1 +
N 20 + . . +
S 16 + . * +
E 12 + . . . +
% 8 + . . *. +
4 + . . . . . . . . +
0 +. +
++ - - - - - - -+- - - - - - - +- - - - - - - -+ - - - - - - -+ - - - - - - - + - - - - - - - + - - - - - - -+ - - - - - - - ++
-4 -3 -2 -1 0 1 2 3 4
ESTUDIANTE MEASURE
IDEICE 2014 37
EMPIRICAL CODE FREQUENCIES: 2 : 1. IT01
++- - - - - - - +- - - - - - - +- - - - - - - + - - - - - - - + - - - - - - -+ - - - - - - - + - - - - - - -+ - - - - - - - ++
100 + . +
96 + . . . . . . . . +
F 92 + . . . . +
R 88 + . . . +
E 84 + . . +
Q 80 + . . +
U 76 + . +
E 72 + . . +
N 68 + . +
C 64 + . +
Y 60 + . +
56 + . +
O 52 + . . +
F 48 + . +
44 + . +
R 40 + . +
E 36 + . +
S 32 + 2 . . +
P 28 + 2 2 2 . +
O 24 + 2 2 2 . +
N 20 + 2 . . +
S 16 + 2. . +
E 12 + . . . +
% 8 + . . . . +
4 + . . . . . . . . +
0 + .+
++ - - - - - - - +- - - - - - - +- - - - - - - -+ - - - - - - - + - - - - - - -+ - - - - - - - + - - - - - - - + - - - - - - - ++
-4 -3 -2 -1 0 1 2 3 4
ESTUDIANTE MEASURE
100 + . +
96 + . . . . . . . . +
F 92 + . . . . +
R 88 + . . . +
E 84 + . . +
Q 80 + . . +
U 76 + . +
E 72 + . . +
N 68 + . +
C 64 + . +
Y 60 + . +
56 + . +
O 52 + . . +
F 48 + . +
44 + . +
R 40 + . +
E 36 + 3 . +
S 32 + . . +
P 28 + . +
O 24 + . +
N 20 + 3 3 . . +
S 16 + 3 . . +
E 12 + . . . +
% 8 + 3 3 . . . . +
4 + . . . . . . . . +
0 + 3 .+
++ - - - - - - - +- - - - - - - +- - - - - - - -+ - - - - - - -+ - - - - - - -+ - - - - - - - + - - - - - - -+ - - - - - - - ++
-4 -3 -2 -1 0 1 2 3 4
ESTUDIANTE MEASURE
IDEICE 2014 39
EMPIRICAL CODE FREQUENCIES: 4 : 1. IT01
++- - - - - - - +- - - - - - - +- - - - - - - + - - - - - - -+ - - - - - - -+ - - - - - - -+ - - - - - - - + - - - - - - -++
100 + . +
96 + . . . . . . . . +
F 92 + . . . . +
R 88 + . . . +
E 84 + . . +
Q 80 + . . +
U 76 + . +
E 72 + . . +
N 68 + . +
C 64 + . +
Y 60 + . +
56 + . +
O 52 + . . +
F 48 + . +
44 + 4 . +
R 40 + . +
E 36 + 4 4 . +
S 32 + . . +
P 28 + 4 . +
O 24 + 4 . +
N 20 + . . +
S 16 + . . +
E 12 + . . . +
% 8 + 4 4 . . . . +
4 + 4 4 . . . . . . . . +
0 + .+
++ - - - - - - - +- - - - - - - +- - - - - - - -+ - - - - - - -+ - - - - - - -+ - - - - - - - + - - - - - - -+ - - - - - - - ++
-4 -3 -2 -1 0 1 2 3 4
ESTUDIANTE MEASURE
IDEICE 2014 41