Você está na página 1de 12

1 2

PSICOMETRIA I Entre las principales limitaciones de la TC se pueden


exponer las siguientes:
Tema VI: TEORA DE LA RESPUESTA AL TEM a) La principal limitacin consiste en que las
caractersticas del test y las puntuaciones de las personas no
pueden ser separados: Se define la puntuacin de una persona como
1 Introduccin el nmero de preguntas que acierta, y la dificultad de un tem
2 Curva caracterstica del tem como la proporcin de personas que lo responden correctamente en
3 Supuestos un determinado grupo. Esto tiene una serie de consecuencias
4 Estimacin del nivel de habilidad negativas:
5 Funcin de informacin
6 Aplicaciones - Las caractersticas de los tems dependen del grupo de
7 Bibliografa personas en el que se han aplicado. Por ejemplo, supongamos que
8 Problemas y cuestiones queremos conocer el ndice de dificultad de un determinado tem
que mida conocimientos de tauromaquia. Dicho ndice ser muy
diferente si utilizamos en la baremacin un grupo de personas
V. Ponsoda abonadas a la feria de San Isidro o un grupo de turistas
J. Olea japoneses.
J. Revuelta
- La puntuacin de una persona depende del conjunto
particular de tems administrados. La puntuacin que una persona
Facultad de Psicologa. UAM. Enero-1998 obtenga ser diferente si le aplicamos dos tests que midan la
misma caracterstica pero cuyo nivel de dificultad sea diferente.
Esto hace muy difcil comparar dichas puntuaciones, que slo
ooOOOOoo podrn interpretarse en relacin al test en el que fueron
obtenidas.
1 Introduccin Frente a la TC, una de las propiedades de la TRI es su
invarianza, en un doble sentido: invarianza de los tems respecto
La Teora de la Respuesta al Item (TRI) constituye un nuevo a posibles diferentes distribuciones de la habilidad, e
enfoque en Psicometra que permite superar algunas de las invarianza de la habilidad medida a partir de diferentes
limitaciones de la Teora Clsica de los tests (TC). conjuntos de tems. Haremos un breve comentario sobre cada tipo
de invarianza. Si las condiciones de aplicacin de la TRI se
Su propsito es similar al de la Teora clsica. Pretende cumplen, ha de ocurrir lo siguiente:
obtener la puntuacin que corresponde a una persona en una
dimensin o rasgo, como su inteligencia, su nivel en un cierto - Sea cual sea la distribucin de los niveles de rasgo
rasgo de personalidad, su dominio en una cierta materia, etc.. obtendremos las mismas estimaciones de los parmetros de los
tems. Esta propiedad se cumple tambin en otros mbitos. Por
La TRI debe su nombre a que se centra ms en las propiedades ejemplo, en Estadstica, si se cumplen los supuestos de la
de los tems individuales que en las propiedades globales del regresin lineal, se llega a los mismos parmetros cuando se
test, como haca la TC. ajusta la recta de regresin a toda la poblacin o slo a parte
de ella. Anlogamente, los parmetros de los tems debern ser
Este captulo es slo una breve introduccin a la TRI. Lo los mismos si stos se han aplicado a un grupo de personas con
que vamos a estudiar slo es aplicable a tems que puedan alto nivel de rasgo, o a un grupo con niveles bajos. Es decir,
cuantificarse como cero o uno. La TRI permite tambin el anlisis los parmetros de los tems sern los mismos sea cual sea la
de tems con otros formatos de respuesta (por ejemplo, las distribucin de los niveles de habilidad de la muestra en los que
categoras ordenadas), pero tales desarrollos no son tratados en se han aplicado.
estas lneas.
- El nivel de habilidad de una persona puede ser obtenido a
Buena parte de la Psicometra actual est relacionada con la partir de conjuntos de tems distintos. Algunas de las
TRI y es muy abundante la bibliografa existente. Las personas aplicaciones de la TRI descansan precisamente en esta propiedad
interesadas en ampliar conocimientos, pueden consultar los libros (vase ms adelante el apartado "Aplicaciones").
de Muiz (1990), Hambleton, Swaminathan y Rogers (1991) y
Hambleton y Swaminathan (1985). No hemos basado principalmente en b) Una segunda limitacin tiene con ver el error de medida.
los dos primeros para redactar este tema. La TC supone que el error de medida es una propiedad del test y,
por lo tanto, igual para todos los sujetos, independientemente de
3 4
cual sea su puntuacin. Por el contrario, la TRI permite obtener GRFICA 1
la precisin con la que cada persona es medida.

La TRI permite superar estas y otras limitaciones de la TC


mediante unos supuestos fuertes y restrictivos, y una metodologa
ms compleja, que requiere establecer modelos matemticos, la
estimacin de sus parmetros, enjuiciar el ajuste entre datos y
modelos, etc..

Antes de ver cuales son los supuestos, vamos a estudiar los


principales modelos de la TRI.

2 Curva caracterstica del tem

La curva caracterstica de un tem (CCI) indica la


probabilidad que tienen de acertarlo las personas que se
enfrentan a l. Esta probabilidad depende, naturalmente, de cual
sea el nivel de la persona en la variable medida.
Podemos ver esto con ms claridad mediante un ejemplo.
Supongamos que tenemos un test que mide inteligencia y que ha
sido aplicado a muchsimas personas (100.000, por ejemplo).
Supongamos que la menor y mayor puntuacin obtenidas en el test
son 80 y 120. Vamos a representar el rendimiento en un tem
concreto de la siguiente forma: Nos fijamos en todas las personas
que han obtenido la puntuacin 80 (supongamos que son 132). Vemos
cuantas personas de las anteriores han acertado el tem
(supongamos que han sido slo 2) y calculamos la proporcin En este ejemplo podemos ver que cuanto mayor es el cociente
(2/132 = 0.02). Hacemos lo mismo con los que obtuvieron en el intelectual de las personas, mayor es la probabilidad de acertar
test 81 puntos (y obtenemos la proporcin, supongamos que el tem. A una puntuacin de 100 le corresponde una probabilidad
0.02),... con las que obtuvieron en el test 100 (la proporcin de acertar de 0.5; mientras que a una de 120 le corresponde una
fue 0.50),... con las que obtuvieron 120 (la proporcin fue probabilidad de 0.99.
0.99). La siguiente grfica muestra la proporcin de acertar el
tem dentro de cada grupo de personas. En la grfica 1 tenemos una CCI emprica, pero la TRI
necesita resumir la informacin que contiene cada CCI emprica en
una frmula o modelo en el que uno, dos o tres valores resuman la
informacin contenida en la CCI emprica. En la aplicacin de de
la TRI, un paso inexcusable es optar por un modelo (o frmula)
que sea una buena descripcin del rendimiento en los tems. Vamos
a ver a continuacin que son varios los modelos que podran dar
cuenta de una distribucin como la mostrada en la grfica 1. Los
modelos de CCI ms utilizados en la prctica son los logsticos
de uno, dos y tres parmetros.
5 6
2.1 - Modelo logstico de un parmetro (modelo de Rasch) GRFICA 2

Este es el modelo ms simple de todos. Se le llama tambin


modelo de Rasch. La probabilidad de acertar un tem depende
solamente del nivel de dificultad de dicho tem y del nivel del
sujeto en la variable medida (nivel de habilidad).

La expresin matemtica es:


D( -b)
P( ) = e D( -b)
1 +e
Donde:
P() : Probabilidad de acertar el tem.
: Nivel de habilidad del sujeto.
b : Indice de dificultad del tem.
e : Base de los logaritmos neperianos (2.718)
D : Constante (D = 1.7)

El nivel de habilidad del sujeto () puede definirse en


cualquier escala (en la grfica 1 se ha utilizado la escala de
cociente intelectual). No obstante, en la prctica, suele
utilizarse una escala tpica, con media cero, varianza uno y un
rango de valores entre -3.0 y 3.0.

El ndice de dificultad (b) es aquel valor de para el cual


P()= 0.5. Por tanto, cuanto mayor sea "b" ms difcil es el
tem. En la grfica 2, se han representado dos CCIs. En la 2.1 - Modelo logstico de dos parmetros
primera, la que est ms a la izquierda, el valor de al que
Este modelo aade al anterior un segundo parmetro que
corresponde P()= 0.5 es aproximadamente -0.75. Por lo tanto, la indica la capacidad discriminativa del tem:
dificultad del primer item es b1= -0.75. En el segundo tem, el
valor de al que corresponde P()= 0.5 es aproximadamente 1. Por Da( -b)
lo tanto, la dificultad del segundo tem es b2= 1. La grfica P( ) = e Da( -b)
muestra que la probabilidad de acertar el tem es 1 +e
sistemticamente menor en el tem 2 que en el tem 1. El tem 2
es ms difcil que el uno, y sus ndices de dificultad as lo
muestran (b2 > b1). Donde a" es el ndice de discriminacin del tem.

El parmetro "a" indica la mayor o menor inclinacin o


pendiente de la CCI cuando =b. Normalmente los valores de "a"
oscilan entre 0,3 y 2.5, y se suelen considerar items
"discriminativos" los que tienen valores "a" mayores de uno.
En la grfica 3 vemos la CCI de dos tems de igual
dificultad (b1=b2= 0.75), la principal diferencia entre ellos es
que el tem 2 (el de la derecha), cuando = 0.75, tiene una
pendiente mucho mayor (a2= 2.4) que la del tem 1 (a1= 0.4). Como
la pendiente es tan alta, las personas con > 0.75 tienen casi
todas ellas una muy alta probabilidad de acertar el tem 2 (y
casi todas ellas lo acertarn), y las personas con < 0.75
tienen casi todas ellas una probabilidad prxima a cero de
acertarlo (y casi ninguna lo acertar). Por lo tanto, el tem 2
discrimina entre los que tienen > 0.75 y los que tienen
7 8

< 0.75. 2.3 - Modelo logstico de tres parmetros

Por su parte, el tem 1 tiene muy poca pendiente cuando = Este modelo aade a los dos parmetros "a" y "b" un tercero,
0.75. En consecuencia, aunque la mayora de las personas con > "c", que representa la probabilidad de acertar el tem al azar.
Exactamente "c" es el valor de P(Z) para valores extremadamente
0.75 lo acertarn, muchas lo fallarn (pues la probabilidad de
acierto es claramente inferior a uno). Igualmente, aunque la bajos de .
mayora de las personas con < 0.75 fallarn el tem, muchas lo La expresin matemtica es la siguiente:
acertarn, pues la probabilidad de acierto es claramente superior
(1 - c) eDa( -b)
a cero. En el tem 1 la probabilidad crece muy suavemente a P( ) = c +
medida que aumenta por lo que no es buen discriminador entre 1 + eDa( -b)
las personas con > 0.75 y las que tienen < 0.75.
En la grfica 4 podemos ver la CC de varios tems con
distinto parmetro "c".
GRFICA 3
GRFICA 4
9 10
3 Supuestos de la TRI Por ejemplo, un test consta de dos tems y la probabilidad
de que Juan acierte el primero es P1 = 0.4 y la de que acierte el
3.1 - Unidimensionalidad segundo P2 = 0.8. El principio de independencia local establece
que la probabilidad de que acierte los dos viene dada por:
Tal y como hemos visto en el apartado anterior, en todos los (P1)(P2) = (0.4)(0.8) = 0.32.
modelos de CCIs, la probabilidad de acertar un tem depende
nicamente de sus parmetros y de . En un tem que mida el nivel La probabilidad de acertar el primero y fallar el segundo
de vocabulario de ingls, la probabilidad de acertarlo depende de sera (como Q2 = 1 - P2 = 1 - 0.8 = 0.2):
los valores "a", "b" y "c" del tem y del nivel de vocabulario
ingls de la persona (su ). La CCI excluye que el rendimiento en (P1)(Q2) = (0.4)(0.2) = 0.08.
el tem dependa de los niveles de la persona en otros rasgos ms
o menos relacionados con el de vocabulario de ingls (como el La de que falle el primero y acierte el segundo ser
nivel de ingls hablado, el nivel de gramtica inglesa, ....). De
tener en consideracin otros rasgos, en la frmula apareceran (Q1)(P2) = (0.6)(0.8) = 0.48.
los elementos 2, 3, etc.. , es decir, los niveles de la persona
La de que falle ambos tems ser
en esos otros rasgos. En otras palabras, el rendimiento en un
tem depende del nivel de la persona en un slo rasgo o (Q1)(Q2) = (0.6)(0.2) = 0.12.
dimensin.
Supongamos que 100 personas con idntico nivel de rasgo que
Un test consta de un conjunto de tems. La TRI supone adems Juan contestan al test. Espereramos aproximadamente los
que todos los tems que forman el test han de medir un mismo y siguientes resultados (1, acierto; 0, error):
nico rasgo. El supuesto de unidimensionalidad exige que todos y
cada uno de los tems del test midan una nica dimensin. item 1 item 2 nmero de personas
1 1 32
Este supuesto nunca se cumple totalmente porque el 1 0 8
rendimiento en un test est influido por variables cognitivas y 0 1 48
de personalidad, como la motivacin, ansiedad, etc. Por lo que, 0 0 12
en la prctica, es una cuestin de grado, y no puede afirmarse ------
categricamente si un conjunto de tems son o no 100
unidimensionales. Hay, no obstante, varios mtodos para comprobar
la unidimensionalidad. El propuesto por Reckase (1979) se basa en Si correlacionamos las cien respuestas al primer item con
el anlisis factorial y consiste en estudiar la varianza las cien respuestas al segundo, la correlacin de Pearson es
explicada por el primer factor extrado de la matriz de cero. Lo visto sugiere un procedimiento para contrastar si el
correlaciones entre tems. En la prctica, cuando el primer supuesto de independencia local se cumple. Consiste en obtener la
factor explica ms de un 25% de la varianza total, tras haber matriz de correlaciones entre los tems, pero no en la muestra
eliminado los tems con saturaciones inferiores a 0.10, se completa, sino en submuestras que sean lo ms homogneas posible
considera que se cumple el supuesto de unidimensionalidad. en cuanto al nivel de habilidad de sus miembros. En tales
submuestras tiene que ocurrir que ningn tem correlacione con
3.2 - Independencia local ningn otro, si se cumple el supuesto. (Hambleton y otros, 1991,
pag. 56).
Existe independencia local entre los tems de un test si la
respuesta que una persona da a uno de ellos no depende de las
respuestas que da a los otros.
La independencia local se deriva de la unidimensionalidad
porque, simplemente, significa que la respuesta a un tem slo
depende de sus parmetros y de , y no est influida por el orden
de presentacin de los tems, las respuestas que ya se hayan
dado, etc..
Matemticamente puede expresarse diciendo que la
probabilidad de que un sujeto acierte "n" tems es igual al
producto de las probabilidades de que acierte cada uno de ellos
por separado.
11 12
4 Estimacin de los parmetros
GRFICA 5
Una vez seleccionado un modelo de TRI es necesario aplicar
el test a una muestra amplia y estimar los parmetros de cada
tem y la de cada sujeto, a partir de la matriz de respuestas
obtenidas. Si tenemos, por ejemplo, diez tems que miden un mismo
rasgo, los podramos aplicar a una muestra de 300 personas. La
matriz de datos tendr 300 filas, siendo cada fila la secuencia
de unos (aciertos) y ceros (errores) de cada persona de la
muestra. Si queremos aplicar el modelo logstico de tres
parmetros, tendremos que estimar los 30 parmetros de los tems
(es decir, "a", "b" y "c" de cada tem) y 300 parmetros de las
personas (los 300 valores de "", uno por persona). La estimacin
de los parmetros es el paso que nos permite llegar de las
respuestas conocidas de las personas a los tems (la matriz
anterior), a los valores desconocidos de los parmetros de los
tems y de los niveles de rasgo.

Para obtener las estimaciones se aplica fundamentalmente el


mtodo de mxima verosimilitud. La lgica general de la
estimacin consiste en encontrar los valores de los parmetros
que hagan ms probable la matriz de respuestas obtenida.
Si lanzamos una moneda diez veces y obtenemos siete caras,
el estimador mximo-verosmil del parmetro "p" (probabilidad de
cara de la moneda) es 7/10= 0.7, como se demuestra en los libros
de Estadstica (vase Amn (1984), pag. 249 y ss). El resultado
"siete caras en diez lanzamientos" es poco compatible con que la
probabilidad de cara sea 0.1, 0.2, ... . De hecho, la
probabilidad de obtener siete caras y tres cruces es Si slo hubiera respondido a ese tem, a partir de la
prcticamente cero si p= 0.1 o si p= 0.2. Dicha probabilidad pasa
a ser 0.117 si p= 0.5, y alcanza el mximo valor (0.267) cuando grfica anterior podemos ver que no existe un nico valor de
p= 0.7. El estimador mximo-verosmil proporciona el valor de "p" para el que la probabilidad del suceso encontrado (acierto en el
bajo el que tiene mxima probabilidad el suceso que hemos primer tem) sea mxima. Por el contrario, son infinitos los
encontrado. valores de que para los que la CCI alcanza el valor mximo 1.

En TRI, el procedimiento de estimacin sigue una lgica Como el sujeto ha fallado el segundo tem, a partir de su
similar. Se obtienen las estimaciones de los parmetros y de los CCI podemos calcular la probabilidad de que esto ocurra para cada
niveles de con los que la matriz de datos encontrada tiene la uno de los valores de . En concreto, como la probabilidad de
mxima compatibilidad. fallar (Q) se puede obtener a partir de la probabilidad de
acertar (Q = 1-P), podremos representar la probabilidad de error
Supongamos, por ejemplo, que tenemos un test compuesto por en el segundo tem como se muestra en la siguiente grfica.
tan slo dos tems, y se lo aplicamos a un sujeto. Supongamos Ntese que la siguiente grfica no es la CCI del tem 2, pues
tambin que acierta el primero y falla el segundo. A partir de para cada valor de se ha representado la probabilidad de error
estas respuestas, la estimacin mximo-verosmil de su se puede y no la de acierto, como exige la CCI.
explicar de forma grfica como lo hacemos a continuacin (en este
ejemplo, para simplificar la explicacin, suponemos que los
parmetros de los tems son conocidos).
Como el sujeto ha acertado el primer tem, podemos calcular,
mediante su CCI (recurdese que los parmetros del tem son
conocidos), la probabilidad de que esto ocurra para cada nivel de
. Grficamente:
13 14
GRFICA 7
GRFICA 6

Esta grfica nos indica que es ms probable que fallen el


tem los sujetos con niveles bajos de habilidad que los sujetos En este caso vemos que la que hace ms probable el
con niveles altos (cosa bastante lgica). Por lo tanto, si el resultado obtenido (acierto en el primer tem y fallo en el
sujeto slo hubiese respondido a este tem, de nuevo son segundo) es 0. Por lo tanto, 0 ser la estimada para este
infinitos los valores de que maximizan la probabilidad del sujeto.
suceso encontrado (error en el segundo tem).

Como de hecho ha respondido a dos tems, el valor estimado En general, una persona responder a un nmero de tems
de para este sujeto sera aquel que haga ms probable el mayor de dos y producir una particular secuencia de unos y
resultado obtenido (acertar el primer tem y fallar el segundo). ceros. La probabilidad de obtener tal secuencia de aciertos y
Segn el supuesto de independencia local, ambos sucesos son errores se puede escribir como:
independientes y, por lo tanto, la probabilidad de que ocurran
ambos conjuntamente es igual al producto de las probabilidades de L = P R Q1- R
acertar el primero (P1) por la de fallar el segundo (Q2). Si
representamos grficamente la funcin L = (P1)(Q2) para cada Donde:
valor de , correspondiente al ejemplo que venimos comentando,
obtendramos una curva parecida a la siguiente: R: Resultado en cada tem (1, acierto; 0, fallo)
P: Probabilidad de acierto en cada tem
Q: Probabilidad de error en cada tem (Q= 1-P).

La estimada por el mtodo de mxima verosimilitud ser el


valor de para el que la anterior expresin alcanza su mximo
valor.

Apliquemos lo anterior al siguiente ejemplo. Un test consta


de 4 tems, cuyos parmetros, segn el modelo de Rasch, son -1,
0, 1 y 2. Una persona completa el test y acierta los tres
15 16
primeros tems y falla el cuarto. Obtenga el valor de la funcin En la Teora Clsica, una vez aplicados unos tems a un
de verosimilitud L para los siguientes valores de : -3, -2, -1, conjunto de personas, se puede obtener la puntuacin de cada
0, 1 y 2. _Cul de los anteriores valores maximiza L? persona en el test combinando las puntuaciones en los tems del
test. En la TRI, una vez que se han aplicado los tems, se genera
Aplicando la frmula del modelo de Rasch (o de un la matriz de respuestas que contiene los aciertos y fallos de
parmetro),vista en la pgina 4, se obtiene la probabilidad de cada persona en cada tem del test. A continuacin, se ha de
aplicar un programa de ordenador (ASCAL, BILOG,..) que nos dar
acierto para cada tem y cada uno de los valores de : los niveles de rasgo y los parmetros de los tems. Segn hemos
visto, por tratarse de estimaciones por el mtodo de mxima
P() verosimilitud, los valores que nos da el programa son los que
-------------------------------------- hacen ms plausible la matriz de datos original, son los ms
tems b -3 -2 -1 0 1 2 3 compatibles con la matriz de datos original.
1 -1 0.03 0.15 0.50 0.85 0.97 0.99 0.99
2 0 0.01 0.03 0.15 0.50 0.85 0.97 0.99
3 1 0.01 0.01 0.03 0.15 0.50 0.85 0.97 5 Funcin de informacin
4 2 0.01 0.01 0.01 0.03 0.15 0.50 0.85
Una vez aplicado un conjunto de tems y estimado el nivel de
habilidad de un sujeto, la TRI nos permite calcular el error
La funcin de verosimilitud, L, al haber acierto en los 3 tpico de estimacin (Se) de esa persona en el test aplicado.
primeros tems y fallo en el ltimo, ser la siguiente: Esto es una diferencia fundamental con la TC, que asume que el
1 0 1 0 1 0 0 1 error es el mismo para todos los sujetos.
L =(P1 Q1 )(P2 Q2 )(P3 Q3 )(P4 Q4 )= (P1)(P2)(P3)(Q4)
El error tpico de estimacin nos dice la precisin con que
Aplicando la frmula anterior a cada uno de los valores de hemos estimado . A mayor error, menos precisin. Su tamao
se obtienen los siguientes resultados: depende de varios factores:
L(3) = (0.99)(0.99)(0.97)(1-0.85) = 0.14 1- Nmero de tems aplicado: En general, al aumentar la
L(2) = (0.99)(0.97)(0.85)(1-0.50) = 0.41 longitud del test disminuye Se.
.
. 2- La capacidad discriminativa de los tems: Al aumentar el
. parmetro "a" disminuye Se.
Los restantes valores de L son L(1)= 0.35, L(0)= 0.06, L(-1)
= L(-2) = L(-3) = 0.0. Por lo tanto, de los siete valores de 3- La diferencia entre "b" y : Cuanto ms prximo a est
considerados, el valor que maximiza L es = 2. el ndice de dificultad de los tems (b), menor ser Se.

Cuando se trata de estimar en una situacin real el nivel de La varianza de las puntuaciones estimadas, Var(), se
rasgo, no se hace una bsqueda restringida a unos cuantos obtiene mediante la expresin siguiente:
valores, se necesita hallar el valor de que maximiza L de entre
los posibles valores, no slo de entre unos pocos. 1
Var( ) = S e2 =
(P )2
En el caso de la TRI no existen frmulas que permitan
obtener las estimaciones de manera directa. En el ejemplo de las PQ
monedas se sabe que el estimador mximo-verosmil de la
proporcin poblacional es la proporcin muestral. En la TRI, al Donde P' es la derivada de P. La varianza anterior nos dice
no existir tales frmulas, las estimaciones se obtienen por cmo es de importante la variacin entre los valores de
mtodos numricos, mediante programas de ordenador. En el caso estimados y el valor verdadero de . Cuanto menor sea esta
ms general se establece una funcin L que depende de los varianza, indicar que ms nos podemos fiar del test; pues
parmetros de los tems y de los niveles de rasgo. Los programas sabemos que son pocas las diferencias entre los valores estimados
de ordenador contienen algoritmos que encuentran el conjunto de y el verdadero.
estimaciones para el que la funcin L alcanza el valor mximo.
Los parametros de los items y los niveles de rasgo de las
personas sern los valores dados por el programa de ordenador Por su parte, el error tpico de estimacin de es la
para una matriz de respuestas particular. desviacin tpica de las puntuaciones estimadas, es decir,
17 18

2
Se = Se
GRFICA 8
El error tpico de estimacin permite obtener el intervalo
confidencial en el que, con probabilidad predeterminada, se ha de
encontrar el nivel de habilidad de la persona. En concreto, si a
la "" estimada de una persona le sumamos y restamos (1.96)Se,
obtenemos los extremos del intervalo en el que, con probabilidad
0.95, se encontrar su verdadero nivel de rasgo.

Por ejemplo, si la estimada es 0.8 y su error tpico de


estimacin es 0.22, entonces, el nivel de rasgo de dicha persona
se encuentra entre 0.37 (pues 0.8-(1.96)(0.22)= 0.37) y 1.23
(pues 0.8+(1.96)(0.22) = 1.23), con probabilidad 0.95.

La funcin de informacin del test aplicado se define como


la inversa de Var(), es decir:
1
I( ) = 2
Se

Por lo tanto,
(P )2
I( ) =
PQ

Cuanto mayor sea I() menor ser Se y, por tanto, mayor la


precisin de la estimacin de .
Vemos que este test aporta ms informacin para valores de
Si se calcula I() para todos los niveles de y se en torno a 1.
representa grficamente se obtiene una curva como la que muestra
la siguiente grfica: La FI tiene una gran importancia en la utilizacin de los
tests, ya que nos permite elegir aquel que aporte ms informacin
en el intervalo de que estemos interesados en medir.

Tambin es muy til en la construccin del test. A partir de


un banco de tems calibrados (es decir, de los que hemos estimado
sus parmetros) podemos seleccionar aquellos que permitan que la
FI se ajuste a unos objetivos determinados.

Todos los conceptos anteriores referidos a la funcin de


informacin del test son aplicables tambin a cada uno de los
tems por separado. De hecho la FI del test no es ms que la suma
de las FFII de cada uno de los tems que lo componen. En concreto
la FI de un tem sera:
(P )2
I( ) =
PQ
Vemos que la nica diferencia con la FI del test es que ha
desaparecido el signo de sumatorio.

Al igual que con el test completo, podemos representar


19 20

grficamente la FI de los tems y ver a que nivel de b) Estimacin del nivel de rasgo de la persona.
proporcionan ms informacin. c) Bsqueda del tem del banco ms informativo para el nivel
de estimado en el paso precedente.
d) Aplicacin del tem elegido.
GRFICA 9 e) Estimacin del nivel de rasgo correspondiente a la
secuencia de respuestas dada a los tems presentados.
f) De nuevo paso "c", y as sucesivamente hasta que se haya
conseguido un error tpico de estimacin menor que un tope
preestablecido o se haya administrado un predeterminado nmero de
tems.

El principal logro de los TAIs es que con muy pocos tems


(veinte, ms o menos) se pueden conseguir precisiones en la
medicin comparables o mejores que las obtenidas en tests no
adaptativos mucho ms largos. Esto es as porque en los TAIs slo
se administran tems autnticamente informativos para determinar
el nivel de rasgo de la persona y se evitan los tems demasiados
fciles o difciles, que apenas informan sobre el nivel de rasgo.
Hemos construido un TAI de vocabulario ingls (Ponsoda, Olea y
Revuelta, 1994) y hemos obtenido que, en ocasiones, con slo diez
tems se obtiene una excelente precisin (un error tpico de
estimacin equivalente a un coeficiente de fiabilidad de 0.9).

7 Bibliografa
Esto nos permite elegir los tems ms adecuados en cada Amn J. (1984). Estadstica para psiclogos. Probabilidad.
momento en funcin de nuestras necesidades. Por ejemplo, si Estadstica Inferencial. Volumen 2. 3 edicin. Pirmide. Madrid.
queremos llevar a cabo una seleccin de personal en la que slo
vamos a elegir unos pocos sujetos muy competentes, a partir de un Hambleton R.K. y Swaminathan H. (1985). Item Response
banco de tems previamente calibrado, podramos elegir aquellos Theory: Principles and applications. Kluwer. Boston.
tems que proporcionan ms informacin para niveles altos de .
Esto nos permite reducir enormemente el nmero de tems de un Hambleton R.K, Swaminathan H. y H.J. Rogers (1991).
test sin perder precisin al estimar . Fundamentals of Item Response Theory. MMSS volumen 2. Sage.
Londres.

6 Aplicaciones Lpez Pina, Jos Antonio (1995). Teora de la respuesta al


tem: fundamentos. PPU. Barcelona.
La TRI ha permitido la elaboracin y el desarrollo de tests
adaptativos informatizados (TAIs) (vase Renom, 1993). Tales Muiz Fernndez J. (1997). Introduccin a la Teora de
tests difieren sustancialmente de los tests al uso. Un TAI consta Respuesta a los Items. Pirmide. Madrid.
de un banco de tems bien calibrado y de un programa de ordenador
encargado de decidir qu tem del banco presentar a la persona, Ponsoda V., Olea J. y Revuelta J. (1994). ADTEST: A computer
de presentrselo, de analizar la respuesta emitida por la adaptive test based on the maximum information principle.
persona, de elegir un nuevo tem del banco, etc.. Educational and Psychological Measurement, 57, 2, 210-221.

Un TAI difiere muchsimo de un test de lpiz y papel. Una Reckase M.D. (1979). Unifactor latent trait models applied
primera diferencia es que es administrado por un ordenador y una to multi-factor tests: Results and implications. Journal of
segunda es que cada persona es evaluada con items distintos. Sin Educational Statistics, 4, 207-230.
embargo, lo fundamental de los TAIs es que los tems son elegidos
con el criterio de estimar el nivel de habilidad de la persona Renom J. (1993). Tests adaptativos computerizados.
con la mxima precisin y menor nmero de tems. Ms en concreto, Fundamentos y aplicaciones. PPU. Barcelona.
un TAI procede como se expone a continuacin:
a) Presentacin del primer tem. 8 Problemas y cuestiones
21 22

de Antonio, sabiendo que su est entre 1.12 y 2.10, con


1) Dos tems han sido calibrados con el modelo logstico de probabilidad 0.95.
dos parmetros. Sus parmetros son a1=1 y b1= 0.5, y a2= 0.5 y
b2= 2.5. 7) Pasados varios tems, un TAI estima a una persona una
1.1) Qu item de los dos es ms fcil? de 0.5. Los parmetros de dos tems que todava no han sido
1.2) Qu item es ms discriminativo? aplicados son los siguientes: a1= 1, b1= 0.5, a2= 2 y b2= 1. Si
1.3) Una persona cuya = 2 responde a los dos tems (y se el TAI ha de suministrar un tem de estos dos Cual
cumple el supuesto de independencia local) Cual es la suministrara? (La derivada P' correspondiente al modelo
probabilidad de que falle los dos? Cual la de que acierte los logstico de dos parmetros es P'= DaPQ).
dos? Cual la de que acierte uno y falle el otro?
8) El nivel de rasgo de una persona es 1 (es decir, = 1).
2) Aplicamos tres tems a 5 personas y sus respuestas han Aplicando el modelo logstico de dos parmetros obtenemos
sido las siguientes (1, acierto; 0, error): las CCIs de dos items. La probabilidad de acierto en el item 1
(a1= 1 y b1= 0.5) coincide con su probabilidad de acierto en el
Persona item 1 item 2 item 3 item 2 (a2= 2, b2 no conocido). Obtenga cuanto vale b2.
1 1 0 1
2 1 1 0 9) Tenemos tres items. La probabilidad de acierto, en cada
3 1 1 0 uno de ellos, que corresponde a cada uno de los siguientes
4 1 0 0 valores de se ofrece a continuacin:
5 0 1 1
Procedemos a la estimacin conjunta de los parmetros de los
tems y de los niveles de rasgo de las cinco personas. P()
-----------------------------------------
2.1) Todas las personas menos la nmero cuatro tienen dos -3 -2 -1 0 1 2 3
aciertos, por lo tanto todas ellas menos la cuatro debern item 1 0.1 0.15 0.2 0.35 0.5 0.65 0.8
obtener el mismo nivel de rasgo. V( ) F( ) item 2 0.0 0.0 0.0 0.10 0.5 0.90 1.0
2.2) La dificultad del tem 1, b1, deber de ser menor que item 3 0.0 0.10 0.5 0.90 1.0 1.0 1.0
la del tem 2, b2. V( ) F( ).
2.3) El parmetro "c" deber ser 1/3, pues slo hay tres 9.1) Dibuje las tres CCIs.
tems. V( ) F( ). 9.2) Compare la dificultad y poder discriminativo de los
tems 1 y 2. Cual es ms difcil? Cual es ms discriminativo?
3) Obtenga cuanto vale la probabilidad de acertar un tem en 9.3) Compare la dificultad y poder discriminativo de los
el modelo logstico de tres parmetros cuando el nivel del tems 2 y 3. Cual es ms difcil? Cual es ms discriminativo?
habilidad de la persona coincide con la dificultad del item.
10) Un test consta de slo dos tems (a1=1, b1=0, y a2=2,
4) Los tres parmetros de un tem son a= 2, b= 1 y c= 0.2. b2=-1).
4.1) Qu probabilidad de acertar el tem tiene una persona 10.1) Obtenga la funcin de informacin del test para los
con nivel de habilidad = 0? valores de = -3, -2, -1, 0, 1, 2 y 3. (Se recuerda que en el
4.2) Puede corresponder a una persona una probabilidad de modelo logstico de dos parmetros P'= DaPQ).
acertar de 0.10 en ese tem? 10.2) Para qu valor de (de los expuestos anteriormente)
el test proporciona la mxima informacin?
5) Elegimos cien personas que tienen exactamente el mismo 10.3) Obtenga el error tpico de estimacin con el que el
nivel de rasgo. Se les pasa un tem fcil (b= -1) y lo aciertan test estimara la de una persona cuya real fuese -1.
80 de los cien. Se les pasa a continuacin un tem ms difcil
(b= 0.5) y lo aciertan 40 de los cien. Supongamos que se cumplen
los supuestos de la TRI cabe esperar que los 40 que han resuelto Soluciones:
el segundo tem, el ms difcil, hayan tambin resuelto el tem
ms fcil? 1) 1.1) El tem 1, pues b1 < b2.
1.2) El tem 1, pues a1 > a2.
6) La estimada de Andrs es 1.2 y su error tpico de 1.3) 0.367 (dos aciertos), 0.043 (dos fallos) y 0.590 (un
estimacin 0.15. acierto y un fallo).
6.1) Obtenga el intervalo en el que se encuentra la
puntuacin de Andrs con probabilidad 0.99. 2) F, V, F.
6.2) Obtenga la estimada y el error tpico de estimacin
23
3) (1+c)/2.

4) 4.1) P(0) = 0.226.


4.2) Es imposible, pues P() >= c = 0.20.

5) No. La independencia local supone que la probabilidad de


acertar ambos items ser (80/100)(40/100) = 0.32.

6) 6.1) lmite inferior: 1.2-(2.56)(0.15) = 0.816.


lmite superior: 1.2+(2.56)(0.15) = 1.584.
6.2) zeta estimada = (1.12+2.10)/2 = 1.61.
error tpico = (2.10-1.61)/1.96 = 0.25.

7) En el primer tem, P=0.5, Q=0.5, P'=0.425 e I(0.5)=0.72.


En el segundo, P=0.15, Q=0.85, P'=0.446 e I(0.5)=1.47.
El TAI aplicara el segundo tem, a pesar de que la
dificultad del primero coincide con la estimada.

8) Ha de cumplirse que a1/a2 = (-b2)/(-b1).


De donde, b2= 0.75.

9) 9.2) Misma dificultad (b1=b2=1). Ms discriminativo el


dos, pues su CCI tiene ms pendiente.
9.3) Ms fcil el item tres (b3= -1) y misma
discriminacin.
10) 10.1) En tem 1, I(-3)= 0.017, I(-2)= 0.091,
I(-1)=0.376, I(0)= 0.72, I(1)= 0.376, I(2)=0.091 e I(3)=0.017.
En tem 2, I(-3)= 0.014, I(-2)= 0.364,
I(-1)=2.89, I(0)= 0.364, I(1)= 0.014, I(2)=0.000 e I(3)=0.000.
En el test, I(-3)= 0.031, I(-2)= 0.455,
I(-1)=3.266, I(0)= 1.084, I(1)= 0.390, I(2)=0.091 e I(3)=0.017.
10.2) De los niveles de rasgo considerados, el nivel
que se estimara con mayor precisin es = -1. Es decir, el test
resulta mximamente informativo para = -1.
10.3) S2e = 1/3.266 = 0.306. Se = 0.55.

Você também pode gostar