Escolar Documentos
Profissional Documentos
Cultura Documentos
Psicología Página 1
Prof. René Castro Psicometría 1 UBA
Psicología Página 2
Prof. René Castro Psicometría 1 UBA
nadie va a pasar infinitas veces un test a nadie, por razones obvias, pero parece plausible pensar que si esto se hiciese,
la puntuación media que esa persona sacase en el test sería su verdadera puntuación.
2. En el segundo supuesto, Spearman asume que la correlación existente entre las puntuaciones verdaderas de "n" sujetos
en un test y los errores de medida es igual a cero, o lo que es igual, que no existe relación entre la cuantía de las
puntuaciones verdaderas de las personas y el tamaño de los errores que afectan a esas puntuaciones. En otras palabras,
que el valor de la puntuación verdadera de una persona no tiene nada que ver con el error que afecta esa puntuación, es
decir, puede haber puntuaciones verdaderas altas con errores bajos, o altos, no hay conexión entre el tamaño de la
puntuación verdadera y el tamaño de los errores. De nuevo se trata de un supuesto en principio razonable, que
formalmente puede expresarse así:
r(v,e) = 0
3. El tercer supuesto establece que los errores de medida de las personas en un test no están relacionados con los errores
de medida de las personas en otro test distinto. Dicho de otro modo, la correlación entre los errores de medida (re1e2)
que afectan a las puntuaciones de los sujetos en dos test diferentes es igual a cero. Es decir, no hay ninguna razón para
pensar que los errores cometidos en una ocasión vayan a covariar sistemáticamente con los cometidos en otra ocasión.
Formalmente se escribe así:
r(e1,e2) = 0 o también r(ej, ek) = 0.
Partiendo de esos tres supuestos del modelo, se establecen las siguientes deducciones:
a) El error de medida (e) es la diferencia entre la puntuación empírica (X) y la verdadera (V).
e = X-V
b) La esperanza matemática de los errores de medida es cero, luego son errores insesgados.
E(e) = 0
c) Las puntuaciones verdaderas no covarían con los errores.
Cov(V,e) = 0
d) La covarianza entre las puntuaciones empíricas y las verdaderas es igual a la varianza de las verdaderas:
cov(X,V) = S2(V)
e) La covarianza entre las puntuaciones empíricas de dos test es igual a la covarianza entre las verdaderas:
cov(Xj,Xk) = cov(Vj,Vk)
f) La varianza de las puntuaciones empíricas es igual a la varianza de las verdaderas más los errores:
S2(X) = S2(V) + S2(e)
g) La correlación entre las puntuaciones empíricas y los errores es igual al cociente entre la desviación típica de los
errores y la de las empíricas.
rxe = Se/S
Estas asunciones parecen razonables y sensatas, pero no se pueden comprobar empíricamente de forma directa, serán
las deducciones que luego se hagan a partir de ellas las que permitan confirmarlas o falsearlas. Tras cien años de
formuladas y con muchos resultados empíricos detrás, bien podemos decir hoy que las ideas de Spearman han sido de
gran utilidad para la psicología.
Además del modelo y de estos tres supuestos, se formula una definición de lo que son Tests Paralelos, entendiendo por
ello aquellos tests que miden lo mismo exactamente pero con distintos ítems. Las puntuaciones verdaderas de las personas
en los tests paralelos serían las mismas, y también serían iguales las varianzas de los errores de medida.
Psicología Página 3
Prof. René Castro Psicometría 1 UBA
El modelo lineal, junto con los tres supuestos enunciados, y la definición de tests paralelos propuesta, constituyen el
conjunto central de la Teoría Clásica de los Tests.
Tradicionalmente, los métodos basados en la llamada Teoría Clásica de los Tests han sido utilizados para el análisis de
calidad técnica de instrumentos de medición psicométricos. Uno de los resultados más importantes que se deriva a partir
de los postulados de la Teoría Clásica es el conocido coeficiente de confiabilidad α de Cronbach, medida que se usa para
juzgar la confiabilidad de un instrumento desde el punto de vista de su consistencia interna.
En algunos países de Latinoamérica, la Teoría Clásica de los Tests se ha aplicado rutinariamente para el análisis y la
construcción del banco de ítems de las pruebas de aptitud académica de las principales universidades estatales, como las
Universidades de Costa Rica y el Instituto Tecnológico en Costa Rica. Más recientemente, también se ha incorporado a
las pruebas sumativas que deben presentarse al termino de la educación secundaria (llamadas pruebas de bachillerato).
Veamos la primera: dentro del marco clásico, las mediciones no resultan invariantes respecto al instrumento utilizado.
Esto significa que si un psicólogo evalúa la inteligencia de tres personas distintas con un test diferente para cada persona,
los resultados no son comparables, no podemos decir en sentido estricto qué persona es más inteligente.
Esto es así porque los resultados de los tres tests no están en la misma escala, cada test tiene la suya propia, por lo que
no es conveniente comparar la inteligencia de personas que han sido evaluadas con distintos tests de inteligencia. Para
hacerlo se transforman las puntuaciones directas de los tests en otras baremadas, por ejemplo en percentiles, con lo que se
considera que se pueden ya comparar, y de hecho así se hace. Este proceder clásico asume que los grupos normativos en
los que se elaboraron los baremos de los distintos tests son equiparables, lo cual es difícil de garantizar en la práctica.
No hay duda que lo más deseable científicamente sería que los resultados obtenidos al utilizar distintos instrumentos
estuviesen en la misma escala. Eso es precisamente lo que va a conseguir el enfoque de la TRI. Este nuevo enfoque de la
TRI va a suponer un gran avance para la medición psicológica, propiciando un gran desarrollo de nuevos conceptos y
herramientas psicométricas.
La segunda gran cuestión no bien resuelta dentro del marco clásico era la ausencia de invarianza de las propiedades de
los tests respecto de las personas utilizadas para estimarlas. En otras palabras, propiedades psicométricas importantes de
los tests, tales como la dificultad de los ítems, o la fiabilidad del test, estaban en función del tipo de personas utilizadas
para calcularlas, lo cual resulta inadmisible desde el punto de vista de una medición rigurosa. Por ejemplo, la dificultad de
los ítems, o los coeficientes de fiabilidad dependen en gran medida del tipo de muestra utilizada para calcularlos. Este
problema también encontrará una solución adecuada dentro del marco de la TRI.
Dentro del campo de la Teoría de los Tests Psicométricos han aparecido distintas denominaciones que en la actualidad
toman el nombre de "Teoría de la Respuesta al Item (TRI)" (Teoría del Rasgo Latente (TRL) o Teoría de Respuesta
al Reactivo (TRR)) cuyo principal autor fue Frederic M. Lord (12/1112 -05/02/2000), psicometrista del Servicio de
Pruebas Educacionales quién aportó dos libros importantes: Statistical Theories of Mental Test Scores o Teorías
Estadísticas de las Puntuaciones Mentales (con Melvin R. Novick y dos capítulos por Allen Birnbaum, 1968) y
Applications of Item Response Theory to Practical Testing Problem (1980) o Aplicaciones de la Teoría de la Respuesta al
Item a los problemas prácticos de la prueba. Además, G. Rasch aportó el desarrollo del primer modelo logístico
probabilístico basado en el índice de dificultad de la TRI/TRL. En este caso, puede observarse que ítem, reactivo,
pregunta o afirmación tienen significados similares.
Esta denominación presenta unas diferencias respecto al modelo clásico:
1) la relación entre el valor esperado de las puntuaciones del sujeto y el rasgo (característica responsable de los
valores), no suele ser de tipo lineal, la TRI postula que esta relación es de tipo probabilística, no lineal (curva) y
abstracta.
Psicología Página 4
Prof. René Castro Psicometría 1 UBA
2) pretende hacer predicciones individuales sin necesidad de hacer referencia a las características del grupo normativo.
Vemos, pues, que esta Teoría de la Respuesta al Item proporciona la posibilidad de describir de forma separada tanto a
los items como a los individuos; además considera que la respuesta que da el sujeto depende del nivel de habilidad que
tenga en el rango considerado.
El origen de estos modelos se deben a Lazarsfeld, 1950, el cual introdujo el término "rasgo latente”. Desde aquí se
considera que cada individuo tiene un parámetro individual el cual es el responsable de las características del sujeto,
denominadas también "rasgo".
Este rasgo no es medible directamente, solo indirectamente, de ahí que el parámetro individual reciba el nombre de
variable latente.
A la hora de aplicar los tests se pueden obtener dos cosas distintas, la puntuación verdadera y la escala de aptitud; esto
se consigue si pasamos dos tests acerca de la misma aptitud a un mismo grupo.
En la Teoría del Rasgo Latente o Teoría de la Respuesta al Item, la puntuación verdadera es aquel valor que se espera
de la puntuación observada. Según Lord, la puntuación verdadera y la aptitud son la misma cosa pero expresadas en
diferentes escalas de medición.
La Teoría de la Respuesta al Item (TRI) o Teoría del Rasgo Latente (TRL) asume que entre la respuesta que una
persona ofrece a una pregunta o prueba, y el rasgo o habilidad (puede entenderse también como la competencia, actitud,
actitud, etc.) de la persona, existe una relación no lineal (curva), que se puede expresar en términos probabilísticos.
El conjunto de cálculos que se aplican para ello determina los distintos modelos y resultados de la TRI.
En cuanto al cálculo estadístico, la TRI utiliza un modelo matemático logístico para describir la relación entre el nivel
de habilidad del examinado y la probabilidad que éste dé una respuesta correcta a un ítem del test. Algunas aplicaciones
de la TRI han consistido en la creación de bancos de ítems y los diseños de tests a la medida del sujeto o test adaptativos
computadorizados (TAC). Los test de medida consisten en la selección de informatizada de los ítems que puedan medir
mejor la habilidad de un individuo. Otros conceptos fundamentales en la TRI son la Función de Información y el Error
Estándar de Medición.
La Teoría de la Respuesta al Ítem (TRI) tiene algunas ventajas sobre la TCT, ya que permite obtener más información
sobre los ítems de la prueba y sobre la variable psicológica, el constructo o variable latente que interesa medir en los
examinados. Además, con la TRI se pueden generar pruebas adaptadas al nivel de los individuos. También se logran
indicadores de las propiedades psicométricas del instrumento, y de los ítems que lo componen, según los diferentes
valores del constructo de interés. Permite establecer comparaciones entre escala de distintos test que evalúan un mismo
constructo, mediante transformaciones lineales o escalares. Estas características de la TRI le dan ventajas esenciales en
relación con la Teoría Clásica.
Modelos de la TRI/TRL.
Los modelos de la TRI centran su interés en las preguntas.
En la TRI se suelen distinguir tres modelos distintos (teoría triparamétrica) en función del número de parámetros que
estiman:
a) Modelo de un parámetro, también llamado modelo de Rash (1PL). Se estima la dificultad del item (b).
b) Modelo de dos parámetros (modelo de Lord y Novick) se estima la dificultad (b) y la discriminación del item (a)
(2PL).
c) Modelo de tres parámetros, o modelo de Birnbaum (3PL). Este modelo se incluye en la TRI, aunque en esencia puede
considerarse como un enfoque alternativo de la TRI. El modelo de Birnbaum estima la dificultad (b), la discriminación
(a) y el pseudoazar o adivinación (c).
Parámetros del ítem
Como se ha indicado, los parámetros son tres: dificultad (b), discriminación (a) y pseudo-azar (c).
El índice de dificultad se suele indicar con la letra “b” y se define como:
Psicología Página 5
Prof. René Castro Psicometría 1 UBA
es la proporción de sujetos examinados que responden correctamente a ese ítem, sirve para identificar y establecer
cuantitativamente el nivel o grado de dificultad de un ítem o pregunta.
el punto de la escala de habilidad donde la probabilidad de responder correctamente el ítem es igual a 0,5. Es decir,
que coincide con el grado de habilidad donde la curva “señala” una proporción de 50% o una probabilidad de 0,5.
Dicho de otra forma, con ese nivel de habilidad, la persona tienen una proporción del 50% o una probabilidad del 0,50
de contestar correctamente al ítem.
Un ítem tiene elevado poder discriminativo si contribuye a la distinción, separación y diferenciación, de los sujetos
que puntúan alto en el test de los que puntúan bajo en el mismo. Es decir, si contribuye a diferenciar individuos que
exhiben el constructo o rasgo de aquellos que no lo exhiben.
hasta que punto la pregunta puede discriminar entre sujetos que tienen un nivel alto de habilidad de aquellos que
tienen un nivel bajo. El índice de discriminación se suele representar con la letra “a”. Esta propiedad se refleja en la
pendiente de la curva, así, una mayor pendiente de la curva CCI del ítem indicará una mayor separación o
discriminación según su habilidad y viceversa.
El coeficiente de azar, pseudoazar o adivinación, se representa con la letra “c” y se define como:
la probabilidad de contestar correctamente un ítem sin tener el nivel de habilidad exigido o la probabilidad que hay de
acertar el ítem al azar. Este parámetro trata de representar el efecto del azar.
la probabilidad en los ítems de opción múltiple de que un sujeto de poca habilidad/aptitud conteste un ítem
relativamente difícil de manera correcta, lo que hace suponer que lo hizo por azar, es decir adivinando. En este caso
el menor/inferior valor de la curva asintótica representa el mayor valor de probabilidad de responder correctamente en
la sección negativa o baja de los datos normalizados o tipificados (de 0 a -4, -5, o valores inferiores) que representa
los sujetos de escasa habilidad en el constructo evaluado.
También se estudia el Parámetro θ (tita), es la habilidad o nivel de habilidad del sujeto en el rasgo latente/variable
estudiada:
b. Curva característica del ítem (CCI): es un elemento fundamental de la TRI porque, por un lado, ofrece una
representación gráfica de las características del ítem, y por otra muestra la relación entre la habilidad y la respuesta
al ítem, en términos probabilísticos (ver ecuaciones sobre los 3 modelos en la página siguiente y las guías sobre
conceptos y problemas de CCI en pdf y Excel).
c. Puntuación verdadera en el test: se identifica con la suma de las probabilidades estimadas con relación al nivel de
habilidad para el total de ítems del test.
d. Curva característica del test: permite ver de manera gráfica, la relación entre la puntuación verdadera y
habilidades. La Curva Característica del Test (CCT) muestra la relación existente entre la puntuación total en un
test (no solamente en un ítem como sucede con la CCI) y el nivel de habilidad de una persona.
Psicología Página 6
Prof. René Castro Psicometría 1 UBA
En la siguiente tabla, tomada de Muñiz (1997a), se sintetizan las principales diferencias y similitudes entre el enfoque
clásico o Teoría Clásica de los Test TCT) y la Teoría de la Respuesta al Ítem (TRI).
Psicología Página 7
Prof. René Castro Psicometría 1 UBA
para cada calificación, el número de sujetos que acertaron o respondieron correctamente el ítem
la proporción de sujetos/personas en cada nivel de puntuación/calificación/nota total del test que
contestó correctamente al reactivo.
Tabla con datos de la regresión ítem-test para el reactivo/ítem 4.
Reactivo/ítem 7
Calificación en el
Puntuación Z # sujetos con esa # sujetos que Proporción de acertar
test
calificación acertaron el item (P)
-1,55 60 132 2 0,02
-0,96 75 204 17 0,08
-0,56 85 276 49 0,18
0,03 100 171 86 0,50
0,62 115 317 289 0,91
1,01 125 357 354 0,99
1,41 135 401 398 0,99
99,2857
σ 25,4149
0,80
P(O)
0,60
0,50
0,40
0,20 0,18
0,08
0,00 0,02
55 65 75 85 95 105 115 125 135
Calificación (CI)
Gráfica de la regresión ítem-test para el reactivo/ítem 4 con base a escala decimal (calificación CI).
Podemos ver que a mayor CI de la persona, mayor es la probabilidad de acertar el ítem. A un CI de 100 le
corresponde una probabilidad de acertar de 0,5, y a un CI de 120 le corresponde una probabilidad de 0,99.
El nivel de habilidad del sujeto (θ) puede definirse en cualquier escala, en la gráfica anterior se empleó la
escala del cociente intelectual, (CI) aunque en la práctica suele emplearse una escala normalizada/tipificada, con
media cero, varianza 1 y un rango de valores de 3 a -3.
Psicología Página 8
Prof. René Castro Psicometría 1 UBA
0,80
P(O)
0,60
0,50
0,40
0,180,20
0,08
0,02 0,00
-4 -3 -2 -1 0 1 2 3 4
Calificación normalizada o tipificada del CI
Reactivo/ítem 7 Reactivo/ítem 13
Puntuación Calificación # sujetos # sujetos
# sujetos Proporción # sujetos Proporción
Z en el test que que
con esa de acertar con esa de acertar
acertaron el acertaron el
calificación (P) calificación (P)
item item
1,59 12 415 415 1 415 394 0,95
1,30 11 350 287 0,82 350 217 0,62
1,01 10 330 287 0,87 330 287 0,53
0,72 9 293 205 0,7 293 205 0,16
0,43 8 285 139 0,49 285 139 0,05
0,14 7 260 60 0,23 260 60 0
-0,14 6 210 21 0,1 210 0 0
-0,43 5 200 12 0,06 200 0 0
-0,72 4 167 5 0,03 167 5 0
-1,01 3 79 0 0 79 0 0
-1,30 2 46 0 0 46 0 0
-1,59 1 32 0 0 32 0 0
6,5
σ 3,45205
R² = 0,9832
0,8
Reactivo 7
0,7
0,6 Reactivo 13
0,5
0,4 Polinómica (Reactivo 7)
0,3 Reactivo 13
Polinómica (Reactivo 13)
0,2 y = -0,0002x4 + 0,0059x3 - 0,0534x2 + 0,1601x - 0,1282
R² = 0,9797
0,1
0
0 2 4 6 8 10 12 14
-0,1
Puntuación total
Gráfica de la regresión ítem-test para los reactivos/ítem 7 y 13 con base a escala decimal (nota total).
Esta gráfica de la regresión ítem-test también se puede representar empleando la escala de puntuaciones Z
para el eje X, como se presenta a continuación:
Psicología Página 10
Prof. René Castro Psicometría 1 UBA
Reactivo 7 1
y = -0,0595x4 - 0,0722x3 + 0,2579x2
0,9+ 0,4817x + 0,2065
R² = 0,9832
0,8
Reactivo 7 0,7
0,6
Reactivo 13
0,5
Polinómica (Reactivo 7) 0,4
0,3
Polinómica (Reactivo 13)
0,2 Reactivo 13
y = -0,0226x4 + 0,0714x3 + 0,2474x2 + 0,1223x - 0,0147
0,1 R² = 0,9797
0
-2 -1,5 -1 -0,5 -0,1 0 0,5 1 1,5 2
Psicología Página 11
Prof. René Castro Psicometría 1 UBA
-z
En este tipo de función logística, mientras Z toma valores hacia el más infinito (+1, +2, +3, +4, +∞), e
genera valores hacia 0 y P(y) produce valores hacia 1 pero sin exceder este valor. En el caso contrario, mientras
-z
Z toma valores hacia el menos infinito (-1, -2, -3, -4, -∞), e genera valores hacia infinito y P(y) produce
valores hacia 0 pero sin exceder este valor, la cual genera gráficas como la siguiente:
Asíntota y=1
P(y) Prob. Resp. Correcta.
1,00
0,80
0,60
0,40
0,20
Asíntota y=0,1
0,00
-3 -2 -1 0 1 2 3
Psicología Página 12
Prof. René Castro Psicometría 1 UBA
Su función logística (figura anterior) es muy similar a la función de una curva sigmoide o curva normal
acumulada. La curva característica del ítem (CCI) para el modelo de Rasch está dada por la ecuación siguiente:
en donde:
Pi(θ)= es la probabilidad de que un examinado b = parámetro o índice de la dificultad del ítem i
elegido al azar con aptitud θ conteste D = constante de la ecuación (D=1,7).
correctamente el ítem i. e = base de los logaritmos neperianos o naturales=
θ = nivel de habilidad del sujeto. 2,718
El nivel de habilidad del sujeto (θ) puede definirse en cualquier escala, en este caso se ha utilizado una
escala típica, con media 0, varianza 1 y un rango de valores de -4 a +4.
La función forma una curva en forma de S inclinada con valores de 0 a 1 en la ordenada (eje Y, expresa
probabilidad) y valores correspondientes a la aptitud o habilidad θ en la abscisa (eje X, expresa los niveles de
habilidad del sujeto o respondiente, presentados en este caso como valores Z tipificados como -4σ, -3σ, -2σ, -
1σ, 0σ, 1σ, 2σ, 3σ, 4σ).
El parámetro b de dificultad es el punto en la escala de aptitud θ cuya probabilidad de respuesta correcta es
0,5 o dicho de otra forma, es aquel valor de θ para el cual P(θ)=0,5. Dicho de otra manera, la dificultad del
reactivo define un punto en la escala de habilidad justo en que la probabilidad de éxito P(θ) es igual a la
probabilidad de fracaso 1 – P(θ), esto es, un sujeto con un nivel de habilidad θ igual a la dificultad del reactivo i
(bi), tendrá una probabilidad de 0.5 de contestar correctamente este reactivo y, por lo tanto, una probabilidad de
0.5 de responderlo de manera incorrecta.
El parámetro b de dificultad indica la posición del ítem en la escala de aptitud. Cuando más grande es el
valor de b, mayor es la dificultad para responder correctamente el ítem y también mayor la aptitud requerida
para que el examinado tenga una P(θ) = 0,5 de resolver correctamente el ítem.
Psicología Página 13
Prof. René Castro Psicometría 1 UBA
Nótese que las curvas difieren sólo en su localización a lo largo de la escala de habilidad y que la línea de las
curvas nunca se cruza entre sí. Por esto puede observarse en la gráfica anterior que las curvas de los distintos
ítems se corren o desplazan hacia la derecha a medida que incrementa el nivel o índice de dificultad, y se
mueven hacia la izquierda a medida que disminuye este mismo índice.
Como se mencionó anteriormente, la habilidad o aptitud θ suele transformarse en una escala tipificada Z de
modo que la = 0 y la s = 1 y los valores de b suelen ir de -2 a + 2.
Los ítem con b = -2 son muy fáciles, los ítem con b = +2 muy difíciles. En la figura anterior se han
representado 4 CCI de 4 items diferentes, por lo que el gráfico representa estos 4 ítems, tales que para el ítem 1,
b=1; para el item 2, b = 2; para el ítem 3, b= -1 y para el item 4, b = 0.
P(0) 0,40
Prob.Resp.Corr.b=2(difícil)
0,30
0,20
0,1545 0,1545 0,1545 0,1545
0,10
0,0323 0,0323 0,0323 0,0323
0,0061
0,0011
0,0002
0,0000 0,0061
0,0011
0,0002 0,0061
0,0011 0,0061
0,00
-5 -4 -3 -2 -1 0 1 2 3 4 5
Nivel Habilidad del sujeto (θ NHS) tipificado (Z)
Psicología Página 14
Prof. René Castro Psicometría 1 UBA
En este caso, como se dijo anteriormente, mientras θ toma valores bajos o hacia el menos infinito (-1, -2, -3,
-4, -∞), el término e-D*(θ-b) genera valores altos (164,0219) o hacia más infinito y P(θ) produce valores bajos (en
este caso P(θ)=0,0061) o hacia 0 pero sin exceder este valor.
Este bajo valor de la probabilidad de responder correctamente al ítem por parte del sujeto es fácil de
entender, ya que una persona de muy baja habilidad en la variable estudiada (θ=-4) se enfrenta a una pregunta
fácil (b=-1). Si la habilidad estudiada o medida es inteligencia, para este tipo de persona, de escasos recursos
intelectuales, toda pregunta será difícil y tiene una alta probabilidad de contestarla mal y una baja probabilidad
de contestarla correctamente (en este caso P(θ)=0,0061).
El caso contrario también es cierto. Si deseamos estimar la probabilidad de contestar correctamente (P(θ)) un
ítem/pregunta muy difícil (b=2) por parte de una persona nivel genio (θ=4), procedemos de la siguiente manera:
(para D = 1,7, θ = 4 y b= 2).
En este caso, como se dijo anteriormente, mientras θ toma valores altos o hacia el mas infinito (+1, +2, +3,
+4, +∞), el término e-D*(θ-b) genera valores bajos (0,0333) y P(θ) produce valores altos (en este caso
P(θ)=0,9677) o hacia 1 pero sin exceder este valor.
Como ya dijimos, este alto valor de la probabilidad de responder correctamente al ítem (P(θ)) por parte del
sujeto es fácil de entender, ya que si una persona de muy elevada habilidad en la variable estudiada (θ=+4) se
enfrenta a una pregunta muy difícil (b=+2) le resulta fácil responderla o superarla exitosamente. Como un
ejemplo, si la habilidad estudiada o medida es inteligencia, para este tipo de persona, de muy altos recursos
intelectuales (tipo Einstein o Stephen Hawking), toda pregunta será fácil y tiene una alta probabilidad de
contestarla bien (en este caso P(θ)=0,9677) y una baja probabilidad de contestarla incorrectamente.
Para realizar estos cálculos en su calculadora CASIO, puede introducir la siguiente fórmula:
En las calculadoras CASIO tipo ES puede introducir la fórmula directamente y le dará el resultado, aunque
debe introducir los datos con cuidado, pues en algunos casos es fácil equivocarse introduciendo el orden de los
Psicología Página 15
Prof. René Castro Psicometría 1 UBA
Ejemplo 1: Ejemplo 2:
Los datos con los cuales se realizó la curva anterior fueron los siguientes:
Psicología Página 16
Prof. René Castro Psicometría 1 UBA
Para ver aplicaciones y problemas de este 1er modelo logístico, leer y consultar las guías en formato pdf y Excel
enviadas a su correo.
Aquí b es, igualmente que en el modelo anterior, el parámetro de posición o dificultad. El factor D = 1,7 es
un valor arbitrario introducido para que la función logística sea ajustada a la ojiva normal con una exactitud de
0,01. Además hay un segundo parámetro a que es el de discriminación que es la pendiente de la CCI en el punto
b. Los ítems con pendiente mayor son más útiles para separar a los examinados en distintos niveles de aptitud,
que los ítems de menor pendiente. El modelo de dos parámetros es pues, una generalización del modelo de un
parámetro.
En este segundo parámetro, se estudia el índice de discriminación del ítem, el cual se suele indicar con la
letra “a” y se define como la capacidad de diferenciar, distinguir, separar y discriminar a los sujetos que puntúan
alto en el test de los que puntúan bajo en el mismo. Es decir, si contribuye a diferenciar individuos que exhiben
el constructo o rasgo de aquellos que no lo exhiben, o si el ítem discrimina aquellos sujetos que tienen un nivel
alto de habilidad de aquellos que tienen un nivel bajo. Esta propiedad se refleja en la pendiente de la curva, así,
una mayor pendiente de la curva CCI del ítem para este segundo parámetro indicará una mayor separación o
discriminación según su habilidad y viceversa.
El modelo logístico de dos parámetros es más conocido como modelo de Lord. La probabilidad de acertar un
ítem depende tanto del nivel de dificultad como del índice de discriminación de dicho ítem y del nivel del sujeto
en la variable medida (habilidad del sujeto en la característica estudiada, como inteligencia, capacidad motora,
etc.).
La curva característica del ítem (CCI) para el modelo de Lord está dada por la ecuación siguiente:
Psicología Página 17
Prof. René Castro Psicometría 1 UBA
en donde:
Pi(θ)= es la probabilidad de que un examinado elegido b = parámetro o índice de la dificultad del ítem i
al azar con aptitud θ conteste correctamente el ítem i. D = constante de la ecuación (D=1,7).
θ = nivel de habilidad del sujeto. e = base de los logaritmos neperianos o naturales=
a = índice de discriminación del ítem i. 2,718
El nivel de habilidad del sujeto (θ) puede definirse en cualquier escala, en este caso se ha utilizado una
escala típica, con media 0, varianza 1 y un rango de valores de -4 a +4.
La función forma una curva en forma de S inclinada con valores de 0 a 1 en la ordenada (eje Y, expresa
probabilidad) y valores correspondientes a la aptitud o habilidad θ en la abscisa (eje X, expresa los niveles de
habilidad del sujeto o respondiente, presentados en este caso como valores Z tipificados como -4σ, -3σ, -2σ, -
1σ, 0σ, 1σ, 2σ, 3σ, 4σ).
pendiente menos
discriminante) 0,80
0,7815
P(O)3 a=3,5 Item 43 (mayor
pendiente más discriminante) 0,99986
0,60
0,9514
0,2184
0,20
0,0485
0,00170 0,02135 0,00
0,00013
9,033E-10 3,466E-07 1,330E-04
-3 -2 -1 0 1 2 3
Nivel Habilidad del sujeto (NHS) tipificado (Z)
A mayor grado de inclinación o menor pendiente de la curva, el ítem es menos discriminativo (curva azul) y
separa en menor grado a los sujetos que poseen la habilidad de los que no la tienen. A mayor pendiente o menor
grado de inclinación de la curva, (curva roja) el ítem es más discriminativo y separa en mayor grado a los
sujetos que poseen la habilidad de los que no la tienen.
Psicología Página 18
Prof. René Castro Psicometría 1 UBA
El parámetro “a” de discriminación separa/desglosa/distingue/diferencia a los sujetos que tienen un nivel alto
de habilidad en el constructo o rasgo medido en el ítem de aquellos que tienen un nivel bajo de habilidad en el
constructo evaluado y se refleja o representa en el grado o nivel de la pendiente de la curva, así, una mayor
pendiente de la curva CCI del ítem indicará una mayor separación o discriminación según su habilidad y
viceversa. Debido a esto puede observarse en la gráfica anterior que las curvas de los distintos ítems con
diferentes índices de discriminación presentan disímiles pendientes o inclinaciones en la sección central de sus
curvas, hecho que se traduce en a) un mayor incremento y demanda de habilidades en el constructo evaluado
por parte del sujeto para responder correctamente al ítem y por ende, b) una mayor separación de las personas o
sujetos que son capaces de responder acertadamente por poseer el constructo evaluado de los que no lo poseen
ni manifiestan.
Es interesante el observar que todas las curvas convergen en un punto central que representa el valor b o
índice de dificultad, (b = 0,5 en este caso). Esto confirma el hecho de que si el índice b tuviese un valor de 1, la
ecuación completa se transformaría en la ecuación del primer parámetro b, y, basados en esto, observar el efecto
que tiene sobre la pendiente de las distintas gráficas los diferentes valores del segundo parámetro “a”.
Como se mencionó anteriormente, la habilidad o aptitud θ suele transformarse en una escala tipificada Z de
modo que la = 0 y la s = 1 y los valores de b suelen ir de 1 a 4.
Los ítem con a = 1,5 son poco discriminantes, los ítem con a = 3,5 son muy discriminantes. En la figura
anterior se han representado 3 CCI de 3 ítems diferentes, por lo que el gráfico representa estos 3 ítems, tales que
para el ítem 21, a=1,5; para el ítem 32, a = 2,5; para el ítem 43, a= 3,5.
A fin de ejercitarnos en el cálculo de la CCI empleando lo ecuación equivalente, supongamos que tenemos
un ítem (55) para el que hemos obtenido los parámetros a y b y queremos saber la probabilidad en distintos
puntos para trazar la curva CCI. El proceso en este caso sería el siguiente:
Item 55: D = 1,7; a = 1,8; b = 1 ¿Cuál es la probabilidad del ítem en los valores de θ = -3, - 2, -1 0, 1, 2, 3,?
Aplicando nuestros valores a la ecuación anterior, vale decir para θ = 3, tenemos:
Repetimos esta operación para los distintos puntos de θ y podríamos dibujar la curva característica del ítem
55 (CCI) con los valores correspondientes a P(θ) +3 = 0,9978, P(θ) + 2 = 0,9552, P(θ) + 1 = 0,500, P(θ) 0 =
0,04479, P(θ) -1 = 0,002194, P(θ) -2 = 1,031x10-4, P(θ) -3 = 4,833x10-6.
Algunas observaciones que pueden obtenerse de la gráfica anterior son:
1- Al aumentar el nivel de habilidad del sujeto, aumenta su probabilidad de responder correctamente.
2- Al aumentar el nivel de discriminación de los ítems (línea: azul, menos discriminante/rojo, más
discriminante), disminuye la probabilidad de responder correctamente para los sujetos de baja habilidad pero
aumenta para los de alta habilidad o constructo a medir.
3- Para sujetos muy inteligentes (> de 2σ), o muy deficientes (< de -1,5σ), no influye el nivel de discriminación
de la pregunta, los primeros (muy inteligentes) responderán bien una pregunta discriminante o nó, mientras
que los muy deficientes responderán incorrectamente una pregunta discriminante o nó.
4- Los sujetos de baja habilidad en el constructo medido (-1 a 0 NHS) tienen más probabilidad de responder
correctamente una pregunta de baja discriminación que una más discriminante, mientras que los elevada
Psicología Página 19
Prof. René Castro Psicometría 1 UBA
habilidad tienen más probabilidad de responder correctamente una pregunta de alta discriminación que una
de bajo poder discriminante (paradoja de Lord). Dicho de otra forma, un reactivo supuestamente
discriminante (línea roja) es más efectivo en dificultad para aquellas personas de habilidad alta y más fácil
para personas de habilidad baja.
5- Al incrementar la pendiente de la línea curva, incrementa el nivel discriminante del ítem que representa.
6- El punto en el cual se encuentran las tres (3) curvas representa a (b=0,5) el nivel de dificultad de estas tres
gráficas.
La paradoja de Lord puede observarse mejor si incrementamos ligeramente la separación entre los distintos
valores de a, como se muestra en la siguiente gráfica:
0,9382 0,92757
P(O)1 a=0,5 Item 21 0,91529 0,89331
0,86646
(menor pendiente menos
discriminante) 0,80 0,79576 0,78160
0,70057
P(O)3 a=4 Item 43 (mayor 0,66374
pendiente más 0,60 0,7815
discriminante)
0,99986
0,50000
P(O)2 a=1 Item 32
0,40 0,41581
0,2184
(pendiente intermedia,
media discriminación)
0,29943
0,21840 0,20 0,9514
0,10669
0,07243
0,04857 0,0485
0,00260
4,611E-11 0,01406
4,140E-08 3,717E-050,00
-3 -2 -1 0 1 2 3
Nivel Habilidad del sujeto (NHS) tipificado (Z)
Para calcular P(θ) se procede como a continuación, para D = 1,7, θ = -4 (bajo nivel de habilidad), b= -1
(preguntas fáciles), a = 1,5 (escasamente discriminante):
En este caso, como se dijo anteriormente, mientras θ toma valores bajos o hacia el menos infinito (-1, -2, -3,
-4, -∞), el término e-D*a*(θ-b) genera valores altos (2100,6456) o hacia más infinito y P(θ) produce valores bajos
Psicología Página 20
Prof. René Castro Psicometría 1 UBA
(en este caso P(θ)=0,0004758) o hacia 0 pero sin exceder este valor.
Este bajo valor de la probabilidad de responder correctamente al ítem por parte del sujeto es fácil de
entender, ya que una persona de muy baja habilidad en la variable estudiada (θ=-4) se enfrenta a una pregunta
fácil (b=-1) y escasamente discriminante (a = 1,5). Si la habilidad estudiada o medida es inteligencia, para este
tipo de persona, de escasos recursos intelectuales, toda pregunta será difícil y tiene una alta probabilidad de
contestarla mal y una baja probabilidad de contestarla correctamente (en este caso P(θ)=0,00047).
El caso contrario también es cierto. Si deseamos estimar la probabilidad de contestar correctamente (P(θ)) un
ítem/pregunta muy difícil (b=2) y escasamente discriminante (a = 1,5) por parte de una persona nivel genio
(θ=4), procedemos de la siguiente manera: (para D = 1,7, θ = 4, b= 2 y a = 1,5).
En este caso, como se dijo anteriormente, mientras θ toma valores altos o hacia el mas infinito (+1, +2, +3,
+4, +∞), el término e-D*a*(θ-b) genera valores bajos (0,0061) y P(θ) produce valores altos (en este caso
P(θ)=0,9939) o hacia 1 pero sin exceder este valor.
Como ya dijimos, este alto valor de la probabilidad de responder correctamente al ítem (P(θ)) por parte del
sujeto es fácil de entender, ya que si una persona de muy elevada habilidad en la variable estudiada (θ=+4) se
enfrenta a una pregunta muy difícil (b=+2) y escasamente discriminante (a = 1,5) le resulta fácil responderla o
superarla exitosamente. Como un ejemplo, si la habilidad estudiada o medida es inteligencia, para este tipo de
persona, de muy altos recursos intelectuales (tipo Einstein o Stephen Hawking), toda pregunta será fácil y tiene
una alta probabilidad de contestarla bien (en este caso P(θ)=0,9939) y una baja probabilidad de contestarla
incorrectamente.
Para realizar estos cálculos en su calculadora CASIO, puede introducir la siguiente fórmula:
En las calculadoras CASIO tipo ES puede introducir la fórmula directamente y le dará el resultado, aunque
debe introducir los datos con cuidado, pues en algunos casos es fácil equivocarse introduciendo el orden de los
elementos de la ecuación:
Ejemplo 1: Ejemplo 2:
parámetro b.
Este modelo de tres parámetros es el más general y el más realista desde el punto de vista empírico de los
tres, en realidad los otros dos son casos particulares, así cuando el parámetro c (pseudoazar) es cero la ecuación
de este modelo se transforma en el modelo de dos parámetros o de Lord, y cuando además el parámetro a
(discriminación) es igual para todos los ítems (caso típico, a=1), se convierte en el modelo de Rasch. Véase a
continuación las fórmulas equivalentes del modelo logístico de tres parámetros, donde P(θ) es la probabilidad
de acertar el ítem, θ es la puntuación en la variable medida, a, b y c son los tres parámetros descritos, e es la
base de los logaritmos neperianos (2,72) y D es una constante que vale 1,7.
Ecuación o fórmula: Ecuación equivalente
Donde:
Pi(θ)= es la probabilidad de que un examinado en cada examinado.
elegido al azar con aptitud θ conteste a = índice de discriminación del ítem i.
correctamente el ítem i. b = parámetro o índice de la dificultad del ítem i
θ = nivel de habilidad del sujeto o valor del c = coeficiente de azar, pseudoazar o adivinación
constructo o variable latente que se desea estimar D = constante de la ecuación (D=1,7).
El nivel de habilidad del sujeto (θ) puede definirse en cualquier escala, en este caso se ha utilizado una
escala típica, con media 0, varianza 1 y un rango de valores de -4 a +4.
En este caso, la función forma una curva en forma de “S” inclinada y alargada (dependiendo del valor de
“c”) con valores de 0 a 1 en la ordenada (eje Y, expresa probabilidad) y valores correspondientes a la aptitud o
habilidad θ en la abscisa (eje X, expresa los niveles de habilidad del sujeto o respondiente, presentados en este
caso como valores Z tipificados como -4σ, -3σ, -2σ, -1σ, 0σ, 1σ, 2σ, 3σ, 4σ).
Ya que el coeficiente de azar, pseudoazar o adivinación “c” representa la probabilidad de acertar un ítem
cuando el examinado contesta al azar o dicho de otro modo, la probabilidad de contestar correctamente un ítem
por azar sin tener el nivel de habilidad exigido, mientras mayor sea el número de veces que el sujeto usa el azar
para responder correctamente el ítem estudiado, mayor será el nivel o “altura” de la sección inicial de la curva,
ya que los respondientes que carecen del constructo o rasgo requerido serán los que empleen esta estrategia a
fin de contesta correctamente el ítem evaluado, mientras que los que posean la habilidad requerida no usarán
este método aleatorio para responder adecuadamente el reactivo estudiado.
Es interesante el observar que mientras menor es el uso del azar por parte del sujeto, las curvas obtenidas se
parecen mucho a las representadas por el segundo parámetro “a”. Esto confirma el hecho de que si el índice c
tuviese un valor de 0, la ecuación completa se transformaría en la ecuación del primer parámetro b, y, basados
en esto, observar el efecto que tiene sobre la pendiente de las distintas gráficas los diferentes valores del
segundo parámetro “a” y el parámetro “b”.
Psicología Página 22
Prof. René Castro Psicometría 1 UBA
0,90
0,80 1, 0,8034
P(O) Prob. Resp. Corrcta.
0,70
0,60
0,50
P(0) a=1.5 b=0.5 c=0.1
0,40
P(0) a=1.5 b=0.5 c=0.25
0,30 0, 0,2966
0,00
-3 -2 -1 0 1 2 3
Psicología Página 23
Prof. René Castro Psicometría 1 UBA
En este caso, como se dijo anteriormente, mientras θ toma valores bajos o hacia el menos infinito (-1, -2, -3,
-4, -∞), el término e-D*a*(θ-b) genera valores altos (2100,6456) o hacia más infinito y P(θ) produce valores
medianos (en este caso P(θ)=0,40028) o cercanos a 0 pero sin exceder este valor.
Este mediano valor de la probabilidad de responder correctamente al ítem por parte del sujeto es fácil de
entender, ya que una persona de muy baja habilidad en la variable estudiada (θ=-4) se enfrenta a una pregunta
fácil (b=-1), escasamente discriminante (a = 1,5) y que emplea frecuentemente el azar tiene una mediana
probabilidad de responder correctamente el ítem. Si la habilidad estudiada o medida es inteligencia, para este
tipo de persona, de escasos recursos intelectuales, toda pregunta será difícil y tiene una alta probabilidad de
contestarla mal, por lo que recurre al azar para incrementarla (en este caso P(θ)=0,400285).
El caso contrario también es cierto. Si deseamos estimar la probabilidad de contestar correctamente (P(θ)) un
ítem/pregunta muy difícil (b=2), escasamente discriminante (a = 1,5) por parte de una persona nivel genio (θ=4)
que casi no usa el azar (c=0), procedemos de la siguiente manera: (para D = 1,7, θ = 4, b= 2, a = 1,5 y c = 0).
En este caso, como se dijo anteriormente, mientras θ toma valores altos o hacia el mas infinito (+1, +2, +3,
+4, +∞), el término e-D*a*(θ-b) genera valores bajos (0,0061) y P(θ) produce valores altos (en este caso
P(θ)=0,9939) o hacia 1 pero sin exceder este valor.
Como ya dijimos, este alto valor de la probabilidad de responder correctamente al ítem (P(θ)) por parte del
sujeto es fácil de entender, ya que si una persona de muy elevada habilidad en la variable estudiada (θ=+4) se
enfrenta a una pregunta muy difícil (b=+2) y escasamente discriminante (a = 1,5) le resulta fácil responderla o
superarla exitosamente sin emplear el azar. Como un ejemplo, si la habilidad estudiada o medida es inteligencia,
para este tipo de persona, de muy altos recursos intelectuales (tipo Einstein o Stephen Hawking), toda pregunta
Psicología Página 24
Prof. René Castro Psicometría 1 UBA
será fácil y tiene una alta probabilidad de contestarla bien sin necesidad de ponerse a adivinar nada (en este caso
P(θ)=0,9939) y una muy baja probabilidad de contestarla incorrectamente.
Debe recalcarse la idea de que cuando se asume que el parámetro de azar, c, (modelo de 3 parámetros o de
Birnbaum) es igual a cero se obtiene el modelo de dos parámetros, (modelo de 2 parámetros o de Lord y
Novick)en el que las CCI difieren en términos de su dificultad y de su discriminación (parámetros b y a
respectivamente). Si además de asumir c = 0 se supone también que el parámetro de discriminación, a, es
constante para todos los ítems, se obtiene el modelo de un parámetro o modelo de Rasch, en el que las CCI se
diferencian ´únicamente en términos de sus niveles de dificultad (parámetro b).
Es importante en este punto también mencionar que en los modelos de dos y tres parámetros pueden existir
diferentes estimaciones de θ, el constructo, para individuos con la misma puntuación empírica en la prueba. Por
ejemplo, dos personas pueden lograr el mismo número de respuestas correctas en la prueba, pero aún así
obtener estimaciones muy diferentes para su nivel en el constructo θ, probado que hayan tenido un patrón
diferencial de respuesta, es decir, que no hayan respondido correctamente los mismos ítems. Esto sucede así
porque el procedimiento para estimar θ en los modelos de dos y tres parámetros le da mayor ponderación a
aquellos ítems que tienen mayor discriminación. Por tanto, dado el mismo número de respuestas correctas,
examinados que han respondido correctamente ítems de mayor poder discriminatorio obtendrán estimaciones de
θ superiores a las estimaciones obtenidas para examinados que contestaron correctamente ítems de menor
calidad técnica. La Teoría Clásica de los Tests no disfruta de esta propiedad y en ella no es posible diferenciar
las puntuaciones de individuos que hayan obtenido el mismo número de respuestas correctas en el instrumento.
Para realizar estos cálculos en su calculadora CASIO, puede introducir la siguiente fórmula:
Leer:
Eiliana Montero (2000). La teoría de respuesta a los items: una moderna alternativa para el análisis
psicométrico de instrumentos de medición. Revista de matemática: teoría y aplicaciones 2000 7(1-2): 217-228.
CIMPA-UCR-CCS.
Psicología Página 25