Você está na página 1de 10

Revista de Psicologa Clnica con Nios y Adolescentes Copyright 2016 RPCNA

Vol. 3. N. 2 - Julio 2016 - pp 13-21 www.revistapcna.com - ISSN 2340-8340

Revista de Psicologa Clnica con Nios y Adolescentes

Una introduccin didctica a la Teora de


Respuesta al tem para comprender la
construccin de escalas
Mara D. Hidalgo-Montesinos1 & Brian F. French2
1
Universidad de Murcia, Espaa
2
Washington State University, Estados Unidos
Resumen
En este trabajo se ofrece una introduccin a la Teora de Respuesta al tem (TRI), que proporcionar al lector una visin general de las ideas fun-
damentales que subyacen a estos modelos y cmo el anlisis de tems usando estos modelos ayuda en el proceso de construccin del test. La
TRI representa una alternativa a la Teora Clsica de Tests (TCT). La TCT tiene una larga historia de uso en la medicin psicolgica y educativa,
particularmente en el desarrollo de escalas de personalidad. Sin embargo, en muchos casos TRI y TCT se combinan para el desarrollo de escalas.
Se explican los modelos y procedimientos de la TRI que nos permiten examinar el comportamiento de los tems del test. Estos conceptos se aplican
a una escala de depresin-ansiedad utilizada en estudiantes de Educacin Secundaria para identificar riesgos y necesidades y ayudar en la inter-
vencin psicolgica-educativa. Se analizan los tems de esta escala segn el Modelo de Respuesta Graduada, que resulta apropiado para tems de
respuesta ordinal. Este trabajo se centra en cmo se puede utilizar la informacin que proporcionan estos modelos para asegurar que los tems se
ajustan al propsito para el que fueron diseados, es decir, al rasgo que pretenden medir (depresin-ansiedad). Tanto los resultados estadsticos
como la informacin grfica obtenida se muestran como apoyo para la comprensin de los conceptos bsicos en TRI y de la profundidad de la
informacin que tales anlisis proporcionan. Por ltimo, se ofrece informacin sobre software y recursos disponibles para el anlisis usando TRI.
Palabras clave: teora de respuesta al tem, construccin de tests, modelo de respuesta graduada.

Abstract
A didactic introduction to Item Response Theory for understanding the construction of scales. This article offers a gentle introduction to Item Re-
sponse Theory (IRT). This introduction will provide the reader with a broad overview of key ideas underlying IRT and how IRT analyses can be used to
aid ones work. IRT represents an alternative to classical test theory (CTT). CTT has a long history of use in the area of educational and psychological
measurement and psychometrics, particularly for the development of personality scales. However, in many instances IRT is used in combination with
CTT for scale development. Thus, IRT is introduced in the context of the scale development process. Specifically, IRT models and methods are ex-
plained through the examination of the behavior of items that comprise a scale. The IRT concepts are applied to a depression-anxiety scale used with
students in secondary education to identify risk and needs to aid intervention. Items are evaluated with an empirical item analysis to demonstrate the
basic IRT model, the Graded Response Model, for ordinal level item responses. The demonstration focuses on how such information can be utilized
to ensure items meet the purpose of the scale in relation to the trait (i.e., depression-anxiety) measured. Both statistical and graphical information are
demonstrated to aid in the understanding of IRT concepts and the depth of information such analyses provide. Finally, advice about software and
resources available for IRT analysis is offered. This introduction should increase the readers knowledge of IRT. Moreover, the reader will become a
more critical and informed consumer of test development Information.
Keywords: item response theory, test development, graded response model.

En evaluacin psicolgica y de la salud los tests, cuestionarios o que se aportan apoyan las decisiones a tomar. Tanto el investigador
escalas utilizados para la toma de decisiones acerca de un individuo o desarrollador de un instrumento como el profesional que selec-
o grupo deben ser construidos y evaluados de manera apropiada y ciona un test para su uso en evaluacin debe estar familiarizado con
considerando el uso previsto de los mismos. Los tests pueden servir las directrices y normas establecidas por varios organismos y comi-
para varios propsitos, dado que las diferentes evidencias de validez siones, como las Directrices para el Uso de los Tests de la Comisin

Correspondencia:
Mara D. Hidalgo-Montesinos.
Departamento de Psicologa Bsica y Metodologa. Facultad de Psicologa.
Universidad de Murcia. Campus de Espinardo, Apdo. 4021, C. P. 30100, Murcia, Espaa.
E.mail: mdhidalg@um.es

A didactic introduction to Item Response Theory for understanding the construction of scales
14 Una introduccin didctica a la Teora de Respuesta al tem

Internacional de Tests (ITC, 2001) o los Standards for Educational and zaremos con un modelo que permite comprender fcilmente la idea
Psychological Testing (AERA, APA, & NCME, 2014). Estos documen- de la TRI. El modelo logstico de 3 parmetros (3PL) (Hambleton et
tos proporcionan una excelente gua respecto a todas las fases en el al., 1991; Lord & Novick, 1968) es un modelo muy popular (comn)
proceso de evaluacin. En este trabajo, nos centraremos en uno de los que se utiliza con tems de respuesta dicotmica. Estos tems son los
pasos del proceso de desarrollo de un instrumento de evaluacin, en tpicos en un examen de rendimiento acadmico donde cada tem se
concreto el referido al anlisis de la utilidad de los tems para el pro- formula con dos opciones de respuesta, donde hay una respuesta que
psito de la evaluacin y en qu medida estos tems permiten cumplir es la correcta y otra que es incorrecta. Un modelo de TRI predice la
con los objetivos de evaluacin definidos en el propio test. Para tal fin probabilidad de respuesta a un tem basndose en diferentes parme-
introduciremos al lector en los modelos de medida de la Teora de tros de los tems. En el modelo 3PL son tres los parmetros que defi-
Respuesta al tem (TRI) y expondremos un ejemplo a travs del an- nen las caractersticas de cada tem (a) discriminacin del tem (es
lisis de una escala de depresin-ansiedad para su uso con estudiantes decir, parmetro a; un parmetro que mide la capacidad del tem para
en Educacin Secundaria. diferenciar a los sujetos en funcin de su nivel en el rasgo latente), (b)
la dificultad del tem (es decir, parmetro b), y (c) pseudo-adivinacin
Teora de Respuesta al tem: supuestos y (es decir, parmetro c; indica la posibilidad de que un sujeto pueda
modelos acertar el tem por azar). Adems de los parmetros de los tems, en
cualquier modelo de TRI tenemos que considerar los parmetros refe-
La Teora de Respuesta al tem representa una alternativa a la Teo- ridos a los sujetos, es decir, los parmetros de habilidad o rasgo latente
ra Clsica de Tests (TCT). Sin duda, la TCT es ms popular en su uso, (). Otros modelos (por ejemplo, el de dos parmetros 2PL) se pueden
de este modo, la mayora de los instrumentos que se han desarrollado utilizar, dependiendo de la naturaleza de los datos. Por ejemplo, si la
lo han sido a partir de la misma. Sin embargo, no podemos obviar que adivinacin no es posible o no se puede asumir, el 2PL (es decir, sin el
hemos sufrido un cambio importante y se ha pasado a la utilizacin de parmetro c) puede ajustarse mejor a los datos que el modelo 3PL. El
modelos matemticos de medida que imponen severas restricciones a modelo 1PL, es un modelo bastante elegante y simple, es posible ajus-
los datos para justificar que el instrumento construido y los tems que tarlo cuando se asume que no hay azar en las respuestas y los tems
forman parte del mismo miden de manera apropiada el constructo o presentan la misma capacidad discriminativa, es decir, igual discrimi-
variable de inters. Sin embargo, observamos que en muchos casos nacin. Por lo tanto, slo el parmetro b se utiliza para predecir la
se combina el uso de ambos mtodos, TRI y TCT, en el desarrollo de probabilidad de una respuesta correcta. El modelo de 3PL viene dado
tests (Muiz, 2010). Los modelos de respuesta al tem, al igual que por la siguiente expresin:
los modelos de regresin logstica, se pueden considerar modelos de
regresin no lineal (Hambleton, Swaminathan, & Rogers, 1991; Neter, 1 ci
PU i
1| ci
Kutner, Nachtsheim, & Wasserman, 1996). El anlisis usando TRI, 1 e 1.7 ai bi
a travs de modelos matemticos, nos proporciona una visin de la donde
relacin entre el nivel en el rasgo de un individuo (por ejemplo, nivel Habilidad o rasgo latente del evaluado
de depresin) y las caractersticas de los tems. La TRI depende de c i parmetro de pseudo - azar para el tem i
algunos supuestos clave. Dos supuestos importantes de estos modelos a i parmetro de discriminacin para el tem i
son unidimensionalidad e independencia local de los tems. El pri-
bi parmetro de dificultad para el tem i
mero supone que los tems miden esencialmente uno y slo un rasgo
latente, mientras que el segundo, independencia local, asume que las
respuestas de un individuo para cualquier pareja de tems en el test no El modelado de la respuesta a un tem proporciona lo que se deno-
estn relacionadas cuando consideramos un mismo nivel en el rasgo, mina una funcin de respuesta al tem (FRI) o curva caracterstica del
es decir, cuando la habilidad se mantiene constante. Adems, como tem (CCI). La Figura 1 contiene bik* cada
1.7 a i (para ) uno de 5 tems de respuesta
e
caracterstica importante a considerar, la TRI proporciona estima- dicotmica Pik ( )
*
su CCI. Este grfico ayuda
*
a explicar la relacin entre la
i ( bik ) (conocimiento en matem-
1.7 aevaluada
ciones invariantes de las propiedades psicomtricas de los tems, as habilidad latente que 1 e
est siendo
como de las caractersticas de los sujetos, es decir, que los parmetros ticas) y la probabilidad de un estudiante de responder correctamente al
que caracterizan al tem y al test son menos dependientes de la mues- tem. La dificultad del tem (b) representa el nivel de dificultad del tem
tra particular de sujetos utilizada y que los parmetros que caracteri- y se define como el nivel de habilidad (a menudo etiquetado como ,
zan al sujeto no dependen de la muestra particular de tems utilizada. theta) en la que un individuo tiene una probabilidad del 50% de respon-
Este supuesto es una ventaja de la TRI que la hace especialmente reco- der correctamente al tem. La discriminacin (a) representa la capaci-
mendable debido a que los parmetros de los tems se supone que dad del tem para discriminar entre individuos con diferentes niveles
son invariantes en la poblacin de sujetos. Embretson y Reise (2009), de habilidad, y es proporcional a la pendiente de la CCI en el valor de
Hambleton et al. (1991), Lpez-Pina (1995), Muiz (1997) y De Ayala dificultad del tem. Las CCIs del ejemplo, representan tems con dife-
(2009) sirven como excelentes fuentes para un tratamiento ms en rentes valores de discriminacin, lo que indica que se puede diferen-
profundidad de los supuestos, tambin se puede consultar el libro de ciar bastante bien a aquellos sujetos con niveles de habilidad cercanos
Abad, Olea, Ponsoda y Garca (2011). a la dificultad del tem tanto por encima de su valor como por debajo.
La TRI proporciona una amplia gama de modelos que permite Cuanto ms pronunciada es la pendiente de la curva mayor es la discri-
trabajar con tests tanto unidimensionales como multidimensionales y minacin del tem. Por otro lado, cuando la curva para una respuesta
con distintos formatos de respuesta (dicotmico, politmico, conti- de 1 (es decir, una respuesta correcta) se encuentra ms desplaza a la
nuo,...). En Mellenbergh (1994) y Hambleton y Van der Linden (1997) derecha en la escala de habilidad, ms difcil es el tem, es decir, es nece-
encontramos una exposicin detallada de estos modelos. Estos mode- sario un nivel en el rasgo ms alto para que el individuo acierte el tem.
los se diferencian en funcin del nmero de parmetros que contie- Por ejemplo, el tercer tem de la fila superior, ms a la derecha, es el tem
nen dependiendo de los supuestos que subyacen a los datos. Comen- ms fcil, mientras que el tem de la fila inferior de la derecha es el ms
Mara D. Hidalgo-Montesinos & Brian F. French 15

difcil. A travs de una transformacin de las CCIs podemos obtener ms precisa. Esta funcin de informacin en TRI est relaciona con la
funciones de informacin del tem. En la Figura 1 (Panel A) las FFIs fiabilidad de la medida. Cuanta ms informacin tiene un tem o un
estn representadas por las lneas de puntos. Tal y como se puede obser- test, ms precisa es la estimacin de la habilidad para un sujeto. En TRI
var, el segundo tem de la fila superior es el que proporciona la mayor cuanto ms precisa sea la estimacin mayor ser la fiabilidad. Una dife-
informacin (es decir, el pico ms alto), mientras que el tercer tem de rencia clave en TRI, en comparacin con TCT, es que la informacin, y
la fila superior proporciona menor cantidad de informacin (es decir, por lo tanto la precisin, puede variar a travs de la distribucin o con-
la curva con el pico ms bajo). Estas funciones representan la cantidad tinuo de habilidad. Adems, el error tpico (lnea de puntos en la Figura
de informacin que proporciona un tem en cada nivel del continuo de 1, panel inferior) es la inversa de la funcin de informacin. El grfico
habilidad. Sumando las FFIs de los tems, obtenemos una funcin de inferior de la Figura 1 (panel B) indica que este conjunto de tems es
informacin para el test de 5 tems (parte inferior de la Figura 1, lnea ms preciso cuando = -0.5, y menos preciso en valores de habilidad
continua), que nos informa en qu nivel de habilidad la evaluacin es por debajo de = -3 o por encima de = 3.

Figura 1. Panel A: Curvas Caracterstica del tem para 5 tems y sus respectivas funciones de informacin (lnea de puntos) y Panel B: Funcin de
Informacin del Test (lnea continua) y Error Tpico de Medida (lnea discontinua).

1.0 0 1 1.0 0 1 1.0 1


1.4 1.4 1.4
0
1.2 1.2 1.2
0.8 0.8 0.8
1.0 1.0 1.0
0.6 0.6 0.6
0.8 0.8 0.8

0.4 0.6 0.4 0.6 0.4 0.6

0.4 0.4 0.4


0.2 0.2 0.2
0.2 0.2 0.2

0.0 0.0 0.0 0.0 0.0 0.0


-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
Theta Theta Theta
1.0 0 1 1.0 0 1
1.4
1.4

1.2 1.2
0.8 0.8
1.0 1.0

Information
0.6 0.6
0.8 0.8

0.6 0.4 0.6


0.4
0.4 0.4
0.2 0.2
0.2 0.2

0.0 0.0 0.0 0.0


-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3

Theta Theta
Panel A
0.9
12
11 0.8
10
0.7
9
0.6
8
7 0.5
6
0.4
5
4 0.3

3 0.2
2
0.1
1
0 0.0
-3 -2 -1 0 1 2 3
Theta
Panel B
16 Una introduccin didctica a la Teora de Respuesta al tem

Esta informacin, en combinacin con las CCIs se puede utilizar En este modelo, hay un parmetro a para cada tem i y k-1 par-
para llevar a cabo un anlisis emprico de los tems y ayudar al desa- metros de dificultad. Los parmetros bik nos proporcionan infor-
rrollo y depuracin del instrumento de evaluacin. Es decir, podemos macin sobre la probabilidad de cambio de una categora hacia el
utilizar esta informacin grfica para sealar un lugar en la distribucin siguiente paso o categora. Adems, estos parmetros se encuentran
de habilidad donde necesitamos ms precisin y seleccionar tems que ordenados en modo ascendente, reflejando precisamente este pro-
permitan alcanzar ese objetivo en esa zona. Esto es muy til cuando ceso acumulativo.
tenemos que ser precisos en un cierto nivel de habilidad para tomar En el MRG cada tem viene definido por un parmetro de dis-
decisiones que implicarn graves consecuencias sobre los individuos. criminacin (a) y k-1 parmetros umbrales (p.e., si k=4 seran b1, b2,
Por ejemplo, si estamos seleccionando estudiantes para un programa de b3) (Samejima, 1969). Los tems con valores de a ms altos se asume
altas capacidades, necesitaremos una evaluacin muy precisa en el nivel que discriminan de manera ms precisa, mientras que los parmetros
de habilidad de 2.5. Aqu es donde queremos que la curva de informa- umbrales corresponden al nivel theta () en el rasgo latente necesa-
cin alcance un valor ms alto y, por tanto, el error tpico sea el ms rio para responder a un cierto punto en la escala (i.e., 1, 2, 3, o 4).
bajo. Por lo tanto, nos gustara buscar tems que tengan FFIs con mxi- En el ejemplo de este artculo, (theta) representa la variable latente
mos cercanos a esta zona para asegurar que construimos un criterio estimada por el cuestionario (depresin-ansiedad), esta variable viene
preciso focalizando la evaluacin en este nivel de habilidad. Esta situa- dada en unidades de desviacin tpica, es una escala de puntuacin
cin tambin es la tpica que se produce cuando tenemos que realizar tipificada (Media=0 y DT=1).
un diagnstico clnico usando un punto de corte en un test.
Una vez presentados los conceptos bsicos de los modelos de TRI Directrices para evaluar el comportamiento
para tems dicotmicos, vamos a pasar a modelos de TRI ms com- del tem
plicados que subyacen a la mayora de las escalas y cuestionarios de
personalidad que pueden ser utilizados con adultos, adolescentes y Un paso inicial en el desarrollo o mejora de una escala es llevar a
nios en contextos de evaluacin psicolgica. Muchas de las medidas cabo un anlisis de los tems con el objetivo de identificar qu tems en
de personalidad utilizan tems que se puntan en una escala ordinal cada escala estn funcionando de una manera apropiada y qu tems
o de valoracin (por ejemplo, Totalmente de acuerdo a Totalmente pueden necesitar una revisin o incluso ser sustituidos por otro. Un
en desacuerdo), que solemos referirnos como tems politmicos. Al tem que funcione bien debe discriminar a los sujetos evaluados en
igual que con los tems puntuados de forma dicotmica, encontra- todos los niveles de (esto es, debe tener un valor de a relativamente
mos varios modelos de TRI que pueden ser seleccionados en funcin alto), utilizar las cuatro opciones de respuesta (cada curva de respuesta
del tipo de datos, es decir, de los supuestos de esos datos. Los tres debe distribuirse en distintos valores de ), y reunir informacin sufi-
elementos claves para identificar el modelo de TRI ms apropiado ciente (es decir un valor relativamente alto informacin). Este proceso
para tales tipo de datos son: (a) atractivo terico, (b) tamao apro- se completa en varios pasos utilizando varias fuentes de informacin.
piado de la muestra, y (c) ajuste del modelo (Penfield, 2014). En Pen- En primer lugar, los parmetros a pueden ser evaluados siguiendo
field (2014) se presenta una excelente visin general de los modelos los criterios de Baker (2001), donde el valor de a de .65 se utiliza como
de TRI para tems politmicos. Tales modelos incluyen el Modelo el umbral mnimo para que un tem tenga un funcionamiento acep-
de Respuesta Graduada, el Modelo de Crdito Parcial, y el Modelo table, a > 1.34 indica que el tem tiene un nivel elevado de funcio-
Nominal, por nombrar algunos. Sobre la base de las caractersticas namiento, y a > 1.69 indica un tem con un funcionamiento muy
de la escala de depresin-ansiedad que utilizaremos de ejemplo en elevado. Los tems siempre deben ser evaluados combinando los
este artculo, el modelo ms apropiado sera el Modelo de Respuesta resultados estadsticos con el contenido de los mismos, es decir, con-
Graduada (MRG). El MRG es un modelo comnmente usado, ya que siderando de manera conjunta los aspectos terico-substantivos de
se puede aplicar a escalas que utilizan varias opciones de respuesta. los tems y sus parmetros estimados. Aquellos tems que no cumplen
Este modelo implica que las puntuaciones en un tem (por ejemplo, con el umbral mnimo (a <.65) pueden ser revisados por expertos en
0, 1, 2, 3) estn ordenadas, y una puntuacin o respuesta ms alta, de el tema. En segundo lugar, se evalan las CCIs. Los tems en los que no
un sujeto indica un nivel ms alto en la caracterstica o habilidad que se ha utilizado alguna de las cuatro opciones de respuesta (es decir, las
est siendo evaluada. En el MRG, que es una extensin del modelo curvas caractersticas se solapan, ver la Figura 2, panel D) y obtienen
de 2PL que se ha descrito anteriormente, la capacidad del tem para valores de a bajos deben ser revisados por expertos en el tema. En
discriminar entre los niveles del rasgo latente se mantiene constante tercer y ltimo lugar, se evalan las funciones de informacin para
mientras que la dificultad del tem se establece
1 c i en cada paso del tem cada uno de los tems, y aquellos tems que proporcionan poca infor-
(Penfield, 2014, p.P10),
Ui |
o1cuando c i una
respuesta
1 e 1.7 ai bpasa
i de una categora macin (es decir, aquellos cuya curva informacin es plana, vase la
de respuesta a otra.
dondeEs decir, si tenemos una escala de respuesta de 4 Figura 3, panel D) tambin deben ser revisados. Aquellos tems que
puntos (p.e., 1, 2, 3, Habilidad
4) tendramos k-1latente
o rasgo del evaluadob) puesto
pasos (parmetros superan estas fases se pueden mantener en el test. Por el contrario,
que la respuesta del sujeto pasa de (a) 1 a 2; (b) 2 a 3, o (c) 3 a 4. Siendo aquellos que han sido identificados en el proceso deben ser revisados
c i parmetro de pseudo - azar para el tem i
k el nmero de opciones de respuesta al tem. De este modo, en el o sustituidos. Ms all de estos criterios, existen pruebas estadsticas
modelo tendramos a i 3 parmetro
parmetrosdeb discrimina
o parmetros cin para el tem i
umbrales. de bondad de ajuste de los tems y de diagnstico de los modelos que
b parmetro de dificultad
El modelo se iformula en trminos de probabilidades para el temacumulati-
i se utilizan en el proceso de evaluacin, que por cuestin de espacio no
vas, de diferencias entre probabilidades acumuladas. La probabilidad sern comentadas en este trabajo. Para una buena revisin aplicada de
de que un sujeto pueda seleccionar una categora de respuesta k o la evaluacin del ajuste de tems en TRI remitimos al lector al exce-
superior viene dada por: lente trabajo de Ames y Penfield (2015), tambin se puede acudir a
1.7 a i ( bik* ) algunas de las referencias ms generales que se han ido mencionando
e a lo largo de este trabajo. Una vez que se adquiere un dominio bsico
P ( )
*
ik * en los modelos, es bastante sencillo captar los detalles adicionales.
1 e 1.7 ai ( bik )
Mara D. Hidalgo-Montesinos & Brian F. French 17

Un ejemplo: Escala de Depresin-Ansiedad grado en que se producen esos sentimientos. Cuatro de los enun-
ciados pregunta a los jvenes acerca de sntomas de la depresin.
Uno de los grandes desafos de los tribunales de menores y los Los otros cuatro tems abordan los sntomas de ansiedad. Los sen-
responsables educativos es encontrar la mejor manera de ayudar a los timientos de depresin y ansiedad suelen ser comunes en la ado-
jvenes que estn experimentando mltiples problemas conductuales lescencia. Sin embargo, los jvenes en riesgo informarn sobre
y emocionales, y para quienes tanto la asistencia al centro educativo estos sntomas con ms frecuencia y por lo general por un perodo
como su rendimiento acadmico es bajo. Existe una fuerte asociacin prolongado de tiempo. Los cuatro tems que hacen referencia a la
entre el fracaso escolar y la implicacin en el sistema de justicia de depresin son: (a) Sent que nada me podra animar, (b) Me sent
menores, especialmente para los jvenes con problemas relacionados hundido, triste, e infeliz, (c) Me sent desesperado sobre el futuro, y
con el abuso de sustancias, trastornos psiquitricos, y absentismo (d) No me importa nada ni nadie. Estos tems evalan la frecuencia
escolar. Para ayudar a identificar a los estudiantes que tienen cierto de sntomas tales como tristeza, desesperanza y falta de inters. Los
riesgo y muestran necesidades, podemos usar varias medidas. En con- tems referidos a ansiedad son: (a) Estaba tan preocupado o alte-
creto el Washington Assessment of the Risks and Needs of Students rado por cosas que era difcil concentrarse, (b) He tenido problemas
(WARNS) es un autoinforme breve (40 tems, 20 minutos) para estu- para dormir o comer, porque no poda quitarme algo de mi mente
diantes entre 13 y 18 aos de edad. Est diseado para permitir que (cabeza), (c) Me sent ms tenso, irritado, o preocupado de lo habi-
los centros educativos, los tribunales y los responsables del sistema tual, y (d) Me puse tan nervioso, me senta mal, tena problemas para
educativo puedan evaluar riesgos individuales y necesidades que pue- respirar, o me sent tembloroso. Estos tems evalan la frecuencia de
den dar lugar al absentismo escolar y/o el fracaso escolar. Esta medida sntomas tales como malestar ms all de una experiencia normal,
evala experiencias en varios dominios que son crticos para el desa- quejas somticas, tales como nuseas, comer o dormir. La fiabilidad
rrollo social, emocional y educativo saludable. La WARNS evala seis estimada como consistencia interna usando alfa de Cronbach fue de
dominios que estn relacionados con el absentismo escolar, la delin- .87. Adems, la estructura factorial analizada en estudios previos,
cuencia en la escuela, y otros comportamientos desadaptativos (Ham- ha mostrado que esta escala evala un factor dominante (es decir, la
mond, Linton, Smink, & Drew, 2007; Howell, 2003). Las seis escalas depresin-ansiedad), que cumple con el supuesto de la TRI de que
incluyen (a) Compromiso con la escuela, (b) Ambiente familiar, (c) la escala sea esencialmente unidimensional.
Abuso de Sustancias, (d) Desviacin del grupo de iguales, (e) Agre-
sin-Desafo, y (f) Depresin-Ansiedad. Participantes
Para este ejemplo, nos centraremos en comportamientos o snto-
mas internos, que un estudiante experimenta comnmente, pero que Los participantes fueron adolescentes (N=937, 52.8% chicos)
pueden ser difciles de detectar mediante la observacin directa en entre 11 y 19 aos de edad del Estado de Washington en Estados Uni-
el centro educativo. Por lo tanto, nos vamos a centrar en la escala de dos. El origen tnico de los participantes fue predominantemente cau-
Depresin-Ansiedad, que evala niveles de comportamientos o snto- csicos (50.5%) e hispanos/latinos (32.1%). El 38% de los estudiantes
mas de expresin interna, que tienden a tomar forma como depresin nunca haban sido expulsados del centro de estudios, el 10% con 11
y ansiedad, y puede dar lugar a una intensa tristeza, desesperanza, o ms expulsiones; 65.5% nunca haba sido detenido, el 9.3% con 3
y problemas de sueo y alimentacin (American Psychiatric Asso- o ms detenciones). Los estudiantes completaron la escala bien en la
ciation, 2013). La depresin y la ansiedad, cuando son frecuentes o escuela o en una oficina de apoyo local a la educacin como parte de
graves, pueden llevar a obstaculizar el funcionamiento fsico, social la evaluacin de riesgo y necesidades.
y psicolgico. Adems, puede dar lugar a comportamientos suicidas,
autolesiones, deterioro del funcionamiento cognitivo, y bajo rendi- Resultados
miento escolar (American Psychiatric Association, 2013). El WARNS
combina la evaluacin de la depresin y la ansiedad dado que en jve- Se estim el modelo MRG utilizando el paquete de software
nes estos sntomas ocurren al mismo tiempo (por ejemplo, Hinden IRTPRO3, publicado por ssicentral.com. La Teora de Respuesta
et al., 1997). En esta evaluacin las puntuaciones fueron diseadas al tem de resultados informados por los pacientes (Item Response
de manera que niveles ms altos de depresin y ansiedad vienen Theory for Patient-Reported Outcomes, IRTPRO) es una nueva
indicados por puntuaciones ms altas en la escala. Para favorecer la aplicacin para el calibrado de tems y puntuaciones del test utili-
identificacin de aquellos jvenes con mayor riesgo y necesidades, la zando TRI. IRTPRO3 permite estimar los modelos de 1, 2 y 3PL,
mayora de la informacin, en el marco de la TRI debe estar en el el MRG y el Modelo Nominal. Adems, dispone de una variedad
extremo superior de la distribucin del rasgo latente, en nuestro caso de mtodos de estimacin, rutinas para la obtencin de puntua-
en depresin y ansiedad. Por lo tanto, si los tems de esta escala estn ciones, y anlisis de tems incluido el anlisis del Funcionamiento
funcionando correctamente la funcin de informacin del test debe- Diferencial del tem (DIF), siendo un programa que dispone de
ra mostrar un pico, proporcionar mayor informacin, en niveles de una interfaz de fcil uso. En el ltimo apartado de este trabajo se
Depresin-Ansiedad cercanos al nivel de 2.0 (dos unidades de desvia- ofrece ms informacin acerca del software disponible para el an-
cin tpica por encima de la media) siendo en estos niveles del rasgo lisis usando la TRI.
el menor error de estimacin. Adems, tambin nos interesa observar La TRI dispone de un estadstico para evaluar la fiabilidad, de
las respuestas a cada uno de los tems de la escala. manera similar a la fiabilidad como consistencia interna de la TCT.
Tal y como se coment anteriormente la estimacin de la fiabilidad
Instrumento segn la TCT fue de .87. La estimacin de fiabilidad marginal usando
la TRI para esta misma escala 8 tems es de .84. Estos valores se
La Escala de Depresin-Ansiedad contiene 8 tems. El formato encuentran dentro del mismo rango y llevaran al usuario a la misma
de respuesta de los mismos se encuentra en una escala de 4 puntos: conclusin substantiva sobre la estimacin observada o latente del
(a) Nunca, (b) A veces, (c) A menudo, y (d) Siempre que indican el rasgo evaluado a partir de estos 8 tems. Hay que tener en cuenta que a
18 Una introduccin didctica a la Teora de Respuesta al tem

medida que aumenta la fiabilidad disminuye el error tpico de medida, tpico de medida (lnea discontinua). La funcin de informacin
independientemente de trabajar desde la TCT o la TRI. Por lo tanto, de la escala se obtiene como la suma de las funciones de infor-
cuanto ms fiables sean los resultados obtenidos, ms precisa ser la macin de los tems en cada nivel del rasgo. Tal y como podemos
medicin de la variable. Sin embargo, en TRI la fiabilidad es ms fcil observar, la escala es ms precisa o proporciona ms informacin
de entender en trminos de la funcin de informacin, tal y como se en torno a los niveles de depresin-ansiedad de 1.5 a 2.0 o por
ha comentado en la presentacin de la Figura 1. Cuanta mayor infor- encima de niveles medios de depresin y ansiedad. Por otro lado,
macin proporciona un test o un tem, mayor es la precisin en la el error es mayor, menos precisin, en niveles bajos de la variable
estimacin del rasgo o caracterstica del individuo. Lo ms importante (de -1 a -3). Para el propsito de nuestro test, esto puede ser desea-
en TRI, diferente a la TCT, es que la precisin puede ser evaluada en ble, ya que la finalidad es identificar con precisin aquellos jve-
cada nivel del rasgo psicolgico que est siendo medido y por lo tanto nes con altos niveles de depresin y ansiedad. De hecho, la lnea
puede no ser constante tal y como asume la TCT. La Figura 3, panel A horizontal establecida en la puntuacin estimada de 1.50 podra
nos puede ayudar a comprender esta idea. ser el punto de corte para determinar la necesidad de interven-
El panel A de la Figura 3 contiene la funcin de informacin cin. Si esto fuera as, sera en dicho nivel de la variable donde el
de la escala de Depresin-Ansiedad (lnea continua), y el error instrumento es ms preciso.

Tabla 1. Parmetros estimados segn el Modelo de Respuesta Graduada para los tems de Escala de Depresin de la WARNS.

Item a s.e. b1 s.e. b2 s.e. b3 s.e. S-2 p

1 0.51 0.08 1.65 0.27 2.98 0.46 3.92 0.60 54.87 .40

2 1.58 0.11 -0.40 0.06 1.27 0.08 2.40 0.15 50.58 .22

3 2.47 0.16 -0.46 0.05 0.77 0.05 1.65 0.08 84.37 <.01

4 2.51 0.17 -0.28 0.05 0.68 0.05 1.54 0.08 52.67 .08

5 1.82 0.12 -0.26 0.06 1.28 0.08 2.46 0.14 56.34 .10

6 2.79 0.19 -0.14 0.05 1.02 0.06 2.07 0.10 42.96 .23

7 1.81 0.14 0.53 0.06 1.69 0.10 2.73 0.17 60.08 .08

8 1.42 0.11 0.11 0.06 1.83 0.12 2.90 0.20 58.42 .22

a = parmetro de discriminacin; s.e. = error tpico para la estimacin obtenida; b1-3 = parmetros umbrales o valores de dificultad que reflejan el cambio de una
categora de respuesta a otra.

En la Tabla 1 se presentan los parmetros estimados junto a sus de esperar. Adems, podemos observar que los valores de b, en cada
errores tpicos para cada uno de los 8 tems. Hay que tener en cuenta tem, estn ordenados de modo ascendente, aumentan de valor de b1 a
que hay tres estimaciones para el parmetro b, una para cada umbral b3. Esta cuestin es importante, ya que se requiere de niveles ms altos
dado que tenemos 4 opciones de respuesta, es decir, k-1 umbrales. de depresin-ansiedad para dar una respuesta de 4 comparada con
La segunda columna de la tabla contiene el parmetro a (discrimina- una respuesta de 3 o una de 2 o una de 1. Las dos ltimas columnas
cin del tem), segn los criterios anteriormente comentados, todos de la tabla informan de un valor de chi-cuadrado y de su probabili-
los tems presentan valores de discriminacin buenos, siendo el tem dad asociada (p), que hacen referencia a una prueba de ajuste estads-
6 el ms discriminativo y el tem 1 el menos discriminativo con un tico del tem al MRG (Orlando & Thissen, 2000, 2003). En este caso,
valor ligeramente inferior al criterio establecido. Las columnas 4, 6 y slo un tem, tem 3, tiene un valor estadsticamente significativo por
8 contienen los parmetros umbrales referidos a la habilidad mnima debajo de .01. Despus de tener en cuenta el ajuste por los mltiples
para pasar de una respuesta de 1 a 2, 2 a 3, y de 3 a 4, respectiva- contrastes estadsticos, donde debemos considerar un nivel de signi-
mente. Tal y como podemos observar en la tabla, segn los valores ficacin ms bajo, y de revisar el comportamiento del tem, no parece
de b1, no es necesario tener un nivel muy alto de depresin-ansiedad existir un problema con este tem.
(por ejemplo, <0 para 5 de los 8 tems) para pasar de una respuesta La Figura 2 representa las curvas caractersticas del tem (CCI)
de 1 (nunca) a una de 2 (a veces). Sin embargo, si es necesario tener de cuatro de los ocho tems de la escala (tems 2, 4, 7 y 8). Estos gr-
un nivel alto en el rasgo (por ejemplo, > 2.0 en 6 de los 8 tems) para ficos son quizs una de las principales ventajas del anlisis de tems
pasar de una respuesta de 3 (a menudo) a una de 4 (siempre). Para esta y desarrollo de un test bajo la TRI. A travs de estas CCIs se puede
escala esto es lo apropiado, ya que para elegir la opcin de respuesta 4 fcil y rpidamente tener una visin del funcionamiento de los tems
en comparacin con la 1 2 se requiere un nivel mucho ms alto de a travs del continuo de habilidad y para cada una de las opciones de
depresin-ansiedad, puesto que esta escala es ms precisa y propor- respuesta al tem. El tem 2 en el Panel A (Me sent hundido, triste, e
ciona ms informacin en niveles altos del rasgo. Tambin podemos infeliz), por ejemplo, se enfoca en el centro de la distribucin, con un
observar que los errores tpicos de estimacin son ms altos en los buen uso de todas las alternativas de respuesta y proporciona buena
parmetros de los umbrales ms altos en comparacin al resto, este informacin teniendo en cuenta el apuntamiento de las curvas aso-
resultado posiblemente est relacionado con la menor proporcin de ciado con valores altos de a (1.58). El tem 4 (No me importa nada
sujetos que se sitan en esas categoras de respuesta alta, tal y como es ni nadie), en el Panel B, sigue una tendencia similar. Por el contrario,
Mara D. Hidalgo-Montesinos & Brian F. French 19

Figura 2. Panel A: Curvas Caractersticas del tem para el tem 2; Panel B: Curvas Caractersticas del tem para el tem 4; Panel C: Curvas Caracters-
ticas del tem para el tem 7; y Panel D: Curvas Caractersticas del tem para el tem 8.

1.0 0 1.0 0
3

0.8 0.8

3
0.6 1 0.6
1
2
2
0.4 0.4

0.2 0.2

0.0 0.0
- 3 - 2 - 1 0 1 2 3 - 3 - 2 - 1 0 1 2 3

Theta Theta
Panel A Panel B

1.0 0
1.0 0

0.8
0.8

0.6
3 0.6
1
1
2 3
0.4 0.4 2

0.2 0.2

0.0 0.0

- 3 - 2 - 1 0 1 2 3 - 3 - 2 - 1 0 1 2 3

Theta Theta
Panel C Panel D

el tem 8 (Me puse tan nervioso, me senta mal, tena problemas para importantes que son valiosas para la escala. En primer lugar, todas
respirar, o me sent tembloroso) en el Panel D tiene curvas claramente las opciones de respuesta han sido respondidas y los valores de a son
desplazadas hacia el extremo superior de la distribucin del rasgo, con aceptables. En segundo lugar, se orientan a niveles altos del rasgo (por
un menor apuntamiento, que indican un valor menor de a (1.42). Esto encima del promedio), donde la calidad de los tems es necesaria. En
es coherente con el contenido de este tem, que es ms especfico y tercer lugar, y quizs lo ms importante, su contenido est alineado
sobre emociones ms extremas. El tem 7, ver en el panel C, sigue la con el constructo que se est midiendo siendo un contenido esencial y
misma tendencia. representativo del mismo. Ahora, animamos al lector a tratar de ima-
En la Figura 3 podemos observar las diferencias en la cantidad ginar todas las curvas de informacin de los tems solapadas entre s
de informacin que aportan estos tems y su distribucin a lo largo para formar la Figura del panel A, es decir, la funcin de informacin
del continuo del rasgo. El panel B muestra que el tem 4 proporciona del test. La funcin de informacin de la escala de depresin-ansiedad
la mayora de la informacin, en comparacin con el resto de tems se obtiene como la suma de las funciones de informacin de los tems.
mostrados en la Figura 3, y que la curva se encuentra ligeramente En consecuencia, considerando las estimaciones de los parme-
centrada por encima del nivel medio en Depresin-Ansiedad. En tros, las CCIs, las funciones de informacin de los tems, la funcin
comparacin, los tems 7 y 8, Panel C y D respectivamente, presentan de informacin del test, y la revisin substantiva de los tems, todo
una funcin de informacin ms achatadas y desplazadas al extremo en conjunto sugiere que la escala de depresin-ansiedad funciona
superior de la distribucin del rasgo. A pesar de que estos apunta- segn lo previsto. El anlisis de tems basado en la TRI nos ha per-
mientos no son tan elevados como el del tem 4, y sugiere una posi- mitido esta comprobacin visual sobre la escala y nos ha propor-
ble sustitucin o revisin, estos tems muestran tres caractersticas cionado un componente de evidencia, en principio, para construir
20 Una introduccin didctica a la Teora de Respuesta al tem

Figura 3. Panel A: Funcin de Informacin del Test para la escala de Depresin (lnea continua) y Error tpico de medida (lnea discontinua); Panel B:
Funcin de Informacin para el tem 4; Panel C: Funcin de Informacin para el tem 7; y Panel D: Funcin de Informacin para el tem 8.

10 1.1

9 1.0
2.0

8 0.9

0.8
7
1.5
0.7
6
0.6
5
0.5 1.0
4
0.4
3
0.3
0.5
2 0.2

1 0.1

0 0.0 0.0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
Theta Theta
Panel A Panel B

2.0
2.0

1.5
1.5

1.0 1.0

0.5 0.5

0.0 0.0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
Theta Theta
Panel C Panel D

un argumento de validez para el uso de estas puntuaciones en la funcionamiento diferencial del tem (por ejemplo, IRTLRDIF). Algu-
toma de decisiones sobre los estudiantes con respecto a los niveles nos de estos paquetes son de libre acceso (por ejemplo, IRTLRDIF;
de depresin y ansiedad. R packages), otros tienen una versin para estudiantes (por ejemplo,
IRTPRO 3) para experimentar con ellos o ejecutar anlisis de TRI
Teora de Respuesta al tem: Software dis- sencillos, mientras que otros paquetes requieren comprarlos para
ponible uso. Para comenzar es posible explorar estas diferentes opciones en
sitios web tales como www.ssicentral.com, un importante distribuidor
Hay muchas, quizs demasiadas, opciones de software para rea- de este tipo de software. Como se puede intuir, el extenso nmero
lizar anlisis psicomtricos, incluyendo los anlisis basados en TRI. de opciones puede llegar a ser abrumador. Adems de software, hay
Debido a las limitaciones de espacio, es imposible proporcionar todas libros de texto que nos pueden ayudar a entender la forma de realizar
las ventajas y desventajas de cada programa. De hecho, sera posible el anlisis psicomtrico con programas tanto de TRI especifcos como
escribir un extenso captulo solo sobre este tema. Dicho esto, algunos programas estadsticos generales (por ejemplo, De Ayala, 2009; Finch,
de los principales programas de ordenador utilizados son los paquetes Immekus, & French, 2014).
estadsticos de uso general (por ejemplo, Mplus, SAS, R) que tam-
bin pueden estimar modelos de TRI. Tambin hay una gran cantidad Artculo recibido: 23/04/2016
de paquetes de software que se han construido especficamente para Aceptado: 09/06/2016
el anlisis de TRI generales (por ejemplo, BILOG-MG3, FlexMIRT,
WINMIRA), o incluso para aplicaciones ms especficas tales como Conflicto de intereses
los resultados basados en pacientes (por ejemplo, IRTPRO), elabora-
cin de tests (por ejemplo, PARSCALE), y para anlisis ms concretos, Los autores de este trabajo declaran que no tienen conflicto de intereses.
tales como el anlisis del sesgo de los tems a travs del anlisis de
Mara D. Hidalgo-Montesinos & Brian F. French 21

Referencias Samejima, F. (1969). Estimation of Latent Ability Using a Response Pattern


of Graded Scores (Psychometric Monograph No. 17). Richmond, VA:
Abad, F. J., Olea, J., Ponsoda, V., & Garca, C. (2011). Medicin en ciencias Psychometric Society. Recuperado de http://www.psychometrika.org/
sociales y de la salud. Madrid: Sntesis. journal/online/MN17.pdf
American Educational Research Association, American Psychological Van der Linden, W. J., & Hambleton, R. K. (1997). Handbook of modern item
Association, & National Council on Measurement in Education (2014). response theory. New York: Springer Verlag.
Standards for educational and psychological testing. Washington, DC:
American Psychological Association.
American Psychiatric Association. (2013). Diagnostic and statistical manual of
mental disorders (6th ed.). Washington, DC: Author.
Ames, A. J., & Penfield, R. D. (2015). An NCME instructional module on item-
fit statistics for item response theory models. Educational Measurement:
Issues and Practice, 34, 39-48. doi:10.111/emip.12067
Baker, F. B. (2001).The basics of item response theory. Recuperado de http://
files.eric.ed.gov/fulltext/ED458219.pdf
Cai, L., Thissen, D., & du Toit, S. (2011). IRTPRO [Computer software]. Chi-
cago, IL: Scientific Software.
De Ayala, R. J. (2009).Theory and practice of item response theory. New York,
NY: Guilford Publications.
Embretson, S. E., & Reise, S. P. (2009). Item response theory for psychologists.
New York, NY: Psychology Press.
Finch, W. H., French, B. F., & Immekus, J. C. (2014). Applied psychometrics
using SAS. Charlotte, NC: Information Age Publishing.
International Test Commission (2001). International Guidelines for
Test Use. International Journal of Testing, 1(2), 93-114. doi:10.1207/
S15327574IJT0102_1
Hambleton, R. K., Swaminathan, J., & Rogers, H. J. (1991). Fundamentals of
Item Response Theory. New Bury Park, CA: SAGE Publications, Inc.
Hammond, C., Linton, D., Smink, J., & Drew, S. (2007). Dropout Risk Factors
and Exemplary Programs. Clemson, SC: National Dropout Prevention
Center, Communities In Schools Inc.
Hinden, B. R., Compas, B. E., Howell, D. C., & Achenbach, T. M. (1997).
Covariation of the Anxious-Depressed Syndrome During Adolescence:
Separating Fact From Artifact. Journal of Consulting and Clinical Psycho-
logy, 65, 6-14. doi:10.1037/0022-006X.65.1.6
Howell, J. C. (2003). Preventing and reducing juvenile delinquency: A compre-
hensive framework. Thousand Oaks, CA: Sage.
Lpez-Pina, J. A. (1995). Teora de Respuesta al tem: Fundamentos. Bar-
celona: PPU.
Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores.
Reading, MA: Addison-Wesley.
Mellenbergh, G. J. (1994). Generalized Linear Item Response Theory. Psycho-
logical Bulletin, 115, 300-307. doi:10.1037/0033-2909.115.2.300
Muiz, J. (1997). Introduccin a la teora de respuesta a los tems. Madrid:
Pirmide.
Muiz, J. (2010). Las teoras de los tests: Teora Clsica y Teora de Respuesta a
los tems. Papeles del Psiclogo, 31(1), 57-66. Recuperado de www.papeles-
delpsicologo.es/pdf/1796.pdf
Neter, J., Kutner, M. H., Nachtsheim, C. J., & Wasserman, W. (1996). Applied
Linear Statistical Methods.Chicago, IL: Irwin.
Orlando, M., & Thissen, D. (2000). Likelihood-based item fit indices for dicho-
tomous item response theory models. Applied Psychological Measurement,
24, 50-64. doi:10.1177/01466216000241003
Orlando, M., & Thissen, D. (2003). Further investigation of the perfor-
mance of the S-X2: An item fit index for use with dichotomous item
response theory models. Applied Psychological Measurement, 27, 289-298.
doi:10.1177/0146621603027004004
Penfield, R. D. (2014). An NCME Instructional Module on Polytomous Item
Response Theory Models. Educational Measurement: Issues and Practice,
33, 36-48. doi:10.111/emip.12023

Você também pode gostar