Escolar Documentos
Profissional Documentos
Cultura Documentos
2016;5(17):55---63
http://riem.facmed.unam.mx
ARTCULO DE REVISIN
Programa de Apoyo y Fomento a la Investigacin Estudiantil (AFINES), Facultad de Medicina, Universidad Nacional Autnoma
de Mxico, Mxico D.F., Mxico
b
Departamento de Evaluacin, Secretara de Educacin Mdica, Facultad de Medicina, Universidad Nacional Autnoma
de Mxico, Mxico D.F., Mxico
Recibido el 18 de enero de 2015; aceptado el 27 de julio de 2015
Disponible en Internet el 9 de septiembre de 2015
PALABRAS CLAVE
Exmenes de opcin
mltiple;
Adivinar;
Teora Clsica de los
Tests;
Teora de Respuesta
al tem;
Mxico
KEYWORDS
Multiple-choice tests;
Guessing;
Classical Test Theory;
Resumen Los exmenes de opcin mltiple (EOM) son la herramienta ms difundida en educacin mdica, pero su utilidad est supeditada a la conabilidad del instrumento y la validez
de las inferencias que emanan de la medicin. La posibilidad de adivinar, inherente al formato
de evaluacin, puede introducir varianza irrelevante a la medicin y reducir la representacin
del rasgo latente en la calicacin del examen por diferencias individuales respecto a educated
guessing, testwiseness y la tendencia a adivinar. En este artculo se presentan brevemente las
caractersticas generales de la Teora Clsica de los Tests (TCT) y la Teora de Respuesta al tem
(TRI) y su abordaje al problema de adivinar. Asimismo, se propone un modelo terico dentro de
la TCT que integra los mecanismos que afectan la adivinacin y se determina la variacin de la
probabilidad de aprobar un EOM, en funcin de ciertos supuestos respecto a adivinar a travs
de un anlisis terico dentro de un modelo TRI. Es posible concluir que algunas caractersticas
de los tems propician la adivinacin, y cuando sta ocurre se encuentran inmersas diversas
variables, relacionadas o independientes, del rasgo que se pretende medir, que determinan la
magnitud de su efecto.
Derechos Reservados 2015 Universidad Nacional Autnoma de Mxico, Facultad de Medicina.
Este es un artculo de acceso abierto distribuido bajo los trminos de la Licencia Creative
Commons CC BY-NC-ND 4.0.
Insights into guessing in multiple choice questions and its effect in the assessment
outcome
Abstract Multiple-choice tests (MCT) are the most employed assessment tool in medical education; however, its use is limited to the instrument reliability and validity of the inferences made
Autor para correspondencia: Departamento de Evaluacin, Secretara de Educacin Mdica. Av. Universidad N 3000, Edif. B, 3er piso,
C.U., C.P. 04510, Mxico D.F., Mxico. Tel.: +56-23-23-00 Ext. 43034.
Correo electrnico: iwin.leenen@gmail.com (I. Leenen).
La revisin por pares es responsabilidad de la Universidad Nacional Autnoma de Mxico.
http://dx.doi.org/10.1016/j.riem.2015.07.004
2007-5057/Derechos Reservados 2015 Universidad Nacional Autnoma de Mxico, Facultad de Medicina. Este es un artculo de acceso
abierto distribuido bajo los trminos de la Licencia Creative Commons CC BY-NC-ND 4.0.
56
A. Jurado-N
nez, I. Leenen
Item Response
Theory;
Mexico
upon the measurement. Guessing, an inherent element of this evaluating tool, may introduce
construct-irrelevant variance and reduce the load of the latent trait in the score of the exam
due to individual differences regarding educated guessing, testwiseness and guessing tendency.
This article presents an overview of Classical Test Theory (CTT) and Item Response Theory (IRT),
including a discussion of how each theory addresses the guessing phenomenon. With respect to
the latter, we propose a theoretical model that integrates factors related to guessing within
the CTT framework. We further include a theoretical analysis, which displays the variation of
the probability of passing a MCT reliant on certain assumptions regarding guessing that are akin
to a particular IRT model. In conclusion, various features of the items increase the likelihood
of guessing, and, when guessing takes place, the magnitude of its effect is determined by some
variables that can be dependent or independent of the latent trait.
All Rights Reserved 2015 Universidad Nacional Autnoma de Mxico, Facultad de Medicina.
This is an open access item distributed under the Creative Commons CC License BY-NC-ND 4.0.
Introduccin
Los exmenes de opcin mltiple (EOM) son la herramienta ms utilizada en educacin mdica al hacer posible
una evaluacin objetiva, estandarizada, costo-efectiva y
eciente1---3 . Un tem de opcin mltiple (IOM) desarrollado
de forma correcta puede evaluar desde memoria hasta procesos cognitivos superiores como razonamiento clnico y
toma de decisiones. Otras ventajas incluyen: a) un muestreo
ms extenso del contenido por evaluar, y b) una administracin y calicacin en poco tiempo, aun en grandes
poblaciones de estudiantes4 . Esta forma de evaluacin se
ha utilizado a gran escala internacionalmente y ha sido un
tema central en investigacin en educacin desde el siglo
pasado. Lo que se espera de cualquier mtodo de evaluacin
educativa es que proporcione una medicin lo ms certera
posible del rasgo latente que se pretende medir. La validez del mtodo es especialmente trascendente cuando se
trata de exmenes sumativos, donde el puntaje se utiliza
para tomar decisiones sobre los sustentantes (en educacin
mdica, concretamente, de ste puede depender la emisin de un ttulo o el acceso a un curso de especialidad).
Por ello, es indispensable que los EOM, como instrumento
de medicin, sean lo ms conables, vlidos y justos
posible.
Respecto a estas tres caractersticas, surge un elemento
inherente a este formato de evaluacin que siempre se ha
cuestionado: la posibilidad de adivinar. Existe la posibilidad
de que los sustentantes sumen puntos que no representen
dominio sobre el tema e incluso, al menos tericamente,
que aprueben un examen a expensas de una ventaja del propio formato. Esta posibilidad se presenta aunque se adivine
a ciegas. Sin embargo, pocas veces el sustentante tiene que
adivinar a ciegas. Por un lado, los EOM suelen incluir tems
con deciencias en su construccin, que permiten descartar
una o ms opciones o inferir la respuesta correcta, incluso
con un bajo nivel de conocimiento5---7 . Este fenmeno
se conoce como testwiseness8 . Por otro lado, es comn que,
con base en un conocimiento parcial, el sustentante pueda
descartar uno o ms distractores de un IOM, lo cual se ha
denominado informed guessing o educated guessing9---11 .
En general, adivinar constituye una fuente de error de
medicin que puede convertirse en sesgo estadstico12 .
Por lo tanto, la decisin sobre el punto de corte entre
(1)
57
TW
TA
SA
58
un distractor, pero insuciente para reconocer la respuesta
correcta. Puesto que EG es una conducta subordinada totalmente a , est implcitamente presente en la echa que
indica el efecto de sobre V en la gura 1.
La gura 1 incluye un tercer factor que afecta V: la tendencia a adivinar (TA). Contrario a TW y EG, la accin de la
TA no conlleva una distincin entre las m opciones de respuesta, sino afecta la probabilidad de dejar o no en blanco
el tem en caso de incertidumbre. Especialmente cuando
se aplica una frmula de correccin (vase abajo), los sustentantes dieren respecto a la decisin de dejar IOM sin
contestar20 . La aversin al riesgo y la concepcin respecto
a la prctica de adivinar son algunos factores que inciden
sobre la magnitud de la TA. Por ejemplo, alguien puede opinar que es incorrecto sumar puntos a travs de la suerte
o que adivinar distorsiona la calicacin en el examen; por
tanto, la magnitud del efecto de la TA sera baja. Cabe mencionar que el efecto de la TA, al referirse a una tendencia
general del sustentante hacia la incertidumbre en los IOM, es
sistemtico sobre V; se considera una variable moderadora
que inuye en cmo y TW afectan a V.
A. Jurado-N
nez, I. Leenen
Es interesante plantear el debate entre defensores y oponentes de la frmula de correccin dentro del modelo que se
present en la gura 1. El argumento a favor enfatiza la disminucin del efecto de la SA sobre la puntuacin observada,
la cual benecia la conabilidad del examen. El argumento
en contra resalta que la frmula fortalece la inuencia de la
TA sobre V a expensas de y, por ende, atena la validez del
examen. Segn los detractores de la frmula, la intencin
de que se reponga la conabilidad perdida en adivinar no se
logra, y se compromete ms la validez del instrumento por
la varianza irrelevante agregada a la medicin.
59
El modelo Nedelsky
El modelo Nedelsky38 asimismo distingue entre los distintos distractores de un IOM, pero adopta unos supuestos ms
simples ----y sobre todo psicolgicamente diferentes---- que
los mencionados en el prrafo anterior. Supone un proceso
que consiste en dos pasos. Primero, el sustentante realiza de forma independiente una evaluacin de cada opcin
de respuesta; en el caso de que sea un distractor, la evaluacin posiblemente le lleva a identicar la opcin como
incorrecta. La probabilidad de que esto ocurra depende de
caractersticas de la opcin (como su dicultad) y del nivel
del sustentante en la variable latente (las personas dieren respecto a su habilidad para identicar distractores).
Ntese que el modelo excluye la posibilidad de rechazar
la opcin correcta en este paso (se supone que en un IOM
correctamente desarrollado, ningn nivel de puede llevar
al rechazo de la opcin correcta). En el segundo paso, el sustentante adivina a ciegas entre las opciones que no rechaz
en el paso anterior. Si, por ejemplo, en un tem de cuatro
opciones de respuesta, el sustentante sabe identicar dos
distractores en el primer paso, entonces en el segundo paso
elegir una de las dos opciones restantes con probabilidad
de 0.50.
aj
.
a1 + a 2 + + a m
(2)
60
A. Jurado-N
nez, I. Leenen
Tabla 1 Probabilidades de eliminar cierto nmero de distractores en una pregunta de cuatro opciones de respuesta para seis
escenarios hipotticos analizados bajo el modelo Nedelsky
Escenarios
1
2
3
4
5
6
Adivinar a ciegas
Descartar un distractor
Descartar dos distractores
Estudiante nivel bajo
Estudiante nivel medio
Estudiante nivel alto
x=1
x=2
x=3
100%
0%
0%
10%
5%
1%
0%
100%
0%
40%
30%
10%
0%
0%
100%
20%
20%
19%
0%
0%
0%
30%
45%
70%
reduce a aproximadamente 2%. En las grcas correspondientes al estudiante de nivel medio, se observa un efecto
muy pronunciado de la frmula de correccin: la evolucin de la probabilidad de aprobar en funcin del nmero
de tems est totalmente supeditada a sta. Con el NRS,
la probabilidad de aprobar tiende a 1 conforme el nmero
de tems aumenta, mientras que con la frmula tiende a
0. En un examen de 60 tems, las probabilidades son de
87% (sin correccin) versus 32% (con correccin). El ejemplo evidencia que la decisin sobre la regla para calicar es
transcendental. Bajo las condiciones del ltimo escenario,
correspondiente al sustentante de alto nivel, las probabilidades de aprobar el examen exceden 95% an con un examen
de solo 8 tems, mientras no se aplique la frmula de correccin. Este escenario muestra que la frmula generalmente
no perjudica al estudiante de alto nivel, siempre que contenga un nmero suciente de tems (a partir de 17 tems,
la probabilidad de aprobar el examen excede 90%).
Discusin y conclusiones
Tras el anlisis terico en la seccin anterior, es preciso vincular los resultados con los abordajes de la adivinacin segn
los dos marcos psicomtricos. El Escenario 1, donde slo
sucede la adivinacin a ciegas, ejemplica la gran carga
que ejercera el efecto de SA sobre la puntuacin observada, ya que el resultado dependera directamente de ste.
Sin embargo, la adivinacin a ciegas es una prctica aislada, que difcilmente se sistematiza como estrategia de
resolucin, especialmente en exmenes de medianas o altas
consecuencias. En los dems escenarios, al descartar una o
ms opciones, se introducen los efectos de TW y EG. Bajo la
condicin de unidimensionalidad de la TRI, la identicacin
de un distractor slo podra deberse a EG; si el efecto de
TW tiene una inuencia signicativa, las pruebas de ajuste
tpicamente llevan a un rechazo del modelo y se requieren
variantes multidimensionales. Desde la TCT, mientras ms
inuencia ejerce la accin de la TA y TW sobre V, mayor es la
varianza irrelevante al constructo, y menos vlidas resultan
las inferencias realizadas sobre la puntuacin observada.
Las propias caractersticas de los tems son las que
desencadenan ms o menos efecto de EG y TW. Varios
autores han identicado que la mayora de los EOM en
ciencias de la salud ---especialmente en educacin mdica
de pregrado y posgrado--- albergan tems que violan las
directrices de construccin7,10,39,40,45 . En general, dos
61
Con frmula de correccin
Probabilidad
Probabilidad
Escenario 1
10
20
30
40
50
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
60
10
Nmero de tems
0,3
0,2
0,1
0
10
20
30
40
50
0,1
0
10
10
20
30
40
50
60
40
50
60
10
20
30
40
50
60
Nmero de tems
1
Probabilidad
Probabilidad
30
0,6
0,5
0,4
0,3
0,2
0,1
0
Nmero de tems
0,8
0,6
0,4
0,2
0
0,8
0,6
0,4
0,2
0
10
20
30
40
50
60
10
Nmero de tems
20
30
40
50
60
50
60
Nmero de tems
1
Probabilidad
Probabilidad
20
Nmero de tems
0,6
0,5
0,4
0,3
0,2
0,1
0
0
0,8
0,6
0,4
0,2
0
0,8
0,6
0,4
0,2
0
10
20
30
40
50
60
10
Nmero de tems
20
30
40
Nmero de tems
1
Probabilidad
Probabilidad
60
0,2
60
Probabilidad
Probabilidad
Escenario 3
50
0,3
Nmero de tems
Escenario 4
40
0
0
Escenario 5
30
0,4
Probabilidad
Probabilidad
Escenario 2
0,4
Escenario 6
20
Nmero de tems
0,8
0,6
0,4
0,2
0
0,8
0,6
0,4
0,2
0
10
20
30
40
50
60
Nmero de tems
10
20
30
40
50
60
Nmero de tems
Figura 2 Probabilidad, bajo el modelo Nedelsky, de aprobar un examen en funcin del nmero de tems, con y sin frmula de
correccin, para cada escenario descrito en la tabla 1.
62
estudiantes aversos al riesgo y no solo reducir su puntuacin, sino mermar su probabilidad de aprobar22 . En efecto,
adivinar casi siempre es ventajoso, incluso con la frmula de
correccin tradicional, porque es infrecuente que el sustentante sea incapaz de, al menos, descartar un distractor4,46 .
Existen dos circunstancias propiciadas por la implementacin de la frmula que contradicen su objetivo: a) la fuerte
inuencia de sta hacia el efecto la TA (ms la consecuente
carga de varianza irrelevante al constructo)22,24 , y b) su utilizacin para paliar la validez perdida en el contenido15 .
Como alternativas a la frmula de correccin tradicional,
se ha sugerido aumentar la penalizacin por tem incorrecto
para desalentar a los sustentantes que ignoran el discurso
precautorio47 , o modicar el estndar de pase en funcin
no de los sustentantes y a la probabilidad de
al desempe
adivinar48 .
Los Escenarios 4, 5 y 6 parecen ms plausibles que simplemente asumir que los tems son uniformes (es decir, que
en todos sucede lo mismo: adivinar a ciegas, o descartar
determinado nmero de distractores). En el mbito de educacin mdica, especialmente para exmenes de medianas
y altas consecuencias, es totalmente verosmil asumir que
los estudiantes poseen un cierto nivel de y de TW debido
a su trayectoria acadmica y experiencia con EOM, por eso
resultan ms apropiados los supuestos en los que la asignacin de probabilidad vara. Es importante enfatizar que en el
anlisis terico se supone que, sin importar la valoracin que
asigne el individuo a cada opcin o su concepcin respecto
a adivinar, siempre da respuesta a los tems. En realidad, la
decisin sobre responder los tems introduce otra fuente de
incertidumbre que no se investig en este anlisis.
Con base en los resultados de este trabajo, es posible
recomendarle a los tomadores de decisiones que consideren los elementos ajenos al rasgo que se pretende medir
que inuyen en el puntaje obtenido en el examen, o al
menos estn conscientes de ellos, de modo que el punto de
corte no sea arbitrariamente localizado en un porcentaje de
la calicacin mxima, y/o que se establezcan estndares
para asegurar la calidad de los reactivos que constituyen
las pruebas. Finalmente, como futura lnea de investigacin, sugerimos explorar experimentalmente la pertinencia
del modelo terico propuesto con la intencin principal de
determinar el efecto de la regla de calicar sobre los factores TA, TW y EG. En especco, podra denirse un mtodo
para evaluar cmo la regla para calicar modica el efecto
de la TA, a travs de la percepcin del riesgo, utilizando
tems que dieran en el grado que permiten la ocurrencia
de TW y EG.
Presentaciones previas
Ninguna.
A. Jurado-N
nez, I. Leenen
Responsabilidades ticas
Proteccin de personas y animales. Los autores declaran
que para esta investigacin no se han realizado experimentos en seres humanos ni en animales.
Condencialidad de los datos. Los autores declaran que en
este artculo no aparecen datos de pacientes.
Derecho a la privacidad y consentimiento informado. Los
autores declaran que en este artculo no aparecen datos de
pacientes.
Financiacin
Ninguna.
Conictos de inters
Los autores declaran no tener conictos de inters.
Agradecimientos
Ninguno
Referencias
1. Downing SM. Assessment of knowledge with written test forms.
En: Norman GR, Van der Vleuten C, Newble DI, editores. International handbook of research in medical education Volume II.
Dorcrecht: Kluwer Academic Publishers; 2002. p. 647---72.
2. McCoubrie P. Improving the fairness of multiple-choice questions: a literature review. Med Teach. 2004;26(8):709---12.
3. Betts LR, Elder TJ, Hartley J, Trueman M. Does correction
for guessing reduce students performance on multiple-choice
examinations? Yes? No? Sometimes? Assess Eval High Educ.
2009;34(1):1---15.
4. Chang SH, Lin PC, Lin ZC. Measures of partial knowledge and
unexpected responses in multiple-choice tests. J Educ Techno
Soc. 2007;10(4):95---109.
5. Haladyna TM, Downing SM, Rodriguez MC. A review of multiple
choice item-writing guidelines for classroom assessment. Appl
Meas Educ. 2002;15(3):309---34.
6. Jozefowicz RF, Koeppen BM, Case S, Galbrath R, Swanson D,
Glew RH. The quality of in-house medical school examinations.
Acad Med. 2002;77(2):156---61.
7. Ware J, Torstein V. Quality assurance of item-writing: during the
introduction of multiple choice questions in medicine for high
stakes examinations. Med Teach. 2009;31(3):238---43.
8. Millman J, Bishop C, Ebel R. An analysis of test-wiseness. Educ
Psychol Meas. 1965;25:707---26.
9. Downing SM. Guessing on selected-response examinations. Med
Educ. 2003;37(8):670---1.
10. Rogausch A, Hofer R, Krebs R. Rarely selected distractors in high
stakes medical multiple- choice examinations and their recognition by item authors: a simulation and survey. BMC Med Educ.
2010;10:85.
11. Jurado-N
nez A, Flores-Hernndez F, Delgado-Maldonado L,
Sommer-Cervantes H, Martnez-Gonzlez A, Snchez-Mendiola
M. Distractores en preguntas de opcin mltiple para estudiantes de medicina: cul es su comportamiento en un examen
sumativo de altas consecuencias? Inv Ed Med. 2013;2(8):202---10.
63
31. Birnbaum A. Some latent trait models and their use in inferring
an examinees ability. En: Lord FM, Novick MN, editores.
Statistical theories of mental test scores. Reading, MA: AddisonWesley; 1968. p. 396---479.
32. Cao J, Stokes L, Bayesian IRT. guessing models for partial guessing behaviors. Psychometrika. 2008;73(2):209---30.
33. San Martn E, Del Pino G, De Boeck P. IRT Models for Ability-Based
Guessing. Appl Psychol Meas. 2006;30(3):183---203.
34. Thissen D, Steinberg L. A response model for multiple choice
items. Psychometrika. 1984;49(4):501---19.
35. Levine M, Drasgow F. The relation between incorrect
option choice and estimated ability. Educ Psychol Meas.
1983;43:675---85.
36. Bock D. Estimating item parameters and latent ability when
responses are scored in two or more nominal categories. Psychometrika. 1972;37(1):29---51.
37. Samejima F. A new family of models for the multiple-choice
item. Knoxville: University of Tennessee, Department of Psychology; 1979.
38. Bechger T, Verstralen H, Maris G, Verhelst N. The Nedelsky
model for multiple choice items. En: van der Ark LA, Croon
MA, Sijtsma K, editores. New developments in categorical data
analysis for the social and behavioral sciences. Mahwah, NJ:
Lawrence Erlbaum Associates; 2005. p. 187---206.
39. Downing SM. The effects of violating standard item writing principles on tests and students: The consequences of using awed
items on achievement examinations in medical education. Adv
Health Sci Educ. 2005;10(2):133---43.
40. Tarrant M, Knierim A, Hayes S, Ware J. The frequency of
item writing aws in multiple-choice questions used in high
stakes nursing assessments. Nurse Educ Pract. 2006;6(6):
354---63.
41. Cizek GJ, ODay DM. Further investigation of nonfunctioning
options in multiple-choice test items. Educ Psychol Meas.
1994;54(4):861---87.
42. Abad FJ, Olea J, Ponsoda V. Analysis of the optimum number alternatives from the Item Response Theory. Psicothema.
2001;13(1):152---8.
43. Rodriguez MC. Three options are optimal for multiple-choice
items: A meta-analysis of 80 years of research. Educ Meas Issues
Pract. 2005;24(2):3---13.
44. Cizek GJ, Robinson L, ODay DM. Nonfunctioning options: A closer look. Educ Psychol Meas. 1998;58(4):605---11.
45. Tarrant M, Ware J, Mohammed AM. An assessment of functioning
and non- functioning distractors in multiple-choice questions:
a descriptive analysis. BMC Med Educ. 2009;9:40.
46. MacCann R. Reliability as a function of the number of item
options derived from the knowledge of random guessing
model. Psychometrika. 2004;69(1):147---57.
47. Espinosa MP, Gardeazabal J. Optimal correction for guessing in multiple-choice tests. J Math Psychol. 2010;54(5):
415---25.
48. Dochy F, Kyndt E, Baeten M, Pottier S, Veestraeten M. The
effects of different standard setting methods and the composition of borderline groups: A study within a law curriculum. Stud
Educ Eval. 2009;35(4):174---82.