Dialnet ConductasProsocialesEnElBarrioLosPinosDeLaCiudadDe 3179934

CONSTRUCCIÓN DE
PRUEBAS
PSICOLÓGICAS RAFAEL A.
LEAL ZAVALA
Módulo de Aprendizaje
Universidad Privada Antonio Guillermo Urrelo

Facultad de Psicología
TABLA DE CONTENIDO
Pág.
Presentación Leal, R. 1
1. Psicometría: historia y conceptos básicos Astrillón, D. A. (2005) 3

para la estandarización de pruebas
2. Tipos de pruebas Pérez, E. (2008) 15
3. Construcción de una prueba Rodas (S/F) 32
4. Redacción de reactivos Pérez, E. y Tornimbeni, S. 50

(2008)
5. Redacción de reactivos para escalas de García, J. Aguilera Terrats, 54

actitudes J. R., & Castillo, A. (2011)
6. Revisión por jueces Lozano, L.M. y Turbany, J. 68

(2013)
7. Análisis de reactivos Leal, R. (S/F) 73
8. Confiabilidad Barraza, A. (2007) 78
9. Confiabilidad Quero, M. (2010) 84
10. Baremación Olaz, F. y Tornimbeni, S. 91

(2008)
11. Visualización de resultados APA (2010) 92
12. Principios de psicometría Mcmillan, J.H., 104

Schumacher, S. (2005)
PRESENTACIÓN
La construcción de pruebas psicológicas es una actividad que ha generado grandes
beneficios a la Psicología, tanto científica como aplicada. Así, gran parte de la teoría
psicológica se sustenta en procesos de investigación que han utilizado herramientas
psicométrica como técnica de comprobación de hipótesis. Asimismo, el profesional
psicólogo cuenta con un sin número de estos instrumentos para sus procesos de evaluación;
es decir, para conocer, diagnosticar y controlar los resultados de sus intervenciones en los
procesos de observación, sobre todo tomando en consideración que la medición del
comportamiento humano es una tarea muy desafiante, pues exige un mayor desarrollo
teórico de igual o mayor complejidad que para el caso de las mediciones de los objetos
físicos, químicos o biológicos. También exige, por parte del profesional psicólogo, un alto
nivel de tolerancia a la frustración; pues es muy difícil que en un inicio, cuando todavía se es
inexperto en la construcción de pruebas psicológicas, obtengamos productos de altos niveles
de rigurosidad.
Además, los desarrollos que ha venido experimentando la teoría psicométrica se debe

a su acercamiento al lenguaje matemático. Este último hecho es un desafío para quienes nos
orientamos por el estudio de las ciencias sociales en general, pues es muy probable que
nuestra elección de la carrera de psicología pudiera no haber tenido como beneficio asociado
el desarrollar nuestras competencias en las ciencias matemáticas.
El propósito de desarrollar un compendio de lecturas sobre temas relacionados con la

construcción de pruebas psicológicas como material de curso responde a tres motivos. En
primer lugar, es importante que te acerques a las fuentes primarias cuando deseas tener un
conocimiento científico de la realidad, situación que se ve afectada si haces un uso exclusivo
del INTERNET, sin tomar en cuenta la calidad del material de consulta. Nuestra sociedad
actual es reconocida como sociedad del conocimiento, el aprendizaje ya no está restringido
a una etapa del desarrollo. Por tanto, es importante que, como estudiante, no te circunscribas
a la consulta de material resumen sino también al análisis de planteamientos teóricos y
metodológicos brindados por los científicos del comportamiento.
1
En segundo lugar, deseamos agilizar los procesos de aprendizaje en el aula así como
promover el aprendizaje fuera del aula. Es importante que sepas que un aprendizaje a largo
plazo es muy difícil que se logre si sólo te restringes a estudiar para los exámenes.
Como último motivo, es evidente que con mucha frecuencia las sesiones de aprendizaje
en el aula se convierten en exposiciones de temas que están muy distantes de las cosas que
deseamos aprender o comprender tanto en la psicología o vida personal. Situación que lleva
a una escenario común: “tienen alguna pregunta” (profesor); “no profesor, ninguna”
(Estudiante). Por tanto, tendrás mayor capacidad de formular mayores inquietudes en clase
cuanto más conocimientos previos.
Una vez que hayas conocido todas las lecturas que contiene este módulo contarás con
una visión panorámica general sobre aspectos básicos de la construcción de pruebas
psicológicas. No serás un experto en construcción de pruebas, aunque hace mucha falta de
este tipo de profesionales en nuestra región y país, pero al menos esperamos ayudarte a lograr
un nivel aceptable de alfabetización psicométrica, la suficiente como para que puedas ser un
usuario informado de los test psicológicos así como para que tengas mayor facilidad para
decidir qué instrumentos utilizar cuando tengas que realizar tu tesis de licenciatura o de tus
estudios de postgrado.
Buena suerte en esta aventura de formación psicométrica.
Rafael Leal Zavala
2
LECTURA BÁSICA Nº 1
TEMA: IMPORTANCIA DE LA PSICOMETRÍA
Astrillón, D.A. (2003) Psicometría: historia y conceptos básicos para la

estandarización de pruebas. Informes Psicológicos. 5:101-110.
3
INFORMES PSICOLÓGICOS
Revista de la Facultad de Psicología, adscrita a la Escuela
de Ciencias Sociales. Universidad Pontificia Bolivariana
Número 5
2003
GRAN CANCILLER
Monseñor Alberto Giraldo Jaramillo
Arzobispo de Medellín
RECTOR GENERAL
Monseñor Gonzalo Restrepo Restrepo
DECANA DE LA ESCUELA DE CIENCIAS SOCIALES

Diseñadora Patricia Vélez Bernal
DIRECTOR FACULTAD DE PSICOLOGÍA

Psicólogo Jairo Antonio Restrepo Rincón
DIRECTOR DE LA REVISTA
Psicólogo Óscar Muñiz Gil
COMITÉ EDITORIAL
PhD. Yvonne Gómez Maquet
Psicoanalista Hermes Padilla
PhD. Jorge Enrique Palacio Sañudo
Psicóloga, Mg. Ofelia Acosta de Pérez
Psicóloga María Paulina Pérez Sierra
EDICIÓN Y DISEÑO
Publicación anual de la Facultad de Psicología de la Editorial Universidad Pontificia Bolivariana
Universidad Pontificia Bolivariana, Medellín, Colombia.
PORTADA
Recoge resultados de investigaciones científicas Autorretrato, Van Gogh, 1887.
y reflexiones en las áreas sociales, de la psicología
y el psicoanálisis, con el fin de fomentar el intercambio ISSN 0124-4906
de conocimientos y opiniones.
Home Page: http://www.upb.edu.co
Cualquier artículo se puede reproducir E-mail: psicoupb@upb.edu.co
siempre y cuando se cite la fuente. Medellín, Colombia.
2
4
ARTÍCULO LIBRE
Diego Alonso Castrillón Moreno*
Psicometría:
historia y conceptos básicos
para la estandarización
de pruebas objetivas
Correspondencia y reimpresos a: el uso del análisis factorial, siguiendo con la
dcastrillon@yahoo.com importancia y las diferencias naturales de la
Validez interna y externa y, por último, finaliza
con la baremación o los puntajes de referencia.
PALABRAS CLAVE:
Test, origen, estandarización. INTRODUCCIÓN
Los tests forman parte de la cotidianidad del
hombre occidental. Desde los primeros años
de escolarización, los niños comienzan a
RESUMEN responder a tests que servirán para medir sus
En la historia de la psicometría se cometieron aptitudes intelectuales y su potencial para el
muchos errores que dieron como resultado aprendizaje; se utilizarán también para acre-
consecuencias de muchas clases, entre ellas ditar su progreso y su nivel de conocimientos,
la segregación social. Sin embargo, los así como para orientarlo vocacionalmente. Hoy
esfuerzos serios y constantes de psicómetras tenemos un fenómeno de generalización en la
en todo el mundo han dado como resultado aplicación de la psicometría en un mayor
una disciplina con resultados plausibles. número de escenarios. Así, se usan sin recato
También existen críticas, y debe haberlas, para el ingreso del joven a la universidad y
sobre el uso de las pruebas y de su seguridad para decidir quién será contratado para un
al estandarizarlas. Por último se exploran los puesto de trabajo y quién será ascendido;
pasos para la estandarización, iniciando con además, los tests desempeñan también un
* Psicólogo, especialista en psicología clínica, magíster en psicología. Docente Facultad de Psicología, UPB, Medellín, Colombia.
101
5
PSICOMETRÍA: HISTORIA Y CONCEPTOS BÁSICOS PARA LA ESTANDARIZACIÓN DE PRUEBAS
papel importante a la hora de determinar si su aparición en esta guerra, se aplicaron los

un sujeto tiene desajustes de diversos tipos y sencillos tests alfa y beta a cerca de dos
si necesita algún tipo de terapia para reforzar millones de reclutas. El test alfa era una prueba
alguno de estos aspectos. Y, es necesario verbal para personal alfabeto y el test beta era
decirlo, se convirtieron en una manera de obje- una prueba no verbal para sujetos analfabetos
tivizar el peritazgo judicial en la determinación (Gregory, 2001).
de decisiones con peso de ley. La evaluación
neuropsicológica es eminentemente psicométrica La capacidad discriminativa (incompleta y
y su uso en el ámbito educativo es innegable. parcializada) de estos tests posibilitó su uso a
la sociedad civil. Una vez finalizada la
No obstante, los tests tienen una estructura confrontación armada, siguieron utilizándose
orgánica que pocos conocen a profundidad, dentro y fuera del ejército y su uso fue masivo,
pues son tantas y tan diversas las disciplinas probablemente por la necesidad de controlar
que intervienen en la formulación de una la caótica sociedad americana de principios
prueba que difícilmente una persona que del siglo XX plagada de inmigrantes, ghettos
acompañe el proceso de creación entenderá y leyes confusas con un crecimiento demográfico
todos los pasos de formulación, estandari- urbano desordenado y violento. Esta condición
zación, baremación y uso del test. En este especial de un país que fue colonizado por
artículo se propondrá una breve historia, una británicos e irlandeses, inicialmente, se fue
reflexión sobre las críticas a los tests y la consolidando con la presencia de escoceses,
conceptualización básica que acompaña la italianos, latinos, árabes y chinos, entre otros.
creación de una prueba. Esta proliferación de culturas dio como
resultado la concepción inicial de pequeñas
repúblicas dentro de un país que necesitaba
HISTORIA BREVE
orden y coherencia (Zimbardo, Weber y Johnson,
El brillante alumno de Wilhelm Wundt en el 2002) y que fue lentamente encontrando una
doctorado de la Universidad de Leipzig, James estructura de unidad en su sistema educativo
Cattell, acuñó el término test mental en 1890 y laboral con la participación de un buen
y el primer test de inteligencia es formulado número de psicólogos que hacían las veces
por encargo a los psicólogos franceses Binet y de evaluadores con incipientes pruebas de
Simon en los albores del siglo XX (Gregory, personalidad e inteligencia.
2001). A pesar de los esfuerzos fallidos de
Cattell para lograr correlaciones entre las La importancia de los tests, desde ese
pruebas psicofísicas y el rendimiento escolar, momento hasta hoy, se establece justamente
con el nuevo test, creado para diagnosticar a porque van a representar la posibilidad de
niños con problemas de deficiencia mental en evaluar a las personas por sus aptitudes,
las escuelas públicas de Paris, se logran habilidades o conocimientos, esto es, por
correspondencias entre el C.I. y el rendimiento méritos propios y no tanto por otras variables
escolar. El concepto de Edad Mental versus tales como su nivel socio-económico, las
Edad Cronológica hizo su aparición. Gracias influencias políticas o de otros tipos, o por la
al éxito de esta prueba se da un reconocimiento evaluación subjetiva de profesores. No es de
institucional al papel de los tests en el extrañar que los tests hayan tenido su principal
procedimiento diagnóstico al suponer la desarrollo en la sociedad norteamericana (la
introducción por vez primera de tests de tierra de las oportunidades), una sociedad
aplicación colectiva poco antes del estallido meritocrática que creía en el mérito personal
de la I Guerra Mundial. Cuando EE.UU. hace como forma de progresar y en la que cualquier
102
6
persona que trabajara con tesón y con la sigue sin resolverse. La evaluación psicológica
suficiente capacidad podía llegar a tener éxito. realizada con tests ha sido cuestionada cuando
se ha efectuado con un objetivo diagnóstico,
Para poder organizar y educar a una sociedad habitualmente en el campo de la psiquiatría,
tan caótica, se hacía necesario detectar las la psicología clínica o de la salud; pero nunca
diferencias individuales en las capacidades las críticas han sido tan intensas cuando los
mentales de los sujetos. Si además contamos tests son utilizados en procesos de selección
con la fuerte expansión de su economía y el y, excepto cuando se rechaza a las personas
enorme crecimiento industrial, entenderemos que aspiran a ingresar a una institución laboral
el entusiasmo con el que fueron acogidos los o educativa (Graham y Lilly, 1984).
tests en las primeras décadas del siglo XX en
EE.UU. La crítica más frecuente a los tests es que no
son lo suficientemente válidos ni confiables
A partir de su éxito inusitado en el ámbito edu- como para tomar decisiones trascendentales.
cativo y militar, Cattell funda la Psychological Los más virulentos críticos (Gould, 1981)
Corporation, la editora más antigua e afirman que aunque los tests tengan validez
importante de EE. UU. en la publicación de interna, son bastante incompletos o parciali-
tests, fomentando la investigación en áreas zados y, por tanto, no resulta adecuada su
afines a las mencionadas, pero también con aplicación en procesos de selección o asesora-
un fuerte crecimiento en el terreno laboral y miento. El cuestionamiento más generalizado
clínico (Gregory, 2001). Es en estos campos está centrado en el limitado alcance en la
en donde la psicometría tiene un verdadero medición de habilidades muy específicas,
nicho de crecimiento y la generalización se da como para ser predictores suficientemente
a todos los niveles de la sociedad permitiendo significativos a largo plazo.
tomar decisiones con mayor objetividad a partir
de ello. También se ha criticado el contenido y formato
de sus ítems (con especial atención en los de
selección múltiple) (Thorndike y Hagen,
LAS CRÍTICAS
1989), los métodos estadísticos usados, las
Después de un período inicial en los años 20´s estrategias utilizadas para la interpretación de
de uso desordenado y con una creencia ciega sus puntuaciones y la interpretación misma,
en ellos a pesar de la poca evidencia, los tests la cual está en confluencia con las teorías en
han venido generalizándose y estudiándose de boga de cada época. Además, los tests son
manera más sistemática y crítica. En la creados en una época específica y, aunque
psicometría actual se dispone de un mayor las teorías se modifiquen y avancen en su
número de tests y de un corpus teórico más capacidad explicativa, estos continúan en el
amplio, profundo y coherente, pero se tiene mercado sin modificaciones.
menos confianza en la precisión de los
resultados de las pruebas que a comienzos En más de una ocasión, los tests han influido
del siglo XX. No puede resultar menos que de manera adversa en el proceso enseñanza-
paradójico. aprendizaje de los estudiantes pues, muchos
profesores, se han limitado a enseñar las
El debate sobre el coeficiente intelectual se habilidades que posteriormente iban a ser
inicia en los años 40, pero se desata con fuerza evaluadas, centrándose en las especificaciones
y alcanza su cenit a finales de los 60 y durante de los libros o a los formatos de evaluación
toda la década siguiente. En los años 80 los existentes, de manera que la enseñanza se ha
ánimos se calman un poco, pero la discusión visto focalizada a temas y métodos específicos,
103
7
minimizando la creatividad y la sana diferencias observadas en grupos raciales han

curiosidad científica. Los estudiantes pueden sido atribuidas a la forma en que se construyen
dedicar sus esfuerzos más importantes a o se interpretan los tests y no a las diferencias
aprender sólo lo que va a ser posteriormente existentes entre las personas. Las conclusiones
preguntado en los tests utilizados en la en este aspecto siguen sin formularse y los
evaluación y no porque tengan un valor procesos de selección educativo y
intrínseco como objetivos educativos. Los organizacional siguen siendo cuestionados
resultados no esperados ni deseables de la desde esta óptica. En nuestro medio la
evaluación, pueden distorsionar gravemente discriminación racial no ha sido tan clara como
la esencia misma de la medición de en los EE.UU., pero la pregunta también es
adquisiciones educativas. En consecuencia, el válida y actual.
uso continuo de los tests en este ámbito ha
tenido de algún modo un efecto adverso en el Esta situación resulta, cuando menos
sistema educativo pues los programas de los paradójica, pues un adelanto en la tecnología
cursos se han ido orientando hacia los psicológica que posibilitaba el conocimiento
contenidos y habilidades evaluadas por los de las diferencias entre las personas y la
tests (recuérdese la reciente revisión que se viabilidad de crecimiento social y económico
hizo de la evaluación que el ICFES hace a los por méritos propios de los integrantes de clases
bachilleres en Colombia justamente por este sociales más bajas, es criticado de forma
concepto (ICFES, 2000)). virulenta justamente por las personas que más
se benefician de la existencia de las pruebas.
A las pruebas estandarizadas también se les Lo curioso de esta situación es que los creadores
ha acusado de generar diferencias entre grupos de los tests pretendían mejorar las condiciones
de manera tendenciosa, posibilitando la de crecimiento social a personas competentes
segregación de cualquier tipo, y por lo tanto pero socialmente más desfavorecidas e,
ampliando la brecha entre grupos sociales. Por irónicamente, el ataque más feroz procede
esta razón se les ha definido desde las justamente de los que hablan en nombre de
posiciones políticas de izquierda o por las los pobres.
personas que están contra el método científico
clásico, como instrumentos de control al Gracias a esta situación se crea un
ser vicio de las clases políticamente planteamiento social conocido como la falacia
dominantes. Como olvidar en este punto la igualitarista. Esta teoría propone que todos los
estandarización de pruebas de inteligencia en hombres son iguales, sin distinción alguna de
los Estados Unidos que mostraban las raza, color, sexo, religión, origen social o
diferencias en inteligencia entre personas de nacional, olvidando las diferencias obvias que
las razas blanca y negra de tal manera que existen en cada aspecto mencionado. Se llega,
estos últimos estaban una desviación estándar entonces, rápidamente y sin profundizar en
por debajo de los blancos (Goddard, 1917; este planteamiento que si los tests hacen a
Brigham, 1923). Eran muchos -aunque no los hombres desiguales es porque los tests son
todos- los autores que sostenían que las injustos, ya que la justicia está centrada en la
diferencias en las puntuaciones de los tests igualdad de oportunidades. Con este tipo de
de distintos grupos reflejaban diferencias conclusiones se descalificaron todos los tests
hereditarias en habilidad, y que los tests de que mostraran diferencias entre grupos
inteligencia general medían características étnicos, culturales o socioeconómicos.
genéticas. Según los antisegregacionistas, las
104
8
Esta falacia descalificó la posición y el alcance irresponsable de ellas. Por último, la mayoría
de los tests al atribuir las diferencias a los de los psicólogos maneja información
resultados y no a las personas confundiendo parcializada, incompleta y desactualizada de
así la legítima igualdad de derechos y lo que es la psicometría, por lo que se cometen
oportunidades con las diferencias en los errores profundamente lesivos a las personas
resultados obtenidos tratando de manera muy o instituciones, pretendiendo generar
ingenua de intervenir en la desigualdad bienestar. La poca investigación psicométrica
acallando la psicometría. No se puede olvidar que ha existido en el pasado, no permite que
que esta aplicación de la psicología trata de la normal conjunción entre la teoría y la técnica
ser un medio en donde se evidencien las se desarrolle en paralelo, y la causa más
diferencias y no una estrategia para mejorar frecuente del mal uso de estos elementos sea
las condiciones sociales. la desactualización teórico-técnica y el
desconocimiento en el manejo y la
Esto no puede concluirse de otra manera a la interpretación de las pruebas.
de darle a cada señor su honor, posibilitando
la reflexión sobre la responsabilidad que le Resolver esta serie de problemas supone
cabe a los Estados por encontrar una forma necesariamente regular el uso de los tests. La
más saludable para generar igualdad de cuestión es quién, cómo y cuánto. Es una
oportunidades y así poder asumir la irrefutable pregunta que se deja a la comunidad
diversidad del ser humano a pesar de lo psicológica colombiana para que reflexione
anterior. Además, a los psicómetras les queda sobre este asunto y busque las mejores
la tarea de generar instrumentos cada vez más soluciones. Por lo pronto, la mejor alternativa
sensibles que muestren diferencias entre es la adecuada y completa formación de los
grupos evitando el sesgo de la procedencia usuarios y la actualización permanente en
cultural, geográfica o étnica. Es allí en donde psicometría y teorías que la sustentan. Es
el sesgo es más común. necesario formar a los psicólogos en las
características técnicas de las pruebas y los
En otro sentido, las críticas a los tests están
necesarios elementos constitutivos de un test
enfocadas al uso que se hace de ellos. Algunas
elaborado con criterios que permitan tener
de las críticas se enfocan a la irresponsabilidad
resultados confiables.
en el manejo de las pruebas, otras hacen
referencia al manejo ético inadecuado y la Se recomienda a los psicólogos usar sólo
tercera a conocimientos insuficientes, falta de aquellas pruebas que tengan estudios de
información o información errónea. Las críticas Fiabilidad y Validez (ojalá en varias culturas),
a la irresponsabilidad en el manejo de las que estén basados en teorías actuales o, por
pruebas saltan a la vista en Colombia, pues lo menos, en permanente revisión y que el
no existe un organismo regulador de la práctica uso sea supervisado por un psicómetra con
psicológica, y por lo tanto el uso que en el experiencia en el uso de esa prueba. No está
área de psicometría se da, queda al libre de más proponer investigación permanente en
albedrío de los profesionales de la psicología. la estandarización de pruebas o en la
A pesar de los esfuerzos de los distribuidores correlación entre ellas o con variables
de pruebas en el país para restringir la venta presuntamente asociadas pero con mayor
de estos elementos a profesionales no evidencia.
psicólogos, inevitablemente, otras personas
pudieran tener acceso a estos materiales y, En el próximo punto se proponen elementos
muchas veces sin pretenderlo, hacer un uso mínimos en este sentido.
105
9
ELEMENTOS NECESARIOS A LA HORA la influencia que ejercen las otras variables

DE ESTANDARIZAR LAS PRUEBAS. en el fenómeno a observar.
Hay varias características que deben tener las El análisis factorial proporciona evidencia útil
pruebas que se deseen validar y hacer más acerca de las medidas que pretenden tener
confiables antes de ser usadas en investigación, validez de contenido al sugerir cómo revisar
psicología clínica, organizacional, educativa, los instrumentos, lo mismo que brinda
social, deportiva, forense, u otras. información para la validez predictiva al sugerir
El primer aspecto es el análisis factorial el cual predictores que funcionarán bien en la
consiste en reducir la cantidad de variables en práctica. En psicología es esencial este análisis
un grupo de medidas al tomar en cuenta la sobre todo en lo que respecta a la formulación
superposición o las correlaciones entre las de constructor teóricos, pues explicarlos, desde
distintas medidas. Es decir, qué tanto los el punto de vista de la psicometría, consiste
factores se correlacionan de manera más en determinar la estructura estadística interna
elevada entre ellos mismos que con las variables de una serie de variables que se supone miden
fuera del grupo. El problema consiste en un constructo. Al mismo tiempo pueden
encontrar unos cuantos factores sobresalientes evaluarse las variables que pertenecen
que puedan constituir la mayor parte de la exclusivamente a un constructo y aquellas que
varianza en un grupo de calificaciones de se cruzan con otros constructos. Como se
pruebas diferentes (Aiken, 1996). Es decir, qué puede observar, el análisis factorial cumple
tanto la relación entre las variables tiene que con ambas tareas.
ver con su consistencia teórica, tal y como lo El análisis factorial se puede usar para varias
perciben las personas evaluadas. situaciones además de las expuestas. Entre
El teorema que sustenta el análisis factorial otras aplicaciones puede usarse para
afirma que la varianza total observada en una determinar el agrupamiento de variables, la
prueba es igual a la suma de la varianza debida determinación de las variables que pertenecen
a los factores que la prueba tiene en común a un grupo específico y en qué grado, las
con otras pruebas, la varianza específica de dimensiones que se necesitan para explicar
la prueba en sí y la varianza que se produce las relaciones entre las variables y definir el
por los errores de medición. Lo que resulta de marco de referencia (ejes coordenados) para
aplicar este método puede observarse como describir las relaciones entre las variables de
el número de factores que agrupan los ítems manera más convincente y los puntajes de los
de la prueba además de la carga que contiene individuos en dichos agrupamientos (Anastasi,
cada uno de ellos. Esta carga se da en términos 1998). También podría decirse que el análisis
de 1 a 1, siendo los que se aproximen a este factorial busca las variables observables y se
último los que mayor porcentaje de explicación las considera como resultado de una variable
o de representación tienen del factor medido. latente subyacente. Es necesario anotar que
Así, en el caso que un factor tenga una carga el análisis factorial también arroja dos
de .82, se extrae su cuadrado, lo cual da como elementos adicionales: la comunalidad y la
resultado 67 ((.82)2=67), lo que significa que especificidad. La primera es la parte de la
el 67% de la varianza de las calificaciones de varianza observada que se debe a los factores
la prueba en cuestión puede estimarse por este comunes y la segunda se considera como la
factor (Nunnally, 1995). Podría decirse que parte de la varianza observada debida a
las diferencias entre los sujetos se explican factores específicos y se obtiene al restar la
mucho más por la variable estudiada que por confiabilidad del peso del factor (Aiken, 1996).
106
10
Otra posibilidad del análisis factorial es la conducta que debe medirse. Un test de este
rotación de factores, la cual se utiliza para tipo busca evaluar un área de conducta
simplificar la interpretación de los factores específica a través de una selección de
obtenidos por el aumento de la cantidad de reactivos que representa el universo muestral
cargas positivas altas y bajas en la columna estudiado. Normalmente se usa para evaluar
de la matriz de factores. Se pueden obtener las adquisiciones culturales basadas en el
factores no correlacionados a los cuales se les aprendizaje de temáticas o habilidades
denomina factores ortogonales o se pueden específicas tales como conducir un automóvil
obtener factores correlacionados a los que se o el aprendizaje de la ortografía en un idioma.
les da el nombre de factores oblicuos. La
elección sobre cuál de las dos es mejor La validez de criterio que se divide en
depende de los objetivos del investigador y de concurrente y predictiva. Este tipo de validez
las características de los datos. Si se busca la se usa para evaluar la efectividad de una prueba
coherencia entre los ítems de una prueba, para predecir el desempeño del individuo en
entonces se trata de hallar el factor que los actividades específicas. La validez concurrente
agrupe con mayor coherencia entre sus hace referencia a la evaluación del desarrollo
medidas de varianza, es decir, ítems oblicuos. de una habilidad en grados y en el momento
en que se mide. La validez predictiva ayuda a
El segundo aspecto es la validez interna la cual anticipar cómo serán esas habilidades a futuro
puede considerarse como el grado en que una si intervienen cierto tipo de variables. Las
prueba proporciona información que es preguntas clásicas en esta validez son: ¿cumple
apropiada a la decisión que se toma (Anastasi, la persona con las cualidades esperadas en este
1998). Así, un juicio de validez está siempre en contexto? (concurrente), o ¿podrá esta persona
relación con la decisión específica o con el uso. desarrollar las cualidades esperadas para este
Las principales preguntas que deben resolverse contexto? (predictiva).
con respecto a la validez es si la prueba mide lo
que se desea medir, en qué grado lo mide y si La validez de constructo ha centrado la
mide sólo lo que deseamos medir (Thorndike, atención en la función que cumple la teoría
1989). Justamente por este tipo de preguntas psicológica en la elaboración de la prueba y
no debe aceptarse el nombre de la prueba como en la necesidad de formular hipótesis que
la principal evidencia para catalogarla pues puedan ser comprobadas o refutadas en el
finalmente se valida el uso, no la prueba. proceso de validación (Anastasi, 1998). Esta
Actualmente en psicometría se siguen dos validez se considera como el grado en el puede
tendencias principales. La primera tiene que ver afirmarse que mide un constructo o rasgo
con un fortalecimiento de la teoría que sustenta teórico, como por ejemplo el neuroticismo, la
las pruebas y la segunda, la estrecha vinculación ansiedad o la inteligencia. En este punto es
entre la teoría y la verificación psicológicas necesario reconocer el papel que cumple el
mediante la comprobación empírica y análisis factorial en la correlación de
experimental de las hipótesis (Anastasi, 1998). constructos identificados como sólidos frente
Este tipo de medición se divide en tres: la validez a nuevos constructos que se desean validar.
de contenido, la validez de criterio y la validez Otro de los métodos que se utiliza en la validez
de constructo. de constructo es la consistencia interna, la cual
busca estudiar el comportamiento de cada
En la validez de contenido se hace un examen ítem comparando el desempeño de este en su
sistemático del test para determinar si cubre puntaje máximo frente al del puntaje mínimo.
una muestra representativa del área de También se busca en este tipo de validez, la
107
11
validez convergente y discriminante que no El cuarto aspecto es la baremación o medidas

es otra cosa que demostrar que las variables de comparación, las cuales consisten en tener
del test no tienen una correlación significativa unos valores normatizados que se calculan
con otras variables con las que se espera que tomando en cuenta el género, la edad, la
deban diferenciarse. escolaridad, raza, nivel socioeconómico, región
geográfica, principalmente. Todas las normas
El tercer aspecto a considerar es la validez de calificación que se plantean más adelante
externa o confiabilidad la cual se basa en la son transformaciones de la puntuación directa
consistencia que se pueden esperar de los en puntuaciones normalizadas o de distribución
resultados de una prueba en un grupo de normal. La distribución de las calificaciones
personas a los que se les evalúa con el mismo convertidas tiene una media y desviación
test en un período de tiempo. Así, se puede estándar diferente de la distribución de las
estimar qué proporción de la varianza total de calificaciones brutas pero las formas de ambas
las puntuaciones se debe a varianza de error, distribuciones son idénticas. La simetría en
es decir, cuánto de los resultados de los sujetos las puntuaciones brutas dará como resultado
que se presenten diferentes, podrán deberse una distribución normalizada simétrica. Aiken,
a las diferencias que hay en los sujetos más (1996) plantea que las medidas de compa-
que a los errores fortuitos o a los errores ración deben revisarse cada cinco años por la
inherentes de la prueba. Cuando se controlan celeridad con la que la obsolescencia las acoge
las instrucciones, la presentación de la prueba, gracias a la construcción teórica y los cambios
la empatía con el examinador, los límites de socioculturales.
tiempo, entre otras, se reduce la varianza de
error. Frecuentemente se ha calculado la Existen varias formas de escoger la muestra
validez externa en términos del coeficiente de con la que se formularán estas medidas. La
correlación producto-momento de Pearson que primera es el muestreo aleatorio sencillo, en
busca la posición de la persona en el grupo, la que cualquier persona tiene las mismas
además de la cantidad de su desviación por posibilidades de ser elegida, aunque esta
encima o por debajo de la media de la aleatoriedad no garantiza representatividad. La
colectividad. Con base en ello se mira la segunda es el muestreo aleatorio estratificado,
correlación frente a esta media en cada factor el cual consiste en categorizar la población en
medido a correlacionar y se extrae su tendencia una serie de variables demográficas tales como
en un puntaje que va de 1 a +1. en la confia- el género, la edad, el nivel socioeconómico u
bilidad se conocen varios métodos conocidos otras. Con este método la cantidad de personas
como el test-retest, el método de series que se eligen en forma aleatoria de cada
paralelas, la división en dos mitades, el método categoría o estrato se hace proporcional a la
Kuder-Richardson, el coeficiente alfa y la cantidad total de personas en la población
confiabilidad entre calificadores (Anastasi, meta que pertenecen a ese estrato. La tercera
1998; Nunnally, 1995). En esta medida debe es el muestreo de grupos que consiste en
contemplarse el error estándar de medida que dividir una población determinada en áreas
consiste en un cálculo de la desviación geográficas u otras unidades relevantes en
estándar en la distribución normal de las bloques o grupos. Después se selecciona
calificaciones de la prueba que se obtendría aleatoriamente un porcentaje específico de los
hipotéticamente si una persona presentara la grupos y, en cada uno se eligen en la misma
misma prueba infinidad de veces. El error forma cierta cantidad de subunidades (casas,
estándar de medida aumenta en cuanto se empresas, negocios, etc.). Por último, se aplica
reduce la confiabilidad. la prueba a una muestra representativa de
108
12
cada subunidad. La cuarta se conoce como el son abiertos y la escala busca representar
muestreo de reactivos, en donde los items se rangos y no puntos específicos, lo cual
aplican a personas distintas elegidas de pretende combatir la idea de una medida
manera aleatoria, contestando reactivos exacta y sin variaciones con respecto a las
distintos un grupo y otro. Después se hacen diferencias individuales.
análisis de reactivos comparativos,
evidenciándose resultados muy similares a los
CONCLUSIONES
métodos más eficientes para extraer resultados
normalizados (Anastasi, 1998). La ligereza con la que se hicieron tests en los
primeros años alentó una innumerable
Los tipos de normas que se emplean pueden cantidad de investigaciones que han dado
ser por regiones, por raza, por edades y por como resultado métodos cada vez más
grado de escolaridad. También pueden ser por precisos y confiables a la hora de medir
edad mental o por cociente intelectual. Por actitudes, comportamientos, pensamientos,
último existen las normas percentilares, las emociones y otros aspectos que hacen parte
cuales consisten en la distribución que los del ser humano como son valores, creencias,
sujetos hacen en su puntuación directa, habilidades, intereses, vocaciones, entre otros.
convirtiendo esta puntuación a una medida Por fortuna, el aura de autoridad ha sido
que va de 1 a 100. Los rangos percentilares eficientemente cuestionada durante estos
son medidas de nivel ordinal y no de intervalo, años.
en el que la distancia entre el percentil 10 al
5 (o del 90 al 95) es mayor que la distancia A pesar de todas las críticas, las limitaciones
entre el centil 40 y el 45. Las normas de e inconvenientes, la psicología científica sigue
calificación estándar son medidas de intervalo postulando que no existe un mejor método o
y tienen cualquier media y cualquier desviación más objetivo que los tests. Sin embargo es
estándar que se busque. Se dividen en necesario tomar en cuenta que estos no deben
calificaciones Z, calificaciones z, calificaciones ser la única fuente de información a la hora
CEEB, calificación de CI de desviación, de tomar una decisión importante para un
estaninas y calificaciones T, las cuales se sujeto. Además las puntuaciones que se
explicarán a continuación. Las calificaciones derivan de la aplicación de un test son un
z tienen una distribución particular en donde indicador inconcluso de la variable psicológica
el 0 es la media y 1 es la desviación estándar. que este mide.
Las calificaciones Z son el resultado de tomar A pesar de todas sus dificultades, hay
las calificaciones z y multiplicarlas por una marcadores históricos que permiten vislumbrar
constante de 10 y sumarles otra constante de con cierto optimismo el futuro de los tests,
50, resultando una media de 50 y una pues, aunque su uso ha sido bastante
desviación estándar de 10. Las calificaciones controvertido, nunca se han dejado de utilizar.
del ejército de los Estados Unidos (ACGT) y la Y aunque se ha legislado a favor de la
escala Wechsler fueron convertidas a una prohibición o limitación de su aplicación,
media de 100 y una desviación estándar de también se ha legislado protegiendo su
20 en la primera y una media de 10 y una carácter de objetividad por encima de otros
desviación de 3 en la segunda. La estanina métodos, por ejemplo, los tests proyectivos
tiene una media de 5 y una desviación de 2 que derivan su fortaleza de la teoría que
aproximadamente. En esta escala hay nueve subyace, y no por el nivel de evidencia que
diferentes rangos representados por los plantea su uso.
números del 1 al 9. Estos últimos puntajes
109
13
Se espera que la investigación, aplicación e Neuropsicología de la Universidad de San

interpretación de los tests deberá hacerse de Buenaventura Sede Medellín y tantos otros
la manera más prudente posible, cuidando que profesionales, grupos, entidades y
la transparencia en sus métodos de evaluación universidades que hacen esfuerzos serios pero
se sustente bajo procedimientos serios. Sin inconexos. He ahí un reto.
embargo, esto no puede desestimular otras
estrategias que posibiliten la construcción de
nuevas formas de tests, en su contenido, su
formato y modo de administración. REFERENCIAS
AIKEN, L. Tests psicológicos y evaluación. Méjico:
Finalizando la década de los ochenta fue Prentice Hall. 1996.
inevitable incorporar a la psicometría las nuevas
variables cognitivas y metacognitivas, las ANASTASI, A. y URBINA, S. Tests psicológicos. Méjico:
Prentice Hall. 1998.
estrategias de resolución de problemas y las
variables integradoras de procesos mentales ARMITAGE, P. y BERRY, G. Estadística para la investigación
superiores. Esto supuso un nuevo reto para los biomédica. Madrid: Harcourt Brace. 1997.
tests, ya que implicó modificaciones en el BRIGHAM, C. C. A study of American intelligence.
formato de aplicación, pero más que nada en Princeton, NJ: Princeton University Press. 1923.
la conceptualización que se tenía del marco
FERRER, A. y otros. Investigaciones de Psicología clínica
teórico que los sustentaba, al convertirse en cognitiva comportamental en la ciudad de Medellín.
un corpus más profundo, entramado e Medellín: Universidad de Antioquia. 2003.
integrador de lo que existía hasta el momento.
FERNÁNDEZ-BALLESTEROS, R. Evaluación psicológica
Muchos psicómetras están de acuerdo con la en sus contextos de aplicación. En: Revista de
hipótesis de Muñiz (1998) en la que se afirma Historia de la Psicología, No. 14, (1993) 97-117.
que los tests constituyen probablemente la GODDARD, H. H. The mental level of a group of immigrants.
tecnología con mayor impacto social que ha Psychological Bulletin, 14, 68-69. 1917.
producido la psicología. Sin embargo, estas
GOULD, S. J. The mismeasure of man. Nueva York:
consideraciones no olvidan los desafíos que Norton. 1981.
se plantean a la psicometría para seguir
cumpliendo con su papel histórico (cada vez GRAHAM, J. y LILLY, R. S. Tests psicológicos. NJ:
Prentice-Hall. 1984.
más exigente y específico) a la sociedad,
tomando en cuenta la investigación, la GREGORY, R. Evaluación psicológica: historia, principios
estadística moderna, la ética y las teorías que y aplicaciones. México: Manual Moderno. 2001.
la soportan para seguir cumpliendo el papel ICFES. Examen de Estado: cambios para el siglo XXI
polémicamente productivo que ha tenido. propuesta general. Bogotá: Boletín del Instituto
Colombiano para el Fomento de la Educación
En Colombia se hacen esfuerzos cada vez más Superior. 2000.
serios para lograr pruebas estandarizadas con
MUÑIZ, J. (1998). Teoría clásica de los tests. Madrid:
los niveles óptimos de calidad (Ferrer, 2003) Pirámide.
tal y como lo demuestran las investigaciones
realizadas por el Laboratorio de Psicometría NUNNALLY, J. y BERNSTEIN, I. Teoría psicométrica.
Méjico: Mc.Graw Hill. 1995.
de la Universidad Nacional Sede Bogotá, el
Grupo de Investigación de Psicología Cognitiva THORNDIKE, R. y HAGEN, E. Medición y evaluación
de la Universidad de Antioquia, el Grupo de en psicología y educación. Méjico: Trillas. 1989
Investigación de la Universidad Pontificia Zimbardo, Ph., Weber, A. y Johnson, R. Psychology:
Bolivariana Sede Medellín, la Maestría en core concepts. U.K. : Allyn & Bacon. 2002
110
14
TEMA: TIPOS DE PRUEBAS
Pérez, E. (2008). Clasificación de los tests. En: S. Tornimbeni, E. Pérez y F. Olaz

(Comp.). Introducción a la psicometría (pp. 39-49). Buenos Aires: Paidós.
15
SILVIA TORNIMBENI
EDGARDO PÉREZ
FABIÁN OLAZ
(compiladores)
Con la colaboración de
NURIA CORTADA DE KOHAN
ALBERTO FERNÁNDEZ
MARCOS CUPANI
INTRODUCCIÓN
A LA PSICOMETRÍA
PAIDÓS
Buenos Aires
Barcelona
México
16
ÍNDICE
Introducción a la psicometría / Silvia Tornimbeni...[et.al.]. - 1a ed. - Buenos Aires : Paidós,
2008.
288 p. ; 22x16 cm. (Evaluación Psicológica; 21085)
ISBN 978-950-12-6085-4
1. Psicología. 2. Psicometría.
CDD 153.9
Los autores ...................................................................................... 9

Prólogo, Prof. Livio Grasso ............................................................. 11
Prefacio ........................................................................................... 13
Cubierta de Gustavo Macri
Primera Parte
1ª edición, 2008 Fundamentos de la medición en psicología
1. Problemática de la medición psicológica................................... 19

Queda rigurosamente prohibida, sin la autorización escrita de los titulares del
copyright, bajo las sanciones establecidas en las leyes, la reproducción parcial 1.1. La medición en psicología ................................................. 19
o total de esta obra por cualquier medio o procedimiento, comprendidos la
reprografía y el tratamiento informático.
1.2. Psicometría y tests psicológicos ........................................ 21
1.3. Reseña histórica ................................................................ 28
© 2008 de todas las ediciones 2. Clasificación de los tests............................................................ 39

Editorial Paidós SAICF
2.1. Tests de ejecución máxima: inteligencia, aptitudes
Defensa 599, Buenos Aires
e-mail: difusion@areapaidos.com.ar
y habilidades...................................................................... 40
www.paidosargentina.com.ar 2.2. Tests de comportamiento típico: motivación,
actitudes y personalidad .................................................. 49
Queda hecho el depósito que previene la ley 11.723 Segunda Parte

Impreso en la Argentina. Printed in Argentina
Normas técnicas
Impreso en Primera Clase, California 1231, Ciudad de Buenos Aires Introducción..................................................................................... 69

en febrero de 2008 3. Confiabilidad .............................................................................. 71
3.1. Introducción....................................................................... 71
3.2. El concepto de confiabilidad en la teoría clásica
Tirada: 3.000 ejemplares
de los tests ......................................................................... 72
3.3. Principales factores que afectan la confiabilidad............. 76
ISBN: 978-950-12-6085-4 3.4. Dimensiones de la confiabilidad ....................................... 80
17
2
CLASIFICACIÓN DE LOS TESTS
Edgardo Pérez
En la literatura psicométrica encontramos diversas taxono-

mías que utilizan criterios disímiles para clasificar los tests psi-
cológicos. Así, por ejemplo, éstos suelen agruparse en: a) indivi-
duales o grupales, según se administren a una persona por vez
o a un grupo de individuos simultáneamente; b) de ejecución, lá-
piz y papel, visuales, auditivos, o computarizados, de acuerdo al
formato y materiales de presentación de los tests, o c) basados
en la teoría clásica o de respuesta al ítem, conforme al modelo
teórico de construcción. Cronbach (1998) distinguió entre tests
de ejecución máxima y medidas de ejecución o respuesta típica,
según demanden el mayor rendimiento del examinado (como
acontece en los tests de habilidades) en sus respuestas, o midan
el comportamiento habitual sin requerir respuestas correctas (a
la manera de los inventarios de personalidad, por ejemplo).
Otra clasificación interesante es la propuesta por Nunnally
(1991), en función de las áreas del contenido (constructos) medi-
do por los diferentes tests. Este tipo de taxonomía es particular-
mente estimulante para quien se inicia en el estudio de los
tests, debido a que aporta una idea general de la diversidad de
los campos de aplicación en los que pueden ser utilizados. Si-
guiendo este criterio, Nunnally (1991) discriminó tres catego-
rías de tests: de habilidades, de rasgos de personalidad, y de
preferencias (intereses, valores y actitudes). No obstante, esta
clasificación es problemática puesto que las diferencias concep-
tuales entre rasgos de personalidad y preferencias no son claras
ni aceptadas unánimemente, con constructos (personalidad-in-
tereses, intereses-actitudes, intereses-valores, por ejemplo) que
18
40 INTRODUCCIÓN A LA PSICOMETRÍA CLASIFICACIÓN DE LOS TESTS 41
se solapan en grado considerable (Anastasi y Urbina, 1998; Ho- nación genética o cultural del comportamiento. Para Juan-Espi-
lland, 1997). Por otro lado, no existen diferencias formales entre nosa (1997), una habilidad desarrollada representa el logro en
las escalas que miden actitudes, rasgos de personalidad o inte- algún dominio (por ejemplo, la escritura) y la inteligencia, una
reses vocacionales. En efecto, casi todas estas escalas han adop- condición necesaria para ese logro. De acuerdo con este autor, la
tado un formato likert de respuesta (Acuerdo-Desacuerdo o Muy inteligencia general y las aptitudes específicas (verbal, espacial
seguro-Nada seguro, por ejemplo) que solo varía en el número o matemática, por ejemplo) dependen de características ligadas
de alternativas contempladas (tres, cinco, siete o diez, entre las a la constitución cerebral y de disposiciones genéticas de las
más comunes). personas, y son más resistentes al entrenamiento que las varia-
Por estas razones, consideramos que la clasificación plantea- bles medidas por los tests de logro o habilidades desarrolladas.
da por Cronbach (1998) continúa siendo la más adecuada pues- No obstante, en algunos tests de inteligencia o aptitudes se in-
to que se refiere a diferencias esenciales entre los tests inclui- cluyen ítems que parecen medir habilidades desarrolladas más
dos en sus dos categorías (ejecución máxima y respuesta típica). que aptitudes.
En este capítulo realizaremos algunos agregados a esa clasifica- La postulación de un factor cognitivo general (g) que permite
ción clásica. En efecto, incluimos en nuestra revisión la medi- resolver problemas novedosos de cualquier naturaleza se opone
ción de las creencias de autoeficacia (Bandura, 1987; 1997) y las a la concepción de aptitudes relativamente independientes,
habilidades sociales, constructos que hoy no pueden ignorarse también tradicional en la psicología. La existencia de un factor
dada su importancia conceptual y empírica. Además, comenta- general de inteligencia es apoyada por investigaciones psicomé-
remos ciertas teorías relevantes en relación con cada constructo tricas y de la genética del comportamiento (Plomin, DeFries,
y mencionaremos tests psicológicos desarrollados internacional- McClearn y McGuffin, 2002), pero esto no implica negar la exis-
mente y en nuestro ámbito en estas dos últimas décadas. tencia de aptitudes más específicas. En general se asocia este
factor g a la velocidad de procesamiento cognitivo cuyas bases
biológicas no están aún bien determinadas, aunque se ha encon-
2.1. Tests de ejecución máxima: trado alguna evidencia preliminar en relación con la velocidad
inteligencia, aptitudes y habilidades de conducción nerviosa y el número de neuronas corticales,
entre otros indicadores psicobiológicos. Se ha definido la inteli-
La característica principal de los tests de ejecución máxima gencia general como flexibilidad comportamental y mental para
es que demandan a los examinados que respondan de la forma encontrar soluciones novedosas a problemas. Claramente, la in-
más eficiente que puedan frente a tareas problemáticas (proble- teligencia no es exclusiva de la especie humana aunque el hom-
mas matemáticos, por ejemplo) que deben resolver (Cronbach, bre sea el mamífero más inteligente (Roth y Dicke, 2005).
1998). En estos tests se miden diferencias individuales en el ni- Un test que se considera un indicador adecuado de g es el de
vel de ejecución máximo ante distintas tareas, cuando se inten- Matrices Progresivas de Raven (1993). Se trata de una prueba
ta realizarlas (Nunnally, 1991). Esto significa que los desempe- no verbal, cuyos ítems muestran un patrón de relaciones (cruces
ños solamente pueden medirse cuando las personas están y círculos, por ejemplo) incompleto, donde los examinados deben
motivadas para realizar una tarea de la mejor manera posible. responder seleccionando la secuencia faltante que completa la
Bajo el concepto genérico de tests de ejecución máxima se in- serie. Si bien sus autores aseguran que este test mide “educción
cluyen variables relacionadas, tales como las aptitudes, las ha- de relaciones”, un concepto estrechamente relacionado con la in-
bilidades y la inteligencia. Debe aclararse que la delimitación teligencia general, diversos análisis factoriales han cuestionado
de estos conceptos es uno de los problemas más controvertidos esta estructura interna unitaria del test. Se ha afirmado que el
de la psicología, al igual que el dilema subyacente de la determi- Raven, en realidad, mide tres factores cognitivos (percepción,
19
razonamiento analógico y capacidad espacial) y que debería citamente en la teoría CHC es la batería Woodcock-Johnson-III
complementarse con una medida del razonamiento verbal para (WJ-III) de aptitudes cognitivas (Woodcock, McGrew y Mather,
ofrecer un perfil más completo de la inteligencia en relación con 2001). Las aptitudes medidas por este test son: rapidez en el
las teorías actuales (Hogan, 2004). procesamiento, procesamiento visual, procesamiento auditivo,
Howard Gardner (1994, 1999) efectuó una crítica radical al memoria, comprensión-conocimiento, razonamiento fluido, lec-
modelo de inteligencia general con su Teoría de las Inteligencias tura-escritura y aptitud cuantitativa. Existen versiones de la
Múltiples (Multiple Intelligences, MI). Para Gardner, los tests WJ-III en varios idiomas (incluida una versión en español) y
miden preferentemente aptitudes relacionadas con los requeri- con un rango de aplicación de 2 a 90 años. Este test es de admi-
mientos académicos de la cultura occidental y por eso sólo iden- nistración individual y posee buenas propiedades psicométricas
tifican dos o tres dimensiones (lingüística, espacial y lógico-ma- de estandarización, confiabilidad y validez.
temática) de la inteligencia. Su teoría, basada primordialmente La teoría CHC representa un notable esfuerzo para lograr la
en criterios neuropsicológicos, propone ocho potenciales biopsi- conceptualización de la inteligencia. Sin embargo, aún existen
cológicos de procesamiento de información (“inteligencias”) que desacuerdos básicos entre los defensores de esta teoría. Por
permiten resolver problemas o crear productos valorados por ejemplo, algunos investigadores aceptan la existencia de g como
una cultura. Estas inteligencias, según Gardner (1999), son: un tercer estrato mientras que otros hablan sólo de dos estratos
Lingüística, Lógico-Matemática, Espacial, Cinestésico-Corpo- (aptitudes amplias y habilidades específicas). Del mismo modo,
ral, Musical, Interpersonal, Intrapersonal y Naturalista. La teo- no existe consenso respecto de la cantidad de aptitudes del se-
ría MI, de fuerte atractivo entre los educadores, constituye una gundo estrato.
fuente riquísima de hipótesis que no poseen una corroboración Recientemente (Johnson y Bouchard, en prensa) se ha pro-
empírica exhaustiva ni técnicas objetivas de medición de sus puesto otro modelo alternativo de la estructura de la inteligen-
constructos e indicadores (Hood y Johnson, 2002). En efecto, los cia humana, el VPR (verbal-perceptual-rotación de imágenes),
tests construidos para medir aspectos relacionados con las inte- basado en la teoría originalmente formulada por Vernon (1964).
ligencias múltiples, tales como el Multiple Intelligence Develop- La teoría VPR propone un factor general de inteligencia, un se-
mental Assessment –MIDAS– (Shearer, 1999) o el Inventario de gundo estrato de tres aptitudes generales (verbal, perceptual y
Autoeficiencia para Inteligencias Múltiples –IAMI– (Pérez, 2001), de rotación de imágenes) y un tercer estrato de ocho aptitudes
evalúan habilidades autopercibidas o autoeficacia (concepto que más específicas relacionadas con las anteriores (verbal, acadé-
trataremos más adelante) para actividades relacionadas con las mica, fluidez, numérica, memoria, espacial, velocidad percepti-
ocho inteligencias. va y rotación de imágenes). Este modelo se basa en evidencias
También existen desarrollos teóricos contemporáneos que re- psicométricas, neurocientíficas y provenientes de la genética del
presentan una solución de compromiso entre ambas posturas, comportamiento. Estas últimas indican que un 70% de la varia-
admitiendo la existencia del factor g pero también de aptitudes bilidad de esta estructura de la inteligencia es explicada por
y habilidades relativamente independientes. Una de estas teo- factores genéticos.
rías es la de Cattell-Horn-Carroll (CHC) (Carroll, 1993; Mc- En síntesis, la investigación parece apoyar la existencia de
Grew, Flanagan, Keith y Vanderwood, 1997), que propone un un factor general de inteligencia, que no explica la variabilidad
modelo de tres estratos: la inteligencia general en el estrato su- total del comportamiento inteligente, y de aptitudes cognitivas
perior (g), un estrato medio de aproximadamente diez aptitudes que realizan una contribución específica al comportamiento in-
cognitivas (procesamiento visual, por ejemplo) y un estrato infe- teligente, más allá de la contribución de g. Las aptitudes de ma-
rior con numerosas habilidades más específicas (como las des- yor relevancia consensuadas en las diferentes teorías son las
trezas manuales). Un instrumento contemporáneo basado explí- denominadas verbal y espacial; las demás aptitudes generales y
20
específicas asociadas constituyen todavía un dominio altamen- Tabla 2.1. Relaciones entre los subtests
te controversial. y los cuatro factores de las escalas Wechsler
La revista Intelligence es una de las publicaciones más auto-
rizadas en relación con la investigación y medición de la inteli- Puntuaciones Comprensión Memoria Organización Velocidad de
gencia y allí regularmente aparecen artículos relacionados con de Índice Verbal de Trabajo Perceptual Procesamiento
las diferentes teorías que hemos mencionado. Subtest verbales
Las escalas más utilizadas para la medición de la inteligen- Vocabulario x
cia en nuestro medio son las elaboradas por David Wechsler en Analogías x
1939, con varias actualizaciones posteriores; las últimas refe- Aritmética x
rentes al WISC-IV (Wechsler, 2005), para niños y adolescentes, Retención de Dígitos x
y el WAIS-III (Wechsler, 1999), para adultos. Todas las escalas Información x
de Wechsler comprenden subtests verbales y de ejecución. Los Sucesión de Letras
y Números x
ítems de los subtests verbales plantean problemas del tipo ¿Qué
significa arrogante?, o Menciona un planeta de nuestro sistema Subtests de ejecución
solar que no sea la Tierra; los subtests no verbales consisten, Completamiento
por ejemplo, en ensamblar objetos a la manera de un rompeca- de figuras x
bezas. Dígitos y Símbolos
Análisis psicométricos contemporáneos de las escalas Wechs- Claves x
ler identificaron cuatro factores de inteligencia subyacentes (or- Diseño con Cubos x
ganización perceptual, memoria de trabajo, comprensión verbal Matrices x
Búsqueda de Símbolos x
y velocidad de procesamiento). En la última versión del WISC-
IV las puntuaciones se interpretan en función de esos cuatro
factores y no en la forma tradicional de inteligencia verbal y de
ejecución. En las versiones actuales de las escalas Wechsler los 2000), compuesto por ocho subtests que permiten obtener pun-
ítems están ordenados según los parámetros de dificultad y dis- tuaciones en competencias requeridas para el éxito académico u
criminación de la teoría de respuesta al ítem (Hogan, 2004). ocupacional (aptitud verbal, numérica, espacial, abstracta, me-
La tabla 2.1. presenta un listado de los subtests de estas es- cánica, administrativa, lenguaje y ortografía).
calas y su relación con los cuatro factores subyacentes a las Se ha criticado a este tipo de tests su falta de poder predicti-
puntuaciones. vo diferencial –puesto que los mejores predictores resultan ser
Las escalas Wechsler son muy empleadas en psicología clíni- los puntajes combinados de sus subtests verbales y numéricos,
ca y educacional y han sido estandarizadas cuidadosamente en algo equivalente a un test de inteligencia aunque innecesaria-
los Estados Unidos y España, entre otros países, con muestras mente más extenso–, así como la confusión conceptual de incluir
nacionales representativas y estratificadas por edad, sexo, raza, aptitudes (como las administrativas) que en realidad son un com-
educación y ocupación. puesto de factores cognitivos y de personalidad (Kline, 2000).
La orientación de carrera y la selección de personal son áreas No obstante, a los fines de orientación o selección suministran
de trabajo del psicólogo donde resulta de significativa importan- información más específica que los tests de inteligencia general,
cia la medición de aptitudes cognitivas. En estos ámbitos son y tal vez en esto radique su popularidad entre los orientadores.
muy empleadas pruebas multifactoriales como el Test de Apti- El desarrollo de pruebas de aptitudes con bases científicas sóli-
tudes Diferenciales (DAT-5) (Bennet, Seashore y Wesman, das (en especial tests colectivos) es uno de los grandes desafíos
21
del futuro para la orientación vocacional y la selección de perso- cimiento en matemática respecto al rendimiento académico. Los
nal, dos de las áreas más importantes de la psicología aplicada tests referidos a criterio (TRC) constituyen un tipo especial de
(Johnson y Bouchard, en prensa). tests de rendimiento (en realidad, una forma particular de in-
En nuestro país, Cortada de Kohan (1998) elaboró el Test de terpretar los resultados de estos tests) que revisaremos en el ca-
Aptitud Verbal Buenos Aires, que consta de 98 ítems divididos pítulo de interpretaciones de puntuaciones de tests.
en dos mitades: sinónimos y definiciones. Todos los ítems son de Uno de los desarrollos contemporáneos más relevantes son
opción múltiple con 4 alternativas de respuesta, de las cuales los tests adaptativos o a medida, basados en la teoría de res-
una es la correcta. El tiempo de administración es libre, pero puesta al ítem. En especial los tests de rendimiento educativo
suelen ser suficientes 25 minutos para terminar la prueba, que han comenzado a adoptar crecientemente esta modalidad. A
puede ser aplicada tanto en forma individual como colectiva. El partir de un banco de ítems, la mayoría de los tests adaptativos
Test Buenos Aires posee baremos para la Argentina, Ecuador, operan mediante una estrategia de ramificación variable para
Colombia y España. Se han realizado los estudios psicométricos la selección progresiva de los ítems, que requiere establecer: a)
clásicos (confiabilidad, validez, análisis de ítems), pero además un procedimiento de inicio, a partir del cual se determina el pri-
se han obtenido para todos los ítems los parámetros de dificul- mer ítem a presentar, b) un procedimiento para seleccionar, tras
tad y discriminación según la teoría de respuesta al ítem, algo una estimación provisional del nivel del individuo en el domi-
muy novedoso en nuestro país. Puede ser utilizado con adoles- nio, el siguiente ítem a presentar, y c) un criterio para dar por
centes mayores, desde los 16 años, y adultos, con al menos tres finalizada la prueba (Olea, Ponsoda y Prieto, 1999). En compa-
años cursados de educación secundaria. También se dispone de ración con los tests convencionales de longitud fija, mediante un
una versión abreviada que mantiene las propiedades de confia- algoritmo adaptativo se consigue una mejor adecuación entre la
bilidad y validez de la forma completa y que debe administrar- dificultad de los ítems y el nivel de rasgo del sujeto, y por tanto
se con un tiempo límite de ocho minutos. se obtiene una estimación precisa de su nivel de rasgo con la
Un caso especial son los tests de rendimiento o logro. Este presentación de pocos ítems y en un tiempo de aplicación re-
tipo de pruebas se utilizan en todos los niveles del sistema edu- ducido. Además, dado que diferentes individuos reciben ítems
cativo para medir el conocimiento alcanzado en un área especí- distintos, los tests a la medida previenen que los ítems no sean
fica. En nuestro medio, Grasso (1969) elaboró un test de conoci- conocidos antes de su aplicación. Estos beneficios resultan espe-
miento en matemática para ingresantes a la universidad. La cialmente importantes para los responsables de programas de
prueba está compuesta por 70 problemas (del tipo: Si se lanzan evaluación educativa a gran escala, donde es necesario aplicar
tres monedas, ¿cuál es la probabilidad de obtener exactamente los tests de forma continua a muestras extensas.
dos caras?) que el estudiante debe resolver utilizando un forma- Otro ámbito relevante para el uso de tests de ejecución máxi-
to de opción múltiple de cinco alternativas de respuesta. Las ma es la neuropsicología, que estudia las relaciones entre el ce-
propiedades psicométricas del instrumento fueron adecuadas y rebro y la conducta (Kolb y Wishaw, 1986). El desarrollo de la
un análisis de regresión múltiple permitió constatar que expli- neuropsicología ha estado determinado por la necesidad de in-
caba un 76% de la varianza del rendimiento académico de los vestigar y encontrar herramientas que permitan el diagnóstico
estudiantes de primer año de la Facultad de Matemática, Astro- y el tratamiento de los déficit en el rendimiento cognitivo (me-
nomía y Física de la Universidad Nacional de Córdoba (prome- moria, lenguaje, atención, funciones visoespaciales, funciones
dio de calificaciones). Esta contribución específica fue muy su- ejecutivas) después de producirse una lesión cerebral. Frecuen-
perior a la realizada por las otras variables independientes del temente, estas lesiones resultan en trastornos cognitivos que
modelo (tests de aptitudes, intereses y valores) que sólo incre- afectan el desempeño de una persona en las actividades de la vi-
mentaron en un 8% la contribución explicativa del test de cono- da diaria, especialmente en la esfera laboral. Por ello, luego de
22
una lesión cerebral es imperioso determinar la cantidad y cali- los 2 a los 5 años). Estas pruebas requieren un buen entrena-
dad de daño cognitivo que puede haber sufrido la persona. miento del evaluador en el manejo, observación de niños peque-
La evaluación neuropsicológica (EN) es la herramienta que ños y también sólidos conocimientos teóricos que permitan otor-
posibilita este diagnóstico. Lezak (1995) identificó cuatro aplica- gar a las conductas observadas la debida importancia en el
ciones esenciales de la EN: evaluación propiamente dicha, cui- contexto de un diagnóstico. Debe destacarse que en ningún caso
dado del paciente y planificación del tratamiento, rehabilitación los tests de desarrollo reemplazan el examen neurológico del ni-
y evaluación del tratamiento, e investigación. En el texto clási- ño, sino que lo complementan.
co de Lezak se ha realizado la mayor recopilación y descripción En general, los tests de evaluación del desarrollo poseen me-
de tests neuropsicológicos existentes, mencionándose más de nos confiabilidad y validez que otros tests de ejecución máxima,
500 pruebas de este tipo. debido quizá a la pobre capacidad de concentración de los niños
Las áreas cognitivas evaluadas por los tests neuropsicológi- pequeños y a la rápida maduración cognitiva que caracteriza a
cos son de una enorme variedad. Así, podemos citar, entre otras, este período de la vida (Aiken, 2003). No obstante, estos tests
memoria, atención, discriminación visual, gnosias visuales, gno- son útiles para el diagnóstico precoz del retraso mental, los
sias auditivas, discriminación de color, funciones ejecutivas trastornos cerebrales orgánicos y los trastornos del aprendizaje
(planeamiento, verificación), lenguaje (expresión, comprensión, (por ejemplo, dislexia y discalculia). Entre los principales ins-
denominación), praxias (constructivas, de miembros). Algunos trumentos que se utilizan en nuestro país podemos destacar las
de los tests más conocidos en este ámbito son: el Mini-Mental escalas de Gesell y Amatruda (1971), construidas para diagnos-
State Examination (Folstein, Folstein y McHugh, 1975), un test ticar si los niños alcanzan parámetros adecuados de desarrollo.
de inspección rápida (dura aproximadamente 5 minutos) del es- A lo largo de un extenso programa de investigación se obtuvie-
tado cognitivo general de una persona; el Test de Stroop (1935), ron datos normativos sobre el desarrollo de las habilidades mo-
una prueba de atención que requiere determinar el color en el trices, lingüísticas y sociales, así como del comportamiento
que están escritos los nombres de colores que se hallan impre- adaptativo, en niños de 0 a 6 años. Las puntuaciones de estas
sos en colores incongruentes con la palabra (por ejemplo, la pa- escalas, determinadas por la presencia o ausencia de conductas
labra “rojo” escrita en tinta verde); el Test de Clasificación de específicas características a determinada edad, se expresan en
Cartas de Wisconsin (Heaton, Chelune, Talley, Kay y Curtiss, términos de la edad de desarrollo.
1991), una prueba de flexibilidad cognitiva; y la Figura Comple- Otro instrumento de este tipo, de gran aceptación internacio-
ja, de Rey (1941), un test de memoria visual y praxias construc- nal, son las Escalas Bayley del Desarrollo Infantil. Las tres es-
tivas. Se ha demostrado acabadamente la importancia, utilidad calas (motora, social y comportamental) se consideran comple-
y justificación de esta área de evaluación, cuyo logro más re- mentarias y suministran una contribución interesante a la
ciente es la posibilidad de identificar precozmente déficit cogni- evaluación clínica del niño (Bayley, 1993).
tivos, tales como la demencia.
Otro dominio íntimamente relacionado con la prevención e
intervención es el desarrollo infantil. Los tests de evaluación del 2.2. Tests de comportamiento típico:
desarrollo infantil miden las áreas motora, afectiva, cognitiva y motivación, actitudes y personalidad
del lenguaje, facilitando la detección precoz de posibles trastor-
nos. La población meta de estos instrumentos es la que posee En este tipo de tests ninguna respuesta puede ser calificada
entre 0 y 5 años; incluye por lo tanto la evaluación del neonato como correcta o incorrecta. Aquí se evalúa el comportamiento
(los primeros 30 días de la vida extrauterina); el lactante (desde habitual de los individuos, recurriendo a distintas afirmaciones
los 30 días hasta los 24 meses de edad) y el pre-escolar (desde ante las cuales el examinado debe indicar su nivel de acuerdo o
23
agrado, por ejemplo. Los tests de respuesta típica comprenden Hackett, 1994). La autoeficacia también se relaciona con las ap-
las medidas de rasgos de personalidad, intereses y actitudes, así titudes, puesto que las personas se sienten más seguras de em-
como de otros constructos afectivos y motivacionales relaciona- prender aquellas actividades en las que han experimentado éxi-
dos, como las creencias de autoeficacia (Cronbach, 1998). Los to. No obstante, sujetos con igual nivel de habilidad pueden
tests de habilidades sociales también deben incluirse en esta ca- experimentar diferente seguridad para emprender determina-
tegoría puesto que su formato habitual de respuesta es el de un dos cursos de acción, por lo cual la autoeficacia permite mejorar
autoinforme de respuesta típica y no el de un test de ejecución la predicción del rendimiento que realizaríamos si sólo nos guiá-
máxima. ramos por el nivel de habilidad real. Esto es así porque el desa-
Los tests de respuesta típica son, en su gran mayorí,a inven- rrollo de creencias de autoeficacia no sólo depende del éxito pre-
tarios de autoinforme donde se demanda al individuo informa- vio sino de otras fuentes, tales como el aprendizaje vicario y la
ción sobre sí mismo. Esta medición introspectiva y basada exclu- persuasión social.
sivamente en el lenguaje genera varias limitaciones importantes, La teoría social-cognitiva del desarrollo de carrera (Lent,
tales como no ser aplicables a niños pequeños y el hecho de que Brown y Hackett, 1994) propone un modelo explicativo de las
sus respuestas pueden falsearse (de manera intencional o no). Si interrelaciones entre rasgos de personalidad, intereses, habili-
bien se han ideado procedimientos para atenuar (no eliminar) las dades y autoeficacia que contribuye a esclarecer el significado
respuestas negligentes, deshonestas o tendenciosas, los resulta- diferencial de estos constructos.
dos de estos tests deben intepretarse con precaución y no debe- En la figura 2.1. pueden observarse las relaciones entre ras-
rían ser nunca el único criterio utilizado para tomar decisiones gos de personalidad (más básicos y ligados a lo genético) (A), las
clasificatorias o diagnósticas respecto a las personas. aptitudes (también hereditarias en gran parte y una de las
fuentes de la autoeficacia al facilitar las experiencias de logro
en un dominio) (B), la autoeficacia (más ligada al aprendizaje,
Escalas de autoeficacia relacionada con el constructo anterior pero también influida por
experiencias de aprendizaje adicionales tales como la persua-
La teoría social cognitiva ha destacado el papel de la autoefi- sión social y el aprendizaje vicario), y los intereses vocacionales
cacia percibida entre las variables motivacionales y afectivas. (aprendidos en gran medida y relacionados directamente con la
Bandura (1997) define la autoeficacia como la creencia en las autoeficacia y las expectativas de resultados, e indirectamente
propias capacidades para realizar determinados cursos de ac- con las experiencias de aprendizaje y la personalidad).
ción. Para este eminente teórico, las creencias de las personas Existen algunos interrogantes respecto a la naturaleza de la
acerca de sí mismas son elementos clave para la determinación autoeficacia. En efecto, si bien Bandura (1997) puntualizó cla-
de su comportamiento, dado que son un elemento de gran in- ramente que se trata de un constructo aprendido y contextual-
fluencia y desempeñan un rol importante en las elecciones efec- mente-específico, algunos investigadores postulan que también
tuadas por las personas, el esfuerzo que invierten, la perseve- existe un constructo de autoeficacia general, más semejante a
rancia para alcanzar metas y el grado de ansiedad y confianza los rasgos de personalidad, y otros han sugerido que la herencia
que experimentan frente a las tareas de la vida. influye de manera modesta en la autoeficacia además del papel
La autoeficacia se relaciona fuertemente con los intereses innegable del aprendizaje (Kaplan y Saccuzzo, 2006).
vocacionales pero se trata de una relación asimétrica, puesto El sitio web del Dr. Frank Pajares (www.emory.edu/EDUCATION/
que, tal como se ha comprobado en numerosas investigaciones, mfp), en la Universidad de Emory, Atlanta, constituye un teso-
las personas tienden a interesarse por aquellas actividades que ro informativo sobre teoría, investigación y medición de la au-
se sienten capaces de realizar exitosamente (Lent, Brown y toeficacia. Se han construido escalas de autoeficacia para el
24
aprendizaje, la matemática, la computación, la escritura, las
rendimiento
ejecución y
conductas de prevención de enfermedades de transmisión se-
Logros de
xual, el manejo de la tentación de beber y fumar, la enseñanza
y el aprendizaje de idiomas, varias de las cuales pueden consul-
tarse en la página mencionada. Bandura (2001) elaboró una mo-
12
nografía para orientar la construcción y análisis psicométrico de
5
este tipo de escalas, la cual es de consulta indispensable para
investigadores interesados en la medición de la autoeficacia.
Acciones de
Como ya señaláramos, en nuestro medio Pérez (2001) cons-
elección
Figura 2.1. Modelo social-cognitivo de desarrollo de carrera
truyó el Inventario de Autoeficacia para Inteligencias Múltiples

(IAMI), con fines de orientación vocacional, que evalúa la segu-
ridad percibida de los adolescentes para realizar exitosamente
9
Influencias contextuales próximas
actividades asociadas con las ocho inteligencias múltiples pro-
4
puestas por Gardner (1999). El IAMI incluye 8 escalas obteni-
al comportamiento electivo
das por análisis factorial (Lingüística, por ejemplo) y 64 ítems

(“Resolver problemas numéricos”, por ejemplo). El usuario de la
Metas de
elección
10
prueba debe responder utilizando un formato de 10 alternati-

vas, desde (1) “no puedo realizar esa actividad” a (10) “total-
6
8 mente seguro de poder realizar exitosamente esa actividad”.
Este inventario está incluido en un Sistema de Orientación Vo-
3
cacional Informatizado (Fogliatto y Pérez, 2003) y se ha obteni-

do evidencia favorable de su confiabilidad y validez, esta última
11
respecto de criterios de rendimiento académico y metas de elec-

Intereses
ción de carrera.
Un concepto relacionado con el de autoeficacia es el de au-
1
Expectativas de
toestima, o autovaloración, que la persona realiza acerca de sí

Autoeficacia
resultado
misma. La autoeficacia es una dimensión específica y cognitiva

del autoconcepto, así como la autoestima es una dimensión glo-
7
bal y valorativa del mismo. En efecto, uno puede valorarse mu-

cho a sí mismo (autoestima elevada) pero no sentirse capaz de
Experiencias
realizar una actividad específica (autoeficacia disminuida en

Aprendizaje
algún dominio) y viceversa. En nuestro medio, Grasso (1984)

desarrolló una escala para medir la autoestima en ancianos.
Apoyo contextual/
de
Este instrumento comprende 15 ítems cuidadosamente elabo-

-Predisposiciones
-Minusvalía/nivel
Antecedentes
Moderadores
rados (“Ahora ya no sirvo para nada”, por ejemplo) que se res-

-Raza/etnicidad
Affordance)
(Contextual
ponden utilizando una escala likert de cuatro posiciones (“Muy

personales
Variables
de salud
de acuerdo”, “De acuerdo”, “En desacuerdo”, “Muy en desacuer-

-Género
(inputs).
(B)
do”). Una validación preliminar de la escala demostró que sus

(A)
puntuaciones permiten discriminar entre una muestra de an-
25
cianos internados y otra de individuos más independientes que ayudan a identificar carreras u ocupaciones donde puede encon-
participan en actividades recreativas en un club de adultos ma- trar satisfacción.
yores. Debe evitarse la práctica profesional de usar los inventarios
de intereses para orientar de manera específica a los estudian-
tes, puesto que éstos necesitan considerar, en el proceso de toma
Inventarios de intereses vocacionales de decisiones de carrera, variables igualmente relevantes y,
además, reunir experiencia exploratoria sobre carreras y ocupa-
Los intereses vocacionales han sido definidos como perfiles ciones (Hood y Johnson, 2002). En general, se recomienda con-
de agrados y aversiones respecto a actividades relacionadas con fiar en los resultados de estos instrumentos a partir de los 15-
carreras y ocupaciones (Lent, Brown y Hackett, 1994). La pro- 17 años, aproximadamente, puesto que se ha verificado que las
blemática de los intereses es de especial utilidad para los inves- puntuaciones de los inventarios de intereses son bastante esta-
tigadores del comportamiento vocacional. Un conocimiento ade- bles a partir de esa edad.
cuado de esta dimensión de la motivación permite predecir el El paradigma más influyente en el dominio de la medición de
monto de satisfacción que una persona experimentará en el de- los intereses vocacionales es el formulado por Holland (1997).
sempeño de una ocupación. Los intereses se relacionan también La teoría de Holland es un modelo de congruencia entre los in-
significativamente con la estabilidad y el compromiso de los intereses y habilidades de una persona, por un lado, y los factores
dividuos en sus carreras y ocupaciones. Otros investigadores inherentes a su ambiente, por otro. Según este modelo teórico,
han comparado el peso relativo de los intereses vocacionales en existen seis tipos de personalidad: Realista, Investigador, Artis-
relación con otras variables psicológicas (habilidades, rasgos de ta, Social, Emprendedor y Convencional (RIASEC), los que a su
personalidad), verificando que los intereses reciben gran consi- vez determinan seis patrones análogos de intereses y de habili-
deración por parte del individuo en situaciones de elección de dades percibidas. El desarrollo de estos tipos depende de una
carrera (Holland, 1997). compleja serie de acontecimientos familiares, orientaciones per-
Los inventarios de intereses son los instrumentos más popu- sonales iniciales, preferencias ocupacionales e interacciones con
lares en un contexto de orientación para la elección de carrera, contextos ambientales específicos. Los ambientes en los que vi-
según se desprende de encuestas realizadas en los Estados Uni- ven y trabajan las personas pueden también caracterizarse, de
dos, donde instrumentos como el Strong Campbell Interest In- acuerdo a su semejanza, con seis modelos que se corresponden
ventory (Campbell y Hansen, 1981) son empleados por casi el con los seis tipos de personalidad anteriormente mencionados.
90% de los orientadores (Hood y Johnson, 2002). Se los ha defi- Los inventarios de intereses vocacionales más populares son
nido como una serie de ítems en los que se solicita a los indivi- el Self-Directed Search (Holland, 1994), el Inventario de Strong-
duos que indiquen sus preferencias vocacionales, a partir de lo Campbell (Campbell y Hansen, 1981) y el Registro de Preferen-
cual se pueden obtener puntuaciones finales que representan cias Kuder (Kuder y Zitowsky (1991). Más allá de sus diferen-
un perfil de intereses (Cronbach, 1998). cias (Kuder obtuvo sus escalas por análisis factorial y emplea
Se coincide en señalar que estos instrumentos deben usarse ítems de elección forzosa, el inventario Strong posee claves ocu-
para seleccionar metas vocacionales, confirmar elecciones pre- pacionales formadas por la comparación de personas satisfechas
vias, descubrir campos de actividad laboral, incrementar el au- en una ocupación con respuestas de la muestra de estandariza-
toconocimiento y encontrar ocupaciones que proporcionen satis- ción), todos utilizan el modelo teórico RIASEC para interpretar
facción (Cronbach, 1998; Hood y Jonhson, 2002). Es claro que sus resultados, lo cual permite una convergencia conceptual im-
los inventarios de intereses poco nos dicen respecto al éxito aca- pensable en otros dominios de la psicología. Una iniciativa inte-
démico u ocupacional que podrá alcanzar una persona, pero nos resante es el Test Visual de Intereses Profesionales (Tetreau y
26
Trahan, 1986), desarrollado por investigadores canadienses y También debe considerarse el papel de los factores culturales
basado también en el modelo de Holland, pero que utiliza 80 fo- que pueden falsear de algún modo los resultados de tests cuan-
tografías en color ilustrando actividades laborales en lugar de do se emplean en otras culturas (véase capítulo 7, “Adaptación
ítems verbales, con el fin de atenuar los problemas de sesgo cul- de tests a otras culturas”). Es frecuente encontrar, en los inven-
tural que generan estos últimos reactivos. tarios de intereses, ítems que mencionan actividades que en las
Recientemente se construyó un nuevo inventario de intere- culturas de origen tienen una popularidad que no poseen en
ses, con promisorias perspectivas. En efecto, el Personal Globe otros contextos; jugar béisbol, por ejemplo, tiene un significado
Inventory (Tracey, 2002) incluye ocho escalas básicas de intere- diferente en aquellos países donde es un deporte poco practica-
ses (Servicio, Relaciones Públicas, Asistencia, Arte, Ciencias de do. Algunos ítems mencionan títulos u ocupaciones que son fa-
la Vida, Mecánica, Tecnología y Negocios) semejantes al modelo miliares en el país de origen del inventario y, en cambio, resul-
RIASEC, aunque con mayor especificidad. La innovación quizá tan extraños para los ciudadanos de otras naciones (Fogliatto,
más importante que introduce es su discriminación entre profe- 1991).
siones de alto y bajo prestigio social, asociadas a sus ocho esca- Estos problemas indican con claridad los riesgos de emplear
las. Esto permite que el inventario pueda ser empleado para de un modo acrítico los tests construidos en otras culturas. Fo-
brindar orientación a trabajadores poco calificados, y no sola- gliatto planteó la necesidad de construir un cuestionario de in-
mente a estudiantes que aspiran a continuar una carrera supe- tereses de características locales y más adecuadas a las prefe-
rior. Los datos preliminares demuestran fuertes propiedades rencias, actividades educacionales y laborales, así como al
psicométricas de las escalas de este test. lenguaje habitual de los jóvenes de nuestro medio. Este instru-
Si bien existe evidencia preliminar de la influencia genética mento es su Cuestionario de Intereses Profesionales (CIP)
sobre los intereses vocacionales, existen interrogantes básicos (Fogliatto, 1991).
que deberán ser esclarecidos en el futuro, tales como ¿cuáles son
las bases neurobiológicas de los intereses vocacionales? o ¿en Tabla 2.2. Muestra de ítems del
qué medida pueden diferenciarse de otros constructos relaciona- Cuestionario de Intereses Profesionales Revisado (CIP-R)
dos (rasgos de personalidad o actitudes, por ejemplo)? Para po-
seer una teoría científica de los intereses vocacionales debe con- D I A
tarse con teorías explicativas y universales. En efecto, el modelo 1. Aprender estilos de pintura artística.
RIASEC es preponderantemente descriptivo y no ha logrado re-
2. Cantar en coros.
plicarse bien en algunos contextos culturales diferentes del oc-
cidental. 3. Trabajar en estudios jurídicos.
Hay una gran variedad de tests de intereses vocacionales pe- 4. Trabajar con calculadoras.
ro se presentan dificultades considerables cuando se emplean 5. Aprender a interpretar radiografías.
de modo transcultural. Uno de los obstáculos más significativos
6. Enseñar a niños.
en la traducción y adaptación de tests verbales son los proble-
mas de lenguaje. En este sentido, las traducciones libres pueden 7. Asesorar sobre el cuidado de plantas.
traicionar las intenciones originales del autor, y las literales,
por los problemas de equivalencia semántica y la diferente fre-
cuencia de uso de las palabras en lenguas diversas, no alcanzar La última versión del Cuestionario de Intereses Profesiona-
a expresar con precisión los significados de los ítems en sus ver- les (CIP-R) es asistida por computadora y se integra al Sistema
siones originales. de Orientación Vocacional Informatizado (Fogliatto y Pérez,
27
2003) que incluye también el IAMI (Pérez, 2001), así como un Las escalas de actitudes surgieron como una preocupación de
banco de información académica sobre carreras y especialidades los investigadores frente a la problemática de la aceptación social
educativas del secundario. El CIP-R comprende 15 escalas (Cál- de grupos (y creencias) diferentes (Anastasi y Urbina, 1998). La
culo, Asistencial, Musical, Artística, entre otras) y 114 ítems primera escala de actitud fue la de distancia social (Bogardus,
que describen actividades académicas o laborales. La persona 1925) donde los examinados clasificaban varios grupos raciales y
debe responder utilizando tres alternativas de respuesta: Agra- religiosos en función de su aceptación. Fue notable la producción
do, Indiferencia o Desagrado a cada uno de los ítems, por ejem- de escalas de actitudes porteriormente a la Segunda Guerra
plo “Construir puentes”. El CIP-R posee buenas propiedades de Mundial, tales como la famosa escala para medir el autoritaris-
confiabilidad y validez de criterio con respecto a metas de elec- mo (Adorno, Frenkel-Brunswik, Levinson y Sanford, 1950).
ción de carrera. Un aspecto criticable de este inventario es que La medición de actitudes, además de tener múltiples aplica-
su construcción ha sido empírica, basándose exclusivamente en ciones, también posee distintas variantes, aunque en la actuali-
el análisis factorial exploratorio de ítems relacionados con ca- dad predominan las escalas tipo likert (Likert, 1932). Estas es-
rreras y no en una teoría explícita de los intereses vocaciona- calas se caracterizan por presentar afirmaciones (ítems) que
les. Por consiguiente, es dificultoso relacionar sus escalas con deben responderse empleando una escala de 5 a 7 alternativas
los constructos de teorías reconocidas, tales como el modelo que indican el acuerdo del examinado con el contenido enuncia-
RIASEC (Holland, 1997). do en cada ítem. Si bien, tradicionalmente, la construcción de
escalas de actitud se caracterizó por el uso de procedimientos
específicos, en la literatura actual son indicados los lineamien-
Escalas de actitudes tos generales de construcción de tests, que expondremos en el
capítulo 6.
Las actitudes se refieren a predisposiciones aprendidas para El desarrollo de escalas de actitudes consiste, inicialmente, en
responder positiva o negativamente ante objetos sociales parti- elaborar un conjunto de ítems relativos a la dimensión que se
culares, es decir, tipos de personas, instituciones sociales o si- pretende medir y asignar números a las diversas alternativas de
tuaciones (Aiken, 2003). Para Padua (1979), las actitudes son respuesta a esos ítems. Esos valores numéricos reflejan la inten-
tendencias individuales a reaccionar, positiva o negativamente, sidad de la actitud, positiva o negativa, que posee un sujeto fren-
frente a un valor social. te a un objeto determinado. Los procedimientos de determina-
Desde el punto de vista conceptual es díficil diferenciar las ción de la confiabilidad y validez de las escalas de actitudes
actitudes de los intereses (Anastasi y Urbina, 1998). Al respec- tampoco difieren de los utilizados en los otros tipos de tests.
to, piénsese cómo podría distinguirse una escala de intereses Aiken (2003) construyó una escala likert de actitud ante la
por el cálculo y otra de actitudes ante la matemática, por ejem- matemática, luego adaptada por Murat (1984) para nuestro me-
plo. Probablemente la diferencia esencial entre estos dos cons- dio. Una escala frecuentemente citada en la investigación con-
tructos radique en el área de la psicología donde se apliquen. temporánea es la de roles sexuales de Bem (1974) que mide ac-
En efecto, los inventarios de intereses miden patrones de prefe- titudes hacia la masculinidad y la feminidad (como estereotipos
rencias (y rechazos) por áreas de conocimiento o trabajo y son sociales). Cada ítem describe algunas características personales
utilizados casi exclusivamente por los orientadores vocaciona- típicas de los géneros, y la persona que responde debe indicar
les; las escalas de actitudes, en cambio, generalmente miden su grado de acuerdo empleando una escala likert de siete pun-
patrones de preferencias (y rechazos) por creencias e ideologías tos (muy de acuerdo, bastante de acuerdo, algo de acuerdo, ni
y por consiguiente son más empleadas en la psicología social o acuerdo ni desacuerdo, algo en desacuerdo, bastante en desa-
política. cuerdo y muy en desacuerdo).
28
Tornimbeni y González (1997) elaboraron para nuestro país la personalidad se entienden como hereditarios en gran propor-
una escala de actitud hacia la investigación, cuyos ítems son del ción y, por consiguiente, bastante asimilables al concepto de
siguiente tipo. “temperamento” o “naturaleza emocional” de las personas (Car-
ver y Scheier, 1996). Algunas de las orientaciones temperamen-
• Recién al finalizar mi carrera voy a pensar en la posibili- tales básicas, tales como emocionalidad positiva (asimilable a
dad de convertirme en investigador. Extraversión y Amabilidad) y negativa (asimilable a Neuroticis-
mo), pueden distinguirse ya en la primera infancia (Tellegen,
Esta escala posee 5 alternativas de respuesta: muy de acuer- 1988). La investigación actual en genética del comportamiento
do, acuerdo, ni acuerdo-ni desacuerdo, desacuerdo y muy en de- (Plomin y colaboradores, 2002) apoya este condicionamiento he-
sacuerdo. reditario de la reactividad emocional de las personas, aunque
admite que el entorno familiar también explica parte de la va-
riabilidad de esa variable. Recientemente se ha sugerido que el
Inventarios de rasgos de personalidad incremento en la actividad social, el ejercicio físico y las técnicas
de relajación pueden modificar algunas tendencias emocionales
Otros tests de uso frecuente en la psicología contemporánea básicas de las personas (Lent, 2004).
son aquéllos construidos para medir rasgos de personalidad. Los rasgos de personalidad se relacionan con la conducta tí-
Aun cuando el término “personalidad” sea empleado en diferen- pica de las personas en su vida cotidiana, tales como el nivel de
tes acepciones y carezca de un sentido unívoco, la mayor parte ansiedad o de amabilidad. Existe un buen número de estrate-
de las definiciones coinciden en que hace referencia a las ten- gias diferentes para medirlos, aunque en los últimos años se
dencias afectivas básicas de una persona. Estas disposiciones le utilizan preferentemente los inventarios autodescriptivos o de
confieren relativa estabilidad al comportamiento individual, autoinforme (Casullo y cols., 1994). Un ítem típico de este tipo
más allá de las lógicas variaciones que resultan de la adapta- de inventarios puede ser como el siguiente: “Me agradan las
ción a diferentes contextos y situaciones. reuniones sociales.”
Según Nunnally (1991) el estudio total de la personalidad se Las opciones de respuesta a ítems como el anterior pueden ir
centra en dos grandes problemas: desde un formato dicotómico (“Sí-No” o “Verdadero-Falso”) a
uno de tipo likert. Actualmente se recomienda incluir varias al-
1) Cuáles son los rasgos dominantes de una persona en un ternativas de respuestas con la finalidad de mejorar la variabi-
momento determinado de su historia personal. lidad de las respuestas y, por consiguiente, la confiabilidad y va-
2) Qué factores determinan ese perfil de personalidad. lidez de los tests (Pajares, Hartley y Valiante, 2001).
Los inventarios de rasgos de personalidad se utilizan en ám-
La medición de la personalidad atañe principalmente al pri- bitos tan diversos como la clínica psicológica, la psicología ocu-
mer punto, y su propósito principal es describir a los individuos pacional y la investigación. Como afirmamos antes, uno de los
sobre la base de sus rasgos de personalidad predominantes. El principales inconvenientes de los autoinformes es la posibilidad
segundo punto se relaciona con la herencia y la experiencia, ya de que los sujetos falseen sus respuestas para dar una impre-
que para explicar el desarrollo de la personalidad de un indivi- sión socialmente aceptable (Anastasi y Urbina, 1998).
duo se debe recurrir a la genética del comportamiento y a las Pueden distinguirse dos tipos de inventarios de personali-
teorías del aprendizaje. dad: los que evalúan rasgos psicopatológicos y los que miden
En algunas de las teorías contemporáneas, tales como la de rasgos de la personalidad “normal”. Entre los primeros, de uso
los cinco grandes factores (Costa y Mc Crae, 1999), los rasgos de preferentemente clínico, uno de los más utilizados es el Inven-
29
tario Multifásico de Personalidad de Minnesota (MMPI), elabo- Pueden establecerse relaciones entre ambas teorías, puesto
rado en la década de 1940 para diagnosticar trastornos psicoló- que dos constructos son perfectamente asimilables: Extrover-
gicos. Los 500 ítems del MMPI incluyen una amplia variedad de sión y Neuroticismo (el polo negativo de Estabilidad Emocional)
contenidos y comprenden áreas como actitudes sexuales, educa- y el tercer factor de la teoría PEN, Psicoticismo (también deno-
ción, ocupación, familia, salud, síntomas psicosomáticos, mani- minado Impulsividad), se relaciona con Responsabilidad y Ama-
festaciones neuróticas y psicóticas de la conducta, etc. En su bilidad de manera inversa. Por otra parte, el factor de Apertura
versión original permite obtener puntuaciones en diferentes es- (o Intelecto) de la teoría de los cinco grandes factores (Costa y
calas clínicas relacionadas con distintas categorías de la psico- Mc Crae, 1999) no es reconocido por Eynseck (1981) como un
patología clásica (histeria, hipocondría, por ejemplo). factor de personalidad. En síntesis, y tal como acontece con la
El MMPI-2 (Butcher, Dahlstrom, Graham, Telegen y Kaemmer, inteligencia, el dominio de la personalidad es altamente contro-
1989) es una versión revisada y actualizada que incluye nuevos versial. La revista Personality and Individual Differences es
ítems, escalas adicionales y baremos actualizados. La estructu- una de las mejores fuentes de consulta sobre la medición y teo-
ra interna del MMPI (constructos medidos por las diferentes es- ría de la personalidad.
calas del test) ha sido cuestionada por los análisis factoriales El NEO-PI-R (Costa y Mc Crae, 1999) mide los cinco grandes
realizados, que tienden a identificar dos factores (afectividad factores y 30 facetas específicas que permiten una mayor discri-
positiva y negativa) consistentes (Kaplan y Saccuzzo, 2006). No minación en la medición de la personalidad. El NEO-PI-R se
obstante, el MMPI es uno de los tests más populares e investi- emplea en diferentes áreas de la psicología aplicada (en especial
gados del mundo y, en los Estados Unidos, es aceptado como evi- en el ámbito laboral) y en la investigación. También existe una
dencia adicional en un proceso judicial. versión abreviada de este inventario, el NEO-FFI, que mide so-
Otros inventarios de personalidad de uso clínico miden un lamente los cinco factores principales sin las respectivas face-
trastorno psicológico específico, como el Inventario de Depresión tas.
BDI-II (Beck, Steer y Brown, 1996) o el Test de Ansiedad Rasgo- Uno de los principales investigadores del modelo de los cinco
Estado (Spielberger, 1983), entre otros numerosos instrumentos factores, Goldberg (1999), diseñó un banco internacional de ítems
de este tipo. (international pool items personality, IPIP), a disposición en la
Entre los inventarios usados para evaluar rasgos de persona- Web para los usuarios interesados en utilizar, investigar o cons-
lidad en personas sin trastornos psicológicos severos, los más truir inventarios de medición de la personalidad (www.ipip.org).
populares son el 16PF-5 (Russell y Karol, 2000), el EPQ-R Los inventarios que miden rasgos de personalidad “norma-
(Eysenck y Eysenck, 1997), y el NEO-PI-R (Costa y Mc Crae, 1999). les”, tales como el NEO en sus diferentes versiones (Costa y Mc
La teoría de los cinco grandes factores (Norman, 1963; Costa Crae, 1999) y el inventario 16PF-5 (Russell y Karol, 2000), se
y Mc Crae, 1999) es predominante en la construcción de los emplean crecientemente en psicología ocupacional y educacio-
inventarios de personalidad elaborados para medir predisposi- nal, aunque también en contextos clínicos, en especial para di-
ciones no patológicas. Esta teoría postula cinco dimensiones señar programas de intervención preventivos, relacionados con
afectivas básicas en las cuales diferimos los seres humanos: Es- el manejo de la afectividad y los vínculos interpersonales. Va-
tabilidad Emocional, Extroversión, Apertura, Responsabilidad rias investigaciones han demostrado que los factores Responsa-
y Amabilidad. El volumen de investigación acerca de este mode- bilidad y Apertura, en particular, son predictivos del rendimien-
lo es abrumador, aunque como en el caso de la inteligencia, exis- to académico y ocupacional (Tokar, Fisher y Subich, 1998). Por
ten varias teorías alternativas y competidoras, como la teoría su parte, Extraversión y Neuroticismo son factores asociados
PEN de Eysenck (1981), que propone tres factores (Neuroticis- con la satisfacción en el empleo y el bienestar psicológico gene-
mo, Psicoticismo y Extroversión) en lugar de cinco. ral (Lent, 2004).
30
Otra estrategia de medición de la personalidad son las deno- niones o derechos de un modo adecuado a la situación, respetan-
minadas técnicas proyectivas, que emplean estímulos (ítems) do la expresión de esas conductas en los demás. Para Kelly
ambiguos ante los cuales se espera que los sujetos “proyecten” (1987), el concepto de HHSS incluye diferentes subcompeten-
sus sentimientos, deseos y emociones. Las técnicas proyectivas cias tales como habilidades conversacionales, habilidades hete-
poseen varias limitaciones que aconsejan su empleo como méto- rosociales de concertación de citas, habilidades para entrevistas
do de investigación más que de diagnóstico. Éstas comprenden: de trabajo, oposición asertiva y aceptación asertiva.
pobre confiabilidad, baja validez, carencia de un método objeti- Se han construido varias medidas de autoinforme de las
vo para puntuar e influencias contextuales sobre los puntajes HHSS, tales como el Inventario de Asertividad de Rathus (en
(Kline, 2000). Kelly, 1987) y la Escala Multidimensional de Expresión Social
El test proyectivo más conocido es el Psicodiagnóstico de (Caballo, 1987). Si bien algunos instrumentos han sido adapta-
Rorschach (1921) ya mencionado en el apartado histórico de la dos a nuestro medio, carecemos de inventarios locales de evalua-
primera parte de este texto. Incluye diez láminas (manchas de ción del constructo, por lo cual la elaboración de este tipo de tests
tinta simétricas) y las características de las respuestas son in- constituye un área de interés científico y aplicado en la región.
terpretadas por medio de parámetros preestablecidos, tales co- Finalmente, cabe señalar que, en estos últimos años, se han
mo atender a los detalles o a la figura global; o responder prefe- construido tests que no sólo contemplan características intrapsi-
rentemente al color o la forma. En los últimos años se han cológicas (cognitivas o afectivas) sino que también miden aspec-
realizado intentos por dotar de mayor estandarización a las con- tos relacionados con los diferentes ambientes en los cuales se
diciones de administración, puntuación e interpretación de sus desenvuelve el individuo. De este modo, existen tests para me-
resultados. Exner (1993) elaboró un sistema muy aceptado que dir dimensiones del ambiente social, escolar u ocupacional (Ka-
ha mejorado la confiabilidad de las puntuaciones del Rorschach, plan y Saccuzzo, 2006). Estos desarrollos son muy interesantes
aunque la evidencia es mixta respecto a su validez (Hogan, puesto que reconocen al comportamiento del ser humano como
2004). una función de su sistema nervioso (incluidos los componentes
psicológicos), la sociedad y la interacción entre ambos factores,
tal como ha sido remarcado por varios autores (Bandura, 1997;
Inventarios de habilidades sociales Bunge y Ardila, 2002).
Para finalizar, una sucinta referencia a una destacada inves-
Finalmente, otro desarrollo psicométrico contemporáneo es tigadora argentina (al igual que la Dra. Cortada de Kohan y la
el de la medición de las Habilidades Sociales (HHSS), construc- Dra. Casullo, mencionadas anteriormente) que trabaja asidua-
to proveniente de la psicología cognitivo-comportamental, y de mente en la construcción y adaptación de tests de respuesta tí-
gran relevancia en la evaluación clínica, educativa y ocupacio- pica: la Dra. Richaud de Minzi. Entre sus contribuciones en es-
nal. El término “habilidades sociales” se introduce en la litera- te ámbito pueden citarse la construcción de escalas para medir
tura en la segunda mitad de los años setenta, y a partir de la estilos de afrontamiento en niños y estilos parentales (Richaud
década siguiente se observa un incremento de la evaluación de de Minzi, 2005), así como diversas adaptaciones de tests de per-
habilidades sociales en diferentes ámbitos, tales como la psico- sonalidad, como el Inventario Beck y el NEO, ya mencionados
logía educativa, clínica y ocupacional (Mac Combs y Branan, anteriormente.
1990).
Las HHSS han sido definidas como el conjunto de conductas
que favorecen el desarrollo social de la persona y por medio de
las cuales ésta expresa sus sentimientos, actitudes, deseos, opi-
31
TEMA: CONSTRUCCIÓN DE UNA PRUEBA
Fuente: Rodas (S/F). Procedimiento de construcción de una prueba o test.

Disponible en: https://rodas5.us.es/items/84753dce-108e-45a4-a45d-
1e12d6c5e966/1/viewscorm.jsp?.vi=file
32
5.-PROCEDIMIENTO DE CONSTRUCCIÓN
DE UNA PRUEBA O TEST
5.1.- Introducción
El contenido de este tema se refiere al proceso general para la elaboración de un test. Los aspectos
a tener en cuenta a la hora de construir un instrumento de medida pueden clasificarse en dos tipos
(Prieto y Delgado, 1996): Aspectos contextuales o externos al propio reactivo y aspectos internos
al atributo que se mide y a la forma de medirlo. Los primeros hacen referencia a las características
que diferencian a la población con la que va a utilizarse la prueba y que si no son tenidas en cuenta
pueden interferir y sesgar1 inintencionadamente la evaluación del atributo que se pretende medir. El
segundo es un aspecto más estudiado en los manuales de psicometría y que hace referencia a la
definición del constructo (dominio o atributo) que se pretende medir así como todo lo relacionado
con la descripción, elaboración y análisis de los ítems o reactivos que constituyen la prueba.
Antes de entrar en el desarrollo de los distintos pasos a seguir, por lo que respecta a los atributos
internos del test queremos apuntar algunas cuestiones referentes a los aspectos externos al propio
test:
- Característica de la población a la que va dirigida la prueba, por lo que respecta a edad, nivel
educativo y cultural, clase social, ámbito de procedencia (rural o urbano), lengua materna,
presencia o ausencia de discapacidades específicas, pertenencia a minorías étnicas o
subculturas, etc (op. cit). Todos estos son aspectos a tener en cuenta a la hora de seleccionar
tanto el contenido como las características formales de los reactivos.
- Las restricciones temporales, así como la característica de aplicarlo de forma colectiva o
impersonal (tests de papel y lápiz, con soporte informático, alta importancia de las
instrucciones por escrito), pueden influir de forma diferencial a distintos subgrupos o estratos.
Dicho lo cual, la descripción que se va a presentar a continuación en este capítulo secuenciará los
pasos que pueden garantizar la elaboración de un buena escala o prueba, por lo que respecta a los
aspectos internos al propio test. Osterlind (1989) dice que el seguir unos pasos precisos y correctos
en la elaboración de un test no es criterio de validez, pero sí una cierta garantía de que los ítems que
1
Se entiende por sesgo a la diferencia en el valor escalar obtenido en una prueba por sujetos,
grupos o subpoblaciones que tienen un mismo nivel en el atributo que se mide. Recordemos lo dicho a este
respecto en el apartado 2.3 sobre errores conceptuales y errores sistemáticos.
116
33
Objetivo de la Prueba 117
resulten de ese test bien elaborado muy posiblemente midan ese constructo que verdaderamente se
quiere medir. Pero eso no quiere decir que, por el simple hecho del proceso seguido, tengamos
garantía de que los expertos a los que se les pida opinión van a apreciarlo como un test de validez.
Para ilustrar esta explicación, Osterlind (op. cit.) compara el proceso de elaborar un test1 con la
fabricación de un violín. El violín puede haber sido construido siguiendo de forma precisa los pasos
correctos. Pero cuando un violinista lo toca ante un auditorio, lo que el auditorio valora no es como
haya sido construido sino cómo suena, que es el criterio de validez. Igualmente, en la construcción
de tests, el proceso seguido puede ser una cierta garantía de que posteriormente sus usos van a ser
válidos, pero si lo son o no dependerá del correcto obrar del usuario en la situación concreta en la
que le ha tocado aplicarlo. Como dice J. L. Padilla (1995) en la elaboración de tests, como en las
disciplinas artísticas, la “genialidad” suele asentarse sobre un perfecto dominio de los “fundamentos
técnicos”.
Dejando a un lado las comparaciones, presentamos a continuación los pasos habituales para la
elaboración de un test, un cuestionario, e incluso cualquier tipo de escala (Croker y Algina, 1986):
1. Delimitación del objetivo para el que van a utilizarse las puntuaciones.
2. Definición del constructo que se pretende medir con el test.
3. Descripción general de los componentes del constructo.
4. Diseño del test.
5. Redacción de los ítems.
(Consulta a expertos y estudio de campo)
6. Análisis de la calidad de los ítems.
7. Estudio de la fiabilidad del test.
8. Estudio de la validez del test.
9. Elaboración de las normas de aplicación, interpretación y baremación de las puntuaciones.
Los pasos suelen completarse en el orden anterior. No obstante, la elaboración de tests es un

proceso abierto y cíclico en el que los resultados obtenidos en uno de los pasos aportan información
relevante para pasos anteriores y posteriores. En función de los resultados en determinados
momentos, suele ser frecuente tener que volver atrás para repetir el proceso y evitar los errores o
inconvenientes detectados. Por ejemplo, como podrá comprobar el alumno en las clases prácticas,
no es necesario que los ítems sean perfectos desde su primera redacción, pues a veces los resultados
del análisis de la calidad de los ítems pueden llevarnos a revisar determinados ítems y a modificarlos
o sustituirlos por otros. A continuación se desarrollan cada uno de los pasos anteriores.
5.2.- Identificación del objetivo para el que se utilizarán las puntuaciones.
Aunque parezca evidente, no siempre se realiza a nivel práctico el hecho de que el objetivo o
posibles usos más frecuentes del test sea fundamental y determinante a la hora de concretar y dar
sentido al resto de pasos de la construcción de un test. La forma de aplicación, la duración de la
prueba, el tipo de ítems, su nivel de dificultad, etc., todos ellos son aspectos que están en función del
objetivo para el que se vayan a utilizar las puntuaciones. Objetivo que se concreta en: características
1
Este capítulo es genérico y, por lo tanto, lo que en el se expone pretende ser de aplicación general
a la medición a través de todas sus posibilidades de escalamiento. Pero, debido a que los tests son los
instrumentos de medida más frecuentemente utilizados, a veces ofreceremos informaciones que son de interés
general pero lo son muy especialmente para las Teorías de los Tests.
117
34
118 Procedimiento General de Construcción de una Prueba
de la población y tipo de inferencias o usos que se van obtener de la prueba. Hasta tal punto es
importante el objetivo o usos que se hagan del test, que más correcto que decir de un test que es
válido sería decir que es válido o útil para determinadas aplicaciones.
No es tan extraño encontrar tests que no tienen explicitada una definición clara de objetivos. ¿Con
cuántos exámenes nos encontramos que tienen como referente una simple evaluación de contenidos,
más o menos circunstanciales, pero sin un claro planteamiento de objetivos didácticos en ninguno
de sus niveles? Si los exámenes no se refieren a objetivos, posiblemente sea porque los programas
están desprovistos de objetivos y posiblemente, lo que sería más grave, hasta los planes de estudio
pudieran estar desprovistos de objetivos.
Las mediciones en Psicología pueden responder a una gran variedad de objetivos y contextos:
evaluar el rendimiento académico, realizar diagnósticos clínicos, seleccionar aspirantes a puestos de
trabajo o a becas, orientar la trayectoria educativa, evaluar la congruencia o efectividad de
programas, etc. Es necesario ser conscientes de que cada uno de estos tipos de objetivos plantea unas
exigencias específicas a lo largo de todo el proceso de construcción. No es igual el test que pretende
la medición de un constructo teórico aptitudinal o de personalidad, que realizar una evaluación
académica, una selección de personal o un diagnóstico (más información a este respecto en Prieto
y Delgado, 1996). No es lo mismo, por ejemplo, elaborar un tests de psicometría para establecer la
linea base de la que partir en unas clases de recuperación (ítems fáciles), que hacerlo para diferenciar
los distintos niveles de conocimientos, que hacerlo para adjudicar una beca (ítems difíciles).
Podemos concluir que declarar explícitamente el objetivo para el que van a utilizarse las
puntuaciones ayuda a la definición del constructo en sus dos posibles vertientes:
1. La definición de una teoría consistente y sustantiva que relaciona el constructo con otros
constructos o variables empíricas de su entorno. Esto es lo que, dentro de la técnica de
modelos estructurales, se suele llamar parte estructural de un modelo o teoría.
2. La definición de los comportamientos que pueden considerarse como indicadores del
constructo. Aspecto semántico u operativo de cada constructo que en los modelos
estructurales, se identifica con el modelo de medida del constructo (Bollen, 1989). Por
ejemplo, mediremos la actitud hacia la psicometría recogiendo información sólo de los
componentes de dicha actitud que estén relacionados con el rendimiento en psicometría.
Los dos aspectos considerados anteriormente suelen corresponderse con dos acepciones o
evidencias de validez: Validez de contenido y validez predictiva. A su vez, la validez de Constructo,
más global y defendida últimamente, asume ambas acepciones de la definición del constructo. A ello
vamos a dedicar el siguiente apartado.
5.3.- Definición del constructo
Parece claro, por lo dicho, que es importante conocer los objetivos del test para así tener más fácil
los contenidos o lo que, a un nivel superior de abstracción, podemos llamar definición del constructo.
Por lo tanto, a partir de los objetivos hemos de dar un paso más que nos acerque a la elaboración
de los ítems que serán la materia prima con la que vamos a medir el atributo o constructo del que se
trate en cada caso, o los genes de los que depende la calidad del test resultante (Osterlind, 1989).
La definición del constructo se debe realizar de la manera más sistemática posible. Hay dos
grandes aproximaciones para hacer la definición de los constructos. En función de la novedad o no
del objetivo que nos planteemos con la prueba y del tipo de test del que se trate se insistirá más en
un procedimiento u otro. Pero las dos aproximaciones siguientes las presentamos separadas, más en
aras de claridad terminológica que porque creamos que son dos procesos excluyentes (Padilla, 1995):
118
35
Definición del Constructo 119
1. Aproximación inductiva o exploratoria. El autor del test escribe un gran número de ítems que
supuestamente miden el constructo (después presentaremos algunos recursos a los que acudir
para tener ciertas garantías de validez de contenido). A continuación, se administran los ítems
a un grupo grande de personas. Las respuestas de las personas a los ítems son analizadas
mediante técnicas estadísticas para buscar patrones de relación entre los ítems. El autor del test
“pone nombre ...” a esos patrones de relación y de esta forma “define” el constructo. La
aproximación trabaja desde las respuestas de las personas hacia la definición del constructo.
Sobre este procedimiento de aproximación al constructo hay que manifestar algunas reservas
si se llevara a cabo en sentido estricto. Un proceso inductivo en el que se parta de un total
desconocimiento de lo que se quiere medir, dará lugar a resultados azarosos y posiblemente
inesperados, pues dependería completamente de circunstancias o preferencias arbitrarias y
descontroladas.
2. Aproximación deductiva o confirmatoria. El constructo no se mide en el vacío. Está insertado
en una teoría que dirige la propia definición del constructo indicando los comportamientos que
pueden considerarse indicadores del constructo. La contrastación de las hipótesis estructurales
que pone de manifiesto la teoría determinará la validez del test. Esta aproximación va desde
la teoría hacia los hechos.
Normalmente, se parte de situaciones en las que se tiene un cierto conocimiento del constructo
que se quiere medir, aunque a posteriori la investigación también aumente el bagaje de conocimien-
tos sobre dicho constructo. Así pues, se trata de dos procedimientos no excluyentes que, como suele
ocurrir en el proceso investigador en su conjunto, funcionan de forma complementaria. Además, no
se debe confundir el proceso inductivo para la construcción de ítems sobre un constructo novedoso,
con la despreocupación por conocer sobre el constructo que se quiere medir.
Tradicionalmente, el autor del test ha obtenido la información necesaria para definir el constructo
mediante los siguientes procedimientos (Croker y Algina, 1989; Martínez-Arias, 1995):
1. Revisión bibliográfica. Tener presentes las conductas o indicadores que hayan utilizado otros
investigadores para medir el mismo constructo y de los que podemos tener conocimiento por
sus publicaciones.
2. Análisis de contenido. Este procedimiento consiste en hacer preguntas abiertas relativas al
constructo que nos interesa a personas conocedoras del constructo o que son elementos de la
población objetivo y cuyas respuestas pueden indicar categorías conductuales representativas
del constructo.
3. Juicio de expertos. Se trata de pedir a personas “expertas” a través de entrevistas o
cuestionarios que nos indiquen qué tener en cuenta y, por lo tanto, medir en los sujetos por lo
que respecta al constructo .
4. Identificación de incidentes críticos. La particularidad de este procedimiento está en que
pedimos a personas cercanas a sujetos típicos de nuestra población objetivo, que nos
identifiquen comportamientos tipo de los distintos niveles del constructo.
5. Observación directa. El autor del test recoge la información mediante observación directa de
personas que manifiestan el constructo. Los comportamientos de estos sujetos que el autor
considere relevantes serán propuestos como posibles indicadores del constructo.
De esta forma hemos de conseguir la mejor aproximación a una buena y clara definición del
constructo o constructos a medir; tanto desde el punto de vista estructural o de teoría psicológica en
el que se encuadra, como operativo o de delimitación del tipo de indicadores comportamentales que
habremos de utilizar.
119
36
Evidentemente, como el lector puede estar pensando, es muy difícil hacer un buen test, pero hay
algunos recursos, estrategias o ayudas para proporcionarnos como resultado un cuadro de contenidos
o de especificaciones del test. A ello dedicaremos el apartado siguiente (Osterlind, 1989).
5.4.- Descripción general de los componentes del constructo
Figura 5.1.- Diagrama explicativo del proceso de derivación de los objetivos

específicos a partir de los objetivos generales, en una prueba de rendimiento.
Los constructos pueden variar desde los muy específicos y estrechamente definidos (p.e. el
atractivo de un nuevo modelo de coche) a los muy generales y, casi por definición, multidimensiona-
les (p.e. satisfacción con el trabajo). La ventaja de las escalas o subescalas unidimensionales es que
explican el por qué de su posible utilidad predictiva o diagnóstica. Mientras que en las pruebas de
rendimiento, de selectividad, o, en resumidas cuentas, de orientación práctica, lo único que importa
120
37
Descripción General de los Componentes del Constructo 121
es su utilidad y no su validez teórica o de constructo1 (El concepto de validez será desarrollado más
ampliamente en otro tema).
Las especificaciones del test y de los ítems son el recurso más frecuentemente utilizado,
especialmente en los tests de rendimiento, para garantizar que el test tenga validez de contenido.
Estas especificaciones no son otra cosa que una especie de árbol descendente que partiendo de los
objetivos de medida planteados con el tests llegue a objetivos específicos, operativos o evaluables,
pasando por puntos intermedios en los que los objetivos se cruzan con contenidos, taxonomías
cognitivas, etc (ver figura 5.1). Estas especificaciones frecuentemente incluyen, a través de un
cuadro de especificaciones del test, ponderaciones de los distintos apartados que resulten como
constitutivos del test, para orientar al redactor y aconsejarle la proporción de ítems que debe haber
de cada apartado del test. A modo de ejemplo, se puede observar el cuadro de especificaciones del
examen de Psicometría del curso 1996/97 de esta facultad de Psicología (ver tabla 5.1).
Tabla 5.1.- Cuadro de especificaciones del examen de Psicometría del curso 1996/97 (con los pesos en % ).
Después de este intento de conseguir la mejor validez de contenido por parte de los diseñadores
del test, se habrán de construir los ítems o el banco de ítems de la prueba. Siguiendo las directrices
de la tabla 5.1. se suele construir un banco de ítems que triplique, al menos, el número de ítems del
test resultante. El primer criterio al que se suele someter este banco de ítems es el del juicio de
expertos a través de dos tipos de tareas (Osterlind, 1989) que tienden a identificar y evaluar el
entramado o red de afinidad entre los distintos niveles de objetivos, contenidos y taxonomías
1
Entendemos por validez teórica o de constructo a la congruencia entre las relaciones que nosotros
encontramos de nuestro constructo con otras variables y las que se encuentran en la literatura existente sobre el
tema.
121
38
cognitivas que dan lugar a los objetivos evaluables que constituyen el último elemento de la figura
5.1., así como las casillas de la tabla 5.1.
Los protocolos tipo, propuestos por Osterlind (1989), serán presentados en el apartado 5.7. de este
tema, que trata sobre el análisis de ítems1. Con su uso se pretende:
1.- Descubrir cuál es el objetivo de medida que intenta cubrir cada ítem.
2.- Evaluar en una escala de 1 a 3 o de 1 a 5 el grado de adecuación de cada ítem a su objetivo u
otro criterio interno o externo al test.
5.5.- Diseño del test.
El diseño del test consiste en el conjunto de decisiones que el autor debe tomar relacionadas con
la “estructura” o “forma” del test. En este momento del proceso de elaboración debe considerar:
* Número de ítems de cada especificación del test

* Tipo de ítems y número de alternativas de respuesta.
* Cómo cuantificar las alternativas de respuesta.
Diseñar el test es preparar la información necesaria para elaborar la población inicial de ítems.
El autor del test en este paso como en los anteriores debe asegurar que el test final aportará la
información necesaria para alcanzar el objetivo para el que van a utilizarse las puntuaciones. Todas
las decisiones que tome debe someterlas al criterio siguiente: ¿contribuye a lograr el objetivo para
el que van a utilizarse las puntuaciones?
Examinemos con algún detalle cada una de las cuestiones anteriores, relativas al diseño del test.
5.5.1. Número de ítems
Es imposible fijar a priori el número de ítems que debemos hacer para constituir la población
inicial de ítems. También es evidente que, como después someteremos los ítems de esa población
inicial a un proceso formal de revisión para conocer su calidad, habrá que elaborar más ítems de los
que en última instancia formarán el test final.
Tampoco podemos olvidar que el modelo lineal aditivo de las escalas tipo Likert y de la Teoría
Clásica de los Tests recomienda elaborar tests largos, para favorecer el que podamos obtener
mediciones fiables. El supuesto sobre el valor nulo del promedio de los errores de medida de los
items del test sólo se podrá alcanzar cuando el número de ítems es suficientemente grande.
La regla más común establece intentar elaborar tres o cuatro veces más ítems de los que prevemos
formarán el test final. Por ejemplo, para un test que previsiblemente tendrá 10 ítems podemos
intentar elaborar 30 ó 40 para la población inicial. No obstante, si por las peculiaridades de la
variable resulta especialmente difícil redactar ítems, podemos disminuir la regla intentando elaborar
sólo el doble de ítems para formar la población inicial.
1
En realidad estos protocolos de depuración de ítems a partir de juicios de expertos se pueden utilizar en
todas y cada una de las distintas fases de depuración (prepiloto, piloto, ...definitivo).
122
39
Descripción General de los Componentes del Constructo 123
Dado que el tiempo de realización de la prueba en su conjunto es algo a decidir previamente en

función del tipo de usuario y de la finalidad de la prueba, una vez fijado el tiempo deseable, es
conveniente calcular el número de ítems que cualquier sujeto puede responder en ese tiempo y ello
estará en función del numero de alternativas que el sujeto tiene que leer en cada ítem.
5.5.2.- Tipo de ítems y número de alternativas de respuesta
Cuando hablamos de tipo de ítems nos referimos al formato del ítem que se va a diseñar y que,
lógicamente, viene determinado por el tipo de constructo que se vaya a medir y por la finalidad de
uso que se le va a dar a la prueba. Por lo que respecta al formato de los ítems, la primera decisión
a tomar es si el sujeto debe construir la respuesta (respuesta abierta) o si ha de seleccionarla de entre
las propuestas. Las primeras se adaptan mejor a los procesos cognitivos complejos y en los que es
primordial la actividad o producción del sujeto, mientras que los segundos son últimamente
preferidos por su mayor precisión o fiabilidad, además de por su mayor rapidez de corrección.
El tipo de alternativa de respuesta es la forma en que se va a pedir a las personas que respondan
al test. Los tipos de alternativas de respuesta más frecuentes en tests de ejecución máxima (para
mayor información sobre ventajas e inconvenientes de cada tipo de ítems consultar Osterlind,1989)
son:
1.-Verdadero y Falso. Tienen el inconveniente de ser respuestas excesivamente contundentes o

extremas, y que de pocos enunciados se pueden emitir sin crítica. Suele ocurrir que alumnos de nivel
alto en el constructo suelen equivocarse al responder por encontrar pequeñas razones que irían en
contra de la respuesta correcta. Son ítems fáciles de construir, pero su respuesta está muy afectada
por el azar.
p.e.: (todos estos ejemplos de tipos de ítems han sido tomados de J. Muñiz, 1994)
El coeficiente de fiabilidad puede ser mayor que 1

Verdadero Falso*
5- Elección múltiple .- Suelen tener entre tres y cinco alternativas de respuesta, de entre las que el
sujeto tiene que elegir cuál es la correcta, o la más correcta si hubiera varias que pudieran ser
consideradas como correctas. No obstante, hay pruebas psicométricas que ofrecen la posibilidad de
elegir varias alternativas como correctas, e incluso de ordenarlas en cuanto al grado de corrección;
pero crean algunos problemas de calibración o de obtención de las puntuaciones en el atributo que
se mide.
p.e.:
La correlación entre dos formas paralelas de un test se denomina:

-Coeficiente de validez
-Coeficiente de fiabilidad*
-Índice de fiabilidad
3.- Relacionar. En ítems de conocimientos e información suelen ofrecerse dos columnas de

elementos informativos y pedir al sujeto relacione los elementos de la columna izquierda con los de
123
40
la derecha. Constituyen una forma rápida de preguntar y responder sobre una gran cantidad de
contenidos, pero no es adecuado para evaluar sobre procesos cognitivos de mayor complejidad.
p.e.: Un ítem en el que se pida al sujeto que relacione fechas y echos históricos; y en el campo de
la Psicometría podemos poner este ítem (op. cit.)
Conecte con una línea cada fórmula con su denominación:
1. Error de medida a) σx 1 & ρxx´ ((3)

(X & V) ((1)
2. Error de estimación b)
2
3. Error típico de medida c) σy 1 & ρxy ((4)
4. Error típico de estimación d) (Y ) & Y) ((2)
4.- Completar, sustituir o corregir algún o algunos elementos de una frase o serie estimular. Este
tipo de ítems evitan la influencia del azar, pero al igual que en el caso anterior son excesivamente
memorísticos.
p.e.:
Se dice que un test tiene validez de........................cuando los ítems muestrean adecuadamente el
dominio.
contenido *
5.- Respuesta corta. Se pide la respuesta sin oferta de alternativas de respuesta. Con ello se evita
la influencia del azar. Pueden ser adecuados para evaluar la claridad con la que se han asimilado
algunos conceptos simples. Como todas las respuestas abiertas, éstas también pueden tener
problemas de fiabilidad.
p.e.:
¿Cómo se denomina la correlación entre test y criterio?
coeficiente de validez *
6.- Ensayo.- Ítems que requieren respuestas más largas y con mayor tiempo que en el tipo anterior,
e incluso en ellos se suele permitir el uso de materiales complementarios.
p.e.:
Exponga sus conocimientos acerca de la validez aparente.
Para intentar objetivar la puntuación o corrección de este tipo de ítems se suele recurrir a varios
jueces o correctores a los que se les provee de listas de control de categorías a evaluar en las
respuestas; así como de las escalas de calificación más adecuadas para cada una de las categorías de
respuesta (Rivas, 1983).
En los tres primeros tipos de ítems la actividad del sujeto consiste en seleccionar la respuesta y
en los dos últimos los sujetos tienen que generar la respuesta. En el tipo de ítem cuarto todo depende
de que se oferten elementos de entre los que elegir el correcto o no.
De forma general no se puede afirmar que un tipo de reactivo sea mejor que otros. Siempre cabe
responder: depende de para qué, cómo y cuándo.
124
41
Dise½o del Test 125
No obstante y a pesar de los inconvenientes apuntados anteriormente, el formato más utilizado

es el de ítems de elección múltiple. Tanto para este tipo de ítem como para cualquier otro cabe
resaltar alguno de los errores más frecuentes para prevenir su repetición (Muñiz,1994, p. 208-209):
- Que las alternativas de respuesta no resultan igualmente plausibles...por resultar obvias o
absurdas. Las alternativas incorrectas más plausibles tienden a perjudicar a los sujetos más
competentes ..al disponer de información adicional problemática.
- Siempre que se pueda, conviene evitar los enunciados en forma negativa, pues resultan más
difíciles de procesar para los sujetos. También las frases cortas son preferibles a las de estructura
demasiado complicada. Evitar o minimizar el uso de expresiones como "raras veces", "a menudo"
o "generalmente". Asegurarse de la concordancia gramatical entre el enunciado general y las
alternativas. Evitar alternativas o enunciados jocosos.
- La longitud de las alternativas conviene que sea aproximadamente la misma... es erróneo que una
vez que se describe con detalle la correcta, se despachen rápidamente las incorrectas.
-Evitar las reiteraciones de texto innecesarias. p.e.:
"El índice de dificultad es:

a) La proporción de sujetos que aciertan el ítem *
b) La proporción de sujetos que fallan el ítem
c) La proporción de sujetos que omiten el ítem
(Dejamos al alumno para que piense cuál sería las forma de subsanar el problema
de redacción en este ejemplo.)
- Cuando se utilizan cifras (números, fechas, etc.) en las alternativas es conveniente presentarlas
ordenadas para evitar confusiones innecesarias por parte de los sujetos. p.e.:
"En una distribución normal al percentil 95 le corresponde una Z entre:
a) -0.5 y 1.0
b) 1.0 y 1.5
c) 1.5 y 2.0 *"
- Conviene evitar el uso como última alternativa de "todas las anteriores", pues conociendo que una
de las anteriores es incorrecta, ya queda descartada esta última. Por ir contra la lógica seguida en
el control de los efectos del azar (ver apartado siguiente).
En general, todas estas recomendaciones y otras muchas que se podrían hacer se resumen en el
buen uso del sentido común de cara a intentar que la puntuación en el test, y, por lo tanto, las que
se obtengan en los ítems, dependan exclusivamente o al menos en la mayor medida del constructo
que se mide y no de otros constructos ajenos, como suelen ser las habilidades lingüísticas, etc..
Para mayor información sobre tipos de reactivos el alumno puede consultar F. Rivas (1983, 1er
tomo).
En los cuestionarios de personalidad o actitudes (tests de ejecución típica) se suelen utilizar
formatos del tipo SI/NO, SI/NO/A VECES, o escalas tipo Likert (más adelante se hablara de este tipo
de escalamiento) en las que el sujeto gradúa o pondera su respuesta en escalas de 3 a 9 posibles
valores. En estas escalas de actitudes se suelen distinguir tres tipos de alternativas de respuesta:
Las alternativas de acuerdo piden a la persona que indique el grado de acuerdo con la información
presentada en el enunciado del ítem. Habitualmente, son bipolares -registran el acuerdo y el
desacuerdo- y simétricas respecto a un punto neutro. A través de las alternativas de respuesta, el
sujeto indica si está “fuertemente”, “moderadamente” o “ligeramente” de acuerdo o en desacuerdo
con el enunciado del ítem. Los modificadores (p.e. muy, bastante, ...) deben ser los mismos para el
125
42
acuerdo y el desacuerdo, haciendo que las elecciones de respuesta sean simétricas. Para alcanzar esta
simetría, no es imprescindible incluir un punto neutro. Las alternativas de acuerdo son las más
populares y versátiles, utilizándose para una gran variedad de variables.
El siguiente ítem del ejemplo muestra la utilización de alternativas de acuerdo:
C Un trabajo bien hecho es una buena medida de lo que vale una persona
Muy en desacuerdo 1 2 3 4 5 Muy de acuerdo
Las alternativas de evaluación piden a la persona que haga un juicio en una dimensión de
“bueno-malo” (o “adecuado-inadecuado”, “correcto-incorrecto”, etc). Las alternativas suelen ir desde
lo positivo (excelente) a lo negativo (terrible ...). Pueden utilizarse para medir actitudes o hacer
juicios sobre la calidad de la ejecución en diferentes dominios.
El siguiente ítem con alternativas de evaluación pertenece a un test para medir los aspectos del
trabajo que más valoran las personas:
C Buen sueldo
Nada importante 1 2 3 4 5 Muy importante
Las alternativas de frecuencia suelen preguntar a las personas cuantas veces ocurre algo o debería
ocurrir. Pueden utilizarse alternativas numéricas o verbales (una vez por día, una vez a la semana...).
Suelen extenderse desde “nunca...” a “Siempre”. Pueden utilizarse para medir variables de
personalidad cuando se necesita que la persona indique con qué frecuencia realiza determinados
comportamientos (o para describir el ambiente, indicando cuantas veces ocurre algo).
En un test para medir el tipo de atribución que hacen las personas sobre las causas del paro
juvenil podemos encontrar el siguiente ítem de frecuencia:
.El joven que está bien preparado encuentra trabajo

Siempre La mayoría de las veces Unas veces sí y otras no Rara vez Nunca
5 4 3 2 1
Hay muchos constructos para los que cualquiera de estos tipos puede servir, para otros unas
alternativas serán más adecuadas que otras. (p.e. comportamiento de voto). La decisión sobre si
utilizar un tipo u otro de alternativa de respuesta debe justificarse en relación con el criterio expuesto
en párrafos anteriores: ¿qué tipo de alternativa contribuye más al objetivo para el que van a utilizarse
las puntuaciones aportadas por el test?
Otra decisión importante es el número de alternativas de respuesta en las pruebas de actitudes.
A priori puede pensarse que cuanto mayor sea el número de alternativas obtendremos una mayor
precisión en las respuestas. En principio, esto es cierto y por ello hay tests que utilizan hasta 100
posibles valores de respuesta. El criterio es considerar la capacidad de las personas que van a
responder al test para discriminar entre diferentes alternativas, es decir, para discriminar su nivel de
acuerdo, juicio o evaluación sobre el contenido del enunciado del ítem. Por lo mismo, de 3 a 9
alternativas pueden ser adecuadas para la mayoría de los constructos y situaciones.
En los tests de aptitudes y de rendimiento suele ser frecuente ofrecer varias alternativas de
respuesta, de las cuales suele ser sólo una la correcta. Algunos autores se han planteado cuál es el
número óptimo de alternativas de respuesta con miras a optimizar la fiabilidad y validez de la prueba.
El disponer de más alternativas de respuesta hace disminuir la probabilidad de acertar por azar, pero
también hace necesario disminuir el número de ítems (lo que afecta negativamente a la fiabilidad y
validez del test). De los trabajos realizados sobre este tema cabe resaltar a Lord (1977, 1980) que tras
una buena revisión de las aproximaciones precedentes deriva la siguiente fórmula:
126
43
1
A ' 1 % (5.1)
(1& r)p
Donde:
p: Índice de dificultad deseable de los ítems a construir.
r: Relación entre dos ítems equivalentes con infinitas alternativas.
A la vista de la literatura existente, y sin que esté plenamente demostrado en todas las
circunstancias, parece ser tres el número aconsejable de alternativas de respuesta en los tests de
alternativas de respuesta con una correcta (Lord, 1977 y 1980).
5.5.3.- Cómo cuantificar las alternativas de respuesta.
Es el momento de pensarse cómo contribuirá cada ítem a la puntuación total del test o
puntuación en el constructo. En los tests de ejecución máxima se suele valorar la respuesta a cada
reactivo de forma dicotómica : correcta = 1 punto e incorrecta 0 puntos. Así se obtendría la
puntuación total como la suma de unos, esto es, como la suma de aciertos. Cuando se responde
eligiendo una alternativa de entre la posibles respuestas ofertadas se suele aconsejar corregir la
puntuación total con el número de errores. Guilford (1936) y Lord (1952) afirman conseguir con esta
corrección sobre las puntuaciones del test una cierta mejoría en el coeficiente de validez de la prueba.
La lógica consiste en que si queremos que la P.D. (Puntuación Directa) refleje lo que el sujeto
sabe o posee del constructo, hay que restar al número total de aciertos (AT), el número de veces que
el sujeto ha acertado por azar (AA):
PD ' AT & AA (5.2)
Sabiendo que el número de AA es igual al número de respuestas aleatorias (R(Al)) multiplicado

por la probabilidad de acertar cada vez que se responde al azar (P(Ac):
(5.3)
AA ' R(Al)( P(Ac)
Sabiendo que la P(Ac), siendo K el número de alternativas de respuesta, es:
1 (5.4)
P(Ac) '
K
Sabiendo que el número de Errores (E) es igual al número de (R(Al)) multiplicado por la
probabilidad de errar (P(E)) cada vez que se responde al azar:
E ' R(Al)( P(E) (5.5)
127
44
Despejando R(Al):
E (5.6)
R(Al) '
P(Ec)
Sabiendo que P(E) es igual a:

K & 1 (5.7)
P(E) '
K
Sustituyendo 5.7 en 5.6:

E
K & 1 KE (5.8)
R(Al) ' '
K K & 1
Sustituyendo 5.8 y 5.4 en 5.3.:
1 KE E (5.9)
AA ' ( '
K K & 1 K & 1
Por fin, sustituyendo 5.9. en .5, tenemos la puntuación directa descontando de ella los aciertos
por azar:
E (5.10)
PD ' AT &
K & 1
Pero frecuentemente el comportamiento del sujeto, cuando sabe que sus errores van a restar
puntos de la puntuación total, no es espontaneo y deja sin reponder items sobre los que tiene cierto
grado de certeza sobre la respuesta correcta. Para evitar este problema algunos autores (Renom
Pinsach, 1997) proponen un procedimiento alternativo. Este, consiste en evaluar el número de ítems
que se saben a partir del número de ítems que se aciertan, el número de alternativas de cada ítem y
del número de ítems que se intentan responder (ver ecuación 5.11).
128
45
1 − PS
PAT = PS + ; KPAT = KPS + 1 − PS
K
KPAT − 1
KPAT = ( K − 1) PS + 1 ⇒ PS =
K −1
AT
K( &1
IR
PD ' (IR (siendo IR el número de intentos de respuesta)
K&1
(5.11)
AT
K( &1
n
PD ' (n (siendo n el número total de ítems)
K&1
AT
K( &1
n
NOTA ' (NM (siendo NM la nota máxima de la prueba)
K&1
En los tests de ejecución típica no se puede decir que haya respuestas correctas o incorrectas y,
por lo tanto, no cabe restar errores para obtener la puntuación resultante1. La puntuación total se
obtiene como resultado de la suma de las puntuaciones en los ítems que utilizamos como indicadores
del constructo correspondiente. Las distintas posibles respuestas a los ítems han de poder ordenarse
a lo largo del continuo que representa el constructo. Por ejemplo, las alternativas de frecuencia
varían desde la no ocurrencia (nada o nunca) a la ocurrencia constante (siempre o continuamente).
La ordenación a lo largo del continuo permite la cuantificación de las alternativas de respuesta.
Dependiendo del constructo es posible que los números varíen desde el 0 a valores positivos
(escalas unipolares como las de frecuencia), o tener el 0 como centro de la escala y disponer de
valores positivos y negativos (escalas bipolares o de acuerdo).
En las escalas unipolares las alternativas de respuesta se valoran de forma consecutiva, desde el
número más bajo (habitualmente 1) al más alto (habitualmente 5). En las escalas bipolares las
alternativas pueden enumerarse de la misma forma con valores negativos y positivos, y el 0 como
punto neutro. Si se utilizan ítems redactados de forma positiva y negativa habrá que tener cuidado
para invertir las puntuaciones de los ítems negativos, o viceversa.
1
Aunque sí existe algo parecido como es el efecto de la deseabilidad social, cuya influencia hay que
intentar evitar.
129
46
En los tests de personalidad, la puntuación total en cada escala o subescala es igual al numero
de ítems constitutivos de dicha escala y que el alumno ha respondido afirmativamente, pudiendo (a
veces) ser computado un ítem en varias subescalas.
Cuando los ítems se ponderan de forma diferenciada la puntuación total de un sujeto en la prueba,
independientemente de que sea de ejecución máxima o típica, es igual a la suma, para todos los
ítems, de la ponderación por la puntuación del ítem. También en este caso se puede corregir el
efecto del azar pero, debido a su complejidad, no consideramos importante especificar la fórmula.
5.6.- Redacción de los ítems.
La redacción de los ítems, tal y como hemos planteado el procedimiento de construcción de una
prueba, consiste en escribir los enunciados y demás componentes de los ítems (el tipo de alternativa
de respuesta es elegido en el paso anterior). Al igual que ocurre con otros pasos, en la elaboración
del test no hay unas normas, criterios o recomendaciones que garanticen totalmente la redacción de
enunciados de calidad. Escribir buenos enunciados para los ítems es una habilidad que progresa con
la práctica. Pero, para evitar en la medida de lo posible los primeros fracasos, creemos pertinente
transmitir algunas recomendaciones obtenidas del libro de Osterlind (1989).
Algo muy importante es la precisión en el lenguaje. El ítem debe ser breve, no ambiguo, sin
palabras irrelevantes o tautológicas y sin términos polisémicos. Se evitarán las palabras estereotipa-
das y las dotadas de prejuicios o sesgos. No conviene intentar hacerse el simpático con la redacción
de los ítems, pues ello puede despertar en el sujeto que responde actitudes insospechadas y que, casi
seguro, no tendrán nada que ver con el atributo que se pretende medir. Del cumplimiento de estas
consignas se debe derivar que entre el escritor de ítems y el que los responde haya un total acuerdo
en el significado de lo que se pregunta.
Los ítems están constituidos por unos elementos o partes claramente diferenciadas que
presentamos en el cuadro 5.1.
En su formato más simple un ítem está constituido por un tronco, enunciado o pregunta y, en el
formato más frecuente, varias alternativas de respuesta: una es la respuesta correcta (o en su caso
la más correcta) y los demás son los distractores. Frecuentemente esta unidad básica va acompañada
por el planteamiento de algo (problema, texto, ilustración, diagrama..etc) que se utiliza como objeto
sobre el que referir la/las pregunta/s. Cuando esto es así, el ítem va acompañado por una instrucción
(en negrita) que dirige la actividad del sujeto a leer el texto, ver el gráfico y responder al/los ítem/s.
Si esta referencia va acompañada por varios ítems que preguntan sobre ella se suele hablar de
superítem. Esta estructura de ítem/s permite mayores posibilidades a la hora de preguntar sobre
referentes de una cierta complejidad y evaluar procesos cognitivos distintos.
Es recomendable evitar las frases incompletas como tronco del test y sustituirlas por enunciados
declarativos o interrogativos. Porque estos son más consistentes con las alternativas, que además así
estarán expresadas de forma más completa. Con ello se ponen en funcionamiento procesos
cognitivos de nivel superior al de la simple memorieta de rellenar el hueco o completar la frase.
En los tests de ejecución máxima, se suelen utilizar alternativas de una única respuesta correcta,
o bien de las que una de ellas es la mejor respuesta correcta o la más correcta. El primer tipo de
alternativas suele requerir del sujeto el recuerdo de hechos o información, mientras que las del tipo
de la mejor respuesta correcta requieren de juicio y discriminación, consecuentemente son más
difíciles y pueden ser utilizadas para mayor variedad de propósitos de medida ( p.e. los niveles
cognitivos como análisis, síntesis, evaluación, etc).
130
47
Redacción de los Ítems 131
Hay que tener ciertas precauciones con las alternativas del tipo todas las anteriores o ninguna
de las anteriores. Solo son recomendables cuando el enunciado del ítem lo pida, pero no como
recurso para completar el número de alternativas. Permiten dotar de una mayor dificultad el ítem
Cuadro 5.1.- Componentes de item tipo
pero hay que tener cuidado de no dar pistas con el resto de alternativas. Este tipo de alternativas son
incompatibles con los ítems del tipo de la mejor respuesta correcta.
Hay que tener cuidado con el uso de determinantes o cualificadores en los ítems. No suelen ser
recomendables por dotar de una cierta indefinición o subjetividad al ítem. Además pueden dar pistas
sobre la respuesta correcta.
131
48
La estructura sintáctica y la longitud de las distintas alternativas de respuesta deben ser

equiparables.
En las escalas likert o tests de ejecución típica:
1. Los ítems de acuerdo suelen tener enunciados declarativos con los que se pueda estar de acuerdo
o no.
2. Los ítems de frecuencia suelen ser hechos, circunstancias o comportamientos de los que tenga
sentido preguntar cuantas veces ocurren.
3. Los ítems de evaluación suelen ser frases cortas relativas a personas, lugares, cosas, hechos o
comportamientos que las personas puedan juzgar.
El tronco o enunciado del ítem, como su parte fundamental debe contener la información
necesaria y fundamental para comprender perfectamente la situación que se plantea y el tipo de
respuesta que se pide. Para ello y como recurso práctico que facilite la congruencia entre el objetivo
operativo propio de cada una de las casillas del cuadro de especificaciones del test; se suelen utilizar
tablas que clasifican los verbos de acción y los objetos directos de esa acción que son pertinentes en
función del nivel taxonómico cognitivo o afectivo pertinente para cada objetivo operativo del cuadro
de especificaciones del test. Sin intentar ser exhaustivo, pero como ayuda o recurso práctico a utilizar
mientras facilite la tarea de redactar ítems que respondan a la definición del contenido del dominio
psicológico que se pretende medir, presentamos en el anexo 5.6 algunas taxonomías con sus
correspondientes verbos de acción y objetos directos a los que aplicar.
132
49
TEMA: REDACCIÓN DE REACTIVOS
Pérez, E. y Tornimbeni, S. (2008). Clasificación de los tests. En: S. Tornimbeni,

E. Pérez y F. Olaz (Comp.). Introducción a la psicometría (pp. 164-168).
Buenos Aires: Paidós.
50
164 INTRODUCCIÓN A LA PSICOMETRÍA CONSTRUCCIÓN DE TESTS 165
c. Especificación de las características de la situación de eva- elección múltiple (multiple choice) que comentaremos en esta
luación: por ejemplo, en un texto de divulgación científica, sección.
seleccionar las ideas principales y parafrasear el conteni- Para Nunnally (1991), los dos errores más comunes en la re-
do de las mismas. dacción de ítems son: a) la ambigüedad, con preguntas vagas
d. Características de la respuesta: se especifica cuál es la res- que admiten varias respuestas, por ejemplo, “¿que pasó con el
puesta que se espera del estudiante evaluado, por ejemplo, Arte en el siglo XV?”, y b) la trivialidad, al centrarse en aspec-
que seleccione correctamente las ideas principales. tos poco importantes del constructo o dominio, por ejemplo, re-
querir la memorización de fechas irrelevantes. Bandura (2001)
Además de definir el dominio es necesario delimitar aspectos recomienda adicionalmente evitar el argot técnico que no forma
complementarios del test, tales como la finalidad y la población parte del lenguaje cotidiano y los ítems que incluyen aspectos
meta del test (por ejemplo, un inventario de autoinforme para diferentes (multidimensionales) de un constructo para los cua-
evaluar el autoconcepto en niños), el modo de aplicación (indivi- les los individuos pueden tener diferentes percepciones, tales
dual o colectivo, por ejemplo), el formato de respuesta (dicotó- como: ¿cuán seguro te sentís de nadar y remar adecuadamente?
mica o tipo likert, por ejemplo) y el tiempo de administración Es obvio, en el ítem anterior, que una persona puede sentirse
(duración del test), entre otras consideraciones preliminares competente para nadar pero no para remar, y viceversa.
(Hogan, 2004). El plan inicial del test también debe prever las En la evaluación educativa, merece un apartado especial la
instrucciones de administración y el modo de calificación e in- construcción de pruebas objetivas con preguntas cerradas, ya
terpretación de las respuestas (puntuaciones originales, trans- sea del tipo verdadero/falso o de alternativas múltiples. Según
formadas o ipsativas, por ejemplo). Bloom (1966), estas pruebas son útiles para la medición de al-
gunos objetivos cognoscitivos de nivel básico, tales como:
6.2. Redacción de los ítems • Recordar (creador del coeficiente de correlación, por ejem-
plo).
Existen pautas convencionales para la redacción de ítems de • Comprender (el concepto de confiabilidad, por ejemplo).
tests. Éstas incluyen recomendaciones del tipo: • Aplicar un concepto general o utilizar información para re-
solver un problema (dada la media y la desviación están-
• Redactar ítems congruentes con el objetivo de medición. dar de una distribución, obtener la puntuación estándar
• Evitar los ítems demasiados largos (de más de 20 voca- correspondiente al puntaje original X).
blos). • Analizar, que se refiere al pensamiento crítico, es decir, a
• Evitar las oraciones complejas con ambigüedades de sentido. identificar causas y realizar inferencias en base a informa-
• Evitar las frases con doble negación. ción específica (interpretar los coeficientes alfa del test X e
• Evitar el uso de expresiones extremas (nunca, siempre, to- indicar qué factores pueden haber afectado la consistencia
dos). interna de ese test).
• Utilizar el lenguaje más apropiado al nivel de maduración
y educativo de la población meta de la medición (Oester- Para los objetivos cognoscitivos de nivel superior, tales como
lind, 1990). evaluar (juzgar el valor de materiales, tests o métodos estadísti-
cos, por ejemplo) y crear (diseñar una investigación para verifi-
Recientemente, Moreno, Martínez y Muñiz (2004) han for- car la estabilidad de un test, por ejemplo), se requiere otro tipo
mulado otras directrices útiles para la redacción de ítems de de pruebas, tales como las de preguntas abiertas o ensayo, así
51
como ítems que combinan la computación con el audio, el video 4. Se deberá evitar redactar la proposición base como enun-
y la realidad virtual en la formulación de las preguntas y el for- ciado negativo, a menos que la finalidad sea reforzar el
mato de respuesta, dentro de la denominada evaluación autén- aprendizaje de lo que no debe hacerse.
tica (Moreno, Martínez y Muñiz, 2004). Seguramente la evalua- 5. La base no debe contener expresiones que puedan debili-
ción del futuro exigirá pruebas con ítems que permitan medir de tar o confundir la respuesta correcta.
manera más pertinente el pensamiento creativo (divergente) y 6. Cuando se intenta evaluar la comprensión de términos, es
la resolución de problemas reales de una disciplina (Woolfolk, preferible que estos conceptos se mencionen en la base, y
2006). las descripciones o definiciones se incluyan en las alterna-
A continuación se explicitan algunas recomendaciones para tivas de respuesta.
la construcción de ítems en las pruebas de opciones múltiples, 7. Debe evitarse que el ítem se refiera a contenidos triviales.
puesto que son difíciles de elaborar adecuadamente. En ese sen- Lo esencial del contenido debe incluirse en la base, no en
tido e ingeniosamente, Woolfolk (2006) comentó que muchos es- los distractores, para evitar la lectura de material extenso
tudiantes llaman a estas pruebas “de adivinación múltiple”, por o redundante que dificulte la comprensión del ítem.
lo mal que frecuentemente se elaboran.
Estos tests incluyen un enunciado, tronco o base, por ejem- Con referencia a las alternativas de respuesta (distractores y
plo: “el método más adecuado para evaluar la estabilidad tem- clave u opción correcta):
poral es…” y una serie de alternativas o respuestas posibles, ta-
les como: a) partición en mitades, b) acuerdo de jueces, y c) test- 1. El ítem deberá contener una sola opción correcta, la cual
retest. tiene que estar acompañada por distractores que sean
Con referencia al enunciado o base del ítem, las principales plausibles para el estudiante que no conoce la respuesta
recomendaciones son: correcta y fácilmente desechables para el que la conoce.
2. Todas las alternativas deberán ser gramaticalmente se-
1. Debe contener un esquema de indagación completa (que el mejantes e igualmente aceptables desde el sentido común.
estudiante no necesite leer las alternativas para emitir la La distancia conceptual entre la opción correcta y los dis-
respuesta correcta). tractores debe ser amplia, pero lo suficientemente limita-
2. Se debe incluir lo estrictamente necesario para la com- da como para que no se rechace a estos últimos por obvios.
prensión de las respuestas. Una ventaja de las puntuacio- 3. Por lo general, tres alternativas de respuesta son suficien-
nes estándar es…, por ejemplo, y no: Hay varios tipos de tes puesto que el formato de cuatro opciones es más difi-
puntuaciones derivadas. La puntuación estándar es espe- cultoso de elaborar y, muchas veces, la elección de la últi-
cialmente ventajosa por… ma opción de respuesta resulta algo forzada. Redactar
3. Es preferible que las palabras que puedan repetirse en las tres alternativas para un contenido determinado es más
alternativas se incluyan sólo en la proposición base. Un sencillo e igualmente confiable.
ítem del tipo de: “Una puntuación percentil: a) indica el 4. En cuanto al formato, se deberá evitar que la alternativa
porcentaje de ítems que se respondieron de manera co- correcta sea la más larga.
rrecta; b) indica el porcentaje de casos que obtuvieron una 5. Se deberán evitar las expresiones muy literales que expli-
puntuación igual o menor a cierta puntuación original”, quen el texto de estudio y que favorezcan la mera memori-
etc., por ejemplo, puede mejorarse con una base que expre- zación.
se: “Una puntuación percentil indica”, evitando repetir 6. Las alternativas incorrectas deberán tener el mismo gra-
“indica” en las alternativas. do de especificidad que la opción correcta de respuesta.
52
7. La alternativa correcta deberá estar dispuesta aleatoria- contribuirá significativamente a la confiabilidad y validez de las
mente. En el conjunto de ítems que componen una prueba, puntuaciones del test a construir (Oesterlind, 1990).
la opción correcta debe estar repartida entre las distintas Los procedimientos empíricos que se utilizan para el juicio de
ubicaciones posibles (a, b, y c, por ejemplo). expertos acerca de la calidad de los ítems son los mismos que
8. Debe evitarse que un ítem pueda ayudar a la respuesta co- fueron descritos en el capítulo, de validez (en el apartado de evi-
rrecta de otro. dencia relacionada con el contenido). Por lo general se emplean
9. Las distintas opciones de respuesta al ítem tienen que ser escalas numéricas para que los jueces evalúen la calidad y con-
independientes entre sí, sin solaparse y sin referirse unas sistencia de los ítems y se descartan aquellos con puntuaciones
a otras pues ello introduce dificultades o facilidades inde- medias más bajas y con escaso grado de acuerdo, respectiva-
bidas. Por esta razón, deben limitarse las expresiones del mente. Pueden utilizarse estadísticos de concordancia, tales co-
tipo “todas las anteriores” o “ninguna de las anteriores”. mo el coeficiente kappa mencionado en el capítulo 3 de confiabi-
La mayoría de los estudiantes inteligentes conocen que las lidad de los tests. Se recomienda que los ítems seleccionados
respuestas categóricas de este tipo son casi siempre inco- sean aquellos que, al menos, un 60% de los jueces consideran
rrectas. meritorios (Herrera Rojas, 1998). Es útil también incluir pre-
guntas adicionales sobre los ítems (sobre su facilidad de com-
Por último, deberían redactarse al menos el doble (40, por prensión, por ejemplo) que faciliten una redacción más adecua-
ejemplo) de los ítems que constituirán el test final (20), puesto da de algunos de ellos.
que muchos serán descartados en el proceso de revisión de ex- No deberíamos confiar exclusivamente en el juicio de los ex-
pertos y el análisis estadístico ulterior. pertos y siempre es conveniente realizar una prueba piloto en
una muestra pequeña, con el objetivo de corroborar empírica-
mente que los ítems sean claros y comprensibles para la pobla-
6.3. Revisión de expertos ción meta del test.
La mayoría de los autores recomiendan que los ítems preli-

minares sean revisados por jueces expertos. Es conveniente que 6.4. Análisis factorial y de ítems
estos jueces tengan experiencia en construcción de pruebas, en
el dominio o constructo a medir (autoeficacia, por ejemplo) y en En tests que miden constructos psicológicos (aptitudes, ras-
la población a la cual se dirige el test (adolescentes, por ejem- gos de personalidad, intereses, actitudes) el procedimiento esen-
plo). Los tres aspectos esenciales que los expertos deben evaluar cial y recomendable para construir escalas confiables y con sig-
en cada ítem son: nificado teórico es el análisis factorial. También existen otros
métodos de análisis de los ítems de un test que se ocupan bási-
a. Claridad semántica y corrección gramatical. camente de dos aspectos: la distribución de las puntuaciones de
cada ítem y la relación estadística entre el ítem y la prueba to-
b. Adecuación al nivel de comprensión de la población meta.
tal (Herrera Rojas, 1998). Estos últimos métodos deberían utili-
c. Congruencia con el constructo o dominio medido. zarse cuando estamos desarrollando una prueba de rendimien-
to o como procedimiento complementario al análisis factorial.
Este último es el principal parámetro y hace referencia al Nos ocuparemos en primer lugar del análisis factorial y, poste-
grado de consistencia que debe existir entre un ítem particular riormente, del análisis de ítems.
y los constructos a medir por el test. Respetar este parámetro
53
TEMA: REDACCIÓN DE REACTIVOS PARA ESCALAS DE
ACTITUDES
García Sánchez, J., Aguilera Terrats, J. R., & Castillo Rosas, A. (2011). Guía
técnica para la construcción de escalas de actitud. Odiseo, revista electrónica
de pedagogía, 8 (16).
54
Año 8, núm. 16, enero-junio 2011. ISSN 1870-1477
Formatos de lectura: PDF / HTML -- Sobre los autores -- PARA CITAR este artículo :
García Sánchez, J., Aguilera Terrats, J. R., & Castillo Rosas, A. (2011). Guía técnica para la
construcción de escalas de actitud. Odiseo, revista electrónica de pedagogía, 8 (16).
Recuperado el {día, mes y año} a partir de: http://www.odiseo.com.mx/2011/8-
16/garcia-aguilera-castillo-guia-construccion-escalas-actitud.html
Guía técnica para la construcción de

escalas de actitud
Jaime García Sánchez (1), José Ricardo Aguilera Terrats (1),Adriana Castillo
Rosas (2)
(1) Centro Interdisciplinario de Investigación y Docencia en Educación Técnica (CIIDET),
México, (2) Servicios de Asesoría y Desarrollo Educativo (SA y DE)
Resumen: El presente artículo trata de ser, de una manera muy sintética, una guía
técnica para construir paso a paso uno de los instrumentos más utilizados para la
recogida de información dentro de las ciencias sociales; las escalas de actitud.
Particularmente utilizado tanto por la psicología como por la sociología, este instrumento
se encuentra dirigido en general, a la medición de aspectos relativos a la “intensidad” de
un sentimiento o una actitud de un grupo de personas respecto a un tópico o un tema en
particular.
El uso y procedencia de la escala, como instrumento para la recogida de información, se
emparenta con el enfoque cuantitativo dentro de la investigación de corte social. Su
construcción puede ser muy onerosa en términos de tiempo y esfuerzo, sin embargo, es un
instrumento muy utilizado por lo que vale la pena generar una guía técnica que, como la
presente, permita a aquellos interesados en su desarrollo y aplicación tener los elementos
mínimos indispensables y básicos para su implementación. Tal es pues el objetivo del
presente artículo, mismo que fue desarrollado con fines didácticos para apoyar,
precisamente, un taller sobre investigación social en el ámbito de la educación superior.
Palabras clave: Actitudes, Escalas, Variables, Ítems, Confiabilidad, Validez.
Recibido: Marzo de 2011; aceptado para su publicación: abril de 2011.
55
GARCÍA, AGUILERA, Y CASTILLO GUÍA TÉCNICA PARA LA CONSTRUCCIÓN DE ESCALAS DE ACTITUD
Actitudes y escalas
Una actitud es una predisposición aprendida para responder consistentemente de una
manera favorable o desfavorable ante un objeto o sus símbolos (Fishbein y Ajzen, 1975;
Oskamp, 1977). Así, los seres humanos tenemos actitudes hacia muy diversos objetos o
símbolos, por ejemplo: actitudes hacia el aborto, la política económica, la familia, un
profesor, diferentes grupos étnicos, la ley, nuestro trabajo, el nacionalismo, nosotros
mismos, etc.
Las actitudes están relacionadas con el comportamiento que mantenemos en torno a los
objetos a que hacen referencia. Si mi actitud hacia el aborto es desfavorable,
probablemente no abortaría o no participaría en un aborto. Si mi actitud es favorable a
un partido político, lo más probable es que vote por él en las próximas elecciones. Desde
luego, las actitudes sólo son un indicador de la conducta, pero no la conducta en sí. Por
ello las mediciones de actitudes deben interpretarse como "síntomas" y no como "hechos"
(Padua, 1979). Si detecto que la actitud de un grupo hacia la contaminación es
desfavorable, esto no significa que las personas están adoptando acciones para evitar
contaminar el ambiente, pero sí es un indicador de que pueden irlas adoptando
paulatinamente. La actitud es como una "semilla", que bajo ciertas condiciones puede
“germinar en comportamiento”.
Las actitudes tienen diversas propiedades, entre las que destacan: dirección (positiva o
negativa) e intensidad (alta o baja), estas propiedades forman parte de la medición
(Hernández Sampieri, 1999, pp. 255).
Las actitudes no son susceptibles de observación directa sino que han de ser inferidas de
las expresiones verbales, o de la conducta observada. Esta medición indirecta se realiza
por medio de unas escalas en las que partiendo de una serie de afirmaciones,
proposiciones o juicios, sobre los que los individuos manifiestan su opinión, se deducen o
infieren las actitudes.
Las escalas son instrumentos muy utilizados para medir actitudes y valores. Definimos
una escala como una serie de ítems o frases que han sido cuidadosamente seleccionados,
de forma que constituyan un criterio válido, fiable y preciso para medir de alguna forma
los fenómenos sociales. En nuestro caso, este fenómeno será una actitud cuya intensidad
queremos medir.
Podemos distinguir tres tipos principales de escalas:
• Escalas Thurstone
• Escalas de Guttman
• Escalas de Likert
Los dos primeros tipos de escala se describen brevemente y la de Likert de estudia más a
fondo y se ejemplifica.
Odiseo. Revista Electrónica de Pedagogía.

México. Año 8, núm. 16, enero-junio 2011. ISSN 1870-1477. Página 2
56
Escala de Thurstone
Esta escala es utilizada, principalmente, para la medición de actitudes y valores. Los
principales pasos para su construcción son:
a) Recoger gran cantidad de afirmaciones con respecto a un tema.
b) Establecer once categorías para calificar cada afirmación, siendo la primera la más
favorable, la undécima la más desfavorable y la sexta, neutra.
c) Calificar los enunciados por un número elevado de jueces.
d) Atribuir a cada enunciado un valor escalar igual a la mediana de las categorías que le
han asignado los jueces.
e) Seleccionar los enunciados menos ambiguos: los que tienen menos sensibilidad en las
categorías asignadas por los jueces.
f) Elegir un número de enunciados (en general unos veinte), que son los que constituyen
la escala definitiva.
g) Se pueden ordenar los enunciados según el valor obtenido en el paso “d”.
En la aplicación de la escala, los sujetos se limitan a señalar las afirmaciones con las que
están de acuerdo. La puntuación máxima coincide con el número de afirmaciones de la
escala; si hay 20, caso más general, la puntuación máxima será de 20.
Esta escala se encuentra con una gran dificultad: lo laborioso de su construcción. Otro de
los inconvenientes es que combinaciones diferentes de respuestas, puedan dar una misma
puntuación global
Escala de Guttman
Es un tipo especial de escala sumatoria, en cuanto que el valor total de los ítems que la
componen no puede calcularse, a menos que éstos tengan entre sí una relación lógica de
inclusión en la escala. La persona (juez o experto) que acepta un ítem debe, lógicamente,
aceptar aquellos que le siguen sucesivamente en orden de inclusión. Por esto la escala
Guttman recibe el nombre de escala acumulativa. Más que un procedimiento para medir
actitudes es una técnica para establecer si un conjunto de ítems constituye o no una
escala unidimensional.
Escala de Likert
Las escalas de Likert, en las cuales haremos un énfasis un poco mayor, están formadas
por un conjunto de preguntas referentes a actitudes, cada una de ellas de igual valor. Los
sujetos responden indicando acuerdo o desacuerdo. Se establecen generalmente cinco
57
rangos, pero pueden ser tres, siete, o más. El sujeto señala con una cruz o un círculo la
categoría elegida para cada persona.
A la Escala de Likert también se le llama escala aditiva, ya que cada sujeto obtiene como
puntuación global la suma de los rangos otorgados a cada elemento.
Existen tres formas de estas escalas:
Descriptivas: muy de acuerdo, de acuerdo, indiferente, en desacuerdo, muy en

desacuerdo.
Numéricas: 1 2 3 4 5
Gráficas:
Construcción de una escala Likert

La escala de Likert está destinada a medir actitudes; predisposiciones individuales a
actuar de cierta manera en contextos sociales específicos o bien a actuar a favor o en
contra de personas, organizaciones, objetos, etc.
Los pasos que se siguen en la construcción de una escala de Likert, son:
1) Descripción de la actitud o variable que se va a medir.
2) Construcción de una serie de ítems relevantes a la actitud que se quiere medir. Este
paso se conoce también con el término de “operacionalización de la variable”.
3) Administración de los ítems a una muestra de sujetos que van a actuar como jueces,
para que les asignen puntajes, según su sentido positivo o negativo.
4) Se asignan los puntajes totales a los sujetos de acuerdo al tipo de respuesta en cada
ítem (la suma es algebraica).
5) Aplicación de la escala provisoria a una muestra apropiada. Cálculo de los puntajes

escalares individuales.
6) Análisis de los ítems utilizados para eliminar los que resulten inadecuados.
7) Construcción de la escala final, con base en los ítems seleccionados.

58
8) Categorización jerárquica de la escala.
9) Cálculo de la confiabilidad y validez de la escala.
Descripción de las variables

Una vez que sabemos cuáles son las variables que intervendrán en nuestro estudio, habrá
que establecer su tipo y definir para cada una de ellas los valores, escalas de medida y
categorías que pueden tomar. Es importante dar un nombre a cada variable, así como
hacer una explicación del atributo que representa cada una de ellas.
Operacionalización de las variables

El segundo paso en la construcción de una escala de Likert consiste en la
operacionalización de cada una de las variables, es decir, en señalar la forma en que va a
ser medida. Esta forma señala los indicadores objetivos que serán tomados en cuenta
para la asignación de ponderaciones o números. En el caso de esta escala, se toman como
indicadores las respuestas que proporciona una persona a un conjunto de proposiciones,
preguntas, etc. Los indicadores son las respuestas dadas, mientras que las opciones
usadas para obtener esas respuestas constituyen los ítems de la escala. El conjunto de
indicadores de un concepto se denomina universo de indicadores. Las posibilidades de
respuesta se presentan en forma de alternativas.
Elaboración de Ítems
Un ítem es una frase o proposición que expresa una idea positiva o negativa respecto a un
fenómeno que nos interesa conocer. Por ejemplo, el ítem: "Las normas sobre utilización de
carretillas elevadoras dictadas por la empresa, en la práctica cotidiana, son de difícil
cumplimiento", expresa una opinión sobre un tema: la política normativa de la empresa, y
se refiere concretamente al manejo de carretillas. La posición valorativa de tal afirmación
hecha por un individuo se puede considerar como un indicador de su opinión sobre dicha
política normativa, sobre el uso de carretillas elevadoras, sobre la seguridad en la
empresa, etc.
Las proposiciones pueden presentarse con una redacción tal que indiquen directamente
una actitud contraria al objeto de referencia de tal modo que el estar de acuerdo con esa
proposición signifique tener precisamente una actitud con ese sentido o dirección. Se
habla de ítems negativos o inversos; y de ítems positivos o directos en la situación
contraria.
Hay investigaciones que construyen sus escalas con todos los ítems negativos, por las
diversas ventajas que ofrecen, como:
• Tienden a discriminar mejor, es decir, establecen con claridad las diferencias entre
personas con distintas actitudes.

59
• Pueden redactarse de tal modo que expresen una hostilidad con mayor sutileza, sin
herir los valores democráticos de algunas personas. (Levinson, 1964)
Lo más aconsejable es usar dentro de una misma escala ítems positivos y negativos.
Una vez formulados los ítems conviene proceder a su revisión, tanto en lo que se refiere a
su forma como a su contenido.
La revisión de la forma se refiere a la presentación y redacción de las proposiciones con el

fin de evitar oscuridades y ambigüedades. Edwards (citado por García P., 2005), expone
las más importantes de estas reglas:
a) Cada proposición debe ser debatible, debe reflejar una opinión, no un hecho.
b) Cada proposición debe ser pertinente a la variable en estudio.
c) Cada proposición debe ser simple, en lo que se refiere a la construcción gramatical.
d) Cada proposición debe ser corta.
e) Cada proposición debe ser completada en cuanto a expresar una actitud definida hacia
un asunto único.
f) Cada proposición debe ser clara y directa.
g) Cada proposición debe dar la posibilidad de dar respuesta en toda la gama de

intensidad de la actitud medida.
Número de ítems
El número varía según la naturaleza de la variable a medir y está determinado por el
grado de profundidad que desea alcanzar el investigador. Al respecto, conviene recordar
que los ítems elegidos pretenden ser una muestra del universo de indicadores de esa
variable.
Determinación de puntajes a las respuestas

Las proposiciones utilizadas como ítems de una escala o índice se presentarán con
alternativas de respuestas, una de las cuales debe aparecer, para la persona que
responde, como indicador del grado de intensidad de la actitud que se está midiendo. Por
lo general, el número de alternativas es de cinco, presentadas como:

60
En esta fase de la construcción de la escala surge el problema de asignarles números,

medidas o puntajes a las categorías de respuesta. El problema lo constituye el hecho de
que estamos tratando con un nivel ordinal de medición. La cuestión está contenida en
esta pregunta: ¿qué medida o número le asignamos a la categoría muy de acuerdo y
cuáles a las categorías siguientes ya que no sabemos, por ejemplo, si existe la misma
distancia actitudinal entre estar muy de acuerdo y de acuerdo, por un lado, y estar muy
en desacuerdo y en desacuerdo por otro?
Para la solución del problema anterior se han propuesto tres soluciones o procedimientos:
a) Asignación y puntaje o ponderaciones por desviación sigma
b) Ponderación por desviación estándar
c) Ponderación arbitraria
El procedimiento que mejor cumple los supuestos teóricos de esta escala sumatoria es el
de la desviación sigma, sin embargo en la práctica, lo más usual es asignar una
ponderación arbitraria, en la cual se pueden usar los números 1, 2, 3, 4, 5, o bien 2, 1, 0, -
1, -2, para cada una de las categorías de muy de acuerdo (5) de acuerdo (4), etc.
Aplicación de la escala provisional

Los ítems seleccionados para la escala pueden aplicarse a una muestra de la población
objeto de estudio, con lo cual se obtienen respuestas que permitirán descartar aquellos
para los cuales se encuentren valores bajos en su poder de discriminación.
Una vez que las personas han contestado todos los ítems, se calculan los puntajes
escalares individuales, sumando para cada persona los puntajes de cada una de las
categorías de respuestas que señaló, según su particular grado de acuerdo-desacuerdo con
las proposiciones.
Al calcular los puntajes totales de cada persona debe tenerse la precaución de convertir a
su verdadero valor los puntajes de los ítems negativos o inversos que se han mezclado con
ítems positivos.
Análisis de los ítems

Una vez que se tienen los valores escalares individuales totales se procede al análisis de
los ítems empleados con el fin de establecer su poder de discriminación, es decir, su
capacidad de diferenciar entre las personas, en términos de la actitud medida.
Los tres procedimientos más usados son:
a) Método de la correlación ítem-escala.

61
b) Método de la diferencia absoluta entre los cuartiles extremos.
c) Método de Edwards.
Categorización jerárquica de la escala

La escala definitiva está compuesta por todos los ítems seleccionados de acuerdo con su
mayor poder de discriminación.
Si una escala definitiva consta de 10 ítems con puntajes que van de 1 a 5, los valores
teóricos máximos y mínimos son 50 y 10 respectivamente. Los valores reales de la escala
pueden emplearse directamente o bien pueden agruparse en categorías, lo cual puede
resultar a veces más apropiado. La categorización de la escala suele hacerse en forma
arbitraria tanto en lo que se refiere al número de categorías como a los límites numéricos
de cada una de ellas.
Confiabilidad y validez de la escala

Toda escala de medición debe ser sometida a procedimientos que indiquen sus grados de
confiabilidad y validez. La confiabilidad de una escala se refiere a su capacidad para dar
resultados iguales al ser aplicada, en condiciones iguales, dos o más veces, a un mismo
grupo de sujetos. La confiabilidad es sinónimo de estabilidad y predictibilidad.
El concepto de validez tiene diversas significaciones, lo cual no debe extrañar si se

considera la variedad de objetivos teóricos y prácticos que se persiguen en la
investigación social, respecto de muchos de los cuales pueden apreciarse o estimarse
cuando un instrumento debe considerarse como válido. En todo caso, la definición más
común y aceptada es aquella según la cual la validez se refiere al grado en que una
prueba o escala mide aquello que se propuso medir.
Procedimiento general para la construcción de

escalas
El procedimiento general para la construcción de una escala es muy similar al que se
sigue para la construcción de un cuestionario, que ya estudiamos.
Un momento de alto significado al construir una escala, a diferencia del cuestionario, es

la identificación del concepto sobre el cual se quiere medir las actitudes. De ese concepto
se derivan las variables e indicadores y de éstos, finalmente, los ítems que constituirán la
escala, como se puede observar en el siguiente diagrama.

62
Diagrama No.1. Secuencia lógica para el desarrollo de una escala (fuente: los autores).
La lógica para construir una escala, que se muestra en el diagrama No.1, puede ser
analizada a través de un ejemplo práctico. Para ello, recurrimos al estudio realizado por
Adorno y colaboradores llamado “La Personalidad Autoritaria”, publicado en español en
el año de 1965 y del cual se presenta, de manera resumida, la metodología y los elementos
que permiten ilustrar las fases del diagrama. Estos componentes dieron origen a la
construcción de una de las escalas del estudio, denominada “Escala F”, de la cual se
toman algunos ítems como ejemplo.
Ejemplo: “La personalidad autoritaria”

Problema: El mundo de hoy parece haber olvidado ya que hace muy pocos años, y en lo
que se consideraba un baluarte de la civilización occidental, fueron perseguidos y
exterminados, en forma mecanizada, millones de seres humanos. Sin embargo, eso
despertó la conciencia de los muchos que se preguntaban: cómo es posible que en una
cultura regida por la ley, el orden y la razón, hayan perdurado resabios irracionales, de
los viejos odios raciales y religiosos; cómo se explica que pueblos enteros hayan
presenciado tranquilamente la exterminación en serie de connacionales suyos; cuáles son,
en la sociedad moderna, los tejidos que se conservan cancerosos y muestran, pese a
nuestra pretendida civilización, el anacrónico atavismo de los pueblos primitivos; y qué es
lo que dentro de los organismos individuales responde a ciertos estímulos del medio con
actitudes y actos destructivamente agresivos (Adorno, 1965, p.15).
63
Hipótesis principal: Las convicciones políticas, económicas y sociales de un individuo

conforman a menudo una pauta amp1ia y coherente, cual si estuvieran unidas por una
"mentalidad" o "espíritu" común; esta pauta es la expresión de profundas tendencias de la
personalidad. (Adorno, 1965, p.27).
Objetivo
Descubrir las correlaciones existentes entre la ideología de un individuo y los factores
sociales que han actuado en su vida pasada, sigan o no ejerciendo su influencia en el
presente. (Adorno, 1965, p.31).
Concepto: Tendencias antidemocráticas implícitas

Disposición profunda de la personalidad que se expresa en una tendencia general a
despreciar o castigar a quienes piensan de una manera distinta a la propia (Adorno,
1965).
En el texto, Adorno y colaboradores señalan: “De igual manera obtuvimos y definimos

una cantidad de análogas variables que, en su conjunto, constituyeron el contenido básico
de la escala F. Considerábamos a cada una de ellas como tendencia más o menos central
de la persona que, a consecuencia de un proceso dinámico, afloraba a la superficie en
forma de etnocentrismo y de diversas opiniones y actitudes psicológicamente
relacionadas” (Adorno, 1965, p.230).
A continuación enumeraremos estas variables, a las que acompañamos de una breve

definición.
a. Convencionalismo (conventionalism). Adhesión rígida a valores convencionales de la

clase media.
b. Sumisión autoritaria (authoritarian submission). Actitud de sumisión y aceptación

incondicional respecto a las autoridades morales idealizadas del endogrupo.
c. Agresión autoritaria (authoritarian aggression). Tendencia a buscar y condenar,

rechazar y castigar a individuos que violan valores convencionales.
d. Anti-intracepción (anti-intraception). Oposición a lo subjetivo, imaginativo y

sentimental.
e. Superstición y estereotipia (superstition and stereotipy). Creencia en la

determinación sobrenatural del destino humano; inclinación a pensar en categorías
rígidas.
f. Poder y “fortaleza” (power and "toughnes). Preocupación por la dimensión dominio-

sumisión, fortaleza-debilidad, dirigente-dirigido; identificación con las figuras que
representan el poder; exageración de los atributos convencionalizados del yo; valoración
64
excesiva de la fuerza y dureza.
g. Destructividad y cinismo (destructiveness and cynism). Hostilidad, vilipendio

general de la humanidad.
h. Proyectividad (projectivity). Disposición a creer que en el mundo suceden cosas

desenfrenadas y peligrosas; proyección hacia el exterior de impulsos emocionales
inconscientes.
i) Sexo (Sex). Preocupación exagerada por los “hechos” sexuales” (Adorno, 1965, p.234).
Ejemplos de ítems
A continuación se presenta, a manera de ejemplo, una selección de tres de las nueve
variables y dos ítems para cada una de ellas. Cabe aclarar que la Escala F completa
consta de un total de 58 ítems para las nueve variables que la constituyen.
a. Convencionalismo: Adhesión rígida a valores convencionales de la clase media.
1. La obediencia y el respeto por la autoridad son las principales virtudes que debemos
enseñar a nuestros niños.
6. Un individuo de malas maneras, costumbres y educación difícilmente podrá ser

apreciado y aceptado por personas decentes.
e. Superstición y Estereotipia: Creencia en la determinación sobrenatural del destino

humano; inclinación a pensar en categorías rígidas.
24. Algunas personas nacen con la necesidad de saltar de los lugares altos.
50. Es un error confiar en alguien que no es capaz de mirarnos directamente a los ojos.
g. Destructividad y Cinismo: Hostilidad, vilipendio general de la humanidad.
10. Tal como es la naturaleza humana, siempre habrá guerras y conflictos.
25. La familiaridad crea desprecio.
Conclusiones
La elaboración de un instrumento de medición no es una tarea fácil. Su diseño y
validación, tratándose de un instrumento dirigido a evaluar las actitudes humanas es
difícil, sobre todo, si se considera lo etéreo del problema. Esto último no tendría por que
ser considerado espinoso o caótico siempre y cuando se siguiesen ciertas reglas basadas
en la sistematización y la organización de los datos.

65
Las escalas son un instrumento muy socorrido en la investigación social, muchos

interesados en su desarrollo y aplicación carecen de las bases mínimas para tal cometido.
Uno de los errores más comunes es el desarrollo de un banco de ítems o preguntas que
posteriormente se “acomodan” en función del problema a investigar. Tal acción es
reiterativa sobre todo en los investigadores noveles o los estudiantes que, dentro del
ámbito de las ciencias sociales, pretenden utilizar este tipo de instrumentos para la
recogida de información que les permita, en un momento dado, terminar su proyecto de
investigación y por consecuencia su tesis de grado. A tal población, en particular, esta
guía técnica puede ser de gran utilidad.
Finalmente, el interesado en utilizar el presente procedimiento deberá tomar en cuenta

que habrá de tener presente invariablemente dos procesos significativos; la validación de
su instrumento final y la generación de un proceso que permita elevar su confiabilidad así
como sus posibilidades de generalización.
Bibliografía
Adorno, Frenkel-Brunswich y colaboradores (1965). La Personalidad Autoritaria,
Editorial Proyección. Buenos Aires.
Diseño de formas para la recolección de datos. (2005) [en línea]. Disponible en:
http://mkturl.tripod.com/MKT/inv01.htm [consulta 2008, 18 de septiembre].
Universidad de Sevilla. (2008). Escalas de Actitudes [en línea] Disponible en:

http://www.us.es/lablic/PAGMARCO04.htm [consulta 2008, 24 de octubre].
Fernández de Pinedo, Ignacio. (2005). Construcción de una escala de actitudes tipo Likert
[en línea]. Disponible en: http://www.mtas.es/INSHT/ntp/ntp_015.htm [consulta 2008, 24
de octubre].
Fox, J. David. (1987), El proceso de investigación en educación. España, Universidad de

Navarra.
Hernández Sampieri, Roberto y Col. (1999). Metodología de la Investigación. México,

McGraw Hill.
ISFTIC. (2008). Cuestionario de evaluación de la autoestima para alumnos de enseñanza

secundaria [en línea. Disponible en:
http://roble.pntic.mec.es/~agarci19/Orientainterviene/Cuestautoestima/secundaria.htm
[consulta 2008, 18 de septiembre.
Osorio Rojas, Ricardo Arturo. (2005). El cuestionario [en línea]. Disponible en:
http://www.nodo50.org/sindpitagoras/Likert.htm [consulta 2008, 18 de septiembre.

66
Ruiz Abellán, Joaquín y otros. (2005). El cuestionario estructurado como herramienta

básica para la evaluación de las instituciones documentales [en línea]. Disponible en:
http://fesabid98.florida_uni.es/Comunicaciones/j_ruiz1/j_ruiz.htm [consulta 2008, 18 de

septiembre.
Thorndike L, Robert y Hagen, Elizabeth. (1990). Test y técnicas de medición en psicología

y educación. Editorial Trillas, México, .D.F.

67
TEMA: REVISIÓN POR JUECES
Lozano, L.M. y Turbany, J. (2013). Validez. En: M. Meneses, A. Barrios, A.

Bonillo, A. Cosculluela, A., L. M. Lozano, J. Turbany y S. Valero, S. (Eds.).
Psicometría (pp. 147-150). Barcelona: Editorial UOC.
68
¤ Editorial UOC 146 Psicometría
Tabla 1
Edición Validez
1954 Constructo, concurrente, predictiva, contenido
1966 Criterio, constructo, contenido
1974 Criterio, constructo, contenido
1985 Unitaria (pero mantienen criterio, constructo y contenido)
1999 Unitaria: 5 fuentes de evidencia
1.2. Importancia de la validez
El concepto de validez es central en psicometría. Tal y como se comentó an-

teriormente, para comprobar la validez se deben acumular evidencias que pro-
porcionen una base científica para interpretar las puntuaciones de un
cuestionario de manera adecuada. Por ello, lo que realmente se valida no es el
cuestionario en sí, sino las interpretaciones que se hacen a partir de él. Por tan-
to, no se puede defender que un test sea válido o que por el contrario carezca de
validez. Un test puede ser adecuado para un propósito pero no para otro.
Si se aplica un cuestionario con el que se pretende medir autoestima, las respuestas

pueden ser empleadas con diferentes fines (conocer el nivel de autoestima de una per-
sona para saber si es un problema que tratar en terapia, en selección de personal,
como investigación sobre el propio constructo, etc.). Para poder usar el cuestionario
con una finalidad determinada, se deben acumular evidencias que indiquen que el
uso es correcto (“evidencias de validez”). En caso contrario, se estaría haciendo un
mal uso de los tests, principales herramientas en el trabajo psicológico, y las conclu-
siones que se extrajeran de ellos no serían correctas. En el ejemplo anterior no se sa-
bría si es un aspecto sobre el que se debe intervenir terapéuticamente, no se sabría si
la persona seleccionada realmente tiene la autoestima que se desea o no se sabe si real-
mente se está midiendo autoestima.
Para poder realizar correctamente el trabajo como psicólogos, se debe saber

si las conclusiones que se extraen a partir de los tests empleados son adecuadas,
ya que en caso contrario se corre el riesgo de no saber exactamente qué se está
evaluando o si esa medición realmente es útil para el propósito del psicólogo.
69
¤ Editorial UOC 147 Capítulo III. Validez
2. Evidencia de validez basada en el contenido
2.1. Concepto
Muchas de las inferencias y asunciones que se derivan de la interpretación

de las puntuaciones en un test son más fácilmente evaluables si se examinan
los procedimientos empleados para generar las puntuaciones. Por ejemplo, si
se quiere inferir a partir de las puntuaciones en un test sobre determinada con-
ducta o constructo psicológico, es de esperar que los ítems que componen el
cuestionario sean tanto relevantes (que la información que se pregunta esté di-
rectamente relacionada con lo que se pretende medir), como representativos
(las cuestiones que se realicen deben ser una muestra adecuada de todo lo que
se pretende medir) de la conducta (Kane, 2006).
La evidencia de la validez de contenido hace referencia a la relación que
existe entre los ítems que componen el test y lo que se pretende evaluar con
él, prestando atención tanto a la relevancia como a la representatividad de los
ítems. Este tipo de evidencia se recoge principalmente en el momento de la
elaboración del test.
Supongamos que se desea elaborar un test para evaluar la personalidad. En este ca-
so, se decide trabajar dentro del marco teórico de los cinco factores de la personali-
dad (extraversión, apertura, responsabilidad, amabilidad y neuroticismo). Dado
que se trata de un test que se va a emplear en una selección de personal concreta,
solo interesan las dimensiones de responsabilidad (a), amabilidad (b) y neuroticis-
mo (c). En este ejemplo el constructo es la personalidad que está compuesta por las
cinco dimensiones. Las dos primeras, para los intereses del test que se está realizan-
do, son información irrelevante. Las otras tres son el dominio que interesa evaluar.
A partir de este dominio se construyen ítems destinados a evaluar la responsabili-
dad (a’), la amabilidad (b’) y el neuroticismo (c’). Dichos ítems deben tener relación
con el factor que pretenden medir, es decir, los ítems que evalúan responsabilidad
están relacionados con la definición que existe en la comunidad científica sobre di-
cho factor (relevancia). Pero a su vez los ítems deben preguntar por la totalidad del
dominio que evaluar (representatividad).
70
¤ Editorial UOC 148 Psicometría
Figura 2
En las pruebas educativas, las evidencias de validez basada en el contenido

son fundamentales. Si no se comprueba que el test es consistente con los obje-
tivos curriculares perseguidos (relevancia), es decir, que está libre de material
irrelevante y que el que está representa adecuadamente el dominio que se pre-
tende evaluar (representatividad), la utilidad del test se verá seriamente afectada
y, por tanto, las conclusiones que se obtengan serán erróneas. En estas situacio-
nes se suele recomendar, dado que el dominio que se quiere evaluar está clara-
mente definido, emplear los diferentes métodos estadísticos de muestreo para
obtener una muestra representativa de los contenidos que deben constituir el
test (Muñiz, 2003).
El problema surge cuando no se dispone del dominio tan claramente definido.
Por ejemplo, si se quiere realizar un test que evalúe la inteligencia, lo primero que
se debe preguntar el constructor del cuestionario es: ¿qué es la conducta inteligen-
te? En este caso, dado que no existe un dominio perfectamente definido, se deben
buscar otras estrategias para obtener el indicador de la validez de contenido.
2.2. Procedimiento
En este apartado se presentará el procedimiento más habitual en la valora-

ción de la evidencia basada en el contenido, si bien existen otros métodos me-
nos empleados. Una recopilación de ellos se puede encontrar en Sireci (1998).
Si se quiere desarrollar un test, lo primero que se debe realizar es definir de
manera operativa el dominio que evaluar. Tras realizar o aceptar una definición
ya existente, se debe elaborar una tabla de especificaciones. Se trata de realizar una
descripción detallada del test, determinar la proporción o el número de ítems
71
¤ Editorial UOC 149 Capítulo III. Validez
que evaluarán cada contenido o habilidad del dominio que evaluar; el formato
de los ítems y de las respuestas (AERA, APA y NCME, 1999) (usualmente en este
paso también se determinan las propiedades psicométricas que se desea que ten-
ga la prueba).
Tras realizar los ítems se debe acudir a un grupo de expertos en la materia,
que harán las veces de jueces. Para evitar cualquier sesgo, dichos jueces no de-
ben estar implicados en la elaboración del cuestionario. Estos deben analizar
cada uno de los ítems valorando en qué medida son representativos y relevantes
para evaluar el dominio de interés, tomando como definición de este la aporta-
da por los autores del test.
Se puede defender que existen, por tanto, tres aspectos bien diferenciados
que se deben tener en cuenta a la hora de comprobar las evidencias de la validez
de contenido: la definición del dominio, la representación de los ítems que eva-
lúan el dominio y su relevancia (Sireci, 1998).
Es recomendable que la valoración de los ítems la realice cada juez por separado
para, de este modo, evitar posibles sesgos a la hora de responder. Una vez que se
poseen las valoraciones de todos los expertos, se deben buscar aquellos ítems en
los que haya concordancia, seleccionándolos para formar parte del cuestionario.
Por ejemplo, si 8 de los 10 jueces determinan que un ítem destinado a medir
depresión realmente evalúa lo que pretende, dicho ítem tendrá un índice de
congruencia de 0,8. Se suelen considerar adecuados aquellos ítems que poseen
un índice de congruencia igual o superior a 0,7 (Sireci, 1998).
Los ítems en los que no haya acuerdo (que no alcancen un índice de congruen-
cia de 0,7) no tienen por qué ser eliminados. Es recomendable que con estos ítems
se realice un grupo de discusión con los expertos para que comenten las diferen-
cias tratando de llegar a un punto de acuerdo para mejorar dichos ítems.
Este es el procedimiento más habitual a la hora de valorar los indicios de va-
lidez de contenido, si bien no está libre de críticas. El principal problema que se
plantea en la utilización de expertos es que estos son altamente competentes en
el contenido que se evalúa, por lo que pueden pasar por alto un texto cuyo nivel
no sea adecuado para la comprensión de los sujetos que hay que evaluar o que
puede ser fácilmente malinterpretado. Es decir, aunque el experto nos puede
proporcionar información muy relevante, lo que realmente importa es cómo
percibe y reacciona ante el test o el ítem la persona que está respondiendo
(Leighton, 2004).
72
TEMA: Análisis de reactivos
Leal, R. (S/F). Análisis de reactivos (Separata de la asignatura)
73
UNIVERSIDAD PRIVADA ANTONIO GUILLERMO URRELO
FACULTAD DE PSICOLOGÍA
ANÁLISIS DE LOS REACTIVOS
Prof. Rafael Leal Zavala
El análisis de las respuestas que da un grupo de sujetos a los reactivos de una prueba
cumple con varias funciones. Así, Aiken (1996)1 “…. el objetivo principal de un análisis
de reactivos es ayudar a mejorar la prueba al revisar o descartar los reactivos que no han
sido efectivos”. Otra función importante del análisis de ítems considerada por Aiken,
especialmente para las pruebas de rendimiento, es la posibilidad de obtener información de
diagnóstico sobre lo que los sujetos saben y no saben. En conclusión, el análisis de ítems
nos permite determinar qué ítems son pertinentes para nuestra prueba.
La conveniencia de un test –sea cual fuere su propósito- depende del esmero con que
se eligieron sus ítems. Para esta selección, los teóricos han desarrollado criterios tanto
metodológicos como estadísticos. Así, Muñiz (2002), nos plantea como tres índices mayor
uso para el análisis de ítems a:
- Índice de dificultad.
- Índice de discriminación
- Índice de validez.
a) Índice de dificultad.
La dificultad de un ítem (problema o pregunta) puede determinarse de diferentes

maneras: 1) por el juicio de personas competentes o expertas que clasifican los ítems por
orden de dificultad; 2) por la rapidez que el ítem puede resolverse, y por 3) el número de
examinados en el grupo que resuelven correctamente el ítem. ´
Los primeros dos procedimientos suelen ser un primer paso, especialmente si los
ítems han de utilizarse en pruebas de aptitudes especiales, pruebas de ejecución en campos
1
Aiken, L. (1996). Test psicológicos y evaluación. 8va Edición. México. Prentice Hall Hispanoamericana.
74
(tales como la música y el arte) donde distinciones y opiniones cualitativas tienen que
servir de criterios. Pero el número o la proporción del grupo capaz de resolver el ítem
correctamente, es el método “típico” para determinar la dificultad de las pruebas objetivas.
Es éste el enfoque estadístico de la validez de los ítems, a diferencia del que se basa en
juicios.
Se entiende por índice de dificultad (ID) de un ítem la proporción de sujetos que lo

acierta de aquellos que han intentado resolverlo:
ID = _A_
Donde
A: Número de sujetos que aciertan al ítem.
B: Número de sujetos que han intentado resolver el ítem
Tabla 1. Resultados de una evaluación sobre conocimientos de matemáticas en

estudiantes de secundaria.
ÍTEMS DE LA PRUEBA Puntuación

Total
Sujetos 1 2 3 4
A 0 1 1 1 3
B 1 0 1 0 2
C 1 1 0 0 2
D 1 1 1 1 4
E 1 1 0 0 1
IDi 3/5 4/5 3/5 2/5 12
El índice de dificultad sería semánticamente más apropiado denominarlo índice de

facilidad, pues a medida que aumenta indica que el ítem es más fácil, no más difícil. En la
75
tabla anterior, por ejemplo, el ítem más fácil es el segundo, que es acertado por cuatro de
los cinco sujetos; sin embargo, su índice de dificultad es el mayor (4/5).
Nótese también que en muchos test no tienen ningún sentido hallar el índice de
dificultad de los ítems, por ejemplo, en test dirigidos a evaluar aspectos de personalidad, en
los que los ítems no son fáciles ni difíciles.
Una seria limitación de este índice de dificultad es su dependencia directa de la

muestra de sujetos en la que se calcula, es decir, el índice de dificultad no constituye una
propiedad intrínseca del ítem, su valor depende del tipo de sujetos a los que se aplique. Sin
son muy competentes resultará un ítem fácil, lo aciertan muchos. Si, por el contrario, son
incompetentes, el mismo ítem resultará difícil. A nivel práctico, la teoría clásica de los test
mitiga este inconveniente calculando el índice de dificultad en muestras similares en
competencia a aquellas en las que se van a usar posteriormente los ítems.
b) Índice de discriminación
Se dice que un ítem tiene poder discriminativo si distingue, discrimina, entre

aquellos sujetos que puntúan alto en el test y los que puntúan bajo, es decir, si discrimina
entre los eficaces en el test y los ineficaces. En consecuencia, el índice de discriminación
se define como la correlación entre las puntuaciones de los sujetos en el ítem y sus
puntuaciones en el test.
Cuál haya de ser el tipo de correlación a utilizar dependerá de las características de

las variables a relacionar, en nuestro caso el ítem y el test. Entre algunos tipos tenemos a:
- Correlación biserial-puntual (Pbp).- Es una mera aplicación de la correlación de

Pearson cuando una de las variables es dicotómica y la otra cuantitativa continua o
eventualmente discreta. Suele usarse con frecuencia para calcular el índice de
discriminación, dado que es habitual que los ítems sean dicotómicos (o se aciertan
o se fallan), y el test constituya una medida cuantitativa discreta. Es importante
evaluar la correlación del ítem con la puntuación total del test tomando en
consideración excluir de esta última el valor del ítem, con el fin de evitar las
correlaciones espurias o impropias.
76
- Correlación biserial.- Si una de las variables a correlacionar, que en las presentes
circunstancias suele ser el ítem, no es dicotómica por naturaleza, pero por alguna
razón se dicotomiza y se asume que bajo esa dicotomización subyace una variable
continua distribuida según la curva normal, puede usarse la correlación biseria (Pb)
para estimar el índice de discriminación. La situación citada se da con cierta
frecuencia, por ejemplo, cuando ítems que a pesar de admitir una gradación de
respuestas se dicotomizan. Si se puede evitar, es desaconsejable la dicotomización,
puesto que con ella siempre se pierde información, reduciendo la escala de
medición a sólo dos categorías.
- Coeficiente phi (Ø).- Si las variables a correlacionar, en nuestro ítem y test, son
ambas dicotómicas, un coeficiente adecuado para estimar el índice de
discriminación viene dado por el coeficiente Ø, que es una mera aplicación del
coeficiente de correlación de Pearson.
- Correlación tetracórica.- Si ambas variables (ítem y test) están dicotomizadas y

ambas se asumen distribuidas normalmente, la correlación tetracórica es el
coeficiente adecuado para estimar el índice de discriminación.
c) Índice de Validez
Se denomina índice de validez de un ítem a su correlación con el criterio externo.

Sobre qué correlación utilizar sólo cabe repetir lo dicho en el apartado anterior para el caso
del índice de discriminación: dependerá de la naturaleza de las variables a correlacionar,
que aquí son ítems y criterio. Como ocurría con el índice de discriminación, también para
la validez las correlaciones más frecuentes son la biserial puntual, la biserial, phi y
tetracóricas. Su cálculo es idéntico, si bien ahora no existe el problema adicional de que el
ítem esté en ocasiones incluido en el criterio como podría ocurrir al correlacionar ítem-test,
según se ha visto.
77
TEMA: Confiabilidad
Barraza, A. (2007). Confiabilidad. Investigación Educativa. 6: 6-10.
78
APUNTES SOBRE
¿CÓMO VALORAR DE
METODOLOGÍA UN LA
COEFICIENTE DE
INVESTIGACIÓN
CONFIABILIDAD?
Arturo Barraza Macías
Profesor del área de postgrado de la Universidad Pedagógica de Durango; actualmente se desempeña como
Coordinador del Programa de Investigación.
Bajo la denominación genérica de confiabilidad se agrupan todo un

conjunto de métodos y técnicas utilizadas por los investigadores para estimar
el grado de precisión con el que están midiendo sus variables; “la confiabilidad
indica la consistencia del proceso de medición o de los resultados. Por lo tanto,
no es correcto hablar de la confiabilidad de la una prueba o instrumento”
(Bonilla, 2006; p. 1).
La consistencia, precisión o estabilidad temporal del proceso de
medición suele expresarse mediante un coeficiente de confiabilidad que varía
desde 0.00 a 1.00. Este coeficiente, gracias al apoyo de los programas
computarizados de estadística, es relativamente fácil de obtener, sin
embargo, una vez obtenido, el verdadero problema es, más allá de la
obviedad de que un puntaje alto es mejor, ¿cómo valorar un coeficiente de
confiabilidad?
La respuesta a esta pregunta constituye el eje central de este artículo
que se divide en dos partes: en un primer momento ofrezco una serie de
referentes conceptúales para situar la discusión y contextualizar
adecuadamente la respuesta que se brinda en un segundo momento.
Referentes Conceptuales
Hace más de cuarenta años, Robert L. Thorndike (en Muñiz, 1998)

empezaba su famoso trabajo sobre confiabilidad con estas palabras: “Cuando
medimos algo, bien sea en el campo de la física, de la biología o de las ciencias
sociales, esa medición contiene una cierta cantidad de error aleatorio. La
cantidad de error puede ser grande o pequeña, pero está siempre presente en
cierto grado” (p. 6). Sus palabras siguen vigentes en la actualidad, pues en lo
esencial los problemas de la medición cambian poco, aunque los instrumentos
de medida vayan y vengan.
Cuando un investigador aplica un test, una escala, un inventario o
cualquier otro instrumento de medida a una persona, obtiene una cierta
puntuación, que por razones obvias se denomina puntuación empírica. ¿Cómo
estar seguros de que esa puntuación obtenida es la que verdaderamente le
corresponde a esa persona en esa prueba? En otras palabras, ¿cuánto error
afecta a esa puntuación empírica?
Responder estas preguntas es el objetivo de la confiabilidad sin
embargo para algunas personas tales interrogantes parecerían
No. 6 enero de 2007 6

UNIVERSIDAD PEDAGÓGICA DE DURANGO
79
incontestables, pues, al fin y al cabo, el error cometido, sea el que sea, está
diluido en la puntuación empírica y no hay manera de separarlo. Sin embargo,
se han creado un conjunto de estrategias con este propósito.
En el caso de las variables psicológicas, la propuesta pionera y más
fructífera para la estimación de los errores fue hecha a principios de siglo por
Spearman (en Muñiz, 1998 y 2003) y se denomina hoy Modelo Lineal Clásico,
dando origen a todo un enfoque general sobre los tests que suele conocerse
como Teoría Clásica de los Tests (Muñiz, 2003).
La propuesta de Spearman (en Muñiz, 1998) se basa, entre otros
supuestos, en la definición del concepto de tests paralelos (aquéllos que
miden lo mismo aunque utilizando distintos ítems). A partir de esta propuesta
surgen y se desarrollan una serie de estrategias para la medición de la
confiabilidad entre las que destacan:
• La correlación entre dos formas paralelas del test,
• La correlación entre dos mitades aleatorias del test corregida mediante
la fórmula de Spearman-Brown, y
• La correlación entre dos aplicaciones del mismo test a una muestra de
personas.
De manera simultánea a estas estrategias se desarrollaron un conjunto
de fórmulas para medir la consistencia interna del test, por lo que se
estableció un nuevo rubro de la confiabilidad centrada en la consistencia
interna. Entre las fórmulas más conocidas tenemos el coeficiente KR20 y
KR21 (Kuder y Richardson), o el popular Coeficiente Alfa de Cronbach,
Aunque existen distintas formas de evaluar la confiabilidad de la
medición realizada por el instrumento, se puede afirmar que las estrategias
test-retest y las de consistencia interna suelen ser las más utilizadas (Muñiz,
1996 y 2003).
La estrategia test-retest consiste en la aplicación de un mismo
instrumento a una misma muestra de sujetos en al menos dos momentos
diferentes. No existe un criterio único respecto de cual debe ser el lapso
adecuado entre la primera y segunda aplicación. Este se establece en función
de los fines del instrumento o la investigación (Muñiz, 1996).
Por su parte, las estrategias de consistencia interna permiten aplicar el
instrumento tan sólo una vez. Las dos estrategias más utilizadas son la
confiabilidad por mitades y el coeficiente alfa de cronbach.
a) Confiabilidad por mitades.
Una forma de evaluar la consistencia interna de un instrumento es
mediante el procedimiento de dos mitades; en este caso todos los
participantes responden una sola vez a la prueba. Sin embargo, se le asignan
dos puntuaciones a cada participante. Para lograr esto, la prueba se divide en
dos mitades. Las dos puntuaciones se pueden calcular dividiendo la prueba a
la mitad dependiendo del número de ítems o se puede dividir tomando los
ítems pares e impares. Se obtiene la correlación entre las dos puntuaciones
resultantes y se utiliza la fórmula de Spearman-Brown para estimar la
confiabilidad del instrumento completo.
Este tipo de confiabilidad es conocido como confiabilidad por mitades
(Cozby, 2005), método de las mitades o splitt-half method (Briones, 2001),

80
método de mitades partidas o splitt-halves (Hernández, Fernández y Baptista,
2006) o simplemente Split-half (Bonilla, 2006)
b) Confiabilidad en Alfa de Cronbach
El procedimiento más utilizado (Muñiz, 1996 y 2003) para evaluar la
consistencia interna de un test es el coeficiente Alfa de Cronbach.
La confiabilidad en Alfa de Cronbach es una generalización de las
fórmulas KR para ítems de alternativas múltiples. El Alfa de Cronbach, cuyo
cálculo emplea el promedio de todas las correlaciones existentes entre los
items del instrumento que tributan al concepto latente que se pretende medir
Valoración del coeficiente de confiabilidad
Una vez obtenido un coeficiente de confiabilidad, la pregunta obligada

es ¿qué tan elevada debe ser la confiabilidad? La respuesta a esta
interrogante no es sencilla y como afirma Hogan (2004) la única respuesta
concluyente es “todo depende”.
En concreto depende de lo que usted desee hacer con la prueba: es
como preguntar” ¿qué tan alta debe ser una escalera?”… todo
depende: ¿necesita cambiar una bombilla que no está a su alcance o
subir al techo de un edificio de tres pisos? (Pág. 112).
Si quien aplica una prueba pretende tomar decisiones sobre una
persona (diagnóstico psicológico, selección de personal, licencia para ejercer
una profesión, etc.) se requiere una prueba de alta confiabilidad (.90 como
mínimo aceptable y .95 como la norma deseable); si en cambio el uso de la
prueba es para la investigación se requiere una confiabilidad moderada (.80
se considera adecuada) (Nunnally y Bernstein, en Hogan, 2004).
Por su parte Rosenthal (en García, 2005) propone una confiabilidad
mínima de .90 para tomar decisiones sobre la vida de las personas y una
confiabilidad mínima de .50 para propósitos de investigación.
En esta misma línea de discusión, que tiene a los propósitos como
referente para determinar el nivel de confiabilidad aceptable, Kaplan y
Sacuzzo (en Hogan, 2004) señalan que la confiabilidad en el rango de .70 y .80
es lo suficientemente buena para cualquier propósito de investigación,
mientras que la confiabilidad para una prueba que se utilice para tomar una
decisión que influye sobre el futuro de una persona debe ser superior a .95.
Más allá de estas recomendaciones algunos autores nos ofrecen
escalas completas para la valoración del coeficiente de confiabilidad.
De Vellis (en García, 2005), plantea la siguiente escala de valoración:
 Por debajo de .60 es inaceptable
 De .60 a .65 es indeseable.
 Entre .65 y .70 es mínimamente aceptable.
 De .70 a .80 es respetable.
 De .80 a .90 es muy buena
Por su parte Murphy y Davishofer (en Hogan, 2004) ofrecen la siguiente
escala:
 Alrededor de .90 es un nivel elevado de confiabilidad.

81
 La confiabilidad de .80 o superior puede ser considerada como
moderada.
 Alrededor de .70 se considera baja.
 Inferior a .60 indica una confiabilidad inaceptablemente baja.
A manera de cierre
Las recomendaciones sobre el nivel de confiabilidad adecuado, en

función del propósito de la prueba, y las escalas propuestas, nos ofrecen una
respuesta concreta a la pregunta que originó este trabajo, sin embargo,
algunos lectores seguirán preguntándose ¿cuál es la respuesta correcta?
Dejo a mis lectores la oportunidad de decidir cual de las posibles
respuestas consideran más adecuada, yo por mi parte, me adhiero a la
postura de Thorndike y Hagen (1978), quienes en su clásico libro “Tests y
técnicas de medición en psicología y educación” consideran que la valoración
de la confiabilidad de un proceso de medición debe de hacerse siempre en
función de la superioridad que manifieste sobre la confiabilidad de otros
procesos de medición existentes con relación a la misma variable.
En otras palabras, la confiabilidad obtenida debe ser mayor a la que se
ha obtenido en otros procesos de medición que utilizan otros instrumentos
para medir la misma variable.
Lista de Referencias
Bonilla Rodríguez Víctor E. (2006), Confiabilidad, en el boletín informativo

INEVA en acción, Vol. 2, No. 3, pp. 1-3.
Briones Guillermo (2001), Métodos y técnicas de investigación para las
ciencias sociales, México, Trillas.
Cozby Paul C. (2005), Métodos de investigación del comportamiento, México,
Mc Graw Hill.
García Cadena Cirilo H. (2006), “La medición en ciencias sociales y en la
psicología”, en Estadística con SPSS y metodología de la investigación,
de René Landeros Hernández y Mónica T. González Ramírez (comp.),
México, Trillas.
Hernández Sampieri Roberto, Fernández Collado Carlos y Baptista Lucio Pilar
(2006), Metodología de la Investigación, México, Mc Graw Hill.
Hogan Thomas P. (2004), Pruebas psicológicas, México, El Manual Moderno.
Muñiz José (1996). Psicometría. Madrid, España, Editorial Universitaria
Muñiz José (1998), La medición de lo psicológico, en la revista Psicothema, Vol
10, No. 1, pp.1-21
Muñiz José (2003), Teoría Clásica de los Test, Madrid, España, Ediciones
Pirámide.
Thorndike Robert L. y Hagen Elizabeth (1978), Tests y técnicas de medición en
psicología y educación, México, trillas.

82
Ilustración 1 La interpretación de los fenómenos J. M. L. A.
INVESTIGACIÓN EDUCATIVA
83
TEMA: Confiabilidad
Quero, M. (2010). Confiabilidad y Coeficiente Alpha de Cronbach. TELOS

Revista de estudios Interdisciplinarios en Ciencias Sociales. 12(2), 248-
252.
84
Telos
ISSN: 1317-0570
wileidys.artigas@urbe.edu
Universidad Privada Dr. Rafael Belloso Chacín
Venezuela
Quero Virla, Milton

Confiabilidad y coeficiente Alpha de Cronbach
Telos, vol. 12, núm. 2, mayo-agosto, 2010, pp. 248-252
Universidad Privada Dr. Rafael Belloso Chacín
Maracaibo, Venezuela
Disponible en: http://www.redalyc.org/articulo.oa?id=99315569010
Cómo citar el artículo

Número completo
Sistema de Información Científica
Más información del artículo Red de Revistas Científicas de América Latina, el Caribe, España y Portugal
Página de la revista en redalyc.org Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
85
TELOS. Revista de Estudios Interdisciplinarios en Ciencias Sociales
UNIVERSIDAD Rafael Belloso Chacín
ISSN 1317-0570 ~ Depósito legal pp: 199702ZU31
Vol. 12 (2): 248 - 252, 2010

Milton Quero Virla*
1. Generalidades de la confiabilidad
Dos características deseables en toda medición son la confiabilidad y la vali-
dez; al referirse a cualquier instrumento de medición en el campo de las ciencias
sociales y de la conducta, se consideran estas dos cualidades como aspectos claves
de la llamada “solidez psicométrica” del instrumento (Cohen y Swerdlik, 2001).
En esta Nota nos ocuparemos fundamentalmente de la confiabilidad y específica-
mente del coeficiente a (alpha) de Cronbach.
Algunos autores encuentran cierta similitud entre las acepciones cotidianas
y técnicas de la confiabilidad (Cozby, 2005; Kerlinger y Lee, 2002; Cohen y
Swerdlik, 2001). Variando un poco el ejemplo dado por el primero de estos auto-
res, en una pareja uno de los dos puede considerar altamente confiable al otro, en
el sentido de la puntualidad, porque generalmente llega a las citas a la hora conve-
nida. Vale comentar, que en esta situación un solo encuentro con retardo, aunque
sea el primero de los encuentros, no permite estimar la confiabilidad. No se de-
cepcione casi a priori!
La confiabilidad o fiabilidad, se refiere a la consistencia o estabilidad de una
medida. Una definición técnica de confiabilidad que ayuda a resolver tanto pro-
blemas teóricos como prácticos es aquella que parte de la investigación de qué
tanto error de medición existe en un instrumento de medición, considerando tan-
to la varianza sistemática como la varianza por el azar (Kerlinger y Lee, 2002).
Dependiendo del grado en que los errores de medición estén presentes en un ins-
trumento de medición, el instrumento será poco o más confiable.
A partir de estas consideraciones, los autores definen la confiabilidad como
la ausencia relativa de errores de medición en un instrumento de medida. Expre-
sado más explícitamente, un puntaje observado o medido es la suma de un punta-
je real o verdadero más un puntaje de error o error de medición (Magnusson,
* Estudios doctorales en Ciencias de la Educación. MSc Estadística Aplicada.

Licenciado Educación Mención Matemática y Física. Profesor de Educación Integral
Especialidad Matemática. Profesor Agregado (Ordinario) del Departamento de
Matemáticas de la Facultad Experimental de Ciencias, LUZ. Coordinador de la
Maestría en Ciencias de la Educación Mención Gerencia Educativa URBE.
Maracaibo, Venezuela. Correo electrónico: miltonqv@hotmail.com.
248
86
1978). El tratamiento dado a la confiabilidad sobre estas premisas se enmarca

dentro de la llamada teoría clásica de las pruebas (Carmines and Zeller, 1979;
Kerlinger y Lee, 2002; Magnusson, 1978). Un modelo alternativo a este de las
puntuaciones reales o clásico, es el conocido como teoría de la generalización,
atribuida a Cronbach en 1970 y a sus colegas en 1972, teoría basada en la idea de
que las puntuaciones de una persona varían de una prueba a otra (Cohen y
Swerdlik, 2001) rebelándose contra el concepto de una puntuación verdadera.
Diversas definiciones de la confiabilidad son dadas partiendo de ciertas ca-
racterísticas del instrumento de medición. Sin embargo, una característica común
a varios de ellos es la de considerar que mientras la validez se refiere a que se mide
lo que se desea medir, la confiabilidad se refiere a la exactitud con que un instru-
mento de medida mide lo que mide (Magnusson, 1978). Tan solo denota algo
que es consistente, no necesariamente consistentemente bueno o malo, sino tan
solo consistente (Cohen y Swerdlik, 2001).
2. Fuentes de Inconsistencia
Entre los factores que reducen la confiabilidad o consistencia de un instru-
mento de medición pueden considerarse (Nunnally, 1970): a. instrucciones no
estandarizadas, las originadas por el encuestador si las instrucciones del instru-
mento de medición son dadas oralmente sin tener un conjunto estándar de ins-
trucciones que pueda leerse invariablemente; b. errores en el registro de puntajes
de respuesta, vinculadas a la transcripción “a mano” de los distintos puntajes de
respuesta; c. errores debido al ambiente de medición, relacionados con la aplica-
ción de los instrumentos en condiciones ambientales distintas (iluminación, nive-
les de ruido, confort, etc.) a diversos grupos de encuestados; d. errores debidos al
muestreo de contenido, presentes en situaciones cuando el objetivo del instru-
mento es estimar un puntaje de los encuestados respecto al dominio de ciertos
contenidos; e. errores debidos a fluctuaciones en los encuestados, estrechamente
vinculados al individuo encuestado, como distracciones momentáneas, equivoca-
ción al momento de marcar una respuesta en la hoja, un lápiz o bolígrafo roto o
defectuoso, etc.
3. El Coeficiente a (alpha) de Cronbach

La confiabilidad de una medición o de un instrumento, según el propósito
de la primera y ciertas caracteristícas del segundo, puede tomar varias formas o
expresiones al ser medida o estimada: coeficientes de precisión, estabilidad, equi-
valencia, homogeneidad o consistencia interna, pero el denominador común es
que todos son básicamente expresados como diversos coeficientes de correlación.
En el caso especifíco del coeficiente de confiabilidad vinculado a la homege-
nidad o consistencia interna, se dispone del coeficiente a (alpha), propuesto por
Lee J. Cronbach (1916-2001) en el año 1951. Se ha demostrado que este coefi-
ciente representa una generalización de las populares fórmulas KR-20 y KR-21
de consistencia interna, desarrolladas en 1937 por Kuder y Richardson (Kerlin-
249
87
Milton Quero Virla
Telos Vol. 12, No. 2 (2010) 248 - 252
ger y Lee, 2002), las cuales eran solo aplicables a formatos binarios de calificación
o de respuesta (dicotómicas). Por lo tanto, con la creación del a de Cronbach, los
investigadores fueron capaces de evaluar la confiabilidad o consistencia interna de
un instrumento constituido por una escala Likert, o cualquier escala de opciones
múltiples. Se afirma que varias modificaciones de las fórmulas de Kuder y Richard-
son se han propuesto en el transcurso del tiempo, pero la que ha recibido mayor
aceptación hasta la fecha es el estadígrafo a Cronbach (Cohen, y Swerdlik, 2001).
Para determinar el coeficiente a Cronbach el investigador calcula la corre-
lación de cada reactivo o ítem con cada uno de los otros, resultando una gran can-
tidad de coeficientes de correlación. El valor de a es el promedio de todos los coe-
ficientes de correlación (Cozby, 2005). Visto desde otra perspectiva, el coeficien-
te a Cronbach puede considerarse como la media de todas las correlaciones de di-
visión por mitades posibles, otro método de cálculo de consistencia interna, las
buenas junto las malas (Cohen y Swerdlik, 2001).
4. Coeficiente a de Cronbach y análisis de Ítems

Algunos paquetes estadísticos permiten hacer análisis de consistencia inter-
na de los ítems o reactivos de un instrumento (Levy y Varela, 2003). Estos análi-
sis tratan de determinar el grado en el que están relacionados recíprocamente los
reactivos o ítems (Brown, 1980), y pueden hacerse a partir de una sola aplicación
de una forma única de una prueba o instrumento (Cohen y Swerdlik, 2001).
La descripción resultante de los ítems o reactivos es resumida con el término
homogeneidad, la cual es el grado en que una prueba o instrumento mide un solo
factor, es decir, el grado en que los reactivos en una escala son unifactoriales. Más
precisamente, el coeficiente de consistencia interna dependerá directamente de las
correlaciones entre los ítems o reactivos, esto es, del grado en que los ítems midan
la misma variable. Mientras más homogéneos sean los ítems, mayor será el valor de
la consistencia interna para un número dado de ítems (Magnusson, 1978).
Relacionando estas interpretaciones y volviendo al asunto de realizar un
análisis de consistencia interna de los ítems mediante un software, los autores ex-
ponen un proceso por etapas en las que paso a paso, se deben eliminar del conjun-
to de ítems aquellos que hacen disminuir la consistencia interna global; es decir,
aquellos menos consistentes. El proceso se detiene cuando la escala no mejora o
mantiene su nivel de consistencia interna, con la eliminación de algún otro ítem
(Levy y Varela, 2003). Estos autores, coincidiendo con Cozby (2005), sugieren
utilizar un segundo criterio para la depuración de ítems: correlación del ítem con
el total calculado como suma de todos los ítems menos el calculado, denominada
correlaciones reactivo-total.
5. Previsiones prácticas
Mientras que el conocimiento del grado de validez de un instrumento per-
mite usar significativamente los datos obtenidos con él, el conocimiento de su
confiabilidad permite usar los datos correctamente (Magnusson, 1978). Desde
250
88
esta perspectiva práctica, muchas previsiones deben tomarse al momento de esti-

mar e interpretar un coeficiente de consistencia interna. En este espacio nos ocu-
paremos de sólo dos de ellas.
Primeramente, es oportuno destacar, y ya algo se ha dejado ver al respecto,
que de manera “natural” el coeficiente de consistencia interna a de Cronbach ex-
presa el grado en que los ítems miden la misma variable: homogeneidad. De tal
manera que su utilidad original se orienta a calcular la confiabilidad de un instru-
mento cuyos ítems o reactivos conformen un único dominio, esto es, una variable
o rasgo único.
De esta manera, si su instrumento consta de o mide varias variables, es de-
cir, tiene implícitamente subinstrumentos o subpruebas individuales, la recomen-
dación es disponer de medidas de confiabilidad para cada subprueba (Brown,
1980). Más específicamente, los resultados del estudio deben reportar tantos a
como subpruebas y variables o rasgos se tengan. El usuario de los resultados com-
puestos o combinados de un instrumento heterogéneo, debe ejecutar siempre ve-
rificaciones para ver si se dan estimaciones de confiabilidad para cada subprueba.
Estos y otros detalles pueden consultarse en Brown (1980) y Nunnally y
Bernstein (1995).
En segundo lugar, se requiere comentar respecto a cómo interpretar un va-
lor específico de a, esto es, cuál es el nivel satisfactorio de fiabilidad. Los investi-
gadores Carmines y Zeller (1979) consideran, que como regla general, las confia-
bilidades no deben ser inferiores a 0.80. Otros valores referenciales pueden en-
contrarse en Kerlinger y Lee (2002). Sin embargo, estos últimos autores mencio-
nan que Nunnally (1978) afirma que un nivel satisfactorio de confiabilidad de-
pende de cómo se utilice la medida.
Para finalizar, y como conclusión general de esta Nota, citemos otra vez a
Carmines y Zeller: “… the most important thing to remember is to report the re-
liability of the scale and how it was calculated” (p. 51).
Referencias Bibliográficas
Brown, Frederick G. (1980). Principios de la Medición en Psicología y Edu-
cación. Editorial El Manual Moderno. México.
Carmines, Edward and Zeller, Richard. (1979). Reliability and Validity
Assessment. SAGE Publications. USA.
Cohen, Ronald y Swerdlick, Mark. (2001). Pruebas y Evaluación Psicológicas.
Introducción a las Pruebas y a la Medición. McGraw Hill. México.
Cozby, Paul C. (2005) Métodos de Investigación del Comportamiento.
McGraw Hill. México.
Kerlinger, Fred y Lee, Howard. (2002). Investigación del Comportamiento.
Métodos de Investigación en Ciencias Sociales. McGraw Hill. Méxi-
co.
251
89
Milton Quero Virla
Telos Vol. 12, No. 2 (2010) 248 - 252
Lèvy M, Jean Pierre y Varela M., Jesús. (2005). Análisis Multivariable para las
Ciencias Sociales. Pearson. Prentice Hall. España.
Magnusson, David. (1978). Teoría de los Test. Editorial Trillas. México.
Nunnally, Jum C. Jr. (1970). Introduction to Psychological Measurement.
McGraw Hill. Japan.
Nunnally, Jum C. y Bernstein, Ira H. (1995). Teoría Psicométrica. McGraw
Hill. México.
252
90
TEMA: Baremación
Olaz, F. y Tornimbeni, S. (2008). Interpretación de puntuaciones. En: S.

Tornimbeni, E. Pérez y F. Olaz (Comp.). Introducción a la psicometría (pp.
137-152). Buenos Aires: Paidós.
91
5
INTERPRETACIÓN DE PUNTUACIONES
Fabián Olaz - Silvia Tornimbeni
5.1. Interpretación referida a normas
5.1.1. Concepto
Un test está formado por varios ítems ante los cuales el indi-
viduo debe emitir sus respuestas. El resultado inicial de un test
es el puntaje bruto, directo u original que se obtiene por la su-
matoria de las respuestas correctas (en los tests de ejecución
máxima) o respuestas clave (en los tests de comportamiento tí-
pico) (Walsh y Betz, 1990).
En el caso de los tests construidos sobre la base de la teoría
de respuesta al ítem (TRI), esta puntuación original se denomi-
na puntuación theta. A diferencia de las puntuaciones origina-
les de tests basados en la teoría clásica de los tests (TCT), las
puntuaciones theta no se obtienen de la simple sumatoria de las
respuestas a los ítems, sino que resultan de la interacción de las
respuestas del examinado con las características de los reacti-
vos (la dificultad de los ítems, por ejemplo) (Hogan, 2004). Estas
puntuaciones varían entre -4 y 4, aproximadamente, y se inter-
pretan de manera semejante a las puntuaciones estándar que
examinaremos más abajo.
Pese a las particularidades de cada teoría (TCT o TRI), las
puntuaciones originales de tests son arbitrarias y, por lo gene-
ral, no poseen un significado unívoco. De esta manera, por ejem-
plo, es poco esclarecedor conocer que un individuo resolvió 15
problemas en un test de habilidades matemáticas de 30 ítems.
El hecho de que las puntuaciones originales no sean suficientes
92
138 INTRODUCCIÓN A LA PSICOMETRÍA INTERPRETACIÓN DE PUNTUACIONES 139
para interpretar los resultados obedece a limitaciones de los valencia entre puntuaciones originarias y transformadas que
tests como instrumentos de medición (Murat, 1985), tales como: permiten la comparación de los resultados individuales con los
de un grupo de referencia (Grasso, 1999). El paso b del esquema
1. Carecen de cero absoluto (el cero en puntuación no indica anterior es relativamente rutinario y no presenta dificultades
ausencia absoluta del rasgo porque nunca se realiza un especiales para un profesional entrenado en el test en cuestión.
muestreo exhaustivo o representativo de sus posibles “in- Los pasos a y c, en cambio, requieren conocimientos específicos
dicadores operacionales”). y se desarrollarán en el siguiente apartado.
2. No poseen unidades de medida constantes (situación muy Algunas precisiones semánticas previas son necesarias para
diferente a otras unidades de medida, como el metro para evitar confusiones; en efecto, tal como define el diccionario de la
medir la longitud o el kilogramo para el peso). Real Academia Española, los baremos son normas establecidas
por convención para evaluar los méritos personales. Por consi-
En los tests que miden rasgos latentes (como inteligencia o
guiente, ambos términos (normas y baremos) poseen el mismo
personalidad) la estrategia comúnmente empleada para atri-
significado en este contexto. Hemos optado, en general, por el
buir significado a las puntuaciones originales es comparar los
término “baremo” para no generar confusión con las “normas” o
resultados individuales con las puntuaciones del grupo de refe-
estándares técnicos de los tests psicológicos, un concepto más
rencia en la misma prueba.
general y anteriormente definido. No obstante, en la literatura
De esta manera, los puntajes originales individuales son
psicométrica en español las dos palabras se usan indistin-
comparados con la distribución de puntajes de uno o más grupos
tamente y con similar frecuencia. En inglés no existe esta difi-
de referencia (APA, 1999). Continuando con la ejemplificación
cultad, puesto que “norms” refiere a “baremos” así como “stan-
anterior, si sabemos que el 60% de los estudiantes de un curso
dards” a “normas técnicas”.
obtuvo puntajes de 15 o inferiores en el test de habilidades nu-
méricas, hemos agregado significado al puntaje original de este
estudiante.
5.1.2. Muestra de estandarización
Para poder realizar esta interpretación comparativa de los
puntajes individuales se requiere un proceso denominado estan-
Para Murat (1985), quien se propone aplicar un test tendrá
darización, el que se desarrolla mediante las siguientes opera-
que decidir entre: a) construir sus propias normas de interpre-
ciones:
tación de los puntajes (baremos), o bien, b) emplear los baremos
a) Selección de una muestra representativa de la población elaborados por otro investigador.
meta para la cual se elaboró el instrumento, o muestra de En este último caso se deben tomar precauciones especiales
estandarización. antes de utilizar el test, tales como confirmar que los baremos
b) Administración del test a esa muestra y registro de las estén actualizados y que la muestra de estandarización original
puntuaciones originales de los individuos. sea semejante a la población meta de un test particular. Estas
c) Transformación de las puntuaciones originarias en pun- consideraciones adquieren especial relevancia en nuestro me-
tuaciones derivadas que indican la posición relativa de los dio, dado que muchas veces no contamos con normas locales y el
puntajes directos individuales en relación con el grupo de profesional se ve enfrentado a la difícil situación de escoger en-
referencia. tre un baremo elaborado para una población diferente a la cual
pertenecen los individuos que pretende evaluar o no hacer uso
El producto final de este proceso de estandarización son los de baremo alguno.
baremos de un test, que han sido definidos como tablas de equi- Si se opta por el uso de baremos, la muestra de estandariza-
93
ción original debería ser lo más parecida posible a la población de de referencia en situaciones de evaluación que no implican cla-
aplicación actual del test en características demográficas tales co- sificación de personas, en especial cuando se emplean tests de
mo sexo, edad, nivel educativo y nivel socioeconómico u otras va- comportamiento típico como los inventarios de intereses voca-
riables relacionadas con el desempeño en el test. Es muy impor- cionales o de personalidad (Goldberg, 1999; Cronbach, 1998).
tante que las muestras de estandarización sean cuidadosamente Ambas objeciones son atendibles y deberían considerarse antes
definidas y claramente descritas por los constructores del test pa- del empleo o construcción de un baremo.
ra que, de esta forma, el usuario pueda escoger aquellos instru- En particular, debe enfatizarse que si se construye un bare-
mentos cuyas normas sean apropiadas para su población meta. mo para interpretar los puntajes de un test, debe ser generado
No debe confundirse la elaboración de un baremo con el pro- a partir de una muestra representativa de la población meta de
ceso más complejo y comprensivo de adaptación de tests, que no evaluación. De otro modo, la utilización del baremo puede con-
sólo implica poseer normas adecuadas sino replicar los estudios ducir a intepretaciones equívocas y a errores considerables pa-
psicométricos esenciales del instrumento. La construcción de ra el autoconocimiento de los individuos o la clasificación efec-
baremos es sólo una condición necesaria pero no suficiente para tuada a partir de un test.
un empleo adecuado y éticamente responsable de tests elabora- Sin recursos humanos y económicos considerables es muy di-
dos en otros contextos socioculturales, problemática que se tra- ficultoso construir baremos nacionales o regionales. Una alter-
tará en el capítulo final de este texto. nativa factible es la de obtener normas específicas (una institu-
Para construir baremos se debe disponer de una muestra re- ción, por ejemplo) o de utilidad local (una ciudad pequeña, por
presentativa de la población que será evaluada por medio de un ejemplo) y para un grupo claramente definido (adolescentes ur-
test. Los baremos nacionales son extremadamente costosos y di- banos que cursan el secundario básico, por ejemplo). A su vez,
fíciles de obtener. La APA (1999) menciona diferentes tipos de los usuarios deben estar atentos a las situaciones en las cuales
normas (baremos) que pueden ser apropiadas para el uso de un los baremos son menos apropiados para algunos grupos de indi-
test dado: normas locales (de un determinado lugar geográfico), viduos que para otros. En un inventario de intereses ocupacio-
normas regionales y normas específicas (por ejemplo, de una nales, por ejemplo, los baremos utilizados para aquellas perso-
institución u ocupación). Es de especial importancia, sin embar- nas que se encuentran actualmente trabajando en alguna
go, que todos los baremos sean producto de un proceso de mues- ocupación pueden ser inapropiados para interpretar los punta-
treo técnicamente riguroso. jes de los individuos desocupados (APA, 1999).
Cuando un test es susceptible de aplicación a grupos distin- Las técnicas estadísticas para obtener muestras de estanda-
tos y existen diferencias significativas entre ellos en la variable rización van desde el muestreo aleatorio simple hasta estrate-
medida por el test, deben elaborarse baremos separados de mo- gias más sofisticadas como el muestreo aleatorio estratificado,
do que cada persona pueda ser comparada con su verdadero que reduce al mínimo la posibilidad de seleccionar una muestra
grupo de referencia. Éste es, por ejemplo, el caso de los inventa- no representativa (Aiken, 2003). En el muestreo aleatorio estra-
rios de intereses, en los que normalmente se presentan baremos tificado, la población meta es categorizada en una serie de va-
diferenciados por sexo, puesto que las mujeres y los hombres riables (sexo, edad, nivel socioeconómico, lugar de residencia)
(como grupo) difieren significativamente en sus perfiles de inte- que se supone poseen relación con el constructo medido por un
reses vocacionales. test y luego se seleccionan aleatoriamente submuestras propor-
Existen voces críticas al empleo de baremos debido a las difi- cionales de cada uno los estratos considerados.
cultades que se presentan para obtener muestras verdadera- Otro aspecto a tener en cuenta es el de actualización de los
mente representativas de una población determinada y a la uti- baremos. Algunos autores (Grasso, 1999; Aiken, 2003) reco-
lidad real de comparar los resultados individuales con un grupo miendan actualizar las normas cada cinco años, aproximada-
94
mente, e inclusive antes si se presenta un cambio significativo, Las transformaciones lineales más utilizadas son las puntua-
tal como una modificación curricular importante en un nivel ciones estándar o z.
educativo. La actualización periódica de los baremos es un re-
quisito básico para la validez de las interpretaciones de los pun- Puntuación estándar (z):
tajes de test referidos a normas (APA, 1999).
Como señala Aiken (2003), al transformar las puntuaciones
originarias en puntajes z se obtiene una distribución que tiene
5.1.3. Métodos de transformación de puntuaciones la misma forma, pero una media y una desviación estándar di-
ferentes a las de la distribución de la puntuaciones originarias.
Recordemos que para interpretar comparativamente los re- La media de las puntuaciones z es igual a 0 y la desviación es-
sultados individuales de un test es necesario transformar las tándar es igual a 1. Los puntajes equivalentes z de una distribu-
puntuaciones directas (originales) en otras derivadas. Las ción particular de puntuaciones originales pueden calcularse
transformaciones para obtener estas puntuaciones derivadas por medio de la siguiente fórmula:
pueden ser de dos clases: lineales y no lineales.
X±M
Transformaciones lineales zi =
sx
Una transformación es lineal cuando se obtiene una nueva es-
cala de medición que respeta las distancias entre las unidades de Esto es, la puntuación estándar de un sujeto es igual a su
medida de la escala original. Es decir, un cambio en la puntua- puntuación originaria (X) menos la media de las puntuaciones
ción de la escala original se corresponde directamente con el cam- del grupo de referencia (M), dividido por la desviación estándar
bio de puntuación en la escala transformada. De esta manera, la (s) (Murat, 1985). Al efectuar esta transformación, la media del
relación entre los intervalos es independiente de la unidad de me- grupo de referencia es el punto de origen de la nueva escala de
dida empleada y del punto de origen de la escala. Esto se obtiene medición y la unidad de medida será la desviación estándar. En
restando un valor constante de cada puntuación original y divi- otras palabras, las puntuaciones estándar expresan la distancia
diendo el resultado por otra constante, como veremos más abajo. del individuo a la media en función de la desviación estándar de
Las transformaciones lineales no alteran la distribución ori- la distribución (Anastasi y Urbina, 1998).
ginal de frecuencias de las puntuaciones. Si la distribución ori- Un ejemplo de cálculo de puntuaciones estándar con una me-
ginal es normal continuará siéndolo después de ser transfor- dia (M) de 60 y una desviación estándar (s) de 5 para dos indivi-
mada y si, por el contrario, presenta una asimetría positiva o duos (S1 y S 2) sería el siguiente:
negativa, estas características también se mantendrán luego de
la transformación (Martínez Arias, 1995). Recuérdese que una Puntuación S1 Puntuación S2
distribución de frecuencias muestra la cantidad de sujetos que
obtuvieron un valor determinado o están incluidos en una cate- x1 = 65 x2 = 58
goría de la variable medida. Cuando la información de una ta-
bla de distribución de frecuencias se presenta gráficamente z1 = 65 - 60 z2 = 58 - 60
(histogramas o polígonos de frecuencias) hablamos de la forma 5 5
de distribución de las frecuencias, tales como distribuciones
normales o percentilares, entre otras. z 1= 1 z2= -0,40
95
Tabla 5.1. Ejemplo de puntuaciones z. se

z©
= ( X ± Mo ) + Me
Baremo del test de laberintos de Porteus so
X z Donde:
10,00 1,34
9,75 0,86 z’ = Puntuación estándar que se desea obtener
9,50 0,58 Se = Desviación estándar establecida por el
9,25 0,30 examinador
9,00 0,022 So = Desviación estándar de los puntajes originales
8,75 -0,25 Mo = Media de los puntajes originales
8,50 -0,53 Me = Media establecida por el examinador
8,25 -0,82 X = Puntaje original
8,00 -1,10
Es importante señalar que, por lo general, la media y la des-
Las puntuaciones z pueden ser tanto negativas como positi- viación estándar son preestablecidas con la finalidad de facilitar
vas, y generalmente sus valores varían entre -3,00 y +3,00. Debi- la comparación con otros tests que miden un mismo constructo.
do a las dificultades que ocasiona la presencia de valores negati- De esta manera, los inventarios de personalidad utilizan fre-
vos y decimales, se suele proceder a una segunda transformación cuentemente una media de 50 y una desviación estándar de 10
lineal, en la que se multiplica cada puntuación z por una nueva (véase más adelante el cálculo de puntuaciones T), mientras
desviación estándar fijada arbitrariamente por el examinador y que los tests de inteligencia usualmente emplean una media
se suma luego a ese resultado un valor establecido para la me- igual a 100 y una desviación estándar de 15.
dia. En este caso se tendrá una nueva distribución que conserva El coeficiente de desviación es un caso especial de puntuación
la forma de las puntuaciones originales, modificándose solamen- estándar, utilizado por las escalas de inteligencia de Wechsler
te la media y la desviación estándar, aunque las puntuaciones (1999; 2005). En las escalas de inteligencia de Wechsler (WAIS,
transformadas se expresan en una nueva escala. La fórmula pa- WISC) la media propuesta es 100 y la desviación estándar igual
ra obtener esta segunda transformación es: a 15. Un puntaje estándar de 100 en estos tests define el desem-
peño de un individuo de inteligencia promedio. Alrededor de los
z©
= z.k + m dos tercios de todos los individuos obtienen puntajes de entre 85
y 115 (que corresponden a una desviación estándar de 1, por en-
Donde: cima y por debajo de la media, respectivamente), alrededor del
z’ = Puntuación transformada 95% en el intervalo 70-130 (dos desviaciones estándar en ambas
z = Puntuación estándar correspondiente a un direcciones de la media) y casi todos obtienen puntajes entre 55
individuo y 145 (tres desviaciones estándar a ambos lados de la media).
k = Desviación estándar establecida por el examinador La mayoría de los examinadores utilizan adicionalmente una
m = Media constante establecida por el examinador notación cualitativa para describir la inteligencia de un indi-
viduo. De este modo, un coeficiente de desviación de 130 o supe-
Hogan (2004) planteó una fórmula alternativa para el cálcu- rior se considera como muy superior al promedio, de 90 a 109
lo directo de puntuaciones z’, sin necesidad de realizar dos como equivalente al promedio y de 70 o menos como muy in-
transformaciones sucesivas: ferior.
96
Transformaciones no lineales
( fa + 0.50. fp).100
Px =
Las transformaciones no lineales, a diferencia de las lineales, N
asumen una distribución a priori (distribución normal, por
ejemplo) que altera la forma de la distribución de los puntajes Donde:
originales (Murat, 1985). Además, estas puntuaciones no pue- fa = Frecuencia acumulada hasta el puntaje original
den ser sumadas, promediadas o correlacionadas, puesto que no seleccionado
respetan las diferencias entre intervalos de la escala de medida fp = Frecuencia propia del puntaje original seleccio-
original. Poseen la ventaja comparativa de resultar fácilmente nado
comprensibles para personas sin conocimientos estadísticos es- N = Número total de casos
pecializados (maestros o estudiantes, por ejemplo). Las dos
transformaciones no lineales más usuales son los percentiles y Para ejemplificar el calculo de percentiles utilizando esta for-
las puntuaciones estándar normalizadas. mula se utilizarán los datos de la tabla siguiente.
a) Percentiles
Tabla 5.2. Datos sin agrupar del CIP-R
Los percentiles expresan el porcentaje de personas, en un
grupo de referencia, que queda por debajo de una puntuación Puntaje original Frecuencia Frecuencia acumulada
original determinada. Así, por ejemplo, si el 30% de los indivi-
duos de una muestra de estandarización obtuvo un puntaje 27 32 809
igual o inferior a 40 en un test, a una puntuación original de 40 26 25 777
le corresponderá un percentil 30 (P30). Un percentil es un punto 25 33 752
en la escala de medición originaria que divide el total de obser- 24 24 719
vaciones en dos partes. De este modo, el percentil 30 dejaría por 23 24 695
debajo el 30% de los casos de la muestra de estandarización y 22 25 671
por encima quedaría el 70% restante. 21 27 646
Con los percentiles empezamos a contar desde abajo, de tal 20 31 619
forma que a un percentil más bajo corresponde una posición 19 31 588
más baja del individuo en el test. El percentil 50 (P50) corres- 18 42 557
ponde a la mediana. El percentil 25 se corresponde con el pri- 17 35 515
mer cuartil (Q1) y el percentil 75 con el tercer cuartil (Q3). Estos 16 50 480
dos últimos percentiles suelen utilizarse como puntos de corte 15 54 430
para indicar la magnitud relativamente elevada y baja (respec- 14 38 376
tivamente) de un atributo determinado. 13 52 338
Si bien el cálculo de percentiles se realiza fácilmente desde 12 62 286
cualquier software estadístico (tal como SPSS, por ejemplo), a 11 73 224
continuación se ejemplifica el cálculo de estas puntuaciones a 10 74 151
los fines de esclarecer la lógica del procedimiento. La fórmula de 9 77 77
cálculo para datos no agrupados es la siguiente:
97
Si, por ejemplo, quisiéramos calcular el percentil para la Tabla 5.3. Baremo en percentiles del CIP-R
puntuación original 25, tendríamos:
Percentil B C D E F G H I J K L M M
Px = (719+0,50. 33) . 100
1 6 9 8 10 8 8 8 8 8 7 6 8 6
809 5 6 9 8 10 8 8 9 9 8 7 6 9 6
10 6 10 8 11 8 8 11 10 9 7 7 11 7
Px = (719 +16,5) .100 = 90,91 25 8 11 9 12 8 9- 13 12 10 7 8 13 8
809 40 10 12 11 15 9 11 16 14 11 8 10 15 9
50 12 14 13 17 10 13 18 16 13 9 12 17 11
Es decir que a una puntuación bruta de 25 le corresponde un 60 13 16 16 19 10 14 19 17 15 11 13 18 12
percentil equivalente a 90,91. 70 14 18 18 21 12 15 21 19 17 13 15 20 13
El sumar a la frecuencia acumulada la mitad de la frecuen- 75 15 19 19 22 12 16 21 20 18 14 16 20 14
cia correspondiente a la puntuación para la cual queremos cal- 80 16 21 20 24 13 17 22 21 19 15 16 21 15
cular el percentil (0,50 x fp), en este caso la puntuación 25, se 90 17 24 22 27 15 19 23 23 21 18 17 23 16
debe a que se supone que la puntuación 25 representa un inter- 95 18 26 24 29 17 22 24 24 23 20 18 24 18
valo que va desde 24,5 a 25,5, en el que se reparten de forma ho- 99 18 27 24 30 20 24 24 24 24 21 18 24 18
mogénea todas las frecuencias. El punto medio de este interva-
Ref.: A = Lingüística, B = Musical, C = Humanística, D = Económica, E = Tecnológica,
lo es 25, por lo que se le asignan hasta ese punto la mitad de las F = Naturalista, G = Asistencial, H = Artística, I = Sanitaria, J = Cálculo, K = Jurídica,
frecuencias (Martínez Arias, 1995). L = Comunicacional, M = Científica.
La tabla 5.3. presenta un baremo expresado en percentiles.
La facilidad de interpretación de los percentiles los hace es-
pecialmente atractivos. Pero, a pesar de su sencillez, tienen una de seis unidades percentilares (percentiles 93 y 99); en cambio,
desventaja considerable si se los compara con las transformacio- en el medio de la distribución, a una distancia de 3 unidades en
nes lineales. Al respecto, debe recordarse que los percentiles puntuación original (20-23, por ejemplo) le corresponde una di-
operan en un nivel de medición ordinal y no intervalar, como los ferencia de 27 unidades en percentiles (43-70). Esto puede ser
puntajes z. Por consiguiente, este tipo de puntuaciones deriva- particularmente problemático cuando se utilizan puntuaciones
das altera profundamente la distribución de las puntuaciones percentilares en contextos de clasificación (véase el capítulo 4
originales, transformándola en una nueva distribución con mar- sobre validez) o selección de personas.
cada desigualdad de las unidades en diversos puntos de la esca-
la (Hogan, 2004). b) Puntuación estándar normalizada (zn)
Este problema no es trivial puesto que una diferencia en el
puntaje original del test implicará muchos percentiles de dis- Para facilitar la comparación de diferentes puntuaciones
tancia a la mitad de la distribución, debido a que los percentiles transformadas (puntajes z con percentiles, por ejemplo), se sue-
tienden a agruparse en el medio de la distribución, pero sólo le recurrir a transformaciones no lineales que modifican la for-
una diferencia mínima en percentiles en los extremos de la dis- ma de distribución de las puntuaciones originales, convirtiéndo-
tribución (Aiken, 2003). Así, por ejemplo, en el inventario NEO- las en una distribución normal.
PI-R (Costa y McCrae, 1999), a la distancia entre una puntua- En psicometría es muy importante la distribución normal, un
ción original de 27 y 30 (3 puntos) le corresponde una diferencia modelo estadístico que permite estimar probabilidades de ocu-
98
rrencia de los diferentes valores de una variable pero que no se z’ = z.k + m

corresponde exactamente con ninguna forma de distribución de
frecuencias real u observada (Grasso, 1999). Una distribución Donde:
normal se representa gráficamente por medio de la curva nor-
mal, en forma de campana. La curva normal posee propiedades z’ = Puntuación estándar normalizada
matemáticas de gran importancia y sirve de fundamento a va- z = Puntuación estándar correspondiente a un pun-
rios tipos de análisis estadísticos. La curva es simétrica bilate- taje bruto determinado
ralmente con un punto máximo hacia el centro de la distribu- k = Desviación estándar (en el caso de los puntajes T
ción e indica, esencialmente, que el mayor número de casos se igual a 10)
agrupa hacia el centro, disminuyendo gradualmente en ambas m = Media (50 para las puntuaciones T)
direcciones a medida que nos alejamos del centro de la distribu-
ción. La mayoría de los atributos psicológicos, evaluados a tra-
vés de tests, poseen una distribución aproximada a la normal Tabla 5.4. Intervalos de puntajes originales (X),
(Cohen y Swerdlik, 2000). percentil correspondiente (Pc), z normalizado (zn) y
El procedimiento empleado en este tipo de transformaciones puntaje T correspondiente
no lineales se denomina normalización y las puntuaciones obte-
nidas mediante este proceso reciben el nombre de puntuación
X Pc zn T
estándar normalizada. Algunos casos especiales de este tipo de
puntuaciones son las denominadas “T” (en honor a Terman) con 119-192 99 2,33 73
media igual a 50 y desviación estándar igual a 10, y las puntua- 113-118 98 2,06 71
ciones estaninas con media = 5 y una desviación estándar = 2. 108-112 97 1,89 69
El nombre estanina (contracción de standard nine) se basa en 105-107 96 1,76 68
que las unidades de estas puntuaciones transformadas van de 1 99-104 95 1,65 66
a 9. Una dificultad de las estaninas es que el uso de un sólo dí- 92-98 90 1,29 63
gito puede sugerir diferencias significativas entre dos indivi- 87-91 85 1,04 60
duos cuando éstas no son tales (Hood y Johnson, 2002). 82-86 80 0,85 58
La transformación de puntuaciones originales a puntuacio-
nes estándar normalizadas se realiza mediante el siguiente pro-
cedimiento: Por ejemplo, a un puntaje original en el intervalo 108-112 del
cuadro anterior, le corresponde un percentil 97. Transformando
1. Estimar el percentil correspondiente a una puntuación ori- ese percentil en proporción tenemos un valor de 0,97. En el cua-
ginal. dro de áreas bajo la curva normal, a una proporción de 0,97 le
2. Convertir ese percentil en una proporción. corresponde una puntuación z de 1,8. La puntuación original
3. En el cuadro de áreas por debajo de la curva normal, ubi- 109 (equivalente a un percentil 97), por ejemplo, supera enton-
car la puntuación z debajo de la cual se encuentra esa pro- ces al 97% de los casos y se encuentra a 1,8 desviación estándar
porción. Por ejemplo, dada una proporción de 0,97, la pun- por encima de la media de las puntuaciones.
tuación z correspondiente es de 1,89. Las áreas de la distribución normal pueden consultarse en la
4. Proceder al cálculo de la puntuación T u otra semejante mayoría de los textos de estadística e indican la proporción de
mediante la ecuación: casos correspondientes a una puntuación z determinada. En el
99
texto de Martínez Arias (1995) se presentan tablas exhaustivas 5.2. Otros métodos de interpretación de puntuaciones
de las áreas de la distribución normal, comprendidas entre z -3
a 3. 5.2.1. Puntuaciones ipsativas
Aplicando a los datos del ejemplo anterior la fórmula de la
transformación lineal, se tiene que: Si bien la interpretación referida a normas es la más utiliza-
da, existen otras formas de interpretación de los puntajes origi-
T = 1. 89 . 10 + 50 = 68.9 nales de un test. Una de estas formas alternativas de interpreta-
ción son las puntuaciones ipsativas. Estos puntajes se obtienen
Redondeando este valor final tenemos un T = 69. Como pue- en tests que utilizan un formato de ítems de elección forzada,
de observarse en la tabla precedente, la puntuación T corres- donde el examinado debe optar por una alternativa entre varias
pondiente al percentil 97 es 69. que lo describen. En estos tests, los ítems se califican de tal ma-
Las puntuaciones T se distribuyen en un rango que va desde nera que la elección de una de las opciones de respuesta produce
20 (aproximadamente 3 desviaciones estándar por debajo de la un incremento en la puntuación de una escala o dimensión me-
media) a 80 (3 desviaciones estándar por encima de la media). dida y al mismo tiempo una disminución en el puntaje de otra de
No deben confundirse estas puntuaciones con los valores t de las escalas o dimensiones del test. Por consiguiente, este tipo de
Student utilizados en las pruebas estadísticas de significación. puntuaciones muestra la fuerza “relativa” de las puntuaciones
La decisión de normalizar las puntuaciones no debería tomarse en lugar de la fuerza “absoluta” de las mismas (Hogan, 2004).
sin cuidado; por ejemplo, no es recomendable cuando la distri- Para comprender cabalmente esta última afirmación considére-
bución de puntuaciones originales del test se aleja considerable- se el siguiente ejemplo.
mente de una distribución normal (Martínez Arias, 1995). A los fines de medir intereses vocacionales se pueden utilizar
Las puntuaciones T también pueden obtenerse de manera dos formatos de respuesta diferentes:
más directa, utilizando la fórmula cálculo de z’, en este caso con
una media de 50 y una desviación estándar de 10. Con este pro- Formato A:
cedimiento no se altera la forma de la distribución de los punta-
Seleccione de cada par de actividades aquella que más le interese:
jes originales como acontece cuando se utiliza el procedimiento
de normalización anteriormente descrito, y esta variedad de
a. Resolver ecuaciones matemáticas o b. Aprender estilos de pintura artística
puntajes T se convierte en otro caso de transformación lineal,
a. Tocar un instrumento musical o b. Hacer cálculos numéricos
que revisamos en el apartado anterior (Kaplan y Saccuzzo,
2006).
Formato B:
En la actualidad, todos los cálculos requeridos para construir
baremos se realizan por medio de programas estadísticos com- Examine cada ítem e indique con una cruz en el casillero co-
putarizados. Sin embargo, conocer algunos procedimientos bási- rrespondiente su Desagrado (D), Indiferencia (I), o Agrado (A)
cos de cálculo como los anteriores facilita una mejor compren- por el mismo.
sión de la lógica de los mismos así como una interpretación
adecuada de las salidas (outputs) de la computadora. D I A
1. Resolver ecuaciones matemáticas
2. Aprender estilos de pintura artística
3. Hacer cálculos numéricos
4. Tocar un instrumento musical
100
En el formato B, si asignáramos un puntaje 1 a la opción D 5.2.2. Interpretación referida a criterio

(Desagrado), un 2 a I (Indiferencia) y un 3 a la opción A (Agra-
do), la persona puede elegir cualquier puntuación para cada uno Tal como se explicó más arriba, puesto que las puntuaciones
de los ítems, siendo independiente entre sí la puntuación asig- originales de un test carecen de un significado unívoco, normal-
nada a cada uno de ellos. mente se interpretan comparándolas con un grupo de referen-
El formato A es característico de una puntuación ipsativa. cia. Una forma alternativa de interpretación de las puntuacio-
Como puede apreciarse, los ítems de este tipo de tests exigen nes consiste en compararlas con un criterio de logro u objetivo a
una elección entre ambas opciones de respuesta, representadas alcanzar, previamente especificado.
respectivamente por a y b, y no es posible elegir o rechazar am- Por ejemplo, si consideramos que un criterio de desempeño
bas. Además, en la medida en que aumenta la puntuación en la es responder en forma correcta al menos 14 de una serie de 20
escala “artística”, por ejemplo, disminuye o no aumenta su pun- preguntas en una prueba de conocimiento de literatura, 14 se-
tuación en “cálculo”, evidenciando la fuerza relativa de los inte- ría el estándar con el cual comparar los aciertos obtenidos por
reses. Es probable que a una persona le desagraden o agraden un individuo en ese test de rendimiento. En otro ejemplo, no se-
ambas actividades aunque prefiera (o rechace) una de ellas más ría relevante si se ubica en el percentil 90 en un examen de con-
que la otra (Hogan, 2004). ducción de vehículos, por ejemplo. Si alguien consistentemente
Como puede apreciarse, las puntuaciones finales de una es- no respeta el semáforo, no es un buen candidato para recibir
cala ipsativa expresan un perfil de los “puntos” fuertes y débiles una certificación de maestría de ese dominio, aunque su pun-
de un individuo sin compararlo con un grupo de referencia. Con tuación en el test haya sido elevada en relación con el grupo de
este procedimiento, la deseabilidad social (un ítem es escogido referencia que respondió el mismo test (Woolfolk, 2006).
sólo porque expresa una idea socialmente aceptable) y los ses- Este tipo de interpretación de puntuaciones se denomina “in-
gos individuales de respuesta (los individuos eligen siempre la terpretación referida a criterio o a dominio” y los tests que la uti-
misma opción de respuesta o emiten respuestas similares a ca- lizan, “tests con referencia a criterio o dominio”. Estos tests pre-
da ítem) se controlan exitosamente. suponen que existe un área específica o dominio de conocimiento
La interpretación ipsativa posee la limitación de obstaculizar o habilidad que puede ser claramente definido y delimitado.
la aplicación de algunos estadísticos usuales en psicometría de- Una prueba referida a criterio es aquella que deliberadamen-
bido a la falta de independencia de sus ítems (Kerlinger y Lee, te se construye para conducir a medidas directamente interpre-
2002). Otra dificultad inherente a estas puntuaciones es la re- tables en términos de pautas específicas de desempeño (Glaser,
sistencia que despiertan los ítems de elección forzada en mu- 1963), las cuales se determinan definiendo una clase o dominio
chos individuos. Algunos tests muy populares en contextos de de tareas que el individuo debe realizar. Popham (1975) afirmó
orientación que utilizaban solamente puntuaciones ipsativas que los tests referidos a criterio se utilizan para evaluar la posi-
o puntajes originales (Registro de Preferencias Kuder y Self- ción absoluta de un individuo con respecto a algún dominio de
Directed Search, respectivamente) incluyen, en sus últimas ver- conductas previamente definido. Es importante considerar que
siones, baremos para interpretar los resultados. en muchos dominios es dificultoso fijar con precisión objetivos
Otra excepción a la interpretación referida a normas son los específicos y, además, en varias ocasiones el establecimiento de
tests referidos a criterio o dominio, que se expondrán a conti- un criterio de desempeño (25 respuestas correctas y no 24, por
nuación. ejemplo) es bastante arbitrario.
Los tests referidos a criterio se desarrollaron a comienzos del
siglo XX. Sin embargo, esta línea de investigación fue abando-
nada durante el período comprendido entre las dos guerras
101
mundiales (1914-1945), para luego ser retomada a mediados del es seleccionado con el fin de obtener información que permita
siglo pasado (Martínez Arias, 1995). Recién en los años setenta discriminar entre estudiantes, mientras que en las pruebas re-
se comenzó a aplicar sistemáticamente este tipo de pruebas, en feridas a criterios, el contenido se selecciona sobre la base de su
particular en la evaluación educativa. importancia para el currículo. Los tests con referencia a normas
La evaluación en educación se realiza con diferentes fines, se basan en las diferencias individuales y, por lo tanto, tienen
entre ellos: como objetivo primordial la selección y la predicción (Glaser,
1963). Por el contrario, las pruebas con referencia a criterio in-
a) determinar la calidad de un sistema educativo
tentan medir cambios en los propios individuos o grupos como
b) evaluar la adecuación de un currículo
efecto de una intervención educativa. Por consiguiente, estos
c) evaluar los efectos de un programa de enseñanza
tests resultan más adecuados para fines de diagnóstico y pres-
d) evaluar el rendimiento de los estudiantes
cripción de las experiencias de aprendizaje requeridas para ase-
e) seleccionar aspirantes a un curso o carrera
gurar el logro de determinados objetivos.
La evaluación educativa comenzó como un medio para selec- Como afirma Hogan (2004), es más apropiado hablar de in-
cionar alumnos, y los tests que más se utilizaron fueron los re- terpretación referida a normas y a criterio, puesto que la pun-
feridos a normas, cuyos resultados se interpretan en función de tuación de un mismo test puede interpretarse de estas dos for-
un grupo normativo o baremo. Siguiendo este modelo, posterior- mas. Imaginemos un test de aritmética elemental, con ítems
mente se construyeron tests referidos a normas para ser aplica- relacionados con operaciones básicas (suma, multiplicación, di-
dos con otros propósitos, tales como evaluar la calidad de un sis- visión, resta) para estudiantes de cuarto grado. Podría fijarse
tema educativo o el rendimiento académico. No obstante, un punto de corte del 75% de los ítems acertados (25 ítems, por
algunos especialistas en educación advirtieron que la aplicación ejemplo) como indicador de rendimiento satisfactorio en ese do-
de este tipo de pruebas no proporcionaba información adecuada minio (aritmética elemental). Ésta es una interpretación rela-
si, por ejemplo, el propósito esencial era evaluar el logro de los cionada con criterio. Por el contrario, las puntuaciones del mis-
objetivos propuestos por un sistema educativo. mo test podrían interpretarse en referencia a normas si esa
En los años sesenta, junto con la instrucción programada y puntuación de 25 (los ítems acertados) se comparase con el ren-
otros programas educativos semejantes, surge la necesidad de dimiento de la población meta (por ejemplo, todos los estudian-
una evaluación diagnóstica previa de los individuos y, a poste- tes de cuarto grado de una ciudad) y se determinara que es
riori, para verificar los cambios en los mismos como efecto de la equivalente al percentil 75 de la muestra de estandarización del
aplicación de esos programas. Estas razones impulsaron el de- test, por ejemplo.
sarrollo de este enfoque alternativo en la interpretación de pun- Los tests referidos a normas sugieren más bien cuánto han
tuaciones de tests, donde no interesa tanto comparar al indivi- aprendido los individuos pero no esclarecen adecuadamente qué
duo con la población a la cual pertenece, sino medir cambios de han aprendido. En cambio, las pruebas con referencia a criterio
cada individuo a lo largo del aprendizaje. informan la posición absoluta de un sujeto en relación con un
La evaluación referida a criterio supone una filosofía diferen- dominio conductual definido explícitamente. De este modo, cual-
te del quehacer educativo. Tal como argumenta Tyler (1978), la quier cambio de posición del individuo en ese dominio adquiere
función esencial del maestro no es identificar a los mejores y a un significado más claro, pues refleja un cambio interpretable
los peores alumnos sino tratar de que todos los estudiantes lo- en términos conductuales (Himmel, 1979). Cada estudiante es
gren los objetivos relacionados con dominios de aprendizaje es- capaz o no de exhibir una habilidad particular, generar un pro-
pecíficos. ducto específico o manifestar cierta conducta (Popham, 1975), y
Según Bond (1996) el contenido de un test referido a normas su desempeño debería valorarse con respecto a qué alcanzó co-
102
mo logro, y no con referencia a cuánto logró en comparación en ítems correspondientes a cada objetivo para estimar el grado de
sus compañeros. logro del mismo. Con este mismo criterio se analizaron los por-
La interpretación referida a criterio es aplicable sólo en do- centajes de respuestas discriminadas según las variables consi-
minios específicos de contenido, tales como aritmética, ortogra- deradas: turno de asistencia (escuelas diurnas y nocturnas), se-
fía o las habilidades requeridas para el ejercicio de una ocupa- xo y tipo de escuela (estatal o privada).
ción (Hogan, 2004). El análisis de los resultados en este tipo de De esta manera se identificaron, por ejemplo, diferencias en
pruebas puede realizarse distinguiendo las habilidades o con- el rendimiento de los alumnos de escuelas diurnas y nocturnas
ductas en relación con un contenido temático que presentan ma- en relación con la habilidad de interpretación. A continuación se
yor dificultad y las que son más fáciles de adquirir. Para ello, analizan los resultados obtenidos para las preguntas correspon-
puede computarse el número de estudiantes que dan la respues- dientes al objetivo “conocimiento de criterios”.
ta correcta en cada ítem y dividirse esa frecuencia por el núme- La inspección de los datos anteriores permite inferir que, en
ro total de estudiantes. general, los alumnos no logran reconocer una noticia entre los
Como ejemplo, se presentan e interpretan los resultados ob- textos periodísticos o distinguir los géneros literarios (los porcen-
tenidos en una prueba de Lengua aplicada a niños de 6º grado tajes de acierto oscilan entre el 25 y el 29%). En cambio, sí cono-
de la Provincia de Córdoba (Ferreyra, 1982) con el propósito de cen aquellos criterios que les permiten identificar distintas fuen-
evaluar el rendimiento de los alumnos al terminar el ciclo pri- tes de información (los porcentajes de acierto oscilan entre el 75
mario. En este caso, se fijaron los siguientes criterios: si el por- y el 90%). Asimismo, se observa menor rendimiento en los alum-
centaje de aciertos en el ítem era igual o menor al 30% se consi- nos de escuelas nocturnas que en los de escuelas diurnas. Entre
deraron difíciles, si era igual o mayor al 70% se consideraban estas últimas, las escuelas privadas obtienen porcentajes de
fáciles. Sobre la base de esos porcentajes, se examinaron los acierto ligeramente superiores que las oficiales, y lo mismo se ob-
serva entre varones y mujeres (ligeramente superior en las mu-
jeres). En síntesis, y en referencia al objetivo “conocimientos de
Tabla 5.5. Resultados de una prueba de Lenguaje. criterios”, se puede concluir que el mismo no es logrado en todos
Objetivo de conocimiento de criterios sus niveles o dimensiones por los estudiantes de esta muestra.
ÍTEM Total Mujeres Varones ED PD EN
1. Identificar el tipo de lenguaje

en un texto discursivo 0,593 0,603 0,585 0,570 0,638 0,531
5. Reconocer una noticia

en artículos periodísticos 0,255 0,236 0,272 0,261 0,244 0,219
18. Identificar fuentes

de información 0,868 0,902 0,840 0,855 0,897 0,750
26. Identificar el carácter

de un texto descriptivo 0,584 0,630 0,544 0,580 0,592 0,531
46. Reconocer un género

literario 0,263 0,296 0,235 0,254 0,282 0,219
Nota: ED: estatal diurna; PD: Privada diurna; EN: estatal nocturna.
103
TEMA: Visualización de resultados
Asociación Americana de Psicólogos (2010) Manual de Estilos (pp. 127-132).
104
Visualización de resultados
'Raúl Gon.zález Velásquez
ANCAHY NOTARIO
Máster Docenci.a Univnsibria
Matsw.- de iillprHa.
esde la edición anterior del Manual de publicaciones, pocas áreas han sido transfor-
madas-por los desarrollos tecnológicos de una forma tan evidente como los métodos
disponibles para la visualización de resultados de experimentos e investigaciones:
tablas, gráficas, esquemas, mapas, dibujos y fotografías. Hoy en día casi todos los métodos
de visualización de información son el resultado de la manipulación electrónica de los da-
tos básicos, ya sea con procesadores de textos, hojas de cálculo, programas estadísticos, o
mediante un software altamente especializado para crear imágenes digitales. Estos cambios
han aumentado en gran medida la flexibilidad con la que cuentan los autores para mostrar
los resultados de manera eficaz.
Las tablas y las figuras les permiten a los autores presentar una gran cantidad de in-
formación con el fin de que sus datos sean más fáciles de comprender. Por lo general, las
tablas muestran valores numéricos o información textual (p. ej., listas de palabras estímulo)
organizados en una técnica de visualización en columnas y filas. Una figura puede ser un es-
quema, una gráfica, una fotografía, un dibujo o cualquier otra ilustración o representación
no textual. En ocasiones, la frontera entre las tablas y las figuras podría ser imprecisa. Sin
gj embargo, las tablas casi siempre se caracterizan por una estructura· conformada por filas y
w
-o
§ columnas. Cualquier tipo de ilustración que no sea una tabla se denomina figura.
tll
Q) En este capítulo, analizaremos los propósitos de las técnicas para la visualización de da-
e
-o
T5
ro
tos y mostraremos procedimientos para diseñar y preparar modos de visualización de datos
N
de manera efectiva. Con este fin proporcionaremos una serie de pasos específicos y ejemplos
ro
e
ilustrativos para diseñar el formato y la construcción de tablas y figuras.
·¡;;
ro
·o..
o
u
o
o
LL
o Pautas generales para tablas y figu
E
o
E 5.01 Propósitos de la visualización de datos
§
r::
ta La visualización de datos puede tener distintos propósitos:
E
iij
exploración: los datos contienen un mensaje y, sin duda, usted quiere saber cuál es (el
análisis de datos exploratorios y las técnicas de extracción de datos son ejemplos de técni-
@ cas de visualización básicamente exploratorias);
105
PAUTAS GENERALES PARA TABLAS Y FIGURAS
comunicación: usted ha descubierto el significado contenido en los datos y quiere darlo

a conocer a los demás (éste es el propósito de la mayoría de los modos de visualización
de datos en los artículos científicos);
11 cálculo: la le permite calcular algún dato estadístico o alguna función de
los datos (los nomogramas son el arquetipo de este propósito);
111 almacenamiento: usted puede almacenar los datos en un modo de visualización para
recuperarlos posteriormente, como es el caso de los resultados de un estudio que se uti-
lizarán más adelante en un meta-análisis (siempre ésta ha sido la función de las tablas,
aunque en ocasiones las figuras han cumplido este objetivo con mayor éxito); y
11 decoración: los modos de visualización de datos llaman la atención y usted puede optar
por utilizarlos para hacer sus manuscritos visualmente más atractivos (como en un pe-
riódico y otros medios de comunicación).
En las p1.;1R}icaciones. científicas, la función comunicativa de los modos de visualización

de gráficos otras características (p. ej., el almacenamiento) pueden
ser útiles en ;una representación gráfica .
., i ..
5.02 Diseño y preparación para una visualización

El primer paso para preparar un modo de visualización es determinar sus propósitos y la impor-
tancia relativa de éstos. Por ejemplo, los detalles que se requieren para una visualización de alma-
cenamiento pueden ir en contra de la claridad requerida para una de tipo comunicativo. Una vez
que usted haya tomado una decisión respecto a la jerarquía de propósitos de la visualización, elija
la plantilla con el mejor diseño para cumplir con sus principales propósitos: la forma canónica
de una visualización de datos. Tal visualización (como un diagrama de dispersión) ha resultado
ser flexible (funciona para muchos tipos de datos), sólida (funciona razonablemente bien incluso
cuando no sea exactamente ade.cuada) y adaptativa (r:i:mesúa una capacidad de adaptación que
la hace adecuada). Además, el uso de las formas canónicas simplifica la tarea de los lectores ya
que están familiarizados con ese tipo de formato.
La elaboración de los materiales gráficos requiere prestar atención cuidadosa a la o_rga-
nización y al contenido. Es necesario editar los elementos gráficos con el mismo cuidado que
los elementos textuales de un manuscrito. Los cambios en el texto a menudo exigen cambios
en los elementos de gráficos, y no editar los materiales gráficos ni precisar el enfoque de la
·visualización es un error grave en muchos escritos científicos.
Al diseñar su visualización de gráficas, tenga al lector en mente; es decir, recuerde la
función comunicativa de la visualización.
B Coloque los elementos que se compararán uno al lado del otro.

11 Coloque letreros de manera que delimiten con claridad los elementos a los que corresponden.
E Utilice un tipo de letra que sea lo suficientemente grande para leerse sin necesidad de una
ampliación.
11 Incluya toda la información requerida de manera que ésta sea fácil de entender en la
imagen gráfica, evite abreviaturas novedosas, utilice notas de tabla y etiquete los elemen-
tos gráficos.
Mantenga la visualización gráfica libre de materiales gráficos externos, no importa qué
tan decorativos resulten.
La comunicación es el propósito principal de la gráfica. Sin embargo, esto no significa que

las gráficas bien diseñadas y estéticamente agradables no sean importantes. Una visualiza-
ción gráfica atractiva hace que un artículo científico sea una herramienta de comunicación
más eficaz.
106
VISUALIZACIÓN DE RESULTADOS JQ,2
5.03 Presentación gráfica en comparación

con presentación textual
Sea selectivo al elegir la cantidad de elementos gráficos que incluirá en su artículo. En primer
lugar, un lector puede tener problemas al revisar un gran número de tablas y figuras y termi-
nar malinterpretando el mensaje que se intenta transmitir. En segundo lugar, una cantidad
enorme de las tablas y figuras en comparación con muy poco texto puede ocasionar proble-
mas con el diseño de las páginas formadas; un texto que se interrumpa constantemente con
tablas dificultará la lectura. En tercer lugar, las presentaciones gráficas no siempre resultan
óptimas para lograr una comunicación eficaz. Por ejemplo, a menudo puede ser conveniente
presentar los resultados de varias pruebas estándares de significación estadística en el texto:
El ANOVA unidireccional, F(J, 136) =4.86, MSE =3.97, p=.029, 112 =.03, demostró
diferencias estadísticamente significativas entre los dos grupos, de corrformidad con
lo establecido en la teoría.
La información que solía presentarse en tablas (p. ej., tablas de análisis de varianza [ANOVA])
ahora se presenta dentro del texto.
5.04 Formato de tablas y figuras

En la actualidad la mayoría de los manuscritos se envían a través de medios electrónicos;
por consiguiente, todos los elementos del manuscrito deben estar en un formato electró-
nico. Estos elementos pueden producirse en muchos formatos diferentes de archivo (.doc,
.jpg, .pp, .pdf, entre otros) y cualquier editorial puede limitar los formatos que acepte. La
mayoría de las tablas se crean con la herramienta para insertar tablas del programa de pro-
cesamiento de textos que se use para generar el manuscrito. Sin embargo, algunas veces las
tablas se cortan y pegan desde el texto generado por computadora (lo cual casi nunca se reco-
mienda) o pueden ser imágenes en formato PDF creadas a partir de imágenes escaneadas de
tablas elaboradas de otro modo. Cuando las tablas se elaboran con programas estándares
de procesamiento de textos, el texto puede convertirse directamente en archívos tipográfi-
cos, lo que disminuye la probabilidad de errores tipográficos. Generalmente las figuras se
presentan en formatos tan diversos como resulte necesario de acuerdo con las múltiples for-
mas en que pueden crearse. A menudo, figuras como las gráficas y los esquemas se producen
Qi al principio con un software de presentación como Microsoft PowerPoint. Por lo general,
"O
§ los elementos fotográficos se limitan a formatos de imagen específicos que permiten que la
UJ
e
QJ
imagen tenga una resolución clara en su aplicación impresa. Como regla general, las figuras
·O
·¡:;
ro se reproducen en la versión impresa de los artículos tal como el autor las entrega (siguiendo
N
·g cualquier cambio de tipo editorial que haya sido aprobado por el editor).
S
ro
e
·¡¡;
Para las editoriales que ofrezcan archivos complementarios en línea, distinga con sumo
ro
·c..
cuidado los materiales que aparecerán con el artículo de aquellos que se incluirán en el
8o archivo complementario en línea (ver sección 2.13). Debido al costo relativamente alto
o
LL de la reproducción a color, incluya ésta sólo cuando enriquezca de manera considerable la
o
E comprensión del material. Si la representación a color no es esencial para la comprensión
E
o inmediata, sí puede incluirla en línea como material complementario.
5.05 Numeración de tablas y figuras

Enumere todas las tablas y figuras con números arábigos en el orden en que se mencionan
en el texto, independientemente de si en un punto posterior del artículo se proporcione
107
f3() TABLAS
información más detallada de la tabla o figura. No utilice letras sufijas para enumerar las
tablas y figuras; es decir, desígnelas como Tabla 5, Tabla 6, Tabla 7 o Figura 5, Figura 6 y
Figura 7, en lugar de 5, 5a, y 5b. Si el manuscrito incluye un apéndice con tablas o figuras,
identifique dichos elementos con letras mayúsculas y números arábigos (p. ej., la Tabla Al
es la primera tabla del Apéndice A o de un solo apéndice que no haya sido designado con
una letra; la Figura C2 es la segunda figura del Apéndice C).
5.06 Permiso para reproducir visualizaciones de datos

Si usted reproduce o adapta una tabla, una figura, un cuestionario o una prueba de una
fuente protegida por derechos de autor, debe obtener un permiso por escrito del titular de
los derechos para reimprimirlos y reutilizarlos electrónicamente. Al pie de la tabla o figura
debe dar crédito al autor original y al titular de los derechos de autor. La protección de los
derechos de autor de varios instrumentos comerciales (p. ej., pruebas de inteligencia y medi-
ciones proyectivas) es muy estricta. Se requiere permiso, y éste podría serie negado, incluso
para reeditar un elemento de dichos instrumentos. Cualquier tabla (o figura) reproducida o
parte de ella debe estar acompañada por una nota en la parte inferior de la tabla reimpresa
(o al pie de la figura) que dé crédito al autor original y al titular de los derechos de autor
(ver sección 2.12 para revisar cómo redactar correctamente las notas al pie con información
sobre permisos de derechos de autor). Para obtener información más detallada sobre dere-
chos de autor y permisos, consulte la sección 6.1 O.
bias
Cuando diseñe las tablas que incluirá en el manuscrito, determine (a) los datos que los lecto-
res requerirán para comprender la explicación y (b) los datos necesarios para proporcionar
el "conjunto suficiente de estadísticas" (ver sección 4.44) que apoye el uso de los métodos
inferenciales empleados.
5.07 Concisión en las tablas

Limite el contenido de sus tablas a los materiales esenciales. Las tablas con elementos so-
brantes son menos efectivas que las tablas sucintas. El principio de la concisión es impor-
tante no sólo para las tablas del texto sino también para las tablas que se incluyan en los
archivos complementarios en línea. Aunque las tablas complementarias sean más extensas
y más detalladas que las tablas del texto, deben estar directa y claramente relacionadas con
el contenido del artículo (ver sección 2.13). Las tablas deben estar integradas al texto pero
·aeben estar diseñadas dé manera que puedan comprenderse por separado.
5.08 Presentación de las tablas

Los componentes básicos de una tabla prototípica se muestran en la tabla 5.1, incluyendo los
términos técnicos, la ubicación y la definición de cada elemento.
La presentación de la tabla debe ser lógica y fácil de entender para el lector. Las entra-
das de la tabla que se compararán deben estar una aliado de la otra. En general, de acuerdo
con este principio, diferentes índices (como medias, desviaciones estándar, tamaños de la
muestra, entre otros) deben dividirse en diferentes partes o líneas de las tablas. Coloque los
108
VISUALIZACIÓN DE RESULTADOS
letreros de las variables y las condiciones muy cerca de los valores de la variable para faci-
litar su comparación. La tabla 5.2 ilustra estos principios.
Todas las tablas están diseñadas para mostrar algo específico. Por ejemplo, las tablas que co-
munican datos cuantitativos son eficaces sólo cuando los datos están organizados de manera que
su significado sea obvio inmediatamente (Wainer, 1997). A menudo, los mismos datos pueden
estar organizados de maneras diferentes para enfatizar distintas características de los datos. En
la tabla 5 .3, los mismos datos de ponderación .de factores se visualizan de dos maneras distintas.
El primero ejemplo enfatiza la estructura factorial de las dos baterías de pruebas manteniendo
las subescalas de las baterías adyacentes una respecto a la otra. La segunda distribución de los
mismos datos resalta la naturaleza de los factores al agrupar las subescalas de las baterías de
pruebas de acuerdo con el patrón de las ponderaciones de factores. Elija la mejor distribu-
ción según sus propósitos.
Tabla 5.1. Componentes básicos de una tabla
Número de la tabla ·····)>-(Tabla X) . , ._ _._., 1

, ..
•:
Título de la tabla······ de niños con o sin prueba .··palabras
de cíudadanía paterna ••• de las columnas. .
Títulq'izquíerdo: ): . . .·
encabeza la coh.imná Niñas .
dei eXtremo izquierdti • •• Título.:fuénof.
.._Grado Con Sin Con Sin.,.. ... ·.
sola cofúmna
Subtí.tulo: · · .. · · · · · · · · .... · · .. · · · .. · Onda 1
encabeza el ancho [
completo del' 3 280 240 281 232
cuerpo de la tabla, ••.
4 297 251 290 264
lo que permite más :
divisiones 5 301 260 306 221
de intersección
ColuiP,niJ ízquierda: ubica Tota 1 878 751 877 717
eri el éxiremo izquierdo de la·. una'coíumna' .
tabla·
Onda 1 ...C:· ..
g 201 189 210 199 ...... ·
a¡
"O
e
:::J
214 194 236 210
m
Q)
e 221 216 239 21 3
·O
·u
ro
N
.§
"5
Total _ _ _ _ 599
' 636
..._ _ _ _ _ _685
_____
622 .que
ro
e
·¡¡;
de
ro
·a. Notas de la tabla: · · · · · > Nota: Las notas generales de una tabla aparecen aquí, la ·
8o hay tres tipos de incluyendo las definiciones de las abreviaturas (ver
o
u_ sección 5.16).
o
E a Una nota específica aparece en una línea aparte
{l dé debajo de cualquier nota general; las notas específicas
o
E eHmina.illl'S- subsecuentes se encuentran a renglón seguido (ver
§ del sección 5.16).
r:::
!ll cuerpo de la tabla
E * Una nota de probabilidad (valor p) aparece en una línea
ii:i aparte debajo de cualquier nota específica; las notas de
1
probabilidad subsecuentes se encuentran a reglón seguido
(ver la sección 5.16 para obtener más detalles).
@
109
TABLAS
5.09 Formato estándar

Algunas tablas de datos tienen ciertas formas estándar (canónicas). La ventaja de utilizar
la forma canónica que, por lo general, el lector sabe dónde buscar ciertos tipos de infor-
mación en la tabla. En determinadas situaciones, otro tipo de formato podría resultar más
adecuado que el de la tabla canónica para señalar un punto en específico o para remarcar
ciertas relaciones. El uso sensato de las formas no estándares puede ser adecuado, pero
siempre· debe estar motivado por las circunstancias especiales dictadas por la selección de
datos. Cuando utilice las formas no estándar, asegúrese de que los letreros sean muy claros
ya que la mayoría de. los lectores supondrán que se está utilizando la forma canónica. La
sección 5.18 incluye ejemplos de las tablas estándar para presentar varios tipos de datos.
Tabla 5.2. Modelo de presentación efectiva para una tabla

Tabla X
Proporción de errores en grupos de jóvenes y adultos
Jóvenes Adultos
Nivel de dificultad n M (DE) 95% IC n M (SO) 95% IC
Bajo 12 .05 (.08) [.02, .11] 18 .14 (.15) [.08, .22]

Moderado 15 .05 (.07) [.02, .10] 12 .17 (.15) [.08, .28]
Alto 16 .11 (.10) [.07, .17] 14 .26 (.21) [.15, .39]
Nota: IC= Intervalo de confianza
5. 1O Relación entre tablas y texto

las tablas en el texto. Una tabla informativa complementa, no duplica, el texto. En éste,
refiérase a cada tabla y diga al lector qué es lo que debe buscar. Aborde sólo los aspectos
destacados de la tabla. Si tiene que explicar cada elemento en el texto, dicha tabla es inne-
cesaria. Del mismo modo, si las tablas adicionales se incluirán en archivos complementarios
en línea, mencione brevemente su existencia en la versión impresa del artículo. Las tablas
designadas como materiales complementarios deben ir acompañadas de información sufi-
ciente para que se entiendan por separado (ver sección 2.13 ).
Citación de tablas. En el texto, refiérase a las tablas por sus números:
como se muestra en la tabla 8, las respuestas vienen de niños con entrenamiento
previo ...
No escriba '"la tabla que se muestra arriba (o abajo)" ni "la tabla de la página 32" debido
a que no puede determinarse la posición ni número de página de una tabla, hasta que las
páginas estén formadas.
5.11 Relación entre las tablas

Evite combinar tablas en las que se repitan datos. Por lo común, las columnas o filas idénti-
cas de datos no deben aparecer en dos o más tablas. Sea consistente en las formas de presen-
110
TEMA: Principios de psicometría
Mcmillan, J.H., Schumacher, S. (2005). Investigación educativa: Una

introducción conceptual. Madrid, Pearson Educación.
- Escalas de medición
- Relación estadística
- Distribución estadística
- Confiabilidad
- Validez
111
00 PRELIMINARES 22/3/10 11:10 Página III
5.a EDICIÓN
INVESTIGACIÓN EDUCATIVA
UNA INTRODUCCIÓN CONCEPTUAL
James H. McMillan
Sally Schumacher
Virginia Commonwealth University
Traducción
Joaquín Sánchez Baides
Ingeniero informático
Revisión técnica y adaptación

Pilar Sánchez López
Universidad de Almería
y
Consuelo Clemente Pita
Editora escolar
Madrid • México • Santafé de Bogotá • Buenos Aires • Caracas • Lima

Montevideo • San Juan • San José • Santiago • São Paulo • White Plains
112
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 180
180 INVESTIGACIÓN EDUCATIVA
llamada estadística de resumen) se usa para resumir, organizar y reducir grandes

cantidades de observaciones. Frecuentemente, la reducción da como resultado un
rango de números, que derivan de fórmulas matemáticas para representar todas
las observaciones sobre cada grupo de interés. La estadística descriptiva repre-
senta y se enfoca en qué es con respeto a los datos de muestra, por ejemplo:
«¿cuál es la nota media en lectura de los alumnos de quinto curso?, ¿cuántos pro-
fesores encuentran valioso su trabajo?, ¿qué porcentaje de estudiantes quiere ir a
la universidad? y ¿cuál es la relación entre el nivel socioeconómico de los niños
y la efectividad de los refuerzos simbólicos?». El uso de estadística descriptiva
es la forma más conveniente de resumir los datos y resulta indispensable para in-
terpretar los resultados de una investigación cuantitativa.
La estadística inferencial, por otro lado, se emplea para hacer deducciones o
predicciones sobre la similitud de una muestra con la población de la que se ha
extraído la muestra. La estadística inferencial se emplea con mucha frecuencia
para presentar datos, puesto que muchas cuestiones de investigación requieren la
estimación de las características de la población a partir de una muestra disponi-
ble de sujetos o comportamiento. El capítulo 9 trata con mucho detalle la función
y tipos de estadística inferencial. La estadística inferencial depende de la esta-
dística descriptiva. Por lo tanto, sin una comprensión completa de la estadística
descriptiva, la estadística inferencial tiene muy poco sentido. La figura 5.1 ilus-
tra la relación entre la estadística descriptiva y la inferencial. Muestra cómo po-
dría un investigador primero tomar una muestra de una población, emplear
estadística descriptiva para describir la muestra y, después, estadística inferen-
cial para estimar el valor verdadero de la puntuación del test para la población.
Hay muchos tipos de estadística descriptiva que los investigadores pueden
elegir para caracterizar un conjunto de datos. La opción depende, normalmente,
de dos factores: el tipo de escala de medida empleado y el propósito de la inves-
tigación. Habitualmente se indica la escala de medida y, como se describe en la
siguiente sección, existen técnicas estadísticas descriptivas que se corresponden
con cada escala. El propósito de la investigación o el tema de investigación de-
penden, en realidad, de un conocimiento de las diferentes técnicas estadísticas ya
que cada técnica ofrece información para dar respuesta a determinados tipos de
preguntas. Por ello, aquí presentamos cada una de las técnicas descriptivas con
ejemplos de los temas de investigación a los que van dirigidas.
Escalas de medida
Medir en educación implica, normalmente, la asignación de números a cosas
para diferenciar una cosa de otra. Sin embargo, a diferencia de la medida de fe-
nómenos físicos como el peso, la densidad o la longitud, los investigadores pue-
den usar números de maneras diferentes para la investigación de problemas.
113
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 181
Capítulo 5 ■ Estadística descriptiva 181
FIGURA 5.1: RELACIÓN DE ESTADÍSTICA DESCRIPTIVA E INFERENCIAL
Estadística Estadística
Población Muestra descriptiva inferencial
100.000 El investigador Usada para describir Basada en la estadística

alumnos de quinto curso muestrea al azar 1.000 la muestra. descriptiva para estimar las
realizan un test de puntuaciones de alumnos. puntuaciones de la población
rendimiento en matemáticas. completa de 100.000 alumnos.
Estas formas diferentes están basadas en cuatro propiedades de los números.

Las cuatro propiedades son: los números pueden ser distintos de otro (por ejem-
plo, 10 es diferente a 13; 0 es diferente a –5); los números están en relación con
otros (por ejemplo, 13 es mayor que 10; –3 menor que 0); los números pueden
relacionarse con cada uno de los otros en unidades identificadas (por ejemplo, 10
es cinco unidades de 2 y mayor que 5); y los números puede relacionarse pro-
porcionalmente (por ejemplo, 10 es el doble que 5; 25 es a 5 como 30 es a 6).
Estas propiedades, a su vez, determinan lo que los expertos en psicometría men-
cionan como escalas de medida o niveles de medida. Hay cuatro escalas de me-
dida: nominal, ordinal, intervalo y razón. Estos términos, a menudo, se emplean
para describir la naturaleza de la medida indicando, por ejemplo, que se usó una
«medida nominal» o «medición nominal».
Nominal. El primer y más rudimentario nivel de medida se llama nominal, ca-
tegórico o clasificatorio. La palabra nominal implica nombre, que describe lo
que consigue esta escala, una denominación de categorías de gente mutuamen-
te excluyentes, sucesos u otros fenómenos. Ejemplos comunes de niveles nomi-
nales incluyen la clasificación sobre la base de: color de ojos, género, afiliación
política y tipo de grupo de lectura. Los grupos reciben un nombre para poder ser
diferenciados, pero esto no supone ningún orden (un grupo no va antes o des-
pués que otro) y no hay indicación de la manera en que los grupos difieren unos
de otros. Los investigadores a menudo asignan cifras a los distintos grupos (por
ejemplo, sí = 1, no = 2, quizás = 3), pero esto es sólo para una codificación apro-
piada para el análisis de datos. Los datos nominales dan como resultado varia-
bles categóricas y los resultados se presentan como frecuencias en cada
categoría.
Ordinal. El segundo tipo de escala de medida se denomina ordinal y, como su
propio nombre indica, la medición de este tipo asume que las categorías de la va-
riable teóricamente pueden ser ordenadas por rango desde la mayor hasta la me-
nor. De esta forma, cada valor puede relacionarse con los demás como igual a,
114
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 182
mayor que, o menor que. En otras palabras, hay un orden inherente a las catego-
rías. Ejemplos de medición ordinal son la clasificación de los miembros de una
clase a través de la media de sus puntuaciones, la clasificación de ideas desde la
más importante hasta la menos importante y el uso de rangos percentiles en los
tests de rendimiento.
Intervalo. Las medidas de intervalo comparten las características de las escalas
ordinales y, además, indican intervalos iguales entre cada categoría. Las escalas
de intervalo dan significado a la diferencia entre números proporcionando una
unidad constante de medición. La diferencia o intervalo entre 5 y 6, por ejemplo,
es la misma que entre 18 y 19. Las puntuaciones percentiles asociadas a la cur-
va normal, por ejemplo, no son un intervalo porque la distancia entre puntos per-
centiles varía dependiendo de los percentiles comparados. Hay una diferencia
mayor entre los percentiles extremos (por ejemplo, 2 y 3 ó 95 y 96) que entre los
percentiles cercanos a la mitad de la distribución. Ejemplos de escalas de inter-
valo incluyen: temperaturas Fahrenheit y Celsius y la mayoría de los tests estan-
darizados.
Razón. Las escalas de razón representan el tipo más refinado de medición. Las
escalas de razón son ordinales y de intervalo y, además, los números pueden
compararse mediante razones: esto es, un número puede compararse significati-
vamente diciendo que es dos o tres veces otro número, o un medio o un cuarto
de otro número. Son ejemplos de mediciones en escala de razón la distancia al-
canzada, la fuerza expresada como peso levantado o las vueltas en una carrera.
Sin embargo, la mayoría de mediciones en la educación no se expresan en forma
de razón. Los educadores piensan en términos de menor que o mayor que, no en
múltiplos (por ejemplo, un estudiante es más cooperativo o menos cooperativo,
no el doble de cooperativo o la mitad de cooperativo).
Aunque no siempre es fácil identificar la escala de medida de algunas
variables, es importante distinguir entre el nivel nominal y otros «más altos».
El manejo de muchos de los procedimientos estadísticos más comunes, como
por ejemplo, la media y la varianza, requiere una escala de medida de interva-
lo o de razón, aunque una escala ordinal a menudo es aceptable. La elección
de otros procedimientos estadísticos más avanzados depende de si los datos
son nominales o están en los niveles más altos. Si, por ejemplo, un investiga-
dor quiere comparar los estudiantes pertenecientes a una minoría y los que
no, sobre la base de sus elecciones de carreras, los datos son nominales, y cier-
tos procedimientos estadísticos serían apropiados para analizar los datos.
Si, por otro lado, estos mismos estudiantes fueran comparados por su rendi-
miento o por sus actitudes hacia la escuela, sería apropiado un conjunto dife-
rente de procedimientos estadísticos porque la escala de los datos rendimiento
y actitud es ordinal o de intervalo. Estas diferencias se seguirán tratando en el
capítulo 9.
115
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 183
FIGURA 5.2: ESCALAS DE MEDIDA

Escala Características de la escala Ejemplos
Los números representan cantidades iguales Edad, dólares,

RAZÓN desde el cero absoluto. Las puntuaciones tiempo, velocidad,
pueden compararse como razón o porcentaje. tamaño de clase
Las diferencias iguales entre números Año (a-C.),

INTERVALO representan diferencias iguales º F, º C
en la variable o atributo que se mide.
Los números representan orden de clasificación Cualquier variable

ORDINAL de la variable que se mide. clasificada, percentiles,
clase social
Los números distinguen entre las categorías. Sexo, etnia,

NOMINAL Los números no representan cantidad o grado. partido político,
La asignación de números a los grupos es arbitraria. tipo de personalidad
Fuente: Glass, G. V., y Hopkins, K. D. (1996), Staticals Methods in Education ans Psychology (3ª ed.) Needham Heiights,
MA: Allyn y Bacon.
REPRESENTACIÓN GRÁFICA DE DATOS

Cuando se recogen los datos, las observaciones deben organizarse para que el
investigador pueda interpretar los resultados fácil y correctamente. Esta sección
presenta tres métodos comunes para representar datos grupales.
Distribución de frecuencia: un dibujo de un grupo

En la mayoría de los estudios hay muchas puntuaciones diferentes y si estas
puntuaciones se ordenan sin tener en cuenta sus valores, como en la tabla 5.1, es
difícil darle sentido a los datos. La organización más simple de las puntuaciones
sería listarlas de mayor a menor y crear lo que se llama una distribución por or-
den de importancia. La distribución por orden de importancia se transforma en
una distribución de frecuencia por la indicación del número de veces que se al-
canza cada puntuación, como se indica en la tabla 5.2.
También es frecuente combinar puntuaciones en intervalos de clase y contar
el número de puntuaciones en cada intervalo, como se indica en la tabla 5.3. Los
intervalos son especialmente útiles para los datos en los que algunos números son
iguales (como por ejemplo, la clasificación de estados por su renta per cápita).
Debido a que las distribuciones de frecuencia agrupadas sólo indican el número
116
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 184
total de puntuaciones dentro de cada intervalo, ocasionalmente se usa un gráfico

de tallo y hojas para mostrar las puntuaciones reales en el intervalo. Los «tallos»
son los intervalos de puntuación. Normalmente se listan verticalmente y para ca-
da uno se incluye una fila que muestra las puntuaciones.
TABLA 5.1: PUNTUACIONES DE EXAMEN DESORGANIZADAS

DE CINCUENTA ESTUDIANTES
47 37 41 50 45
39 49 44 43 40
42 43 42 46 40
44 45 47 45 45
36 45 46 48 44
42 48 40 43 37
46 45 45 44 42
43 43 42 43 41
44 45 42 44 36
44 38 44 46 42
TABLA 5.2: DISTRIBUCIÓN DE FRECUENCIAS DE LAS PUNTUACIONES EN TABLA 5.1

Puntuaciones en orden de importancia Cuentas Frecuencia (f)
50 1 1
49 1 1
48 11 2
47 11 2
46 1111 4
45 1111 111 8
44 1111 111 8
43 1111 1 6
42 1111 11 7
41 11 2
40 111 3
39 1 1
38 1 1
37 11 2
36 11 2
n = 50
117
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 185
Las distribuciones de frecuencias son muy útiles para responder muchas pre-
guntas importantes. Indican rápidamente las frecuencias mayor y menor de puntua-
ciones; la forma general de la distribución (por ejemplo, grupos de puntuaciones en
ciertos lugares o puntuaciones dispersas de un modo uniforme) y si algunas pun-
tuaciones están aisladas de las demás.
Histogramas y gráficos de barras

Los datos de frecuencia se muestran de forma más efectiva gráficamente. Un
tipo de ilustración utiliza columnas en un gráfico de dos dimensiones para re-
presentar la frecuencia de cada puntuación o intervalo. Esta forma de represen-
tar una distribución de frecuencia se llama histograma. Los datos de las tablas
5.1 y 5.2 se representan como un histograma en la figura 5.3. En este ejemplo, la
dimensión vertical del gráfico lista las frecuencias de las puntuaciones y la di-
mensión horizontal el orden de importancia de las puntuaciones de menor a ma-
yor. Las columnas se dibujan en el gráfico de forma que se correspondan con los
resultados. De la misma manera, el extracto 5.1 muestra cómo los histogramas
pueden describir los resultados de un artículo.
TABLA 5.3: DISTRIBUCIÓN DEL INTERVALO DE FRECUENCIA

DE LAS PUNTUACIONES DE LA TABLA 5.1
Intervalo Frecuencia (f)
48–50 4
45–47 14
42–44 21
39–41 6
36–38 5
n = 50
Un gráfico de barras se parece mucho a un histograma, con columnas que re-

presentan una imagen de los resultados. En un gráfico de barras, sin embargo, la
ordenación de las columnas es arbitraria, mientras que en un histograma hay un
orden de menor a mayor. Los gráficos de barras se usan, por tanto, con variables
nominales como, por ejemplo, género, estado, afiliación política y variables ca-
tegóricas similares que no tienen orden implícito. Se ilustra un gráfico de barras
en el extracto 5.2.
118
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 186
FIGURA 5.3: HISTOGRAMA DE PUNTUACIÓN A PARTIR DE LA TABLA 5.1
6
Frecuencia
5
(f)
35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51
Puntuaciones
Los histogramas son eficaces porque proporcionan una imagen fácilmente

comprensible de los resultados. Sin embargo, la imagen puede distorsionarse ma-
nipulando el espacio de los números a lo largo del eje vertical del gráfico. Los
intervalos entre las frecuencias de puntuación pueden variar y el tamaño de las
unidades que se utilizan puede cambiarse para dar diferentes imágenes. Por ejem-
plo, un investigador astuto puede hacer que una pequeña diferencia parezca gran-
de incrementando el espacio entre unidades de medida. Considere los dos
gráficos de la figura 5.4. Cada gráfico tiene los mismos datos, pero los resulta-
dos visuales son diferentes.
Polígonos de frecuencia
Otra forma de ilustrar una distribución de frecuencia es usar un polígono de fre-
cuencia. Un polígono de frecuencia es muy similar a un gráfico de barras excepto
que los puntos en vez de barras están dibujados y conectados por una línea. La fi-
gura 5.5 muestra nuestro ejemplo de datos en un polígono de frecuencia. Observe
que esta representación es muy similar a la figura 5.3.
Finalmente, también es útil representar gráficamente la distribución curvan-
do las líneas rectas de un polígono de frecuencia. La famosa curva normal, dis-
cutida más adelante en este capítulo, es un ejemplo del uso de esta técnica.
119
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 187
FIGURA 5.4: GRÁFICOS DE PUNTUACIONES DE LECTURA DE ALUMNOS DE PRIMER,

SEGUNDO Y TERCER CURSO
(a) (b)
70 54
53
60 52
51
50
50
40 49
48
30 47
46
primero segundo tercero primero segundo tercero
FIGURA 5.5: POLÍGONO DE FRECUENCIA DE PUNTUACIONES DE LA TABLA 5.1
6
Frecuencia
5
(f)
35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51
Puntuaciones
120
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 188
EXTRACTO 5.1
HISTOGRAMA
En la figura 1 se presenta un histograma de la distribución de las puntuaciones de re-

conocimiento de palabras. Los sujetos se dividieron en dos grupos. Aquéllos que aprendí-
an los sonidos en menos de 10 intentos se representan en blanco, aquéllos que necesitaban
10 o más intentos, en negro. A partir de esta figura, resulta evidente que hay poca coinci-
dencia entre los dos grupos de sujetos. Aquéllos con extenso repertorio de palabras escri-
tas aprendían los sonidos fácilmente. Los que tenían un repertorio pequeño, no.
FIGURA 1: Distribución de rápido y lento aprendices de sonidos en la tarea

de la identificación de palabra impresa en el experimento 1.
(PA 5 aprendizaje de pares asociados)
Tarea PA
10 Lento
Rápido
8
Número de sujetos
0
0 4.5 9.5 14.5 19.5 24.5 29.5
Palabras impresas
Fuente: Ehri, L. C. y Wilce, L. S., «The mnemonic value of orthography among begining readers», Journal of
Educational Psichology, 71, 26-40. Copyright «1979 de la American Psychological Association. Reimpreso con
permiso de Línea Carlson Ehri.
MEDIDAS DE TENDENCIA CENTRAL

Para la mayoría de conjuntos de datos, resulta útil tener alguna idea de la pun-
tuación u observación media o típica además de conocer la distribución de fre-
cuencia. Aunque la palabra media posee muchas connotaciones, en investigación
sólo la media hace referencia a la puntuación promedio. Otros dos índices, la me-
diana y la moda, también proporcionan información sobre puntuaciones típicas
de un grupo. Juntos, estos tres índices se denominan medidas de tendencia
121
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 189
central. Cada uno proporciona un índice numérico de la puntuación típica de una

distribución. (Se pueden encontrar los cálculos para éstos y otros estadísticos
descriptivos en el Apéndice B).
EXTRACTO 5.2
GRÁFICO DE BARRAS
Porcentaje de cambio en la matriculación en la escuela

pública de 9 a 12 años, por estado: el Nordeste, 1996 a 2000
50
40
30
Porcentaje
20
10
0
CT ME MA NH NJ NY PA RI VT
Fuente: Projections of Education Statistics to 2002, (1991), Washington, DC: National Center for Education
Statistics.
La media
La media (simbolizada por X o M) es simplemente la media aritmética de to-
das las puntuaciones. Se calcula sumando todas las puntuaciones y dividiendo la
suma entre el número de puntuaciones. Si, por ejemplo, tenemos una distribución
de 5, 8, 9 y 2, la media es 6 (5 + 8 + 9 + 2 = 24; 24/4 = 6). La media es la medida
de tendencia central más frecuentemente empleada porque se usan todas las pun-
tuaciones para su cálculo. La desventaja de la media es que cuando una distribu-
ción contiene puntuaciones extremadamente altas o bajas, las más atípicas de la
distribución, la media se desplaza hacia la puntuación extrema. Si, por ejemplo,
una distribución contiene las puntuaciones de 4, 5, 7 y 40, la media sería 14. Puesto
que en este caso la mayoría de las puntuaciones son considerablemente menores
que 14, la media es un poco engañosa con respecto a la tendencia central.
122
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 190
EXTRACTO 5.3
LA MEDIA
En la tabla 3 se presentan las medias para los tres periodos de recogida de datos.
Muestran un descenso en el número y porcentaje de elecciones de amistad interracial en
la clase de control entre el pretest y el postest y un incremento durante este periodo en
la clase experimental.
TABLA 3: Medidas de seguimiento sociométrico
Número medio de elecciones de amistad

Controla Experimentalb
Medida Pretest Postest Seguimiento Pretest Postest Seguimiento
Misma raza 5.95 6.37 7.35 4.00 3.77 4.00

Otra raza 2.65 1.58 .80 1.62 2.73 2.44
Porcentaje 30.8 19.9 9.8 28.8 37.2 37.9
a
n = 20. bn = 16.
Fuente: Slavin, R. E. (1979), «Effects of biracial leranings teamson cross-racial friendships», Journal of Educationa
Psychology, 71. Reimpreso con permiso del autor.
La media se emplea habitualmente cuando se presentan datos de investiga-

ción cuantitativa y es esencial para la interpretación de resultados en los que se
comparan unos grupos con otros. El extracto 5.3 ilustra el uso de la media en un
artículo.
La mediana
La mediana es ese punto que divide una distribución ordenada en mitades
que tienen un número igual de puntuaciones. Por esto, el cincuenta por ciento de
las puntuaciones está por debajo de la mediana y el otro cincuenta por ciento se
encuentra por encima de ésta. La mediana no está afectada por los valores reales
de las puntuaciones. Por ejemplo, la mediana del conjunto de puntuaciones 10,
15, 16, 19 y 105 es 16, debido a que la mitad de las puntuaciones están por en-
cima de 16 y la otra mitad por debajo. Dieciséis sería de esta manera un indica-
dor de tendencia central mejor que la media, que es 33. Si una distribución
contiene un número par de puntuaciones, la mediana es el punto medio entre las
dos puntuaciones centrales (por ejemplo, para las puntuaciones 2, 2, 4, 7, 8 y 12,
la mediana es 5,5).
123
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 191
La mediana se usa para describir datos que pueden tener puntuaciones extre-
mas, como por ejemplo el nivel de ingresos en los Estados Unidos. Las media-
nas también se emplean, a veces, para dividir un grupo de entrevistados en dos
grupos iguales. Un investigador puede, por ejemplo, obtener un indicador del
grado de éxito percibido por cada entrevistado en una escala de 7 puntos (éxito
extremo = 7, fracaso extremo = 1). Si el investigador quisiera dividir el grupo
de sujetos entre los que tienen una alta y baja percepción del éxito, puede utili-
zar la mediana. Este procedimiento se denomina división por la mediana. El ex-
tracto 5.4 muestra cómo puede utilizarse la mediana en la presentación de una
investigación.
EXTRACTO 5.4
LA MEDIANA
Una tendencia entre las familias que tiene claras implicaciones en las necesidades
educativas dentro de las comunidades urbanas es el descenso de los recursos financie-
ros que todas las familias están experimentando ahora, con un impacto incluso mayor
entre las familias urbanas de minoría étnica. El último informe de la mediana de ingre-
sos nacionales de familias blancas fue 18.370$, para hispanos 12.570$ y para negros
10.880$ (ACYF, 1980). Mientras el 16% de todos los niños está por debajo del
nivel de pobreza, un niño negro tiene 4 veces más posibilidades de estar por debajo
de este nivel, el 11% de los blancos y el 42% de los negros viven en la pobreza
(Edelman, 1980).
Las madres solteras tenían una mediana de ingresos que estaba muy por debajo del
total y de la que ganan las familias con dos padres; las madres negras tenían una me-
diana de ingreso que era sólo el 40% del de las familias con dos padres, las hispanas te-
nían el 39% y las madres blancas tenían el 38%. La menor proporción de madres blancas
se debe al hecho de que casi la mitad de las madres blancas no trabaja, a pesar del mar-
cado incremento del empleo urbano para blancos (ver tabla 1).
TABLA 1: Ingreso medio y porcentaje de grupos étnicos desempleados y

por debajo de la línea de la pobreza
Año Negros Hispanos Blancos

1977 Familia de marido y mujer 13,832 13,432 18,756
Madres solteras 5,598 5,247 8,799
1978 10,880 12,570 18,370
Fuente: Mc Adoo H. P., (1981), «Youth, school, and the family in transition», Urban Education, 16, 261-277. Copyright
1981 de Urban Education. Reimpreso con permiso de Sage Publications, Inc.
124
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 192
La moda
La moda es simplemente la puntuación que aparece más frecuentemente en
una distribución. La moda es un índice bruto de tendencia central y raramente se
utiliza en investigación educativa. Tiene utilidad sólo cuando interesa conocer la
puntuación u observación más frecuente o cuando los datos están en formato no-
minal. La palabra moda se utiliza, quizá más frecuentemente, para describir una
distribución indicando que la distribución es bimodal (dos modas) o trimodal
(tres modas). Estos términos se usan aun cuando sólo exista una moda pero exis-
ten, al menos, dos puntuaciones que tienen frecuencias definitivamente más al-
tas que el resto.
Relaciones entre las medidas de tendencia central

Mientras que una distribución de puntuaciones sea relativamente simétrica, la
media, la mediana y la moda serán aproximadamente iguales. En lo que se refiere
a una distribución normal, estos índices son exactamente los mismos. La dis-
tribución normal (ver figura 5.11 en la página 202) origina una curva simétrica
en forma de campana. La curva normal es la distribución teórica que se usa pa-
ra transformar datos y calcular muchas estadísticas. Aunque muchas variables
educativas (por ejemplo, numerosas cifras de puntuaciones de rendimiento) se
distribuyen siguiendo una curva normal, los datos de un estudio específico pue-
den disponerse desigualmente; esto es, las distribuciones son asimétricas y las
puntuaciones tienden a agruparse en un extremo de la distribución o en el otro.
Tales distribuciones se llaman asimétricas y con las distribuciones asimétricas la
elección de medidas de tendencia central se convierte en algo muy importante.
Las distribuciones tienen una asimetría positiva si la mayoría de las puntuacio-
nes se sitúa en el límite inferior de la distribución con pocas puntuaciones altas
y son negativamente asimétricas si la mayoría de las puntuaciones está loca-
lizada en el límite superior. Para recordar la diferencia entre asimetría positiva y
negativa, piense en la forma curvada de la distribución formando una flecha o un
puntero. Si forma una flecha que apunta en dirección positiva o hacia arriba, la
distribución es positivamente asimétrica y si es en dirección negativa o hacia aba-
jo, la distribución es negativamente asimétrica. Esto es, usando la mediana o la
moda como punto de referencia, la media es mayor en una distribución simétri-
ca positiva y menor en una distribución simétrica negativa. En realidad, se puede
considerar que la media es positiva o negativamente asimétrica en relación con la
mediana. En la figura 5.6 se ilustran distribuciones positiva y negativamente asi-
métricas con sus correspondientes medias, medianas y modas. Observe que la
media en cada distribución está más alejada de la cola de la distribución que la
mediana o la moda y que ésta última es la más lejana.
125
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 193
Para ilustrar con más detalle esta relación, considere el siguiente ejemplo.
Suponga que un profesor quiere presentar una puntuación media de lectura para
su clase. Tiene una puntuación de lectura de cada uno de los 20 alumnos, con un
rango entre 5 y 80. La distribución de puntuaciones se representa en la tabla 5.4.
FIGURA 5.6: DISTRIBUCIONES ASIMÉTRICAS
Positivamente asimétrica Negativamente asimétrica
0 Moda Mediana Media 100 0 Media Mediana Moda 100
TABLA 5.4: DISTRIBUCIÓN DE FRECUENCIAS DE PUNTUACIONES DE LECTURA

Puntuaciones (f)
5 8
10 4
12 2
15 2
80 4
n = 20
Si el profesor presenta el promedio como la media, sería 22,7. La mediana es

10 y la moda 5. ¿Cuál es correcta? Debido a unos pocos alumnos que puntuaron
muy bien (80), la distribución es positivamente asimétrica y, en consecuencia, la
mediana es probablemente el indicador simple más exacto. Sin embargo, en ta-
les casos, es probablemente mejor presentar la media para los alumnos que pun-
tuaron entre 5 y 15 (8,4) y presentar las cuatro puntuaciones más altas por
separado, o bien, presentar tanto la media como la mediana. Dado que en educa-
ción muchas distribuciones son por lo menos un poco asimétricas, a menudo, lo
mejor es presentar tanto la media como la mediana.
126
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 194
MEDIDAS DE VARIABILIDAD
La tendencia central sólo es un índice que se utilza para representar un grupo
de puntuaciones. Para proporcionar una descripción completa, se necesita una se-
gunda medida estadística. Esta estadística hace referencia a una medida de varia-
bilidad. Las medidas de variabilidad muestran cómo está de separada la
distribución de puntuaciones de la media de la distribución o cuánto, sobre el pro-
medio, las puntuaciones difieren de la media. Las medidas de variabilidad también
se denominan en términos generales medidas de dispersión o distribución.
La necesidad de las medidas de dispersión se ilustra en la figura 5.7. Esta fi-
gura muestra cómo dos aulas con la misma puntuación media pueden ser muy di-
ferentes. En la clase B los alumnos son más bien homogéneos, similares unos a
otros, con pocos alumnos con alto o bajo rendimiento. Sin embargo, en la clase
A, el profesor tiene un rango amplio de rendimiento, un grupo heterogéneo de
alumnos cuyas puntuaciones se distribuyen entre 55 y 100.
O suponga que una persona va a apostar un sábado a un partido de balonces-
to entre los Bombers y los Dunkers. La sección de deportes del periódico no tie-
ne la estadística de los jugadores individuales, pero el periodista deportivo dice
que los jugadores de ambos equipos tienen aproximadamente la misma altura: el
promedio de altura esté en 2,02 y 2,05 metros, respectivamente, para los
Bombers y los Dunkers. Con sólo la media como ayuda para tomar una decisión,
el apostante realiza una apuesta por los Dunkers. Cuando ve el programa con las
alturas de los jugadores, descubre una limitación de la media.
FIGURA 5.7: DISPERSIÓN DE PUNTUACIÓN
Clase A Clase B
(f) (f)
55 60 65 70 75 80 85 90 95 100 55 60 65 70 75 80 85 90 95 100
X = 83 X = 83
Puntuaciones de habilidad Puntuaciones de habilidad
127
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 195
Bombers Dunkers
Leary, defensa: 6’0” Regen, defensa: 6’5”
Burns, defensa: 6’3” Lambiotte, defensa: 6’6”
Parker, delantero: 6’5” Hambrick, delantero: 6’8”
Gallagher, delantero: 6’7” Lang, delantero: 6’9”
Robinson, central: 7’3” Wergin, central: 6’10”
_ _
X = 6’61⁄2” X = 6’71⁄2”
Como el juego de los Bombers consiste en sacar ventaja de la altura de

Robinson sobre la de Wergin para marcar, el apostante se da cuenta de que la me-
dia falla al informar sobre las características de la distribución. Los Dunkers tie-
nen una variabilidad pequeña, mientras los Bombers tienen una variabilidad alta,
por lo que ¡el apostante pierde la apuesta!
La variabilidad, por lo tanto, nos habla de la diferencia de la distribución en-
tre las puntuaciones Aun cuando podamos usar palabras como alto, bajo, gran-
de, pequeño y mucho para describir el grado de variabilidad, es necesario poseer
índices más precisos. Las dos medidas más comunes de variabilidad son el ran-
go y la desviación típica.
El rango
El rango es la medida de dispersión más obvia. Simplemente es la diferencia
entre las puntuaciones mayor y menor de la distribución. Si, por ejemplo, la me-
nor de las 30 puntuaciones en un test es 65 y la mayor 90, el rango sería 25 (90-
65 = 25). Debido a que sólo hay dos puntuaciones involucradas en el cálculo del
rango, es muy fácil obtenerlo. Sin embargo, también es una medida de dispersión
muy tosca y puede ser engañosa si hay una puntuación atípicamente alta o baja.
El rango falla también al dar indicaciones sobre la variabilidad de las puntuacio-
nes en torno a la media de la distribución. Algunas veces los investigadores usa-
rán el rango intercuartílico, que indica la dispersión entre la mitad intermedia de
las puntuaciones.
Desviación típica
La desviación típica es un índice numérico que indica la variabilidad prome-
dio de las puntuaciones. Nos habla, en otras palabras, sobre la distancia, sobre el
promedio, de las puntuaciones desde la media. Una distribución que tiene un
conjunto de puntuaciones relativamente heterogéneo que se separa ampliamente
de la media (por ejemplo, la clase A de la figura 5.7) tendrá una desviación típi-
128
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 196
ca más grande que un conjunto homogéneo de puntuaciones que se agrupan al-

rededor de la media (Clase B de la figura 5.7). El primer paso para calcular la
desviación típica (abreviada DT, σ [sigma], o s) es encontrar la distancia entre ca-
da puntuación y la media (ver figura 5.8), de esta forma determinamos la canti-
dad en que cada puntuación se desvía o difiere de la media. En un sentido, la
desviación típica simplemente es el promedio de todas las puntuaciones de des-
viación, la distancia promedio de las puntuaciones desde la media.
Luego, para cualquier conjunto de puntuaciones, puede calcularse la desviación
típica, que será única para la distribución e indica la cantidad, sobre el promedio, que
el conjunto de puntuaciones se desvía de la media. (El Apéndice C repasa los pasos
para calcular la desviación típica. Los pasos no son complicados). El acuerdo más
común al presentar la desviación típica es indicar que una desviación típica es igual
a algún número (por ejemplo, DT = 15.0; s = 3.40). Una desviación típica añadida o
suprimida a partir de la media tiene un significado especial; nos habla acerca de la
distancia a la que están de la media la mayoría, pero no todas, las puntuaciones. Por
ejemplo, el 68% de las puntuaciones estará dentro de la primera desviación típica en
una distribución normal. Esta propiedad de la desviación típica se ilustra en la figu-
ra 5.9, en que 1 DT = 5. Observe que a ambos lados de la media (15) hay una línea
que designa –1 DT y +1 DT. Las direcciones positiva y negativa desde la media son
equivalentes en unidades de puntuación (ambas – y +1 DT = 5 unidades) y entre –1
y +1 DT hay alrededor del 68% del número total de las puntuaciones en la distribu-
ción. Si asumimos que la distribución es normal, entonces el 50% de la puntuacio-
nes está por encima de la media y el 50% por debajo de ella. Ahora, ya que sabemos
que hay un número igual de puntuaciones en cada lado de la media, sabemos que el
34% de las puntuaciones debería estar entre la media y – o +1 DT, y si el 50% de las
puntuaciones está por debajo de la media y añadimos el 34% por ascenso de +1 DT,
entonces sabemos que alrededor del 84% de las puntuaciones de la distribución es-
tá por debajo de +1 DT. De forma similar, si sustraemos 34 de 50, sabemos que el
16% de las puntuaciones está por debajo de –1 DT.
FIGURA 5.8: ILUSTRACIÓN DE LA DISTANCIA DE CADA PUNTUACIÓN DESDE LA MEDIA
129
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 197
FIGURA 5.9: IRELACIÓN DE LA DESVIACIÓN TÍPICA CON EL RANGO PERCENTIL

EN UNA DISTRIBUCIÓN NORMAL
68%
de puntuaciones
34% 34%
de de
puntuaciones puntuaciones
10 15 20
15 – 5 = 10 15 + 5 = 20
X = 15
1 DT = 5
– 1 DT + 1 DT
Cuando indicamos que un cierto porcentaje de las puntuaciones está en o por

debajo de una puntuación particular, nos referimos al rango percentil de la pun-
tuación. Si, por ejemplo, una puntuación de 38 está en el percentil 87, significa
que el 87% de las puntuaciones son iguales o menores que 38. En otras palabras,
sólo el 12% de las puntuaciones son más altas que 38. Con distribuciones nor-
males +1 DT siempre está en el percentil 84 y –1 DT está en el percentil 16.
La interpretación de 1 DT siempre es la misma con respecto al porcentaje de
puntuaciones dentro de ciertos puntos de una distribución normal. Sin embargo,
debido a que las unidades numéricas que se usan para representar puntuaciones
cambian, la desviación típica puede equivaler a 15 en una distribución y .32 en
otra distribución. O, en una circunstancia con las mismas unidades numéricas
pero dos distribuciones diferentes, las desviaciones típicas serán únicas para
cada distribución. Esto es, una DT tiene un significado que es constante para
cualquier distribución independientemente del valor real de 1 DT para cada
distribución. Por ejemplo, en la figura 5.10 se ilustran dos distribuciones. La
distribución A tiene una desviación típica grande, la B una pequeña; una pun-
tuación de 65 en la distribución A tiene el mismo rango de percentil que 55 en
la distribución B.
130
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 198
FIGURA 5.10: COMPARACIÓN DE DISTRIBUCIONES CON DESVIACIONES

TÍPICAS DIFERENTES
5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
X = 50 , 1 DT para A = 15
X = 50 , 1 DT para B = 5
Además de la media, la desviación típica es una forma excelente para indicar

la naturaleza de la distribución en un conjunto de puntuaciones. En investigación,
habitualmente, se presenta la desviación típica junto con la media. Una medida
de dispersión relacionada con la desviación típica se denomina varianza de una
distribución (simbolizada como σ2 o s2; por esto, la desviación típica es igual a
la raíz cuadrada de la varianza). Sin embargo, el término varianza se emplea fre-
cuentemente como un término general en relación con la dispersión (por ejem-
plo, definiendo que la varianza es grande o pequeña) y raramente se presenta
como un número específico para indicar variabilidad.
En los extractos 5.5 y 5.6 hay ejemplos de la forma en que puede presentarse una
desviación típica. Las desviaciones típicas casi siempre se presentan junto a las me-
dias. En el extracto 5.5, para cada uno de los factores que se usan para calificar a los
alumnos, hay una media y una desviación típica para los profesores de secundaria,
una media y una desviación típica para los profesores de instituto y una media y una
desviación típica para la muestra total. Observe que los valores de la desviación tí-
pica varían de .76 a 1.32 mostrando diferentes grados de varianza. Las medias al fi-
nal de la escala están asociadas a desviaciones típicas más pequeñas. En las escalas
Likert, como por ejemplo ésta, son normales las desviaciones típicas cercanas a 1.
En el extracto 5.6, las desviaciones típicas están entre paréntesis.
131
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 199
EXTRACTO 5.5
DESVIACIÓN TÍPICA
TABLA 12: Medias y desviaciones típicas de los ítems de factores que se usan para
calificar las prácticas por profesores de secundaria1
Medio Alto Total

(N 5 630) (N 5 846) (N 5 1476)
Factores Media DT Media DT Media DT
Actuación disruptiva del alumno 1.5 .83 1.60 .91 1.56 .88
Mejorar desde el comienzo del año 2.86 1.14 2.83 1.12 2.85 1.13
Esfuerzo del estudiante –cuánto ha 3.31 1.13 3.16 1.10 3.23 1.11
intentado aprender
Niveles de capacidad de los alumnos 3.38 1.33 3.43 1.28 3.41 1.30
Hábitos de trabajo y limpieza 2.80 1.07 2.68 1.06 2.73 1.07
Finalización de deberes de casa 3.02 1.06 2.95 1.12 2.98 1.10
(sin calificar)
Calidad de los deberes completados 3.18 1.15 3.22 1.14 3.20 1.15
(calificada)
Rendimiento académico como 4.37 1.08 4.34 1.09 4.35 1.08
opuesto a otros factores
Rendimiento comparado con otros 2.06 1.13 2.23 1.18 2.16 1.17
alumnos de la clase
Rendimiento comparado con una 4.44 1.24 4.45 1.31 4.43 1.29
escala de porcentaje correcto
Objetivos de aprendizaje específico 4.38 .92 4.35 .91 4.37 .92
adquiridos
Grado en el que los alumnos prestan 3.12 1.11 3.20 1.12 3.17 1.12
atención y/o participan en clase
Inclusión de ceros determinando 3.61 1.29 3.90 1.32 3.77 1.12
el porcentaje correcto final.
Crédito extra por rendimiento 1.54 .86 1.49 .76 1.51 .80
no académico
Crédito extra por rendimiento 2.66 1.18 2.54 1.06 2.60 1.11
académico
1
Se usó una escala de seis puntos en la que 1 = no en absoluto y 6 = completamente
Fuente: McMillan, J. H. y Workman, D. (1998), Teachers’ Classroom assessment and Grading Practices, Richarmon,
VA: Metropolitan Educational Research Consortium y Virginia Commonwealth University.
132
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 200
Diagrama de caja (box-and-whisker plot)

El diagrama de caja se usa para dar una imagen de la variabilidad. Se forma
una «caja» por cada variable. El tamaño de esta caja rectangular se determina por
el primer y tercer cuartil de la distribución (del percentil 25 al 75). Los «bigotes»
son líneas que se dibujan desde los extremos del rectángulo hasta los percentiles
10 y 90. Algunas veces se incluyen puntos adicionales para mostrar puntuacio-
nes extremas altas o bajas. El diagrama de caja del extracto 5.7 muestra cómo se
compara el rendimiento de los estudiantes norteamericanos en matemáticas con
el rendimiento de los estudiantes japoneses. Preste atención a la gran variación
del rendimiento entre los estudiantes norteamericanos.
EXTRACTO 5.6
DESVIACIÓN TÍPICA
Medias y desviaciones típicas para todas las variables
Variables dependientes
Cualquier carrera de ciencias 4.40 (1.55)
Profesionales de ciencias físicas1 4.24 (1.79)
Profesionales de ciencias de la salud 4.56 (2.01)
Profesionales de servicios humanos 4.22 (1.77)
Variables independientes
Ciencia GPA2 3.66 (.48)
Apoyo de los amigos 5.69 (1.08)
Número de actividades de ciencias/matemáticas3 1.73 (1.32)
Número de actividades que no son de ciencias4 9.74 (3.67)
Percepciones de las madres sobre la capacidad 6.10 (1.05)
en ciencias del niño
Valoración de las madres de la ciencia para las mujeres 4.57 (1.04)
Interés de los adolescentes en biología 5.10 (1.43)
Interés de los adolescentes en ciencias físicas 4.75 (1.40)
1
El profesional incluye trabajos que precisan licenciaturas y grados avanzados. 2Rango = 1-4.
3
Rango = 0-5. 4Rango = 2-21.
Fuente: Jacobs, J. E., Finken, L. L., Griffin, N. L., y Wright, J. D. (1998), «The career plans of science-talented rural ado-
lescents girls», American Educational Research Journal, 35(4), 681-704.
Puntuaciones típicas
Puede observar que resulta engorroso analizar varias distribuciones si las me-
dias y las desviaciones típicas son diferentes para cada distribución. Para atenuar
este problema y facilitar la interpretación, las distribuciones de puntuaciones
133
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 201
directas se convierten en puntuaciones típicas. Las puntuaciones típicas tienen

un significado constante normativo y relativo. Son puntuaciones obtenidas a par-
tir de la media y la desviación típica de la distribución de puntuaciones directas.
Debido a que, como hemos visto, una distribución normal tiene ciertas propie-
dades que son útiles para comparar la puntuación de una persona con las de otras, en
la conversión a puntuaciones típicas normalizadas se pueden asumir las propiedades
de la curva normal. De esta manera, las distribuciones de puntuaciones directas con
diferentes medias y desviaciones típicas, que son difíciles de comparar, pueden
transformase en las mismas puntuaciones típicas y compararse fácilmente. Dado que
las puntuaciones típicas son transformaciones lineales, es concebible que una pe-
queña diferencia de puntuación directa se exagere cuando se convierte en puntuación
típica. Por ejemplo, el Scholastic Assessment Test1 tiene una puntuación típica media
de 500 y una desviación típica de 100, mientras que las puntuaciones directas son
mucho menores. Por esto, una diferencia de puntuación directa de 2 o 3 preguntas
puede resultar en una diferencia de puntuación típica de 10 o 20 «puntos».
EXTRACTO 5.7
DIAGRAMA DE CAJA
Dadas las diferencias de los patrones de dominio del álgebra entre estos tipos de cur-
so en Estados Unidos, ¿qué ocurre cuando el rendimiento de los estudiantes estadouni-
denses en álgebra se analiza separadamente según el tipo de curso? La figura 3
representa tal disgregación por las puntuaciones de un postest nivel-clase (ampliado pa-
ra incluir el postest paralelo de rendimiento para Japón) y muestra un patrón específico.
100
80
60
Porcentaje
correcto
40
20
0
Álgebra enriquecido típico compensatorio
Tipos de cursos de Estados Unidos Japón
(continúa)
1
(Nota del revisor: examen de evaluación académica, también conocido como SAT. Constituye el
estándar de las pruebas de admisión que suelen solicitar los colleges y universidades en EEUU).
134
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 202
(continuación)
FIGURA 3. Estados Unidos y Japón: postest de rendimiento en álgebra entre la población A (Nota: en
las cajas como las que encontramos en las figuras 3, 4 y 5, la longitud de la caja, el rectángulo limita-
do por las «bisagras», representa la proporción de la distribución que cae entre los percentiles 25 y
75. La línea que atraviesa la caja representa la mediana. La longitud de los «bigotes» representa el mí-
nimo y el máximo o el valor exterior adyacente,
1.5 = (percentil75 – percentil25),
Si esto es menos que el mínimo y el máximo. El * y el • representan los valores extremos.
Fuente: Westburry, I. (1992), «Comparing American and Japonese achievement: Is the United Status really a low
achievemenr?», Educational Researcher, 2 (15), 18-24.
FIGURA 5.11: CURVA NORMAL, DESVIACIONES TÍPICAS, PERCENTILES

Y PUNTUACIONES TÍPICAS SELECCIONADAS
Porcentaje de
casos bajo
porciones de
la curva normal
0.13% 2.14% 2.14% 0.13%
Desviaciones 13.59% 34.13% 34.13% 13.59%

típicas –4σ –3σ –2σ –1σ 0 +1σ +2σ +3σ +4σ
Porcentajes 0.1% 2.3% 15.9% 50.0% 84.1% 97.7% 99.9%

acumulados 2% 16% 50% 84% 98%
ajustados
Percentiles
1 5 10 20 30 40 50 60 70 80 90 95 99
equivalentes
Q1 Md Q3
Puntuaciones z
–4.0 –3.0 –2.0 –1.0 0 +1.0 +2.0 +3.0 +4.0
Puntuaciones T
20 30 40 50 60 70 80
Puntuaciones
CEEB 200 300 400 500 600 700 800
(College Entrance Examination Board, examen de admisión a la Universidad)
Puntuaciones
ECN 1 10 20 30 40 50 60 70 80 90 99
Estaninos 1 2 3 4 5 6 7 8 9
Porcentaje en estaninos 4% 7% 12% 17% 20% 17% 12% 7% 4%
Fuente: Seashore, Harold G. (1980), «Methos of expressing test scores», en Test Service Notebook 148. New York: The
Psychological Corporation.
135
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 203
La puntuación z es la puntuación típica más básica, con una media de 0 y una

desviación típica de 1. De esta forma, una puntuación z de +1 está en el percen-
til 84 para una distribución normal, –1 en el percentil 16 y –2 se encuentra en el
percentil 2. Otras puntuaciones típicas son transformaciones lineales de la pun-
tuación z, con medias y desviaciones típicas seleccionadas arbitrariamente. Es
decir, es posible elegir cualquier media y cualquier desviación típica. Por ejem-
plo, la mayoría de los tests de CI usan 100 como media y de 15 a 16 como des-
viación típica. La puntuación CI resultante es una puntuación típica (el coeficiente
CI, edad mental dividida entre edad cronológica x 100, hoy en día es raro que se
use). La figura 5.11 muestra una distribución normal, la desviación típica, per-
centiles y algunas puntuaciones típicas comunes.
MEDIDAS DE RELACIÓN
Hasta este punto hemos discutido la estadística descriptiva que se utiliza pa-
ra resumir o dar una imagen de grupos sobre una variable cada vez. Sin embar-
go, existen muchas cuestiones de interés que dependen de la forma en que dos
o más variables se relacionan entre sí. ¿Están más motivados los alumnos más
brillantes? Si incrementamos la frecuencia del refuerzo, ¿aumentará también el
comportamiento diana o reforzado? ¿Existe una relación entre la autoestima y
el rendimiento? Si los alumnos aumentan su esfuerzo al estudiar, ¿se sentirán
más satisfechos de su rendimiento? En cada caso, se miden dos variables para
cada sujeto del grupo.
Diagrama de dispersión
La medida más fundamental de relación se llama diagrama de dispersión. El
diagrama de dispersión es un gráfico de representación de la relación, que se
logra al presentar visualmente la intersección de las puntuaciones de cada sujeto
en las dos variables. Como se muestra en la figura 5.12, una variable se ordena
en el eje horizontal (por ejemplo, edad) y la segunda variable se ordena en el eje
vertical (peso). Las puntuaciones de cada sujeto se indican al lado del gráfico en
orden aleatorio y las intersecciones se indican con la letra asignada a cada suje-
to. Todas las intersecciones juntas, forman un patrón que proporciona una indi-
cación general de la naturaleza de la relación. Obviamente, cuando los niños
crecen, sus pesos se incrementan y en estos casos la relación se denomina posi-
tiva o directa. De este modo, en una relación positiva el aumento del valor de
una variable va acompañado del incremento del valor en la segunda variable.
Recíprocamente, cuando el valor de una variable disminuye, el valor de la otra
variable también lo hace.
136
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 204
FIGURA 5.12: DIAGRAMA DE DISPERSIÓN
100 C
90 H
80 Sujeto Edad Peso

G
Ryann (A) 7 70
70 A
Jessica (B) 4 50
Peso (libras)
Amanda (C) 9 100

60 Meghan (D) 3 25
E Katie (E) 5 55
50 B Cristina (F) 4 40
Emma (G) 6 75
40 F Jan (H) 10 90
Helen (I) 10 25
30
D I
20
2 3 4 5 6 7 8 9 10
Edad (años)
Los diagramas de dispersión son útiles para la identificación de puntuaciones que

son muy atípicas (puntuaciones extremas, también conocidas como outliers) compa-
radas con el patrón global. Por ejemplo, en la figura 5.12, Hellen tiene 10 años y un
peso de 25 libras, lo que es bastante diferente de lo que se presenta entre los puntos
A y H. En tales casos, el investigador podría buscar errores en la puntuación, medi-
da o registro de los datos, debido a que las puntuaciones extremas son insólitas. Los
diagramas de dispersión también proporcionan un primer indicio de si la relación es
lineal o curvilínea (ver figura 5.13). (La propuesta más común en las relaciones grá-
ficas es usar puntos, no círculos, en las intersecciones dentro del gráfico.)
En los diagramas de dispersión pueden aparecer varios tipos diferentes de pa-
trones. Cuando una variable disminuye y la otra aumenta (por ejemplo, la cantidad
de kilómetros de un neumático y la profundidad de la huella que le queda), existe
una relación negativa o inversa. Si no hay un patrón en todo el gráfico, entonces
no existe relación. La figura 5.13 muestra diferentes diagramas de dispersión.
Observe la relación curvilínea en la figura 5.13 (d). Las relaciones curvilíneas no
son infrecuentes, pero normalmente sólo se detectan dibujando los puntos. Un
ejemplo de una relación curvilínea puede ser el nivel de ansiedad durante la reali-
zación de un test. El comportamiento podría ser a menudo bajo durante niveles de
ansiedad altos como bajos y altos para niveles medios de ansiedad.
137
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 205
FIGURA 5.13: DIAGRAMAS DE DISPERSIÓN DE RELACIONES
(a) Relación positiva (b) Relación negativa

Alto Alto
Variable Y
Bajo Variable Y Bajo

Bajo Alto Bajo Alto
Variable X Variable X
(c) Sin Relación (d) Relación curvilínea

Alto Alto
Variable Y
Variable Y
Bajo Bajo
Bajo Alto Bajo Alto
Variable X Variable X
Por lo tanto, la dirección del patrón en el diagrama de dispersión indica si

existe una relación y si ésta es positiva, negativa o curvilínea. Si dibujamos una
línea a través de los puntos para minimizar la distancia de cada punto a la línea,
entonces, el grado de agrupación alrededor de la línea indica la fuerza de la re-
lación. Los puntos que están más dispersos tienen una relación débil, mientras
que los puntos agrupados cerca de la línea indican una relación alta o fuerte. La
fuerza de la relación es independiente de su dirección. Puntos agrupados tan es-
trechamente que forman una línea recta representan una relación perfecta (máxi-
ma fuerza). De este modo, las correlaciones indican tres cosas: si existe una
relación, la dirección de la relación y la fuerza de la relación.
138
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 206
Coeficiente de correlación2
Aun cuando los diagramas de dispersión son herramientas indispensables pa-
ra la evaluación de la relación entre dos variables, los investigadores muy rara
vez presentan este tipo de gráficos en los artículos publicados. El acuerdo más
común es calcular un número para representar la relación, denominado coefi-
ciente de correlación. Hay muchos tipos de coeficientes de correlación y la elec-
ción de uno u otro se determina por la escala usada en la recogida de datos y la
pregunta de investigación. Sin embargo, la interpretación del número elegido, bá-
sicamente es la misma. El número que representa la correlación puede ir de –1.00
a +1.00. Un valor positivo alto (por ejemplo, .85, .90, .96) representa una rela-
ción positiva alta; un valor positivo bajo (.15, .20, .08) una relación positiva ba-
ja; un valor negativo moderado (por ejemplo, –0.40, –0.37, –0.52) una relación
negativa moderada, un valor de 0 que no hay relación y así sucesivamente. De es-
ta manera, la fuerza de la relación es mayor cuando la correlación se aproxima a
+1 o –1 desde 0. Esto se ilustra en la figura 5.14. Observe que la fuerza de la re-
lación es independiente de la dirección.
FIGURA 5.14: RELACIÓN DE FUERZA Y DIRECCIÓN DE LAS CORRELACIONES
–.5 +.5
Coeficiente de correlación –1 0 +1
Fuerza de la relación: alta moderada baja baja moderada alta
Dirección: negativa positiva
La correlación técnica más común de es el coeficiente de correlación de pro-

ducto-momento de Pearson (representado por r), y la correlación se indica por
r = .65, r = .78, r = .03, etc. (Observe que no existe un signo más delante de los
valores positivos, debido a que hay un signo negativo delante de los valores ne-
gativos). El cociente de correlación de producto-momento se utiliza cuando am-
bas variables usan escalas continuas, como por ejemplo, puntuaciones de tests de
rendimiento, la nota media, los inventarios de autoestima y la edad. Ya que las
2
Esta presentación se limita a la correlación simple. Los procedimientos correlacionales más
avanzados, como por ejemplo correlación múltiple, correlación parcial, análisis de función discrimi-
nante y correlación canónica, se basan en estos principios para examinar las relaciones combinadas de
diversas variables.
139
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 207
puntuaciones pueden ser presentadas también de forma dicotómica, en distintas

categorías o rangos, se usan para medir la relación otras técnicas de correlación
dependiendo de la escala empleada para medir las variables. Algunas de estas
técnicas se resumen en la tabla 5.5.
Los extractos 5.8 y 5.9 muestran cómo presentar datos correlacionales. En el ex-
tracto 5.7, aparece una lista de todas las correlaciones de interés en el estudio. En el
extracto 5.8 hay una matriz de correlaciones, en la que muchas variables se corre-
lacionan entre sí. Los números en una fila al principio de la tabla se corresponden
con las variables que están listadas verticalmente a la izquierda. La correlación en-
tre el rechazo de los profesores y las críticas hacia su motivación es –.54; la corre-
lación del compromiso con las expectativas a largo plazo de los profesores es .44.
En el capítulo 7 comentaremos los principales principios de la interpretación
de los coeficientes de correlación.
TABLA 5.5: TIPOS DE COEFICIENTES DE CORRELACIÓN

Tipo de coeficiente Símbolo Tipos de variables
Producto-momento Pearson r Ambas continuas
Spearman rs Ambas ordinales
Biserial rb Una continua, otra dicotomizada
artificialmente
r
Biserial puntual pb Una continua, otra dicotómica
Tetacórica rt Ambas dicotomizadas artificialmente
Coeficiente Fi φ Ambas dicotómicas
Coeficientes de contingencia C Ambas con 2 o más categorías
Razón de correlación, eta Ambas continuas (usadas en relaciones
curvilíneas)
EXTRACTO 5.8
CORRELACIÓN PRODUCTO-MOMENTO DE PEARSON
Se calcularon correlaciones producto-momento de Pearson entre todas las variables

demográficas (por ejemplo, porcentaje de blancos, bajos ingresos, tasa de asistencia,
porcentaje de movilidad, tasa de abandono de alumnos de instituto, graduación en el
instituto, tamaño medio de la clase, años de experiencia de los profesores, ratio alum-
no-profesor, salario medio del profesor, gasto medio por alumno) y las puntuaciones
(continúa)
140
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 208
(continuación)
de rendimiento (por ejemplo, puntuaciones en lectura y matemáticas). Las correlacio-

nes de 1994 (ver tabla 2) fueron similares en los cursos y asignaturas con los datos
de 1994.
Para resumir, detectamos relaciones estadísticamente significativas (o asociaciones)
entre las variables demográficas escolares y las puntuaciones de rendimiento. Las rela-
ciones más fuertes afectaban a las siguientes variables: ingresos bajos, porcentaje de
blancos, graduación en el instituto y abandono de alumnos de instituto. Existían rela-
ciones moderadas para la asistencia, movilidad y tasa profesor-alumno en el instituto.
Las relaciones más débiles afectaban al tamaño medio de la clase, la ratio profesor-
alumno en primaria, el salario del profesor, la experiencia del profesor y el gasto por
alumno.
TABLA 2: Correlaciones de medidas de actitud con puntuaciones de rendimiento
3er curso 10º curso
Variable Lectura Matemáticas Lectura Matemáticas
Porcentaje de blancos .78 .66 .75 .67

Ingresos bajos —.79 —.72 —.79 —.75
Asistencia .59 .53 .82 .72
Movilidad —.52 —.46 —.54 —.49
Abandono — — —.69 —.61
Graduación Instituto — — .76 .69
Tamaño medio de clase, —.09** —.06** — —
3 curso
Tamaño medio de clase, — — —.18 —.11**
Instituto
Experiencia del profesor —.14 —.13 —.05 .00
Tasa profesor-alumno primaria —.26 —.22 —.32 —.24
Tasa profesor-alumno instituto — — —.32 —.24
Salario del profesor —.20 —.08 —.05 .07
Gasto por alumno —.31 —.19 .10* —.01
Nota: 3er curso, n = 2,307; 10º curso, n = 644. Las correlaciones son estadísticamente significativas en el nivel .001 a
menos que se señale otra cosa.
*p < .05. **p < .01.
Fuente: Sutton, A., y Soderstrom, I. (1999), «Predicting elementary ans secondary school achievement with school-
related and demographic factors», Journal of Educational Research, 92 (6), 330-338.
141
www.FreeLibros.me
05 Capítulo 05 22/3/10 11:31 Página 209
EXTRACTO 5.9
MATRIZ DE CORRELACIÓN
En la tabla 2 se describen las correlaciones de orden cero entre las variables de contex-
to motivador y los signos de alienación. Todas las correlaciones estaban en la dirección es-
perada. Los problemas disciplinarios de los alumnos estaban fuertemente relacionados con
sus informes sobre el desinterés y la crítica y expectativas de los profesores. La relación más
fuerte encontrada ocurría entre las percepciones de los alumnos de las expectativas de los
profesores y el compromiso de los alumnos. Las aspiraciones académicas de los compañe-
ros y sus percepciones de las limitaciones económicas de la educación estaban relacionadas
tanto con los problemas de disciplina como con el compromiso.
TABLA 2: Correlaciones de orden-cero entre las variables de contexto motivador

y los índices de alineación
Variables
de contexto motivador 1 2 3 4 5 6 7 8 9 10
1. Desinterés y crítica —
de los profesores
2. Motivación de los —.54*** —
profesores
3. Expectativas a largo —.39*** .34*** —
plazo de los profesores
4. Aspiraciones —.21*** .13** .36*** —
académicas del grupo
5. Resistencia .27*** —.09 —.22*** —.47*** —
a las normas
del colegio
de los compañeros
6. Apoyo académico —.32*** .31*** .29*** .47*** —.44*** —
del grupo
7. Limitaciones .38*** —.24*** —.35*** —.38***.27*** —.25*** —
económicas
de la educación
8. Beneficios económicos —.12* .21*** .32*** .32*** —.12* .21*** —.36*** —
de la educación
Índices de alienación
9. Problemas —.35*** .15** —.36*** —.26*** .17** —.21*** .29*** —.11** —
de disciplina
10. Compromiso —.16** .04 .44*** .27*** —.14** .19*** —.22*** .11** —.47*** —
*p < .05. **p < .01. ***p < .001.
Fuente: Murdock, T. B. (1999), «The social context of risk: Status and motivational predictors of alienation in middle
school», Journal of Educational Psychology, 91 (1), 62-75.
142
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 215
Capítulo 6 ■ Técnicas de recogida de datos cuantitativos 215
como por el diseño de investigación. Una vez que el propósito y las limitaciones
de la investigación están claros, se elige una técnica determinada que se ajuste al
diseño de investigación. No siempre una técnica sencilla es la mejor, la más fá-
cil o la más conveniente.
FUNDAMENTOS DE MEDICIÓN CUANTITATIVA:

ADECUACIÓN TÉCNICA
La medición cuantitativa precisa algún tipo de procedimiento o dispositivo
para obtener índices numéricos que se corresponden con las características de los
sujetos. Luego, los valores numéricos se resumen y se presentan como los resul-
tados del estudio. Consecuentemente, los resultados dependen en gran medida de
la calidad de la medición. Si la medida es débil o sesgada, entonces así serán los
resultados. Por el contrario, medidas fuertes, incrementan la confianza de que los
hallazgos son exactos. Por ello, es imperativo, entender lo qué hace una medición
«fuerte» o «débil». Si necesita elegir pruebas para dirigir un estudio o para eva-
luar los resultados, es necesario entender cómo afectan a la calidad de la medi-
da. En esta sección se argumentan dos conceptos técnicos de medición, validez
y fiabilidad, como criterios importantes a la hora de determinar la calidad.
Validez
Como se indicó en el capítulo 4, la validez de un test es el grado en qué las
deducciones realizadas sobre la base de puntuaciones numéricas resultan apro-
piadas, significativas y útiles. Validez es un juicio sobre la idoneidad de una me-
dida para las conclusiones o decisiones específicas que son resultado de las
puntuaciones generadas. En otras palabras, la validez es un concepto específico
de situación: la validez se evalúa dependiendo de la finalidad, de la población y
de las características ambientales en las que se realiza la medición. Por lo tanto,
el resultado de un test puede resultar válido en una situación e inválido en otra.
Consecuentemente, para asegurar a los demás que el proceso tiene validez con
relación a los problemas de investigación, los sujetos y el entorno del estudio, es
procedimientos que se utilizaron para recoger los datos.
Esta conceptualización de la validez del test implica mucho más que deter-
minar, simplemente, si un test «mide lo qué se supone que tiene que medir».
Precisiones recientes realizadas por expertos en medición, además de lo que se
define en Standards for Educational and Psychological Testing (1985; 2000),
dan a entender claramente lo que es una inferencia, empleo, o consecuencia que
es válida o inválida, no un test. Por ejemplo:
143
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 216
La validez se refiere a la idoneidad, significatividad y utilidad de las

inferencias específicas realizadas a partir de las puntuaciones del test
(Standards, 1985, p. 9).
La validez se refiere al grado en que una evidencia y teoría dan soporte
a las interpretaciones de las puntuaciones del test que conllevan los usos
específicos de los tests. (Standards, 2000, p. 9).
[Validez es] un juicio evaluativo integrado del grado en el que una evi-
dencia empírica y las bases lógicas teóricas dan soporte a la adecuación
e idoneidad de las deducciones y acciones basadas en las puntuaciones
del test u otros modos de diagnóstico (Messick, 1989, p. 13).
Luego, para asegurar la validez, el investigador necesita identificar suposicio-
nes o encontrar argumentos para justificar una deducción o emplearlos para un pro-
pósito específico, (por ejemplo, concluir que los estudiantes de un grupo poseen
mayores conocimientos o tienen una autoestima más alta que los estudiantes de
otro grupo) y luego, reunir pruebas para dar soporte a esas suposiciones (Shepard,
1993). Este énfasis es compatible con la idea de que la validez es un concepto sin-
gular, unitario, que requiere evidencia para el uso específico que se ha menciona-
do. De esto se deduce que un test puede ser no válido o inválido en sí mismo porque
el mismo test puede utilizarse para objetivos diferentes. Por ejemplo, un test para
el ingreso en la universidad puede llevar a deducciones válidas sobre el comporta-
miento futuro de un estudiante como estudiante de licenciatura, pero, no a deduc-
ciones inválidas sobre la calidad del programa del instituto.
En la investigación educativa se utilizan, esencialmente, dos tipos de inferen-
cias. La primera está relacionada con la valoración de los logros, que depende
principalmente de cómo el contenido de un test u otra evaluación representa un
muy extenso campo de acción de contenidos o tareas. Para este tipo de inferencia,
la evidencia basada en el contenido del asesoramiento, es necesario apoyar las in-
ferencias que se establecen. Un segundo tipo de inferencia que es, incluso, más
común en investigación educativa, se refiere a los rasgos o características que son
más abstractos que el contenido claramente definido. Estos rasgos o característi-
cas, a menudo, se denominan constructos, e incluyen, por ejemplo, inteligencia,
creatividad, comprensión lectora, actitudes, razonamiento y autoestima.
Cuando las inferencias implican estos constructos, es importante tener una
conceptualización teórica clara de lo qué se está midiendo y la evidencia de que
no existe una hipótesis contraria factible que modifique la interpretación desea-
da. Pueden considerarse dos tipos de hipótesis contrarias, constructo infraesti-
mado y varianza residual del constructo. El constructo infraestimado acontece
si el asesoramiento falla al capturar aspectos importantes del constructo. Por
ejemplo, si la medida de la autoestima no incluía cuestiones sobre aspectos so-
ciales ni académicos, mediría menos que el constructo «autoestima» propuesto.
144
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 217
La varianza residual del constructo se refiere al grado en el qué una medida in-
cluye material o factores que resultan extraños al constructo previsto. Un ejem-
plo de este tipo de factor sería la medición del razonamiento matemático con
problemas de narraciones. Como es necesaria la comprensión lectora para en-
tender los problemas, esta capacidad es tan importante como el razonamiento
matemático para el éxito. De este modo, la medida está influenciada, en cierta
medida, por factores que no forman parte del constructo.
Si la inferencia implicada en la investigación es un contenido primario o cons-
tructo, existen cinco tipos principales de evidencia que pueden usarse tanto para
apoyar las interpretaciones previstas como para eliminar cualquier hipótesis con-
traria sobre lo que se está midiendo: la evidencia basada en el contenido, en los
procesos de respuesta, en la estructura interna, en las relaciones con otras varia-
bles y en las consecuencias. Consideraremos las cuatro primeras, que poseen ma-
yor relevancia para la investigación.
La evidencia basada en el contenido del test. En general, la evidencia basada
en el contenido del test demuestra el grado en que la muestra de ítems o cuestio-
nes de la prueba es representativo de algún universo apropiado o ámbito de conte-
nidos o tareas. Este tipo de evidencia se acumula, por lo general, por expertos que
examinan los contenidos de la prueba e indican la escala con la que miden objeti-
vos o criterios predeterminados. Los expertos también juzgan la criticidad relativa
o importancia de las diversas partes de la prueba. Por ejemplo, para aumentar la
evidencia de un test de conocimiento sobre profesores eventuales, es necesario te-
ner expertos que examinen los ítems y juzguen su representatividad (por ejemplo,
¿es representativa una pregunta sobre Piaget de lo qué se necesita conocer sobre el
desarrollo del niño?) y si el porcentaje del test dedicado a los diferentes asuntos es
apropiado (por ejemplo, 20% del test se refiere a la gestión del aula, pero puede ser
que debería ser un 40%). La evidencia basada en el contenido del test es esencial
para tests de rendimiento. Además, el ámbito o universo que se representa debería
ser apropiado al empleo que se pretende dar a los resultados.
Desafortunadamente, la validez de la evidencia basada en el contenido del test no
se presenta en los artículos de investigación, porque normalmente no hay un esfuer-
zo para obtener tal evidencia a partir de las pruebas diseñadas de forma limitada.
Cuando se recurre a pruebas estandarizadas, es importante referirse a investigacio-
nes previas, a revisiones del procedimiento utilizado o a manuales técnicos.
La evidencia basada en el contenido es similar a la validez aparente, pero la
validez aparente es una estimación menos sistemática entre la medida y el ámbi-
to más extenso. La validez aparente es un juicio en el que los ítems parecen ser
relevantes, mientas que la validez de la evidencia del contenido establece la rela-
ción de forma empírica.
La evidencia basada en los procesos de respuesta. La evidencia basada en los
procesos de respuesta se centra en un análisis de las estrategias de ejecución o
145
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 218
de las respuestas a tareas específicas, y si estas estrategias y respuestas concuer-

dan con lo que se pretende medir. Por ejemplo, si los estudiantes deben conocer
un razonamiento matemático, entonces sería posible preguntarles acerca de su
manera de pensar en relación con la resolución de problemas para aplicar este ra-
zonamiento, y no se recurre a la aplicación maquinal de un algoritmo. De forma
similar, se puede solicitar a los observadores o jueces que indiquen los criterios
que han utilizado para sus juicios con el fin de estar seguros que se han aplicado
los criterios apropiados.
La evidencia basada en la estructura interna. La estructura interna de un ins-
trumento o prueba se refiere a la relación que mantienen los ítems entre sí y cómo
se relacionan las diferentes partes de una prueba. La evidencia basada en la es-
tructura interna se proporciona cuando las relaciones entre los ítems y entre las
partes de la prueba son compatibles, experimentalmente, con la teoría o el empleo
deseado de las puntuaciones. De este modo, si una medida de autoestima postula
varios «tipos» de autoestima (por ejemplo, académica, social, atlética), entonces
los ítems de medición del componente académico deberían estar fuertemente rela-
cionados entre sí y no tan fuertemente relacionados con los otros componentes.
La evidencia basada en las relaciones con otras variables. La forma más fre-
cuente de establecer la validez de las interpretaciones es mostrar cómo las pun-
tuaciones de una medida dada se relacionan tanto con rasgos similares como,
también, con rasgos diferentes. Existen varias formas para poder hacerlo.
Cuando las puntuaciones de una prueba se relacionan fuertemente con las pun-
tuaciones de otra medida del mismo rasgo, tenemos lo que se denomina validez
convergente. La validez discriminante existe cuando las puntuaciones no se rela-
cionan en gran medida con las puntuaciones de una prueba que mide algo dife-
rente. De esta manera, podríamos esperar que las puntuaciones de una medida de
autoestima se correspondieran totalmente con otras medidas de autoestima y
mostraran menos correlación, sin embargo, con otros rasgos diferentes como por
ejemplo, ansiedad y comportamiento académico. En muchos artículos de inves-
tigación, este tipo de validez se denominará «validez de constructo».
Otra aproximación al acopio de evidencia basada en las relaciones con otras
variables corresponde al grado en que las puntuaciones o medidas del test predi-
cen la actuación sobre una medida de criterio (relaciones test-criterio). Se recurre
a dos recomendaciones para obtener una validez test-criterio: predictiva y concu-
rrente. Con la validez predictiva, el criterio se mide a la vez en el futuro, después
de que se haya administrado la prueba. La evidencia vincula cómo la medida ini-
cial puede predecir el criterio de conducta o su ejecución. Por ejemplo, en la reco-
gida de evidencia sobre una nueva medida para seleccionar aspirantes para puestos
de dirección, las puntuaciones de la prueba se relacionarían con el comportamien-
to de liderazgo futuro. Si las personas que puntuaron bajo en el test resultaron
ser malos directivos y los que puntuaron alto fueron buenos directivos, podría
146
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 219
obtenerse validez predictiva de test-criterio. Con la validez concurrente, la prueba

y el criterio se alcanzan, más o menos, al mismo tiempo. La validez referida al cri-
terio, a menudo, se documenta en la investigación con la indicación de que una me-
dida se relaciona con un criterio que asegura la misma cosa. Por ejemplo, en el
extracto 6.1, a partir de un estudio publicado sobre el comportamiento social de un
estudiante en la clase, los investigadores presentaron un acuerdo entre las percep-
ciones de los observadores y profesores sobre comportamientos sociales.
La validez es claramente el aspecto individual más importante de una prueba
y de los hallazgos que se obtienen de los datos. La calidad de la validez de los
hallazgos juzgada por los usuarios varía mucho en la investigación educativa. Si
se utilizan los tests estandarizados se producirá una evidencia alterada, mientras
los cuestionarios desarrollados de forma limitada pueden tener una pequeña va-
lidez sistemática. En cualquier caso, los investigadores rigurosos siempre se pre-
guntan: ¿son apropiadas las conclusiones?, ¿qué validez apoya mi conclusión?
Los componentes del test de validez se resumen en la tabla 6.1.
EXTRACTO 6.1
VALIDEZ BASADA EN LAS RELACIONES CON OTRAS VARIABLES
La medida de cooperación del estudiante en el cuestionario del profesor mostró una

significativa correlación positiva ... con la medida de observación del comportamiento co-
laborador y del comportamiento amistoso ... El test sobre desorganización del estudian-
te puntuó de forma negativa cuando se putuó el comportamiento deportivo y amistoso
... la colaboración entre estudiantes y ... la sociabilidad espontánea.
Fuente: Slavin, R. E. (1979), «Effects of biracial leranings teamson cross-racial friendships», Journal of Educationa
Psychology, 71. Reimpreso con permiso del autor.
Efecto de la validez sobre la investigación. Debido a que la validez implica una in-
terpretación apropiada y la utilización de la información recogida a través de la me-
dición, es necesario tanto para usuarios como para investigadores de la investigación
juzgar el grado de validez que se presenta, basado en la evidencia disponible. En es-
te sentido, la validez es una cuestión de grado y no un planteamiento de todo o na-
da. Los investigadores deberían mostrar que las deducciones y conclusiones
específicas de sus estudios poseen una evidencia para la que existe validez. Los usua-
rios necesitan tomar la misma decisión basada en su empleo de los resultados. ¿Se
sugiere que la validez debe establecerse para cada situación de investigación y cada
empleo posible? Tal requerimiento añadiría una considerable cantidad de recogida de
datos y de análisis a cada estudio y, por lo tanto, lo haría irrealizable. En la práctica,
es necesario generalizar a partir de otros estudios y de otras investigaciones cuya
147
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 220
TABLA 6.1: COMPONENTES DE LA VALIDEZ DEL TEST

Componente Descripción Prueba
Evidencia basada en el Grado en el que los ítems o Examinar la relación entre el
contenido. cuestiones representan un contenido de los ítems y el
amplio dominio. contenido del dominio.
Evidencia basada en los Si los pensamientos y los Examinar las explicaciones
procesos de respuesta. procesos de respuesta son del encuestado y los
acordescon la interpretación patrones de respuesta.
deseada.
Evidencia basada en la Grado en el que los ítems Correlacionar ítems de
estructura interna. miden el mismo rasgo medida del mismo rasgo.
relacionado.
Evidencia basada en las Si la medida se relaciona con Correlacionar la medida con
relaciones con otras variables similares o otras medidas del mismo
variables. predichas y no se relaciona rasgo y con medidas de
con variables diferentes. rasgos diferentes.
interpretación y empleo resulten válidos. Esta es una razón por la que las pruebas es-
tablecidas, para las cuales cualquier evidencia de validez debe ser probablemente acu-
mulada, por lo general, proporcionan medidas más fiables. De otra manera, sería un
error asumir que sólo porque una prueba está establecida, sus resultados son válidos.
Las pruebas diseñadas de forma limitada, sin historia de uso o revisiones efec-
tuadas por otros, necesitan evaluarse con más cuidado. Cuando los investigado-
res desarrollan un nuevo procedimiento, es muy importante reunir una evidencia
apropiada para la validez y, luego, presentar esta evidencia en el estudio.
Si se utiliza una prueba preparada o establecida de forma limitada, lo mejor
es reunir una evidencia para la validez antes de que se recojan los datos para el
estudio. Esta es la principal razón para un test piloto de cualquier prueba y de las
técnicas para administrarla. El investigador debería ser consecuente con el em-
pleo de los resultados. Por ejemplo, si empleará los resultados para determinar
qué estudiantes poseen los conocimientos básicos, es necesaria la validez del
contenido. Si está examinando una teoría relacionada con el desarrollo de un es-
tudio cognitivo, se necesita la validez del constructo.
Fiabilidad
La fiabilidad se refiere a la coherencia de la medición, el grado en el que los
resultados son similares sobre formularios diferentes de la misma prueba o de las
circunstancias de la recogida de datos. Otra forma de conceptualizar la fiabilidad
148
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 221
es determinar el grado en que las medidas están libres de error. Si una prueba
tiene un pequeño error, resulta fiable, y si tiene una gran cantidad de errores, es
de poca confianza. Podemos medir el error mediante la estimación de la cohe-
rencia de la valoración de un rasgo.
Piense por un minuto en los tests que ha realizado. ¿Las puntuaciones que recibió
eran exactas o encerraban algún grado de «error» en los resultados? ¿Eran algunos
resultados más exactos que otros? En la medición de rasgos humanos, como rendi-
miento, actitud, personalidad, estado físico o cualquier otro rasgo, casi nunca obten-
drá unos resultados que no posean algún grado de error. Muchos factores contribuyen
a desnaturalizar nuestras medidas. Puede haber preguntas ambiguas, la iluminación
puede ser escasa, algunos sujetos pueden estar enfermos, la estimación de un test de
rendimiento puede ser afortunada o desafortunada, los observadores pueden estar
cansados y así sucesivamente. Lo que esto significa es que, incluso, cuando un ras-
go permanecía constante al realizar dos tests con una semana de diferencia, las pun-
tuaciones podrían no ser exactamente las mismas debido a un error inevitable.
La puntuación obtenida puede considerarse como si tuviéramos dos compo-
nentes, uno verdadero o universo de puntuación, que representa el conocimiento
actual o el nivel de capacidad del individuo, y otro erróneo, fuentes de variabili-
dad no relacionadas con el propósito de la prueba:
puntuación obtenida = universo de puntuación o verdadero + error
En la tabla 6.2 se enumeran las fuentes de error más comunes. Por tanto, el
objetivo de la selección o evaluación de la prueba, es buscar la evidencia de que
el error se ha controlado lo más posible.
TABLA 6.2: FUENTES DE ERROR DE MEDICIÓN

Condiciones de la administración y Circunstancias asociadas a la persona
elaboración del test a la que se aplica el test
Cambios en los límites de tiempo Reacciones a ítems específicos
Cambios en las instrucciones Salud
Pruebas de puntuación diferentes Motivación
Sesión de comprobación interrumpida Humor
Raza del examinador Fatiga
Tiempo disponible para el test Suerte
Ejemplos de ítems Fluctuación en la memoria o atención
Ambigüedad en la redacción Actitudes
Incorrecta interpretación de las Niveles del test
instrucciones Capacidad para la comprensión de
Efectos del calor, luz, ventilación en la sala instrucciones
del test Ansiedad
Diferencias entre los observadores
149
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 222
La cantidad actual de varianza de error en las puntuaciones de los tests, o la

fiabilidad, se determina empíricamente a través de varios tipos de procesos1.
Cada tipo de fiabilidad se relaciona con el control de un tipo determinado de
error y, normalmente, se presenta en forma de coeficiente de fiabilidad. El coe-
ficiente de fiabilidad es una estadística de correlación que compara dos conjun-
tos de puntuaciones a partir de los mismos individuos. La escala del coeficiente
de fiabilidad abarca de .00 a .99. Si el coeficiente es alto, por ejemplo 0.90, las
puntuaciones tienen un error pequeño y son altamente fiables. Lo contrario tam-
bién es cierto para la correlación cercana a .20 o .35. Un rango aceptable de fia-
bilidad para los coeficientes de la mayoría de las pruebas va desde .70 hasta .90.
Los cinco tipos generales de estimación de la fiabilidad son la estabilidad, la
equivalencia, la estabilidad y la equivalencia, la consistencia interna y el acuer-
do (tabla 6.3)2.
La estabilidad. Un coeficiente de estabilidad se obtiene por la correlación de
puntuaciones a partir del mismo test realizado a un grupo de individuos en dos
ocasiones diferentes. Si las respuestas de los individuos son coherentes (esto es,
si aquello que puntuó alto la primera vez, sigue puntuando alto la segunda vez, y
así sucesivamente), entonces, el coeficiente de correlación y la fiabilidad son al-
tos. Este procedimiento test-retest asegura que las características que se han me-
dido permanecen constantes. Los rasgos inestables, como por ejemplo, el humor,
no se espera que tengan coeficientes de estabilidad altos. Además, la estabilidad,
normalmente significa que hay tiempo suficiente entre las medidas (a menudo,
varios meses) para que la coherencia en las puntuaciones no se vea influida por
una memoria o efecto práctico. En general, cuando el espacio de tiempo entre las
mediciones se incrementa, la correlación entre las puntuaciones disminuye.
La equivalencia. Cuando dos formas equivalentes o paralelas de la misma prueba
se administran a un grupo en el mismo momento, y las puntuaciones están rela-
1
La mayoría de procedimientos se basan en la suposición de que habrá suficiente dispersión o am-
plitud en las puntuaciones para calcular los coeficientes de correlación. Algunos tipos de test (como
por ejemplo, los de referencia criterial) no proporcionan mucha variabilidad de puntuación y los indi-
cadores correlacionales tradicionales de fiabilidad pueden resultar inapropiados. Para estos test, los in-
vestigadores examinan los porcentajes de los examinados que se clasifican de la misma forma después
de realizar el test por segunda vez o después de aplicar formatos diferentes del mismo test; o el por-
centaje de respuestas que son iguales en momentos diferentes, además del coeficiente de correlación.
La presentación de la fiabilidad en este capítulo se enfocará desde los procedimientos correlacionales
tradicionales, debido a que son los únicos que encontrará de forma más frecuente en la bibliografía.
2
De acuerdo con los nuevos Standards for Educational and Psychological Testing estos índi-
ces de fiabilidad tradicionales son casos especiales de una clasificación más general denominada
teoría de la generabilidad. La teoría de la generabilidad tiene la habilidad de combinar varias fuen-
tes de error en una medida de variabilidad única. Y, aunque, normalmente no aparece en la biblio-
grafía, proporciona una indicación más exacta del grado de error.
150
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 223
TABLA 6.3: TIPOS DE FIABILIDAD

Tipo Descripción Procedimiento Ejemplos
habitualesa
Estabilidad Coherencia de las Administrar el mismo Test de aptitud.
características test a los mismos Test IQ.
estables a través del individuos a través
tiempo. del tiempo.
Equivalencia Equiparabilidad de Administrar Test de rendimiento.
dos medidas del formularios diferentes
mismo rango en el a los mismos
mismo momento. individuos al mismo
tiempo.
Equivalencia y Equiparabilidad de Administrar Valoración de los
estabilidad dos medidas del formularios diferentes cambios a través
mismo rango a través a los mismos del tiempo.
del tiempo. individuos a través Valoración de la
del tiempo. personalidad.
Consistencia interna Equiparabilidad por Administrar un test La mayoría de las
(por dos mitades, dos mitades de una y correlacionar los medidas, excepto
K-R, alfa Cronbach) medida para asegurar ítems unos con otros. para test de
un rasgo concreto velocidad.
o dimensión. Cuestionarios de
actitud.
Acuerdo Coherencia de Dos o más personas Observaciones y
valoraciones u valoran u observan. entrevistas.
observaciones.
a
Estos ejemplos no sugieren que otras formas de fiabilidad, además de las indicadas, sean inapro-
piadas (por ejemplo, los test de rendimiento también emplean test-retest de fiabilidad).
cionadas, la fiabilidad resultante es un coeficiente de equivalencia. Aunque cada

forma se hace para cuestiones diferentes, la puntuación de cada individuo sería la
misma en ambas formas. La equivalencia es un tipo de fiabilidad que puede esta-
blecerse cuando el investigador tiene un número relativamente grande de ítems a
partir de los cuales construye formas equivalentes. Las formas alternativas de un
test son necesarias para comprobar, inicialmente, los sujetos ausentes que pueden
aprender sobre los ítems específicos de la primera forma o cuando un profesor tie-
ne dos o más secciones de la misma clase en momentos diferentes.
La equivalencia y la estabilidad. Cuando un investigador necesita hacer un exa-
men preliminar y otro posterior para asegurar un cambio en el comportamiento,
151
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 224
debe establecerse un coeficiente de equivalencia y estabilidad. En este proceso,

los datos de fiabilidad se obtienen mediante la administración, al mismo grupo de
individuos, de una forma de una prueba en un momento dado, y una segunda for-
ma un tiempo después. Si una prueba tiene este tipo de fiabilidad, el investigador
puede estar seguro de que un cambio en las puntuaciones a través del tiempo, re-
fleja una diferencia vigente en el rasgo que se mide. Este es el tipo de fiabilidad
más rígido y resulta especialmente útil para estudios que incluyen puntuaciones
de ganancia o mejora.
La consistencia interna. La consistencia interna es el tipo de fiabilidad más
frecuente desde que puede estimarse a partir de la entrega, única, de una forma
de un test. Existen tres tipos comunes de consistencia interna: por dos mitades,
Kuder-Richardson, y el método alfa de Cronbach. En la fiabilidad por dos mi-
tades, los ítems de un test que se han administrado a un grupo se dividen en dos
mitades comparables, y el coeficiente de correlación se calcula entre las mitades.
Si cada estudiante tiene aproximadamente la misma posición en su relación con
el grupo en cada mitad, entonces, la correlación es alta y el instrumento es alta-
mente fiable. Cada mitad del test debería tener una dificultad similar. Este mé-
todo proporciona una fiabilidad más baja que otros métodos, ya que el número
total en la ecuación de correlación contiene sólo la mitad de los ítems (y sabe-
mos que todo lo demás es igual, los test más largos son más fiables que los cor-
tos). (La fórmula Spearman-Brown se utiliza para incrementar las fiabilidades
entre dos mitades para estimar cuál sería la correlación para un test completo).
Las técnicas de consistencia interna no deberían utilizarse con tests rápidos. Esto
se debe a que los estudiantes no contestan todos los ítems, un factor que tiende a
incrementar falsamente la correlación de los ítems.
Un segundo método para la investigación del grado de consistencia interna es
emplear la fórmula Kuder-Richardson (K-R) para correlacionar todos los ítems
de un test único, unos con otros, cuando cada ítem puntúa correcta o incorrecta-
mente. La fiabilidad K-R de hecho, se determina a partir de la única administra-
ción de una prueba, pero sin la necesidad de dividirla en dos mitades equivalentes.
Este procedimiento asegura que todos los ítems de una prueba son equivalentes
unos con otros, y que es apropiado cuando el propósito del test es medir un único
rasgo. Si un test posee ítems de varias dificultades o si mide más de un rasgo, la
estimación K-R normalmente será menor que la fiabilidad por dos mitades.
El alfa Cronbach también supone la equivalencia de todos los ítems. Es una
forma de consistencia interna mucho más general que la K-R, y se utiliza para
ítems que no han puntuado correcta o incorrectamente. El alfa Cronbach nor-
malmente es el tipo de fiabilidad más apropiado para investigación de estudio y
otros cuestionarios en los que hay un rango de posibles respuestas para cada ítem.
El acuerdo. El quinto tipo de fiabilidad se expresa como un coeficiente de
acuerdo. Se establece determinando el grado en el que dos o más personas están
152
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 225
de acuerdo sobre lo que han visto, escuchado o evaluado. Esto es, cuando dos o
más observadores o evaluadores observan o evalúan independientemente algún
aspecto concreto, ¿estarán de acuerdo entre sí sobre lo que han observado o eva-
luado? Si es así, entonces, existe algo de consistencia en la medida. Este tipo de
fiabilidad se emplea, normalmente, para investigación observacional y en estu-
dios basados en comportamientos en los que los juicios profesionales se hacen
sobre el comportamiento del estudiante. Se presentará como fiabilidad inter-ra-
ter o acuerdo tanteador y se expresará como un coeficiente de correlación o co-
mo un porcentaje de acuerdo. Sin embargo, este tipo de análisis no indica nada
sobre la consistencia de comportamiento o conducta en momentos diferentes
(irónicamente, las estimaciones de consistencia interna no las hace cualquiera).
Esto significa que es un medio para obtener un acuerdo inter-rater alto, que es re-
lativamente sencillo de hacer, y además para obtener datos que muestren que el
rasgo o comportamiento es consistente a través del tiempo.
Hemos resumido estos cinco tipos de fiabilidad mostrados en la tabla 6.4 de
acuerdo a las diferentes formas en las que se suministra un instrumento.
Interpretación de coeficientes de fiabilidad. Deben considerarse varios facto-
res en la interpretación de los coeficientes de fiabilidad:
1. Cuanto más heterogéneo sea un grupo en lo referente al rasgo que se mi-
de, más aumentará la fiabilidad.
2. Cuantos más ítems posea una prueba, más aumentará la fiabilidad.
3. Cuanto mayor sea el rango de puntuaciones, más aumentará la fiabilidad.
TABLA 6.4: PROCEDIMIENTOS PARA LA ESTIMACIÓN DE LA EIABILIDADa

Tiempo 1 Tiempo 2
Estabilidad A A
Equivalencia A B
Estabilidad y equivalencia A B
Consistencia interna A
Acuerdo R1 R2
a
A y B se refieren a diferentes formas del mismo test; R1 y R2 se refieren al evaluador 1 y eva-
luador 2, sin embargo, pueden usarse más de dos evaluadores u observadores con el acuerdo.
Fuente: Adaptación de McMillan, J. H. (2000), Educational Research: Fundamentals for the

Consumer (3.ª ed.), New York: Longman.
4. Los test de rendimiento con un nivel medio de dificultad tendrán una fia-
bilidad más alta que cualquier otro test más fácil o más difícil.
153
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 226
5. La fiabilidad, al igual que la validez, cuando se basan en un grupo mati-

nal, se demuestra sólo para sujetos con características similares a los del
grupo matinal.
6. Mientras más discriminen los ítems entre las personas con mucho éxito,
mayor será la fiabilidad.
Los investigadores, a menudo, preguntan cómo una correlación alta podría in-
dicar una fiabilidad satisfactoria. Esta pregunta no tiene una respuesta sencilla.
Depende del tipo de prueba (los cuestionarios de personalidad, generalmente, tie-
nen una fiabilidad menor que los tests de rendimiento), del propósito del estudio
(si es investigación exploratoria o investigación que conduce a decisiones im-
portantes), y si los resultados afectan a los individuos o grupos (ya que la acción
que afecta a los individuos requiere más correlación que la acción que afecta a
los grupos). Sin embargo, una acertada regla general es tener cuidado con fiabi-
lidades por debajo de .70.
Efecto de la fiabilidad en la investigación. Al igual que sucede con la validez,
la fiabilidad de las puntuaciones debería establecerse antes de que el investiga-
dor aborde la investigación, y el tipo de fiabilidad debería ser consistente con el
uso de los resultados. Si va a utilizar los resultados para selección o predicción
en programas especiales, se necesitan estimaciones estables de fiabilidad. Si es-
tá interesado en programas para modificar actitudes o valores, se necesitan esti-
maciones de equivalencia. La fiabilidad también debe establecerse con
individuos que sean parecidos a los sujetos de la investigación. Si los estudios
previos presentan una elevada fiabilidad con alumnos de secundaria y se preten-
de emplear los resultados con alumnos de primaria, la fiabilidad puede no ser
adecuada. Más comúnmente, la fiabilidad se presenta con los alumnos utilizados
en el estudio. Un fallo en la presentación de la fiabilidad sería causa de interpre-
tar los resultados con precaución; sin embargo, hay algunas medidas sencillas pa-
ra las que los coeficientes de fiabilidad no son necesarios (ver a continuación).
Leerá alguna investigación en la que la fiabilidad no esté consignada, pero los
resultados de la investigación muestran lo que se llama «diferencias significati-
vas». Esta es una situación interesante en investigación, debido a que es más di-
fícil encontrar diferencias entre grupos mediante las pruebas de las que se
obtienen puntuaciones que tienen una fiabilidad baja. Es como si las diferencias
se observaran a pesar de que tienen una fiabilidad baja. Por supuesto, es posible
que la medición fuese fiable, aunque no se presentaran estimaciones fiables. Esta
situación es más probable que ocurra en investigaciones en la que los sujetos res-
ponden a cuestiones tan sinceras y simples que la fiabilidad se «da por supues-
ta». Por ejemplo, en los estudios de las percepciones sobre éxito o fracaso de los
estudiantes, a los sujetos se les pidió que indicaran sobre una escala de 1 a 10 (1
grado más alto de fracaso y 10 grados más altos de éxito) sus sensaciones de éxi-
to o fracaso. En muchas investigaciones, los sujetos presentan información como
154
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 227
por ejemplo, edad, sexo, ingresos, tiempo empleado en estudiar, profesión, y

otras cuestiones relativamente sencillas. Para estos tipos de datos, normalmente,
no se necesitan estimaciones estadísticas de la fiabilidad.
La fiabilidad es una función de la naturaleza del rasgo que se mide. Algunas
variables, como por ejemplo, la mayoría de las medidas de rendimiento, propor-
cionan puntuaciones altamente fiables, mientras que las puntuaciones de medidas
de personalidad tienen fiabilidades menores. Consecuentemente, para la medición
de rasgos de personalidad una fiabilidad de .70 puede ser aceptable. Entonces, en
comparación, una prueba de personalidad que presenta un coeficiente de perso-
nalidad de .90 sería considerada con una fiabilidad excelente, y un test de rendi-
miento con una fiabilidad de .70 se vería como poco fiable. Necesitamos una
fiabilidad mucho más fuerte si los resultados van a usarse para tomar decisiones
sobre los individuos. Los estudios de grupos pueden tolerar una fiabilidad menor,
algunas veces tan bajas como .50 en investigación exploratoria. Las medidas so-
bre niños pequeños, normalmente, son menos fiables que aquéllas sobre sujetos
con más edad.
Para incrementar la fiabilidad, lo mejor es establecer condiciones estándar de
recogida de datos. Se deberían dar las mismas instrucciones a todos los sujetos,
deberían tener el mismo tiempo para contestar las preguntas y a la misma hora
del día, y así sucesivamente. Normalmente se incrementa el error si la prueba la
administran diferentes personas. Es importante conocer si tiene lugar alguna cir-
cunstancia extraordinaria durante la recogida de datos, ya que puede afectar a la
fiabilidad. Para ser fiables, las pruebas tienen que ser apropiadas al nivel de len-
guaje y lectura, y debe motivarse correctamente a los sujetos para que contesten
a las preguntas. En alguna investigación, es difícil encontrar sujetos que sean
sinceros, por ejemplo, cuando se les pide a los estudiantes que hagan test de ren-
dimiento en los que no se sienten implicados. La fiabilidad también puede sufrir
cuando se solicita a los sujetos que completen varias pruebas muy largas. Una
hora es más o menos lo que cualquiera de nosotros puede soportar, y para los ni-
ños más pequeños el máximo es menos de media hora. Si se dan varias pruebas
al mismo tiempo, el orden en que se administran no debería ser el mismo para to-
dos los sujetos. Algunos sujetos contestarían una prueba primero y otros sujetos
contestarían la misma prueba al final. Esto se denomina contrabalancear las
pruebas. Si se dan varias pruebas y no hay contrabalanceo, los resultados, espe-
cialmente de las pruebas que se realizan al final, deberían observarse con más
precaución.
Finalmente, la fiabilidad es una condición necesaria para la validez. Esto es,
las puntuaciones no son válidas a no ser que sean fiables. Sin embargo, una me-
dida fiable no es necesariamente válida. Por ejemplo, podemos obtener una me-
dida muy fiable de la longitud de su dedo gordo del pie, ¡pero no será válida
como una estimación de su inteligencia!
155
www.FreeLibros.me
06 Capítulo 06 22/3/10 11:33 Página 228
En el resto de este capítulo consideraremos los métodos de recogida de datos

que se usan más comúnmente en investigación cuantitativa. Incluso, cuando los
principios básicos de la validez y la fiabilidad aplicados a los cinco tipos de re-
cogida de datos, hay que darse cuenta de que cada técnica de recogida de datos
posee características únicas que afectan a la forma en que se establece la validez
y la fiabilidad.
PRUEBAS DE LÁPIZ Y PAPEL

El término «prueba de lápiz y papel» significa que se presenta una batería es-
tándar de preguntas por escrito a cada sujeto (en papel u ordenador) que requie-
re la realización de tareas cognitivas. Las respuestas o contestaciones se resumen
para obtener un valor numérico que representa una característica del sujeto. La
tarea cognitiva puede enfocarse sobre lo que la persona conoce (logro), es capaz
de aprender (capacidad o aptitud), elecciones o selecciones (intereses, actitudes
o valores), o es capaz de hacer (habilidades). En este capítulo, se resumen bre-
vemente los diferentes tipos de tests y sus usos en la investigación, pero es pre-
ciso destacar que todos los tests miden comportamientos actuales. Los tests
difieren más en su empleo que en su desarrollo o en sus ítems, particularmente,
cuando comparamos tests de aptitud y rendimiento. De hecho, sería más exacto
decir que existen diferentes tipos de deducciones y usos, es lo que usted hace con
los resultados experimentales que crean distinciones como el logro y la aptitud.
Tests estandarizados
Los tests estandarizados proporcionan procedimientos uniformes para la ad-
ministración y puntuación de la prueba. Cada vez que se aplica el test, se pide que
se realicen las mismas cuestiones, con un conjunto de instrucciones que especifi-
can como debe administrarse el test. Esto incluiría información sobre las aptitudes
de la persona que administra el test y las condiciones en las que debe administrar-
se, como por ejemplo: el tiempo permitido, materiales que pueden usarse por los
sujetos, y si pueden aclararse cuestiones sobre el test durante su realización.
Normalmente, la puntuación de las respuestas es objetiva, y la mayoría, pero no to-
dos los tests estandarizados se realizan en grupos matinales. El grupo tipo, como
se denomina, permite la comparación de una puntuación con la realización de un
grupo definido de individuos. Esto proporciona información importante y valiosa,
pero el investigador deber tener cuidado al interpretar las puntuaciones referidas a
normas (ver sección a continuación: pruebas con referencia a criterio y a normas).
La mayoría de los tests estandarizados se preparan comercialmente por expertos
en medición. Esto significa que se prestará una atención especial a la naturaleza de
156
www.FreeLibros.me

Dialnet ConductasProsocialesEnElBarrioLosPinosDeLaCiudadDe 3179934

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Dialnet ConductasProsocialesEnElBarrioLosPinosDeLaCiudadDe 3179934

Enviado por

Direitos autorais:

Formatos disponíveis

CONSTRUCCIÓN DE

Universidad Privada Antonio Guillermo Urrelo

1. Psicometría: historia y conceptos básicos Astrillón, D. A. (2005) 3

3. Construcción de una prueba Rodas (S/F) 32

4. Redacción de reactivos Pérez, E. y Tornimbeni, S. 50

5. Redacción de reactivos para escalas de García, J. Aguilera Terrats, 54

6. Revisión por jueces Lozano, L.M. y Turbany, J. 68

7. Análisis de reactivos Leal, R. (S/F) 73

8. Confiabilidad Barraza, A. (2007) 78

9. Confiabilidad Quero, M. (2010) 84

10. Baremación Olaz, F. y Tornimbeni, S. 91

11. Visualización de resultados APA (2010) 92

12. Principios de psicometría Mcmillan, J.H., 104

Además, los desarrollos que ha venido experimentando la teoría psicométrica se debe

El propósito de desarrollar un compendio de lecturas sobre temas relacionados con la

Buena suerte en esta aventura de formación psicométrica.

Rafael Leal Zavala

Astrillón, D.A. (2003) Psicometría: historia y conceptos básicos para la

DECANA DE LA ESCUELA DE CIENCIAS SOCIALES

DIRECTOR FACULTAD DE PSICOLOGÍA

Diego Alonso Castrillón Moreno*

papel importante a la hora de determinar si su aparición en esta guerra, se aplicaron los

minimizando la creatividad y la sana diferencias observadas en grupos raciales han

ELEMENTOS NECESARIOS A LA HORA la influencia que ejercen las otras variables

validez convergente y discriminante que no El cuarto aspecto es la baremación o medidas

Se espera que la investigación, aplicación e Neuropsicología de la Universidad de San

Pérez, E. (2008). Clasificación de los tests. En: S. Tornimbeni, E. Pérez y F. Olaz

Los autores ...................................................................................... 9

1. Problemática de la medición psicológica................................... 19

© 2008 de todas las ediciones 2. Clasificación de los tests............................................................ 39

Queda hecho el depósito que previene la ley 11.723 Segunda Parte

Impreso en Primera Clase, California 1231, Ciudad de Buenos Aires Introducción..................................................................................... 69

En la literatura psicométrica encontramos diversas taxono-

aprendizaje, la matemática, la computación, la escritura, las

truyó el Inventario de Autoeficacia para Inteligencias Múltiples

actividades asociadas con las ocho inteligencias múltiples pro-

das por análisis factorial (Lingüística, por ejemplo) y 64 ítems

prueba debe responder utilizando un formato de 10 alternati-

cacional Informatizado (Fogliatto y Pérez, 2003) y se ha obteni-

respecto de criterios de rendimiento académico y metas de elec-

toestima, o autovaloración, que la persona realiza acerca de sí

misma. La autoeficacia es una dimensión específica y cognitiva

bal y valorativa del mismo. En efecto, uno puede valorarse mu-

realizar una actividad específica (autoeficacia disminuida en

algún dominio) y viceversa. En nuestro medio, Grasso (1984)

Este instrumento comprende 15 ítems cuidadosamente elabo-

rados (“Ahora ya no sirvo para nada”, por ejemplo) que se res-

ponden utilizando una escala likert de cuatro posiciones (“Muy

de acuerdo”, “De acuerdo”, “En desacuerdo”, “Muy en desacuer-

do”). Una validación preliminar de la escala demostró que sus

puntuaciones permiten discriminar entre una muestra de an-

Fuente: Rodas (S/F). Procedimiento de construcción de una prueba o test.

Los pasos suelen completarse en el orden anterior. No obstante, la elaboración de tests es un

5.2.- Identificación del objetivo para el que se utilizarán las puntuaciones.

5.3.- Definición del constructo

5.4.- Descripción general de los componentes del constructo

Figura 5.1.- Diagrama explicativo del proceso de derivación de los objetivos

5.5.- Diseño del test.

* Número de ítems de cada especificación del test

5.5.1. Número de ítems

Dado que el tiempo de realización de la prueba en su conjunto es algo a decidir previamente en

5.5.2.- Tipo de ítems y número de alternativas de respuesta

1.-Verdadero y Falso. Tienen el inconveniente de ser respuestas excesivamente contundentes o